CN107018668B

CN107018668B - 一种针对东亚人群全基因组范围内的非编码区的SNPs的DNA芯片

Info

Publication number: CN107018668B
Application number: CN201680000526.7A
Authority: CN
Inventors: 陈小伟; 陈润生
Original assignee: Institute of Biophysics of CAS
Current assignee: Institute of Biophysics of CAS
Priority date: 2016-01-12
Filing date: 2016-01-12
Publication date: 2018-07-10
Anticipated expiration: 2036-01-12
Also published as: CN107018668A; WO2017120750A1

Abstract

一种针对东亚人群全基因组范围内的非编码区的SNPs的DNA芯片，特别是一种针对东亚人群全基因组范围内的长链非编码基因区域和miRNA基因区域的SNPs的DNA芯片。针对东亚人群全基因组范围内的非编码区的SNPs的DNA芯片，是固定有特异探针的DNA芯片；所述特异探针为用于检测表1中3568个SNP的探针，3568个SNP的信息见表1的第一列和第二列。该芯片对于人类长链非编码基因区域中的SNP位点检测具有重大的应用价值，对于遗传性疾病的风险评估以及个性化治疗具有重大的应用前景。

Description

一种针对东亚人群全基因组范围内的非编码区的SNPs的DNA 芯片

技术领域

本发明涉及分子生物学、功能基因组学、生物信息学和分子诊断领域，更具体涉及一种针对东亚人群全基因组范围内的非编码区的SNPs的DNA芯片。

背景技术

尽管人类基因组已经完成测序，但是蕴含在其中的大量的功能元件仍然未知。根据ENCODE计划最新公布的数据，人类基因组74.7％的区域能够转录，而编码蛋白质的基因的外显子区只占人类基因组的2.94％。人类基因组上绝大多数的蛋白质编码基因已经被鉴定并注释，这就预示着人类基因组上还有大量的非编码基因有待于发现。

在人类基因组草图刚发布时，就有研究人员根据人类基因组的序列设计tilingarray(覆瓦芯片)来检测基因组上具有转录活性的区域，在人类的21号和22号染色体上发现了大量能够转录但是产物未知的基因区域。在基因组上发现长链非编码基因的另一种方法是借助染色质中组蛋白上的修饰。Guttman等人在小鼠的基因组上找到了大约5000个K4-K36区域，这些区域转录出来的都是长链非编码RNA，由于这些区域都位于蛋白质编码基因的基因间区，因此称转录出来的长链非编码RNA为lincRNA(large intergenic noncodingRNAs)。后来Khalil等人在人的基因组上得到了类似的结果。2010年Guttman等人利用RNA-seq技术在小鼠中发现了大量的长链非编码RNA，并且发现这些长链非编码RNA有类似于蛋白质编码基因的多外显子基因结构。在随后的一年，Cabili等人用同样的方法在人的细胞中发现8000多条长链非编码RNA，并且整合了多种数据对这些长链非编码RNA的特征进行了刻画。GENCODE计划利用RNA-seq的方法在不同的人体组织和细胞中发现了大量的长链非编码RNA，从第七版开始发布长链非编码RNA的注释，到目前为止已更新到第23版，共发布了27817条长链非编码RNA序列。NONCODE数据库是最早收集非编码RNA序列的数据库，目前已经更新至第四版，是非编码领域最权威的数据库。从第三版开始，NONCODE数据库开始收集长链非编码RNA序列。

单核苷酸多态性(SNP)是一种广泛存在的基因组变异方式。SNP是指某个人群中的正常个体中，在基因组DNA的单个碱基对位置上存在不同的碱基的情况。在SNP位点出现的碱基中，出现次数最少的称为最小等位，其频率称为最小等位频率(MAF)。通常认为SNP的出现是由基因组DNA的突变引起的。人的基因组DNA有30亿个碱基对，在同一个位置发生两次甚至三次突变的可能性极低，因此，SNP位点通常都是二态(有两个等位)。人类基因组DNA中平均每67个碱基就有1个SNP位点。但是这些SNP位点在基因组上并不是均匀分布，编码蛋白质的外显子区的SNP位点密度比其他区域低。根据基因组中位置，SNP可以分为基因编码区SNP、基因非编码区SNP和基因间区SNP。蛋白质编码区的SNP位点又分为两种类型：同义和非同义。由于密码子的兼并性，同义SNP不改变蛋白质序列，而非同义SNP能够改变蛋白质序列。非同义SNP又分为错义和无义。不在蛋白质编码区的SNP虽然不会改变蛋白质的序列，但是可能通过其他的方式影响基因的表达，例如位于启动子区的SNP位点可能影响转录因子的结合，从而影响基因的转录。

SNP是继第一代分子标记RFLP、第二代分子标记微卫星后的第三代分子标记，普遍用于基于DNA芯片技术的分子标记技术。HapMap计划和千人基因组计划发现了大量的SNP位点和在特定单体型内具有代表性的tagSNP位点。到目前为止，dbSNP数据库已经收录了人的五千多万个已经证实的SNP位点。基于DNA芯片技术的分子标记技术的原理是首先在全基因组范围内对tagSNP位点设计等位特异的寡核苷酸探针，固定在芯片上，然后将要检测的DNA样品与芯片杂交，再对芯片进行扫描获取SNP位点的基因型。基于DNA芯片技术的分子标记技术最主要的应用是全基因组关联分析(Genome-wide Association Studies,GWASs)，GWAS通常的研究策略是：case-control策略，就是通过比较患有疾病的人群(case)和正常人群(control)的遗传变异发现疾病的易感位点。通过SNP芯片可以从每个人的DNA样本中得到上百万的遗传学变异的基因型。如果一种类型的变异(一个等位基因)在病人中发生的比较频繁，那么这个SNP则被称为与此种疾病相关。这些与疾病相关的SNPs用以标记人基因组中可能影响疾病发生风险的区域。与只对一个或多个基因区的遗传变异进行检验的方法相比，GWAS研究的对象是整个基因组。因此，与针对特定基因组区域的研究不同，GWAS针对整个基因组，不需要事先选定候选基因组区域。GWAS能够发现与疾病相关的易感位点中的SNPs和其它变异，但不能仅凭相关性来确定具体的致病基因。

美国Affymetrix公司是基因芯片产业先行者，早在1989年就研制出了世界首张基因芯片。其开发的寡核苷酸原位光刻合成专利技术(light-controlled in situsynthesis of DNA microarrays)，是目前最高密度的芯片制备技术。AffymetrixGeneChip芯片系统的硬件平台由高度自动化的流体工作站、高通量芯片扫描仪，和相关探针序列描述和注释数据库等组成。高度自动化的处理减少手工操作时间，提高了数据重复性。Affymetrix芯片采用原位光刻技术和严格的流程控制合成高密度基因芯片，可以在每平方厘米基片上合成超过400万的探针。Affymetrix芯片采用独特的PM-MM探针设计方式，即针对每段参考序列设计一对25-mer探针，其中一个是完全匹配(perfect match,PM)探针，另一个是靠近序列中间的错误位点匹配(mismatch,MM)探针。检测时将每对PM-MM探针的检测信号综合起来，这样有助于区分特异性结合与非特异性结合的靶片段，从而提高探针灵敏度和特异性。这种PM-MM设计对于在复杂序列背景样品中低丰度表达产物的检测中有明显优势。同时，使用多个探针来检测SNP，有效减少了探针杂交非专一性的影响，并通过合适的算法获得更为有力的数据。

发明公开

本发明的目的是提供一种针对东亚人群全基因组范围内的非编码区的SNPs的DNA芯片，特别是一种针对东亚人群全基因组范围内的长链非编码基因区域和miRNA基因区域的SNPs的DNA芯片。

本发明提供的针对东亚人群全基因组范围内的非编码区的SNPs的DNA芯片，是固定有特异探针的DNA芯片；所述特异探针为用于检测表1中3568个SNP的探针(3568个SNP的信息见表1的第一列和第二列)。

所述特异探针具体可由如下4119条探针组成：序列表的序列1所示的单链DNA分子至序列表的序列4119所示的单链DNA分子。

实施发明的最佳方式

以下的实施例便于更好地理解本发明，但并不限定本发明。下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的试验材料，如无特殊说明，均为自常规生化试剂商店购买得到的。

实施例1、SNPs的筛选

长链非编码基因区域的定义是基于申请人自主开发的非编码RNA数据库(Xie等，NONCODEv4:exploring the world of long non-coding RNA genes.Nucleic AcidsRes.2014,42:D98-D103.http://www.noncode.org/)。NONCODE数据库从大约10年前开始专门收录各个物种的非编码RNA(除了rRNA和tRNA)，到目前为止，已经更新至第四版本，其中包含人类的最新的54072个长链非编码基因。本发明的发明人又收集的了GENCODE计划(Harrow等，GENCODE:the reference human genome annotation for The ENCODEProject.Genome Research.2012.22:1760-74.http://www.gencodegenes.org/)发布的最新的人类长链非编码RNA数据和Human lincRNA catalog数据集(Cabili等，Integrativeannotation of human large intergenic noncoding RNAs reveals global propertiesand specific subclasses.2011.Genes Dev 25:1915-27)。基于上述数据，共获得了26977个长链非编码基因区域。

miRNA基因区域的定义基于NONCODE数据库中收录的人的1877个miRNA前体序列，这些序列也收录在miRBase数据库(Kozomara等，miRBase:annotating high confidencemicroRNAs using deep sequencing data.Nucleic Acids Res.2014.42:D68-D73)。

SNP位点及基因型数据从千人基因组计划最新发布的数据中获取，只考虑东亚人群中的常见SNP位点的基因型数据。将所有的SNP位点按照非编码基因区域分组，然后计算每一组内的所有SNP位点之间的r2值，筛选出具有代表性的SNP位点，称为tagSNP。共筛选出东亚人群特有的位于非编码基因区的3568个tag SNP位点。

实施例2、芯片的制备

3568个tag SNP位点的信息以及检测该SNP位点的探针信息见表1。

表1

注：探针均为单链DNA分子。

由Affymetrix公司将用于检测上述各个SNP位点的探针(即序列表的序列1至序列4119所示的各个单链DNA分子)分别固定在基片上，得到针对东亚人群全基因组范围内的非编码区的SNPs的DNA芯片(Axiom阵列板)。

实施例3、芯片的应用

采用实施例2制备的针对东亚人群全基因组范围内的非编码区的SNPs的DNA芯片对待测志愿者进行检测，具体方法如下：

1、采血，提取基因组DNA。

2、取约200ng步骤1得到的基因组DNA，采用试剂盒(Axiom 2.0Reagent Kit；Affymetrix公司产品，货号为901758)并按试剂盒说明书操作，与实施例2提供的针对东亚人群全基因组范围内的非编码区的SNPs的DNA芯片杂交，然后在GeneTitan多通道仪器上成像检测(A/T用一种颜色标记,G/C用另一种颜色标记)，得到待测志愿者基于各个SNP位点的基因型。

部分结果见表2。

表2

工业应用

目前用于GWAS的SNP芯片主要关注与蛋白质编码基因相关的SNP位点，包括位于蛋白质编码基因外显子区和转录调控区域的SNP位点，国际上还没有针对全基因组范围内非编码基因，特别是长链非编码RNA的编码基因的SNP芯片，而长链非编码RNA与疾病的关系已经得到越来越多的证实。

本发明提供的针对东亚人群全基因组范围内的非编码区的SNPs的DNA芯片，包含从26977个长链非编码基因区域和1877个miRNA基因区域中筛选出来的3568个SNP，这些SNP均为人类非编码基因的转录区中具有代表性的SNP。

本发明对于人类长链非编码基因区域中的SNP位点检测具有重大的应用价值，对于遗传性疾病的风险评估以及个性化治疗具有重大的应用前景。

Claims

1.一种针对东亚人群全基因组范围内的非编码区的SNPs的DNA芯片，是固定有特异探针的DNA芯片；所述特异探针为用于检测如下3568个SNP的探针：

2.如权利要求1所述的DNA芯片，其特征在于：所述特异探针由如下4119条探针组成：序列表的序列1所示的单链DNA分子至序列表的序列4119所示的单链DNA分子。