CN102952877B

CN102952877B - 检测α珠蛋白基因拷贝数的方法和系统

Info

Publication number: CN102952877B
Application number: CN201210277141.9A
Authority: CN
Inventors: 陈仕平; 李剑; 张现东; 甄贺富; 陈彩粉; 张涛; 王俊
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2012-08-06
Filing date: 2012-08-06
Publication date: 2014-09-24
Anticipated expiration: 2032-08-06
Also published as: CN102952877A; WO2014023167A1

Abstract

本发明提供了一种确定核酸样本中α-珠蛋白基因拷贝数的方法和系统。该方法包括：对所述核酸样本进行扩增，以便得到扩增产物；针对所述扩增产物，构建测序文库；对所述测序文库进行测序，以便得到测序结果，所述测序结果由多个测序数据构成；确定所述测序结果中来自于所述α-珠蛋白基因的测序数据；以及基于所述α-珠蛋白基因的测序数据的数目，确定所述核酸样本中α-珠蛋白基因的拷贝数。利用该方法，能够有效确定所述核酸样本中α-珠蛋白基因的拷贝数。

Description

检测α珠蛋白基因拷贝数的方法和系统

技术领域

本发明涉及生物医学领域，具体而言，涉及α-珠蛋白基因拷贝数的方法、引物组合物、标签组合物和系统。

背景技术

地中海贫血（以下简称地贫）是一种常见的溶血性单基因遗传病，多发于中东、中亚、非洲、东南亚和中国南方等地区。导致地贫的分子机理是：珠蛋白基因发生缺陷使其编码的肽链一种或几种合成减少或缺失，致使血红蛋白的组成成分比例失衡，进而导致血红蛋白不稳定。根据缺陷的珠蛋白基因种类不同，地贫主要分为α地贫和β地贫。α地贫大部分是由于α珠蛋白基因发生缺失，部分是由突变所致，其中缺失型占90%以上；β地贫大部分由于β珠蛋白基因发生突变、小的插入或缺失，部分是由大片段缺失或α珠蛋白基因发生重复所致。其中α珠蛋白基因包含2个HBA1基因和2个HBA2基因，其基因拷贝数变异（缺失和重复）不仅会导致α地贫也会导致β地贫，因此检测α珠蛋白基因拷贝数对地贫诊断具有重要意义。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个方面提出了一种能够确定核酸样本中α-珠蛋白基因拷贝数的方法。另一方面提供了一种能够有效实施该方法的确定核酸样本中α-珠蛋白基因拷贝数的系统。

根据本发明的实施例，确定α-珠蛋白基因拷贝数的方法包括以下步骤：对核酸样本进行扩增，以便得到扩增产物；针对扩增产物，构建测序文库；对测序文库进行测序，以便得到测序结果，该测序结果由多个测序数据构成；确定测序结果中来自于α-珠蛋白基因的测序数据；基于α-珠蛋白基因的测序数据的数目，确定核酸样本中α-珠蛋白基因的拷贝数。

根据本发明的一些实施例，上述确定α-珠蛋白基因拷贝数的方法还可以具有下列附加技术特征：

根据本发明的一个实施例，所述核酸样本是从对象的血浆、血清、全血和口腔脱落细胞的至少一种分离的。其中，所述对象为人。由此，可以方便地从生物体获取这些样本，并且能够具体地针对某些疾病采取不同的样本，从而针对某些特殊疾病采取特定的分析手段。

根据本发明的一个实施例，所述α-珠蛋白基因为选自HBA1基因和HBA2基因的至少一种。

根据本发明的一个实施例，使用特异性引物组对所述核酸样本进行扩增，其中，所述特异性引物组包含第一引物和第二引物，所述第一引物具有SEQ ID NO:1所示的核苷酸序列，所述第二引物具有如SEQ ID NO:2所示的核苷酸序列。

根据本发明的一个实施例，所述第一引物和第二引物的至少之一的5’端进一步含有标签序列，所述标签序列为选自SEQ ID NO:5-100的至少之一所示的核苷酸序列。

根据本发明的一个实施例，利用选自Hiseq2000、SOLID、454和单分子测序装置的至少一种进行所述测序。

根据本发明的一个实施例，所述特异性引物组进一步包括第三引物和第四引物，其中，所述第三引物和第四引物对于内参基因是特异性的，并且进一步包括：确定所述测序结果中来自所述内参基因的测序数据。

根据本发明的一个实施例，所述内参基因是FLNB，所述第三引物具有如SEQ ID NO：3所示的核苷酸序列，所述第四引物具有如SEQ ID NO：4所示的核苷酸序列。

根据本发明的一个实施例，所述第三引物和第四引物的至少之一的5’端进一步含有标签序列，所述标签序列为选自SEQ ID NO：5-100的至少之一所示的核苷酸序列。

根据本发明的一个实施例，确定所述测序结果中来自于所述α-珠蛋白基因的测序数据是通过将所述测序结果与参照序列进行比对而得到的。

根据本发明的一个实施例，基于所述α-珠蛋白基因的测序数据的数目，确定所述核酸样本中α-珠蛋白基因的拷贝数进一步包括：对测序结果中来自于α-珠蛋白基因的测序数据进行计数，得到数值H；对测序结果中来自于内参基因的测序数据进行计数，得到数值C；计算所述数值H和C的比值，得到第一参数H/C，并将所述第一参数与第一参照值进行比较；以及基于所述第一参数与所述第一参照值的比例，确定所述核酸样本中α-珠蛋白基因的拷贝数。

根据本发明的一个实施例，所述第一参照值是针对来自已知α-珠蛋白基因拷贝数的个体的核酸样本进行平行实验而得到的第一参数。

根据本发明的一个实施例，所述第一参照值是针对来自正常个体的核酸样本进行平行实验而得到的第一参数。

根据本发明的一个实施例，所述α-珠蛋白基因为HBA1和HBA2，所述测序结果中来自于所述HBA1的测序数据数目为H1，所述测序结果中来自于所述HBA2的测序数据数目为H2，其中，基于所述α-珠蛋白基因的测序数据的数目，确定所述核酸样本中α-珠蛋白基因的拷贝数进一步包括：计算所述数值H2和H1的比值，得到第二参数H2/H1，并将所述第二参数与第二参照值进行比较；以及基于所述第二参数与所述第二参照值的比例，确定所述核酸样本中α-珠蛋白基因的拷贝数。

根据本发明的一个实施例，所述第二参照值是针对来自已知α-珠蛋白基因拷贝数的个体的核酸样本进行平行实验而得到的第二参数。

根据本发明的又一方面，本发明提供了一种引物组合物。根据本发明的实施例，该引物组合物，包含第一引物和第二引物，所述第一引物具有SEQ ID NO:1所示的核苷酸序列，所述第二引物具有如SEQ ID NO:2所示的核苷酸序列。

根据本发明的实施例，前述的第一引物和第二引物的至少之一的5’端进一步含有标签序列，所述标签序列为选自SEQ ID NO：5-100的至少之一所示的核苷酸序列。

根据本发明的一个实施例，本发明的引物组合物进一步包括第三引物和第四引物，其中，所述第三引物具有如SEQ ID NO：3所示的核苷酸序列，所述第四引物具有如SEQ ID NO:4所示的核苷酸序列。

根据本发明的一个实施例，所述第三引物和第四引物的至少之一的5’端进一步含有标签序列，所述序列为选自SEQ ID NO:5-100的至少之一所示的核苷酸序列。

根据本发明的又一方面，本发明提供了上述引物组合物在确定核酸样本中α-珠蛋白基因拷贝数中的用途。

根据本发明的又一方面，本发明提供了一种标签组合物。根据本发明的实施例，该标签组合物由SEQ ID NO:5-100所示的标签构成。

根据本发明的又一方面，本发明提供了一种确定核酸样本中α-珠蛋白基因拷贝数的系统。根据本发明的实施例，其特征在于，包括：扩增装置，所述扩增装置用于对所述核酸样本进行扩增，以便得到扩增产物；文库构建装置，所述文库构建装置与所述扩增装置相连，并且适于针对所述扩增产物，构建测序文库；测序装置，所述测序装置与所述文库构建装置相连，并且适于对所述测序文库进行测序，以便得到测序结果，所述测序结果由多个测序数据构成；分析装置，所述分析装置与所述测序装置相连，并且适于确定所述测序结果中来自于所述α-珠蛋白基因的测序数据；以及基于所述α-珠蛋白基因的测序数据的数目，确定所述核酸样本中α-珠蛋白基因的拷贝数。

根据本发明的一些实施例，用于确定核酸样本中α-珠蛋白基因拷贝数的系统还可以具有下列附加技术特征：

根据本发明的一个实施例，进一步包括核酸样本分离装置，所述核酸样本分离装置适于从对象的血浆、血清、全血和口腔脱落细胞的至少一种分离核酸样本。

根据本发明的一个实施例，所述扩增装置中设置有特异性引物组，其中，所述特异性引物组包含第一引物和第二引物，所述第一引物具有SEQ ID NO:1所示的核苷酸序列，所述第二引物具有如SEQ ID NO:2所示的核苷酸序列。

根据本发明的一个实施例，所述测序装置为选自Hiseq2000、SOLID、454和单分子测序装置的至少一种。

根据本发明的一个实施例，所述特异性引物组进一步包括第三引物和第四引物，其中，所述第三引物和第四引物对于内参基因是特异性的，并且所述分析装置适于确定所述测序结果中来自于所述内参基因的测序数据。

根据本发明的一个实施例，所述内参基因是FLNB，所述第三引物具有如SEQ ID NO:3所示的核苷酸序列，所述第四引物具有如SEQ ID NO:4所示的核苷酸序列。

根据本发明的一个实施例，所述第三引物和第四引物的至少之一的5’端进一步含有标签序列，所述标签序列为选自SEQ ID NO:5-100的至少之一所示的核苷酸序列。

根据本发明的一个实施例，所述分析装置适于通过将所述测序结果与参照序列进行对比而确定所述测序结果中来自于所述α-珠蛋白基因的测序数据。

根据本发明的一个实施例，所述分析装置适于通过下列步骤确定所述核酸样本中α-珠蛋白基因的拷贝数：对测序结果中来自于α-珠蛋白基因的测序数据进行计数，得到数值H；对测序结果中来自内参基因的测序数据进行计数，得到数值C；计算所述数值H和C的比值，得到第一参数H/C，并将所述第一参数与第一参照值进行比较；以及基于所述第一参数与所述第一参照值的比例，确定所述核酸样本中α-珠蛋白基因的拷贝数。

根据本发明的一个实施例，所述α-珠蛋白基因为HBA1和HBA2，所述测序结果中来自所述HBA2的测序数据数目为H2，其中，所述分析装置适于通过下列步骤确定所述核酸样本中α-珠蛋白基因的拷贝数；计算所述数值H2和H1的比值，得到第二参数H2/H1，并将所述第二参数与第二参照值进行比较；以及基于所述第二参数与所述第二参照值的比例，确定所述核酸样本中α-珠蛋白基因的拷贝数。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1：显示了根据本发明一个实施例的α1和α2的共扩区域；

图2：显示了根据本发明一个实施例的HBA1，HBA2引物候选区域的序列；

图3：显示了根据本发明一个实施例的α-珠蛋白基因（HBA）与内参基因(Control)引物扩增效率，其中，左图为HBA扩增曲线及扩增效率，右图为Control扩增曲线及扩增效率；

图4：显示了根据本发明一个实施例的primer index和adaptor index标记后的PCR产物的示意图；

图5：显示了根据本发明一个实施例的测序数据分类流程图；

图6：显示了根据本发明一个实施例的α-珠蛋白基因拷贝数分析流程；

图7：显示了根据本发明一个实施例的1-64号样本的电泳检测结果；

图8：显示了根据本发明一个实施例的结果不符样本进行HBA1和HBA2定量PCR检测的结果；以及

图9：显示了根据本发明一个实施例的结果不符样本进行Anti-3.7和Anti-4.2特异性引物PCR检测的结果。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

根据本发明的一个方面，本发明提出了一种能够有效确定核酸样本中α-珠蛋白基因拷贝数的方法。根据本发明的实施例中确定核酸样本中α-珠蛋白基因拷贝数的方法包括下列步骤：

对所述核酸样本进行扩增，以便得到扩增产物；

根据本发明的实施例，核酸样本的来源是不受限制的。根据本发明的一些实施例，核酸样本可以是从对象的血浆、血清、全血和口腔脱落细胞的至少一种分离的。根据本发明的实施例，对象的来源并不受特别限制。根据本发明的一些具体示例，可采用的对象包括哺乳动物，优选的是人。根据本发明的实施例，核酸样本中的α-珠蛋白基因为选自HBA1基因和HBA2基因的至少一种。

根据本发明的实施例，本发明采用特异性引物组对所述核酸样本进行扩增，其中，所述特异性引物组包含第一引物和第二引物，所述第一引物具有SEQ ID NO：1所示的核苷酸序列，所述第二引物具有如SEQ ID NO：2所示的核苷酸序列。

根据定量PCR相对定量对引物扩增效率的要求，HBA1和HBA2引物的扩增效率要求基本一致；结合HBA1和HBA2高度同源，且都存在序列相似度很高的假基因（ψα1，ψα2）的特点，本发明提供的高保守性的引物组能够特异性地共扩增HBA1和HBA2基因区域。其设计包括以下步骤：

1.1确定HBA1和HBA2引物初级共扩候选区域

把HBA1和HBA2基因的gDNA序列导入MegAlign程序，进行序列比对分析，将其中HBA1和HBA2序列连续相同碱基数在18bp以上的区域作为初级共扩候选区域。

1.2初级引物共扩候选区域序列保守性分析

将dbSNP数据库和hbvar数据库记录的引物共扩候选区域的SNP和突变信息标记在相应引物初级共扩候选区域，筛选其中序列连续18个碱基以上无常见基因突变（<0.1%）的区域为次级共扩候选区域。

1.3次级共扩候选区域序列特异性分析

将α1和α2（在本文中分别指HBA1基因和HBA2基因）的次级共扩候选区域序列及其假基因ψα1，ψα2对应区域的序列导入MegAlign程序，进行序列比对分析，将其中的序列差异碱基位点作为序列特异性候选位点。

1.4特异性引物设计

以序列特异性候选位点为引物的3’末端设计引物，将引物序列进行全基因组比对（blast）分析，除精确比对到α1和α2外，在基因组的其它位置无精确比对的引物为候选引物；对候选引物进行正反配对，将满足正反候选引物对的扩增长度在80-150bp范围内，且其共扩增的α1和α2序列有差异碱基存在的引物对命名为候选引物对。

1.5引物扩增区域涵盖所有已知缺失型

将候选引物对的扩增区域与hbvar数据库记录的所有α缺失突变的缺失区域进行比对，引物扩增区域涵盖所有已知缺失型的引物对为最终选定的引物对。

根据以上引物设计原则，最终选定的引物对为HBA-F和HBA-R（表1）；其共扩的α1和α2区域见图1，如图1所示，最上方线框为α珠蛋白基因序列，其下多条直线为α地贫各种缺失型对应的缺失区域，虚线框内的区域（A1和A2）为各种缺失型涉及HBA1或HBA2基因的共缺失区域，即A1，A2分别为HBA1和HBA2上的共扩增区域；图2显示了HBA1，HBA2引物候选区域的序列，如图2所示，其中HBA1-Q为A1区域序列，HBA2-Q为A2区域序列，框内为两者的差异序列。

表1.HBA、HBA2引物序列

引物	序列（5’-3’，SEQ ID NO：）
		HBA-F	CTGGGTCGAGGGGCGAGA(1)
HBA-R	AGCTGTGCAGAGAAGAGGGTCAGT(2)

根据本发明的实施例，本发明进一步提供内参引物，即第三引物和第四引物。该内参引物对于内参基因是特异性的。根据本发明的一些具体示例，内参基因可选自基因缺失后会有明显临床表型的FLNB（骨发育不全症），第三引物具有如SEQ ID NO:3所示的核苷酸序列，第四引物具有如SEQ ID NO:4所示的核苷酸序列。

选择内参基因要求内参基因的拷贝数恒定，一般常以因发生突变或缺失会导致个体出现明显症状或致死的基因为内参。本发明选择基因缺失后会有明显临床表型的FLNB（骨发育不全症）为内参基因。针对FLNB的序列保守区域，设计一系列PCR产物长度在80-150bp，引物退火温度与HBA-F和HBA-R相同的候选引物对。利用定量PCR模板浓度梯度稀释法对候选引物对和HBA-F/HBA-R的扩增效率进行测定。最终选定与HBA-F/HBA-R扩增效率最接近（如图3）的Control-F/ControlR引物对（如表2）为内参基因扩增引物。

表2内参引物序列

引物	序列（5’-3’，SEQ ID NO：）
		Control-F	AGGGCTCGTCTCGGCCAGA(3)
Control-R	CCAGGTGAAGTTGGGCTCAGC(4)

根据本发明的实施例，本发明提供了特异性的标签序列。根据本发明的一些具体示例，所述第一引物和第二引物的5’端进一步含有标签序列，所述标签序列为选自SEQ ID NO：5-100的至少之一所示的核苷酸序列。根据本发明的一些具体示例，所述第三引物和第四引物的5’端进一步含有标签序列，所述标签序列为选自SEQ ID NO：5-100的至少之一所示的核苷酸序列。

为了提高检测通量，本发明基于引物标签（primer index）标记的DNA分子标签技术，实现对多样本PCR产物的分别标记，在文库构建实验环节中将多个样本混合（pooling）成一个文库；同时结合新一代测序技术的文库标签（adaptor index）技术，使得一次上机测序就能检测数千份样本；最终，每个样本的检测结果可以通过其独特的标签（index）序列找回，从而达到简化实验操作目的。本发明根据表1和表2中设计好的引物序列，结合引物标签设计原理设计并筛选96套引物标签序列（如表3）。

引物标签的设计要求包括：

①引物标签长度为6-8bp；

②每套引物标签及反向互补序列之间至少存在2个碱基差异；

③不出现连续3个碱基的重复；

④不存在ACGACG3连串的碱基；

①AC含量不超过70%；

②出现关键碱基即接头（adaptor）的字符串；

引物标签的使用方法：

将表3中不同引物标签序列与表1和表2中的引物序列的5’端相连接，构成96套标签引物。实验时，通过PCR在每个样本的PCR产物两端同时引入引物标签（primer index）；把多个带有不同引物标签的PCR产物混合在一起，用于构建测序文库。当需要构建多个测序文库时，可通过添加带有不同接头标签（adaptor index），来标记各个测序文库，并得到经引物标签和接头标签双重标记后的测序文库(如图4)。文库构建完毕后，将带有不同接头标签标记的多个测序文库混合在一起同时进行上机测序（不同接头标签标记的测序文库之间的引物标签可以相同）。测序结果出来后，通过对测序结果中接头标签和引物标签序列信息的筛选，可获得每个样本的DNA序列信息。

本发明采用引物标签结合多重PCR扩增策略，在同一个反应体系中同时完成目标基因和内参基因扩增，不仅消除了由DNA起始量差异造成的结果定量不准确的问题，同时又实现了实验操作的简便性。

为保证PCR产物接近起始DNA中待测基因和内参基因的真实含量，消除PCR终点定量的结果误差，本发明将PCR扩增循环数控制在指数扩增期的前期至中期即22-26个循环。

为消除不同引物标签可能对PCR过程产生的影响，同时为保证实验结果的有效性和准确性，每次实验时每套标签引物均设计一个正常对照及阳性对照，即每套标签引物均包含一个拷贝数正常和拷贝数异常的样本。其中正常对照是经GAP-PCR和定量PCR检测α珠蛋白基因拷贝数正常的样本，阳性对照是经GAPPCR和定量PCR检测缺失两个α珠蛋白基因的样本。

针对所述扩增产物，构建测序文库；对所述测序文库进行测序，以便得到测序结果，所述测序结果由多个测序数据构成；

根据本发明的实施例，对α-珠蛋白基因进行测序的方法不受特别限制。本领域技术人员可以根据采用的基因组测序技术的具体方案选择不同的构建测序文库的方法，关于构建测序文库的细节，可以参见测序仪器的厂商例如Illumina公司所提供的规程，例如参见Illumina公司Multiplexing Sample Preparation Guide（Part#1005361;Feb 2010）或Paired-EndSamplePrep Guide（Part#1005063；Feb2010），通过参照将其全文并入本文。

根据本发明的一个实施例，对α-珠蛋白基因进行测序的仪器包括但不限于Hiseq2000、SOLiD、454和单分子测序装置。

确定所述测序结果中来自于所述α-珠蛋白基因的测序数据；以及基于所述α-珠蛋白基因的测序数据的数目，确定所述核酸样本中α-珠蛋白基因的拷贝数。

在完成对α-珠蛋白基因进行测序之后，所得到的测序结果中包含了多个测序数据。根据本发明的实施例，确定所述测序结果中来自于所述α-珠蛋白基因的测序数据是通过将所述测序结果与参照序列进行比对而得到的。本领域技术人员能够理解，可以采用任何已知的方法将测序结果与参照序列进行比对。

根据本发明的一个具体实例，基于所述α-珠蛋白基因的测序数据的数目，确定所述核酸样本中α-珠蛋白基因的拷贝数进一步包括：对测序结果中来自于α-珠蛋白基因的测序数据进行计数，得到数值H；对测序结果中来自于内参基因的测序数据进行计数，得到数值C；计算所述数值H和C的比值，得到第一参数H/C，并将所述第一参数与第一参照值进行比较；以及基于所述第一参数与所述第一参照值的比例，确定所述核酸样本中α-珠蛋白基因的拷贝数。

这里所述的第一参照值是针对来自已知α-珠蛋白基因拷贝数的个体的核酸样本进行平行实验而得到的第一参数。特别指的是，针对来自正常个体的核酸样本进行平行实验而得到的第一参数。

根据本发明的一个具体实例，α-珠蛋白基因为HBA1和HBA2，所述测序结果中来自于所述HBA1的测序数据数目为H1，所述测序结果中来自于所述HBA2的测序数据数目为H2，其中，基于所述α-珠蛋白基因的测序数据的数目，确定所述核酸样本中α-珠蛋白基因的拷贝数进一步包括：计算所述数值H2和H1的比值，得到第二参数H2/H1，并将所述第二参数与第二参照值进行比较；以及基于所述第二参数与所述第二参照值的比例，确定所述核酸样本中α-珠蛋白基因的拷贝数。

这里所述的第二参照值是针对来自已知α-珠蛋白基因拷贝数的个体的核酸样本进行平行实验而得到的第二参数。

本发明在样本测序完成后，测序数据能够根据文库标签（adaptor）、引物标签（index）和引物序列（primer）将测序数据分配到对应样本中的每个位点进行结果分析。本发明基于多重判别分析和多重贝叶斯对结果进行判断，采用相对定量原理以相对比值（待测样本目标基因/内参基因）对结果进行距离转化处理，计算待测样本相对于正常对照样本珠蛋白基因（HBA1和HBA2）拷贝数的比值，得出待测样本珠蛋白基因的拷贝数，并以珠蛋白基因内部HBA2与HBA1拷贝数比值（HBA2/HBA1）作为质控对结果进行复核，最终确定待测样本中HBA1和HBA2基因的拷贝数。

根据本发明的一个具体示例，数据分析详细步骤如下：

1、测序数据的分类

根据文库标签、引物标签和引物序列将测序数据分配到对应样本中的每个位点（如图5）。图5显示了测序数据分类流程图，其中，

①文库区分：根据文库标签序列将测序reads分到每个文库中；

②样本区分：在文库内根据不同的引物标签（表3）将测序reads分到每个样本中；

③位点区分：根据引物序列（表1与表2）将样本内的reads分到珠蛋白基因和内参基因；

④HBA1与HBA2区分：根据HBA1与HBA2内部的差异序列（图2）将HBA的reads分为HBA1与HBA2。

2、α珠蛋白基因拷贝数分析

由于正常对照存在2个HBA1基因、2个HBA2基因和2个内参基因，同时每个待测样本也存在2个内参基因，因此将分析流程（图6）分成以下几步：

①分别计算待测样本和正常对照目的基因与内参基因reads数比例，待测样本为和T2（T2＝(HBA2IIIIII)/(Control[2III])，正常对照为和N2(N2＝(HBA2I2III)/[Control[2III])；

②用N1和N2对结果进行归一化处理，得出待测样本相与正常对照的相对比值

R 1 (R 1 = \frac{T 1}{N 1})

和

R 2 (R 2 = \frac{T 2}{N 2});

③分别计算待测样本和正常对照HBA2与HBA1的reads数比例

T 3

(T 3 = \frac{HBA 2 Y | | | | Y}{HBA 1 Y | | | | Y})

和

N 3 (N 3 = \frac{HBA 2 Y 2 | | | Y}{HBA 1 Y 2 | | | Y},

设定N3=1)；可以消除目的基因与内参基因在PCR过程中可能存在扩增效率不一致的情况;

④用N3对结果进行归一化处理，得出待测样本与正常对照的相对比值

R 3 (R 3 = \frac{T 3}{N 3});

其中，在上述公式中，各字母的含义如下：

T1：待测样本HBA1与Control的reads数的比值；

T2：待测样本HBA2与Control的reads数的比值；

T3：待测样本HBA2与HBA1的reads数的比值；

N1：正常样本HBA1与Control的reads数的比值；

N2：正常样本HBA2与Control的reads数的比值；

N3：正常样本HBA2与HBA1的reads数的比值；

R1：待测样本HBA1基因拷贝数是正常对照HBA1拷贝数的倍数，用于判断HBA1的拷贝数；

R2：待测样本HBA2基因拷贝数是正常对照HBA2拷贝数的倍数，用于判断HBA2的拷贝数；

R3：待测样本HBA2/HBA1是正常样本HBA2/HBA1的倍数，用于复核HBA1与HBA2拷贝数的准确性。

由于T1和T2中的内参以及N1和N2中的HBA1、HBA2与内参的拷贝数都是已知，可以根据R1、R2、R3对HBA1和HBA2的数目进行判断。针对HBA1和HBA2基因目前已报道的拷贝数变异情况，建立各种拷贝数变异情况所对应R1、R2、R3的理论参数表（如表4），并将每个值转化为马氏距离，组成一个马氏距离集；通过mahalanobis距离转化，计算待测样本R1、R2、R3与马氏距离集中每个值的直接距离，通过多重判别分析选择其最短距离；根据R1、R2、R3的最短距离判定HBA1和HBA2的拷贝数；当R1、R2、R3中有一个值与另外两个距离值的判断结果不相符时，利用贝叶斯先验值进行调整，修改R1、R2或R3对应的P值，重新计算距离，最后判定结果。

表4几种类型的α珠蛋白基因拷贝数与R1、R2、R3关系

由此，本发明提供的一种基于新一代测序平台检测α珠蛋白基因拷贝数的检测方法，能够同时对各种α珠蛋白基因拷贝数变异导致的地贫类型进行检测。其具有成本低，通量高，准确率高以及检测过程易于实现自动化等特点。该方法可用于地贫的群体性筛查，如婚检、孕检等。

此外，本发明所采用的方法同时适用于各种β珠蛋白基因缺失及其他具有相似模式基因拷贝数变异的检测。

用于确定核酸样本中α-珠蛋白基因拷贝数的系统

根据本发明的又一方面，本发明还提供一种用于确定核酸样本中α-珠蛋白基因拷贝数的系统。根据本发明的实施例，用于确定α-珠蛋白基因拷贝数的系统包括：扩增装置，所述扩增装置用于对所述核酸样本进行扩增，以便得到扩增产物；文库构建装置，所述文库构建装置与所述扩增装置相连，并且适于针对所述扩增产物，构建测序文库；测序装置，所述测序装置与所述文库构建装置相连，并且适于对所述测序文库进行测序，以便得到测序结果，所述测序结果由多个测序数据构成；分析装置，所述分析装置与所述测序装置相连，并且适于：确定所述测序结果中来自于所述α-珠蛋白基因的测序数据；以及基于所述α-珠蛋白基因的测序数据的数目，确定所述核酸样本中α-珠蛋白基因的拷贝数。

根据本发明的一个具体示例，用于确定α-珠蛋白基因拷贝数的系统进一步包括核酸样本分离装置，所述核酸样本分离装置适于从对象的血浆、血清、全血和口腔脱落细胞的至少一种分离核酸样本。其中α-珠蛋白基因为选自HBA1基因和HBA2基因的至少一种。

根据本发明的一个具体示例，扩增装置中进一步设置有特异性引物组，其中，所述特异性引物组包含第一引物和第二引物，所述第一引物具有SEQ ID NO：1所示的核苷酸序列，所述第二引物具有如SEQ ID NO：2所示的核苷酸序列。

根据本发明的一个具体示例，第一引物和第二引物的至少之一的5’端进一步含有标签序列，所述标签序列为选自SEQ ID NO：5-100的至少之一所示的核苷酸序列。

根据本发明的一个具体示例，所述测序装置为选自Hiseq2000、SOLiD、454和单分子测序装置的至少一种。

根据本发明的一个具体示例，所述特异性引物组进一步包括第三引物和第四引物，其中，所述第三引物和第四引物对于内参基因是特异性的，并且所述分析装置适于确定所述测序结果中来自于所述内参基因的测序数据。

根据本发明的一个具体示例，所述内参基因是FLNB，所述第三引物具有如SEQ ID NO：3所示的核苷酸序列，所述第四引物具有如SEQ ID NO:4所示的核苷酸序列。

根据本发明的一个具体示例，所述第三引物和第四引物的至少之一的5’端进一步含有标签序列，所述标签序列为选自SEQ ID NO：5-100的至少之一所示的核苷酸序列。

根据本发明的一个具体示例，所述分析装置适于通过将所述测序结果与参照序列进行比对而确定所述测序结果中来自于所述α-珠蛋白基因的测序数据。

根据本发明的一个具体示例，所述分析装置适于通过下列步骤确定所述核酸样本中α-珠蛋白基因的拷贝数：对测序结果中来自于α-珠蛋白基因的测序数据进行计数，得到数值H；对测序结果中来自于内参基因的测序数据进行计数，得到数值C；计算所述数值H和C的比值，得到第一参数H/C，并将所述第一参数与第一参照值进行比较；以及基于所述第一参数与所述第一参照值的比例，确定所述核酸样本中α-珠蛋白基因的拷贝数。

根据本发明的一个具体示例，所述α-珠蛋白基因为HBA1和HBA2，所述测序结果中来自于所述HBA1的测序数据数目为H1，所述测序结果中来自于所述HBA2的测序数据数目为H2，其中，所述分析装置适于通过下列步骤确定所述核酸样本中α-珠蛋白基因的拷贝数；计算所述数值H2和H1的比值，得到第二参数H2/H1，并将所述第二参数与第二参照值进行比较；以及基于所述第二参数与所述第二参照值的比例，确定所述核酸样本中α-珠蛋白基因的拷贝数。

PCR扩增过程分为指数扩增期、线性扩增期和平台期三个阶段，其中指数扩增期PCR产物量与PCR起始模板量成线性相关。利用实时荧光定量PCR仪对目的基因拷贝数未知样本（以下简称未知样本）中的目的基因和内参基因在指数扩增期时PCR产物量比值（目的基因/内参基因）进行实时检测，检测结果与已知样本（目的基因拷贝数已知的样本）在指数扩增期的PCR产物量比值进行比较，就可以得到各个待测样本相对已知样本的目的基因含量，这就是定量PCR相对定量的原理。

荧光定量PCR是以PCR反应过程中实时累计的荧光信号强度变化来反映PCR产物量的变化，即荧光信号强度与PCR产物量的多少成线性相关。实验研究证明当测序读数（reads）达到一定深度时，以Hiseq为代表的新一代测序技术的测序起始模板量与最终获得的测序reads数成正比。

基于新一代测序技术的测序起始模板量与最终获得的测序reads数成正比和定量PCR相对定量的原理，本发明利用新一代测序技术Hiseq-2000平台，实现了对α地贫基因（HBA1，HBA2）拷贝数的高通量、低成本的准确检测。

利用本发明的用于确定核酸样本中α-珠蛋白基因拷贝数的系统，能够有效地实施前述用于确定核酸样本中α-珠蛋白基因拷贝数的方法。关于用于确定核酸样本中α-珠蛋白基因拷贝数的方法，所描述的特征和优点，同样适用用于确定核酸样本中α-珠蛋白基因拷贝数的系统，不再赘述。

下面通过具体的实施例，对本发明进行说明，需要说明的是这些实施例仅仅是为了说明目的，而不能以任何方式解释成对本发明的限制。

实施例1：

采用本发明的技术方案和检测流程对经Gap-PCR检测后结果已知（包括拷贝数正常和异常）的950份样本进行检测，检测结果中有922个样本与已知结果相符，结果符合率为97.1%；对不相符的28例样本，采用定量PCR方法对HBA1和HBA2基因进行定量，同时采用特异性引物PCR检测两种中国人常见的α珠蛋白基因多拷贝类型Anti-3.7和Anti-4.2。结果表明，两种方法验证的结果与本发明检测结果一致，表明本发明的技术能够准确检测出待测样本中HBA1和HBA2基因拷贝数情况，具有高通量、低成本和准确等优势。具体实施按以下步骤操作：

1．样本提取

采用磁珠法从外周血中自动化提取DNA，每批实验提取94个样本，2个阴性对照，要求DNA浓度大于30ng/μl,体积为100μl，260/280为1.8-2.0。

使用KingFisher自动提取仪从952（其中1个为正常对照，1个为阳性对照）血样中提取DNA。主要步骤如下：取出3个Kingfisher自动提取仪配套的深孔板及1个浅孔板，根据说明书分别加入一定量配套的试剂并标记，将所有已加好试剂的孔板按要求置于相应的位置，选定程序“Bioeasy_200ul BloodDNA_KF.msz”程序，按下“star”执行该程序进行核酸提取。程序结束后收集plate Elution中的100μl左右的洗脱产物即为提取的DNA，作为下一步PCR中的模板。

2.PCR扩增

将96套标签引物对应到96孔PCR反应板中，每批实验平行进行待测样本、正常对照和阳性对照的检测，即每套标签引物每批实验时需要进行至少3个以上的PCR扩增：一个或多个待测样本、一个正常对照和一个阳性对照。

把样本提取步骤中所得的952份DNA依次编号1-952（其中951为正常对照，952为阳性对照），用96套HBA和Control的标签引物（表1、2、3）分别扩增952份DNA样本，其中第96套标签引物为不添加模板的阴性对照。PCR反应在96孔板中进行，其中设计1板正常对照（951号样本，一个样本进行96个反应）和阳性对照（952号样本，一个样本进行96个反应），共12板，编号分别为Q1至Q10，正常对照为N，阳性对照为P，其中Q1对应1-95号模板，Q2对应96-190号模板，如此按顺序对应命名，且每板设计一个不添加模板的阴性对照，实验的同时，记录下每个样本对应的引物标签编号。

PCR反应体系如下：

PCR程序如下：

95℃10min

95℃30s→60℃1min(24个循环)

15℃∞

PCR反应在Bio-Rad公司的PTC-200PCR仪上运行。PCR完成后，取2μl PCR产物经2.0%的琼脂糖凝胶电泳检测，如图7）。

3.PCR产物混合和纯化

经96套标签引物PCR扩增得到的产物进行混合，将每一组样本（一块96孔PCR反应板）的PCR产物（其引物标签各不相同）分别混合到一个EP管中，经纯化。

从Q1-10、N和P这12板剩余的PCR产物中，每板每个孔各取15μl混合做好对应标记的2ml EP管中（此步骤为pooling），震荡混匀，从中各取1250μl pooling产物经Qiagen DNAPurification kit过柱纯化（具体纯化步骤详见说明书），纯化所得的37.5μl产物，经Nanodrop8000(Thermo Fisher Scientific公司)测定这12板产物纯化后产物浓度，数值如表5所示。

表5PCR-Pooling产物纯化后OD值

4.Illumina Hiseq文库构建

将纯化后的产物按照新一代测序技术的文库制备流程进行文库构建，确定文库Raw-cluster密度，保证对照内参基因平均测序深度达1000乘以上，然后上机测序。

4.1末端修复反应

取2μg纯化产物稀释至终体积为37.5μL后，进行末端修复反应，体系如下（试剂均购自Enzymatics公司）：

反应条件为：Thermomixer20℃温浴30min。

反应产物经Qiagen DNA Purification Kit回收纯化，溶于32μl的EB中。

4.23’末端加A反应

DNA的3’末端加A反应，体系如下（试剂均购自Enzymatics公司）：

反应条件为：Thermomixer37℃温浴30min。

反应产物经Qiagen DNA Purification Kit（QIAGEN公司）回收纯化，溶于38μl的EB中。

4.3连接Illumina Hiseq接头（adaptor）

12管DNA分别加12种不同的文库标签，并记录下文库标签和文库的对应关系。体系如下（试剂均购自Illumina公司）：

反应条件为：Thermomixer16℃温浴16h。

反应产物经60μl Ampure Beads(Beckman Coulter Genomics)纯化后溶于30μL去离子水，经荧光定量PCR（QPCR）检测到文库浓度结果如表6：

表6QPCR定量检测文库的相对浓度

5.Hiseq2000测序

以QPCR所测浓度为准，12个文库各取10nmol混合，并稀释至5pmol进行Hiseq 2000SE-50程序测序，Raw-cluster密度为250万，具体操作流程详见Hiseq2000操作说明书。

6.结果分析

下机数据按照上述α珠蛋白基因拷贝数分析流程进行拷贝数分析（图6），整个过程由计算机自动完成。所得结果与已知结果97.3%相符，对结果不相符的样本采用定量PCR及α珠蛋白基因多拷贝型别（Anti-3.7和Anti-4.2）的特异型引物PCR对不相符的样本进行验证，验证结果见图8和图9。其中，图8显示了结果不符样本进行HBA1和HBA2定量PCR检测结果，如图8所示，其中Normal为正常对照，包含2个HBA1和2个HBA2基因，柱状图高低表示待测样本相对于Normal的拷贝数比值，其中0.5表示拷贝数是Normal的1/2,1表示拷贝数与Normal相同，1.5表示为拷贝数是Normal的1.5倍。图9显示了结果不符样本进行Anti-3.7和Anti-4.2特异性引物PCR检测的结果，如图9所示，其中左图为Anti-3.7检测结果，右图为Anti-4.2检测结果，Anti-3.7和Anti-3.7表示一条染色体上存在2个HBA1或HBA2基因，有条带表示存在该多拷贝变异。以上的验证结果（图8、图9）与本方法检测的结果一致，表明本研究方法比传统的检测方法具有更大的优越性。前60个样本结果如下：

注：表中文字进行加粗标记处理的的4例样本为与GapPCR结果不一致的样本。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种确定核酸样本中α-珠蛋白基因拷贝数的方法，所述方法用于非诊断目的，其特征在于，包括：

对所述核酸样本进行扩增，以便得到扩增产物；

针对所述扩增产物，构建测序文库；

对所述测序文库进行测序，以便得到测序结果，所述测序结果由多个测序数据构成；

确定所述测序结果中来自于所述α-珠蛋白基因的测序数据；以及

基于所述α-珠蛋白基因的测序数据的数目，确定所述核酸样本中α-珠蛋白基因的拷贝数，

其中，

所述核酸样本是从对象的血浆、血清、全血和口腔脱落细胞的至少一种分离的，

所述α-珠蛋白基因为选自HBA1基因和HBA2基因的至少一种，

使用特异性引物组对所述核酸样本进行扩增，其中，所述特异性引物组由第一引物和第二引物组成，所述第一引物的核苷酸序列如SEQ ID NO:1所示，所述第二引物的核苷酸序列如SEQ ID NO:2所示，

所述第一引物和第二引物的至少之一的5’端进一步含有标签序列，所述标签序列为选自SEQ ID NO:5-100的至少之一所示的核苷酸序列，

利用选自Hiseq2000、SOLID、454和单分子测序装置的至少一种进行所述测序，

所述特异性引物组进一步包括第三引物和第四引物，

其中，所述第三引物和第四引物对于内参基因是特异性的，

并且进一步包括：确定所述测序结果中来自所述内参基因的测序数据，

所述内参基因是FLNB，所述第三引物的核苷酸序列如SEQ ID NO：3所示，所述第四引物的核苷酸序列如SEQ ID NO：4所示，

所述第三引物和第四引物的至少之一的5’端进一步含有标签序列，所述标签序列为选自SEQ ID NO：5-100的至少之一所示的核苷酸序列，

基于所述α-珠蛋白基因的测序数据的数目，确定所述核酸样本中α-珠蛋白基因的拷贝数进一步包括：

对测序结果中来自于α-珠蛋白基因的测序数据进行计数，得到数值H；

对测序结果中来自于内参基因的测序数据进行计数，得到数值C；

计算所述数值H和C的比值，得到第一参数H/C，并将所述第一参数与第一参照值进行比较；以及

基于所述第一参数与所述第一参照值的比例，确定所述核酸样本中α-珠蛋白基因的拷贝数。

2.根据权利要求1所述的方法，其特征在于，所述对象为哺乳动物。

3.根据权利要求2所述的方法，其特征在于，所述对象为人。

4.根据权利要求1所述的方法，其特征在于，确定所述测序结果中来自于所述α-珠蛋白基因的测序数据是通过将所述测序结果与参照序列进行比对而得到的。

5.根据权利要求1所述的方法，其特征在于，所述第一参照值是针对来自已知α-珠蛋白基因拷贝数的个体的核酸样本进行平行实验而得到的第一参数。

6.根据权利要求1所述的方法，其特征在于，所述第一参照值是针对来自正常个体的核酸样本进行平行实验而得到的第一参数。

7.根据权利要求1所述的方法，其特征在于，所述α-珠蛋白基因为HBA1和HBA2，所述测序结果中来自于所述HBA1的测序数据数目为H1，所述测序结果中来自于所述HBA2的测序数据数目为H2，

其中，基于所述α-珠蛋白基因的测序数据的数目，确定所述核酸样本中α-珠蛋白基因的拷贝数进一步包括：

计算所述数值H2和H1的比值，得到第二参数H2/H1，并将所述第二参数与第二参照值进行比较；以及

基于所述第二参数与所述第二参照值的比例，确定所述核酸样本中α-珠蛋白基因的拷贝数。

8.根据权利要求7所述的方法，其特征在于，所述第二参照值是针对来自已知α-珠蛋白基因拷贝数的个体的核酸样本进行平行实验而得到的第二参数。

9.一种引物组合物，其特征在于，由第一引物和第二引物组成，所述第一引物的核苷酸序列如SEQ ID NO:1所示，所述第二引物的核苷酸序列如SEQ ID NO:2所示。

10.根据权利要求9所述的引物组合物，其特征在于，所述第一引物和第二引物的至少之一的5’端进一步含有标签序列，所述标签序列为选自SEQ ID NO：5-100的至少之一所示的核苷酸序列。

11.根据权利要求9所述的引物组合物，其特征在于，进一步包括第三引物和第四引物，

其中，所述第三引物的核苷酸序列如SEQ ID NO：3所示，所述第四引物的核苷酸序列如SEQ ID NO:4所示。

12.根据权利要求11所述的引物组合物，其特征在于，所述第三引物和第四引物的至少之一的5’端进一步含有标签序列，所述序列为选自SEQ ID NO:5-100的至少之一所示的核苷酸序列。

13.一种标签组合物，其特征在于，由SEQ ID NO:5-100所示的标签构成。

14.权利要求9-12任一项所述的引物组合物在确定核酸样本中α-珠蛋白基因拷贝数中的用途，所述确定核酸样本中α-珠蛋白基因拷贝数为非诊断目的。

15.一种确定核酸样本中α-珠蛋白基因拷贝数的系统，其特征在于，包括：

扩增装置，所述扩增装置用于对所述核酸样本进行扩增，以便得到扩增产物；

文库构建装置，所述文库构建装置与所述扩增装置相连，并且适于针对所述扩增产物，构建测序文库；

测序装置，所述测序装置与所述文库构建装置相连，并且适于对所述测序文库进行测序，以便得到测序结果，所述测序结果由多个测序数据构成；

分析装置，所述分析装置与所述测序装置相连，并且适于：

其中，

所述扩增装置中设置有特异性引物组，

其中，所述特异性引物组由第一引物和第二引物组成，所述第一引物的核苷酸序列如SEQ ID NO:1所示，所述第二引物的核苷酸序列如SEQ ID NO:2所示，

所述测序装置为选自Hiseq2000、SOLID、454和单分子测序装置的至少一种，

所述分析装置适于通过将所述测序结果与参照序列进行对比而确定所述测序结果中来自于所述α-珠蛋白基因的测序数据，

进一步包括核酸样本分离装置，所述核酸样本分离装置适于从对象的血浆、血清、全血和口腔脱落细胞的至少一种分离核酸样本，

所述α-珠蛋白基因为选自HBA1基因和HBA2基因的至少一种，

所述特异性引物组进一步包括第三引物和第四引物，

其中，所述第三引物和第四引物对于内参基因是特异性的，

并且所述分析装置适于确定所述测序结果中来自于所述内参基因的测序数据，

所述内参基因是FLNB，所述第三引物的核苷酸序列如SEQ ID NO:3所示，所述第四引物的核苷酸序列如SEQ ID NO:4所示，

所述第三引物和第四引物的至少之一的5’端进一步含有标签序列，所述标签序列为选自SEQ ID NO:5-100的至少之一所示的核苷酸序列，

所述分析装置适于通过下列步骤确定所述核酸样本中α-珠蛋白基因的拷贝数：

对测序结果中来自内参基因的测序数据进行计数，得到数值C；

16.根据权利要求15所述的系统，其特征在于，所述α-珠蛋白基因为HBA1和HBA2，所述测序结果中来自所述HBA1的测序数据数目为H1，所述测序结果中来自所述HBA2的测序数据数目为H2，

其中，

所述分析装置适于通过下列步骤确定所述核酸样本中α-珠蛋白基因的拷贝数；