CN104790042B

CN104790042B - 高通量测序文库及其构建方法

Info

Publication number: CN104790042B
Application number: CN201510223995.2A
Authority: CN
Inventors: 曹志生; 李宗文; 张宝亮; 张兰英; 丁雪; 宋超; 孟雪红; 魏龙刚; 尹静妮; 刘聪
Original assignee: TIANJIN NOVOGENE BIOLOGICAL INFORMATION TECHNOLOGY Co Ltd
Current assignee: TIANJIN NOVOGENE BIOLOGICAL INFORMATION TECHNOLOGY Co Ltd
Priority date: 2015-05-05
Filing date: 2015-05-05
Publication date: 2017-01-11
Anticipated expiration: 2035-05-05
Also published as: CN104790042A

Abstract

本发明公开了一种高通量测序文库及其构建方法。该方法包括：S1，用引物混合物进行多重PCR得到多个目标片段；S2，对多个目标片段接头连接得到多个带接头的目标片段；和S3，对多个带接头的目标片段进行乳液PCR得到高通量测序文库；引物混合物为cDNA引物混合物和/或DNA引物混合物；cDNA引物混合物包括SEQ ID NO：1和SEQ ID NO：2所示第1对引物以及SEQ ID NO：3和SEQ ID NO：4所示第2对引物；DNA引物混合物包括SEQ ID NO：5和SEQ ID NO：6所示第3对引物以及SEQ ID NO：7和SEQ ID NO：8所示第4对引物。该方法可有效提高检测通量。

Description

高通量测序文库及其构建方法

技术领域

本发明涉及高通量测序领域，具体而言，涉及一种高通量测序文库及其构建方法。

背景技术

基因突变的方式有多种，包括SNP、插入、缺失、融合等情况。其中SNP、插入和缺失突变类型往往从DNA水平上就可以检测得到，而发生融合突变通常需要在RNA水平上才能检测到。

目前，针对DNA水平(SNP、插入、缺失)的基因突变检测方法主要有ARMS(突变扩增阻滞系统)和Sanger测序法。ARMS：利用PCR引物的3’端末位碱基必须与其模板DNA互补才能有效扩增的原理，设计等位基因特异性PCR扩增引物，在严格的条件下，只有在引物3’碱基与模板碱基互补配对时才能出现目的PCR扩增带，从而检测出突变。该法检测样本有限，易受污染，且假阳性率高。Sanger测序法：依据双脱氧末端终止法，反应体系中合成以共同引物为5’端，以双脱氧碱基为3’端的一系列长度不等的核酸片段。根据片段3’端的双脱氧碱基，便可依次阅读合成片段的碱基排列顺序。该法灵敏度较低，且实验操作较为复杂、实验周期较长、易受污染，并且检测样本数据有限。

针对RNA水平(融合)的基因突变的检测方法主要有RT-PCR法和FISH(荧光原位杂交技术)。RT-PCR法：RT-PCR法一般分为两步：先将待检测标本的mRNA逆转录为cDNA，再结合特异性引物对目标片段进行荧光PCR扩增，根据扩增片段的大小来检测是否存在融合。该法操作复杂，易受污染，检测样本有限，只能检测已知突变类型。FISH：是利用荧光标记的特异核酸探针与细胞内相应的靶分子杂交，通过在荧光显微镜或共聚焦激光扫描仪下观察荧光信号，来确定与特异探针杂交后被染色的细胞或细胞器的形态和分布，或者是结合了荧光探针的靶分子在染色体或其他细胞器中的定位。该法成本高，技术难度较大，检测样本有限。

由于在同一基因内，有可能仅发生上述一种类型的突变，也有可能同时具有两种或两种以上的突变类型。上述检测方法往往一次只能检测一个样本的一种类型变异，无法同时应对多样本、多基因、多检测类型的需求。然而，新兴的二代高通量测序技术为多基因、多类型突变的平行获取带来了希望。基于多重PCR的高通量测序方法能够在提高通量的同时节省样品降低成本，能实现数十个、百个甚至数千个位点的快速测序及低频率等位基因的检测。

和其它高通量测序方法相比，基于多重PCR的高通量测序方法的难点就在如何提供一种适合进行多个目的片段、多个基因同时进行扩增的多重PCR的引物混合物。由于涉及的引物对较多，众多引物对混合在一起进行PCR扩增时容易相互之间产生影响，导致引物二聚体的增加、扩增效率和特异性下降以及非特异性目的片段的扩增，从而导致无法同时扩增得到多个目的片段。因而，在基于多重PCR的高通量测序方法所带来的优势已经被众人所知时，其在多基因、多片段的多种突变类型的平行获取方面的应用却仍然受到限制。

因此，如何有效地利用上述基于多重PCR的高通量测序方法来进行多样本、多基因、多突变类型的平行获取，是目前亟待解决的一个技术问题。

发明内容

本发明的主要目的在于提供一种高通量测序文库及其构建方法，提供一种能够对多样本、多基因、多突变类型进行平行获取的方法。

为了实现上述目的，根据本发明的一个方面，提供了一种高通量测序文库的构建方法，该文库构建方法包括以下步骤：S1，利用引物混合物对多个目标区域进行多重PCR，得到多个目标片段；S2，对多个目标片段接头连接，得到多个带接头的目标片段；以及S3，对多个带接头的目标片段进行乳液PCR，得到高通量测序文库；其中，引物混合物为cDNA引物混合物和/或DNA引物混合物；当引物混合物为cDNA引物混合物时，cDNA引物混合物包括SEQID NO：1和SEQ ID NO：2所示的第1对引物以及SEQ ID NO：3和SEQ ID NO：4所示的第2对引物；当引物混合物为DNA引物混合物时，DNA引物混合物包括SEQ ID NO：5和SEQ ID NO：6所示的第3对引物以及SEQ ID NO：7和SEQ ID NO：8所示的第4对引物。

进一步地，当引物混合物为DNA引物混合物时，DNA引物混合物还包括SEQ ID NO：9和SEQ ID NO：10所示的第5对引物、SEQ ID NO：11和SEQ ID NO：12所示的第6对引物以及SEQ ID NO：13和SEQ ID NO：14所示的第7对引物。

进一步地，当引物混合物为DNA引物混合物时，DNA引物混合物还包括SEQ ID NO：15和SEQ ID NO：16所示的第8对引物、SEQ ID NO：17和SEQ ID NO：18所示的第9对引物、SEQID NO：19和SEQ ID NO：20所示的第10对引物、SEQ ID NO：21和SEQ ID NO：22所示的第11对引物、SEQ ID NO：23和SEQ ID NO：24所示的第12对引物、SEQ ID NO：25和SEQ ID NO：26所示的第13对引物以及SEQ ID NO：27和SEQ ID NO：28所示的第14对引物。

进一步地，当引物混合物为DNA引物混合物时，DNA引物混合物还包括SEQ ID NO：29和SEQ ID NO：30所示的第15对引物、SEQ ID NO：31和SEQ ID NO：32所示的第16对引物、SEQ ID NO：33和SEQ ID NO：34所示的第17对引物、SEQ ID NO：35和SEQ ID NO：36所示的第18对引物、SEQ ID NO：37和SEQ ID NO：38所示的第19对引物、SEQ ID NO：39和SEQ ID NO：40所示的第20对引物以及SEQ ID NO：41和SEQ ID NO：42所示的第21对引物。

进一步地，当引物混合物为DNA引物混合物时，DNA引物混合物还包括SEQ ID NO：43和SEQ ID NO：44所示的第22对引物、SEQ ID NO：45和SEQ ID NO：46所示的第23对引物、SEQ ID NO：47和SEQ ID NO：48所示的第24对引物、SEQ ID NO：49和SEQ ID NO：50所示的第25对引物、SEQ ID NO：51和SEQ ID NO：52所示的第26对引物、SEQ ID NO：53和SEQ ID NO：54所示的第27对引物以及SEQ ID NO：55和SEQ ID NO：56所示的第28对引物。

进一步地，当引物混合物为DNA引物混合物时，DNA引物混合物还包括SEQ ID NO：57和SEQ ID NO：58所示的第29对引物、SEQ ID NO：59和SEQ ID NO：60所示的第30对引物、SEQ ID NO：61和SEQ ID NO：62所示的第31对引物、SEQ ID NO：63和SEQ ID NO：64所示的第32对引物、SEQ ID NO：65和SEQ ID NO：66所示的第33对引物、SEQ ID NO：67和SEQ ID NO：68所示的第34对引物以及SEQ ID NO：69和SEQ ID NO：70所示的第35对引物。

进一步地，当引物混合物为cDNA引物混合物时，cDNA引物混合物还包括SEQ IDNO：71和SEQ ID NO：72所示的第36对引物以及SEQ ID NO：73和SEQ ID NO：74所示的第37对引物。

进一步地，当引物混合物为cDNA引物混合物时，cDNA引物混合物还包括SEQ IDNO：75和SEQ ID NO：76所示的第38对引物、SEQ ID NO：77和SEQ ID NO：78所示的第39对引物以及SEQ ID NO：79和SEQ ID NO：80所示的第40对引物。

进一步地，在步骤S1之后，以及步骤S2之前，方法还包括对多个目标片段两端的引物序列进行消化的步骤。

进一步地，在步骤S1中，当采用cDNA引物混合物对多个目标区域进行多重PCR时，多重PCR的条件为：第一步：96～99℃预变性2～4min；第二步：96～99℃变性15～20s；第三步：58～60℃退火延伸4～5min；然后第二步至第三步循环28～32次，最后，4-10℃保温；当采用DNA引物混合物对多个目标区域进行多重PCR时，多重PCR的条件为：第一步：96～99℃预变性2～4min；第二步：96～99℃变性15～20s；第三步：58～60℃退火延伸4～5min；第二步至第三步循环18～25次，最后，4～10℃保温。

根据本发明的另一方面，提供了一种高通量测序文库，该高通量测序文库采用上述任一种构建方法构建而成。

应用本发明的技术方案，由于本发明的cDNA引物是设计在发生融合的两个基因的融合片段两端，因而通过采用cDNA引物混合物进行多重PCR，能够同时得到ALK基因至少两个位置发生融合的目的融合片段；通过采用DNA引物混合物进行多重PCR，能够同时得到BRAF和PIK3CA两个基因上的2个目的片段。当分别采用上述cDNA引物混合物和DNA引物混合物进行多重PCR时，可以对上述得到的3个目的片段同时进行后续的文库构建，因而可以通过基于多重PCR的高通量测序方法进行上述3个基因的3个位点进行检测。相比现有技术中对上述基因的不同位点进行检测时仅能通过单次扩增分别进行检测的方法，本发明所提供的上述高通量测序文库使得对上述基因的检测能够通过高通量测序的方法进行多基因、多位点的平行获取和检测，大大提高了检测通量、检测效率以及检测准确度。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明典型实施方式中的文库构建流程示意图；

图2示出了现有技术和本发明的引物单独扩增以及混合后扩增的效果图；

图3示出了根据本发明的优选实施例中33对DNA引物混合物和7对cDNA引物混合物扩增效果图；以及

图4示出了本发明一种优选的实施例中cDNA引物的设计原理图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

在本发明中，cDNA引物混合物是指以cDNA为模板进行扩增的引物的混合物；而DNA引物混合物是指以DNA为模板进行扩增的引物的混合物。

正如背景技术部分所提到的，现有技术中在进行多基因、多片段的多种突变类型的平行获取时，通常因一个或多个基因的不同引物之间的相互作用而难以采用多重PCR的方法进行扩增，因而也难以利用基于多重PCR的高通量测序方法所带来的时间短、检测效率高等优势。为了改善上述缺陷，发明人针对科研人员经常用到的EGFR、KRAS、PIK3CA、BRAF、ALK和Ros1等6个基因的共40个突变位点进行了扩增引物的优化设计，经过反复改进引物序列，并经过大量实验验证，发现上述引物混合后所形成的引物混合物在进行多重PCR试验中具有预料不到的扩增效果，在仅进行两对引物混合进行多重PCR时，扩增条带非常特异，且扩增效率也很高，可以达到每对引物单独进行扩增的效率。当向其中逐步增加引物对时，发现其扩增效率并未因引物混合物中的引物对的增多而减少，当上述引物混合物中包含33对DNA扩增引物时，引物混合物对上述EGFR、KRAS、PIK3CA和BRAF 4个基因中包含常见的33个突变位点的片段都能很好地扩增出来，并能够用于高通量测序文库的构建。

在上述研究结果的基础上，发明人提出了本发明的技术方案。在本发明一种典型的实施方式中，提供了一种高通量测序文库的构建方法，如图1所示，该文库构建方法包括以下步骤：S1，利用引物混合物对多个目标区域进行多重PCR，得到多个目标片段；S2，对多个目标片段接头连接，得到多个带接头的目标片段；以及S3，对多个带接头的目标片段进行乳液PCR，得到高通量测序文库；其中，引物混合物为cDNA引物混合物和/或DNA引物混合物；当引物混合物为cDNA引物混合物时，cDNA引物混合物包括SEQ ID NO：1和SEQ ID NO：2所示的第1对引物以及SEQ ID NO：3和SEQ ID NO：4所示的第2对引物；当引物混合物为DNA引物混合物时，DNA引物混合物包括SEQ ID NO：5和SEQ ID NO：6所示的第3对引物以及SEQ IDNO：7和SEQ ID NO：8所示的第4对引物。

本发明的上述文库构建方法，由于本发明的cDNA引物是设计在发生融合的两个基因的融合片段两端，因而通过采用上述cDNA引物混合物进行多重PCR，能够同时得到ALK基因至少两个位置上发生融合的目的融合片段；通过采用上述DNA引物混合物进行多重PCR，能够同时得到BRAF和PIK3CA两个基因上的2个目的片段。当分别采用上述cDNA引物混合物和DNA引物混合物进行多重PCR时，可以对上述得到的4个目的片段同时进行后续的文库构建，因而可以通过基于多重PCR的高通量测序方法进行上述3个基因的3个位点进行检测。相比现有技术中对上述基因的不同位点进行检测时仅能通过单次扩增分别进行检测的方法，本发明所提供的上述高通量测序文库使得对上述基因的检测能够通过高通量测序的方法进行多基因、多位点的平行获取和检测，大大提高了检测通量和检测效率。

在本发明的上述文库构建方法中，当上述引物混合为DNA引物混合物时，上述DNA引物混合物还包括SEQ ID NO：9和SEQ ID NO：10所示的第5对引物、SEQ ID NO：11和SEQ IDNO：12所示的第6对引物以及SEQ ID NO：13和SEQ ID NO：14所示的第7对引物。还包括了第5对、第6对以及第7对引物的DNA引物混合物能够同时扩增得到PIK3CA的4个目的片段和BRAF基因的1个目的片段。由上述DNA引物混合物扩增得到的目的片段构建而成的高通量测序文库，经后续测序能够得到上述多个基因的多个突变位点。

在本发明的上述文库构建方法中，当引物混合物为DNA引物混合物时，上述DNA引物混合物还包括SEQ ID NO：15和SEQ ID NO：16所示的第8对引物、SEQ ID NO：17和SEQ IDNO：18所示的第9对引物、SEQ ID NO：19和SEQ ID NO：20所示的第10对引物、SEQ ID NO：21和SEQ ID NO：22所示的第11对引物、SEQ ID NO：23和SEQ ID NO：24所示的第12对引物、SEQID NO：25和SEQ ID NO：26所示的第13对引物以及SEQ ID NO：27和SEQ ID NO：28所示的第14对引物。采用上述还包括了第7对至第14对引物的DNA引物混合物能够同时扩增得到KRAS基因的7个目的片段、PIK3CA基因的1个目的片段和BRAF基因的1个目的片段。由上述DNA引物混合物扩增得到的目的片段构建而成的高通量测序文库，经后续测序能够同时检测的基因种类更多，检测的突变位点也更多。

在本发明的上述文库构建方法中，当引物混合物为DNA引物混合物时，上述DNA引物混合物还可以包括SEQ ID NO：29和SEQ ID NO：30所示的第15对引物、SEQ ID NO：31和SEQ ID NO：32所示的第16对引物、SEQ ID NO：33和SEQ ID NO：34所示的第17对引物、SEQID NO：35和SEQ ID NO：36所示的第18对引物、SEQ ID NO：37和SEQ ID NO：38所示的第19对引物、SEQ ID NO：39和SEQ ID NO：40所示的第20对引物以及SEQ ID NO：41和SEQ ID NO：42所示的第21对引物。采用上述还包括了第15对至第21对引物的DNA引物混合物能够同时扩增得到EGFR基因的7个目的片段、PIK3CA基因的1个目的片段和BRAF基因的1个目的片段。由上述DNA引物混合物扩增得到的目的片段构建而成的高通量测序文库，经后续测序能够同时检测的基因种类更多，检测的突变位点也更多。

在本发明的上述文库构建方法中，当引物混合物为DNA引物混合物时，上述DNA引物混合物还包括SEQ ID NO：43和SEQ ID NO：44所示的第22对引物、SEQ ID NO：45和SEQ IDNO：46所示的第23对引物、SEQ ID NO：47和SEQ ID NO：48所示的第24对引物、SEQ ID NO：49和SEQ ID NO：50所示的第25对引物、SEQ ID NO：51和SEQ ID NO：52所示的第26对引物、SEQID NO：53和SEQ ID NO：54所示的第27对引物以及SEQ ID NO：55和SEQ ID NO：56所示的第28对引物。采用上述还包括了第22对至第28对引物的DNA引物混合物能够同时扩增得到EGFR基因的另外7个目的片段、PIK3CA基因的1个目的片段和BRAF基因的1个目的片段。由上述DNA引物混合物扩增得到的目的片段构建而成的高通量测序文库，经后续测序能够同时检测的基因种类更多，检测的突变位点也更多。

在本发明的上述文库构建方法中，当引物混合物为DNA引物混合物时，上述DNA引物混合物还包括SEQ ID NO：57和SEQ ID NO：58所示的第29对引物、SEQ ID NO：59和SEQ IDNO：60所示的第30对引物、SEQ ID NO：61和SEQ ID NO：62所示的第31对引物、SEQ ID NO：63和SEQ ID NO：64所示的第32对引物、SEQ ID NO：65和SEQ ID NO：66所示的第33对引物、SEQID NO：67和SEQ ID NO：68所示的第34对引物以及SEQ ID NO：69和SEQ ID NO：70所示的第35对引物。采用上述还包括了第29对至第35对引物的DNA引物混合物能够同时扩增得到EGFR基因的不同于上述14个目的片段的7个目的片段、PIK3CA基因的1个目的片段和BRAF基因的1个目的片段。由上述DNA引物混合物扩增得到的目的片段构建而成的高通量测序文库，经后续测序能够同时检测的基因种类更多，检测的突变位点也更多。

在本发明的上述文库构建方法中，当上述引物混合物为DNA引物混合物时，上述DNA引物混合物还可以同时包括上述第3对至第35对引物，这样所形成的引物混合物仅通过一步多重PCR即可得到来源于上述EGFR、KRAS、PIK3CA和BRAF四个不同基因的33个目的片段。当上述引物混合物为DNA引物混合物时，上述cDNA引物混合物仅通过一步多重PCR即可得到的来源于ALK和Ros1两个基因上的2个目的片段。当将上述DNA引物混合物扩增得到的目的片段和cDNA引物混合物扩增得到的目的片段进行混合，然后进行后续文库构建流程，则可以得到用于同时对上述多个基因的多个位点进行测序的高通量测序文库。

在本发明的上述文库构建方法中，当上述引物混合物为cDNA引物混合物时，当引物混合物为cDNA引物混合物时，cDNA引物混合物还包括SEQ ID NO：71和SEQ ID NO：72所示的第36对引物、SEQ ID NO：73和SEQ ID NO：74所示的第37对引物、SEQ ID NO：75和SEQ IDNO：76所示的第38对引物、SEQ ID NO：77和SEQ ID NO：78所示的第39对引物以及SEQ IDNO：79和SEQ ID NO：80所示的第40对引物。

通过采用上述包含第36对、第37对、第38对、第39对以及第40对引物的cDNA引物混合物进行多重PCR时，还能够同时扩增EML4基因的第6个外显子与ALK基因的第20个外显子相连的融合片段、EML4基因第6外显子连接33bp内含子后与ALK基因的第20个外显子相连的融合片段、SLC34A2基因的第4个外显子与ROS1基因的第32个外显子相连的融合片段、CD74基因的第6个外显子与ROS1基因的第34个外显子相连的融合片段以及EZR基因的第10个外显子与ROS1基因的第34个外显子相连的融合片段。即，可同时得到ALK和ROS1两个基因上涉及7个融合位点的7个目的融合片段，利于后续通过高通量测序提高检测通量、检测效率和检测准确度。

同时还由于本发明的cDNA引物是设计在融合基因两端，要是发生融合，扩增得到的目的片段即为融合片段(测序得到的reads数≧30个)；若扩增不出，则说明没有发生融合，因而，这样的引物混合物通过高通量测序的方式对多个基因的融合情况进行的检测，相比其他检测结果也更准确。下面以ALK为例详细说明本发明的cDNA引物的设计原则。如图4所示，以其发生断裂的位点(箭头所指)为界，5’端的片段记为A1，3’端的片段记为A2；同样，与其发生融合的基因EML4的断裂位点的5’端片段记为B1，3’端的片段记为B2。ALK发生融合的片段均是其3’端，而与其发生融合的基因(如EML4)均位于5’端。因此，上游引物设计在EML4等与其发生融合的基因上，下游引物设计在ALK或ROS1上。

在本发明的上述文库构建方法中，通过采用本发明的上述引物混合物进行扩增得到目的片段的步骤，如常规PCR反应一般简单，大大提高了扩增效率和后续的检测效率。为了进一步提高目的片段的连接效率，以提高后续文库测序数据中的有效数据量，在本发明一种典型的实施例中，在上述步骤S1之后以及步骤S2之前，上述方法还包括对多个目标片段两端的引物序列进行消化的步骤，经引物消化后，目标片段可与接头连接。

在本发明的上述文库构建方法中，当采用上述cDNA引物混合物对多个目标区域进行多重PCR时，根据扩增目的片段的量的需要，可以对上述多重PCR条件进行适当调整。在本发明一种优选的实施例中，在步骤S1中，当采用cDNA引物混合物对多个目标区域进行多重PCR时，多重PCR的条件为：第一步：96～99℃预变性2～4min；第二步：96～99℃变性15～20s；第三步：58～60℃退火延伸4～5min；然后第二步至第三步循环28～32次，最后，4-10℃保温。利用上述cDNA引物混合物在上述反应条件下反应得到的目的片段的特异性和扩增效率比较好，能够满足建库所需。在本发明一种更优选的实施例中，上述多重PCR的条件为：第一步：99℃预变性2min；第二步：99℃变性15s；第三步：60℃退火延伸4min；然后第二步至第三步循环30次，最后，10℃保温。采用上述反应条件扩增的目的片段的特异性更好，扩增效率也更高。

类似地，在本发明的上述文库构建方法中，当采用上述DNA引物混合物对多个目标区域进行多重PCR时，根据所包含的引物的多少以及所需扩增目的片段的量的多少，可以对上述多重PCR条件进行适当调整。在本发明一种优选的实施例中，在步骤S1中，当采用DNA引物混合物对多个目标区域进行多重PCR时，多重PCR的条件为：第一步：96～99℃预变性2～4min；第二步：96～99℃变性15～20s；第三步：58～60℃退火延伸4～5min；然后第二步至第三步循环18～25次，最后，4-10℃保温。利用上述DNA引物混合物在上述反应条件下反应得到的目的片段的特异性和扩增效率比较好，能够满足建库所需。在本发明一种更优选的实施例中，上述多重PCR的条件为：第一步：99℃预变性2min；第二步：99℃变性15s；第三步：60℃退火延伸4min；然后第二步至第三步循环21次，最后，10℃保温。采用上述反应条件扩增的目的片段的特异性更好，扩增效率也更高。

在本发明另一种典型的实施方式中，还提供了一种高通量测序文库，该文库通过上述任一种构建方法构建而成。采用本发明的方法所构建的高通量测序文库，因同时包含多样本、多基因的多突变类型，因而能够对多样本、多基因的突变类型进行同时检测，能大大提高检测效率及准确性。

下面将结合具体的实施例来进一步说明本发明的有益效果。

需要说明的是，下列实施例中如无特殊标注，所有试剂均来自于LifeTechnologies公司。

1.从1个肺组织的FFPE(福尔马林固定石蜡包埋)样本中提取核酸并纯化。

2.Qubit(荧光定量计)对DNA和RNA分别进行定量，确定样本的DNA浓度为20.5ng/μl，RNA浓度为15.6ng/μl。

3.利用表1所示的反转录体系，在42℃保持30min；然后升温至85℃保持5min；最后在10℃保温的反转录反应条件下，对RNA进行反转录，得到cDNA。

表1：

试剂	体体
		反转录反	1μl
反转录反应液	2μl
		RNA	7ul(10ng)

4.多重PCR扩增：

以上述来源于同一样本的DNA和cDNA为模板，利用表2所示的DNA扩增体系和表3所示的cDNA扩增体系，进行多重PCR扩增，得到多个目的片段。

表2：

试剂	体体
		引物混合物1	10μl
反混合液1	4μl
		DNA	6ul(10ng)

表3：

引物混合物2	4μl
		反混合液2	4μl
cDNA	12ul(10ng)

上述多重PCR扩增中，引物混合物1是包含扩增EGFR基因上21个目的片段、KRAS基因上7个目的片段、PIK3CA基因上4个目的片段以及BRAF基因上1个目的片段的引物混合物，即包括了SEQ ID NO:5至SEQ ID NO:70的33对引物序列。引物混合物2是包含扩增ALK和Ros1基因的引物序列，即包括了SEQ ID NO:1至SEQ ID NO:4的2对引物序列。

其中，上述DNA多重PCR扩增的反应条件为：第一步：99℃预变性2min；第二步：99℃变性15s，第三步：60℃退火延伸4min；重复第二步至第三步骤，21次；第六步：10℃保温，结束反应。

上述cDNA扩增反应条件：第一步：99℃预变性2min；第二步：99℃变性15s，第三步：60℃退火延伸4min；重复第二步至第三步骤，30次；第六步：10℃保温，结束反应。

为检测本发明的引物混合物的扩增特异性和扩增效率，此处对本发明以及现有技术的两对引物(SEQ ID NO:81和SEQ ID NO:82与SEQ ID NO:83和SEQ ID NO:84)分别进行扩增以及以引物混合物的形式进行单独扩增，然后用本发明的33引物形成的DNA引物混合物和4对引物形成的cDNA引物混合物也分别进行扩增效率检测，检测结果分别见图2和图3。

上述现有技术中的两对引物的具体序列如下：

SEQ ID NO:81：5'CCTTGTCTCTGTGTTCTTGTCCC3'；

SEQ ID NO:82：5'GGACCTTACCTTATACACCGTGC3'；

SEQ ID NO:83：5'ACATCCACCCAGATCACTGGG3'；

SEQ ID NO:84：5'GTTGGCTTTCGGAGATGTTGC3'。

其中，SEQ ID NO:81和SEQ ID NO:82是针对EGFR 18外显子p.G719A(Cosmic6239)的扩增引物；SEQ ID NO:83和SEQ ID NO:84是针对EGFR 19外显子p.E746_A750del(Cosmic6225)的扩增引物。

在图2中，从左到右依次是现有技术中的引物对SEQ ID NO:81和SEQ ID NO:82的扩增产物、SEQ ID NO:83和SEQ ID NO:84的扩增产物、SEQ ID NO:81和SEQ ID NO:82与SEQID NO:83和SEQ ID NO:84混合后的扩增产物、DNA分子标记、与本发明所设计的针对EGFR18外显子p.G719A的引物的扩增产物、针对EGFR 19外显子p.E746_A750del的引物的扩增产物、本发明的2对引物混合后扩增的产物。图3中，从左到右依次是：DNA分子标记、33对DNA引物混合物的扩增产物、7对cDNA引物混合物的扩增产物。在图2和图3中，DNA分子标记的大小由下向上依次是100bp、200bp、300bp、400bp、500bp，500bp为最亮条带。

从图2上可以看出，本发明的引物和现有技术的引物在单独进行扩增的时候，扩增效率或扩增特异性都很强；但现有技术的引物混合物和本发明的引物混合物的扩增的条带来看，现有技术的引物混合物之间会相互影响从而使扩增效率低或扩增特异性很差，因而只能扩增出其中一条；而本发明的引物混合物的扩增特异性强，两条引物仍都能高效扩增。而且，从图3来看，本发明多达33对引物混合而成的引物混合物都能够进行高效、特异性扩增。因而，当采用更少对的引物组合形成的引物混合物在扩增时，更能保持很高的扩增效率和扩增特异性。

5.目的片段中两端的引物消化：

将上述DNA扩增产物与cDNA扩增产物分别按照下列消化反应体系，在下述反应条件下进行消化反应。

消化的反应体系为：20ul扩增产物+2ul FuPa反反应液；

消化的反应条件为：先在50℃消化10min；然后在55℃消化10min；再在60℃消化20min；最后在10℃下保温，结束消化过程。

6.连接接头：

将上述两端引物消化后的DNA扩增产物和cDNA扩增产物进行等量混匀，然后按照表4所示的接头连接体系，在1)22℃保持30min；2)72℃保持10min；3)10℃保温结束的连接接头反应条件下进行接头连接步骤。

表4：

试剂	体体
		接头P1	1μl
带标带的接头A	1μl
		样品	22ul
连接反应液	4ul
		连接反	2ul

其中，带标带的接头A序列如SEQ ID NO:85和SEQ ID NO:86所示：

SEQ ID NO:85：5'CCATCTCATCCCT*G*CGTGTCTCCGACTCAGCTAAGGTAACGAT 3'

SEQ ID NO:86：3'CGCACAGAGGCTGAGTCGATTCCATTGCTA 5'

接头P1序列如SEQ ID NO:87和SEQ ID NO:88所示：

SEQ ID NO:87：5'CCACTACGCCTCCGCTTTCCTCTCTATGGGCAGTCGGTGAT 3'

SEQ ID NO:88：3'T*T*GGTGATGCGGAGGCGAAAGGAGAGATACCCGTCAGCCACTA5'。(即5’ATCACCGACTGCCCATAGAGAGGAAAGCGGAGGCGTAGTGGTT3’)其中CTAAGGTAAC为Barcode序列；*表示硫代磷酸酯键。

7.乳液PCR：

将上述接头连接后的产物进行磁珠纯化后经qPCR定量，将产物稀释到100pM，然后进行乳液PCR。其中，乳液PCR反应的体系如表5所示，反应条件为在仪器上选择Proton：IonPI Template OT2 200kit V3；在one touch 2仪器上进行乳液PCR，得到用于高通量测序的文库，之后进行高通量测序前的模板富集。

表5：

试剂	体体
		乳液PCR反应液	1920ul
乳液PCR反混合液	120ul
		ISP微珠	100ul
文库	10ul
		水	250ul

8.在DA8600基因测序仪进行上测序。

9.数据分析。高通量测序后，各基因的各位点分别按照以下方式进行分析：

1)检测SNP：查看覆盖到上述要检测SNP位点的序列数(reads数)在该位点是否有要检测的突变碱基型，当该位点存在突变碱基且突变比例大于等于5％时，则认为该位置的碱基发生了该突变。如EGFRp.L858R：查看覆盖到chr7:55259515位置的序列数中是否有序列数在该位置是G碱基，若有统计G碱基在这个位置所占的比例，若大于等于5％，则认为该位置发生了单碱基突变。结果检测见表6，其中BRAF存在1个SNP，PIK3CA存在4个SNP，KRAS存在7个SNP，EGFR存在7个SNP。

2)检测插入(insertion)：查看覆盖到上述要检测插入位点的序列数是否在该位点之后有相应的插入碱基序列，当该位点存在插入碱基序列且插入碱基序列的比例大于等于5％，则认为该位置发生了插入突变。如EGFRp.H773_V774insH：查看覆盖到chr7:55249021的序列数中是否有在该位置之后的碱基序列为CAC的，存在插入碱基序列且插入碱基序列的比例大于等于5％，则认为该位置发生了插入突变。结果检测见表6，其中EGFR存在3个插入突变。

3)检测缺失(deletion)：查看覆盖到上述要检测的缺失位点的序列数是否有在该位点之后有相应长度的缺失碱基序列，若有且这种序列数的比例大于等于5％，则该位置发生了缺失。如EGFRp.L747_E749delLRE：查看覆盖到chr7:55242476位置的序列数中是否有在该位置之后的TTAAGAGAA序列发生缺失，若有且比例大于等于5％，则说明该位置发生了缺失突变。结果检测见表6，其中EGFR存在8个缺失突变。

4)检测复杂型缺失(complex deletion)：所谓复杂型缺失是指在缺失位点之后有一定长度的碱基序列被替换成一个碱基。因而，查看覆盖度上述要检测的复杂型缺失位点的序列数是否有在该位置之后有相应长度的碱基序列被替换成一个碱基，若有且这种序列数的比例大于等于5％，则该位置发生了复杂型缺失。如EGFRp.L747_A750>P：查看覆盖到chr7:55242468位置的序列数中是否有在该位置之后的TTAAGAGAAG序列被替换成C碱基，若有且比例大于等于5％，则说明该位置发生了该突变。结果检测见表6，其中EGFR存在3个上述复杂型的缺失。

5)检测融合：查看测序序列中是否存在融合基因形式的reads(不少于30条)，若存在，则说明存在该融合。具体检测结果见表7。

表6：DNA水平检测结果

附：在上表6中：

染色体：chr7表示7号染色体；

突变位置：140453136表示7号染色体上第140453136位点；

测序深度：868,820,152,188：其中868表示支持野生型的测序片段中比对到正链的个数，820表示支持野生型的测序片段中比对到负链的个数，152表示支持突变型的测序片段中比对到正链的个数，188表示支持突变型的测序片段中比对到负链的个数；

突变频率：0表示野生型，非0表示发生突变。比如0.17表示发生突变。

碱基变化：c.1799T>A表示BRAF基因编码区1799位点T碱基突变成A碱基；2239_2253缺失15个碱基表示EGFR基因编码区2239位点到2253位点之间的15个碱基发生缺失；c.2239_2247缺失TTAAGAGAA表示EGFR基因编码区2239位点到2247位点之间的TTAAGAGAA碱基序列发生缺失；2239_2248TTAAGAGAAG>C表示EGFR基因编码区2239位点到2248位点之间的TTAAGAGAAG碱基序列突变成C；2307_2308插入GCCAGCGTG表示EGFR基因编码区2307位点与2308位点间插入GCCAGCGTG；c.2237_2255>T表示EGFR基因编码区2237位点到2255位点的碱基序列突变成T。

氨基酸变化：p.V600E表示BRAF基因第600个氨基酸由V突变为E；p.L747_T751

缺失LREAT表示EGFR基因747到751处LREAT这5个氨基酸发生缺失；p.L747_A750>P表示EGFR基因747到750氨基酸突变为P；V769_D770插入ASV表示EGFR基因769和770个氨基酸之间插入了ASV这3个氨基酸。

表7：RNA水平检测结果

附：上述表7中：

融合类型：EML4-ALK表示EML4基因和ALK基因发生融合。

外显子拼接：“；”之前的表示5’端的融合基因的片段，“；”之后表示的是3’端的融合基因的片段。如E13；A20表示EML4基因的第13个外显子和ALK基因的第20个外显子发生融合。E6ins33；A20表示EML4基因第6个外显子连接33bp内含子后与ALK基因的第20个外显子发生融合。

突变reads：5060表示测序数据中融合形式的reads数是5060条，即发生融合。

从上表6和7的测序数据及分析结果来看，本发明通过采用33对DNA引物混合物得到的目的片段与7对cDNA引物混合物得到的目的片段同时进行文库构建，而且能够同时测序得到40个目的片段的测序数据，并根据各目的片段的测序数据检测分析共计40个位点的突变情况。不仅简化工作流程、提高检测效率，而且还大大降低检测成本。此外，本发明的cDNA引物的设计原则是在发生融合的两个基因上设计上下游引物，并通过对各种可能的融合基因进行扩增，

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：通过采用本发明所提供的DNA引物混合物(扩增EGFR、KRAS、PIK3CA、BRAF的引物序列)和cDNA引物混合物(扩增ALK和Ros1的引物序列)，能够从微量的(福尔马林固定后石蜡包埋的组织)样本中将EGFR、KRAS、PIK3CA、BRAF基因上的目的片段同时扩增出来，以及将ALK、Ros1基因可能发生的融合基因的目的片段同时扩增出来，然后通过将所有的目的片段混合在一起进行高通量测序，并通过数据分析，能够得到各基因的各目的片段中所存在的突变位点的变异类型。

与现有的常规检测方法(ARMS、Sanger测序法、RT-PCR法、FISH)相比，本发明所提供的高通量测序文库，使得上述基因突变的检测可以借助于高通量测序的优势，能够同时检测多个基因的多种类型的位点，覆盖面广，通量高，性价比高。与其它高通量测序方法相比，本发明所提供的文库构建方法是基于多重PCR的高通量测序文库构建方法，步骤简单，操作时间短，且后续通过高通量测序更能够满足多基因、多位点、多突变类型的平行检测需求。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高通量测序文库的构建方法，其特征在于，所述构建方法包括以下步骤：

S1，利用引物混合物对多个目标区域进行多重PCR，得到多个目标片段；

S2，对多个所述目标片段进行接头连接，得到多个带接头的目标片段；以及

S3，对多个所述带接头的目标片段进行乳液PCR，得到所述高通量测序文库；

其中，所述引物混合物为cDNA引物混合物，或者所述引物混合物为cDNA引物混合物和DNA引物混合物；

当所述引物混合物为cDNA引物混合物时，所述cDNA引物混合物包括SEQ ID NO：1和SEQID NO：2所示的第1对引物以及SEQ ID NO：3和SEQ ID NO：4所示的第2对引物；

当所述引物混合物为DNA引物混合物时，所述DNA引物混合物包括SEQ ID NO：5和SEQID NO：6所示的第3对引物以及SEQ ID NO：7和SEQ ID NO：8所示的第4对引物。

2.根据权利要求1所述的构建方法，其特征在于，当所述引物混合物为DNA引物混合物时，所述DNA引物混合物还包括SEQ ID NO：9和SEQ ID NO：10所示的第5对引物、SEQ ID NO：11和SEQ ID NO：12所示的第6对引物以及SEQ ID NO：13和SEQ ID NO：14所示的第7对引物。

3.根据权利要求1所述的构建方法，其特征在于，当所述引物混合物为DNA引物混合物时，所述DNA引物混合物还包括SEQ ID NO：15和SEQ ID NO：16所示的第8对引物、SEQ IDNO：17和SEQ ID NO：18所示的第9对引物、SEQ ID NO：19和SEQ ID NO：20所示的第10对引物、SEQ ID NO：21和SEQ ID NO：22所示的第11对引物、SEQ ID NO：23和SEQ ID NO：24所示的第12对引物、SEQ ID NO：25和SEQ ID NO：26所示的第13对引物以及SEQ ID NO：27和SEQID NO：28所示的第14对引物。

4.根据权利要求1至3中任一项所述的构建方法，其特征在于，当所述引物混合物为DNA引物混合物时，所述DNA引物混合物还包括SEQ ID NO：29和SEQ ID NO：30所示的第15对引物、SEQ ID NO：31和SEQ ID NO：32所示的第16对引物、SEQ ID NO：33和SEQ ID NO：34所示的第17对引物、SEQ ID NO：35和SEQ ID NO：36所示的第18对引物、SEQ ID NO：37和SEQ IDNO：38所示的第19对引物、SEQ ID NO：39和SEQ ID NO：40所示的第20对引物以及SEQ IDNO：41和SEQ ID NO：42所示的第21对引物。

5.根据权利要求4所述的构建方法，其特征在于，当所述引物混合物为DNA引物混合物时，所述DNA引物混合物还包括SEQ ID NO：43和SEQ ID NO：44所示的第22对引物、SEQ IDNO：45和SEQ ID NO：46所示的第23对引物、SEQ ID NO：47和SEQ ID NO：48所示的第24对引物、SEQ ID NO：49和SEQ ID NO：50所示的第25对引物、SEQ ID NO：51和SEQ ID NO：52所示的第26对引物、SEQ ID NO：53和SEQ ID NO：54所示的第27对引物以及SEQ ID NO：55和SEQID NO：56所示的第28对引物。

6.根据权利要求5所述的构建方法，其特征在于，当所述引物混合物为DNA引物混合物时，所述DNA引物混合物还包括SEQ ID NO：57和SEQ ID NO：58所示的第29对引物、SEQ IDNO：59和SEQ ID NO：60所示的第30对引物、SEQ ID NO：61和SEQ ID NO：62所示的第31对引物、SEQ ID NO：63和SEQ ID NO：64所示的第32对引物、SEQ ID NO：65和SEQ ID NO：66所示的第33对引物、SEQ ID NO：67和SEQ ID NO：68所示的第34对引物以及SEQ ID NO：69和SEQID NO：70所示的第35对引物。

7.根据权利要求1所述的构建方法，其特征在于，当所述引物混合物为cDNA引物混合物时，所述cDNA引物混合物还包括SEQ ID NO：71和SEQ ID NO：72所示的第36对引物以及SEQID NO：73和SEQ ID NO：74所示的第37对引物。

8.根据权利要求1所述的构建方法，其特征在于，当所述引物混合物为cDNA引物混合物时，所述cDNA引物混合物还包括SEQ ID NO：75和SEQ ID NO：76所示的第38对引物、SEQ IDNO：77和SEQ ID NO：78所示的第39对引物以及SEQ ID NO：79和SEQ ID NO：80所示的第40对引物。

9.根据权利要求1所述的构建方法，其特征在于，在所述步骤S1之后，以及所述步骤S2之前，所述方法还包括对多个所述目标片段两端的引物序列进行消化的步骤。

10.根据权利要求1所述的构建方法，其特征在于，在所述步骤S1中，

当采用所述cDNA引物混合物对多个目标区域进行多重PCR时，所述多重PCR的条件为：第一步：96～99℃预变性2～4min；第二步：96～99℃变性15～20s；第三步：58～60℃退火延伸4～5min；然后第二步至第三步循环28～32次，最后，4～10℃保温；

当采用所述DNA引物混合物对多个目标区域进行多重PCR时，所述多重PCR的条件为：第一步：96～99℃预变性2～4min；第二步：96～99℃变性15～20s；第三步：58～60℃退火延伸4～5min；第二步至第三步循环18～25次，最后，4～10℃保温。