CN112301430B

CN112301430B - 一种建库方法及应用

Info

Publication number: CN112301430B
Application number: CN201910694844.3A
Authority: CN
Inventors: 郑乔松; 师晓; 焦宇辰; 陈敏; 张凯华; 王思振; 阎海
Original assignee: Genetron Health Beijing Co ltd
Current assignee: Genetron Health Beijing Co ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2022-05-17
Anticipated expiration: 2039-07-30
Also published as: WO2021018127A1; EP3995588A1; EP3995588A4; US20220267760A1; KR20220077907A; CN112301430A

Abstract

本发明公开了一种建库方法及应用。本发明提供了一种用于检测待测样本目的基因待检区域的变异情况的扩增子文库构建方法，包括如下步骤：1)根据目标区域设计合成上游外引物F1、上游内引物F2和下游引物R；2)用所述上游外引物F1、所述上游内引物F2和所述下游内引物R对待测样本进行一步PCR扩增，得到扩增产物，即为目标区域的扩增子文库。该一步法建库技术可以应用于包括IonTorrent、illumina和BGI/MGI在内的所有二代平台，以此建库方法为基础，本发明开发出了针对DNA的SNP、Ins/Del、CNV、甲基化的检测，以及针对RNA样本的基因融合和表达的检测产品。

Description

一种建库方法及应用

技术领域

本发明涉及分子生物学技术领域，具体涉及一种建库方法及应用。

背景技术

一般来说，现阶段对目标区域序列进行测序分析，需要首先进行文库构建，而文库构建的方式总的来说不外乎捕获建库和扩增建库。

捕获建库相对来说是进行基因组较大区域，如几十、数百个基因全外显子区域的富集建库，而多重扩增建库是进行特定热点区域，或者个别基因的全外显子区域的靶向捕获并测序分析。

扩增建库方法，就是根据目标区域设计相应的特异性引物，之后使用这些引物对靶向序列进行多重扩增，需要注意的是，这些特异性引物会直接带有测序接头或者带有搭桥序列，之后经过二次PCR扩增，为其添加测序接头，这就是一般扩增建库的流程。现有的扩增建库方式在应用时会存在一些问题，如建库流程较为繁琐，需要至少两轮PCR扩增以及两次对应的文库纯化，手动操作时间较多，对建库人员要求高，不利于推广；引物设计、体系优化较为复杂；建库成本较高；整个建库流程所需的时间较长等弊端。

发明内容

针对扩增建库方式存在的各种问题，本发明提供了如下技术方案。

本发明一个目的是提供一种用于检测目的基因变异情况的扩增子文库构建的引物组合。

本发明提供的引物组合，包括：

根据目标扩增子设计的上游外引物F1、上游内引物F2和下游引物R；

所述上游外引物F1依次由测序接头序列1、用于区分不同样本的barcode序列和通用序列组成；

所述上游内引物F2依次由通用序列和所述目标扩增子的上游特异性引物序列组成；

所述下游外引物R依次由测序接头2和所述目标扩增子的下游特异性引物序列组成。

上述引物组合中，可选的，所述上游内引物F2依次由通用序列、分子标签序列和所述目标扩增子的上游特异性引物序列组成。

所述分子标签序列由6-30个碱基组成，包括随机碱基和0-N(N为≥0的整数) 组特定碱基；所述特定碱基设置于随机碱基中，设置例如，1组、2组、3组或4组；所述每组特定碱基由1-5个碱基组成，例如1个、2个、3个、4个或5个。

所述每组的碱基序列随意选择，所述分子标签序列用于区分不同的起始DNA模板分子，在一次文库构建过程中，所述分子标签序列中除特定碱基的位置和组成固定外，随机碱基的碱基类别(A、T、G、C)随意选择。

例如，在本发明的一个实施例中，所述特定碱基设置为一组或两组，序列为ACT和/或TGA；例如，在本实施例中，所述分子标签序列为NNNNNACTNNNNTGA，其中ACT和TGA为特定碱基，N为随机碱基，N为A、T、C或G。

上述引物组合中，所述测序接头1和所述测序接头2为根据不同测序平台选择对应的测序接头。

上述引物组合中，

所述测序平台为Illumina平台，所述测序接头1为I5，所述测序接头2为I7；

或所述测序平台为Ion Torrent平台，所述测序接头1为A，所述测序接头2为P；

或所述测序平台为BGI/MGI平台；

或，所述通用序列的核苷酸序列为序列1。

本发明另一个目的是提供一种用于检测目的基因变异情况的扩增子文库构建的试剂盒。

本发明提供的试剂盒，包括上述引物组合。

上述试剂盒中，还包括PCR扩增缓冲液和DNA聚合酶体系。

本发明另一个目的是提供上述引物组合或试剂盒的任一以下应用：

(1)在检测目的基因变异情况的扩增子文库构建中的应用；

(2)检测待测样本目标区域突变位点或变异情况中的应用；

(3)在检测待测样本目标区域的变异频率中的应用。

本发明还有一个目的是提供一种用于检测目的基因变异情况的扩增子文库构建方法。

本发明提供的方法，包括如下步骤：

用上述引物组合或上述试剂盒，以待测样本的DNA或cDNA为模板，进行一步 PCR扩增，得到扩增产物，即为目标基因的扩增子文库。

上述方法中，进行一步PCR扩增的扩增体系中上游外引物F1、上游内引物F2和下游引物R三者的摩尔比为：(5-20)：(1-20)：(5-20)。

上述方法中，所述待测样本为组织样本、冰冻样本、穿刺样本、FFPE样本、血液、尿液、脑脊液、胸水或其他体液。

上述方法在检测待测样本目的基因突变位点或变异情况中的应用。

上述方法在检测待测样本目的基因的变异频率中的应用。

由上述方法制备的扩增子文库也是本发明保护的范围。

本发明还有一个目的是提供一种检测待测样本目的基因的变异情况的方法。

本发明提供的方法，包括如下步骤：

1)用上述方法制备目的基因的扩增子文库；

2)将所有样本的目的基因的扩增子文库混匀后稀释，得到测序DNA文库；

3)测序所述测序DNA文库，得到测序结果，根据测序结果分析待测样本目的基因的变异情况。

上述方法中，可选的，

所述通用序列的核苷酸序列为序列1；

所述测序接头1的核苷酸序列为序列2；

所述测序接头2的核苷酸序列为序列17。

例如，当待测目的基因为EGFR时，可选的，对应的上游特异性引物序列和下游特异性引物序列分别为序列14和序列18，或，序列15和序列19，或，序列21和序列24，或，序列22和序列25；

当待测目的基因为ERBB2时，可选的，对应的上游特异性引物序列和下游特异性引物序列分别为序列16和序列20，或，序列23和序列26；

当待测目的基因为EML4时，可选的，对应的上游特异性引物序列和下游特异性引物序列分别为序列27和序列31，或，序列28和序列31；

当待测目的基因为LMNA时，可选的，对应的上游特异性引物序列和下游特异性引物序列分别为序列29和序列32；

当待测目的基因为MYC时，可选的，对应的上游特异性引物序列和下游特异性引物序列分别为序列30和序列33。

例如，所述barcode序列均为长度为6-12nt、无3个以上连续碱基，且GC含量为 40-60％的核苷酸；

所述通用序列1和所述通用序列2的长度一般为16-25nt，且无连续碱基，GC含量为35-65％，无明显二级结构；

例如，所述分子标签序列为包含6-15位随机碱基的序列；

包括但不限于上述序列；

在本发明的实施例中举例，用于区分不同样本的barcode序列分别为序列3-序列12；

变异情况可以为点突变，可以为缺失或者插入，也可以为片段融合。

为了解决目前建库的困难，本发明开发出了一步快速扩增建库方法，相对于传统捕获的方法，扩增建库方式具有以下优势(图1)，该建库方式简单快速，对操作人员要求低，仅需一个普通的PCR操作及相应反应时间，即可完成建库，由于该方法所建文库的质量和纯度都非常高，因此后续只需简单的一轮磁珠纯化和Qubit定量后即可进行正常的上机测序。该一步法建库技术可以应用于包括IonTorrent、illumina和 BGI/MGI在内的所有二代平台，以此建库方法为基础，本发明开发出了针对DNA的 SNP、Ins/Del、CNV、甲基化的检测，以及针对RNA样本的基因融合和表达的检测产品。

本发明由于采取以上技术方案，具有以下优点：

1、样本用量少，利用率高。样本中的原始模板分子捕获效率高，需要的起始模板量相对较少。在进行胚系突变检测时甚至只需要pg级别的起始模板量。进行 cfDNA的低频变异检测时，有限的起始模板量，可以实现更高的模板捕获效率，从而达到对痕量ctDNA分子的有效捕获，实现更低的检出限和更高的灵敏度；

2、超低检出限。独特的引物设计、配套的PCR反应体系、反应条件以及后续的信息分析降噪系统，最终实现了万分之三的最低突变检出限，使超早期、痕量ctDNA 样本突变的准确检出成为了可能；

3、文库均一性好。创新的引物结构设计，以及配套的反应体系使得文库中扩增子的均一性发挥到了最优水平。多重扩增由于各扩增子之间的序列结构特征以及各引物间的扩增效率不同，最终会造成文库扩增子丰度的千差万别，如何平衡扩增子丰度差异是评价文库质量的一个重要指标，而本方法所采用的3部分功能引物的组分构成，相对于之前的4组分版本，具有明显的优势，表现为，引物构成及反应体系相配合，保证了该方法可以将扩增子差异扩增控制在降低的循环数，而后采用类似于通用引物扩增的方式，由于不存在图5中R1和R2之间的竞争，所以在后续循环中达到了稳定低差异性扩增的目的；

4、高可重复性。4功能引物的组分构成会增加反应体系与反应条件的不确定性，对样本质量、反应体系及外部环境影响更敏感，而3功能引物的组分构成恰恰在这方面得到改善，更简单的体系构成使得体系的稳定性更高，样本检测的可重复性和准确性更高；

5、操作简便，节省时间。传统的建库捕获技术操作繁琐，流程长，整个建库流程需要近48h时间，对操作人员要求高，普通扩增建库方法需要至少两轮PCR以及两轮的纯化，包括后续的QPCR定量，整个建库流程需要至少一个工作日的时间。本发明只涉及一步PCR反应及对应产物纯化步骤，真个建库流程可在1.5h内完成，简化了建库的操作流程，节省建库时间(1.5小时内可完成建库，从文库构建到上机结束及生信分析完成的整个流程可控制在22小时内)；

6、可检测多基因种变异类型。以DNA样本起始，可检测SNP、SNV、Ins/Del、甲基化、基因或外显子水平的拷贝数变异以及染色体臂水平的拷贝数变异，除此之外，引物中添加分子标签后，还可检测低至1‰水平的突变，以RNA样本起始，可检测特定基因的表达、特定基因间发生的融合等；

7、多种样本类型。起始样本可以是新鲜组织样本、冰冻样本、穿刺样本以及 FFPE样本等组织样本类型，同时也可检测血液、尿液、脑脊液以及胸水等分离的cfDNA 或CTC等，正常的样本抽提DNA或RNA后，可接一步法快速扩增建库方法进行文库构建；

8、有效杜绝样本间交叉污染。在PCR起始便加入区分不同样本的barcode序列，且操作过程及步骤的简化有效的杜绝了建库过程中有可能造成的交叉污染，尤其是在检测低频变异时，样本间的交叉污染极有可能被判断为假阳性突变；

9、降低建库成本。与传统的捕获技术相比，该文库制备所需成本大大降低。传统捕获建库时所使用的捕获探针成本高，其冗长的实验流程所涉及的试剂耗材也给捕获建库增加了很大的成本，相对而言，一步法建库过程将试剂耗材的使用量大大减少，建库成本也较传统捕获建库方法低得多。同时，相较于一步法快速扩增建库方式而言，普通扩增建库方式多出来的至少一轮PCR和一轮纯化，以及文库的QPCR定量环节等，也会大大增加建库成本；3功能引物组成较之前4引物功能组成，在引物总量和引物各组分用量方面更低，所以也具有着更低的成本优势；

10、节省空间。由于本方法只需一轮PCR，因此实验室要求分室只需3个房间 (样本提取、PCR扩增间、文库纯化和测序)，与传统文库制备所需4房间(样本提取、PCR1、PCR2及文库纯化、测序)相比，节省空间需求。

灵活简单的建库方法、多种变异类型可检以及极高的检测灵敏度是本发明的最大特点。

附图说明

图1为一步法快速扩增建库技术的引物构成。

图2为快速扩增建库技术对模板扩增时的产物情况。

图3为BRCA1/2一步法引物池所构建文库的Agilent2200结果。

图4为BRCA1/2一步法引物池所构建文库的测序扩增子均一性情况。

图5为四功能引物与三功能引物各组分功能结构图示。

图6为三功能组分引物和四功能组分引物池所建文库的均一性结果。

图7为30ng cfDNA使用一步法引物池进行文库构建，数据分析后所得的其中一个扩增子的簇数(分子标签种类数)。

图8为两种方法所建文库测序后，在0.1‰-1‰水平的背景噪音。

图9为实施例2所建文库的Agilent 2200TapeStation结果。

图10为实施例3所建文库的Agilent 2200TapeStation结果。

图11为实施例4所建文库的Agilent 2200TapeStation结果。

图12为RNA检测基因融合panel的文库经2200检测结果；上左为本发明方法、上右为对比先前专利方法，下表为两种方法的目的片段主峰占比的具体统计数据。

具体实施方式

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。

下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1、一步法扩增子测序文库的建库的引物设计和合成

一、一步法扩增子测序文库的建库的引物设计

本发明用以构建二代测序文库的扩增建库方法，该方法具体所涉及到的引物结构情况如下(见图1)：

上游外引物F1：5’-测序接头序列1+Barcode序列+通用序列-3’；

上游内引物F2:5’-通用序列+分子标签序列+基因上游特异性引物序列-3’；

或上游内引物F2:5’-通用序列+基因上游特异性引物序列-3’(检测低频突变时需要加分子标签，检测组织样本可以不加分子标签)；

下游引物R:5’-测序接头序列2+基因下游特异性引物序列-3’。

在检测低频突变的时候，所述上游内引物F2的结构为:5’-通用序列+分子标签序列+基因上游特异性引物序列-3’。

其中，barcode序列是用来区分不同样本的核酸序列；一个待测样本对应一个barcode序列，此Barcode序列长度为6-12nt，要求无3个以上连续碱基，GC含量为 40-60％，引入Barcode序列的引物无明显二级结构等。

上游外引物F1是用来区分不同样本，只要是同一样本，上游外引物F1均相同，与检测位点无关。

分子标签序列用来标记不同的起始DNA模板分子(不同扩增子的模板)，一种起始DNA模板分子对应一种分子标签序列。

所述分子标签序列包括随机碱基和至少一组特定碱基，特定碱基设置于随机碱基中，设置例如，1组或2组；所述每组特定碱基由1-5个碱基组成，例如，3个或4个。在一次文库构建过程中，所述分子标签序列中除特定碱基的位置和组成固定外，随机碱基的碱基类别(A、T、G、C)随意选择。

通过分子标签序列来对测序结果的起始模板进行分类，就可以排除扩增错误及测序错误。本实施例采用的是特定碱基为2种：ACT和TGA，可单独或组合使用。

基因上游特异性引物序列和基因下游特异性引物序列是扩增特定目标区域的引物序列(分别包括了用来扩增不同靶向区域所需的各上游引物及对应下游引物)；

通用序列1分别为一段特定核酸序列，该序列可根据实际需要变化，长度为 16-25nt，且无连续碱基，GC含量为35-65％，无明显二级结构。

本实施例采用的是通用序列GGCACCCGAGAATTCCA(序列1)，大小17nt；

测序接头序列1和测序接头序列2为测序时在引物上需要引入的特定序列，具体可对应Ion Torrent、Illumina或者BGISEQ/MGISEQ测序平台。

如果测序平台为Illumina平台，测序接头序列1和2分别为I5和I7，接头序列和芯片上的引物序列是互补的，加接头是为了把核酸片段连接到载体上。

如果测序平台为Ion Torrent平台，测序接头序列1和2分别为A和P，A接头用来测序，与测序引物互补，P接头与载体上序列互补，用来将模板与载体连接。

如果测序平台为BIISEQ/MGISEQ平台，测序接头为测序所需，满足单链环化需要、后续DNB制备以及上机测序所需的特定序列。

二代测序文库上机测序时会同时进行多个样本的检测，因此，会设计出成套的上游外引物F1，M条上游外引物F1对应M个样本，每条上游外引物F1中的barcode 序列不同；根据每个样本上的靶向捕获的区域所需的扩增子数P，设计P个上游内引物F2和对应的Q(一般情况下P＝Q，但也存在二者不等情况，例如，RNA融合基因检测时)个下游引物R，P个上游内引物F2中的分子标签结构均相同。

二、一步法扩增子测序文库的扩增原理

一步快速扩增建库技术引物设计如上所述，在对模板DNA/RNA进行扩增时，遵循图2所示情况，上游外引物F1和上游内引物F2共有通用序列，因此上游外引物F1 可以以上游内引物F2为模板，从而为目标序列添加测序接头和样本barcode序列。扩增时，上游内引物MIX1(多个扩增子的上游引物F2按特定比例混合成的MIX1)和下游引物MIX2(多个扩增子对应的下游引物R按特定比例混合成的MIX2)对模板进行第一个循环反应，产生带有F2和R的扩增产物；第二个循环反应时，除了上述两种PCR产物外，还会得到两端分别带有F2和R序列的产物；第三个循环反应，会开始产生带有完整测序文库完成结构序列的目标产物，但此时该产物只有一条链；之后，第四个循环就会产生带有完整两端接头序列的双链产物，由于上游外引物F1具有比上游内引物F2高的多的TM值，同时浓度也比上游内引物F2高的多，所以，后续会实现完整产物(也就是第四个循环PCR产物中红色虚线框标注的两种产物)的指数扩增，最终经过十几到几十个的循环反应过程，完成文库构建。

三、检测方法的建立

1、一步法扩增

将上述一合成的引物按照如下制备：

上游外引物F1加水溶解至引物浓度为100uM，上游内引物F2分别加水溶解至各引物浓度为100uM后，各引物按照等摩尔比例混合成上游外引物MIX1,下游引物R分别加水溶解至100uM后，按等摩尔比例混合成下游引物MIX2。

分别提取多个待测样本的基因组DNA。

向0.2ml的八连排管或96孔板中，依次加入表1所示的试剂(各类型核酸样本提取按照实施例所提供特定厂家试剂盒的说明书进行提取)：

表1某个样本的扩增体系

试剂	体积(μl)
		KAPA HiFi PCR Kits(包括但不限于该DNA聚合酶)	10
某个样本的基因组DNA(一般5-20ng gDNA)	1-10
		上游内引物MIX1(100uM)	0.01-5
上游外引物F1(100uM)	0.01-5
		下游引物MIX2(100uM)	0.01-5
DNAase-free H<sub>2</sub>O	补水至20

上述PCR扩增的程序如表2所示。

表2

PCR反应完成，得到的PCR产物即为扩增子文库。

2、磁珠纯化和Qubit定量

PCR反应结束后，用Beckman Coulter公司的Agencourt AMPure XP Kit(货号A63880/A63881/A63882)进行纯化。操作步骤如下：

1)提前30分钟取出Agilent court AMPure XP Kit，充分涡旋后，室温静置。

2)PCR反应结束后，将磁珠再次充分涡旋，向体系中加入24ul磁珠，反复吹打5 次以上或充分涡旋，室温静置5分钟。

3)将EP管转移至置于磁力架上，静置5分钟至溶液澄清后，用移液枪小心除去上清，注意不要触碰磁珠。

4)每管加入100ul新鲜配置的80％乙醇溶液，EP管置于磁力架上缓慢旋转2圈，静置5m，弃去上清。

5)5重复4步一次。

6)将EP管打开，室温静置，使液体挥发干净，以磁珠表面无光泽为准，注意不要过分干燥磁珠。

7)从磁力架上取下EP管，加入30ul PCR级纯化水，涡旋混匀后，室温静置10 分钟。

8)将上步的EP管置于磁力架上2分钟或直至溶液澄清后，用移液枪在远离磁石的一面小心吸取上清液，注意不要触碰磁珠。

得到纯化的扩增子文库。

将纯化的扩增子文库采用Qubit 2.0进行DNA文库浓度测定和Agilent 2200TapeStation Systems检测。

3、上机测序及结果分析

等浓度混和多个样本纯化的扩增子文库，然后稀释至100PM，得到用于扩增子测序的DNA文库。测序(所使用测序仪为Ion GeneStudio^TMS5Plus System,Thermofisher,A38195)，通过数据处理分析(S5Torrent Server)后得到检测样本的变异情况和变异频率。

带分子标签文库的变异频率计算方法如下：

因文库扩增过程对原始模板进行分子标记，变异频率的计算方法如下：

测序结果中，带有同一种分子标签的DNA分子定义为一个簇，带有同一种分子标签的DNA分子为一种初始DNA模板的扩增产物，即同一个原始模板扩增而来的一系列DNA分子；

确认该簇中的突变与否，若该簇中某一位置特定碱基类型的比例≥80％，则该簇记作有效簇，若有效簇中带有分子标签的突变的DNA分子数占比≥80％，则记为突变簇；

变异频率＝突变簇的数量/有效簇总的数量*100％。

备注：测序结果中同一簇的DNA分子(测序出的一条序列)数≥2才有统计意义

实施例2、一步法扩增子测序文库的构建及测序

一、一步法扩增子测序文库的建库的引物设计

本实验检测区域包含3个扩增子(EGFR L858R、19del以及ERBB2的插入突变)；

检测样本包括了2例冰冻肺癌组织样本(样本1、样本2)、4例肺癌FFPE(福尔马林固定石蜡包埋组织样本)样本(样本3、样本4、样本5、样本6)以及2例健康人白细胞样本(样本7、样本8)，上述8例样本变异情况已知。

根据3个扩增子(EGFR L858R、19del以及ERBB2的插入突变)设计表3所示的引物(本实施例采用8个Barcode序列)：

表3

测序接头适用于Ion GeneStudio^TMS5Plus System测序平台。

二、一步法扩增子测序文库

核酸提取纯化试剂盒(FFPE样本DNA提取：GeneRead DNA FFPE kit,Qiagen,180134；冰冻组织样本DNA提取：QIAamp DNA Mini Kit 250,QIAGEN,51306)。

1、一步法扩增

按照实施例1的三的1步骤进行，得到PCR产物。

扩增体系见表4。

表4扩增体系

试剂	体积(μl)
		KAPA HiFi PCR Kits(包括但不限于该DNA聚合酶)	10
某个样本的基因组DNA	5-20
		上游内引物MIX1(100uM)	1
上游外引物F1(100uM)	0.5
		下游引物MIX2(100uM)	0.5
DNAase-free H<sub>2</sub>O	补水至20

表5扩增程序

2、磁珠纯化和Qubit定量

按照实施例1的三的2步骤进行。

磁珠纯化(Agencourt AMPure XP,Beckman Coulter,A63880)回收PCR产物，使用Qubit 2.0进行DNA文库浓度测定和Agilent 2200TapeStation Systems检测。

Agilent 2200TapeStation Systems检测结果如图9所示。

3、上机测序及结果分析

将所有样本的PCR产物等浓度混样后稀释至100pM，得到用于上机测序的DNA 文库。

测序，结果如表6所示：

表6

EGFR:p.E746_A750delELREA表示EGFR基因第746-750个氨基酸ELREA(E:Glu 谷氨酸；L:Leu亮氨酸；R:Arg精氨酸；E:Glu谷氨酸；A:Ala丙氨酸)缺失；是EGFR 19del的一种；

EGFR:p.K745_E749delKELRE表示EGFR基因第745-749个氨基酸KELRE(K:Lys 赖氨酸；E:Glu谷氨酸；L:Leu亮氨酸；R:Arg精氨酸；E:Glu谷氨酸)缺失；是EGFR 19del的一种；

ERBB2:p.A775_G776insYVMA表示ERBB2基因第775丙氨酸(英文缩写为A)和 776甘氨酸(英文缩写为G)之间插入YVMA(Y:Tyr酪氨酸；V:Val缬氨酸；M:Met 甲硫氨酸；A:Ala丙氨酸)，与表3中的ERBB2对应。

63基因检测产品为北京泛生子基因科技有限公司肿瘤液体活检旗下产品，面向全部实体瘤患者，应用高通量、高精准度的二代测序技术，全面检测与肿瘤靶向治疗及发生发展紧密相关的63个基因位点的变异(包括58个基因的突变分析、10个基因的重排分析以及7个基因的CNV检测)，涵盖目标区域测序深度为20,000x，检测灵敏度可达0.1％。为精准用药、分子分型及疗效复发监控提供全面、高价值的参考信息。

上述结果表明，本发明方法建库后上机测序，所检组织样本点突变、缺失突变和插入突变与已知63基因检测所得样本变异信息一致。

实施例3、一步法扩增子测序文库的构建及测序

本实验样本为肺癌病人血浆样本，共包含4位不同患者和两位健康人的血浆样本(样本变异情况已知)，使用试剂盒(MagMAX^TMCell-Free DNA Isolation Kit,AppliedBiosystems^TM,A29319)提取cfDNA后，使用带有分子标签的包含有EGFR L858R、19del 以及ERBB2的插入突变的引物池进行文库构建。

一、一步法扩增子测序文库的建库的引物设计

根据3个扩增子(EGR L858R、19del以及ERBB2的插入突变)设计表7所示的引物(上游外引物相同，其它不同，此实施例中对应6个barcode序列)：

表7

二、一步法扩增子测序文库

1、一步法扩增

按照实施例1的三的1步骤进行，得到PCR产物。

表8扩增体系

试剂	体积(ul)
		KAPA HiFi PCR Kits(包括但不限于该DNA聚合酶)	10
某个样本的基因组DNA	5-20
		上游内引物MIX1(100uM)	0.5
上游外引物F1(100uM)	1
		下游引物MIX2(100uM)	1
DNAase-free H<sub>2</sub>O	补水至20

表9扩增程序

2、磁珠纯化和Qubit定量

按照实施例1的三的2步骤进行。

磁珠纯化(Agencourt AMPure XP,Beckman Coulter,A63880)回收PCR产物，进行Qubit 2.0进行DNA文库浓度测定和Agilent 2200TapeStation Systems检测。

Agilent 2200TapeStation Systems检测结果如图10所示。

3、上机测序及结果分析

将所有样本的PCR产物等浓度混样后稀释至100uM，得到用于扩增子测序的DNA 文库。

测序，结果如表10所示：

表10为4例组织样本和2例健康人样本的检测结果如下：

ERBB2:p.A775_G776insYVMA表示ERBB2基因第775丙氨酸(英文缩写为A)和 776甘氨酸(英文缩写为G)之间插入YVMA(Y:Tyr酪氨酸；V:Val缬氨酸；M:Met 甲硫氨酸；A:Ala丙氨酸)，与表7中的ERBB2对应。

本发明方法建库后上机测序，所检血浆cfDNA样本点突变、缺失突变和插入突变与已知63基因检测所得样本变异信息一致。患者1样本ctDNA提取量较多，将患者 1样本稀释5倍后，仍得到4.6‰频率的L858R的检出(数据Reads去重后：突变簇＝2；该位点总的簇＝4380)。

实施例4、一步法扩增子测序文库的构建及测序

本实验样本为3位带有基因融合的甲状腺癌病人的FNA穿刺样本(基因融合信息已知)和2例良性甲状腺结节患者的FNA穿刺样本，分别使用MagMAX^TMFFPE DNA/RNA UltraKit(Applied Biosystems^TM，A31881)找厂家说明书进行RNA样本提取，之后使用SuperScript^TMVILO^TMMasterMix(Invitrogen^TM，11755050)，按照厂家试剂盒说明书进行反转录。

一、一步法扩增子测序文库的建库的引物设计

根据基因融合设计表11所示的引物(上游外引物与表3相同，其它不同，此实施例中对应5个barcode序列)：基因融合的检测引物是设计在断点前后，没有固定的上下游引物搭配；针对融合断点设计的上下游引物，如下示例ALK_20与 ELM4_6/EML4_13分别组合，用以检测两种ALK-EML4融合形式

表11

二、一步法扩增子测序文库

1、一步法扩增

按照实施例1的三的1步骤进行，得到PCR产物。

表12扩增体系

试剂	体积
		Platinum multiplex PCR Master Mix	15ul
Thy RNA Fusion Panel	2ul
		Barcode(50uM)	1ul
cDNA	≤12ul
		ddH<sub>2</sub>O	补足到30ul

表13扩增程序

2、磁珠纯化和Qubit定量

按照实施例1的三的2步骤进行。

磁珠纯化(Agencourt AMPure XP,Beckman Coulter,A63880)回收PCR产物，进行Qubit 2.0进行DNA文库浓度测定和Agilent 2200 TapeStation Systems检测。

Agilent 2200 TapeStation Systems检测结果如图11所示。

3、上机测序及结果分析

测序，结果如表14所示：

表14基因融合检测结果对比

样本号	本发明方法	63基因检测
			患者1	EML4-ALK-V3a(E6a A20)	EML4-ALK-V3a(E6a A20)
患者2	EML4-ALK-V3b(E6b A20)	EML4-ALK-V3b(E6b A20)
			患者3	EML4-ALK-V1(E13 A20)	EML4-ALK-V1(E13 A20)
健康人1	无	无
			健康人2	无	无

EML4-ALK-V3a(E6a A20)对应表11中的EML4_6_和ALK_20；

EML4-ALK-V1(E13 A20)对应表11中的EML4_13_和ALK_20。

63基因检测产品使用安捷伦定制的探针进行捕获建库，该产品已经进行了数千例临床血浆样本的检测，产品性能稳定。

本发明方法建库后上机测序，所检样本融合变异形式与已知63基因检测所得样本变异信息一致。

上述各实施例仅用于说明本发明，其中各部件的结构、连接方式和制作工艺等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

实施例5、BRCA1/2一步法引物池

一、一步法扩增子测序文库的建库的引物设计

上游外引物与表3相同，其他不同，barcode根据建库样本数量而定。

表15为BRCA1/2引物集合

二、一步法扩增子测序文库

1、一步法扩增

以0.5pg健康人血浆白细胞gDNA为起始样本，按照实施例1的三的1步骤进行，得到PCR产物。

2、磁珠纯化和Qubit定量

按照实施例1的三的2步骤进行。

Agilent 2200检测结果如图3所示，所构建文库特异性高，无非特异性扩增产物及引物二聚体，所建文库质量高，可进行上机测序。

3、上机测序及结果分析

测序，结果如图4所示，测序分析结果显示，BRCA1/2检测文库的121个扩增子均一性良好，显示了本发明一步法文库构建技术在扩增子均一性方面的优越性，保证了数据的有效产出。

对比例、本发明方法的3条引物和现有技术4条引物的对比

一、一步法扩增子测序文库的建库的引物设计

3条引物和4条引物的设计结构如图5所示。

本发明：

根据实施例1的设计原则，设计本发明的3条引物：

上游外引物与表3相同，其中barcode序列为67种；上游内引物F2为表15中的P1_B2_F1至P1_B2_F67；

下游引物R为表15中的P1_B2_R1至P1_B2_R67；

对照：

根据如下现有技术原则设计4条引物：

设计原则：

Barcode引物F1：测序接头1+barcode序列+通用序列1；

上游内引物F2：通用序列1+分子标签+特定碱基序列+上游特异性引物序列；

下游外引物R1：测序接头2+通用序列2；

下游内引物R2：通用序列2+下游特异性引物序列；

上述测序接头1+barcode序列见表3所示。

其余见下表16：

表16

二、一步法扩增子测序文库

方法与实施例2得到二相同。

测序，结果分析如下：

1、三功能组分引物和四功能组分引物池所建文库的均一性结果

文库质量的好坏有一个很重要的指标，就是文库中扩增子的均一性，文库的均一性好意味着文库目标区域的覆盖度更高，panel覆盖区域的检测准确性也更理想。正是出于该目的，在保证引物总体功能架构完备的前提下，考虑将扩增子的引物设计进行改进，改进后的引物结构得以优化，由最初的F1+F2+R1+R2(4功能引物组分)简化为 F1+F2+R(3功能引物组分),这种设计会增加反应体系的稳定性，保证文库扩增子间的均一性。

以同一份白细胞DNA样本为模板，分别为上述本发明的引物组和对照引物组进行扩增。

结果如图6所示，在未调整特异性引物比例时，67个扩增子(实施例5中121对引物中挑选出的BRCA2的67对扩增子)文库的3功能引物组分与4功能引物组分所够建文库的扩增子均一性对比，3功能组分引物在文库均一性方面有显著优势。

2、30ng cfDNA使用一步法引物池进行文库构建，数据分析后所得的其中一个扩增子的分子标签种类数/簇数

以同一份cfDNA样本为模板，分别为上述本发明的引物组和对照引物组进行扩增。

结果如图7所示，与四功能组分引物相比，三功能组分引物组成具有较四功能组分引物组成更优的原始模板捕获效率，这使得超低频率的检出更加灵敏及稳定，图7 是三功能组分引物方式中随机选择的一个扩增子，建库后为原始模板添加标签后的数据信息。更高的模板捕获效率赋予了三功能组分引物方式更低的变异频率检出限。

3、两种方法所建文库测序后，在0.1‰-1‰水平的背景噪音(同2)

结果如图8，相较于四功能组分引物的扩增子建库方式，采用三功能组分引物后，模板的捕获效率得到有效提升，降低了文库的非特异性扩增，降低了文库扩增的循环数，同时，通过对两种扩增子建库方式对比发现，在均使用高保真DNA聚合酶的情况下，二者在万分之五水平的测序数据背景噪音方面，三功能组分引物方式更优，详见图8。更低的背景噪音使得三功能引物组分方式在检测较低频突变时更加的准确。

良好的扩增均一性，高效的原始模板分子捕获效率、高保真的DNA聚合酶以及超低的背景噪音，同时结合分子标签的引入，最终三功能引物组分实现了万分之三水平的超低频突变的有效检出。该建库方式的引物结构得到了充分优化，此建库方法的性能大大优于传统低频突变建库检测方式。

本发明的一步法快速建库方法、普通扩增建库以及捕获建库方法对比结果如表17和图12所示：

表17

扩增子文库构建完成后的体系中有可能会存在目标片段的扩增产物，引物二聚体或多聚体，以及非特异性扩增的片段产物，目标片段扩增产物占比高就成为了评价扩增子文库好坏的一个极为重要的指标。图12示例展示了本方法与对比方法在文库目标片段占比方面的巨大优势。

SEQUENCE LISTING

<110>北京泛生子基因科技有限公司

<120>一种建库方法及应用

<160> 33

<170> PatentIn version 3.5

<210> 1

<211> 17

<212> DNA

<213> Artificial sequence

<400> 1

ggcacccgag aattcca 17

<210> 2

<211> 30

<212> DNA

<213> Artificial sequence

<400> 2

ccatctcatc cctgcgtgtc tccgactcag 30

<210> 3

<211> 10

<212> DNA

<213> Artificial sequence

<400> 3

tcctcgaatc 10

<210> 4

<211> 10

<212> DNA

<213> Artificial sequence

<400> 4

taggtggttc 10

<210> 5

<211> 10

<212> DNA

<213> Artificial sequence

<400> 5

tctaacggac 10

<210> 6

<211> 10

<212> DNA

<213> Artificial sequence

<400> 6

ttggagtgtc 10

<210> 7

<211> 10

<212> DNA

<213> Artificial sequence

<400> 7

tctagaggtc 10

<210> 8

<211> 10

<212> DNA

<213> Artificial sequence

<400> 8

tctggatgac 10

<210> 9

<211> 10

<212> DNA

<213> Artificial sequence

<400> 9

tctattcgtc 10

<210> 10

<211> 10

<212> DNA

<213> Artificial sequence

<400> 10

aggcaattgc 10

<210> 11

<211> 10

<212> DNA

<213> Artificial sequence

<400> 11

ttagtcggac 10

<210> 12

<211> 10

<212> DNA

<213> Artificial sequence

<400> 12

cagatccatc 10

<210> 13

<211> 15

<212> DNA

<213> Artificial sequence

<220>

<221> misc_feature

<222> (1)..(5)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (9)..(12)

<223> n is a, c, g, or t

<400> 13

nnnnnactnn nntga 15

<210> 14

<211> 23

<212> DNA

<213> Artificial sequence

<400> 14

caggaacgta ctggtgaaaa cac 23

<210> 15

<211> 25

<212> DNA

<213> Artificial sequence

<400> 15

cttccttctc tctctgtcat aggga 25

<210> 16

<211> 21

<212> DNA

<213> Artificial sequence

<400> 16

ctcccatacc ctctcagcgt a 21

<210> 17

<211> 23

<212> DNA

<213> Artificial sequence

<400> 17

cctctctatg ggcagtcggt gat 23

<210> 18

<211> 23

<212> DNA

<213> Artificial sequence

<400> 18

gaaaatgctg gctgacctaa agc 23

<210> 19

<211> 23

<212> DNA

<213> Artificial sequence

<400> 19

agcaaagcag aaactcacat cga 23

<210> 20

<211> 21

<212> DNA

<213> Artificial sequence

<400> 20

agccataggg cataagctgt g 21

<210> 21

<211> 16

<212> DNA

<213> Artificial sequence

<400> 21

ggaggaccgt cgcttg 16

<210> 22

<211> 23

<212> DNA

<213> Artificial sequence

<400> 22

gtgagaaagt taaaattccc gtc 23

<210> 23

<211> 18

<212> DNA

<213> Artificial sequence

<400> 23

cccataccct ctcagcgt 18

<210> 24

<211> 26

<212> DNA

<213> Artificial sequence

<400> 24

cttctgcatg gtattctttc tcttcc 26

<210> 25

<211> 19

<212> DNA

<213> Artificial sequence

<400> 25

cacacagcaa agcagaaac 19

<210> 26

<211> 21

<212> DNA

<213> Artificial sequence

<400> 26

ccagaaggcg ggagacatat g 21

<210> 27

<211> 25

<212> DNA

<213> Artificial sequence

<400> 27

actgcagaca agcataaaga tgtca 25

<210> 28

<211> 22

<212> DNA

<213> Artificial sequence

<400> 28

actactgtag agcccacacc tg 22

<210> 29

<211> 20

<212> DNA

<213> Artificial sequence

<400> 29

ctgagaacag gctgcagacc 20

<210> 30

<211> 20

<212> DNA

<213> Artificial sequence

<400> 30

cctggtgctc catgaggaga 20

<210> 31

<211> 21

<212> DNA

<213> Artificial sequence

<400> 31

ctcagcttgt actcagggct c 21

<210> 32

<211> 19

<212> DNA

<213> Artificial sequence

<400> 32

actcacgctg cttcccatt 19

<210> 33

<211> 24

<212> DNA

<213> Artificial sequence

<400> 33

gtgatccaga ctctgacctt ttgc 24

Claims

1.一种用于检测目的基因变异情况的扩增子文库构建的引物组合，包括：

所述下游引物R依次由测序接头2和所述目标扩增子的下游特异性引物序列组成。

2.根据权利要求1所述的引物组合，其特征在于：所述上游内引物F2依次由通用序列、分子标签序列和所述目标扩增子的上游特异性引物序列组成。

3.根据权利要求2所述的引物组合，其特征在于：所述分子标签序列由6-30个碱基组成，包括随机碱基和至少一组特定碱基；所述特定碱基设置于随机碱基中；每组特定碱基由1-5个碱基组成；所述barcode序列为长度为6-12nt、无3个以上连续碱基，且GC含量为40-60%的核苷酸序列；

所述通用序列的长度为16-25nt，且无连续碱基，GC含量为35-65%，无明显二级结构。

4.根据权利要求1-3任一项所述的引物组合，其特征在于：所述测序接头1和所述测序接头2为根据不同测序平台选择对应的测序接头。

5.根据权利要求4所述的引物组合，其特征在于：

或所述测序平台为BGI/MGI平台；

或，所述通用序列的核苷酸序列为序列1。

6.一种用于检测目的基因变异情况的扩增子文库构建的试剂盒，其特征在于：包括权利要求1-3任一项所述的引物组合。

7.权利要求1-3任一项所述的引物组合或权利要求6所述试剂盒的任一以下应用：

（1）在检测目的基因变异情况的扩增子文库构建中的应用；

（2）检测待测样本目标区域突变位点或变异情况中的应用；

（3）在检测待测样本目标区域的变异频率中的应用。

8.一种用于检测目的基因变异情况的扩增子文库构建方法：包括如下步骤：

用权利要求1-3任一项所述的引物组合或权利要求6所述的试剂盒，以待测样本的DNA或cDNA为模板，进行一步PCR扩增，得到扩增产物，即为目标基因的扩增子文库。

9.根据权利要求8所述的方法，其特征在于，所述待测样本为组织样本、冰冻样本、穿刺样本、FFPE样本、血液、尿液、脑脊液或胸水。

10.一种检测待测样本目的基因的变异情况的方法，包括如下步骤：

1）用权利要求8所述的方法制备目的基因的扩增子文库；

2）将所有样本的目的基因的扩增子文库混匀后稀释，得到测序DNA文库；

3）测序所述测序DNA文库，得到测序结果，根据测序结果分析待测样本目的基因的变异情况。