CN111321208B

CN111321208B - 一种基于高通量测序的建库方法

Info

Publication number: CN111321208B
Application number: CN202010094903.6A
Authority: CN
Inventors: 吴渊; 毕书琳; 李旭超; 李健鹏; 周文刚; 郑方克; 郑立谋
Original assignee: Shanghai Xiawei Medical Laboratory Co ltd
Current assignee: Shanghai Xiawei Medical Laboratory Co ltd
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2023-10-03
Anticipated expiration: 2040-02-14
Also published as: CN111321208A

Abstract

本发明公开了一种基于高通量测序的建库方法。该方法适用于片段化后的基因组DNA/FFPE RNA/cfDNActDNA等核苷酸样本。进一步将核苷酸样本片段进行修饰与变性、接头连接，再通过对目标区进行两次特异性PCR反应富集，可得到测序文库。对上述测序文库进行质控和定量分析，可进行高通量测序。本发明还提供了一种模拟双链连接接头。该建库方法简单方便，保留了基于扩增子的多重PCR建库方法的优点，同时可以用于检测未知融合，尤其适用于片段化程度较高的核苷酸样本(例如cfDNA/ctDNA样本)，对于存在损伤的DNA分子也可以用于建库，本发明方法能够最大程度保留所有原始核苷酸信息，且使用该方法进行RNA建库时不需要进行二连合成操作。

Description

一种基于高通量测序的建库方法

技术领域

本发明属于生物技术领域，具体涉及一种基于高通量测序的建库方法。

背景技术

当今人类全基因组测序取得了巨大进展，但仍存在与该技术相关的解读数据库不够完整和准确、测序成本较高等问题，因此该技术较难分析某些富有挑战性的基因组区域。同时，该技术的高成本性及技术的复杂性限制了其在疾病、转化等特定基因组区域的应用。为此，针对特定基因组区域进行目标区富集的高通量测序建库的多种方法被广泛发展和应用，从而提高了覆盖率，并达到简化流程、降低成本的目的。本发明的建库方法即属于此种目标区富集的高通量测序建库方法。与本发明相关的现有技术包括如下三种：

现有技术一：基于探针捕获法的建库方法。

该建库方法的技术方案如图1A所示，包括以下步骤：(1)对片段化的核苷酸样本进行修饰，步骤包括(1)末端修复、补平和加A碱基；(2)使用T4 DNA连接酶将接头连接上核苷酸样本，接头尾端的T碱基可以与步骤(1)中加的A碱基配对，形成连接产物；(3)使用包含有标签、测序引物识别区的P5和P7引物对连接产物进行PCR扩增得到全基因组文库；(4)使用标记有生物素的探针捕获目标区，探针是针对目标区设计的，并带有生物素修饰；(5)利用链霉素和生物素的亲和特性，使用标记有链霉素的磁珠纯化出捕获产物，得到目标区富集的文库；(6)将文库进行高通量测序，得到目标区富集的高通量测序数据。

该建库方法存在以下缺点：(1)使用专用仪器真空泵将文库干燥脱水，再用杂交缓冲液溶解后，真空处理时容易导致交叉污染；(2)需要使用多种洗脱缓冲液对捕获产物进行清洗，去除非特异性结合，该步骤操作较为复杂，反应体系对温度敏感，实验员操作的熟练程度对目标产物的捕获效率影响较大；(3)如果存在有损伤的双链DNA分子(图1B)，则无法被顺利扩增，导致原始DNA信息的丢失；(4)如果核苷酸样本是RNA，需要将该RNA样本先逆转录成cDNA，经过进一步PCR扩增得到双链DNA分子才能进行后续连接建库操作，流程复杂，成本较高。

现有技术二：基于扩增子的多重PCR建库方法。

该建库方法的技术方案如图2A所示，包括以下步骤：(1)使用多组覆盖目标区的引物对(包括正向和反向引物)同时扩增核苷酸样本；(2)使用尿嘧啶-N-糖基化酶(UNG酶)切除扩增产物上的引物序列，进行末端修复、补平和加A碱基；(3)使用T4 DNA连接酶进行接头连接；(4)使用包含有标签、测序引物识别区引物对连接产物进行PCR扩增得到目标区富集的文库；(5)将文库进行高通量测序，得到目标区富集的高通量测序数据。

该建库方法存在以下缺点：(1)依赖明确的正向和反向引物对目标区进行的PCR扩增，因此不能用于未知类型融合突变的检测；(2)如果存在有损伤的双链DNA分子(图2B)，则无法被顺利扩增，导致原始DNA信息的丢失。

现有技术三：基于单端巢式多重PCR的建库方法。

该建库方法的技术方案如图3A所示，包括以下步骤：(1)对片段化的核苷酸样本进行修饰，步骤包括末端修复、补平和加A碱基，A碱基标记有生物素修饰；(2)使用T4 DNA连接酶将接头连接上核苷酸样本，接头尾端的T碱基可以与步骤(1)中加的A碱基配对，形成连接产物；(3)利用链霉素和生物素的亲和特性，使用标记有链霉素的磁珠纯化连接产物；(4)使用通用引物和基因特异引物1对连接产物进行PCR扩增，通用引物识别的是接头上的区域，基因特异引物识别的是基因上的目标区；(5)使用包含有标签、测序引物识别区的标签扩增引物I5和I7引物，和基因特异引物2对步骤(4)的产物进行PCR扩增，得到目标区富集的文库。基因特异引物1和基因特异引物2针对的是同一个目标区，扩增方向相同，且相较于基因特异引物1，基因特异引物2更靠近目标区；(6)将文库进行高通量测序，得到目标区富集的高通量测序数据。

上述建库方法存在以下缺点：(1)使用标记有生物素的磁珠富集连接产物，导致流程复杂，成本较高，反应体系对温度敏感，实验员操作的熟练程度直接影响到目标产物的捕获效率；(2)如果存在有损伤的双链DNA分子(图3B)，则无法被顺利扩增，导致原始DNA信息的丢失；(3)如果核苷酸样本是RNA，需要将该RNA样本先逆转录成cDNA，经过进一步PCR扩增得到双链DNA分子才能进行后续连接建库操作，流程复杂，成本较高。

发明内容

针对以上情况，本发明的主要目的是为克服现有技术中的缺陷，而提供一种基于高通量测序的建库方法。该方法简单方便，保留了基于扩增子的多重PCR建库方法的优点，同时可以用于检测未知融合，尤其适用于片段化程度较高的核苷酸样本(例如cfDNA/ctDNA)，对于存在损伤的DNA分子也可以用于建库，本发明所提供的方法能够最大程度保留所有原始信息，且使用该方法进行RNA建库时不需要进行二连合成操作。

为了实现上述目的，本发明提供如下完整的技术方案：

一种基于高通量测序的建库方法，其特征在于，包括以下步骤：

(1)准备片段化的核苷酸样本；

(2)热变性反应：去除上述核苷酸样本的5’端磷酸基团，然后将该核苷酸样本热变性成单链；

(3)接头反应：在该单链的末端连接模拟双链连接接头，得到连接产物；

(4)第一次目标区特异性PCR反应：使用第一基因特异性引物和通用引物对该连接产物进行第一次目标区特异性PCR反应富集，获得第一产物；

(5)第二次目标区特异性PCR反应：使用第二基因特异性引物和标签扩增引物对上述第一产物进行第二次目标区特异性PCR反应富集，获得第二产物，该第二产物为测序文库；

(6)高通量测序：对上述测序文库进行质控和定量分析，然后进行高通量测序；

上述第一基因特异性引物与上述第二基因特异性引物的扩增方向相同，且第二基因特异性引物相较于第一基因特异性引物更靠近于目标区；

上述分子标签序列可区分该连接产物、该第一产物和该第二产物中的目标基因片段的来源，该分子标签序列为3～16个碱基组成的随机简并碱基区域，该简并碱基为A、T、C或G；上述测序引物序列与通用引物序列的碱基互补配对；上述单链DNA识别区可识别目标基因，该单链DNA识别区为随机简并碱基区域，该简并碱基为A、T、C或G，该简并碱基具有硫代修饰；

上述模拟双链连接接头由第一链和第二链组成，该第一链包括按照5’到3’方向依次排列的磷酸化末端、第一接头骨架序列、分子标签序列、测序引物序列和双脱氧末端；该第二链包括按照3’到5’方向依次排列的双脱氧末端、单链DNA识别区和第二接头骨架序列；该第一接头骨架序列与该第二接头骨架序列为碱基互补配对的核酸序列。

进一步地，该通用引物的序列为5’-ACACTCTTTCCCTACACGAC-3’(SEQ ID NO.001)。

进一步地，该标签扩增引物包括标签扩增引物I7：

5’-AATGATACGGCGACCACCGAGATCTACACCAGTGACTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’(SEQ ID NO.002)和标签扩增引物I5：

5’-CAAGCAGAAGACGGCATACGAGATACTACTCTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’；(SEQ ID NO.003)。

进一步地，上述第二基因特异性引物的5’端具有上述标签扩增引物I5的识别序列，该识别序列的核苷酸序列为5’-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’(SEQ IDNO.004)。

在本发明的一个优选实施方案中，上述第一次目标区特异性PCR反应包括配制第一次特异性PCR反应体系，进行第一PCR扩增，经分离纯化后获得第一产物；该第一次特异性PCR反应体系包括多重PCR酶、通用引物、第一基因特异性引物和上述连接产物；，其中第一基因特异性引物(Gene Specific Primer 1，GSP1)为覆盖多个目标区的基因特异性引物混合物；

在本发明的一个优选实施方案中，上述第二次目标区特异性PCR反应包括配制第二次特异性PCR反应体系，进行第二PCR扩增，经分离纯化后获得第二产物；该第二次特异性PCR反应体系包括多重PCR酶、第二基因特异性引物、标签扩增引物和上述第一产物；其中第二基因特异性引物(Gene Specific Primer 2，GSP2)为覆盖多个目标区的基因特异性引物混合物，上述第二基因特异性引物(Gene Specific Primer 1，GSP2)识别目标基因的序列位于该引物的3’端，该引物的5’端为标签扩增引物识别区；

上述多重PCR酶包括Phusion U Multiplex PCR Master Mix。

进一步地，该核苷酸样本包括基因组DNA样本、FFPE RNA样本和cfDNA/ctDNA样本。

在本发明的一个优选实施方案中，上述第一链由按照5’到3’方向依次排列的该磷酸化末端、该第一接头骨架序列、该分子标签序列、该测序引物序列和该双脱氧末端组成；上述第二链由按照3’到5’方向依次排列的该双脱氧末端、该单链DNA识别区和该第二接头骨架序列组成。

本发明的另一目的，在于提供一种用于高通量测序的模拟双链连接接头，该模拟双链连接接头由第一链和第二链组成，该第一链包括按照5’到3’方向依次排列的磷酸化末端、第一接头骨架序列、分子标签序列、测序引物序列和双脱氧末端；该第二链包括按照3’到5’方向依次排列的双脱氧末端、单链DNA识别区和第二接头骨架序列；该第一接头骨架序列与该第二接头骨架序列为碱基互补配对的核酸序列。

进一步地，该分子标签序列可区分目标基因片段的来源(原始连接产物/PCR扩增产物)，该分子标签序列为3～16个碱基组成的随机简并碱基区域，该简并碱基为A、T、C或G。

进一步地，该测序引物序列与通用引物序列的碱基互补配对。

进一步地，该单链DNA识别区可识别目标基因，该单链DNA识别区为随机简并碱基区域，该简并碱基为A、T、C或G，该简并碱基具有硫代修饰。

进一步地，该第一链由按照5’到3’方向依次排列的该磷酸化末端、该第一接头骨架序列、该分子标签序列、该测序引物序列和该双脱氧末端组成；该第二链由按照3’到5’方向依次排列的该双脱氧末端、该单链DNA识别区和该第二接头骨架序列组成。

本发明技术方案带来的有益效果：

1.本发明利用T4 DNA连接酶进行核苷酸样本的单链连接。存在损伤的DNA分子在变性成单链后，都能用于连接，并形成文库。因此能尽可能多的保留原始DNA信息。

2.本发明利用T4 DNA连接酶进行核苷酸样本的单链连接，对于片段化程度较高的核苷酸样本(例如cfDNA/ctDNA)具有很好地连接效果。

3.本发明利用单端多重PCR扩增技术，可以保持传统多重PCR技术操作简便和低成本优势。同时，由于连接端的不确定性，单端多重PCR扩增可以保证扩增产物的特异性，因此可用于检测未知融合。

附图说明

图1为背景技术中的现有技术一中基于探针捕获法的建库方法的示意图，其中A为基于探针捕获法的建库方法的步骤图，B为存在损伤的双链DNA分子的示意图。

图2为背景技术中的现有技术二中基于扩增子的多重PCR建库方法的示意图，其中A为基于扩增子的多重PCR建库方法的步骤图，B为存在损伤的双链DNA分子的示意图。

图3为背景技术中的现有技术三中基于单端巢式多重PCR的建库方法的示意图，其中A为基于单端巢式多重PCR的建库方法的步骤图，B为损伤的双链DNA分子的示意图。

图4为实施例1中的建库方法的步骤图。

图5为实施例1中的模拟双链连接接头的结构图，

图6为实施例2中的Agilent 2100生物分析仪系统检测核苷酸样本片段大小及分布特征图。

图7为实施例2中Agilent 2100生物分析仪系统检测文库大小及分布特征图。

具体实施方式

下面将通过实施例进行更详细的描述，但本发明的保护范围并不受限于这些实施例。

实施例1

一、准备片段化的核苷酸样本。

1.基因组DNA样本：

(1)将M220 Focused-ultrasonicator(Covaris)及配套软件打开，将Tube保持erInsert放入水浴池中，同时将配套的M220保持er XTU Insert microTUBE130μL超声管装载片放上。加入约15mL超纯水直至没过Tube保持er的表面，盖上安全盖，直至water levelindicator变成绿色，待用。

(2)按照如下条件运行超声打断程序。

表1 超声波破碎基因组DNA样本的仪器条件设置

名称	条件
		Duty Factor	20％
Peak	50
		Cycles Burst	200
Volume	130μL
		Time	180s

(3)取125μL步骤(1)中的打断产物转移至1.5mL离心管中，并往离心管中加入250μL AMPure XP Beads，充分涡旋混匀，室温孵育10min。

(4)低速短暂离心收集管壁液体到管底，将离心管放置到磁力架上，室温放置10min或直至溶液澄清，小心地用移液器弃除上清溶液，上述过程中不能碰到磁珠。

(5)保持离心管在磁力架上，加入400μL新鲜配制的80％乙醇溶液，180度旋转离心管，使磁珠移动到离心管的另一侧，重复操作2次。

(6)小心的用移液器弃除上清溶液，上述过程中不能碰到磁珠。

(7)重复上述步骤(5)～(6)一次，将离心管从磁力架上取下，低速短暂离心收集管壁液体到管底，再放回磁力架上，室温静置1min或直至磁珠被吸附到离心管壁，用小量程移液器吸除离心管的液体。

(8)打开离心管盖，室温放置2min或直至磁珠被晾干，向离心管中加入27μL无核酸酶水，将离心管从磁力架上取下，充分涡旋混匀磁珠。

(9)室温孵育5min，低速短暂离心将管壁液体收集到管底，将离心管放置到磁力架上，室温放置2min或直至溶液澄清。

(10)吸取25μL上清溶液转移至1.5mL离心管中。

(11)使用Quantas检测基因组DNA样本的浓度。纯化产物立即进行下一步反应；或者将纯化产物保存于-20℃冰箱，实验前置于室温下解冻，轻轻震荡混匀后低速短暂离心将管壁上的液体收集到管底。

2.FFPE RNA样本：

本步骤中使用的试剂为：Ultra^TM II RNA First Strand SynthesisModule(NEB，E7771S)。

(1)RNA打断和引物杂交：取检测合格的RNA样本5μL，加入4μL5×第一链合成缓冲液(Ultra^TM II RNA First Strand Synthesis Module试剂盒成分：NEBNextFirst Strand Synthesis Reaction Buffer)和1μL生工合成随机引物，总体积10μL，置于PCR仪上，按照以下程序进行打断和引物杂交反应：94℃8min，4℃保持，热盖105℃；

cDNA第一链合成：已打断的RNA中加入8μL H₂O和2μL第一链合成酶混合物(Ultra^TM II RNA First Strand Synthesis Module试剂盒成分：NEBNextFirstStrand Synthesis Enzyme Mix)，总体积20μL。置于PCR仪上，按照以下程序进行反应：25℃10min，42℃30min，70℃15min，4℃保持，热盖温度不低于80℃。

3.cfDNA/ctDNA样本：

由于cfDNA/ctDNA样本本身已经片段化程度较高，因此不需要进行片段化处理。可直接进行后续操作。

二、核苷酸样本的修饰与变性：去除上述核苷酸样本的5’端磷酸基团，然后将该核苷酸样本热变性成单链

本步骤中使用的试剂为：FastAP Thermosensitive Alkaline Phosphatase(Thermo Scientific，EF0651)，T4 RNA Ligase Reaction Buffer(NEB，B0216L)。

(1)按照以下配方于200μLPCR管中配制反应体系。T4 RNA连接缓冲液(T4 RNALigase Reaction Buffer试剂盒组分)1、2、3、4、5、6、7、8、9、10μL，FastAP碱性磷酸酶(FastAP Thermosensitive Alkaline Phosphatase试剂盒组分)1、2、3、4、5、6、7、8、9、10μL，核苷酸样本10、20、30、40、50、60、70、80、90、100ng，H₂O1、2、3、4、5、6、7、8、9、10μL。涡旋混匀，低速短暂离心将管壁液体收集到管底。

(2)将PCR管放置在PCR仪上，并运行程序：37℃，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20min；95℃1、2、3、4、5、6、7、8、9、10min。

(3)当程序结束时，立即将PCR管取出置于冰盒上冷却1、2、3、4、5、6、7、8、9、10min。

三、接头连接：将单链连接接头连接上该核苷酸样本的单链，得到连接产物。

本步骤中使用的试剂为：FastAP Thermosensitive Alkaline Phosphatase(Thermo Scientific，EF0651)，T4 DNA Ligase(Thermo Scientific，EL0013)和T4 RNALigase Reaction Buffer(NEB，B0216L)。

(1)于冰盒上按照以下配方配制连接混合液。50％PEG 8000(T4 RNA LigaseReaction Buffer试剂盒组分)1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20μL，ATP(T4 RNA Ligase Reaction Buffer试剂盒组分)1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20μL，生工合成单链连接接头(10μM)1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20μL，T4 DNA ligase(30wU/μL)(T4 DNA Ligase试剂盒组分)1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20μL，H₂O10、20、30、40、50、60、70、80、90、100μL。涡旋混匀，低速短暂离心将管壁液体收集到管底，继续置于冰盒上。

上述单链连接接头中包含3’端6N的核苷酸样本识别区、3、4、5、6、7、8、9、10、11、12、13、14、15、16个碱基的接头骨架结构，3、4、5、6、7、8、9、10、11、12、13、14、15、16N(N为代表A/T/C/G的简并碱基)的UMI序列。

上述核苷酸样本的单链连接也可以使用CircLigase^TM ssDNA Ligase(Lucigen，CIA115K)结合单链接头进行。

基于T4 DNA连接酶进行核苷酸样本的单链连接所使用的接头为模拟双链连接接头，该模拟双链连接接头由第一链和第二链组成，该第一链包括按照5’到3’方向依次排列的磷酸化末端、第一接头骨架序列、分子标签序列、测序引物序列和双脱氧末端；该第二链包括按照3’到5’方向依次排列的双脱氧末端、单链DNA识别区和第二接头骨架序列；该第一接头骨架序列与该第二接头骨架序列为碱基互补配对的核酸序列，该模拟双链连接接头如图5所示。

(2)用移液器吸取10、20、30、40、50、60、70、80、90、100μL连接混合液加入步骤二中200μLPCR管中，该PCR管保持在冰盒上。涡旋混匀，低速短暂离心将管壁液体收集到管底，继续置于冰盒上。

(3)将PCR管放置在PCR仪上，并运行程序：37℃1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20h；4℃保存。

(4)提前30min从2～8℃冰箱取出AMPure XP Beads，置于室温下平衡备用。待使用前，充分涡旋混匀后，低速短暂离心将管壁液体收集到管底。

(5)取无水乙醇和Nuclease-Free Water，配置足够量的80％乙醇溶液，充分涡旋混匀后备用。

(6)将上述10、20、30、40、50、60、70、80、90、100μL连接产物转移至1.5mL离心管中，并往离心管中加入9、18、27、36、45、54、63、72、81、90μL AMPure XP Beads，充分涡旋混匀，室温孵育10min。

(7)低速短暂离心收集管壁液体到管底，将离心管放置到磁力架上，室温放置10min或直至溶液澄清，小心地用移液器弃除上清溶液，上述过程中不能碰到磁珠。

(8)保持离心管在磁力架上，加入200μL新鲜配制的80％乙醇溶液，180度旋转离心管，使磁珠移动到离心管的另一侧，重复操作2次。

(9)小心的用移液器弃除上清溶液，上述过程中不能碰到磁珠。

(10)重复上述步骤(8)～(9)一次，将离心管从磁力架上取下，低速短暂离心收集管壁液体到管底，再放回磁力架上，室温静置1min或直至磁珠被吸附到离心管壁，用小量程移液器吸除离心管的液体。

(11)打开离心管盖，室温放置2min或直至磁珠被晾干，向离心管中加入11、13、15、17、19、21、23、25、27、29μL无核酸酶水，将离心管从磁力架上取下，充分涡旋混匀磁珠。

(12)室温孵育5min，低速短暂离心将管壁液体收集到管底，将离心管放置到磁力架上，室温放置2min或直至溶液澄清。

(13)吸取10、12、14、16、18、20、22、24、26、28μL上清溶液转移至1.5mL离心管中。纯化产物需要立即进行下一步反应。

四、第一次特异性PCR：使用如下表2所示的第一基因特异性引物和通用引物

(5’-ACACTCTTTCCCTACACGAC-3’，SEQ ID NO.001)对该连接产物进行第一轮目标区特异性富集。

表2 第一基因特异性引物列表

本步骤中便用的试剂为：Phusion U Multiplex PCR Master Mix(ThermoScientific，F562L)。

(1)按照以下配方于200μLPCR管中配制第一次特异性PCR反应体系。Phusion UMultiplex PCR Master Mix(2×)(Phusion U Multiplex PCR Master Mix试剂盒组分)10.5、11.5、12.5、13.5、14.5、15.5、16.5、17.5、18.5、19.5μL，通用引物(10、20、30、40、50、60、70、80、90、100μM)(生工合成)0.5、1.0、1.5、2.0、2.5、3.0、3.5、4.0、4.5、5.0μL，第一基因特异性引物(1、2、3、4、5、6、7、8、9、10μM)(生工合成)1.00、1.25、1.50、1.75、2.00、2.25、2.50、2.75、3.00、3.25μL，连接产物7.00、7.75、8.50、9.25、10.00、10.75、11.50、12.25、13.00、13.75μL。涡旋混匀，低速离心将溶液收集至管底。

(2)将PCR管放置在PCR仪上，并运行以下程序：98℃30s；98℃10s，60℃1、2、3、4、5、6、7、8、9、10min，72℃20s，5、10、15、20、25、30循环；72℃5min；4℃保持。

(3)当程序结束时，将PCR管从PCR仪上取下。

(6)将上述5、10、15、20、25、30、35、40、45、50μL第一次特异性PCR产物转移至1.5mL离心管中，并往离心管中加入5、10、15、20、25、30、35、40、45、50μL无核酸酶水和10、20、30、40、50、60、70、80、90、100μLAMPure XP Beads，充分涡旋混匀，室温孵育5min。

(7)低速短暂离心收集管壁液体到管底，将离心管放置到磁力架上，室温放置5min或直至溶液澄清，小心地用移液器弃除上清溶液，上述过程中不能碰到磁珠。

(11)打开离心管盖，室温放置2min或直至磁珠被晾干，向离心管中加入3、7、9、11、13、15、17、19、21、23μL无核酸酶水，将离心管从磁力架上取下，充分涡旋混匀磁珠。

(13)吸取3、7、9、11、13、15、17、19、21、23μL上清溶液转移至1.5mL离心管中。扩增纯化产物可以立即进行下一步反应，也可以将扩增纯化产物保存于-20℃冰箱，继续实验前从-20℃冰箱取出放置到室温下解冻，轻轻震荡混匀后低速短暂离心将管壁上的液体收集到管底。

五、第二次特异性PCR：使用如下表3所示的第二基因特异性引物和标签扩增引物对上述步骤(4)的产物进行第二轮目标区特异性富集，得到测序文库。

表3 第二基因特异性引物序列列表

本步骤中使用的试剂为：Phusion U Multiplex PCR Master Mix(ThermoScientific，F562L)。

(1)按照以下配方于200μLPCR管中配制第二次特异性PCR反应体系。Phusion UMultiplex PCR Master Mix(Phusion U Multiplex PCR Master Mix试剂盒组分)10.5、11.5、12.5、13.5、14.5、15.5、16.5、17.5、18.5、19.5μL，第二基因特异性引物(1、2、3、4、5、6、7、8、9、10μM)(生工合成)1.00、1.25、1.50、1.75、2.00、2.25、2.50、2.75、3.00、3.25μL，标签扩增引物(5、10、15、20、25、30、35、40、45、50μM)(生工合成)1、2、3、4、5、6、7、8、9、10μL，第二次特异性PCR纯化产物7.00、7.75、8.50、9.25、10.00、10.75、11.50、12.25、13.00、13.75μL。涡旋混匀，低速离心将溶液收集至管底。

(2)将PCR管放置在PCR仪上，并运行以下程序：98℃30s；98℃10s，60℃1、2、3、4、5、6、7、8、9、10min，72℃20s，5、10、15、20、25、30循环；72℃5min；4℃保持

(3)当程序结束时，将PCR管从PCR仪上取下。

(6)将上述5、10、15、20、25、30、35、40、45、50μL第一次特异性PCR产物转移至1.5mL离心管中，并往离心管中加入5、10、15、20、25、30、35、40、45、50μL无核酸酶水和5、10、15、20、25、30、35、40、45、50μLAMPure XP Beads，充分涡旋混匀，室温孵育5min。

(11)打开离心管盖，室温放置2min或直至磁珠被晾干，向离心管中加入22μL无核酸酶水，将离心管从磁力架上取下，充分涡旋混匀磁珠。

(13)吸取5、10、15、20、25、30、35、40、45、50μL上清溶液转移至1.5mL离心管中。扩增纯化产物可以立即进行下一步反应，也可以将扩增纯化产物保存于-20℃冰箱，继续实验前从-20℃冰箱取出放置到室温下解冻，轻轻震荡混匀后低速短暂离心将管壁上的液体收集到管底。

六、对扩增后的文库质控和定量分析后进行高通量测序。

(1)使用Quantas检测文库浓度

(2)使用Agilent 2100生物分析仪系统检测文库大小及分布特征。

(3)使用Illumina高通量测序平台进行文库测序，测序读长为2×150bp。

(4)使用厦门艾德生物医药科技股份有限公司的信息分析系统进行数据分析。

实施例2

为了说明本建库方法能够有效地进行文库构建，并得到目标区富集的高通量测序数据，选择了如下表4所示的目标区(总共5860bp)进行单端巢式多重PCR引物设计和合成，得到第一基因特异性引物和第二基因特异性引物，共77对。

表4 高通量测序的目标区数据

按照上述实施例1中的具体操作步骤，对表2中的目标区核苷酸样本进行建库，结果如下：

(1)Agilent 2100生物分析仪系统检测核苷酸样本片段大小及分布特征详见图6所示，该图中核苷酸样本片段主峰大小为180bp。

(2)Agilent 2100生物分析仪系统检测文库大小及分布特征详见图7所示，该图中文库主峰大小为265bp

(3)测序数据中，有效数据占比情况详见表5所示。从该表可以看出，特异性扩增产物的数据占比大于85％。

表5 高通量测序的数据结果

扩增统计	占比	备注
			TotalReads：	601390	总数据量
NoUMI：	5.40％	R1端找不到UMI，即第一步连接就可能有问题
			NotAmp：	0.16％	非扩增产物，无引物序列，为原始连接产物
UnKnown：	0.80％	无引物，UMI定位不到，不确定产生来源
			NonSpecific：	6.08％	非特异扩增，存在引物序列，但产物不在目的位置
Amplicons：	87.56％	特异性扩增产物，目的序列

(4)在特异性扩增的基础上，可以计算出ontarget rate占比大于95％，文库插入片段大小平均为120bp。使用分子标签校正后，总共115M base的数据量能够达到1744×的去重后覆盖度，详见表6所示。

表6 特异性扩增的高通量测序的数据结果

指标	数据	备注
			TotalBases：	115011278	特异扩增总碱基数
offTarget：	2.19％	位于非目标区域
			onTarget：	97.81％	位于设计区域及外延100bp内
iSIze：	119.95	插入片段长度
			SSBC-Depth：	1744.07	基于分子标签校正后的有效模板数

(5)每对扩增子(amplicon)的覆盖情况详见表7所示。平均覆盖深度为6839×。数据均一性(uniformity，覆盖深度大于0.2倍平均覆盖深度的扩增子占比)为96.1％。

表7 高通量测序中扩增子的覆盖情况表

以上所述，仅为本发明的较佳实施例而已，故不能依此限定本发明实施的范围，即依本发明专利范围及说明书内容所作的等效变化与修饰，皆应仍属本发明涵盖的范围内。

序列表

<110> 上海厦维生物技术有限公司

<120> 一种基于高通量测序的建库方法

<160> 158

<170> SIPOSequenceListing 1.0

<210> 1

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

acactctttc cctacacgac 20

<210> 2

<211> 70

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

aatgatacgg cgaccaccga gatctacacc agtgactaca ctctttccct acacgacgct 60

cttccgatct 70

<210> 3

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

caagcagaag acggcatacg agatactact ctgtgactgg agttcagacg tgtgctcttc 60

cgatct 66

<210> 4

<211> 34

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

gtgactggag ttcagacgtg tgctcttccg atct 34

<210> 5

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

gagcccagca ctttgatctt t 21

<210> 6

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

ggaaatatac agcttgcaag gac 23

<210> 7

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

gagaaaaggt gggcctgag 19

<210> 8

<211> 17

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

ggcatgagct gcgtgat 17

<210> 9

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

cgtatctccc ttccctgatt ac 22

<210> 10

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 10

cgcacacaca tatccccat 19

<210> 11

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 11

aatctgtgat cttgacatgc tg 22

<210> 12

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 12

ctgacctaaa gccacctcct ta 22

<210> 13

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 13

ggagagcatc ctcccctg 18

<210> 14

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 14

ctgatctcaa ggaaacagga aa 22

<210> 15

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 15

acatcctctg gaggctgaga 20

<210> 16

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 16

tgtgtaggaa aatcaaagtc acc 23

<210> 17

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 17

cgtttgtagc tctgtaagac ttg 23

<210> 18

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 18

catatttcct ctgatgatct gc 22

<210> 19

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 19

ccagcctctc accctgtaaa t 21

<210> 20

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 20

ctccgaggtg gaattgagtg 20

<210> 21

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 21

cgacatgttg ctgagaaagt ca 22

<210> 22

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 22

cccagtgctg tagagctgtc 20

<210> 23

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 23

gagggaaaac aaatccaatc ac 22

<210> 24

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 24

cctgcagcac actggttg 18

<210> 25

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 25

ctaattgaca gctcccccac 20

<210> 26

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 26

cacatccatc tggtacgtgg t 21

<210> 27

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 27

aaggatgcct gaccagttag ag 22

<210> 28

<211> 17

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 28

cacagggtcg cctcctc 17

<210> 29

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 29

aggcccttcg cacttctt 18

<210> 30

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 30

ttaatgagaa gaggaagatg tgtt 24

<210> 31

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 31

caccccctaa atgccacc 18

<210> 32

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 32

ttgatcacca atctctacca gtt 23

<210> 33

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 33

ggaacaggaa atatgtcgaa aa 22

<210> 34

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 34

tcctgttaag cctaatttcc aa 22

<210> 35

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 35

ttttgtttcc tgaaattatc acatc 25

<210> 36

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 36

tactgcagct gttttcacct ct 22

<210> 37

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 37

ttgcttctta aggaactgaa aa 22

<210> 38

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 38

ctgcctcggc tgacattc 18

<210> 39

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 39

cactgttcgg cttctgtgaa 20

<210> 40

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 40

gaccagggtg ttgttttctc c 21

<210> 41

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 41

ttctccttca ctttccactc ac 22

<210> 42

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 42

ggggaccaaa acaccttaag ta 22

<210> 43

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 43

gcatcttcac ccacagcag 19

<210> 44

<211> 17

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 44

gcgcttccga acgatgt 17

<210> 45

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 45

ttaaccttat gtgtgacatg ttct 24

<210> 46

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 46

ttcatgaaga cctcacagta aa 22

<210> 47

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 47

cctgctgaga gttattaaca gtg 23

<210> 48

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 48

cgataatctg gatgactcat tattgt 26

<210> 49

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 49

caggaagagg aaaggaaaaa ca 22

<210> 50

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 50

tggtctataa tccagatgat tcttt 25

<210> 51

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 51

ccaatacatg gaaggatgag aa 22

<210> 52

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 52

tggaagtgtc tcatgctgga t 21

<210> 53

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 53

atccattgga agggcagg 18

<210> 54

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 54

ttctgtccct tcccagaaaa c 21

<210> 55

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 55

acccaggtcc agatgaagc 19

<210> 56

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 56

tcctgaaaac aacgttctgg ta 22

<210> 57

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 57

tctgtctcct tcctcttcct aca 23

<210> 58

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 58

ctctagctcg ctagtgggtt g 21

<210> 59

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 59

cctcctcagc atcttatccg 20

<210> 60

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 60

atgagcgctg ctcagatagc 20

<210> 61

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 61

taacagttcc tgcatgggc 19

<210> 62

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 62

tgcttgccac aggtctcc 18

<210> 63

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 63

gtgtttgtgc ctgtcctgg 19

<210> 64

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 64

caagggtggt tgggagtaga t 21

<210> 65

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 65

ggagaccaag ggtgcagtta 20

<210> 66

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 66

cttcgagatg ttccgagagc 20

<210> 67

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 67

tcatgtgatg tcatctctcc tc 22

<210> 68

<211> 17

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 68

gggtcgcatc gctgctc 17

<210> 69

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 69

ggtgcactgt aataatccag act 23

<210> 70

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 70

ccagagaatt tttcttaagg gga 23

<210> 71

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 71

gacattttcg catccgtcta ct 22

<210> 72

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 72

tgcttcagaa atatagtctc ctgc 24

<210> 73

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 73

gcttttaatc tgtccttatt ttgga 25

<210> 74

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 74

gcttttgtac cgtcataaag tca 23

<210> 75

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 75

tcctcctcgc attctcctc 19

<210> 76

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 76

gctgatgttt caataaaagg aa 22

<210> 77

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 77

cttttggagg agtcctgaaa ct 22

<210> 78

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 78

ttgtcacaat gtcaccacat tac 23

<210> 79

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 79

tcgtttttga cagtttgaca gt 22

<210> 80

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 80

caaatttcct tccactcgga ta 22

<210> 81

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 81

gcaatacatt atttttctct ggaa 24

<210> 82

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 82

gtgactggag ttcagacgtg tgctcttccg atctttgatc tttttgaatt cagtttcc 58

<210> 83

<211> 52

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 83

gtgactggag ttcagacgtg tgctcttccg atcttgcaag gactctgggc tc 52

<210> 84

<211> 53

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 84

gtgactggag ttcagacgtg tgctcttccg atctgcctga ggttcagagc cat 53

<210> 85

<211> 52

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 85

gtgactggag ttcagacgtg tgctcttccg atctctgcgt gatgagctgc ac 52

<210> 86

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 86

gtgactggag ttcagacgtg tgctcttccg atctcctgat tacctttgcg atctg 55

<210> 87

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 87

gtgactggag ttcagacgtg tgctcttccg atctcatggc aaactcttgc tatcc 55

<210> 88

<211> 53

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 88

gtgactggag ttcagacgtg tgctcttccg atctgacatg ctgcggtgtt ttc 53

<210> 89

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 89

gtgactggag ttcagacgtg tgctcttccg atctacctcc ttactttgcc tccttc 56

<210> 90

<211> 54

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 90

gtgactggag ttcagacgtg tgctcttccg atctcctccc ctgcatgtgt taaa 54

<210> 91

<211> 51

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 91

gtgactggag ttcagacgtg tgctcttccg atctaacagg aaaggacggg c 51

<210> 92

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 92

gtgactggag ttcagacgtg tgctcttccg atctaggctg agaaaatgat cttcaa 56

<210> 93

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 93

gtgactggag ttcagacgtg tgctcttccg atctaaagtc accaaccttt aagaagga 58

<210> 94

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 94

gtgactggag ttcagacgtg tgctcttccg atctgtcatt gccatagcaa aaataa 56

<210> 95

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 95

gtgactggag ttcagacgtg tgctcttccg atctatgatc tgcaggtttt ccaaag 56

<210> 96

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 96

gtgactggag ttcagacgtg tgctcttccg atcttgtaaa tttctcatgg gcagc 55

<210> 97

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 97

gtgactggag ttcagacgtg tgctcttccg atctaattga gtgacaagct cgctg 55

<210> 98

<211> 57

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 98

gtgactggag ttcagacgtg tgctcttccg atctaaagtc actgctgact atgtccc 57

<210> 99

<211> 53

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 99

gtgactggag ttcagacgtg tgctcttccg atctagagct gtcccccata gga 53

<210> 100

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 100

gtgactggag ttcagacgtg tgctcttccg atcttccaat cacctaagca agtgaa 56

<210> 101

<211> 52

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 101

gtgactggag ttcagacgtg tgctcttccg atctcactgg ttgtggcagc ag 52

<210> 102

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 102

gtgactggag ttcagacgtg tgctcttccg atctaggaag tcttctgtcc tggtgt 56

<210> 103

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 103

gtgactggag ttcagacgtg tgctcttccg atctgtacgt ggtggggttg tagag 55

<210> 104

<211> 54

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 104

gtgactggag ttcagacgtg tgctcttccg atctcagtta gagggcccac agag 54

<210> 105

<211> 51

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 105

gtgactggag ttcagacgtg tgctcttccg atctcgcctc ctccaagcaa g 51

<210> 106

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 106

gtgactggag ttcagacgtg tgctcttccg atctgcactt cttacacttg cggac 55

<210> 107

<211> 53

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 107

gtgactggag ttcagacgtg tgctcttccg atcttgtgtt cctttggagg tgg 53

<210> 108

<211> 52

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 108

gtgactggag ttcagacgtg tgctcttccg atctggcagg atgtggagat cg 52

<210> 109

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 109

gtgactggag ttcagacgtg tgctcttccg atctccagtt aaaaaggcag attttg 56

<210> 110

<211> 57

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 110

gtgactggag ttcagacgtg tgctcttccg atctctctct aaaacactga tttccca 57

<210> 111

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 111

gtgactggag ttcagacgtg tgctcttccg atcttttcca actaaaaagg caaatg 56

<210> 112

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 112

gtgactggag ttcagacgtg tgctcttccg atctccatca cttatctcct tgaggg 56

<210> 113

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 113

gtgactggag ttcagacgtg tgctcttccg atcttaattt tggttttctg accgga 56

<210> 114

<211> 57

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 114

gtgactggag ttcagacgtg tgctcttccg atctttaaat gggaatagcc cttcaat 57

<210> 115

<211> 53

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 115

gtgactggag ttcagacgtg tgctcttccg atctctgaca ttccggcaag aga 53

<210> 116

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 116

gtgactggag ttcagacgtg tgctcttccg atctccatga aatggacgtg gatag 55

<210> 117

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 117

gtgactggag ttcagacgtg tgctcttccg atctgttttc tcccatgact cctgc 55

<210> 118

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 118

gtgactggag ttcagacgtg tgctcttccg atctactcac ccgtaggtgc agttt 55

<210> 119

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 119

gtgactggag ttcagacgtg tgctcttccg atctctgact caaatacaaa cctcgg 56

<210> 120

<211> 54

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 120

gtgactggag ttcagacgtg tgctcttccg atctccacag cagtgtggtc attc 54

<210> 121

<211> 51

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 121

gtgactggag ttcagacgtg tgctcttccg atctgaacga tgtggcgcct t 51

<210> 122

<211> 61

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 122

gtgactggag ttcagacgtg tgctcttccg atctcatgtt ctaatatagt cacattttca 60

t 61

<210> 123

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 123

gtgactggag ttcagacgtg tgctcttccg atctcacagt aaaaataggt gattttgg 58

<210> 124

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 124

gtgactggag ttcagacgtg tgctcttccg atctttaaca gtgcagtgtg gaatc 55

<210> 125

<211> 59

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 125

gtgactggag ttcagacgtg tgctcttccg atcttgacag taagatacag tctatcggg 59

<210> 126

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 126

gtgactggag ttcagacgtg tgctcttccg atctaactta cctttttgtc tctggtcc 58

<210> 127

<211> 61

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 127

gtgactggag ttcagacgtg tgctcttccg atctggtagc tataataata cacatagcgc 60

c 61

<210> 128

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 128

gtgactggag ttcagacgtg tgctcttccg atctgagaat ttcaagcact tactgcaa 58

<210> 129

<211> 53

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 129

gtgactggag ttcagacgtg tgctcttccg atcttggatc cccacttttc ctc 53

<210> 130

<211> 51

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 130

gtgactggag ttcagacgtg tgctcttccg atctaagggc aggcccacca c 51

<210> 131

<211> 53

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 131

gtgactggag ttcagacgtg tgctcttccg atctccagaa aacctaccag ggc 53

<210> 132

<211> 54

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 132

gtgactggag ttcagacgtg tgctcttccg atctagatga agctcccaga atgc 54

<210> 133

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 133

gtgactggag ttcagacgtg tgctcttccg atctgttctg gtaaggacaa gggttg 56

<210> 134

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 134

gtgactggag ttcagacgtg tgctcttccg atctcttcct acagtactcc cctgcc 56

<210> 135

<211> 52

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 135

gtgactggag ttcagacgtg tgctcttccg atctagtggg ttgcaggagg tg 52

<210> 136

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 136

gtgactggag ttcagacgtg tgctcttccg atcttcttat ccgagtggaa ggaaat 56

<210> 137

<211> 54

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 137

gtgactggag ttcagacgtg tgctcttccg atcttcagat agcgatggtg agca 54

<210> 138

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 138

gtgactggag ttcagacgtg tgctcttccg atctcatcct caccatcatc acactg 56

<210> 139

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 139

gtgactggag ttcagacgtg tgctcttccg atctctcatc ttgggcctgt gttatc 56

<210> 140

<211> 52

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 140

gtgactggag ttcagacgtg tgctcttccg atctctgtcc tgggagagac cg 52

<210> 141

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 141

gtgactggag ttcagacgtg tgctcttccg atctggagta gatggagcct ggttt 55

<210> 142

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 142

gtgactggag ttcagacgtg tgctcttccg atctgtgcag ttatgcctca gattca 56

<210> 143

<211> 54

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 143

gtgactggag ttcagacgtg tgctcttccg atctgagagc tgaatgaggc cttg 54

<210> 144

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 144

gtgactggag ttcagacgtg tgctcttccg atcttctctc ctccctgctt ctgtc 55

<210> 145

<211> 51

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 145

gtgactggag ttcagacgtg tgctcttccg atcttcgctg ctccccgaag a 51

<210> 146

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 146

gtgactggag ttcagacgtg tgctcttccg atctccagac tgtgtttctc ccttct 56

<210> 147

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 147

gtgactggag ttcagacgtg tgctcttccg atctaagggg atctcttcct gtatcc 56

<210> 148

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 148

gtgactggag ttcagacgtg tgctcttccg atctccgtct actcccacgt tctaag 56

<210> 149

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 149

gtgactggag ttcagacgtg tgctcttccg atctcctgca taaatttcaa atgtgg 56

<210> 150

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 150

gtgactggag ttcagacgtg tgctcttccg atctttttgg atatttctcc caatga 56

<210> 151

<211> 57

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 151

gtgactggag ttcagacgtg tgctcttccg atcttcaaac aattgtaact tgaacca 57

<210> 152

<211> 55

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 152

gtgactggag ttcagacgtg tgctcttccg atctattctc ctcctcctct gctcc 55

<210> 153

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 153

gtgactggag ttcagacgtg tgctcttccg atctaaaagg aattccataa cttcttgc 58

<210> 154

<211> 57

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 154

gtgactggag ttcagacgtg tgctcttccg atcttcaaaa tagtttattg atgcgaa 57

<210> 155

<211> 57

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 155

gtgactggag ttcagacgtg tgctcttccg atctccacat tacatactta ccatgcc 57

<210> 156

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 156

gtgactggag ttcagacgtg tgctcttccg atcttttgac agttaaaggc atttcc 56

<210> 157

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 157

gtgactggag ttcagacgtg tgctcttccg atctactcgg ataagatgct gaggag 56

<210> 158

<211> 59

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 158

gtgactggag ttcagacgtg tgctcttccg atctgaatcc agtgtttctt ttaaatacc 59

Claims

1.一种基于高通量测序的建库方法，其特征在于，包括以下步骤：

（1）准备片段化的核苷酸样本；

（2）热变性反应：去除上述核苷酸样本的5’端磷酸基团，然后将该核苷酸样本热变性成单链；

（3）接头反应：利用T4DNA连接酶在该单链的末端连接模拟双链连接接头，得到连接产物；

（4）第一次目标区特异性PCR反应：使用第一基因特异性引物和通用引物对该连接产物进行第一次目标区特异性PCR反应富集，获得第一产物；

（5）第二次目标区特异性PCR反应：使用第二基因特异性引物和标签扩增引物对上述第一产物进行第二次目标区特异性PCR反应富集，获得第二产物，所述第二产物为测序文库；

（6）高通量测序：对上述测序文库进行质控和定量分析，然后进行高通量测序；

所述第一基因特异性引物与所述第二基因特异性引物的扩增方向相同，且第二基因特异性引物相较于第一基因特异性引物更靠近于目标区；

所述模拟双链连接接头由第一链和第二链组成，所述第一链由按照5’到3’方向依次排列的磷酸化末端、第一接头骨架序列、分子标签序列、测序引物序列和双脱氧末端组成；所述第二链由按照3’到5’方向依次排列的双脱氧末端、单链DNA识别区和第二接头骨架序列组成；该第一接头骨架序列与该第二接头骨架序列为碱基互补配对的核酸序列；

所述分子标签序列可区分该连接产物、该第一产物和该第二产物中的目标基因片段的来源，该分子标签序列为3～16个碱基组成的随机简并碱基区域，该简并碱基为A、T、C或G；所述测序引物序列与通用引物序列的碱基互补配对；所述单链DNA识别区可识别目标基因，该单链DNA识别区为随机简并碱基区域，该简并碱基为A、T、C或G，该简并碱基具有硫代修饰；

所述通用引物如SEQ ID NO.001所示，所述标签扩增引物为如SEQ ID NO.002所示的标签扩增引物I7和如SEQ ID NO.003所示的标签扩增引物I5，所述第二基因特异性引物的5’端具有所述标签扩增引物I5的识别序列，该识别序列的核苷酸序列如SEQ ID NO.004所示。

2.根据权利要求1所述的一种基于高通量测序的建库方法，其特征在于，所述核苷酸样本为基因组DNA样本、FFPE RNA样本和cfDNA样本。