CN114214734A

CN114214734A - 一种单分子靶标基因建库方法及其试剂盒

Info

Publication number: CN114214734A
Application number: CN202111572277.8A
Authority: CN
Inventors: 崔品
Original assignee: Shenzhen Ruifa Biotechnology Co ltd
Current assignee: Shenzhen Ruifa Biotechnology Co ltd
Priority date: 2020-12-22
Filing date: 2021-12-21
Publication date: 2022-03-22
Also published as: CN112575388A

Abstract

一种单分子靶标基因建库方法及其试剂盒，该方法包括：延伸步骤，包括将模板分子、串联有第一测序接头的靶标探针混合，靶标探针结合至模板分子的靶标区域并延伸，获得靶标探针延伸产物；第二测序接头连接步骤，包括加入第二测序接头，第二测序接头具有互补配对的正向链、反向链，正向链的5’端可串联连接至靶标探针延伸产物的3’端，反向链的3’端串联有随机序列，反应得到第二测序接头连接产物；解链处理，去除产物中串联有随机序列的单链分子，得到串联有第一测序接头的单链产物；双链合成步骤，包括加入第一引物、第二引物，反应得到扩增产物。本发明将建库与靶向基因富集整合，广泛适用于各种长度和高低起始量的单链或双链DNA样本。

Description

一种单分子靶标基因建库方法及其试剂盒

技术领域

本发明涉及基因测序技术领域，具体涉及一种单分子靶标基因建库方法及其试剂盒。

背景技术

现有的下一代测序(NGS)的靶向测序样本制备需要经历建库、捕获前扩增、杂交捕获和捕获后扩增四大步骤，这几部分彼此串联缺一不可，整个流程加起来需要约2到3天时间，不仅费时费钱，而且各个步骤之间的衔接有一定的难度。并且，还需要对起始DNA进行打断前处理，并在建库后做文库片段长度筛选。因此，现有的建库技术难以针对严重降解的样本或者微量DNA样本(一般DNA量低于20ng即难以保证建库质量)。另外，捕获前后的两轮扩增均为指数性扩增，会带来大量错误和偏好性，造成过高的技术错误本底，而导致低频率(低于千分之一)的基因突变检测无法进行。

发明内容

根据第一方面，一种实施例中提供一种单分子靶标基因建库方法，包括：

延伸步骤，包括将模板分子、串联有第一测序接头的靶标探针混合，所述靶标探针靶向结合至模板分子的靶标区域并延伸反应，获得靶标探针延伸产物；

第二测序接头连接步骤，包括向延伸步骤所得的反应体系中加入第二测序接头，所述第二测序接头含有互补配对的正向链、反向链，所述第二测序接头的正向链的5’端可串联连接至所述靶标探针延伸产物的3’端，所述反向链的3’端串联有随机核苷酸序列，反应得到第二测序接头连接产物，然后解链处理，去除产物中串联有随机核苷酸序列的单链，得到串联有第一测序接头的单链产物；

双链合成步骤，包括向串联有第一测序接头的单链产物中加入第一引物、第二引物，反应得到可用于上机测序的扩增产物，所述第一引物含有互补配对于所述第一测序接头的序列，所述第二引物含有互补配对于所述第二测序接头的序列。

根据第二方面，一种实施例中提供采用第一方面所述方法构建得到的文库。

根据第三方面，一种实施例中提供一种试剂盒，包括第一测序接头、第二测序接头，所述第一测序接头串联连接有靶标探针，所述靶标探针可结合至模板分子的靶标区域并延伸反应，所述第二测序接头含有互补配对的正向链、反向链，所述第二测序接头的正向链的5’端可串联连接至靶标探针延伸产物的3’端，所述反向链的3’端串联连接有随机核苷酸序列。

依据上述实施例的单分子靶标基因建库方法及其试剂盒，将建库步骤与靶向基因富集步骤相结合，无需片段化处理，有效缩短建库所需时间，提高建库效率。本方法或试剂盒可适用于各种长度的单链或双链DNA样本，RNA逆转录成的cDNA、亚硫酸氢盐处理的DNA(用于DNA甲基化测序)、各类严重降解的DNA(福尔马林固定和石蜡包埋(FFPE)组织或法医样本提取的DNA、体液所含游离DNA(cfDNA)等)，且起始量适用范围广谱(0.1至1000纳克)。

附图说明

图1为一实施例中的建库流程图；

图2为一实施例中的第二测序接头图。

图3为实施例2的FFPE DNA片段长度图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

本文中，高通量测序样本DNA文库构建，简称建库。常规的建库技术流程为：通过一系列酶促反应将双链DNA分子末端修平整，再于DNA分子两端分别连接上双链的第一测序接头和第二测序接头。

本文中，“μM”是指μmol/L，为浓度单位，中文为微摩尔每升。

发夹式结构(hairpin structure，也可表述为发卡式结构)是指：由一对反向重复序列折叠配对形成的特定空间结构。

现有技术中，NGS靶向文库的制备流程(包括新型建库方法单链建库)一般分为两套流程，主流的捕获建库方法需要经历文库构建、捕获前扩增、杂交捕获、捕获后扩增四个必需步骤，全流程一般耗时长达2到3天。另一种常见方法称为扩增子建库，一般先做多重PCR，后对PCR产物建库，有的商业化试剂盒会在做多重PCR时在引物的5’端外侧加上对应NGS平台的接头序列，以将上述两步整合为一步。

第一种主流技术路线必须将文库构建和杂交捕获严格分开，步骤繁多，周期长，且依赖基于链霉亲和素与生物素连接的磁珠捕获，磁珠价格昂贵且依赖进口。第二种技术路线虽然流程较前者更简洁，但因其基于多重PCR，有如下诸多问题：1、建库起始投入量需要较高；2、同一反应体系里靶标位点数(plex数)无法过多，导致较大探针库(panel)的基因检测很难通过单管反应完成，只能分成多个单管反应，然后合并产物来实现，大大升高了成本和操作时间，限制了单管反应检测通量，不利于推广；3.PCR需要两端引物配对，导致其无法检测未知基因融合(novel fusion)和病毒插入位点等结构性变异；4.PCR的指数性扩增导致基因拷贝数变异无法检测；5、多重PCR不可避免地扩增偏好性导致均一度低，导致panel的靶标区域中部分区域不能很好覆盖，而部分区域过多覆盖。

相比而言，在一些实施例中，本发明将建库和靶标基因富集这两个步骤整合为一个流程，这一革命性的创新不仅克服了主流的建库加杂交捕获流程的步骤繁多成本高昂的缺点，同时也通过线性扩增规避了扩增子建库所固有的单管反应检测通量小、均一性差、无法有效检测基因组结构性变异和基因拷贝数变异等缺陷。

在一些实施例中，因为建成的文库的P5端带分子标签，可有效矫正PCR和测序错误，从而实现超低频检测。

在一些实施例中，本发明在适用样本上也有巨大优势，适用的DNA样本类型广泛，对严重降解和微量这些常规NGS技术无法胜任的样本，而临床检测应用中的很多样本均属此类，如FFPE(福尔马林固定和石蜡包埋)样本提取的DNA、体液(血浆、胸腔积液、尿液等)的胞外游离DNA等。而且对样本长度无要求，对长片段的完整的基因组DNA无需打断，节省时间和成本。

在一些实施例中，适用于本发明的样本起始量在0.1至1000ng之间，尤其适用于低起始量的样本。

第一方面，在一些实施例中，提供一种单分子靶标基因建库方法，包括：

在一些实施例中，所述模板分子为单链DNA，所述靶标探针延伸产物也为单链DNA。

在一些实施例中，所述模板分子可为各类DNA分子为单链DNA，包括且不限于单链DNA、双链DNA解链处理后得到的单链DNA，起始量适用范围广谱(0.1至1000纳克)，且对各种长度的DNA分子均可，省略了常规建库技术之前需要对DNA样本做打断处理的步骤(即通过各种物理或化学方法将长片段的DNA分子打断至300bp长度左右，否则会降低建库效率，且让后续的高通量测序无法测通DNA分子的序列)。

在一些实施例中，所述模板分子来源于亚硫酸氢盐处理的DNA、福尔马林固定和石蜡包埋(FFPE)组织的DNA、法医样本提取的DNA、体液所含游离DNA(cfDNA)、古生物化石或考古发掘的生物遗存中提取的DNA样本等等中的至少一种，对于双链DNA样本，通常可通过热变性等方式解离为单链，得到模板分子。

在一些实施例中，对双链DNA解链处理的方法可与第二测序接头连接步骤中的解链处理方法相同，通常可以是热变性处理。

本发明适用的DNA样本类型广泛，可以是严重降解和/或微量样本等常规NGS建库技术无法胜任的样本，而且对样本中模板分子的长度无要求，对长片段的完整的基因组DNA无需打断。

在一些实施例中，延伸步骤中，还包括对靶标探针延伸产物进行纯化处理，获得纯化后的靶标探针延伸产物。

在一些实施例中，第二测序接头连接步骤中，包括向纯化后的靶标探针延伸产物中加入第二测序接头。

在一些实施例中，所述纯化包括但不限于磁珠纯化。

在一些实施例中，所述第二测序接头的正向链的5’端修饰有磷酸基团。

在一些实施例中，所述第一测序接头与所述靶标探针之间串联有分子标签。

在一些实施例中，所述分子标签为随机核苷酸序列。

在一些实施例中，所述分子标签的长度为4-19nt。具体可以为4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt等等。

在一些实施例中，所述反向链的3’端串联的随机核苷酸序列的长度为5-15nt，具体可以为5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt等等。

在一些实施例中，所述第一引物含有可与所述第一测序接头互补配对的序列，所述第二引物含有可与所述第二测序接头互补配对的序列。

在一些实施例中，所述第一引物含有内接头序列、外接头序列，所述内接头序列的5’端串联连接至所述外接头序列的3’端，所述内接头序列可与所述第一测序接头反向互补配对。

在一些实施例中，所述第一引物含有或不含有第一样本标签。

在一些实施例中，所述第一引物含有第一样本标签时，所述第一样本标签位于所述内接头序列、外接头序列之间。

在一些实施例中，所述第一样本标签的长度为4-15nt，具体可以为4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt等等。

在一些实施例中，所述第二引物含有内接头序列、外接头序列，所述内接头序列的5’端串联连接至所述外接头序列的3’端，所述内接头序列可与所述第二测序接头反向互补配对。

在一些实施例中，所述第二引物含有或不含有第二样本标签。

在一些实施例中，所述第二引物含有第二样本标签时，所述第二样本标签位于所述内接头序列、外接头序列之间。

在一些实施例中，所述第二样本标签的长度为4-15nt，具体可以为4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt等等。

在一些实施例中，延伸步骤中，延伸反应的扩增循环数≥10。循环反应的次数不受限制，可根据需要进行选择。

在一些实施例中，延伸步骤中，延伸反应的扩增循环数为10-500个循环。

在一些实施例中，延伸步骤中，每个循环反应如下：94-98℃，10-60秒；55-65℃，10-60秒；68-72℃，10-60秒。

在一些实施例中，延伸步骤中，还包括在获得靶标探针延伸产物后，对所得靶标探针延伸产物进行纯化处理。

在一些实施例中，采用磁珠纯化处理延伸所得的产物。纯化用的磁珠可从市场上购买得到，示例但非限制性的，可以是购自南京诺唯赞生物科技股份有限公司等等。

在一些实施例中，第二测序接头连接步骤中，连接反应时，具体是在22-40℃下反应0.5-2小时。

在一些实施例中，第二测序接头连接步骤中，采用的连接酶包括但不限于T4 DNA连接酶。T4 DNA连接酶可以从市场上购买得到。

在一些实施例中，第二测序接头连接步骤中，解链处理通常可以为变性处理。

在一些实施例中，所述变性处理通常可以为热变性处理。

在一些实施例中，热变性处理具体可以是将目标分子加热到至少80℃保持至少1min。

在一些实施例中，热变性可以是在80-98℃下变性处理1-30min，即可得到单链模板分子。

在一些实施例中，所述第一测序接头包括但不限于Illumina测序平台的P5端测序接头、MGI测序平台的P2端测序接头中的任意一种。

在一些实施例中，所述第二测序接头包括但不限于Illumina测序平台的P7端测序接头、MGI测序平台的P1端测序接头中的任意一种。

在一些实施例中，第二测序接头的接头如图2所示，其具有互补配对的正向链、反向链，正向链的5’端修饰有磷酸基团，反应链的3’端串联有随机核苷酸序列，该随机核苷酸序列可以为5-15nt。反向链的5’端未修饰磷酸基团。

第二方面，在一些实施例中，提供采用第一方面所述的方法构建得到的文库。

在一些实施例中，本发明将建库和靶向基因富集相结合，有效缩短实验步骤，无需分别进行文库构建、扩增、捕获、再次扩增，显著减少物料消耗，缩短实验时间。

在一些实施例中，第二测序接头为发卡式接头，不带生物素，无需链霉亲和素磁珠捕获(链霉亲和素磁珠造价昂贵)。

在一些实施例中，对每个单管反应，位点数可从1到1万个，每个位点对应一个带有特定靶标基因结合区的引物。

第三方面，在一些实施例中，提供一种试剂盒，包括第一测序接头、第二测序接头，所述第一测序接头串联连接有靶标探针，所述靶标探针可结合至模板分子的靶标区域并延伸反应，所述第二测序接头含有互补配对的正向链、反向链，所述第二测序接头的正向链的5’端可串联连接至靶标探针延伸产物的3’端，所述反向链的3’端串联连接有随机核苷酸序列。

在一些实施例中，所述第一测序接头与所述靶标探针之间串联有分子标签；

在一些实施例中，所述分子标签的长度为4-19nt。

在一些实施例中，所述第二测序接头的反向链的3’端串联的随机核苷酸序列的长度为5-15nt。

在一些实施例中，所述试剂盒还含有第一引物、第二引物，所述第一引物含有可与所述第一测序接头互补配对的序列，所述第二引物含有可与所述第二测序接头互补配对的序列。

以下实施例以国际常用的Illumina测序平台的文库为例，但可兼容其他NGS平台，只需更换为对应测序平台的接头即可。

实施例1

制备突变频率为万分之三的突变游离核酸(cfDNA)标准品，取三等份30ng该cfDNA标准品，各用于三个独立的文库构建实验，分别采用本实施例的方法(本实施例1)、现有的杂交捕获建库方法(对比例1)和现有的扩增子建库方法(对比例2)制备用于上机测序的文库，且三组实验所设计的靶标基因区域基本一致，然后在同样的高通两测序平台上上机测序，并测序相同数据量，最后采用同样的数据分析流程，检查同样的8个靶标基因位点的突变检测情况，以评估三种高通量测序靶标基因文库构建方法的性能差别。

本实施例的标准品购自菁良基因科技(深圳)有限公司，具体为肺癌ctDNA标准品套装GW-OCTM009，其中含有野生型DNA标准品和突变频率为0.1％的ctDNA标准品，将两者按照7：3的质量比混合，得到突变频率为0.03％的稀释标准品。

靶标检测位点如表1所示。

表1

所需全部寡聚体(oligo)如下表2、表3所示(由南京金斯瑞生物科技有限公司合成、HPLC纯化)。

表2

表3

带第一测序接头的靶标基因探针(IS1-UMI-GSP)的结构说明如下：

“ACACTCTTTCCCTACACGACGCTCTTCCGATCT”为第一测序接头，“NNNNNNNNN”为分子标签，“XXXXXXXXXXXXXXXXXXXX”为与靶标基因区域互补配对的序列。

P7-index-1的结构中，下划直线标记的序列“TGATAG”为样本标签。

对表2、表3中的符号说明如下：(1)IS2revcomp-sp-Pho和IS2-splint退火成发卡式接头，即第二测序接头。含有表3所示探针库的混合物，命名为睿法4基因panel。

(2)“N”代表随机碱基。

(3)“X”代表与靶标基因区域互补配对的序列，长度为20个核苷酸，在靶标基因区域每10个核苷酸向前排布一个该种序列，即2×瓦片式覆盖。

(4)“Pho”代表磷酸基团。

(5)“*”表示二硫键，用以加固核苷酸之间的连接，防止该多聚寡核苷酸被降解。。

(6)“SpacerC12”表示12个空的碳骨架，以防止引物的非特异性结合。

(6)第二测序接头反向链中，“SpacerC12”表示12个空的碳骨架，以防止引物的非特异性结合。

(7)第二测序接头反向链中，“AmC6”表示6号碳位上的氨基修饰，以封闭该多聚寡核苷酸的3’端。

试剂及仪器说明如下：

1、各接头连接反应均采用T4 DNA Ligase(Rapid)(货号：N103-01)(南京诺唯赞生物科技股份有限公司出品)。

2、文库扩增反应采用VAHTS HiFi Amplification Mix(货号：N616-01)(南京诺唯赞生物科技股份有限公司出品)。

3、PCR产物纯化磁珠VAHTS DNA Clean Beads(货号：N411-01)(南京诺唯赞生物科技股份有限公司出品)。

4、对照组采用国际通用的甲基化建库试剂盒(for illumina)(美国SwiftBiosciences公司出品，货号Catalog No 30024)。

5、与单链接头反向互补的引物延伸采用DNA polymerase I Klenow fragment(货号：N104-01)(南京诺唯赞生物科技股份有限公司出品)。

6、DNA样本去磷酸化反应所需T4 RNA ligase buffer(10X)和FastAP(1U/μL)分别采用NEB有限公司货号B0216L产品和英潍捷基(上海)贸易有限公司货号EF0651产品。

7、结合单链连接产物所用链霉亲和素磁珠采Dynabeads^TM MyOne^TM StreptavidinC1(英潍捷基(上海)贸易有限公司，货号65001)。

8、各步实验所用超纯水均采用ULtraPure^TM DNase/RNase-Free Distilled Water(英潍捷基(上海)贸易有限公司，货号10977023)。

9、仪器:ABI veriti96型PCR仪(英潍捷基(上海)贸易有限公司出品)，恒温混匀仪(杭州佑宁，货号HC-100)，四维旋转混合仪(海门市其林贝尔仪器制造有限公司，BE-1100),磁力架(无锡百格生物科技有限公司，货号BMB16-1.5-2)，Qubit^TM 4Fluorometer,withWiFi(英潍捷基(上海)贸易有限公司，货号Q33238)，Bioptic全自动多重核酸检测系统(杭州厚泽生物科技有限公司，货号Qsep-100)，Eppendorf牌移液器1000μL量程、100μL量程、10μL量程(德国Eppendort公司出品)。

本实施例的TE缓冲液组成如下：10mmol/L Tris-HCl、1mmol/L EDTA，pH＝8.0。

如图1所示，实验步骤如下：

1、取菁良基因-肺癌ctDNA标准品套装-GW-OCTM009，其中含有野生型DNA标准品和突变频率为0.1％的ctDNA标准品，按照野生型DNA标准品：突变频率为0.1％的ctDNA标准品＝7：3的质量比混合形成0.03％的突变频率的cfDNA样本30ng，放入95℃、2分钟变性。

2、制备第二测序接头

2.1在200μL PCR管中配制以下反应体系：

表4

2.2退火反应条件：95℃，10秒；加入RAMP 4％，以0.1℃/s的速率降温至14℃。

2.3在上述反应产物体系(50μL)中加入50μL的TE缓冲液，所得的体系中第二测序接头的终浓度为100μM。制备好产物体系可存放在-20℃长期保存，或者4℃保存8小时。

3、将表3中各5′端带第一测序接头的靶标基因探针等摩尔数混合，得到混合液，该混合液中各5′端带第一测序接头的靶标基因探针的终浓度为200μM。

4、5′端带第一测序接头的靶标基因探针混合物的退火和延伸，具体如下：

对每个单管反应，检测的靶标基因位点数可从1到1万个，每个位点对应一个带有特定靶标基因结合区的引物，因此对每个单管反应最多可混合1万个该类探针。本实施例的靶标检测位点数为8个，具体如表1所示。

在200微升PCR管里配制如下反应体系：

表5

组分	体积(μL)
		5′端带第一测序接头的靶标基因探针混合物	5
0.03％的突变频率的cfDNA样本30ng(20ng/μL)	1.5
		超纯水	18.5
VAHTS HiFi Amplification Mix	25
		总体积	50

涡旋混匀并短暂离心，置于PCR仪中做如下反应：

5′端带illumina P5接头和分子标签的多重可变位点引物在基因组的靶标区域退火和延伸，在PCR仪中进行，反应条件如下：

表6

反应完成后，采用VAHTS DNA Clean Beads磁珠纯化产物，按该磁珠纯化PCR产物的标准操作进行，最后一步用20微升超纯水洗脱最终产物。

5、在200微升PCR管里配制如下反应体系：

表7

组分	体积(μL)
		靶标基因探针延伸产物	19
2×Rapid Ligation Buffer	25
		第二测序接头(100μM)	2
T4 DNA Ligase(Rapid)(600U/μL)	4
		总体积	50

总反应体积为50μL，在PCR仪内，37℃下反应1小时做连接反应，然后95℃下反应1到10分钟，将连接产物变性成单链，从而去除发卡接头中带N的互补链。

6、直接在第二接头连接反应产物所在的200微升PCR管里配制如下反应体系(illumina indexing PCR)：

表8

按表8配成100微升反应体系做PCR，反应条件如下：

表9

反应完成后，采用VAHTS DNA Clean Beads磁珠纯化产物，按该磁珠纯化PCR产物的标准操作进行，最后一步用25微升超纯水洗脱最终产物，建成P7端带样本标签的illumina靶标基因文库，即为可上机测序的文库。

对比例1

本对比例提供杂交捕获对照实验。

取菁良基因-肺癌ctDNA标准品套装GW-OCTM009，其中含有野生型DNA标准品和突变频率为0.1％的ctDNA标准品，按照野生型DNA标准品：突变频率为0.1％的ctDNA标准品＝7：3的质量比混合形成0.03％的突变频率的DNA样本，所得样本的总质量为30ng，采用与实施例1相同的探针库，即睿法4基因panel，采用购自南京金斯瑞生物科技有限公司的建库和杂交捕获试剂盒，按照标准操作流程进行文库构建，包括依次进行捕获前扩增、杂交捕获、捕获后扩增，获得可上机测序的文库。

对比例2

本对比例提供扩增子建库对照实验(基于多重PCR技术)。

取菁良基因-肺癌ctDNA标准品套装GW-OCTM009，其中含有野生型DNA标准品和突变频率为0.1％的ctDNA标准品，按照野生型DNA标准品：突变频率为0.1％的ctDNA标准品＝7：3的质量比混合，形成突变频率为0.03％的DNA样本30ng，采用与实施例1相同的探针库，即睿法4基因panel，采用南京金斯瑞生物科技有限公司所提供的扩增子建库试剂盒，按照标准操作流程进行扩增子建库，获得可上机测序的文库。

上机测序

取实施例1、对比例1、对比例2制得的文库产物，均用Qubit4.0测定浓度，并各取20ng，上机测序。测序仪器型号为Illumina HiSeq 4000，测序策略为PE150，每个样本数据量为1Gb。

测序数据质控和分析流程

原始数据处理采用fastp软件，基因组比对采用BWA软件(即Burrows-Wheeler-Alignment Tool，算法为BWA-MEM)，参考基因组采用GRCh38(亦称hg38，为国际通用人类参考基因组序列)，使用sambamba软件进行标记(markdup)。

分析结果如下：

实施例1的文库所得测序结果为10个index拆分的读段数(reads数)的合集，具体见下表：

表10

由上表可见，各index间reads数分布偏好性低(各index所拆分的reads数相近)，且无法列入index的reads数仅占总reads数的万分之七，说明实施例1使用的P7端带样本标签的indexing扩增系统已经可以精准地对多个样本进行混合靶标基因建库和测序。

突变检测结果如下表：

表11

表11中，raw base是指原始数据量。

GC含量是指鸟嘌呤(Guanine)和胞嘧啶(Cytosine)所占的比率。

Q30代表正确率在99.9％的reads占总reads数的比例。

depth in target是指靶标位点的测序深度。

ref_reads表示人类参考基因组上对应的reads数。

alt reads表示突变(variant)的reads数。

MAF(Mutation Allele Frequency)为突变频率，具体为alt reads与ref_reads的比值。

由上表可见，实施例1构建的文库的测序数据质量相对于其他两项现有技术所构建文库的测序结果更高，具体地，Q30比例更高，Q30代表正确率在99.9％的reads占总reads数的比例；且基于实施例1的文库所检测得到的靶标基因突变的频率更接近真实值，即MAF(Mutation Allele Frequency)更接近万分之三的预设值。因此，实施例1的文库构建方法在对人类等复杂基因组的特定靶标基因做测序检测时的性能更优，且耗时更短，对比例1的杂交捕获建库需72-80小时，对比例2的扩增子建库需24-32小时，实施例1的建库方法仅需10小时，且实施例1所需步骤少，所需各种试剂和耗材少，因此成本更低。综上，实施例1的建库方法在临床检测、医学研究和基因组科学研究中有更广阔的应用前景。

实施例2

本实施例从福尔马林固定和石蜡包埋(FFPE)组织标准品(购自菁良基因科技(深圳)有限公司，具体为肿瘤野生型FFPE标准品和肿瘤SNV 5％FFPE标准品)所提取DNA中制备成突变频率为万分之五的肿瘤突变标准品(FFPE DNA片段长度如图3所示，此为Qsep检测结果图)，取三等份，各30ng，该DNA标准品各用于三个独立的文库构建实验，分别采用本实施例的方法技术、杂交捕获建库方法和扩增子建库方法作为测序文库的文库制备方法，且三组实验所设计的靶标基因区域基本一致，然后在同样的高通两测序平台上上机测序，并测序相同数据量，最后采用同样的数据分析流程，检查同样的7个靶标基因突变位点(这7各位点分布于4个基因的外显子区域，这4个基因分别为NRAS、KRAS、PIK3CA、EGFR，这也是睿法4基因panel的检测内容)的检测情况，以评估三种高通量测序靶标基因文库构建技术的性能差别(本实施例、杂交捕获建库和扩增子建库)。

DNA标准品购自菁良基因科技(深圳)有限公司，具体为肿瘤野生型FFPE标准品(突变频率为0，货号GW-OPSM005)和肿瘤SNV 5％FFPE标准品(货号GW-OPSM003)。

FFPE标准品的DNA提取采用广州美基生物科技有限公司磁珠法石蜡包埋组织DNA提取试剂盒(货号：D6323-02B)。

FFPE总DNA片段化(即将10kb以上的长片段总DNA打断成200-500bp长的短片段)采用美国KAPA Biosystem公司生产的KAPA Frag Kit for Enzymatic Fragmentation试剂盒(货号KK8600)做酶切打断。

靶标检测位点如下表所示。

表12

所需全部寡聚体(oligo)如下表13、表14所示(由南京金斯瑞生物科技有限公司合成、HPLC纯化)。

表13

表14

试剂及仪器同实施例1。

实验步骤如下：

1、采用购自广州美基生物科技有限公司的磁珠法石蜡包埋组织DNA提取试剂盒(货号：D6323-02B)对肿瘤野生型FFPE标准品(购自采用菁良基因科技(深圳)有限公司，突变频率为0，货号GW-OPSM005)和肿瘤SNV 5％FFPE标准品(购自采用菁良基因科技(深圳)有限公司，货号GW-OPSM003)做总DNA提取，按照该试剂盒标准操作流程进行，最终按50微升体积洗脱获得DNA提取物。

2、用Qubit4.测定浓度，野生型和5％SNV的FFPE DNA浓度分别为15.54ng/μL和14.78ng/μL，总量分别为777ng和739ng，肿瘤野生型FFPE标准品DNA 297ng和肿瘤SNV 5％FFPE标准品DNA 3ng混合(即按质量比99比1混合)，形成0.05％的突变频率的FFPE DNA样本300ng，涡旋充分混匀。

3、取上一步产物中的30ng放入一个200微升PCR管中，采用美国KAPA Biosystem公司出品KAPA Frag Kit for Enzymatic Fragmentation试剂盒做酶切打断。

4、将上一步产物(仍置于原200微升PCR管中)置于PCR仪中，95℃、2分钟变性。

5、制备第二测序接头

5.1在200μL PCR管中配制以下反应体系：

表15

5.2退火反应条件：95℃，10秒；加入RAMP 4％，以0.1℃/s的速率降温至14℃。

5.3在上述反应产物(50μL)中加入50μL的TE缓冲液，第二测序接头的终浓度为100μM。

6、将表14中的各5′端带第一测序接头的靶标基因探针等摩尔数混合，得到混合液，该混合液中各5′端带第一测序接头的靶标基因探针的终浓度为200μM。

7、5′端带第一测序接头的靶标基因探针混合物的退火和延伸，具体如下：

对每个单管反应，检测的靶标基因位点数可从1到1万个，每个位点对应一个带有特定靶标基因结合区的引物，因此对每个单管反应最多可混合1万个该类探针。本实施例的靶标检测位点数为7个，具体如表12所示。

在200微升PCR管里配制如下反应体系：

表16

组分	体积(μL)
		5′端带第一测序接头的靶标基因探针混合物	5
0.05％的突变频率的cfDNA样本30ng(15ng/μL)	20
		VAHTS HiFi Amplification Mix	25
总体积	50

涡旋混匀并短暂离心，置于PCR仪中做如下反应：

表17

8、在200微升PCR管里配制如下反应体系：

表18

9、直接在第二接头连接反应产物所在的200微升PCR管里配制如表8所示反应体系(illumina indexing PCR)。

按表8配成100微升反应体系做PCR，反应条件如表9所示。

对比例3

本对比例提供杂交捕获对照实验。

取购自菁良基因科技(深圳)有限公司的肿瘤野生型FFPE标准品和肿瘤SNV 5％FFPE标准品，按照肿瘤野生型FFPE标准品：肿瘤SNV 5％FFPE标准品＝99：1的质量比混合，形成突变频率为0.05％的DNA样本30ng，采用与实施例2相同的探针库，即睿法4基因panel(不含IS1-UMI-EGFR V769_D770 insASV-1、IS1-UMI-EGFR V769_D770 insASV-2)，采用购自南京金斯瑞生物科技有限公司的建库和杂交捕获试剂盒，按照标准操作流程进行文库构建，包括依次进行捕获前扩增、杂交捕获、捕获后扩增，并送测序。

对比例4

本对比例提供扩增子建库对照实验(基于多重PCR技术)。

取购自菁良基因科技(深圳)有限公司的肿瘤野生型FFPE标准品和肿瘤SNV 5％FFPE标准品，按照肿瘤野生型FFPE标准品：肿瘤SNV 5％FFPE标准品＝99：1的质量比混合，形成突变频率为0.05％的DNA样本30ng，采用与实施例2相同的探针库，即睿法4基因panel(不含IS1-UMI-EGFR V769_D770 insASV-1、IS1-UMI-EGFR V769_D770 insASV-2)，采用购自金斯瑞生物科技股份有限公司的扩增子建库试剂盒，按照标准操作流程进行扩增子建库，并送测序。

上机测序

取实施例2、对比例3、对比例4制得的文库产物，均用Qubit4.0测定浓度，并各取20ng，上机测序。测序仪器型号为Illumina HiSeq 4000，测序策略为PE150，每个样本数据量为1Gb。

测序数据质控和分析流程

分析结果如下：

实施例2的文库所得测序结果为10个index拆分的读段数(reads数)的合集，具体见下表：

表19

index No.	reads数	比例
			1	669620	10.025％
2	665293	9.960％
			3	666929	9.984％
4	667302	9.990％
			5	667409	9.991％
6	668722	10.011％
			7	666038	9.971％
8	665957	9.970％
			9	669152	10.018％
10	668382	10.006％
			无法列入index的reads数	5002	0.075％
总reads数	6679806	100.000％

由上表可见，各index间reads数分布偏好性低(各index所拆分的reads数相近)，且无法列入index的reads数仅占总reads数的万分之七点五，说明实施例2使用的P7端带样本标签的indexing扩增系统已经可以精准地对多个样本进行混合靶标基因建库和测序。

突变检测结果如下表：

表20

由上表可见，实施例2构建的文库的测序数据质量相对于其他两项现有技术测序结果更高，具体地，Q30比例更高，Q30代表正确率在99.9％的reads占总reads数的比例；且基于实施例2的文库所检测得到的靶标基因突变的频率更接近真实值，即MAF(MutationAllele Frequency)更接近万分之五的预设值。因此，实施例2的文库构建方法在对人类等复杂基因组的特定靶标基因做测序检测时的性能更优，且耗时更短，对比例3的杂交捕获建库需72-80小时，对比例4的扩增子建库需24-32小时，实施例2的建库方法仅需10小时，且实施例2所需步骤少，所需各种试剂和耗材少，因此成本更低。综上，实施例2的建库方法在临床检测、医学研究和基因组科学研究中有更广阔的应用前景。

实施例3

本实施例从福尔马林固定和石蜡包埋(FFPE)组织标准品(购自菁良基因科技(深圳)有限公司，具体为肿瘤融合多位点FFPE(DNA/RNA)标准品)所提取DNA中取4等份各30ng分别用于3组独立的文库构建实验中的1组，其中本实施例使用2份，对比例5(采用杂交捕获建库作为测序文库的制备方法)使用1份，对比例6(采用扩增子建库方法作为测序文库的制备方法)使用1份，且三组实验所设计的靶标基因区域一致。然后在同样的高通两测序平台上上机测序，并测序相同数据量，最后采用同样的数据分析流程，检查同样的6个靶标融合基因断点(这6个融合断点所涉及的也是睿法融合基因fusion-core-panel的检测内容)的检测情况，以评估三种高通量测序靶标基因文库构建技术的性能差别(本实施例、杂交捕获建库和扩增子建库)。

DNA标准品购自菁良基因科技(深圳)有限公司，具体为肿瘤野生型FFPE标准品(购自采用菁良基因科技(深圳)有限公司，无融合基因突变，货号GW-OPSM005)和肿瘤融合多位点FFPE(DNA/RNA)标准品(货号GW-RPSM1006)，对两者做DNA抽提和纯化，将两者所提纯DNA按照49：1的质量比混合，得到含0.12％～0.6％频率的融合基因突变的DNA。

靶标检测位点如下表所示。

表21

所需全部寡聚体(oligo)如下表22、表23所示(由南京金斯瑞生物科技有限公司合成、HPLC纯化)。

表22

表23

表22、表23中各符号的含义同表2、表3。

试剂及仪器同实施例1。

实验步骤如下：

1、采用购自广州美基生物科技有限公司的磁珠法石蜡包埋组织DNA提取试剂盒(货号：D6323-02B)对肿瘤野生型FFPE标准品(购自采用菁良基因科技(深圳)有限公司，无融合基因突变，货号GW-OPSM005)和肿瘤融合多位点FFPE(DNA/RNA)标准品(购自采用菁良基因科技(深圳)有限公司，货号GW-RPSM1006)做总DNA提取，按照该试剂盒标准操作流程进行，最终按50微升体积洗脱获得DNA提取物。

2、用Qubit4.0测定浓度，野生型和肿瘤融合多位点FFPE标准品DNA浓度分别为15.63ng/μL和16.24ng/μL，总量分别为781.5ng和812ng，取肿瘤野生型FFPE标准品DNA294ng和肿瘤SNV 5％FFPE标准品DNA 6ng混合(即按质量比49比1混合)，将两者所提纯DNA按照19：1的质量比混合，得到含0.3％-1.5％频率的融合基因突变的DNA(以下简称融合基因DNA样本)，涡旋充分混匀。

3、从上一步产物中取两份样品，每份样品30ng，各放入一个200微升PCR管中，置于PCR仪中，95℃、2分钟变性。

4、待第3步完成后，将两个200微升PCR管置于冰水混合物中存放。

5、制备第二测序接头

5.1在200μL PCR管中配制以下反应体系：

表24

6、将表23中名称以“-1”结尾的6条5′端带第一测序接头的靶标融合基因探针(如IS1-UMI-EML4-ALK-1)等摩尔数混合，所得混合液(下称混合探针1)中各5′端带第一测序接头的靶标基因探针的终浓度为200μM；将表23中名称以“-2”结尾的6条引物(如IS1-UMI-EML4-ALK-2)等摩尔数混合，所得混合液(下称混合探针2)中各5′端带第一测序接头的靶标基因探针的终浓度为200μM。

对每个单管反应，检测的靶标基因位点数可从1到1万个，每个位点对应一个带有特定靶标基因结合区的引物，因此对每个单管反应最多可混合1万个该类探针。本实施例的靶标检测位点数为7个，具体如表21所示。

在两个200微升PCR管里分别配制如下反应体系：

表25

组分	体积(μL)
		混合探针1	5
融合基因DNA样本30ng(15ng/μL)	20
		VAHTS HiFi Amplification Mix	25
总体积	50

表26

组分	体积(μL)
		混合探针2	5
融合基因DNA样本30ng(15ng/μL)	20
		VAHTS HiFi Amplification Mix	25
总体积	50

涡旋混匀并短暂离心，置于PCR仪中做如下反应：

表27

8、在两个200微升PCR管里配制如下反应体系：

表28

组分	体积(μL)
		靶标融合基因探针延伸产物1	19.5
2×Rapid Ligation Buffer	25
		第二测序接头(100μM)	2
T4 DNA Ligase(Rapid)(600U/μL)	3.5
		总体积	50

表29

组分	体积(μL)
		靶标融合基因探针延伸产物2	19.5
2×Rapid Ligation Buffer	25
		第二测序接头(100μM)	2
T4 DNA Ligase(Rapid)(600U/μL)	3.5
		总体积	50

总反应体积为50μL，在PCR仪内，37℃下反应1小时做连接反应，然后95℃下反应5分钟，将连接产物变性成单链，从而去除发卡接头中带N的互补链。

9、直接在第二接头连接反应产物所在的200微升PCR管里配制如表27、表28所示反应体系(illumina in dexing PCR)。

按表27、表28配成100微升反应体系做PCR，反应条件如实施例1的表9所示。

反应完成后，采用VAHTS DNA Clean Beads磁珠纯化产物，按该磁珠纯化PCR产物的标准操作进行，最后一步用25微升超纯水洗脱最终产物，建成P7端带样本标签的illumina靶标融合基因文库(编号为靶标融合基因文库1和靶标融合基因文库2)，可供直接测序。

对比例5

本对比例提供杂交捕获对照实验。

本对比例检测的样品同实施例3，采用与实施例3完全相同的靶标区域所设计的杂交捕获探针库如下表。

表30

表29中，“-Biotin”代表3’端生物素修饰。

上表中各融合基因杂交捕获探针及其配套的建库和杂交捕获试剂盒均购自南京金斯瑞生物科技有限公司，其中杂交捕获探针按照杂交捕获探针单条合成模式定制。按照其建库和杂交捕获试剂盒标准操作流程进行文库构建，包括依次进行捕获前扩增、杂交捕获、捕获后扩增，并送测序。本对比例的文库构建流程同对比例3。

对比例6

本对比例提供扩增子建库对照实验(基于多重PCR技术)。

本对比例检测的样品同实施例3，采用与实施例3完全相同的靶标区域所设计扩增子探针库如下表。

表31

对比例6所用扩增子建库探针	靶标融合基因扩增子探针序列(5’-3’)	序列编号
			primer-EML4-ALK-fwd	GATGTTCTTACTGGAGACTC	SEQ ID NO.45
primer-EML4-ALK-rvs	GCCTTGTTGATGTGGACATG	SEQ ID NO.46
			primer-SLC34A2-ROS1-fwd	TCCAAGGGATTGGGAGATTG	SEQ ID NO.47
primer-SLC34A2-ROS1-rvs	CAACGTTCCTGATTTCTAATC	SEQ ID NO.48
			primer-TPM3-NTRK1-fwd	GCCTCGATGGTGGTGATC	SEQ ID NO.49
primer-TPM3-NTRK1-rvs	GTTTCGTCCTTCTTCTCCAC	SEQ ID NO.50
			primer-ETV6-NTRK3-fwd	CTGACAAAGTCCCACTCTC	SEQ ID NO.51
primer-ETV6-NTRK3-rvs	ATCGTGTGTAGACCTGTATC	SEQ ID NO.52
			primer-FGFR2-COL14-fwd	CTCACAAGACAACCAAGGAC	SEQ ID NO.53
primer-FGFR2-COL14-rvs	ATGCGTTCATTGCCTTCTCAC	SEQ ID NO.54
			primer-FGFR3-TACC3-fwd	AGGAGTACCTGGACCTGTCG	SEQ ID NO.55
primer-FGFR3-TACC3-rvs	GAAGAGCTTGAGCAGTCCAG	SEQ ID NO.56

上表中各融合基因扩增子探针及其配套的扩增子建库试剂盒均购自南京金斯瑞生物科技有限公司。其中扩增子探针按照普通PCR引物单条合成模式定制。按照扩增子建库试剂盒标准操作流程进行扩增子建库，并送测序。本对比例的文库构建流程同对比例4。

上机测序

取实施例3所得2个文库，以及对比例5、对比例6制得的文库，共4个文库，均用Qubit4.0测定浓度，并各取20ng，上机测序。测序仪器型号为Illumina HiSeq 4000，测序策略为PE150，每个文库下单数据量为1Gb。

测序数据质控和分析流程

分析结果如下：

实施例3的两个文库所得测序结果为10个index拆分的读段数(reads数)的合集，具体见下表：

表32

表33

index No.	reads数	比例
			1	668927	10.01％
2	665848	9.96％
			3	666937	9.98％
4	667822	9.99％
			5	667936	9.99％
6	668802	10.01％
			7	666862	9.98％
8	665625	9.96％
			9	669937	10.02％
10	668521	10.00％
			无法列入index的reads数	7002	0.10％
总reads数	6684219	100.00％

由上表可见，各index间reads(读段)数分布偏好性低(各index所拆分的reads数相近)，且无法列入index的reads数仅占总reads数的约千分之一，说明实施例3使用的P7端带样本标签的indexing扩增系统已经可以精准地对多个样本进行混合靶标基因建库和测序。

各组实验融合基因检测结果比较如下表：

表34

由上表可见，实施例3构建的文库的测序数据质量相对于其他两项现有技术测序结果更高，具体地，Q30比例更高，Q30代表正确率在99.9％的reads占总reads数的比例；且基于实施例3的文库所检测得到的靶标融合基因的频率更接近真实值，即MAF(MutationAllele Frequency，突变等位基因频率)更接近融合基因频率的预设值。因此，实施例3的文库构建方法在对人类等复杂基因组的靶标融合基因做测序检测时的性能更优，且耗时更短，对比例5的杂交捕获建库需72～80小时，对比例6的扩增子建库需24～32小时，实施例3的建库方法仅需10小时，且实施例3所需步骤少，所需各种试剂和耗材少，因此成本更低。

另外，在实施例3中，靶标融合基因文库1和靶标融合基因文库2的融合基因检测结果高度相似且均高度接近预设值。而此二文库构建过程中所用融合基因靶标探针末尾编号分别为-1和-2，这两组探针中一组内的每条探针和另一组中的一条探针一一对应，具体定位在基因组中的位置为同一个融合断点的左侧和右侧，然后探针向前延伸，最后所得靶标融合基因文库的测序结果高度相似，说明无论在融合断点的哪一侧设计探针，无论另一侧的融合伴侣(fusion partner)为何种DNA序列，均可准确捕获并检测到融合的断点。因此本方法可用于精准检测位置融合基因，即仅需获知融合断点一侧的序列，另一侧为任何序列均不影响融合基因于的检测。而对比例5所用杂交捕获的探针基于融合断点两侧序列同时获知，在断点两侧的全长序列上设计，若断点的某一侧变为一个新的或未知的融合伴侣，则会极大地降低其检测效果。而对比例6所用扩增子建库技术对融合基因断点的检测基于PCR扩增，PCR反应的原理是需要靶标DNA的两端序列均已知，如此才能设计所需的一对引物用于PCR，若断点的某一侧变为一个新的或未知的融合伴侣，则基于原两侧融合伴侣序列设计的一对引物即失效，导致PCR无法进行，因此该方法无法检测未知融合基因。

在临床医学检测和科研中，特别在肿瘤样本中，未知融合基因常常出现，即融合基因断点的一侧为熟知的一个融合伴侣，而断点另一侧为不同样本或患者有不同的融合伴侣，甚至在同一份肿瘤样本中也常见在断点另一侧有不同的融合伴侣(这是肿瘤异质性的固有性质造成的)。这些断点一侧的融合伴侣固定而断点另一侧的融合伴侣不同的各融合基因有不同的基因表达产物，相互之间的生物学和病理学性质各异，因此准确和全面的检测融合基因(含熟知的融合基因和新发现或未知的融合基因)，具有重大科学，医学和商业检测价值。

综上，实施例3的靶标融合基因建库方法在临床检测、医学研究和基因组科学研究中有更广阔的应用前景。

在一些实施例中，本发明适用的DNA样本类型广泛，对严重降解和微量这些常规NGS技术无法胜任的样本，而且对样本长度无要求，对长片段的完整的基因组DNA无需打断。

在一些实施例中，本发明可将现有建库技术中分离的步骤整合为一体，流程短，只需约5小时，操作简易。

在一些实施例中，本发明采用自配试剂，可完全摆脱试剂进口。

在一些实施例中，建库起始模板以单链形式，可适用于严重降解和微量样本。

在一些实施例中，基于线性扩增且在靶标基因分子上直接加分子标签，减少指数型扩增带来的错误和偏好性，可实现定量检测，超低频突变检测和基因组结构性变异检测，如基因拷贝数变化、融合基因和病毒插入序列等。

现有的NGS建库需要将DNA样本打断至200至500bp长的范围以适应NGS测序的实际读长(目前最常用的测序模式为PE150，即双向测序，各150bp长)，在建库的过程中做复杂的文库片段长度筛选(一般采用两步词组筛选法)，在一些实施例中，本发明的起始DNA不需要打断，建库过程中也无需做文库片段长度筛选。

在一些实施例中，起始量可底至0.1ng，真正实现超微量DNA建库。

在一些实施例中，RNA样本逆转录为cDNA后可自动兼容本发明，且无需二链合成，节省物料和时间，且避免现有的二链合成过程中随机引物带来的一系列错误和偏好性。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

SEQUENCE LISTING

<110> 深圳市睿法生物科技有限公司

<120> 一种单分子靶标基因建库方法及其试剂盒

<130> 21I33078

<160> 56

<170> PatentIn version 3.3

<210> 1

<211> 34

<212> DNA

<213> 人工序列

<400> 1

agatcggaag agcacacgtc tgaactccag tcac 34

<210> 2

<211> 43

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (37)..(43)

<223> n is a, c, g, or t

<400> 2

aagtgactgg agttcagacg tgtgctcttc cgatctnnnn nnn 43

<210> 3

<211> 60

<212> DNA

<213> 人工序列

<400> 3

caagcagaag acggcatacg agattgatag gtgactggag ttcagacgtg tgctcttccg 60

<210> 4

<211> 60

<212> DNA

<213> 人工序列

<400> 4

caagcagaag acggcatacg agattatacg gtgactggag ttcagacgtg tgctcttccg 60

<210> 5

<211> 60

<212> DNA

<213> 人工序列

<400> 5

caagcagaag acggcatacg agatcgatca gtgactggag ttcagacgtg tgctcttccg 60

<210> 6

<211> 60

<212> DNA

<213> 人工序列

<400> 6

caagcagaag acggcatacg agatatacac gtgactggag ttcagacgtg tgctcttccg 60

<210> 7

<211> 60

<212> DNA

<213> 人工序列

<400> 7

caagcagaag acggcatacg agatatagcg gtgactggag ttcagacgtg tgctcttccg 60

<210> 8

<211> 60

<212> DNA

<213> 人工序列

<400> 8

caagcagaag acggcatacg agattgttca gtgactggag ttcagacgtg tgctcttccg 60

<210> 9

<211> 60

<212> DNA

<213> 人工序列

<400> 9

caagcagaag acggcatacg agatagatac gtgactggag ttcagacgtg tgctcttccg 60

<210> 10

<211> 60

<212> DNA

<213> 人工序列

<400> 10

caagcagaag acggcatacg agattagctg gtgactggag ttcagacgtg tgctcttccg 60

<210> 11

<211> 60

<212> DNA

<213> 人工序列

<400> 11

caagcagaag acggcatacg agatgtatgt gtgactggag ttcagacgtg tgctcttccg 60

<210> 12

<211> 60

<212> DNA

<213> 人工序列

<400> 12

caagcagaag acggcatacg agatggctca gtgactggag ttcagacgtg tgctcttccg 60

<210> 13

<211> 60

<212> DNA

<213> 人工序列

<400> 13

caagcagaag acggcatacg agatcatgct gtgactggag ttcagacgtg tgctcttccg 60

<210> 14

<211> 60

<212> DNA

<213> 人工序列

<400> 14

caagcagaag acggcatacg agattcatcg gtgactggag ttcagacgtg tgctcttccg 60

<210> 15

<211> 51

<212> DNA

<213> 人工序列

<400> 15

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct t 51

<210> 16

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 16

acactctttc cctacacgac gctcttccga tctnnnnnnn nntgatttgt agtggagaag 60

ga 62

<210> 17

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 17

acactctttc cctacacgac gctcttccga tctnnnnnnn nntggcctgg cttgcttacc 60

tt 62

<210> 18

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 18

acactctttc cctacacgac gctcttccga tctnnnnnnn nngcatctgc ctcacctcca 60

cc 62

<210> 19

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 19

acactctttc cctacacgac gctcttccga tctnnnnnnn nntccaggag gcagccgaag 60

gg 62

<210> 20

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 20

acactctttc cctacacgac gctcttccga tctnnnnnnn nnggaaactg aattcaaaaa 60

ga 62

<210> 21

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 21

acactctttc cctacacgac gctcttccga tctnnnnnnn nngaccttac cttatacacc 60

gt 62

<210> 22

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 22

acactctttc cctacacgac gctcttccga tctnnnnnnn nngaaataaa tacagatctg 60

tt 62

<210> 23

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 23

acactctttc cctacacgac gctcttccga tctnnnnnnn nnaaaaggaa ttccataact 60

tc 62

<210> 24

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 24

acactctttc cctacacgac gctcttccga tctnnnnnnn nngacgatac agctaattca 60

ga 62

<210> 25

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 25

acactctttc cctacacgac gctcttccga tctnnnnnnn nnacaagttt atattcagtc 60

at 62

<210> 26

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 26

acactctttc cctacacgac gctcttccga tctnnnnnnn nntgagagac caatacatga 60

gg 62

<210> 27

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 27

acactctttc cctacacgac gctcttccga tctnnnnnnn nntatgtcca acaaacaggt 60

tt 62

<210> 28

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 28

acactctttc cctacacgac gctcttccga tctnnnnnnn nnagaaggtg agaaagttaa 60

aa 62

<210> 29

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 29

acactctttc cctacacgac gctcttccga tctnnnnnnn nntcacatcg aggatttcct 60

tg 62

<210> 30

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 30

acactctttc cctacacgac gctcttccga tctnnnnnnn nnccctccct ccaggaagcc 60

ta 62

<210> 31

<211> 62

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (34)..(42)

<223> n is a, c, g, or t

<400> 31

acactctttc cctacacgac gctcttccga tctnnnnnnn nnaggcagat gcccagcagg 60

cg 62

<210> 32

<211> 99

<212> DNA

<213> 人工序列

<400> 32

ttagtcatta caaataactc ctttatttcc gttccctctc ccctcaaatg gctcatgtcc 60

acatcaacaa ggcaaggaaa catctatgac cccaactat 99

<210> 33

<211> 99

<212> DNA

<213> 人工序列

<400> 33

ctacacattg ttgtcagtga gactttggtc aaagtggtta ttgactgcaa gcaagtgggt 60

gagaaggcaa tgaacgcatc agctaatatc acgtcagat 99

<210> 34

<211> 99

<212> DNA

<213> 人工序列

<400> 34

tcttggggaa tggagatgtt cttactggag actcaggtgg agtcatgctt atatggagca 60

aaactactgt agagcccaca cctgggaaag gacctaaag 99

<210> 35

<211> 99

<212> DNA

<213> 人工序列

<400> 35

ggtgagtgag ttcccctctc gccgctccag catcatgggg acctgacaaa gtcccactct 60

cccctgtgat ctttgcagcc agcctcgcac cattcccaa 99

<210> 36

<211> 99

<212> DNA

<213> 人工序列

<400> 36

actccaacca acagccaaca ggggagtgtg tgtgtaaaac actacgcatg tctcacaaga 60

caaccaagga caaggggctt ctagaaggaa gttcttacc 99

<210> 37

<211> 99

<212> DNA

<213> 人工序列

<400> 37

gggcacagcc tgggcacaga ggtggctgtg cgaagagggg ctcggtggca cagcgctcac 60

cccgcctccc gccagcagga gtacctggac ctgtcggcg 99

<210> 38

<211> 99

<212> DNA

<213> 人工序列

<400> 38

acactaacag cacatctgga gacccggtgg agaagaagga cgaaacacct tttggggtga 60

gataggaagt agaagcttgt gcagactttg ggaccggga 99

<210> 39

<211> 99

<212> DNA

<213> 人工序列

<400> 39

ttgttgtttt atactttatt tgagaagaga ccctacataa actatgtcag gaggatacag 60

gtctacacac gatttcatca atcaataaat ggagttgtt 99

<210> 40

<211> 99

<212> DNA

<213> 人工序列

<400> 40

caggcagctg gtatggggat tgctacaact gaaaccaaat ggctctcaga accaagatta 60

gaaatcagga acgttgcatt gtttatttgg agttataga 99

<210> 41

<211> 99

<212> DNA

<213> 人工序列

<400> 41

tcttccaagg gattgggaga ttgattttac ttctcggatt tctctacttt ttcgtgtgct 60

ccctggatat tcttagtagc gccttccagc tggttggag 99

<210> 42

<211> 99

<212> DNA

<213> 人工序列

<400> 42

cccaggtgcc ctggctgacc tggactgctc aagctcttcc cagagcccag gaagttctga 60

gaaccaaatg gtgtctccag gaaaagtgtc tggcagccc 99

<210> 43

<211> 51

<212> DNA

<213> 人工序列

<400> 43

cctggatctt gcgcttcacc gcctcgatgg tggtgatccc agccatggtg c 51

<210> 44

<211> 48

<212> DNA

<213> 人工序列

<400> 44

ccacccagct actgctcgcg ctccggttcc tgcctcctcc gctcggcg 48

<210> 45

<211> 20

<212> DNA

<213> 人工序列

<400> 45

gatgttctta ctggagactc 20

<210> 46

<211> 20

<212> DNA

<213> 人工序列

<400> 46

gccttgttga tgtggacatg 20

<210> 47

<211> 20

<212> DNA

<213> 人工序列

<400> 47

tccaagggat tgggagattg 20

<210> 48

<211> 21

<212> DNA

<213> 人工序列

<400> 48

caacgttcct gatttctaat c 21

<210> 49

<211> 18

<212> DNA

<213> 人工序列

<400> 49

gcctcgatgg tggtgatc 18

<210> 50

<211> 20

<212> DNA

<213> 人工序列

<400> 50

gtttcgtcct tcttctccac 20

<210> 51

<211> 19

<212> DNA

<213> 人工序列

<400> 51

ctgacaaagt cccactctc 19

<210> 52

<211> 20

<212> DNA

<213> 人工序列

<400> 52

atcgtgtgta gacctgtatc 20

<210> 53

<211> 20

<212> DNA

<213> 人工序列

<400> 53

ctcacaagac aaccaaggac 20

<210> 54

<211> 21

<212> DNA

<213> 人工序列

<400> 54

atgcgttcat tgccttctca c 21

<210> 55

<211> 20

<212> DNA

<213> 人工序列

<400> 55

aggagtacct ggacctgtcg 20

<210> 56

<211> 20

<212> DNA

<213> 人工序列

<400> 56

gaagagcttg agcagtccag 20

Claims

1.一种单分子靶标基因建库方法，其特征在于，包括：

2.如权利要求1所述的单分子靶标基因建库方法，其特征在于，所述模板分子为单链DNA；

和/或，所述模板分子选自双链DNA解链处理后得到的单链DNA、RNA逆转录得到的cDNA中的至少一种；

和/或，所述模板分子来源于亚硫酸氢盐处理的DNA、福尔马林固定和石蜡包埋组织的DNA、法医样本提取的DNA、体液所含游离DNA、古生物化石或考古发掘的生物遗存中提取的DNA样本中的至少一种；

和/或，所述模板分子的起始量为0.1至1000纳克；

和/或，所述靶标探针延伸产物为单链DNA；

和/或，延伸步骤中，还包括对靶标探针延伸产物进行纯化处理，获得纯化后的靶标探针延伸产物；

和/或，第二测序接头连接步骤中，包括向纯化后的靶标探针延伸产物中加入第二测序接头；

和/或，所述纯化包括磁珠纯化。

3.如权利要求1所述的单分子靶标基因建库方法，其特征在于，所述第二测序接头的正向链的5’端修饰有磷酸基团；

和/或，所述第一测序接头与所述靶标探针之间串联有分子标签；

和/或，所述分子标签的长度为4-19nt。

4.如权利要求1所述的单分子靶标基因建库方法，其特征在于，所述第二测序接头的反向链的3’端串联的随机核苷酸序列的长度为5-15nt。

5.如权利要求1所述的单分子靶标基因建库方法，其特征在于，所述第一引物含有可与所述第一测序接头互补配对的序列，所述第二引物含有可与所述第二测序接头互补配对的序列；

和/或，所述第一引物含有内接头序列、外接头序列，所述内接头序列的5’端串联连接至所述外接头序列的3’端，所述内接头序列可与所述第一测序接头反向互补配对；

和/或，所述第一引物含有或不含有第一样本标签；

和/或，所述第一引物含有第一样本标签时，第一样本标签位于所述内接头序列、外接头序列之间；

和/或，所述第一样本标签的长度为4-15nt；

和/或，所述第二引物含有内接头序列、外接头序列，所述内接头序列的5’端串联连接至所述外接头序列的3’端，所述内接头序列可与所述第二测序接头反向互补配对；

和/或，所述第二引物含有或不含有第二样本标签；

和/或，所述第二引物含有第二样本标签时，所述第二样本标签位于所述内接头序列、外接头序列之间；

和/或，所述第二样本标签的长度为4-15nt；

和/或，延伸步骤中，延伸反应的扩增循环数≥1；

和/或，延伸步骤中，延伸反应的扩增循环数为5-500个循环；

和/或，延伸步骤中，每个循环反应如下：94-98℃，10-60秒；55-65℃，10-60秒；68-72℃，10-60秒。

6.如权利要求1所述的单分子靶标基因建库方法，其特征在于，第二测序接头连接步骤中，连接反应时，具体是在22-40℃下反应0.5-2小时；

和/或，第二测序接头连接步骤中，采用的连接酶为T4 DNA连接酶。

7.如权利要求1所述的单分子靶标基因建库方法，其特征在于，第二测序接头连接步骤中，所述解链处理为变性处理；

和/或，所述变性处理为热变性处理；

和/或，所述热变性处理具体是将目标分子加热到至少80℃保持至少1min；

和/或，所述第一测序接头选自Illumina测序平台的P5端测序接头、MGI测序平台的P2端测序接头中的任意一种；

和/或，所述第二测序接头选自Illumina测序平台的P7端测序接头、MGI测序平台的P1端测序接头中的任意一种。

8.如权利要求1-7任意一项所述方法构建得到的文库。

9.一种试剂盒，其特征在于，包括第一测序接头、第二测序接头，所述第一测序接头串联连接有靶标探针，所述靶标探针可结合至模板分子的靶标区域并延伸反应，所述第二测序接头含有互补配对的正向链、反向链，所述第二测序接头的正向链的5’端可串联连接至靶标探针延伸产物的3’端，所述反向链的3’端串联连接有随机核苷酸序列。

10.如权利要求9所述的试剂盒，其特征在于，所述模板分子为单链DNA；

和/或，所述模板分子为双链DNA解链处理后得到的单链DNA、RNA逆转录得到的cDNA中的至少一种；

和/或，所述模板分子选自亚硫酸氢盐处理的DNA、各类严重降解的DNA；

和/或，所述各类严重降解的DNA包括福尔马林固定和石蜡包埋(FFPE)组织的DNA、法医样本提取的DNA、体液所含游离DNA(cfDNA)；

和/或，所述模板分子的起始量为0.1至1000纳克；

和/或，所述靶标探针延伸产物为单链DNA；

和/或，所述第二测序接头的正向链的5’端修饰有磷酸基团；

和/或，所述分子标签的长度为4-19nt；

和/或，所述第二测序接头的反向链的3’端串联的随机核苷酸序列的长度为5-15nt；

和/或，所述试剂盒还含有第一引物、第二引物，所述第一引物含有可与所述第一测序接头互补配对的序列，所述第二引物含有可与所述第二测序接头互补配对的序列；

和/或，所述第一引物含有或不含有第一样本标签；

和/或，所述第一引物含有第一样本标签时，所述第一样本标签位于所述内接头序列、外接头序列之间；

和/或，所述第一样本标签的长度为4-15nt；

和/或，所述第二引物含有或不含有第二样本标签；

和/或，所述第二样本标签的长度为4-15nt；