CN107604046B

CN107604046B - 用于微量dna超低频突变检测的双分子自校验文库制备及杂交捕获的二代测序方法

Info

Publication number: CN107604046B
Application number: CN201711073031.XA
Authority: CN
Inventors: 师咏勇; 周娟; 沈佳薇
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Diying Biotechnology Co ltd
Priority date: 2017-11-03
Filing date: 2017-11-03
Publication date: 2021-08-24
Anticipated expiration: 2037-11-03
Also published as: CN107604046A

Abstract

本发明公开了用于微量DNA超低频突变检测的双分子自校验文库制备及杂交捕获的二代测序方法。该方法包括如下步骤：血浆游离DNA提取，DNA化学错误修复，自校验双分子识别码发夹型接头制备，血浆游离DNA修复，DNA与接头连接，Pre‑PCR扩增，超量杂交捕获，Post‑PCR扩增，上机测序，数据纠错校正，突变分析与注释。本发明的方法可以高效实现血浆循环游离DNA的低频突变检测。DNA错误修复和双重冗余校验技术使得该方法在检测微量样本时具有超低的假阳性率和高灵敏度，避免了现有血浆循环游离DNA检测方法的缺陷，不仅可以实现癌症突变检测和靶向用药指导，也可实现胎儿遗传和出生缺陷早期筛查。

Description

用于微量DNA超低频突变检测的双分子自校验文库制备及杂交捕获的二代测序方法

技术领域

本发明属于生物技术领域，具体涉及分子生物学、高通量测序技术和生物信息学相关的微量DNA(包括：循环游离DNA、循环肿瘤DNA、胎儿游离DNA等)的超低频突变检测的文库构建与靶向富集测序方法。

背景技术

液态活检(Liquid Biopsy)与传统的组织活检相比有着迅速、便捷、损伤性小等众多优点。而在各类液态活检技术中，循环游离DNA(circulating cell-free DNA，ccfDNA)检测因为其独特的优势和高通量测序技术的成熟而得到快速的发展。在人体内，每时每刻都有各种来源的游离DNA片段流入到血循环中，而肿瘤患者的肿瘤、孕妇所怀胎儿排出的游离DNA片段也夹杂在其中。循环肿瘤DNA(circulating tumor DNA，ctDNA)是游离于血液循环系统中的肿瘤DNA，是肿瘤细胞死亡后释放出的小片段DNA，主要来源为坏死的肿瘤细胞、凋亡的肿瘤细胞、循环肿瘤细胞、以及肿瘤细胞分泌的外排体。胎儿游离DNA(cell-freefetal DNA，cffDNA)是游离于孕妇血液循环系统中的胎儿DNA，主要来源于胎盘滋养层细胞。

检测血浆ctDNA中的肿瘤标志物具有区别于传统组织肿瘤标志物筛查的检测方式，具有无创、随时监控和早期筛查等优势，并且对循环游离DNA的取样检测避免了当前分子诊断需要采集癌组织作为标本来源的困难。然而在循环血中除了肿瘤游离DNA，也存在正常组织游离DNA，且因个体差异，肿瘤发生发展时期，治疗时期等原因，循环DNA的总量不定，且往往较癌组织相应频率低得多，尤其早期阶段的癌症血浆ctDNA的丰度甚至在0.01％水平，因此在血浆ctDNA的临床应用中，如何在极低起始量的情况下实现可靠的低频突变检测成为最紧迫的问题。

检测血浆cffDNA中的遗传标志物具有区别于传统羊水组织遗传标志物筛查的检测方式，有无创、早期筛查等优势。与ctDNA类似，cffDNA在孕早期总量不定。现有的检测手段往往要到孕12周、血浆cffDNA平均含量达到10％以上后才能进行检测，以至于错过了最佳干预时间。因此在血浆cffDNA的临床应用中，如何在极低起始量的情况下实现可靠的低频突变检测也成为最紧迫的问题。

新一代测序(Next Generation Sequencing，NGS)技术的到来让使用液体活检来分析微量循环游离DNA(包括ctDNA、cffDNA等)成为可能。在常规的高通量测序过程中，低起始量和低频突变检测本身是一组矛盾。实现低频突变检测需要提高测序覆盖度，这就要求足够的文库复杂度，进而要求足够的样本起始量。另一方面高通量测序仪器本身存在0.1％-1％(Illumina HiSeq 0.1％，ABI SOLiD 0.2％，Life Ion Torrent 1％)的固有测序错误。因此高效实现对血浆循环游离DNA(cfDNA，包括ctDNA、cffDNA等)低频突变的精确检测，必须高效率地引入测序错误的校正与纠错机制。

发明内容

本发明的第一个目的是提供一种循环游离DNA超低频变异检测的方法。

本发明提供的循环游离DNA超低频变异检测的方法包括如下步骤：

(b1)将待测循环游离DNA连接接头，得到DNA文库；

所述接头是一茎环结构的DNA分子；

构成接头的DNA序列自5'末端至3'末端依次包括固定间隔序列甲、随机分子标签序列甲、颈环序列、随机分子标签序列乙和固定间隔序列乙；

所述固定间隔序列甲为由X个任意碱基组成的序列，所述碱基为A、G、C或T；所述X为自然数，1≦X≦4；

所述固定间隔序列乙的3’末端为胸腺嘧啶核苷酸，剩余部分与所述固定间隔序列甲反向互补；

所述随机分子标签序列乙与所述随机分子标签序列甲反向互补；

所述随机分子标签序列甲自5'末端至3'末端依次由M个3联体单元组成；所述M为大于等于2的整数；每个3联体单元均为NNN，所述N为A、G、C或T；

将M个3联体单元中的第一个3联体单元记作3碱基指示序列，所述3碱基指示序列是从四种碱基中任选三种再进行排序得到的，所述3碱基指示序列的种类可为一种、两种或多种；根据排列组合方式的不同，具体是碱基种类不同和碱基排列顺序不同，共有24种排列组合方式，即共有24种3碱基指示序列。

且，在同一种3碱基指示序列下，每一条随机分子标签序列甲中，除了3碱基指示序列外的所有(M-1)个3联体单元中任意两个3联体单元相比，至少有两个碱基不同；此处不同是指将某个3联体单元中的第一个碱基、第二个碱基和第三个碱基分别与其他3联体单元中的第一个碱基、第二个碱基和第三个碱基进行对应比对(某一个3联体单元的第一个碱基与另一个3联体单元的第一个碱基进行比对，第二个碱基与另一个3联体单元的第二个碱基进行比对，第三个碱基与另一个3联体单元的第三个碱基进行比对)，至少有两个碱基不同。例如：3联体单元“AAA”分别与“ATA”、“TAA”都仅相差1个碱基，所以在使用3联体单元构建随机分子标签的时候，将“AAA”排除；例如：第一个3联体单元(3碱基指示序列)的序列可为ATG，其余四个3联体单元可为如下任意四个3联体单元：CTG、TGC、GAG、ATA、CCT、GCA、CAC、TCG、GTC、TAA、ACG和CGA的随机组合，最终形成大量随机组合的标签序列；

所述颈环序列自5’末端至3’末端依次由茎段甲、茎段乙、茎段丙和茎段丁组成；所述茎段甲与所述茎段丁反向互补；所述茎段乙和所述茎段丙之间形成可被蛋白酶切断的结构；该颈环结构可提高接头的结构稳定性，有助于提高连接效率进而提高微量样本的文库转化率；

(b2)将所述DNA文库进行杂交捕获，得到杂交后文库；

(b3)将所述杂交后文库进行测序，得到测序结果，根据所述测序结果进行突变分析。

本发明的第二个目的是提供一种循环游离DNA超低频变异检测的DNA文库的构建方法。

本发明提供的循环游离DNA超低频变异检测的DNA文库的构建方法包括上述步骤(b1)。

上述方法中，所述接头的种类为Y，所述Y为自然数，1≦Y≦4；

所述Y种接头中，固定间隔序列甲均不同，所述不同指固定间隔序列甲的碱基数不同。本发明的固定间隔序列甲和固定间隔序列乙可用于后续数据分析中隔离随机分子标签序列(随机分子识别码)和文库测序数据，不等长度的设计保证了测序过程中每个Cycle的碱基多样性，避免因此而造成的碱基质量下降。

上述方法中，所述Y为4，所述接头种类为4种，分别记作接头A、接头B、接头C和接头D，每种接头中，固定间隔序列甲的碱基数依次为1、2、3和4。

其中，一种接头A为1bp，具体可为碱基C；另一种接头B为2bp，具体可为碱基CA；再另一种接头C为3bp，具体可为碱基CAT；第4种接头D为4bp，具体可为CCAG。

上述方法中，本领域技术人员可根据需要和公知常识确定M的个数，在本发明的具体实施例中，所述M为5。

上述方法中，所述茎段甲和所述茎段丁与测序引物序列相同，可为二代测序中常用的测序引物，其序列分别为序列1第28-40位和序列1第81-93位；

所述茎段乙和所述茎段丙与PCR扩增引物序列相同，可为二代测序中常用的PCR扩增引物，其序列分别为序列1第41-59位和序列1第61-80位；

所述蛋白酶为USER酶；所述茎段乙和所述茎段丙由尿嘧啶核糖核苷酸连接。比起传统的Y型接头，使用dU碱基将末端连在一起，有助于提高接头的结构稳定性，提高连接效率进而提高微量样本的文库转化率。

上述方法中，所述步骤(b1)中，所述待测循环游离DNA在连接成套接头前还包括末端修复和3’端加A尾的步骤；

所述末端修复的方法为将待测循环游离DNA溶液(0.6ng/uL)与末端修复液(无锡迪赢生物科技有限公司，D8011A)混匀，20度孵育30min，得到末端修复cfDNA；所述待测循环游离DNA溶液为包含循环游离DNA的待测样品。在本发明的具体实施例中，所述待测循环游离DNA溶液为Horizon公司的cfDNA标准品HD779。

所述3’端加A尾的方法为将末端修复cfDNA与加尾混合液(无锡迪赢生物科技有限公司，D8011A)混匀，30度孵育30min，得到加尾cfDNA；

所述末端修复和所述3’端加A尾后均包括纯化的步骤；

所述成套接头的连接方法如下：将加尾cfDNA、成套接头、Blunt/TA LigaseMaster Mix(NEB公司，货号M0367S)和水混匀，25度孵育1小时，得到连有接头cfDNA；

所述待测循环游离DNA在连接成套接头后还包括酶切和PCR扩增的步骤；所述PCR扩增为基于Multi-Mini PCR方法的Pre-PCR扩增；所述酶切为切断所述茎段乙和所述茎段丙之间形成可被蛋白酶切断的结构；

所述酶切与Pre-PCR扩增的方法如下：将连有接头cfDNA、KAPA HiFi HotStartReadyMix(2X)、USER酶(用于切开接头中的dU碱基，以便进行后续PCR扩增)、DY Pre-PCROligo Mix(包含DYPrePCR-F和DYPrePCR-R引物)混匀，得到PCR反应体系，反应，得到酶切和扩增产物，将酶切和扩增产物纯化后，即得到所述DNA文库。

所述步骤(b2)包括如下步骤：将杂交液、探针溶液和所述DNA文库混匀，得到杂交体系，孵育，得到所述杂交后的文库；

所述步骤(b2)的具体步骤如下：

(b2-1)文库预处理

配制文库的预处理体系：将DNA文库9uL(总量2ug)、human Cot-1DNA(1mg/ml)0.8uL和鲑精DNA(10mg/ml)0.8uL混匀，95度孵育5min后一直保持65度，得到预处理文库；

(b2-2)探针溶液制备

将2uL捕获探针(无锡迪赢生物科技有限公司，D8018A)、0.5uL的SUPERase-In(无锡迪赢生物科技有限公司，D8014A)、2uL的P5block RNA(100mM)(无锡迪赢生物科技有限公司，D8014A)和2uL的P7block RNA(无锡迪赢生物科技有限公司，D8014A)(100mM)混匀，65度孵育5min，得到探针溶液；

(b2-3)杂交捕获

将8uL杂交液(无锡迪赢生物科技有限公司，D8013A)、6.5uL的探针溶液与预处理文库混匀，得到杂交体系，65度孵育16小时，得到杂交后的文库；

(b2-4)对所述杂交后文库进行纯化，得到纯化的杂交后文库。

所述步骤(b2)和所述步骤(b3)之间还包括PCR扩增的步骤；所述PCR扩增为基于non-saturation PCR方法的Post-PCR扩增；

所述Post-PCR扩增体系的制备方法如下：将纯化的杂交后文库、10μL的5×Herculase II Reaction Buffer(clear cap)、1μL的Herculase II Fusion DNAPolymerase(red cap)、0.5uL的100mM dNTP Mix(green cap)、1uL的12.5×SYBR Green和1uL的DYPostPCR-U混匀；然后每个样本加入5uL的不同的DYPostPCR-I(引物序列中的YYYYYYYY代表用于区分样本的大小为8bp的Index序列，比如GCCACATA，CTGGCATA等)，得到不同扩增体系；

所述Post-PCR扩增程序如下：98度2min，98度30s，57度30s，72度60s，72度10min。

所述步骤(b3)中的测序为二代测序，所述突变分析前还包括如下步骤：从测序结果中选取含有正确的3碱基指示序列的测序结果，在所选取的测序结果中，若随机分子标签的三联体单元测序结果均正确，则保留该测序结果，用于后续突变分析；若某个随机分子标签序列的某个三联体单元中仅有一个位置发生错误，可对该三联体单元进行校正，使其正确，并保留该测序结果，用于后续突变分析；

所述某个三联体单元可以是某一个、某两个或某三个，乃至包括除3碱基指示序列外其余所有的三联体单元。

在实际应用中，若某个随机分子标签序列的某个三联体单元中至少两个位置发生错误，则该三联体单元无法自校验恢复，该测序结果去除或另做处理。

所述步骤(b3)的具体步骤如下：

(b3-1)分子标签序列的自校验

将测序原始数据先进行格式转换；然后去掉接头，将分子标签序列添加到序列ID位置中去，通过分子标签自校验机制排除或修复(校正)受到扩增或测序错误影响的分子标签序列，并过滤掉没有加上分子标签的序列。

本发明的随机分子标签带有自校验机制，可通过如下方法实现：

(1)将“A”、“C”、“T”、“G”四个碱基一一对应定义为“0”、“1”、“2”、“3”(例如：

或

或

等等)，共有24种定义的方法，24种3碱基指示序列对应24种规则，选择哪种规则可自主定义；每一条随机分子标签序列对应的是哪一种规则，由该随机分子标签序列的3碱基指示序列指示。例如：“ACG”指示第1种规则、“ATG”指示第2种规则等等，所述3碱基指示序列的种类数量决定所使用规则的数量；3碱基指示序列本身及其所指示的规则及使用多少种规则均可以自主规定；

(2)3碱基指示序列指示规则定义后，每个三联体单元按照模4加法运算规则进行运算，计作“·”，即可得到其对应的运算规则。以下根据随意选取的一种编码规则(这里以

规则示范)，示范3联体单元对应的运算规则：

3联体单元ACC对应的运算规则：A·C＝C即(0+1)mod 4＝1；

3联体单元CTG对应的运算规则：C·T＝G即(1+2)mod 4＝3；

3联体单元TGC对应的运算规则：T·G＝C即(2+3)mod 4＝1；

3联体单元GAG对应的运算规则：G·A＝G即(3+0)mod 4＝3；

3联体单元ATA对应的运算规则：A·T＝A即(0+2)mod 4＝2；

3联体单元CCT对应的运算规则：C·C＝T即(1+1)mod 4＝2；

3联体单元TTA对应的运算规则：T·T＝A即(2+2)mod 4＝0；

3联体单元GGC对应的运算规则：G·G＝C即(3+3)mod 4＝2；

例如：某一个由五个3联体单元组成的随机分子标签序列，第一个3联体单元(3碱基指示序列)的序列为ATG，定义其运算规则为

其余四个3联体单元依次为CTG、TGC、GAG和ATA。其中，三联体单元“CTG”根据运算规则和模4加法运算规则得到的对应运算规则为C·T＝G即(1+2)mod 4＝3，三联体单元“TGC”根据运算规则和模4加法运算规则得到的对应运算规则为T·G＝C即(2+3)mod 4＝1，依次类推，每个3联体单元均可得到其对应运算规则。

在获得测序结果以后，每个3联体单元根据其对应的运算规则可以实现对其自身发生的扩增或测序错误进行自校验。自校验方法如下：通过阅读3碱基指示序列，可以判断后续随机分子标签序列的每一个3联体单元序列应该符合的是哪1组运算规则，紧接着，分析随机分子标签序列的每一个3联体单元序列是否与该运算规则吻合，如果不吻合，说明该随机分子标签序列在测序过程中发生了错误。一方面，通过对运算规则的逆运算可以复原部分错误，另一方面，对于不能复原的测序错误的标签序列可以根据实际情况弃用或者结合标签序列后面的实际测序序列进一步校正。避免了因为标签序列自身测序错误导致的校验失败。

以下假设3碱基指示序列指示的是

规则，以3联体单元ACC所对应的运算规则示范其自校验的方法：3联体单元ACC对应运算规则A·C＝C即(0+1)mod 4＝1。由于3联体单元设置时已经去除了与之只相差一个碱基的其他3联体单元，故根据运算规则生成并保留的3联体单元集合中只要2个碱基是正确的就能确定另外的1个碱基，可以复原有1个碱基发生测序错误的情况。i)假设发生测序错误，导致ACC测序成为ACN(N代表除了C以外任意其他碱基)，于是算法发现不属于所规定的3联体单元集合，在检查同一序列其他3联体单元后确认3碱基指示序列所指示的规则无误后，可以根据运算规则确认此处ACN应为ACC；ii)假设发生测序错误，导致ACC测序成为ANC(N代表除了C以外任意其他碱基)，于是算法发现不属于所规定的3联体单元集合，在检查同一序列其他3联体单元后确认3碱基指示序列所指示的规则无误后，可以根据运算规则确认此处ANC应为ACC；iii)假设发生测序错误，导致ACC测序成为NCC(N代表除了C以外任意其他碱基)，于是算法发现不属于所规定的3联体单元集合，在检查同一序列其他3联体单元后确认3碱基指示序列所指示的规则无误后，可以根据运算规则确认此处NCC应为ACC。

(b3-2)重建测序扩增前的DNA分子

通过添加到序列ID位置中的分子标签序列对测序序列(reads)进行分组，具有相同分子标签序列的reads被认为来源于同一个起始DNA模板，被归为一个家族(family)，并进行错误矫正，即同一family内部的reads特有的突变将作为背景噪音进行去除，由此得到单链共有序列(single-strand consensus sequences，SSCs)。得到单链共有序列以后，利用DNA的双链特性，对同一起始DNA模板的正反义链的SSCs进行双链矫正，仅保留正反义链都一致的碱基，从而还原成一条DNA分子，即双链共有序列(duplex consensus sequences，DCSs)；

本发明根据合成随机分子标签序列进行纠错的原理如下：血浆循环游离DNA的平均长度大约为166bp，在建库的过程中每个双DNA片段分子两端会连接上包含两种不同种类的随机分子标签(分子识别码)的接头，标注为a和b。在接下来用P5和P7引物对连接产物进行PCR扩增时，同一个双链DNA分子会因为P5和P7的方向而产生a-b和b-a两类文库分子，理论上两类分子应该是1:1比例存在。当对所有文库进行测序后，进行基于随机分子标签(分子识别码)的校验。每个样本的同一个DNA分子中具有相同随机分子标签(分子识别码)的认为是同一个Family。首先在每个Family进行校验，理论上这些文库来自原始的一个DNA片段，因此如果是真实突变的话(如图2最上面一副的黄色点)，该Family内的所有Reads应该都携带该突变，而来自捕获错误或测序错误等过程中的错误应该是散状分布的，如图2中的蓝色、白色和粉色点。经过这样的单链随机分子标签(分子识别码)校验后可以看到a-b类文库分子存在一个黄色点的突变，b-a类分子存在一个黄色点的突变和一个紫色点的突变。由于还存在另外一类错误来源，比如原始双链DNA分子的某个碱基位置发生脱氨基等损伤导致的突变，这类错误无法通过单纯的单链分子识别码校验。因此基于a-b和b-a类的双分子识别码校验可以纠正这类双链上的局部错误，从而取出假阳性得到真实的突变。

(b3-3)基于重建后的分子进行突变分析

突变分析包括基因组比对、SNV、INDEL、CNV、Fusion、Long-INDEL等突变类型的分析和注释等过程。

具体地，

所述接头A为序列5；

所述接头B为序列6；

所述接头C为序列7；

所述接头D为序列8。

本发明的第三个目的是提供一种单链DNA分子。

本发明提供的单链DNA分子自5’末端至3’末端依次包括酶切位点保护序列、酶切识别位点(用于限制性内切酶处理后产生T悬头，以便进行后续的A Tailing产物进行连接)、固定间隔序列、随机分子标签序列和颈环序列；

所述固定间隔序列为由X个任意碱基组成的序列，所述碱基为A、G、C或T；所述X为自然数，1≦X≦4；

所述随机分子标签序列自5'末端至3'末端依次由M个3联体单元组成；所述M为大于等于2的整数；每个3联体单元均为NNN，所述N为A、G、C或T；

将M个3联体单元中的第一个3联体单元记作3碱基指示序列，所述3碱基指示序列是从四种碱基中任选三种再进行排序得到的，所述3碱基指示序列的种类可为一种、两种或多种；根据排列组合方式的不同，具体是碱基种类不同和碱基排列顺序不同，共有24种排列组合方式，即共有24种3碱基指示序列；

且，在同一种3碱基指示序列下，每一条随机分子标签序列中，除了3碱基指示序列外的所有(M-1)个3联体单元中任意两个3联体单元相比，至少有两个碱基不同；此处不同是指将某个3联体单元中的第一个碱基、第二个碱基和第三个碱基分别与其他3联体单元中的第一个碱基、第二个碱基和第三个碱基进行对应比对(某一个3联体单元的第一个碱基与另一个3联体单元的第一个碱基进行比对，第二个碱基与另一个3联体单元的第二个碱基进行比对，第三个碱基与另一个3联体单元的第三个碱基进行比对)，至少有两个碱基不同。例如：3联体单元“AAA”分别与“ATA”、“TAA”都仅相差1个碱基，所以在使用3联体单元构建随机分子标签的时候，将“AAA”排除；例如：第一个3联体单元(3碱基指示序列)的序列可为ATG，其余四个3联体单元可为如下任意四个3联体单元：CTG、TGC、GAG、ATA、CCT、GCA、CAC、TCG、GTC、TAA、ACG和CGA的随机组合，最终形成大量随机组合的标签序列；

所述颈环序列自5’末端至3’末端依次由茎段甲、茎段乙、茎段丙和茎段丁组成；所述茎段甲与所述茎段丁反向互补；所述茎段乙和所述茎段丙之间形成可被蛋白酶切断的结构。

上述单链DNA分子中，所述Y为4，所述单链DNA分子的种类为Y，所述Y为自然数，1≦Y≦4；所述Y种单链DNA分子中，固定间隔序列均不同，所述不同指固定间隔序列的碱基数不同。

上述单链DNA分子中，所述单链DNA分子为4种，分别记作单链DNA分子A、单链DNA分子B、单链DNA分子C和单链DNA分子D，每种单链DNA分子中，固定间隔序列的碱基数依次为1、2、3和4。

其中，一种单链DNA分子A为1bp，具体可为碱基C；另一种单链DNA分子B为2bp，具体可为碱基CA；再另一种单链DNA分子C为3bp，具体可为碱基CAT；第4种单链DNA分子D为4bp，具体可为CCAG。

上述单链DNA分子中，本领域技术人员可根据需要和公知常识确定M的个数，在本发明的具体实施例中，所述M为5。

上述单链DNA分子中，所述茎段甲和所述茎段丁与测序引物序列相同，其序列分别为序列1第28-40位和序列1第81-93位；

所述茎段乙和所述茎段丙与PCR扩增引物序列相同，其序列分别为序列1第41-59位和序列1第61-80位；

所述蛋白酶为USER酶；所述茎段乙和所述茎段丙由尿嘧啶核糖核苷酸连接；

所述酶切识别位点保护序列大小为5-10bp；具体地，可为6bp，其序列为“TCTTCT”；

所述酶切识别位点为可为“ACAGT”；

每个单链DNA分子的5’末端均标记生物素。

本发明的每条单链DNA分子中的3联体单元的合成部分使用TrimerPhosphoramidites作为原料，具体详细的合成过程可以参考如下链接：http://www.metkinenchemistry.com/TrimersAndLibraries.php中的说明，合成过程可以直接送给Takara、Bio-Synthesis、Metkinen Chemistry等公司完成。

具体地，

所述单链DNA分子A为序列1；

所述单链DNA分子B为序列2；

所述单链DNA分子C为序列3；

所述单链DNA分子D为序列4。

本发明的第四个目的是提供上述接头。

本发明提供的接头包括随机分子标签序列、固定间隔序列和颈环结构，不仅可以示踪单一DNA分子，还可以区分双链DNA中每一个单链。与现有技术中通用的Y接头相比，本发明在测序引物的T/A之后增加了随机分子标签序列，用于构成可识别文库中每个Reads的分子识别码，以便后续进行测序错误校验。

本发明的第五个目的是提供上述接头的制备方法。

上述接头的制备方法包括如下步骤：

(1)将上述单链DNA分子退火，得到退火后接头；

(2)将所述退火后接头延伸，得到延伸后接头；

(3)用限制性内切酶酶切所述延伸后接头，得到酶切产物，即为上述接头。

上述方法中，步骤(3)中，所述限制性内切酶可为HpyCH4III；

上述步骤(2)和步骤(3)之间与所述步骤(3)后还包括纯化的步骤。

利用上述单链DNA分子A、B、C、D制备上述接头A、B、C、D的方法包括如下步骤：

(1-1)分别将单链DNA分子A、单链DNA分子B、单链DNA分子C和单链DNA分子D溶解在1×Low TE buffer中，分别得到A溶液、B溶液、B溶液和D溶液。每条单链DNA分子在溶液中的终浓度均为100μM；

(1-2)分别将A溶液、B溶液、B溶液和D溶液与20μl T4DNA ligase buffer按照4:1的体积比混匀，分别得到体系1、体系2、体系3和体系4；

(1-3)分别将体系1、体系2、体系3和体系4放置于PCR仪上，按照如下程序运行：95度/5分钟，72度/5分钟，60度/5分钟，50度/3分钟，40度/3分钟，30度/3分钟，20度/3分钟，10度/3分钟，4度/∞，分别得到退火后接头A、退火后接头B、退火后接头C和退火后接头D；

(1-4)将退火后接头A、退火后接头B、退火后接头C和退火后接头D等体积混匀，得到退火后接头混合物。

所述步骤(2)包括如下步骤：

(2-1)配制延伸反应体系(总体积为279uL)：退火后接头混合物200uL、NEB Buffer2 27.9uL、dNTP(10mM)27.9uL、Klenow exo-(5U/uL)11.6uL和ddH₂O 11.6uL；

(2-2)将延伸反应体系37度孵育1小时后，得到延伸后接头混合物。

所述步骤(3)包括如下步骤：

(3-1)配制酶切反应体系(总体积为455uL)：延伸后接头混合物200uL、10x NEBCutsmart Buffer 5uL、ddH₂O 235uL、HpyCH4III(5U/uL)15uL；

(3-2)将酶切反应体系37度酶切16小时，得到酶切后接头混合物。

本发明的第六个目的是提供一种试剂盒。

本发明提供的试剂盒为如下(a1)或(a2)：

(a1)包括上述接头；

(a2)包括上述单链DNA分子。

本发明的第七个目的是提供如下(c1)-(c6)中任一所述的应用：

(c1)上述成套接头或上述成套试剂在作为二代测序接头中的应用；

(c2)上述成套接头或上述成套试剂或上述试剂盒在构建二代测序DNA文库中的应用；

(c3)上述成套接头或上述成套试剂或上述试剂盒在制备构建二代测序DNA文库的产品中的应用；

(c4)上述成套接头或上述成套试剂或上述试剂盒在循环游离DNA超低频变异检测中的应用；

(c5)上述成套接头或上述成套试剂或上述试剂盒在制备循环游离DNA超低频变异检测的产品中的应用；

(c6)上述方法或上述成套试剂或上述成套接头或上述试剂盒在癌症突变检测或靶向用药指导或疾病早期筛选中的应用。

上述方法或上述成套试剂或上述成套接头或上述试剂盒中，所述循环游离DNA可为血浆循环游离DNA，所述血浆循环游离DNA包括循环肿瘤DNA(ctDNA)、胎儿游离DNA(cffDNA)等。本发明的超低频突变检测方法可以实现突变频率≥0.01％范围内的突变检测。

通过实验证明：本发明的方法可以显著提高循环游离DNA(包括ctDNA、cffDNA等)等微量样本超低频突变的检测灵敏度和特异性，最大化校正高通量测序中的各类低频错误，包括PCR扩增错误，测序错误，DNA损失错误和单链碱基错误等等。本发明的方法还具有如下优势：1、针对微量样本建库，采用可剪切的颈环型接头，提高了连接效率及微量样本的文库利用率。2、随机分子标签序列(双分子识别码序列)包含M(M≥2)组3联体碱基单元，自带的校验机制提高了标签序列的利用率和错误校验能力。3、基于T4DNA ligase buffer的接头退火制备和采用特殊柱纯化和磁珠吸附相结合，代替了常规的PAGE胶纯化或者乙醇沉淀法，简化了实验操作，提高了接头制作的质量。4、固定间隔序列包含四种，增加测序反应同一位置的碱基多样性，更好的碱基平衡提高了局部测序准确度。5、采用加尾反应配合Blunt/TA高效连接体系。6、针对DNA损伤导致的低频错误进行的酶修复处理，减少低频突变中的损伤错误率，提高了测序数据中Duplex Read利用率和文库产率。7、Multi-Mini PCR提高了文库产量，减少了PCR循环。8、采用RNA杂交捕获探针对单一样本的超量文库进行杂交，显著提高微量cfDNA模板的利用率，极高效地富集cfDNA，最大化提高捕获敏感度，放大cfDNA低频突变被检测到的机率，避免样本间交叉影响。9、non-saturation PCR方法的Post-PCR扩增确保了文库多样性和上机数据利用率。10、针对cfDNA的Duplex算法的优化与调整，最大化DCS利用比例，并利用SCS提高检测灵敏度。

本发明提供了一种用于血浆循环游离DNA低频突变检测的文库构建和靶向富集测序方法。该方法包括如下步骤：血浆游离DNA提取，DNA化学错误修复，自校验双分子识别码发夹型接头制备，血浆游离DNA修复，DNA与接头连接，Pre-PCR扩增，超量杂交捕获，Post-PCR扩增，上机测序，数据纠错校正，突变分析与注释。本发明的方法可以高效实现血浆循环游离DNA的低频突变检测。双重冗余校验技术、超量杂交捕获以及高效建库方案使得该方法在检测微量样本时具有超低的假阳性率和高灵敏度，避免了现有检测血浆循环游离DNA方法的缺陷。本发明的低频突变检测方法不仅可以实现癌症突变检测和靶向用药指导，也可以实现胎儿遗传缺陷及出生缺陷的早期筛查。

附图说明

图1为双分子识别码发夹型接头示意图。NNNNNNN代表随机分子标签序列(双分子识别码序列)，黄色和蓝色互补部分包含测序引物部分，Ω型环部分包含Illumina的P5和P7桥式PCR序列，中间连接部分为尿嘧啶核糖核苷酸。红绿黄橙的色块代表不同长度的固定间隔序列。

图2为随机分子标签序列(双分子识别码序列)的纠错示意图。

图3为随机分子标签序列(双分子识别码序列)杂交捕获技术流程示意图。灰色为待测DNA片段，NNNNNNN代表随机分子标签序列(双分子识别码序列)，绿色的B为生物素标记，红色RNA探针和蓝色RNA探针分别对应目的基因两条链。a-b和b-a型文库代表每个原始DNA分子两条链分别形成的文库。

图4为文库转换率比较图。

图5为文库产量比较图。DY Ultra代表本发明建库方法构建得到的文库，KapaHyper代表使用Kapa Hyper试剂盒建库得到的文库。

图6为超量杂交捕获性能提升图。图中橙色柱代表本发明的超量杂交捕获方法，蓝色柱代表的是用目前公认性能最佳的Agilent公司捕获探针的结果。

图7为假阳性率比较图。DCS为使用本发明方法进行测序并对测序结果进行双链校正后的结果；SSCS为单链校正后的结果；RAW为未经过分子识别码校正后的结果。

图8为灵敏度曲线图。

图9为突变检测结果。

具体实施方式

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。

下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

下述实施例中的定量试验，均设置三次重复实验，结果取平均值。

实施例1、自校验双分子识别码发夹型接头的制备与纯化

本发明的自校验双分子识别码发夹型接头如图1所示。

一、接头引物的合成

设计并合成如下四个单链DNA分子：单链DNA分子A、单链DNA分子B、单链DNA分子C和单链DNA分子D，分别将其命名为DYMB-6a、DYMB-6b、DYMB-6c和DYMB-6d。序列如下：

DYMB-6a：

DYMB-6b：

DYMB-6c：

DYMB-6d：

每个单链DNA分子自5'端至3'端依次包括酶切识别位点保护序列、酶切识别位点、固定间隔序列、随机分子标签序列、茎段甲(Illumina标准测序引物)、茎段乙(Illumina桥式PCR中的P7序列)、茎段丙(Illumina桥式PCR中的P5序列)和茎段丁(Illumina标准测序引物)；

每条单链DNA分子第1-6位为酶切识别位点保护序列；

每条单链DNA分子第7-11位(斜体碱基)代表酶切识别位点；

每条单链DNA分子中的固定间隔序列不同，“n”、“nn”、“nnn”和“nnn”分别为四组不同长度的固定间隔序列部分(图1中的红色、绿色、橙色和黄色的小块)，n为A、G、C或T；其大小为1-4bp；

每个单链DNA分子中的随机分子标签序列不同，“KKKMMMBBBEEEXXX”为随机分子标签序列(双分子识别码部分，图1中的连续的N)；每个单链DNA分子中的随机分子标签序列自5'端至3'端依次由五个3联体单元组成；KKK代表一个3联体单元，MMM代表一个3联体单元，BBB代表一个3联体单元，EEE代表一个3联体单元，XXX代表一个3联体单元，每个3联体单元的结构均为NNN，N为碱基A、G、C或T。其中，第一个3联体单元KKK的碱基组合是表示后续四个3联体单元(MMM、BBB、EEE、XXX)所符合的运算规则的指示序列，其余四个3联体单元的碱基组合符合所规定的运算规则。

加粗碱基所示的茎段甲与下划波浪线所示的茎段丁反向互补，形成颈环结构的双链区；单下划线所示的茎段乙和双下划线所示的茎段丙由尿嘧啶核糖核苷酸连接，形成颈环结构的单链环状区；

每个单链DNA分子的5’末端均标记生物素。

每条单链DNA分子中的3联体单元的合成部分使用Trimer Phosphoramidites作为原料，具体详细的合成过程可以参考如下链接：

http://www.metkinenchemistry.com/TrimersAndLibraries.php中的说明，合成过程可以直接送给Takara、Bio-Synthesis、Metkinen Chemistry等公司完成。

二、双分子识别码发夹型接头的制备与纯化

1、接头退火

分别将步骤一中的单链DNA分子DYMB-6a、DYMB-6b、DYMB-6c和DYMB-6d退火，分别得到退火后接头。具体步骤如下：

(1)将步骤一中合成的单链DNA分子DYMB-6a、DYMB-6b、DYMB-6c和DYMB-6d(所有Oligo均由IDT公司合成，HPLC纯化)分别溶解在1×Low TE buffer(Thermo FisherScientific，货号12090-015)中，分别得到DYMB-6a溶液、DYMB-6b溶液、DYMB-6c溶液和DYMB-6d溶液。引物在溶液中的终浓度均为100μM。

(2)完成步骤(1)后，在PCR管中加入DYMB-6a溶液80μl和T4DNA ligase buffer(Thermo Fisher Scientific，46300-018)20μl，得到体系1；

在PCR管中加入DYMB-6b溶液80μl和T4DNA ligase buffer20μl，得到体系2；

在PCR管中加入DYMB-6c溶液80μl和T4DNA ligase buffer20μl，得到体系3；

在PCR管中加入DYMB-6d溶液80μl和T4DNA ligase buffer20μl，得到体系4。

(3)完成步骤(2)后，分别将体系1、体系2、体系3和体系4放置于PCR仪上，按照如下程序运行：95度/5分钟，72度/5分钟，60度/5分钟，50度/3分钟，40度/3分钟，30度/3分钟，20度/3分钟，10度/3分钟，4度/∞，分别制备得到DYMB-6a Adaptor、DYMB-6b Adaptor、DYMB-6c Adaptor、DYMB-6d Adaptor。

(4)完成步骤(3)后，将4管DYMB-6a Adaptor、DYMB-6b Adaptor、DYMB-6cAdaptor、DYMB-6d Adaptor等体积合并，得到400uL的退火接头混合物(adaptor Mix)。

2、接头延伸

将步骤1得到的退火接头混合物进行延伸，得到延伸后接头混合物。具体步骤如下：

(1)在1.5mL的EP管中按照如下配方配制混合液1：adaptor Mix 200uL、NEBBuffer 2(NEB公司，货号B7002S)27.9uL、10mM dNTP 27.9uL、5U/uL Klenow exo-(Enzymatics公司，P7010-LC-L)11.6uL、ddH₂O 11.6uL，总体积为279uL。

(2)完成步骤(1)后，将混合液1平均分在6个PCR管中，放置于PCR仪上，37度孵育1小时，使用热盖。使用Qiagen小片段纯化柱(根据最大柱容量分管)洗脱至200uL，即为extended adaptor。

3、接头酶切

用限制性内切酶HpyCH4III酶切延伸后接头混合物，得到剪切后接头混合物(cutadaptors)。具体步骤如下：

(1)在1.5ml EP管中按顺序加入如下试剂配制混合液2：extended adaptor200uL、10x NEB Cutsmart Buffer(NEB公司，货号B7204S)5uL、ddH₂O 235uL、5U/μlHpyCH4III(NEB公司，货号R0618L)15uL，总体积为455uL，上下吹打混匀。

(2)将混合液2平均分装到8个PCR管中，放置于PCR仪上，37度酶切16小时，使用热盖，得到酶切后接头混合物。

(3)使用Qiagen小片段纯化柱(根据最大柱容量分管)用Low TE(Thermo FisherScientific，货号12090-015)洗脱至总体积为30uL，得到纯化后接头混合物。

(4)使用安捷伦2100High Sensitivity DNA芯片进行质检，调整至浓度为15uM即可。

经检测，纯化后接头混合物中共存在如下四种接头：

DYMB-6a’：

DYMB-6b’：

DYMB-6c’：

DYMB-6d’：

实施例2、循环游离DNA超低频变异检测方法

本发明的循环游离DNA超低频变异检测方法的实验流程图如图3所示。

一、用于cfDNA低频突变检测的文库的构建(DY-Ultra)

1、微量血浆循环游离DNA(cfDNA)的末端修复和3’端加A尾

取质检合格的cfDNA(Horizon公司的cfDNA标准品HD779，0.1％突变频率，Multiplex I cfDNA Reference Standard，包含8种已知的变异：EGFR基因(GenebankID1956)的L858R、ΔE746-A750、T790M、V769-D770insASV、KRAS基因(Genebank ID 3845)的G12D、NRAS基因(Genebank ID 4893)的Q61K和A59T、PIK3CA(Genebank ID 5290)基因的E545K)总量30ng，Low TE稀释至50uL，加入20uL的末端修复液(无锡迪赢生物科技有限公司，D8011A)，20度孵育30min，得到末端修复cfDNA；然后向末端修复cfDNA中加入120uL的PEG-NaCL纯化结合液(无锡迪赢生物科技有限公司，D8011A)，充分混合均匀进行纯化，最后加入42uL的无核酸酶水重悬磁珠，得到纯化的末端修复cfDNA。向纯化的末端修复cfDNA中加入8uL加尾混合液(无锡迪赢生物科技有限公司，D8011A)，用旋涡混匀仪充分混合均匀，30度孵育30min，不加热盖，得到加尾的cfDNA；然后向加尾的cfDNA中加入90uL的PEG-NaCL纯化结合液，充分混合均匀进行纯化，最后从磁力架上取下管子，加入17.5uL的无核酸酶水重悬磁珠，得到纯化的加尾cfDNA。

2、DNA与接头连接

完成步骤1后，向步骤1获得的纯化的加尾cfDNA中加入2.5uL稀释后的实施例1中制备的纯化后接头混合物和7.5uL的水，然后加入20uL的Blunt/TA Ligase MasterMix(NEB公司，货号M0367S)。25度孵育1小时后再加入25uL的无核酸酶水和65uL的PEG-NaCL纯化结合液进行纯化。最后洗脱至17uL的无核酸酶水，得到连有接头的cfDNA。

3、酶切与Pre-PCR扩增

完成步骤2后，向步骤2获得的连有接头的cfDNA中加入25uL的KAPA HiFiHotStart ReadyMix(2X)、3uL的USER酶、5uL的DY Pre-PCR Oligo Mix(包含DYPrePCR-F和DYPrePCR-R引物)，引物序列如下：

DYPrePCR-F：5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACG*A-3’；

DYPrePCR-R：5'-GTGACTGGAGTTCAGACGTGTGCTCTTCCGAT*C-3’；

分成8管进行扩增。

PCR条件如下：37度10min(酶切的目的是利用USER切开发夹型接头中间连接的dU碱基，以便进行后续PCR扩增)，

HOLD 4度∞50度10min，98度45s，98度15s，60度30s，72度30s，72度1min；扩增循环数为7-8个。

扩增后合并PCR产物，使用AMPure磁珠纯化PCR产物即得到用于cfDNA低频突变检测的文库，可进行后续捕获，洗脱至10ul，确保产量在1.5-2ug之间。

分别采用Kapa Hyper试剂盒和Kapa+U adaptor试剂盒构建文库(文库构建使用的cfDNA为Horizon公司的cfDNA标准品)，使用长度为269bp的单一PCR产物(该PCR产物序列如序列9)作为对照。其中，Kapa+U adaptor试剂盒为将Kapa Hyper试剂盒中的Adaptor替换为本发明的接头，且保持其他试剂不变得到的试剂盒。并计算构建得到的文库转化率。文库转化率基于安捷伦2100的分析图谱计算每个峰的面积，统计完整的双接头峰占整个产物的分子数目百分比(包含未连接产物，单端接头连接产物，双端接头连接产物和非特异连接产物)。

结果如图4所示。从图中可以看出：按照本发明文库构建方法构建得到的文库的文库转化率明显高于Kapa Hyper试剂盒(使用标准Y接头)和Kapa+U adaptor试剂盒。说明本发明的颈环型接头效率明显高于标准的Y型接头。

采用Kapa Hyper试剂盒使用Horizon公司的cfDNA标准品构建文库，cfDNA标准品起始量为30ng，PCR循环均为8个。比较Kapa Hyper试剂盒和本发明文库构建方法构建得到的文库的产量。每个试剂盒包含5次实验。

结果如图5所示。从图中可以看出：按照本发明文库构建方法构建得到的文库产量明显高于Kapa Hyper试剂盒。

二、超量杂交捕获(DY-Dual)

1、文库的预处理

在PCR管中加入9uL的步骤一获得的用于cfDNA低频突变检测的超量文库(总量2ug)、0.8uL的human Cot-1DNA(1mg/ml)(Thermo Fisher公司，货号15279011)和0.8uL的鲑精DNA(Thermo Fisher公司，货号15632-011)(10mg/ml)，95度孵育5min后一直保持65度，得到预热的文库。

2、探针溶液的制备

在PCR管中加入1uL正向捕获探针和1uL的反向捕获探针(正向捕获探针和反向捕获探针均为无锡迪赢生物科技有限公司产品，D8018A)、0.5uL的SUPERase-In(无锡迪赢生物科技有限公司，D8014A)、2uL的P5block RNA(100mM)(无锡迪赢生物科技有限公司，D8014A)和2uL的P7block RNA(无锡迪赢生物科技有限公司，D8014A)(100mM)，65度孵育5min，得到探针溶液。

3、杂交捕获

将8uL预热到65度的杂交液(无锡迪赢生物科技有限公司，D8013A)和6.5uL的探针溶液加入预热的文库中，总计约25uL，用移液器上下吹打10次。65度孵育16小时，得到杂交后的文库。

4、纯化

对杂交后的文库进行纯化，得到纯化后产物。具体步骤如下：准备50uL的Dynabeads MyOne Streptavidin T1beads(Life Technologies)，使用Bead结合液洗脱，将200uL的磁珠悬液加入杂交完成的PCR管中，在旋转混匀仪上室温孵育30min。磁力架上吸附后弃掉上清，加入200uL的高盐洗脱液(无锡迪赢生物科技有限公司，D8013A)室温孵育15min，磁力架吸附弃掉上清，再加入65度预热的低盐洗脱液(无锡迪赢生物科技有限公司，D8013A)，共计洗三次。最后加入31.5uL的水到磁珠中。

使用Horizon公司的ctDNA标准品，起始量均为30ng，采用安捷伦标准的杂交体系(Agilent G9611A)对步骤一获得的用于cfDNA低频突变检测的文库进行杂交捕获(目前已有的标准杂交体系全部是基于单链杂交技术的，Agilent标准杂交体系是目前公认的效率最高的杂交捕获系统)，基于400Kb的cfDNA Panel和相同测序数据量情况下分析捕获效率(on target)、文库复杂度(Library Complexity)和大于1000x覆盖度(1000x Coverage)，并与本发明的超量杂交捕获方法进行比较。

结果如图6所示。从图中可以看出：与安捷伦标准的杂交体系比较，本发明的超量杂交捕获方法的捕获效率、文库复杂度和大于1000x覆盖度均明显大于安捷伦标准的杂交体系(Agilent G9611A)。图中橙色柱子“DY Dual”代表的是本发明采用的超量杂交捕获的结果；蓝色柱子“Agilent”代表的是用目前公认性能最佳的Agilent公司捕获探针的结果。

三、Post-PCR实时扩增

完成步骤二后，向步骤二获得的纯化后产物中依次加入10uL的5×Herculase IIReaction Buffer(clear cap)、1uL的Herculase II Fusion DNA Polymerase(red cap)、0.5uL的100mM dNTP Mix(green cap)、1uL的12.5×SYBR Green和1μL的DYPostPCR-U。然后每个样本加入5uL的不同的DYPostPCR-I(引物序列中的YYYYYYYY代表用于区分样本的大小为8bp的Index序列，比如GCCACATA，CTGGCATA等)，得到不同扩增体系。扩增引物序列如下：

DYPostPCR-U：

5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATC*T-3’；

DYPostPCR-I：

5'-CAAGCAGAAGACGGCATACGAGATYYYYYYYYGTGACTGGAGTT*C-3’。

扩增体系放置于定量PCR仪上运行如下程序。98度2min，98度30s，57度30s，72度60s，72度10min。扩增循环数依据SYBR接近饱和点的Cycle计算。确保扩增的文库没有过饱和。

四、上机测序

完成步骤三后，使用Illumina公司HiSeq NGS平台进行测序，采用2x150bp双端测序模式。根据Panel大小和起始DNA量计算出测序数据量，确保Family Size的峰值为6，最大化双分子识别码校正可用Read是比例。

五、原始数据纠错校正与突变分析

1、测序原始数据的预处理

测序原始数据先进行格式转换；然后去掉接头，将分子标签序列添加到序列ID位置中去，通过分子标签自校验机制修复受到测序错误影响的分子标签，并过滤掉没有加上分子标签的序列。

2、重建测序扩增前的DNA分子

完成步骤1后，通过步骤1添加到序列ID位置中的分子标签序列对测序序列(reads)进行分组，具有相同分子标签序列的reads被认为来源于同一个起始DNA模板，被归为一个家族(family)，并进行错误矫正，即同一family内部的reads特有的突变将作为背景噪音进行去除，由此得到单链共有序列(single-strand consensussequences，SSCs)。得到单链共有序列以后，利用DNA的双链特性，对同一起始DNA模板的正反义链的SSCs进行双链矫正，仅保留正反义链都一致的碱基，从而还原成一条DNA分子，即双链共有序列(duplexconsensus sequences，DCSs)。

根据是否进行自校验及单分子自校验和双分子自校验的假阳性率统计结果如图7所示，RAW代表不经过自校验的原始数据的假阳性率，SSCS代表经过单分子自校验后的数据假阳性率，DCS代表经过双分子自校验后的数据假阳性率，从图中可以看出可以看出：经过本发明的自校验方法，假阳性率从0.542％降低到0.001％，也就是特异性可达99.999％。说明本发明的循环游离DNA超低频变异检测方法可以显著降低测序过程中的假阳性率，并可满足临床上对ctDNA检测的要求。

使用包含不同突变频率的Horizon标准品(突变频率分别如下：0.05％，0.5％和1％)按照上述检测方法进行平行实验。以最终能检测到真阳性的已知突变数量来计算灵敏度。结果表明：在保证准确性的同时，灵敏度依然可以确保0.5％，最低可达到0.05％(图8)。

3、基于重建后的分子进行突变分析

完成步骤2后，基于重建后的分子进行突变分析，包括基因组比对、SNV、INDEL、CNV、Fusion、Long-INDEL等突变类型的分析和注释等过程。

基于Horizon标准品(0.1％突变频率)的突变分析结果如图9所示。图中第一列和第二列分别代表染色体及其位置，第三列数字代表测序深度，第四列和第五列代表分别正常碱基和突变碱基信息，第六列和第七列分别代表Ref Reads数和Alt Reads数。从图中可以看出，使用本发明的方法可以准确实现对Horizon标准品中8个突变进行检测。

4、突变的过滤

完成步骤3后，对步骤3分析的突变进行过滤，参数包括support reads的个数和方向，每个分子标签family的reads的个数等。

序列表

<110> 上海交通大学

<120> 用于微量DNA超低频突变检测的双分子自校验文库制备及杂交捕获的二代测序方法

<160> 9

<170> PatentIn version 3.5

<210> 1

<211> 93

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223>

<220>

<221> misc_feature

<222> （12,13,14,15,16,17,18,19,20,21，22,23,24,25,26,27）

<223> N is A or G or C or T

<400> 1

tcttctacag tnnnnnnnnn nnnnnnnaga tcggaagagc acacgtctga actccagtcu 60

acactctttc cctacacgac gctcttccga tct 93

<210> 2

<211> 94

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223>

<220>

<221> misc_feature

<222> （12,13,14,15,16,17,18,19,20,21，22,23,24,25,26,27,28）

<223> N is A or G or C or T

<400> 2

tcttctacag tnnnnnnnnn nnnnnnnnag atcggaagag cacacgtctg aactccagtc 60

uacactcttt ccctacacga cgctcttccg atct 94

<210> 3

<211> 95

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223>

<220>

<221> misc_feature

<222> （12,13,14,15,16,17,18,19,20,21，22,23,24,25,26,27,28，29）

<223> N is A or G or C or T

<400> 3

tcttctacag tnnnnnnnnn nnnnnnnnna gatcggaaga gcacacgtct gaactccagt 60

cuacactctt tccctacacg acgctcttcc gatct 95

<210> 4

<211> 96

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223>

<220>

<221> misc_feature

<222> （12,13,14,15,16,17,18,19,20,21，22,23,24,25,26,27,28,29,30）

<223> N is A or G or C or T

<400> 4

tcttctacag tnnnnnnnnn nnnnnnnnnn agatcggaag agcacacgtc tgaactccag 60

tcuacactct ttccctacac gacgctcttc cgatct 96

<210> 5

<211> 103

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223>

<220>

<221> misc_feature

<222> （3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，85，86，87，88，89，90，91，92，93，94，95，96，97，98，99，100）

<223> N is A or G or C or T

<400> 5

gtnnnnnnnn nnnnnnnnag atcggaagag cacacgtctg aactccagtc uacactcttt 60

ccctacacga cgctcttccg atctnnnnnn nnnnnnnnnn act 103

<210> 6

<211> 105

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223>

<220>

<221> misc_feature

<222> （3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，86，87，88，89，90，91，92，93，94，95，96，97，98，99，100，101，102）

<223> N is A or G or C or T

<400> 6

gtnnnnnnnn nnnnnnnnna gatcggaaga gcacacgtct gaactccagt cuacactctt 60

tccctacacg acgctcttcc gatctnnnnn nnnnnnnnnn nnact 105

<210> 7

<211> 107

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223>

<220>

<221> misc_feature

<222> （3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，87，88，89，90，91，92，93，94，95，96，97，98，99，100，101，102，103，104）

<223> N is A or G or C or T

<400> 7

gtnnnnnnnn nnnnnnnnnn agatcggaag agcacacgtc tgaactccag tcuacactct 60

ttccctacac gacgctcttc cgatctnnnn nnnnnnnnnn nnnnact 107

<210> 8

<211> 109

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223>

<220>

<221> misc_feature

<222> （3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，88，89，90，91，92，93，94，95，96，97，98，99，100，101，102，103，104，105，106）

<223> N is A or G or C or T

<400> 8

gtnnnnnnnn nnnnnnnnnn nagatcggaa gagcacacgt ctgaactcca gtcuacactc 60

tttccctaca cgacgctctt ccgatctnnn nnnnnnnnnn nnnnnnact 109

<210> 9

<211> 269

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

tcttcagaag ctccacccta taattctgaa cctgcagaag aatctgaaca taaaaacaac 60

aattacgaac caaacctatt taaaactcca caaaggaaac catcttataa tcagctggct 120

tcaactccaa taatattcaa agagcaaggg ctgactctgc cgctgtacca atctcctgta 180

aaagaattag ataaattcaa attagactta ggtaagtaat gcaatatggt agactgggga 240

gaactacaaa ctaggaattt aggcaaacc 269

Claims

1.一种非诊断和治疗目的循环游离DNA超低频变异检测的方法，包括如下步骤：

（b1）将待测循环游离DNA连接接头，得到DNA文库；

所述接头是一茎环结构的DNA分子；

构成所述接头的DNA序列自5 '末端至3 '末端依次包括固定间隔序列甲、随机分子标签序列甲、颈环序列、随机分子标签序列乙和固定间隔序列乙；

所述随机分子标签序列甲自5'末端至3'末端依次由M个3联体单元组成；所述M为大于2的整数；每个3联体单元均为NNN，所述N为A、G、C或T；每个3联体单元使用三联核苷作为原料进行合成；

将M个3联体单元中的第一个3联体单元记作3碱基指示序列，所述3碱基指示序列是从四种碱基中任选三种再进行排序得到的，所述3碱基指示序列的种类可为一种、两种或多种；

每种3碱基指示序列定义一种指示规则，3碱基指示序列指示规则定义后，除了该3碱基指示序列外的所有3联体单元按照所述指示规则进行运算，即可得到其对应的运算规则，在获得测序结果后，每个3联体单元根据其对应的运算规则可以实现对其自身发生的扩增或测序错误进行自校验；

且，在同一种3碱基指示序列下，每一条随机分子标签序列甲中，除了3碱基指示序列外的所有（M-1）个3联体单元中任意两个3联体单元相比，至少有两个碱基不同；

所述颈环序列自5’末端至3’末端依次由茎段甲、茎段乙、茎段丙和茎段丁组成；所述茎段甲与所述茎段丁反向互补；所述茎段乙和所述茎段丙之间形成可被蛋白酶切断的结构；

所述接头的种类为Y，所述Y为4，所述接头种类为4种，每种接头中，固定间隔序列甲的碱基数依次为1、2、3和4；

（b2）将所述DNA文库进行杂交捕获，得到杂交后文库；

（b3）将所述杂交后文库进行测序，得到测序结果，根据所述测序结果进行突变分析。

2.循环游离DNA超低频变异检测的DNA文库的构建方法，包括权利要求1中所述的步骤（b1）。

3.根据权利要求1或2所述的方法，其特征在于：所述M为5；

或，所述茎段甲和所述茎段丁与测序引物序列相同；

或，所述茎段乙和所述茎段丙与PCR扩增引物序列相同；

或，所述蛋白酶为USER酶；所述茎段乙和所述茎段丙由尿嘧啶核糖核苷酸连接；

或，所述步骤（b1）中，所述待测循环游离DNA在连接成套接头后还包括酶切和PCR扩增的步骤；所述酶切为切断所述茎段乙和所述茎段丙之间形成可被蛋白酶切断的结构；

或，所述步骤（b2）包括如下步骤：将杂交液、探针溶液和所述DNA文库混匀，得到杂交体系，孵育，得到所述杂交后的文库；

或，所述步骤（b2）和所述步骤（b3）之间还包括PCR扩增的步骤；

或，所述步骤（b3）中的测序为二代测序，所述突变分析前还包括如下步骤：从测序结果中选取含有正确的3碱基指示序列的测序结果，在所选取的测序结果中，若某个随机分子标签的每个三联体单元测序结果均正确，则保留该测序结果，用于后续突变分析；若某个随机分子标签序列的某个三联体单元中仅有一个位置发生错误，则对该三联体单元进行校正，使其正确，并保留该测序结果，用于后续突变分析。

4.一种单链DNA分子，所述单链DNA分子5’末端至3’末端依次包括酶切位点保护序列、酶切识别位点、固定间隔序列、随机分子标签序列和颈环序列；

所述随机分子标签序列自5'末端至3'末端依次由M个3联体单元组成；所述M为大于2的整数；每个3联体单元均为NNN，所述N为A、G、C或T；每个3联体单元使用三联核苷作为原料进行合成；

且，在同一种3碱基指示序列下，每一条随机分子标签序列中，除了3碱基指示序列外的所有（M-1）个3联体单元中任意两个3联体单元相比，至少有两个碱基不同；

所述单链DNA分子的种类为Y，所述Y为4，每种单链DNA分子中，固定间隔序列的碱基数依次为1、2、3和4。

5.根据权利要求4所述的单链DNA分子，其特征在于：所述M为5；

或，所述茎段甲和所述茎段丁与测序引物序列相同；

或，所述茎段乙和所述茎段丙与PCR扩增引物序列相同；

或，所述酶切位点保护序列大小为5-10bp；

或，所述酶切识别位点为序列1第7-11位。

6.权利要求1中所述的接头。

7.权利要求1中所述的接头的制备方法，包括如下步骤：

（1）将权利要求4所述的单链DNA分子退火，得到退火后接头；

（2）将所述退火后接头延伸，得到延伸后接头；

（3）用限制性内切酶酶切所述延伸后接头，得到酶切产物，即为权利要求1中所述的接头。

8.试剂盒，为如下（a1）或（a2）：

（a1）包括权利要求1中所述的接头；

（a2）包括权利要求4或5所述的单链DNA分子。

9.如下（c1）-（c5）中任一所述的应用：

（c1）权利要求1中所述的接头或权利要求4或5所述的单链DNA分子在作为二代测序接头中的应用；所述应用为非诊断和治疗目的；

（c2）权利要求1中所述的接头或权利要求4或5所述的单链DNA分子或权利要求8所述的试剂盒在构建二代测序DNA文库中的应用；

（c3）权利要求1中所述的接头或权利要求4或5所述的单链DNA分子或权利要求8所述的试剂盒在制备构建二代测序DNA文库的产品中的应用；

（c4）权利要求1中所述的接头或权利要求4或5所述的单链DNA分子或权利要求8所述的试剂盒在循环游离DNA超低频变异检测中的应用；所述应用为非诊断和治疗目的；

（c5）权利要求1中所述的接头或权利要求4或5所述的单链DNA分子或权利要求8所述的试剂盒在制备循环游离DNA超低频变异检测的产品中的应用。