CN108359723B

CN108359723B - 一种降低深度测序错误的方法

Info

Publication number: CN108359723B
Application number: CN201810154573.8A
Authority: CN
Inventors: 童云广; 王华印; 赵楠
Original assignee: Omigen Inc
Current assignee: Omigen Inc
Priority date: 2018-02-23
Filing date: 2018-02-23
Publication date: 2021-06-08
Anticipated expiration: 2038-02-23
Also published as: CN108359723A

Abstract

本发明公开了一种降低深度测序错误的方法，所述方法通过为每个核苷酸链产生数字分子标识符得以实现。本发明通过基于DMI(数字分子标识符)的单链错误校正(DSSEC)和双链错误校正(DDSEC)来识别PCR扩增或测序中发生的错误，优点是它具有设计的简洁性和灵活性，可进行适当调整。

Description

一种降低深度测序错误的方法

技术领域

本发明涉及基因测序技术领域，特别涉及一种降低深度测序错误的方法。

背景技术

深度测序已广泛应用于研究宏基因组学、人类遗传学以及肿瘤基因组学等复杂生物样本中的亚群。例如在肿瘤的早期检测和监测中，科学家们对基于核苷酸的血清生物标志物(例如循环肿瘤DNA或RNA)的治疗开发了临床应用。并且，通过下一代测序对肿瘤异质性进行了研究，已经鉴定出许多具有重要治疗意义的低频耐药变体。

然而，深度测序技术仍有很大的局限性，主要是在样品制备和测序过程中易引入错误信息。异质混合物的PCR扩增可导致群体数目不稳定和特定突变体的过度和不足，群体数目的不稳定性是由于随机和非随机扩增的碱基偏向性导致的。预扩增期间聚合酶错误产生点突变是由模板转换引起的碱基错配和重排所致。依据特定的平台和序列，结合扩增、循环测序和图像分析过程中出现的额外误差，大约1％的碱基被错误地识别。在这种人为异质性的背景水平建立的极限之下，真正的罕见突变体将会被掩盖。

为了克服以上问题，科研工作者多通过在扩增之前独特地标记DNA片段来提高测序的灵敏度。例如，目前多采用将随机标签序列并加入PCR引物以产生用于DNA测序的文库。利用单链DNA产生PCR复制子，并比较复制子的序列。只有当它们存在于单个起始分子的多个重复中时，才对突变进行评价。这种方法会在一定程度上提高标准测序的准确性，但由于受限于其基于单链DNA的扩增和测序，因此不能克服由于单链DNA损伤事件而导致的灵敏度限制。原因在于下一代测序平台通常依赖于从单链DNA产生序列数据，在最初一轮PCR扩增期间引入的突变错误，即使使用标记技术也不可检测到，基础改变会被传播到所有后续的PCR重复。

为了克服单链纠错方法的不足，Schmitt等人(WO 2013142389 A1,Methods oflowering the error rate of massively parallel DNA sequencing using duplexconsensus sequencing)发明了利用存储在复合双链DNA中的冗余信息的方法。该方法使用SMI(单分子标识符)来识别源自DNA的每条链的reads，然后使用双链共有序列(DCS)分析产生的测序reads以去除错误。虽然理论上双链测序可以大大减少错误，但是具有如下几个缺点：首先，最终的SMI是一个双链随机序列，使用单链随机化序列作为SMI模板以获得双链SMI，并且双链SMI接头的质量控制需要放射性标记和PAGE，这对于临床实验室来说合成非常复杂，难以控制；其次，由于难以制作高质量的SMI接头，连接效率可能将会受到很大的影响，因此可能需要大量的输入DNA，在Schmitt等人开发的方法中，需使用高达750ng DNA作为起始材料；另外，随机序列通常在标记中是优先选择的，但几乎没有办法控制退化序列的质量，并且无法识别在随机化barcode的扩增或测序中发生的错误。

发明内容

为了克服SMI方法的不足，本发明提供了一种降低深度测序错误的方法，通过基于DMI(数字分子标识符)的单链错误校正(DSSEC)和双链错误校正(DDSEC)来识别PCR扩增或测序过程所引入的错误。DMI的优点是它具有设计的简洁性和灵活性，可进行适当调整。

本发明解决其技术问题所采用的技术方案是：

一种降低深度测序错误的方法，所述方法通过为每个核苷酸链产生数字分子标识符得以实现，包括如下步骤：

1)制备标签核苷酸；

2)将标签核苷酸随机连接至靶标核苷酸获得标签-靶标核苷酸复合物；

3)扩增标签-靶标核苷酸复合物，产生一组扩增的标签-靶标核苷酸产物；

4)对扩增的标签-靶标核苷酸产物进行测序；

5)对测序得到的每个标签-靶标核苷酸产物产生一个基于标签-靶标核苷酸复合物信息的数字分子标识符；

6)把测序产物按相同的数字分子标识符，聚类成相应的单链类别，在每个单链类别里面通过生物信息学比对去除错误位点，得到单链共有序列，从而降低深度测序错误。由同一条链经扩增后产生的一组单链序列，这组单链序列具有相同的数字分子标识符，通过识别数字分子标识符就可以将来自同一条核苷酸链的重复序列聚类成一组单链序列，通过单链序列之间的比较，可以区分突变的位点是由于扩增或测序过程引起的还是本身具有的突变位点，从而实现纠错。

作为优选，所述标签核苷酸包含：

至少两个PCR引物结合位点；

或至少两个测序引物结合位点；

或同时包含至少两个PCR引物结合位点和至少两个测序引物结合位点。作为优选，所述标签核苷酸是含有不同barcode序列的接头序列，该接头序列为T突出端、A突出端、CG突出端或平端。

作为优选，所述barcode序列为双链分子或单链分子。

作为优选，所述含有不同barcode序列的接头序列为：

正链：

AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCNNNNNNNNNNNNGATCT；

负链：

/5phos/GATCNNNNNNNNNNNNGGAAGAGCACACGTCTGAACTCCAGTCAC；

其中，NNNNNNNNNNNN是长度为3～15nt的barcode序列；N为A、G、C或T；负链中的barcode序列与正链中的barcode序列反向互补配对。

作为优选，所述靶标核苷酸为双链DNA或RNA。

作为优选，所述靶标核苷酸分子为双链循环肿瘤DNA或逆转录循环肿瘤RNA片段。

作为优选，所述数字分子标识符包括标签核苷酸序列信息、靶标核苷酸序列信息、靶标核苷酸长度及靶标核苷酸在参考基因组上的位置信息。作为优选，步骤6)中，通过生物信息学比对去除错误位点具体为：通过生物信息学分析除去靶标核苷酸上一个或多个错配的核苷酸位点(由同一条链经扩增后产生的一组单链序列，通过序列之间的比较，如果某个位点仅在部分的PCR产物中出现，则判定该位点为错配，可在生物信息学分析中去除)，或者选择性地从靶标核苷酸上去除单链核苷酸没有的特定的核苷酸位点(由同一条链经扩增后产生的一组单链序列，这些序列理论上应该是一样的，如果某条链上的某个位点出现了不一样的序列，则该位点为测序引起的突变，不是序列本身的突变，可去除)。

作为优选，所述方法进一步包括以下步骤：

按双链匹配的数字分子标识符，把单链共有序列再聚类为双链类别，通过双链互补配对信息去除错误位点，从而进一步降低深度测序错误。

DNA分子经扩增后两条链均产生一组单链共有序列，将两组单链共有序列比对分析，去除错误位点即得双链共有序列。本步骤能进一步验证步骤6)的测序结果是否准确。

作为优选，通过双链互补配对信息去除错误位点具体为：根据双链互补配对信息通过生物信息学分析除去靶标核苷酸上一个或多个错配的核苷酸位点，或者选择性地从靶标核苷酸上去除单链核苷酸没有的特定的核苷酸位点。

本发明的有益效果是：通过基于DMI的单链错误校正(DSSEC)和双链错误校正(DDSEC)来识别PCR扩增或测序过程中引入的错误，优点是它具有设计的简洁性和灵活性，可进行适当调整。

附图说明

图1数字分子标识符(DMI)示意图。DMI包括信息为标签核苷酸序列信息、靶标核苷酸序列信息、靶标核苷酸长度及靶标核苷酸在参考基因组上的位置信息，还包括标签核苷酸库信息。通过生物信息学计算以上信息获得DMI。

图2是使用DMI的双链误差校正的示意图。根据实施方案，打断、末端修复并且加T尾的双链DNA分子与一组加A尾的barcode接头分子组合并以随机方式连接。每个DNA片段都被两个barcode分子标记。在对适当长度的片段进行大小选择后，用含有Illumina测序引物进行PCR扩增以产生PCR复制子。由于接头片段的不对称性，每次捕获可以产生两种类型的PCR产物。那些来自一条链的PCR产物与测序引物序列1“a”相邻的具有“A”barcode分子，与测序引物序列2“b”相邻的具有“B”barcode分子。DMI是通过组合AabB信息生成的。源自互补链的PCR产物被相互标记。

图3是双链误差校正(DDSEC)DMI的计算示意图。根据实施方案，读取具有3个碱基的标签核苷酸上的barcode序列和靶标核苷酸的测序序列。(A)显示了3个碱基的barcode和3个碱基靶标核苷酸，其每一末端都有PCR引物结合位点(或测序序列)1和2。(B)显示了与(A)中相同的分子，但是链进行了分离并且下面的链现在以5'-3'方向书写。当这些分子用PCR扩增并测序时，它们将产生以下reads序列：上面的链将给出read1文件TAA---CAT-，read2文件GCC---TCG-，结合read1和read2标签将获得上面链的DMI为TAACATCGGAGC。下面的链将给出read1文件CGG---AGC--，read2文件TAACAT-，结合read1和read2标签将获得下面链的DMI为CGGAGCTAACAT。(C)说明互补配对链突变的方向。在图3A和图3B所示的起始DNA双链中，在DNA双链的左侧显示了“x”突变(其与互补核苷酸“y”配对)。read1中出现“x”，read2中出现相反链上的互补突变“y”。具体来说，这在read1和read2数据中都会显示为“x”，因为“y”在read2中由于测序引物的性质而被测序仪读出为“x”，其在read2中产生互补序列。

图4是基于DMI的单链误差校正(DSSEC)和双链误差校正(DDSEC)。根据实施方案，(A-C)显示共享独特的一组barcode分子的序列reads被分组为成对的家族，其家族成员具有以AabB或BbaA取向的链标识符。(A)显示仅存在于一个或几个家族成员中的突变(点)，表示在扩增后期发生的测序错误或PCR引入的错误，(B)显示了在一个家族的许多或所有成员中发生的一对突变，其表示仅在两条链中的一条链上对突变进行了评分，这可能是由于在第一轮扩增期间产生的PCR错误，例如发生跨越DNA损伤突变位点的复制。(C)显示存在于被捕获片段的两条链上的真正的突变(实心圆圈)出现在家族的所有成员中。虽然人工突变可能与真正突变在家族对中共同出现，但是当产生(D)每个双链的错误校正的共有序列(即单链)时，这些突变可以被独立地识别。(E)显示共有序列从所有独立捕获的，随机剪切的含有特定基因组位点的片段进行鉴定，(F)比较以确定样本群体内该基因座的遗传变异的频率。

图5是显示与原始reads相比，基于DMI的共有序列消除人为测序错误。基于DMI的双链错误校正(DDSEC)产生和单链错误校正(DSSEC)大致相等数量的突变。

图6是基于DMI的双链错误校正对加标-对照突变的检测率。在平行样中，将定量突变体混入已知核苷酸中，100,000倍测序深度。利用标准测序分析对混入小于1/100的比例突变体的样品进行检测，其突变的检测率明显大于100％，其原因在于检测样在扩增、测序所引入的错误信息掩盖了少量真正的突变；相反，基于DMI的双链错误校正准确鉴定了加标的突变，最低的检测率为1/50,000。

具体实施方式

下面通过具体实施例，对本发明的技术方案作进一步的具体说明。

本发明中，若非特指，所采用的原料和设备等均可从市场购得或是本领域常用的。下述实施例中的方法，如无特别说明，均为本领域的常规方法。

定义

深度测序是指对基因组区域进行多次测序，有时数百次甚至数万次。

Barcode序列是独特的n个碱基的序列，其用于鉴定独特片段并从样品中“去复制”测序reads。

标签核苷酸是具有已知序列的核苷酸。

数字分子标识符(DMI)是指定义标签-靶标核苷酸复合物的唯一性的一组参数。

基于DMI的单链错误校正(DSSEC)是通过使用单链核苷酸的DMI去除测序错误的方法。

基于DMI的双链错误校正(DDSEC)是通过使用双链核苷酸的DMI组去除测序错误的方法。

本发明提供了一种用于消除测序错误的数字分子标识符(DMI)的方法。DMI使用标签-靶标核苷酸复合物中的靶标核苷酸分子和标签核苷酸分子的信息。标签核苷酸和靶标核苷酸的信息包括但不限于序列信息、参考基因组上的靶分子的位置和靶标核苷酸的长度。

标签核苷酸，优选接头，包含barcode序列，其优选为双链，双链靶标核苷酸分子是双链DNA或RNA分子。

获得双链靶标核苷酸的序列的方法包括以下步骤：将至少一个标签核苷酸连接至双链靶标核苷酸以形成双链标签-靶标核苷酸复合物；扩增双链标签-靶标核苷酸复合物，产生一组扩增的标签-靶标核苷酸产物，并对扩增的标签-靶标核苷酸产物进行测序。

通过以下步骤产生经纠错的双链互补序列：(i)基于共同的DMI将经测序的标签-靶标核苷酸产物分组成成对的靶标核苷酸的家族；(ii)除去成对的具有一个或多个核苷酸位置的成对的靶标核苷酸，其中成对的靶标核苷酸是非互补的(或者当核苷酸位置在两条链之间不一致时，可以选择性的移除)。

通过以下方法实现双链错误校正：(I)鉴定存在于具有一个或多个核苷酸位点的配对的靶标核苷酸中的突变来确认存在真正的突变；(II)将配对的靶标核苷酸中存在的突变与纠错的双链互补序列进行比较；(III)当突变存在于两条靶标核苷酸上，并出现在配对的靶标核苷酸家族的所有成员中时，我们才能确认这是真正的突变。

本文中提供了一组标签核苷酸，将标签核苷酸与靶标核苷酸以及相关试剂混合，连接靶标核苷酸与标签核苷酸。标签核苷酸为双链结构(图1)且包含至少一个barcode分子。标签核苷酸可以包括至少两个PCR引物结合位点，至少两个测序引物结合位点或者两者兼具。连接后的标签核苷酸-靶标核苷酸产物经PCR扩增和测序，获得的靶标核苷酸序列与参考基因组进行比对。DMI通过结合标签核苷酸-靶标核苷酸复合体中的标签核苷酸和靶标核苷酸的信息而获得。所使用的标签核苷酸和靶标核苷酸的信息包括但不限于序列信息、靶标核苷酸在参考基因组上的位置和靶标核苷酸长度等。DMI需要考虑三方面的信息：标签核苷酸的信息，靶标核苷酸的信息，标签核苷酸和靶标核苷酸连接的随机性。

标签核苷酸可以是包含barcode并形成“Y形”或“发夹形”形式的测序接头。标签核苷酸接头分子是“Y形”接头，这种类型的接头顶部和底部的DNA链都具有PCR引物结合位点FC1和FC2，因此两条链都可以通过PCR独立地扩增，Y型标签接头分子的结构示意图如图2所示。Y型标签接头需要成功扩增和回收标签接头分子的两条链。通过下述方式简化两条链的回收：将Y型标签接头分子连接到双链DNA分子的一端，并将“U-型”接头连接至DNA分子的另一端。发夹形产物经过PCR扩增能产生两端都具有测序序列的线性DNA片段。不同的PCR引物结合位点(或测序引物序列FC1和FC2)将与2个标签接头相对应地位于DNA片段的两侧，并且read 1中给定的序列，可在read 2找到相对应的互补序列。只有在分子的两端(对应于原始双链片段的每条链)，也即read 1和read 2中的相同位置都存在的突变，才能判定为真正的突变。

标签接头(标签核苷酸)呈发夹结构(或称U形结构)。因发夹DNA产物同时包含两条链，故该结构能够用于错误纠正。这种方法可使测序错误率由N降低至N*N*(1/3)，因为测序错误需要同时在两条链上发生，并且两条链上发生的碱基替换必须一致。例如，Illumina测序发生的错误率为1/100，则用该方法可使错误率降低到(1/100)*(1/100)*(1/3)＝1/30000。

Barcode序列可以是双链互补，长度为12个核苷酸的固定n个碱基的核苷酸序列。例如，一组数量为96种的12个碱基的barcode，随机连接到靶标核苷酸分子的两个末端，将会产生9216个不同的标签序列。

标签接头中的barcode可以是两个有特定关系的单链序列，而不必互补或保留互补性。

将标签核苷酸连接至靶标核苷酸分子的两端，然后根据下述方法使用该复合物。无需在两个接头末端都引入n个碱基序列。这意味着不必使用两种不同类型的接头，因此这种方式更为简便，在后续的选择过程中，也只需选择一种类型的标签。在只有一个接头具有双链barcode序列的情况下，依旧能够确定测序reads来源于哪条链。

标签核苷酸可以是任何与已连接到靶标核苷酸上的接头互补的接头，包括但不限于T突出端，A突出端，CG突出端，平末端或任何其它可连接序列。标签核苷酸的连接子可以由能造成A尾或者T尾的聚合酶延伸等方法产生；也可以用其它合适的酶创造突出末端；或者使用限制性酶来产生单个或多个核苷酸突出端；或本领域已知的任何其它方法。

标签接头分子(标签核苷酸)包括至少两个PCR引物或测序引物结合位点：正向PCR引物结合位点(或测序引物1结合位点FC1)和反向PCR引物结合位点(或测序引物2结合位点FC2)。标签接头分子还可以包括至少两个对应于测序读取的测序引物结合位点。测序引物结合位点也可作为必需序列通过独立的实验过程加至PCR引物末尾或者靶标核苷酸序列的末端。如果靶标核苷酸每个末端都具有标签接头，则每个测序链都将具有正向和反向两种reads。

然后将双链的两条序列测序所得的reads进行对比，只有在给定位置的两条链的reads相匹配时，才会对序列信息和突变进行评分。

某些方面，会在捕获的DNA片段两端连接U形接头或者发夹形接头，接头中包括下列结构：1)双链n个碱基；2)引物结合位点。这种方式可使捕获的DNA形成环状结构，环状DNA不会受到核苷酸外切酶的酶切作用，而未捕获的DNA片段(不能形成环状结构)则可通过核苷酸外切酶消化而去除。闭合环状DNA可以使用滚环复制进行预扩增，或者直接作为连续循环测序的底物。此外，如果后续步骤中的DNA需要开环结构，则可在接头的设计中加入限制性内切酶识别位点，通过限制性内切酶的消化再次打开闭合环状DNA。

测序引物序列或PCR结合位点(也称为FC1和FC2)可以位于PCR引物和发夹接头中，也即发夹接头末端的可连接序列中(以L表示)。发夹接头可引入一个或者多个可剪切位点，下述实施例中以R表示(R可以是任何合适的限制酶识别序列或其它可切割的序列)。这种发夹接头的设计如下所示：

扩增产物可以直接测序，这种接头的设计方式可以对基因组的特定区域进行靶向测序，进一步避免对发夹产物进行测序，因为发夹结构的自身互补性会导致其测序效率降低。

在产物经过PCR复制和基于DMI序列的PCR复制本的互补reads生成之后，可以比较两条链(分别表示为DNA和DNA')的序列，得出双链互补序列。

标签核苷酸接头分子含有可与靶标核苷酸连接的末端。接头连接末端可与靶标核苷酸上的突出末端互补，例如通过用限制性内切酶消化靶标核苷酸产生的切割末端。将接头选择性地连接到含有相匹配的单链突出末端的靶标核苷酸上，将有助于后续DNA的纯化。在标签接头分子或者发夹形标签接头中引入其它修饰，例如生物素标记，便于接头连接后DNA的亲和纯化。

当连接到靶标核苷酸另一端的接头是发夹形(或U形)时，特异PCR引物能够选择性地扩增基因组的特定区域。这种方法在需要或不需要可切割发夹序列的情况下都能使用。可通过发夹结构中的PCR扩增制备用于双链错误校正的DNA。

在DNA指定区域片段化中，利用位点特异性限制性内切核苷酸酶或多种内切核苷酸酶的混合物处理DNA，接着退火发夹寡核苷酸接头，并用足量的PCR引物扩增发夹复合物以得到所需的DNA序列。可以通过使用不同的限制性内切酶切割靶标核苷酸双链的任一末端，使连接到双链其中一端的发夹接头发生退火，接头仅可连接至双链其中的一个可连接末端。

DMI序列可将来自单分子双链DNA的PCR扩增产物划分为同一组，然后通过比较两条DNA链的序列进行纠错。

DMI方法可用于获得双链靶标核苷酸分子的序列或其它序列相关信息。“双链靶标核苷酸分子”包括双链DNA分子或双链RNA分子。因此，DMI使用方法适用于与DNA分子测序有关的基因分型和其它应用，也可应用于如双链RNA病毒测序等RNA测序应用。

本文中的DNA测序的任何方法都可用于RNA测序，反之亦然。例如，可以将任何双链靶标核苷酸分子与如上所述的包含双链RNA或DNA n个碱基的标签和RNA或DNA接头的标签接头进行连接。RNA可以直接进行测序，也可以将连接产物逆转录成DNA后，合成双链靶标DNA分子进行测序。

双链靶标核苷酸分子可以是剪切的双链DNA或RNA片段。剪切的靶标DNA或RNA分子经末端修复后，末端添加双链靶标核苷酸序列连接接头。双链靶标核苷酸序列连接衔接头可以是与上述标签连接接头互补的任何合适的连接接头，包括但不限于T突出端，A突出端，CG突出端，平末端或任何其它可连接序列。

获得双链靶标核苷酸分子的序列或其它序列相关信息的方法可包括将双链靶标核苷酸分子与至少一个如上所述的标签核苷酸接头分子连接以形成双链靶标核苷酸复合物。双链靶标核苷酸分子的每个末端均连接标签核苷酸接头分子，然后通过本领域已知的方法扩增双链靶标核苷酸复合物，扩增得到一组具有独特标记的标签-靶标核苷酸复合物。然后使用本领域已知的任何合适的方法对这些产物进行测序，包括但不限于Illumina测序平台，ABI SOliD测序平台，Pacific Biosciences测序平台，454Life Sciences测序平台，Ion Torrent测序平台，Helicos测序平台和纳米孔测序技术。

本文提供了生成用于纠错的双链共有序列的方法。这种也被称为基于DMI的双链误差校正(DDSEC)的方法允许定量检测DNA损伤位点。DDSEC可协助DNA损伤标记的检测，因为单链DNA可检测到而互补链中不存在的突变可以推断为由受损核苷酸引起的人为突变。DDSEC不仅可以纠正错误的突变，而且其所具有的间接推断DNA上损伤存在的能力可作为有用的生物标志物(例如癌症风险，癌症代谢状态，与损伤修复缺陷相关的突变表型，致癌物质暴露，慢性炎症暴露，个体特异性衰老，神经退行性疾病等)。在PCR的第一轮扩增中使用不同聚合酶在损伤部位掺入错误可能会增加更多的信息。除了聚合酶之外，在扩增之前可以使用其它DNA修饰/修复酶，以将不会产生特定诱变信号的一种损害转化成另一种使用任何聚合酶都能诱导产生突变的损害。或者，可以使用DNA修饰/修复酶来去除受损的碱基，在有或者没有酶处理的情况下都对DNA的两条链进行测序，通过酶处理可被除去的单链DNA突变是由DNA损伤引起的。这种方法可能对人类的细胞核DNA或mtDNA有用，但也可能用于模型生物(小鼠，酵母，细菌等)，用不同的新的破坏剂处理DNA，可促进DNA损伤化合物的筛选。

产生纠错双链共有序列的方法可以包括称为“基于DMI的单链错误校正”(DSSEC)的第一阶段和双链错误校正(DDSEC)的第二阶段。因此，该方法包括以下步骤：使用标签接头分子标记单独的双链DNA分子；选用合适的PCR方法产生一组标记的DNA分子PCR复制本；从来源于单链DNA单个分子的所有PCR复制本中生成单链共有序列。每个DNA双链体应产生两条单链共有序列。经过这三个步骤的纠错总结为第一阶段，称之为DSSEC。

生成纠错双链共有序列的方法还包括被称为基于DMI的双链错误纠正的第二个阶段。双链错误纠正包括来源于同一DNA双链体的两条单链共有序列的序列比较，仅考虑两个单链DNA分子的序列一致的位点来进一步减少测序或PCR错误。包括上述第一阶段和第二阶段的方法称为双链错误校正。

将单个双链体DNA与一组具有固定序列的标签接头随机连接以便标记两条DNA链，接头中标签序列两条链的互补性使得两个标记分子可以被划分为一组进行纠错。或者，DNA双链体可以与U形barcode接头连接，双链体的两条DNA链便可以被单链barcode标记。

根据一组共同的DMI将产生的一系列测序后标签-DNA复合物分组为成对的靶标核苷酸链家族。然后，过滤去除成对靶标核苷酸中配对DNA链上序列不互补的核苷酸位点。这种纠错双链共有序列可用于确认靶标核苷酸序列中真正突变(相对于PCR错误或其它人为突变而言)。这种方法包括鉴定成对靶标核苷酸两条链中有一个或多个不一致核苷酸位点的一个或多个突变，然后将成对靶标核苷酸中的突变与纠错双链共有序列进行对比。真正的突变需要存在于两条靶标核苷酸上并且也出现在配对的靶标核苷酸家族所有成员中。

现有二代测序准确性的影响因素主要是它们依赖于单链DNA测序。这种依赖性使PCR扩增错误和DNA损伤等潜在的误差来源从根本上受到限制。因双链DNA分子(或“DNA双链体”)的互补链含有冗余测序信息(也即双链体中的两条链相互编码对方的序列信息)可用于消除上述伪像，因此本文的方法可用于克服与单链DNA测序有关的局限性，例如测序错误。通过对双链(或双链体)靶标核苷酸分子的两条链分别进行标记和测序，进而将来源于双链复合体其中一条链的单个标记扩增子与来自同一复合体另一链的标记扩增子进行比较。双链错误校正(DDSEC)能显著降低测序错误率。

DNA损伤不是DDSEC的限制因素，因为在单个碱基对位置上发生的错误编码损伤基本上只发生在两条DNA链中的一条上。对于DNA损伤导致DDSEC中的人为突变，损伤需要同时存在于两条链相同的核苷酸位置上。即使双链体中的互补配对核苷酸都被破坏，也需要出现互补的测序错误，才会导致突变的错判。同样地，自发PCR错误也需要在两条链上的相同位置产生互补突变。

可以使用Illumina或上述的任何测序平台进行测序而不使用标签接头分子，因此DMI只能基于靶标核苷酸的序列信息，诸如以DNA随机剪切点作为标识符。测序read 1中的一段具有特定剪切点的给定DNA序列，其配对链在read 2中将具有相匹配的序列并且携带相同的剪切位点。实际上，因给定的DNA的可能剪切位点数量有限，因此该方法存在局限性。然而，靶标核苷酸分子的剪切位点作为唯一的标识符以鉴定双链(或双链体)对时，会导致错误频率与传统测序方法一样低，但是序列容量的损失要低得多。仅基于剪切点的DDSEC能够确认感兴趣的特定突变是确实存在于起始样品中(即存在于两条DNA链中)，而不是PCR或测序伪像。DMI通过使用携带固定barcode的常规接头，可以显著降低双链体测序的复杂性。

DMI方法也可用于单分子计数，用以准确测定DNA或RNA拷贝数。此外，因使用标签接头中的barcode推算DMI，故而无需改变文库制备的步骤，这与其它使用随机标签进行单分子计数的方法相反。单分子计数应用广泛，包括但不限于基因组拷贝数改变(例如21三体性等遗传条件的敏感诊断)和转录测序中mRNA拷贝数改变的精确测定，染色质免疫沉淀实验，循环microRNAs的定量，DNA或RNA病毒的病毒载量的定量，微生物丰度的定量，循环肿瘤细胞的定量，包括标记抗体或寡核苷酸接头在内的任何种类的DNA标记分子的计数，以及法医学中不同个体基因组的相对丰度的定量。

DMI可以用于明确鉴定PCR复制本。为了将测序分析限制在唯一测序的DNA片段上，许多测序方法都包括使用DNA分子末端的剪切点以鉴定不同分子来从而过滤PCR复制本的步骤。当多个DNA分子具有相同的剪切点时，假设这些分子是来自同一起始DNA的多个PCR拷贝，则除留存单个DNA分子用于分析之外，其它所有DNA分子都去除。但是具有相同剪切点的测序reads也可能反映不同的DNA分子，因为在任何给定的基因组位置处可能的剪切点数量有限，并且随着测序深度的增加，重复的剪切点越来越可能出现。结合标签接头中的barcode的信息，DMI可保证每个DNA分子都能被唯一识别，因此可以通过分析共同(即相同或类似的)DMI而鉴定真正的PCR重复本。这种方法可克服使用剪切点识别PCR重复导致的局限性，从而使数据的损失最小化。

重要的是，DMI方法可以使用标准的测序接头，因此，使用DDSEC与Illumina DNA测序样品制备的正常工作流程无任何不兼容性。此外，由于DMI可以从任何标签核苷酸和靶标核苷酸链中计算得出，因此DDSEC方法可以推广到几乎任何测序平台。DMI与现有测序工作技术的兼容性，极大降低DNA测序错误率的潜力以及DMI的大量应用，都表明了DDSEC将会在二代测序中作为常规技术手段而应用。

实施例

标签核苷酸合成、DMI计算及其在双链靶标核苷酸测序中的应用

材料与方法

材料：寡核苷酸由IDT合成并通过PAGE胶纯化获得，Klenow exo-购自NEB，T4连接酶购自Enzymatics，DNA Multiplex I cfDNA标准品购自Horizon。

标签核苷酸，标签核苷酸是由两条寡核苷酸合成，设计如下：

正链：

AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCNNNNNNNNNNNNGATCT(SEQ ID NO:1)；

负链：

/5phos/GATCNNNNNNNNNNNNGGAAGAGCACACGTCTGAACTCCAGTCAC(SEQ ID NO:2)；

NNNNNNNNNNNN是指长度为12nt的barcode序列。负链中的barcode序列与正链中的barcode序列反向互补。本实施例中，NNNNNNNNNNNN采用如下序列：

TCCCTTGTCTCC(SEQ ID NO:3),ACGAGACTGATT(SEQ ID NO:4),GCTGTACGGATT(SEQID NO:5),ATCACCAGGTGT(SEQ ID NO:6),TGGTCAACGATA(SEQ ID NO:7),ATCGCACAGTAA(SEQID NO:8),GTCGTGTAGCCT(SEQ ID NO:9),AGCGGAGGTTAG(SEQ ID NO:10),ATCCTTTGGTTC(SEQ ID NO:11),TACAGCGCATAC(SEQ ID NO:12),ACCGGTATGTAC(SEQ ID NO:13),AATTGTGTCGGA(SEQ ID NO:14),TGCATACACTGG(SEQ ID NO:15),AGTCGAACGAGG(SEQ ID NO:16),ACCAGTGACTCA(SEQ ID NO:17),GAATACCAAGTC(SEQ ID NO:18),GTAGATCGTGTA(SEQ IDNO:19),TAACGTGTGTGC(SEQ ID NO:20),CATTATGGCGTG(SEQ ID NO:21),CCAATACGCCTG(SEQID NO:22),GATCTGCGATCC(SEQ ID NO:23),CAGCTCATCAGC(SEQ ID NO:24),CAAACAACAGCT(SEQ ID NO:25),GCAACACCATCC(SEQ ID NO:26),GCGATATATCGC(SEQ ID NO:27),CGAGCAATCCTA(SEQ ID NO:28),AGTCGTGCACAT(SEQ ID NO:29),GTATCTGCGCGT(SEQ ID NO:30),CGAGGGAAAGTC(SEQ ID NO:31),CAAATTCGGGAT(SEQ ID NO:32),AGATTGACCAAC(SEQ IDNO:33),AGTTACGAGCTA(SEQ ID NO:34),GCATATGCACTG(SEQ ID NO:35),CAACTCCCGTGA(SEQID NO:36),TTGCGTTAGCAG(SEQ ID NO:37),TACGAGCCCTAA(SEQ ID NO:38),CACTACGCTAGA(SEQ ID NO:39),TGCAGTCCTCGA(SEQ ID NO:40),ACCATAGCTCCG(SEQ ID NO:41),TCGACATCTCTT(SEQ ID NO:42),GAACACTTTGGA(SEQ ID NO:43),GAGCCATCTGTA(SEQ ID NO:44),TTGGGTACACGT(SEQ ID NO:45),AAGGCGCTCCTT(SEQ ID NO:46),TAATACGGATCG(SEQ IDNO:47),TCGGAATTAGAC(SEQ ID NO:48),TGTGAATTCGGA(SEQ ID NO:49),CATTCGTGGCGT(SEQID NO:50),TACTACGTGGCC(SEQ ID NO:51),GGCCAGTTCCTA(SEQ ID NO:52),GATGTTCGCTAG(SEQ ID NO:53),CTATCTCCTGTC(SEQ ID NO:54),ACTCACAGGAAT(SEQ ID NO:55),ATGATGAGCCTC(SEQ ID NO:56),GTCGACAGAGGA(SEQ ID NO:57),TGTCGCAAATAG(SEQ ID NO:58),CATCCCTCTACT(SEQ ID NO:59),TATACCGCTGCG(SEQ ID NO:60),AGTTGAGGCATT(SEQ IDNO:61),ACAATAGACACC(SEQ ID NO:62),CGGTCAATTGAC(SEQ ID NO:63),GTGGAGTCTCAT(SEQID NO:64),GCTCGAAGATTC(SEQ ID NO:65),AGGCTTACGTGT(SEQ ID NO:66),TCTCTACCACTC(SEQ ID NO:67),ACTTCCAACTTC(SEQ ID NO:68),CTCACCTAGGAA(SEQ ID NO:69),GTGTTGTCGTGC(SEQ ID NO:70),CCACAGATCGAT(SEQ ID NO:71),TATCGACACAAG(SEQ ID NO:72),GATTCCGGCTCA(SEQ ID NO:73),CGTAATTGCCGC(SEQ ID NO:74),GGTGACTAGTTC(SEQ IDNO:75),ATGGGTTCCGTC(SEQ ID NO:76),TAGGCATGCTTG(SEQ ID NO:77),AACTAGTTCAGG(SEQID NO:78),ATTCTGCCGAAG(SEQ ID NO:79),AGCATGTCCCGT(SEQ ID NO:80),GTACGATATGAC(SEQ ID NO:81),GTGGTGGTTTCC(SEQ ID NO:82),TAGTATGCGCAA(SEQ ID NO:83),TGCGCTGAATGT(SEQ ID NO:84),ATGGCTGTCAGT(SEQ ID NO:85),GTTCTCTTCTCG(SEQ ID NO:86),CGTAAGATGCCT(SEQ ID NO:87),GCGTTCTAGCTG(SEQ ID NO:88),GTTGTTCTGGGA(SEQ IDNO:89),GGACTTCCAGCT(SEQ ID NO:90),CTCACAACCGTG(SEQ ID NO:91),CTGCTATTCCTC(SEQID NO:92),ATGTCACCGCTG(SEQ ID NO:93),TGTAACGCCGAT(SEQ ID NO:94),AGCAGAACATCT(SEQ ID NO:95),TGGAGTAGGTGG(SEQ ID NO:96),TTGGCTCTATTC(SEQ ID NO:97),GATCCCACGTAC(SEQ ID NO:98)。如上标签核苷酸的制备方法为：等摩尔量混合两条标签核苷酸，使每条链的终浓度为50μM，95℃，孵育5min，使两条标签核苷酸退火，合成了96对标签核苷酸。

等摩尔量混合96对标签核苷酸，从而产生一个标签核苷酸库。

测序文库的准备

取5ng cfDNA使用NEB末端修复试剂盒进行cfDNA片段的末端修复，然后在包含5UKlenow exo-，1mM dTTP，50mM NaCl，10mM Tris-HCl pH 7.9，10mM MgCl₂，1mM DTT的反应体系中37℃温育1小时，对DNA进行加T反应。反应完成后用1.0×的AMPure XP磁珠纯化DNA。

将连接T尾后的DNA与250pmol标签核苷酸库加入到含有3000U T4 DNA连接酶，50mM Tris-HCl pH7.6，10mM MgCl₂，5mM DTT，1mM ATP的反应体系中，25℃温育15min，使标签核苷酸连接到DNA上。反应产物使用1.0×AMPure XP磁珠纯化。

捕获前扩增

使用KAPA high-fidelity PCR kit对标签-靶标DNA进行PCR扩增，扩增引物为：AATGATACGGCGACCACCGAG(SEQ ID NO:99)和GTGACTGGAGTTCAGACGTGTGC(SEQ ID NO:100)，扩增循环数为13，退火温度为60℃，扩增产物使用1.0×AMPure XP磁珠纯化。

DNA捕获

使用Agilent SureSelect系统进行目标区域捕获。目标捕获区域定位于基因组上癌症相关基因的编码序列组成的任意80kb的区域。捕获探针长度为120nt，探针是使用3×平铺的Agilent eArray工具制备完成的。

捕获后扩增

捕获出来的DNA进行PCR扩增，扩增引物是：

AATGATACGGCGACCACCGAG(SEQ ID NO:99)和CAAGCAGAAGACGGCATACGAGATNNNNNNNNNNNNGTGACTGGAGTTCAGACGTGTGC(SEQ ID NO:101)，NNNNNNNNNNNN是指固定的多重Barcode序列的位置。NextSeq500测序时使用1.5pM DNA。

数据分析

有完整标签核苷酸的reads含有已知12bp的分子标签序列，这些reads是通过过滤掉缺少预期特定的分子标签序列来识别的。通过取reads上分子标签序列的正向和反向序列和靶标核苷酸序列的5～17位的序列来计算出每条read的DMI。将DMI序列添加到reads前端，并去除标签核苷酸序列。由于连接和末端修复错误的倾向，使接近DNA片段末端的错误率升高，所以位于标签核苷酸序列之后的前4个核苷酸也会被去除。具有相同的DMI序列的reads被分在一组，产生一条共有read。如果覆盖某测序位点的reads数少于3条并且reads中的某位点少于90％具有相同碱基，则该测序位点被去除。使用Burrows-Wheeler Aligner(BWA)软件将reads比对到人类基因组上，然后通过将read1中的AabB形式的每条48个核苷酸的标签序列与其相应的read2中的BbaA形式的相应标签序列配对。仅当来自两条DNA链的信息完全一致时才考虑所得的序列位置。数据处理工作流程概述如下：

1.去除不含有12nt barcode序列的reads；

2.通过分子标签序列和靶标核苷酸的read1read2计算DMI，并将组合的48nt DMI序列转移到read前端；

3.去除5nt的固定参考序列；

4.从每对read的5'末端去除额外的4个碱基；

5.将具有相同的48nt DMI的reads聚类在一起；

6.DMI一致的reads中，只有某测序位点的DMI复制数大于等于3条，而且reads中的某位点大于90％具有相同碱基，则该测序位点才会被考虑保留；

7.将AabB格式的read 1文件中的每一个具有DMI的read，与具有BbaA格式的read2文件中具有DMI的read，形成相应双链互补伙伴组；

8.只有在两个链之间序列互补时，该位点才会被保留下来；

9.将序列比对到人类基因组上。

用于执行工作流程的代码可以是之前就有的或者由本领域技术人员编写。综述

为了克服单链二代DNA测序对突变体检测灵敏度的局限性，本文设计了文库制备和分析的备选方法，在这里被称为基于DMI的双链错误校正(DDSEC)方法(图1)。本文所述的DDSEC方法涉及用标签标记具有标签核苷酸的双链DNA的两条链，它是具有已知序列的互补双链分子标签。当随机连接标签核苷酸与靶标核苷酸链，一个唯一的标签-靶标复合体被创建出来，每个复合体应该有一个独特的DMI。标签-靶标分子通过PCR扩增，由单链DNA产生的每一个重复体将具有相同的DMI，由于两条链上的DMI的互补性，DNA双链中的每条链在扩增后能产生独特但相关的PCR重复体。比较从包含单分子双链DNA的两条链各自获得的序列便于从真正的突变中分辨测序错误。当一个明显的突变是由PCR或测序错误引起的，则突变只能在单链上找到。相反，真正的DNA突变，两条链都会出现互补替换。

在用双链标签核苷酸标记，PCR扩增和测序，可以获得来自单个DNA分子的分子家族，同样的PCR家族成员通过具有共同的DMI标签序列被聚类到一起。随后比较唯一标记的PCR重复序列以产生PCR共有序列。只有家族成员产生相同DNA位点序列的重复比例达到一个特定的要求，例如90％的重复比例，此时的位点信息用于产生PCR共有序列。这一步骤在产生PCR共有序列时可以过滤掉由于测序或PCR引入的随机错误，其中每个序列都来源于单链DNA的单个分子。这种方法被称为基于DMI的单链错误校正(DSSEC)。

接下来，由双链DNA的两条互补链产生的PCR共有序列可通过识别互补DMI(图3)以鉴定“伙伴DMI”。具体而言，具有48个核苷酸的DMI由4个可被命名为AabB的12个核苷酸序列组成。对于read1中AabB形式中的DMI，在read2中，他的伙伴DMI将是BbaA形式，图4是说明这一点的事例。通过互补DMI配对两条链后，比较链的序列，只有当来自两个配对链中的序列一致时，才会保留该位点的序列信息。

结果

为了产生双链DNA的每条链的唯一标签，合成具有Illumina系统所需标准序列的标签核苷酸。标签核苷酸含有12个核苷酸的分子标签。

Multiplex I cfDNA标准品购自Horizon，用于测序的DNA分子通过标准的方法末端修复。Illumina标准的文库构建方法是将连上A尾的DNA片段连接到具有T尾的接头上。但是，因为使用了含A尾的接头，所以通过将末端修复的DNA与Klenow exo-DNA聚合酶和1mMdTTP一起温育，将DNA加上T尾。将连接上接头的文库进行PCR扩增并进行SureSelect捕获，目标区域是基因组的任意800kb(可根据要求设置DNA区域)。接头连接，PCR扩增，DNA捕获和测序的效率与标准文库制备方法相当(数据未显示)。虽然这个例子中使用的是AgilentSureSelect探针，但是可以使用任何合适的DNA选择方法来捕获特定的目标双链DNA序列。例如，选择和捕获可通过杂交的方法完成(例如，Agilent SureSelect，引物延伸捕获，利用生物素化的PCR扩增子作为探针，Agilent HaloPlex)，其中靶向目标双链DNA序列的探针可以通过阵列获得(使用固定在载玻片上的探针)或通过溶液内磁珠的亲和力获得。此外，线粒体和一些其他形式的DNA可以通过片段大小选择来分离。或者，不进行PCR富集反应。

最初对突变率进行评估是不考虑DMI序列。使用samtools rmdup软件(一种标准化软件，利用DNA分子的剪切位点来鉴定PCR复制物，因为来自重复的DNA的分子将具有共同的剪切位点)过滤掉PCR扩增产物。为了计算非克隆性突变，仅考虑具有至少20×覆盖度并且少于5％的reads与hg19参考序列不同的那些位点。这种分析方法产生8010万个核苷酸的序列数据和56,780个突变位点，说明总体突变频率为7.01×10^-4，在Illumina二代测序的误差范围-0.1-1％内，如图5所示。

接下来，使用DMI标签序列将来自单链DNA分子的PCR重复序列聚类成一组，并从重复家族中产生共有序列。至少需要3个PCR重复，并且有90％的序列在所有重复序列中一致，才会认定某位点为突变位点。如上所述对突变频率进行评估时，仅考虑具有最小20×覆盖度的位点，并且<5％的reads与参考序列不同，这种分析方法产生了1.5亿条核苷酸序列，其中有7,050个突变位点，总体突变频率为4.7×10^-5，与之前的报道一致。值得注意的是，使用这种方法获得的DNA序列的核苷酸数(1.5亿)比上面详述的标准Illumina测序方法(依赖于使用单端reads的剪切位点来鉴定PCR重复)获得的DNA序列的核苷酸数(8010万)要多得多。使用DMI鉴定PCR重复序列可以提高序列的覆盖率，通过独特剪切的DNA末端来鉴定PCR重复是有一定的限制的，因为与基因组的给定位点重叠的剪切位点数很少，以及有特异性基因组区域更容易被剪切。因此，通过使用剪切位点来过滤掉PCR复制物会丢掉大部分reads。

最后，使用双链DMI序列的互补性质来鉴定来自互补DNA链的共有基因对。仅当从两条链的每条read数据完全一致时才考虑序列的正确性。在一个试验性实验中，在经过如上所述的PCR重复数据聚类后，产生30,560个DMI序列对，表明在该文库中存在少于1％的标签序列具有其对应的互补序列。标签序列对的低回收率很可能是由于起始DNA文库扩增不充分所致。在这些标签序列对中，鉴定出23,658个共有双链，平均长度为82nt，产出230万个DNA共有序列核苷酸。配对双链的序列在第3348个核苷酸位置上不一致，表明单链错误(即PCR或测序错误)，这些序列不一致的位点被删除，只留下双链的序列完全一致的位点序列。接下来，如上所述，对具有至少10×覆盖度的位点，并且其中少于10％的reads不同于hg19参考序列的序列进行突变频率分析。由于230万核苷酸要覆盖810kb的目标区域，所以我们的平均测序深度仅为3×。因此，只有15,436个核苷酸的DNA序列对应于至少10×的测序深度，这些位点显示零突变率。为了增加标签序列对的数量，重复了上述分析，但是PCR复制数按照每个位点最少有一个重复数据。这种分析方法产生30,439个核苷酸DNA序列，至少10×的测序深度，同样还是没有检测到突变。

目前进行实验的靶标核苷酸分子片段大小跨度比较大，从300bp到20kb不等。使用片段小的靶标核苷酸会得到更深的测序深度，并且更精确地评估实验的背景突变率。此外，该方法优化到可以使用更少的基因组投入量，使用更高的PCR循环数，这种做法会由于标签序列对的扩增数增加而在最终的测序数据中增加标签序列对的数据占有量。实际上，在有PCR扩增的文库中存在320万个DMIs，其中120万个DMIs仅存在一次，表明在PCR循环数低的情况下DNA的扩增不充分。

依据特定的平台和序列，结合聚类扩增，循环测序和图像分析过程中出现的额外误差，大约1％的碱基被错误地识别。在这个实验性的测试中，将定量突变体混入核苷酸中，利用标准测序分析对混入小于1/100的比例突变体的样品进行检测，其突变的检测率明显大于100％，其原因在于检测样在扩增、测序所引入的错误信息掩盖了真正少量的突变；相反，基于DMI的DDSEC准确鉴定突变，排除引入的突变，检测率可达1/50,000，如图6所示。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

序列表

<110> 奥明（杭州）基因科技有限公司

<120> 一种降低深度测序错误的方法

<130> 2018.2.07

<141> 2018-02-23

<160> 101

<170> SIPOSequenceListing 1.0

<210> 1

<211> 70

<212> DNA

<213> 人工序列( )

<220>

<221> misc_feature

<222> (54)..(65)

<223> n is a, c, g, or t

<400> 1

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccnnnnnnn 60

nnnnngatct 70

<210> 2

<211> 45

<212> DNA

<213> 人工序列( )

<220>

<221> misc_feature

<222> (5)..(16)

<223> n is a, c, g, or t

<400> 2

gatcnnnnnn nnnnnnggaa gagcacacgt ctgaactcca gtcac 45

<210> 3

<211> 12

<212> DNA

<213> 人工序列( )

<400> 3

tcccttgtct cc 12

<210> 4

<211> 12

<212> DNA

<213> 人工序列( )

<400> 4

acgagactga tt 12

<210> 5

<211> 12

<212> DNA

<213> 人工序列( )

<400> 5

gctgtacgga tt 12

<210> 6

<211> 12

<212> DNA

<213> 人工序列( )

<400> 6

atcaccaggt gt 12

<210> 7

<211> 12

<212> DNA

<213> 人工序列( )

<400> 7

tggtcaacga ta 12

<210> 8

<211> 12

<212> DNA

<213> 人工序列( )

<400> 8

atcgcacagt aa 12

<210> 9

<211> 12

<212> DNA

<213> 人工序列( )

<400> 9

gtcgtgtagc ct 12

<210> 10

<211> 12

<212> DNA

<213> 人工序列( )

<400> 10

agcggaggtt ag 12

<210> 11

<211> 12

<212> DNA

<213> 人工序列( )

<400> 11

atcctttggt tc 12

<210> 12

<211> 12

<212> DNA

<213> 人工序列( )

<400> 12

tacagcgcat ac 12

<210> 13

<211> 12

<212> DNA

<213> 人工序列( )

<400> 13

accggtatgt ac 12

<210> 14

<211> 12

<212> DNA

<213> 人工序列( )

<400> 14

aattgtgtcg ga 12

<210> 15

<211> 12

<212> DNA

<213> 人工序列( )

<400> 15

tgcatacact gg 12

<210> 16

<211> 12

<212> DNA

<213> 人工序列( )

<400> 16

agtcgaacga gg 12

<210> 17

<211> 12

<212> DNA

<213> 人工序列( )

<400> 17

accagtgact ca 12

<210> 18

<211> 12

<212> DNA

<213> 人工序列( )

<400> 18

gaataccaag tc 12

<210> 19

<211> 12

<212> DNA

<213> 人工序列( )

<400> 19

gtagatcgtg ta 12

<210> 20

<211> 12

<212> DNA

<213> 人工序列( )

<400> 20

taacgtgtgt gc 12

<210> 21

<211> 12

<212> DNA

<213> 人工序列( )

<400> 21

cattatggcg tg 12

<210> 22

<211> 12

<212> DNA

<213> 人工序列( )

<400> 22

ccaatacgcc tg 12

<210> 23

<211> 12

<212> DNA

<213> 人工序列( )

<400> 23

gatctgcgat cc 12

<210> 24

<211> 12

<212> DNA

<213> 人工序列( )

<400> 24

cagctcatca gc 12

<210> 25

<211> 12

<212> DNA

<213> 人工序列( )

<400> 25

caaacaacag ct 12

<210> 26

<211> 12

<212> DNA

<213> 人工序列( )

<400> 26

gcaacaccat cc 12

<210> 27

<211> 12

<212> DNA

<213> 人工序列( )

<400> 27

gcgatatatc gc 12

<210> 28

<211> 12

<212> DNA

<213> 人工序列( )

<400> 28

cgagcaatcc ta 12

<210> 29

<211> 12

<212> DNA

<213> 人工序列( )

<400> 29

agtcgtgcac at 12

<210> 30

<211> 12

<212> DNA

<213> 人工序列( )

<400> 30

gtatctgcgc gt 12

<210> 31

<211> 12

<212> DNA

<213> 人工序列( )

<400> 31

cgagggaaag tc 12

<210> 32

<211> 12

<212> DNA

<213> 人工序列( )

<400> 32

caaattcggg at 12

<210> 33

<211> 12

<212> DNA

<213> 人工序列( )

<400> 33

agattgacca ac 12

<210> 34

<211> 12

<212> DNA

<213> 人工序列( )

<400> 34

agttacgagc ta 12

<210> 35

<211> 12

<212> DNA

<213> 人工序列( )

<400> 35

gcatatgcac tg 12

<210> 36

<211> 12

<212> DNA

<213> 人工序列( )

<400> 36

caactcccgt ga 12

<210> 37

<211> 12

<212> DNA

<213> 人工序列( )

<400> 37

ttgcgttagc ag 12

<210> 38

<211> 12

<212> DNA

<213> 人工序列( )

<400> 38

tacgagccct aa 12

<210> 39

<211> 12

<212> DNA

<213> 人工序列( )

<400> 39

cactacgcta ga 12

<210> 40

<211> 12

<212> DNA

<213> 人工序列( )

<400> 40

tgcagtcctc ga 12

<210> 41

<211> 12

<212> DNA

<213> 人工序列( )

<400> 41

accatagctc cg 12

<210> 42

<211> 12

<212> DNA

<213> 人工序列( )

<400> 42

tcgacatctc tt 12

<210> 43

<211> 12

<212> DNA

<213> 人工序列( )

<400> 43

gaacactttg ga 12

<210> 44

<211> 12

<212> DNA

<213> 人工序列( )

<400> 44

gagccatctg ta 12

<210> 45

<211> 12

<212> DNA

<213> 人工序列( )

<400> 45

ttgggtacac gt 12

<210> 46

<211> 12

<212> DNA

<213> 人工序列( )

<400> 46

aaggcgctcc tt 12

<210> 47

<211> 12

<212> DNA

<213> 人工序列( )

<400> 47

taatacggat cg 12

<210> 48

<211> 12

<212> DNA

<213> 人工序列( )

<400> 48

tcggaattag ac 12

<210> 49

<211> 12

<212> DNA

<213> 人工序列( )

<400> 49

tgtgaattcg ga 12

<210> 50

<211> 12

<212> DNA

<213> 人工序列( )

<400> 50

cattcgtggc gt 12

<210> 51

<211> 12

<212> DNA

<213> 人工序列( )

<400> 51

tactacgtgg cc 12

<210> 52

<211> 12

<212> DNA

<213> 人工序列( )

<400> 52

ggccagttcc ta 12

<210> 53

<211> 12

<212> DNA

<213> 人工序列( )

<400> 53

gatgttcgct ag 12

<210> 54

<211> 12

<212> DNA

<213> 人工序列( )

<400> 54

ctatctcctg tc 12

<210> 55

<211> 12

<212> DNA

<213> 人工序列( )

<400> 55

actcacagga at 12

<210> 56

<211> 12

<212> DNA

<213> 人工序列( )

<400> 56

atgatgagcc tc 12

<210> 57

<211> 12

<212> DNA

<213> 人工序列( )

<400> 57

gtcgacagag ga 12

<210> 58

<211> 12

<212> DNA

<213> 人工序列( )

<400> 58

tgtcgcaaat ag 12

<210> 59

<211> 12

<212> DNA

<213> 人工序列( )

<400> 59

catccctcta ct 12

<210> 60

<211> 12

<212> DNA

<213> 人工序列( )

<400> 60

tataccgctg cg 12

<210> 61

<211> 12

<212> DNA

<213> 人工序列( )

<400> 61

agttgaggca tt 12

<210> 62

<211> 12

<212> DNA

<213> 人工序列( )

<400> 62

acaatagaca cc 12

<210> 63

<211> 12

<212> DNA

<213> 人工序列( )

<400> 63

cggtcaattg ac 12

<210> 64

<211> 12

<212> DNA

<213> 人工序列( )

<400> 64

gtggagtctc at 12

<210> 65

<211> 12

<212> DNA

<213> 人工序列( )

<400> 65

gctcgaagat tc 12

<210> 66

<211> 12

<212> DNA

<213> 人工序列( )

<400> 66

aggcttacgt gt 12

<210> 67

<211> 12

<212> DNA

<213> 人工序列( )

<400> 67

tctctaccac tc 12

<210> 68

<211> 12

<212> DNA

<213> 人工序列( )

<400> 68

acttccaact tc 12

<210> 69

<211> 12

<212> DNA

<213> 人工序列( )

<400> 69

ctcacctagg aa 12

<210> 70

<211> 12

<212> DNA

<213> 人工序列( )

<400> 70

gtgttgtcgt gc 12

<210> 71

<211> 12

<212> DNA

<213> 人工序列( )

<400> 71

ccacagatcg at 12

<210> 72

<211> 12

<212> DNA

<213> 人工序列( )

<400> 72

tatcgacaca ag 12

<210> 73

<211> 12

<212> DNA

<213> 人工序列( )

<400> 73

gattccggct ca 12

<210> 74

<211> 12

<212> DNA

<213> 人工序列( )

<400> 74

cgtaattgcc gc 12

<210> 75

<211> 12

<212> DNA

<213> 人工序列( )

<400> 75

ggtgactagt tc 12

<210> 76

<211> 12

<212> DNA

<213> 人工序列( )

<400> 76

atgggttccg tc 12

<210> 77

<211> 12

<212> DNA

<213> 人工序列( )

<400> 77

taggcatgct tg 12

<210> 78

<211> 12

<212> DNA

<213> 人工序列( )

<400> 78

aactagttca gg 12

<210> 79

<211> 12

<212> DNA

<213> 人工序列( )

<400> 79

attctgccga ag 12

<210> 80

<211> 12

<212> DNA

<213> 人工序列( )

<400> 80

agcatgtccc gt 12

<210> 81

<211> 12

<212> DNA

<213> 人工序列( )

<400> 81

gtacgatatg ac 12

<210> 82

<211> 12

<212> DNA

<213> 人工序列( )

<400> 82

gtggtggttt cc 12

<210> 83

<211> 12

<212> DNA

<213> 人工序列( )

<400> 83

tagtatgcgc aa 12

<210> 84

<211> 12

<212> DNA

<213> 人工序列( )

<400> 84

tgcgctgaat gt 12

<210> 85

<211> 12

<212> DNA

<213> 人工序列( )

<400> 85

atggctgtca gt 12

<210> 86

<211> 12

<212> DNA

<213> 人工序列( )

<400> 86

gttctcttct cg 12

<210> 87

<211> 12

<212> DNA

<213> 人工序列( )

<400> 87

cgtaagatgc ct 12

<210> 88

<211> 12

<212> DNA

<213> 人工序列( )

<400> 88

gcgttctagc tg 12

<210> 89

<211> 12

<212> DNA

<213> 人工序列( )

<400> 89

gttgttctgg ga 12

<210> 90

<211> 12

<212> DNA

<213> 人工序列( )

<400> 90

ggacttccag ct 12

<210> 91

<211> 12

<212> DNA

<213> 人工序列( )

<400> 91

ctcacaaccg tg 12

<210> 92

<211> 12

<212> DNA

<213> 人工序列( )

<400> 92

ctgctattcc tc 12

<210> 93

<211> 12

<212> DNA

<213> 人工序列( )

<400> 93

atgtcaccgc tg 12

<210> 94

<211> 12

<212> DNA

<213> 人工序列( )

<400> 94

tgtaacgccg at 12

<210> 95

<211> 12

<212> DNA

<213> 人工序列( )

<400> 95

agcagaacat ct 12

<210> 96

<211> 12

<212> DNA

<213> 人工序列( )

<400> 96

tggagtaggt gg 12

<210> 97

<211> 12

<212> DNA

<213> 人工序列( )

<400> 97

ttggctctat tc 12

<210> 98

<211> 12

<212> DNA

<213> 人工序列( )

<400> 98

gatcccacgt ac 12

<210> 99

<211> 21

<212> DNA

<213> 人工序列( )

<400> 99

aatgatacgg cgaccaccga g 21

<210> 100

<211> 23

<212> DNA

<213> 人工序列( )

<400> 100

gtgactggag ttcagacgtg tgc 23

<210> 101

<211> 57

<212> DNA

<213> 人工序列( )

<220>

<221> misc_feature

<222> (25)..(34)

<223> n is a, c, g, or t

<400> 101

caagcagaag acggcatacg agatnnnnnn nnnngtgact ggagttcaga cgtgtgc 57

Claims

1.一种降低深度测序错误的方法，其特征在于，所述方法通过为每个核苷酸链产生数字分子标识符得以实现，包括如下步骤：

1）制备标签核苷酸链；

2）将标签核苷酸链随机连接至靶标核苷酸链获得标签-靶标核苷酸复合物；

3）扩增标签-靶标核苷酸复合物，产生一组扩增的标签-靶标核苷酸产物；

4）对扩增的标签-靶标核苷酸产物进行测序；

5）对测序得到的每个标签-靶标核苷酸产物产生一个基于标签-靶标核苷酸复合物信息的数字分子标识符；

6）把测序产物按相同的数字分子标识符，聚类成相应的单链类别，在每个单链类别里面通过生物信息学比对去除错误位点，得到单链共有序列，从而降低深度测序错误；

所述标签核苷酸链包含：

至少两个PCR引物结合位点；

或至少两个测序引物结合位点；

或同时包含至少两个PCR引物结合位点和至少两个测序引物结合位点；

所述标签核苷酸链是含有不同barcode序列的接头序列，该接头序列为T突出端、A突出端、CG突出端或平端；

所述barcode序列为双链分子或单链分子；

所述含有不同barcode序列的接头序列为：

正链：

AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCNNNNNNNNNNNNGATCT；

负链：

/5phos/GATCNNNNNNNNNNNNGGAAGAGCACACGTCTGAACTCCAGTCAC；

其中，NNNNNNNNNNNN是长度为3～15nt的barcode序列；N为A、G、C或T；负链中的barcode序列与正链中的barcode序列反向互补配对；

所述数字分子标识符包括标签核苷酸链序列信息、靶标核苷酸链序列信息、靶标核苷酸链长度及靶标核苷酸在参考基因组上的位置信息；

步骤6）中，通过生物信息学比对去除错误位点具体为：通过生物信息学分析除去靶标核苷酸上一个或多个错配的核苷酸位点，或者从靶标核苷酸上去除单链核苷酸没有的特定的核苷酸位点；

所述方法进一步包括以下步骤：

按双链匹配的数字分子标识符，把单链共有序列再聚类为双链类别，通过双链互补配对信息去除错误位点，从而进一步降低深度测序错误；

通过双链互补配对信息去除错误位点具体为：根据双链互补配对信息通过生物信息学分析除去靶标核苷酸上一个或多个错配的核苷酸位点，或者从靶标核苷酸上去除单链核苷酸没有的特定的核苷酸位点。

2.根据权利要求1所述的方法，其特征在于，所述靶标核苷酸链为双链DNA或RNA。

3.根据权利要求2所述的方法，其特征在于，所述靶标核苷酸分子为双链循环肿瘤DNA或逆转录循环肿瘤RNA片段。