CN109511265A

CN109511265A - 通过链鉴定改进测序的方法

Info

Publication number: CN109511265A
Application number: CN201780044140.0A
Authority: CN
Inventors: 翁莉; 马利克·法哈姆; 林盛榕; 邓凌锋; 卢永涛; 孙朝辉; 王英宇
Original assignee: Encore Economic Holdings Ltd
Current assignee: Encore Economic Holdings Ltd
Priority date: 2016-05-16
Filing date: 2017-05-16
Publication date: 2019-03-22
Anticipated expiration: 2037-05-16
Also published as: EP3458586A4; US20230167493A1; EP3458586A1; CN109511265B; WO2017201102A1; US20200010884A1; EP3458586B1; WO2017201102A8; US11427866B2; CA3024630A1

Abstract

在一些方面，本公开内容提供了用于鉴定序列变体的方法，以及确定样品中遗传基因座的拷贝数的方法。还提供了用于执行本公开内容的方法的系统和试剂盒，以及由本公开内容的方法产生或可用于本公开内容的方法的组合物。在一些实施方案中，方法包括通过添加一个或多个预定核苷酸延伸多核苷酸的3’端。在一些实施方案中，方法包括使用链标记序列。

Description

通过链鉴定改进测序的方法

交叉引用

本申请要求2016年5月16日提交的美国临时申请号62/337,296以及2017年5月15日提交的美国临时申请号62/506,390的权益，上述申请的每一个均通过引用整体并入本文。

背景技术

临床样品中无细胞核酸的“深度”测序以鉴定罕见变体序列已经普遍地对临床科学和医学产生了重大影响。然而，区分真正的序列变体与测序、扩增和/或其他处理错误仍然是与这些新的基于序列的测定相关的核心挑战。已经通过几种方式解决了这一挑战，例如，通过提高下一代测序(NGS)读数准确度的技术改进以及通过增加在每个基因座处测序的模板数目来改进错误分析。尽管取得了这样的进步，但仍然需要进一步改进，特别是在患者样品的大小受到严重限制的情况下。

发明内容

鉴于前述内容，需要具有更高准确度的测序方法和检测群体中以较低频率发生的突变的能力。本公开内容解决了这些需求，并且还提供了另外的优点。在一些方面，本公开内容提供了用于鉴定一个或多个遗传基因座处的罕见序列变体以及用于测量一个或多个遗传基因座处的拷贝数变异的方法和组合物。在许多实施和应用中举例说明了本公开内容的各方面，其中一些实施和申请在下文和整个说明书中进行了概述。

在一个方面，本公开内容提供了一种鉴定包含多个双链多核苷酸的核酸样品中的互补链的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端。在一些实施方案中，所述方法包括：(a)修饰单独的双链多核苷酸的第一互补链和第二互补链中的至少一个的多核苷酸序列，其中在所述修饰之后，源自共同双链多核苷酸的第一互补链和第二互补链不是完美互补的；(b)对多个第一互补链和多个第二互补链或其扩增产物进行测序，以产生多个测序读数；以及(c)基于(i)相应3’端和5’端的序列和(ii)不是完美互补的所述相应的互补链的多核苷酸序列，从所述多个测序读数中，将给定第一互补链和给定第二互补链鉴定为源自共同双链多核苷酸。在一些实施方案中，修饰多核苷酸序列包括(i)通过添加一个或多个预定核苷酸延伸所述第一互补链和所述第二互补链中的至少一个的3’端，(ii)将具有预定义多核苷酸序列的多核苷酸附接(例如通过连接)至所述第一互补链和所述第二互补链中的至少一个的5’端、3’端或5’端和3’端两者，(iii)改变所述多核苷酸序列的至少一个核苷酸，或(iv)其组合。在一些实施方案中，修饰所述多核苷酸序列包括改变所述多核苷酸序列中的至少一个核苷酸，并且通过用亚硫酸氢盐处理实现改变所述多核苷酸序列中的至少一个核苷酸。在一些实施方案中，改变所述至少一种核苷酸改变了所述核苷酸的特性。

在一个方面，本公开内容提供了一种鉴定包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链具有5’端和3’端，所述方法包括：修饰单独的双链多核苷酸的第一互补链和第二互补链中的至少一个的多核苷酸序列，其中在修饰之后，源自共同双链多核苷酸的第一互补链和第二条互补链不是完美互补的；(b)对多个第一互补链和多个第二互补链或其扩增产物进行测序，以产生多个测序读数；(c)基于(i)相应3’端和5’端的序列和(ii)不是完美互补的所述相应的互补链的多核苷酸序列，从所述多个测序读数中，将给定第一互补链和给定第二互补链鉴定为源自共同双链多核苷酸；(d)比较所述共同双链多核苷酸的所述给定第一互补链和所述给定第二互补链的多核苷酸序列；以及(e)仅当源自所述共同双链多核苷酸的所述给定第二互补链包含序列差异的互补体时，将所述给定第一互补链中相对于参考序列的所述序列差异判定为所述序列变体。

在一个方面，本公开内容提供了一种鉴定包含多个双链多核苷酸的核酸样品中互补链的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：(a)通过添加一个或多个预定核苷酸延伸所述互补链的3’端以产生延伸的多核苷酸；(b)扩增所述延伸的多核苷酸；(c)对所述扩增的多核苷酸进行测序；以及(d)基于相应3’端和5’端的序列，将互补链鉴定为源自相同双链多核苷酸。在一个方面，本公开内容提供了一种鉴定包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端。在一些实施方案中，所述方法包括(a)通过添加一个或多个预定核苷酸延伸所述互补链的3’端以产生延伸的多核苷酸；(b)扩增所述延伸的多核苷酸；(c)对所述扩增的多核苷酸进行测序；(d)基于所述相应3’端和5’端的序列，将互补链鉴定为源自相同双链多核苷酸；(e)基于所述一个或多个预定核苷酸比较所述相同双链多核苷酸的所述第一互补链和所述第二互补链的序列；以及(f)仅当所述相应的第二互补链包含序列差异的互补体时，才将所述第一互补链中相对于参考序列的所述序列差异判定为所述序列变体。在一些实施方案中，所述方法进一步包括基于通过不同数目的预定核苷酸延伸相应3’端，将两条第一互补链或两条第二互补链鉴定为源自不同双链多核苷酸。在一些实施方案中，所述方法进一步包括将衔接子多核苷酸连接至以下的3’端：(i)所述双链多核苷酸的一条或两条链；或(ii)所述延伸的多核苷酸；并任选地使所述衔接子连接的多核苷酸环化。在一些实施方案中，扩增所述延伸的多核苷酸的步骤包括延伸与所述衔接子多核苷酸杂交的引物。在一些实施方案中，在所述扩增步骤之前，使所述延伸的多核苷酸环化以产生环状多核苷酸。在一些实施方案中，通过使所述延伸的多核苷酸经受连接反应来实现环化。在一些实施方案中，在环化之前，使所述延伸的多核苷酸变性以形成单链多核苷酸。在一些实施方案中，扩增产生线性多联体，并且每个多联体包含相应的环状多核苷酸或其互补体的两个或更多个拷贝。在一些实施方案中，所述方法进一步包括仅当(a)在所述多联体的超过一个拷贝中发生相同的序列差异和/或(b)在具有3’端和5’端的不同组合的一个或多个双链多核苷酸中发生相同的序列差异时，才将所述序列差异判定为所述序列变体。在一些实施方案中，所述扩增包括滚环扩增。在一些实施方案中，所述扩增包括延伸随机引物。在一些实施方案中，所述扩增包括延伸对靶序列具有特异性的一种或多种引物。在一些实施方案中，所述引物包含标签序列、测序引物结合序列或两者。在一些实施方案中，所述预定核苷酸是腺嘌呤核苷酸，并且延伸所述3’端包括将一个或多个所述腺嘌呤核苷酸添加至所述3’端。

在一个方面，本公开内容提供了用于本文所述的任何方法的系统，包括用于执行方法的一个或多个步骤的单元的系统。在一个方面，本公开内容提供了一种用于鉴定包含多个双链多核苷酸的核酸样品中的序列变体的系统，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端。在一些实施方案中，所述系统包括：(a)计算机，其被配置为接收对样品进行检测反应的用户请求；(b)扩增单元，其响应于所述用户请求对所述样品或其一部分进行核酸扩增反应，其中所述扩增反应包括以下步骤：(i)通过添加一个或多个预定核苷酸延伸所述互补链的3’端以产生延伸的多核苷酸；以及(ii)扩增所述延伸的多核苷酸；(c)测序单元，其(i)生成扩增的多核苷酸的测序读数；(ii)鉴定测序读数与参考序列之间的差异；并且(iii)仅当所述相应的第二互补链包含序列差异的互补体时，将所述第一互补链中相对于参考序列的所述序列差异判定为所述序列变体；(d)向接收方发送报告的报告生成器，其中所述报告包括序列变体的结果。在一些实施方案中，所述扩增反应进一步包括将衔接子多核苷酸连接至以下的3’端：(i)所述双链多核苷酸的一条或两条链；或(ii)所述延伸的多核苷酸；并任选地使所述衔接子连接的多核苷酸环化。在一些实施方案中，在所述扩增步骤之前，使所述延伸的多核苷酸环化以产生环状多核苷酸。在一些实施方案中，通过使所述延伸的多核苷酸经受连接反应来实现所述环化。在一些实施方案中，在环化之前，使所述延伸的多核苷酸变性以形成单链多核苷酸。在一些实施方案中，扩增产生线性多联体，并且每个多联体包含相应的环状多核苷酸或其互补体的两个或更多个拷贝。在一些实施方案中，仅当：(a)在所述多联体的超过一个拷贝中发生相同的序列差异和/或(b)在具有3’端和5’端的不同组合的一个或多个双链多核苷酸中发生相同的序列差异时，才将所述序列差异判定为所述序列变体。在一些实施方案中，所述扩增包括滚环扩增。在一些实施方案中，所述扩增包括延伸随机引物。在一些实施方案中，所述扩增包括延伸对靶序列具有特异性的一种或多种引物。在一些实施方案中，所述引物包括标签序列、测序引物结合序列或两者。在一些实施方案中，所述预定核苷酸是腺嘌呤核苷酸，并且延伸所述3’端包括将一个或多个所述腺嘌呤核苷酸添加至所述3’端。

在一个方面，本公开内容提供了包含代码的计算机可读介质，所述代码在由一个或多个处理器执行时实施本文所述的一种或多种方法，如检测包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一和第二互补链，每个互补链都具有5’端和3’端，在一些实施方案中，通过所述计算机可读介质执行的所述方法包括：(a)响应于用户请求，进行测序反应以生成在扩增反应中扩增的多核苷酸的测序读数，其中所述扩增反应包括以下步骤：(i)通过添加一个或多个预定核苷酸延伸所述互补链的3’端以产生延伸的多核苷酸；以及(ii)扩增所述延伸的多核苷酸；(b)进行测序分析，所述测序分析包括以下步骤：(i)基于所述相应3’端和5’端的序列，将互补链鉴定为源自相同双链多核苷酸；(ii)基于所述一个或多个预定核苷酸比较所述相同双链多核苷酸的所述第一互补链和所述第二互补链的序列；以及(iii)仅当所述相应的第二互补链包含序列差异的互补体时，才将所述第一互补链中相对于参考序列的所述序列差异判定为所述序列变体；以及(c)生成包含检测所述序列变体的结果的报告。

在一个方面，本公开内容提供了一种确定样品中遗传基因座的拷贝数的方法，所述样品包含多个包含遗传基因座的靶多核苷酸，每个靶多核苷酸都具有5’端和3’端。在一些实施方案中，所述方法包括：(a)通过添加一个或多个预定核苷酸延伸所述靶多核苷酸的3’端以产生延伸的多核苷酸；(b)扩增所述延伸的多核苷酸；(c)对所述扩增的多核苷酸进行测序；(d)当下列一个或多个的相应序列不同时，将包含所述遗传基因座的一个或多个不同多核苷酸鉴定为源自不同靶多核苷酸：(i)所述5’端或其互补体对齐的参考序列；(ii)所述3’端或其互补体对齐的参考序列；和(iii)所述3’端延伸；以及(e)对包含所述遗传基因座的不同多核苷酸的数目进行计数，以获得所述遗传基因座的拷贝数。在一些实施方案中，所述扩增步骤包括延伸具有独特的分子标签的引物，并且进一步地其中当下列一个或多个的相应序列不同时，将包含所述遗传基因座的不同多核苷酸鉴定为源自不同靶多核苷酸：(i)所述5’端或其互补体对齐的参考序列；(ii)所述3’端或其互补体对齐的参考序列；(iii)所述3’端延伸；以及(iv)所述独特的分子标签。在一些实施方案中，所述靶多核苷酸是双链多核苷酸，并且所述方法进一步包括基于所述一个或多个预定核苷酸比较所述相同双链多核苷酸的第一互补链和第二互补链的序列。在一些实施方案中，所述方法进一步包括将衔接子多核苷酸连接至以下的3’端：(i)所述双链多核苷酸的一条或两条链；或(ii)所述延伸的多核苷酸；并任选地使所述衔接子连接的多核苷酸环化。在一些实施方案中，在所述扩增步骤之前，使所述延伸的多核苷酸环化以产生环状多核苷酸。在一些实施方案中，通过使所述延伸的多核苷酸经受连接反应来实现环化。在一些实施方案中，在环化之前，使所述延伸的多核苷酸变性以形成单链多核苷酸。在一些实施方案中，扩增产生线性多联体，并且每个多联体包含相应的环状多核苷酸或其互补体的两个或更多个拷贝。在一些实施方案中，所述扩增包括滚环扩增。在一些实施方案中，所述扩增包括延伸随机引物。在一些实施方案中，所述扩增包括延伸对靶序列具有特异性的一种或多种引物。在一些实施方案中，所述引物包含标签序列、测序引物结合序列或两者。在一些实施方案中，所述预定核苷酸是腺嘌呤核苷酸，并且延伸所述3’端包括将一个或多个所述腺嘌呤核苷酸添加至所述3’端。

在一个方面，本公开内容提供了一种鉴定样品中遗传基因座的序列变体的方法，所述样品包含多个含有所述遗传基因座的靶多核苷酸，每个靶多核苷酸都具有5’端和3’端。在一些实施方案中，所述方法包括：(a)通过添加一个或多个预定核苷酸延伸靶多核苷酸的3’端以产生延伸的多核苷酸；(b)扩增所述延伸的多核苷酸；(c)对所述扩增的多核苷酸进行测序以产生测序读数；(d)基于相应的一个或多个预定核苷酸的序列，通过核苷酸变化的类型鉴定相对于参考序列的序列变化；(e)确定所述遗传基因座处鉴定的序列变化类型的频率；以及(f)当所述核苷酸变化类型的频率高于该类型核苷酸变化的背景水平时，将所述序列变化判定为所述序列变体。在一些实施方案中，所述方法进一步包括将衔接子多核苷酸连接至以下的3’端：(i)所述双链多核苷酸的一条或两条链；或(ii)所述延伸的多核苷酸；并任选地使所述衔接子连接的多核苷酸环化。在一些实施方案中，在所述扩增步骤之前，使所述延伸的多核苷酸环化以产生环状多核苷酸。在一些实施方案中，通过使所述延伸的多核苷酸经受连接反应来实现环化。在一些实施方案中，在环化之前，使所述延伸的多核苷酸变性以形成单链多核苷酸。在一些实施方案中，扩增产生线性多联体，并且每个多联体包含相应的环状多核苷酸或其互补体的两个或更多个拷贝。在一些实施方案中，所述扩增包括滚环扩增。在一些实施方案中，所述扩增包括延伸随机引物。在一些实施方案中，所述扩增包括延伸对靶序列具有特异性的一种或多种引物。在一些实施方案中，所述引物包含标签序列、测序引物结合序列或两者。在一些实施方案中，所述预定核苷酸是腺嘌呤核苷酸，并且延伸所述3’端包括将一个或多个所述腺嘌呤核苷酸添加至所述3’端。在一些实施方案中，将C→T转换与所述遗传基因座处的G→A转换区分开。

在一个方面，本公开内容提供了可用于本公开内容的一种或多种方法或由其制备的组合物。在一个方面，本公开内容提供了一种包含多对单链环状多核苷酸的核酸组合物；其中(a)一对单链环状多核苷酸中的每条链由第一部分和第二部分组成；(b)一对单链环状多核苷酸中的所述第一部分共享100％的序列互补性；(c)一对单链环状多核苷酸中的所述第二部分不是互补的；以及(d)所述第二部分由通过一个或多个预定核苷酸的3’端延伸组成。在一些实施方案中，所述组合物包含至少10000对单链环状多核苷酸(例如至少50000、100000、500000或1000000对)，每对单链环状多核苷酸包含不同的第一部分序列。在一些实施方案中，少于50％(例如，少于25％、10％、5％或1％)的单链环状多核苷酸与存在于所述组合物中的另一种单链环状多核苷酸100％互补。在一些实施方案中，所述第一部分比所述第二部分长。在一些实施方案中，所述第一部分包含无细胞多核苷酸。在一些实施方案中，所述预定核苷酸由单一类型的核苷酸组成。在一些实施方案中，所述3’端延伸由单个预定核苷酸组成。

在一个方面，本公开内容提供了一种鉴定多核苷酸的互补链的方法，该方法包括以下步骤：(a)通过所述多核苷酸的一个或多个预定核苷酸3’端延伸；(b)扩增所述延伸的多核苷酸的单独的链；(c)对所述延伸的多核苷酸的所述扩增的单独的链进行测序；以及(d)通过与一个或多个预定核苷酸相邻的3’序列和/或5’序列的同一性鉴定具有互补链的延伸的多核苷酸。在一些实施方案中，所述鉴定步骤包括通过添加至所述3’端的所述一个或多个预定核苷酸的数目鉴定具有互补链的延伸的多核苷酸。在一些实施方案中，所述扩增步骤包括将具有引物结合位点或其互补体的衔接子连接至所述延伸的多核苷酸的所述单独的链的末端并进行聚合酶链反应。在一些实施方案中，所述扩增步骤包括使所述多核苷酸的所述单独的链环化以形成单链多核苷酸环，所述一个或多个预定核苷酸在每个单链多核苷酸环中限定所述多核苷酸的3’序列与5’序列之间的边界，并且通过滚环复制扩增所述单链多核苷酸环形成所述单链多核苷酸环的多联体；并且其中所述鉴定步骤包括通过与所述一个或多个预定核苷酸相邻的3’序列和5’序列的同一性鉴定含有多核苷酸互补链的多联体。

在一个方面，本公开内容提供了一种鉴定多核苷酸的互补链的方法，该方法包括以下步骤：(a)通过所述多核苷酸的一个或多个预定核苷酸3’端延伸；(b)使所述多核苷酸的单独的链环化以形成单链多核苷酸环，所述一个或多个预定核苷酸限定每个单链多核苷酸环的3’序列与5’序列之间的边界；(c)通过滚环复制扩增所述单链多核苷酸环以形成所述单链多核苷酸环的多联体；以及(d)通过与所述一个或多个预定核苷酸相邻的3’序列和5’序列的同一性鉴定含有多核苷酸的互补链的多联体。在一些实施方案中，所述一个或多个预定核苷酸是多个预定核苷酸。在一些实施方案中，所述方法进一步包括将独特的分子标签附接至所述多联体的每一个，并通过所述独特的分子标签的同一性和与所述一个或多个预定核苷酸相邻的3’序列和5’序列的同一性鉴定含有所述多核苷酸的互补链的多联体的步骤。在一些实施方案中，所述鉴定步骤包括(a)将反向引物退火至所述多联体，并延伸所述反向引物以形成双链测序模板，以及(b)对所述双链测序模板进行测序。

在一个方面，本公开内容提供了一种鉴定样品中遗传基因座处的序列变体的方法，所述样品包含含有所述遗传基因座的多核苷酸，其中所述方法包括以下步骤：(a)通过所述多核苷酸的一个或多个预定核苷酸3’端延伸；(b)使所述多核苷酸的单独的链环化以形成单链多核苷酸环，所述一个或多个预定核苷酸限定每个单链多核苷酸环的3’序列与5’序列之间的边界；(c)通过滚环复制扩增所述单链多核苷酸环以形成多联体；(d)对所述多联体进行测序；(e)通过与所述一个或多个预定核苷酸相邻的3’序列和5’序列的同一性鉴定含有多核苷酸的互补链的多联体对；以及(f)从包含所述相同多核苷酸的互补链的所述多联体对的序列确定所述遗传基因座的所述序列。在一些实施方案中，所述一种或多种预定核苷酸是多个预定核苷酸。在一些实施方案中，所述确定步骤包括每当所述遗传基因座的序列位置处的核苷酸或其所述反向互补体在所述多联体对的每个多联体中相同时，鉴定位于该位置处的核苷酸。在一些实施方案中，所述确定步骤包括每当所述遗传基因座的序列位置处的核苷酸或其所述反向互补体在所述多联体对的大多数多联体中相同时，鉴定位于该位置处的核苷酸。

在一个方面，本公开内容提供了一种确定包含含有遗传基因座的多核苷酸的样品中所述遗传基因座的拷贝数的方法，其中所述方法包括以下步骤：(a)通过所述多核苷酸的一个或多个预定核苷酸3’端延伸；(b)使所述多核苷酸的单独的链环化以形成单链多核苷酸环，所述一个或多个预定核苷酸限定每个单链多核苷酸环的3’序列与5’序列之间的边界；(c)通过用每个包含独特分子标签的引物的滚环复制来扩增所述单链多核苷酸环，以形成每个包含独特分子标签的多联体；(d)对所述多联体进行测序；(e)通过与所述一个或多个预定核苷酸相邻的3’序列和5’序列的同一性鉴定含有多核苷酸的互补链的多联体对；(f)从包含所述相同多核苷酸的互补链的多联体对的所述序列确定所述遗传基因座和分子标签的序列；以及(g)对附接至包含所述遗传基因座的多核苷酸的多个不同分子标签数目进行计数，以获得所述遗传基因座的拷贝数。

在一个方面，本公开内容提供了一种通过以下步骤鉴定由多核苷酸携带的遗传基因座处的遗传变体的方法：(a)通过所述多核苷酸的一个或多个预定核苷酸3’端延伸；(b)使所述多核苷酸的单独的链环化以形成单链多核苷酸环，所述一个或多个预定核苷酸限定每个单链多核苷酸环中的所述多核苷酸的3’序列与5’序列之间的边界；(c)通过滚环复制扩增所述单链多核苷酸环以形成所述单链多核苷酸环的多联体；(d)通过与所述一个或多个预定核苷酸相邻的3’序列和5’序列的同一性鉴定含有多核苷酸的互补链的多联体，并且鉴定所述遗传基因座处的每条链的核苷酸；以及(e)从所鉴定的多联体中确定所述遗传基因座处的核苷酸的频率以用于鉴定所述遗传变体。在一些实施方案中，所述方法用于区分遗传变体和核苷酸损伤，其中所述方法进一步包括每当显示所述核苷酸的链的频率以预定因子超过具有产生所述相同核苷酸的核苷酸损伤的链的基线频率时，将其频率被确定的所述核苷酸判定为遗传变体的步骤。在一些实施方案中，所述预定因子对应于至少百分之九十五的置信水平。在一些实施方案中，将C→T转换与所述遗传基因座处的G→A转换区分开。

在一个方面，本公开内容提供了一种鉴定包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：(a)在多个反应体积中提供多个环状单链多核苷酸，其中单独的反应体积仅包含通过连接第一互补链的所述5’端和所述3’端或第二互补链的所述5’端和所述3’端形成的一个环状单链多核苷酸，其中所述一个环状单链多核苷酸具有通过所述连接形成的接点序列，并且其中第一互补链和第二互补链的至少一个的多核苷酸序列已被修饰为使得源自共同双链多核苷酸的第一互补链和第二互补链不是完美互补的；(b)对所述多个环状单链多核苷酸或其扩增产物进行测序，以产生多个测序读数；(c)如果(i)给定第一互补链包含与给定第二互补链的接点序列互补的接点序列并且(ii)所述相应的互补链的多核苷酸序列不是完美互补的，则从所述多个测序读数中，将所述给定第一互补链和所述给定第二互补链鉴定为源自共同双链多核苷酸；以及(d)仅当源自所述共同双链多核苷酸的相应的给定第二互补链包含序列差异的互补体时，将所述给定第一互补链中相对于参考序列的所述序列差异判定为所述序列变体。在一些实施方案中，源自共同双链核苷酸的第一互补链和第二互补链中的至少一个的所述多核苷酸序列通过以下进行修饰：(i)通过添加一个或多个预定核苷酸延伸所述第一互补链和所述第二互补链中的至少一个的3’端，(ii)将具有预定义的多核苷酸序列的多核苷酸附接(例如通过连接)至所述第一互补链和所述第二互补链中的至少一个的5’端、3’端或5’端和3’端两者，(iii)改变所述多核苷酸序列的至少一个核苷酸，或(iv)其组合。在一些实施方案中，如前所述，修饰所述多核苷酸序列包括改变所述多核苷酸序列中的至少一个核苷酸，并且通过用亚硫酸氢盐处理实现改变所述多核苷酸序列中的至少一个核苷酸。

在一个方面，本公开内容提供了一种鉴定包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链具有5’端和3’端，所述方法包括：(a)在多个反应体积中提供多个环状单链多核苷酸，其中单独的反应体积仅包含通过连接第一互补链的所述5’端和所述3’端或第二互补链的所述5’端和所述3’端形成的一个环状单链多核苷酸，其中所述一个环状单链多核苷酸具有通过所述连接形成的接点序列；(b)在多个反应体积中，使用一对正向和反向链标记引物进行引物延伸反应，所述对中的至少一个包含链鉴定标签，以产生多个链标记的线性双链多联体，每个链标记的线性双链多联体包含链鉴定标签序列，其中所述链鉴定标签序列对于给定反应体积中的环状单链多核苷酸是独特的；(c)对所述多个链标记的线性双链多联体进行测序以产生多个测序读数；(d)如果(i)给定第一互补链包含与给定第二互补链的接点序列互补的接点序列，并且(ii)给定第一互补链包含与第二互补链不同的链鉴定标签序列，则从所述多个测序读数中，将所述给定第一互补链和所述给定第二互补链鉴定为源自共同双链多核苷酸；(e)仅当源自所述共同双链多核苷酸的相应的给定第二互补链包含序列差异的互补体时，将所述给定第一互补链中相对于参考序列的所述序列差异判定为所述序列变体。在一些实施方案中，在(a)中，连接所述第一互补链的所述5’端和所述3’端或所述第二互补链的所述5’端和所述3’端包括将所述5’端连接到所述3’端。

在一些实施方案中，(b)中的所述引物延伸反应包含滚环复制、聚合酶链反应或其组合。在一些实施方案中，(b)中的引物延伸反应包括：使用一对正向和反向扩增引物进行滚环复制以产生包含共同序列的多个线性双链多联体，其中所述一对正向和反向扩增引物中的每一个包含(i)在3’端处与环状单链多核苷酸序列或其互补体互补的靶特异性序列，和(ii)在5’端处与环状单链多核苷酸序列或其互补体不互补的共同序列，以及使用所述一对正向和反向链标记引物进行聚合酶链反应以产生所述多个链标记的线性双链多联体，其中(i)所述一对正向和反向链标记引物中的每一个包含在3’端处与包含所述共同序列的线性双链多联体的单独的链杂交的共同序列，和(ii)所述一对正向和反向链标记引物中的至少一个包含5’端处的所述链鉴定标签。在一些实施方案中，(b)中的所述引物延伸反应包括使用所述一对正向和反向链标记引物进行滚环复制，以产生所述多个链标记的线性双链多联体，其中所述一对正向和反向链标记引物中的每一个包含(i)在3’端处与环状单链多核苷酸序列或其互补体互补的靶特异性序列，以及(ii)在5’端处与所述环状单链多核苷酸或其互补体不互补的共同序列。在一些实施方案中，(b)中的所述引物延伸反应进一步包括使用一对正向和反向扩增引物的聚合酶链反应，以产生包含另外的链标记的线性双链多联体的扩增产物，其中所述一对正向和反向扩增引物中的每一个包含在3’端处与链标记的双链线性多联体的单独的链杂交的所述共同序列。

在一些实施方案中，所述一对正向和反向链标记引物中的至少一个进一步包含扩增引物结合序列、测序引物结合序列或其组合。在一些实施方案中，所述一对正向和反向扩增引物中的至少一个进一步包含扩增引物结合序列、测序引物结合序列或其组合。

在一些实施方案中，所述多个链标记的线性双链多联体的单独的链标记的线性双链多联体包含所述相应的环状单链多核苷酸的两个或更多个拷贝。在一些实施方案中，所述方法进一步包括仅当在所述线性多联体的至少一个拷贝中发生相同的序列差异时，才将所述序列差异判定为所述序列变体。

在一些实施方案中，所述方法进一步包括仅当在具有在3’端和5’端的不同组合的至少两个双链多核苷酸中发生相同的序列差异时，才将所述序列差异判定为所述序列变体。

在一些实施方案中，所述多个双链核苷酸包含无细胞多核苷酸。在一些实施方案中，所述多个双链核苷酸包含无细胞DNA。在一些实施方案中，所述多个双链核苷酸包含循环肿瘤DNA。

在一些实施方案中，所述多个反应体积包括多个PCR管、微流体室或液滴。

在一个方面，本公开内容提供了一种鉴定包含多个双链多核苷酸的核酸样品中互补链的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：(a)在多个反应体积中提供多个单链多核苷酸，其中单独的反应体积仅含有一个包含双链多核苷酸的第一互补链或第二互补链的单链多核苷酸；(b)在多个反应体积中，修饰单链多核苷酸的多核苷酸序列，其中在所述修饰之后，源自共同双链多核苷酸的第一互补链和第二互补链不是完美互补的；(c)对单链多核苷酸或其扩增产物进行测序，以产生多个测序读数；(d)基于(i)所述相应3’端和5’端的序列以及(ii)不是完美互补的所述相应的互补链的多核苷酸序列，从所述多个测序读数中，将给定第一互补链和给定第二互补链鉴定为源自共同双链多核苷酸。

在一个方面，本公开内容提供了一种鉴定包含多个双链多核苷酸的核酸样品中互补链的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个链具有5’端和3’端，所述方法包括：(a)在多个反应体积中提供多个单链多核苷酸，其中单独的反应体积仅含有一个包含所述核酸样品中的双链多核苷酸的第一互补链或第二互补链的单链多核苷酸；其中所述仅一个单链多核苷酸的多核苷酸序列已被修饰为使得源自共同双链多核苷酸的第一互补链和第二互补链不再完美互补；(b)对多个单链多核苷酸或其扩增产物进行测序，以产多个测序读数；(c)基于(i)所述相应3’端和5’端的序列以及(ii)不是完美互补的所述相应的互补链的多核苷酸序列，从所述多个测序读数中，将给定第一互补链和给定第二互补链鉴定为源自共同双链多核苷酸。

在一个方面，本公开内容提供了一种鉴定包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链具有5’端和3’端，所述方法包括：(a)在多个反应体积中提供多个单链多核苷酸，其中单独的反应体积仅含有一个包含双链多核苷酸的第一互补链或第二互补链的单链多核苷酸；(b)在多个反应体积中，修饰单链多核苷酸的多核苷酸序列，其中在所述修饰之后，源自共同双链多核苷酸的第一互补链和第二互补链不是完美互补的；(c)对单链多核苷酸或其扩增产物进行测序，以产生多个测序读数；(d)基于(i)所述相应3’端和5’端的序列以及(ii)不是完美互补的所述相应的互补连的多核苷酸序列，从所述多个测序读数中，将给定第一互补链和给定第二互补链鉴定为源自共同双链多核苷酸；(e)比较源自所述共同双链核苷酸的所述给定第一互补链和所述给定第二互补链的多核苷酸序列，以及(f)仅当源自所述共同双链多核苷酸的相应的给定第二互补链包含序列差异的互补体时，将所述给定第一互补链中相对于参考序列的所述序列差异判定为所述序列变体。

在一个方面，本公开内容提供了一种鉴定包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：(a)在多个反应体积中提供多个单链多核苷酸，其中单独的反应体积仅含有一个包含双链多核苷酸的第一互补链或第二互补链的单链多核苷酸；其中所述仅一个单链多核苷酸的多核苷酸序列已被修饰为使得源自共同双链多核苷酸的第一互补链和第二互补链不再是完美互补的；(b)对多个单链多核苷酸或其扩增产物进行测序，以产生多个测序读数；(c)基于(i)所述相应3’端和5’端的序列以及(ii)不是完美互补的所述相应的互补链的多核苷酸序列，从所述多个测序读数中，将给定第一互补链和给定第二互补链鉴定为源自共同双链多核苷酸；(d)比较源自所述共同双链核苷酸的所述给定第一互补链和所述给定第二互补链的多核苷酸序列，以及(e)仅当源自共同双链多核苷酸的相应的给定第二互补链包含序列差异的互补体时，将所述给定第一互补链中相对于参考序列的所述序列差异判定为所述序列变体。

在一个方面，本公开内容提供了一种鉴定包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：(a)在多个反应体积中提供多个单链多核苷酸，其中单独的反应体积仅含有一个包含双链多核苷酸的第一互补链或第二互补链的单链多核苷酸；(b)在多个反应体积中，进行扩增反应以产生多种扩增产物，其中所述扩增反应包括：(i)对于给定反应体积，首先使所述单链多核苷酸环化以产生环状单链多核苷酸，其中所述环状单链多核苷酸具有通过将所述单链多核苷酸的所述5’端连接至3’端形成的接点序列，其次，使用一对正向和反向链标记引物进行引物延伸反应，所述一对正向和反向链标记引物中的至少一个包含链鉴定标签，以产生多种扩增产物，其中所述扩增产物包含链标记的线性双链多联体，每个链标记的线性双链多联体包含链鉴定标签序列，其中所述链鉴定标签序列对于所述给定反应体积中的所述单链多核苷酸是独特的；或者(ii)对于给定反应体积，首先将至少一个衔接子附接至所述单链多核苷酸以产生链标记的单链多核苷酸，其中所述至少一个衔接子包含链鉴定标签序列，其中所述链鉴定标签序列对于所述给定反应体积中的所述单链多核苷酸是独特的，其次，进行引物延伸反应以产生包含链标记的双链多核苷酸的多个扩增产物；(c)对所述扩增产物进行测序以产生多个测序读数；(d)基于(i)所述相应3’端和5’端的序列和(ii)不是完美互补的所述相应的互补链的多核苷酸序列，从所述多个测序读数中，将给定第一互补链和给定第二互补链鉴定为源自共同双链多核苷酸；(e)比较源自所述共同双链多核苷酸的所述给定第一互补链和所述给定第二互补链的多核苷酸序列；以及(f)仅当源自所述共同双链多核苷酸的相应的给定第二互补链包含序列差异的互补体时，将所述给定第一互补链中相对于参考序列的所述序列差异判定为所述序列变体。

在前述方面的各种实施方案中，单独的链标记的线性双链多联体包含所述相应的单链多核苷酸(例如，环状单链多核苷酸)的两个或更多个拷贝。在一些实施方案中，所述方法进一步包括仅当在所述线性多联体的至少一个拷贝中发生相同的序列差异时，才将所述序列差异判定为所述序列变体。

在前述方面的各种实施方案中，所述方法进一步包括仅当在具有3’端和5’端的不同组合或连接5’和3’端形成的接点序列的至少两个双链多核苷酸中发生相同的序列差异时，才将所述序列差异判定为所述序列变体。

在前述方面的各种实施方案中，所述核酸样品包含无细胞多核苷酸，其非限制性实例包括无细胞DNA、无细胞RNA和循环肿瘤DNA。在一些实施方案中，所述核酸样品包含基因组DNA。

在前述方面的各种实施方案中，所述多个反应体积包括多个PCR管、微流体室或液滴。

在多个示出的实施和应用中举例说明了本公开内容的上述特征方面以及其他方面，其中一些实施和应用在附图中示出并且在随后的权利要求部分中进行表征。然而，上述发明内容并非旨在描述本发明的每个所示实施方案或每种实施。

附图说明

图1A-图1H图示了本发明的各种实施方案的步骤。

图2A-图2B图示了其中靶多核苷酸包括单链多核苷酸的实施方案。

图3图示了本发明采用PCR扩增的实施方案的步骤。

图4图示了两个双链多核苷酸(401)和(402)的实例，该两个双链多核苷酸(401)和(402)具有原始5’和3’端的相同组合(由虚线表示)，但是通过它们各自的3’端得以延伸的预定核苷酸(在这种情况下，腺嘌呤核苷酸)数目的差异使得彼此可区分。

图5A-图5D图示了其中使用链标记序列鉴定双链多核苷酸的两条链的实施方案。

图6提供了实施例1和2中使用的合成测试DNA构建体的示意图。

具体实施方式

除非另有说明，否则本公开内容的各个方面和实施方案的实践可以采用本领域的技术范围内的有机化学、分子生物学(包括重组技术)、细胞生物学和生物化学的常规技术和描述。这些常规技术包括但不限于合成肽、合成多核苷酸、单克隆抗体、核酸克隆、扩增、测序和分析以及相关技术的制备和使用。在本文提供的实施例中提供了合适的技术的具体说明。但是，也可以使用其他等同的常规程序。这些常规技术和描述可以在标准实验室手册中找到，如Genome Analysis:A Laboratory Manual Series(第I-IV卷)；PCR Primer:ALaboratory Manual；以及Molecular Cloning:A Laboratory Manual(全部来自冷泉港实验室出版社)；Lutz和Bornscheuer编著,Protein Engineering Handbook(Wiley-VCH,2009)；Hermanson,Bioconjugate Techniques,第二版(Academic Press,2008)；等参考文献。

除非本文另有明确定义，否则本文使用的核酸化学、生物化学、遗传学和分子生物学的术语和符号遵循本领域的标准论文和文本的术语和符号，例如，Kornberg和Baker,DNAReplication,第二版(W.H.Freeman,New York,1992)；Lehninger,Biochemistry,第二版(Worth Publishers,New York,1975)；以及Strachan和Read,Human Molecular Genetics,第二版(Wiley-Liss,New York,1999)。

如本文所用，“扩增”通常是指由靶多核苷酸或其一部分形成一个或多个拷贝的任意过程。多种扩增多核苷酸(例如DNA和/或RNA)的方法是可用的，本文描述了这些方法的一些实例。扩增可以是线性的，指数式的，或在多阶段扩增过程中涉及线性和指数阶段。扩增方法可包括温度的改变，如热变性步骤，或者可以是不需要热变性的等温过程。

如本文所用，“多联体”通常是指包含连续多核苷酸的连接产物或扩增产物，在一个实施方案中，所述连续多核苷酸包含超过一个拷贝的靶多核苷酸序列(例如，超过1、2、3、4、5、6、7、8、9或10个拷贝的靶序列)。在一些实施方案中，多联体包含至少2个拷贝的靶多核苷酸序列。在一些实施方案中，多联体包含串联连接的多重拷贝或多个拷贝的靶多核苷酸序列。在一些实施方案中，另外的多核苷酸序列散布在多拷贝或多个拷贝的靶多核苷酸序列之间。

如本文所用，“延伸产物”通常是指通过共价添加核苷酸而延伸多核苷酸(例如核苷酸引物或靶多核苷酸)的反应产物。在一些情况下，核苷酸掺入可以由模板引导。在一些情况下，核苷酸掺入可以在没有模板的情况下进行。在一些情况下，延伸产物是诸如来自PCR扩增或滚环扩增(RCA)的扩增产物。

关于基因组或靶多核苷酸的“遗传基因座”或“基因座”是指基因组或靶多核苷酸的连续亚区或区段。如本文所用，遗传基因座或基因座可以指基因组中核苷酸、基因或基因的一部分(包括线粒体DNA)的位置，或者它可以指基因组序列的任何连续部分，无论其是否位于基因内或与基因相关。在一些实施方案中，遗传基因座是指长度为单个核苷酸到几百个核苷酸(例如100-300个)的区段的基因组序列的任何部分，包括线粒体DNA。在其他实施方案中，遗传基因座是指长度为单个核苷酸到几十个核苷酸(例如10-30)的区段的基因组序列的任何部分。在一些实施方案中，特定遗传基因座可以通过其核苷酸序列，或一个或两个相邻或侧翼区域的核苷酸序列或序列来鉴定。在一些实施方案中，遗传基因座可以是单核苷酸位置。在一些实施方案中，遗传基因座包含序列变体，或等同地，遗传变体。在这样的实施方案中，遗传基因座处的遗传变体可以是遗传基因座位置处的核苷酸，该核苷酸天然存在于群体中并且可以称为单核苷酸多态性或称为等位基因。在其他实施方案中，遗传基因座可包含相对于参考序列的一个或多个核苷酸的插入或一个或多个核苷酸的缺失。

通常，术语“试剂盒”是指用于递送实施本公开内容的方法的材料或试剂的任何递送系统。在反应试验的背景下，这样的递送系统包括允许反应试剂(例如，适当容器中的探针、酶等)和/或支持材料(例如，缓冲液，执行该试验等的书面说明书)从一个位置到另一个位置的的储存、运输或递送的系统。例如，试剂盒包括一个或多个含有相关反应试剂和/或支持材料的外壳(例如，盒子)。这样的内容物可以一起或单独地递送至预期的接收方。例如，第一容器可含有用于分析的酶，而第二容器含有探针。

“分子标签”或“条形码”(这些术语在本文中可互换使用)是指附接至多核苷酸并用于在反应中鉴定和/或追踪多核苷酸的寡核苷酸。在一些实施方案中，将分子标签附接至多核苷酸的3’或5’端以形成线性缀合物，有时在本文中称为“标记的多核苷酸”，或等同地称为“标签-多核苷酸缀合物”。分子标签的大小和组成可以大幅度变化。在一些实施方案中，分子标签可各自具有2至36个核苷酸或4至30个核苷酸或8至20个核苷酸的长度。在一些实施方案中，分子标签选自定义的组或谱系。在一些实施方案中，分子标签选自预定长度的随机序列寡核苷酸。

通常，术语“引物”是指天然或合成的寡核苷酸，其在与多核苷酸模板形成双链体时能够充当核酸合成的起始点并且从其3’端沿着模板延伸，以便形成延伸的双链体。在延伸过程中添加的核苷酸序列可以通过模板多核苷酸的序列确定。通常引物通过DNA聚合酶延伸。引物通常具有5至36个核苷酸的长度，但可以长于36个核苷酸或短于5个核苷酸。

“滚环扩增”或“RCA”和“滚环复制(RCR)”或“RCR”(同义地使用)是指将引物退火至环状核酸分子并在核苷三磷酸存在下通过核酸聚合酶延伸以产生含有环状DNA分子的互补序列的一个或多个拷贝(通常是多个拷贝)的延伸产物的过程。

“序列变体”是指相对于一个或多个参考序列的序列的任何变化。通常，对于参考序列已知的给定个体群体，序列变体以低于参考序列的频率发生。在一些情况下，参考序列是单个已知的参考序列，如单个个体的基因组序列。在一些情况下，参考序列是通过比对多个已知序列形成的共有序列，如用作参照群体的多个个体的基因组序列或来自相同个体的多核苷酸的多个测序读数。在一些情况下，序列变体在群体中以低频率发生(也称为“罕见”序列变体)。例如，序列变体可以以约或小于约5％、4％、3％、2％、1.5％、1％、0.75％、0.5％、0.25％、0.1％、0.075％、0.05％、0.04％、0.03％、0.02％、0.01％、0.005％、0.001％或更低的频率发生。在一些情况下，序列变体以约或低于约0.1％的频率发生。序列变体可以是关于参考序列的任何变化。序列变异可以由单个核苷酸或多个核苷酸(例如，2、3、4、5、6、7、8、9、10个或更多个核苷酸)的变化、插入或缺失组成。当序列变体包含两个或更多个核苷酸差异时，不同的核苷酸可以是彼此相邻近的，或不连续的。序列变体类型的非限制性实例包括单核苷酸多态性(SNP)、单核苷酸变体、缺失/插入多态性(DIP)、拷贝数变体(CNV)、短串联重复(STR)、简单序列重复(SSR)、可变数目串联重复(VNTR)、扩增片段长度多态性(AFLP)、基于反转录转座子的插入多态性、序列特异性扩增多态性和可检测为序列变体的表观遗传标记的差异(例如，甲基化差异)。在一些实施方案中，序列变体可以指染色体重排，包括但不限于易位或融合基因。

“末端转移酶”(TdT)是指模板独立的聚合酶，例如末端的脱氧核苷酸转移酶，其催化将脱氧核苷酸添加至DNA分子的3’羟基末端，例如加尾。突出的、凹陷的或平端的双链或单链DNA分子可以用作TdT的底物。在某些形式中，TdT是58.3kDa的酶，其不具有5’或3’外切核酸酶活性。对于一些TdT，在反应中添加Co2+使加尾更有效。对于一些TdT，将dNTP添加至3’OH突出端比使用3’OH凹陷或平端更有效。

通常，术语“预定核苷酸”是指已知类型的核苷酸，如在仅将单一类型的核苷酸添加至反应(例如加尾反应)的情况下。通过添加预定核苷酸延伸多核苷酸的3’端通常涉及将一个或多个预定核苷酸仅添加至延伸的多核苷酸的3’端，使得可以部分地基于与其附接的预定核苷酸的同一性来鉴定互补链。在一些情况下，预定核苷酸包含两种或更多种不同类型的核苷酸；然而，排除选自A、T、G或C的至少一种核苷酸类型，以便促进链鉴定(例如使用2或3种类型)。精确长度(并且在多种类型、顺序的情况下)不一定是预定的，并且可以在相同反应中的不同靶多核苷酸之间变化，甚至在双链分子的链之间变化。预定核苷酸可以选自天然存在的类型(例如A、T、G、C或U)或其类似物。因为延伸的组成是通过预定核苷酸，在构建共有序列时计算地忽略对应于添加的预定核苷酸的序列是可能的，特别是在基于与参考序列的比对鉴定靶多核苷酸的3’端的情况下。仍然可以评价在构建共有序列时忽略的序列的同一性和长度以用于区分链与相同的初始双链分子(例如，基于序列中核苷酸的类型与预定核苷酸的类型相比较)以及区分不同的初始靶多核苷酸分子(例如，基于添加的序列的长度差异)的目的。在一些实施方案中，通过末端脱氧核苷酸转移酶(TdT)或无核酸外切酶的核酸聚合酶的活性添加一个或多个预定核苷酸。在一些实施方案中，预定核苷酸不能通过连接而添加。

“互补性”是指核酸与另一核酸序列通过经典Watson-Crick碱基配对或其他非经典类型的方式形成氢键的能力。互补性百分比表示核酸分子中能够与第二核酸序列形成氢键(例如，Watson-Crick碱基配对)的残基的百分比(例如，10个中有5、6、7、8、9、10个分别为50％、60％、70％、80％、90％和100％互补)。“完美互补”是指核酸序列的所有相邻残基将与第二核酸序列中相同数目的相邻残基氢键键合。如本文所用，“基本上互补”是指互补性程度在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多个核苷酸的区域上至少为60％、65％、70％、75％、80％、85％、90％、95％、97％、98％、99％或100％，或者是指在严格条件下杂交的两个核酸。序列同一性，例如为了评估互补性百分比，可以通过任何合适的比对算法进行测量，包括但不限于Needleman-Wunsch算法(参见，例如，EMBOSS Needle比对器，可从www.ebi.ac.uk/Tools/psa/emboss_needle/nucleotide.html获得，任选地具有默认设置)、BLAST算法(参见，例如，BLAST比对工具，可从blast.ncbi.nlm.nih.gov/Blast.cgi获得，任选地具有默认设置)或者Smith-Waterman算法(参见，例如，EMBOSS Water比对器，可从www.ebi.ac.uk/Tools/psa/emboss_water/nucleotide.html获得，任选地具有默认设置)。最优算法可以使用所选定算法的任意合适的参数(包括默认参数)进行评估。

在一个方面，本公开内容提供了通过组合来自靶多核苷酸的互补链的序列信息来精确确定罕见序列变体的方法。在一些实施方案中，对靶双链多核苷酸的互补链中的一条或两条进行修饰，使得所得多核苷酸序列不再完美互补，并且通过其多核苷酸序列可单独鉴定。在一些实施方案中，基于5’和3’端处的序列将两条链鉴定为源自样品中的相同双链多核苷酸，并且其5’和3’端表明它们源自共同或相同的双链多核苷酸的两条链基于非互补多核苷酸序列彼此区分。

在一些实施方案中，通过将一个或多个预定核苷酸添加至靶多核苷酸的3’端以标记其互补链，可以清楚地标记互补链并使其可单独鉴定。根据一些实施方案，这样的核苷酸添加有助于随后与来自样品中源自相同靶多核苷酸的测序数据配对。在一些实施方案中，这样的核苷酸添加还在各自的环化后在每个靶多核苷酸链的末端之间产生明确限定的边界。也就是说，在一些实施方案中，靶多核苷酸在加尾反应中与一个或多个(并且在一些实施方案中，多个)预定核苷酸“加尾”。在一些实施方案中，具有预定义序列的多核苷酸例如通过连接附接至互补链的3’端、5’端或3’和5’端两者。在一些实施方案中，通过由连接5’和3’多核苷酸末端(例如，在环化后)形成的互补接点序列，将两条链鉴定为源自样品中的相同双链多核苷酸，并且通过链标记序列使两条链可鉴定。根据一些实施方案，通过连接测序数据中鉴定的5’和3’多核苷酸末端形成的接点序列可用于将测序读数鉴定为源自特定的双链输入或起始分子。在一些实施方案中，与单独的单链输入或起始分子独特相关的链标记序列可用于将测序读数区分为源自互补链的特定链。在另外的实施方案中，可以通过用含有条形码或分子标签的引物扩增环状多核苷酸来进一步减少扩增和测序错误(这些术语在本文中同义使用)。

如上所述，本公开内容的一个方面提供了通过包括以下步骤的方法鉴定靶多核苷酸的互补链：(a)通过所述多核苷酸的一个或多个预定核苷酸3’端延伸；(b)扩增所述延伸的多核苷酸的单独的链；(c)对所述延伸的多核苷酸的所述扩增的单独的链进行测序；以及(d)通过与一个或多个预定核苷酸相邻的3’序列和/或5’序列的同一性鉴定具有互补链的延伸的多核苷酸。

在一个方面，本公开内容提供了一种鉴定包含多个双链多核苷酸的核酸样品中互补链的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端。在一些实施方案中，所述方法包括：(a)修饰单独的双链多核苷酸的第一互补链和第二互补链中的至少一个，以产生多个修饰的第一互补链、多个修饰的第二互补链或其组合，其中在修饰之后，第一互补链的多核苷酸序列与相应的修饰的第一互补链的多核苷酸序列不同，并且第二互补链的多核苷酸序列与相应的修饰的第二互补链的多核苷酸序列不同；(b)对第一互补链、第二互补链、修饰的第一互补链、修饰的第二互补链或其扩增产物中的至少一些进行测序；以及(c)基于(i)相应3’端和5’端的序列和(ii)不完美互补的多核苷酸序列，将(i)给定第一互补链和给定修饰的第二互补链、(ii)给定修饰的第一互补链和给定第二互补链或(iii)给定修饰的第一互补链和给定修饰的第二互补链鉴定为源自共同双链多核苷酸。在一些实施方案中，修饰第一互补链和第二互补链中的至少一个包含(i)通过添加一个或多个预定核苷酸延伸3’端，(ii)例如通过连接将具有预定义序列的多核苷酸附接至5’端、3’端或5’和3’端两者，(iii)修饰第一互补链和第二互补链中至少一个的多核苷酸序列或(iv)其组合。在一些实施方案中，修饰第一互补链和第二互补链中的至少一个的多核苷酸序列包括使第一互补链和第二互补链中的至少一个经受亚硫酸氢盐处理。用亚硫酸氢钠处理变性的DNA(例如，单链DNA)通常导致未甲基化的胞嘧啶残基脱氨基化为尿嘧啶，使5-mC或5-hmC保持完整。当在随后的聚合酶链反应(PCR)中进行扩增时，尿嘧啶被扩增为胸腺嘧啶，而5-mC或5-hmC残基被扩增为胞嘧啶。在一些情况下，二硫化物处理后多核苷酸序列的差异可用于区分双链多核苷酸的互补链。

本公开内容的另一方面提供了从样品获得的靶多核苷酸的互补链的鉴定，其在一些实施方案中可以以包括以下步骤的方法进行实施：(a)通过多核苷酸的一个或多个预定核苷酸末端延伸；(b)使多核苷酸的单独的链环化以形成单链多核苷酸环，一个或多个预定核苷酸限定每个单链多核苷酸环的3’序列与5’序列之间的边界；(c)通过单链多核苷酸环的滚环复制(PCR)扩增以形成单链多核苷酸环的多联体；以及(d)通过与一个或多个预定核苷酸相邻的3’序列和5’序列的同一性鉴定含有多核苷酸的互补链的多联体。在一些实施方案中，延伸步骤通过用未模板化的3’核苷酸添加活性延伸靶多核苷酸的两条链的3’端来实现。在一些实施方案中，这样的3’核苷酸添加活性可以由末端脱氧核苷酸转移酶(TdT)或无核酸外切酶的核酸聚合酶提供。在一些实施方案中，所述一个或多个预定核苷酸是多个预定核苷酸。前述延伸步骤可以通过常规的延伸反应条件来实施，例如，使用制造商推荐的TdT或聚合酶的反应条件。在其他实施方案中，延伸步骤可以通过以双链形式连接多个预定核苷酸来实施，例如通过平端连接。在后一个实施方案中，可以在连接之前将靶多核苷酸磷酸化。

在一些实施方案中，在通过RCR扩增后，使用常规测序方法鉴定所得多联体的序列。这样的方法包括通过互补链合成和/或连接衔接子将多联体转化为双链形式，这可能是特定测序方法所需要的。在一些实施方案中，通过提供一个或多个反向引物来合成互补链，每个反向引物退火至拷贝的靶多核苷酸的特定位点并通过聚合酶延伸一个或多个反向引物，例如，在通过引用并入本文的Lin等人,国际专利公开WO2015/089333及其对应的美国申请中描述的方法中。

在一些实施方案中，延伸步骤在双链形式的靶多核苷酸上进行。在其他实施方案中，延伸步骤在单链形式的靶多核苷酸上进行，例如，在变性步骤后。在一些实施方案中，使靶多核苷酸的链环化的步骤可包括在环化之前使靶多核苷酸的两条链变性和/或分开的步骤。

根据一些实施方案，鉴定含有靶多核苷酸的互补链的多联体对的步骤通过对多联体进行测序并随后使用数据分析技术进行序列比较来实施，如下文更全面描述的。在具体的实施方案中，鉴定步骤包括附接测序引物结合位点(例如，经由衔接子连接、PCR或类似处理)以制备用于特定测序技术的多联体的步骤，下文将更全面地描述。

在图1A-图1H中提供了根据一些实施方案，特别是对于采用3’加尾反应的实施方案的方法的说明。图1A示出了样品的无细胞双链多核苷酸1、2、3……K(101)(例如，靶多核苷酸)，其每个无细胞双链多核苷酸含有由单个核苷酸组成的遗传基因座(100)，该遗传基因座可被“G”或罕见变体“A”占据。含有这类多核苷酸的样品可以是患者组织样品，如血液或血浆样品等。通常，参考序列(例如在人基因组数据库中)可用于比较多核苷酸序列。每个多核苷酸具有四个对应于每个末端的两条互补链的序列的序列区。因此，例如，图1A的靶多核苷酸1在链的每个末端具有序列区n1(110)和n2(112)，并且在互补链(120)的末端具有互补序列区n1’(116)和n2’(108)。尽管各种多核苷酸链的序列区被图示为链的小部分，但是序列区可以包含从链末端到遗传基因座(100)的整个区段。

向样品的靶多核苷酸添加3’加尾活性以及核酸单体和/或其他反应组分以实施用一个或多个A延伸3’端的加尾反应(125)。在该实施方案中，预定核苷酸的延伸显示为“A……A”以指示添加一个或多个核苷酸，但是添加至每条链的确切数目可能是不确定的(除非使用外切聚合酶，如下文所列)。通过“A……A”表示添加的核苷酸并非旨在将添加的核苷酸的种类仅限制为A。添加的核苷酸是预定的，在某种意义上加尾反应中使用的核苷酸前体的种类是已知的并且被选择作为试验设计选择。例如，考虑到所选择的核苷酸的种类，选择特定实施方案的一种预定核苷酸的因素可以是环化步骤的效率。在一些实施方案中，核苷酸前体可以是四种核苷酸中的任何一种的核苷三磷酸，或者单独地，以便产生均聚物尾，或者以混合物形式，以便产生双核苷酸或三核苷酸尾。在一些情况下，除了四种天然DNA碱基之外或代替四种天然DNA碱基，可以使用尿嘧啶和/或核苷酸类似物。在使用CircLigase^TM酶的一些实施方案中，预定核苷酸可以是A和/或T。在一些实施方案中，外切聚合酶用于加尾反应，并且仅将单个脱氧腺苷酸添加至3’端。

在加尾和任选地从反应混合物中分离反应产物之后，使用环化反应将单独的链环化，如图1B所示，以产生环(132)，每个环包含形式为“nj-A…A-nj+1”(133)的序列元素。在环化和任选地从反应混合物中分离环(132)之后，将引物(134)退火至环(132)的一个或多个引物结合位点，之后将它们延伸以产生每个包含它们相应的nj-A…A-nj+1序列元素的拷贝的多联体，如图1E所示。在测序之后，可以通过将序列元素组分nj和nj+1与它们相应的互补体nj’和nj+1’进行匹配来鉴定互补链，如(136)和(138)。在环(132)上选择引物结合位点是设计选择的问题，或者可以使用随机序列引物。在一些实施方案中，选择与遗传基因座(100)相邻的单个引物结合位点；在其他实施方案中，选择多个引物结合位点，每个引物结合位点用于单独的引物，以确保扩增，即使在一个引物结合位点中发生边界。在一些实施方案中，具有单独的引物结合位点的两个引物用于产生多联体。

在鉴定含有互补链的多联体对之后，可以比对多联体序列并且可以比较两条链的匹配位置处的碱基判定。在多联体对的一些位置处，如图1F中的(140)所示，在一对中的一个成员中的给定位置处判定的碱基可能不与在该对中的另一个成员上判定的碱基互补，这表明由于例如扩增错误、测序错误等进行了错误判定。在这种情况下，可以通过检查在多联体对内的其他拷贝的相应位置处的碱基判定来解决给定位置处的不确定性。例如，给定位置处的碱基判定可以被认为是对一对多联体中的单独的拷贝进行的碱基判定的共识或多数。用于进行此类测定的其他方法对于本领域普通技术人员而言是可用的，其可以代替这些方法或除了这些方法之外使用，以帮助当互补链之间的序列信息不互补时辅助解决碱基判定的工作。在一些情况下，在源自相同双链分子的互补链中特定位置的碱基(例如，如由3’和5’端序列所鉴定的)不是互补的，解决碱基判定有利于比较样品序列的参考序列，使得差异不被鉴定为关于这样的参考序列的真实序列变体。

在其他情况下，相同的错误可出现在多联体内的靶多核苷酸的每个拷贝中，如图1G中的(145)所示。这样的数据表明靶多核苷酸在扩增或测序之前被破坏。

在其他情况下，可以仅鉴定单个多联体；即，基于边界信息找不到匹配的多联体，例如，预定核苷酸区段的长度，相邻3’和5’端的序列等。这类情况在图2A和图2B中示出。在这种说明性实例中，靶多核苷酸(201)包含单链多核苷酸1和双链多核苷酸2，每个均包含遗传基因座(200)。预定核苷酸(例如，腺苷酸)可以在加尾反应(225)中附接至多核苷酸1和2两者，以形成3’加尾的多核苷酸(220)。如上所述，然后可以将多核苷酸(220)环化，通过RCA扩增，并对其进行测序以得到多联体序列(230)，如图2B所示。如果观察到的变异在DNA损伤中很常见，例如C到T或G到T，来自未配对的多联体的这样的信息仍然有助于确定它是否是真正的突变而不是DNA损伤。

在一些实施方案中，如图1C和图1D所示，可将每个含有分子标签的引物(例如MT1(150)、MT2等)退火至预定引物结合位点，以便产生每个具有独特标签的多联体。独特分子标签的存在将区分碰巧具有相同边界的单链环的产物，或nj-A……A-nj+1序列元素。这样的标签也可用于对分子进行计数以确定遗传基因座处的拷贝数变异，例如，根据在通过引用并入本文的Brenner等人,美国专利7,537,897等中描述的方法。在一些实施方案中，可以选择具有分子标签的引物，其仅在靶多核苷酸的一条链上具有结合位点，使得具有分子标签的多联体仅代表靶多核苷酸的两条链中的一条(如图1C所示)。在其他实施方案中，每个来自靶多核苷酸的互补链的环均可使用具有分子标签的引物扩增(如图1D中所示)。

在一些实施方案中，用于鉴定靶多核苷酸的互补链的上述步骤可以并入用于检测遗传基因座处的罕见变体的方法中。在一些实施方案中，所述方法包括以下步骤：(a)通过多核苷酸的一个或多个预定核苷酸3’端延伸；(b)使多核苷酸的单独的链环化以形成单链多核苷酸环，所述一个或多个预定核苷酸限定每个单链多核苷酸环的3’序列与5’序列之间的边界；(c)通过滚环复制(RCR)扩增单链多核苷酸环以形成多联体；(d)对多联体进行测序；(e)通过与一个或多个预定核苷酸相邻的3’序列和5’序列的同一性鉴定含有多核苷酸的互补链的多联体对；以及(f)从包含相同多核苷酸的互补链的所述多联体对的序列确定遗传基因座的序列。在其他实施方案中，通过RCR扩增单链环的步骤包括将具有5’-非互补加尾的引物退火至单链环，其中这样的引物在5’-非互补尾中包含独特分子标签并且根据RCR方案延伸这样的产物。得到的产物是含有独特分子标签的多联体，其可以与附接至来自相同基因座的环的其他分子标签一起计数，以提供基因座的拷贝数测量。

在一些实施方案中，延伸步骤可以通过在加尾反应中通过多核苷酸的一个或多个预定核苷酸3’端加尾来实施。在一些实施方案中，这样的加尾可以通过未模板化的3’核苷酸添加活性(如TdT活性、外切聚合酶活性等)来实施。

使用上述步骤，可以从多核苷酸序列中鉴定多联体序列。在大规模平行测序(也称为“下一代测序”或NGS)中，可以鉴定含有多联体的读数并用于进行错误校正和发现序列变体。原始输入分子的接点(例如，DNA/RNA序列的起始和结束)可以通过将其与参考序列比对而从多联体重建；并且接点可用于鉴定原始输入分子并去除测序重复以进行更准确的计数。可以通过将读数与参考序列比对并检查如图1A中所述的序列元素组分nj和nj+1来计算可包含多联体的每个读数的链同一性。在标记为互补链的两个多联体中发现的变体具有更高的统计置信水平，其可用于进行进一步的错误校正。使用链同一性的变体确认可以通过(但不限于)以下步骤进行：a)在具有互补链同一性的读数中发现的变体被认为是更确信的；b)携带变体的读数可通过其接点鉴定进行分组，当在具有相同接点鉴定的一组读数的读取中发现互补链同一性时，该变体被认为是更确信的；c)携带变体的读数可通过它们的分子条形码或分子条形码和接点鉴定的组合进行分组。当在具有相同分子条形码和/或接点鉴定的一组读数的读取中发现互补链同一性时，变体被认为是更确信的。

采用分子条形码和接点鉴定的错误校正可以单独地或者与先前步骤中描述的多联体测序的错误校正组合使用。错误校正技术可包括：a)将具有不同分子条形码(或接点鉴定)的读数分组成不同的读数家族中，该读数家族代表源自不同输入分子的读数，b)从读数家族构建共有序列，c)使用共有序列进行变体判定，以及d)结合分子条形码和接点鉴定以形成读数的复合身份证明(ID)，其可用于鉴定原始输入分子。在一些实施方案中，在不同的读数家族中发现的碱基判定(例如，相对于参考序列的序列差异)被赋予更高的置信度。在一些情况下，如果序列差异通过一个或多个增加碱基判定置信度的过滤器，则序列差异仅被鉴定为代表起始源多核苷酸的真实序列变体(与样品处理或分析的错误相反)，如上文描述的那些。在一些实施方案中，如果(a)序列差异在双链输入分子的两条链上鉴定出，(b)序列差异发生在其起源的多联体的共有序列中(例如，在包含序列差异的多联体内大于50％、80％、90％或更多的重复)；和/或(c)序列差异发生在两个不同的分子中(例如，如由不同的3’和5’端点和/或由外源标签序列所鉴定的)，则序列差异仅被鉴定为真正的序列变体。

可以通过以下确定链同一性：1)通过将序列与参考序列比对，重建来自可能含有多联体序列的读数的原始输入分子的接点；2)使用比对定位读数中的接点；3)提取如图1A所示的序列元素组分nj和nj+1，其代表基于读数中的接点位置的序列的链同一性；在多联体的情况下，可以在多联体序列的接点之间找到序列；以及4)使用读数与之比对的参考序列的链(阳性或阴性)，与步骤3中鉴定的读取内的链同一性序列组合，来鉴定掺入序列文库并对其测序的原始链，并鉴定序列变体起源于哪条链。例如，假设将链同一性序列“AA”添加至原始输入DNA片段链的末端。测序后，将DNA片段的读数与参照的“+”链进行比对，并且读数中的链同一性序列为“AA”，并且我们知道原始输入链是“+”链。如果链同一性序列为“TT”，则读数与原始输入链反向互补，并且原始输入链为“-”链。链同一性测定允许将序列变体与其反向互补对应物区分开，例如，将C>T置换与G>A置换区分开。等位基因变化的精确鉴定可用于在变体判定中进行等位基因特异性错误减少。例如，当某些等位基因改变时一些DNA损伤更频繁地发生，并且可以进行等位基因特异性错误减少以抑制这种损伤。这样的错误减少可通过各种统计方法来完成，例如，1)计算测序数据(基线)中不同等位基因变化的分布，随后进行2)z-检验或其他统计学测试以确定观察到的等位基因变化是否不同于基线分布。

在一些实施方案中，本公开内容提供了一种通过将测量的序列或一个或多个核苷酸的频率与导致相同序列或一个或多个核苷酸(如测量的序列)的核苷酸损伤的基线频率进行比较来鉴定遗传基因座处的特定链上的遗传变体的方法。在一些实施方案中，这样的方法可包括以下步骤：(a)通过多核苷酸的一个或多个预定核苷酸3’端延伸；(b)扩增延伸的多核苷酸的单独的链；(c)对延伸的多核苷酸的扩增的单独的链进行测序；(d)通过与一个或多个预定核苷酸相邻的3’序列和/或5’序列的同一性鉴定多核苷酸的互补链，并且鉴定遗传基因座处的每条链的核苷酸；以及(e)从所鉴定的多联体中确定遗传基因座处的一个或多个核苷酸中的每一个的频率，以用于鉴定遗传变体。在一些实施方案中，该方法可用于通过以下步骤将遗传变体与核苷酸损伤区分开：每当显示至少一个核苷酸的链的频率以预定因子超过具有产生相同核苷酸的核苷酸损伤的链的基线频率时，将由一个或多个预定核苷酸鉴定的链上的遗传基因座处的一个或多个核苷酸中的至少一个判定为遗传变体。

如上所述，在一些实施方案中，扩增步骤可通过以下进行：(i)使多核苷酸的单独的链环化以形成单链多核苷酸环，一个或多个预定核苷酸限定每个单链多核苷酸环中的多核苷酸的3’序列与5’序列之间的边界；以及(ii)通过滚环复制扩增单链多核苷酸以形成单链多核苷酸环的多联体。

具有核苷酸损伤的链的基线频率可以基于对来自通过该方法测试的相同个体的样品的先前测量，或者基线频率可以基于对除所测试的个体之外的个体群体的先前测量。基线频率还可以取决于和/或特定于在通过本公开内容的方法制备用于分析的样品中使用的步骤或方案的种类。通过将测量的频率与基线频率进行比较，可以获得测量或确定的序列是真正的遗传变体而不是由于处理导致的损伤或错误的可能性(或置信水平)的统计测量。

在一些实施方案中，使用聚合酶链反应(PCR)进行扩增步骤。在这样的实施方案中，扩增步骤可包括以下步骤：将具有引物结合位点或其互补体的衔接子连接到延伸的多核苷酸的单独的链的末端并进行聚合酶链反应。在将一个或多个预定核苷酸添加至其互补链的3’端后，可通过使靶多核苷酸变性获得靶多核苷酸的单独的链。用于这种扩增的示例性步骤在图3中示出。延伸或加尾靶多核苷酸(300)的3’端其中在顶部链上poly-A添加两个A(302)和在底部链上poly-A添加三个A(304)。这两个添加分别与序列n1和n2以及n1’和n2’用作顶部和底部链的标签。特别地，如果源自不同靶多核苷酸的链具有相同的序列，n1、n2、n1’和n2’，则每当预定核苷酸的数目不同时，链可以与它们的正确的互补体(即，源自相同亲本靶多核苷酸的互补体)匹配。将顶部链(306)和底部链(308)分离，例如通过加热至熔化温度，然后将衔接子连接(310)至其末端。在一些实施方案中，这样的衔接子可以是单链的，并且可以通过单链连接反应附接至链(306)和(308)的末端，在这之前可以进行激酶处理以磷酸化5’端。在其他实施方案中，可以采用双链衔接子。在将衔接子连接到链(306)和(308)的5’和3’端后，可以在单链PCR中使用对衔接子或其互补体中的引物结合位点具有特异性的引物扩增(312)产物。扩增后，可以制备用于测序的扩增的链，测序，然后进行分析以鉴定互补链。

在一个方面，本公开内容提供了一种鉴定双链多核苷酸的互补链而不延伸多核苷酸的3’端的方法。在一些实施方案中，鉴定双链多核苷酸的互补链涉及使用“链标记序列”或“链鉴定标签序列”(本文可互换使用)，其是指允许衍生自给定单链输入或起始的多核苷酸的扩增产物区别于衍生自样品的其他单链输入多核苷酸的扩增产物。链标记序列或链鉴定标签序列是指与衍生自样品的单链输入多核苷酸的扩增产物的寡核苷酸序列连接或联接的寡核苷酸序列，其可用于区分衍生自样品的一个输入多核苷酸的扩增产物与衍生自该样品的另一输入分子的扩增产物。

在一些实施方案中，包含链标记序列的链标签存在于引物(例如，链标记引物)上，例如引物延伸反应中使用的引物。用于链标记的引物可包含一对引物，例如正向和反向引物。在一些实施方案中，仅链标记引物对的一个引物携带链标签。在一些实施方案中，链标记引物对的两个引物均携带链标签。在两个引物均携带链标签的情况下，该对的单独的链标签(例如，正向和反向引物)可以不相同但已知作为一对相关。

在一个方面，本公开内容提供了一种鉴定包含多个双链多核苷酸的核酸样品中序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链具有5’端和3’端，所述方法包括：(a)在多个反应体积中提供多个环状单链多核苷酸，其中单独的反应体积仅包含一个通过连接(i)第一互补链的5’端和3’端、(ii)第二互补链的5’端和3’端、(iii)修饰的第一互补链的5’端和3’端或(iv)修饰的第二互补链的5’端和3’端而形成的环状单链多核苷酸，其中一个环状单链多核苷酸具有通过所述连接形成的接点序列，并且其中第一互补链的多核苷酸序列和相应的修饰的第一互补链的多核苷酸序列是相同的，并且第二互补链的多核苷酸序列和相应的修饰的第二互补链的多核苷酸序列是不相同的；(b)对所述多个环状单链多核苷酸或其扩增产物进行测序，以产生多个测序读数；(c)如果(i)给定第一互补链或其修饰的对应物包含与给定第二互补链或其修饰的对应物的接点序列互补的接点序列，并且(ii)多核苷酸序列不是完美互补的，则从多个测序读数中，将(i)给定第一互补链和给定修饰的第二互补链、(ii)给定修饰的第一互补链和给定第二互补链或(iii)给定修饰的第一互补链和给定修饰的第二互补链鉴定为源自共同双链多核苷酸；以及(d)仅当源自共同双链多核苷酸的相应的给定第二互补链或其修饰的对应物包含序列差异的互补体时，将给定第一互补链或其修饰的对应物中相对于参考序列的序列差异判定为序列变体。

在一些实施方案中，通过将一个或多个预定核苷酸添加至靶多核苷酸的3’端以标记其互补链，可以清楚地标记互补链并使其可单独鉴定。根据一些实施方案，这样的核苷酸添加有助于随后与来自样品中源自相同靶多核苷酸的测序数据配对。在一些实施方案中，这样的核苷酸添加还在各自的环化后在每个靶多核苷酸链的末端之间产生明确限定的边界。也就是说，在一些实施方案中，靶多核苷酸在加尾反应中与一个或多个(并且在一些实施方案中，多个)预定核苷酸“加尾”。在一些实施方案中，具有预定义序列的多核苷酸例如通过连接附接至互补链的3’端、5’端或3’和5’端两者。在一些实施方案中，通过由连接5’和3’多核苷酸末端(例如，在环化后)形成的互补接点序列，将两条链鉴定为源自样品中的相同双链多核苷酸，并且通过不是完美互补的多核苷酸序列使两条链可鉴定。根据一些实施方案，通过连接测序数据中鉴定的5’和3’多核苷酸末端形成的接点序列可用于将测序读数鉴定为源自特定的双链输入或起始分子。在一些实施方案中，与单独的单链输入或起始分子独特相关的链标记序列可用于将测序读数区分为源自互补链的特定链。在另外的实施方案中，可以通过用含有条形码或分子标签的引物扩增环状多核苷酸来进一步减少扩增和测序错误(这些术语在本文中同义使用)。

在一些实施方案中，修饰第一互补链和第二互补链中的至少一个的多核苷酸序列包括使第一互补链和第二互补链中的至少一个经受亚硫酸氢盐处理。亚硫酸氢盐处理可以改变多核苷酸序列的特定核苷酸，从而导致修饰的多核苷酸序列。在一些情况下，二硫化物处理后多核苷酸序列的差异可用于区分互补链。

在一个方面，本公开内容提供了一种鉴定包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个链具有5’端和3’端。在一些实施方案中，所述方法包括(a)在多个反应体积中提供多个环状单链多核苷酸，其中单独的反应体积仅包含通过连接第一互补链的5’端和3’端或第二互补链的5’端和3’端形成的一个环状单链多核苷酸，其中一个环状单链多核苷酸具有通过连接形成的接点序列；(b)在多个反应体积中，使用一对正向和反向链标记引物进行引物延伸反应，所述对中的至少一个包含链鉴定标签，以产生多个链标记的线性双链多联体，每个链标记的线性双链多联体包含链鉴定标签序列，其中链鉴定标签序列对于给定反应体积中的环状单链多核苷酸是独特的；(c)对多个链标记的线性双链多联体进行测序以产生多个测序读数；(d)如果(i)给定第一互补链包含与给定第二互补链的接点序列互补的接点序列，并且(ii)给定第一互补链包含与第二互补链不同的链鉴定标签序列，则从多个测序读数中，将给定第一互补链和给定第二互补链鉴定为源自共同双链多核苷酸；以及(e)仅当源自共同双链多核苷酸的相应的给定第二互补链包含序列差异的互补体时，将给定第一互补链中相对于参考序列的序列差异判定为序列变体。

在一些实施方案中，双链多核苷酸包含无细胞多核苷酸，包括但不限于无细胞DNA和无细胞RNA。在一些实施方案中，双链核苷酸包含无细胞DNA。在一些实施方案中，双链核苷酸包含循环肿瘤DNA。

在一些实施方案中，通过首先将双链多核苷酸分离成单独的单链第一和第二互补链，其次通过连接它们各自的5’和3’端使分离的第一和第二互补链环化来形成环状单链多核苷酸。可以通过各种方法(包括但不限于热变性和化学变性)将双链多核苷酸分离成单链形式。在一些实施方案中，通过热变性将双链多核苷酸分离成单链第一和第二互补链。在链分离后，然后可以通过连接多核苷酸的5’端和3’端使单链多核苷酸环化。具有与3’端连接的5’端的单链多核苷酸具有通过连接形成的接点序列。接点序列是指包含5’端和3’端连接并且通常从5’至3’方向读取的接点的核苷酸。包含源自共同双链多核苷酸的第一互补链和第二互补链的两个环状单链多核苷酸的接点序列可能具有互补接点序列。接点序列可包含任何合适数目的核苷酸，例如至少2、3、4、5、6、7、8、9、10个核苷酸或更多，只要可以鉴定互补接点序列即可。然而，在一些情况下，互补链的接点序列可能不是互补的，例如，如果双链多核苷酸具有交错的或突出的末端。在一些实施方案中，通过首先使双链多核苷酸环化，然后将环状双链多核苷酸分离成单独的单链环来形成环状单链多核苷酸。当使双链多核苷酸环化时，第一互补链和第二互补链的相应5’和3’端连接以形成每个链的接点序列。

单链多核苷酸和双链多核苷酸可通过各种方法进行环化，包括本文其他地方描述的那些方法。在一些实施方案中，通过首先将双链多核苷酸分离成单独的单链多核苷酸，例如通过热变性，然后使用酶如连接酶使单独的单链多核苷酸环化，来形成环状单链多核苷酸。在一些实施方案中，通过首先使用酶如连接酶使双链多核苷酸环化，然后将环状双链多核苷酸分离成单独的单链环，例如通过热变性或化学变性，来形成环状单链多核苷酸。

可以在多个反应体积中提供多个环状单链多核苷酸，使得单独的反应体积仅包含一个环状单链多核苷酸。反应体积是指可以限制反应的一种或多种试剂和/或产物的体积。在一些实施方案中，反应体积是由物理边界限制的体积，其非限制性实例包括管，例如PCR管；孔，例如微孔；室，例如微流体室；以及通道，例如微流体通道。在一些实施方案中，反应体积不受物理边界的限制，而是受到通过电力、磁力、化学力或其组合来抑制或最小化试剂和/或产物远离该反应体积的移动(例如通过扩散)的限制。这样的反应体积的非限制性实例包括液滴，例如油滴中的水，其中水和油的疏水/亲水性质可以防止试剂和/或产物从一个液相移动到另一个液相。

在多个反应体积中，可以使用一对正向和反向链标记引物进行引物延伸。该对链标记引物中的至少一个包含链识别标签，并且引物延伸反应产生多个链标记的线性双链多联体，每个多联体包含链鉴定标签序列。在优选的实施方案中，链鉴定标签序列对于给定反应体积中的环状单链多核苷酸是独特的。引物延伸反应可包括滚环复制、聚合酶链反应或其组合。引物延伸反应可包括热循环方法、等温方法或其组合。

在一些实施方案中，引物延伸反应包括滚环复制，并且任选地进一步包括聚合酶链反应(PCR)。在一些情况下，使用一对正向和反向链标记引物的滚环复制产生多个链标记的线性双链多联体。正向和反向链标记引物中的每一个可包含在3’端处与环状单链多核苷酸序列或其互补体互补的靶特异性序列。这些靶特异性序列可以与单链多核苷酸或由其衍生的扩增产物杂交，并引发引物延伸。在一些实施方案中，正向和反向链标记引物中的每一个进一步包含在5’端处不与环状单链多核苷酸序列或其互补体互补的共同序列。该共同序列在存在并掺入链标记的线性双链多联体中时可用于任选的PCR步骤，其中用一对正向和反向扩增引物扩增链标记的线性双链多联体以产生链标记的双链线性多联体的另外的拷贝。在一些实施方案中，引物延伸反应进一步包括使用正向和反向扩增引物的聚合酶链反应，其中正向和反向扩增引物包含在3’端处与链标记的双链线性多联体的单独的链杂交并引发引物延伸的共同序列。

在一些实施方案中，引物延伸反应包括滚环复制和聚合酶链反应(PCR)。在一些情况下，首先使用一对正向和反向扩增引物进行滚环复制，该对中的每一个引物包含3’端处的靶特异性序列和5’端处的共同序列。3’端处的靶特异性序列可以与环状单链多核苷酸序列或其互补体互补，而5’端处的共同序列可以与环状单链多核苷酸序列或其互补体不互补。使用该对正向和反向扩增引物的滚环复制可产生包含共同序列的多个线性双链多联体。然后可将这些包含共同序列的线性双链多联体用作后续聚合酶链反应(PCR)中引物延伸的模板。使用一对正向和反向链标记引物的PCR可以产生多个链标记的线性双链多联体。在一些实施方案中，该对正向和反向链标记引物中的每一个包含在3’端处可与包含先前从滚环复制获得的共同序列的线性双链多联体的单独的链杂交并引发引物延伸的共同序列。该对正向和反向链标记引物中的至少一个包含5’端处的链鉴定标签。随后将链标记序列掺入扩增产物中，从而导致链标记的线性双链多联体。如前所述，在优选的实施方案中，链鉴定标签序列或链标记序列对于给定反应体积中的环状单链多核苷酸是独特的，因此，在特定反应体积中衍生自环状单链多核苷酸的扩增产物可与在其他反应体积中衍生自其他环状单链多核苷酸的扩增产物区分开。

如本文公开的其他实施方案所述的，然后可以制备具有链鉴定标签序列的多联体和/或其扩增产物以用于测序，并随后对其进行测序以产生测序读数。如果(i)给定第一互补链包含与给定第二互补链的接点序列互补的接点序列以并且(ii)如果第一互补链包含与第二互补链的链鉴定标签序列不同的链鉴定标签序列，则可以对测序读数进行分析以鉴定源自共同双链多核苷酸的第一互补链和第二互补链。例如，原始输入分子的接点可以通过将其与参考序列比对而从多联体重建。互补接点序列可用于将原始输入分子鉴定为源自共同双链多核苷酸并去除序列重复，例如，用于更准确的计数。在鉴定为源自样品的共同双链输入分子的序列中，链鉴定标签的序列可用于鉴定第一互补链和第二互补链。

在鉴定含有互补链的多联体对之后，可以比对多联体序列并且可以比较两条链的匹配位置处的碱基判定。在多联体对的一些位置处，在一对中的一个成员中的给定位置处判定的碱基可能不与在该对中的另一个成员上判定的碱基互补，这表明由于例如扩增错误、测序错误等进行了错误判定。在这种情况下，可以通过检查在多联体对内的其他拷贝的相应位置处的碱基判定来解决给定位置处的不确定性。例如，给定位置处的碱基判定可以被认为是对一对多联体中的单独的拷贝进行的碱基判定的共识或多数。用于进行此类测定的其他方法对于本领域普通技术人员而言是可用的，其可以代替这些方法或除了这些方法之外使用，以帮助当互补链之间的序列信息不互补时辅助解决碱基判定的工作。在一些情况下在源自相同双链分子的互补链中特定位置的碱基(例如，如由3’和5’端序列和链标签序列所鉴定的)不是互补的，解决碱基判定有利于比较样品序列的参考序列，使得差异不被鉴定为关于这样的参考序列的真实序列变体。

在一些实施方案中，相同的错误可出现在多联体内的靶多核苷酸的每个拷贝中。这样的数据表明靶多核苷酸在扩增或测序之前被破坏。

在一些实施方案中，含有多联体的测序读数用于鉴定序列变体并任选地进行错误校正。在一些方面，仅当源自相同(例如，共同)双链多核苷酸的相应的第二互补链包含序列差异的互补体时，将第一互补链中相对于参考序列的序列差异判定为序列变体。例如，携带变体的读数可通过接点序列进行分组，并且在具有相同接点鉴定，例如，互补的接点序列的一组读数的读取中发现源自相同(例如，共同)双链多核苷酸的互补链时，抗体可被认为是更确信的。在一些实施方案中，当在具有3’端和5’端的不同组合的至少两个双链多核苷酸(例如，不同的双链多核苷酸分子)中发生相同的序列差异时，才将序列差异判定为序列变体。

在一些实施方案中，当对序列变体进行判定时，还进行使用接点鉴定和链鉴定标签序列的错误校正。错误校正技术包括但不限于：a)将具有不同接点序列的读数分组到不同的读数家族中，该读数家族代表源自不同输入分子的读数，b)从读数家族构建共有序列，c)使用共有序列进行变体判定，以及d)结合接点序列和链鉴定标签序列以形成读数的复合身份证明(ID)，其可用于鉴定原始输入分子。在一些实施方案中，在不同的读数家族中发现的碱基判定(例如，相对于参考序列的序列差异)被赋予更高的置信度。在一些情况下，如果序列差异通过一个或多个增加碱基判定置信度的过滤器，则序列差异仅被鉴定为代表起始源多核苷酸的真实序列变体(与样品处理或分析的错误相反)，如确认第一互补链和第二互补链的存在。在一些实施方案中，如果序列差异在双链输入分子的两条链(例如，第一互补链和第二互补链)上鉴定出，则序列差异才被鉴定为真正的序列变体。在一些实施方案中，如果序列差异发生在其起源的多联体的共有序列中(例如，在包含序列差异的多联体内大于50％、80％、90％或更多的重复)，则序列差异才被鉴定为真正的序列变体。在本文方面的各种实施方案中，每个链标记的线性双链多联体包含相应的环状单链多核苷酸的至少一个拷贝(例如，大于1个拷贝、2个拷贝、3个拷贝、4个拷贝、5个拷贝或更多)，并且仅当在多联体的至少一个拷贝(例如，至少2、3、4、5或更多个拷贝)中发生相同的序列差异时，序列差异才被判定为序列变体。在一些实施方案中，如果序列差异发生在两个不同的分子中(例如，如由不同的3’和5’端点和/或由外源标签序列所鉴定的)，则序列差异才被鉴定为真正的序列变体。在各种实施方案中，同时使用多个变体判定标准以提高碱基判定的准确度。

在图5A-图5D中提供了根据本公开内容的一些实施方案的方法的说明，并且特别是对于使用链鉴定标签序列的实施方案。图5A示出了靶无细胞双链多核苷酸。靶无细胞双链多核苷酸包含基因序列，并且该基因包含在第一互补链(实线，链1)和第二互补链(虚线，链2)上的由‘X’表示的真正突变。在一些实施方案中，例如通过热变性处理样品的双链多核苷酸，以产生单链多核苷酸。然后可以将单链多核苷酸环化以形成环状单链多核苷酸，每个环状单链多核苷酸在5’端与3’端之间具有包含接点序列的接点。从5’到3’方向读取的链1的接点序列是CGAT。从5’到3’方向读取的链2的接点序列是ATCG。链1和链2的接点序列是互补的。为了简单起见，图5A图示了单个双链多核苷酸的方法，但任何给定核酸样品可含有多个双链多核苷酸，该多个双链多核苷酸可以平行进行样品制备步骤(例如，变性和环化)。如前所述，在一些实施方案中，首先将双链多核苷酸环化，并随后分离成环状单链多核苷酸。

在线性单链多核苷酸环化形成环状单链多核苷酸之前或之后，可将样品的多核苷酸分离成多个反应体积。在优选的实施方案中，每个反应体积包含至多一个单链多核苷酸(线性或环状)。然而，在一些实施方案中，反应体积可包含不同数目的单链多核苷酸(例如，占用)。例如，一些反应体积可不包含单链多核苷酸(例如，空的)，而一些反应体积可包含一个单链多核苷酸(例如，单个占用)并且一些反应体积可包含多于一个单链多核苷酸，例如，两个(例如，双重占用)、三个(例如，三重占用)、四个(例如，四重占用)或更多个单链多核苷酸。反应体积的占用可以根据多核苷酸分离的过程而变化。在一些实施方案中，以一定浓度提供多核苷酸样品，使得当提供给多个分区时，每个分区包含0或1个单链多核苷酸。在一些实施方案中，然后使单独的环状单链多核苷酸经受引物延伸反应，如涉及温度变化(热循环)或恒温(等温)或其组合的引物延伸反应。

图5B示意性地图示了包含滚环复制的引物延伸反应。如图5B所示，一对正向和反向链标记引物用于滚环复制以生成多个链标记的线性双链多联体。该对正向和反向链标记引物中的两个引物在3’端包含靶特异性序列，该靶特异性序列可以从环状单链多核苷酸的一部分或其扩增产物引发引物延伸。引物对中的至少一个包含链鉴定序列，并且任选地，该对正向和反向链标记引物中的两个引物在5’端包含共同序列。如图5B所示，通过用于链1和链2的一对正向和反向引物的引物延伸生成双链线性多联体。如前所述，链鉴定标签序列对于给定反应体积中的环状单链多核苷酸是独特的，因此链1多联体与链标签序列连接，该链标签序列不同于链2多联体的链标签序列。在一些实施方案中，在单独的反应体积中生成多联体后，进一步扩增多联体，例如通过聚合酶链反应方法。如果需要，可将来自多个反应体积的链标记的多联体进行组合并批量扩增，因为与每个多联体相关的链标签可以用于区分衍生自链1的扩增产物和衍生自链2的那些产物。然后可以任选地对链标记的多联体进行进一步处理和测序以产生如本文先前所讨论的用于变体分析的测序读数。

图5C和图5D示意性地图示了包括滚环复制和聚合酶链反应的引物延伸反应。如图5C所示，一对正向和反向扩增引物用于滚环复制，以生成包含共同序列的多个线性双链多联体。该对正向和反向扩增引物中的两个引物在3’端包含靶特异性序列，该靶特异性序列可以从环状单链多核苷酸的一部分或其扩增产物引发引物延伸。该对正向和反向扩增引物中的两个引物在5’端包含共同序列。如图5C所示，通过用于链1和链2的一对正向和反向引物的引物延伸生成线性双链多联体。在单独的反应体积中生成多联体后，使多联体经受聚合酶链反应以产生链标记的多联体。如图5D中示意性所示，在聚合酶链反应中使用一对正向和反向链标记引物以生成多个链标记的线性双链多联体。该对对正向和反向链标记引物中的两个引物在3’端包含共同序列，该共同序列可以从先前从滚环复制获得的多联体的共同序列启动引物延伸。该对引物中的至少一个包含该链鉴定标签。如图5D所示，通过用于链1和链2扩增产物的一对正向和反向引物的引物延伸生成链标记的线性双链多联体。如前所述，链鉴定标签序列对于给定反应体积中的环状单链多核苷酸是独特的，因此链1多联体与链标签序列连接，该链标签序列不同于链2多联体的链标签序列。然后可以任选地对链标记的多联体进行进一步处理和测序以产生如本文先前所讨论的用于变体分析的测序读数。

加尾反应

如上所述，在一些实施方案中，可以使用未模板化的3’核苷酸添加活性，如TdT活性、外切聚合酶活性等进行加尾反应，并且添加3’尾的多核苷酸可以是单链或双链的。可以采用多种方案中的任何一种在加尾反应中延伸靶多核苷酸的3’端。通常，所加尾的分子的5’端不延伸。

作为一个实例，在一些实施方案中，TdT加尾反应(用于添加polyT尾)可包含以下组分：5.0μl 10X TdT缓冲液(NEB)；5.0μl 2.5mM CoCl₂溶液；5.0pmols DNA(330ng的100bp、1μg的300bp和10pmols DNA末端)；0.5μl 10mM dTTP；0.5μl末端转移酶(20单位/μl)；去离子水H₂0至50μl的最终体积。该反应可以在37℃下温育30分钟。通过在10分钟加热至70℃或通过添加10μl的0.2M EDTA(pH 8.0)来终止反应。然后可以在进行连接之前纯化DNA。dNTP的添加速率以及尾的长度可以是3’DNA末端的比例的函数：dNTP浓度，以及所用dNTP的类型(其中相对附接速率是dT>dA>dC>dG)。也可以通过调整反应时间来调节长度。

作为另一个实例，在一些实施方案中，polyT加尾可以在以下示例性连接反应混合物中进行：10pmol单链DNA；2μl CircLigase II 10X反应缓冲液(NEB)；1μl 50mM MnCl₂；4μl 5M甜菜碱(任选的)；1μlCircLigase II ssDNA连接酶(100U)；0.5μl 10mM dTTP；0.5μl末端转移酶(20单位/μ)；去离子H₂O至20μl的最终体积。可以将反应在37℃下温育30分钟，然后在60℃下温育1小时。

在一些实施方案中，在以下示例性方案中用外切聚合酶，如Klenow片段((3′→5′exo-)进行加尾。在无菌微量离心管中混合以下组分：末端修复的钝性DNA(可变量)；NEBNext dA-加尾反应缓冲液(10X)，5μl；Klenow片段(3’→5’exo-)，3μl；无菌H₂O可变量至50μl的总体积。可以将反应在热循环仪中于37℃下温育30分钟。在一个旋转柱上纯化DNA样品。

无细胞多核苷酸样品

在一些实施方案中，通过本公开内容的方法分析的多核苷酸是“无细胞”多核苷酸。本公开内容的实施方案可使用任何无细胞多核苷酸。无细胞多核苷酸可从受试者如任何动物或活生物体获得。受试者的非限制性实例是哺乳动物，诸如人、非人灵长类动物、啮齿动物如小鼠和大鼠、狗、猫、猪、羊、兔等。在一些实施方案中，受试者是健康的，因此从该受试者获得的无细胞多核苷酸可能不包含与疾病或病症相关的序列变体。在一些实施方案中，受试者疑似患有疾病或病症，因此从该受试者获得的无细胞多核苷酸可能包含与疾病或病症相关的序列变体。在一些实施方案中，受试者怀孕，因此从该受试者获得的无细胞多核苷酸包括胎儿多核苷酸。

无细胞多核苷酸可从各种非细胞来源获得。可获得无细胞多核苷酸的非细胞来源的非限制性实例是血清、血浆、血液、汗液、唾液、尿液、粪便、精液、粘膜排泄物、脊髓液、羊水和淋巴液。用于收集可获得无细胞多核苷酸的非细胞来源的样品的各种方法是可用的。在一些实施方案中，从受试者获得可获得无细胞多核苷酸的非细胞来源的样品。在一些实施方案中，通过静脉穿刺获得样品。在一些实施方案中，通过抽吸获得样品。

各种方法和商用试剂盒可用于从样品获得无细胞多核苷酸，如无细胞DNA。用于提取和分离无细胞多核苷酸(包括无细胞DNA)的方法和试剂盒的实例是苯酚/氯仿提取、苯酚/氯仿/异戊醇(PCI)-糖原提取、NaI(碘化钠)提取、胍树脂提取、带有载体RNA的QIAmpDNA Blood Midi试剂盒、ChargeSwitch血清试剂盒、ZR血清DNA试剂盒、Qiagen Qubit^TMdsDNA HS Assay试剂盒、Agilent^TM DNA 1000试剂盒、TruSeq^TM Sequencing LibraryPreparation以及Puregene DNA纯化系统Blood试剂盒。

无细胞多核苷酸(包括无细胞DNA)可以通过分隔步骤从体液中提取和分离，该分隔步骤中无细胞多核苷酸与体液的细胞和其他非可溶性组分相分离。分隔技术的实例是离心和过滤。在一些实施方案中，没有首先将细胞与无细胞多核苷酸相分隔，而是首先进行裂解。在一些实施方案中，通过选择性沉淀来分隔完整细胞的基因组DNA。无细胞多核苷酸(包括DNA)可保持可溶性，并可与不溶性基因组DNA相分离并被提取。根据一些程序，在添加缓冲液以及不同试剂盒特定的其他洗涤步骤后，可以使用异丙醇沉淀来沉淀DNA。可以使用进一步的清理步骤，如基于二氧化硅的柱来去除污染物或盐。通用步骤可针对特定应用进行优化。例如，可以在整个反应期间添加非特异性批量载体多核苷酸以优化该程序的某些方面，如产率。

在一些实施方案中，本公开内容的反应混合物包含环状无细胞DNA作为环状靶多核苷酸。在一些实施方案中，本公开内容的反应混合物包含基因组DNA的环状片段作为环状靶多核苷酸。在一些实施方案中，环状靶多核苷酸包含由染色体重排产生的序列。在某些实施方案中，染色体重排是缺失、复制、倒位和易位中的至少一种。在一些实施方案中，主题方法的环状靶多核苷酸是单链的。在一些实施方案中，主题方法的环状靶多核苷酸是双链的。

在一些实施方案中，本公开内容的反应混合物包含靶多核苷酸的序列部分的组合长度，该组合长度对应于(a)沿靶多核苷酸从5’至3’的(i)与第一3’端互补的序列，和(ii)与第二3’端相同的序列；以及(b)(i)与(ii)之间的间插序列，总共为75个或更少的核苷酸。在一些实施方案中，靶多核苷酸的序列部分的组合长度为60个或更少的核苷酸。在一些实施方案中，靶多核苷酸的序列部分的组合长度为50个或更少的核苷酸。在一些实施方案中，靶多核苷酸的序列部分的组合长度为40个或更少的核苷酸。在一些实施方案中，靶多核苷酸的序列部分的组合长度为30个或更少的核苷酸。

在本文所述的各个方面的一些实施方案中，包括本公开内容的方法和反应混合物，通过连接线性靶多核苷酸形成环状靶多核苷酸。由线性靶多核苷酸形成的环状靶多核苷酸可包含待表征的序列，例如罕见序列变体或融合基因。在一些实施方案中，线性靶多核苷酸是单链的。在其他实施方案中，线性靶多核苷酸是双链的。靶多核苷酸的非限制性实例包括DNA、RNA、cDNA、dsDNA、ssDNA、质粒DNA、粘粒DNA、染色体DNA、基因组DNA、病毒DNA、细菌DNA、mtDNA(线粒体DNA)、mRNA、rRNA、tRNA、nRNA、siRNA、snRNA、snoRNA、scaRNA、微RNA、dsRNA、核糖酶、核糖开关和病毒RNA(例如，逆转录RNA)。

在本文公开的各个方面中的任何方面的一些实施方案中，环状靶多核苷酸包含无细胞多核苷酸，包括但不限于无细胞DNA或RNA(cfDNA或cfRNA)。在一些实施方案中，无细胞多核苷酸是循环肿瘤DNA或RNA(ctDNA或ctRNA)。在一些实施方案中，无细胞多核苷酸包含胎儿DNA或RNA。在一些实施方案中，无细胞多核苷酸是源自细胞但不是直接从细胞来源(如组织样品)获得的多核苷酸。无细胞多核苷酸的可源自的来源的非限制性实例是正常细胞和组织、异常细胞和组织(例如，癌细胞或组织)、胎儿细胞和组织及病原体。存在于非细胞来源中的无细胞多核苷酸可以由细胞死亡(例如，细胞凋亡或坏死)或细胞脱落引起。无细胞多核苷酸的序列分析可用于表征无细胞DNA来源的细胞或细胞群，如肿瘤细胞(例如，在癌症检测中)、胎儿细胞(例如，在产前诊断中)、来自移植组织的细胞(例如，在移植失败的早期检测中)、病原体(例如，细菌或病毒)或其组合。

在本文公开的各个方面的任何方面的一些实施方案中，环状靶多核苷酸包含基因组DNA。在一些实施方案中，环状靶多核苷酸衍生自基因组DNA。基因组DNA可使用各种方法和可商购的试剂盒(如Qiagen DNeasy Tissue试剂盒)从细胞样品获得。可使用在本文其他地方描述实例的的任何合适的提取、分离和纯化方法从样品获得并纯化基因组DNA。提取技术的其他非限制性实例包括：(1)有机萃取然后乙醇沉淀，例如，使用苯酚/氯仿有机试剂(Ausubel等人，1993)，使用或不使用自动核酸提取器，例如可从Applied Biosystems(Foster city,Calif)获得的341DNA型提取器；(2)固定相吸附法(美国专利号5,234,809；Walsh等人，1991)；和(3)盐诱导核酸沉淀法(Miller等人，1988)，该沉淀方法一般被称作“盐析”法。核酸分离和/或纯化的另一个实例包括使用核酸能够特异性或非特异性结合的磁性颗粒，然后使用磁体分离珠子，并洗涤和从珠子中洗脱核酸(参见，例如，美国专利号5,705,628)。例如，可使用固相可逆固定(SPRI)珠子(Agencourt AMPure XP)将核酸分离和纯化。在一些实施方案中，上述分离方法之前可先进行酶消化步骤以帮助从样品中去除不需要的蛋白质，例如用蛋白酶K或其他类似的蛋白酶进行消化。如果需要，可向裂解缓冲液中添加RNA酶抑制剂。对于特定的细胞或样品类型，可能需要在方案中增加蛋白质变性/消化步骤。纯化方法可以针对分离DNA、RNA或两者。当DNA和RNA在提取程序过程期间或之后被一起分离时，可使用进一步的步骤来与另一种分开地纯化一种或两者。也可生成提取的核酸的亚级分，例如，根据大小、序列或其他物理或化学特性进行纯化。除了初始核酸分离步骤，核酸的纯化还可以在所公开的方法的任意步骤之后进行，例如用于去除过量的或不需要的试剂、反应物或产物。多种用来确定样品中的核酸量和/或核酸纯度的方法是可用的，例如通过吸光度(例如，在260nm、280nm处的光吸收，和其比值)和标记物的检测(例如，荧光染料和嵌入剂，例如SYBR绿、SYBR蓝、DAPI、碘化丙锭、Hoechst染色剂、SYBR金和溴化乙锭)。

在一些实施方案中，环状靶多核苷酸包含片段化的无细胞DNA或片段化的基因组DNA。多种方法可用于对多核苷酸进行片段化，包括但不限于化学方法、酶促方法和机械方法，如超声处理、剪切和与限制酶接触。在一些实施方案中，无细胞DNA片段的长度大致均匀。在一些实施方案中，无细胞DNA片段的长度并非大致均匀。在一些实施方案中，无细胞DNA片段具有约50至约1000个核苷酸的平均长度。在一些实施方案中，无细胞DNA片段具有约50至约500个核苷酸的平均长度。在一些实施方案中，无细胞DNA片段具有约50至约250个核苷酸的平均长度。在一些实施方案中，无细胞DNA片段具有约50至约200个核苷酸的平均长度。在一些实施方案中，无细胞DNA片段具有约50至约100个核苷酸的平均长度。在一些实施方案中，基因组DNA被片段化为较短长度的多核苷酸。在一些实施方案中，基因组DNA片段的长度大致相同。在一些实施方案中，基因组DNA片段的长度几乎不同。在一些实施方案中，基因组DNA片段具有约50至约100个核苷酸的平均长度。在一些实施方案中，基因组DNA片段具有约50至250个核苷酸的平均长度。在一些实施方案中，基因组DNA片段具有约50至500个核苷酸的平均长度。在一些实施方案中，基因组DNA片段具有约50至750个核苷酸的平均长度。在一些实施方案中，基因组DNA片段具有约100至1000个核苷酸的平均长度。

在一个方面，本公开内容提供了一种鉴定核酸样品中的序列变体的方法，所述核酸样品包含少于50ng的多核苷酸，每个多核苷酸具有5’端和3’端。在一些实施方案中，该方法包括：(a)用连接酶环化样品中的单独的多核苷酸以形成多个环状多核苷酸；(b)在将连接酶与环状多核苷酸分离后，扩增环状多核苷酸以形成多联体；(c)对多联体进行测序以产生多个测序读数；(d)鉴定多个测序读数与参考序列之间的序列差异；以及(e)在来自少于50ng的多核苷酸的核酸样品的多个读数中将以低至约0.05％或更低(例如低至约0.01％、0.005％、0.001％、0.0005％或更低)的频率发生的序列差异判定为序列变体。

样品中多核苷酸的原始量可以很小。在一些实施方案中，原始多核苷酸的量小于50ng，如小于45ng、40ng、35ng、30ng、25ng、20ng、15ng、10ng、5ng、4ng、3ng、2ng、1ng、0.5ng、0.1ng或更低。在一些实施方案中，原始多核苷酸的量在0.1-100ng的范围内，如1-75ng、5-50ng或10-20ng。通常，较低的原始材料增加了从各种处理步骤中提高回收率的重要性。减少样品中参与后续反应的多核苷酸方法降低了可检测到罕见突变的灵敏度。例如，Lou等人,(PNAS,2013,110(49))描述的方法预计仅能回收原始材料的10-20％。对于大量的原始材料(例如从实验室培养的细菌中纯化)，这可能不是实质性障碍。然而，对于原始材料显著较低的样品，在该低范围内的回收可能是检测罕见变体的实质性障碍。因此，在一些实施方案中，本公开内容的方法中，样品在从一个步骤回收到另一个步骤，例如，输入到可用于输入后续扩增步骤(或测序步骤)中的环化步骤的质量分数约或大于约50％、60％、75％、80％、85％、90％、95％或更多。从特定步骤的回收可能接近100％。回收可以关于特定形式，如从非环状多核苷酸的输入中回收环状多核苷酸。

环化多核苷酸

可通过各种方法由线性靶多核苷酸形成环状靶多核苷酸。在一些实施方案中，通过末端连接将单个线性靶多核苷酸环化。在一些实施方案中，将第一线性靶多核苷酸连接至第二线性靶多核苷酸，然后将第一靶多核苷酸的未连接端连接至第二线性靶多核苷酸的未连接端以形成包含第一和第二靶多核苷酸的环状靶多核苷酸。待环化的多核苷酸可以是单链或双链的。当期望单链环时，多核苷酸可以是如最初分离的单链多核苷酸，或者可被处理以使该多核苷酸成为单链(例如，通过变性)。在一些实施方案中，用于使多核苷酸环化的方法涉及酶，如使用连接酶(例如，RNA连接酶或DNA连接酶)。可用于将线性靶多核苷酸连接成环状靶多核苷酸的酶的非限制性实例是ATP依赖性双链多核苷酸连接酶、NAD+依赖性DNA或RNA连接酶和单链多核苷酸连接酶。连接酶的非限制性实例是CircLigase I和CircLigase II(Epicentre；Madison,WI)、大肠杆菌DNA连接酶、丝状栖热菌DNA连接酶、TthDNA连接酶、水管致黑栖热菌DNA连接酶(I型和II型)、T3DNA连接酶、T4DNA连接酶、T4RNA连接酶、T7DNA连接酶、Taq连接酶、Ampligase(Technologies Corp.)、VanC-型连接酶、9°N DNA连接酶、Tsp DNA连接酶、DNA连接酶I型、DNA连接酶III型、DNA连接酶IV型、Sso7-T3DNA连接酶、Sso7-T4DNA连接酶、Sso7-T7DNA连接酶、Sso7-Taq DNA连接酶、Sso7-大肠杆菌DNA连接酶、Sso7-Ampligase DNA连接酶，以及热稳定连接酶。连接酶可以是野生型、突变同工型和基因工程化变体。连接反应可含有缓冲组分、小分子连接增强剂和其他反应组分。在一些实施方案中，调节多核苷酸和酶的浓度以促进分子间连接而不是分子内连接。在一些实施方案中，调节反应温度和反应时间或反应的时间长度。反应温度和时间也可调节。在一些实施方案中，使用60℃来促进分子内环的形成。在一些实施方案中，反应时间为12-16小时。反应条件可以是所选择的酶的制造商所规定的条件。在一些实施方案中，连接多核苷酸的末端以形成环状多核苷酸(直接连接至其自身或连接至一个或多个其他多核苷酸，例如，包含两个靶多核苷酸的环状靶多核苷酸)产生具有连接序列的接合。在一些实施方案中，可以包括外切核酸酶步骤以在环化反应后消化任何未连接的核酸。也就是说，闭合环不含游离5’或3’端，因此引入5’或3’外切核酸酶不会消化闭合环但会消化未连接的组分。这尤其可用于多路系统中。

环化之后，反应产物可在扩增或测序之前进行纯化以提高可参与后续步骤的环化多核苷酸的相对浓度或纯度(例如，通过环状多核苷酸的分离或反应中一种或多种其他分子的去除)。例如，可处理环化反应或其组分以去除单链(未环化的)多核苷酸，例如通过外切核酸酶处理。作为进一步的实例，环化反应或其部分可进行大小排阻色谱法，借此保留及丢弃小试剂，或在单独的体积中保留并释放环化产物。多种用于清理连接反应的试剂盒是可用的，例如由Zymo Reaserch制造的Zymo寡核苷酸纯化试剂盒所提供的试剂盒。在一些实施方案中，纯化包括用于去除或降解在环化反应中使用的连接酶和/或将环化多核苷酸从该连接酶中纯化的处理。在一些实施方案中，用于降解连接酶的处理包括用蛋白酶如蛋白酶K进行的处理。蛋白酶K处理可遵循制造商的方案或标准方案(例如，如Sambrook和Green,Molecular Cloning:A Laboratory Manual,第4版(2012)所提供的)。蛋白酶处理之后还可进行提取和沉淀。在一个实例中，环化多核苷酸如下纯化：在0.1％SDS和20mM EDTA的存在下进行蛋白酶K(Qiagen)处理，用1：1苯酚/氯仿和氯仿抽提，并用乙醇或异丙醇沉淀。在一些实施方案中，沉淀在乙醇中进行。

引物延伸和扩增

本公开内容的一些实施方案包括引物延伸和扩增反应，如生成多联体、生成多个延伸产物和扩增多个延伸产物中的一种或多种。引物延伸反应可涉及温度变化(热循环)或恒温(等温)。在一些实施方案中，引物延伸反应包括聚合酶链反应(PCR)。PCR通常涉及通过多个阶段的变性、引物对与相反链退火，以及用于使靶序列拷贝数指数增加的引物延伸而进行的循环，这些阶段中的至少一些通常在不同的反应温度下发生。PCR扩增技术的非限制实例是定量PCR(qPCR或实时PCR)、逆转录PCR(RT-PCR)、数字PCR(dPCR或dePCR)、靶标特异性PCR以及定量逆转录PCR(qRT-PCR)。例如，在使用TaqDNA聚合酶的常规PCR中，双链靶核酸可以在>90℃的温度下变性，引物在50-75℃的温度下退火，并且引物在72-78℃的温度范围下延伸。反应体积通常为几百纳升，例如200nL至几百μL，例如200μL。可用于PCR的聚合酶的实例为热稳定聚合酶，包括但不限于嗜热栖热菌HB8；突变Thermus oshimai；水管致黑栖热菌；嗜热栖热菌1B21；嗜热栖热菌GK24；水生栖热菌聚合酶(FS或Taq(G46D；F667Y)，Taq(G46D；F667Y；E6811)和Taq(G46D；F667Y；T664N；R660G))；激烈火球菌聚合酶；Thermococcus gorgonarius聚合酶；火球菌属物种GB-D聚合酶；栖热球菌属(菌株9°N-7)聚合酶；嗜热脂肪芽胞杆菌聚合酶；Tsp聚合酶；ThermalAce^TM聚合酶(Invitrogen)；黄栖热菌聚合酶；Thermus litoralis聚合酶；栖热菌属Z05聚合酶；δZ05聚合酶(例如，δZ05Gold DNA聚合酶)；以及其突变体、变体或其衍生物。可用于PCR的聚合酶的其他实例是非热稳定聚合酶，包括但不限于DNA聚合酶I；突变DNA聚合酶I，包括但不限于Klenow片段和Klenow片段(3’至5’外切核酸酶(-))；T4DNA聚合酶；突变T4DNA聚合酶；T7DNA聚合酶；突变T7DNA聚合酶；phi29DNA聚合酶；以及突变phi29DNA聚合酶。在一些实施方案中，使用热启动聚合酶。热启动聚合酶是需要热激活的DNA聚合酶的修饰形式。这样的聚合酶可用于例如进一步提高敏感度、特异性和产率；并且/或者进一步改善低拷贝靶标扩增。通常，热启动酶以非活性状态提供。热活化后，释放修饰物或改性剂，从而生成活性酶。许多热启动聚合酶可从各种商业来源获得，如Applied Biosystems；Bio-Rad；eEnzyme LLC；Eppendorf North America；Finnzymes Oy；GeneChoice,Inc.；Invitrogen；Jena Bioscience GmbH；MIDSCI；MinervaBiolabs GmbH；New England Biolabs；Novagen；Promega；QIAGEN；Roche AppliedScience；Sigma-Aldrich；Stratagene；Takara Mirus Bio；USB Corp.；YorkshireBioscience Ltd；等等。

在一些实施方案中，引物延伸和扩增反应包括等温反应。等温扩增技术的非限制性实例是连接酶链反应(LCR)(例如，美国专利号5,494,810和5,830,711)；转录介导的扩增(TMA)(例如，美国专利号5,399,491、5,888,779、5,705,365、5,710,029)；基于核酸序列的扩增(NASBA)(例如，Malek等人,美国专利号5,130,238)；信号介导的RNA扩增技术(SMART)(例如，Wharam等人,Nucleic Acids Res.2001,29,e54)；链置换扩增(SDA)(例如，美国专利号5,455,166)；嗜热SDA(Spargo等人,Mol Cell Probes 1996,10:247-256；欧洲专利号0684315)；滚环扩增(RCA)(例如，Lizardi,“Rolling Circle Replication ReporterSystems,”美国专利号5,854,033)；环介导的DNA等温扩增(LAMP)(例如，Notomi等人,“Process for Synthesizing Nucleic Acid,”美国专利号6,410,278)；解旋酶依赖扩增(HDA)(例如，美国专利申请US 20040058378)；单引物等温扩增(SPIA)(例如，WO2001020035和美国专利号6,251,639)；以及环状解旋酶依赖性扩增(cHDA)(例如，美国专利申请US.10/594,095)。

在一些实施方案中，引物延伸反应通过具有链置换活性的聚合酶实现如对于RCA。在一些实施方案中，等温扩增包括滚环扩增(RCA)。RCA反应混合物可包含一种或多种引物、具有链置换活性的聚合酶，和dNTP。链置换是指在合成期间置换下游DNA的能力。具有链置换活性的聚合酶可具有不同程度的链置换活性。在一些实施方案中，聚合酶可具有弱链置换活性或没有链置换活性。在一些实施方案中，聚合酶可具有强链置换活性。在一些实施方案中，具有链置换活性的聚合酶可在不同反应温度下具有不同水平的链置换活性。在一些实施方案中，聚合酶可在中等温度例如20℃-37℃下显示链置换活性。在一些实施方案中，聚合酶可在升高的温度例如65℃下显示链置换活性。可调节反应温度以有利于具有链置换活性的聚合酶的活性水平。在一些实施方案中，反应温度为至少20℃、25℃、30℃、35℃、40℃、45℃、50℃、55℃、60℃、65℃、70℃、75℃、80℃、85℃或90℃。在一些实施方案中，反应温度为20℃至80℃。在一些实施方案中，反应温度为20℃至70℃。在一些实施方案中，反应温度为20℃至60℃。在一些实施方案中，反应温度为20℃至50℃。在一些实施方案中，可以在不同阶段中循环通过不同反应温度以提高或降低聚合酶的链置换活性。具有链置换活性的聚合酶的非限制性实例包括Bst DNA聚合酶，大片段；Bsu DNA聚合酶，大片段；Deep Vent_R ^TMDNA聚合酶；Deep Vent_R ^TM(exo-)DNA聚合酶；Klenow片段(3’-5’exo-)；DNA聚合酶I，大片段；M-MuLV逆转录酶；phi29DNA聚合酶；DNA聚合酶；以及(exo-)DNA聚合酶。

多联体和测序

作为扩增反应(包括热循环方法、等温方法和这些的组合)的产物生成的多联体可包含两个或更多个拷贝的靶多核苷酸。多联体可包含约2、3、4、5、6、7、8、9、10个或更多个拷贝的靶多核苷酸。在一些实施方案中，多联体作为引物延伸反应的产物从多种靶多核苷酸生成，其中所述多种靶多核苷酸的组分的长度不均匀且包含多个序列。

在本公开内容的各个方面中的任何方面的一些实施方案中，引物可包含一个或多个部分。例如，引物可包含一个或多个扩增引物退火序列或其互补体；一个或多个测序引物退火序列或其互补体；一个或多个条形码序列；一个或多个在多种不同引物之间共有的共同序列；一个或多个限制酶识别位点；一个或多个探针结合位点或测序衔接子(例如，用于附接至测序平台，如用于大规模平行测序的流动池)；一个或多个随机或接近随机的序列(例如，从一个或多个位置处的一组两个或更多个不同核苷酸中随机选择的一个或多个核苷酸，其中在一个或多个位置处选择的不同核苷酸中的每一个均表现在包含随机序列的引物池中)；以及它们的组合。在一些实施方案中，引物如第三引物包含测序衔接子元件(在本文中也被称为衔接子)，该元件通常指在多核苷酸的5’和/或3’端掺入以促进多核苷酸测序反应中的一个或多个步骤的寡核苷酸。在一些实施方案中，使用测序衔接子将包含测序衔接子的多核苷酸结合至流动池以供下一代测序。下一代测序方法的非限制性实例是单分子实时测序、离子半导体测序、焦磷酸测序、合成测序、连接测序和链终止。用于流动池附接的测序衔接子可包括与下一代测序系统(例如，454测序、Ion Torrent Proton或PGM和Illumina X10)兼容的任何合适序列。用于下一代测序方法的测序衔接子的非限制性实例包括适合与Illumina测序系统一起使用的P5和P7衔接子；TruSeq通用衔接子；和TruSeq索引衔接子。在一些实施方案中，可使用测序衔接子来例如通过扩增如聚合酶链反应(PCR)来富集包含衔接子序列的多核苷酸。测序衔接子可进一步包含条形码序列和/或样品索引序列。

本公开内容的某些实施方案包括对多个扩增子进行测序。多种测序方法可用于对多个扩增子进行测序。在一些实施方案中，使用高通量测序方法。可使用的测序方法的非限制性实例包括Illumina制造的测序系统(诸如和的测序系统)、LifeTechnologies制造的测序系统(Ion等)、Roche的454LifeSciences系统、Pacific Biosciences系统等。在一些实施方案中，测序包括使用和系统产生长度约或多于约50、75、100、125、150、175、200、250、300个或更多个核苷酸的读数。在一些实施方案中，测序包括合成测序过程，其中随着单独的核苷酸被添加至生长的引物延伸产物上，该核苷酸被迭代地鉴定。焦磷酸测序是合成测序法的一个实例，其通过分析所产生的合成混合物中测序反应副产物即焦磷酸的存在而鉴定核苷酸的掺入。特别地，引物/模板/聚合酶复合体与单一类型的核苷酸接触。如果该核苷酸掺入，则聚合反应切割三磷酸链的α和β磷酸之间的三磷酸核苷，从而释放焦磷酸。然后使用化学荧光酶报告系统鉴定所释放的焦磷酸的存在，该系统将含有AMP的焦磷酸转化为ATP，之后使用萤光素酶测量ATP以产生可测量的光信号。当检测到光时，碱基已掺入，当未检测到光时，碱基未掺入。在适当的洗涤步骤后，使各种碱基周期性地与该复合体接触，以连续地鉴定模板序列中的后续碱基。参见，例如，美国专利号6,210,891。

在本公开内容的各个方面的任何方面的某些实施方案中，在测序之前纯化扩增子。扩增子可通过各种方法纯化。可以纯化扩增子以去除过量或不需要的试剂、反应物或产物。扩增子可进一步通过大小、序列或其他物理或化学特征进行纯化。在一些实施方案中，扩增子可进行大小排阻色谱法，其中在单独的体积中保留和丢弃仅包含一个拷贝的靶多核苷酸和/或小试剂(例如，引物)的扩增子或保留和释放包含两个或更多个拷贝的靶多核苷酸的扩增子。在一些实施方案中，扩增子可从凝胶中进行片段切除并进行凝胶过滤(例如，以富集长度大于约300、400、500个或更多个核苷酸的片段)；以及通过微调结合缓冲液浓度进行SPRI珠子(Agencourt AMPure XP)的大小选择。例如，在与DNA片段混合期间使用0.6x结合缓冲液可用于优先结合大于约500个碱基对(bp)的DNA片段。在一些实施方案中，处理扩增产物以基于大小过滤所得到的扩增子，以减少和/或消除包含多联体的混合物中单体的数目。这可以使用本文其他地方描述的任何纯化技术来完成。

序列变体

在一些实施方案中，对扩增子进行测序以相对于参考序列或在无突变的背景下检测序列变体，例如，倒位、缺失、重复、易位、单个碱基变化和罕见体细胞突变。在一些实施方案中，该序列变体与疾病相关。在一些实施方案中，该序列变体与疾病不相关。通常，与疾病或性状的关联性具有统计学证据、生物学证据和/或功能证据的序列变体被称为“因果遗传变体”。单个因果遗传变体可与多于一种疾病或性状相关。在一些情况下，因果遗传变体可与孟德尔性状、非孟德尔性状或与两者相关。因果遗传变体可表现为多核苷酸变异，如1、2、3、4、5、6、7、8、9、10、20、50个或更多个序列差异(如包含因果遗传变体的多核苷酸与在相同的相对基因组位置处缺乏因果遗传变体的多核苷酸之间的序列差异)。因果遗传变体类型的非限制性实例包括单核苷酸多态性(SNP)、缺失/插入多态性(DIP)、拷贝数变体(CNV)、短串联重复(STR)、限制性片段长度多态性(RFLP)、简单序列重复(SSR)、可变数目串联重复(VNTR)、随机扩增多态DNA(RAPD)、扩增片段长度多态性(AFLP)、逆转录转座子间扩增多态性(IRAP)、长散在元件和散在元件(LINE/SINE)、长串联重复(LTR)、移动元件、逆转录转座子微卫星扩增多态性、基于逆转录转座子的插入多态性、序列特异性扩增多态性和可遗传表观遗传修饰(例如，DNA甲基化)。因果遗传变体也可能是一组密切相关的因果遗传变体。一些因果遗传变体可能施加与RNA多核苷酸中的序列变异一样的影响。在这个水平下，一些因果遗传变体还可由存在或不存在RNA多核苷酸物质来指示。另外，一些因果遗传变体导致蛋白质多肽的序列变异。已经报道了许多因果遗传变体。为SNP的因果遗传变体的实例是导致镰状细胞性贫血的血红蛋白Hb S变体。为DIP的因果遗传变体的实例是导致囊性纤维化的CFTR基因的δ508突变。为CNV的因果遗传变体的实例是21三体，其导致唐氏综合症。为STR的因果遗传变体的实例是导致亨廷顿病的串联重复。WO2014015084中描述了因果遗传变体的其他非限制性实例。WO2015089333中描述了用于鉴定罕见序列变体的方法的其他非限制性实例。

测序分析和碱基判定

根据一些实施方案，如果测序读数与参考序列之间的序列差异在至少两个不同的多核苷酸(例如源自两个不同的环状多核苷酸，它们可以因具有不同的接点而进行区分)中发生，则将其判定为真正的序列变体(例如，存在于扩增或测序前的样品中，并且不是这些过程中的任何一个过程的结果)。因为作为扩增或测序错误的结果的序列变体不可能在包含相同靶序列的两个不同多核苷酸上准确地重复(例如位置和类型)，所以添加这种验证参数极大地减少了错误序列变体的背景，同时伴有检测样品中的实际序列变异的灵敏性和准确性的增加。在一些实施方案中，频率约为或低于约5％、4％、3％、2％、1.5％、1％、0.75％、0.5％、0.25％、0.1％、0.075％、0.05％、0.04％、0.03％、0.02％、0.01％、0.005％、0.001％或更低的序列变体充分高于背景，从而允许精确的判定。在一些实施方案中，序列变体以约为或低于约0.1％的频率发生。在一些实施方案中，当序列变体的频率在统计学上显著地高于背景误差率(例如，p值约为或小于约0.05、0.01、0.001、0.0001或更低)时，该频率充分高于背景。在一些实施方案中，当序列变体的频率约为或至少约为背景误差率的2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、25倍、50倍、100倍或更高(例如至少高5倍)时，该频率充分高于背景。在一些实施方案中，在精确确定给定位置的序列时的背景误差率约为或低于约1％、0.5％、0.1％、0.05％、0.01％、0.005％、0.001％、0.0005％或更低。在一些实施方案中，误差率低于0.001％。在一些实施方案中，使用另外的或备选的验证步骤来区分由真实的序列变体从样品处理产生的序列差异。本文提供了这样的验证步骤的实例，如关于本公开内容的各个方面的任何方面，包括来自单个双链样品分子的差异标记的互补链之间的比较。

在一些实施方案中，鉴定真正的序列变体(也称为“判定”或“作出判定”)包括最优地将一个或多个测序读数与参考序列进行比对以鉴定这两者之间的差异，以及鉴定接点。通常，比对包括将一个序列沿另一个序列放置，迭代地沿每一个序列引入缺口，对两个序列匹配的好坏如何进行打分，并且优选地沿着参考序列对各个位置进行重复。具有最佳得分的匹配被视为对准(alignment)，并且代表了关于序列间的关系程度的推断。在一些实施方案中，与测序读数进行比较的参考序列是参考基因组，例如与受试者属于同一种的成员的基因组。参考基因组可以是完整的或不完整的。在一些实施方案中，参考基因组仅由包含靶多核苷酸的区域组成，例如该区域源自参考基因组或源自所分析的测序读数生成的共有序列。

一般而言，测序数据从大规模平行测序反应获得。许多新一代高通量测序系统将数据输出为FASTQ文件，但是也可使用其他格式。在一些实施方案中，一般通过序列比对，分析序列以鉴定重复单元长度(例如单体长度)、通过环化形成的接点以及任何相对于参考序列的真正变异。鉴定重复单元长度可以包括计算重复单元的区域，找出序列的参考基因座(例如，当一个或多个序列尤其以扩增、富集和/或测序为目标时)、每一个重复区域的边界和/或每次测序读数中的重复序列的数目。在一些实施方案中，如果序列变体在相同多核苷酸的多于一个重复单元中发生，则该序列变体也可被认为是确认的或真正的变体，因为相同的序列变体同样不可能在相同多联体内的重复靶序列的相同位置上发生。序列的质量得分可在鉴定变体和确认变体时考虑，例如，可以过滤掉质量得分低于阈值的序列和碱基。可以使用其他生物信息学方法进一步提高变体判定的灵敏性和特异性。

在一些实施方案中，可以应用统计学分析来确定变异(突变)及量化总DNA样品中的变异比。可使用测序数据计算特定碱基的总测量值。例如，从前面的步骤中计算的比对结果可以计算“有效读数”的数目，即，针对每个基因座的确认读数的数目。变体的等位基因频率可用针对基因座的有效读取计数进行标准化。可计算总噪音水平，该总噪音水平是在所有基因座中观察到的变体的平均率。变体的频率和总噪音水平，结合其他因素，可用于确定变体判定的置信区间。可使用例如Poisson分布的统计模型来评估变体判定的置信区间。也可使用变体的等位基因频率作为总样品中变体的相对量的指标。

实施例

给出以下实施例是为了说明本公开内容的各种实施方案的目的，并不意味着以任何方式限制本公开内容。本实施例是示例性的，并不旨在作为对本公开内容的范围的限制。本领域技术人员将会想到其中的变化和其他用途。

实施例1：使用3’标记和滚环扩增(RCA)鉴定两条双链DNA分子

为了证明使用本文提供的3’端标记方法鉴定双链DNA分子的两条链的能力，合成了长度为150bp的合成测试DNA构建体。如图6所示，合成DNA构建体含有8碱基随机条形码(用‘NNNNNNNN’表示)、基因特异性引物结合位点和用于扩增的共同引物结合位点(共同序列1和共同序列2)。通过ddPCR来确定合成DNA构建体的浓度。

基于ddPCR定量，将DNA构建体与20ng/μl载体DNA原液以100个分子/μl的浓度混合。对于3’端标记，将5μl的NEBNextdA-加尾反应缓冲液和3μl的Klenow片段(3’→5’exo-)添加至20ng的混合DNA样品中。最终体积为50μl。将反应在37℃下温育30分钟，然后使用0.9x AMPureXP珠子进行旋转柱纯化。

然后连接dA加尾DNA样品以形成环状靶多核苷酸。对于连接，通过在95℃加热30秒并在冰上冷却2分钟使12μl的纯化的DNA片段变性。然后，将8μl的含有2μl的10xCircLigase缓冲液、4μl的5M甜菜碱、1μl的50mM MnCl₂和1μl的CircLigase II的连接混合物添加至变性的DNA样品中，并将反应物在60℃下温育至少3个小时。通过外切核酸酶处理步骤去除未环化的线性单链DNA分子。对于外切核酸酶处理，将连接产物在80℃下加热45秒，然后将1μl的外切核酸酶混合物(ExoI 20U/μl:ExoIII100U/μl，1:2比率)添加至样品中。将样品在热循环仪上于37℃下温育30分钟，然后在80℃下温育20分钟。外切核酸酶处理后，将1μl的50mMEDTA添加至每个管。

然后对环状靶多核苷酸进行滚环扩增(RCA)。对于每个反应，将0.34ul的1M Tris-HCl(pH 9.2)、1μl的100mM Tween 20、1.20μl的1M MgSO₄、2.78μl的180mM(NH₄)₂SO₄、0.75uL的dNTP混合物(每个25mM)、0.5μl的10％KCl、2μl的10μM背靠背正向和反向引物结合基因特异性引物结合位点和18.28μl的水添加至每10ng的DNA样品中。将反应在80℃下加热1分钟，并在63℃下温育5分钟，然后冷却至4℃。接下来，向每个反应中添加15单位的Bst 2.0热启动DNA聚合酶。将反应物在热循环仪中用以下程序温育：8个循环的60℃下持续30秒；70℃下持续4.5分钟；94℃下持续20秒；以及58℃下持续10秒。在每两个循环结束时，添加15单位的Bst 2.0热启动DNA聚合酶。

根据制造商关于剩余洗涤步骤的说明，通过添加50μl Ampure珠子来纯化所有扩增产物。对于洗脱，将55μl的洗脱缓冲液添加至每个管，并将珠子在65℃下温育5分钟。短暂旋转后，将管返回到磁体。从每个反应中回收约50μl的洗脱产物。

将每个50μl的洗脱液与5.7μl的10x AccuPrime缓冲液、1μl的25μM衔接子引物以及2单位的AccuPrime HiFi Taq聚合酶混合，该衔接子引物与RCA中使用的引物的3’端的共同序列互补。使用以下PCR程序通过扩增来附接衔接子：95℃下持续2分钟；20个循环的95℃下持续30秒、60℃下持续30秒、72℃下持续2.5分钟；最后在72℃下延伸7分钟。通过琼脂糖凝胶分析PCR扩增的文库产物，并进一步收集大小范围为550

bp-1000bp的产物以用于测序。对得到的扩增产物进行测序。

对于测序数据的生物信息学分析，FASTQ文件是从HiSeq运行中获得的。将FASTQ文件与包含DNA构建体序列的参考文件比对以鉴定感兴趣的靶标。将含有具有相同的8碱基条形码序列的特定DNA构建体序列的读数组合在一起。DNA构建体序列末端处的最后一个碱基被鉴定为A或T，其表明相同双链分子的正向或反向链。对于两个重复实验，表1提供了在测序数据中观察到的独特条形码的数目、具有A或T尾(例如，正向或反向链)的独特条形码的数目、末端标记效率(计算为具有A或T尾的独特条形码数目与观察到的独特条形码数目的比率)、检测到正向和反向链(例如，A加尾和T加尾)的独特条形码的数目和相应的双链确认比率。

表1

实施例2：通过分区鉴定双链DNA分子的两条链

为了证明通过如本文提供的方法的实施方案所述的将互补链分离成单独的反应体积来鉴定双链DNA分子的两条链的能力，合成了如图6示意性所示的含有八碱基随机条形码(由'NNNNNNNN'表示)、基因特异性引物结合位点和用于扩增的共同引物结合位点(共同序列1和共同序列)的合成测试DNA构建体。通过ddPCR来确定DNA构建体的浓度。

基于ddPCR定量，将DNA构建体与20ng/μl载体DNA原液以100个分子/μl的浓度混合。然后连接混合的DNA样品以形成环状靶多核苷酸。对于连接，通过在95℃下加热30秒并在冰上冷却2分钟使20ng的DNA片段变性。然后，将8μl的含有2μl的10x CircLigase缓冲液、4μl的5M甜菜碱、1μl的50mM MnCl₂和1μl的CircLigase II的连接混合物添加至变性的DNA样品中，并将反应物在60℃下温育至少3个小时。通过外切核酸酶处理步骤去除未环化的线性单链DNA分子。对于外切核酸酶处理，将连接产物在80℃下加热45秒，然后将1μl的外切核酸酶混合物(ExoI 20U/μl:ExoIII 100U/μl，1:2比率)添加至样品中。将样品在热循环仪上在37℃下温育30分钟，然后在80℃下温育20分钟。外切核酸酶处理后，将1μl的50mM EDTA添加至每个管。

在滚环扩增(RCA)之前将连接产物分成4个孔。添加0.34uL的1M Tris-HCl(pH9.2)、1μl的100mM MgSO₄、2.78μl的180mM

(NH₄)₂SO₄、0.75uL的dNTP混合物(每个25mM)、0.5μl的10％Tween20、1.20μl的1M KCl和2μl的10μM背对背正向和反向引物结合基因特异性引物结合位点和水以使每个井孔总体积为50uL。将反应在80℃下加热1分钟，并在63℃下温育5分钟，然后冷却至4℃。接下来，向每个反应中添加15单位的Bst 2.0热启动DNA聚合酶。将反应物在热循环仪中用以下程序温育：8个循环的60℃下持续30秒；70℃下持续4.5分钟；94℃下持续20秒；以及58℃下持续10秒。在每两个循环结束时，添加15单位的Bst 2.0热启动DNA聚合酶。

根据制造商关于剩余洗涤步骤的说明，通过添加50μl的AMPure珠子来纯化所有扩增产物。对于洗脱，将55μl的洗脱缓冲液添加至每个管，并将珠子在65℃下温育5分钟。短暂旋转后，将管返回到磁体。从每个反应中回收约50μl的洗脱产物。

将每个50μl的洗脱液与5.7μl的10x AccuPrime缓冲液、1μl的25μM衔接子引物以及2单位的AccuPrime HiFi Taq聚合酶混合，所述引物与RCA中使用的引物的3’端的共同序列互补。使用以下PCR程序通过扩增来附接衔接子：95℃下持续2分钟；20个循环的95℃下持续30秒、60℃下持续30秒、72℃下持续2.5分钟；最后在72℃下延伸7分钟。通过琼脂糖凝胶分析PCR扩增的文库产物，并进一步收集大小范围为550bp-1000bp的产物以用于测序。对得到的扩增产物进行测序。

对于测序数据的生物信息学分析，FASTQ文件是从HiSeq运行中获得的。将FASTQ文件与包含DNA构建体序列的参考文件比对以鉴定靶标。将含有具有相同的8碱基条形码序列的特定DNA构建体序列的读数组合在一起。表2提供了在测序数据中观察到的独特条形码的数目，在四个独立孔中的两个中检测到的独特条形码的数目(例如，分成两个独立孔的互补链)和相应的确认比率。

表2

Claims

1.一种鉴定包含多个双链多核苷酸的核酸样品中的互补链的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：

(a)通过添加一个或多个预定核苷酸延伸所述互补链的3’端以产生延伸的多核苷酸；

(b)扩增所述延伸的多核苷酸；

(c)对所述扩增的多核苷酸进行测序；以及

(d)基于相应3’端和5’端的序列，将互补链鉴定为源自相同双链多核苷酸。

2.一种鉴定包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：

(b)扩增所述延伸的多核苷酸；

(c)对所述扩增的多核苷酸进行测序；

(e)基于所述一个或多个预定核苷酸比较所述相同双链多核苷酸的所述第一互补链和所述第二互补链的序列；以及

(f)仅当相应的第二互补链包含序列差异的互补体时，才将所述第一互补链中相对于参考序列的所述序列差异判定为所述序列变体。

3.根据权利要求1或2所述的方法，其进一步包括基于通过不同数目的预定核苷酸延伸相应3’端，将两条第一互补链或两条第二互补链鉴定为源自不同双链多核苷酸。

4.根据权利要求1或2所述的方法，其进一步包括将衔接子多核苷酸连接至以下的3’端：(i)所述双链多核苷酸的一条或两条链；或(ii)所述延伸的多核苷酸；并任选地使所述衔接子连接的多核苷酸环化。

5.根据权利要求4所述的方法，其中扩增所述延伸的多核苷酸的步骤包括延伸与所述衔接子多核苷酸杂交的引物。

6.根据权利要求1或2所述的方法，其中在所述扩增步骤之前，使所述延伸的多核苷酸环化以产生环状多核苷酸。

7.根据权利要求6所述的方法，其中通过使所述延伸的多核苷酸经受连接反应来实现环化。

8.根据权利要求6所述的方法，其中在环化之前，使所述延伸的多核苷酸变性以形成单链多核苷酸。

9.根据权利要求6所述的方法，其中扩增产生线性多联体，并且进一步地其中每个多联体包含相应的环状多核苷酸或其互补体的两个或更多个拷贝。

10.根据权利要求9所述的方法，其进一步包括仅当在所述多联体的超过一个拷贝中发生相同的序列差异时，才将所述序列差异判定为所述序列变体。

11.根据权利要求2或10所述的方法，其进一步包括仅当在具有3’端和5’端的不同组合的一个或多个双链多核苷酸中发生相同的序列差异时，才将所述序列差异判定为所述序列变体。

12.根据权利要求1或2所述的方法，其中所述扩增包括滚环扩增。

13.根据权利要求1或2所述的方法，其中所述扩增包括延伸随机引物。

14.根据权利要求1或2所述的方法，其中所述扩增包括延伸对靶序列具有特异性的一种或多种引物。

15.根据权利要求13或14所述的方法，其中所述引物包括标签序列、测序引物结合序列或两者。

16.根据权利要求1或2所述的方法，其中所述预定核苷酸是腺嘌呤核苷酸，并且延伸所述3’端包括将一个或多个所述腺嘌呤核苷酸添加至所述3’端。

17.一种用于鉴定包含多个双链多核苷酸的核酸样品中的序列变体的系统，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述系统包括：

(a)计算机，其被配置为接收对样品进行检测反应的用户请求；

(b)扩增单元，其响应于所述用户请求对所述样品或其一部分进行核酸扩增反应，其中所述扩增反应包括以下步骤：(i)通过添加一个或多个预定核苷酸延伸所述互补链的3’端以产生延伸的多核苷酸；以及(ii)扩增所述延伸的多核苷酸；

(c)测序单元，其(i)生成扩增的多核苷酸的测序读数；(ii)鉴定测序读数与参考序列之间的差异；并且(iii)仅当所述相应的第二互补链包含序列差异的互补体时，将所述第一互补链中相对于参考序列的所述序列差异判定为所述序列变体；以及

(d)向接收方发送报告的报告生成器，其中所述报告包括所述序列变体的结果。

18.根据权利要求17所述的系统，其中所述扩增反应进一步包括将衔接子多核苷酸连接至以下的3’端：(i)所述双链多核苷酸的一条或两条链；或(ii)所述延伸的多核苷酸；并任选地使所述衔接子连接的多核苷酸环化。

19.根据权利要求17所述的系统，其中在所述扩增步骤之前，使所述延伸的多核苷酸环化以产生环状多核苷酸。

20.根据权利要求19所述的系统，其中通过使所述延伸的多核苷酸经受连接反应来实现所述环化。

21.根据权利要求19所述的系统，其中在环化之前，使所述延伸的多核苷酸变性以形成单链多核苷酸。

22.根据权利要求19所述的系统，其中扩增产生线性多联体，并且进一步地其中每个多联体包含相应的环状多核苷酸或其互补体的两个或更多个拷贝。

23.根据权利要求22所述的方法，其中仅当在所述多联体的超过一个拷贝中发生相同的序列差异时，所述测序单元才将所述序列差异判定为所述序列变体。

24.根据权利要求17或23所述的系统，其中仅当在具有3’端和5’端的不同组合的一个或多个双链多核苷酸中发生相同的序列差异时，所述测序单元才将所述序列差异判定为所述序列变体。

25.根据权利要求17所述的系统，其中所述扩增包括滚环扩增。

26.根据权利要求17所述的系统，其中所述扩增包括延伸随机引物。

27.根据权利要求17所述的系统，其中所述扩增包括延伸对靶序列具有特异性的一种或多种引物。

28.根据权利要求26或27所述的系统，其中所述引物包括标签序列、测序引物结合序列或两者。

29.根据权利要求17所述的方法，其中所述预定核苷酸是腺嘌呤核苷酸，并且延伸所述3’端包括将一个或多个所述腺嘌呤核苷酸添加至所述3’端。

30.一种包含代码的计算机可读介质，所述代码在由一个或多个处理器执行时实施检测包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：

(a)响应于用户请求，进行测序反应以生成在扩增反应中扩增的多核苷酸的测序读数，其中所述扩增反应包括以下步骤：(i)通过添加一个或多个预定核苷酸延伸所述互补链的3’端以产生延伸的多核苷酸；以及(ii)扩增所述延伸的多核苷酸；

(b)进行测序分析，所述测序分析包括以下步骤：(i)基于所述相应3’端和5’端的序列，将互补链鉴定为源自相同双链多核苷酸；(ii)基于所述一个或多个预定核苷酸比较所述相同双链多核苷酸的所述第一互补链和所述第二互补链的序列；以及(iii)仅当所述相应的第二互补链包含序列差异的互补体时，才将所述第一互补链中相对于参考序列的所述序列差异判定为所述序列变体；以及

(c)生成包含检测所述序列变体的结果的报告。

31.一种确定样品中遗传基因座的拷贝数的方法，所述样品包含多个含有所述遗传基因座的靶多核苷酸，每个靶多核苷酸都具有5’端和3’端，所述方法包括：

(a)通过添加一个或多个预定核苷酸延伸所述靶多核苷酸的3’端以产生延伸的多核苷酸；

(b)扩增所述延伸的多核苷酸；

(c)对所述扩增的多核苷酸进行测序；

(d)当下列一个或多个的相应序列不同时，将包含所述遗传基因座的一个或多个不同多核苷酸鉴定为源自不同靶多核苷酸：(i)所述5’端或其互补体对齐的参考序列；(ii)所述3’端或其互补体对齐的参考序列；以及(iii)所述3’端延伸；以及

(e)对包含所述遗传基因座的不同多核苷酸的数目进行计数，以获得所述遗传基因座的拷贝数。

32.根据权利要求31所述的方法，其中所述扩增步骤包括延伸具有独特的分子标签的引物，并且进一步地其中当下列一个或多个的相应序列不同时，将包含所述遗传基因座的不同多核苷酸鉴定为源自不同靶多核苷酸：(i)所述5’端或其互补体对齐的参考序列；(ii)所述3’端或其互补体对齐的参考序列；(iii)所述3’端延伸；以及(iv)所述独特的分子标签。

33.根据权利要求31所述的方法，其中所述靶多核苷酸是双链多核苷酸，并且所述方法进一步包括基于所述一个或多个预定核苷酸比较所述相同双链多核苷酸的第一互补链和第二互补链的序列。

34.根据权利要求31所述的方法，其进一步包括将衔接子多核苷酸连接至以下的3’端：(i)所述双链多核苷酸的一条或两条链；或(ii)所述延伸的多核苷酸；并任选地使所述衔接子连接的多核苷酸环化。

35.根据权利要求31所述的方法，其中在所述扩增步骤之前，使所述延伸的多核苷酸环化以产生环状多核苷酸。

36.根据权利要求35所述的方法，其中通过使所述延伸的多核苷酸经受连接反应来实现环化。

37.根据权利要求35所述的方法，其中在环化之前，使所述延伸的多核苷酸变性以形成单链多核苷酸。

38.根据权利要求35所述的方法，其中扩增产生线性多联体，并且进一步地其中每个多联体包含相应的环状多核苷酸或其互补体的两个或更多个拷贝。

39.根据权利要求31所述的方法，其中所述扩增包括滚环扩增。

40.根据权利要求31所述的方法，其中所述扩增包括延伸随机引物。

41.根据权利要求31所述的方法，其中所述扩增包括延伸对靶序列具有特异性的一种或多种引物。

42.根据权利要求40或41所述的方法，其中所述引物包括标签序列、测序引物结合序列或两者。

43.根据权利要求31所述的方法，其中所述预定核苷酸是腺嘌呤核苷酸，并且延伸所述3’端包括将一个或多个所述腺嘌呤核苷酸添加至所述3’端。

44.一种鉴定样品中遗传基因座的序列变体的方法，所述样品包含多个含有所述遗传基因座的靶多核苷酸，每个靶多核苷酸都具有5’端和3’端，所述方法包括：

(a)通过添加一个或多个预定核苷酸延伸靶多核苷酸的3’端以产生延伸的多核苷酸；

(b)扩增所述延伸的多核苷酸；

(c)对所述扩增的多核苷酸进行测序以产生测序读数；

(d)基于相应的一个或多个预定核苷酸的序列，通过核苷酸变化的类型鉴定相对于参考序列的序列变化；

(e)确定所述遗传基因座处鉴定的序列变化类型的频率；以及

(f)当所述核苷酸变化类型的频率高于该类型核苷酸变化的背景水平时，将所述序列变化判定为所述序列变体。

45.根据权利要求44所述的方法，其进一步包括将衔接子多核苷酸连接至以下的3’端：(i)所述双链多核苷酸的一条或两条链；或(ii)所述延伸的多核苷酸；并任选地使所述衔接子连接的多核苷酸环化。

46.根据权利要求44所述的方法，其中在所述扩增步骤之前，使所述延伸的多核苷酸环化以产生环状多核苷酸。

47.根据权利要求46所述的方法，其中通过使所述延伸的多核苷酸经受连接反应来实现环化。

48.根据权利要求46所述的方法，其中在环化之前，使所述延伸的多核苷酸变性以形成单链多核苷酸。

49.根据权利要求46所述的方法，其中扩增产生线性多联体，并且进一步地其中每个多联体包含相应的环状多核苷酸或其互补体的两个或更多个拷贝。

50.根据权利要求44所述的方法，其中所述扩增包括滚环扩增。

51.根据权利要求44所述的方法，其中所述扩增包括延伸随机引物。

52.根据权利要求44所述的方法，其中所述扩增包括延伸对靶序列具有特异性的一种或多种引物。

53.根据权利要求51或52所述的方法，其中所述引物包括标签序列、测序引物结合序列或两者。

54.根据权利要求44所述的方法，其中所述预定核苷酸是腺嘌呤核苷酸，并且延伸所述3’端包括将一个或多个所述腺嘌呤核苷酸添加至所述3’端。

55.根据权利要求44所述的方法，其中将C→T转换与所述遗传基因座处的G→A转换区分开。

56.一种包含多对单链环状多核苷酸的核酸组合物；其中，

(a)一对单链环状多核苷酸中的每条链由第一部分和第二部分组成；

(b)一对单链环状多核苷酸中的所述第一部分共享100％的序列互补性；

(c)一对单链环状多核苷酸中的所述第二部分不是互补的；以及

(d)所述第二部分由通过一个或多个预定核苷酸的3’端延伸组成。

57.根据权利要求56所述的核酸组合物，其中所述组合物包含至少10000对单链环状多核苷酸，每对单链环状多核苷酸包含不同的第一部分序列。

58.根据权利要求56所述的核酸组合物，其中少于50％的单链环状多核苷酸与存在于所述组合物中的另一种单链环状多核苷酸100％互补。

59.根据权利要求56所述的核酸组合物，其中所述第一部分比所述第二部分长。

60.根据权利要求56所述的核酸组合物，其中所述第一部分包含无细胞多核苷酸。

61.根据权利要求56所述的核酸组合物，其中所述预定核苷酸由单一类型的核苷酸组成。

62.根据权利要求56所述的核酸组合物，其中所述3’端延伸由单个预定核苷酸组成。

63.一种鉴定包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：

(a)在多个反应体积中提供多个环状单链多核苷酸，其中单独的反应体积仅包含通过连接第一互补链的所述5’端和所述3’端或第二互补链的所述5’端和所述3’端形成的一个环状单链多核苷酸，其中所述一个环状单链多核苷酸具有通过所述连接形成的接点序列；

(b)在多个反应体积中，使用一对正向和反向链标记引物进行引物延伸反应，所述一对正向和反向链标记引物中的至少一个包含链鉴定标签，以产生多个链标记的线性双链多联体，每个链标记的线性双链多联体包含链鉴定标签序列，其中所述链鉴定标签序列对于给定反应体积中的环状单链多核苷酸是独特的；

(c)对所述多个链标记的线性双链多联体进行测序以产生多个测序读数；

(d)如果(i)给定第一互补链包含与给定第二互补链的接点序列互补的接点序列，并且(ii)给定第一互补链包含与第二互补链的链鉴定标签不同的链鉴定标签序列，则从所述多个测序读数中，将所述给定第一互补链和所述给定第二互补链鉴定为源自共同双链多核苷酸。

(e)仅当源自所述共同双链多核苷酸的相应的给定第二互补链包含序列差异的互补体时，将所述给定第一互补链中相对于参考序列的所述序列差异判定为所述序列变体。

64.根据权利要求63所述的方法，其中在(a)中，连接所述第一互补链的所述5’端和所述3’端或所述第二互补链的所述5’端和所述3’端包括将所述5’端连接到所述3’端。

65.根据权利要求63所述的方法，其中(b)中的所述引物延伸反应包括滚环复制、聚合酶链反应或其组合。

66.根据权利要求65所述的方法，其中(b)中的所述引物延伸反应包括：

使用一对正向和反向扩增引物进行滚环复制以产生包含共同序列的多个线性双链多联体，其中所述一对正向和反向扩增引物中的每一个包含(i)在3’端处与环状单链多核苷酸序列或其互补体互补的靶特异性序列，以及(ii)在5’端处与环状单链多核苷酸序列或其互补体不互补的共同序列，以及

使用所述一对正向和反向链标记引物进行聚合酶链反应以产生所述多个链标记的线性双链多联体，其中(i)所述一对正向和反向链标记引物中的每一个包含在3’端处与包含所述共同序列的线性双链多联体的单独的链杂交的所述共同序列，并且(ii)所述一对正向和反向链标记引物中的至少一个包含在5’端处的所述链鉴定标签。

67.根据权利要求65所述的方法，其中(b)中的所述引物延伸反应包括使用所述一对正向和反向链标记引物进行滚环复制，以产生所述多个链标记的线性双链多联体，其中所述一对正向和反向链标记引物中的每一个包含(i)在3’端处与环状单链多核苷酸序列或其互补体互补的靶特异性序列，以及(ii)在5’端处与所述环状单链多核苷酸或其互补体不互补的共同序列。

68.根据权利要求67所述的方法，其中(b)中的所述引物延伸反应进一步包括使用一对正向和反向扩增引物的聚合酶链反应，以产生包含另外的链标记的线性双链多联体的扩增产物，其中所述一对正向和反向扩增引物中的每一个包含在3’端处与链标记的双链线性多联体的单独的链杂交的所述共同序列。

69.根据权利要求66-68中任一项所述的方法，其中所述一对正向和反向链标记引物中的至少一个进一步包含扩增引物结合序列、测序引物结合序列或其组合。

70.根据权利要求66-68中任一项所述的方法，其中所述一对正向和反向扩增引物中的至少一个进一步包含扩增引物结合序列、测序引物结合序列或其组合。

71.根据权利要求63所述的方法，其中所述多个链标记的线性双链多联体的单独的链标记的线性双链多联体包含所述相应的环状单链多核苷酸的两个或更多个拷贝。

72.根据权利要求71所述的方法，其进一步包括仅当在所述线性多联体的至少一个拷贝中发生相同的序列差异时，才将所述序列差异判定为所述序列变体。

73.根据权利要求63所述的方法，其进一步包括仅当在具有3’端和5’端的不同组合的至少两个双链多核苷酸中发生相同的序列差异时，才将所述序列差异判定为所述序列变体。

74.根据权利要求63所述的方法，其中所述多个双链多核苷酸包含无细胞多核苷酸。

75.根据权利要求74所述的方法，其中所述多个双链多核苷酸包含无细胞DNA。

76.根据权利要求74所述的方法，其中所述多个双链多核苷酸包含循环肿瘤DNA。

77.根据权利要求63所述的方法，其中所述多个反应体积包括多个PCR管、微流体室或液滴。

78.一种鉴定包含多个双链多核苷酸的核酸样品中互补链的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：

(a)修饰单独的双链多核苷酸的第一互补链和第二互补链中的至少一个的多核苷酸序列，其中在所述修饰之后，源自共同双链多核苷酸的第一互补链和第二互补链不是完美互补的；

(b)对多个第一互补链和多个第二互补链或其扩增产物进行测序，以产生多个测序读数；以及

(c)基于(i)所述相应3’端和5’端的序列以及(ii)不是完美互补的所述相应的互补链的多核苷酸序列，从所述多个测序读数中，将给定第一互补链和给定第二互补链鉴定为源自共同双链多核苷酸。

79.根据权利要求78所述的方法，其中修饰多核苷酸序列包括(i)通过添加一个或多个预定核苷酸延伸所述第一互补链和所述第二互补链中的至少一个的3’端，(ii)将具有预定义多核苷酸序列的多核苷酸附接至所述第一互补链和所述第二互补链中的至少一个的5’端、3’端或5’端和3’端两者，(iii)改变所述多核苷酸序列的至少一个核苷酸，或(iv)其组合。

80.根据权利要求79所述的方法，其中修饰所述多核苷酸序列包括(iii)改变所述多核苷酸序列中的至少一个核苷酸，并且通过用亚硫酸氢盐处理实现改变所述多核苷酸序列中的至少一个核苷酸。

81.一种鉴定包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：

(b)对多个第一互补链和多个第二互补链或其扩增产物进行测序，以产生多个测序读数；

(c)基于(i)相应3’端和5’端的序列以及(ii)不是完美互补的所述相应的互补链的多核苷酸序列，从所述多个测序读数中，将给定第一互补链和给定第二互补链鉴定为源自共同双链多核苷酸。

(d)比较源自所述共同双链多核苷酸的所述给定第一互补链和所述给定第二互补链的多核苷酸序列；以及

(e)仅当源自所述共同双链多核苷酸的给定第二互补链包含序列差异的互补体时，将所述给定第一互补链中相对于参考序列的所述序列差异判定为所述序列变体。

82.一种鉴定包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：

(a)在多个反应体积中提供多个环状单链多核苷酸，其中单独的反应体积仅包含通过连接第一互补链的所述5’端和所述3’端或第二互补链的所述5’端和所述3’端形成的一个环状单链多核苷酸，其中所述一个环状单链多核苷酸具有通过所述连接形成的接点序列，并且其中第一互补链和第二互补链中的至少一个的多核苷酸序列已被修饰为使得源自共同双链多核苷酸的第一互补链和第二互补链不是完美互补的；

(b)对所述多个环状单链多核苷酸或其扩增产物进行测序，以产生多个测序读数；

(c)如果(i)给定第一互补链包含与给定第二互补链的接点序列互补的接点序列，并且(ii)所述相应的互补链的多核苷酸序列不是完美互补的，则从所述多个测序读数中，将所述给定第一互补链和所述给定第二互补链鉴定为源自共同双链多核苷酸；以及

(d)仅当源自所述共同双链多核苷酸的相应的给定第二互补链包含序列差异的互补体时，将所述给定第一互补链中相对于参考序列的所述序列差异判定为所述序列变体。

83.一种鉴定包含多个双链多核苷酸的核酸样品中的互补链的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：

(a)在多个反应体积中提供多个单链多核苷酸，其中单独的反应体积仅含有一个包含双链多核苷酸的第一互补链或第二互补链的单链多核苷酸；

(b)在多个反应体积中，修饰单链多核苷酸的多核苷酸序列，其中在所述修饰之后，源自共同双链多核苷酸的第一互补链和第二互补链不是完美互补的；

(c)对单链多核苷酸或其扩增产物进行测序，以产生多个测序读数；以及

(d)基于(i)所述相应3’端和5’端的序列以及(ii)不是完美互补的所述相应的互补链的多核苷酸序列，从所述多个测序读数中，将给定第一互补链和给定第二互补链鉴定为源自共同双链多核苷酸。

84.一种鉴定包含多个双链多核苷酸的核酸样品中互补链的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：

(a)在多个反应体积中提供多个单链多核苷酸，其中单独的反应体积仅含有一个包含所述核酸样品的双链多核苷酸的第一互补链或第二互补链的单链多核苷酸，其中所述仅一个单链多核苷酸的多核苷酸序列已被修饰为使得源自共同双链多核苷酸的第一互补链和第二互补链不再是完美互补的；

(b)对多个单链多核苷酸或其扩增产物进行测序，以产生多个测序读数；以及

85.一种鉴定包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：

(c)对单链多核苷酸或其扩增产物进行测序，以产生多个测序读数；

(e)比较源自所述共同双链多核苷酸的所述给定第一互补链和所述给定第二互补链的多核苷酸序列；以及

(f)仅当源自所述共同双链多核苷酸的相应的给定第二互补链包含序列差异的互补体时，将所述给定第一互补链中相对于参考序列的所述序列差异判定为所述序列变体。

86.一种鉴定包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：

(a)在多个反应体积中提供多个单链多核苷酸，其中单独的反应体积仅含有一个包含双链多核苷酸的第一互补链或第二互补链的单链多核苷酸，其中所述仅一个单链多核苷酸的多核苷酸序列已被修饰为使得源自共同双链多核苷酸的第一互补链和第二互补链不再是完美互补的；

(b)对多个单链多核苷酸或其扩增产物进行测序，以产生多个测序读数；

87.一种鉴定包含多个双链多核苷酸的核酸样品中的序列变体的方法，所述多个双链多核苷酸中的每个双链多核苷酸都包含第一互补链和第二互补链，每个互补链都具有5’端和3’端，所述方法包括：

(b)在多个反应体积中，进行扩增反应以产生多种扩增产物，其中所述扩增反应包括：

(i)对于给定反应体积，首先使所述单链多核苷酸环化以产生环状单链多核苷酸，其中所述环状单链多核苷酸具有通过将所述单链多核苷酸的的所述5’端连接至所述3’端形成的接点序列。其次，使用一对正向和反向链标记引物进行引物延伸反应，所述一对正向和反向链标记引物中的至少一个包含链鉴定标签，以产生所述多种扩增产物，其中所述扩增产物包含链标记的线性双链多联体，每个链标记的线性双链多联体包含链鉴定标签序列，其中所述链鉴定标签序列对于所述给定反应体积中的所述单链多核苷酸是独特的；或者

(ii)对于给定反应体积，首先将至少一个衔接子附接至所述单链多核苷酸以产生链标记的单链多核苷酸，其中所述至少一个衔接子包含链鉴定标签序列，其中所述链鉴定标签对于所述给定反应体积中的单链多核苷酸是独特的，其次，进行引物延伸反应以产生包含链标记的双链多核苷酸的多种扩增产物；

(c)对所述扩增产物进行测序以产生多个测序读数；