CN112218956A

CN112218956A - 用于解析核酸混合物和混合细胞群体的方法和试剂及相关应用

Info

Publication number: CN112218956A
Application number: CN201980037564.3A
Authority: CN
Inventors: J·J·索尔克; C·C·瓦伦丁三世; P·达那赫; 罗方吟
Original assignee: Twinstrand Biosciences Inc
Current assignee: Twinstrand Biosciences Inc
Priority date: 2018-05-16
Filing date: 2019-05-16
Publication date: 2021-01-12
Also published as: AU2019269635A1; SG11202011050TA; KR20210013061A; BR112020023296A2; CA3099819A1; WO2019222560A1; US20210292836A1; EP3794120A1; JP2021524736A; EP3794120A4

Abstract

本文公开了用于评估和解析核酸混合物和/或混合细胞群体的方法和相关试剂。本技术的一些实施例涉及利用双重测序来评估和解析样品中的核酸混合物(例如，多嵌合体混合物、来自多于一个来源的核酸的混合物等)和相关应用。其他实施例涉及检测和定量来自混合物的核酸的供体来源。

Description

用于解析核酸混合物和混合细胞群体的方法和试剂及相关应用

相关申请的交叉引用

本申请要求2018年5月16日提交的美国临时专利申请第62/672,573号和2019年2月27日提交的美国临时专利申请第62/811,517号的优先权和权益，它们的公开通过引用以其整体并入本文。

背景技术

解析来自不同克隆或个体的混合细胞群体，或追踪核酸混合物中的原始来源，通常需要追踪在对混合物有贡献的克隆或个体之间不同的特异性遗传标记物。虽然有时可以通过非遗传手段(即在细胞表面上表达的蛋白质的差异等)区分来自不同克隆或个体的细胞，但这并不总是可能的，或者对于高通量使用在实验上可能是不切实际的。遗传多态性可以用作一种方便的、可预测的和统计上可推广的谱系标记物，用于定义细胞或DNA分子的来源。例如，在人类中，约0.1％的人类基因组是多态性的(例如，在人类群体中，每1000个核苷酸碱基中有一个在序列上不同)。常见的变异形式可以包含单核苷酸多态性/单核苷酸变体(SNP/SNV)、多核苷酸变异(MNV)、短插入和缺失(indel)、短串联重复序列(STR)长度的变异以及其他更大规模的结构变异，诸如染色体间或染色体内重排、复制、缺失、串联复制和倒位等。

一般而言，当对个体进行基因分型时，可以通过解析基因型中的这些多态性差异来区分每个个体的各自身份。当使用短读下一代DNA测序(NGS)平台用于基因分型时，SNP是用于区分不同个体的最丰富和最方便的多态性形式之一。给定的多态性位点的总体群体变异程度通常由次要等位基因频率(MAF)来描述，次要等位基因频率是群体中第二个最常见变体的频率(即如从记录的变异(诸如dbSNP)的数据库中确定)。作为示例，0.5的MAF通常意味着在群体中每个等位基因存在50％的丰度，并且0.05的MAF通常意味着存在一个等位基因的5％的丰度和另一个等位基因的95％的丰度，尽管也可以存在较低频率的等位基因(即一个变体为5％，另一个为92％和第三个为3％)。通常，被查询的多态性位点越多，两个或更多个体就越可能彼此区分(图1)。因为基因组的相邻部分通常是共遗传的(即，在连锁不平衡中)，所以评估基因组的不同区域中(即，在不同的染色体上)的多个多态性位点对于最大化能够有效地区分来自不同个体的细胞混合群体的两个或更多个个体贡献者的机会通常是有利的。

已经解析和定量来自不同个体的细胞的混合物的一种方法是单细胞分析方法(图2)，其中对个体细胞进行基因分型(对来自每个独立细胞的DNA或RNA进行测序，并且对每个独特的基因型进行计数)。这可以通过在单个试管、板孔、液滴等中将每个细胞处理为不同的实体来实现，使得来自每个细胞的衍生序列读数可以连接回该相同的细胞(通常使用某种形式的单细胞条形码技术，即，PMID 28091601、PMID 2954551、PMID 30087104)。这种方法是有利的，因为来自单个细胞或大DNA分子的许多多态性标记物的基因型可以在信息上连接在一起，然而，这些方法通常是复杂的、昂贵的并且经常需要完整的细胞或其他特殊的材料制备。

另一种方法是单分子分析，其中混合和生长在一起的细胞具有大量提取和基因分型的核酸，并且计数单个多态性位点的相对丰度。结果可以在计算上去卷积，并且与来自每个单独来源的已知基因型进行比较(图3)。在细胞内不含的DNA分子的混合物可以类似地进行基因分型和去卷积。这种方法比单细胞基因分型更简单，但可能需要测序至更高的深度并评估更多的多态性位点，以从技术上解析混合物。这种方法还可能需要高得多的测序准确度，这对于常规的NGS方法来说可能是限制性的，尤其是当混合物的复杂性增加时。

发明内容

本技术一般涉及用于评估和解析核酸混合物和/或混合细胞群体的方法和相关试剂。特别地，本技术的一些实施例涉及利用双重测序来评估和解析样品中的核酸混合物(例如，多嵌合体混合物、来自多于一个来源的核酸的混合物等)和相关应用。例如，本技术的各种实施例包含进行双重测序方法，该方法允许直接识别和定量个体等位基因以及等位基因的独特组合，以将混合物去卷积成该混合物的原始来源的比例。本技术的各个方面在临床前和临床癌症(肿瘤)评估、法医学(识别等)、用于细胞疗法(例如脐带血疗法)的混合物评估、来自人类来源的样品的混合物评估、微嵌合体的检测、具有细胞制造的质量控制、食品供应中的混合物识别(例如主食作物、鱼的品系的混合物等)、生物工业过程中的污染评估(例如基于细胞的制造)、密切相关的品系、物种、品种或准物种的混合物去卷积、非法贩运的动物或动物产品的识别、植物或动物的专有品系的污染或误用、胎儿DNA的多胎妊娠去卷积、器官移植衍生的DNA的去卷积等中具有许多应用。

在一些实施例中，本公开提供用于检测和/或定量来自混合物的核酸的供体来源的方法，所述方法包括以下步骤：提供包括来自一个或多个供体来源的靶双链DNA分子的混合物，其中所述靶双链DNA分子含有一个或多个遗传多态性；以及为所述混合物中的多个靶双链DNA分子中的每一个生成错误校正的序列读数。在某些实施例中，生成错误校正的序列读数包括以下步骤：将衔接子分子连接至多个靶双链DNA片段以生成多个衔接子-DNA分子，生成衔接子-DNA分子的原始第一链的一组拷贝和衔接子-DNA分子的原始第二链的一组拷贝，对原始第一链和第二链的一个或多个拷贝进行测序以提供第一链序列和第二链序列，以及比较第一条链序列和第二条链序列以识别第一条链序列和第二条链序列之间的一个或多个对应。所述方法还包括通过将所述错误校正的序列读数去卷积成个体基因型来识别核酸的混合物中存在的核酸的供体来源。

在一些实施例中，本公开还提供了用于检测和/或定量来自混合物的核酸的供体来源的方法，所述方法包含以下步骤：从原始测序数据生成双重测序数据，其中所述原始测序数据从包括来自一个或多个供体来源的靶双链DNA分子的混合物生成，并且其中所述靶双链DNA分子含有一种或多种遗传多态性；以及通过将所述错误校正的序列读数去卷积成个体基因型来识别存在于所述核酸的混合物中的核酸的供体来源。

在一些实施例中，所述混合物包含一种或多种未知的个体基因型，并且其中将错误校正的序列读数去卷积成个体基因型包括以下步骤：识别存在于映射到参考序列中的一个或多个遗传基因座的个体靶双链DNA分子内的微单倍型等位基因组合，针对存在于一个或多个遗传基因座内的每个遗传基因座处的所有可能的基因型评估所有可能的混合比例，以及确定充分地适合所识别的微单倍型等位基因组合的所有可能的个体基因型的列表和所评估的所有可能的混合比例。

在其他实施例中，所述混合物包括一种或多种已知的个体基因型，并且其中将所述错误校正的序列读数去卷积成个体基因型包括以下步骤：识别存在于所述混合物中的个体靶双链DNA分子内的微单倍型等位基因组合，对从每个已知个体基因型捐献的每个等位基因的总计数求和，以及确定存在于所述混合物中的每个已知基因型的混合比例。

在一些实施例中，所述混合物包括多于一种供体来源，并且其中所述方法进一步包括通过计算每个遗传多态性的比例或在所述错误校正的序列读数中存在的遗传多态性的基本上独特的组合的比例来确定来自所述混合物中存在的多于一种供体来源的每个供体来源的比例。在一些实施例中，从一个或多个脐带血样品中提取靶双链DNA分子。在其他实施例中，靶双链DNA分子是从法医样品中提取的。在进一步的实施例中，靶双链DNA分子是从具有干细胞或器官移植的患者中提取的。在又进一步的实施例中，从患者中提取靶双链DNA分子，并且其中识别混合物中存在的一种或多种供体来源包含测量患者中微嵌合体的水平。在其他实施例中，靶双链DNA分子是从肿瘤样品中提取的。

在一些实施例中，所述方法可以进一步包括定量混合物中存在的每个个体基因型的相对丰度。在其他实施例中，所述一种或多种遗传多态性包括微单倍型。在包含为混合物中的多个靶双链DNA分子中的每一个生成错误校正的序列读数的步骤的实施例中，所述方法可以进一步包括在测序之前选择性地富集一个或多个靶向的基因组区域。在包含生成双重测序数据的步骤的实施例中，在生成原始测序数据之前，混合物中的靶双链DNA分子可以选择性地富集一个或多个靶向的基因组区域。在一些这样的实施例中，一个或多个靶向的基因组区域包括基因组中的微单倍型位点。

在一些实施例中，该方法提供检测和/或定量来自混合物的核酸的供体来源，其中一种或多种供体来源具有已知的基因型。在其他实施例中，所述方法提供检测和/或定量来自混合物的核酸的供体来源，其中一种或多种供体来源具有未知的基因型。在各种实施例中，所述方法可以包含将一种或多种个体基因型与包括多种已知基因型的数据库进行比较，以识别所述一种或多种供体来源。

在一些实施例中，本公开提供了系统，诸如例如用于检测和/或定量来自混合物的核酸的供体来源的系统。根据本技术的方面的系统的各种实施例包含用于传输与测序数据和基因型数据有关的信息的计算机网络，其中所述信息包含原始测序数据、双重测序数据、样品信息和基因型信息中的一种或多种；与一个或多个用户计算装置相关联并与计算机网络通信的客户端计算机；连接到计算机网络的数据库，用于存储多个基因型概况和用户结果记录；双重测序模块，其与所述计算机网络通信，并被配置为接收来自所述客户端计算机的原始测序数据和请求用于生成双重测序数据，对来自代表原始双链核酸分子的家族的序列读数进行分组，并且将来自单独的链的代表性序列相互比较以生成双重测序数据；以及基因型模块，其与所述计算机网络通信并且被配置为识别微单倍型等位基因并且计算所述供体来源的相对丰度以生成基因型数据。在一些实施例中，基因型概况包括来自多个已知供体来源的微单倍型和/或单核苷酸多态性(SNP)信息。

在一些实施例中，本公开提供了一种计算机系统，用于执行根据本技术的方面的方法，并且例如本文所述用于检测和/或定量来自混合物的核酸的供体来源。该系统可以包含至少一台计算机，该计算机具有处理器、存储器、数据库和包括用于处理器的指令的非暂时性计算机可读存储介质，其中所述处理器被配置为执行所述指令以执行包括所述方法的操作。

在一些实施例中，本公开提供了一种包括指令的非暂时性计算机可读存储介质，所述指令在由一个或多个处理器执行时执行根据本技术的方面并且例如如本文所述的方法。在某些实施例中，非暂时性计算机可读存储介质包含用于计算每个所识别的供体来源的混合比例的指令。

在又进一步的实施例中，本公开提供了一种非暂时性计算机可读介质，其内容使至少一台计算机执行用于提供样品中双链核酸分子的双重测序数据的方法，所述样品包括供体来源材料的混合物。例如，一些方法包含以下步骤：从用户计算装置接收原始序列数据；产生样品特异性数据集，所述样品特异性数据集包括源自所述样品中的多个核酸分子的多个原始序列读数；对来自代表原始双链核酸分子的家族的序列读数进行分组，其中所述分组基于共享的单分子标识符序列；比较来自原始双链核酸分子的第一链序列读数和第二链序列读数，以识别第一链序列读数和第二链序列读数之间的一个或多个对应；提供样品中双链核酸分子的双重测序数据；和识别样品中单个双链核酸分子内存在的微单倍型等位基因组合，以识别混合物中的一种或多种供体来源；以及任选地，计算每个所识别的供体来源的混合比例。在一些实施例中，这样的方法还可以包含以下步骤：识别所比较的第一序列读数和第二序列读数之间的非互补的核苷酸位置，并且在非互补的位置，识别和消除或忽略过程错误。

在其他实施例中，本公开提供了一种非暂时性计算机可读介质，其内容使至少一台计算机执行用于检测、识别和定量核酸混合物中存在的微单倍型以确定样品的已知来源基因型的方法，其中所述方法包含以下步骤：识别混合物中单个DNA分子内存在的微单倍型等位基因组合；对从每个已知来源基因型捐献的每个等位基因的总计数求和；以及确定混合物中存在的每种基因型的混合比例。在一些实施例中，该方法还可以包含计算混合比例的步骤，该步骤包含使用基于回归的模型。在进一步的实施例中，所述方法还可以包含将确定的每种基因型的混合比例与原始混合比例进行比较的步骤。

在又进一步的实施例中，本公开提供了一种非暂时性计算机可读介质，其内容使至少一台计算机执行用于去卷积样品中未知基因型的核酸混合物的方法，其中所述方法包含以下步骤：识别混合物中单个DNA分子内存在的微单倍型等位基因组合；针对存在于每个遗传基因座的所有可能的基因型评估所有可能的混合比例；以及确定充分地适合所识别的微单倍型等位基因组合的所有可能基因型的列表和所评估的所有可能的混合比例。在一些实施例中，该方法还可以包含将来自样品中未知基因型的可能基因型与包括已知来源的基因型概况的数据库进行比较以识别供体来源的步骤。

本技术的其他实施例和方面将在以下详细描述中进一步描述。

附图说明

参考下面的图可以更好地理解本公开的许多方面，这些图一起构成附图。这些图仅用于说明目的，而非用于限制。附图中的部件不必按比例绘制。而是，重点在于清楚地说明本公开的原理。

图1、图2和图3各自示出了来自现有技术的SNP测序的方面。

图4A示出了与本技术的一些实施例一起使用的核酸衔接子分子，以及根据本技术的实施例的由衔接子分子与双链核酸片段的连接产生的双链衔接子-核酸复合物。

图4B和图4C是根据本技术的实施例的各种双重测序方法步骤的概念性卡通图示。

图5是根据本技术的实施例的与本文公开的用于去卷积混合物中的核酸方法和/或试剂一起使用的网络计算机系统的示意图。

图6是示出了根据本技术的实施例的用于提供根据本技术的实施例的双重测序共有序列数据的例程的流程图。

图7是示出了根据本技术的实施例的用于检测、识别和定量核酸混合物中存在的微单倍型以确定样品的已知来源基因型的例程的流程图。

图8是示出了根据本技术的实施例的用于去卷积样品中未知基因型的核酸混合物的例程的流程图。

图9示出了根据本技术的方面，可以使用图7的例程确定的基因型数据的一个示例。

图10示出了根据本技术的方面，可以使用图8的例程确定的基因型数据的一个示例。

图11示出了根据本技术的方面的用于分析脐带血扩增随后对核酸混合物进行去卷积的方法的示意图。

图12提供了根据本技术的方面的在图11中描述的方法中使用的SNP面板的示例性总体分布。

图13是示出了根据本技术的方面的每个样品的示例性靶上双重测序深度的柱状图。

图14示出了根据本技术的方面的识别用于区分供体基因型的11个特异性SNP等位基因的图。

图15A-B和图15C-D各自为示出了混合物中每一脐带样品的相对丰度的柱状图，如通过Nanodrop测序(对于每个样品在左侧的深灰色柱)并根据本技术的方面(对于每个样品在右侧的浅灰色柱)进行定量。

图15E是示出了根据本技术的方面的通过Nanodrop(对于每个样品在左侧的深灰色柱)和通过Qubit荧光计(对于每个样品在右侧的浅灰色柱)测量在每个样品内的DNA定量的柱状图。

图16示出了根据本技术的方面的每种混合物中的每种单独的脐带血样品的定量的倍数差异。

图17是描绘了根据本技术的方面的对于每个单独的脐带血样品在扩增前流式细胞术测定的细胞的CD34+部分和在扩增后细胞的CD34⁺部分(如通过双重测序测定的)的柱状图。

图18A是示出了根据本技术的方面的作为核苷酸序列长度的函数的微单倍型区域的频率的柱状图。

图18B是根据本技术的方面的在变化的群体中的一个微单倍型的等位基因频率的示例。

图19是示出了根据本技术的方面的用于显示混合比例的估计的双重测序数据的模拟的去卷积的结果的线图。

图20示出了根据本技术的方面的用于确定混合物内的供体来源的线性回归模型的一个示例。

图21的图A-D各自是描绘了根据本技术的方面的来源1-5的真实混合比例的柱状图。

图22的图A-D示出了根据本技术的方面，当五种潜在来源中的每一种的基因型预先已知时，针对每种混合物中每种单独来源的估计的混合比例绘制的真实混合比例。

图23A、图23B、图23C和图23D为根据本技术的方面的每个热图的图，其证明了使用双重测序在样品中确定的每个未知基因型来源的似然和丰度。

图24的图A-D示出了根据本技术的方面，即使当来源的基因型先前不是已知时，也可以确定多个来源的微单倍型等位基因的结果。

图25是根据本技术的方面将样品的实际混合比例与混合物中样品的丰度的估计进行比较的散点图。

图26是根据本技术的方面的绘制检测到的混合物中存在的基因型的比例(实线)和具有至少一个假阳性的读数的比例(虚线)的线图。

图27的图A-C是示出了根据本技术的方面的在50种基因型的3种不同模拟的混合物中估计的/真实的混合比例的线图。

具体实施方式

下面参考图1-27来描述本技术的若干个实施例的具体细节。所述实施例可以包含，例如，用于去卷积混合物和来源识别的方法以及用于这样的方法的相关试剂、试剂盒和软件。本技术的一些实施例涉及利用双重测序来评估和解析混合物(例如，细胞混合物、组织混合物、多嵌合体生物体或组织、胎儿DNA、移植组织、多嵌合体细胞培养物、法医样品、核酸混合物等)。本技术的其他实施例涉及利用双重测序来确定与个体或个体群体相关的基因型特征(例如，独特多态性的组合)。本技术的另外的实施例涉及基于例如个体的基因型特征来识别对混合物有贡献的遗传物质的多于一个来源和每个来源的相对比例。

尽管本文关于双重测序描述了许多实施例，但是除了本文描述的那些之外，能够生成错误校正的测序读数的其他测序方式也在本技术的范围内。此外，本技术的其他实施例可以具有不同于本文描述的配置、组分或程序。因此，本领域普通技术人员将相应地理解，该技术可以具有带有附加要素的其他实施例，并且该技术可以具有没有下面参考图1-27示出和描述的若干个特征的其他实施例。

I.某些定义

为了更容易理解本公开，下面首先定义某些术语。用于以下术语和其他术语的附加定义在整个说明书中阐述。

在本申请中，除非在上下文中另有说明，否则术语“一个”可以理解为表示“至少一个”。如在本申请中所使用的，术语“或”可以理解为意指“和/或”。在本申请中，术语“包括(comprising)”和“包含(including)”可以被理解为包含逐项列出的部件或步骤，无论是由它们单独呈现还是与一个或多个附加部件或步骤一起呈现。在本文提供范围的情况下，包含端点。如在本申请中所使用的，术语“包括(comprise)”和该术语的变体，例如“包括(comprising)”和“包括(comprises)”，并不旨在排除其他添加剂、组分、整体或步骤。

约：术语“约”当在本文中参考值使用时，是指在上下文中与参考值相似的值。一般来说，熟悉上下文的本领域技术人员将理解在该上下文中由“约”所包含的相关变化程度。例如，在一些实施例中，术语“约”可以包含一些在参考值的25％、20％、19％、18％、17％、16％、15％、14％、13％、12％、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％、1％或更小的范围内的值。对于单个数字整数值的方差，其中在正或负方向上的单个数值步长将超过该值的25％，本领域技术人员通常接受“约”以包含在正或负方向上的至少1、2、3、4或5个整数值，根据情况，该值可以或不可以过零。对此的非限制性示例是这样的假设：在对于本领域技术人员来说显而易见的某些情况下，3美分可以被认为是约5美分。

类似物：如本文中所使用的，术语“类似物”是指与参考物质共享一个或多个特定结构特征、元素、组分或部分的物质。通常地，“类似物”显示出与参考物质显著的结构相似性，例如共享核心或共有结构，但是在某些离散方式上也不同。在一些实施例中，类似物是可以从参考物质生成的物质，例如通过参考物质的化学处理。在一些实施例中，类似物是可以通过执行与生成参考物质的过程基本相似(例如，与其共享多个步骤)的合成过程来生成的物质。在一些实施例中，类似物通过执行不同于用于生成参考物质的合成过程的合成过程来生成或可以通过该合成过程来生成。

生物样品：如本文中所使用的，术语“生物样品”或“样品”通常是指如本文所描述的从相关的一种或多种生物来源(例如，组织或生物体或细胞培养物)获得或衍生的样品。在一些实施例中，相关的来源包括生物体，例如动物或人类。在其他实施例中，相关的来源包括微生物，诸如细菌、病毒、原生动物或真菌。在进一步的实施例中，相关的来源可以是合成组织、生物体、细胞培养物、核酸或其他材料。在又进一步的实施例中，相关的来源可以是基于植物的生物体。在又一个实施例中，样品可以是环境样品，诸如例如水样品、土壤样品、考古样品或从非生物来源收集的其他样品。在其他实施例中，样品可以是多生物体样品(例如，混合生物体样品)。在又进一步的实施例中，样品可以包括细胞混合物或组织混合物。在其他实施例中，样品可以来自多嵌合体生物体或组织、移植组织或多嵌合体细胞培养物。在进一步的实施例中，样品可以包括胎儿DNA。在又其他实施例中，可以从犯罪现场或其他执法调查询问(例如，在诸如用于识别犯罪人、受害者或失踪人员等的法医案件中)收集样品。在其他实施例中，可以从战争或恐怖主义调查询问或历史研究(例如，用于识别受害者或失踪人员)等中收集样品。在其他实施例中，可以从考古研究中收集样品。在一些实施例中，生物样品是或包括生物组织或流体。在一些实施例中，生物样品可以是分离的DNA或其他核酸或可以包括骨髓；血液；血细胞；干细胞、腹水；组织样品、活检样品或细针抽吸样品；含有细胞的体液；自由漂浮的核酸；蛋白质结合的核酸、核糖蛋白质结合的核酸；痰；唾液；尿液；脑脊液、腹膜液；胸膜液；粪便；淋巴液；妇科流体；皮肤拭子；阴道拭子；巴氏涂片、口腔拭子；鼻拭子；冲洗液或灌洗液，例如导管灌洗液或肺泡灌洗液；阴道流体、抽吸物；废料；骨髓标本；组织活检标本；胎儿组织或流体；外科标本；粪便、其他体液、分泌物和/或排泄物；和/或由此的细胞等。在一些实施例中，生物样品是或包括从个体获得的细胞。在一些实施例中，获得的细胞是或者包含来自从中获得样品的个体的细胞。在一些实施例中，细胞衍生物例如细胞器或囊泡或外泌体。在特定的实施例中，生物样品是从受试者获得的液体活检样品。在一些实施例中，样品是通过任何合适的方式直接从相关的来源获得的“初级样品”。例如，在一些实施例中，初级生物样品通过选自由活检(例如，细针抽吸或组织活检)、手术、体液(例如，血液(或从其分离的血浆或血清)、淋巴液、粪便等)的收集等组成的组的方法来获得。在一些实施例中，如将从上下文中清楚的是，术语“样品”是指通过处理(例如，通过除去初级样品的一种或多种组分和/或通过向初级样品中加入一种或多种药剂)初级样品获得的制剂。例如，使用半透膜过滤。这样的“处理过的样品”可以包括例如从样品中提取的或者通过使初级样品经历诸如mRNA的扩增或反转录、某些组分的分离和/或纯化等的技术而获得的核酸或蛋白质。

癌症疾病：在一个实施例中，疾病或障碍是本领域技术人员所熟知的“癌症疾病”，其特征通常是可能转移的异常细胞的生长失调。使用本技术的一个或多个方面可检测的癌症疾病包括，作为非限制性示例，前列腺癌(即腺癌、小细胞)、卵巢癌(例如卵巢腺癌、浆液性癌或胚胎癌、卵黄囊瘤、畸胎瘤)、肝癌(例如HCC或肝细胞瘤、血管肉瘤)、浆细胞瘤(例如多发性骨髓瘤、浆细胞性白血病、浆细胞瘤、淀粉样变性、瓦尔登斯特伦巨球蛋白血症)、结肠直肠癌(例如结肠腺癌、结肠粘液腺癌、类癌、淋巴瘤和直肠腺癌、直肠鳞癌)、白血病(例如，急性髓细胞性白血病、急性淋巴细胞性白血病、慢性髓细胞性白血病、慢性淋巴细胞性白血病、急性成髓细胞性白血病、急性早幼粒细胞性白血病、急性粒-单核细胞性白血病、急性单核细胞性白血病、急性红白血病和慢性白血病、T细胞白血病、塞扎里综合征、系统性肥大细胞增多症、毛细胞白血病、慢性髓细胞性白血病母细胞危象)、骨髓增生异常综合征、淋巴瘤(例如，弥漫性大B细胞淋巴瘤、皮肤T细胞淋巴瘤、外周T细胞淋巴瘤、霍奇金淋巴瘤、非霍奇金淋巴瘤、滤泡性淋巴瘤、套细胞淋巴瘤、MALT淋巴瘤、边缘细胞淋巴瘤、里克特转化、双发性淋巴瘤、移植相关淋巴瘤、CNS淋巴瘤、结外淋巴瘤、HIV相关淋巴瘤、毛细胞白血病、变异毛细胞白血病、地方性淋巴瘤、伯基特淋巴瘤、与移植相关的淋巴增生性肿瘤和淋巴细胞淋巴瘤等)、子宫颈癌(鳞状子宫颈癌、透明细胞癌、HPV相关癌、子宫颈癌肉瘤等)、食道癌(食管鳞状细胞癌、腺癌、某些等级的巴雷特食管、食管腺癌)、黑色素瘤(皮肤黑色素瘤、葡萄膜黑色素瘤、肢端黑色素瘤、无色素黑色素瘤等)、CNS肿瘤(例如少突胶质细胞瘤、星形细胞瘤、多形性胶质母细胞瘤、脑膜瘤、许旺氏细胞瘤、颅咽管瘤等)、胰腺癌(例如腺癌、腺鳞癌、印戒细胞癌、肝样癌、胶质细胞癌、胰岛细胞癌、胰腺神经内分泌癌等)、胃肠道间质瘤、肉瘤(例如，纤维肉瘤、粘液肉瘤、脂肪肉瘤、软骨肉瘤、成骨肉瘤、血管肉瘤、内皮瘤肉瘤、淋巴管肉瘤、淋巴管内皮瘤肉瘤、平滑肌肉瘤、尤因肉瘤和横纹肌肉瘤、梭形细胞瘤等)、乳腺癌(例如，炎性癌、大叶癌、导管癌等)、ER阳性癌、HER-2阳性癌、膀胱癌(鳞状膀胱癌、小细胞膀胱癌、尿路上皮癌等)、头颈癌(例如，头颈鳞状细胞癌、HPV相关的鳞状细胞癌、鼻咽癌等)、肺癌(例如，非小细胞肺癌、大细胞癌、支气管肺癌、鳞状细胞癌、小细胞肺癌等)、转移性癌、口腔癌、子宫癌(平滑肌肉瘤、平滑肌瘤等)、睾丸癌(例如精原细胞瘤、非精原细胞瘤和胚胎癌卵黄囊瘤等)、皮肤癌(例如鳞状细胞癌和基底细胞癌、默克尔细胞癌、黑色素瘤、皮肤t细胞淋巴瘤等)、甲状腺癌(例如，乳头状癌、髓样癌、间变性甲状腺癌等)、胃癌、上皮内癌、骨癌、胆道癌、眼癌、喉癌、肾癌(例如肾细胞癌、维尔姆斯瘤等)、胃癌、母细胞瘤(例如肾母细胞瘤、髓母细胞瘤、血管母细胞瘤、神经母细胞瘤、视网膜母细胞瘤等)、骨髓增生性肿瘤(真性红细胞增多症、原发性血小板增多症、骨髓纤维化等)、脊索瘤、滑膜瘤、间皮瘤、腺癌、汗腺癌、皮脂腺癌、囊腺癌、胆管癌、绒毛膜癌、上皮癌、室管膜瘤、松果体瘤、听神经瘤、许旺氏细胞瘤、脑膜瘤、垂体腺瘤、神经鞘瘤、小肠癌、嗜铬细胞瘤、小细胞肺癌、腹膜间皮瘤、甲状旁腺腺瘤、肾上腺癌、未知原发癌、内分泌系统癌、阴茎癌、尿道癌、皮肤或眼内黑色素瘤、妇科肿瘤、儿童实体瘤或中枢神经系统肿瘤、原发性纵隔生殖细胞肿瘤、不确定潜能的克隆性造血、冒烟型骨髓瘤、未知显著性的单克隆γ球蛋白病、单克隆B细胞淋巴细胞增多症、低度癌症、克隆视野缺陷、癌前肿瘤、输尿管癌、自身免疫相关癌症(即溃疡性结肠炎、原发性硬化性胆管炎、乳糜泻)、与遗传易感性相关的癌症(即携带遗传缺陷的癌症，例如BRCA1、BRCA2、TP53、PTEN、ATM等)和各种遗传综合征(例如MEN1、MEN2三体性21等)以及在子宫内暴露于化学品时发生的癌症(即暴露于己烯雌酚[DES]的女性的雌性后代中的透明细胞癌)，以及许多其他疾病。

确定：本文描述的许多方法包含“确定”的步骤。阅读本说明书的本领域普通技术人员将理解，这样的“确定”可以利用或通过使用本领域技术人员可用的各种技术中的任何一种来实现，包含例如本文明确提及的特定技术。在一些实施例中，确定包含物理样品的操作。在一些实施例中，确定包含对数据或信息的考虑和/或操纵，例如利用适于执行相关分析的计算机或其他处理单元。在一些实施例中，确定包含从来源接收相关信息和/或材料。在一些实施例中，确定包含将样品或实体的一个或多个特征与可比参考进行比较。

双重测序(DS)：如本文中所使用的，“双重测序(DS)”在其最广泛的意义上是指一种基于标签的错误校正方法，其通过比较来自单个DNA分子的两条链的序列来实现异常的准确性。

表达：如本文中所使用的，核酸序列的“表达”是指下列事件中的一个或多个：(1)由DNA序列产生RNA模板(例如，通过转录)；(2)处理RNA转录本(例如，通过剪接、编辑、5'帽形成和/或3'端形成)；(3)将RNA翻译成多肽或蛋白质；和/或(4)多肽或蛋白质的翻译后修饰。

突变：如本文中所使用的，术语“突变”是指核酸序列或结构的改变。在复杂的多核苷酸变化中，多核苷酸序列的突变可以包含点突变(例如，单碱基突变)、多核苷酸突变、核苷酸缺失、序列重排、核苷酸插入和样品中DNA序列的复制。突变可以发生在双重DNA分子的两条链上，作为互补碱基的变化(即真正的突变)，或者作为一条链上的突变而不是另一条链上的突变(即异源双重)，其具有被修复、破坏或被错误修复/被转化为真正的双链突变的潜力。突变可以代表相对于来自相同或相关来源和/或个体的对照样品的改变。突变可以代表相对于参考序列的改变。

非癌性疾病：在另一个实施例中，疾病或障碍是由基因组突变或损伤引起的或导致的非癌性疾病。作为非限制性示例，使用本技术的一个或多个方面可检测的这样的非癌类型的疾病或障碍包括糖尿病；自身免疫性疾病或障碍、不孕症、神经变性、早衰症、心血管疾病、与用于另一种遗传介导的疾病(即与化疗(例如顺铂)相关的化疗介导的神经病变和肾衰竭)的治疗相关的任何疾病、阿尔茨海默病/痴呆、肥胖症、心脏病、高血压、关节炎、精神疾病、其他神经障碍(神经纤维瘤病)和多因素遗传障碍(例如，由环境因素触发的体质)。

核酸：如本文中所使用的，在其最广泛的意义上，是指被掺入到或可以被掺入到寡核苷酸链中的任何化合物和/或物质。在一些实施例中，核酸是通过磷酸二酯键被掺入到或可以被掺入到寡核苷酸链中的化合物和/或物质。如将从上下文中可以清楚的是，在一些实施例中，“核酸”是指单个核酸残基(例如，核苷酸和/或核苷)；在一些实施例中，“核酸”是指包括单个核酸残基的寡核苷酸链。在一些实施例中，“核酸”是或包括RNA；在一些实施例中，“核酸”是或包括DNA。在一些实施例中，核酸是、包括或由一个或多个天然核酸残基组成。在一些实施例中，核酸是、包括或由一种或多种核酸类似物组成。在一些实施例中，核酸类似物不同于核酸，因为它不利用磷酸二酯主链。例如，在一些实施例中，核酸是、包括或由一种或多种“肽核酸”组成，所述“肽核酸”是本领域中已知的，并且在主链中具有肽键而不是磷酸二酯键，被认为在本技术的范围内。可替代地或另外地，在一些实施例中，核酸具有一个或多个硫代磷酸酯和/或5'-N-亚磷酰胺键，而不是磷酸二酯键。在一些实施例中，核酸是、包括或由一种或多种天然核苷(例如，腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸腺嘧啶、脱氧鸟苷和脱氧胞苷)组成。在一些实施例中，核酸是、包括或由一种或多种核苷类似物组成(例如，2-氨基腺苷、2-硫代嘧啶、肌苷、吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、C-5丙炔基-胞苷、C-5丙炔基-尿苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基-尿苷、C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、0(6)-甲基鸟嘌呤、2-硫代胞苷、甲基化碱基、插层碱基及其组合)。在一些实施例中，与天然核酸中的核酸相比，核酸包括一种或多种修饰的糖(例如2'-氟核糖、核糖、2'-脱氧核糖、阿拉伯糖和己糖)。在一些实施例中，核酸具有编码功能基因产物例如RNA或蛋白质的核苷酸序列。在一些实施例中，核酸包含一个或多个内含子。在一些实施例中，核酸通过从天然来源分离、通过基于互补模板的聚合的酶促合成(体内或体外)、在重组细胞或系统中的复制和化学合成中的一种或多种来制备。在一些实施例中，核酸是至少2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、275、300、325、350、375、400、425、450、475、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、5000或更多的残基长度。在一些实施例中，核酸是部分或全部单链的；在一些实施例中，核酸是部分或全部双链的。在一些实施例中，核酸可以是分支的或具有二级结构。在一些实施例中，核酸具有包括至少一种编码多肽的元件核苷酸序列，或者是编码多肽的序列的互补物。在一些实施例中，核酸具有酶活性。在一些实施例中，核酸发挥机械功能，例如在核糖核蛋白复合物或转移RNA中。

多核苷酸损伤：如本文中所使用的，术语“多核苷酸损伤”或“核酸损伤”是指对受试者的脱氧核糖核酸(DNA)序列(“DNA损伤”)或核糖核酸(RNA)序列(“RNA损伤”)的损伤，其是由药剂或过程直接或间接引起的(例如，代谢物，或作为损伤或诱变的过程的诱导)。受损的核酸可能导致受试者中的疾病或障碍的发作。多核苷酸损伤可以进一步包括细胞中的DNA的化学和/或物理修饰。在一些实施例中，作为非限制性示例，损伤是或包括氧化、烷基化、脱氨基、甲基化、水解、羟基化、切口、链内交联、链间交联、钝端链断裂、交错末端双链断裂、磷酸化、去磷酸化、类泛素化、糖基化、去糖基化、腐败酰化、羧酰化、卤化、甲酰化、单链间隙、由热引起的损伤、由干燥引起的损伤、由UV暴露引起的损伤、由γ辐射引起的损伤、由X辐射引起的损伤、由电离辐射引起的损伤、由非电离辐射引起的损伤、由重颗粒辐射引起的损伤、由核衰变引起的损伤、由β辐射引起的损伤、由α辐射引起的损伤、由中子辐射引起的损伤、由质子辐射引起的损伤、由反物质引起的损伤、由宇宙辐射引起的损伤、由高pH引起的损伤、由低pH引起的损伤、由活性氧化物质引起的损伤、由自由基引起的损伤、由过氧化物引起的损伤、由次氯酸盐引起的损伤、由诸如福尔马林或甲醛等的组织固定引起的损伤、由活性铁引起的损伤、由低离子条件引起的损伤、由高离子条件引起的损伤、由无缓冲条件引起的损伤、由核酸酶引起的损伤、由环境暴露引起的损伤、由火灾引起的损伤、由机械应力引起的损伤、由酶降解引起的损伤、由微生物引起的损伤、由制备性机械剪切引起的损伤、由制备性酶切引起的损伤、在体内自然发生的损伤、在核酸提取期间发生的损伤、在测序文库制备期间发生的损伤、通过聚合酶引入的损伤、在核酸修复期间引入的损伤、在核酸末端拖尾期间发生的损伤、在核酸连接期间发生的损伤、在测序期间发生的损伤，由于机械处理DNA而发生的损伤、在通过纳米孔的期间发生的损伤、作为在生物体中老化的一部分而发生的损伤、由于个体的化学暴露而发生的损伤、由于诱变剂而发生的损伤、由于致癌物而发生的损伤、由断裂剂而发生的损伤、由于氧暴露引起的体内炎症损伤而发生的损伤、由于一条或多条链断裂而引起的损伤以及它们的任意组合中的至少一种。

参考：如本文中所使用的，术语“参考”描述了相对于其进行比较的标准或对照。例如，在一些实施例中，相关的药剂、动物、个体、群体、样品、序列或值与物理或计算机数据库中的参考或对照药剂、动物、个体、群体、样品、序列或值或其表示进行比较，所述物理或计算机数据库可以存在于某个位置或通过电子手段远程访问。在一个实施例中，参考是参考基因组或参考基因组组件。在一些实施例中，基本上与相关的测试或确定同时测试和/或确定参考或对照。在一些实施例中，参考或对照是历史参考或对照，任选地包含在有形介质中。通常地，如本领域技术人员将理解的，参考或对照在与被评估的条件或环境可比较的条件或环境下确定或表征。本领域技术人员将理解何时存在足够的相似性以证明对特定的可能的参考或对照的依赖和/或比较。“参考样品”是指来自受试者的样品，其不同于测试受试者，并且以与其比较的样品相同的方式分离。参考样品的受试者可以与测试受试者在遗传上相同，或者可以不同。

单分子标识符(SMI)：如本文中所使用的，术语“单分子标识符”或“SMI”(其可以被称为“标签”、“条形码”、“分子条形码”、“唯一分子标识符”或“UMI”，以及其他名称)是指能够在较大的异质分子群体中基本上区分单个分子的任何材料(例如，核苷酸序列、核酸分子特征)。在一些实施例中，SMI可以是或包括外源性应用的SMI。在一些实施例中，外源性应用的SMI可以是或包括简并或半简并序列。在一些实施例中，基本上简并SMI可以被称为随机唯一分子标识符(R-UMI)。在一些实施例中，SMI可以包括来自已知代码池内的代码(例如核酸序列)。在一些实施例中，预定义的SMI代码被称为定义的唯一分子标识符(D-UMI)。在一些实施例中，SMI可以是或包括内源性SMI。在一些实施例中，内源性SMI可以是或包括与靶序列的特定剪切点、与包括靶序列的单个分子的末端相关的特征或在单个分子的末端处或其附近或距其已知距离内的特定序列相关的信息。在一些实施例中，SMI可以涉及由对核酸分子的随机或半随机损伤、化学修饰、酶修饰或其他修饰引起的核酸分子中的序列变异。在一些实施例中，修饰可以是甲基胞嘧啶的脱氨基。在一些实施例中，修饰可能需要核酸切口的位点。在一些实施例中，SMI可以包括外源性元件和内源性元件。在一些实施例中，SMI可以包括物理上相邻的SMI元件。在一些实施例中，SMI元件在分子中可以在空间上不同。在一些实施例中，SMI可以是非核酸。在一些实施例中，SMI可以包括两种或更多种不同类型的SMI信息。在国际专利公开第WO2017/100441号(其全部内容通过引用并入到本文中)中进一步公开了SMI的各种实施例。

链定义元件(SDE)：如本文中所使用的，术语“链定义元件”或“SDE”是指允许识别双链核酸材料的特定链并且因此与另一/互补链区分的任何材料(例如，在测序或其他核酸询问后，使由靶双链核酸产生的两个单链核酸中的每一个的扩增产物基本上彼此可区分的任何材料)。在一些实施例中，SDE可以是或包括衔接子序列中基本上非互补序列的一个或多个片段。在特定的实施例中，衔接子序列中基本上非互补的序列的片段可以由包括Y形或“环”形的衔接子分子提供。在其他实施例中，衔接子序列中基本上非互补序列的片段可能在衔接子序列中相邻互补序列的中间形成不成对的“泡”。在其他实施例中，SDE可以包含核酸修饰。在一些实施例中，SDE可以包括成对的链物理分离成物理分离的反应室。在一些实施例中，SDE可以包括化学修饰。在一些实施例中，SDE可以包括修饰的核酸。在一些实施例中，SDE可能涉及由对核酸分子的随机或半随机损伤、化学修饰、酶修饰或其他修饰引起的核酸分子中的序列变异。在一些实施例中，修饰可以是甲基胞嘧啶的脱氨基。在一些实施例中，修饰可能需要核酸切口的位点。在国际专利公开第WO2017/100441号(其全部内容通过引用被并入到本文中)中进一步公开了SDE的各种实施例。

受试者：如本文中所使用的，术语“受试者”是指生物体，通常是哺乳动物，例如人(在一些实施例中包含产前人类形式)、非人动物(例如，哺乳动物和非哺乳动物，包含但不限于非人类灵长类动物、小鼠、大鼠、仓鼠、水獭、角马、马、羊、狗、牛、猪、鸡、两栖动物、爬行动物、海洋生物、其他模型生物体，诸如蠕虫、苍蝇、斑马鱼等)，以及转基因动物(例如，转基因啮齿动物)等。在一些实施例中，受试者患有相关疾病、障碍或病症。在一些实施例中，受试者易患疾病、障碍或病症。在一些实施例中，受试者表现出疾病、障碍或病症的一种或多种症状或特征。在一些实施例中，受试者不表现出疾病、障碍或病症的任何症状或特征。在一些实施例中，受试者具有对疾病、障碍或病症的易感性或风险的一种或多种特征性特性。在一些实施例中，受试者是被施用和/或已经被施用诊断和/或疗法的个体。在另一些实施例中，受试者是指任何活的生物来源或其他核酸材料，例如生物体、细胞和/或组织，诸如用于体内研究，例如：真菌、原生动物、细菌、古细菌、病毒、培养中的分离的细胞、已经有意地(例如干细胞移植、器官移植)或无意地(即胎儿或母体微嵌合体)的细胞或分离的核酸或细胞器(即线粒体、叶绿体、游离病毒基因组、游离质粒、适体、核酶或核酸的衍生物或前体(即寡核苷酸、三磷酸二核苷酸等)。在进一步的实施例中，受试者是指在法医调查或应用中获得的任何活的或一度活的生物来源或其他核酸材料。

基本上：如本文中所使用的，术语“基本上”是指表现出相关的特征或性质的全部或接近全部的范围或程度的定性条件。生物领域的普通技术人员将理解，生物和化学现象很少(如果有的话)完成和/或进行到完全或达到或避免绝对结果。因此，术语“基本上”在本文中用于捕捉许多生物和化学现象中固有的潜在的完整性的缺乏。

II.双重测序方法和相关的衔接子和试剂的选定的实施例

双重测序是一种用于从双链核酸分子生成错误校正的DNA序列的方法，并且最初在国际专利公开第WO 2013/142389号中和在美国专利第9,752,188号中描述，其都通过引用以其整体并入到本文中。如图4A-4C所示，并且在该技术的某些方面中，双重测序可以用于以这样的方式独立地对单个DNA分子的两条链进行测序，使得在大规模平行测序期间，衍生序列读数可以被识别为源自相同的双链核酸亲本分子，但也在测序后作为可区分的实体彼此区分。然后将从每条链得到的序列读数进行比较，用于获得原始双链核酸分子的错误校正的序列。

在某些实施例中，掺入双重测序的方法可以包含将一个或多个测序衔接子连接到靶双链核酸分子上，以生成双链靶核酸复合物，所述靶双链核酸分子包括第一链靶核酸序列和第二链靶核酸序列(例如图4A)。

在各种实施例中，得到的靶核酸复合物可以包含至少一个SMI序列，其可能需要外源性应用的简并或半简并序列(例如，图4A中所示的随机双重标签、在图4A中被识别为α和β的序列)、与靶双链核酸分子的特异性剪切点相关的内源性信息，或其组合。SMI可以使靶核酸分子与群体中的多个其他分子基本上可区分，所述群体被单独测序或与它们所连接的核酸片段的区分元件组合测序。SMI元件的基本上可区分的特征可以由形成双链核酸分子的每条单链独立地携带，使得每条链的衍生扩增产物在测序后可以被识别为来自相同的原始基本上独特的双链核酸分子。在其他实施例中，SMI可以包含附加的信息和/或可以用于对于这样的分子区分功能有用的其他方法，例如在上述参考的出版物中描述的那些方法。在另一个实施例中，SMI元件可以在衔接子连接之后被并入。在一些实施例中，SMI是双链的，而在其他实施例中，SMI是单链的(例如，SMI可以在衔接子的单链部分上)。在其他实施例中，SMI是单链和双链SMI序列的组合。

在一些实施例中，每个双链靶核酸序列复合物可以进一步包含元件(例如，SDE)，该元件使得形成靶双链核酸分子的两个单链核酸的扩增产物在测序后基本上可以彼此区分。在一个实施例中，SDE可以包括包括在测序衔接子内的不对称引物位点，或者，在其他排列中，序列不对称可以被引入到不在引物序列内的衔接子分子中，使得在扩增和测序之后，第一链靶核酸序列复合物的核苷酸序列中的至少一个位置和靶核酸序列复合物的第二链彼此不同。在其他实施例中，SMI可以包括在两条链之间的另一种生化不对称，其不同于标准核苷酸序列A、T、C、G或U，但是在两个扩增的和测序的分子中被转化为至少一个标准核苷酸序列差异。在又一个实施例中，SDE可以是在扩增前物理地分离两条链的手段，使得来自第一链靶核酸序列和第二链靶核酸序列的衍生扩增产物保持彼此基本物理隔离，用于保持两者之间的区别的目的。可以使用用于提供允许区分第一链和第二链的SDE功能的其他这样的排列或方法，例如在上述参考的出版物中描述的那些，或者服务于所描述的功能目的的其他方法。

在生成包括至少一个SMI和至少一个SDE的双链靶核酸复合物之后，或者在随后将引入这些元件中的一个或两个的情况下，该复合物可以经历DNA扩增，诸如用PCR或DNA扩增的任何其他生化方法，使得产生一个或多个拷贝的第一链靶核酸序列和一个或多个拷贝的第二链靶核酸序列(例如，图4B)。然后第一链靶核酸分子的一个或多个扩增拷贝和第二靶核酸分子的一个或多个扩增拷贝可以经历DNA测序，优选地使用“下一代”大规模平行DNA测序平台(例如，图4B)。

从由原始的双链靶核酸分子衍生的第一链靶核酸分子和第二链靶核酸分子产生的序列读数可以基于共享相关的基本上独特的SMI来识别，并通过SDE与相反的链靶核酸分子相区别。在一些实施例中，SMI可以是基于基于数学的错误校正的码(例如，汉明码)的序列，由此为了将SMI序列的序列关联到原始双重体(例如，双链核酸分子)的互补链上的目的，某些扩增错误、测序错误或SMI合成错误是可以容忍的。例如，对于双链外源性SMI，其中SMI包括15个完全简并的标准DNA碱基序列的碱基对，估计4^15＝1,073,741,824个SMI变体将存在于完全简并的SMI群体中。如果从10,000个取样的SMI群体中仅在SMI序列中有一个核苷酸不同的测序数据的读数中恢复了两个SMI，则可以通过随机机会从数学上计算出发生这种情况的概率，并决定单个碱基对差异是否更有可能反映上述类型的错误之一，并且可以确定SMI序列实际上源自相同的原始双重分子。在其中SMI至少部分地是外源性应用的序列的一些实施例中，其中序列变体彼此不完全退化，并且至少部分地是已知序列，在一些实施例中，已知序列的同一性可以被设计成使得前述类型的一个或多个错误不会将一个已知SMI序列的同一性转化成另一个SMI序列的同一性，使得一个SMI被误解为另一个SMI的可能性降低。在一些实施例中，该SMI设计策略包括汉明码方法或其衍生物。一旦被识别，将从第一链靶核酸分子产生的一个或多个序列读数与从第二链靶核酸分子产生的一个或多个序列读数进行比较，以产生错误校正的靶核酸分子序列(例如，图4C)。例如，其中来自第一链靶核酸序列和第二链靶核酸序列的碱基一致的核苷酸位置被认为是真序列，而在两条链之间不一致的核苷酸位置被认为是技术错误的潜在位点，其可以被忽略、消除、校正或以其他方式识别。因此可以产生原始双链靶核酸分子的错误校正的序列(在图4C中示出)。在一些实施例中，并且在分别地对从第一链靶核酸分子和第二链靶核酸分子产生的每个测序读数进行分组之后，可以为第一链和第二链中的每一个生成单链共有序列。然后可以比较来自第一链靶核酸分子和第二链靶核酸分子的单链共有序列，以生成错误校正的靶核酸分子序列(例如，图4C)。

可替代地，在一些实施例中，两条链之间的序列不一致的位点可以被识别为原始双链靶核酸分子中生物衍生的错配的潜在位点。可替代地，在一些实施例中，两条链之间的序列不一致的位点可以被识别为原始双链靶核酸分子中来自DNA合成的错配的潜在位点。可替代地，在一些实施例中，两条链之间序列不一致的位点可被识别为这样的潜在的位点，其中受损的或修饰的核苷酸碱基存在于一条或两条链上，并通过酶促过程(例如，DNA聚合酶、DNA糖基化酶或另一种核酸修饰酶或化学过程)被转化为错配。在一些实施例中，这一后来的发现可以用于推断在酶促过程或化学处理之前核酸损伤或核苷酸修饰的存在。

在一些实施例中，并且根据本技术的各个方面，可以进一步过滤由本文讨论的双重测序步骤生成的测序读数，以消除来自DNA损伤的分子(例如，在储存、运输期间、在组织或血液提取期间或之后、在文库制备期间或之后的损伤等)的测序读数。例如，DNA修复或修饰酶，诸如尿嘧啶-DNA糖基化酶(UDG)、甲酰胺嘧啶DNA糖基化酶(FPG)和8-氧代鸟嘌呤DNA糖基化酶(OGG1)，可以用于消除或校正DNA损伤(例如，体外DNA损伤或体内损伤)。例如，这些DNA修复酶是从DNA中去除受损的碱基的糖基化酶。例如，UDG去除由胞嘧啶脱氨基(由胞嘧啶的自发水解引起)引起的尿嘧啶，并且FPG去除8-氧代鸟嘌呤(例如，由活性氧物质引起的常见DNA损伤)。FPG还具有裂合酶活性，其可以在脱碱基位点生成1个碱基缺口。例如，由于聚合酶不能复制模板，这样的脱碱基位点将通常随后不能通过PCR扩增。因此，使用这样的DNA损伤修复/消除酶可以有效地去除没有真正突变但在测序和双重序列分析后可能以其他方式未检测为错误的受损的DNA。虽然在极少数情况下，由于受损的碱基而导致的错误通常可以通过双重测序来校正，但理论上，互补错误可能出现在两条链上的相同位置，因此，减少错误增加的损伤可以降低假象的可能性。此外，在文库制备期间，待测序的某些DNA片段可能是来自其来源或来自处理步骤(例如，机械DNA剪切)的单链。这些区域通常在本领域中已知的“末端修复”步骤期间被转化为双链DNA，由此将DNA聚合酶和核苷底物加入到DNA样品中以延伸5'凹陷末端。在被复制的DNA的单链部分中的DNA损伤的诱变位点(即在DNA双重体的一端或两端的单链5'突出端或内部单链切口或缺口)可以在填充反应期间引起错误，该错误可以使单链突变、合成错误或核酸损伤的位点变成双链形式，该双重形式在最终的双重共有序列中可能被误解为真正的突变，由此真正的突变存在于原始的双链核酸分子中，而事实上它并不存在。这种情况(被称为“假双重”)，可以通过使用这样的损伤破坏/修复酶来减少或防止。在其他实施例中，这种情况可以通过使用破坏或防止原始双重分子的单链部分形成的策略来减少或消除(例如，某些酶的使用被用于片段化原始双链核酸材料，而不是机械剪切或可能留下切口或缺口的某些其他酶)。在其他实施例中，消除原始双链核酸的单链部分的过程(例如，单链特异性核酸酶，例如S1核酸酶或绿豆核酸酶)的使用可以用于类似的目的。

在进一步的实施例中，可以进一步过滤由本文讨论的双重测序步骤生成的测序读数，以通过修整最容易生成假双重假象的读数的末端来消除假突变。例如，DNA片段化可以在双链分子的末端生成单链部分。这些单链部分可以在末端修复期间被填充(例如，通过Klenow或T4聚合酶)。在一些情况下，聚合酶使得在这些末端修复的区域中发生复制错误，导致“假双重分子”的生成。一旦被测序，这些文库制备的人假象可以错误地表现为真正的突变。作为末端修复机制的结果，这些错误可以通过修整测序读数的末端以排除可能在较高的风险区域中发生的任何突变，从而减少假突变的数量而从测序后的分析中消除或减少。在一个实施例中，测序读数的这样的修整可以自动地完成(例如，正常过程步骤)。在另一个实施例中，可以评估片段末端区域的突变频率，并且如果在片段末端区域中观察到阈值水平的突变，则可以在生成DNA片段的双链共有序列读数之前进行测序读数修整。

作为具体示例，在一些实施例中，本文提供了生成双链靶核酸材料的错误校正的序列读数的方法，包含以下步骤：将双链靶核酸材料连接到至少一个衔接子序列以形成衔接子-靶核酸材料复合物，其中所述至少一个衔接子序列包括(a)简并或半简并单分子标识符(SMI)序列，其唯一地标记双链靶核酸材料的每个分子，和(b)标记衔接子-靶核酸材料复合物的第一链的第一核苷酸衔接子序列，和第二核苷酸衔接子序列，该第二核苷酸衔接子序列至少部分地与标记衔接子-靶核酸材料复合物的第二链的第一核苷酸序列不互补，使得衔接子-靶核酸材料复合物的每条链相对于其互补链具有明显可识别的核苷酸序列。该方法接下来可以包含扩增衔接子-靶核酸材料复合物的每条链以生成多个第一链衔接子-靶核酸复合物扩增子和多个第二链衔接子-靶核酸复合物扩增子的步骤。该方法可以进一步包含扩增第一链和第二链以提供第一核酸产物和第二核酸产物的步骤。该方法还可以包含以下步骤：对第一核酸产物和第二核酸产物中的每一种进行测序，以生成多个第一链序列读数和多个第二链序列读数，并确认至少一个第一链序列读数和至少一个第二链序列读数的存在。该方法可以进一步包含将至少一个第一链序列读数与至少一个第二链序列读数进行比较，以及通过忽略不一致的核苷酸位置，或者可替换地去除具有一个或多个核苷酸位置的比较的第一和第二链序列读数来生成双链靶核酸材料的错误校正的序列读数，其中比较的第一链序列读数和第二链序列读数是非互补的。

作为另外的具体示例，在一些实施例中，本文提供了从样品中识别DNA变体的方法，包含以下步骤：将核酸材料(例如双链靶DNA分子)的两条链连接到至少一个不对称衔接子分子上以形成衔接子-靶核酸材料复合物，该复合物具有与双链靶DNA分子的第一链(例如，顶部链)相关联的第一核苷酸序列和第二核苷酸序列，所述第二核苷酸序列与双链靶DNA分子的第二链(例如底部链)相关的第一核苷酸序列至少部分地不互补；并且扩增衔接子-靶核酸材料的每条链，导致在每条链中生成一组不同但相关的扩增的衔接子-靶核酸产物。该方法可以进一步包含以下步骤：对多个第一链衔接子-靶核酸产物和多个第二链衔接子-靶核酸产物中的每一种进行测序，确认来自衔接子-靶核酸材料复合物的每一条链的至少一个扩增序列读数的存在，以及将从第一链获得的至少一个扩增的序列读数与从第二链获得的至少一个扩增的序列读数进行比较，以形成仅具有核苷酸碱基的核酸材料(例如双链靶DNA分子)的共有序列读数，其中核酸材料(例如双链靶DNA分子)的两条链的序列在所述核苷酸碱基上是一致的，使得在共有序列读数中的特定位置出现的变体(例如如与参考序列相比)被识别为真正的DNA变体。

在一些实施例中，本文提供了从双链核酸材料生成高准确度共有序列的方法，包含用衔接子分子标记单个双重DNA分子以形成标记的DNA材料的步骤，其中每个衔接子分子包括(a)唯一标记双重DNA分子的简并或半简并单分子标识符(SMI)，和(b)第一和第二非互补核苷酸衔接子序列，其对于每个标记的DNA分子，将标记的DNA材料内每个单独的DNA分子的原始顶部链与原始底部链区分开来，并生成标记的DNA分子的原始顶部链的一组复制品和标记的DNA分子的原始底部链的一组复制品，以形成扩增的DNA材料。该方法可以进一步包含以下步骤：从原始顶部链的复制品产生第一单链共有序列(SSCS)和从原始底部链的复制品产生第二单链共有序列(SSCS)，将原始顶部链的第一SSCS与原始底部链的第二SSCS进行比较，并生成仅具有核苷酸碱基的高准确度共有序列，在该核苷酸碱基处原始顶部链的第一SSCS的序列和原始底部链的第二SSCS的序列互补。

在进一步的实施例中，本文提供了检测和/或定量来自混合物的核酸的供体来源的方法，包含将混合物中的每个双链靶DNA分子的两条链连接到至少一个不对称衔接子分子以形成多个衔接子-靶DNA复合物的步骤，其中每个衔接子-靶DNA复合物具有与双链靶DNA分子的第一链相关联的第一核苷酸序列和与双链靶DNA分子的第二链相关联的第一核苷酸序列至少部分地不互补的第二核苷酸序列，并且对于每个衔接子-靶DNA复合物：扩增衔接子-靶DNA复合物的每条链，导致每条链生成一组不同但相关的扩增的衔接子-靶DNA扩增子。该方法可以进一步包含以下步骤：对多个第一链衔接子-靶DNA扩增子和多个第二链衔接子-靶DNA扩增子中的每一个进行测序，确认来自衔接子-靶DNA复合物的每一条链中的至少一个序列读数的存在，以及将从第一链获得的至少一个序列读数与从第二链获得的至少一个序列读数进行比较，以检测和/或定量核苷酸碱基，在所述核苷酸碱基处，双链DNA分子的一条链的序列读数与双链DNA分子的另一条链的序列读数不一致(例如，不互补)，使得可以检测和/或定量DNA损伤的位点。在一些实施例中，该方法可以进一步包含以下步骤：从第一链衔接子-靶DNA扩增子产生第一单链共有序列(SSCS)和从第二链衔接子-靶DNA扩增子产生第二单链共有序列(SSCS)，将原始第一链的第一SSCS与原始第二链的第二SSCS进行比较，并识别第一SSCS的序列和第二SSCS的序列不互补的核苷酸碱基，以检测和/或定量来自混合物的核酸的供体来源。

单分子标识符序列(SMI)

根据各种实施例，所提供的方法和组合物在核酸材料的每条链上包含一个或多个SMI序列。SMI可以被由双链核酸分子产生的每条单链独立地携带，使得在测序后每条链的衍生扩增产物可以被识别为来自相同的原始基本上独特的双链核酸分子。在一些实施例中，如本领域技术人员将认识到的，SMI可以包含额外的信息和/或可以用于这样的分子区分功能有用的其他方法中。在一些实施例中，SMI元件可以在连接到核酸材料的衔接子序列连接之前、基本上同时或之后被引入。

在一些实施例中，SMI序列可以包含至少一种简并或半简并核酸。在其他实施例中，SMI序列可以是非简并的。在一些实施例中，SMI可以是与核酸分子的片段末端(例如，连接的核酸材料的随机或半随机剪切的末端)相关或在其附近的序列。在一些实施例中，可以将外源性序列与对应于随机或半随机剪切的连接的核酸材料(例如，DNA)的末端的序列结合起来考虑，以获得能够彼此区分例如单个DNA分子的SMI序列。在一些实施例中，SMI序列是连接到双链核酸分子的衔接子序列的一部分。在某些实施例中，包括SMI序列的衔接子序列是双链的，使得双链核酸分子的每条链在连接到衔接子序列后包含SMI。在另一个实施例中，SMI序列在连接到双链核酸分子之前或之后是单链的，并且互补的SMI序列可以通过用DNA聚合酶延伸相反的链以产生互补的双链SMI序列来生成。在其他实施例中，SMI序列位于衔接子的单链部分(例如，具有Y形的衔接子的臂)中。在这样的实施例中，SMI可以促进源自双链核酸分子的原始链的序列读数家族的分组，并且在一些情况下可以赋予双链核酸分子的原始第一链和第二链之间的关系(例如，所有或部分的SMI可以通过查找表关联)。在实施例中，在第一链和第二链用不同的SMI标记的情况下，可以通过使用一种或多种内源性SMI(例如，片段特异性特征，例如与核酸分子的片段末端相关或在其附近的序列)，或者使用两个原始链共有的额外分子标签(例如，衔接子的双链部分中的条形码)或其组合来关联来自两个原始链的序列读数。在一些实施例中，每个SMI序列可以包含约1至约30个之间的核酸(例如，1、2、3、4、5、8、10、12、14、16、18、20个或更多个简并或半简并核酸)。

在一些实施例中，SMI能够连接到核酸材料和衔接子序列中的一种或两种。在一些实施例中，SMI可以连接到核酸材料的T-突出端、A-突出端、CG-突出端、去羟基化的碱基和钝端中的至少一个上。

在一些实施例中，可以结合(或根据)对应于例如核酸材料(例如，连接的核酸材料)的随机或半随机剪切末端的序列来考虑(设计)SMI序列，以获得能够将单个核酸分子彼此区分的SMI序列。

在一些实施例中，至少一个SMI可以是内源性SMI(例如，与剪切点(例如，片段末端)相关的SMI，例如，使用剪切点本身或使用紧邻剪切点的核酸材料中限定数量的核苷酸[例如，距剪切点2、3、4、5、6、7、8、9、10个核苷酸])。在一些实施例中，至少一种SMI可以是外源性SMI(例如，包括在靶核酸材料上未发现的序列的SMI)。

在一些实施例中，SMI可以是或包括成像部分(例如，荧光或以其他方式光学上可检测的部分)。在一些实施例中，这样的SMI允许检测和/或定量，而不需要扩增步骤。

在一些实施例中，SMI元件可以包括位于衔接子-靶核酸复合物上的不同位置的两个或更多个不同的SMI元件。

在国际专利公开第WO2017/100441号(其全部内容通过引用并入到本文中)中进一步公开了SMI的各种实施例。

链定义元件(SDE)

在一些实施例中，双链核酸材料的每条链可以进一步包含一种元件，该元件使得形成靶双链核酸材料的两个单链核酸的扩增产物在测序后基本上可以彼此区分。在一些实施例中，SDE可以是或包括包括在测序衔接子内的不对称引物位点，或者，在其他排列中，序列不对称可以被引入到衔接子序列中而不是引物序列内，使得在扩增和测序后，第一链靶核酸序列复合物的核苷酸序列中的至少一个位置和靶核酸序列复合物的第二链彼此不同。在其他实施例中，SDE可以包括两条链之间的另一种生化不对称，其不同于标准核苷酸序列A、T、C、G或U，但在两个扩增的和测序的分子中被转化为至少一个标准核苷酸序列差异。在又一个实施例中，SDE可以是或包括在扩增前物理分离两条链的手段，使得来自第一链靶核酸序列和第二链靶核酸序列的衍生扩增产物彼此保持基本物理隔离，用于保持两种衍生扩增产物之间的区别的目的。可以利用用于提供允许区分第一链和第二链的SDE功能的其他这样的排列或方法。

在一些实施例中，SDE也许能够形成环(例如发夹环)。在一些实施例中，环可以包括至少一个核酸内切酶识别位点。在一些实施例中，靶核酸复合物可以含有有助于环内切割事件的核酸内切酶识别位点。在一些实施例中，环可以包括非标准核苷酸序列。在一些实施例中，所含有的非标准核苷酸可以被一种或多种促进链切割的酶识别。在一些实施例中，所含有的非标准核苷酸可以通过一种或多种有助于环中链切割的化学过程来靶向。在一些实施例中，环可以含有修饰的核酸接头，其可以通过一种或多种促进环中链切割的酶促、化学或物理过程来靶向。在一些实施例中，这种修饰的接头是可光裂解的接头。

各种其他的分子工具可以作为SMI和SDE。除了剪切点和基于DNA的标记之外，保持成对的链物理邻近的单分子区室化方法或其他非核酸标记方法可以发挥链相关功能。类似地，以使衔接子链可以物理分离的方式对衔接子链进行不对称化学标记可以起到SDE的作用。最近描述的双重测序的变体使用亚硫酸氢盐转化以将胞嘧啶甲基化形式的天然发生的链不对称转化为区分两条链的序列差异。尽管这种实施方式限制了可以检测的突变的类型，但是在新兴的可以直接地检测修饰的核苷酸的测序技术的上下文中，利用天然不对称的概念是值得注意的。SDE的各种实施例在国际专利公开第WO2017100441号(其全部内容通过引用被并入)中进一步公开。

衔接子和衔接子序列

在各种排列中，包括SMI(例如，分子条形码)、SDE、引物位点、流动细胞序列和/或其他特征的衔接子分子被预期用于本文公开的许多实施例。在一些实施例中，所提供的衔接子可以是或包括与PCR引物(例如，引物位点)互补或至少部分互补的一个或多个序列，所述引物具有以下特性中的至少一种：1)高靶特异性；2)能够被多重；和3)表现出稳健和最小偏差的扩增。

在一些实施例中，衔接子分子可以是“Y”形、“U”形、“发夹”形，具有气泡(例如，序列的非互补的部分)或其他特征。在其他实施例中，衔接子分子可以包括“Y”形、“U”形、“发夹”形或气泡。某些衔接子可以包括修饰的或非标准的核苷酸、限制性位点或用于体外结构或功能的操纵的其他特征。衔接子分子可以连接到多种具有末端的核酸材料上。例如，衔接子分子可以适合于连接到T-突出端、A-突出端、CG-突出端、多核苷酸突出端、脱羟基化的碱基、核酸材料的钝端以及分子的末端，其中靶的5'被去磷酸化或以其他方式与传统连接阻断。在其他实施例中，衔接子分子可以在连接位点的5'链上含有去磷酸化的或以其他方式防止连接的修饰。在后两个实施例中，这样的策略可用于防止文库片段或衔接子分子的二聚化。

衔接子序列可以指单链序列、双链序列、互补序列、非互补序列、部分互补序列、不对称序列、引物结合序列、流动细胞序列、连接序列或由衔接子分子提供的其他序列。在特定的实施例中，衔接子序列可以指通过互补寡核苷酸的方式用于扩增的序列。

在一些实施例中，所提供的方法和组合物包含至少一个衔接子序列(例如，两个衔接子序列，在核酸材料的5'和3'的末端中每一个上各一个)。在一些实施例中，所提供的方法和组合物可以包括2个或更多个衔接子序列(例如，3、4、5、6、7、8、9、10个或更多个)。在一些实施例中，衔接子序列中的至少两个彼此不同(例如，通过序列)。在一些实施例中，每个衔接子序列彼此不同(例如，通过序列)。在一些实施例中，至少一个衔接子序列与至少一个其他衔接子序列的至少一部分至少部分地不互补(例如，与至少一个核苷酸不互补)。

在一些实施例中，衔接子序列包括至少一个非标准核苷酸。在一些实施例中，非标准核苷酸选自脱碱基位点、尿嘧啶、四氢呋喃、8-氧代-7,8-二氢-2'脱氧腺苷(8-氧代-A)、8-氧代-7,8-二氢2'-脱氧鸟苷(8-氧代-G)、脱氧肌苷、5'硝基吲哚、5-羟甲基-2'-脱氧胞苷、异胞嘧啶、5'-甲基异胞嘧啶或异鸟苷、甲基化核苷酸、RNA核苷酸、核糖核苷酸、8-氧代鸟嘌呤、光可裂解的接头、生物素化的核苷酸、脱硫生物素核苷酸、硫醇修饰的核苷酸、丙烯酸酯修饰的核苷酸、异-dC、异dG、2'-O-甲基核苷酸、肌苷核苷酸锁核酸、肽核酸、5甲基dC、5-溴脱氧尿苷、2,6-二氨基嘌呤、2-氨基嘌呤核苷酸、脱碱基核苷酸、5-硝基吲哚核苷酸、腺苷酸化核苷酸、叠氮化物核苷酸、洋地黄毒苷核苷酸、I-接头、5'己炔基修饰的核苷酸、5-辛二炔基dU、可光裂解的间隔子、非可光裂解的间隔子、点击化学相容的修饰核苷酸及其任何组合。

在一些实施例中，衔接子序列包括具有磁性性质的部分(即磁性部分)。在一些实施例中，这种磁性性质是顺磁的。在一些实施例中，其中衔接子序列包括磁性部分(例如，连接到包括磁性部分的衔接子序列的核酸材料)，当施加磁场时，包括磁性部分的衔接子序列基本上与不包括磁性部分(例如，连接到不包含磁性部分的衔接子序列的核酸材料)的衔接子序列分离。

在一些实施例中，至少一个衔接子序列位于SMI的5'处。在一些实施例中，至少一个衔接子序列位于SMI的3'处。

在一些实施例中，衔接子序列可以通过一个或多个接头结构域被连接至SMI和核酸材料中的至少一种。在一些实施例中，接头结构域可以由核苷酸组成。在一些实施例中，接头结构域可以包含至少一种修饰的核苷酸或非核苷酸分子(例如，如在本公开中其他地方所描述的)。在一些实施例中，接头结构域可以是或包括环。

在一些实施例中，双链核酸材料的每条链的任一端或两端上的衔接子序列可以进一步包含一个或多个提供SDE的元件。在一些实施例中，SDE可以是或包括包括在衔接子序列中的不对称引物位点。

在一些实施例中，衔接子序列可以是或包括至少一个SDE和至少一个连接结构域(即可根据至少一种连接酶的活性修饰的结构域，例如，适于通过连接酶的活性连接到核酸材料的结构域)。在一些实施例中，从5'到3'，衔接子序列可以是或包括引物结合位点、SDE和连接结构域。

用于合成双重测序衔接子的各种方法先前已经在例如美国专利第9,752,188号、国际专利公开第WO2017/100441号和国际专利申请第PCT/US18/59908号(2018年11月8日提交)中被描述，所有这些专利的全部内容通过引用并入到本文中。

引物

在一些实施例中，具有以下性质中的至少一种的一种或多种PCR引物被预期用于根据本技术的各个方面的各种实施例中：1)高靶特异性；2)能够被多重；和3)表现出稳健的和最小偏差的扩增。许多以前的研究和商业产品已经被设计为满足常规PCR-CE的这些标准中的某些的引物混合物。然而，已经注意到这些引物混合物并不总是与MPS一起使用的最佳选择。事实上，开发高度多重的引物混合物可以是一个具有挑战性且耗时的过程。便利的是，Illumina和Promega最近都已经为Illumina平台开发了多重兼容的引物混合物，其显示出对多种标准和非标准STR和SNP基因座的稳健和有效的扩增。因为这些试剂盒在测序前使用PCR来扩增它们的靶区域，成对的末端测序数据中每个读数的5'末端对应于用于扩增DNA的PCR引物的5'末端。在一些实施例中，所提供的方法和组合物包含被设计用于确保均匀扩增的引物，这可能需要改变反应浓度、解链温度，并使二级结构和引物内/引物间相互作用最小化。已经描述了多种技术用于MPS应用的高度多重引物优化，诸如，例如技术通常被称为ampliseq方法，其在本领域中描述。

扩增

在各种实施例中，所提供的方法和组合物利用或用于至少一个扩增步骤，其中核酸材料(或其部分，例如，特定靶区域或基因座)被扩增以形成扩增的核酸材料(例如，一些扩增子产物)。

在一些实施例中，扩增核酸材料包含使用至少一种单链寡核苷酸从原始双链核酸材料中扩增衍生自第一和第二核酸链中的每一个的核酸材料的步骤，所述单链寡核苷酸至少部分地与第一衔接子序列中存在的序列互补，使得SMI序列至少部分被保持。扩增步骤进一步包含使用第二单链寡核苷酸来扩增每条相关的链，并且这样的第二单链寡核苷酸可以(a)至少部分地与相关的靶序列互补，或者(b)至少部分地与第二衔接子序列中存在的序列互补，使得至少一条单链寡核苷酸和第二单链寡核苷酸以有效地扩增核酸材料的方式定向。

在一些实施例中，扩增样品中的核酸材料可以包含扩增“管”(例如，PCR管)、乳液液滴、微室和上述的其他示例或其他已知容器中的核酸材料。

在一些实施例中，至少一个扩增步骤包含至少一种引物，该引物是或包括至少一个非标准核苷酸。在一些实施例中，非标准核苷酸选自尿嘧啶、甲基化核苷酸、RNA核苷酸、核糖核苷酸、8-氧代鸟嘌呤、生物素化核苷酸、锁核酸、肽核酸、高Tm核酸变体、等位基因识别核酸变体、本文别处描述的任何其他核苷酸或接头变体及其任意组合。

尽管任何适合应用的扩增反应都被认为与一些实施例相容，但作为具体的示例，在一些实施例中，扩增步骤可以是或包括聚合酶链反应(PCR)、滚环扩增(RCA)、多重置换扩增(MDA)、等温扩增、乳液内的聚合酶克隆扩增、在表面上、珠的表面上或在水凝胶内的桥接扩增，以及它们的任何组合。

在一些实施例中，扩增核酸材料包含使用单链寡核苷酸，所述单链寡核苷酸至少部分地与核酸材料的每条链的5'和3'末端上的衔接子序列的区域互补。在一些实施例中，扩增核酸材料包含使用至少一种与目标区域或相关的目标序列(例如，基因组序列、线粒体序列、质粒序列、合成产生的目标核酸等)至少部分地互补的单链寡核苷酸和至少部分与衔接子序列的区域(例如，引物位点)互补的单链寡核苷酸。

通常，稳健的扩增，例如PCR扩增，可以高度地依赖于反应条件。例如，多重PCR对缓冲液组成、单价或二价阳离子浓度、洗涤剂浓度、拥挤剂(即PEG、甘油等)浓度、引物浓度、引物Tms、引物设计、引物GC含量、引物修饰的核苷酸性质和循环条件(即温度和延伸时间以及温度变化的速率)可以是敏感的。缓冲条件的优化可能是困难且耗时的过程。在一些实施例中，扩增反应可以根据先前已知的扩增方案使用缓冲液、引物池浓度和PCR条件中的至少一种。在一些实施例中，可以创建新的扩增方案，和/或可以使用扩增反应优化。作为具体的示例，在一些实施例中，可以使用PCR优化试剂盒，例如来自

的PCR优化试剂盒，其含有许多预先配制的缓冲液，这些缓冲液被部分优化用于各种PCR应用，例如多重、实时、富含GC和抑制剂抗性扩增。这些预先配制的缓冲液可以快速地补充有不同的Mg²⁺和引物浓度，以及引物池比率。此外，在一些实施例中，可以评估和/或使用各种循环条件(例如，热循环)。在评估特定的实施例是否适合特定的期望应用时，可以评估特异性、杂合基因座的等位基因覆盖率、基因座间平衡和深度以及其他方面中的一个或多个。扩增成功的测量可以包含产物的DNA测序、通过凝胶或毛细管电泳或HPLC或其他大小分离方法对产物的评估，随后是片段可视化、使用双链核酸结合染料或荧光探针的熔融曲线分析、质谱或本领域已知的其他方法。

根据各种实施例，多种因素中的任何一种都可以影响特定扩增步骤的长度(例如，PCR反应中的循环次数等)。例如，在一些实施例中，所提供的核酸材料可能是受损的或以其他方式次优的(例如降解的和/或污染的)。在这样的情况下，较长的扩增步骤可能有助于确保所需的产物被扩增到可接受的程度。在一些实施例中，扩增步骤可以从每个起始DNA分子提供平均3至10个测序的PCR拷贝，尽管在其他实施例中，仅需要第一链和第二链中的每一个的单个拷贝。不希望局限于特定的理论，太多或太少的PCR拷贝可能导致降低的测定效率，并且最终导致降低的深度。通常，扩增(例如，PCR)反应中使用的核酸(例如，DNA)片段的数量是一个主要的可调节变量，它可以决定共享相同的SMI/条形码序列的读数数量。

核酸材料

类型

根据各种实施例，可以使用多种核酸材料中的任何一种。在一些实施例中，核酸材料可以包括对标准糖-磷酸主链内的多核苷酸的至少一种修饰。在一些实施例中，核酸材料可以在核酸材料的任何碱基中包括至少一种修饰。例如，作为非限制性的示例，在一些实施例中，核酸材料是或包括双链DNA、单链DNA、双链RNA、单链RNA、肽核酸(PNA)、锁核酸(LNA)中的至少一种。

修饰

根据各种实施例，核酸材料可以在任何特定步骤之前、基本上同时或之后接受一种或多种修饰，这取决于使用特定提供的方法或组合物的应用。

在一些实施例中，修饰可以是或包括至少一部分核酸材料的修复。尽管任何适合应用的核酸修复的方式被认为与一些实施例相容，但是某些示例性的方法和组合物因此在下文和实施例中进行描述。

作为非限制性的示例，在一些实施例中，可以利用DNA修复酶，例如尿嘧啶-DNA糖基化酶(UDG)、甲酰胺嘧啶DNA糖基化酶(FPG)和8-氧代鸟嘌呤DNA糖基化酶(OGG1)，来校正DNA损伤(例如，体外DNA损伤)。如上面所讨论的，这些DNA修复酶，例如，是从DNA中去除受损的碱基的糖基化酶。例如，UDG去除由胞嘧啶脱氨基(由胞嘧啶的自发水解引起)引起的尿嘧啶，并且FPG去除8-氧代鸟嘌呤(例如，由活性氧物质引起的最常见的DNA损伤)。FPG还具有裂合酶活性，其可以在脱碱基位点生成1个碱基缺口。这样的脱碱基位点随后将不能通过PCR扩增，例如，因为聚合酶不能复制模板。因此，使用这样的DNA损伤修复酶可以有效地去除没有真正突变的损伤的DNA，但是在测序和双重体序列分析之后可能不会以其他方式检测为错误。

如上面所讨论的，在进一步的实施例中，从本文所述的处理步骤中生成的测序读数可以被进一步过滤，以通过修整最容易生成假象的读数的末端来消除假突变。例如，DNA片段化可以在双链分子的末端生成单链部分。这些单链部分可以在末端修复期间被填充(例如，通过Klenow)。在一些情况下，聚合酶使得在这些末端修复的区域中发生复制错误，导致“假双重分子”的生成。一旦被测序，这些假象可能看起来是真正的突变。作为末端修复机制的结果，这些错误可以通过修整测序读数的末端以排除可能发生的任何突变，从而减少错误突变的数量而从测序后的分析中被消除。在一些实施例中，测序读数的这样的修整可以自动完成(例如，正常过程步骤)。在一些实施例中，可以评估片段末端区域的突变频率，并且如果在片段末端区域中观察到阈值水平的突变，则可以在生成DNA片段的双链共有序列读数之前进行测序读数修整。

与标准的下一代测序方法相比，由双重测序的链比较技术提供的高度误差校正将双链核酸分子的测序误差减少了多个数量级。误差的这种减少提高了几乎所有类型的序列中的测序的准确度，但特别可以适用于本领域众所周知特别容易出错的生化挑战性的序列。这样的类型的序列的一个非限制性示例是均聚物或其他微卫星/短串联重复序列。受益于双重测序错误校正的易错序列的另一个非限制性示例是已经被损伤的分子，例如，通过加热、辐射、机械应力或各种化学暴露，其产生在被一种或多种核苷酸聚合酶复制期间易错的化学加合物。在进一步的实施例中，双重测序还可以用于精确检测双链核酸分子的群体中的少数序列变体。本申请的一个非限制性示例是在受试者体内非癌组织的大量未突变的分子中检测到少量源自癌症的DNA分子。通过双重测序进行罕见变体检测的另一个非限制性应用是来自以低丰度与不同基因型的另一个体的DNA混合的一个个体的DNA的法医检测。

III.用于解析核酸混合物和混合细胞群体的方法的选定实施例

在混合的样品中识别和测量基因型的问题出现在不同领域，包含法医学和基于细胞的疗法(例如干细胞移植)。根据本技术的方面，双重测序可以用于去卷积和识别核酸混合物中存在的来源特异性基因型。在特定的实施例中，双重测序用于识别生物样品混合物中存在的单个核酸分子上存在的微单倍型。在一些实施例中，微单倍型用于去卷积多种基因型的复杂混合物。

微单倍型是小的基因组基因座，其包括在彼此相对短的距离内的两个或更多个非冗余基因组DNA SNP(例如，<200个核苷酸、<250个核苷酸、<300个核苷酸、<350个核苷酸或更长)，其通常被定义为可以包括在同一读数或读数对或测序读数中的多态性基因座的组。可以使用下一代DNA测序(NGS)、桑格测序、大规模并行测序、纳米孔测序、单分子测序、杂交测序或其他相关方法进行基因分型。区域的长度并不完全由核苷酸的长度来定义，而是可以在所使用的任何基因分型平台上作为“阶段”单元进行基因分型的序列。对于许多当代的NGS平台，诸如例如由Illumina,Inc.(San Diego,CA,USA)或Thermo Fisher Scientific,Inc.(Waltham,MA,USA)制造的平台，读数长度/配对读数长度在几十到几百个核苷酸的数量级。这样的长度是具有这些平台的微单倍型的实际大小。对于较长的序列读数技术，诸如由例如Pacific Biosciences of California,Inc.(Menlo Park,CA,USA)和OxfordNanopore Technologies,Ltd.(Oxford,UK)生产的测序仪，微单倍型的实际可用长度要长得多。对于下面的示例，为了清楚和实用，示出了长度为几十至几百个核苷酸数量级的微单倍型，但这不应被解释为一般性限制。微单倍型可以具有3至14个或更多个不同的等位基因或等位基因组合。在多组分混合物的情况下，这样的多等位基因位点尤其可以具有信息性。双重测序可以以这样的方式解析被标准的下一代测序(NGS)和单链共有测序方法的错误率所掩盖的罕见变体，所述方式允许检测微单倍型，即使当特定的基因型在生物混合物中以非常低的水平存在时。对于给定的混合物，给定的微单倍型可能具有少至零的“信息性”个体多态性(即，在来自不同个体的混合物中的DNA分子之间的微单倍型之间没有差异)，或者具有若干个体多态性(例如，至少约2、3、4、5、6、7、8、9、10、11、12、15、20、24个或更多个)。复合微单倍型基因型的数目可以是若干个(例如，大于10、大于20、大于30等)，但是类似地，如果混合物中的组成受试者在遗传上没有充分不同，则对于给定的混合物可能是或可能不是信息性的。

在一些实施例中，本技术的方面用于检测和定量混合物中约1/100,000份水平的生物样品中存在的基因型。本技术的其他方面可以精确地定量来自多种已知基因型的混合比例(例如，约5、约10、约12、约15、约20、约25、约30、约35、约40、约45、约50等)。在其他实施例中，本技术的方面可以用于去卷积至少约5种(例如，约2种、约3种、约4种、约5种、约6种等)未知的基因型(例如，没有关于数目或生物样品中存在哪些遗传来源的经验或先验知识)的混合物。本技术的进一步的方面可以用于部分地回收混合物中极低丰度来源的基因型。例如，这样的实施例可用于法医应用、微嵌合体分析(例如，胎儿微嵌合体)、宿主中移植的细胞的测量(例如，在干细胞移植后)等。另外的实施例涉及从数据库中识别复杂混合物中的受试者(例如，高达至少约8个个体基因型)。

IV.用于基因型的复杂混合物的去卷积的系统和计算环境的实施例

合适的计算环境

以下讨论提供了可以实现本公开的各方面的合适的计算环境的一般描述。尽管不是必需的，但是将在计算机可执行指令(例如由通用计算机(例如，服务器或个人计算机)执行的例程)的一般上下文中描述本公开的方面和实施例。相关领域的技术人员将理解，本公开可以用其他计算机系统配置来实践，包含互联网设备、手持装置、可穿戴计算机、蜂窝或移动电话、多处理器系统、基于微处理器的或可编程的消费电子产品、机顶盒、网络PC、微型计算机、大型计算机等。本公开可以在专用计算机或数据处理器中实现，该专用计算机或数据处理器被专门编程、被配置或构造成执行在下面地详细解释的一个或多个计算机可执行指令。实际上，如本文通常使用的术语“计算机”是指任何上述装置以及任何数据处理器。

本公开还可以在分布式计算环境中实践，其中任务或模块由远程处理装置执行，远程处理装置通过通信网络连接，例如局域网(“LAN”)、广域网(“WAN”)或互联网。在分布式计算环境中，程序模块或子例程可以位于本地和远程存储器存储装置中。下面描述的本公开的各方面可以存储在或分布在计算机可读介质上，包含磁性和光学可读以及可移动的计算机盘，其作为固件存储在芯片(例如，EEPROM芯片)中，以及通过互联网或通过其他网络(包含无线网络)电子分布。相关领域的技术人员将认识到，本公开的部分可以驻留在服务器计算机上，而相应的部分驻留在客户计算机上。本公开的各方面特有的数据结构和数据的传输也包含在本公开的范围内。

诸如个人计算机或工作站的计算机的实施例可以包括耦合到一个或多个用户输入装置和数据存储装置的一个或多个处理器。计算机还可以耦合到至少一个输出装置例如显示装置和一个或多个任选的附加输出装置(例如打印机、绘图仪、扬声器、触觉或嗅觉输出装置等)。计算机可以耦合到外部计算机，例如通过任选的网络连接、无线收发器或两者。

各种输入装置可以包含键盘和/或诸如鼠标的定点装置。其他输入装置也是可能的，例如麦克风、操纵杆、笔、触摸屏、扫描仪、数码相机、摄像机等。进一步的输入装置可以包含测序仪(例如，大规模并行测序仪)、荧光镜和其他实验室设备等。合适的数据存储装置可以包含可以存储计算机可访问的数据的任何类型的计算机可读介质，例如磁性硬盘和软盘驱动器、光盘驱动器、盒式磁带、磁带驱动器、闪存卡、数字视频盘(DVD)、伯努利盒式磁带、RAM、ROM、智能卡等。实际上，可以使用用于存储或传输计算机可读指令和数据的任何介质，包含到诸如局域网(LAN)、广域网(WAN)或互联网的网络的连接端口或节点。

本公开的各方面可以在各种其他计算环境中实践。例如，具有网络接口的分布式计算环境可以包含系统中的一个或多个用户计算机，其中用户计算机可以包含浏览器程序模块，其允许计算机访问互联网并与互联网交换数据，包含互联网的万维网部分内的网站。用户计算机可以包含其他程序模块，例如操作系统、一个或多个应用程序(例如，文字处理或电子表格应用程序)等。计算机可以是可以被编程以运行各种类型的应用程序的通用装置，或者它们可以是被优化或限于特定功能或功能类别的单用途装置。更重要的是，尽管用网络浏览器示出，但是可以采用用于向用户提供图形用户界面的任何应用程序，如下文详细地描述的；网络浏览器和网络界面的使用在本文仅被用作常见的示例。

耦合到互联网或万维网(“Web”)的至少一个服务器计算机可以执行用于接收、路由和存储电子消息的大部分或全部功能，所述电子消息例如是本文描述的网页、数据流、音频信号和电子图像。虽然示出了互联网，但是在一些应用中，诸如内联网的私有网络可能确实是优选的。网络可以具有客户端-服务器架构，其中计算机专用于服务其他客户端计算机，或者它可以具有其他架构例如对等架构，其中一台或多台计算机同时充当服务器和客户端。耦合到服务器计算机的一个或多个数据库可以存储在用户计算机之间交换的大部分网页和内容。包含数据库的服务器计算机可以采用安全措施来抑制对系统的恶意攻击，并保持存储在其中的消息和数据的完整性(例如，防火墙系统、安全套接字层(SSL)、密码保护方案、加密等)。

合适的服务器计算机可以包含服务器引擎、网页管理组件、内容管理组件和数据库管理组件以及其他特征。服务器引擎执行基本的处理和操作系统级别的任务。网页管理组件处理网页的创建和显示或路由。用户可以通过与其相关联的URL来访问服务器计算机。内容管理组件处理本文描述的实施例中的大多数功能。数据库管理组件包含关于数据库的存储和检索任务、对数据库的查询、对数据库的读写功能以及诸如视频、图形和音频信号的数据的存储。

本文描述的许多功能单元已经被标记为模块，以便更具体地强调它们的实现独立性。例如，模块可以用软件实现，以用于由各种类型的处理器执行。可执行代码的识别模块可以例如包括计算机指令的一个或多个物理或逻辑块，其可以例如被组织为对象、程序或功能。所识别的计算机指令块不需要在物理上位于一起，而是可以包括存储在不同位置的不同指令，当这些指令在逻辑上结合在一起时，构成该模块并且实现该模块的所述目的。

模块也可以被实现为硬件电路，包括定制的VLSI电路或门阵列、诸如逻辑芯片、晶体管或其他分立部件的现成半导体。模块也可以在可编程硬件装置(例如现场可编程门阵列、可编程阵列逻辑、可编程逻辑装置等)中实现。

可执行代码的模块可以是单个指令或多个指令，并且甚至可以分布在若干个不同的代码段上、不同的程序中以及若干个存储装置上。类似地，操作数据在本文可以在模块中被识别和图示，并且可以以任何合适的形式被体现，并且被组织在任何合适类型的数据结构中。操作数据可以作为单个数据集收集，或者可以分布在不同的位置上，包含分布在不同的存储装置上，并且可以至少部分地仅作为系统或网络上的电子信号存在。

用于核酸混合物的去卷积的系统

本发明进一步包括一种系统(例如，联网计算机系统、高吞吐量自动化系统等)用于处理包括核酸混合物的生物样品，并通过有线或无线网络将测序数据传输到服务器，以确定样品的错误校正的序列读数(例如，双重序列读数、双重共有序列等)、基因型识别、个体/可归因基因型的量化等。

如下面另外详细地描述的，并且关于图5所示的实施例，用于去卷积混合物中的核酸的计算机化系统包括：(1)服务器(例如，远程服务器或本地存储的服务器)；(2)能够生成和/或发送测序数据的多个用户电子计算装置；(3)任选地，具有已知的基因型和相关信息的数据库(任选的)；和(4)用于在电子计算装置、数据库和服务器之间传输电子通信的有线或无线网络。服务器进一步包括：(a)存储去卷积记录结果和基因型概况(例如微单倍型概况等)的记录的数据库；(b)通信地耦合至存储器的一个或多个处理器；和一个或多个非暂时性计算机可读存储装置或介质，包括用于处理器的指令，其中所述处理器被配置为执行所述指令以执行包括图6-8中描述的一个或多个步骤的操作。

在一个实施例中，本技术进一步包括一种非暂时性计算机可读存储介质，其包括指令，当由一个或多个处理器执行时，所述指令执行用于确定混合物中一种或多种基因型的存在、混合物中每个所识别的基因型的量化、来自数据库的受试者/个体的身份(其遗传物质存在于混合物中)、量化来自多个已知基因型的混合比例、去卷积多个未知基因型的混合物等的方法。在特定的实施例中，所述方法可以包含图6-8中所描述的步骤中的一个或多个。

本技术的另外的方面涉及用于确定混合物中一种或多种基因型的存在、混合物中每种识别的基因型的定量、来自数据库的受试者/个体的身份(其遗传物质存在于混合物中)、定量来自多个已知基因型的混合比例、去卷积多个未知基因型的混合物等的计算机化方法。在特定的实施例中，所述方法可以包含图6-8中所描述的步骤中的一个或多个。

图5是计算机系统500的框图，该计算机系统在其上安装有计算机程序产品550，并且用于与本文公开的方法一起使用，以对来自生物样品的核酸混合物进行去卷积。尽管图5示出了各种计算系统组件，但是可以预期，本领域普通技术人员已知的其他或不同组件，诸如上面讨论的那些，可以提供其中可以实现本公开的各方面的合适的计算环境。图6是示出了根据本技术的实施例的用于提供双重测序共有序列数据的例程的流程图。图7-8是流程图，其示出了用于识别和/或量化来自核酸混合物的基因型的各种例程。根据本技术的各个方面，关于图7-8描述的方法可以提供样品数据，所述样品数据包含例如样品中存在的基因型，包含在样品中表示的独立生物来源的数量，和生物混合物中存在的每种生物来源的定量，以及从样品数据与已知基因型的数据集(包含包括个体受试者的基因型的数据库)的比较中得到的信息。

如图5所示，计算机系统500可以包括多个用户计算装置502、504；有线或无线网络510和服务器(“DupSeq^TM”服务器)540，包括处理器以分析微单倍型并将核酸混合物去卷积成个体基因型。在实施例中，用户计算装置502、504可以用于生成和/或传输测序数据。在一个实施例中，计算装置502、504的用户可以是执行本技术的其他方面(诸如用于对包括遗传材料的多于一个生物来源的核酸混合物进行去卷积的生物样品的双重测序方法步骤)的用户。在一个示例中，根据本技术的实施例，计算装置502、504的用户使用包括试剂和/或衔接子的试剂盒(1、2)来执行某些双重测序方法步骤，以询问生物样品。

如所示出的，每个用户计算装置502、504包含至少一个中央处理单元506、存储器507以及用户和网络接口508。在一个实施例中，用户装置502、504包括台式计算机、膝上型计算机或平板计算机。

尽管描绘了两个用户计算装置502、504，但是可以预期，可以包含任何数量的用户计算装置或者可以将其连接到系统500的其他组件。另外，计算装置502、504也可以代表由用户(1)和用户(2)用来扩增和测序样品的多个装置和软件。例如，计算装置可以是测序仪(例如Illumina HiSeg^TM、Ion Torrent^TMPGM、ABI SOLiD^TM测序仪、PacBio RS、HelicosHeliscope^TM等)、实时PCR仪(例如ABI 7900、Fluidigm BioMark^TM等)、微阵列仪器等。

除了上述组件之外，系统500可以进一步包括数据库530，用于存储基因型概况和相关信息。例如，可以由服务器540访问的数据库530可以包括微单倍型、已知受试者的基因型和起始材料的混合比例(例如，细胞的混合物)的记录或集合。在特定的示例中，数据库530可以是包括基因型概况532的第三方数据库。例如，可以针对特定的应用查询包括已知个体的基因型的各种法医数据库。在另一个实施例中，数据库可以是与服务器540分开托管的独立数据库530(私有或非私有)，或者数据库可以被托管在服务器540上，例如数据库570，其包括凭经验获得的基因型概况572。在一些实施例中，当系统500用于生成新的基因型概况时，通过使用系统500和相关方法(例如，本文描述的方法和例如图6-8中描述的方法)生成的数据可以被上传到数据库530和/或570，从而可以为将来的比较活动产生额外的基因型概况532、572。

服务器540可以被配置成经由网络510从用户计算装置502、504接收、计算和分析测序数据(例如，原始测序文件)和相关信息。可以使用安装在装置502、504上的计算机程序产品/模块(序列模块505)，或者通过网络510从服务器540可访问的计算机程序产品/模块，或者使用本领域公知的其他测序软件，在本地计算样品特异性原始测序数据。然后可以通过网络510将原始序列数据传输到服务器540，并且用户结果574可以存储在数据库570中。服务器540还包括程序产品/模块“DS模块”512，其被配置为从数据库570接收原始测序数据，并被配置为使用例如本文公开的双重测序技术经计算生成错误校正的双链序列读数。虽然在服务器540上示出了DS模块512，但是本领域的普通技术人员将认识到，DS模块512可以替代地在操作时被托管在装置502、504上或者在另一个服务器(未示出)上。

服务器540可以包括至少一个中央处理单元(CPU)560、用户和网络接口562(或者具有连接到服务器的接口的服务器专用计算装置)、数据库570，如上所述，具有存储已知和未知的生物来源572的基因型概况的多个计算机文件/记录，以及存储测试的样品574的结果(例如，原始测序数据、双重测序数据、微单倍型分析、基因型分析等)的文件/记录。根据本技术的各个方面，服务器540进一步包括其上存储有基因型计算机程序产品(基因型模块)550的计算机存储器511。

计算机程序产品/模块550在非暂时性计算机可读介质中体现，当在计算机(例如服务器540)上执行时，所述非暂时性计算机可读介质执行本文公开的用于检测和识别微单倍型，将混合物解析成个体基因型，和/或对其进行定量的步骤。本公开的另一个方面包括计算机程序产品/模块550，其包括其上包含有计算机可读程序代码或指令的非暂时性计算机可用介质，用于使处理器能够执行基因型分析(例如，计算微单倍型、量化所识别的微单倍型、将混合物解析成有贡献的生物来源、对比较报告进行基因分型等)。这些计算机程序指令可以被加载到计算机或其他可编程设备上以产生机器，使得在计算机或其他可编程设备上执行的指令创建用于实现本文描述的功能或步骤的装置。这些计算机程序指令也可以存储在计算机可读存储器或介质中，其可以指导计算机或其他可编程设备以特定方式运行，使得存储在计算机可读存储器或介质中的指令产生包含实现分析的指令装置的制造物品。计算机程序指令也可以被加载到计算机或其他可编程设备上，以使一系列操作步骤在计算机或其他可编程设备上执行，从而产生计算机实现的过程，使得在计算机或其他可编程设备上执行的指令提供用于实现上述功能或步骤的步骤。

此外，计算机程序产品/模块550可以用任何合适的语言和/或浏览器来实现。例如，它可以用Python、Java、Scala、C语言来实现，并且优选地使用面向对象的高级编程语言诸如Visual Basic、SmallTalk、C++等来实现。该应用程序可以被编写为适合诸如Microsoft Windows^TM环境的环境，包含Windows^TM98、Windows^TM2000、Windows^TMNT等。此外，该应用程序还可以为Macintosh^TM、SUN^TM、UNIX或LINUX环境编写。此外，功能步骤也可以使用通用或独立于平台的编程语言来实现。这样的多平台编程语言的示例包含但不限于超文本标记语言(HTML)、JAVA^TM、JavaScript^TM、Flash编程语言、通用网关接口/结构化查询语言(CGI/SQL)、实用提取报告语言(PERL)、AppleScript^TM和其他系统脚本语言、编程语言/结构化查询语言(PL/SQL)等。可以使用支持Java^TM或JavaScript^TM的浏览器，诸如HotJava^TM、Microsoft^TMExplorer^TM或Firefox^TM。当使用活动内容网页时，它们可能包含Java^TM小程序或ActiveX^TM控件或其他活动内容技术。

该系统调用许多例程。虽然本文描述了一些例程，但是本领域技术人员能够识别系统可以执行的其他例程。此外，本文描述的例程可以以各种方式改变。作为示例，所示的逻辑的顺序可以重新排列，子步骤可以并行执行，所示的逻辑可以省略，可以包含其他逻辑等。

图6是示出了用于提供样品(例如，来自生物混合物的样品)中的双链核酸分子的双重测序数据的例程600的流程图。例程600可以由计算装置(诸如耦合到计算机网络的客户端计算机或服务器计算机)调用。在一个实施例中，计算装置包含序列数据生成器和/或序列模块。作为示例，计算装置可以在操作者接合与计算装置通信的用户界面之后调用例程600。

例程600开始于框602，并且序列模块从用户计算装置接收原始序列数据(框604)，并且创建样品特异性数据集，该数据集包括来自样品中的多个核酸分子的多个原始序列读数(框606)。在一些实施例中，服务器可以将样品特异性数据集存储在数据库中以供以后处理。接下来，DS模块接收到从样品特异性数据集中的原始序列数据生成双重共有测序数据的请求(框608)。DS模块将来自代表原始双链核酸分子的家族的序列读数分组(例如，基于SMI序列)，并将来自单个链的代表性序列相互比较(框610)。在一个实施例中，代表性序列可以是来自每个原始核酸分子的一个或多于一个的序列读数。在另一个实施例中，代表性序列可以是由代表性链内的比对和错误校正生成的单链共有序列(SSCS)。在这样的实施例中，来自第一链的SSCS可以与来自第二链的SSCS进行比较。

在框612，DS模块识别比较的代表性链之间的互补性的核苷酸位置。例如，DS模块沿着比较的(例如，比对的)序列读数识别核苷酸位置，其中核苷酸碱基调用是一致的。此外，DS模块识别比较的代表性链之间的非互补性的位置(框614)。因此，DS模块可以沿着其中核苷酸碱基调用不一致的比较的(例如，比对的)序列读数识别核苷酸位置。

接下来，DS模块可以为样品中的双链核酸分子提供双重测序数据(框616)。对于每个处理过的序列读数，这样的数据可以是双重共有序列的形式。在一个实施例中，双重共有序列可以仅包含核苷酸位置，其中来自原始核酸分子的每条链的代表性序列是一致的。因此，在一个实施例中，不一致的位置可以被消除或以其他方式被忽略，使得双重共有序列是已经被错误校正的高准确度序列读数。在另一个实施例中，双重测序数据可以包含报告不一致的核苷酸位置的信息，以便可以进一步分析这样的位置(例如，在其中可以评估DNA损伤的情况下)。例程600然后可以在框618继续，其在此框处结束。

图7是示出了用于检测、识别和定量核酸混合物中存在的微单倍型以确定样品的已知来源基因型的例程700的流程图。该例程可以由图5的计算装置调用。例程700开始于框702，并且基因型模块分析来自图6的双重测序数据(例如，在框616之后)以识别个体DNA分子内存在的微单倍型等位基因组合(框704)并且对从每个已知来源基因型捐献的每个等位基因的总计数求和(框706)。接下来，基因型模块使用例如基于回归的模型来计算混合物中存在的每个基因型的混合比例(框708)。因此，微单倍型分析可以提供关于原始生物来源和对核酸混合物有贡献的每种来源的相对比例的信息。

基因型模块还可以任选地将每个基因型的混合比例与原始混合比例进行比较(框710)(例如，在来自不同生物来源的细胞生长在一起的情况下)，以评估对生物来源混合物(例如，培养中的细胞的混合物)的选择性压力。接下来，基因型模块可以提供基因型数据(框712)，该基因型数据可以存储在数据库中的样品特异性数据集中。例程700然后可以在框714处继续，其在此框处结束。图9示出了可以使用例程2100确定并且可以存储在数据库中的基因型数据(例如，所有微单倍型上的计数、已知来源基因型、混合比例)的一个示例。

图8是示出了用于去卷积样品中未知基因型的核酸混合物的例程800的流程图。该例程可以由图5的计算装置调用。例程800开始于框802，并且基因型模块分析来自图6的双重测序数据(例如，在框616之后)，以识别在个体DNA分子内存在的微单倍型等位基因组合(框804)。在一些实施例中，当例如使用长读数测序技术时，可以识别SNP等位基因组合。接下来，基因型模块针对存在于每个遗传基因座的所有可能的基因型评估所有可能的混合比例(框806)。基因型模块然后针对每个遗传基因座计算充分地符合序列数据(例如，SNP数据、微单倍型数据)和所评估的所有可能混合比例的所有可能基因型的列表(框808)。因此，微单倍型/SNP分析可以提供关于原始生物来源的遗传信息、关于存在的原始生物来源的数量的信息以及对核酸混合物有贡献的每种来源的相对比例。

基因型模块还可以任选地将来自未知来源的基因型概况与包含已知来源的基因型概况的数据库进行比较，以识别对复合核酸混合物的特定生物来源贡献者(框810)(例如，在法医案例中，诸如用于识别犯罪人、受害者或失踪人员)。在一些实施例中，基因型模块还可以任选地通过评估如果在混合物中包含一种或多种已知的基因型，则混合物数据是否可以充分地拟合来确定来自数据库的基因型在混合样品中的存在。

接下来，基因型模块可以提供基因型数据(框812)，该基因型数据可以存储在数据库中的样品特异性数据集中。例程800然后可以在框814处继续，其在此框处结束。图10示出了可以使用例程2100确定并且可以存储在数据库中的基因型数据(例如，来自微单倍型的计数、可能的基因型概况、可能的混合比例的网格)的一个示例。

V.实验示例

以下部分提供了用于使用双重测序和相关试剂来解析核酸混合物的方法的一些说明性示例。

示例1

脐带血扩增：扩增CD34+脐带血干细胞用于同种异体移植。将来自多个供体(例如8个供体)的脐带血样品合并，并在培养物中一起缺口配体扩增。在本示例中，使用双重测序来评估在扩增过程期间是否保持了来自每个供体的输入的CD34+干细胞的相对比例。

在本示例中，对来自8个个体供体的脐带血进行CD34+富集和流动定量。如图11所示，对每个脐带血样品的等分试样进行DNA提取和单独测序。制备四种盲法测试混合物(图11的左侧)，使用如本文前面所述和美国专利第9,752,188号中所述的双重测序方案进行测序。在测序后，对混合物进行分析和去卷积。

在图11的右侧所示的该示例的第二方面中，合并来自原始脐带血样品的活细胞(各可变的CD34+计数)并扩增切口配体。在扩增后，从合并的细胞中提取DNA并测序。

随后分析测序结果，以确定测序的混合物是否概括了四种盲法测试混合物的预期的混合物(图11的左侧)，并且确定扩增后每份脐带样品的相对百分比(基于每种独特基因型的代表性DNA量)是否反映了原始输入CD34+计数。

使用一组探针进行双重测序以对散布在整个人类基因组中的45个高MAF SNP位点和16个低MAF SNP位点进行基因分型。如图12所示，示出了在本示例中使用的SNP面板的总体分布。

在本示例生成的混合物中，已知最低变体等位基因频率(VAF)SNP为0.6％。因此，测序进行至约3000倍深度，使得在0.6％VAF时，存在确定来自纯合个体的约18个SNP事件或来自杂合个体的约9个SNP事件的似然。使用双重测序方法，对来自4种脐带血混合物、脐带血扩增混合物和来自8名单个供体中的每一个的脐带血样品中的每一种的250ng的DNA进行测序，以达到约3000倍的独特分子深度。所有测序和基因型测定均采用盲法进行。图13是示出了每个样品的靶上双重测序深度的柱状图。

分析包含对59个SNP位点的检查，以指示与实验样品同时制备的DNA标准中的交叉污染。没有发现污染分子(在测序的222,025个多态性位点碱基对中)。在8个脐带血样品中检查了59个SNP位点，并且在脐带血样品中未发现人类DNA交叉污染的证据。

图14示出了识别用于区分供体基因型的11个特异性SNP等位基因的图。这些SNP中的十个位于图12所示的低MAF子集内。如图14所示，对单个供体样品的分析显示，9个SNP变体对于单个样品是独特的，并且在仅两个供体样品中存在两个额外的SNP位点。来自供体的原始脐带血样品中的五个可以通过一个或多个特异性等位基因进行唯一识别，并且3个剩余的脐带血样品可以通过推断共有的较高频率SNP进行识别。

参考图15A-15D，双重测序方法产生了用于检测每种混合物中的每种单独的脐带血来源的完全的灵敏度和特异性。例如，参考图15D，脐带血混合物之一(即，脐带血混合物#6)含有两个单独的脐带血样品(#2、#7)，分别代表总混合物的1％。使用双重测序方法，检测这些脐带血样品并以总代表性的1％精确地定量。

参考图15A-15D，注意到与预期的百分比(例如，Nanodrop分光光度计测量的用于生产混合物的每个样品的量的定量)存在显著量的变化。不受理论的约束，据信图15A-15B所示的双重测序方法与Nanodrop定量方法之间的显示的DNA定量的差异是由于可归因于Nanodrop方法的混杂因素(例如，存在未破坏的RNA等)。当使用Nanodrop和通过Qubit荧光计测量观察所有样品(例如，单个脐带血样品、从扩增的细胞中提取的DNA以及从测试混合物中提取的DNA)的定量时，证实了这一点(参见图15E)。如图所示，与Qubit(浅灰色柱)相比，Nanodrop测量值(深灰色柱)似乎过度代表了样品定量测量值。作为双重测序定量方法与Nanodrop定量方法之间定量测量差异的进一步证据，图16示出了每种混合物中每个单独的脐带血样品的定量的倍数差异。如所示出的，这些样品中每一个的倍数差异都相似，进一步表明在生成混合物之前的定量误差解释了图15A-15D中的差异结果。无论如何，准确地识别了用于生成混合物的脐带血样品的各个来源以及它们对混合物的代表性贡献(图15A-15D)。

图17是柱状图，其描绘了对于每个单独的脐带血样品在扩增前流式细胞术测定的细胞的CD34+部分和在扩增后的细胞的CD34⁺部分(如通过双重测序所确定的)。如所示出的，在扩增前CD34+细胞计数与扩增后细胞计数之间存在很强的相关性。这些结果表明，在该扩增中存在的来自每个脐带血样品的细胞按比例增殖。此外，这些数据显示增殖的细胞是CD34+细胞，而不是也经历切口扩增的其他分化细胞。

在本示例中，已经证明双重测序方法可以用于使用多态性标记物来去卷积生物混合物(例如，来自8个个体的脐带血样品的混合物)。使用相当中等的测序深度(例如3000倍)，双重测序方法能够自信地检测在每种测试的合成混合物中具有总的灵敏度和特异性的每个脐带样品。在不受理论约束的情况下，据信所测试的合成混合物中每个脐带样品的相对丰度的差异是当制备混合物时DNA定量的错误的结果，而不是双重测序过程的缺陷。

在本示例中进一步证明，用于分析扩增后脐带血混合物的双重测序方法产生与切口扩增前来自每个脐带血样品的CD34+细胞的相对百分比非常相似的结果，表明至少在本实验中，来自每个脐带血样品的CD34+细胞彼此相对成比例地增殖，并且每种的相对级分以与原始混合物相同的总级分来表示。

在本示例中，双重测序证明是一种用于去卷积核酸材料的混合物并且识别原始DNA来源的存在和丰度的成功的方法。因此，双重测序方法提供了一种成本有效地评估治疗性人类细胞的多个体培养物的丰度的快速、定量和自动化方法。

基于为每条脐带确定的SNP基因型的模式，该方法能够从SNP单倍型中缩小预期的HLA单倍型的范围。例如，可以评估祖先概率的预测(例如，毛利人/因纽特人/北欧人的祖先)。

一般而言，本示例说明了8个来源的分辨率，然而，可以设计面板，以允许任何需要的规格。如果提前已知基因型，则预计双重测序可以通过成本有效的面板获得数十种成分。在其他实施例中，使用如本文所述的双重测序方法，也可以在无先验知识的情况下对多个来源进行去卷积。

在本示例中，选择了3000倍独特分子深度的目标深度，因为没有特别罕见的事件。在其中已知或怀疑存在罕见事件的示例中，测序深度可以增加(例如，约10,000倍、15,000倍、20,000倍、25,000倍、30,000倍、35,000倍、40,000倍、45,000倍、50,000倍、75,000倍、100,000倍、200,000倍、500,000倍、1,000,000倍或更多)。变体可以作为比率(变体SNP/测序的总SNP BP)进行检测；只要达到超过达到特定统计置信度的最小目标，深度就足够。

分类到不同细胞区室中和定量脐带血混合物中嵌合体的能力可以提供关于一条脐带/另一条脐带是否不同地分化成一个谱系/另一个谱系的信息。评估血浆中相对嵌合体无细胞DNA的能力允许双重测序法在短时间尺度上跟踪一条脐带相对于另一条脐带的相对死亡(在血浆中cfDNA的半衰期为约2.5小时)。类似地，应用于无细胞DNA的这样的方法可以评估来自移植的基因组的DNA的相对比例，诸如实体器官移植，诸如肾、心脏或肺，如在移植排斥的情况下可能发生的。

示例2

用于混合物去卷积的微单倍型基因组位点的双重测序。微单倍型是两个或更多个基因组DNA SNP在彼此相对短的距离内(例如，<200个核苷酸、<250个核苷酸、<300个核苷酸、<350个核苷酸或更长)与三个或更多个等位基因组合(例如，约3、4、5、6、7、8、9、10、11、12、13、14个或更多个不同等位基因)的基因座。对于给定的混合物，给定的微单倍型可能具有少至零的“信息性”个体多态性(即，在来自不同个体的混合物中的DNA分子之间的微单倍型之间没有差异)，或者具有若干个体多态性(例如，至少约2、3、4、5、6、7、8、9、10、11、12、15、20、24个或更多个)。如图18A所示，在识别的有用微单倍型的特定面板中，大多数微单倍型的长度小于200个核苷酸。图18B是在世界各地不同的群体中一个微单倍型的等位基因频率的示例。

在本示例中，在微单倍型区域上对DNA混合物进行探测和测序，以将混合物去卷积成一个或多个原始DNA来源，用于例如识别的目的，并确定每种来源的丰度。通过使用探针板来评估微单倍型标记物，可以评估每个探针/测序读数的更多等位基因，这在测序数据中产生更大的用于来源识别的能力。在特定的示例中，观察含有微单倍型的约100个基因组区域的探针板可以利用约300个等位基因的独特组合来识别来源。探针板可以用于使用双重测序执行配对末端测序或单末端测序。

在其中已知供体基因型的示例中，可以使用私有等位基因来识别特定的供体。例如，如果等位基因对于特定的供体是唯一的，则供体的比例等于含有次要等位基因的基因座的测序读数的比例。该方法可以用于评估低丰度的样品，因为仅需要私有等位基因的一个读数来识别供体。

在另一个示例中，双重测序和随后对测序数据的去卷积可以用于识别基因型(例如，来源)供体。例如，如果探测到足够多的等位基因，则可以使用等位基因的组合来生成独特的基因型印迹(例如，遗传特征)以识别和定量供体。

在模拟的示例中，9种基因型处于一些稀有基因型与一些丰富基因型混合的混合物中。用于对代表266个不同等位基因的100个微单倍型进行测序的探针板将用于对深度为约3000倍的DNA混合物进行测序。在本假设性示例中，使用混合物估计，由模拟的微单倍型产生的私有等位基因检测了每个供体。在模拟中，在去除私有等位基因的使用后，数据仍可以用于确定地检测除3个最低丰度供体(0.03％、0.3％和1.3％的模拟的混合物)之外的所有供体。双重测序数据的模拟的去卷积的结果在图19中示出。

示例3

本示例描述了用于混合物去卷积的微单倍型基因组位点的双重测序的实施例。在本示例中，在5％、10％、20％和40％观察到在4个基因座处具有次要等位基因的患者样品。在本示例中，这些等位基因频率不能仅用患者的DNA来解释。存在至少3个基因组。对于这种情况的良好拟合将是10％的供体1、40％的供体2和50％的患者3。在去卷积中，考虑到任何供体基因型导致最佳拟合，该策略寻求找到最佳解释观察到的等位基因频率的混合比例。在某些示例中，机器学习方法可以促进该分析。

用于解析双重测序数据的去卷积模型的一个示例可以使用线性回归、广义线性模型或其扩展。图20示出了用于使用7个SNP(每个SNP在供体中具有已知的基因型)确定混合物内供体来源的线性回归模型的一个示例。确定每个供体的混合比例(β)。

示例4

本示例描述了用于混合物去卷积的微单倍型基因组位点的双重测序的另一个实施例。在本示例中，来自具有来自已知生物来源的核酸分子的混合物的样品的双重测序数据用于估计混合来源的混合比例。可以使用如本文所述(例如，参考图5)的计算系统的各种实施例来执行分析的各方面。

在第一步骤中，例程可以由计算装置(诸如具有基因型模块的计算装置)调用，并且这样的例程可以调用每个被分析的基因座的每个等位基因的计数的向量(Y)。向量Y的示例在表1中示出。在该特定的示例中，每个基因座具有两个等位基因和一个无调用或“N”值，然而，该例程可以在任何给定的基因座容纳任何数量的等位基因。因此，在本示例中，当使用微单倍型数据时，每个基因座将具有至少3个等位基因，加上各种无调用等位基因，其中微单倍型中的一个或多个SNP未被基因型模块(例如，例程)给予调用。

表1

等位基因计数数据的示例。向量Y被突出显示(灰色列)；随附的数据和ID位于其他列中。

在第二步骤中，例程定义对角矩阵λ，其中行和列对应于Y的元素。λ的对角元素等于它们对应的基因座处所有等位基因的总计数。例如，元素[1，1]处的λ的值应等于在Y的第一个位置中的基因座处的总计数。在表2中示出了矩阵λ的示例。

表2

矩阵λ的示例。矩阵以灰色突出显示；显示行和列名称用于与其他数据向量和矩阵比对。

在第三步骤中，例程将源基因型写入为矩阵G0，其中行与Y的元素比对，并且列对应于单个来源。例程对G0进行定义，使得G0的[i，j]元素将与第j个来源中Y中的第i个等位基因的基因型相对应，根据来源j是否具有等位基因的0、1或2个拷贝，用0、0.5或1填充G0。在表3中示出了矩阵G0的示例。

表3

来源基因型的矩阵G0的示例。G0以灰色突出显示；其他列示出了用于与其他数据向量和矩阵比对的ID。

在第四步骤中，例程解释数据中的无调用或“N”读数。在基因座处的“N”读数由各种原因引起，并且N的概率可以随基因座和等位基因而变化。对具有已知基因型的样品进行的校准实验可以估计被记录的N的基因座和等位基因特异性概率。

实际上，无调用现象导致患者基因型数据的失真。如果患者对于基因座处的等位基因A是纯合的，则并不真正期望该患者贡献100％的等位基因A计数：他也将贡献一些值为“N”的计数。

为了解释无调用或“N”读数，例程创建了经修改的基因型矩阵，其解释了等位基因被测序仪和/或基因型模块(例如程序)读数为无调用或“N”的等位基因特异性概率。表4示出了如何可以从G0和无调用/N读数的基因座和等位基因特异性率计算该G矩阵。

表4

解释无调用或“N”读数后的来源基因型的矩阵G的示例。G以灰色突出显示；其他列示出了用于与其他数据向量和矩阵比对的ID。G可以从G0和“到N的变化率”的列计算。

在另一个实施例中，例程可以被配置为从数据向量Y中丢弃所有未被调用的或“N”等位基因，使用该部分Y来计算λ，并且在以下步骤中使用G0代替G。

一旦确定了数据矩阵，例程就可以估计来源混合比例。

在本示例中，例程调用混合样品中来源的混合比例的向量β。在表5中示出了β的示例。例程可以首先估计β的元素，并且然后在这些估计周围放置置信区间。

表5

	混合比例
		来源1	β1
来源2	β2
		来源3	β3
来源4	β4

未知的混合比例的向量β的示例。β本身以灰色突出显示；其他值示出了用于与其他向量和矩阵比对的ID。

接下来，例程可以如下对数据建模：

E(Y)＝λGβ，

其中Y、λ、G和β如上定义，并且两个向量或矩阵的并置表示点积运算符，这是线性代数符号中的标准。该公式对给定基因座的给定等位基因具有简单解释，读数的预期数量等于该基因座的测序深度乘以样品中该等位基因的混合比例。(样品中等位基因的混合比例(或更准确地说，等位基因在该基因座的读数的预期比例)等于其在向量Gβ中的元素。

该模型包括用于估计β和用于计算其元素的置信区间的广义线性回归(GLM)方法。定义：

X＝λGβ，

并且GLM的设置自然产生。由E(Y)＝Xβ给出了GLM的平均模型(即，GLM具有身份链接)。GLM的家族可能是若干选择中的一种。

1.泊松族(即在X上使用Y的泊松回归)。

2.在一些实施例中，负二项式族(即在X上使用Y的负二项式回归)可以比泊松族对噪声数据更灵活。

3.高斯族(即在X上使用Y的普通线性回归)也可以用于一些应用中。

在所有上述设置中，GLM方法返回β的元素的估计和置信区间。

如本文所述的示例4包括一种解析已知基因型的核酸混合物的方法。本领域普通技术人员将认识到也可以使用其他方法。其他方法的非限制性示例可以包含多项式回归或二项式回归。在另一个实施例中，可以使用GLM的回归以从基因型矩阵预测每个等位基因的频率(通过等位基因的计数除以基因座的总计数计算)。在又一个实施例中，可以对贝塔(β)的元素施加约束。例如，以下约束的任何组合可以与回归或GLM方法的任何实施例一起应用。

1.贝塔(β)可以被约束为非负的。

2.可以约束贝塔(β)，使其元素都小于或等于1。

3.可以约束贝塔(β)，使其元素总和正好为1。

由于回归方法(如泊松回归、二项式回归和多项式回归)均基于渐近理论推导出近似标准误差(例如，使用基于瓦尔德、得分或似然比的标准误差)，因此这些方法有时可能无法对混合物中的极低丰度来源声称具有统计学意义的大于零的丰度。为了纠正这种误差，当来源具有不被任何其他来源共享的“私有”等位基因并且在混合样品中观察到该私有等位基因时，则可以以高统计置信度声称该来源以非零丰度存在。可以使用用于计算二项式比例的置信区间的任何不同方法来计算来源的丰度的置信区间。例如，可以使用威尔逊方法置信区间。

示例5

本示例描述了用于混合物去卷积的微单倍型基因组位点的双重测序的另一个实施例。在本示例中，来自含有来自未知生物来源的核酸分子的混合物的样品的双重测序数据用于识别来源基因型并估计混合来源的混合比例。可以使用如本文所述(例如，参考图5)的计算系统的各种实施例来执行分析的各方面。

用于本示例的数据可以按上述示例4进行格式化，其中Y、λ、G0、G和β如上定义，并且如表1-表5所示。然而，在本示例中，我们观察到的唯一数据是Y和λ，其直接从Y计算得出。因此，未知基因型问题与已知基因型问题的不同之处在于，我们必须与β一起估计G0，以便评估β的任何选择与数据的拟合程度。

在已知基因型问题(示例4)中，例程估计β，并且在该估计周围放置置信区间，有效地描绘了可以充分地拟合数据的所有可能的β向量的子空间。在解决未知基因型问题的本示例中，该例程被配置为描述可以合理地解释数据的β向量的特征。例如，该例程确定所观察到的数据是否可能来自仅具有一个非零元素β的样品(即单一来源)，或者是否只有来源的混合物才能产生所观察到的数据。在另一个实施例中，例程确定所观察到的数据是否可能来自来源的相对均匀的混合物，或者如果一个来源占优势或者一个或多个来源具有非常低的丰度，则是否只能解释数据。

因此，该方法评估所考虑的所有β向量，目的是返回可以充分地解释数据的β向量的种类的汇总。

在本示例中，描述了一种方法：

1.设置数据如下：

1a.选择K，即您将认为混合物中可能存在的来源的最大数量。K给出了β的长度。对应于小于K个来源的β向量在某些位置中将具有0。

1b.定义要考虑的β的网格，该网格采用长度为K的β向量的列表的形式。在一个实施例中，例程被配置为将一组β元素值定义为{0、0.001、0.01、0.02、0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、0.95、0.99、0.999、1}。然后，例程可以通过从该列表中获取具有递减值的所有可能的K长度样品来创建β列表，例如，如果K＝3，则例程获取{1、1、1}、{1、1、0.999}、{1、1、0.99)……(因为来源基因型是未知的，所以以不同的顺序选择两个具有相同值的β同样可以很好地解释数据)。为了获得合法β的列表(即总和为1的β)，例程被配置为重新缩放该列表中的每个β以总和为1。所得到的列表在可能β的空间上实现了详细的网格。

1c.对于每个基因座，定义一个可能基因型的列表，被格式如示例4所述的G0矩阵所示。可能的基因型是满足以下标准的所有矩阵：

i.K列和J行，其中J是针对该基因座观察到的唯一等位基因的数目。

ii.每个元素都是0、0.5或1。

iii.矩阵的每一列总和为1(这意味着每个来源在该基因座处是二倍体)。

iv.如果需要，使用与示例4中所述相同的方法，该例程被配置为修改列表中的每个G0矩阵，以便解决无调用/“N”值。此后，该矩阵的列表中的矩阵被称为“G”矩阵，与先前的符号一致。

2.评估β对数据Y的拟合。该例程被配置为使用以下算法将列表中的每个β与对数似然相关联。

2a.对于每个β和每个基因座，在基因型矩阵的列表中搜索矩阵G，该矩阵G导致来自该基因座的Y值的最大对数似然。对数似然可以使用以下任何模型来计算：1.其中Y是平均向量为λGβ的泊松随机向量，2.其中Y为负二项式随机向量，其中平均向量λGβ和大小参数等于拟合数据的值的预指定值，或3.其中Y是对数正态随机向量，其中平均向量log(λGβ)和方差参数等于拟合数据的值的预指定值。在其他实施例中，可以使用其他参数分布。

对于列表中的每个β，步骤2a的输出是在每个基因座处的最佳拟合G的选择和伴随的由β与这些最佳拟合的G实现的对数似然的集合。

2b.计算每个β的对数似然作为其在整个基因座上的对数似然的总和。

2c.为可接受的高对数似然选择阈值。在一个实施例中，阈值的选择是取决于用户的判断的判断调用。以下方法均提供了在其中阈值具有自然解释的量表上对β评分的合理方法；它们都是从对数似然计算的：1.可以使用贝叶斯信息准则(BIC)。2.可以使用赤池信息准则(AIC)。3.可以使用等于两个竞争拟合之间的对数似然比的-2倍的卡方统计量。

3.报告来自列表的所有β，其中对数似然超过所选的阈值。

从未知基因型的混合物中回收来源基因型。

除了估计未知基因型的样品中的混合比例之外，该例程还可以被配置为恢复混合物中来源的基因型。以下算法(例如，可以由本文所描述的一个或多个计算系统调用的算法)描述了用于这样做的一种方法：

1.使用上述算法/例程推导出一组有效β。

2.对于每个基因座：

2a.按照上述算法/例程的步骤1c计算所有可能的基因型矩阵。

2b.针对所有有效β评估每个可能的基因型矩阵，记录在所有有效β上获得的基因型最高对数似然。

2c.选择对数似然阈值，并且报告当评估时超过该阈值的所有基因型矩阵以及至少一个有效β。

2d.在一些情况下，可能的基因型矩阵的集合在特定来源的等位基因方面几乎一致(例如，所有可能的基因型矩阵包含最丰富来源的纯合等位基因A)。在这种情况下，可以在该等位基因处调用来源的基因型。

在其他情况下，可能的基因型矩阵可能在基因座上确定约一半的来源的基因型。例如，所有可能的基因型矩阵均显示来源1具有等位基因A的拷贝，但矩阵对该基因座处的另一半来源二倍体基因型不一致。在这种情况下，该例程可以被配置为将来源调用为具有等位基因A的至少一个拷贝。

在一个实施例中，并且为了提高计算效率，在单个基因座处具有非常差的对数似然的β可以从进一步考虑中被丢弃，因此省略了在另外的基因座中评估它的需要。

如果一种或多种具有已知基因型的来源出现在其他未知基因型的混合物中，则该方法也可以如下进行调整：1.如果存在具有已知基因型的M种来源，则将它们与每个β的前M个元素和每个G的前M列相关联。2.以与如上述相同的方式生成候选β的列表，但仅要求最后K-M列具有递减值。3.当寻找最佳G矩阵以最大化给定基因座处的给定β的对数似然时，在前M列中填入M个已知基因型。4.不变地运行其余算法。

在一些实施例中，该方法可以在分离的SNP数据上运行。在其他实施例中，该方法可以在来自微单倍型的数据上运行，所述微单倍型是含有多个(2个或更多个)SNP并且从而呈现3个或更多个等位基因组合的基因组的短区域。在又一些实施例中，可以使用来自长读数测序技术的数据来运行各种例程，所述长读数测序技术返回跨越>1个SNP的读数。

为了提高计算效率，并且在一个实施例中，该方法可以首先在SNP水平的数据上运行，以快速地消除候选β的大的子集。然后，可以仅使用通过该第一步骤的β，在微单倍型水平的数据上重新运行该算法。

在其中存在大量来源基因型和较大量的等位基因的一些情况下，可能的基因型的矩阵可能大到在计算上难以处理、效率低或对于特定应用是不必要的。在这样的情况下，对于所考虑的每个可能的混合比例向量β，可以通过优化算法寻找最佳拟合基因型矩阵G。

示例6

来源于多于一种来源的核酸分子的合成混合物中的性能评估：将来自不同生物来源的纯化的DNA以规定的混合比例预混合在四个独立样品中(例如，每个样品具有不同的混合比例的每个来源材料)，并且然后盲法测定这样的混合比例。图21，图A-D是描绘了来源1-5的真实混合比例的柱状图。

随后对测序结果进行分析，以确定测序的混合物是否概括了四种盲法测试混合物的预期混合物(如图21，图A-D所示)，并且确定在混合的样品中是否存在灵敏的低频/稀有等位基因的检测。使用一组探针进行双重测序，以对散布在整个人类基因组中的17个微单倍型位点进行基因分型。

参考图22，图A-D(分别对应于图21，图A-D)，当预先已知五种潜在来源中每一种的基因型时，双重测序方法产生用于检测每一种混合物中每一种单独来源的完全灵敏度和特异性。例如，参考图21图D和图22图D，盲法混合物(即，包括所有5种来源的混合物)之一含有占总混合物的0.5％(来源1)的来源和占总混合物的0.05％(来源4)的来源。使用双重测序方法来检测并准确地定量这些来源(图22，图D)。

参考图23A-23D(分别对应于图21，图A-D)，双重测序方法证明了当每个样品的基因型和潜在来源数量事先未知时估计混合比例的能力。例如，图23A-23D为热图的图，其证明了使用双重测序在样品中确定的各种来源的似然和丰度。如图24，图A-D所示(分别对应于图23A-23D)，甚至当来源的基因型先前不是已知的时，也可以确定多个来源的微单倍型等位基因(参见，例如，图24的图B，其证明了对来自图21的图B的混合物的三个来源的基因型的可靠预测)。

在本示例中，已经证明双重测序方法可以用于使用微单倍型来去卷积生物混合物(例如，来自5个个体/来源的核酸样品的混合物)。已经表明，双重测序方法提供低至极低频等位基因的灵敏度，并且可检测复杂混合物中的罕见变体。

在本示例中，双重测序证明是一种用于去卷积核酸材料的混合物并且识别原始DNA来源的存在和丰度的成功的方法。因此，双重测序方法为成本有效地识别和评估多个体样品的丰度提供了一种快速、定量和自动的方法。

示例7

用于确定检测以1/100,000丰度存在的基因型的灵敏度的性能评估。在本示例中，使用双重测序方法对8个样品的混合物进行测序，以估计混合比例，并且使用小SNV面板。图25是将样品的实际混合比例与混合物中样品的丰度的估计值进行比较的散点图。点示出了所有8个样品中每个样品的估计的混合比例/预期的混合比例，并且线示出了95％置信区间。虚线示出了身份。如所示出的，双重测序证明了灵敏度和准确度低至1/100,000丰度。

示例8

用于确定检测数据库中存在的基因型的能力的性能评估。在本示例中，使用双重测序方法对样品混合物进行测序，以估计原始来源的混合比例和基因型。图26是绘制了混合物中存在的被检测的基因型的比例(实线)和生成至少一个假阳性的模拟混合物的比例(虚线)的线图。在本示例中，将来自2-10种来源的1000种模拟混合物的微单倍型数据针对1000种来源和100种各具有4个等位基因的微单倍型的基因型数据库进行查询。2-10个不同来源中的每一个都来自查询的数据库。本示例的结果在多达8种来源的混合物中识别出大多数受试者，其中假阳性率为1-5％。

示例9

用于确定包括多种基因型的混合物中的准确定量的性能评估。在本示例中，使用双重测序方法对包括50种不同基因型的样品混合物进行测序，以估计不同基因型的混合比例。图27的图A-C是示出了在50种基因型的3种不同模拟混合物中估计的混合比例/真实的混合比例的线图。黑点是真实的比例；灰色框/须和点是1000次模拟中估计值的内部四分位数和极端异常值。图27的图A-C表明，使用双重测序可以准确地区分和定量复杂混合物中的至少50种不同基因型。

VI.结论

对本技术的实施例的上述详细描述并不旨在穷举或将本技术限制为上述公开的精确形式。尽管以上出于说明的目的描述了该技术的具体实施例和示例，但是如相关领域的技术人员将认识到的，在该技术的范围内，各种等同的修改是可能的。例如，虽然步骤以给定的顺序呈现，但是替代的实施例可以以不同的顺序执行步骤。本文描述的各种实施例也可以被组合以提供进一步的实施例。本文引用的所有参考文献都通过引用被并入，如同在本文中完全阐述一样。

根据前述内容，将理解，本文为了说明的目的已经描述了该技术的特定实施例，但是没有详细地示出或描述公知的结构和功能，以避免不必要地模糊对该技术的实施例的描述。在上下文允许的情况下，单数或复数术语也可以分别包含复数或单数术语。

此外，除非单词“或”被明确地限制为仅指相对于两个或更多项目的列表而言与其他项目相排斥的单个项目，否则在这样的列表中使用“或”将被解释为包含(a)列表中的任何单个项目，(b)列表中的所有项目，或者(c)列表中的项目的任何组合。此外，术语“包括”在全文中用于表示至少包含所陈述的特征，使得不排除任何更多数量的相同特征和/或附加类型的其他特征。还应当理解，为了说明的目的，本文已经描述了具体实施例，但是在不偏离本技术的情况下，可以进行各种修改。此外，虽然已经在那些实施例的上下文中描述了与该技术的某些实施例相关联的优点，但是其他实施例也可以展示这样的优点，并且并非所有实施例都需要展示这样的优点以落入该技术的范围内。因此，本公开和相关的技术可以包含本文没有明确地示出或描述的其他实施例。

Claims

1.一种用于检测和/或定量来自混合物的核酸的供体来源的方法，包括：

提供包括来自一个或多个供体来源的靶双链DNA分子的混合物，其中所述靶双链DNA分子含有一个或多个遗传多态性；

为所述混合物中的多个靶双链DNA分子中的每一个生成错误校正的序列读数，包括：

将衔接子分子连接至所述多个靶双链DNA片段以生成多个衔接子-DNA分子；

生成所述衔接子-DNA分子的原始第一链的一组拷贝和所述衔接子-DNA分子的原始第二链的一组拷贝；

对所述原始第一链和第二链的一个或多个拷贝进行测序以提供第一链序列和第二链序列；以及

比较所述第一条链序列和所述第二条链序列以识别所述第一条链序列和所述第二条链序列之间的一个或多个对应；以及

通过将所述错误校正的序列读数去卷积成个体基因型来识别存在于所述核酸的混合物中的核酸的供体来源。

2.一种用于检测和/或定量来自混合物的核酸的供体来源的方法，包括：

从原始测序数据产生双重测序数据，其中所述原始测序数据从包括来自一个或多个供体来源的靶双链DNA分子的混合物生成，并且其中所述靶双链DNA分子含有一种或多种遗传多态性；以及

3.根据权利要求1或权利要求2所述的方法，其中一种或多种所述供体来源具有已知的基因型。

4.根据权利要求1或权利要求2所述的方法，其中一种或多种所述供体来源具有未知的基因型。

5.根据权利要求1或权利要求2所述的方法，所述混合物包括一种或多种未知的个体基因型，并且其中将所述错误校正的序列读数去卷积成个体基因型包括：

识别存在于映射到参考序列中的一个或多个遗传基因座的个体靶双链DNA分子内的微单倍型等位基因组合；

针对存在于所述一个或多个遗传基因座内的每个遗传基因座处的所有可能的基因型评估所有可能的混合比例；以及

确定充分地适合所识别的微单倍型等位基因组合的所有可能的个体基因型的列表和所评估的所有可能的混合比例。

6.根据权利要求1或权利要求2所述的方法，其中所述混合物包括一种或多种已知的个体基因型，并且其中将所述错误校正的序列读数去卷积成个体基因型包括：

识别存在于所述混合物中的个体靶双链DNA分子内的微单倍型等位基因组合；

对从每个已知的个体基因型捐献的每个等位基因的总计数求和；以及

确定存在于所述混合物中的每个已知基因型的混合比例。

7.根据权利要求1-6中任一项所述的方法，还包括将一种或多种个体基因型与包括多种已知基因型的数据库进行比较，以识别所述一种或多种供体来源。

8.根据权利要求1-7中任一项所述的方法，所述混合物包括多于一种供体来源，并且其中所述方法进一步包括通过计算每个遗传多态性的比例或在所述错误校正的序列读数中存在的遗传多态性的基本上独特的组合的比例来确定来自所述混合物中存在的所述多于一种供体来源的每个供体来源的比例。

9.根据权利要求1-3和6-8中任一项所述的方法，其中所述靶双链DNA分子从一个或多个脐带血样品中提取。

10.根据权利要求1-8中任一项所述的方法，其中所述靶双链DNA分子从法医样品中提取。

11.根据权利要求1-3和6-8中任一项所述的方法，其中所述靶双链DNA分子从具有干细胞或器官移植的患者中提取。

12.根据权利要求1-8中任一项所述的方法，其中所述靶双链DNA分子从患者中提取，并且其中识别所述混合物中存在的所述一种或多种供体来源包含测量所述患者中微嵌合体的水平。

13.根据权利要求1-8中任一项所述的方法，其中所述靶双链DNA分子从肿瘤样品中提取。

14.根据权利要求1-13中任一项所述的方法，进一步包括量化所述混合物中存在的每个个体基因型的相对丰度。

15.根据权利要求1-14中任一项所述的方法，其中所述一种或多种遗传多态性包括微单倍型。

16.根据权利要求1和3-15中任一项所述的方法，其中为所述混合物中的多个所述靶双链DNA分子中的每一个生成错误校正的序列读数进一步包括在测序之前选择性地富集一个或多个靶向的基因组区域。

17.根据权利要求16所述的方法，其中所述一个或多个靶向的基因组区域包括所述基因组中的微单倍型位点。

18.根据权利要求2-15中任一项所述的方法，其中在生成原始测序数据之前，所述混合物中的所述靶双链DNA分子选择性地富集一个或多个靶向的基因组区域。

19.根据权利要求18所述的方法，其中所述一个或多个靶向的基因组区域包括所述基因组中的微单倍型位点。

20.一种用于检测和/或定量来自混合物的核酸的供体来源的系统，包括：

用于传输与测序数据和基因型数据有关的信息的计算机网络，其中所述信息包含原始测序数据、双重测序数据、样品信息和基因型信息中的一种或多种；

与一个或多个用户计算装置相关联并与所述计算机网络通信的客户端计算机；

连接到所述计算机网络的数据库，用于存储多个基因型概况和用户结果记录；

双重测序模块，其与所述计算机网络通信并被配置成接收来自所述客户端计算机的原始测序数据和请求用于生成双重测序数据，对来自代表原始双链核酸分子的家族的序列读数进行分组，并且将来自单独的链的代表性序列相互比较以生成双重测序数据；以及

基因型模块，其与所述计算机网络通信并且被配置为识别微单倍型等位基因并且计算所述供体来源的相对丰度以生成基因型数据。

21.根据权利要求20所述的系统，其中所述基因型概况包括来自多个已知的供体来源的微单倍型和/或单核苷酸多态性(SNP)信息。

22.一种包括指令的非暂时性计算机可读存储介质，所述指令当由一个或多个处理器执行时执行权利要求2-15和18-19中任一项所述的方法。

23.根据权利要求22所述的非暂时性计算机可读存储介质，进一步包括用于计算每个所识别的供体来源的混合比例的指令。

24.一种用于执行权利要求2-15和18-19中任一项所述的方法的计算机系统，所述方法用于检测和/或定量来自混合物的核酸的供体来源，所述系统包括：至少一台计算机，所述计算机具有处理器、存储器、数据库和包括用于所述处理器的指令的非暂时性计算机可读存储介质，其中所述处理器被配置为执行所述指令以执行包括权利要求2-15和18-19中任一项所述的方法的操作。

25.一种非暂时性计算机可读介质，其内容使至少一台计算机执行用于提供样品中双链核酸分子的双重测序数据的方法，所述样品包括供体来源材料的混合物，所述方法包括：

从用户计算装置接收原始序列数据；

产生样品特异性数据集，所述样品特异性数据集包括源自所述样品中的多个核酸分子的多个原始序列读数；

对来自代表原始双链核酸分子的家族的序列读数进行分组，其中所述分组基于共享的单分子标识符序列；

比较来自原始双链核酸分子的第一链序列读数和第二链序列读数，以识别所述第一链序列读数和所述第二链序列读数之间的一个或多个对应；

提供所述样品中所述双链核酸分子的双重测序数据；和

识别所述样品中单个双链核酸分子内存在的微单倍型等位基因组合，以识别所述混合物中的一种或多种供体来源。

26.根据权利要求25所述的计算机可读介质，进一步包括计算每个所识别的供体来源的混合比例。

27.根据权利要求25或权利要求26所述的计算机可读介质，进一步包括识别所比较的第一序列读数和第二序列读数之间的非互补的核苷酸位置，其中所述方法进一步包括在非互补的位置，识别和消除或忽略过程错误。

28.一种非暂时性计算机可读介质，其内容使至少一台计算机执行用于检测、识别和定量核酸混合物中存在的微单倍型以确定样品的已知来源基因型的方法，所述方法包括：

识别混合物中单个DNA分子内存在的微单倍型等位基因组合；

对从每个已知来源基因型捐献的每个等位基因的总计数求和；以及

确定所述混合物中存在的每种基因型的混合比例。

29.根据权利要求28所述的计算机可读介质，其中计算混合比例包含使用基于回归的模型。

30.根据权利要求28或权利要求29所述的计算机可读介质，进一步包括将所确定的每个基因型的混合比例与原始混合比例进行比较。

31.一种非暂时性计算机可读介质，其内容使至少一台计算机执行用于去卷积样品中未知基因型的核酸混合物的方法，所述方法包括：

识别混合物中单个DNA分子内存在的微单倍型等位基因组合；

针对存在于每个遗传基因座的所有可能的基因型评估所有可能的混合比例；以及

确定充分地适合所识别的微单倍型等位基因组合的所有可能基因型的列表和所评估的所有可能的混合比例。

32.根据权利要求31所述的计算机可读介质，进一步包括将来自所述样品中所述未知基因型的所述可能的基因型与包括已知来源的基因型概况的数据库进行比较以识别供体来源。