CN117778527A

CN117778527A - 用于识别核酸分子的组合物和方法

Info

Publication number: CN117778527A
Application number: CN202311588723.3A
Authority: CN
Inventors: 伯恩哈德·齐默尔曼; 瑞恩·斯韦纳顿; 马修·拉比诺维茨; 斯蒂米尔·西于尔永松; 乔治·吉米罗斯; 阿普瓦提姆·刚古力; 希曼舒·塞西
Original assignee: Natera Inc
Current assignee: Natera Inc
Priority date: 2016-12-07
Filing date: 2017-12-06
Publication date: 2024-03-29
Also published as: US20230332221A1; CN110036118B; WO2018106798A1; US20180155775A1; US11519028B2; CA3041913A1; US10011870B2; JP7467118B2; US11530442B2; AU2017370655B2; JP2019536466A; US20190309359A1; US10533219B2; US10577650B2; US20180155776A1; US20220025455A1; JP2022183180A; US20180155779A1; AU2017370655A1; EP3551770A1

Abstract

本公开提供了用于使用分子索引标签(MIT)对核酸分子进行测序并识别个体样品核酸分子的方法和组合物。此外，还提供了反应混合物、试剂盒和衔接子库。

Description

用于识别核酸分子的组合物和方法

本申请是申请号为201780075459.X、申请日为2017年12月6日、发明名称为“用于识别核酸分子的组合物和方法”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求2016年12月07日提交的美国发明专利申请序列号15/372,279的权益，其通过引用整体并入本文。

序列表

本申请包含序列表，该序列表已经以ASCII格式电子提交，并且其通过引用整体并入本文。创建于2017年11月14日的所述ASCII拷贝命名为N_018_WO_01_SL.txt，以及大小为5,069字节。

技术领域

所公开的本公开一般涉及用于分析核酸的方法。

背景技术

下一代测序大大提高了测序方法的吞吐量，并为测序带来了新的应用，具有重要的现实意义，例如癌症诊断的改进和例如唐氏综合症等疾病的非侵入性产前检测。执行下一代测序有多种技术，每种技术都与特定类型的错误相关联。此外，这些方法共享错误的一般来源，例如在样品制备过程中发生的错误。

用于下一代测序的样品制备通常涉及许多扩增步骤，每个步骤都产生错误。用于高吞吐量测序的样品制备中的扩增反应(例如PCR)可包括扩增样品中的初始核酸以产生待测序的库、对库进行克隆扩增(通常至固体支持物上)、以及额外的扩增反应以添加其他信息或功能(例如识别样品的条形码)。错误可在扩增反应的任一个期间被引入，例如通过用于扩增的聚合酶错误掺入碱基。很难将这些在样品制备期间引入的错误和在测序反应期间发生的错误与初始样品中存在的真实的和信息性的SNP或突变区分开，尤其是当SNP或突变以低频率出现时。此外，在每个核苷酸处调用碱基也可能引入错误，其通常由低信号强度和/或周围核酸序列引起。

有几种已知的方法来识别由样品制备引起的错误。一种方法是采用更大的测序深度，使得样品核酸片段从相同分子或相同核酸分子的不同拷贝被多次读取。可比对这些多个读数并产生共有序列。但是，在核酸分子的群体中具有低频率的SNP或突变将看似类似于在扩增或碱基调用期间引入的错误。识别这些错误的另一种方法涉及标记核酸分子，使得每个核酸分子在被测序之前掺入独特的标识符。将来自相同标记的核酸分子的测序结果合并，而来自这些合并的结果的共有序列更可能是来自样品的核酸的真实序列。如果一些相同标记的核酸分子具有不同的序列，则可以识别扩增错误。

尽管有这些现有方法，但仍需要发现用于标记高效且易于制造的核酸分子的方法的参数的有利组合，尤其用于分析复杂样品，包括哺乳动物cDNA或基因组样品，例如循环DNA。许多现有技术方法需要生成大量的独特标识符，并且还可能导致需要更长的独特标识符。设计这些方法中的反应混合物，使得存在大量过量的涉及样品核酸分子的独特标识符。除了制作这种独特标识符库的高成本之外，增加独特标识符的长度还会减少可以在大多数下一代测序仪的已经有限的阅读长度中读取的样品核酸序列的量。在其他现有技术公开中，有时仅是预示性的，没有参数的详细组合，例如任何两种标识符的标识符的多样性或组合的多样性与感兴趣区域的拷贝的数量、标识符的多样性与样品核酸分子的总数、以及标识符的总数与样品核酸分子的总数的组合。对于复杂且从自然分离的样品尤其如此，例如cDNA或基因组样品，包括片段化的基因组样品，例如哺乳动物血液中的循环游离DNA。

仍然需要一种低成本的标记方法，并且需要用于标记从自然分离的复杂样品的关键参数的组合的识别。例如，当在高通量测序工作流程中、尤其是在复杂的临床相关的样品的分析中使用时，这种方法将为检测扩增和碱基调用错误提供效益。

发明内容

本公开提供了改进的方法和组合物来利用分子索引标签(Molecular Index Tag,“MIT”)来标记核酸分子，以识别在样品核酸分子群的扩增后由个体样品核酸产生的扩增产物。此外，本文提供了使用MIT确定样品核酸分子的序列、识别在样品制备或碱基调用期间产生的错误、以及确定染色体或染色体片段的拷贝数的方法。另外，本文提供了包括样品核酸分子和MIT的反应混合物的组合物、经标记的核酸分子的群体、MIT库、以及用于使用MIT产生经标记的核酸分子的试剂盒。因此，本公开提供了用于将在样品制备和碱基调用期间、尤其是在高通量测序工作流程期间引入的错误与在起始样品中的核酸分子中存在的真实差异进行区分的方法和组合物。

因此，本文在一个方面提供了一种用于对样品核酸分子群进行测序的方法，该方法包括以下步骤：形成包含样品核酸分子群和分子索引标签(MIT)组的反应混合物，其中所述MIT是核酸分子，其中所述MIT组中不同MIT的数量在10和1,000之间，并且其中样品核酸分子群中样品核酸分子的总数与所述MIT组中MIT的多样性或所述MIT组中任意两个MIT的多样性的比例至少为500:1、1000:1、10,000:1或100,000:1；将来自所述MIT组的至少一个MIT附接至样品核酸分子的至少50％的样品核酸片段以形成经标记的核酸分子群，其中在每个经标记的核酸分子上所述至少一个MIT位于样品核酸片段的5'端和/或3'端，并且其中所述经标记的核酸分子群包含所述MIT组的每个MIT的至少一个拷贝；扩增所述经标记的核酸分子群以产生经标记的核酸分子库；以及确定经标记的核酸分子库中经标记的核酸分子的附接的MIT和样品核酸片段的至少一部分的序列，从而对样品核酸分子群进行测序。反应混合物中MIT分子的总数通常大于反应混合物中样品核酸分子的总数。

在一些实施方案中，所述方法可包括：使用每个经标记的核酸分子上的至少一个MIT的序列来识别产生经标记的核酸分子的个体样品核酸分子。在一些实施方案中，所述方法还可包括：在识别个体样品核酸分子之前，将样品核酸片段中的至少一个的所确定的序列映射到衍生样品的来源的基因组中的位置，并使用该所映射的基因组位置和所述至少一个MIT的序列来识别产生经标记的核酸分子的个体样品核酸分子。此外，在这样的实施方案中，可以识别核酸片段或核酸片段的等位基因中的突变。

在一些实施方案中，样品可以是哺乳动物样品，例如人样品，并且样品例如可以是血液样品。MIT组中任何2个MIT的组合的多样性可以超过跨越作为哺乳动物样品来源的哺乳动物的基因组的多个目标基因座的每个目标基因座的样品核酸分子的总数。

在一些实施方案中，所述MIT可以在连接(ligation)反应期间被附接。在一些实施方案中，可以使用杂交捕获来富集经标记的核酸分子。在一些实施方案中，可以将经富集的经标记的核酸分子克隆扩增到固体支持物或多个固体支持物上，然后使用高通量测序确定序列。

在一些实施方案中，所述方法可包括：使用这样的样品，在该样品中样品核酸中的至少一些包含来自感兴趣的染色体或染色体片段的多个目标基因座的至少一个目标基因座。在一些实施方案中，所述方法可以进一步包括：使用所识别的样品核酸分子，通过对包含每个目标基因座的样品核酸分子的数量进行计数，从而测量每个目标基因座的DNA的数量；以及使用样品核酸分子中每个目标基因座处的DNA的数量，在计算机上确定一个或多个感兴趣的染色体或染色体片段的拷贝数。

在一些实施方案中，所述样品可包括循环的无细胞人DNA(包括循环的肿瘤DNA)，其中MIT组中任何2个MIT的组合的多样性超过跨越人类基因组中的目标基因座的循环无细胞DNA片段或样品核酸分子的总数。

本文另一方面提供了一种识别来自用于高通量测序的样品制备中的扩增错误或识别来自样品的经标记的核酸分子群的高通量测序反应中的碱基调用错误的方法，所述方法包括以下步骤：形成包含样品核酸分子群和一组分子索引标签(MIT)的反应混合物，其中所述MIT是双链核酸分子，其中MIT组中不同MIT的数量在10和100、250、500、1,000、2,000、2,500或5,000之间，并且其中样品核酸分子群中样品核酸分子的总数与MIT组中MIT的多样性的比例大于500:1、1,000:1、10,000:1或100,000:1；将来自MIT组的至少一个MIT附接至样品核酸分子群的至少一个样品核酸分子的样品核酸片段以形成经标记的核酸分子群，其中在每个经标记的核酸分子上所述至少一个MIT位于样品核酸片段的5′端和/或3'端，并且其中经标记的核酸分子群包含MIT组中每个MIT的至少一个拷贝；扩增经标记的核酸分子群以产生经标记的核酸分子库；使用高通量测序，确定经标记的核酸分子库中经标记的核酸分子的附接的MIT和样品核酸片段的至少一部分的序列，其中在每个经标记的核酸分子上的至少一个MIT的序列识别产生经标记的核酸分子的个体样品核酸分子；以及通过识别核酸片段来识别具有扩增错误的经标记的核酸分子，该核酸片段具有在衍生自相同的初始样品核酸分子的经标记的核酸分子的少于25％中发现的核苷酸序列。反应混合物中MIT分子的总数通常大于反应混合物中样品核酸分子的总数。

在一些实施方案中，所述方法可以进一步包括具有基因组DNA片段的样品，所述基因组DNA片段的长度大于20个核苷酸并且不超过1,000个核苷酸，或大于50个核苷酸并且不超过500个核苷酸，并且其中MIT组中任何2个MIT的组合的多样性超过跨越基因组中目标基因座的DNA片段或样品核酸分子的总数。在一些实施方案中，所述方法可用于例如母体血液样品，其中拷贝数测定用于非侵入性产前测试。在一些实施方案中，所述方法可用于来自患有或怀疑患有癌症的个体的血液样品。

在另一方面，本文提供了一种确定来自目标个体或来自目标个体的母体的血液样品或其一部分中的目标个体的一个或多个感兴趣的染色体或染色体片段的拷贝数的方法，所述方法包括以下步骤：通过使样品的核酸分子群与一组核酸分子索引标签(MIT)反应来形成经标记的核酸分子群，其中MIT组中不同MIT的数量在10和10,000之间或在10和1,000之间，其中样品核酸分子群中样品核酸分子的总数与MIT组中MIT的多样性的比例大于500:1、1,000:1、10,000:1或100,000:1，其中样品核酸分子中的至少一些包含感兴趣的染色体或染色体片段上的多个目标基因座的一个或多个目标基因座，并且其中样品是1.0ml或更少的血液或来自1.0ml或更少的血液的血液的一部分；扩增经富集的经标记的核酸分子群以产生经标记的核酸分子库；确定经标记的核酸分子库中经标记的核酸分子的附接的MIT和样品核酸片段的至少一部分的序列，以确定产生经标记的核酸分子的样品核酸分子的身份；使用所确定的身份，通过对包含每个目标基因座的样品核酸分子的数量进行计数，从而测量每个目标基因座的DNA的数量；以及使用样品核酸分子中每个目标基因座处的DNA的数量，在计算机上确定一个或多个感兴趣的染色体或染色体片段的拷贝数。反应混合物中MIT分子的总数通常大于反应混合物中样品核酸分子的总数。

在一些实施方案中，目标基因座的数量和样品的体积提供有效量的总目标基因座以实现拷贝数测定的所需灵敏度和特异性。在一些实施方案中，所述方法可以进一步包括：使用多个目标基因座和跨越目标基因座的样品核酸分子的总数来提供有效量的总测序读数以实现拷贝数测定的所需灵敏度和特异性。在一些实施例中，这可以是至少10、25、50、100、250、500、1,000、1,500、2,000、2,500、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、25,000、30,000、40,000、或50,000个目标基因座。在一些实施方案中，所述方法可以在样品中包括至少10,000、100,000、500,000或1,000,000个总靶标基因座，其中MIT组包含至少25、30、32、50、64、100、200、250、500、或1,000个MIT，其中样品来自母体，并且与母体核酸相比包含至少1％、2％、3％、4％或5％胎儿核酸，并且其中所需的特异性为95％、96％、97％、98％或99％，所需的灵敏度为95％、96％、97％、98％或99％。

在一些实施方案中，所述方法可包括连接反应以形成经标记的核酸分子群，其中所述经标记的核酸分子群在扩增前使用杂交捕获而被富集，并且其中样品中总目标基因座的数目至少是满足所需特异性和所需灵敏度所需的总目标基因座的数量的4、5、6、7、8、9、10、15或20倍。

在一些实施方案中，所述方法可以进一步包括：使用每个目标基因座处的DNA的数量，从一个或多个感兴趣的染色体或染色体片段的一组拷贝数假设中确定每个拷贝数假设的概率，并选择具有最高概率的拷贝数假设。

在一些实施方案中，所述方法可包括：使用来自预期在样品核酸分子上是二体(disomic)的一个或多个染色体片段的多个二体基因座，通过比较多个目标基因座处的DNA的数量和二体基因座处的DNA的数量，从而确定每个拷贝数假设的概率。

在一些实施方案中，所述方法可用于母体血液样品，其中拷贝数测定用于非侵入性产前测试。在一些实施方案中，所述方法可用于来自患有或怀疑患有癌症的个体的血液样品。

另一方面本文提供的是一种反应混合物，其包括：长度在10、20、25、50或100和200、250、500、1,000、2,000或2,500个核苷酸之间的至少100,000、200,000、250,000、500,000,000或1,000,000个样品核酸分子的群体；长度为3、4、5、6或7个核苷酸(在范围的低端上)至8、9、10、11、12、15或20个核苷酸(在范围的高端上)的10和100、200、250、500、1,000或10,000个之间的一组分子索引标签(MIT)；以及连接酶，其中所述MIT是来自样品核酸分子的独立核酸分子，其中反应混合物中MIT分子的总数大于反应混合物中样品核酸分子的总数，其中反应混合物中样品核酸分子的总数与反应混合物中MIT组中MIT的多样性的比例至少为1,000:1、10,000:1或100,000:1，其中MIT组中每个MIT的序列与该组中所有其他MIT序列的差异为至少2个核苷酸；以及其中反应混合物包含每个MIT的至少两个拷贝。

在另一方面，本发明提供了一种确定来自目标个体的血液样品或其一部分中的一个或多个感兴趣的染色体或染色体片段的拷贝数的方法，所述方法包括：形成包含衍生自样品的样品核酸分子群和一组至少32个分子索引标签(MIT)的反应混合物，其中该MIT组中的每个MIT是包含不同核酸序列的双链核酸分子，其中样品来源于不超过1.0ml的血液，其中样品核酸分子群中样品核酸分子的总数与MIT组中MIT的多样性的比例大于1,000:1，并且其中样品核酸分子中的至少一些包含感兴趣的染色体或染色体片段上的至少1,000个目标基因座的一个或多个目标基因座；将来自该MIT组的至少两个MIT附接到样品核酸分子群的每个样品核酸分子的样品核酸片段以形成经标记的核酸分子群，其中所述至少两个MIT中的每一个都位于每个经标记的核酸分子上的样品核酸片段的5'端和/或3'端，并且其中经标记的核酸分子群包含该MIT组的每个MIT的至少一个拷贝；扩增经标记的核酸分子群以产生经标记的核酸分子库；确定经标记的核酸分子库中经标记的核酸分子的附接的MIT的序列和样品核酸片段的至少一部分的序列，其中每个经标记的核酸分子上的附接的MIT和核酸片段的至少一部分的序列用于识别属于相同配对的MIT核酸片段家族的经标记的核酸分子，其中在配对的MIT核酸片段家族的每个成员上的至少两个MIT是相同的或互补的，其中MIT核酸片段家族的每个成员的核酸分子片段映射到样品核酸分子群的来源的基因组上的相同坐标，并且其中样品核酸分子中的至少25％在其序列被确定的经标记的核酸分子库中表示；通过计算跨越每个目标基因座的MIT核酸片段家族的数量，确定样品核酸分子的每个目标基因座的DNA的数量；并且使用样品核酸分子中每个目标基因座处的DNA的数量，在计算机上确定一个或多个感兴趣的染色体或染色体片段的拷贝数。反应混合物中MIT分子的总数通常大于反应混合物中样品核酸分子的总数。MIT核酸片段家族共享在相对于核酸片段的相同的相对位置上相同的MIT以及相同的片段末端位置和相同的测序方向(相对于人类基因组的正向或反向)。进入MIT库制备过程的每个样品核酸分子可以产生两个家族，每一个映射到正向和负向基因组方向中的每一个。如果MIT核酸片段家族包含在相对于相同核酸片段的相同的相对位置上的互补MIT以及互补片段末端位置，则可以配对这两个MIT核酸片段家族，一个正向，一个反向。在一些实施方案中，被配对的MIT核酸片段家族可用于验证样品核酸分子中序列差异的存在。

在一些实施方案中，所述方法可以进一步包括：分析一个或多个染色体或染色体片段上的一个或多个目标基因座的单核苷酸多态性基因座。在进一步的实施方案中，在确定一个或多个感兴趣的染色体或染色体片段的拷贝数之前，可以通过计算包括每个基因座处的每个等位基因的MIT核酸片段家族的数量来估算包含每个基因座处的不同等位基因的样品核酸分子的比例，并使用包括每个基因座处的不同等位基因的样品核酸分子的所估算的比例来确定一个或多个感兴趣的染色体或染色体片段的拷贝数。

在一些实施方案中，所述方法可包括循环无细胞人DNA的样品，其中MIT组中任何2个MIT的可能组合的多样性超过跨越人类基因组中一个或多个目标基因座的的反应混合物中循环的无细胞DNA片段或样品核酸分子的数量。

在一些实施方案中，所述方法可包括：分析预期为二体的染色体或染色体片段上的多个二体基因座，其中所述方法进一步包括：通过计算跨越每个二体基因座的MIT核酸片段家族的数量来确定样品核酸分子的每个二体基因座的DNA的数量，并且其中确定一个或多个感兴趣的染色体或染色体片段的拷贝数使用每个目标基因座的DNA量和每个二体基因座的DNA量。

在一些实施方案中，所述方法可以进一步包括：在计算机上产生多个倍性假设，每个倍性假设涉及感兴趣的染色体或染色体片段的不同的可能的倍性状态，并且在计算机上使用每个目标基因座的DNA量来确定每个倍性假设的相对概率，以通过选择对应于具有最大概率的假设的倍性状态来识别个体的拷贝数。

在一些实施方案中，所述方法可用于母体样品，其中拷贝数测定用于非侵入性产前测试。在一些实施方案中，所述方法可用于来自患有或怀疑患有癌症的个体的样品。

在另一方面，本文提供了一种确定来自目标个体的血液样品或其一部分中的一个或多个感兴趣的染色体或染色体片段的拷贝数的方法，其中所述方法包括：通过使样品核酸分子群与一组分子索引标签(MIT)反应来形成经标记的核酸分子群，其中所述样品为2.5、2.0、1.0或0.5ml或更少，其中MIT组中不同MIT的数量在10和100、200、250、500、1,000、2,000、2,500、5,000或10,000之间，其中样品核酸分子群中样品核酸分子的总数与MIT组中MIT的多样性的比例至少为100:1、500:1、1,000:1、10,000:1或100,000:1，其中每个经标记的核酸分子包含分别位于来自核酸分子群的核酸片段的5'端和3'端的一个或两个MIT，例如分别位于5'端和3'端的两个MIT，并且其中样品核酸分子的一部分包含感兴趣的染色体或染色体片段上的多个基因座的一个或多个目标基因座；扩增经标记的核酸分子群以产生经标记的核酸分子库；以及确定经标记的核酸分子库中经标记的核酸分子的附接的MIT和样品核酸片段的至少一部分的序列，例如确定样品核酸片段的至少10、20、30、40、50、60、70、80、90或95％或100％的序列，其中每个经标记的核酸分子上的附接的MIT的序列和核酸片段的至少一部分的序列用于识别属于相同配对的MIT核酸片段家族的经标记的核酸分子，其中配对的MIT核酸片段家族的每个成员上的至少两个MIT是相同的或互补的，并且其中MIT核酸片段家族的每个成员的核酸分子片段映射到样品核酸分子群的来源的基因组上的相同坐标；通过对跨越每个目标基因座的MIT核酸片段家族的数目进行计数，确定样品核酸分子的每个目标基因座的DNA量；以及使用样品核酸分子中每个目标基因座处的DNA量，在计算机上确定一个或多个感兴趣的染色体或染色体片段的拷贝数。反应混合物中MIT分子的总数通常大于反应混合物中样品核酸分子的总数。

在另一方面，本文提供了一种反应混合物，其包括：长度为10至1,000个核苷酸的500,000,000至1,000,000,000,000个样品核酸分子的群体；一组长度为4至8个核苷酸的10到1,000个分子索引标签(MIT)；以及连接酶，其中MIT是核酸分子，其中反应混合物中样品核酸分子的总数与MIT组中MIT的多样性之比在1,000:1和1,000,000:1之间，其中所述MIT组中每个MIT的序列与所述组中的所有其他MIT序列的差异至少为2个核苷酸，并且其中所述组包含每个MIT的至少两个拷贝。

在一些实施方案中，所述方法可以进一步包括：使用未在体外扩增的样品核酸分子。在一些实施方案中，所述方法可用于母体样品，其中拷贝数测定用于非侵入性产前测试。在一些实施方案中，所述方法可用于来自患有或怀疑患有癌症的个体的样品。

在另一方面，本文提供了一种反应混合物，其包括：500,000,000至5,000,000,000,000个样品核酸分子的群体；以及一组引物，其序列被设计成与样品核酸分子的内部序列结合；其中所述引物还包含来自10至500个MIT的组的分子索引标签(MIT)，其中所述MIT是长度为4至8个核苷酸的核酸分子，其中反应混合物中所述样品核酸分子的多样性与反应混合物中MIT组中MIT的多样性之比在10,000:1和1,000,000:1之间，并且其中所述MIT组中每个MIT的序列与所述组中的所有其他MIT序列的差异至少为2个核苷酸。

在一些实施方案中，所述方法可以进一步包括：在反应混合物中具有比样品核酸分子的总数更多的引物。

在另一方面，本文提供了经标记的核酸分子群，其包括：长度为10到1,000个核苷酸的500,000,000到5,000,000,000,000个不同的经标记的核酸分子，其中每个经标记的核酸分子包含至少一个分子索引标签(MIT)，该分子索引标签(MIT)位于样品核酸片段的5'端和/或3'端，其中至少一个MIT是10至500个不同MIT的组的成员，每个MIT长度为4至20个核苷酸，其中经标记的核酸分子群包含该MIT组中的每个成员，其中该群体的至少两个经标记的核酸分子包含至少一个相同的MIT和差异大于50％的样品核酸片段，并且其中样品核酸片段的数量与该群体中MIT的数量之比在1,000:1和1,000,000,000:1之间。

在一些实施方案中，经标记的核酸分子群可以是进一步包括聚合酶或连接酶的反应混合物的一部分。在各种实施方案中，核酸分子群可用于产生库，其中所述库包括核酸分子群的一些或全部的1、2、3、4、5、6、7、8、9、10、25、50、100、250、500和1,000个拷贝(在范围的低端上)至核酸分子的一些或全部3、4、5、6、7、8、9、10、25、50、100、250、500、1,000、2,500、5,000、和10,000个拷贝(在范围的高端上)。在一些实施方案中，所述库可包括至少2、3、4、5、6、7、8、9、10、15、20、25、50、100、250、500或1,000个具有MIT和样品核酸片段的经标记的核酸分子，其中MIT具有有相同的序列，而样品核酸片段为50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％和99.9％相同(在范围的低端上)至60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.9％和100％相同(在范围的高端上)。在各种实施方案中，所述库可包括至少2、3、4、5、6、7、8、9、10、15、20、25、50、100、250、500或1,000个具有MIT和样品核酸片段的经标记的核酸分子，其中MIT具有有相同的序列，而样品核酸片段具有至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20或25个核苷酸差异。在一些实施方案中，核酸分子库可以克隆扩增到固体支持物或多个固体支持物上。

在另一方面，本文提供了经标记的核酸分子群，其中所述群通过包括以下步骤的方法形成：将至少一个分子索引标签(MIT)附接至包含长度为50至500个核苷酸的样品核酸片段的500,000,000至5,000,000,000,000个样品核酸分子的群体，以形成包含位于样品核酸片段的5'端和/或3'端的至少一个MIT的经标记的核酸分子，其中所述MIT是核酸分子，其中所述MIT是一组10至500个不同的MIT的成员，每个MIT长度为4至20个核苷酸，其中经标记的核酸分子群包含该MIT组中的每个成员，其中该群的至少两个经标记的核酸分子包含至少一个相同的MIT和差异大于50％的样品核酸片段，并且其中该群中样品核酸分子片段的多样性与MIT组中MIT的多样性之比在1,000:1和1,000,000,000:1之间。

在另一方面，本文提供了一种试剂盒，其包括：第一容器，其包含连接酶；以及第二容器，其包含一组分子索引标签(MIT)，其中该MIT组中的每个MIT包含一组Y-衔接子核酸分子中的Y-衔接子核酸分子的一部分，其中该组的每个Y-衔接子包含碱基配对的双链多核苷酸片段和至少一个非碱基配对的单链多核苷酸片段，其中除MIT序列外，该组中的每个Y-衔接子核酸分子的序列是相同的，并且其中MIT是碱基配对的双链多核苷酸片段的一部分的双链序列，其中MIT组包含10至500个MIT，其中MIT的长度为4至8个核苷酸，并且其中该MIT组中每个MIT的序列与该组中的所有其他MIT序列的差异为至少2个核苷酸。所述试剂盒可以进一步包括聚合酶。

在本公开的一些实施方案中，本公开提供了一种反应混合物，其中样品核酸分子群在合适的条件下与一组MIT结合，以将MIT附接至核酸分子或至核酸分子的核酸片段，以产生经标记的核酸分子群。在本公开的一些实施方案中，可以处理经标记的核酸分子群，例如通过扩增，该扩增可以作为高通量测序样品制备工作流程的一部分，并用于下游分析，例如通过高通量测序进行分析。MIT可以通过直接连接被附接或作为扩增的一部分，例如PCR引物。通常，MIT是引物的序列特异性结合区的5'端，但引物可被设计为使它们位于通用结合区和序列特异性结合区之间，或者MIT是序列特异性结合区的内部并在与样品核酸分子杂交后形成环。在一些实施方案中，MIT可以在正向引物上，使得用引物扩增产生经标记的核酸分子，其中MIT位于目标基因座的5'端。在一些实施方案中，MIT可以在反向引物上，使得用引物扩增产生经标记的核酸分子，其中MIT位于目标基因座的3'端。在一些实施方案中，MIT可以在正向和反向引物上，使得用引物扩增产生经标记的核酸分子，其中MIT位于目标基因座的5'端和3'端。

在本公开的一些实施方案中，MIT可以是单链或双链核酸分子。在一些实施方案中，MIT的序列与MIT组中的所有其他MIT的序列的差异可以为至少1、2、3、4、5、6、7、8、9或10个核苷酸。在一些实施方案中，MIT组中的MIT通常具有相同的长度。在其他实施方案中，该MIT组中的MIT具有不同的长度。在本公开的任何实施方案中，MIT的长度为3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。

在一些实施方案中，MIT可以是Y-衔接子或单链寡核苷酸或双链核酸(例如双链衔接子)的至少一部分。在一些实施方案中，MIT可以是一组Y-衔接子核酸分子中的Y-衔接子核酸分子的一部分，其中该组的每个Y-衔接子包括碱基配对的双链多核苷酸片段和至少一个非碱基配对的单链多核苷酸片段，其中除MIT序列外，该组中每个Y-衔接子核酸分子的序列是相同的，并且其中MIT是碱基配对的双链多核苷酸片段的一部分的双链序列。在一些实施方案中，双链多核苷酸片段的长度可以是5、10、15和20个核苷酸(在范围的低端上)至10、15、20、25、30、35、40、45和50个核苷酸(在范围的高端上)(不包括MIT)，并且单链多核苷酸片段的长度可以是5、10、15和20个核苷酸(在范围的低端上)至10、15、20、25、30、35、40、45和50个核苷酸(在范围的高端上)。在一些实施方案中，MIT的长度可以是3、4、5、6、7、8、9、10或15个核苷酸(在范围的低端上)至5、6、7、8、9、10、15、20、25或30个核苷酸(在范围的高端上)。在本公开的一些实施方案中，MIT可以是寡核苷酸的部分，所述寡核苷酸进一步包括设计用于结合样品核酸分子的序列、通用引物结合序列和/或衔接子序列，尤其是可用于高通量测序的衔接子序列。在一些实施方案中，寡核苷酸的总长度可以是10、15、20、25、30、35、40、45、50、60、70、80、90或100个核苷酸(在范围的低端上)至25、30、35、40、45、50、60、70、80、90或100个核苷酸(在范围的高端上)。在一些实施方案中，一个或多个MIT可被附接于样品核酸分子。例如，在一些实施方案中，至少1、2、3、4、5、6、7、8、9或10个MIT可被附接于样品核酸分子。在本公开的一些实施方案中，MIT可被附接于样品核酸片段的5'端和/或3'端，所述样品核酸片段可以是样品核酸分子的一部分或全部。在一些实施方案中，2个MIT可被附接至个体样品核酸分子，例如样品核酸分子中的每一个，其中每个经标记的核酸分子包含分别位于来自核酸分子群的核酸片段的5'端和3'端的两个MIT。

在本公开的一些实施方案中，样品核酸分子可以在任何其他体外扩增发生之前用于反应混合物中。在一些实施方案中，核酸分子群中的样品核酸分子的总数可以是100、250、500、1,000、2,500、5,000、10,000、25,000、50,000、100,000、250,000、500,000、1x10⁶、2.5x10⁶、5x10⁶、1x10⁷、1x10⁸、1x10⁹和1x10¹⁰个样品核酸分子(在范围的低端上)至500、1,000、2,500、5,000、10,000、25,000、50,000、100,000、250,000、500,000、1x10⁶、2.5x10⁶、5x10⁶、1x10⁷、1x10⁸、1x10⁹、1x10¹⁰、1x10¹¹、和1x10¹²个样品核酸分子(在范围的高端上)。在本公开的一些实施方案中，反应混合物中样品核酸分子的总数可以大于MIT组中MIT的多样性。例如，样品核酸分子的总数与MIT组中MIT的多样性的比例可以是至少2:1、10:1、100:1、1,000:1、5,000:1、10,000:1、25,000:1、50,000:1、100,000:1、250,000:1、500,000:1、1,000,000:1、5,000,000:1、10,000,000:1、1x10⁸:1、1x10⁹:1、1x10¹⁰:1或更多。在一些实施方案中，附接的MIT的可能组合的多样性可以大于跨越目标基因座的反应混合物中的样品核酸分子的总数。例如，附接的MIT的可能组合(例如任何2、3、4、5等个MIT的组合，取决于有多少个MIT被附接于样品核酸分子)的多样性与跨越目标基因座的样品核酸分子的总数的比例可以是至少1:01、1.1:1、1.5:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、15:1、20:1、25:1、50:1、100:1、500:1或1,000:1。在一些实施方案中，MIT组中的MIT可被附接至至少2、3、4、5、6、7、8、9、10、25、50、100、250、500、1,000、2,500、5,000、10,000、25,000、50,000、100,000、250,000、500,000、1x10⁶、2.5x10⁶、5x10⁶、1x10⁷、1x10⁸、1x10⁹、1x10¹⁰、1x10¹¹或1x10¹²个不同的样品核酸分子以形成经标记的核酸分子群。

在本公开的一些实施方案中，至少1、2、3、4、5、6、7、8、9、10、25、50、100、250、500、1,000、2,500、5,000、10,000、25,000、50,000、100,000、250,000、500,000、1x10⁶、2.5x10⁶、5x10⁶、1x10⁷、1x10⁸、1x10⁹、1x10¹⁰、1x10¹¹和1x10¹²个样品核酸分子可以在反应混合物中附接MIT。在一些实施方案中，反应混合物中的样品核酸分子中的至少1％、2％、3％、4％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.9％或100％可以附接有MIT。

在本公开的一些实施方案中，反应混合物可包括比样品核酸分子更多的MIT分子。例如，在一些实施方案中，反应混合物中MIT分子的总数可以是反应混合物中样品核酸分子的总数的至少2、3、4、5、6、7、8、9或10倍。在某些方面，倍数差异取决于要附接的MIT的数量。例如，如果要附接2个MIT，则反应混合物中MIT分子的总数可以是反应混合物中样品核酸分子的总数的至少2倍；如果要附接3个MIT，则反应混合物中MIT分子的总数可以是反应混合物中样品核酸分子的总数的3倍，以此类推。在一些实施方案中，反应混合物中具有相同序列的MIT的总数与反应混合物中核酸分子的总数的比例可以是0.1:1、0.2:1、0.3:1、0.4:1、0.5:1、1:1、1.5:1和2:1(在范围的低端上)至0.3:1、0.4:1、0.5:1、1:1、1.5:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1和10:1(在范围的高端上)。

在一些实施方案中，在经标记的核酸分子群中附接的MIT和核酸片段的序列可以通过测序、尤其是高通量测序来确定。在一些实施方案中，经标记的核酸分子可以在测序准备中克隆扩增，尤其是克隆扩增至固体支持物或多个固体支持物上。在一些实施方案中，在经标记的核酸分子上的MIT的所确定的序列可用于识别衍生经标记的核酸分子的样品核酸分子，尤其是使用如本文所公开的核酸片段的末端或片段特异性插入物末端的序列。在一些实施方案中，在经标记的核酸分子上的核酸片段的的所确定的序列可用于帮助识别衍生经标记的核酸分子的样品核酸分子。在一些实施方案中，可以将所确定的核酸片段的序列映射到样品核酸分子的来源的基因组中的位置，并且该信息可用于帮助识别。

在一些实施方案中，可以识别100、250、500、1,000、2,500、5,000、10,000、25,000、50,000、100,000、250,000、500,000、1x10⁶、2.5x10⁶、5x10⁶、1x10⁷、1x10⁸、1x10⁹和1x10¹⁰个经标记的核酸分子(在范围的低端上)至500、1,000、2,500、5,000、10,000、25,000、50,000、100,000、250,000、500,000、1x10⁶、2.5x10⁶、5x10⁶、1x10⁷、1x10⁸、1x10⁹、1x10¹⁰、1x10¹¹和1x10¹²个经标记的核酸分子(在范围的高端上)。在一些实施方案中，衍生自一个样品核酸分子的两条链的经标记的核酸分子可被识别并用于产生配对的MIT家族。在下游测序反应中，其中通常对单链核酸分子进行测序，可以通过用相同或互补的MIT序列识别经标记的核酸分子来识别MIT家族。在这些实施方案中，配对的MIT家族可被用于验证样品核酸分子中序列差异的存在。在一些其他实施方案中，所确定的核酸片段的序列被用于产生具有互补或相同的MIT和核酸片段序列的配对的MIT核酸片段家族。在这些实施方案中，配对的MIT核酸片段家族可被用于验证样品核酸分子中序列差异的存在。

在一些实施方案中，可以富集具有特定目标基因座的经标记的核酸分子。在一些实施方案中，可以使用单侧或双侧PCR来富集一个或多个染色体上的这些目标基因座。在一些实施方案中，可以使用杂交捕获。在一些实施方案中，1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、250、500、1,000、2,500、5,000、10,000、15,000或20,000个目标基因座(在范围的低端上)至5、6、7、8、9、10、15、20、25、50、100、250、500、1,000、2,500、5,000、10,000、15,000、20,000、25,000、50,000、100,000和250,000个(在范围的高端上)目标基因座可以作为富集目标。在一些实施方案中，目标基因座的长度可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75和100个核苷酸(在范围的低端上)至10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、125、150、200、250、300、400、500和1,000个核苷酸(在范围的高端上)。在一些实施方案中，不同样品核酸分子上的目标基因座可以是至少50％、60％、70％、80％、90％、95％、96％、97％、98％、99％、99.9％、或100％相同或共享至少50％、60％、70％、80％、90％、95％、96％、97％、98％、99％、99.9％或100％的序列同一性。

在本公开的一些实施方案中，样品可以来自哺乳动物。在一些实施方案中，样品可以来自人，尤其是来自人血液样品或其部分。在任何公开的实施方案中，样品可以是小于0.1、0.2、0.25、0.5、1、1.25、1.5、1.75、2、2.5、3、3.5、4、4.5或5ml的血液或血浆。在本公开的一些实施方案中，样品可包括循环的无细胞人DNA。在一些实施方案中，包括循环无细胞的人DNA的样品可以来自母体，并且可包括母体和胎儿DNA。在一些实施方案中，包括循环无细胞的人DNA的样品可以是来自患有或怀疑患有癌症的人的血液样品，并且可包括正常和肿瘤DNA。

本公开的其他特征和优点将在以下详细描述和在权利要求中显而易见。

附图说明

图1是显示使用连接反应将两个MIT附接至核酸分子或核酸片段的示意图。图1按出现的顺序分别公开了SEQ ID NO 1-2、2、1、3-4、4和3。

图2是显示使用具有含有MIT序列的引物的PCR将两个MIT掺入核酸分子或核酸片段的示意图。图2按出现的顺序分别公开了SEQ ID NO 5-6、6、5、7-8、8、7和9-14。

图3A-3B说明了通过本文提供的不同示例性方法产生的扩增子的结构。在单侧STAR(图3A)之后产生的扩增子在一侧具有MIT，其中MIT的第一个碱基是读数1或读数2中的第一个碱基，其取决于如何进行单侧STAR。在图3A中，MIT的第一个碱基将是读数2中的第一个碱基。在杂交捕获后产生的扩增子(图3B)在扩增子的两侧具有MIT，其中读数1的第一个碱基是MIT1的第一个碱基，并且读数2的第一个碱基是MIT2的第一个碱基。

图4是显示使用MIT的测序运行结果的表格。

图5是显示三个不同实验运行中两个样品的平均错误率和平均配对MIT核酸片段家族错误率(来自图4的数据)的条形图。

上述附图是以表示的方式而非限制来提供的。

具体实施方式

本公开涉及包括寡核苷酸标签的方法和组合物，所述寡核苷酸标签在本文中称为分子索引标签(MIT)，其附接于来自样品的核酸分子群，以识别来自用于测序反应的样品处理之后的核酸分子群的个体样品核酸分子(即群体的成员)。在一些实施方案中，测序反应是在衍生自样品核酸分子的经标记的核酸分子上进行的高通量测序反应。与涉及独特标识符并教导独特标识符的多样性大于样品中样品核酸分子的数量以便用独特标识符标记每个样品核酸分子的现有技术方法不同，本公开通常涉及比一组MIT中MIT的多样性更多的样本核酸分子。事实上，本文的方法和组合物可包括对于一组MIT中的每种不同MIT的超过1,000、1x10⁶、1x10⁹或甚至更多的起始分子。然而，所述方法仍然可以识别在扩增后产生经标记的核酸分子的个体样品核酸分子。

在本文的方法和组合物中，所述MIT组的多样性有利地小于跨越目标基因座的样品核酸分子的总数，但使用MIT组的附接的MIT的可能组合的多样性大于跨越目标基因座的样品核酸分子的总数。通常，为了提高MIT组的识别能力，将至少两个MIT附接于样品核酸分子以形成经标记的核酸分子。从测序读数确定的被附接的MIT的序列，可被用于识别在测序反应的样品制备期间附接于不同固体支持物或固体支持物的不同区域的相同样品核酸分子的克隆扩增的相同拷贝。经标记的核酸分子的序列可被编译、比较，并用于区分在扩增期间发生的核苷酸突变与初始样品核酸分子中存在的核苷酸差异。

本公开中的MIT组通常具有比样品核酸分子的总数更低的多样性，而许多现有方法使用“独特标识符”集，其中独特标识符的多样性大于样品核酸分子的总数。然而，本公开的MIT通过使使用MIT组的附接的MIT的可能组合的多样性大于跨越目标基因座的样品核酸分子的总数，以保持足够的跟踪能力。本公开的MIT组的这种较低的多样性显著降低了与生成和/或获得跟踪标签组相关联的成本和制造复杂性。尽管反应混合物中MIT分子的总数通常大于样品核酸分子的总数，但MIT组的多样性远小于样品核酸分子的总数，这相对于现有技术方法大大降低了成本并简化了可制造性。因此，一组MIT可包括少至例如3、4、5、10、25、50或100个不同的MIT(在范围的低端上)至10、25、50、100、200、250、500或1000个不同的MIT(在范围的高端上)。因此，在本公开中，MIT的相对低的多样性导致MIT的多样性远低于样品核酸分子的总数，并且反应混合物中的MIT的总数相比总样品核酸分子更多，并且MIT组中任何2个MIT的可能组合的多样性高于跨越目标基因座的样品核酸分子的数量，它们相结合提供了特别有利的实施方案，该实施方案对于从自然界分离的复杂样品是低成本且非常有效的。此外，通过将已测序的核酸分子映射到基因组，提供了其他优势，例如与参考基因组相比更简单的分析和识别关于样品核酸分子的序列的信息。

说明性方法的简述

因此，本文在一方面提供了一种用于对样品核酸分子群进行测序的方法，其可任选地进一步包括使用测序来识别来自样品核酸分子群的个体样品核酸分子。在一些实施方案中，核酸分子群在附接MIT之前未在体外扩增，并且可包括1x10⁸至1x10¹³，或在一些实施方案中，1x10⁹至1x10¹²或1x10¹⁰至1x10¹²个样品核酸分子。在一些实施方案中，所述方法包括形成包括核酸分子群和一组MIT的反应混合物，其中核酸分子群中核酸分子的总数大于该MIT组中MIT的多样性并且其中该组中至少有三个MIT。在一些实施方案中，使用MIT组的附接的MIT的可能组合的多样性大于跨越目标基因座的样品核酸分子的总数并且小于该群中样品核酸分子的总数。在一些实施方案中，MIT组的多样性可包括具有不同序列的10至500个MIT。在本文的某些方法和组合物中，样品中核酸分子群中的核酸分子的总数与该组中MIT的多样性的比例可以在1,000:1和1,000,000,000:1之间。使用MIT组的附接的MIT的可能组合的多样性与跨越目标基因座的样品核酸分子的总数的比例可以在1.01:1和10:1之间。如本文更详细讨论的，MIT通常至少部分由长度为4至20个核苷酸的寡核苷酸组成。可以设计该组MIT，使得该组中所有MIT的序列彼此的差异为至少2、3、4或5个核苷酸。

在本文提供的一些实施方案中，来自该MIT组的至少一个(例如两个)MIT被附接于每个核酸分子或核酸分子群的每个核酸分子的片段以形成经标记的核酸分子群。如本文进一步讨论的，MIT可以以各种构型被附接于样品核酸分子。例如，在附接后，一个MIT可以位于经标记的核酸分子的5'末端或位于经标记的核酸分子中的一些、大多数或通常每一个的样品核酸片段的5'端，和/或另一个MIT可以位于经标记的核酸分子中的一些、大多数或通常每一个的样品核酸片段的3'端。在其他实施方案中，至少两个MIT位于经标记的核酸分子的样品核酸片段的5'端和/或3'端，或位于经标记的核酸分子中的一些、大多数或通常每一个的样品核酸片段的5'端和/或3'端。可以通过在附接之前包括在相同的多核苷酸片段上或通过进行单独的反应，将两个MIT添加到5'端或3'端。例如，可以用这样的引物进行PCR，该引物与样品核酸分子内的特定序列结合，并且包括编码两个MIT的位于序列特异性区域的5'端的区域。在一些实施方案中，该MIT组中的每个MIT的至少一个拷贝被附接于样品核酸分子，至少一个MIT的两个拷贝各自被附接于不同的样品核酸分子，和/或具有相同或基本相同的序列的至少两个样品核酸分子附接有至少一个不同的MIT。技术人员会鉴定用于将MIT附接于核酸分子群的核酸分子的方法。例如，如本文更详细讨论的，可以通过连接反应来附接MIT，或者将MIT附加至PCR引物的内部序列结合位点的5′端，并在PCR反应期间进行附接。

在将MIT附接于样品核酸以形成经标记的核酸分子之时或之后，通常扩增经标记的核酸分子群以产生经标记的核酸分子库。用于扩增以产生库的方法，包括与高通量测序工作流程特别相关的方法，是本领域已知的。例如，这种扩增可以是基于PCR的库制备。这些方法可以进一步包括使用PCR或另一种扩增方法(例如等温法)将经标记的核酸分子库克隆扩增到一个或多个固体支持物上。在高通量测序样品制备工作流程中用于产生克隆扩增至固体支持物上的库的方法是本领域已知的。另外的扩增步骤，例如其中扩增样品核酸分子群的子集的多重扩增反应，也可被包括在用于识别本文提供的样品核酸的方法中。

在本文提供的方法的一些实施方案中，随后确定了经标记的核酸分子库中经标记的核酸分子中的一些、大多数或全部(例如至少2、3、4、5、6、7、8、9、10、20、25、50、75、100、150、200、250、500、1,000、2,500、5,000、10,000、15,000、20,000、25,000、50,000、100,000、1,000,000、5,000,000、10,000,000、25,000,000、50,000,000、100,000,000、250,000,000、500,000,000、1x10⁹、1x10¹⁰、1x10¹¹、1x10¹²或1x10¹³个经标记的核酸分子或经标记的核酸分子中的10、20、25、30、40、50、60、70、80或90％(在范围的低端上)至20、25、30、40、50、60、70、80或90、95、96、97、98、99和100％(在范围高端上))的MIT和样品核酸分子片段中的至少一部分的核苷酸序列。在经标记的核酸分子的克隆扩增拷贝上的第一MIT和任选地第二MIT或更多MIT的序列，可用于识别在库中产生经克隆扩增的经标记的核酸分子的个体样品核酸分子。

在一些实施方案中，通过区分扩增错误与样品核酸分子中目标基因座处的真实序列差异，可以将从经标记的核酸分子中确定的共享相同的第一和任选地相同的第二MIT的序列用于识别扩增错误。例如，在一些实施方案中，该MIT组是双链MIT，其例如可以是部分或完全双链衔接子(例如Y-衔接子)的一部分。在这些实施方案中，对于每个起始分子，Y-衔接子制备产生2个子分子类型，一个在+方向，一个在–方向。样品分子中的真实突变应该在这些实施方案中有两个子分子与相同的2个MIT配对，其中MIT是双链衔接子或其一部分。另外，当经标记的核酸分子的序列被确定并由序列上的MIT分(bucketed)至MIT核酸片段家族中时，考虑到MIT序列和任选地其对双链MIT的补体，并且任选地考虑到核算片段的至少一部分，如果产生经标记的核酸分子的起始分子具有突变，则MIT核酸片段家族中的核酸片段的在双链MIT实施方案中的大多数以及通常至少75％会包括所述突变。在扩增(例如PCR)错误的情况下，最坏的情况是错误发生在第一次PCR的循环1中。在这些实施方案中，扩增错误将导致最终产品的25％包含错误(加上任何额外的累积误差，但这应该是<<1％)。因此，在一些实施方案中，例如，如果MIT核酸片段家族含有对特定突变或多态性等位基因的至少75％读数，则可以得出结论，该突变或多态性等位基因真正存在于产生经标记的核酸分子的样品核酸分子。错误发生在样品制备过程中越晚，则包括由MIT分组(即，分成)为配对的MIT核酸片段家族的测序读数组中的错误的序列读数的比例越低。例如，与工作流程中的后续扩增步骤(例如靶向多重扩增)中的错误相比，库制备扩增中的错误将导致在配对的MIT核酸片段家族中具有错误的序列的百分比更高。在测序工作流程中最终的克隆扩增中的错误，产生在配对的MIT核酸片段家族中包含该错误的核酸分子的最低百分比。

可以使用任何测序方法来实施本文提供的方法，尤其是那些使用样品核酸分子的多个扩增拷贝来确定样品核酸分子的序列、或尤其是多个样品核酸分子的序列的方法。此外，可以比较对其样品核酸片段与不同的MIT标签产生基本相同(例如至少60％、70％、75％、80％、85％、90％、95％、96％、97％、98％或99％相同)的序列的经标记的核酸分子，以确定样品核酸分子群中序列的多样性，并将真实变体或突变与样品制备期间产生的错误区分开，即使在低等位基因频率下也是如此。本公开的方法实施方案包括用于对样品核酸分子群进行测序的方法。这些方法对于高通量测序方法特别有效。本文将更详细地讨论这些方法。

以上和本公开的方法可用于本领域技术人员鉴于本公开将认识到的多个目的。例如，所述方法可用于确定样品中核酸分子群的核酸序列、识别产生经标记的核酸分子的样品核酸分子、从样品核酸分子群识别样品核酸分子、识别扩增错误、测量扩增偏差、以及表征聚合酶的突变率。进一步的用途对于本领域技术人员来说是显而易见的。在这些方法中，在确定经标记的核酸片段的序列后，具有基本相同的核酸片段序列和相同的两个MIT标签的核酸片段、或具有基本相同或相同的核酸片段序列和至少一个不同的MIT标签的核酸片段，可用于比较和进一步分析。

样品和库制备

在本文提供的各种实施方案中，样品可以来自天然或非天然来源。在一些实施方案中，所述样品中的核酸分子可以源自活生物体或细胞。可以使用任何核酸分子，例如，样品可包括覆盖来自活生物体或细胞的部分或整个基因组、mRNA或miRNA的基因组DNA。在某些方面，样品中整个基因组或DNA序列的总长度除以核酸分子的平均大小，可用于确定样品中核酸分子的数量，以代表整个基因组或所有DNA序列。在进一步的方面，该数量可用于确定样品中跨越目标基因座的核酸分子的数量。基因座可包括单个核苷酸或1至1,000、10,000、100,000、1百万或更多个核苷酸的片段。作为非限制性实施例，基因座可以是单核苷酸多态性、内含子或外显子。在一些实施方案中，基因座可包括插入、删除或转位。在一些实施方案中，样品可包括血液、血清或血浆样品。在一些实施方案中，样品可包括血液、血清或血浆样品中的自由漂浮的DNA(例如循环的无细胞肿瘤DNA或循环的无细胞胎儿DNA)。在这些实施方案中，样品通常来自动物，例如哺乳动物或人，并且通常以长度约160个核苷酸的片段存在。在一些实施方案中，通过离心除去细胞碎片和血小板后，使用EDTA-2Na管从血液中分离自由漂浮的DNA。血浆样品可被储存在-80℃直至使用例如QIAamp DNA Mini Kit(Qiagen,Hilden,Germany)提取DNA，(例如Hamakawa et al.,Br J Cancer.2015；112:352–356)。但是，样品可以来自其他来源，并且来自任何生物体的核酸分子可用于该方法。在一些实施方案中，衍生自细菌和/或病毒的DNA可用于分析混合群体之内的真实序列变体，尤其是在环境和生物多样性取样中。

本公开的一些实施方案通常使用在活细胞内并由活细胞产生的样品核酸分子进行。此类核酸分子通常直接从天然来源(例如细胞或体液)中分离，而在附接MIT之前不进行任何体外扩增。因此，样品核酸分子直接用于反应混合物中以附接MIT。这样可以避免在标记样品核酸分子之前引入扩增错误。这反过来又提高了区分真实序列变体与扩增错误的能力。但是，在一些实施方案中，可以在附接MIT之前扩增样品核酸分子。如果在附接MIT之前需要扩增，则本领域技术人员将理解使用的最佳方法。例如，具有校对能力的高保真聚合酶可用于扩增，以帮助减少可能在核酸分子附接MIT之前产生的扩增错误的数量。此外，可以采用扩增循环的更少循环(例如2、3、4和5个循环(在范围的低端上)至3、4、5、6、7、8、9或10个循环(在范围的高端上))。

在一些实施方案中，可以将样品中的核酸分子片段化，以在用MIT标记它们之前产生任何选定长度的核酸分子。如本文所详细讨论的，本领域技术人员将认识到用于进行这种片段化的方法和所选定的长度。例如，可以使用物理方法(例如超声处理)、酶促方法(例如通过DNase I或限制性核酸内切酶消化)、或化学方法(例如在二价金属阳离子的存在下加热)对核酸进行片段化。如本文所详细讨论的，可以进行片段化，使得留下所选择的大小范围的核酸分子。在其他实施方案中，可以使用本领域已知的方法选择特定大小范围的核酸分子。

在片段化后，样品核酸分子可具有需要在进一步的库制备之前进行修复的5'和/或3'突出端。在一些实施方案中，在附接MIT或其他标签之前，可使用本领域已知的方法修复具有5'和3'突出端的样品核酸分子以产生平末端的样品核酸分子。例如，在合适的缓冲液中，Klenow Large Fragment Polymerase的聚合酶和核酸外切酶活性可用于填充核酸分子上的5'突出端并去除核酸分子上的3'突出端。在一些实施方案中，可以使用Polynucleotide Kinase(PNK)和技术人员将理解的反应条件，将磷酸盐添加在经修复的核酸分子的5'末端上。在进一步的实施方案中，可以将单个核苷酸或多个核苷酸添加至双链分子的一条链上，以产生“粘性末端”。例如，腺苷(A)可被附加在核酸分子的3'末端上(A尾)。在一些实施方案中，除了A突出端之外，可以使用其他粘性末端。在一些实施方案中，可以添加其他衔接子，例如环状连接衔接子。在本公开的任何实施方案中，可以不进行这些修饰或进行其全部或任何组合。

本领域已知许多用于产生核酸分子库以用于后续测序的试剂盒和方法。特别适用于从小核酸片段、尤其是循环无细胞DNA中制备库的试剂盒可用于实施本文提供的方法。例如，NEXTflex Cell Free试剂盒(Bioo Scientific,Austin,TX)或Natera Library Prep试剂盒(Natera,San Carlos,CA)。这种试剂盒通常被修改为包括为本文提供的方法的扩增和测序步骤定制的衔接子。也可以使用市售试剂盒，例如在Agilent SureSelect试剂盒(Agilent,Santa Clara,CA)中发现的的连接试剂盒，进行衔接子连接。

样品核酸分子由天然存在的或非天然存在的通过磷酸二酯键连接的核糖核苷酸或脱氧核糖核苷酸组成。此外，样品核酸分子由被靶向进行测序的核酸片段组成。样品核酸分子可以是或可以包括长度至少为20、25、50、75、100、125、150、200、250,300、400、500、600、700、800、900或1,000个核苷酸的核酸片段。在本公开的任何实施方案中，样品核酸分子或核酸片段的长度可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、125、150、200、250、300、400和500个核苷酸(在范围的低端上)至10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、125、150、200、250、300、400、500、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000和10,000个核苷酸(在范围的高端上)。在一些实施方案中，核酸分子可以是基因组DNA的片段，并且其长度可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、125、150、200、250、300、400和500个核苷酸(在范围的低端上)至10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、125、150、200、250、300、400、500、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000和10,000个核苷酸(在范围的高端上)。为了清楚起见，最初从活组织、液体或培养的细胞中分离的核酸可以比使用本文方法处理的样品核酸分子长得多。如本文所讨论的，例如，在用于本文的方法之前，可以将这种最初分离的核酸分子片段化以产生核酸片段。在一些实施方案中，核酸分子和核酸片段可以是相同的。样品核酸分子或样品核酸片段可包括含有被查询的一个或多个核苷酸的目标基因座，尤其是单核苷酸多态性或单核苷酸变体。在任何公开的实施方案中，目标基因座的长度可以是至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、125、150、200、250、300、400、500、600、700、800、900或1,000个核苷酸，并且包括样品核酸分子和/或样品核酸片段的一部分或全部。在其他实施方案中，目标基因座的长度可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、125、150、200、250、300、400和500个核苷酸(在范围的低端上)至10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、125、150、200、250、300、400、500、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000和10,000个氨基酸(在范围的高端上)。在一些实施方案中，不同样品核酸分子上的目标基因座可以是至少50％、60％、70％、80％、90％、95％、96％、97％、98％、99％、99.9％、或100％相同。在一些实施方案中，不同样品核酸分子上的目标基因座可以共享至少50％、60％、70％、80％、90％、95％、96％、97％、98％、99％、99.9％或100％序列同一性。

在一些实施方案中，整个样品核酸分子是样品核酸片段。例如，在某些实施方案中，其中MIT直接连接到样品核酸分子的末端、或连接到连接至样品核酸分子的末端的核酸、或作为与样品核酸片段的末端处的序列结合的引物的一部分连接、或作为衔接子(例如添加到其中的通用衔接子)连接，如本文进一步讨论的，整个核酸分子可以是样品核酸片段。在其他实施方案中，例如某些实施方案，其中MIT作为靶向样品核酸分子的末端内部的结合位点的引物的一部分附接于样品核酸分子，样品核酸分子的一部分可以是靶向下游测序的样品核酸片段。例如，样品核酸分子中的至少50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％可以是核酸片段。

在一些实施方案中，样品核酸分子是从天然来源分离的核酸的混合物，一些样品核酸分子具有相同的序列，一些则具有共享至少50％、60％、70％、80％、90％、95％、98％或99％序列同一性的序列，以及一些20、25、50、75、100、125、150、200、250个(在范围的低端上)核苷酸至50、75、100、125、150、200、250、300、400或500个(在范围的高端上)核苷酸具有小于50％、40％、30％、20％、10％或5％的序列同一性。此类样品核酸分子可以是从哺乳动物(例如人)的组织或液体中分离的核酸样品，而不需要相对于一个序列富集另一个序列。在其他实施方案中，可以富集例如来自感兴趣的基因的靶序列，然后进行本文提供的方法。

在某些实施方案中，核酸分子群中的样品核酸分子中的一些或全部可具有相同或基本相同的核酸片段。如果核酸片段的序列共享至少90％的序列同一性，则可以说核酸分子基本上是相同的。在某些说明性实施例中，样品核酸分子可在20、25、50、75、100、125、150、200、250个(在范围的低端上)至50、75、100、125、150、200、250、300、400或500个(在范围的高端上)核苷酸上共享具有90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.9％序列同一性的核酸片段。本文提供的方法可有效区分样品中共享至少90％、95％、96％、97％、98.5％、99％或甚至100％序列同一性的样品核酸分子。

在一些实施方案中，与附接的MIT相邻的核酸片段的5'和3'末端可用于帮助识别和区分样品核酸分子。在本文中，这些序列称为片段特异性插入末端。在如本文其他地方所讨论的MIT的附接后，MIT和片段特异性插入末端的组合可以唯一地识别样品核酸分子，因为可以选择足够高的MIT与样品核酸分子的比例，使得两种不同的样品核酸分子具有相同的片段特异性插入末端和以相同方向附接的相同的MIT的概率非常低。例如，使得概率小于1、0.5、0.1、0.05、0.01、0.005、0.001或更小。例如，仅使用MIT从一组200个MIT中识别每个样品核酸分子得到40,000(200x 200)种可能的标识符的组合。通过使用片段特异性插入末端提供的附加信息，可能的组合的数量可以快速增加。例如，如果每个核苷酸在二核苷酸序列中的概率相等，则在核酸分子的识别中包括来自片段特异性插入末端的5'和3'的2个核苷酸，会将40,000种可能的组合增加至10,240,000种可能的组合。当在本文提供的方法中使用时，片段特异性插入末端的长度可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29和30个核苷酸(在范围的低端上)至3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49和50个核苷酸(在范围的高端上)。在一些实施方案中，与MIT组合使用以识别样品核酸分子的片段特异性末端的长度为1、2、3或4个核苷酸。

在进一步的实施方案中，所确定的片段特异性插入末端的序列可用于将核酸分子的每个末端映射到分离样品的生物体的基因组中的特定位置(即基因组坐标)。所映射的位置为每个经标记的核酸分子提供另一个标识符。对每个末端进行映射大大增加了每个经标记的核酸分子可用的标识符的数量。在这些实施方案中，核酸分子的每个末端的所映射的位置可以与MIT组合使用，以识别产生经标记的核酸分子的个体样品核酸分子。例如，对于单核小体(mononucleosomal)循环无细胞DNA(cfDNA)中的给定的靶碱基，5'侧片段末端可以是上游约0至199个碱基之间的任何位置。同样，3'侧片段末端可以是下游0-199个碱基。理论上，这可能会产生40,000种可能的末端组合。实际上，大多数分子的总长度为100-200个碱基，因此可能的组合的总数最终约为15,000(最大值，但并非所有组合都以相同的可能性发生)。这意味着40,000个MIT组合x 15,000个可能的片段末端＝600,000,000个可能的末端组合。此外，如果核酸片段被映射到基因组，则可以识别该片段中的突变或该片段的等位基因。

样品核酸分子的总数可以根据样品来源和制备以及该方法的需要而有很大变化。例如，总样本核酸分子可以是1x10¹⁰、2x10¹⁰、2.5x10¹⁰、5x10¹⁰和1x10¹¹个(在范围的低端上)至5x10¹⁰、1x10¹¹、2x10¹¹、2.5x10¹¹、5x10¹¹、1x10¹²、2x10¹²、2.5x10¹²、5x10¹²和1x10¹³个(在范围的高端上)核酸分子之间。例如，由于单核小体cfDNA是大约100至200bp的具有高度可变的片段化模式的核酸片段，因此来自人类循环无细胞DNA的基因组的10,000个拷贝可以由2x10¹¹个总样品核酸分子组成(3,000,000,000bp/基因组拷贝x 10,000个基因组拷贝/150bp/样品核酸分子＝2x10¹¹个样品核酸分子)。

在本文提供的一些实施方案中，样品核酸分子的总数可包括人类基因组的50、100、200、250、500、750、1,000、2,000、2,500、5,000和10,000个拷贝(在范围的低端上)至人类基因组的1,000、2,000、2,5000、5,000、10,000、20,000、25,000、50,000和100,000个拷贝(在范围的高端上)。在其他实施方案中，样品核酸分子的总数是在1、2、2.5、3、4或5nM(在低端上)至2.5、3、4、5、10、20或25nM(在范围的高端上)的cfDNA中的长度为100至500个核苷酸(例如200个核苷酸)的核酸分子的数量。

一组或一群核酸分子的多样性，是该组或该群中的核酸分子中的独特序列的数量。样品核酸分子的多样性，是样品核酸分子中独特序列的数量。即使样品中的核酸分子未进行过扩增，通常在样品中具有相同或接近相同的核酸序列的超过1个拷贝。目前的核酸样品制备和DNA分离程序通常导致样品中每个核酸分子的许多拷贝。

在本公开的任何实施方案中，在所述群体中样品核酸分子的核苷酸序列的多样性可以是100、1,000、10,000、1x10⁵、1x10⁶和1x10⁷个不同的核酸序列(在范围的低端上)至1x10⁵、1x10⁶和1x10⁷、1x10⁸、1x10⁹和1x10¹⁰个不同的核苷酸序列(在范围的高端上)。在一些实施方案中，样品核酸分子群中核苷酸序列的多样性为1x10⁶、5x10⁶和1x10⁷个不同的核酸序列(在范围的低端上)至1x10⁷、1x10⁸、1x10⁹和1x10¹⁰个不同的核苷酸序列(在范围的高端上)。

对于人类cfDNA样品，由于人类基因组中有大约30亿个核苷酸，由于核酸片段大小约为150个核苷酸，并且由于碎片模式不是随机的而且也不是固定的，因此在人cfDNA样品中有约2000万(30亿/150)至约30亿个不同的核酸片段。因此，在一些实施方案中，所述样品是人cfDNA样品，例如纯化的样品、或血清或血浆样品，并且样品的多样性在2000万至30亿之间。

在本公开的某些实施方案中，样品核酸分子可以具有大致相同的长度。例如对于循环无细胞的DNA样品，样品核酸分子可以是约200个核苷酸，或者对于某些样品，例如包括循环无细胞的DNA的血液、血清或血浆样品，样品核酸分子的长度为50、75、100、125或150个核苷酸(在范围的低端上)至150、200、250或300个核苷酸(在范围的高端上)。

在其他实施方案中，样品核酸分子可以是不同范围的起始长度。具有或不具有片段化的样品核酸分子的长度可以是适合于后续方法步骤的任何大小。例如，样品核酸分子可以是至少10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、250、300、350、400、450、500、600、700、800、900、1,000、1,250、1,500、1,750、2,000、2,500、3,000、4,000、5,000、6,000、7,000、8,000、9,000和10,000个核苷酸(在范围的低端上)至15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、250、300、350、400、450、500、600、700、800、900、1,000、1,250、1,500、1,750、2,000、2,500、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、11,000、12,000、13,000、14,000、15,000、16,000、17,000、18,000、19,000、20,000、25,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000和100,000个核苷酸(在范围的高端上)。

在某些方面，样品核酸片段分子的起始长度的所选大小范围取决于附接的方法。如果使用PCR，则选择更长范围的核酸分子长度，因为它们增加了两个引物与相同核酸分子结合的可能性。如果使用连接反应，则选择较短范围的核酸分子长度，因为它们减少了在该方法的后续步骤中通过PCR产生的扩增子的长度，特别是如果使用结合在核酸片段外的通用引物进行PCR。因此，当使用连接反应来附接MIT时，样品核酸分子通常会比使用PCR来附接MIT时更短。例如，在一些实施方案中，样品核酸分子是10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、300、350、400、450、500、600、700、800、900和1,000个核苷酸(在范围的低端上)至12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、300、350、400、450、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、1,900、2,000、2,500、3,000、4,000、5,000、6,000、7,000、8,000、9,000和10,000个核苷酸(在范围的高端上)，并且MIT通过连接来附接。在某些实施方案中，样品核酸分子是50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、300、350、400、450、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、1,900、2,000、2,500、3,000、4,000、5,000、6,000、7,000、8,000、9,000和10,000个核苷酸(在范围的低端上)至100、110、120、130、140、150、160、170、180、190、200、225、250、300、350、400、450、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、1,900、2,000、2,500、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、11,000、12,000、13,000、14,000、15,000、16,000、17,000、18,000、19,000、20,000、25,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000和100,000个核苷酸(在范围的高端上)，并且MIT通过PCR来附接。

在一些实施方案中，可以使用机器来合成样品中的核酸分子。在一些实施方案中，核酸分子由活细胞产生。在一些实施方案中，由活细胞产生的核酸分子和使用机器合成的核酸分子可以进行组合并用作样品核酸分子。该组合可有利于定量目的。在一些实施方案中，样品核酸分子未在体外扩增。

MIT和MIT反应混合物

在本文提供的方法中的将MIT附接至样品核酸分子或核酸片段的步骤通常包括形成反应混合物。在这些方法中形成的反应混合物本身可以是本公开的各个方面。本文提供的反应混合物可包括如本文详细公开的样品核酸分子和如本文详细公开的一组MIT，其中样品中核酸分子的总数大于该MIT组中MIT的多样性。在一些实施方案中，样品中核酸分子的总数也大于附接的MIT的可能组合的多样性。

在本公开的一些实施方案中，样品核酸分子的总数与MIT组中的MIT的多样性或与使用该MIT组的附接的MIT的可能组合的多样性的比例可以是10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、200:1、300:1、400:1、500:1、600:1、700:1、800:1、900:1、1,000:1、2,000:1、3,000:1、4,000:1、5,000:1、6,000:1、7,000:1、8,000:1、9,000:1、10,000:1、15,000:1、20,000:1、25,000:1、30,000:1、40,000:1、50,000:1、60,000:1、70,000:1、80,000:1、90,000:1、100,000:1、200,000:1、300,000:1、400,000:1、500,000:1、600,000:1、700,000:1、800,000:1、900,000:1和1,000,000:1(在范围的低端上)至100:1、200:1、300:1、400:1、500:1、600:1、700:1、800:1、900:1、1,000:1、2,000:1、3,000:1、4,000:1、5,000:1、6,000:1、7,000:1、8,000:1、9,000:1、10,000:1、15,000:1、20,000:1、25,000:1、30,000:1、40,000:1、50,000:1、60,000:1、70,000:1、80,000:1、90,000:1、100,000:1、200,000:1、300,000:1、400,000:1、500,000:1、600,000:1、700,000:1、800,000:1、900,000:1、1,000,000:1、2,000,000:1、3,000,000:1、4,000,000:1、5,000,000:1、6,000,000:1、7,000,000:1、8,000,000:1、9,000,000:1、10,000,000:1、50,000,000:1、100,000,000:1和1,000,000,000:1(在范围的高端上)。

在一些实施方案中，所述样品是人cfDNA样品。在这种方法中，如本文所公开的，所述多样性在约2000万和约30亿之间。在这些实施方案中，样品核酸分子的总数与MIT组的多样性的比例可以是100,000:1、1x10⁶:1、1x10⁷:1、2x10⁷:1和2.5x10⁷:1(在范围的低端上)至2x10⁷:1、2.5x10⁷:1、5x10⁷:1、1x10⁸:1、2.5x10⁸:1、5x10⁸:1和1x10⁹:1(在范围的高端上)。

在一些实施方案中，使用该MIT组的附接的MIT的可能组合的多样性优选地大于跨越目标基因座的样品核酸分子的总数。例如，如果有100个全部被片段化成200bp片段的人类基因组的拷贝，使得每个基因组大约有15,000,000个片段，那么MIT的可能组合的多样性最好大于100(每个目标基因座的拷贝数)但小于1,500,000,000(核酸分子的总数)。例如，MIT的可能组合的多样性可以大于100但远小于1,500,000,000，例如200、300、400、500、600、700、800、900或1,000种附接的MIT的可能组合。虽然MIT组中MIT的多样性小于核酸分子的总数，但是反应混合物中MIT的总数超过了反应混合物中核酸分子或核酸分子片段的总数。例如，如果总共有1,500,000,000个核酸分子或核酸分子片段，那么在反应混合物中将存在总共超过1,500,000,000个MIT分子。在一些实施方案中，MIT组中MIT的多样性的比例可以低于跨越目标基因座的样品中的核酸分子的数量，而使用MIT组的附接的MIT的可能组合的多样性可以大于跨越目标基因座的样品中的核酸分子的数量。例如，跨越目标基因座的样品中的核酸分子的数量与MIT组中MIT的多样性的比例可以是至少10:1、25:1、50:1、100:1、125:1、150:1或200:1，以及使用MIT组的附接的MIT的可能组合的多样性与跨越目标基因座的样品中的核酸分子的数量的比例可以是至少1.01:1、1.1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、20:1、25:1、50:1、100:1、250:1、500:1或1,000:1。

通常，MIT组中MIT的多样性小于跨越目标基因座的样品核酸分子的总数，而附接的MIT的可能组合的多样性大于跨越目标基因座的样品核酸分子的总数。在其中2个MIT被附接于样品核酸分子的实施方案中，MIT组中MIT的多样性小于跨越目标基因座的样品核酸分子的总数但大于跨越目标基因座的样品核酸分子的总数的平方根。在一些实施方案中，MIT的多样性小于跨越目标基因座的样品核酸分子的总数，但是比跨越目标基因座的样品核酸分子的总数的平方根多1、2、3、4或5。因此，尽管MIT的多样性小于跨越目标基因座的样品核酸分子的总数，但任何2个MIT的组合的总数大于跨越目标基因座的样品核酸分子的总数。在具有每个目标基因座的至少100个拷贝的样品中，该组中MIT的多样性通常小于跨越目标基因座的样品核酸分子数量的一半。在一些实施方案中，该组中MIT的多样性可以比跨越目标基因座的样品核酸分子的总数的平方根多至少1、2、3、4或5但比跨越目标基因座的样品核酸分子的总数少1/5、1/10、1/20、1/50或1/100。对于有跨越目标基因座的2,000至1,000,000个样品核酸分子的样品，该组中的MIT的数量不超过1,000。例如，在具有基因组DNA样品(例如循环无细胞的DNA样本)中的基因组的10,000个拷贝、从而样品具有跨越目标基因座的10,000个样品核酸分子的样品中，MIT的多样性可以在101和1,000之间、或在101和500之间、或在101和250之间。在一些实施方案中，MIT组中MIT的多样性可以是跨越目标基因座的样品核酸分子的总数的平方根至比跨越目标基因座的样品核酸分子的总数少1、10、25、50、100、125、150、200、250、300、400、500、600、700、800、900或1,000。在一些实施方案中，MIT组中的MIT的多样性可以是跨越目标基因座的样品核酸分子的数量的0.01％、0.05％、0.1％、0.5％、1％、2％、3％、4％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％和80％(在范围的低端上)至跨越目标基因座的样品核酸分子的数量的1％、2％、3％、4％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％和99％(在范围的高端上)。

在一些实施方案中，反应混合物中MIT的总数与反应混合物中样品核酸分子的总数的比例可以是1.01、1.1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、25:1、50:1、100:1、200:1、300:1、400:1、500:1、600:1、700:1、800:1、900:1、1,000:1、2,000:1、3,000:1、4,000:1、5,000:1、6,000:1、7,000:1、8,000:1、9,000:1和10,000:1(在范围的低端上)至25:1、50:1、100:1、200:1、300:1、400:1、500:1、600:1、700:1、800:1、900:1、1,000:1、2,000:1、3,000:1、4,000:1、5,000:1、6,000:1、7,000:1、8,000:1、9,000:1、10,000:1、15,000:1、20,000:1、25,000:1、30,000:1、40,000:1和50,000:1(在范围的高端上)。在一些实施方案中，反应混合物中MIT的总数至少为反应混合物中样品核酸分子的总数的50％、60％、70％、80％、90％、95％、96％、97％、98％、99％或99.9％。在其他实施方案中，反应混合物中MIT的总数与反应混合物中样品核酸分子的总数的比例可以是至少足够的MIT使得每个样品核酸分子具有适当数量的MIT附接，即附接2个MIT时是2:1、3个MIT时是3:1、4个MIT时是4:1、5个MIT时是5:1、6个MIT时是6:1、7个MIT时是7:1、8个MIT时是8:1、9个MIT时是9:1、以及10个MIT时是10:1。

在一些实施方案中，反应混合物中具有相同序列的MIT的总数与反应混合物中核酸片段的总数的比例可以是0.1:1、0.2:1、0.3:1、0.4:1、0.5:1、0.6:1、0.7:1、0.8:1、0.9:1、1:1、1.1:1、1.2:1、1.3:1、1.4:1、1.5:1、1.6:1、1.7:1、1.8:1、1.9:1、2:1、2.25:1、2.5:1、2.75:1、3:1、3.5:1、4:1、4.5:1和5:1(在范围的低端上)至0.5:1、0.6:1、0.7:1、0.8:1、0.9:1、1:1、1.1:1、1.2:1、1.3:1、1.4:1、1.5:1、1.6:1、1.7:1、1.8:1、1.9:1、2:1、2.25:1、2.5:1、2.75:1、3:1、3.5:1、4:1、4.5:1、5:1、6:1、7:1、8:1、9:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1和100:1(在范围的高端上)。

该MIT组可包括例如至少三个MIT或10到500个MIT。如本文在一些实施方案中所讨论的，将来自样品的核酸分子直接添加至附接反应混合物中而不进行扩增。如本文所公开的，这些样品核酸分子可以从来源(例如活细胞或生物体)中纯化，然后可以在不扩增核酸分子的情况下附接MIT。在一些实施方案中，可在附接MIT之前扩增样品核酸分子或核酸片段。如本文所讨论的，在一些实施方案中，来自样品的核酸分子可以被片段化以产生样品核酸片段。在一些实施方案中，其他寡核苷酸序列可以在MIT被附接之前被附接(例如连接)到样品核酸分子的末端。

在本公开的一些实施方案中，反应混合物中包含目标基因座的样品核酸分子、核酸片段或片段与MIT的比例可以是1.01:1、1.05、1.1:1、1.2:1、1.3:1、1.4:1、1.5:1、1.6:1、1.7:1、1.8:1、1.9:1、2:1、2.5:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、15:1、20:1、25:1、30:1、35:1、40:1、45:1和50:1(在低端上)至5:1、6:1、7:1、8:1、9:1、10:1、15:1、20:1、25:1、30:1、35:1、40:1、45:1、50:1、60:1、70:1、80:1、90:1、100:1、125:1、150:1、175:1、200:1、300:1、400:1和500:1(在高端上)。例如，在一些实施方案中，反应混合物中具有特定目标基因座的样品核酸分子、核酸片段或片段与MIT的比例为5:1、6:1、7:1、8:1、9:1、10:1、15:1、20:1、25:1、30:1、35:1、40:1、45:1和50:1(在低端上)至20:1、25:1、30:1、35:1、40:1、45:1、50:1、60:1、70:1、80:1、90:1、100:1和200:1(在高端上)。在一些实施方案中，反应混合物中样品核酸分子或核酸片段与MIT的比例可以为25:1、30:1、35:1、40:1、45:1、50:1(在低端上)至50:1、60:1、70:1、80:1、90:1、100:1(在高端上)。在一些实施方案中，附接的MIT的可能组合的多样性可以大于跨越目标基因座的样品核酸分子、核酸片段或片段的数量。例如，在一些实施方案中，附接的MIT的可能组合的多样性与跨越目标基因座的样品核酸分子、核酸片段或片段的数量的比例可以是至少为1.01、1.1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、20:1、25:1、50:1、100:1、250:1、500:1或1,000:1。

如本文所提供的用于用MIT标记核酸分子(即将核酸分子附接至MIT)的反应混合物，除了包括样品核酸分子群和一组MIT之外，还可包括另外的试剂。例如，用于标记的反应混合物可包括在合适的pH下具有合适缓冲液的连接酶或聚合酶、用于ATP依赖性连接酶的三磷酸腺苷(ATP)或用于NAD依赖性连接酶的烟酰胺腺嘌呤二核苷酸、用于聚合酶的脱氧核苷三磷酸(dNTP)、以及任选地分子拥挤试剂，例如聚乙二醇。在某些实施方案中，反应混合物可包括样品核酸分子群、一组MIT、以及聚合酶或连接酶，其中反应混合物中具有特定目标基因座的样品核酸分子、核酸片段或片段的数量与MIT的数量的比例可以是本公开的任何比例，例如在2:1和100:1之间、或在10:1和100:1之间、或在25:1和75:1之间、或者是在40:1和60:1之间、或在45:1和55:1之间、或在49:1和51:1之间。

在本公开的一些实施方案中，该MIT组中的不同MIT的数量(即多样性)可以是3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、250、300、350、400、450、500、600、700、800、900、1,000、1,500、2,000、2,500和3,000个具有不同序列的MIT(在低端上)至4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、250、300、350、400、450、500、600、700、800、900、1,000、2,000、3,000、4,000和5,000个具有不同序列的MIT(在高端上)。例如，该MIT组中不同MIT的多样性可以是20、25、30、35、40、45、50、60、70、80、90和100个不同的MIT序列(在低端上)至50、60、70、80、90、100、125、150、175、200、250和300个不同的MIT序列(在高端上)。在一些实施方案中，MIT组中的不同MIT的多样性可以是50、60、70、80、90、100、125和150个不同的MIT序列(在低端上)至100、125、150、175、200和250个不同的MIT序列(在高端上)。在一些实施方案中，该MIT组中的不同MIT的多样性可以是3到1,000、或10到500、或50到250个不同的MIT序列。在一些实施方案中，使用该MIT组的附接的MIT的可能组合的多样性可以是4、5、6、7、8、9、10、15、20、25、30、40、50、75、100、150、200、250、300、400、500和1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、250,000、500,000、1,000,000个附接的MIT的可能组合(在范围的低端上)至10、15、20、25、30、40、50、75、100、150、200、250、300、400、500、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、250,000、500,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000和10,000,000个附接的MIT的可能组合(在范围的高端上)。

该MIT组中的MIT通常都是相同的长度。例如，在一些实施方案中，所述MIT可以是2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20个核苷酸(在低端上)至4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29和30个核苷酸(在高端上)的任何长度。在某些实施方案中，所述MIT是3、4、5、6、7或8个核苷酸(在低端上)至5、6、7、8、9、10或11个核苷酸(在高端上)的任何长度。在一些实施方案中，所述MIT的长度可以是4、5或6个核苷酸(在低端上)至5、6或7个核苷酸(在高端上)的任何长度。在一些实施方案中，所述MIT的长度是5、6或7个核苷酸。

如将理解的，一组MIT通常包括该组的每个MIT成员的许多相同拷贝。在一些实施方案中，与跨越目标基因座的样品核酸分子的总数相比，一组MIT包括10、20、25、30、40、50、100、500、1,000、10,000、50,000和100,000倍更多拷贝(在范围的低端上)至100、500、1,000、10,000、50,000、100,000、250,000、500,000和1,000,000倍更多拷贝(在范围的高端上)。例如，在从血浆中分离的人循环无细胞DNA样品中，可存在一定量的DNA片段，其包括例如跨越基因组的任何目标基因座的1,000–100,000个循环片段。在某些实施方案中，任何给定MIT的拷贝数不超过一组MIT中的总独特MIT数的1/10、1/4、1/2或3/4。在该组的成员之间，在任何序列和其余序列之间可以存在1、2、3、4、5、6、7、8、9或10个差异。在一些实施方案中，该组中每个MIT的序列与所有其他MIT的差异为至少1、2、3、4、5、6、7、8、9或10个核苷酸。为了减少错误识别MIT的机会，可以使用本领域技术人员将认识到的方法来设计MIT组，例如考虑该MIT组中的所有MIT之间的汉明距离(Hamming distance)。所述汉明距离测量将一个字符串或核苷酸序列改变为另一个所需的最小取代数。在此，汉明距离测量将一组中的一个MIT序列变换为来自同一组的另一个MIT序列所需的最小扩增误差数。在某些实施方案中，该MIT组中的不同MIT具有彼此之间小于1、2、3、4、5、6、7、8、9或10的汉明距离。

在某些实施方案中，如本文提供的一组分离的MIT是本公开的一个实施方案。该组分离的MIT可以是一组单链、或部分或完全双链的核酸分子，其中每个MIT是该组的核酸分子的一部分或全部。在某些实施例中，本文提供了一组Y-衔接子(即部分双链)核酸，其各自包括不同的MIT。除MIT部分外，所述Y-衔接子核酸组各自可以是相同的。该组中可以包含相同的Y衔接子MIT的多个拷贝。该组可具有如本文对一组MIT所公开的数量和多样性的核酸分子。作为非限制性实施例，该组可包括含有50至500个MIT的Y-衔接子的2、5、10或100个拷贝，每个MIT片段长度为4至8个核酸，并且每个MIT片段与其他MIT片段的差异为至少2个核苷酸，但该组含有除MIT序列以外的相同序列。本文提供了关于该组Y-衔接子的Y-衔接子部分的详细信息。

在其他实施方案中，包括一组MIT和一群样品核酸分子的反应混合物是本公开的一个实施方案。此外，这种组合物可以是本文提供的许多方法和其他组合物的一部分。例如，在进一步的实施方案中，如本文所详细讨论的，反应混合物可包括聚合酶或连接酶、合适的缓冲液、以及补充性组分。对于这些实施方案中的任何一个，该MIT组可包括25、50、100、200、250、300、400、500或1,000个MIT(在范围的低端上)至100、200、250、300、400、500、1,000、1,500、2,000、2,500、5,000、10,000或25,000个MIT(在范围的高端上)。例如，在一些实施方案中，反应混合物包括一组10至500个的MIT。

附接MIT

可以使用本领域技术人员将认识到的方法，将如本文所详细讨论的分子索引标签(MIT)附接于反应混合物中的样品核酸分子。在一些实施方案中，所述MIT可以被单独附接，或不附加任何其他寡核苷酸序列。在一些实施方案中，如本文所详细讨论的，所述MIT可以是可进一步包括其他核苷酸序列的较大的寡核苷酸的一部分。例如，寡核苷酸还可包括对核酸片段或通用引物结合位点特异的引物、衔接子(例如Y-衔接子的测序衔接子)、库标签、连接衔接子标签及其组合。技术人员将认识到如何将各种标签掺入寡核苷酸中以产生可用于测序、尤其是高通量测序的经标记的核酸分子。本公开的MIT是有利的，因为它们更容易与额外的序列(例如Y-衔接子和/或通用序列)一起使用，因为核酸分子的多样性较少，因此它们可以更容易在衔接子上与其他序列组合以产生更小的、因此更具成本效益的含MIT的衔接子组。

在一些实施方案中，所述MIT被附接使得在经标记的核酸分子中一个MIT是样品核酸片段的5'端，并且一个MIT是样品核酸片段的3'端。例如，在一些实施方案中，所述MIT可以使用连接反应直接被附接到样品核酸分子的5'和3'末端。在本公开的一些实施方案中，连接反应通常涉及形成具有合适的缓冲液、离子和合适的pH的反应混合物，其中将样品核酸分子群、MIT组、三磷酸腺苷和连接酶进行组合。技术人员将理解如何形成可用的反应混合物和各种连接酶。在一些实施方案中，核酸分子可具有3'腺苷突出端，并且MIT可位于具有5'胸苷突出端的双链寡核苷酸上，例如与5'胸苷直接相邻。

在进一步的实施方案中，本文提供的MIT可以在它们被连接到样品核酸分子之前作为Y-衔接子的一部分。Y-衔接子在本领域中是众所周知的，并且用于例如在高通量测序之前更有效地向核酸分子的两个末端提供引物结合序列。通过使第一寡核苷酸和第二寡核苷酸退火形成Y-衔接子，其中第一寡核苷酸的5'片段和第二寡核苷酸的3'片段是互补的，并且其中第一寡核苷酸的3'片段和第二寡核苷酸的5'片段不互补。在一些实施方案中，Y-衔接子包括碱基配对的双链多核苷酸片段和远离连接位点的不配对的单链多核苷酸片段。双链多核苷酸片段的长度可以是3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸(在范围的低端上)至4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29和30个核苷酸(在范围的高端上)。第一和第二寡核苷酸上的单链多核苷酸片段的长度可以是3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸(在范围的低端上)至4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29和30个核苷酸(在范围的高端上)。在这些实施方案中，MIT通常是被添加至Y-衔接子末端的双链序列，所述MIT被连接至待测序的样品核酸片段。示例性的Y-衔接子如图1中所示。在一些实施方案中，第一和第二寡核苷酸的非互补片段可以是不同的长度。

在一些实施方案中，通过连接反应附接的双链MIT会在样品核酸分子的两条链上具有相同的MIT。在某些方面，衍生自这两条链的经标记的核酸分子将被识别并用于产生配对的MIT家族。在下游测序反应中，其中通常对单链核酸进行测序，可以通过识别具有相同或互补的MIT序列的经标记的核酸分子来识别MIT家族。在这些实施方案中，如本文所讨论的，配对的MIT家族可被用于验证初始样品核酸分子中序列差异的存在。

在一些实施方案中，如图2中所示，MIT可通过掺入结合样品核酸片段中的序列的正向和/或反向PCR引物的5'端而被附接于样品核酸片段。在一些实施方案中，所述MIT可被掺入通用正向和/或反向PCR引物中，所述引物结合先前附接于样品核酸分子的通用引物结合序列。在一些实施方案中，可以使用有5'MIT序列的通用正向或反向引物与有5′MIT序列的结合样品核酸片段中的内部结合序列的正向或反向PCR引物的组合，从而附接所述MIT。在2个PCR循环后，使用具有掺入的MIT序列的正向和反向引物进行扩增的样品核酸分子，在每个经标记的核酸分子中将具有附接至样品核酸片段的5'和附接至样品核酸片段的3'的MIT。在一些实施方案中，PCR在附接步骤中进行2、3、4、5、6、7、8、9或10个循环。

在本公开的一些实施方案中，可以使用类似的技术附接每个经标记的核酸分子上的两个MIT，使得两个MIT都是样品核酸片段的5'或两个MIT都是样品核酸片段的3'。例如，两个MIT可被掺入相同的寡核苷酸中并连接在样品核酸分子的一端，或两个MIT可以存在于正向或反向引物上，并且成对的反向或正向引物可以具有零MIT。在其他实施方案中，可以附接多于两个MIT，其中MIT的任何组合附接至相对于核酸片段的5'和/或3'位置。

如本文所讨论的，其他序列可以在MIT之前、之后、期间或同时被附接至样品核酸分子。例如，附加的连接衔接子，通常称为库标签或连接衔接子标签(LT)，具有或不具有通用引物结合序列，用于随后的通用扩增步骤。在一些实施方案中，含有MIT和其他序列的寡核苷酸的长度可以是5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65、70、75、80、85、90、95和100个核苷酸(在范围的低端上)至10、11、12、13、14、15、16、17、18、29、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190和200个核苷酸(在范围的高端上)。在某些方面，MIT序列中的核苷酸的数量可以是包括MIT的寡核苷酸的总序列中核苷酸的数量的百分比。例如，在一些实施例中，MIT可以是与样品核酸分子连接的寡核苷酸的总核苷酸的至多2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％。

在通过连接反应或PCR反应将MIT附接到样品核酸分子后，可能需要清除反应混合物，以除去可能影响后续方法步骤的不需要的组分。在一些实施方案中，可以从引物或连接酶中纯化样品核酸分子。在其他实施方案中，可以使用本领域已知的方法用蛋白酶和核酸外切酶消化蛋白质和引物。

在将MIT附接至样品核酸分子后，产生一群经标记的核酸分子，其自身形成本公开的实施方案。在一些实施方案中，经标记的核酸分子的大小范围可以是10、20、30、40、50、60、70、80、90、100、125、150、175、200、250、300、400和500个核苷酸(在范围的低端上)至100、125、150、175、200、250、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000和5,000个核苷酸(在范围的高端上)。

这样的经标记的核酸分子群可包括5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、300、350、400、450、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、2,000,000、2,500,000、3,000,000、4,000,000、5,000,000、10,000,000、20,000,000、30,000,000、40,00,000、50,000,000、50,000,000、100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000和1,000,000,000个经标记的核酸分子(在范围的低端上)至10、15、20、25、30、40、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、2,000,000、2,500,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000、10,000,000、20,000,000、30,000,000、40,00,000、50,000,000、100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000、1,000,000,000、2,000,000,000、3,000,000,000、4,000,000,000、5,000,000,000、6,000,000,000、7,000,000,000、8,000,000,000、9,000,000,000和10,000,000,000个经标记的核酸分子(在范围的高端上)。在一些实施方案中，经标记的核酸分子群可包括100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000和1,000,000,000个经标记的核酸分子(在范围的低端上)至500,000,000、600,000,000、700,000,000、800,000,000、900,000,000、1,000,000,000、2,000,000,000、3,000,000,000、4,000,000,000、5,000,000,000个经标记的核酸分子(在范围的高端上)。

在某些方面，样品核酸分子群中的总样品核酸分子的百分比可被靶向以附接MIT。在一些实施方案中，样品核酸分子中的至少1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、或99.9％可被靶向以附接MIT。在其他方面，所述群中一定百分比的样品核酸分子可以成功地附接MIT。在本公开的任何实施方案中，样品核酸分子中的至少1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或99.9％可以成功附接MIT以形成经标记的核酸分子群。在本公开的任何实施方案中，样品核酸分子中的至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、75、100、200、300、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000或50,000个可以成功附接MIT以形成经标记的核酸分子群。

在本公开的一些实施方案中，MIT可以是通过磷酸二酯键连接的核糖核苷酸或脱氧核糖核苷酸的寡核苷酸序列。如本公开的核苷酸可以指核糖核苷酸和脱氧核糖核苷酸，并且技术人员将认识到两种中任一形式与特定的应用相关。在某些实施方案中，核苷酸可选自由腺苷、胞苷、鸟苷、尿苷、5-甲基尿苷、脱氧腺苷、脱氧胞苷、脱氧鸟苷、脱氧胸苷和脱氧尿苷组成的天然存在的核苷酸。在一些实施方案中，所述MIT可以是非天然核苷酸。非天然核苷酸可包括：相互结合的核苷酸组，例如d5SICS和dNaM；金属配位碱，例如2,6-双(乙硫基甲基)吡啶(SPy)与银离子和单齿吡啶(Py)与铜离子；可与多于一种或任何其它碱基(例如2'-脱氧肌苷衍生物、硝基唑类似物和疏水性芳香非氢键碱基)配对的通用碱基；以及具有扩展碱基的xDNA核碱基。在某些实施方案中，寡核苷酸序列可以预先确定，而在其他实施方案中，寡核苷酸序列可以是简并的。

在一些实施方案中，MIT包括附接至核碱基的天然糖核糖和/或脱氧核糖之间的磷酸二酯键。在一些实施方案中，可以使用非天然连接。这些连接包括例如硫代磷酸酯、硼烷磷酸酯、膦酸酯和三唑键。在一些实施方案中，可以使用非天然连接和/或磷酸二酯键的组合。在一些实施方案中，可以使用肽核酸，其中糖骨架由通过肽键连接的重复的N-(2-氨基乙基)-甘氨酸单元构成。在本公开的任何实施方案中，可以使用非天然糖代替核糖或脱氧核糖。例如，苏糖可用于产生α-(L)-呋喃核糖基-(3′-2′)核酸(TNA)。其他连接类型和糖对于技术人员是显而易见的，并且可以用于本公开的任何实施方案中。

在一些实施方案中，可以使用在糖的原子之间具有额外的键的核苷酸。例如，桥接或锁核酸可用于MIT中。这些核酸包括核糖的2'-位和4'-位之间的键。

在某些实施方案中，掺入MIT的序列的核苷酸可被附加有反应性接头。稍后，可以在适当的条件下将反应性接头与适当的经标记的分子混合以使反应发生。例如，可附加氨基烯丙基核苷酸，其可与连接至反应性离去基团(例如琥珀酰亚胺酯)的分子反应，并且可附加含硫醇的核苷酸，其可与连接至反应性离去基团(例如马来酰亚胺)的分子反应。在其他实施方案中，生物素连接的核苷酸可用于可以结合链霉亲和素标记的分子的MIT的序列中。

天然核苷酸、非天然核苷酸、磷酸二酯键、非天然连接、天然糖、非天然糖、肽核酸、桥接核酸、锁核酸和具有附加反应性接头的核苷酸的各种组合将由本领域技术人员所认可并可用于在本公开的任何实施方案中来形成MIT。

扩增经标记的核酸分子

在一些实施方案中，本公开的方法包括：在确定经标记的核酸分子的序列之前，扩增经标记的核酸分子。通常，如本领域已知的，多轮扩增发生在用于高通量测序的样品制备期间。这些扩增步骤通常都在MIT被附接于核酸分子后发生，尽管在一些实施方案中，样品核酸分子的扩增可发生在MIT附接之前。在某些实施方案中，在MIT被附接于样品核酸分子的样品核酸片段后，进行至少1、2、3、4、5或6个扩增反应。例如，在高通量测序中，扩增反应可包括扩增样品中的初始核酸以产生待测序的库、克隆扩增库(通常至固体支持物上)、以及额外的扩增反应以添加其他信息或功能(例如识别样品的条形码)。如下所述，可以在扩增过程期间和靶标富集之前和/或之后的任何时间添加条形码。经标记的样品核酸分子可在一端或两端具有一个或多于一个条形码。每个扩增反应通常包括多个扩增的循环(例如循环的数量的范围为2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个循环(在范围的低端上)至5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、75或100个循环(在范围的高端上))，或通过温度循环，或在等温扩增期间发生的自然生化反应循环。在一些实施例中，本文提供的任何实施方案的方法可包括扩增步骤，其中进行扩增的至少10、15、20、25或30个循环(例如PCR扩增中的热循环)。

在一些实施方案中，在附接MIT后，可以使用结合先前附接的通用扩增引物结合序列的通用引物来扩增经标记的核酸分子以产生样品核酸分子库。核酸分子库中的特异性靶核酸可以例如通过多重PCR(尤其是单侧PCR)、或通过杂交捕获而被富集。富集步骤之后可以进行另一种通用扩增反应。无论是否存在靶向扩增步骤，任选的条形码扩增反应可用于对由来自单独样品或子池的样品核酸分子产生的经标记的核酸分子进行条形码编码，使得来自多个反应混合物或子池的产物可被汇集。众所周知，这种条形码使得可以识别产生经标记的核酸分子的样品。这可用于识别多个起始样品，并且如果样品核酸分子在标记后分离以增加标签组合的总数，则它可能是有用的。这种条形码与本公开的MIT不同，原因是它们不识别个体样品核酸分子，而是识别样品混合物中核酸分子产生的样品。经标记的核酸分子或经扩增的经标记的核酸分子通常被模板化到一个或多个固体支持物上并且克隆扩增，或克隆扩增可以发生在模板扩增反应期间。值得注意的是，扩增错误可以在该过程中的任何扩增步骤中被引入。使用本公开的方法，可以识别错误发生在哪个扩增步骤，或者错误是否发生在随后的测序反应期间。例如，如果将样品分成多个PCR，并且每个PCR添加新的不同的MIT，则可以确定错误是否发生在特定PCR步骤中。

在一些实施方案中，样品核酸分子在附接MIT之前未改变；在附接MIT后，使用通用引物扩增经标记的核酸分子以产生经标记的核酸分子的库或群；经扩增的经标记核酸分子库通过多重PCR(例如单侧多重PCR)进行靶标富集；经富集的经标记的核酸分子进行任选的条形码扩增步骤；克隆扩增至一个或多个固体支持物上；确定经标记的核酸分子的序列；以及使用所确定的附接的MIT的序列识别样品核酸分子。

在本公开的任何实施方案中，这些扩增步骤可以使用本领域熟知的方法进行，例如热循环的PCR扩增或等温扩增(例如重组酶聚合酶扩增)。在本公开的任何扩增步骤中，技术人员将理解如何适应用于等温扩增的方法。

在一些实施方案中，经标记的核酸分子可用于产生用于测序、尤其是高通量测序的库。通常，使用结合通用引物结合序列的通用引物扩增经标记的核酸分子，如本文其他地方所述，所述通用引物结合序列已被掺入经标记的核酸分子中。在一些实施方案中，通用扩增可以进行多个循环，例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20个循环(在范围的低端上)至2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49和50个循环(在范围的高端上)。在一些实施方案中，可以进行扩增，使得每个经标记的核酸分子被拷贝以产生2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、2,000,000、2,500,000、3,000,000、4,000,000、5,000,000、10,000,000、20,000,000、30,000,000、40,00,000和50,000,000个拷贝(在低端上)至5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、2,000,000、2,500,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000、10,000,000、20,000,000、30,000,000、40,00,000、50,000,000、100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000和1,000,000,000个拷贝(在高端上)。

靶标富集

在某些实施方案中，本公开的方法可包括在确定样品核酸分子的序列的步骤之前的靶富集步骤。在一些实施方案中，使用多重PCR反应，尤其是单侧PCR反应进行靶富集。在这些实施方案中，使用通用引物和结合靶样品核酸片段的内部序列的多个靶特异性引物，使得它们从经标记的核酸分子产生具有通用引物结合序列和靶特异性结合序列的扩增子，但是没有从经标记的核酸分子中产生缺少这些序列中的任一个或两个的扩增子。在一些实施方案中，通用引物可以结合至DNA的一条链的5'通用引物结合位点，以及靶特异性引物可结合至位于互补DNA的另一条链上的通用引物结合位点的3'的核酸片段内的DNA链的互补序列。结合方向可以颠倒，通用引物可以结合至一条链的3'通用引物结合位点，以及靶标特异性引物可结合至位于互补DNA的另一条链上的通用引物结合位点的5'的核酸片段内的DNA链的互补序列。

在本公开的一些实施方案中，优选地，富集DNA包括：获得靶向所需的序列的多个杂交捕获探针，将杂交捕获探针与样品中的DNA杂交，并物理除去来自DNA的样品的未杂交的DNA的一部分或全部。因此，与经标记的靶核酸分子互补的序列结合至固体支持物，以及在这样的条件下添加经标记的核酸分子，使得被靶定的经标记的核酸分子退火至互补序列而非被靶定的经标记的核酸分子不退火至互补序列。在除去非被靶定的经标记的核酸分子后，可以调节反应条件，使得经标记的靶核酸分子从固体支持物上脱离并且可以分离。在一些实施方案中，扩增步骤可以在使用通用扩增引物进行杂交捕获后进行。

杂交捕获探针是指可能被修饰的通过各种方法(例如PCR或直接合成)产生的任何核酸序列，并且旨在与样品中特定的靶DNA序列的一条链互补。可以将外源杂交捕获探针添加至所制备的样品中并通过变性–再退火过程进行杂交以形成外源–内源片段的双链体。然后可以通过各种方法将这些双链体与样品进行物理分离。最初开发杂交捕获探针以靶向和富集靶之间具有相对均匀性的基因组的大部分。在该应用中，重要的是以足够的均匀性扩增所有靶标，使得能够通过测序检测所有目标基因座；但是，没有考虑保留原始样品中等位基因的比例。捕获后，可以通过被捕获的分子的直接测序来确定样品中存在的等位基因。可以根据等位基因类型分析和计数这些测序读数。

如本文所讨论的，在一些实施方案中，本公开的方法包括单侧多重PCR方法。在这些方法中，可以使用在一个末端或多个末端具有一个衔接子或多个衔接子的经标记的核酸分子。单侧PCR可以分两步进行。例如，可以使用具有对每个靶向经标记的核酸分子特异的多个正向引物以及结合存在于所有经标记的核酸分子上的连接接头上的通用引物结合位点的反向引物，对被靶定的经标记的核酸分子进行第一次单侧PCR。然后可以使用对每个被靶定的经标记的核酸分子特异的多个正向引物以及结合存在于所有经标记的核酸分子上的连接接头上的通用引物结合位点的反向引物，对第一次单侧PCR的产物进行第二次单侧PCR。

在一些实施方案中，经标记的核酸分子在一个或两个反应中通过克隆扩增模板化至一个或多个固体支持物上。用于模板化和/或进行克隆扩增的方法在本领域众所周知，并且其取决于用于分析的测序方法。技术人员将认识到用于进行克隆扩增的方法。

扩增反应混合物

在一些实施方案中，扩增核酸分子可包括形成扩增反应混合物。可用于本公开的扩增反应混合物可包括本领域熟知的组分，尤其是用于PCR扩增的组分。例如，反应混合物通常包括核苷酸来源(例如核苷酸三磷酸)、聚合酶、镁和引物、以及任选的一种或多种经标记的核酸分子。在某些实施方案中，反应混合物通过将聚合酶、核苷酸三磷酸、经标记的核酸分子和一组正向和/或反向引物进行组合而形成。因此，在某些实施方案中，本文提供了一种反应混合物，其包括经标记的核酸分子群和引物池，其中引物中的至少一些结合经标记的核酸分子群内的经标记的核酸分子。除了MIT序列之外，经标记的核酸分子可包括例如用于测序反应和/或通用扩增反应的结合引物的衔接子序列。在一些实施方案中，可以设计用于扩增经标记的核酸序列的正向和反向引物，以结合至已被附接于经标记的核酸分子的通用引物结合序列，从而扩增所有经标记的核酸序列。在一些实施方案中，可以设计正向和反向引物，使得例如在单侧PCR中一个结合至通用引物结合序列而另一个结合至样品核酸片段内的靶特异性序列。在其他实施方案中，正向和反向引物都可以设计成例如在两侧PCR中结合至样品核酸片段的序列内的靶特异性序列。

在本公开的任何实施方案中，反应混合物可包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、300、350、400、450、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、2,000,000、2,500,000、3,000,000、4,000,000、5,000,000、10,000,000、20,000,000、30,000,000、40,00,000、50,000,000、100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000和1,000,000,000个经标记的核酸分子(在范围的低端上)至3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、2,000,000、2,500,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000、10,000,000、20,000,000、30,000,000、40,00,000、50,000,000、100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000、1,000,000,000、2,000,000,000、3,000,000,000、4,000,000,000、5,000,000,000、6,000,000,000、7,000,000,000、8,000,000,000、9,000,000,000和10,000,000,000个经标记的核酸分子(在范围的高端上)。在一些实施方案中，反应混合物可包括经标记的核酸分子的每个的1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000和10,000个拷贝(在范围的低端上)至经标记的核酸分子的每个的20、25、30、35、40、45、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000和100,000个拷贝(在范围的高端上)。

在本公开的任何实施方案中，经标记的核酸分子中的至少10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或99.9％可被成功扩增，其中成功扩增被定义为具有效率至少为80％、85％、90％、95％、96％、97％、98％、99％、99.9％或100％的PCR。

在进一步的实施方案中，反应混合物可包括每个长度为50至500个核苷酸的100至1,000,000个经标记的核酸分子的群，具有10至100,000个不同的样品核酸片段，以及每个长度为4到20个核苷酸的10至500个MIT的一组MIT，其中样品核酸片段的数量与该群体中MIT的数量的比率在2:1和100:1之间。在某些实施方案中，该组MIT中的每个成员被附接至该群的至少一个经标记的核酸分子。在某些实施方案中，该群的至少两个经标记的核酸分子包括至少一个相同的MIT和差异大于50％的样品核酸片段。在一些实施方案中，反应混合物可包括聚合酶或连接酶。

在一些实施方案中，反应混合物可包括一组、一库、多个或一池引物，其包括25、50、100、200、250、300、400、500、1,000、2,500、5,000、10,000、20,000、25,000或50,000个引物或引物对(在范围的低端上)至200、250、300、400、500、1,000、2,500、5,000、10,000、20,000、25,000、50,000、60,000、70,000、80,000、90,000、100,000、125,000、150,000、200,000、250,000、300,000、400,000或500,000个引物或引物对(在范围的高端上)，其各自结合至位于多个经标记的核酸分子中的一个或多个内的引物结合序列。

在一些实施方案中，形成可用于测序的核酸分子库。在一些实施例中，所述库可包括每个经标记的核酸分子的10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900和1,000个拷贝(在范围的低端上)至每个经标记的核酸分子的20、25、30、35、40、45、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900和1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000个拷贝(在范围的高端上)。

在一些实施方案中，所述核酸分子库可包括至少6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900和1,000个经标记的核酸分子，其在核酸片段的5'末端具有相同的附接的第一个MIT以及在核酸片段的3'末端具有相同的附接的第二个MIT以及具有至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸差异的样品核酸片段。

在一些实施方案中，所述核酸分子库可包括在固体支持物或多个固体支持物上的每个经标记的核酸分子的多个克隆群。

在一些实施方案中，本文的扩增反应混合物中包括具有校对活性的聚合酶、没有(或具有可忽略的)校对活性的聚合酶、或具有校对活性的聚合酶和没有(或具有可忽略的)校对活性的聚合酶的混合物。在一些实施方案中，使用热启动聚合酶、非热启动聚合酶、或热启动聚合酶和非热启动聚合酶的混合物。在一些实施方案中，使用HotStarTaq DNA聚合酶(参见，例如，Qiagen,Hilden,Germany)。在一些实施方案中，使用AmpliTaq DNA聚合酶(Thermo Fisher,Carlsbad,CA)。在一些实施方案中，使用PrimeSTAR GXL DNA聚合酶，这是一种当反应混合物中存在过量模板时以及当扩增长产物时，提供有效的PCR扩增的高保真聚合酶(Takara Clontech,Mountain View,CA)。在一些实施方案中，使用KAPA TaqDNA聚合酶或KAPA Taq HotStart DNA聚合酶；它们是基于嗜热细菌Thermus aquaticus的单亚基、野生型Taq DNA聚合酶，并且具有5'-3'聚合酶和5'-3'核酸外切酶活性，但没有3'至5'核酸外切酶(校对)活性(Kapa Biosystems,Wilmington,MA)。在一些实施方案中，使用Pfu DNA聚合酶；它是来自极端嗜热古生菌Pyrococcus furiosus的高度热稳定的DNA聚合酶。Pfu以5'→3'方向催化核苷酸的模板依赖性聚合成双链DNA，并且它还表现出使聚合酶能够纠正核苷酸掺入错误的3'→5'外切核酸酶(校对)活性。它没有5'→3'核酸外切酶活性(Thermo Fisher Scientific,Waltham,MA)。在一些实施方案中，使用Klentaq1；它是没有核酸外切酶或核酸内切酶活性的Taq DNA聚合酶的Klenow片段类似物(DNA PolymeraseTechnology,St.Louis,MO)。在一些实施方案中，所述聚合酶是Phusion DNA聚合酶，例如Phusion High-Fidelity DNA聚合酶，或Phusion Hot Start Flex DNA聚合酶(NewEngland BioLabs,Ipswich,MA)。在一些实施方案中，所述聚合酶是/>DNA聚合酶，例如High-Fidelity DNA聚合酶或/>Hot Start High-Fidelity DNA聚合酶(NewEngland BioLabs)。在一些实施方案中，聚合酶是T4DNA聚合酶(New England BioLabs)。

在一些实施方案中，使用5至600个单位/mL(每1mL反应体积的单位)的聚合酶，例如5至100、100至200、200至300、300至400、400至500或500至600个单位/mL(包括端值)。

PCR方法

在一些实施方案中，热启动PCR用于在PCR热循环之前减少或防止聚合。示例性的热启动PCR方法包括DNA聚合酶的初始抑制或反应组分反应的物理分离，直到反应混合物达到较高温度。在一些实施方案中，使用镁的缓慢释放。DNA聚合酶需要镁离子的活性，因此镁通过与化合物结合而与反应化学分离，并且镁仅在高温下释放到溶液中。在一些实施方案中，使用抑制剂的非共价结合。在该方法中，肽、抗体或适体可以在低温下非共价结合至酶以抑制其活性。在升高的温度下培养后，释放抑制剂并开始反应。在一些实施方案中，使用冷敏性Taq聚合酶，例如在低温下几乎没有活性的经修饰的DNA聚合酶。在一些实施方案中，使用化学修饰。在该方法中，分子共价结合至DNA聚合酶的活性位点中的氨基酸侧链。通过在升高的温度下培养反应混合物，从酶中释放分子。一旦分子被释放，酶就被激活。

在一些实施方案中，模板核酸(例如RNA或DNA样品)的量为20至5,000ng，例如20至200；200至400；400至600；600至1,000；1,000至1,500；或2,000至3,000ng，包括端值。

用于进行PCR的方法在本领域中是众所周知的。这些方法通常包括变性步骤、退火步骤和延伸步骤(其可以与退火步骤相同或不同)的循环。

一组示例性条件包括半巢式PCR方法。第一次PCR反应使用20μl反应体积、2xQiagen MM终浓度、1.875nM的库中每种引物(外部正向和反向引物)、以及DNA模板。热循环参数包括95℃下10分钟；96℃下30秒、65℃下1分钟、58℃下6分钟、60℃下8分钟、65℃下4分钟、以及72℃下30秒的25个循环；然后在72℃下2分钟，然后保持4℃。接下来，将1:200稀释的2μl所得产物用作第二次PCR反应的输入。该反应使用10μl反应体积、1x Qiagen MM终浓度、20nM每种内部正向引物和1μM反向引物标签。热循环参数包括95℃下10分钟；95℃下30秒、65℃下1分钟、60℃下5分钟、65℃下5分钟、以及72℃下30秒的15个循环；然后在72℃下2分钟，然后保持4℃。如本文所讨论的，退火温度可任选地高于引物中的一些或所有的解链温度(参见2015年10月20日提交的美国专利申请号14/918,544，其通过引用整体并入本文)。

解链温度(T_m)是寡核苷酸(例如引物)的DNA双链体的一半(50％)和其完全互补物解离并变成单链DNA的温度。退火温度(T_A)是PCR策略运行的温度。对于现有方法，它通常比所用引物的最低T_m低5℃，因此形成接近所有可能的双链体(使得基本上所有引物分子都结合模板核酸)。虽然这是高效的，但在较低温度下更可能发生非特异性反应。具有太低T_A的一个结果是引物可能退火到除真实靶标之外的序列，因为可以容忍内部单碱基错配或部分退火。在本公开的一些实施方案中，T_A高于(T_m)，其中在给定时刻仅一小部分靶标具有引物退火(例如仅～1-5％)。如果这些得到延伸，则将它们从退火和解离引物和靶标的平衡中除去(随着延伸将T_m快速增加至70℃以上)，并且新的～1-5％的靶标具有引物。因此，通过使反应长时间退火，可以获得每循环拷贝的靶标的约100％。

在各种实施方案中，退火温度的范围为比非相同引物中的至少25、50、60、70、75、80、90、95或100％的解链温度(例如经验测量或计算的T_m)大1℃、2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃、10℃、11℃、12℃和13℃(在范围的低端上)至2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃、10℃、11℃、12℃、13℃和15℃(在范围的高端上)。在各种实施方案中，退火温度比非相同引物中的至少25、50、75、100、300、500、750、1000、2000、5000、7500、10,000、15000、19000、20,000、25000、27000、28000、30,000、40,000、50000、75000、100,000或全部的解链温度(例如经验测量或计算的T_m)大1℃至15℃之间(例如在1℃至10℃、1℃至5℃、1℃至3℃、3℃至5℃、5℃至10℃、5℃至8℃、8℃至10℃、10℃至12℃或12℃至15℃之间，包括端值)。在各种实施方案中，退火温度比非相同引物中的至少25％、50％、60％、70％、75％、80％、90％、95％或全部的解链温度(例如经验测量或计算的T_m)大1至15℃之间(例如1℃至10℃、1℃至5℃、1℃至3℃、3℃至5℃、3℃至8℃、5℃至10℃、5℃至8℃、8℃至10℃、10℃至12℃或12℃至15℃之间，包含端值)，并且退火步骤(每个PCR循环)的长度在5和180分钟之间，例如15和120分钟之间、15和60分钟之间、15和45分钟之间、或20和60分钟，包括端值。

除了PCR期间的热循环外，等温扩增已被认为是扩增核酸分子的手段。在本公开的任何PCR方法中，技术人员将理解如何适应使用该技术的方法。例如，在一些实施方案中，反应混合物可包括经标记的核酸分子、引物池、核苷酸三磷酸、镁和等温聚合酶。有几种等温聚合酶可用于进行等温扩增。这些等温聚合酶包括：Bst DNA聚合酶，全长；Bst DNA聚合酶，大片段；Bst 2.0DNA聚合酶；Bst 2.0WarmStart DNA聚合酶；以及Bst 3.0DNA聚合酶(均可从New England Biolabs获得)。使用的聚合酶可取决于等温扩增的方法。有几种类型的可用的等温扩增可用，其包括重组酶聚合酶扩增(RPA)、环介导的等温扩增(LAMP)、链置换扩增(SDA)、解旋酶依赖性扩增(HDA)、切口酶扩增反应(NEAR)、以及模板行走(templatewalking)。确定经标记的核酸分子的序列

在一些实施方案中，经标记的核酸分子的序列直接通过本领域已知的方法、尤其是高通量测序来确定。更典型地，在用于高通量测序的样品制备期间发生的一轮或多轮扩增后，测定经标记的核酸分子的序列。此类扩增通常包括库制备、克隆扩增、以及向样品核酸分子添加额外的序列或功能(例如样品条形码)的扩增。在高通量测序样品制备期间，经标记的核酸分子通常被克隆扩增到一个或多个固体支持物上。然后对这些单克隆或基本上单克隆的菌落进行测序反应。此外，下一代测序样品制备可包括通常在库制备之后和克隆扩增之前的靶向扩增反应。这种靶向扩增可以是多重扩增反应。

在本公开的任何实施方案中，所述方法和组合物可用于识别样品核酸分子中的扩增错误与真实序列变体。本公开可以进一步识别扩增错误的可能来源并且可以进一步识别初始样品核酸分子的最可能的真实序列。

在本文提供的方法的一些实施方案中，确定经标记的核酸分子的至少一部分序列，并且在一些实施方案中，确定至少一种经标记的核酸分子的完整序列。确定核酸分子的序列的方法是本领域已知的。本领域已知的任何测序方法，例如Sanger测序、焦磷酸测序、可逆染料终止子测序、通过连接测序、或通过杂交测序，可用于此类序列测定。在一些实施方案中，可以使用高通量下一代(大规模平行)测序技术，例如但不限于那些在Solexa(Illumina)、Genome Analyzer IIx(Illumina)、MiSeq(Illumina)、HiSeq(Illumina)、454(Roche)、SOLiD(Life Technologies)、Ion Torrent(Life Technologies,Carlsbad,CA)、GS FLX+(Roche)、真实单分子测序平台(Helicos)、电子显微镜测序方法(HalcyonMolecular)中使用的技术，或可以使用任何其他测序方法来对通过本文提供的方法产生的经标记的核酸分子进行测序。在一些实施方案中，可以使用任何高通量、大规模平行测序方法，并且技术人员将理解如何调整所公开的方法以实现适当的MIT附接。因此，例如，可以使用通过合成的测序或通过连接的测序、高通量反应。此外，测序仪可以检测在测序反应期间产生的信号，其可以是荧光信号或离子，例如氢离子。所有这些方法将存储在DNA样品中的遗传数据物理地转化为一组通常存储在存储装置中以便进行处理的遗传数据。

识别样品核酸分子

确定经标记的核酸分子的序列的步骤，包括确定样品核酸分子中的至少一部分、样品核酸片段、或目标基因座的序列以及保持附接于样品核酸片段的标签的序列，包括MIT的序列。在一些实施方案中，可以通过比较附接于经标记的核酸分子的MIT序列来识别衍生自相同的初始标记的核酸分子的经标记的核酸分子的拷贝。衍生自相同的初始标记的核酸分子的拷贝会具有相对于样品核酸片段在相同位置附接的相同MIT。在一些实施方案中，片段特异性插入末端被映射到生物体的基因组中的特定位置，并且如本文所讨论地这些映射的位置或片段特异性插入末端自身的序列本身与MIT的序列结合使用以识别衍生拷贝的初始经标记的核酸分子。在一些实施方案中，识别并配对了包含互补MIT和互补核酸片段序列的经标记的核酸分子，即来自相同核酸分子并代表样品核酸分子的正链和负链的经标记的核酸分子。在一些实施方案中，配对的MIT家族用于验证原始序列中的差异。序列的任何变化应存在于来自样品核酸分子的经标记的核酸分子的所有拷贝中。该信息提供了额外的置信度，即来自样品的正链和负链的经标记的核酸分子的序列代表样品核酸分子的序列中的差异，而不是在样品制备期间引入的变化或者在测序期间的碱基调用中的错误。

在一些实施方案中，产生两种主要类型的经标记的核酸分子，这将为进一步分析提供信息：在相同位置具有相同的附接的MIT并且具有基本相同的样品核酸片段序列的经标记的核酸分子、以及具有不同的附接的MIT并且具有基本相同的样品核酸片段序列的经标记的核酸分子。如本文详细讨论的，在相同位置具有相同的附接的MIT并且具有基本相同的样品核酸片段序列的经标记的核酸分子可用于识别扩增错误，而在附接的MIT之间具有至少一个差异并且具有基本相同的样品核酸片段序列的经标记的核酸分子可用于识别真实序列变体。

在附接MIT后，可以通过比较在相同的相对位置具有相同的MIT并且具有基本相同的样品核酸序列的经标记的核酸分子的序列来识别扩增错误。当初始样品核酸分子的两条链用相同的一个MIT或多个MIT标记时，可以识别具有互补MIT和核酸片段序列的成对MIT核酸片段家族。这些配对的MIT核酸片段家族可用于增强序列变体存在于样品核酸分子的两条链上的置信度。如果来自样品核酸分子的经标记的核酸分子在其序列中显示差异，则在样品核酸分子中存在错配或在扩增或碱基调用期间引入错误。来自具有序列差异的配对的MIT核酸片段家族的序列通常在进行进一步分析之前被丢弃。但是，具有序列差异的这些配对的MIT核酸片段家族可用于识别样品核酸分子中的错配。

将一个或多个变化引入核酸片段的序列的扩增错误，将不存在于来自初始标记的核酸分子的所有拷贝中。如果在第一轮扩增期间引入错误，则至多25％来自初始标记的核酸分子的两条链的拷贝将在核酸片段的序列中具有错误。如果扩增以完美的效率进行，则具有特定错误的拷贝的百分比将在每轮扩增期间减半，即，如果在第二轮扩增期间引入错误，则12.5％来自初始标记的核酸分子的拷贝将具有错误，而如果在第三轮扩增期间引入错误，则6.25％来自初始标记的核酸分子的拷贝将具有错误。利用这些知识，可以识别或估计何时引入扩增误差；包括(在MIT附接后发生多次扩增的实施方案中)在哪个步骤引入了该扩增误差。在本公开的任何实施方案中，当扩增错误存在于样品核酸片段内时，本文详述的方法可用于确定初始样品核酸分子的最可能序列。例如，最可能的序列可以从初始经标记的核酸分子的拷贝池中被确定为最常见的序列。在一些实施方案中，在确定最可能的序列时可以使用先验概率，例如，正常或患病细胞中特定染色体位点的已知突变率或特定单核苷酸多态性的群体频率。

在具有不同的MIT和基本上相同的核酸片段序列的多于一种经标记的核酸分子中具有相同扩增错误的概率非常低，使得在具有基本相同的序列和在相同的相对位置具有相同MIT的经标记的核酸分子上的相同的序列变体被认为是来源于相同的分子而不是独立产生的。

可以识别样品核酸片段中存在的真实序列变异，原因是来自一个初始经标记的核酸分子的所有拷贝在变体位置具有相同的序列，并且具有基本相同的核酸片段序列和MIT中的差异的经标记的核酸分子的至少一池拷贝会在相同的变体位置具有不同的序列，其中MIT中的差异可以是来自MIT组的至少一个不同的附接MIT或相同MIT的不同相对位置。

在本公开的任何实施方案中，如果源自具有序列变化的相同的初始标记的核酸分子的拷贝的百分比低于50％、45％、40％、35％、30％、25％、20％、15％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％，则序列差异可被称为扩增错误。在某些实施方案中，如果附接的MIT是相同的且位于相同的相对位置并且如果样品核酸片段序列基本相同，则可以说拷贝来自相同的初始标记的核酸分子。在本公开的任何实施方案中，如果序列在具有基本相同的样品核酸片段的至少两个经标记的核酸分子中不同，并且衍生自具有基本相同的样品核酸片段的至少两个经标记的核酸分子中的每一个的拷贝池在每个池内至少70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.9％或100％相同，并且通过具有至少一个不同的MIT和/或在相对于样品核酸片段的不同位置的MIT来识别每个池，则序列改变可以被称为初始标记的核酸分子中的真实序列变体。

在一些实施方案中，经标记的核酸分子的序列可用于识别样品核酸分子的1％、2％、3％、4％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或99.9％(在低端范围上)至样品核酸分子的2％、3％、4％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.9％或100％(在高端范围上)。

在一些实施方案中，对于每种样品核酸分子，所述方法可用于识别1、2、3、4、5、6、7、8、9、10、15、20、25、50、75、100、250、500、1,000、2,000、3,000、4,000、5,000、10,000、15,000、20,000、25,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000和100,000个扩增错误(在范围的低端上)至56、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、250、500、1,000、2,000、3,000、4,000、5,000、10,000、15,000、20,000、25,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000和1,000,000个扩增错误(在范围的高端上)。在一些实施方案中，对于每个样品核酸分子，所述方法可用于识别1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、250、500、1,000、2,000、3,000、4,000、5,000、10,000、15,000、20,000、25,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000和100,000个样品核酸分子中的真实序列变体(在范围的低端上)至2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、75、100、250、500、1,000、2,000、3,000、4,000、5,000、10,000、15,000、20,000、25,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000和1,000,000个样品核酸分子中的真实序列变体(在范围的高端上)。

本公开的实施方案的其他用途对于将理解如何调整所述方法的技术人员将是显而易见的。例如，所述方法可用于测量扩增偏差，尤其是在扩增错误的引入后特定核酸分子的扩增偏差中的变化。所述方法还可用于表征聚合酶的突变率。通过分离样品并用条形码编码反应混合物，可以同时表征不同聚合酶的突变率。

MIT的试剂盒

可以将本公开的各种实施方案中使用的任何组分组装成试剂盒。试剂盒可包括容纳本公开的任何MIT组的容器。所述MIT的长度可以是2、3、4、5、6、7、8、9、10、11、12、13、14和15个核苷酸(在范围的低端上)至5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25和30个核苷酸(在范围的高端上)。所述MIT可以是双链核酸衔接子。这些衔接子可进一步包含具有碱基配对的双链多核苷酸片段和至少一个非碱基配对的单链多核苷酸片段的Y-衔接子核酸分子的一部分。除了所述MIT的序列之外，这些Y-衔接子可以包含相同的序列。Y-衔接子的双链多核苷酸片段的长度可以是1、2、3、4、5、6、7、8、9、10、15、20和25个核苷酸(在范围的低端上)至5、10、15、20、25、30、35、40、45、50、60、70、80、90和100个核苷酸(在范围的高端上)。Y-衔接子的单链多核苷酸片段的长度可以是1、2、3、4、5、6、7、8、9、10、15、20和25个核苷酸(在范围的低端上)至5、10、15、20、25、30、35、40、45、50、60、70、80、90和100个核苷酸(在范围的高端上)。

在本公开的任何实施方案中，所述MIT可以是包括通用引物结合序列的多核苷酸片段的一部分。在一些实施方案中，所述MIT可位于通用引物结合序列的5'端。在一些实施方案中，所述MIT可位于通用引物结合序列内，使得当多核苷酸片段结合至DNA时，所述MIT的序列将形成非碱基配对的环。在本公开的任何实施方案中，所述试剂盒可包括一组样品特异性引物，该组样品特异性引物被设计来结合至样品核酸分子、核酸片段或目标基因座的内部序列。在一些实施方案中，所述MIT可以是进一步包含样品特异性引物序列的多核苷酸的一部分。在这些实施方案中，所述MIT可以位于样品特异性引物序列的5'端，或者所述MIT可以位于样品特异性引物序列内，使得当多核苷酸片段结合至DNA时，所述MIT的序列将形成非碱基配对的循环。在一些实施方案中，该组样品特异性引物可包括每个目标基因座的正向和反向引物。在一些实施方案中，该组样品特异性引物可以是正向或反向引物，并且一组通用引物可以分别用作反向或正向引物。

在本公开的任何实施方案中，所述试剂盒可包括在一个或多个固定化底物上的单链寡核苷酸。在一些实施方案中，所述在一个或多个固定化底物上的单链寡核苷酸可用于通过进行杂交捕获和除去未结合的核酸分子来富集特定序列的样品。在本公开的任何实施方案中，所述试剂盒可包括容纳细胞裂解缓冲液的容器、用于进行细胞裂解的管、和/或用于从样品中纯化DNA的管。在一些实施方案中，所述细胞裂解缓冲液、管和/或管可被设计用于特定类型的细胞或样品，例如在血液样品中发现的循环无细胞DNA，包括循环无细胞的胎儿DNA和循环无细胞的肿瘤DNA。

本公开的任何所述试剂盒可包括扩增反应混合物，所述扩增反应混合物包含任以下何物质：反应缓冲液、dNTP和聚合酶。在一些实施方案中，所述试剂盒可包括连接缓冲液和连接酶。在本公开的任何实施方案中，所述试剂盒还可包括用于将经标记的核酸分子克隆扩增至一种或多种固体支持物上的手段。本领域技术人员将理解在试剂盒中包括哪些组分以使这些试剂盒能够用于本文的各种方法。

确定一个或多个感兴趣的染色体或染色体片段的拷贝数

在一些实施方案中，本文提供的用于使用MIT识别个体样品核酸分子的方法可以用作确定样品中一个或多个感兴趣的染色体或染色体片段的拷贝数的方法的一部分。如实施例3中提供的数学证明所示，通过使用用于识别个体样品核酸分子的包括MIT的方法作为用于确定样品中一个或多个感兴趣的染色体或染色体片段的拷贝数的方法的一部分，可以显著节省成本和样品。例如，如实施例1中所证明的基于使用MIT识别的个体样品核酸分子所获得的降低的噪声和改进的准确度，可以使用少至100μl的血浆以获得具有可接受的置信度的结果。此外，只需1,780,000个测序读数就可以获得具有可接受的置信度的结果。因此，可以克服当前方法中的两个重要限制：样品体积和成本。

本公开除了用于其他领域外，还可用于如本文所公开的确定样品中一种或多种感兴趣的染色体或染色体片段的拷贝数。用于确定可以适用于本公开的方法的感兴趣的染色体或染色体片段的数目的方法，包括例如在2012年3月29日提交的已公布的美国专利申请13/499,086；2015年4月21日提交的美国专利申请14/692,703；2015年10月7日提交的美国专利申请14/877,925；2015年10月20日提交的美国专利申请14/918,544；“Noninvasiveprenatal detection and selective analysis of cell-free DNA obtained frommaternal blood:evaluation for trisomy 21and trisomy 18”(Sparks etal.April2012.American Journal of Obstetrics and Gynecology.206(4):319.e1-9)；以及“Detection of Clonal and Subclonal Copy-Number Variants in Cell-Free DNAfrom Patients with Breast Cancer Using a Massively Multiplexed PCRMethodology”(Kirkizlar et al.October 2015.Translation Oncology.8(5):407-416)中公开的那些方法，其中各自通过引用整体并入本文。

使用MIT，可能需要较小的样品体积的血液或其一部分以获得具有可接受的置信度的结果。在一些实施方案中，血液样品可以是用于非侵入性产前测试的母体血液样品。这可以减少对患者的任何影响并且可以降低样品制备的成本。在本公开的任何实施方案中，样品的体积可以是0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1、0.125、0.15、0.175、0.2、0.25、0.3、0.35、0.4、0.45和0.5ml(在范围的低端上)至0.05、0.06、0.07、0.08、0.09、0.1、0.125、0.15、0.175、0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.6、0.7、0.8、0.9、1、1.25、1.5、1.75、2、2.5、3、3.5、4、4.5和5ml(在范围的高端上)。在一些实施方案中，样品体积是0.1、0.125、0.15、0.175、0.2、0.25、0.3、0.35、0.4、0.45和0.5ml(在范围的低端上)至0.25、0.3、0.35、0.4、0.45、0.5、0.6、0.7、0.8、0.9、1、1.25、1.5、1.75、2、2.5和3ml(在范围的高端上)。

在本公开的任何实施方案中，所述样品可以是母体血液样品，该母体血液样品包含来自胎儿和胎儿母体的循环无细胞DNA。在一些实施方案中，这些样品用于进行非侵入性产前测试。在其他实施方案中，所述样品可以是来自患有或怀疑患有癌症的人的血液样品。在一些实施方案中，循环无细胞的DNA可包括长度为50、60、70、80、90、100、110、120、130、140和150个核苷酸(在范围的低端上)至60、70、80、90、100、110、120、130、140、150、160、170、180、190和200个核苷酸(在范围的高端上)的DNA片段。

在一些实施方案中，一个或多个感兴趣的染色体片段中的任何一个的长度可以为100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、25,000、50,000、60,000、70,000、80,000、90,000和100,000个核苷酸(在范围的低端上)至500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、25,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000、10,000,000、15,000,000、20,000,000、25,000,000、30,000,000、40,000,000、50,000,000、60,000,000、70,000,000、80,000,000、90,000,000、100,000,000、125,000,000、150,000,000、175,000,000、200,000,000、250,000,000和300,000,000个核苷酸(在范围的高端上)。

在一方面，本公开的特征在于用于确定样品中一个或多个感兴趣的染色体或染色体片段的拷贝数的方法。在一些实施方案中，用于确定血液或其一部分的样品中的一个或多个感兴趣的染色体或染色体片段的拷贝数的方法包括：形成样品核酸分子和一组分子索引标签(MIT)的反应混合物以产生经标记的核酸分子群，其中样品核酸分子中的至少一些包含感兴趣的染色体或染色体片段上的多个目标基因座的一个或多个目标基因座；扩增经标记的核酸分子群以产生经标记的核酸分子库；确定经标记的核酸分子库中经标记的核酸分子的附接的MIT和样品核酸片段的至少一部分的序列，以确定产生经标记的核酸分子的样品核酸分子的身份；通过使用所确定的身份对包含每个目标基因座的样品核酸分子的数量进行计数，以测量每个目标基因座的DNA的量；通过使用所确定的身份对包含每个目标基因座的样品核酸分子的数量进行计数，以测量每个目标基因座的DNA的量；使用样品核酸分子中每个目标基因座处的DNA的量，在计算机上确定一个或多个感兴趣的染色体或染色体片段的拷贝数，其中目标基因座的数量和样品的体积提供有效量的总目标基因座以实现拷贝数测定所需的灵敏度和所需的特异性。总目标基因座T_L可被定义为样品中跨越每个目标基因座的样品核酸分子的总数C与样品中目标基因座的数目L的乘积，即T_L＝C x L。有效量E_A可被定义为获得目标灵敏度和特异性的特定数量的总目标基因座所需的体积。在一些实施方案中，总目标基因座的数量可以为100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、75,000和100,000个总目标基因座(在范围的低端上)至500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、75,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000和10,000,000个总目标基因座(在范围的高端上)。有效量可以考虑样品制备效率和混合样品中DNA的分数，例如母体血液样品中的胎儿分数。实施例3中的表1和3显示了获得本公开的不同方法的目标灵敏度和特异性所需的测序读数的总数，其与总目标基因座相同。在一些实施方案中，样品核酸分子群中的样品核酸分子的总数大于MIT组中MIT的多样性。在进一步的实施方案中，所述样品包含两种遗传上不同的基因组的混合物。例如，所述混合物可以是包含循环无细胞的肿瘤DNA和正常DNA、或母体DNA和胎儿DNA的血液或血浆样品。

本文的实施例3提供了表格，其识别在不同百分比混合物下达到一定水平的特异性和灵敏度所需的测序读数的总数或总目标基因座(“样品中G2的分数”)，其可以是例如癌症与正常DNA的百分比或胎儿与母体DNA的百分比。通过将染色体或染色体片段的目标基因座的数量乘以样品体积提供的目标基因座的单倍体拷贝数来识别总目标基因座。例如，如实施例3中所示，使用非等位基因方法在4％的胎儿DNA或循环无细胞DNA中实现99％的灵敏度和特异性，需要110,414个总目标基因座。这可以使用0.5ml血浆、多个至少1000个基因座和样品制备方法来实现，所述样品制备方法保留初始总目标基因座的至少25％，使用一组至少32个MIT。因此，在该实施例中，有效量是至少1000个基因座和至少0.5ml血浆。

在一些实施方案中，确定一个或多个感兴趣的染色体或染色体片段的拷贝数可包括：比较多个目标基因座处的DNA的量与一个或多个预计是二体的染色体或染色体片段上的多个二体基因座处的DNA的量。可以以与多个目标基因座相同的方式确定多个二体基因座处的DNA的量，即：确定经标记的核酸分子库中的经标记的核酸分子的附接的MIT和样品核酸片段的至少一部分的序列，以及使用所确定的序列来确定产生经标记的核酸分子的样品核酸分子的身份，以及通过使用所确定的身份计算包含每个目标基因座的样品核酸分子的量来测量每个目标基因座的DNA的量。在一些实施方案中，预期为二体的一个或多个染色体或染色体片段上的多个二体位点可以是SNP基因座。

在本公开的任何实施方案中，多个目标基因座中的基因座数可以为10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000和5,000个基因座(在范围的低端上)至50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000和100,000个基因座(在范围的高端上)。在一些实施方案中，目标基因座的数目是至少1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000或10,000个基因座。在本公开的任何实施方案中，多个二体基因座中的基因座数可以是10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000和5,000个基因座(在范围的低端上)至50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000和100,000个基因座(在范围的高端上)。在一些实施方案中，二体基因座的数目是至少1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000或10,000个基因座。

在各种实施方案中，可以产生关于一个或多个感兴趣的染色体或染色体片段的拷贝数的一组假设，以基于每个特定假设比较所测量的DNA的量与预期的DNA的量。在本公开的上下文中，假设可以指感兴趣的染色体或染色体片段的拷贝数。它可能指的是可能的倍性状态。它可能指的是可能的等位基因状态或等位基因失衡。在一些实施方案中，可以设计一组假设，使得来自该组的一个假设将对应于任何给定个体的实际遗传状态。在一些实施方案中，可以设计一组假设，使得每个可能的遗传状态可以由来自该组的至少一个假设来描述。在本公开的一些实施方案中，所述方法可以确定哪个假设对应于所讨论的个体的实际遗传状态。在一些实施方案中，该组假设可包括除了可能的遗传状态之外的胎儿分数的假设。在一些实施方案中，该组假设可包括除了可能的遗传状态之外的平均等位基因失衡的假设。

在一些实施方案中，联合分布模型可用于确定每个假设的相对概率。联合分布模型是定义事件的概率的模型，该概率是以多个随机变量来定义的，给定多个随机变量定义在相同的概率空间上，其中变量的概率是链接的。在一些实施方案中，可以使用其中变量的概率未链接的简并情况。在本公开的各种实施方案中，确定样品中一个或多个感兴趣的染色体或染色体片段的拷贝数还包括：将使用联合分布模型确定的倍性假设中的每一个的相对概率与使用统计技术计算的倍性假设中的每一个的相对概率进行组合，所述统计技术取自读数计数分析、比较杂合率、某些亲本背景的归一化基因型信号的概率、及其组合。在各种实施方案中，联合分布可以将倍性假设中的每一个的相对概率与胎儿分数假设中的每一个的相对概率进行组合。在本公开的一些实施方案中，确定每个假设的相对概率可以利用样品中DNA的估计分数。在各种实施方案中，所述联合分布可以将倍性假设中的每一个的相对概率与等位基因失衡假设中的每一个的相对概率进行组合。在一些实施方案中，确定一个或多个感兴趣的染色体或染色体片段的拷贝数包括：选择具有最大概率的假设，该假设使用最大似然估计技术或最大后验技术来执行。

最大似然和最大后验估计

本领域已知的用于检测存在或不存在生物现象或医学状况的大多数方法涉及使用单个假设拒绝测试，其中测量与该状况相关的度量，并且如果所述度量在给定阈值的一侧，则状况存在，而所述度量落在阈值的另一侧，则状况不存在。单假设拒绝测试仅在确定零(null)假设和替代假设之间时查看零分布。在不考虑替代分布的情况下，无法根据观察到的数据估计每个假设的可能性，因此无法计算对调用的置信度。因此，通过单假设拒绝测试，在没有对特定情况相关的置信度的情况下得到是或否的答案。

在一些实施方案中，本公开的方法能够使用最大似然法检测存在或不存在生物现象或医学状况。这是对使用单一假设拒绝技术的方法的实质性改进，因为可以针对每种情况适当地调整该状况的调用不存在或存在的阈值。这对于诊断技术尤其相关，所述诊断技术旨在根据母体血浆中发现的自由漂浮的DNA中存在的胎儿和母体DNA的混合物中可获得的遗传数据来确定妊娠胎儿中存在或不存在非整倍性。这是因为随着血浆衍生分数中胎儿DNA的比例变化，调用非整倍性与整倍性的最佳阈值发生变化。随着胎儿分数下降，与非整倍性相关的数据分布变得越来越类似于与整倍性相关的数据分布。

最大似然估计方法使用与每个假设相关联的分布来估计以每个假设为条件的数据的可能性。然后可以将这些条件概率转换为假设调用和置信度。类似地，最大后验估计方法使用与最大似然估计相同的条件概率，但是在选择最佳假设和确定置信度时也结合了群体先验。因此，最大似然估计(MLE)技术或密切相关的最大后验(MAP)技术的使用有两个优势，首先它增加了正确调用的机会，并且它还允许为每个调用计算置信度。

确定样品核酸分子的数量的示例性方法

本文公开了一种方法，其通过从每种样品核酸分子通过掺入两种MIT从而产生经标记的核酸分子来确定样品中DNA分子的数量。这里公开了实现上述目的的步骤，然后是单分子或克隆测序方法。

如本文详述的，该方法需要产生经标记的核酸分子，使得来自每个基因座的经标记的核酸分子中的大多数或全部都具有不同的MIT的组合，并且可以在使用克隆或单分子测序对MIT进行测序时被识别。识别可以任选地使用核酸片段的映射位置。MIT和核酸片段的每种组合代表不同的样品核酸分子。使用该信息，可以确定每个基因座的原始样品中的个体样品核酸分子的数量。

该方法可用于需要定量评估样品核酸分子的数量的任何应用。此外，来自一个或多个目标基因座的个体核酸分子的数量可以与来自一个或多个二体基因座的个体核酸分子的数量相关联，以确定相对拷贝数、拷贝数变体、等位基因分布、等位基因比例、等位基因失衡、或平均等位基因失衡。替代地，可以通过分布来对从各种靶标检测到的拷贝数进行建模，以便识别目标基因座的最可能的拷贝数。应用包括但不限于例如在Duchenne MuscularDystrophy的携带者中发现的插入和删除的检测；例如在拷贝数变体中观察到的染色体的删除或重复片段的定量；来自出生个体的样品的染色体拷贝数的确定；以及来自未出生个体(如胚胎或胎儿)的样品的染色体拷贝数的确定。

所述方法可以与确定的序列中包含的变异的同时评估相结合。这可用于确定代表原始样品中每个等位基因的样品核酸分子的数量。该拷贝数方法可以与SNP或其他序列变异的评估进行结合，以确定来自出生或未出生个体的染色体或染色体片段的拷贝数；来自具有短序列变异的基因座的拷贝的区分和定量，但其中PCR可以从多个目标基因座扩增，例如在脊髓肌萎缩的载体检测中；以及从由不同个体的混合物组成的样品中测定不同来源的核酸分子的拷贝数，例如从母体血浆中获得的自由浮动DNA中检测胎儿非整倍性。

在本公开的任何实施方案中，该方法可包括以下步骤中的一个或多个：(1)通过连接反应将具有MIT的Y-衔接子核酸分子附接到样品核酸分子群上。(2)进行一轮或多轮扩增。(3)利用杂交捕获来富集目标基因座。(4)测量通过多种方法(例如克隆测序)扩增至足够数量的碱基以跨越序列的PCR产物。

在本公开的任何实施方案中，涉及单个目标基因座的方法可包括以下步骤中的一个或多个：(1)设计用于扩增特定基因座的标准寡聚体对。(2)在合成期间，将与目标基因座或基因组没有或具有最小互补性的特定碱基序列添加到两个靶特异性PCR引物的5'末端。该序列称为尾部，是已知序列，用于随后的扩增，然后是MIT。因此，在合成之后，加尾的PCR引物库将由一系列寡聚体组成，所述寡聚体以已知序列开始，接着是MIT，接着是靶特异性序列。(3)仅使用加尾的寡聚体进行一轮扩增(变性，退火，延伸)。(4)向反应中加入核酸外切酶，有效地停止PCR反应，并在适当的温度下孵育反应，以除去未与退火至模板并延伸形成双链产物的正向单链寡核苷酸。(5)在高温下孵育反应以使核酸外切酶变性并消除其活性。(6)向反应中加入与第一反应中使用的寡聚物尾部互补的新寡核苷酸以及另一种靶特异性寡聚体，以使PCR扩增第一轮PCR中产生的产物。(7)继续扩增以产生足够的产物用于下游克隆测序。(8)通过多种方法测量经扩增的PCR产物，例如克隆测序，以足够数量的碱基跨越序列。

在一些实施方案中，具有MIT的引物的设计和产生可以减少以实践如下：具有MIT的引物可以由以下序列组成：与靶序列不互补的序列，接着是具有MIT的区域，接着是靶特异性序列。位于MIT的5'的序列可以用于随后的PCR扩增，并且可以包含用于将扩增子转化为文库用于测序的序列。在一些实施方案中，可以通过测序方法测量DNA，其中序列数据代表单个分子的序列。这可包括其中单个分子直接测序的方法，或其中单个分子被扩增以形成可被序列仪器检测的克隆但仍然代表单个分子的方法，这里称为克隆测序。

在一些实施方案中，本公开的方法涉及平行地或以其他方式靶向多个基因座。可以独立地产生针对不同目标基因座的引物并混合以产生多重PCR池。在一些实施方案中，可以将原始样品分成子库，并且可以在退火和测序之前在每个子库中靶向不同的基因座。在一些实施方案中，标记步骤和多个扩增循环可以在细胞库被细分之前进行，以确保在分裂之前有效靶向所有靶标，并通过使用细分池中的较小引物组继续扩增来改善随后的扩增。

例如，想象个体基因组中的杂合SNP，以及来自个体的DNA的混合物，其中每个等位基因的10个样品核酸分子存在于DNA的原始样品中。在MIT掺入和扩增后，可能有100,000个经标记的核酸分子对应于该基因座。由于随机过程，DNA的比例可以是1：2到2：1，但是，由于每个样品核酸分子都用MIT标记，因此可以确定扩增池中的DNA起源自每个等位基因的恰好10个样品核酸分子。因此，与不使用该方法的方法相比，该方法可以更准确地测量每个等位基因的相对量。对于希望使等位基因偏差的相对量最小化的方法，该方法将提供更准确的数据。

可以以多种方式实现测序片段与目标基因座的关联。在一些实施方案中，从被靶定的片段获得足够长度的序列以跨越MIT以及对应于靶序列的足够数量的独特碱基以允许明确识别目标基因座。在其他实施方案中，含有MIT的MIT引物还可以含有基因座特异性条形码(基因座条形码)，其识别与其相关的靶标。对于每个单独的目标基因座，该基因座条形码在所有MIT引物中是相同的，因此所有得到的扩增子都是相同的，但是与所有其他基因座不同。在一些实施例中，本公开的标记方法可以与单边巢式协议组合。

MIT对于确定拷贝数特别有用的应用的一个实例是非侵入性产前非整倍性诊断，其中目标基因座或多个目标基因座处的DNA的数量可用于帮助确定胎儿中感兴趣的一个或多个染色体或染色体片段的拷贝数。在这种情况下，希望扩增初始样品中存在的DNA，同时保持各种等位基因的相对量。在某些情况下，特别是在DNA含量非常少的情况下，例如少于基因组的5,000个拷贝、少于基因组的1,000个拷贝、少于基因组的500个拷贝、少于基因组的100个拷贝，人们可以遇到称为瓶颈的现象。其中初始样品中任何给定等位基因存在少量拷贝，并且扩增偏差可导致经扩增的DNA库具有与DNA的初始混合物中的那些等位基因显著不同的比例。通过在标准PCR扩增之前在每条DNA链上使用MIT，可以从源自相同样品核酸分子的库中的一组n个相同的经测序的经标记的核酸分子中排除DNA的n-1个拷贝。以这种方式，可以从进一步分析中去除任何等位基因偏倚或扩增偏倚。在本公开的各种实施方案中，该方法可以在以下时间对胎儿进行：妊娠4至5周；妊娠5至6周；妊娠6至7周；妊娠7至8周；妊娠8至9周；妊娠9至10周；妊娠10至12周；妊娠12至14周；妊娠14至20周；妊娠20至40周；在孕早期；在孕中期；在孕晚期；或其组合。

MIT对于确定拷贝数或平均等位基因失衡特别有用的另一个应用是非侵入性癌症诊断，其中基因座或多个基因座处的遗传物质的量可用于帮助确定拷贝数变异或平均等位基因失衡。非整倍性测定的等位基因不平衡，例如拷贝数变异测定，是指基因座等位基因频率之间的差异。它是对同系物拷贝数差异的估计。等位基因失衡可能是由于等位基因的完全丧失或一个等位基因相对于另一个等位基因的拷贝数增加而引起的。通过测量在给定基因座上构成杂合的个体的流体或细胞中一个等位基因相对于另一个等位基因的比例，可以检测等位基因失衡。(Mei et al,Genome Res,10:1126-37(2000))。对于具有任意指定为'A'和'B'的等位基因的二态SNP，A等位基因的等位基因比例是nA/(nA+nB)，其中nA和nB分别是等位基因A和B的测序读数的数目。等位基因不平衡是种系中杂合的基因座A和B的等位基因比例之间的差异。该定义类似于SNV，其中异常DNA的比例通常使用突变等位基因频率或nm/(nm+nr)来测量，其中nm和nr分别是突变等位基因和参考等位基因的测序读数的数量。因此，CNV异常DNA的比例可以通过平均等位基因失衡(AAI)来测量，AAI定义为|(H1-H2)|/(H1+H2)，其中Hi是样品中同系物i的平均拷贝数而Hi/(H1+H2)是同系物i的分数丰度或同系物比例。最大同源物比例是更丰富的同源物的同源物比例。

精确测量样品中的等位基因分布

目前的测序方法可用于估计样品中等位基因的分布。一种这样的方法涉及从池DNA中随机取样序列，称为鸟枪测序。测序数据中特定等位基因的比例通常非常低，可以通过简单的统计来确定。人类基因组包含大约30亿个碱基对。因此，如果使用的测序方法产生100bp的读数，则每3000万个序列读数中将测量一次特定的等位基因。

在一些实施方案中，本发明的方法用于确定在来自该染色体的基因座的所测量的等位基因分布的DNA样品中存在或不存在含有相同基因座组的两种或更多种不同单倍型。不同的单倍型可代表：来自一个来源的两个不同的同源染色体；来自一个来源的三个不同的同源染色体；包含两个遗传上不同的基因组的混合物的样品中的三个不同的同源单倍型，其中单倍型中的一个在遗传上不同的基因组之间共享；包含两个遗传上不同的基因组的混合物的样品中的三个或四个单倍型，其中单倍型中的一个或两个在遗传上不同的基因组之间共享；或其他组合。在单倍型之间具有多态性的等位基因倾向于提供更多信息，但是其中遗传上不同的基因组对于相同等位基因不是纯合的任何等位基因，将通过所测量的等位基因分布来产生有用的信息，超过可从简单读数计数分析获得的信息。

然而，对这样的样品进行鸟枪测序是非常低效的，因为它导致来自基因座的许多序列的读数，这些序列在样品中的不同单倍型之间不是多态的，或者是针对不感兴趣的染色体，因此没有显示关于目标单倍型的比例。本文公开了特异性靶向和/或优先富集样品中DNA片段的方法，所述片段在基因组中更可能是多态的，以增加通过测序获得的等位基因信息的产量。注意，对于富集样品中所测量的等位基因分布真实地代表目标个体中存在的实际量，关键的是，与目标片段中给定基因座处的其他等位基因相比，一个等位基因的优先富集很少或没有优先富集。设计本领域已知的靶向多态性等位基因的现有方法，以确保检测到存在的任何等位基因中的至少一些。然而，这些方法不是为了测量原始混合物中存在的多态等位基因的无偏的等位基因分布而设计的。难以预测靶标富集的特定方法将产生富集样品，其中所测量的等位基因分布将比另一种方法更准确地代表原始未放大样品中存在的等位基因分布。虽然在理论上可以预期许多富集方法以实现这样的目标，但是在当前的扩增、靶向和其他优先富集方法中存在大量随机偏差。本公开的方法的一个实施方案允许在对应于基因组中给定基因座的DNA混合物中发现的多个等位基因能够被扩增，或优先以每个等位基因的富集程度接近相同的方式而被富集。另一种说法是该方法允许混合物中存在的等位基因的相对量作为整体而增加，而对应于每个基因座的等位基因之间的比例保持与它们在DNA的原始混合物中的基本相同。对于一些所报道的方法，基因座的优先富集可导致等位基因偏差超过1％、超过2％、超过5％、甚至超过10％。这种优先富集可能是由于使用混合捕获方法时的捕获偏差，或者对于每个循环可能较小的扩增偏差，但是当在20、30或40个循环中混合时可能变大。出于本公开的目的，对于保持基本相同的比例，意味着原始混合物中的等位基因的比例除以所得混合物中的等位基因的比例在0.95和1.05之间、在0.98和1.02之间、在0.99和1.01之间、在0.995和1.005之间、在0.998和1.002之间、在0.999和1.001之间、或在0.9999和1.0001之间。注意，此处呈现的等位基因比例的计算可能不用于确定目标个体的倍性状态，并且可能仅用作测量等位基因偏差的度量。MIT的使用可用于去除由于捕获偏倚、扩增偏倚和等位基因偏倚引起的错误，因为可以使用本公开的方法特异性地计数样品核酸分子的数量。

在一些实施方案中，一旦混合物在目标基因座组处优先富集，就可以使用先前、当前或下一代测序仪器中的任何一种对其进行测序，如本文更详细讨论的。可以通过对感兴趣的染色体或染色体片段内的特定等位基因进行测序来评估比例。可以根据等位基因类型来分析和计数这些测序读数，并相应地确定不同等位基因的比例。对于长度为一个到几个碱基的变异，将通过测序进行等位基因的检测，并且测序读数跨越所讨论的等位基因以评估所捕获的分子的等位基因组成是必要的。通过增加测序读数的长度，可以增加测定基因型的所捕获的核酸分子的总数。所有经标记的核酸分子的完全测序将保证收集富集池中可用的最大量的数据。然而，测序目前是昂贵的，并且使用较少数量的序列读数可以测量等位基因分布的方法将具有很大的价值。此外，随着读取长度的增加，读取的最大可能长度以及精度限制存在技术限制。具有最大效用的等位基因长度为1至几个碱基，但理论上可以使用短于测序读数长度的任何等位基因。在许多情况下，由于片段内部的SNP的整个集合是重复的，因此可以通过这些较小变异的聚合来检测诸如节段拷贝数变体的较大变体。大于几个碱基的变体(例如STR)需要特别考虑，一些靶向方法可以有效，而其他方法则不然。

有多种靶向方法可用于特异性分离和富集基因组中的一个或多个变体位置。通常，这些依赖于利用变体序列侧翼的不变序列。其他报道涉及在测序的背景下进行靶向，其中底物是母体血浆(参见，例如，Liao等，Clin.Chem.2011；57(1):pp.92-101)。然而，这些方法使用靶向外显子的靶向探针，并且不专注于靶向基因组的多态性基因座。在各种实施方案中，本公开内容的方法涉及使用仅专门或几乎专注于多态性基因座的靶向探针。在一些实施方案中，本公开的方法涉及使用仅专门或几乎专注于SNP的靶向探针。在本公开的一些实施方案中，被靶向的多态性位点由至少10％SNP、至少20％ SNP、至少30％ SNP、至少40％SNP、至少50％ SNP、至少60％SNP、至少70％ SNP、至少80％ SNP、至少90％ SNP、至少95％SNP、至少98％SNP、至少99％ SNP、至少99.9％ SNP、或仅由SNP组成。

在一些实施方案中，本公开内容的方法可用于确定基因型(特定基因座处DNA的碱基组成)和来自DNA分子混合物的这些基因型的相对比例，其中这些DNA分子可能源自一个或多个遗传上不同的基因组。在一些实施方案中，本公开的方法可用于确定一组多态性基因座处的基因型，以及存在于这些基因座处的不同等位基因的量的相对比例。在一些实施方案中，多态性基因座可完全由SNP组成。在一些实施方案中，多态性基因座可包含SNP、单个串联重复序列和其他多态性。在一些实施方案中，本发明的方法可用于确定DNA混合物中一组多态性基因座的等位基因的相对分布，其中DNA的混合物包含源自个体和源自在该个体中生长的肿瘤的DNA。

在一些实施方案中，DNA分子的混合物可以衍生自从一个个体的多个细胞中提取的DNA。在一些实施方案中，如果该个体是嵌合体(生殖系细胞或体细胞)，则衍生DNA的原始细胞集合可包含相同或不同基因型的二倍体或单倍体细胞的混合物。在一些实施方案中，核酸分子的混合物也可以衍生自从单个细胞提取的DNA。在一些实施方案中，DNA分子的混合物还可以衍生自从同一个体或不同个体的两种或更多种细胞的混合物中提取的DNA。在一些实施方案中，DNA分子的混合物可以衍生自无细胞DNA，例如存在于血浆中。在一些实施方案中，该生物材料可以是来自一个或多个个体的DNA的混合物，在怀孕期间的情况下，已经显示胎儿DNA存在于混合物中，或在癌症的情况下，肿瘤DNA存在于血浆中。在一些实施方案中，生物材料可以来自母体血液中发现的细胞的混合物，其中细胞中的一些来源于胎儿。在一些实施方案中，生物材料可以是来自孕妇的血液的细胞，其已经在胎儿细胞中富集。

用于确定一个或多个感兴趣的染色体或染色体片段的拷贝数的算法，可以考虑亲本基因型和交叉频率数据(例如来自HapMap数据库的数据)，以计算对于非常大数目的可能的胎儿倍性状态、以及各种胎儿cfDNA分数下的目标基因座的预期等位基因分布。与基于等位基因比例的方法不同，它还可以考虑连锁不平衡并且使用非高斯数据模型来描述在给定观察到的平台特征和扩增偏差的SNP下等位基因测量的预期分布。然后，该算法可以将各种所预测的等位基因分布与样本中测量的实际等位基因分布进行比较，并且可以基于测序数据计算每个假设的可能性(单体、二体或三体，其中有许多基于各种潜在交叉的假设)。该算法对每个单独的单体、二体或三体假设的可能性进行求和，并将具有最大总体可能性的假设称为拷贝数和胎儿分数。可以使用类似的算法来确定样品中的平均等位基因不平衡，并且技术人员将理解如何修改该方法。

提出以下实施例以向本领域普通技术人员提供如何使用本文提供的实施方案的完整公开和描述，并且不旨在限制本公开的范围，也不旨在表示以下实施例是所有或唯一进行的实验。已经努力确保关于所使用的数字(例如量、温度等)的准确性，但是应该考虑一些实验误差和偏差。除非另有说明，否则部分是按体积计的，温度是摄氏度。应当理解，可以在不改变实施例旨在说明的基本方面的情况下进行所描述的方法的变化。

实施例

实施例1.用于识别样品核酸分子的示例性工作流程

本文提供了用于在高通量测序工作流程中扩增此类分子后识别样品核酸分子的方法的实例。使用这种方法产生的非限制性示例性扩增子的结构示于图3中。通过从天然来源分离核酸来制备一组核酸样品。例如，可以使用已知方法从靶标患者的血液样品或其一部分中分离循环的无细胞DNA。血液中的样品核酸中的一些可包括一个或多个靶位点。处理样品核酸分子，使得使用Klenow大片段在平末端修复反应中除去任何突出端，并且使用多核苷酸激酶确保所有5'末端被磷酸化。使用Klenow片段(exo-)将3'腺苷残基添加至平末端修复的样品核酸分子以提高连接效率。然后设计一组长度为6个核苷酸的206个MIT，每个MIT与所有其他MIT具有至少2个碱基差异，以如图1所示地被包含在标准高通量测序Y-接头的与3'T突出端相邻的双链多核苷酸序列中。然后在连接反应中使用连接酶将每个包含不同MIT的Y-衔接子组连接到每个样品核酸分子的两端，以产生经标记的核酸分子群。对于连接反应，用含有206个MIT的Y-衔接子的库来标记10,000个样品核酸分子。得到的经标记的核酸分子群包括Y-衔接子，其中如图1所示，MIT连接到样品核酸分子的两端，使得MIT连接到经标记的核酸分子的样品核酸片段(也称为插入物)的末端。

然后使用与Y-衔接子上的引物结合位点结合的通用引物，通过扩增经标记的核酸分子群来制备经标记的核酸分子库。然后进行靶富集步骤，以分离和扩增包含具有靶SNP的样品核酸片段的经标记的核酸分子。可以使用单侧PCR反应或杂交捕获进行靶富集。这些靶富集反应中的任一个可以是使用对包含靶SNP的样品核酸片段特异的引物群(单侧PCR)或探针(杂交捕获)的多重反应。然后使用通用引物进行一个或多个另外的PCR反应，所述通用引物包括每个患者样品的不同条形码序列、以及克隆扩增和测序引物结合序列(图3中的R-Tag和F-Tag)。得到的经扩增的经标记的核酸分子的结构示意性地显示在图3中。

然后使用在扩增反应中的一个期间添加的通用序列，将经扩增的经标记的核酸分子克隆扩增到固体支持物上。然后在高通量测序仪器(例如Illumina测序仪器)上测定经克隆扩增的经标记的核酸分子的序列。对于使用单侧PCR富集的经标记的核酸分子，样品核酸片段(即插入物)右侧的MIT是测序读数之一读取的第一个碱基。对于使用杂交捕获富集的经标记的核酸分子，一个MIT保留在样品核酸片段(即插入物)的一侧，并且样品核酸片段的一端上的第一个连接的MIT的第一个碱基是第一个读数中的第一个碱基读数，而在样品核酸片段的另一端的第二个连接的MIT是第二个读数中的第一个碱基读数。然后分析所得的测序读数。片段特异性插入末端的序列用于将核酸片段的每个末端的位置映射到生物体基因组中的具体位置，并且这些位置可以与MIT组合用于识别每个经标记的核酸分子。然后使用商业上可获得的软件包分析该信息，所述软件包被编程以区分样品核酸分子中的真实序列差异与在任何样品制备扩增反应期间引入的错误。

实施例2.使用样品核酸分子上的MIT降低错误率

本文提供的实施例证明了通过使用MIT来在高通量测序样品制备工作流程中识别扩增错误而降低错误率。进行三个单独的实验，其中在每个实验中，使用两个独立的DNA样品来产生如本文所公开的在5'末端具有MIT且在3'末端具有MIT的经标记的核酸分子库，该样品在58μl(5.75nM终浓度)中具有包括10,000个人类基因组的输入拷贝的2×10¹¹个总样品核酸分子(10,000个拷贝x(3,000,000,000bp/基因组)/(150bp/核酸分子)＝2×10¹¹个总样品核酸分子)。将一组196种MIT用于该实验，浓度在0.5和2μM之间，使得反应混合物中MIT总数与反应混合物中样品核酸分子总数的比例在～85:1和～350:1之间。如所指出的，仅具有196种MIT，或两种MIT的约40,000个组合，用于具有2×10¹¹个总样品核酸分子的样品。

在每个实验中，通过用市售试剂盒进行杂交捕获，使文库富集含有TP53外显子的经标记的核酸分子。然后使用通用引物通过PCR扩增经富集的文库，所述通用引物可以结合先前已经掺入经标记的核酸分子中的通用引物结合序列。通用引物包括每个样品的不同条形码序列以及能够在Illumina HiSeq 2500上进行测序的其他序列。对于每个实验，然后合并样品并在HiSeq 2500上以快速模式进行配对末端测序150个循环，在每个中都进行正向和反向读取。

使用市售软件对测序数据进行解复用。从每次测序读数中，从读数的开始修剪MIT加上T突出端的长度(这些实验中总共7个核苷酸)的碱基数据并进行记录。然后将剩余的经修剪的读数数据合并并映射到人类基因组。记录每次读数的片段末端位置。具有覆盖目标基因座(TP53外显子)的至少一个碱基的所有读数都被认为是中靶读数。读数的平均深度是在目标基因座上的每个碱基水平上计算的。通过计算跨越目标基因座的不对应于参考基因组(GRCh37)的所有碱基调用，并将它们除以跨靶标基因座的总碱基调用，以计算平均错误率(表示为百分比)。对于目标基因座中的每个碱基位置，然后将测序数据分组到MIT家族中，其中每个MIT家族享有在相对于被分析的碱基位置相同的相对位置上的相同MIT以及相同的片段末端位置和相同的测序方向(相对于人类基因组而言是正向或负向)。这些家族中的每一个代表可能是进入MIT库制备过程的相同样品核酸分子的克隆扩增的分子的分组。进入MIT库制备过程的每个样品核酸分子都应该产生两个家族，每一个映射到正和负基因组方向中的每一个。然后使用两个MIT家族产生成对的MIT核酸片段家族，这两个MIT家族一个为正向，一个为负向，其中每个家族包含相对于被分析的碱基位置相同的相对位置上的互补MIT以及互补片段末端位置。这些配对的MIT家族代表了更可能是进入MIT库制备过程的相同样品核酸分子的克隆扩增的测序分子的分组。然后通过计算跨越目标基因座的所有配对的MIT核酸片段家族中不对应于参考基因组(GRCh37)的所有碱基调用，并将它们除以跨越目标基因座的所有配对的MIT家族中的总碱基调用，以计算平均错误率(表示为百分比)。

图4显示了三个实验的结果。每个样品含有33ng的DNA，代表10,000个单倍体人类基因组的输入拷贝。来自这些实验的测序数据产生了每个样品440万至1070万个映射读数和每个样品300万至780万个中靶读数。中靶读数与映射读数的比例范围为68％至74％。跨目标基因座的平均读数深度范围为～98,000至～244,000读数深度。如果包括所有数据，则平均错误率范围为0.15％至0.26％。使用仅来自配对的MIT核酸片段家族的数据计算的平均错误率范围为0.0036％至0.0067％。在每个实验中两个样品的平均平均错误率和配对的MIT核酸片段家族错误率显示当使用配对的MIT核酸片段家族时错误率的急剧降低(图5)。这里观察到的残留错误可能是由于样品中的单核苷酸多态性，因为这些位置没有被排除。配对的MIT核酸片段家族错误率比其原始错误率低23至73倍。值得注意的是，与实验A相比具有更高原始错误率的实验B和C，在使用配对的MIT家族计算时经历了更大的错误率降低。这些结果证明了MIT用于消除错误的效用。

实施例3.数学分析证明使用MIT确定拷贝数的低样本量

该实施例提供了目标基因座的数量和血浆样品体积的分析，其提供有效量的总目标基因座以实现使用MIT来确定拷贝数的所需的灵敏度和所需的特异性。在具有两个基因组G1和G2的混合物的样品中，可以确定一个基因组的感兴趣的染色体或染色体片段的拷贝数。G1和G2可以具有感兴趣的染色体的各种拷贝数，例如，一组染色体中的每个染色体的两个拷贝，另一组的一个拷贝等。假设G2在其基因组上具有拷贝数已知的一个或多个参考染色体或染色体片段(通常是预期为二体的一个或多个染色体或染色体片段)和在其基因组上具有拷贝数未知的一个或多个感兴趣的染色体或染色体片段(尽管假定可能的拷贝数是已知的)。可以估计真实拷贝数未知的染色体或染色体片段的G2的拷贝数(给定可能拷贝数的集合是已知的)。注意，G1的拷贝数在参考染色体或染色体片段和感兴趣的染色体或染色体片段上是已知的。测量技术被建模为捕获核酸分子，并识别其是否属于一个或多个参考染色体或染色体片段或一个或多个感兴趣的染色体或染色体片段，其中存在错误概率。

假设样品含有有限数量的核酸分子，我们可以对核酸分子进行取样，直到我们对样品中属于一个或多个参考染色体或染色体片段和一个或多个感兴趣的染色体或染色体片段的核酸分子数量进行了很好的估计。使用样品中G2的部分的估计值，可以如下所证明地计算在一个或多个感兴趣的染色体或染色体片段中G2的不同拷贝数假设的检验统计量。

方法1定量非等位基因方法

在该方法中，比较一个或多个参考染色体或染色体片段与一个或多个感兴趣的染色体或染色体片段的样品核酸分子的数量。假设是当对经标记的核酸分子进行测序时，对来自一个或多个参考染色体或染色体片段和一个或多个感兴趣的染色体或染色体片段的经标记的核酸分子进行测序的概率相等。用p表示这个概率，其中p＝0.5。可以使用的检验统计量的实例是来自一个或多个感兴趣的染色体或染色体片段的核酸分子的数量(n_t)与观察到的核酸分子的总数(n)的比例：

对于n>20，T的分布可以通过正态分布来近似，对于p＝0.5，方差

分布的均值取决于正在测试的G2的拷贝数假设，并且通过获得更多的观察(即，通过降低方差)，可以提高结果的准确性。这允许创建实现特定灵敏度和特异性的估计器。

假设G2代表样品混合物的4％(并且G1是混合物的96％)。此外，假设G1在参考染色体或染色体片段和感兴趣的染色体或染色体片段中具有每个基因座的两个拷贝。此外，假设G2在一个或多个参考染色体或染色体片段中具有每个基因座的两个拷贝。我们想要考虑两个假设：H2，其中G2在感兴趣的染色体或染色体片段中具有每个基因座的两个拷贝；以及H3，其中G2在感兴趣的染色体或染色体片段中具有每个基因座的三个拷贝。如上所述，我们可以使用正态分布来估计上面的检验统计量的分布。H2的检验统计量的平均值为0.5，因为G1和G2的拷贝数在参考染色体或染色体片段和感兴趣的染色体或染色体片段上是相同的。H3的检验统计量的平均值是：

我们使用N(μ,σ²)的常用符号来表示均值μ和方差σ²的正态分布。因此，两个假设的检验统计量的分布是：

H2:N(0.5,0.25/n)

H3:N(0.50495,0.25/n)

有了这些信息，我们就可以计算出获得特定灵敏度和特异性所需的n。假设我们希望灵敏度和特异性为99％，我们知道给定正态分布X，平均值为0，方差为1，Prob(X<-2.326)＝1％。因此，我们解决以下问题，

获得n>220,827。因此，我们需要对每个染色体或染色体片段进行大约110,414次观察。参见表1，对于一系列混合物分数和目标灵敏度和特异性，一个或多个参考染色体或染色体片段和一个或多个感兴趣的染色体或染色体片段中的每一个所需的观察数目。

表1.使用样品中各种G2分数和不同目标灵敏度和特异性的方法1所需的测序读数。

方法2使用等位基因比例

与方法1中描述的定量方法类似，可以使用观察已知SNP处的杂合速率的基于分子的方法。在该方法中，可以呈现A或B的等位基因值的一个或多个感兴趣的染色体或染色体片段上的SNP的检验统计量，将是观察到的参考等位基因的比例。特别地，对于给定的SNP，令A和B分别表示具有A和B等位基因的观察到的分子的数量。

然后我们可以定义杂合率

H＝AA+B

并且SNP上的分子数量为

N＝A+B。

令A₁和A₂分别表示感兴趣的SNP处基因组G1和G2中的A等位基因的数目。类似地，B₁和B₂分别表示感兴趣的SNP处基因组G1和G2中B等位基因的数目。A的分布是二项分布，其参数是A₁、A₂、B₁、B₂和N的函数。我们假设A₁和B₁是已知的并且我们想要估计A₂和B₂。我们可以通过以下方法来做到这一点：计算A₂和B₂的所有可能值的观察到的杂合率H的概率，并使用贝叶斯规则来计算给定我们观察到的H的A₂和B₂的概率。例如，假设G2代表样品混合物的4％(因此，G1是混合物的96％)。此外，假设G1在参考染色体或染色体片段和感兴趣的染色体或染色体片段中具有每个基因座的两个拷贝。我们想要考虑两个G2具有两个或三个拷贝的假设。这两个假设分别由H2(G2有两个拷贝)和H3(G2有三个拷贝)表示。在这些假设下，我们可以对每个假设以及A₁、A₂、B₁和B₂的值计算二项式参数p

这为p提供了以下值(表2)。

表2.不同假设以及A₁、A₂、B₁和B₂的值的二项式参数p值。

我们进一步知道A是分布式bino(p.N)并且H具有正态分布，其具有平均p和方差p(1–p)/N。随着核酸分子数量的增加，分布的方差减小，并且可以更容易地区分各种假设。例如，给定(A₁＝1,B₁＝1)并且我们想要区分H2和H3。为简单起见，我们将减少区分(A₂＝1,B₂＝1)和(A₂＝2,B₁＝1)的问题。上述开发的模型可用于计算实现特定特异性和灵敏度所必需的最小核酸分子数(表3)。

表3.在给定样品中G2的各种分数和不同的目标灵敏度和特异性的情况下，方法2所需的测序读数。

实际意义

使用上面分析的方法和样品制备和文库制备的效率，可以针对特定的灵敏度和特异性计算获得特定数量的独特测序读数所需的样品量。示例性工作流程将是：样品收集->样品制备->库制备->杂交捕获->加条形码->测序。基于该工作流程，在对每个步骤的效率进行一些假设的情况下，可以向后工作以确定样本要求。在该示例中，假设加条形码步骤没有显著影响。如果需要从染色体或染色体片段读取N个独特的测序，则优选的方法是对核酸分子进行穷举测序。基于优惠券收集者问题(例如，参见Dawkins,Brian(1991),"Siobhan'sproblem:the coupon collector revisited",The American Statistician,45(1):76–82)的结果可以用作指导多少序列读数对于具有对所有核酸分子进行测序的特定概率是必要的。见下表。例如，如果有1000个待测序的独特标记的核酸分子，则需要大约12倍的读数深度才能观察到所有核酸分子的概率为99％。该估计假设每个序列读数同样可能是1,000个经标记的核酸分子中的任何一个。如果不是这种情况，则可以用经验测量的因子替换计算的因子12。在文库制备和杂交捕获步骤期间，血管中存在的一些样品核酸分子丢失。如果我们假设分子的75％在这些过程中丢失(即样品核酸分子的25％被保留)，则原始中需要更多的核酸分子以确保有足够的经标记的核酸分子用于进行条形码。这里可以使用二项分布来估计在文库和杂交捕获步骤之后以一定概率具有特定数量的核酸分子所必需的样品中的核酸分子的数量。

基于上述推理，使用方法1，对于具有4％的G2的混合物中的1％灵敏度和特异性，在参考染色体或染色体片段和感兴趣的染色体或染色体片段上的大约110,000个测序读数是必需的(参见表1)。如果文库制备和杂交捕获步骤的组合具有25％的总效率，则样品中需要超过110,000个起始拷贝。使用简单的二项式模型，需要至少443,000个样品核酸分子以确保具有至少110,000个核酸分子可用于条形码和随后测序的机率大于99％。假设文库制备以443,000个核酸分子开始，则在文库制备和杂交捕获步骤后，样品核酸分子的预期数量将在110,000至111,400个分子的范围内。为了确保测量所有原始分子，可以使用较高的数目进行进一步计算，即111,400个核酸分子。由于测量核酸分子中的方差，为了具有测量所有111,400个核酸分子的高概率，需要显著更多的测量。例如，为了对所有经标记的核酸分子进行测序的概率为99％，有必要测序核酸分子数量的16倍。因此，每个染色体或染色体片段需要大约1,780,000个读数。该估计假设每个序列读数同样可能是111,400个经标记的核酸分子中的任何一个。如果不是这种情况，则计算的因子16可以用经验测量的因子代替。

就样品而言，如前所述，需要约443,000个总样品核酸分子来达到先前所述的性能。通过测量每个染色体或染色体片段中的多个基因座，可以实现所需的111,400个测序读数。例如，如果测量1,000个不同基因座处的核酸分子，则测序需要来自每个基因座的平均约112个独特的核酸分子，使得起始样品中平均需要约443个独特的核酸分子。如果基础样品类型是来自人的血浆样品，则其每毫升血浆含有1,200至1,800个单基因组单倍体拷贝。此外，平均1ml血液样品含有约0.5ml血浆。因此，鉴于这些限制，1ml血液(0.5ml血浆和来自每个基因座的600-900个独特的核酸分子)应足以确定感兴趣的染色体或染色体片段的拷贝数。

在此MIT可用于计算单个样品核酸分子并减少与其他定量方法相关的方差。为了简化单个样品核酸分子的计数，来自基因座的每个样品核酸分子(即443个核酸分子中的每一个)应该具有附接MIT的不同组合。鉴于两个MIT附接于每个核酸分子，附接的MIT的可能组合的数量是N²，其中N是该组中MIT的数量。由于每个基因座大约有443个拷贝，N²需要大于443。有一些缓冲区是有益的，所以如果N²＝1,000，则N大约是32。也可以使用核酸片段的精确的起始和终点基因组坐标，结合MIT的序列，以识别样品核酸分子。

本领域技术人员可以在本公开的范围和精神内设计出许多修改和其他实施例。实际上，本领域技术人员可以在不改变本公开的基本方面的情况下对所描述的材料、方法、附图、实验、实施例和实施方案进行变化。任何公开的实施方案可以与任何其他公开的实施方案组合使用。本说明书中的所有标题都是为了方便读者，并不以任何方式限制本公开。

Claims

1.一种用于DNA富集和测序的方法，所述方法包括：

(a)从受试者的生物样品中提取无细胞DNA；

(b)通过以下步骤形成经富集的DNA：

(i)将至少一个衔接子连接到所提取的无细胞DNA的两端或衍生自所述提取的无细胞DNA的DNA的两端，以形成连接有衔接子的DNA，其中所述衔接子包含通用引物序列和分子索引标签(MIT)，

(ii)使用所述通用引物序列对所述连接有衔接子的DNA进行通用扩增以获得扩增后的连接有衔接子的DNA，以及

(iii)选择性富集至少一些包含一个或多个预选基因座的扩增后的连接有衔接子的DNA以获得经富集的DNA，其中所述选择性富集包括使用通用引物和多个靶特异性引物进行单侧PCR扩增得到至少一些包含一个或多个预选基因座的扩增后的连接有衔接子的DNA，或者使用多个杂交捕获探针捕获至少一些包含一个或多个预选基因座的扩增后的连接有衔接子的DNA；以及

(c)对经富集的DNA进行大规模平行测序获得序列读数，并使用MIT的序列读数和一个或多个预选基因座来识别一个或多个突变。

2.根据权利要求1所述的方法，其中所述生物样品是血液、血浆、血清或尿液样品。

3.根据权利要求1所述的方法，其中在连接步骤中使用50至1000个不同的MIT，其中每个MIT的长度包括4至8个核苷酸，其中不同MIT的序列彼此存在至少2个核苷酸的差别。

4.根据权利要求1所述的方法，其中所述MIT位于所述连接有衔接子的DNA中的通用引物序列内部。

5.根据权利要求1所述的方法，其中所述MIT显著降低了所述方法的错误率，其中所述错误率通过计算跨越预选基因座的所有配对中不对应于参考基因组的所有碱基调用，并将它们除以跨越预选基因座的所有配对的总碱基调用。

6.根据权利要求1所述的方法，其中所述选择性富集包括使用通用引物和多个靶特异性引物进行单侧PCR扩增得到至少一些包含一个或多个预选基因座的扩增后的连接有衔接子的DNA。

7.根据权利要求6所述的方法，其中所述单侧PCR是靶向10-5000个不同预选基因座的多重PCR。

8.根据权利要求1所述的方法，其中所述选择性富集包括使用多个杂交捕获探针捕获至少一些包含一个或多个预选基因座的扩增后的连接有衔接子的DNA。

9.根据权利要求8所述的方法，其中所述杂交捕获探针靶向10-5000个不同的预选基因座。

10.根据权利要求1所述的方法，其中所述预选基因座包括单核苷酸多态性或变体、或插入或缺失中的一种或多种。

11.根据权利要求1所述的方法，其中所述经富集的DNA被进一步扩增以引入样品特异性条形码，并且对其中来自多个样品的经富集的DNA合并测序。

12.根据权利要求1所述的方法，其中所述方法还包括基于所述序列读数估计所述无细胞DNA中包含所述一种或多种突变的DNA的分数。

13.一种双链衔接子，其包括：包含SEQ ID NO:1的核苷酸序列的第一核酸链和包含SEQID NO:2的核苷酸序列的第二核酸链。

14.一种PCR引物，其包括SEQ ID NO:9的核苷酸序列或SEQ ID NO:10的核苷酸序列。

15.一种经标记的核酸分子，其包括SEQ ID NO:3的核苷酸序列和SEQ ID NO:4的核苷酸序列。

16.一种经标记的核酸分子，其包括SEQ ID NO:11的核苷酸序列、SEQ ID NO:12的核苷酸序列、SEQ ID NO:13的核苷酸序列和SEQ ID NO:14的核苷酸序列。