CN117286217A

CN117286217A - 用于检测dna样品中基因组拷贝变化的方法

Info

Publication number: CN117286217A
Application number: CN202310805405.1A
Authority: CN
Inventors: 克里斯多弗·K·雷蒙德; 林继力; 珍妮弗·埃尔南德斯
Original assignee: Resolution Bioscience Inc
Current assignee: Resolution Bioscience Inc
Priority date: 2016-08-25
Filing date: 2017-08-24
Publication date: 2023-12-26
Also published as: EP3504347A1; SG11201901371XA; AU2017315769A1; JP2019526257A; RU2019108294A; JP7217224B2; WO2018039463A1; CA3034649A1; JP7304393B2; KR102505122B1; EP3504347A4; JP2023078336A; JP2022023213A; US20220325353A1; CN109804080A; CN109804080B; BR112019003704A2; AU2017315769B2; KR20190041510A; KR20230035431A

Abstract

本发明包括可用于检测细胞基因组DNA或无细胞DNA(cfDNA)的样品内的突变、SNP、易位、倒位、缺失、拷贝数变化或其他遗传变异的组合物和方法。在一些实施方案中，本发明的组合物和方法提供了极高水平的分辨率，其特别可用于检测来自生物样品(例如血液)的总cfDNA的一小部分中的拷贝数变异。

Description

用于检测DNA样品中基因组拷贝变化的方法

相关申请的引用

本申请是申请号为201780059053.2的中国专利申请的分案申请，并且要求2016年8月25日提交的美国临时专利申请号62/379,593和2017年4月4日提交的美国临时专利申请号62/481,538的优先权，将其各自通过引用以其全文并入本文。

关于序列表的声明

与本申请相关的序列表以文本格式代替纸质副本提供，并且特此通过引用并入本说明书中。包含序列表的文本文件的名称是CLFK_005_02WO_ST25。该文本文件为2,238KB，创建于2017年8月24日并通过EFS-Web以电子方式提交。

技术领域

本发明总体上涉及用于生物样品例如直接组织活检或外周血的定量遗传分析的组合物和方法。特别地，本发明涉及用于检测生物样品的靶特异性拷贝数变化以及遗传表征和分析的方法。

发明背景

越来越明显的是，大多数(如果不是全部)最常见的人类癌症是人类基因组疾病。认为体细胞突变在个体的一生中会积累，其中一些体细胞突变会增加携带它们的细胞发展成肿瘤的可能性。由于积累的突变事件的错误组合，癌症前期生长失去了约束(这种约束能遏制不受控制的增殖)并且产生的细胞团块成为癌症。导致癌症所必需的且足以导致癌症的突变群通常统称为“驱动突变”。最近的密集分子分析中出现的主题之一是曾经被认为是一种单一的组织特异性疾病的癌症实际上是一组相关疾病，其中每种疾病都有独特的分子病理学。人类基因组计划为癌症的全基因组分析奠定了基础。

基因拷贝数变化是生物多样性的基本驱动因素。在进化的背景下，基因的重复和功能的分化是物种多样性的公认驱动因素。在人类疾病的背景下，体细胞内的基因丢失和基因扩增是诸如癌症的患病组织的标志。某些治疗剂特异性地作用于具有这些基因组增加和/或丢失突变的细胞，然而，这些拷贝数变异的鉴定是困难的，因为这些突变通常仅存在于患病细胞或癌细胞的DNA中而在身体的其他细胞中不存在。虽然患病组织或细胞是突变DNA的主要来源，但通过活检获取DNA是侵入性的、有风险的并且通常是不可能的。观察到垂死的肿瘤或癌细胞将其小片DNA(称为无细胞DNA或循环DNA)释放至血流中，这允许开发能够用侵入性较小的技术诸如血液样品进行的基因测试。然而，从样品中分离无细胞DNA只能获得少量DNA，并且只有总DNA的一部分携带与所述疾病相关的突变。例如，在癌症基因组学的背景下，诊断上明显的肿瘤突变通常仅以显著小于50％的低等位基因频率发现。这与常规SNP基因分型形成对比，常规SNP基因分型中的等位基因频率通常为约100％、50％或0％。

因此，需要能够检测特定靶基因座中的基因拷贝数变化的基因组技术。

发明内容

检测cfDNA中罕见突变的方法先前已在国际PCT公开号WO 2016/028316中描述。然而，这些技术仍然缺乏在极低等位基因频率下检测最罕见拷贝数丢失的必需灵敏度。本文提供了用于检测靶特异性拷贝数变化的组合物和方法，其适用于若干样品类型，包括直接组织活检、外周血以及特别是cfDNA。本文所述的组合物和方法的灵敏度足以检测出只存在于总DNA的一小部分中的拷贝数变化。

本发明尤其包括可用于检测细胞基因组DNA(例如，来自组织活检样品)或cfDNA(例如，来自血液样品)的样品内的突变、SNP、易位、倒位、缺失、拷贝数变化或其他遗传变异的组合物和方法。特别地，本发明的组合物和方法提供了极高水平的分辨率，其特别可用于检测来自生物样品(例如血液)的总cfDNA的一小部分中的拷贝数变异。

具体的实施方案涉及用于对来自测试样品的DNA靶区域进行遗传分析的方法，其包括：(a)生成包含多个DNA文库片段的基因组DNA文库，其中所述DNA文库片段中的每一个包含来自所述测试样品的基因组DNA片段和衔接子；(b)使所述基因组DNA文库与特异性地结合DNA靶区域的多个捕获探针接触，从而在所述捕获探针与包含所述DNA靶区域的DNA文库片段之间形成复合物；以及(c)对包含所述DNA靶区域的基因组DNA片段进行定量遗传分析；其中所述衔接子是包含扩增区、样品标签区和锚定区的DNA多核苷酸；其中所述扩增区包含能够充当PCR扩增的引物识别位点的多核苷酸序列；其中所述样品标签包含编码所述独特文库DNA片段的特征且编码所述测试样品的特征的多核苷酸序列；其中所述锚定区包含编码所述测试样品的特征的多核苷酸序列，并且其中所述锚定区能够附接至所述基因组DNA片段；并且其中进行所述遗传分析以检测指示疾病状态的遗传变化。

在一些实施方案中，所述指示疾病状态的遗传变化选自单核苷酸变异(SNV)、长度小于40个核苷酸的插入、长度小于40个核苷酸的DNA区域的缺失和/或拷贝数变化。在具体实施方案中，所述指示疾病状态的遗传变化是拷贝数变化。在一些实施方案中，所述测试样品是组织活检。在各种实施方案中，所述组织活检取自肿瘤或怀疑为肿瘤的组织。在某些实施方案中，所述基因组DNA是无细胞DNA(cfDNA)或细胞DNA。在具体实施方案中，所述基因组DNA是从所述测试样品分离的cfDNA；并且其中所述测试样品是选自由以下组成的组的生物样品：羊水、血液、血浆、血清、精液、淋巴液、脑脊液、眼内液、尿液、唾液、粪便、粘液和汗液。

在某些实施方案中，由以下步骤获得所述基因组DNA片段，其包括：(i)从所述测试样品分离细胞DNA；以及(ii)使所述细胞DNA片段化以获得所述基因组DNA片段。在具体实施方案中，步骤(ii)是通过使所述细胞DNA与至少一种消化酶接触来进行的。在一些实施方案中，步骤(ii)是通过对所述细胞DNA施加机械应力来进行的。在某些实施方案中，通过超声处理所述细胞DNA来施加所述机械应力。

在具体实施方案中，所述样品标签还包含有助于鉴定独特基因组DNA片段的独特分子标识符(UMI)。

在一些实施方案中，所述扩增区的长度在10与50个核苷酸之间。在具体实施方案中，所述扩增区的长度在20与30个核苷酸之间。在某些实施方案中，所述扩增区的长度为25个核苷酸。

在一些实施方案中，所述样品标签的长度在5与50个核苷酸之间。在具体实施方案中，所述样品标签的长度在5与15个核苷酸之间。在某些实施方案中，所述样品标签的长度为8个核苷酸。在一些实施方案中，UMI倍增器与所述样品标签区相邻或包含在所述样品标签区内。

在某些实施方案中，所述UMI倍增器的长度在1与5个核苷酸之间。在具体实施方案中，所述UMI倍增器的长度为3个核苷酸，并且包含64个可能的核苷酸序列中的一个。

在一些实施方案中，所述锚定区的长度在1与50个核苷酸之间。在具体实施方案中，所述锚定区的长度在5与25个核苷酸之间。在某些实施方案中，所述锚定区的长度为10个核苷酸。

本发明的具体实施方案涉及以下方法，其中生成包含多个DNA文库片段的基因组DNA文库的步骤(a)包括将所述基因组DNA片段附接至多个衔接子。在某些实施方案中，在将所述基因组DNA片段与多个衔接子附接之前，对所述基因组DNA片段进行末端修复。在具体实施方案中，所述多个衔接子中的每个衔接子的扩增区包含相同的核苷酸序列。

在某些实施方案中，所述多个衔接子中的每个衔接子的样品标签区包含在2与1,000个核苷酸序列之间的一个核苷酸序列。在具体实施方案中，所述多个衔接子中的每个衔接子的样品标签区包含在50与500个核苷酸序列之间的一个核苷酸序列。在各种实施方案中，所述多个衔接子中的每个衔接子的样品标签区包含在100与400个核苷酸序列之间的一个核苷酸序列。在一些实施方案中，所述多个衔接子的每个衔接子的样品标签区包含在200与300个核苷酸序列之间的一个核苷酸序列。在某些实施方案中，所述多个衔接子中的每个衔接子的样品标签区的长度为8个核苷酸。在一些实施方案中，所述核苷酸序列中的每个序列与240个核苷酸序列中的任何其他序列相隔的汉明距离为至少二。

在具体实施方案中，所述多个衔接子中的每一个包含与所述样品标签区相邻或包含在所述样品标签区内的UMI倍增器。在一些实施方案中，所述多个衔接子中的每一个包含与所述样品标签区相邻的UMI倍增器。在某些实施方案中，所述多个衔接子中的每个衔接子的所述UMI倍增器的长度在1与5个核苷酸之间。在一些实施方案中，所述多个衔接子中的每个衔接子的所述UMI倍增器的长度为三个核苷酸。

在具体实施方案中，所述多个衔接子中的每个衔接子的锚定标签区包含四个核苷酸序列中的一个，并且给定序列中的每个样品区仅与给定序列的四个锚定区中的一个配对。

在一些实施方案中，所述多个衔接子中的每个衔接子的扩增区包含相同的核苷酸序列；所述多个衔接子中的每个衔接子的样品标签区的长度为8个核苷酸；每个样品标签的核苷酸序列与所述多个衔接子的样品标签的任何其他核苷酸序列相隔的汉明距离为至少二；所述多个衔接子中的每一个包含与所述样品标签区相邻或包含在所述样品标签区内的UMI倍增器；所述多个衔接子中的每个衔接子的所述UMI倍增器的长度为三个核苷酸；并且每个可能的核苷酸序列的UMI倍增器与所述多个衔接子的每个样品标签区配对；所述多个衔接子中的每个衔接子的锚定标签区包含四个核苷酸序列中的一个；并且给定序列的每个样品区仅与给定序列的四个锚定区中的一个配对。

本发明的具体实施方案涉及一种方法，其中将基因组DNA片段与多个衔接子附接的步骤包括：(i)将包含锚定区的至少一部分的寡核苷酸附接至每个基因组DNA片段，其中包含锚定区的至少一部分的寡核苷酸是DNA双链体，所述DNA双链体包含与配偶体链双链化的5’磷酸化附接链，其中所述配偶体链通过在其3’端的化学修饰而被阻止附接，并且其中所述附接链附接至所述基因组DNA片段；(ii)使与包含所述锚定区的至少一部分的寡核苷酸附接的基因组DNA片段与编码所述多个衔接子中的每个衔接子核苷酸序列的全长衔接子序列的DNA寡核苷酸接触；以及(iii)在适合于DNA连接的条件下，使所述基因组DNA片段和编码所述全长衔接子序列的DNA寡核苷酸与T4多核苷酸激酶、Taq DNA连接酶和全长Bst聚合酶接触；从而将所述多个衔接子附接至所述基因组DNA片段。在一些实施方案中，所述基因组DNA片段是cfDNA。在某些实施方案中，分析DNA靶区域的拷贝数变化。

在具体实施方案中，对包含所述DNA靶区域的基因组DNA片段进行定量遗传分析的步骤(c)包括对在所述捕获探针与包含所述DNA靶区域的DNA文库片段之间形成的复合物进行纯化。在某些实施方案中，步骤(c)包括对在捕获探针与包含DNA靶区域的DNA文库片段之间形成的复合物进行纯化，从而预形成包含来自所述基因组DNA文库的目标区域的DNA文库片段的引物延伸和/或扩增。在一些实施方案中，步骤(c)包括对在捕获探针与包含DNA靶区域的DNA文库片段之间形成的复合物进行纯化，从而预形成包含来自所述基因组DNA文库的目标区域的DNA文库片段的引物延伸和扩增。在某些实施方案中，步骤(c)包括对所述包含DNA靶区域的DNA文库片段进行DNA测序，以生成多个测序读段。

在一些实施方案中，本发明涉及一种方法，其中所述基因组分析包括测定目标DNA区域中的拷贝数变化，并且其中步骤(c)对所述包含DNA靶区域的基因组DNA片段进行定量遗传分析包括测定源自所述测试样品的基因组DNA文库中存在的目标区域的拷贝数，以及将其与源自参考样品的基因组DNA文库中存在的目标区域的拷贝数进行比较，其中所述参考样品包含已知拷贝数目的DNA靶区域。

在一些实施方案中，测定所述目标区域中的拷贝数包括对包含DNA靶区域的DNA文库片段进行DNA测序，以生成多个测序读段，其中每个测序读段包含独特分子标识元件(UMIE)。在一些实施方案中，所述UMIE包含来自所述衔接子和至少一部分所述基因组DNA序列的测序信息。在一些实施方案中，包含相同UMIE的测序读段被鉴定为独特基因组序列(UGS)。

在一些实施方案中，测定所述拷贝数的方法还包括针对与所述基因组DNA文库接触的所述捕获探针中的每一个测定原始基因组深度(RGD)。在一些实施方案中，测定RGD包括测定与一组样品重复中的每个捕获探针序列相关联的UGS的平均数目。在一些实施方案中，与高度可变数目的UGS相关联的捕获探针被鉴定为噪声探针并且从进一步的计算中去除。在一些实施方案中，测定RGD还包括计算样品的RGD，其包括计算所述样品中针对所有捕获探针的所有RGD的数值平均值。在一些实施方案中，在计算样品的RGD中不包括针对噪声探针的RGD值。

在一些实施方案中，通过将针对每个捕获探针的RGD转换成探针特异性归一化读段计数将实验组中所有样品中针对捕获探针的RGD归一化，其包括(i)使样品中的每个捕获探针RGD乘以归一化常数，其中所述归一化常数包括任何实数；以及(ii)使(i)的乘积除以对于相应样品计算的RGD；或(iii)使(i)的乘积除以从探针子集计算的平均RGD。在一些实施方案中，所述探针子集是对照探针组。

在一些实施方案中，将所述探针特异性归一化读段计数转换成拷贝数值，其包括(i)在源自女性的样品中使针对常染色体和/或X连锁区的探针的探针特异性归一化读段计数乘以2；(ii)在源自男性的样品中使针对Y连锁和/或X连锁区的探针的探针特异性归一化读段计数乘以1；(iii)对实验中的所有样品的(i)和/或(ii)的乘积取平均值；以及(iv)使(i)和/或(ii)的乘积除以(iii)的平均值。在一些实施方案中，对于针对靶向特异性基因的所有探针的近似拷贝数值取平均值。

在一些实施方案中，本发明涉及一种用于高灵敏地检测拷贝数增加和拷贝数丢失的方法，其包括(i)测定针对捕获探针的RGD；(ii)通过将针对所述捕获探针的RGD转换成探针特异性归一化读段计数，对实验组中所有样品中针对捕获探针的RGD进行归一化；(iii)计算针对每个探针特异性归一化读段计数的近似拷贝数值；(iv)对于针对靶向特异性基因的所有探针的近似拷贝数值取平均值。

在一些实施方案中，本发明涉及一种用于测量染色体稳定性的方法，其包括(i)设计和验证一种或多种染色体稳定性探针的组，其中所述染色体稳定性探针均匀分布在人染色体上；(ii)使用所述一种或多种染色体稳定性探针对患者样品进行靶向测序；(iii)针对每种染色体探针测定近似拷贝数值；(iv)测定患者样品的基因组表型，其中所述患者样品中针对一种或多种染色体探针的拷贝数值的波动表明基因组不稳定性。

在一些实施方案中，本发明涉及治疗有需要的受试者中的癌症的方法，其中所述受试者已根据权利要求62所述的方法被鉴定为具有去稳定化的基因组，其中治疗所述癌症的所述方法包括给予药学有效量的PARP抑制剂。

在一些实施方案中，本发明涉及一种方法，其中所述基因组分析包括测定目标DNA区域中的拷贝数变化，并且其中步骤(c)对所述包含DNA靶区域的基因组DNA片段进行定量遗传分析包括测定源自所述测试样品的基因组DNA文库中存在的目标区域的拷贝数，以及将其与源自参考样品的基因组DNA文库中存在的目标区域的拷贝数进行比较，其中所述参考样品包含已知拷贝数目的DNA靶区域。在一些实施方案中，所述目标区域是基因或所述基因的一部分。在具体实施方案中，所述基因与疾病有关。在某些实施方案中，所述疾病是癌症。在各种实施方案中，所述基因是BRCA2、ATM、BRCA1、BRIP1、CHEK2、FANCA、HDAC2和/或PALB2。

具体实施方案涉及包含多个DNA文库片段的基因组DNA文库，其中所述DNA文库片段中的每一个包含衔接子和基因组DNA片段；其中所述衔接子是包含扩增区、样品标签区和锚定区的DNA多核苷酸；其中所述扩增区包含能够充当PCR扩增的引物识别位点的多核苷酸序列；其中所述样品标签包含编码所述独特文库DNA片段的特征且编码所述测试样品的特征的多核苷酸序列；并且其中所述锚定区包含编码所述测试样品的特征的多核苷酸序列，并且其中所述锚定区能够附接至所述基因组DNA片段。在一些实施方案中，所述样品标签还包含独特分子标识符(UMI)，其中UMI有助于鉴定独特基因组DNA片段。在具体实施方案中，所述扩增区的长度在10与50个核苷酸之间。在具体实施方案中，所述扩增区的长度为25个核苷酸。在具体实施方案中，所述样品标签的长度在5与50个核苷酸之间。在某些实施方案中，所述样品标签的长度为8个核苷酸。在一些实施方案中，UMI倍增器与所述样品标签区相邻或包含在所述样品标签区内。在具体实施方案中，所述UMI倍增器的长度在1与5个核苷酸之间。在某些实施方案中，所述锚定区的长度在1与50个核苷酸之间。在一些实施方案中，所述锚定区的长度为10个核苷酸。在具体实施方案中，所述多个衔接子中的每个衔接子的扩增区包含相同的核苷酸序列。在一些实施方案中，所述样品标签中的每个核苷酸序列与所述样品的核苷酸序列中的任何其他序列相隔的汉明距离为至少二。在某些实施方案中，所述多个衔接子中的每一个包含与所述样品标签区相邻或包含在所述样品标签区内的UMI倍增器。在具体实施方案中，所述多个衔接子中的每一个包含与所述样品标签区相邻的UMI倍增器。在一些实施方案中，所述多个衔接子中的每个衔接子的锚定标签区包含四个核苷酸序列中的一个，并且其中给定序列中的每个样品区仅与给定序列的四个锚定区中的一个配对。在一些实施方案中，所述基因组DNA片段是cfDNA。

在某些实施方案中，所述多个衔接子中的每个衔接子的扩增区包含相同的核苷酸序列；所述多个衔接子中的每个衔接子的样品标签区的长度为8个核苷酸，所述多个衔接子中的每个衔接子的样品标签区包含核苷酸序列，所述核苷酸序列与所述多个衔接子的样品标签的任何其他核苷酸序列相隔的汉明距离为至少二，所述多个衔接子中的每一个包含与所述样品标签区相邻或包含在所述样品标签区内的UMI倍增器，所述多个衔接子中的每个衔接子的所述UMI倍增器的长度为三个核苷酸，并且每个可能的核苷酸序列的UMI倍增器与所述多个衔接子的每个样品标签区配对，所述多个衔接子中的每个衔接子的锚定标签区包含四个核苷酸序列中的一个，并且给定序列的每个样品区仅与给定序列的四个锚定区中的一个配对。在一些实施方案中，所述基因组DNA片段是cfDNA。

某些实施方案涉及多个基因组DNA文库，其包含多于一个本文所述的基因组文库。在一些实施方案中，属于所述多个基因组DNA文库的基因组DNA文库的样品标签区的核酸序列不同于属于所述多个基因组DNA文库的其他基因组DNA文库的样品标签区的核酸序列。在具体实施方案中，属于所述多个基因组DNA文库的基因组DNA文库的扩增区的核酸序列与属于多个基因组DNA文库的其他基因组DNA文库的扩增区的核酸序列相同。

某些实施方案涉及一种用于无细胞DNA(cfDNA)的DNA靶区域的遗传分析的方法，其包括：(a)生成如本文所述的DNA文库；(b)使cfDNA文库与特异性地结合DNA靶区域的多个捕获探针接触，从而在所述捕获探针与包含所述DNA靶区域的DNA文库片段之间形成复合物；并且(c)对包含所述DNA靶区域的cfDNA片段进行定量遗传分析；从而对所述DNA靶区域进行遗传分析。

某些实施方案涉及一种预测、诊断或监测受试者中遗传疾病的方法，其包括：(a)从所述受试者获得测试样品；(b)从所述测试样品分离基因组DNA；(c)生成包含多个DNA文库片段的DNA文库，其中所述DNA文库片段中的每一个包含来自所述测试样品的基因组DNA片段和衔接子；(d)使cfDNA文库与特异性地结合DNA靶区域的多个捕获探针接触，从而在所述捕获探针与包含所述DNA靶区域的DNA文库片段之间形成复合物；以及(e)对cfDNA克隆文库中与所述遗传疾病相关的一个或多个靶基因座进行定量遗传分析，其中所述一个或多个靶基因座中的一个或多个遗传病变的鉴定或检测是对于所述遗传疾病的进展的预后、诊断或监测。在具体实施方案中，所述定量遗传分析包括DNA测序以生成多个测序读段。

具体实施方案涉及用于生成基因组DNA文库的编码独特基因组DNA片段的特征和测试样品的特征的衔接子组，其中所述衔接子组中的每个衔接子是包含扩增区、样品标签区和锚定区的DNA多核苷酸；其中所述扩增区包含能够充当PCR扩增的引物识别位点的多核苷酸序列；其中所述样品标签包含编码所述独特文库DNA片段的特征且编码所述测试样品的特征的多核苷酸序列；并且其中所述锚定区包含编码所述测试样品的特征的多核苷酸序列，并且其中所述锚定区能够附接至所述基因组DNA片段。在一些实施方案中，所述样品标签还包含独特分子标识符(UMI)，其中UMI有助于鉴定独特基因组DNA片段。在各种实施方案中，所述扩增区的长度在10与50个核苷酸之间。在某些实施方案中，所述扩增区的长度为25个核苷酸。在具体实施方案中，所述样品标签的长度在5与50个核苷酸之间。在一些实施方案中，所述样品标签的长度为8个核苷酸。在具体实施方案中，UMI倍增器与所述样品标签区相邻或包含在所述样品标签区内。在一些实施方案中，所述UMI倍增器的长度在1与5个核苷酸之间。在具体实施方案中，所述锚定区的长度在1与50个核苷酸之间。在一些实施方案中，所述锚定区的长度为10个核苷酸。在某些实施方案中，所述多个衔接子中的每个衔接子的扩增区包含相同的核苷酸序列。

在一些实施方案中，所述样品标签中的每个核苷酸序列与所述衔接子组的样品标签中的任何其他核苷酸序列相隔的汉明距离为至少二。在各种实施方案中，所述多个衔接子中的每一个包含与所述样品标签区相邻或包含在所述样品标签区内的UMI倍增器。在具体实施方案中，所述多个衔接子中的每一个包含与所述样品标签区相邻的UMI倍增器。

在一些实施方案中，所述多个衔接子中的每个衔接子的锚定标签区包含四个核苷酸序列中的一个，并且其中给定序列中的每个样品区仅与给定序列的四个锚定区中的一个配对。如权利要求75所述的衔接子组，其中所述多个衔接子中的每个衔接子的扩增区包含相同的核苷酸序列；其中每个衔接子的样品标签区的长度为8个核苷酸；其中所述样品标签的每个核苷酸序列与所述衔接子组的样品标签的任何其他核苷酸序列相隔的汉明距离为至少二，其中所述多个衔接子中的每一个包含与所述样品标签区相邻或包含在所述样品标签区内的UMI倍增器，其中所述多个衔接子中的每个衔接子的所述UMI倍增器的长度为三个核苷酸，其中所述UMI倍增器包含64个可能的核苷酸序列中的一个，并且其中所述64个可能的核苷酸序列中每一个的UMI倍增器与所述多个衔接子的每个样品标签区配对，其中所述多个衔接子中的每个衔接子的锚定标签区包含四个核苷酸序列中的一个；并且其中给定序列的每个样品区仅与给定序列的四个锚定区中的一个配对。

附图说明

图1示出了拷贝数丢失(CNL)测定的框架。每个基因(行)显示出特征性的独特读段值，此处用阴影表示。每个样品(列)都在同一组基因中被询问。

图2示出了展示CNL测定信号的驱动器的图。

图3示出了展示对无细胞DNA(cfDNA)进行的说明性CNL测定的步骤的图。

图4A至图4E示出了说明性第一代衔接子(图4A和图4B)和本发明的衔接子(图4C至图4E)的图。图4A示出了第一代衔接子设计。图4B示出了在第一代衔接子中，存在249个可能的序列标签的集合，长度为5个核苷酸(nt)的每个序列标签附接至单个锚定序列。图4C示出了第二代衔接子的图。图4D示出了应用于单个样品的说明性衔接子组，其由四组8mer标签序列组成，其中每组具有60个成员。每组60个标签特定针对四个锚定序列中的一个。图4E示出了47nt衔接子的说明性DNA序列。

图5A至图5B示出了展示在样品标签内移动UMI倍增器的位置可以增加独特样品标签的数目的图。

图6A和图6B示出了展示针对CNL测定构建基因组文库的过程的图。图6A示出了10nt锚定序列附接至基因组片段的3'端的步骤。图6B示出了将全长基因组衔接子退火至初始锚定序列的步骤。

图7显示了到CNL文库中的DNA输入。示出了琼脂糖凝胶图像，其中标记物的大小(bp)在左侧示出。

图8A至图8C示出了通过CNL分析测定的八个样品中测量的基因拷贝的常规盒须图。

图9A至图9B示出了Log₁₀ P值图，其将片段化基因组样品的CNL测量中的与正常值的显著偏差定量化。顶部的SNP百分比示出了存在于ΔATM和ΔBRCA2样品中的罕见杂合SNP的低等位基因频率。

图10A至图10B示出了Log₁₀ P值图，其将掺有片段化基因组DNA的cfDNA样品的CNL测量中的与正常值的显著偏差定量化。顶部的SNP百分比示出了存在于ΔATM和ΔBRCA2样品中的罕见杂合SNP的低等位基因频率。

图11A至图11D示出了靶向杂交捕获平台。图11A示出了通过添加衔接子序列将cfDNA转化成基因组文库，所述衔接子序列为每个基因组克隆提供通用的单引物PCR扩增序列、样品多路复用标签和独特分子标识符。图11B示出了与靶特异性捕获探针杂交的变性扩增基因组和引物延伸。图11C示出了不对称配对端测序的示意图。图11D示出了来自典型靶向捕获序列运行的377,711,020个Illumina NextSeq读段的映射统计。98.5％的读段映射至其预期靶标。在去重复后，20.40％的读段(77,053,048)源自独特基因组克隆。

图12A至图12H示出了来自池1-3的衔接子寡核苷酸的序列。

图13A至图13H示出了来自池4-6的衔接子寡核苷酸的序列。

图14A至图14I示出了来自池7-9的衔接子寡核苷酸的序列。

图15A至图15H示出了来自池10-12的衔接子寡核苷酸的序列。

图16A至图16H示出了来自池13-15的衔接子寡核苷酸的序列。

图17A至图18H示出了来自池16-18的衔接子寡核苷酸的序列。

图18A至图18H示出了来自池19-21的衔接子寡核苷酸的序列。

图19A至图19H示出了来自池22-24的衔接子寡核苷酸的序列。

图20A至图20H示出了来自池25-27的衔接子寡核苷酸的序列。

图21A至图21H示出了来自池28-30的衔接子寡核苷酸的序列。

图22A至图22H示出了来自池31-32的衔接子寡核苷酸的序列。

图23A至图23C示出了TP53基因的靶向测序。图23A示出了捕获探针的BedFile展示。图23B示出了在0到8000个独特读段的范围内的每个基础位置处的覆盖深度。图23C示出了已知TP53剪接变体的UCSC基因模型展示。较厚的矩形区域代表TP53编码的蛋白质的氨基酸编码区。

图24A至图24C示出了16个样品中针对单个探针TP53r10_1的原始和归一化的独特读段密度。图24A示出了对于16个独立样品在通过“去重复”去除冗余读段之后通过探针TP53r10_1所得的原始独特读段捕获数目。图24B示出了对于所有16个样品的2596个捕获探针的独特读段的总体平均值。图24C示出了16个样品中的归一化独特读段深度(计算如下：[来自探针TP53r10_1的样品n独特读段×常数÷来自样品n的总体平均独特读段/探针])。

图25示出了任何给定TP53探针内所有16个样品的归一化独特读段计数的一般一致性，尽管探针之间有显著平均深度变化。所有16个样品的归一化独特读段计数显示为紧密间隔的条形图的“柱”；示出了靶向TP53的所有45个探针的结果。用箭头突出显示两个表现出“噪声”计数行为的探针。来自此类探针的计数通常在随后的拷贝数分析中显示为异常值。

图26展示了2596个探针的广泛组的归一化逐探针独特读段计数的样品间一致性。示出了来自三个代表性样品的散点图。每个点代表不同的探针。x轴是16个样品中每个探针的归一化平均独特读段深度。y轴是对于三个不同单独样品的每个探针的归一化独特读段深度。一致的逐探针独特读段计数支持染色体拷贝变异的定量分析。

图27A至图27C展示了来自健康女性和男性供体和来自晚期前列腺癌症患者的cfDNA的拷贝数分析。图27A示出了来自健康女性供体的cfDNA的分析。x轴是靶向来自所有22个常染色体的区域的一系列对照探针、靶向X连锁AR基因的一系列探针以及靶向TP53基因的编码区的一系列探针。Y轴示出了每个探针的计算倍性。通过将观察到的独特读段计数针对一系列已知倍性的对照样品进行归一化，计算每个探针的近似值([样品_Z的探针_Y的独特读段计数]×2÷[多个对照样品的探针_Y的平均独特读段计数])。图27B展示了X连锁AR基因在健康男性中显示出单倍体拷贝数。图27C展示了来自晚期前列腺癌症患者的cfDNA的拷贝数分析，并示出了对照探针中非常明显的非整倍性、AR基因扩增和TP53基因丢失的证据。

图28示出了相对于对照样品，前列腺患者cfDNA文库的全基因组非整倍性分析。示出了通过染色体分类的239个对照探针中的每一个的近似倍性。患者2号染色体探针显示一致的拷贝丢失，并且大多数5号染色体探针显示拷贝增加。对于许多但非全部的患者对照探针，观察到近似倍性的显著偏差。

图29示出了拷贝数丢失检测的分析验证。将来自永生化系NA02718(单等位基因ΔATM)和来自NA09596(单等位基因ΔBRCA2)的基因组DNA以16％掺入来自NA12878的“黄金标准”基因组DNA中，产生相当于8％双等位基因缺失低等位基因频率。在靶向测序和CNV分析之后，对两个靶基因的逐探针倍性取平均值。示出了两个未受干扰的对照基因BRIP1和HDAC2用于比较。

具体实施方式

A.概述

本发明尤其包括可用于检测细胞基因组DNA(例如，来自组织活检样品)或cfDNA(例如，来自血液样品)的样品内的突变、SNP、易位、倒位、缺失、拷贝数变化或其他遗传变异的组合物和方法。本发明的组合物和方法特别适用于以精确的分辨率检测来自生物样品(例如血液)的cfDNA中非常难以检测的拷贝数变异。特别地，本发明的一些实施方案涉及一种用于通过以下方式检测来自测试样品的DNA靶区域的拷贝数的方法：通过生成由附接至衔接子的基因组DNA片段构成的基因组DNA文库、用多个捕获探针捕获DNA靶区域、分离包含所述DNA靶区域的DNA文库片段以及对所述DNA靶区域进行定量遗传分析，从而测定DNA靶区域的拷贝数。本文所述的衔接子允许鉴定正在测序的单独DNA片段，以及所述样品或基因组DNA来源的特征。

本发明部分地考虑适用于几种样品类型的用于检测靶特异性拷贝数变化的组合物和方法，其包括但不限于直接组织活检和外周血。在癌症基因组学，并且特别在用于分析实体瘤的无细胞DNA(cfDNA)测定的上下文中，肿瘤DNA的量通常是整个DNA的非常小的部分。此外，在基因组DNA测定并且特别在拷贝数变化可能仅存在于来自样品的总基因组DNA的一部分中的基因组DNA测定(例如cfDNA测定)中，难以检测出拷贝数丢失。例如，从癌症患者中提取的大多数无细胞DNA将源自正常来源并具有二倍体拷贝数(除了男性受试者中的X连锁基因)。在癌症患者中，源自肿瘤的DNA的部分通常具有低等位基因频率，例如这样的患者，其中从血浆中提取的循环DNA的2％源自肿瘤。肿瘤抑制基因(例如，乳腺癌中的BRCA1)的一个拷贝的丢失意味着缺乏可检测的基因组片段的低等位基因频率为1％。在这种情况下，改造的拷贝数丢失测定必须能够区分100个拷贝(正常)与99个拷贝(杂合基因丢失)。因此，具体的实施方案考虑到本发明的方法和组合物允许以足够的分辨率检测拷贝数变化，以在低等位基因频率下即使在cfDNA的情况下也能检测拷贝数变化。

为了达到这种区分水平，本发明提供了新型样品衔接子设计。本发明的衔接子被设计成包含对成功的拷贝数丢失测定性能而言至关重要的特征，其包括(i)跨衔接子的均匀的性能；(ii)大量独特分子标识符(UMI)；(iii)高效附接；以及(iv)样品多路复用的适应性。例如，本发明的衔接子提供以下项：

跨衔接子的均匀的性能：生物信息学分析通常会研究样品内探针性能和样品间探针性能。因此，预期跨样品的衔接子池之间的任何性能波动将负面地影响CNL分析所需的检测细微变化的能力。在本发明中，这种性能均匀性通过具有全部在每个样品标签池中得以表示的多个锚定标签和增加用于鉴定基因组片段的独特样品标签序列的一个UMI倍增器来实现，在所述多个锚定标签中固定的样品标签区(用于鉴定样品和基因组片段)被随机选择用于每个池。

大量独特分子标识符(UMI)：虽然从分子生物学的角度来看，衔接子必须在功能上等效，但它们必须具有能加强对独特基因组片段的鉴定的大量独特序列标签(≥10,000)。在本文背景中，“加强”意味着每个基因组克隆片段具有特定的一对片段化位点，其对应于基因组序列中双链DNA被切割的位置。该切割位点用于区分独特基因组克隆，因为每个克隆可能具有不同的切割位点。然而，在具有数千个独立克隆的文库中，独特衍生的片段通常具有完全相同的切割位点。共用相同切割位点的基因组克隆(即片段)可以相对于源自相同样品的其他克隆序列而被分类为独特的或冗余的。通过附接能引入高度多样性的序列标签的衔接子，共用相同切割位点的不同基因组克隆更可能被鉴定为独特的。在该系统中，UMI是通过样品标签区与UMI倍增器的组合产生的。UMI和所述切割位点的组合产生了独特分子标识符元件(UMIE)，其有助于将序列读段分类为冗余读段或独特读段。具体实施方案考虑到UMI倍增器可以包含更长或更短的序列来增加或降低整体UMI复杂性。

高效附接：衔接子必须高效附接至基因组片段。在大多数肿瘤学应用中，可用的细胞DNA或cfDNA的量是有限的，因此这些基因组片段向基因组文库克隆的转化必须是高效的。为了实现这一点，在本发明的一些方面，本文所述的衔接子系统将约25％至约50％或更多的基因组输入片段转化到基因组文库克隆中。

样品多路复用的适应性：通常，必须有不同衔接子组的池，其中组中的每个独特衔接子附接至不同的样品。同时，所述衔接子组中的每个成员必须具有与所述组中的所有其他成员基本上相同的行为(从序列计数的角度)。为了实现这一点，在一些实施方案中，样品标签区在任何其他可能的样品标签组合之间的汉明距离为2，从而减少了读段被错误地分配至错误样品的机会。在一些实施方案中，每组衔接子被分成与特定锚定区配对的池，从而允许进一步降低样品解复用中出错的可能性。例如，在汉明距离为2的8mer标签中，可能序列的总数为16,384。

在具体实施方案中，提供了预先指定的衔接子寡核苷酸池。这种预先指定的池用于表示单个样品。也就是说，X个衔接子寡核苷酸(在上面给出的例子中为16,384个衔接子寡核苷酸)的每个池中的每个衔接子序列与用于鉴定其他样品的每个其他池中的每个衔接子序列不同。本领域技术人员将认识到对于衔接子寡核苷酸可能的不同预先指定的池的数目将取决于样品标签和/或UMI倍增器的长度。

因此，在某些实施方案中，衔接子包含序列，即样品标签和相邻和/或所包含的UMI倍增器，其代表或鉴定样品并且独特地鉴定基因片段。这与本领域中使用的当前系统形成鲜明对比，所述系统使用随机生成的标签来鉴定所述序列，并使用单独的条形码或测序仪索引以允许多路复用。

用于检测从样品获得的DNA内的靶特异性拷贝数变化的说明性实施方案示于图3中。当图3由cfDNA生成DNA文库时，该说明性程序可以与来自其他来源的DNA(例如片段化的细胞DNA)一起使用。如图3所示，收集cfDNA(上图)。接下来，通过将本发明的基因组文库衔接子(灰色圆圈)与基因组DNA缀合，由cfDNA生成基因组文库。用识别感兴趣的基因组区域的捕获探针(黑色圆圈)捕获基因组DNA片段。对目标基因组DNA进行测序，并进行数据分析以对目标基因组DNA进行拷贝丢失分析和/或表征。

除非特别相反地指出，否则本发明的具体实施方案的实践将采用本领域技术范围内的化学、生物化学、有机化学、分子生物学、微生物学、重组DNA技术、遗传学、免疫学和细胞生物学的常规方法，为了说明的目的下文中描述了其中许多方法。此类技术在文献中得到充分解释。参见例如，Sambrook,等人,Molecular Cloning:A Laboratory Manual(第3版,2001)；Sambrook,等人,Molecular Cloning:A Laboratory Manual(第2版,1989)；Maniatis等人,Molecular Cloning:A Laboratory Manual(1982)；Ausubel等人,CurrentProtocols in Molecular Biology(John Wiley和Sons，2008年7月更新)；ShortProtocols in Molecular Biology:A Compendium of Methods from Current Protocolsin Molecular Biology,Greene Pub.Associates and Wiley-Interscience；Glover,DNACloning:A Practical Approach,第I和II卷(IRL Press,Oxford,1985)；Anand,Techniques for the Analysis ofComplex Genomes,(Academic Press,New York,1992)；Transcription and Translation(B.Hames和S.Higgins编,1984)；Perbal,A PracticalGuide to Molecular Cloning(1984)；以及Harlow和Lane,Antibodies,(Cold SpringHarbor Laboratory Press,Cold Spring Harbor,N.Y.,1998)。

B.定义

除非另外定义，本文所用的全部技术术语和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同意义.尽管在发明的实施和测试中可以使用任何相似于或等效于本文中所述那些的方法和材料，本文描述了组合物、方法和材料的优选实施方案。出于本发明的目的，以下术语定义如下。

冠词“一个”、“一种”和“所述”在本文中用于指代该冠词的一个或多于一个(即至少一个)语法对象。举例来说，“一种元件”意指一种元件或多于一种元件。

替代方案(例如，“或”)的使用应理解为意指替代方案中的一个、两个或任何组合。

术语“和/或”应理解为意指替代方案中的一个或两个。

如本文所用，术语“约”或“近似”是指与参考数量、水平、值、数目、频率、百分比、尺寸、大小、量、重量或长度相比变化多达15％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％的数量、水平、值、数目、频率、百分比、尺寸、大小、量、重量或长度。在一个实施方案中，术语“约”或“近似”是指在参考数量、水平、值、数目、频率、百分比、尺寸、大小、量、重量或长度周围±15％、±10％、±9％、±8％、±7％、±6％、±5％、±4％、±3％、±2％或±1％的数量、水平、值、数目、频率、百分比、尺寸、大小、量、重量或长度范围。

在整个说明书中，除非上下文另有要求，否则词语“包含”(“comprise”、“comprises”和“comprising”)应被理解为暗示包含所述步骤或元件或步骤或元件的组但不排除任何其他步骤或元件或步骤或元件的组。在具体实施方案中，术语“包括”、“具有”、“含有”和“包含”同义使用。

“由……组成”意味着包括并限于短语“由……组成”之后的任何内容。因此，短语“由……组成”表示所列出的元件是必需的或强制性的，并且不存在其他元件。

“基本上由……组成”意味着包括在该短语之后列出的任何元件，并且限于不干扰或有助于本公开中针对所列元件指定的活动或行动的其他元件。因此，短语“基本上由……组成”表示所列元件是必需的或强制性的，但是没有其他元件是任选的且可以存在或可以不存在，这取决于它们是否影响所列元件的活动或行动。

在本说明书中引用“一个实施方案”、“实施方案”、“具体实施方案”、“相关实施方案”，“某个实施方案”、“附加的实施方案”或“另外的实施方案”或其组合意味着结合该实施方案描述的特定特征、结构或特性被包括在本发明的至少一个实施方案中。因此，在整个说明书中各个地方出现的前述短语不一定都指的是相同的实施方案。此外，具体特征、结构或特性可以在一个或多个实施方案中以任何合适的方式组合。

如本文所用，术语“分离的”意指这样的物质，所述物质大体上或基本上不含在它的天然状态下通常伴随它的组分。在具体实施方案中，术语“获得的”或“衍生的”与“分离的”同义使用。

如本文所用，术语“DNA”是指脱氧核糖核酸。在各种实施方案中，术语DNA指基因组DNA、重组DNA、合成DNA或cDNA。在一个实施方案中，DNA是指基因组DNA或cDNA。在具体实施方案中，DNA包含“靶区域”。本文考虑的DNA文库包括由RNA(例如RNA表达文库)构建的基因组DNA文库和cDNA文库。在各种实施方案中，DNA文库包含一个或多个附加的DNA序列和/或标签。

术语“靶基因座”和“DNA靶区域”在本文中可互换使用，并且是指DNA序列内的目标区域。在各种实施方案中，在靶基因座上进行靶向遗传分析。在具体实施方案中，DNA靶区域是与以下相关的基因区域：具体遗传状态、遗传病症、遗传疾病；胎检；遗传嵌合、亲子鉴定；预测对药物治疗的反应；诊断或监测医疗病症；微生物组分析；病原体筛查；或器官移植监测。在另外的实施方案中，DNA靶区域是与特定人染色体(如特定的常染色体或X连锁染色体)或其区域(例如，独特染色体区域)相关的DNA序列。

如本文所用，术语“循环DNA”、“循环无细胞DNA”和“无细胞DNA”通常可互换使用并且是指这样的DNA，它是细胞外DNA、已从细胞中排出的DNA或已从坏死或凋亡细胞中释放的DNA。该术语通常与“细胞基因组DNA”或“细胞DNA”形成对比，后者在本文中可互换使用，并且是指这样的基因组DNA(即核酸酶)，它包含在细胞内并且只有通过裂解或以其他方式破坏细胞的完整性才可用于分子生物学技术，如本文所述的那些技术。

本文所用的“受试者”、“个体”或“患者”包括表现出可用本文考虑的组合物检测或鉴定的病症症状的任何动物。合适的受试者包括实验室动物(如小鼠、大鼠、兔子或豚鼠)、农场动物(如马、牛、羊、猪)和家畜或宠物(如猫或狗)。在具体实施方案中，受试者是哺乳动物。在某些实施方案中，受试者是非人灵长类动物，并且在优选的实施方案中，受试者是人。

如本文所用，术语“配对的”当关于两个不同多核苷酸序列或包含不同多核苷酸序列的DNA区域使用时，意味着两个不同多核苷酸序列或包含不同多核苷酸序列的DNA区域存在于相同的多核苷酸上。例如，如果DNA的特定样品标签区被称为与DNA的特定扩增区配对，则意味着所述样品标签区和扩增标签存在于相同的DNA多核苷酸分子上。

C.拷贝数分析方法

在各种实施方案中，提供了用于DNA靶区域DNA的拷贝数分析的方法。在某些实施方案中，通过生成各自含有基因组DNA片段和衔接子的DNA文库片段的基因组DNA文库、分离含有DNA靶区域的DNA文库片段以及对DNA靶区域进行定量遗传分析来进行拷贝数分析。“定量遗传分析”意指通过任何分子生物学技术进行的分析，所述技术能够量化DNA(例如，基因、基因座、目标靶区域等)的变化，包括但不限于DNA突变、SNP、易位、缺失和拷贝数变异(CNV)。在某些实施方案中，定量遗传分析通过测序例如新一代测序进行。

新一代DNA测序(NGS)非常适合两种诊断应用。首先是大规模的DNA序列测定。在目前的情况下，这种能力使得能够搜索罕见的、可操作的变体，所述变体指导有效的治疗决策。第二种是对基因拷贝数计数。数百万个独立序列的输出使得能够在全基因组范围内精确测量基因拷贝数。从母体血液样品进行胎儿三体性的非侵入性产前检测的出现证明了这种能力。RNAseq(即使用NGS进行基因表达分析的技术)是另一个例子，但输入是RNA(cDNA)而不是基因组DNA。Samorodnitsky等人J Mol Diagn.2015年1月；17(1):64-75等人描述了当前捕获方法的比较。

本发明将NGS计数能力扩展到靶向杂交捕获方法的领域。本文描述的方法至少部分地因为它们具有以下四个品质而对拷贝数变异的检测有效：

(a)本方法区分独特克隆与冗余克隆。扩增的基因组DNA文库片段的NGS测序产生多个单独NGS读段，每个读段包含与特定人基因组序列连接的衔接子编码的序列信息。这些元件定义了每个克隆的特征。因为通过PCR扩增捕获的基因组区域，所以在随后的NGS分析中多次遇到相同的克隆并不罕见。源自单个克隆和捕获过程的读段组被称为“冗余读段”。基于由独特分子标识元件(UMIE)提供的测序信息，两个或更多个冗余读段被鉴定为冗余读段。UMIE是指来自衔接子标签的序列信息和基因组DNA序列的起点的组合。包含相同UMIE的两个或更多个读段被鉴定为冗余读段。冗余读段被分组在一起，并且从冗余读段的家族组装单个代表性共有序列。该共有序列被称为“独特读段”或“独特基因组序列”(UGS)。每个独特读段代表来自原始DNA样本的单独克隆。鉴定和分组冗余克隆家族以及生成代表该家族的单个独特读段的过程被定义为“去重复”。用于创建基因组文库的衔接子具有非常深的独特样品标签信息库(每个衔接子具有15,360个密码)。当与每个捕获的基因组克隆的精确映射坐标(其相对于捕获探针可以跨越>100个不同位置)一起应用时，在基因组文库中生成并随后通过靶特异性捕获探针检索的每个独特克隆具有与包含相同捕获环境的所有其他独特克隆区分开来的极高可能性。区分独特克隆与冗余克隆的能力是本文所述方法的核心。

(b)用于创建基因组文库的衔接子在不产生衔接子之间拷贝数计数的可变性的情况下允许样品多路复用。拷贝数测定的中心基础是同时分析已全部在单个测序运行中处理的样品组。这允许将阳性和阴性对照与临床样品一起包括在内。先前衔接子设计迭代的主要问题引起相同对照样品中基因拷贝计数的微妙变化，从而实际上设置信噪比不确定性阈值，其在基于血液的实体肿瘤基因分型测定中太高而不具有临床应用性。本发明克服了这个问题并且显著降低了信噪比阈值，使得在≤2％低等位基因频率时能检测到单拷贝基因丢失。这种改进的信号识别使得本发明的方法在循环肿瘤DNA测定中具有显著的临床实用性。

(c)本文使用的专有靶向杂交捕获方法必须在所有靶标上产生高度统一的“中靶” 读段覆盖。依赖于对独特基因组片段计数以估计拷贝数的方法(如本文所述的方法)在遇到所有可能的独特片段方面必须实现接近饱和。接近饱和只能通过过采样来实现，也就是说，收集超过最终遇到的独特读段数量的测序读段。为了实用性、可扩展性和经济性，靶向杂交捕获文库中的独特读段必须显示出足够的均匀性，使得<10倍中靶读段过采样，并且优选<4倍中靶读段过采样将捕获靶基因座处>90％的独特中靶读段。

(d)靶向杂交捕获方法(参见美国专利公开号2014-0274731)必须具有高中靶捕获率。为了实用性、可扩展性和经济性，换言之是为了成为本公开相对于本领域其他技术的区别性特征，所述方法必须实现>90％、优选>95％的中靶读段。由于中靶映射率超过95％，对于中靶读段的4至10倍过采样的要求和对于整体过采样的要求是相同的。

在一些实施方案中，样品中存在的DNA靶区域的拷贝数通过定量遗传分析确定。在一些实施方案中，通过比较样品中存在的DNA靶区域的拷贝量并将其与具有已知拷贝数的一个或多个样品中存在的DNA靶区域的量进行比较来确定DNA靶区域的拷贝数。

具体实施方案考虑到本文所述的组合物和方法特别适用于检测基因组DNA样品中的拷贝数变化，其中样品中总基因组DNA的仅一部分具有拷贝数变化。例如，样品例如无细胞DNA的样品中可能存在显著的肿瘤突变，所述肿瘤突变以显著小于50％(例如，在0.1％至>20％的范围内)的低等位基因频率存在，这与常规SNP基因分型(其中等位基因频率通常为约100％、50％或0％)不同。本领域技术人员将认识到，本发明的组合物和方法还可用于检测其他类型的突变，包括单核苷酸变异(SNV)、短(例如，少于40个碱基对(bp))插入和缺失(indel)、和基因组重排，其包括致癌基因融合。

在某些实施方案中，本文描述的本发明的组合物和/或方法可用于、能够、适合于和/或能检测、鉴定、观察和/或揭示一个或多个DNA靶区域的拷贝数变化，所述一个或多个DNA靶区域存在于少于约20％、少于约19％、少于约18％、少于约17％、少于约16％、少于约15％、少于约14％、少于约13％、少于约12％、少于约11％、少于约10％、少于约9％、少于约8％、少于约7％、少于约6％、少于约5％、少于约4％、少于约3％、少于约2％、少于约1％、少于约0.5％、少于约0.2％或少于约0.1％的来自样品的总基因组DNA中。在一些实施方案中，本发明的方法可用于、能够、适合于和/或能检测、鉴定、观察和/或揭示一个或多个DNA靶区域的拷贝数变化，所述一个或多个DNA靶区域存在于在约0.01％至约100％、约0.01％至约50％和或约0.1％至约20％的来自样品的总基因组DNA中。

具体实施方案由图1中所示的概念框架表示。在图1中，每个基因由一行表示，并且每个患者样品表示为一列。在任何给定的基因组DNA样品中，对于每个单独基因计数的片段的数目将具有一些可变性，并且对于任何给定的目标DNA区域(例如基因)，拷贝数的扰动被检测为相对于针对其他样品中DNA靶区域的归一化计数的显著片段计数偏差。这种测定要求样品内的逐基因片段计数特征是可再现的，并且还要求逐样品计数特征具有高度可比性。两种测定要求都需要优异的信噪比计数鉴别。

一些实施方案考虑到有助于增加信噪比的测定元件是基因组输入、探针数目和测序深度，如图2所示。

在具体实施方案中，用于cfDNA遗传分析的方法包括：生成和扩增cfDNA文库、测定cfDNA文库中基因组当量的数目；并对一个或多个基因组靶基因座进行定量遗传分析。

具体实施方案考虑到本文所述的任何方法和组合物可有效地用于使用基因组DNA(例如细胞或cfDNA)来有效地分析、检测、诊断和/或监测遗传状态、遗传病症、遗传疾病、遗传嵌合、胎儿诊断、亲子鉴定、微生物组分析、病原体筛查以及器官移植监测，其中样品中总基因组DNA的全部或仅部分具有目标特征，例如遗传病变、突变、单核苷酸变异(SNV)。在一些实施方案中，目标特征是与疾病或病症相关的遗传特征。例如，样品例如cfDNA的样品中可能存在显著的肿瘤突变，所述肿瘤突变以明显小于50％(例如，在0.1％至>20％的范围内)的低等位基因频率存在，这与常规SNP基因分型(其中等位基因频率通常为约100％、50％或0％)不同。

在某些实施方案中，本文描述的本发明的组合物和/或方法可用于、能够、适合于和/或能检测、鉴定、观察和/或揭示一个或多个DNA靶区域的遗传病变，所述一个或多个DNA靶区域存在于少于约20％、少于约19％、少于约18％、少于约17％、少于约16％、少于约15％、少于约14％、少于约13％、少于约12％、少于约11％、少于约10％、少于约9％、少于约8％、少于约7％、少于约6％、少于约5％、少于约4％、少于约3％、少于约2％、少于约1％、少于约0.5％、少于约0.2％或少于约0.1％的来自样品的总基因组DNA中。在一些实施方案中，本发明的方法可用于、能够、适合于和/或能检测、鉴定、观察和/或揭示一个或多个DNA靶区域的遗传病变，所述一个或多个DNA靶区域存在于在约0.01％至约100％、约0.01％至约50％和或约0.1％至约20％的来自样品的总基因组DNA中。

1.生成DNA文库

在具体实施方案中，本文考虑的遗传分析方法包括生成DNA文库，包括用一种或多种末端修复酶处理cfDNA或片段化的细胞基因组DNA以生成末端修复的DNA，并将一个或多个衔接子附接至末端修复的DNA的各端以生成DNA文库。基因组DNA

在具体实施方案中，本文考虑的方法和组合物被设计为使用基因组DNA作为分析物来有效地分析、检测、诊断和/或监测拷贝数变化。在某些实施方案中，通过从测试样品(例如生物样品如组织活检)获得的基因组DNA生成基因组DNA文库来进行拷贝数分析。在某些实施方案中，基因组DNA是循环或无细胞DNA。在一些实施方案中，基因组DNA是细胞基因组DNA。

在某些实施方案中，基因组DNA是从组织样品或取自组织的活检获得，所述组织包括但不限于骨髓、食道、胃、十二指肠、直肠、结肠、回肠、胰腺、肺、肝、前列腺、脑、神经、脑膜组织、肾组织、子宫内膜组织、宫颈组织、乳房、淋巴结、肌肉和皮肤。在某些实施方案中，组织样品是肿瘤或疑似肿瘤的活检。在具体实施方案中，肿瘤是癌性的或怀疑是癌性的。在具体实施方案中，组织样品包括癌细胞或怀疑具有癌性的细胞。

从细胞或从由细胞构成的生物组织中纯化基因组DNA的方法是本领域公知的，并且技术人员将根据组织和获得组织的条件识别最佳程序或商业试剂盒。一些实施方案考虑到从组织中纯化细胞DNA将需要细胞破碎或细胞裂解以暴露其中的细胞DNA，例如通过化学和物理方法，如混合、研磨或超声处理组织样品；通过添加也用于细胞裂解的洗涤剂或表面活性剂去除膜脂质，任选例如通过添加蛋白酶去除蛋白质；去除RNA，例如通过添加RNase；以及例如从在细胞裂解步骤中使用的洗涤剂、蛋白质、盐和试剂中纯化DNA。DNA纯化可以通过例如采用乙醇或异丙醇的沉淀进行；通过苯酚-氯仿萃取进行。

在具体实施方案中，从组织和/或细胞获得的细胞DNA在获得、生成、制备、形成和/或产生如本文所述的基因组DNA文库之前和或期间被片段化。本领域技术人员将理解存在几种适合于DNA片段化的技术，并且本领域技术人员能够识别和鉴定适合于为了生成用于DNA测序(其包括但不限于新一代测序)的基因组DNA文库的目的片段化细胞DNA的技术。某些实施方案考虑到通过包括但不限于物理片段化、酶促片段化和化学剪切的方法可以将细胞DNA片段化成对于生成文库而言合适的和/或足够的长度的片段。

物理片段化可包括但不限于声学剪切、超声处理和流体动力学剪切。在一些实施方案中，细胞DNA通过物理片段化进行片段化。在具体实施方案中，通过声学剪切或超声处理将细胞DNA片段化。具体实施方案考虑到声学剪切和超声处理是用于剪切细胞DNA的常用物理方法。仪器(Woburn,MA)是一种用于将DNA破坏为100bp-5kb bp的声学装置。Covaris还制造管(gTubes)，它将样品处理为6-20kb以用于Mate-Pair文库。/>(Denville,NJ)是一种用于剪切染色质、DNA和破坏组织的超声装置。可以将少量DNA剪切至150个碱基-1kb长度。来自Digilab(Marlborough,MA)的Hydroshear利用水动力来剪切DNA。雾化器(Life Tech,Grand Island,NY)也可用于使用压缩空气雾化液体，从而在几秒钟内将DNA剪切成100个碱基-3kb片段。雾化成本低，但该过程可导致原始样品中损失约30％的细胞DNA。在某些实施方案中，细胞DNA通过超声处理片段化。

酶促片段化可以包括但不限于用限制性内切核酸酶(例如DNase I)处理或用非特异性核酸酶处理。在一些实施方案中，细胞DNA通过酶促片段化进行片段化。在具体实施方案中，通过用限制性内切核酸酶处理将细胞DNA片段化。在一些实施方案中，通过用非特异性核酸酶处理将细胞DNA片段化。在某些实施方案中，通过用转座酶处理将细胞DNA片段化。某些实施方案考虑到将细胞DNA剪切成小片的酶促方法包括DNAse I、麦芽糖结合蛋白(MBP)-T7 Endo I和非特异性核酸酶创伤弧菌(Vvn)New England Biolabs(Ipswich,MA)片段化酶的组合以及Nextera标记技术(Illumina,San Diego,CA)。非特异性核酸酶和T7Endo的组合协同作用以产生非特异性切口和反切口，从而生成从切口位点解离8个核苷酸或更少核苷酸的片段。标记使用转座酶来同时将衔接子片段化并插入双链DNA上。

化学片段化可包括用热和二价金属阳离子处理。在一些实施方案中，基因组DNA通过化学片段化进行片段化。具体实施方案考虑到化学剪切更常用于长RNA片段而不是基因组DNA的分解。化学片段化通常通过用二价金属阳离子(镁或锌)热消化DNA来进行。可以通过增加或减少孵育时间来调节DNA片段的长度。

在具体实施方案中，本文考虑的方法和组合物被设计为使用无细胞DNA(cfDNA)作为分析物来有效地分析、检测、诊断和/或监测拷贝数变化。cfDNA的大小分布范围为约150bp至约180bp片段。cfDNA的片段化可能是核酸内切和/或核酸外切活性的结果，并且呈现出对cfDNA的准确、可靠和稳健的分析的强大挑战。分析cfDNA的另一个挑战是它在血流中的半衰期短，约15分钟。不希望受任何特定理论的约束，本发明部分地考虑到cfDNA的分析类似于“液体活检”并且是当前生物过程的实时快照。

此外，由于cfDNA不存在于细胞内，并且可以从包括但不限于生物流体和粪便样品的许多合适的来源获得，因此不受困扰新一代测序分析的现有限制(如直接获取被分析的组织)。

作为在具体实施方案中从中分离cfDNA的合适来源的生物流体的说明性例子包括但不限于羊水、血液、血浆、血清、精液、淋巴液、脑脊液、眼内液、尿液、唾液、粘液和汗液。在具体实施方案中，生物流体是血液或血浆。

在某些实施方案中，市售的试剂盒和技术人员已知的其他方法可用于直接从受试者的生物流体或从先前获得的和任选稳定的生物样品例如通过冷冻和/或添加包括但不限于EDTA、EGTA或对二价阳离子有特异性的其他螯合剂的酶螯合剂来分离cfDNA。

(a)生成末端修复的cfDNA

在具体实施方案中，生成基因组DNA文库包括分离的cfDNA或片段化细胞DNA的末端修复。片段化的cfDNA或细胞DNA由末端修复酶处理以生成具有平端、5'-突出端或3'-突出端的末端修复的cfDNA。在一些实施方案中，例如末端修复酶可以产生。在一些实施方案中，末端修复的cfDNA或细胞DNA含有平端。在一些实施方案中，末端修复的细胞DNA或cfDNA被处理成含有平端。在一些实施方案中，末端修复的cfDNA或细胞DNA的平端被进一步修饰以含有单个碱基对突出端。在一些实施方案中，含有平端的末端修复的cfDNA或细胞DNA可被进一步处理以含有腺嘌呤(A)/胸腺嘧啶(T)突出端。在一些实施方案中，含有平端的末端修复的cfDNA或细胞DNA可被进一步处理以含有作为单碱基对突出端的腺嘌呤(A)/胸腺嘧啶(T)突出端。在一些实施方案中，末端修复的cfDNA或细胞DNA具有非模板化的3'突出端。在一些实施方案中，末端修复的cfDNA或细胞DNA被处理以含有3'突出端。在一些实施方案中，末端修复的cfDNA或细胞DNA用末端转移酶(TdT)处理以含有3'突出端。在一些实施方案中，可以通过TdT添加G尾部。在一些实施方案中，使用通过任何已知的限制酶(例如用酶Sau3A等)的部分消化，将末端修复的cfDNA或细胞DNA处理成含有突出端。

(b)将衔接子分子附接至末端修复的cfDNA

在具体实施方案中，生成cfDNA文库包括将一个或多个衔接子附接至末端修复的cfDNA的各端。本发明部分地考虑了衔接子模块，其被设计为在cfDNA文库中容纳大量基因组当量。衔接子模块被配置成测量cfDNA文库中存在的基因组当量的数目，并且通过扩展被配置成测量用于鉴定序列突变的测序测定的灵敏度。

如本文所用，术语“衔接子”和“衔接子模块”可互换使用，并且是指包含至少三种元件的多核苷酸：扩增区、样品标签区和锚定区。在具体实施方案中，衔接子包含扩增区、样品标签区和锚定区。在一些实施方案中，衔接子还包含独特分子标识符(UMI)。在具体实施方案中，衔接子包含一个或多个扩增区、一个或多个样品标签区、一个或多个UMI和/或一个或多个锚定区。在一些实施方案中，衔接子以从5’到3’的顺序包含扩增区、样品标签区、UMI和锚定区。在具体实施方案中，衔接子以从5’到3’的顺序包含扩增区、样品标签区、UMI和锚定区。在某些实施方案中，UMI被包含在样品标签区内，并且衔接子以从5’到3’的顺序包含扩增区、整合的样品标签/UMI区和锚定区。

如本文所用，术语“扩增区”是指衔接子分子的元件，其包含能够充当PCR扩增的引物识别位点的多核苷酸序列。在具体实施方案中，衔接子包含扩增区，其包含用于基因组DNA文库的单引物扩增的一个或多个引物识别序列。在一些实施方案中，扩增区包含基因组DNA文库的单引物扩增的一个、两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个引物识别序列。

在一些实施方案中，扩增区的长度在约5与50个核苷酸之间、10与45个核苷酸之间、15与40个核苷酸之间或20与30个核苷酸之间。在一些实施方案中，扩增区为10个核苷酸、11个核苷酸、12个核苷酸、13个核苷酸、14个核苷酸、15个核苷酸、16个核苷酸、17个核苷酸、约18个核苷酸、19个核苷酸、20个核苷酸、21个核苷酸、22个核苷酸、23个核苷酸、24个核苷酸、25个核苷酸、26个核苷酸、27个核苷酸、28个核苷酸、29个核苷酸、30个核苷酸、31个核苷酸、32个核苷酸、33个核苷酸、34个核苷酸、35个核苷酸、36个核苷酸、37个核苷酸、38个核苷酸、39个核苷酸或40个核苷酸或更多。在具体实施方案中，所述扩增区的长度为25个核苷酸。

如本文所用，术语“样品标签”或“样品标签区”可互换使用，并且是指衔接子的元件，所述元件包含独特地鉴定特定DNA片段以及衍生出它的样品的多核苷酸序列。

在某些实施方案中，样品标签区的长度在3与50个核苷酸之间、3与25个核苷酸之间或5与15个核苷酸之间。在一些实施方案中，样品标签区的长度为3个核苷酸、4个核苷酸、5个核苷酸、6个核苷酸、7个核苷酸、8个核苷酸、9个核苷酸、10个核苷酸、约11个核苷酸、12个核苷酸、13个核苷酸、14个核苷酸、15个核苷酸、16个核苷酸、17个核苷酸、18个核苷酸、19个核苷酸或20个核苷酸或更多。

在某些实施方案中，衔接子包含UMI倍增器，其中UMI倍增器的长度为至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9或至少10个核苷酸。

在某些实施方案中，UMI倍增器的每个核苷酸位置可以包含腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶中的任何一种。因此，在一些实施方案中，包含n个核苷酸的UMI倍增器可以包含n⁴个可能的核苷酸序列中的任何一种。在一些实施方案中，UMI倍增器的长度为一个核苷酸并且包含四个可能序列中的一个。在一些实施方案中，UMI倍增器的长度为两个核苷酸并且包含十六个可能序列中的一个。在一些实施方案中，UMI倍增器的长度为三个核苷酸并且包含64个可能序列中的一个。在一些实施方案中，UMI倍增器的长度为四个核苷酸并且包含256个可能序列中的一个。在一些实施方案中，UMI倍增器的长度为五个核苷酸并且包含1,024个可能序列中的一个。在一些实施方案中，UMI倍增器的长度为六个核苷酸并且包含4,096个可能序列中的一个。在一些实施方案中，UMI倍增器的长度为七个核苷酸并且包含16,384个可能序列中的一个。在一些实施方案中，UMI倍增器的长度为八个核苷酸并且包含65,5336个可能序列中的一个。在一些实施方案中，UMI倍增器的长度为九个核苷酸并且包含262,144个可能序列中的一个。在一些实施方案中，UMI倍增器的长度为十个或更多个核苷酸并且包含1,048,576或更多个可能序列中的一个。

在具体实施方案中，衔接子包含UMI倍增器，其中UMI倍增器与样品标签区相邻或包含在样品标签区内(图5A)。与样品标签相邻或包含在样品标签内的UMI倍增器的说明性例子在图5B中示出。在图5B中，示出了8-mer样品标签区，其具有相邻的UMI倍增器(顶部和底部行)或并入样品标签内的UMI倍增器(中间7行)。在一些实施方案中，该衔接子包含长度为八个核苷酸的样品标签和长度为三个核苷酸的UMI倍增器，并且包含64个可能序列中的一个，并且其中UMI倍增器与样品标签区相邻或包含在样品标签区内。在一些实施方案中，相同的过程将全长衔接子附接至基因组片段的另一端。

在具体实施方案中，衔接子模块包含一个或多个锚定序列。如本文所用，“锚定区”和“锚定序列”可互换使用，并且是指与配偶体寡核苷酸杂交的核苷酸序列。在一些实施方案中，锚定区包含以下三个特性：(1)每个锚定序列是两个或更多个锚定序列的家族的一部分，所述锚定序列共同表示延伸内每个位点处的四个可能的DNA碱基中的每一个；这一特征(平衡的碱基表示)可用于在具体实施方案中校准测序读段中的正确碱基调用；(2)每个锚定序列仅由四个可能碱基中的两个组成，并且这两个碱基被特别选择为相同数目的A+C或相同数目的G+T；仅由两个碱基形成的锚定序列降低了锚定序列参与二级结构形成的可能性，这将阻碍正常的衔接子功能；以及(3)因为每个锚定序列由相同数目的A+C或G+T组成，所以每个锚定序列与四个一组中的每个其他锚定序列具有大致相同的解链温度和双链体稳定性。

在一些实施方案中，锚定序列的长度在1与50个核苷酸之间。在一些实施方案中，锚定序列的长度在4与40个核苷酸之间。在某些实施方案中，所述锚定区的长度在5与25个核苷酸之间。在具体实施方案中，锚定区的长度为至少4个核苷酸、至少6个核苷酸、至少8个核苷酸、至少10个核苷酸、至少12个核苷酸、至少14个核苷酸或至少16个核苷酸。在具体实施方案中，所述锚定区的长度为10个核苷酸。

在具体实施方案中，附接步骤包括将衔接子模块附接/连接至末端修复的cfDNA或细胞DNA以生成“标记的”基因组DNA文库。在一些实施方案中，使用单个衔接子模块。在一些实施方案中，使用两个、三个、四个或五个衔接子模块。在一些实施方案中，将具有相同序列的衔接子模块附接至片段化的末端修复的DNA的各端。

在一些实施方案中，将多个衔接子种类附接至末端修复的细胞或无细胞基因组DNA片段。多个衔接子中的每一个可以包含用于cfDNA或细胞DNA文库的扩增的一个或多个扩增区、用于cfDNA或细胞基因组DNA片段的鉴定和单独样品的鉴定的一个或多个样品标签区以及用于DNA测序的一个或多个序列。

在一些实施方案中，将多个衔接子种类附接至样品的末端修复的细胞或无细胞基因组DNA片段，并且所述多个衔接子全部包含具有相同核苷酸序列的扩增区。

在某些实施方案中，来自样品的基因组DNA与包含样品标签序列的多个衔接子附接，所述样品标签序列全部不同于附接至来自其他样品的基因组DNA片段的衔接子中的样品标签区的其他序列。

在具体实施方案中，多个衔接子种类附接至来自样品的末端修复的细胞或无细胞基因组DNA片段，并且所述多个衔接子全部包含含有以下的一个或多个样品标签区：在2与10,000个核苷酸序列之间的一个核苷酸序列、在5与5,000个核苷酸序列之间的一个核苷酸序列、在25与1,000个核苷酸序列之间的一个核苷酸序列、在50与500个核苷酸序列之间的一个核苷酸序列、在100与400个核苷酸序列之间的一个核苷酸序列或在200与300个核苷酸序列之间的一个核苷酸序列。在一些实施方案中，每个衔接子的样品标签区的长度为8个核苷酸，并且所述多个衔接子中的每个样品标签区包含240个核苷酸序列中的一个。

在某些实施方案中，将多个衔接子种类附接至来自样品的末端修复的细胞或无细胞基因组DNA片段，并且所述多个衔接子的样品标签区包含汉明距离彼此相差1、2、3、4或大于4的核苷酸序列。在具体实施方案中，所述汉明距离为2。

在具体实施方案中，附接至样品的基因组DNA片段的多个衔接子的样品标签区的长度为8个核苷酸，并且包含汉明距离彼此相差2的240个核苷酸序列中的一个。

在某些实施方案中，样品标签区用于鉴定单独基因组DNA片段以及用于鉴定单独样品，即基因组文库来源。例如，当附接至样品的多个衔接子的样品标签具有240个可能序列中的一个时，每个样品被鉴定为具有240个可能标签中的一个，并且每个样品接收一组240个标签，这些标签与任何其他样品相隔的汉明距离为二(意味着需要两个碱基变化来将一种标签更改为另一种)。这些相同的标签用于枚举克隆多样性，因此它们也充当序列标签，即用于鉴定基因组DNA片段。为了进一步增加可能序列标签的多样性，可以添加UMI倍增器。例如，可以将UMI倍增器添加至包含由3个碱基的64种可能组合组成的3个核苷酸的衔接子区域。另外，多个衔接子可以包含多于一个锚定序列。例如，多个衔接子可以含有同时使用的4个不同的锚定序列。在样品解复用期间也可以使用这些锚定序列来减少错误。

图4示出了第一代衔接子(图4A和图4B)与本发明的衔接子(图4C至图4E)之间的说明性比较。图4A和图4B示出了第一代衔接子的例子，其长度为40nt并且由离散的PCR扩增序列、序列标签和样品标签组成。这里，样品由固定序列(序列标签)鉴定，所述固定序列存在于用于从样品生成DNA文库的所有衔接子上。通过单独且不同的序列(序列标签)鉴定单独基因组片段。图4C至图4E示出了来自本发明的衔接子的说明性例子。显示的说明性衔接子的长度为47个核苷酸，并且序列标签与样品标签组合。存在附加的3nt序列，即UMI倍增器，其由3个碱基的64种可能组合组成。10nt锚定序列是四个不同的相异序列中的一个。

因此，在说明性例子(参见图4C至图4E)中，与单个样品组合使用的衔接子组包含240个样品标签序列，其可以被分成四组样品标签序列，每组包含60种标签(每种核苷酸为一组：A、C、T和G)。因此，每组60个标签针对四个锚定序列中的一个是特异性的。总的来说，每个样品可以有240种可能样品标签配置的一个池。具体地，在这种情况下，240个样品标签序列被分成四组60个序列，其中每组涉及特定的锚定区。因此，样品ID不仅涉及来自八个核苷酸样品标签的序列信息，还涉及相关的锚定序列信息。此外，读段内序列的位置是固定的，因此样品标签和锚定序列必须在测序读段内具有固定位置，以通过包含过滤器以供下游考虑。此外，包含UMI倍增器将序列标签多样性从240增加至240×64＝15,360种可能的序列标签。

本文考虑的一个或多个衔接子的附接可以通过本领域普通技术人员已知的方法进行。在具体实施方案中，将本文考虑的一个或多个衔接子附接至包含平端的末端修复的cfDNA。在某些实施方案中，将本文考虑的一个或多个衔接子附接至末端修复的cfDNA，所述cfDNA包含适合于所用附接方法的互补端。在某些实施方案中，将本文考虑的一个或多个衔接子附接至包含3'突出端的末端修复的cfDNA。

在一些实施方案中，将基因组DNA片段附接至多个衔接子包括将末端修复的cfDNA或细胞DNA片段附接至含有至少一部分锚定区的寡核苷酸的步骤。在一些实施方案中，寡核苷酸含有整个锚定区。在具体实施方案中，寡核苷酸是包含与配偶体链双链化的5’磷酸化附接链的DNA双链体，其中所述配偶体链通过在其3’端的化学修饰而被阻止附接，并且其中所述附接链附接至所述基因组DNA片段。在某些实施方案中，与至少一部分锚定区附接的DNA片段随后与编码全长衔接子序列的DNA寡核苷酸退火。在具体实施方案中，将一种或多种多核苷酸激酶、一种或多种DNA连接酶和/或一种或多种DNA聚合酶添加至编码全长衔接子序列的基因组DNA片段和DNA寡核苷酸中。在一些实施方案中，多核苷酸激酶是T4多核苷酸激酶。在一些实施方案中，DNA连接酶是Taq DNA连接酶。在某些实施方案中，DNA聚合酶是Taq聚合酶。在具体实施方案中，DNA聚合酶是全长Bst聚合酶。

图6示出了将多个衔接子附接至修复的DNA片段的3’端的说明性方法。在第一步中，将锚定序列附接至基因组片段的3’端。在该步骤中，锚部分是DNA双链体，其中十个核苷酸5’磷酸化的“附接链”与在其3’端通过化学修饰被阻止附接的八个核苷酸“配偶体链”双链化。锚双链体在磷酸化/封闭端是平端的，因此可以附接至平端的基因组片段。在下一步骤中，将编码完整衔接子序列的寡核苷酸池退火至初始锚定序列。T4多核苷酸激酶、TaqDNA连接酶和全长Bst聚合酶的组合作用如对于顶部链所示经由连接附接该寡核苷酸，并通过DNA聚合在底部链上延伸初始锚定序列以完成全长衔接子序列。可以使用相同的过程将全长衔接子附接至基因组片段的5'端。

2.DNA文库扩增

在具体实施方案中，本文考虑的遗传分析方法包括基因组DNA文库(例如细胞DNA文库或cfDNA文库)的扩增，以生成DNA克隆文库或DNA克隆的文库，例如cfDNA克隆文库或cfDNA克隆的文库，或者细胞DNA克隆文库或细胞DNA克隆的文库。DNA文库的每个分子包含附接至末端修复的DNA片段的各端的衔接子，并且每个衔接子包含一个或多个扩增区。在一些实施方案中，将不同的衔接子附接至末端修复的cfDNA的不同端。在具体实施方案中，将不同的衔接子附接至末端修复的细胞DNA的不同端。

在一些实施方案中，将相同的衔接子附接至DNA片段的两端。相同的衔接子附接至末端修复的DNA的两端允许采用单个引物序列的PCR扩增。在具体实施方案中，衔接子附接的cfDNA文库的一部分将使用采用单个引物序列驱动扩增的标准PCR技术进行扩增。在一个实施方案中，单个引物序列为约25个核苷酸，任选地在标准离子强度条件下预计Tm≥55℃。

在具体实施方案中，皮克的初始基因组DNA文库(例如细胞DNA文库或cfDNA文库)被扩增成微克的DNA克隆，这意味着10,000倍的扩增。扩增产物的量可以使用本领域已知的方法测量，例如在Qubit 2.0或Nanodrop仪器上定量来测量。

3.测定基因组当量的数目

在各种实施方案中，基因组DNA的遗传分析方法包括测定DNA克隆文库中基因组当量的数目。如本文所用，术语“基因组当量”是指每个文库中基因组拷贝的数目。本文考虑的组合物和方法遇到的重要挑战是达到足够的测定灵敏度以检测和分析罕见的遗传突变或遗传序列的差异。为了在逐样品基础上确定测定灵敏度值，通过测量测序文库中存在的基因组当量的数目来测量每个样品中存在的不同和有区别的序列的数目。为了建立灵敏度，必须测量每个样品文库的基因组当量的数目。

基因组当量的数目可以在进行测序后通过qPCR测定或通过使用基于生物信息学的计数来测定。在临床样品的工艺流程中，基因组当量的qPCR测量用作DNA文库(例如cfDNA文库或基因组DNA文库)的QC步骤。该步骤在序列分析之前建立了对测定灵敏度的期望值，并且允许从分析中排除样品，条件是该样品相应的DNA克隆文库缺乏所需的基因组当量深度。最终，基于生物信息学的基因组当量计数也用于鉴定每个给定DNA克隆文库的基因组当量，并因此鉴定测定灵敏度和假阴性估计。

经验qPCR测定和统计计数测定应该具有良好的相关性。在测序未能揭示DNA克隆文库中的序列深度的情况下，可能需要重新处理DNA克隆文库和/或附加的测序。

在一个实施方案中，使用定量PCR(qPCR)测定来测定细胞DNA或cfDNA克隆文库中的基因组当量。在具体实施方案中，使用已知浓度的标准文库来构建标准曲线，并且将来自qPCR测定的测量值拟合至得到的标准曲线，并且从所述拟合推导出基因组当量的值。本发明人已发现包括一个与基因组中的共同序列特异性地杂交的引物(例如重复序列)和另一个结合衔接子中引物结合位点的引物的“基于重复”的qPCR测定与仅使用衔接子特异性引物(存在于cfDNA克隆的两端)的方法相比，测量到的基因组当量增加8倍。通过基于重复的测定测量的基因组当量的数目提供了更一致的文库间性能以及在测序运行中基因组当量的qPCR估计与生物信息学计数的标签当量之间更好的比对。

适用于本文考虑的基于重复的基因组当量测定的重复的说明性例子包括但不限于：短散布核元件(SINE)，例如Alu重复；长散布核元件(LINE)，例如LINE1、LINE2、LINE3；微卫星重复元件，例如短串联重复(STR)，简单序列重复(SSR)；以及哺乳动物广泛散布重复(MIR)。

在一个实施方案中，所述重复是Alu重复。

4.定量遗传分析

在各种实施方案中，用于基因组DNA(例如基因组细胞或cfDNA)的遗传分析的方法包括DNA文库克隆的一个或多个靶基因座的定量遗传分析。定量遗传分析包括以下步骤中的一个或多个或全部：捕获包含靶基因座的DNA克隆；捕获的靶向基因座的扩增；对扩增的捕获靶向基因座进行测序；以及生成的序列读段的生物信息学分析。如本文所用，术语“DNA文库克隆”是指DNA文库片段，其中衔接子和基因组DNA片段的组合产生独特DNA序列(例如，可以区别于另一个DNA文库克隆的DNA序列)。

(a)捕获靶基因座

本发明部分地考虑了捕获探针模块，其被设计为保持较大探针的效率和可靠性，但最小化包含较小DNA片段的基因组DNA文库(例如cfDNA克隆文库)中的无信息序列生成。如本文所用的“捕获探针”或“捕获探针模块”可互换使用，并且是指包含捕获探针序列和尾序列的多核苷酸。在具体实施方案中，捕获探针模块序列或其部分充当一个或多个测序引物的引物结合位点。

在具体实施方案中，捕获探针模块包含捕获探针。如本文所用，“捕获探针”是指能够与特异性DNA靶区域杂交的区域。在一些实施方案中，捕获探针与由细胞DNA构建的基因组DNA文库一起使用。在具体实施方案中，捕获探针与由cfDNA构建的基因组DNA文库一起使用。因为cfDNA的平均大小为约150至约170bp并且是高度片段化的，所以某些实施方案所涉及的本文考虑的组合物和方法包括使用高密度和相对短的捕获探针来询问目标DNA靶区域。在一些实施方案中，捕获探针能够与以均匀密度分布在所有染色体区段上的DNA靶区域杂交。一组这样的捕获探针在本文中称为“染色体稳定性探针”。染色体稳定性探针用于询问全基因组范围的拷贝数变异，以提供染色体拷贝数(例如，染色体倍性)的全基因组测量。

使用高密度捕获探针的一个特别关注点是通常使用特定的“序列规则”设计捕获探针。例如，在设计捕获探针时通常排除冗余序列的区域或显示出极端碱基组成偏差的区域。然而，本发明人已经发现捕获探针设计规则缺乏灵活性基本上不影响探针性能。相反，严格根据位置约束选择的捕获探针提供中靶序列信息；显示出极少的脱靶和不可映射的读段捕获；并且产生统一的、有用的中靶读段，只有少数例外。此外，紧密探针间距的高冗余度大大补偿了偶尔性能较差的捕获探针。

在具体实施方案中，靶区域被多个捕获探针靶向，其中任何两个或更多个捕获探针被设计为与靶区域在彼此10个核苷酸内、在彼此15个核苷酸内、在彼此20苷酸内、在彼此25个核苷酸内、在彼此30个核苷酸内、在彼此35个核苷酸内、在彼此40个核苷酸内、在彼此45个核苷酸内或在彼此50个核苷酸或更多个核苷酸内以及在所有中间的核苷酸长度内结合。

在一个实施方案中、捕获探针为约25个核苷酸、约26个核苷酸、约27个核苷酸、约28个核苷酸、约29个核苷酸、约30个核苷酸、约31个核苷酸、约32个核苷酸、约33个核苷酸、约34个核苷酸、约35个核苷酸、约36个核苷酸、约37个核苷酸、约38个核苷酸、约39个核苷酸、约40个核苷酸、约41个核苷酸、约42个核苷酸、约43个核苷酸、约44个核苷酸或约45个核苷酸。

在一个实施方案中，捕获探针为约100个核苷酸、约200个核苷酸、约300个核苷酸、约400个核苷酸或约100个核苷酸。在另一个实施方案中，捕获探针为约100个核苷酸至约500个核苷酸、约200个核苷酸至约500个核苷酸、约300个核苷酸至约500个核苷酸或约400个核苷酸至约500个核苷酸或其任何中间范围。

在具体实施方案中，捕获探针为60个核苷酸。在另一种实施方案中，捕获探针基本上小于60个核苷酸，但与靶向相同DNA靶区域的60个核苷酸捕获探针相比，可比较地、相当地或更好地杂交。在某个实施方案中，捕获探针为40个核苷酸。

在某些实施方案中，捕获探针模块包含尾序列。如本文所用，术语“尾序列”是指捕获探针模块的5'端的多核苷酸，它在具体实施方案中可充当引物结合位点。在具体实施方案中，测序引物结合尾区中的引物结合位点。

在具体实施方案中，尾序列为约5至约100个核苷酸、约10至约100个核苷酸、约5至约75个核苷酸、约5至约50个核苷酸、约5至约25个核苷酸或约5至约20个核苷酸。在某些实施方案中，第三区域为约10至约50个核苷酸、约15至约40个核苷酸、约20至约30个核苷酸或约20个核苷酸或任何中间数目的核苷酸。

在具体实施方案中，尾序列为约30个核苷酸、约31个核苷酸、约32个核苷酸、约33个核苷酸、约34个核苷酸、约35个核苷酸、约36个核苷酸、约37个核苷酸、约38个核苷酸、约39个核苷酸或约40个核苷酸。

在各种实施方案中，捕获探针模块包含结合对的特定成员，使得能够分离和/或纯化与捕获探针杂交的标记和/或扩增的基因组DNA文库(例如，细胞或cfDNA文库)的一个或多个捕获片段。在具体实施方案中，捕获探针模块与生物素或另一种合适的半抗原(例如二硝基苯酚、地高辛)缀合。

在各种实施方案中，捕获探针模块与标记的和任选扩增的DNA文库杂交以形成复合物。在一些实施方案中，多功能捕获探针模块基本上与DNA文库中的特异性基因组靶区域杂交。

杂交(“Hybridization”或“hybridizing”)条件可以包括任何反应条件，其中两个核苷酸序列形成稳定的复合物；例如，标记的DNA文库和捕获探针模块形成稳定的标记DNA文库-捕获探针模块复合物。这种反应条件是本领域公知的，并且本领域技术人员将理解，这样的条件可以适当地并且在本发明的范围内改变，例如，较短长度的捕获探针的情况下降低退火温度。当捕获探针复合物的第二区域显示出与标记的DNA文库的区域100％、99％、98％、97％、96％、95％、94％、93％、92％、91％、90％、89％、88％、85％、80％、75％或70％序列同一性、同源性或互补性时，可发生大量杂交。

在具体实施方案中，捕获探针为约40个核苷酸，并且最佳退火温度为约44℃至约47℃。

在某些实施方案中，本文考虑的方法包括分离标记的cfDNA文库-捕获探针模块复合物。在具体实施方案中，用于分离DNA复合物的方法是本领域技术人员公知的，并且本领域技术人员认为合适的任何方法都可以与本发明的方法一起使用(Ausubel等人,CurrentProtocols in Molecular Biology,2007-2012)。在具体实施方案中，使用生物素-链霉亲和素分离技术分离复合物。

在具体实施方案中，考虑从分离的标记DNA文库片段-捕获探针模块复合物中去除单链3'-端。在某些实施方案中，所述方法包括3'-5'外切核酸酶酶促处理分离的标记DNA文库-多功能捕获探针模块复合物以去除单链3'端。

在某些其他实施方案中，所述方法包括利用分离的标记DNA文库片段作为模板，进行多功能捕获探针的5'-3′DNA聚合酶延伸。

在某些其他实施方案中，所述方法包括通过5’FLAP内切核酸酶、DNA聚合和通过DNA连接酶的切口闭合的协同作用产生杂交捕获探针分离的标记DNA靶分子，例如标记的cfDNA靶分子或标记的细胞DNA靶分子。

多种酶可用于分离的标记DNA文库-多功能捕获探针模块复合物的3'-5'外切核酸酶酶促处理。在具体实施方案中可以使用的显示出3'-5'外切核酸酶酶活性的合适酶的说明性例子包括但不限于：T4或外切核酸酶I、III、V(还参见，Shevelev IV,Hübscher U.,NatRev Mol Cell Biol.3(5):364-76(2002))。在具体实施方案中，包含3'-5'外切核酸酶活性的酶是T4聚合酶。在具体实施方案中，可以使用显示出3'-5'外切核酸酶酶活性并且能够进行引物模板延伸的酶，其包括例如T4或外切核酸酶I、III、V(同上)。

在一些实施方案中，本文考虑的方法包括对上文和本文其他地方讨论的经3'-5'外切核酸酶酶促处理的复合物进行测序和/或PCR。在具体实施方案中，复制捕获探针分子的尾部以生成杂交核酸分子。在一个实施方案中，生成的杂交核酸分子包含能够与捕获探针模块和捕获探针模块尾序列的互补体杂交的靶区域。

在特定的实施方案中，遗传分析包括a)将一个或多个捕获探针模块与多个基因组DNA文库克隆中的一个或多个靶基因座杂交，以形成一个或多个捕获探针模块-DNA文库克隆复合物；b)从a)分离一个或多个捕获探针模块-DNA文库克隆复合物；c)酶促处理来自步骤b)的一个或多个分离的捕获探针模块-DNA文库克隆复合物；d)对来自c)的经酶促处理的复合物进行PCR，其中复制捕获探针分子的尾部以生成扩增的杂交核酸分子，其中扩增的杂交核酸分子包含能够与捕获探针和捕获探针模块尾序列的互补体杂交的靶基因组基因座中的靶序列；以及e)对来自d)的经扩增的杂交核酸分子进行定量遗传分析。

在具体实施方案中，考虑了用于测定特异性靶基因座的拷贝数的方法，其包括：a)将一个或多个捕获探针模块与多个DNA文库克隆中的一个或多个靶基因座杂交，以形成一个或多个捕获探针模块-DNA文库克隆复合物；b)从a)分离一个或多个捕获探针模块-DNA文库克隆复合物；c)酶促处理来自步骤b)的一个或多个分离的捕获探针模块-DNA文库克隆复合物；d)对来自c)的经酶促处理的复合物进行PCR，其中复制捕获探针分子的尾部以生成扩增的杂交核酸分子，其中扩增的杂交核酸分子包含能够与捕获探针和捕获探针模块尾序列的互补体杂交的靶基因组基因座中的靶序列；e)对d)中的经扩增的杂交核酸分子进行PCR扩增；以及f)量化e)中的PCR反应，其中量化允许测定特异性靶区域的拷贝数。

在一个实施方案中，步骤c)的酶促处理包括使用具有3'-5'外切核酸酶活性的酶对来自b)的一个或多个捕获探针模块-DNA文库克隆复合物进行3'-5'外切核酸酶酶促处理，以去除单链3'端；通过5’FLAP内切核酸酶、DNA聚合和通过DNA连接酶的切口闭合的协同作用产生一个或多个杂交捕获探针模块-cfDNA文库克隆分子；或使用复合物中分离的DNA克隆作为模板进行捕获探针的5'-3’DNA聚合酶延伸。

在一个实施方案中，步骤c)的酶促处理包括使用复合物中分离的DNA克隆作为模板进行捕获探针的5'-3'DNA聚合酶延伸。

在具体实施方案中，PCR可以使用本领域技术人员公知的任何标准PCR反应条件进行。在某些实施方案中，e)中的PCR反应使用两个PCR引物。在一个实施方案中，e)中的PCR反应使用第一PCR引物，其与靶基因座内的重复杂交。在具体实施方案中，e)中的PCR反应使用第二PCR引物，其与靶基因座/尾连接处的杂交核酸分子杂交。在某些实施方案中，e)中的PCR反应使用与靶基因座杂交的第一PCR引物和与靶基因座/尾连接处的扩增的杂交核酸分子杂交的第二PCR引物。在具体实施方案中，第二引物与靶基因座/尾连接杂交，使得引物的至少一个或多个核苷酸与靶基因座杂交，并且引物的至少一个或多个核苷酸与尾序列杂交。

在某些实施方案中，对从步骤e)获得的扩增的杂交核酸分子进行测序，并将序列水平地比对，即彼此比对但不与参考序列比对。在具体实施方案中，步骤a)至e)用一个或多个捕获探针模块重复一次或多次。捕获探针模块可以相同或不同，并且被设计为靶向靶基因座的cfDNA链。在一些实施方案中，当捕获探针不同时，它们在标记的cfDNA克隆文库中的靶基因座内的重叠或相邻靶序列处杂交。在一个实施方案中，使用高密度捕获探针策略，其中多个捕获探针与靶基因座杂交，并且其中所述多个捕获探针中的每一个在与标记的DNA克隆文库中的靶基因座杂交的任何其他捕获探针的约5、10、15、20、25、30、35、40、45、50、100、200bp或更多长度内(包括所有中间距离)与靶基因座杂交。

在一些实施方案中，所述方法可以使用每个靶基因座的两个捕获探针模块进行，其中一个与靶区域上游的“Watson”链(非编码或模板链)杂交，并且一个与靶区域下游的“Crick”链(编码或非模板链)杂交。

在具体实施方案中，本文考虑的方法可以进一步用任何数目的捕获探针模块进行多次，例如每个靶基因座的2、3、4、5、6、7、8、9或10个或更多个捕获探针模块，任何数目的所述捕获探针模块以任意组合与Watson或Crick链杂交。在一些实施方案中，获得的序列可以彼此比对以鉴定许多差异中的任何差异。

在某些实施方案中，使用一个或多个捕获探针模块询问多个靶基因座，例如在单个反应中询问100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、5000、10000、50000、100000、500000个或更多个。

(b)测序

在具体实施方案中，定量遗传分析包括如本文其他地方所述对多个杂交核酸分子进行测序，以生成足够的测序深度以获得多个独特测序读段。术语“独特读段”或“独特基因组序列”(UGS)在本文中可互换使用，并通过将单独冗余读段分组为“家族”来鉴定。冗余读段是如下序列读段，其共用相同的UMIE(例如，在基因组序列内共用相同的读段密码和相同DNA序列起始位置)并且源自单个附接事件，因此是彼此的经扩增衍生的“同胞”。代表冗余读段家族的单个共有序列作为独特读段或UGS继续使用。每个独特读段或UGS被视为独特附接事件。对应于特定捕获探针的独特读段的总和被称为针对该特定捕获探针的“原始基因组深度”(RGD)。每个捕获探针产生一组独特读段，它通过分组为家族从总读段计算得出。然后将给定样品的独特读段(例如，样品的原始基因组深度)计算为在逐探针的基础上观察到的所有独特读段的平均值。独特读段是重要的，因为每个独特读段必须源自独特基因组DNA克隆。每个独特读段代表基因组DNA的单倍体当量的输入和分析。独特读段的总和是分析的单倍体基因组的总和。反过来，分析的基因组数目限定了测序测定的灵敏度。作为非限制性例子，如果平均独特读段计数是100个基因组当量，那么该特定测定具有能够检测100个中的一个突变读段或1％的灵敏度。任何低于此的观察结果都是不可靠的。

从用于计算样品平均值的数据组排除存在明显拷贝数变化的情况(例如，噪声探针的例子)。在本文中，“噪声探针”是指在大的相同样品组中捕获高度可变数目的独特读段(例如，12-16个样品重复中的高度可变数目的独特读段)的探针。在一些实施方案中，与样品的独特读段的平均数目相比，与噪声探针相关的独特读段的数目增加了50％或更多。在一些实施方案中，与样品的独特读段的平均数目相比，与噪声探针相关的独特读段的数目减少了50％或更多。在一些实施方案中，在特定分析中使用的约2％至约4％的探针被鉴定为噪声探针，并且从计算中排除以测定给定样品的独特读段的平均数目。

在一些实施方案中，测序读段被鉴定为“中靶读段”或“脱靶读段”。中靶读段具有基因组DNA序列，其位于用于产生基因组文库的捕获探针附近。在一些实施方案中，其中每个基因组序列与特异性捕获探针物理连接并且其中基因组区段和捕获探针的序列均被确定为统一的信息片段，中靶读段被定义为起始坐标位于相应捕获探针的3’端的400bp内且更通常位于200bp内的任何基因组序列。脱靶读段被定义为具有如下基因组序列，所述基因组序列相对于捕获探针在≥500个碱基对(并且更通常映射至完全不同的染色体)的位置处与参考基因组比对。

在具体实施方案中，定量遗传分析包括源自多个样品的杂交核酸分子的多重测序。

在各种实施方案中，定量遗传分析包括获得一个或多个或多个标记的DNA文库克隆，每个克隆包含第一DNA序列和第二DNA序列，其中第一DNA序列包含靶向基因座中的序列且第二DNA序列包含捕获探针序列；在一个或多个克隆上进行配对端测序反应并获得一个或多个测序读段或在所述一个或多个克隆上进行测序反应，其中获得大于约100、200、300、400、500个或更多个核苷酸的单个长测序读段，其中所述读段足以鉴定第一DNA序列和第二DNA序列；以及根据测序读段的探针序列对一个或多个克隆的测序读段进行排序或聚类。

(c)生物信息学分析

在各种实施方案中，定量遗传分析还包括测序读段的生物信息学分析。生物信息学分析排除了在没有用于测序的化合物或方法的情况下进行的任何纯粹的心理分析。在某些实施方案中，生物信息学分析包括但不限于：序列比对；基因组当量分析；单核苷酸变异(SNV)分析；基因拷贝数变异(CNV)分析；测量染色体拷贝数；以及检测遗传病变。在具体实施方案中，生物信息学分析可用于量化cfDNA克隆文库中分析的基因组当量数目；检测靶基因座的遗传状态；检测靶基因座中的遗传病变；以及测量靶基因座内的拷贝数波动。

可以在序列读段与一种或多种人参考DNA序列之间进行序列比对。在具体实施方案中，测序比对可用于检测靶基因座中的遗传病变，包括但不限于检测核苷酸转换或颠换、核苷酸插入或缺失、基因组重排、拷贝数变化或基因融合。检测作为因果或预后指标的遗传病变可用于诊断、预后、治疗和/或监测特定遗传病症或疾病。

本文还考虑了用于序列比对分析的方法，其可以在不需要与参考序列比对的情况下进行，这在本文中称为水平序列分析。可以对通过本文考虑的方法或任何其他方法生成的任何序列进行这种分析。在具体实施方案中，序列分析包括对通过本文考虑的方法获得的读段进行序列比对。

在一个实施方案中，在进行测序之后，使用基于生物信息学的计数来测定cfDNA克隆文库中的基因组当量。每个测序读段与特定捕获探针相关，并且分配至每个捕获探针的读段的集合被解析成组。在一组中，读段集在基因组序列内共用相同的读段密码和相同的DNA序列起始位置。这些单独读段被分组为“家族”，并且代表该家族的单个共有序列作为“独特读段”继续使用。构成家族的所有单独读段都源自单个附接事件，因此，它们是彼此的扩增衍生的“同胞”。每个独特读段被认为是独特的附接事件，并且独特读段的总和被认为等于所分析的基因组当量的数目。

随着独特克隆的数目接近可能的序列组合的总数，概率规定相同的密码和起始位点组合将通过独立事件创建，并且这些独立事件将不适当地分组在单个家族中。最终结果将是低估了所分析的基因组当量，并且罕见突变读段可能作为测序错误被丢弃，因为它们与具有相同标识符的野生型读段重叠。

在具体实施方案中，为了提供cfDNA克隆文库的准确分析，分析的基因组当量数目是可能的独特克隆数目的约1/10、约1/12、约1/14、约1/16、约1/18、约1/20、约1/25或更少。应该理解，以上概述的程序仅仅是说明性的而非限制性的。

在一些实施方案中，可能需要增加待分析的基因组当量的数目。为了增加基因组当量的深度，考虑了至少两种解决方案。第一种解决方案是每个样品使用多于一个衔接子组。通过组合衔接子，可以成倍地扩大可能克隆的总数，从而扩大基因组输入的舒适极限。第二种解决方案是将读段密码扩大1、2、3、4或5个或更多个碱基。与每个其他读段密码相差至少2个碱基的可能读段密码的数目以4^(n-1)放大，其中n是读段密码内的碱基数目。因此，在非限制性例子中，如果读段密码是5个核苷酸且4^(5-1)＝256；因此，对于每个附加的碱基，包含附加的碱基将可用的库扩大了四倍。

在一个实施方案中，定量遗传分析包括测序读段的生物信息学分析以鉴定罕见的单核苷酸变异(SNV)。

新一代测序的固有错误率为约0.02-0.02％，这意味着从1/200到1/500的碱基调用不正确。为了检测在低于此频率发生的变异和其他突变，例如以1/1000的序列的频率，有必要使用分子注释策略。作为非限制性例子，使用靶向序列捕获技术分析5000个独特分子将生成(在>50,000个读段的充分测序深度下)5000个独特读段的集合，其中每个独特读段属于全部具有相同读段密码的读段“家族”。在家族中发生的SNV是成为罕见变异的候选者。当在多于一个家族中观察到相同的变异时，它是成为在起始样品中存在的罕见变异的非常强大的候选者。相反，在家族中偶尔发生的变异可能是测序错误，并且在一个且仅一个家族中发生的变异是罕见的或者是离体发生的碱基改变(例如，DNA碱基的氧化或PCR引入的错误)的结果。

在一个实施方案中，检测SNV的方法包括根据测定所需的目标灵敏度引入10倍多的基因组输入(基因组或基因组当量)。在一个非限制性例子中，如果所需的灵敏度是2％(2/100)，那么实验靶标是2000个基因组的输入。

在具体实施方案中，测序数据的生物信息学分析用于检测或鉴定与以下相关的SNV：遗传状态、病症或疾病，遗传嵌合，胎检，亲子鉴定，预测对药物治疗的反应，诊断或监测医疗病症，微生物组分析，病原体筛查以及监测器官移植。

在各种实施方案中，提供了用于拷贝数测定分析的方法，包括获得一个或多个或多个克隆，每个克隆包含第一DNA序列和第二DNA序列，其中第一DNA序列包含靶向基因座中的序列且第二DNA序列包含捕获探针序列。在相关的实施方案中，在一个或多个克隆上进行配对端测序反应，并获得一个或多个测序读段。在另一个实施方案中，在一个或多个克隆上进行测序反应，其中获得大于约100个核苷酸的单个长测序读段，其中所述读段足以鉴定第一DNA序列和第二DNA序列。可以根据测序读段的探针序列对一个或多个克隆的测序读段进行排序或聚类。

拷贝数分析包括但不限于检查在给定基因组DNA样品中发生的特定基因或突变的拷贝数的分析，并且还可以包括定量测定给定基因的拷贝数或给定样品中的序列差异。在具体实施方案中，拷贝数分析用于检测或鉴定与以下相关的基因扩增：遗传状态、病症或疾病，胎检，遗传嵌合，亲子鉴定，预测对药物治疗的反应，诊断或监测疫疗病症，微生物组分析，病原体筛查，以及监测器官移植。

在一些实施方案中，拷贝数分析用于测量染色体不稳定性。在这样的实施方案中，使用包含染色体稳定性探针的捕获探针组来测定所有染色体组中均匀密度下的拷贝数变异。对每个染色体稳定性探针进行拷贝数分析，然后将染色体稳定性探针根据其染色体靶标进行排序。这允许基因组中拷贝数丢失或增加的可视化，并且可以充当染色体稳定性的量度。

在具体实施方案中，测序数据的生物信息学分析用于检测或鉴定靶基因座中的一个或多个序列或遗传病变，包括但不限于检测核苷酸转换或颠换、核苷酸插入或缺失、基因组重排、拷贝数变化或基因融合。检测作为因果或预后指标的遗传病变可用于诊断、预后、治疗和/或监测特定遗传病症或疾病。在一个实施方案中，遗传病变与以下相关：遗传状态、病症或疾病，胎检，遗传嵌合，亲子鉴定，预测对药物治疗的反应，诊断或监测医疗病症，微生物组分析，病原体筛查和监测器官移植。

D.定量CNL测定的临床应用

在各种实施方案中，本发明考虑了通过检测目标区域中的突变、SNP、易位、倒位、缺失、拷贝数变化或其他基因变异来检测、鉴定、预测、诊断或监测受试者中的病症或疾病的方法。

E.定量遗传分析的临床应用

在各种实施方案中，本发明考虑了检测、识别、预测、诊断或监测受试者中的病症或疾病的方法。

在具体实施方案中，检测、鉴定、预测、诊断或监测受试者中的遗传状态、病症或疾病的方法包括对DNA克隆文库中的一个或多个靶基因座进行定量遗传分析，以检测或鉴定一个或多个靶基因座处的序列变化。在一些实施方案中，所述变化是拷贝数变化。

在一个实施方案中，检测、鉴定、预测、诊断或监测遗传状态、病症或疾病的方法包括从受试者的生物样品分离或获得细胞DNA或cfDNA；用一种或多种末端修复酶处理细胞DNA或cfDNA以生成末端修复的DNA；将一个或多个衔接子附接至末端修复的DNA的各端以生成基因组DNA文库；扩增DNA文库以生成DNA克隆文库；测定DNA克隆文库中的基因组当量数目；以及对DNA克隆文库中的一个或多个靶基因座进行定量遗传分析，以检测或鉴定序列的变化，例如一个或多个靶基因座处的SNP、易位、倒位、缺失或拷贝数变化。

在具体实施方案中，检测、鉴定、预测、诊断或监测遗传状态或遗传病症或疾病(其选自由以下组成的组：遗传疾病；遗传嵌合；胎检；亲子鉴定；亲子鉴定；预测对药物治疗的反应；诊断或监测医疗病症；微生物组分析；病原体筛查；和器官移植监测)的方法包括从受试者的生物样品分离或获得基因组DNA；用一种或多种末端修复酶处理DNA以生成末端修复的DNA；将一个或多个衔接子附接至末端修复的DNA的各端以生成基因组DNA文库；扩增基因组DNA文库以生成DNA克隆文库；测定DNA克隆文库中的基因组当量数目；以及对DNA克隆文库中的一个或多个靶基因座进行定量遗传分析，以检测或鉴定一个或多个靶基因座处的序列中的核苷酸转换或颠换、核苷酸插入或缺失、基因组重排、拷贝数变化或基因融合。

可用本文考虑的组合物和方法检测、鉴定、预测、诊断或监测的遗传疾病的说明性例子包括但不限于癌症、阿尔茨海默病(APOE1)、腓骨肌萎缩症、Leber遗传性视神经病变(LHON)、Angelman综合征(UBE3A，泛素-蛋白连接酶E3A)、Prader-Willi综合征(15号染色体中的区域)、β-地中海贫血(HBB，β-球蛋白)、戈谢病(I型)(GBA，葡糖脑苷脂酶)、囊性纤维化(CFTR上皮氯通道)、镰状细胞病(HBB，β-球蛋白)、泰-萨克斯病(HEXA，己糖胺酶A)、苯丙酮尿症(PAH，苯丙氨酸水解酶)、家族性高胆固醇血症(LDLR，低密度脂蛋白受体)、成人多囊肾病(PKD1，多囊蛋白)、亨廷顿病(HDD，亨廷顿蛋白)、I型神经纤维瘤病(NF1，NF1肿瘤抑制基因)、肌强直性营养不良(DM，薏仁米)、结节性硬化症(TSC1，马铃薯球蛋白)、软骨发育不全(FGFR3，成纤维细胞生长因子受体)、脆性X综合征(FMR1，RNA结合蛋白)、杜氏肌肉营养不良(DMD，肌萎缩蛋白)、A型血友病(F8C，凝血因子VIII)、Lesch-Nyhan综合征(HPRT1，次黄嘌呤鸟嘌呤核糖基转移酶1)和肾上腺脑白质营养不良(ABCD1)。

可用本文考虑的组合物和方法检测、鉴定、预测、诊断或监测的癌症的说明性例子包括但不限于：B细胞癌、例如多发性骨髓瘤、黑色素瘤、乳腺癌、肺癌(如非小细胞肺癌或NSCLC)、支气管癌症、结直肠癌、前列腺癌、胰腺癌、胃癌、卵巢癌、尿膀胱癌、脑或中枢神经系统癌症、外周神经系统癌症、食道癌、宫颈癌、子宫或子宫内膜癌、口腔癌或咽癌、肝癌、肾癌、睾丸癌、胆道癌、小肠或阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、血液组织癌、腺癌、炎性肌纤维母细胞瘤、胃肠道间质瘤(GIST)、结肠癌、多发性骨髓瘤(MM)、骨髓增生异常综合征(MDS)、骨髓增殖性疾病(MPD)、急性淋巴细胞白血病(ALL)、急性粒细胞白血病(AML)、慢性粒细胞白血病(CML)、慢性淋巴细胞白血病(CLL)、真性红细胞增多症、霍奇金淋巴瘤、非霍奇金淋巴瘤(NHL)、软组织肉瘤、纤维肉瘤、粘液肉瘤、脂肪肉瘤、骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤文氏肉瘤、平滑肌肉瘤、横纹肌肉瘤、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、髓样癌、支气管癌、肾细胞癌、肝细胞瘤、胆管癌、绒毛膜癌、精原细胞瘤、胚胎性癌、维尔姆斯瘤、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、成神经管细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突神经胶质瘤、脑膜瘤、神经母细胞瘤、视网膜母细胞瘤、滤泡性淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、肝细胞癌、甲状腺癌、胃癌、头颈癌、小细胞癌、原发性血小板增多症、不明原因的髓样化生、嗜酸性粒细胞增多症、系统性肥大细胞增生症、熟悉嗜酸性粒细胞增多症、慢性嗜酸性粒细胞白血病、神经内分泌癌、类癌肿瘤等。

在一个实施方案中，遗传病变是在Cosmic数据库中注释的病变(病变和序列数据可在线获得，并且可从Cosmic网站的Cancer Gene Census部分下载)或在癌症基因组图谱中注释的病变(病变和序列数据可在线获得，并且可从The Cancer Genome Atlas网站下载)。

具有可采用本文考虑的组合物和方法检测、鉴定、预测、诊断或监测的与癌症相关的一种或多种遗传病变的基因的说明性例子包括但不限于ABCB1、ABCC2、ABCC4、ABCG2、ABL1、ABL2、AKT1、AKT2、AKT3、ALDH4A1、ALK、APC、AR、ARAF、ARFRP1、ARID1A、ATM、ATR、AURKA、AURKB、BCL2、BCL2A1、BCL2L1、BCL2L2、BCL6、BRAF、BRCA1、BRCA2、Clorf144、CARD11、CBL、CCND1、CCND2、CCND3、CCNE1、CDH1、CDH2、CDH20、CDH5、CDK4、CDK6、CDK8、CDKN2A、CDKN2B、CDKN2C、CEBPA、CHEK1、CHEK2、CRKL、CRLF2、CTNNB1、CYP1B1、CYP2C19、CYP2C8、CYP2D6、CYP3A4、CYP3A5、DNMT3A、DOT1L、DPYD、EGFR、EPHA3、EPHA5、EPHA6、EPHA7、EPHB1、EPHB4、EPHB6、EPHX1、ERBB2、ERBB3、ERBB4、ERCC2、ERG、ESR1、ESR2、ETV1、ETV4、ETV5、ETV6、EWSR1、EZH2、FANCA、FBXW7、FCGR3A、FGFR1、FGFR2、FGFR3、FGFR4、FLT1、FLT3、FLT4、FOXP4、GATA1、GNA11、GNAQ、GNAS、GPR124、GSTP1、GUCY1A2、HOXA3、HRAS、HSP90AA1、IDH1、IDH2、IGF1R、IGF2R、IKBKE、IKZF1、INHBA、IRS2、ITPA、JAK1、JAK2、JAK3、JUN、KDR、KIT、KRAS、LRP1B、LRP2、LTK、MAN1B1、MAP2K1、MAP2K2、MAP2K4、MCL1、MDM2、MDM4、MEN1、MET、MITF、MLH1、MLL、MPL、MRE11A、MSH2、MSH6、MTHFR、MTOR、MUTYH、MYC、MYCL1、MYCN、NF1、NF2、NKX2-1、NOTCH1、NPM1、NQO1、NRAS、NRP2、NTRK1、NTRK3、PAK3、PAX5、PDGFRA、PDGFRB、PIK3CA、PIK3R1、PKHD1、PLCG1、PRKDC、PTCH1、PTEN、PTPN11、PTPRD、RAF1、RARA、RB1、RET、RICTOR、RPTOR、RUNX1、SLC19A1、SLC22A2、SLCO1B3、SMAD2、SMAD3、SMAD4、SMARCA4、SMARCB1、SMO、SOD2、SOX10、SOX2、SRC、STK11、SULT1A1、TBX22、TET2、TGFBR2、TMPRSS2、TNFRSF14、TOP1、TP53、TPMT、TSC1、TSC2、TYMS、UGT1A1、UMPS、USP9X、VHL和WT1。

在具体实施方案中，遗传病变包括核苷酸转换或颠换、核苷酸插入或缺失、基因组重排、拷贝数变化或基因融合。

在一个实施方案中，遗传病变是基因融合，其将ALK基因的3'编码区与另一基因融合。

在一个实施方案中，遗传病变是基因融合，其将ALK基因的3'编码区与EML4基因融合。

可以用本文考虑的组合物和方法检测、鉴定、预测、诊断或监测的适合于胎检的病症的说明性例子包括但不限于：唐氏综合征(21三体)、爱德华氏综合征(18三体)、Patau综合征(13三体)、克氏综合征(XXY)、Triple X综合征、XYY综合征、8三体、16三体、特纳综合征(XO)、罗伯逊易位、迪乔治综合征和Wolf-Hirschhorn综合征。

可以用本文考虑的组合物和方法检测、鉴定、预测、诊断或监测的适合于亲子鉴定的等位基因的说明性例子包括但不限于以下中的16种或更多种：D20S1082、D6S474、D12ATA63、D22S1045、D10S1248、D1S1677、D11S4463、D4S2364、D9S1122、D2S1776、D10S1425、D3S3053、D5S2500、D1S1627、D3S4529、D2S441、D17S974、D6S1017、D4S2408、D9S2157、秞原蛋白、D17S1301、D1GATA113、D18S853、D20S482和D14S1434。

可以用本文考虑的组合物和方法检测、鉴定、预测、诊断或监测的适合于预测药物治疗反应的基因的说明性例子包括但不限于以下基因中的一种或多种：ABCB1(ATP结合盒、亚家族B(MDR/TAP)、成员1)、ACE(血管紧张素I转化酶)、ADH1A(醇脱氢酶1A(I类)、α多肽)、ADH1B(醇脱氢酶IB(I类)、β多肽)，ADH1C(醇脱氢酶1C(I类)、γ多肽)，ADRB1(肾上腺素能，β-1-，受体)，ADRB2(肾上腺素能，β-2-，受体，表面)、AHR(芳基碳氢化合物受体)、ALDH1A1(醛脱氢酶1家族，成员A1)、ALOX5(花生四烯酸5-脂氧合酶)、BRCA1(乳腺癌1，早发)、COMT(儿茶酚-O-甲基转移酶)、CYP2A6(细胞色素P450，家族2，亚家族A，多肽6)、CYP2B6(细胞色素P450，家族2，亚家族B，多肽6)、CYP2C9(细胞色素P450，家族2，亚家族C，多肽9)、CYP2C19(细胞色素P450，家族2，亚家族C，多肽19)、CYP2D6(细胞色素P450，家族2，亚家族D，多肽6)、CYP2J2(细胞色素P450，家族2，亚家族J，多肽2)、CYP3A4(细胞色素P450，家族3，亚家族A，多肽4)、CYP3A5(细胞色素P450，家族3，亚家族A，多肽5)、DPYD(二氢嘧啶脱氢酶)、DRD2(多巴胺受体D2)、F5(凝血因子V)、GSTP1(谷胱甘肽S-转移酶pi)、HMGCR(3-羟基-3-甲基戊二酰基-辅酶A还原酶)、KCNH2(钾电压门控通道，亚家族H(eag相关)，成员2)、KCNJ11(钾内向整流通道，亚家族J，成员11)、MTHFR(5,10-亚甲基四氢叶酸还原酶(NADPH))、NQO1(NAD(P)H脱氢酶，醌1)、P2RY1(嘌呤能受体P2Y，G蛋白偶联，1)、P2RY12(嘌呤能受体P2Y，G蛋白偶联，12)、PTGIS(前列腺素I2(前列环素)合酶)、SCN5A(钠通道，电压门控，V型，α(长QT综合征3))、SLC19A1(溶质载体家族19(叶酸转运蛋白)，成员1)、SLCO1B1(溶质载体有机阴离子转运蛋白家族，成员1B1)、SULT1A1(磺基转移酶家族，细胞溶质，1A，偏选苯酚，成员1)、TPMT(硫嘌呤S-甲基转移酶)、TYMS(胸苷酸合成酶)、UGT1A1(UDP葡糖醛酸基转移酶1家族，多肽A1)、VDR(维生素D(1,25-二羟基维生素D3)受体)、VKORC1(维生素K环氧化物还原酶复合物，亚基1)。

可用本文考虑的组合物和方法检测、鉴定、预测、诊断或监测的医学病症的说明性例子包括但不限于：中风、短暂性脑缺血发作、创伤性脑损伤、心脏病、心脏病发作、心绞痛、动脉粥样硬化和高血压。

可用本文考虑的组合物和方法筛查的病原体的说明性例子包括但不限于：细菌、真菌和病毒。

可用本文考虑的组合物和方法筛查的细菌物种的说明性例子包括但不限于：分枝杆菌属物种、肺炎球菌属物种、埃希氏菌属物种、弯曲菌属物种、棒状杆菌属物种、梭菌属物种、链球菌属物种、葡萄球菌属物种、假单胞菌属物种、志贺氏菌属物种、密螺旋体属物种或沙门氏菌属物种。

可用本文考虑的组合物和方法筛查的真菌物种的说明性例子包括但不限于：曲霉属物种、芽生菌属物种、假丝酵母属物种、球孢子虫属物种、隐球菌属物种、肤癣菌、癣属物种、毛癣菌属物种、小孢子癣菌属物种、镰刀菌属物种、组织胞浆菌属物种、毛霉亚门(Mucoromycotina)物种、肺孢子虫属物种、孢子丝菌属物种、突脐蠕孢属物种或枝孢属物种。

可用本文考虑的组合物和方法筛查的病毒的说明性例子包括但不限于：甲型流感(如H1N1、H1N2、H3N2和H5N1(禽流感))、乙型流感、丙型流感病毒、甲型肝炎病毒、乙型肝炎病毒、丙型肝炎病毒、丁型肝炎病毒、戊型肝炎病毒、轮状病毒、诺瓦克病毒组的任何病毒、肠道腺病毒、细小病毒、登革热病毒、猴痘、单链病毒、狂犬病毒等狂犬病病毒、拉各斯蝙蝠病毒、Mokola病毒、Duvenhage病毒、欧洲蝙蝠病毒1和2以及澳大利亚蝙蝠病毒、Ephemerovirus、水泡病毒属、水泡性口炎病毒(VSV)、疱疹病毒(如单纯疱疹病毒1型和2型、水痘带状疱疹、巨细胞病毒、Epstein-Bar病毒(EBV)、人类疱疹病毒(HHV)、人类疱疹病毒6型和8型)、莫洛尼鼠白血病病毒(M-MuLV)、莫洛尼鼠肉瘤病毒(MoMSV)、Harvey鼠肉瘤病毒(HaMuSV)、鼠乳腺瘤病毒(MuMTV)、长臂猿白血病病毒(GaLV)、猫白血病病毒(FLV)、泡沫病毒属、Friend鼠白血病病毒、鼠干细胞病毒(MSCV)和Rous肉瘤病毒(RSV)、HIV(人类免疫缺陷病毒；包括HIV 1型和HIV 2型)、visna-maedi病毒(VMV)病毒、山羊关节炎-脑炎病毒(CAEV)、马传染性贫血病毒(EIAV)、猫免疫缺陷病毒(FIV)、牛免疫缺陷病毒(BIV)和猿猴免疫缺陷病毒(SIV)、乳头瘤病毒、鼠γ疱疹病毒、沙粒病毒(如阿根廷出血热病毒、玻利维亚出血热病毒、萨比亚相关出血热病毒、委内瑞拉出血热病毒、拉沙热病毒)、马丘波病毒、淋巴细胞性脉络丛脑膜炎病毒(LCMV)、Bunyaviridiae如克里米亚-刚果出血热病毒、汉坦病毒、引起伴有肾综合征的出血热的病毒、裂谷热病毒、包括埃博拉出血热和马尔堡出血热的丝状病毒科(丝状病毒)、包括Kaysanur Forest疾病病毒的黄病毒科、鄂木斯克出血热病毒、引起森林脑炎的病毒和副粘病毒科(如Hendra病毒和Nipah病毒)、大天花和小天花(天花)、甲病毒(如委内瑞拉马脑炎病毒、东部马脑炎病毒、西部马脑炎病毒)、SARS相关冠状病毒(SARS-CoV)、西尼罗河病毒和引起脑炎的任何病毒。

可以用本文考虑的组合物和方法检测、鉴定、预测、诊断或监测的适合于监测移植接受者中器官移植的基因的说明性例子包括但不限于以下基因中的一种或多种：HLA-A、HLA-B、HLA-C、HLA-DR、HLA-DP和HLA-DQ。

在具体实施方案中，生物信息学分析用于量化cfDNA克隆文库中分析的基因组当量的数目；检测靶基因座中的遗传变异；检测靶基因座内的突变；检测靶基因座内的遗传融合；或测量靶基因座内的拷贝数波动。

F.伴随诊断

在各种实施方案中，提供了遗传疾病的伴随诊断，其包括：从受试者的生物样品分离或获得基因组DNA；用一种或多种末端修复酶处理DNA以生成末端修复的DNA；将一个或多个衔接子附接至末端修复的DNA的各端以生成DNA文库；扩增DNA文库以生成DNA克隆文库；测定DNA克隆文库中的基因组当量的数目；以及对DNA克隆文库中与遗传疾病相关的一种或多种生物标志物进行定量遗传分析，其中检测到或未检测到一种或多种生物标志物中的至少一种表明所述受试者是否应该对该遗传疾病进行治疗。在一些实施方案中，DNA是cfDNA。在具体实施方案中，DNA是细胞DNA。

如本文所用，术语“伴随诊断”是指与特定抗癌疗法相关的诊断测试。在具体实施方案中，诊断方法包括检测与生物样品相关的生物标志物中的遗传病变，从而允许快速鉴定患者应该或不应该用抗癌疗法治疗。

抗癌疗法包括但不限于手术、放疗、化疗、抗癌药物和免疫调节剂。

抗癌药物的说明性例子包括但不限于：烷化剂如噻替哌和环磷酰胺(CYTOXAN^TM)；烷基磺酸盐如白消安、英丙舒凡和哌泊舒凡；氮丙啶类如benzodopa、卡波醌、meturedopa和uredopa；乙烯亚胺和methylamelamine，包括六甲蜜胺，三乙烯三聚氰胺、三乙烯磷酰胺、三乙烯硫代磷酰胺和trimethylolomelamine resume；氮芥如苯丁酸氮芥、萘氮芥、氯磷酰胺、雌莫司汀、异环磷酰胺、氮芥、盐酸甲氧氮芥、美法仑、新恩比兴、苯芥胆甾醇、泼尼氮芥、曲洛磷胺、乌拉莫司汀；亚硝基脲如卡莫司汀、氯脲霉素、福莫司汀、洛莫司汀、尼莫司汀、雷莫司汀；抗生素如aclacinomysin、放线菌素、authramycin、重氮丝氨酸、博来霉素、cactinomycin、卡里奇霉素、carabicin、洋红霉素、嗜癌菌素、色霉素、更生霉素、道诺霉素、地托比星、6-二氮-5-氧-L-正亮氨酸、阿霉素及其聚乙二醇化制剂、表柔比星、依索比星、伊达比星、麻西罗霉素、丝裂霉素、霉酚酸、诺加霉素、橄榄霉素、培洛霉素、potfiromycin、嘌呤霉素、三铁阿霉素、罗多比星、链黑菌素、链脲霉素、杀结核菌素、乌苯美司、新制癌菌素、佐柔比星；抗代谢物如甲氨蝶呤和5-氟尿嘧啶(5-FU)；叶酸类似物如二甲叶酸、甲氨蝶呤、蝶罗呤、三甲曲沙；嘌呤类似物如氟达拉滨、6-巯嘌呤、硫咪嘌呤、硫鸟嘌呤；嘧啶类似物如安西他滨、阿扎胞苷、6-氮尿苷、卡莫氟、阿糖胞苷、双脱氧尿苷、去氧氟尿苷、依诺他滨、氟尿苷、5-FU；雄激素如卡普睾酮、屈他雄酮丙酸酯、环硫雄醇、美雄烷、睾内酯；抗肾上腺，如氨鲁米特、米托坦、曲洛司坦；叶酸补充剂如亚叶酸；醋葡醛内酯；醛磷酰胺糖苷；氨基乙酰丙酸；安吖啶；bestrabucil；比生群；edatraxate；defofamine；地美可辛；亚丝醌；elformithine；依利醋铵；依托格鲁；硝酸镓；羟基脲；香菇多糖；氯尼达明；米托胍腙；米托蒽醌；莫哌达醇；硝基可润；喷司他丁；苯来美特；吡柔比星；podophyllinic acid；2-乙基酰肼；甲基苄肼；雷佐生；西佐喃；锗螺胺；细交链孢菌酮酸；三亚胺醌；2,2',2”-三氯三乙胺；乌拉坦；长春地辛；达卡巴嗪；甘露醇氮芥；二溴甘露醇；二溴卫矛醇；哌泊溴烷；gacytosine；阿拉伯糖苷(“Ara-C”)；环磷酰胺；噻替哌；紫杉烷，例如紫杉醇(/>Bristol-Myers Squibb Oncology,Princeton,N.J.)和多西紫杉醇(/>Rhne-Poulenc Rorer,Antony,France)；苯丁酸氮芥；吉西他滨；6-硫鸟嘌呤；巯嘌呤；甲氨蝶呤；铂类似物如顺铂和卡铂；长春碱；铂；依托泊苷(VP-16)；异环磷酰胺；丝裂霉素C；米托蒽醌；长春新碱；长春瑞滨；诺维本；米托蒽醌；替尼泊苷；氨基蝶呤；希罗达；伊班膦酸钠；CPT-11；拓扑异构酶抑制剂RFS 2000；二氟甲基鸟氨酸(DMFO)；视黄酸衍生物，如Targretin^TM(蓓萨罗丁)、Panretin^TM(阿利维a酸)；ONTAK^TM(地尼白介素)；esperamicins；卡培他滨；以及上述的任何药学上可接受的盐、酸或衍生物。该定义还包括用于调节或抑制激素对癌症的作用的抗-激素剂如抗雌激素，包括例如它莫昔芬、雷洛昔芬、芳香化酶抑制4(5)-咪唑、4-羟基三苯氧胺、曲沃昔芬、keoxifene、LY117018、奥那司酮和托瑞米芬(Fareston)；和抗雄激素如氟他胺、尼鲁米特、比卡鲁胺、亮丙瑞林和戈舍瑞林；以及上述的任何药学上可接受的盐、酸或衍生物。

免疫调节剂的说明性例子包括但不限于：环孢菌素、他克莫司、曲培莫司、吡美莫司、西罗莫司、依罗莫司、拉氟莫司、拉喹莫德和咪喹莫特以及其类似物、衍生物、盐、离子和复合物。

在一些实施方案中，抗癌药物可包括聚ADP核糖聚合酶(PARP)抑制剂。PARP抑制剂的说明性例子包括但不限于奥拉帕尼(AZD-2281)、卢卡帕利(AG014699或PF-01367338)、尼雷帕利(MK-4827)、他佐帕利(BMN-673)、维利帕利(ABT-888)、CEP 9722、E7016、BGB-290、3-氨基苯甲酰胺。

本申请还涉及以下实施方案：

实施方案1.一种用于对来自测试样品的DNA靶区域进行遗传分析的方法，其包括：

(a)生成包含多个DNA文库片段的基因组DNA文库，其中所述DNA文库片段中的每一个包含来自所述测试样品的基因组DNA片段和衔接子；

(b)使所述基因组DNA文库与特异性地结合DNA靶区域的多个捕获探针接触，从而在所述捕获探针与包含所述DNA靶区域的所述DNA文库片段之间形成复合物；以及

(c)对包含所述DNA靶区域的基因组DNA片段进行定量遗传分析；

其中所述衔接子是包含扩增区、样品标签区和锚定区的DNA多核苷酸；

其中所述扩增区包含能够充当PCR扩增的引物识别位点的多核苷酸序列；

其中所述样品标签包含编码所述独特文库DNA片段的特征且编码所述测试样品的特征的多核苷酸序列；

其中所述锚定区包含编码所述测试样品的特征的多核苷酸序列，并且其中所述锚定区能够附接至所述基因组DNA片段；并且

其中进行所述遗传分析以检测指示疾病状态的遗传变化。

实施方案2.如实施方案1所述的方法，其中所述指示疾病状态的遗传变化选自单核苷酸变异(SNV)、长度小于40个核苷酸的插入、长度小于40个核苷酸的DNA区域的缺失和/或拷贝数变化。

实施方案3.如实施方案1所述的方法，其中所述指示疾病状态的遗传变化是拷贝数变化。

实施方案4.如实施方案1-3中任一项所述的方法，其中所述测试样品是组织活检。

实施方案5.如实施方案4所述的方法，其中所述组织活检取自肿瘤或怀疑为肿瘤的组织。

实施方案6.如实施方案1-3中任一项所述的方法，其中所述基因组DNA是无细胞DNA(cfDNA)或细胞DNA。

实施方案7.如实施方案6所述的方法，其中所述基因组DNA是从所述测试样品分离的cfDNA；并且其中所述测试样品是选自由以下组成的组的生物样品：羊水、血液、血浆、血清、精液、淋巴液、脑脊液、眼内液、尿液、唾液、粪便、粘液和汗液。

实施方案8.如实施方案1-5中任一项所述的方法，其中通过包括以下的步骤获得所述基因组DNA片段：

(i)从所述测试样品分离细胞DNA；

(ii)使所述细胞DNA片段化以获得所述基因组DNA片段。

实施方案9.如实施方案8所述的方法，其中步骤(ii)是通过使所述细胞DNA与至少一种消化酶接触来进行的。

实施方案10.如实施方案8所述的方法，其中步骤(ii)是通过对所述细胞DNA施加机械应力来进行的。

实施方案11.如实施方案10所述的方法，其中通过超声处理所述细胞DNA来施加所述机械应力。

实施方案12.如前述实施方案中任一项所述的方法，其中所述样品标签还包含有助于鉴定独特基因组DNA片段的独特分子标识符(UMI)。

实施方案13.如前述实施方案中任一项所述的方法，其中所述扩增区的长度在10与50个核苷酸之间。

实施方案14.如前述实施方案中任一项所述的方法，其中所述扩增区的长度在20与30个核苷酸之间。

实施方案15.如前述实施方案中任一项所述的方法，其中所述扩增区的长度为25个核苷酸。

实施方案16.如前述实施方案中任一项所述的方法，其中所述样品标签的长度在5与50个核苷酸之间。

实施方案17.如实施方案16所述的方法，其中所述样品标签的长度在5与15个核苷酸之间。

实施方案18.如实施方案16所述的方法，其中所述样品标签的长度为8个核苷酸。

实施方案19.如实施方案12-18中任一项所述的方法，其中所述UMI倍增器与所述样品标签区相邻或包含在所述样品标签区内。

实施方案20.如实施方案19所述的方法，其中所述UMI倍增器的长度在1与5个核苷酸之间。

实施方案21.如实施方案19所述的方法，其中所述UMI倍增器的长度为3个核苷酸，并且包含64个可能的核苷酸序列中的一个。

实施方案22.如前述实施方案中任一项所述的方法，其中所述锚定区的长度在1与50个核苷酸之间。

实施方案23.如实施方案22所述的方法，其中所述锚定区的长度在5与25个核苷酸之间。

实施方案24.如实施方案22或23所述的方法，其中所述锚定区的长度为10个核苷酸。

实施方案25.如前述实施方案中任一项所述的方法，其中步骤(a)包括将所述基因组DNA片段附接至多个衔接子。

实施方案26.如实施方案25所述的方法，其中在将所述基因组DNA片段与多个衔接子附接之前，对所述基因组DNA片段进行末端修复。

实施方案27.如实施方案25所述的方法，其中所述多个衔接子中的每个衔接子的扩增区包含相同的核苷酸序列。

实施方案28.如实施方案26或27所述的方法，其中所述多个衔接子中的每个衔接子的样品标签区包含在2与1,000个核苷酸序列之间的一个核苷酸序列。

实施方案29.如实施方案28所述的方法，其中所述多个衔接子中的每个衔接子的样品标签区包含在50与500个核苷酸序列之间的一个核苷酸序列。

实施方案30.如实施方案28所述的方法，其中所述多个衔接子中的每个衔接子的样品标签区包含在100与400个核苷酸序列之间的一个核苷酸序列。

实施方案31.如实施方案28所述的方法，其中所述多个衔接子中的每个衔接子的样品标签区包含在200与300个核苷酸序列之间的一个核苷酸序列。

实施方案32.如实施方案28所述的方法，其中所述多个衔接子中的每个衔接子的样品标签区的长度为8个核苷酸。

实施方案33.如实施方案28-32中任一项所述的方法，其中所述核苷酸序列中的每个序列与240个核苷酸序列的任何其他序列相隔的汉明距离为至少二。

实施方案34.如实施方案26-33中任一项所述的方法，其中所述多个衔接子中的每一个包含与所述样品标签区相邻或包含在所述样品标签区内的UMI倍增器。

实施方案35.如实施方案26-34中任一项所述的方法，其中所述多个衔接子中的每一个包含与所述样品标签区相邻的UMI倍增器。

实施方案36.如实施方案34或35所述的方法，其中所述多个衔接子中的每个衔接子的所述UMI倍增器的长度在1与5个核苷酸之间。

实施方案37.如实施方案36所述的方法，其中所述多个衔接子中的每个衔接子的所述UMI倍增器的长度为三个核苷酸。

实施方案38.如实施方案26-37所述的方法，其中所述多个衔接子中的每个衔接子的锚定标签区包含四个核苷酸序列中的一个，并且其中给定序列中的每个样品区仅与给定序列的四个锚定区中的一个配对。

实施方案39.如实施方案25或26所述的方法，其中所述多个衔接子中的每个衔接子的扩增区包含相同的核苷酸序列；

其中所述多个衔接子中的每个衔接子的样品标签区的长度为8个核苷酸，其中每个样品标签的核苷酸序列与所述多个衔接子的样品标签的任何其他核苷酸序列相隔的汉明距离为至少二，

其中所述多个衔接子中的每一个包含与所述样品标签区相邻或包含在所述样品标签区内的UMI倍增器，其中所述多个衔接子中的每个衔接子的所述UMI倍增器的长度为三个核苷酸，并且其中每个可能的核苷酸序列的UMI倍增器与所述多个衔接子的每个样品标签区配对，

其中所述多个衔接子中的每个衔接子的锚定标签区包含四个核苷酸序列中的一个，并且其中给定序列中的每个样品区仅与给定序列的四个锚定区中的一个配对。

实施方案40.如实施方案25-39中任一项所述的方法，其中将所述基因组DNA片段与多个衔接子附接的步骤包括：

(i)将包含锚定区的至少一部分的寡核苷酸附接至每个基因组DNA片段，其中所述包含锚定区的至少一部分的寡核苷酸是DNA双链体，所述DNA双链体包含与配偶体链双链化的5’磷酸化附接链，其中所述配偶体链通过在其3’端的化学修饰而被阻止附接，并且其中所述附接链附接至所述基因组DNA片段；

(ii)使与包含所述锚定区的至少一部分的寡核苷酸附接的基因组DNA片段与编码所述多个衔接子中的每个衔接子核苷酸序列的全长衔接子序列的DNA寡核苷酸接触；并且

(iii)在适合于DNA连接的条件下，使所述基因组DNA片段和编码所述全长衔接子序列的DNA寡核苷酸与T4多核苷酸激酶、Taq DNA连接酶和全长Bst聚合酶接触；

从而将所述多个衔接子附接至所述基因组DNA片段。

实施方案41.如实施方案25-40中任一项所述的方法，其中所述基因组DNA片段是cfDNA。

实施方案42.如实施方案25-41中任一项所述的方法，其中分析所述DNA靶区域的拷贝数变化。

实施方案43.如前述实施方案中任一项所述的方法，其中步骤(c)包括对所述捕获探针与包含所述DNA靶区域的所述DNA文库片段之间形成的复合物进行纯化。

实施方案44.如前述实施方案中任一项所述的方法，其中步骤(c)包括对在所述捕获探针与包含所述DNA靶区域的所述DNA文库片段之间形成的复合物进行纯化，从而预形成包含来自所述基因组DNA文库的目标区域的DNA文库片段的引物延伸和/或扩增。

实施方案45.如前述实施方案中任一项所述的方法，其中步骤(c)包括对在所述捕获探针与包含所述DNA靶区域的所述DNA文库片段之间形成的复合物进行纯化，从而预形成包含来自所述基因组DNA文库的目标区域的所述DNA文库片段的引物延伸和扩增。

实施方案46.如前述实施方案中任一项所述的方法，其中步骤(c)包括对包含所述DNA靶区域的所述DNA文库片段进行DNA测序，以生成多个测序读段。

实施方案47.如前述实施方案中任一项所述的方法，其中其中基因组分析包括测定目标DNA区域中的拷贝数变化，并且其中步骤(c)包括：

(i).测定源自所述测试样品的基因组DNA文库中存在的目标区域的拷贝数，并且

(ii).将步骤(i)中测定的拷贝数与源自参考样品的基因组DNA文库中存在的目标区域的拷贝数进行比较，其中所述参考样品包含已知拷贝数目的所述DNA靶区域。

实施方案48.如实施方案47所述的方法，其中测定所述目标区域中的拷贝数包括对包含所述DNA靶区域的所述DNA文库片段进行DNA测序，以生成多个测序读段，其中每个测序读段包含独特分子标识元件(UMIE)。

实施方案49.如实施方案48所述的方法，其中所述UMIE包含来自所述衔接子和至少一部分所述基因组DNA序列的测序信息。

实施方案50.如实施方案49所述的方法，其中包含相同UMIE的测序读段被鉴定为独特基因组序列(UGS)。

实施方案51.如实施方案47-50中任一项所述的方法，其还包括针对与所述基因组DNA文库接触的所述捕获探针中的每一个测定原始基因组深度(RGD)。

实施方案52.如实施方案51所述的方法，其中测定所述RGD包括测定与一组样品重复中的每个捕获探针序列相关联的UGS的平均数目。

实施方案53.如实施方案52所述的方法，其中与高度可变数目的UGS相关联的捕获探针被鉴定为噪声探针并且从进一步的计算中去除。

实施方案54.如实施方案52所述的方法，其还包括计算样品的RGD，其包括计算所述样品中针对所有捕获探针的所有RGD的数值平均值。

实施方案55.如实施方案52所述的方法，其中在计算样品的RGD中不包括针对噪声探针的RGD值。

实施方案56.如实施方案51-55中任一项所述的方法，其中通过将针对每个捕获探针的RGD转换成探针特异性归一化读段计数将实验组中所有样品中针对所述捕获探针的RGD归一化，其包括

(i)使样品中的每个捕获探针RGD乘以归一化常数，其中所述归一化常数包括任何实数；以及

(ii)使(i)的乘积除以针对相应样品计算的RGD；或

(iii)使(i)的乘积除以从探针子集计算的平均RGD。

实施方案57.如实施方案56所述的方法，其中所述探针子集是对照探针组。

实施方案58.如实施方案57所述的方法，其中将所述探针特异性归一化读段计数转换成拷贝数值，其包括

(i)在源自女性的样品中使针对常染色体和/或X连锁区的探针的探针特异性归一化读段计数乘以2；

(ii)在源自男性的样品中使针对Y连锁和/或X连锁区的探针的探针特异性归一化读段计数乘以1；

(iii)对实验中的所有样品的(i)和/或(ii)的乘积取平均值；并且

(iv)使(i)和/或(ii)的乘积除以(iii)的平均值。

实施方案59.如实施方案58所述的方法，其中对于针对靶向特异性基因的所有探针的近似拷贝数值取平均值。

实施方案60.一种用于高灵敏地检测拷贝数增加和拷贝数丢失的方法，其包括：

(i).测定针对捕获探针的RGD；

(ii).通过将针对所述捕获探针的RGD转换成探针特异性归一化读段计数，对实验组中所有样品中针对所述捕获探针的RGD进行归一化；

(iii).计算每个探针特异性归一化读段计数的近似拷贝数值；并且

(iv).对于针对靶向特异性基因的所有探针的近似拷贝数值取平均值。

实施方案61.一种用于测量染色体稳定性的方法，其包括：

(i).设计和验证一种或多种染色体稳定性探针的组，其中所述染色体稳定性探针均匀分布在人染色体上；

(ii).使用所述一种或多种染色体稳定性探针对患者样品进行靶向测序；

(iii).针对每种染色体探针测定近似拷贝数值；

(iv).测定患者样品的基因组表型，其中所述患者样品中针对一种或多种染色体探针的拷贝数值的波动表明基因组不稳定性。

实施方案62.一种治疗有需要的受试者中的癌症的方法，其中所述受试者已根据实施方案61所述的方法被鉴定为具有去稳定化的基因组，其中治疗所述癌症的所述方法包括给予药学有效量的PARP抑制剂。

实施方案63.如前述实施方案中任一项所述的方法，其中所述目标区域是基因或所述基因的一部分。

实施方案64.如实施方案63所述的方法，其中所述基因与疾病有关。

实施方案65.如实施方案64所述的方法，其中所述疾病是癌症。

实施方案66.如实施方案63所述的方法，其中所述基因是BRCA2、ATM、BRCA1、BRIP1、CHEK2、FANCA、HDAC2和/或PALB2。

实施方案67.一种包含多个DNA文库片段的基因组DNA文库，其中所述DNA文库片段中的每一个包含衔接子和基因组DNA片段，

其中所述样品标签包含编码所述独特文库DNA片段的特征且编码所述测试样品的特征的多核苷酸序列；并且

其中所述锚定区包含编码所述测试样品的特征的多核苷酸序列，并且其中所述锚定区能够附接至所述基因组DNA片段。

实施方案68.如实施方案67所述的基因组DNA文库，其中所述样品标签还包含独特分子标识符(UMI)，其中所述UMI有助于鉴定独特基因组DNA片段。

实施方案69.如实施方案67或68所述的基因组DNA文库，其中所述扩增区的长度在10与50个核苷酸之间。

实施方案70.如实施方案69所述的基因组DNA文库，其中所述扩增区的长度为25个核苷酸。

实施方案71.如前述实施方案中任一项所述的基因组DNA文库，其中所述样品标签的长度在5与50个核苷酸之间。

实施方案72.如实施方案71所述的基因组DNA文库，其中所述样品标签的长度为8个核苷酸。

实施方案73.如实施方案67-72中任一项所述的基因组DNA文库，其中所述UMI倍增器与所述样品标签区相邻或包含在所述样品标签区内。

实施方案74.如实施方案73所述的基因组DNA文库，其中所述UMI倍增器的长度在1与5个核苷酸之间。

实施方案75.如前述实施方案中任一项所述的基因组DNA文库，其中所述锚定区的长度在1与50个核苷酸之间。

实施方案76.如实施方案75所述的基因组DNA文库，其中所述锚定区的长度为10个核苷酸。

实施方案77.如实施方案67-76中任一项所述的基因组DNA文库，其中所述多个衔接子中的每个衔接子的扩增区包含相同的核苷酸序列。

实施方案78.如实施方案67-77中任一项所述的基因组DNA文库，其中所述样品标签的每个核苷酸序列与所述样品的核苷酸序列的任何其他序列相隔的汉明距离为至少二。

实施方案79.如实施方案67-78中任一项所述的基因组DNA文库，其中所述多个衔接子中的每一个包含与所述样品标签区相邻或包含在所述样品标签区内的UMI倍增器。

实施方案80.如实施方案67-78中任一项所述的基因组DNA文库，其中所述多个衔接子中的每一个包含与所述样品标签区相邻的UMI倍增器。

实施方案81.如实施方案67-78中任一项所述的基因组DNA文库，其中所述多个衔接子中的每个衔接子的锚定标签区包含四个核苷酸序列中的一个，并且其中给定序列中的每个样品区仅与给定序列的四个锚定区中的一个配对。

实施方案82.如实施方案67所述的基因组DNA文库，其中所述多个衔接子中的每个衔接子的扩增区包含相同的核苷酸序列；

其中所述多个衔接子中每个衔接子的样品标签区的长度为8个核苷酸，其中所述多个衔接子中每个衔接子的样品标签区包含核苷酸序列，所述核苷酸序列与所述多个衔接子的样品标签的任何其他核苷酸序列相隔的汉明距离为至少二；

其中所述多个衔接子中的每一个包含与所述样品标签区相邻或包含在所述样品标签区内的UMI倍增器，其中所述多个衔接子中的每个衔接子的所述UMI倍增器的长度为三个核苷酸，并且其中每个可能的核苷酸序列的UMI倍增器与所述多个衔接子的每个样品标签区配对；

其中所述多个衔接子中的每个衔接子的锚定标签区包含四个核苷酸序列中的一个；并且

其中给定序列的每个样品区仅与给定序列的四个锚定区中的一个配对。

实施方案83.如实施方案67-82中任一项所述的基因组DNA文库，其中所述基因组DNA片段是cfDNA。

实施方案84.多个基因组DNA文库，其包含多于一个根据实施方案67-83中任一项所述的基因组文库。

实施方案85.如实施方案84所述的多个基因组DNA文库，其中属于所述多个基因组DNA文库的基因组DNA文库的样品标签区的核酸序列不同于属于所述多个基因组DNA文库的其他基因组DNA文库的样品标签区的核酸序列。

实施方案86.如实施方案84或85所述的多个基因组DNA文库，其中属于所述多个基因组DNA文库的基因组DNA文库的扩增区的核酸序列与属于多个基因组DNA文库的其他基因组DNA文库的扩增区的核酸序列相同。

实施方案87.一种用于无细胞DNA(cfDNA)的DNA靶区域的遗传分析的方法，其包括：

(a)生成如实施方案67-86中任一项所述的DNA文库；

(b)使所述cfDNA文库与特异性地结合DNA靶区域的多个捕获探针接触，从而在所述捕获探针与包含所述DNA靶区域的DNA文库片段之间形成复合物；以及

(c)对包含所述DNA靶区域的cfDNA片段进行定量遗传分析；

从而进行所述DNA靶区域的遗传分析。

实施方案88.一种预测、诊断或监测受试者中的遗传疾病的方法，其包括：

(a)从所述受试者获得测试样品；

(b)从所述测试样品分离基因组DNA；

(c)生成包含多个DNA文库片段的DNA文库，其中所述DNA文库片段中的每一个包含来自所述测试样品的基因组DNA片段和衔接子；

(d)使所述cfDNA文库与特异性地结合DNA靶区域的多个捕获探针接触，从而在所述捕获探针与包含所述DNA靶区域的DNA文库片段之间形成复合物；以及

(e)对cfDNA克隆文库中与所述遗传疾病相关的一个或多个靶基因座进行定量遗传分析，其中所述一个或多个靶基因座中的一个或多个遗传病变的鉴定或检测是对于所述遗传疾病的进展的预后、诊断或监测。

实施方案89.如实施方案87或88所述的方法，其中所述定量遗传分析包括DNA测序以生成多个测序读段。

实施方案90.一组用于生成基因组DNA文库的编码独特基因组DNA片段的特征和测试样品的特征的衔接子，其中所述衔接子组中的每个衔接子是包含扩增区、样品标签区和锚定区的DNA多核苷酸；

实施方案91.如实施方案90所述的衔接子组，其中所述样品标签还包含独特分子标识符(UMI)，其中所述UMI有助于鉴定独特基因组DNA片段。

实施方案92.如实施方案90或91所述的衔接子组，其中所述扩增区的长度在10与50个核苷酸之间。

实施方案93.如实施方案90-92中任一项所述的衔接子组，其中所述扩增区的长度为25个核苷酸。

实施方案94.如前述实施方案中任一项所述的衔接子组，其中所述样品标签的长度在5与50个核苷酸之间。

实施方案95.如实施方案94所述的衔接子组，其中所述样品标签的长度为8个核苷酸。

实施方案96.如实施方案90-95中任一项所述的衔接子组，其中所述UMI倍增器与所述样品标签区相邻或包含在所述样品标签区内。

实施方案97.如实施方案96所述的衔接子组，其中所述UMI倍增器的长度在1与5个核苷酸之间。

实施方案98.如实施方案90-97所述的衔接子组，其中所述锚定区的长度在1与50个核苷酸之间。

实施方案99.如实施方案98所述的衔接子组，其中所述锚定区的长度为10个核苷酸。

实施方案100.如实施方案90-99中任一项所述的衔接子组，其中所述多个衔接子中的每个衔接子的扩增区包含相同的核苷酸序列。

实施方案101.如实施方案100所述的衔接子组，其中所述样品标签的每个核苷酸序列与所述衔接子组的样品标签的任何其他核苷酸序列相隔的汉明距离为至少二。

实施方案102.如实施方案90-101中任一项所述的衔接子组，其中所述多个衔接子中的每一个包含与所述样品标签区相邻或包含在所述样品标签区内的UMI倍增器。

实施方案103.如实施方案90-101中任一项所述的衔接子组，其中所述多个衔接子中的每一个包含与所述样品标签区相邻的UMI倍增器。

实施方案104.如实施方案103所述的衔接子组，其中所述多个衔接子中的每个衔接子的锚定标签区包含四个核苷酸序列中的一个，并且其中给定序列中的每个样品区仅与给定序列的四个锚定区中的一个配对。

实施方案105.如实施方案90-104中任一项所述的衔接子组，其中所述多个衔接子中的每个衔接子的扩增区包含相同的核苷酸序列；

其中每个衔接子的样品标签区的长度为8个核苷酸，其中所述样品标签的每个核苷酸序列与所述衔接子组的样品标签的任何其他核苷酸序列相隔的汉明距离为至少二；

其中所述多个衔接子中的每一个包含与所述样品标签区相邻或包含在所述样品标签区内的UMI倍增器，其中所述多个衔接子中的每个衔接子的所述UMI倍增器的长度为三个核苷酸，其中所述UMI倍增器包含64个可能的核苷酸序列中的一个，并且其中所述64个可能的核苷酸序列中的每一个的UMI倍增器与所述多个衔接子的每个样品标签区配对；

本说明书中引用的所有出版物、专利申请和授权专利均通过引用并入本文，如同每个单独的出版物、专利申请或授权专利被特别且单独地指出通过引用并入。特别地，国际PCT公开号WO 2016/028316的全部内容通过引用特别并入。

尽管为了清楚理解的目的已经通过说明和例子的方式详细地描述了前述发明，但是根据本发明的教导，本领域普通技术人员将容易明白，可以在不脱离所附权利要求的精神或范围的情况下对其进行某些改变和修改。仅通过说明的方式而不是通过限制的方式，提供以下实施例。本领域技术人员将容易地认识到各种非关键参数，它们可以被改变或修改以产生基本类似的结果。

实施例

实施例1：含有片段化基因组DNA的混合物的样品的拷贝数分析

生成片段化的基因组DNA的精细混合物，其含有源自掺入片段化野生型人gDNA样品中的ΔATM或ΔBRCA2永生化人样品的DNA。这种样品类型的优点是可以小心控制化合物，并且样品可用性是基本上无限制的。

从健康志愿者捐献的全血样品中纯化野生型人类女性基因组DNA。从Coriell储存库获得从具有覆盖整个ATM基因(NA09596,ΔATM)的杂合缺失的永生化细胞分离的基因组DNA和带有BRCA2(NA02718,ΔBRCA2)杂合缺失的单独样品。重要的是，这些样品显示在其余基因组中具有正常的倍性。ΔATM样品源自男性供体，因此在X连锁AR基因的拷贝数方面也是半合子的。无细胞DNA(cfDNA)获自女性或男性来源的健康供体血浆样品。对于文库构建，使用Covaris仪器在200bp的设置下对基因组DNA进行超声处理，然后使用“双侧”DNA珠粒纯化进一步选择大小。文库输入DNA样品显示在图7中。

将片段化和cfDNA样品的适当组合混合至确定的百分比，进行末端修复并转化为基因组文库。将约500ng的每个文库组合在八个样品的组中，并与含有2304个DNA探针的拷贝数丢失(CNL)前列腺探针池杂交。在样品处理之后，在Illumina NextSeq NGS仪器上对每组8个样品进行测序，深度为约4.8亿个过滤读段；这相当于6000万个读段/样品。约95％的读段具有合理的样品ID标签并与人参考基因组进行比对，其中约98％映射至预期的靶基因座。总体测序深度被测量为每个探针每个输入基因组的读段数目(计算如下：靶读段(6千万)除以平均基因组深度(2500)，再除以探针计数(2400))，其为每个探针每个基因组约10个读段。拷贝数损失分析的图形表示如图1所示。拷贝数扰动用箭头突出显示。(样品1，5％男性DNA在女性DNA中；样品2，5％ΔATM DNA(男性)在女性DNA中；样品3，5％ΔBRCA2 DNA(女性)在女性DNA中；样品4，纯女性DNA)。

CNL调用者鉴定冗余读段并将它们压缩成单个共有读段，然后将其在每个探针位置量化。该信息进一步压缩为逐基因拷贝数平均值。最后，统计显著性被分配至每个CNL测量中检测到的偏差；这以图形方式显示为统计显著性的log₁₀P值。

图8示出了片段化和混合的基因组文库中AR(图8B)和ATM(图8C)基因的拷贝数测定的盒须图。由于ΔATM样品是男性，AR基因(X连锁，半合子)和ATM基因都表现出CNL行为。正如预期的那样，测量的拷贝变异的量级是适度的。图9B所示的统计分析表明观察到的拷贝波动是统计学上显著的。此外，在预测显示出均匀拷贝特征的剩余基因中观察到非常小的显著波动。这些值与针对各种基因组混合物预测的频率相关性良好。图10示出了在主要为cfDNA的样品中也容易观察到统计学上显著的拷贝波动，在所述样品中少量掺加来自异性的cfDNA或少量添加片段化gDNA。这些值与针对各种基因组混合物预测的频率相关性良好。用片段化的gDNA和用cfDNA观察到的结果是可比较的，从而证明了测定的完整性并且表明完整性将转化为临床样品。

这些数据证明了测定系统检测出基因拷贝数的细微变化低至2％的低等位基因频率的能力。虽然所展示的实施例的重点在于拷贝数丢失，但该技术同样适用于拷贝数增加的检测，包括通过染色体臂复制和焦点扩增发生的基因拷贝的增加。该测定法还保留了检测其他类型基因组变异的能力，包括SNV、indel和基因融合(染色体重排)。重要的是，这些数据表明所述方法可以应用于源自血浆的基因组DNA，也可以应用于源自其他来源(例如组织和其他身体来源)的基因组DNA。

实施例2：来自健康供体和癌症患者的cfDNA的拷贝数分析

以下实施例说明了在基因组文库构建和杂交后处理过程中添加的分子特征用于生成拷贝数分析的方式。使用Qiagen Circulating Nucleic Acids Extraction试剂盒(Qiagen,Hilden,Germany)从十六名健康供体和一名去势抗性前列腺癌症患者的血浆中提取DNA。使用Qubit荧光计(Thermo Fisher,Waltham,MA)和相应的hsDNA定量试剂盒量化双链DNA的产量。使用凝胶电泳在2％琼脂糖凝胶上进行大小分析，其中PCR标志物作为大小标准(New England Biolabs,Ipswich,MA)。取决于来自样品的cfDNA的产量，约40-100ng的cfDNA用于文库构建。

文库构建的基本特征如图11A至图11C所示。首先将cfDNA去磷酸化，然后在两步过程中将其修复成平端。然后将由磷酸化的连接链和惰性配偶体链组成的短的10nt锚定序列与cfDNA连接。用于产生一组四个锚定序列的八种寡核苷酸显示在表1中。

表1：连接锚定寡核苷酸

/>

*[3-d(A,C,G,或T)-Q]表示其中羟基位于核糖环的2'位置的修饰碱基

**/5Phos/表示5’磷酸基团化学加成至5’碱基位置

通过添加退火至锚定序列的全长衔接子序列完成衔接子结构。图12至图22中示出了三十二组衔接子序列，每组由240个成员构成。这些衔接子附接至cfDNA，并通过多核苷酸激酶、DNA聚合酶和DNA连接酶的协同作用延伸，以生成基因组文库。作为测序前质量控制步骤，通过qPCR对所得基因组文库的覆盖深度进行量化。然后扩增基因组文库并与靶向特异性基因的探针组杂交(图11B)。杂交后，使用探针的引物延伸来复制捕获的基因组序列和附接的衔接子中编码的信息(图11C)。使用标准新一代分析软件的后测序分析的一个例子显示在图11D中。该分析在包含32个样品(28个癌症患者样品和4个野生型对照)的测序运行中进行，并且其显示了测序读段的总体分布。

本文描述的靶向杂交捕获平台的核心特征是它提供多种类型的基因组信息。捕获探针的一个基本功能是在高覆盖深度的靶区域提供突变检测。该功能由捕获探针的序列背景、密度和放置决定，并采用TP53基因示于图23中(TP53探针序列示于下表2中)。同样重要的是，靶向杂交捕获平台测定在未检测到显著突变的区域中生成了相等覆盖深度的读出。这些数据对医生和患者至关重要，因为他们在未检测到有害突变的情况下增加了统计显著性。

表2：TP53探针

/>

捕获探针与捕获的基因组序列的连接(图11C)也有助于测量每个探针位置处的基因组深度。测量了与所述实验中使用的每个捕获探针相关的独特读段的数目(图24)。图24中所示的数据源自测序运行，其中分析了16个健康供体cfDNA样品。计算了在TP53基因中的一个探针位置处的每个样品中遇到的独特读段的深度(原始独特读段计数示于图24A中)。每个样品包含独特的文库深度，如独特读段的广泛的样品间分布所反映的。还计算了所述实验中所有2596个捕获探针的独特读段深度的总体平均值(图24B)。值得注意的是，通过对所有探针测量的总体独特读段深度将在图24C中显示的单个探针位点处观察到的读段深度进行归一化，揭示了归一化独特读段的均匀密度。这些数据表明，选择用于分析的特定探针的捕获性能在样品间是均匀的，并且与每个单独文库的基因组深度成正比。

将相同的归一化功能应用于图23中所示的45个TP53特异性探针(归一化数据示于图25中)。而图23示出了所有探针对TP53编码区的测序深度的总贡献，图25示出了由每个单独探针检索的归一化深度。对于任何给定的探针，由每个单独探针检索的归一化深度通常在样品间是一致的，但是当将一个探针与另一个探针进行比较时则有些变化。几个因素决定了探针之间观察到的后归一化捕获深度的差异，最重要的是探针相对于彼此的位置以及探针与基因组重复区域的接近程度。并非所有探针都显示出均匀的捕获行为；捕获性能不一致的两个探针在图25中用箭头突出显示。然而，这些数据表明这种探针是罕见的且易于鉴定。因此，它们可以从下游拷贝数分析中排除。

图25中通过45TP53靶向探针显示出的均匀的捕获性能是本文描述的靶向杂交捕获平台的一般特征。在图26中，对于在该实验中分析的所有16个正常cfDNA文库，计算一组2596个捕获探针中的每个探针的平均捕获深度。然后使用散点图分析将平均值与三个代表性样品单独比较。每个点代表不同的探针并且它在图上的位置是x轴上的平均值与y轴上的单独样品的比较。大多数探针的紧对角线分布反映了大多数探针的高度相关的独特读段捕获性能(对于全部三个图，R²相关性≥0.95)。重要的是，逐探针测序深度的一致性支持在拷贝数测量中使用靶向杂交捕获平台。

关于拷贝数，探针数据的最直接的处理是进一步将在常染色体中发生的调整的基因组深度值针对二倍体平均值“2”进行归一化。对于X连锁基因座在女性中发生的探针值也是如此。对于正常男性中的X连锁和Y连锁区域，平均拷贝值适当地设置为“1”。将该数值转换应用于一组染色体对照探针(靶向选择所有22个常染色体上的基因座的239个探针，表3)、靶向X连锁的AR基因的一组199个探针以及45个上文详细考虑的TP53特异性探针(图27A和图27B)。每个点代表单独探针的值。除了不常见的“噪声”探针外，预计区域中的绝大多数单独探针计数为二倍体所具有的值，即约“2”。健康男性中的AR基因的探针波动，平均值接近预期的“1”。

表3：染色体对照探针

/>

值得注意的是，当使用健康样品作为归一化对照对从去势抗性前列腺癌症患者的血浆级分收集的cfDNA应用相同分析时，出现了三个突出特征(图27C)。首先，所有对照探针都显示出有噪声的计数行为。其次，所有AR探针的计数从正常值“1”显著升高至约“5”的放大值。在晚期前列腺癌症患者中始终观察到AR基因的扩增。第三，TP53探针计数越紧密聚集，其平均值与“2”的预期值相比更接近“1”。这可能反映了源自肿瘤组织的循环DNA部分中拷贝数丢失导致的TP53的一个或两个等位基因的失活。

这些数据表明本发明方法包括三个重要的核型分析方面。即，本文描述的方法检测广义的染色体非整倍性、特异性的靶向基因的拷贝增加和相同特异性的靶向基因中的拷贝丢失。这些结果进一步表明，本文描述的方法和平台可以指导精确疗法的使用，因为所有这三种基因组异常在癌症中经常发生。

测量了相对于健康对照(褐色点)的去势抗性前列腺癌症患者样品(蓝点)的广义染色体非整倍性(图28)。在该分析中，该实验中使用的所有239个对照探针的近似倍性是根据它们的染色体靶标排序的。对于一些染色体(例如，1号染色体和22号染色体)，在患者与对照样品之间观察到类似的倍性值“2”。在其他情况下，观察到两个样品之间的偏差。由这些实验提供的关于总体基因组倍性的信息程度受所用对照探针的数量和密度的限制。然而，这些数据表明，以均匀密度覆盖所有染色体区段的更密集的探针组可以结合本发明的附加的独特特征使用。此类分析将提供染色体拷贝数的更高分辨率的全基因组测量。

这些数据进一步突出了本发明作为精确治疗指南的能力。例如，在同源重组修复中具有基因组缺陷的肿瘤通常表现出高度不稳定的染色体倍性，并且具有这种肿瘤的患者是PARP酶复合物抑制剂的良好候选者(参见Popova等人,Genome Biol.2009；10(11):R128)。与寻求对肿瘤进行基因分型的大多数测序测定不同，本文所述的测定使用测序来检测作为肿瘤表型的去稳定的染色体倍性，即使驱动该表型的因果突变仍然隐藏于靶向分析之外。

检测从实体瘤脱落的DNA中基因缺失的能力尤其重要。肿瘤抑制基因的突变和缺失是癌症基因组中的常见事件；此外，具有肿瘤抑制基因的种系缺失的个体在以后的生活中特别容易患上癌症。液体活检拷贝数丢失(CNL)测定的诊断价值与其灵敏度成正比。为了确定本文所述发明的检测下限，将实施例1中描述的永生化细胞系系统地稀释成“瓶中基因组”参考细胞系NA12878。一种细胞系具有ATM的单拷贝缺失(单等位基因丢失)，另一细胞系具有BRCA2的单拷贝缺失。该实验包括四个纯NA12878的对照样品和八个含有16％的每个单等位基因缺失细胞系的掺杂样品(图29)。出于报告目的，这对应于双等位基因丢失的8％低等位基因频率。靶向特异性基因的所有探针和两个附加的未缺失的对照基因的平均值示于图29中。ATM和BRCA2的拷贝丢失仅限于掺加样品。对数据的附加计算处理揭示了低至2％低等位基因频率的双等位基因缺失的确信拷贝丢失调用。该灵敏度表明，本发明不需要专门考虑以在标准的基于血液的基因分型测定中常规地包括拷贝丢失调用。

这些数据证明了使用探针特异性基因组捕获数据来分析拷贝数，包括靶基因组基因座的拷贝数增加和拷贝数丢失。另外，本文所述的发明已显示具有检测单核苷酸变异、插入和单个核苷酸至数千个碱基对范围的缺失以及由异常突变过程的染色体重排产生的基因融合的灵敏能力(参见PCT公开号WO 2016/028316；和美国专利公开号2014-0274731)。所有这些突变过程都可以促进正常组织向肿瘤性癌症的转化，并且随着精确疗法的不断出现，对这些患病基因组特征的准确诊断将成为精准医学日益不可或缺的特征。

Claims

1.用于从包含DNA片段的测试样品产生DNA文库的多种组合物，其中所述多种组合物包含一组衔接子，每种衔接子包含：

(i)扩增区，

(ii)样品标签区，和

(iii)锚定区；

其中所述的一组衔接子的每种衔接子的样品标签区包含多核苷酸序列，其中所述多核苷酸序列识别所述测试样品，并且其中所述多核苷酸序列识别独特DNA文库片段。

2.如权利要求1所述的多种组合物，其中所述的一组衔接子的每种衔接子包含选自独特样品标签区池的样品标签区，其中在所述独特样品标签区池的所有样品标签区中，包含所述样品标签区内的至少三个核苷酸的任何连续序列不是保守的。

3.如权利要求1所述的多种组合物，其中所述的一组衔接子的每种衔接子包含选自独特样品标签区池的样品标签区，其中所述独特样品标签区池选自多个池，并且其中所述池对所述测试样品是独特的。

4.包含多个DNA文库片段的DNA文库，其中所述DNA文库由测试样品产生，其中所述DNA文库片段各自包含衔接子和DNA片段，

其中所述衔接子选自一组衔接子并且包含：

(i)扩增区，

(ii)样品标签区，和

(iii)锚定区；

其中所述样品标签区包含多核苷酸序列，其中所述多核苷酸序列识别所述测试样品，并且其中所述多核苷酸序列识别独特DNA文库片段。

5.一组衔接子，其独特地识别包含DNA片段的测试样品，其中所述的一组衔接子的每种衔接子包含：

(i)扩增区，

(ii)样品标签区，和

(iii)锚定区；

其中所述样品标签区包含多核苷酸序列，其中所述多核苷酸序列识别所述测试样品，并且其中所述多核苷酸序列识别所述测试样品的独特DNA片段。

6.一种用于对来自包含多个DNA片段的测试样品的DNA靶区域进行遗传分析的方法，所述方法包括：

(a)通过使所述测试样品与一组衔接子接触来产生包含多个DNA文库片段的DNA文库，所述一组衔接子包含独特样品标签区池，其中所述DNA文库片段各自包含来自所述测试样品的DNA片段和衔接子，其中所述的一组衔接子的每种衔接子包含：

(i)扩增区；

(ii)包含多核苷酸序列的样品标签区，其中所述多核苷酸序列识别所述测试样品，并且其中所述多核苷酸序列识别独特DNA文库片段；和

(iii)锚定区；

以及

(b)对包含所述DNA靶区域的DNA文库片段进行定量遗传分析以检测指示疾病状态的遗传变化。

7.如权利要求6所述的方法，包括使所述DNA文库与特异性结合所述DNA靶区域的多个捕获探针接触，从而在所述捕获探针和包含所述DNA靶区域的DNA文库片段之间形成复合物。

8.一种用于对来自测试样品的DNA靶区域进行遗传分析的方法，其包括：

(c)对包含所述DNA靶区域的基因组DNA片段进行定量遗传分析；

其中进行所述遗传分析以检测指示疾病状态的遗传变化。

9.一种用于高灵敏地检测拷贝数增加和拷贝数丢失的方法，其包括：

(i).测定针对捕获探针的RGD；

10.一种用于测量染色体稳定性的方法，其包括：

(iii).针对每种染色体探针测定近似拷贝数值；