CN113661249A

CN113661249A - 用于分离无细胞dna的组合物和方法

Info

Publication number: CN113661249A
Application number: CN202080026244.0A
Authority: CN
Inventors: 安德鲁·肯尼迪; 阿里尔·海莫维奇; 马修·舒尔茨; 威廉·J·格林利夫
Original assignee: Guardant Health Inc
Current assignee: Guardant Health Inc
Priority date: 2019-01-31
Filing date: 2020-01-31
Publication date: 2021-11-16
Also published as: EP3918089A1; AU2020216438A1; US11643693B2; WO2020160414A1; US20200248272A1; JP2022519045A; CA3126428A1; US20230323474A1

Abstract

本文公开了用于分离DNA诸如无细胞DNA(cfDNA)的组合物和方法。在一些实施方案中，无细胞DNA来自具有或疑似具有癌症的受试者，和/或无细胞DNA包括由肿瘤产生的DNA。在一些实施方案中，通过该方法分离的DNA使用序列可变靶区组(a sequence‑variable target region set)和表观遗传靶区组(an epigenetic target region set)捕获，其中序列可变靶区组以比表观遗传靶区组更高的捕获产量被捕获。在一些实施方案中，序列可变靶区组的捕获的cfDNA被测序至比表观遗传靶区组的捕获的cfDNA更深的测序深度。

Description

用于分离无细胞DNA的组合物和方法

相关申请的交叉引用

本申请要求2019年1月31日提交的美国临时专利申请第62/799,637号的优先权的权益，该申请出于所有目的通过引用并入本文。

背景

癌症每年导致全世界数百万人死亡。癌症的早期检测可能导致改进的结果，因为早期癌症倾向于对治疗更敏感。

不当控制的细胞生长是癌症的标志(hallmark)，癌症通常由遗传改变和表观遗传改变诸如拷贝数变异(CNV)、单核苷酸变异(SNV)、基因融合体、插入和/或缺失(插入缺失(indels))的积累引起，表观遗传变异包括胞嘧啶的5-甲基化(5-甲基胞嘧啶)以及DNA与染色质蛋白和转录因子的缔合。

活检代表了用于检测或诊断癌症的传统方法，其中从可能的癌症部位提取细胞或组织，并分析相关的表型和/或基因型特征。活检具有侵入性的缺点。

基于体液诸如血液分析的癌症检测(“液体活检”)是基于对来自癌细胞的DNA被释放到体液中的观察结果的有趣的替代方法。液体活检是非侵入性的(可能仅需要抽血)。然而，考虑到无细胞DNA的低浓度和异质性，开发用于分析液体活检材料的准确且灵敏的方法是有挑战的。分离可用于液体活检程序中进一步分析的无细胞DNA级分是该过程的重要部分。因此，对于用于分离无细胞DNA(例如用于液体活检)的改进的方法和组合物存在需求。

概述

本公开内容提供了用于分离DNA，诸如无细胞DNA的组合物和方法。本公开内容部分地基于以下认识。分离无细胞的DNA以便捕获两个靶区组——序列可变靶区组和表观遗传靶区组(其中序列可变靶区组的捕获产量大于表观遗传靶区组的捕获产量)可能是有益的。在本文描述的涉及序列可变靶区组和表观遗传靶区组的所有实施方案中，序列可变靶区组包括表观遗传靶区组中不存在的区域，并且反之亦然，尽管在一些情况下，区域的级分可以重叠(例如，基因组位置的级分可以在两个靶区组中呈现)。捕获产量的差异可以允许例如在同时测序期间诸如在同一测序池(sequencing cell)中或在同一待测序材料池中在序列可变靶区组中进行深度且因此更准确的序列确定，以及在表观遗传靶区组中进行浅且更广泛的覆盖。

表观遗传靶区组可以以各种方式进行分析，包括不依赖于靶内特定核苷酸序列确定中的高度准确度的方法。实例包括确定甲基化和/或片段的分布和尺寸，这可以指示获得片段的细胞中正常或异常的染色质结构。这样的分析可以通过测序来执行，并且与确定序列突变(诸如碱基取代、插入或缺失)的存在或不存在相比，需要更少的数据(例如，序列读段的数量或测序覆盖的深度)。

与本文描述的方法相比，以相同的捕获产量分离表观遗传靶区组和序列可变靶区组将导致表观遗传靶区组不必要的冗余数据的产生和/或提供比确定序列可变靶区组成员的基因型所期望的更低的准确度。

本公开内容旨在满足对于改进无细胞DNA分离的需求和/或提供其他益处。因此，提供了以下示例性实施方案。

在一方面，本公开内容提供了一种分离无细胞DNA(cfDNA)的方法，该方法包括：捕获从测试受试者获得的cfDNA的多于一个靶区组，其中多于一个靶区组包括序列可变靶区组和表观遗传靶区组，从而产生捕获的cfDNA分子组；其中在捕获的cfDNA分子组中，对应于序列可变靶区组的cfDNA分子以比对应于表观遗传靶区组的cfDNA分子更高的捕获产量被捕获。

在另一方面，本公开内容提供了一种分离无细胞DNA(cfDNA)的方法，该方法包括：使从测试受试者获得的cfDNA与靶特异性探针组接触，其中靶特异性探针组包括对序列可变靶区组特异性的靶结合探针和对表观遗传靶区组特异性的靶结合探针，并且靶特异性探针组被配置为以比对应于表观遗传靶区组的cfDNA更高的捕获产量捕获对应于序列可变靶区组的cfDNA，从而形成靶特异性探针和cfDNA的复合物；并且将复合物与未与靶特异性探针结合的cfDNA分开，从而提供捕获的cfDNA分子组。在一些实施方案中，该方法还包括对捕获的cfDNA分子组进行测序。在一些实施方案中，该方法还包括将对应于序列可变靶区组的cfDNA分子测序至比对应于表观遗传靶区组的cfDNA分子更深的测序深度。

在另一方面，本公开内容提供了一种鉴定由肿瘤产生的DNA的存在的方法，该方法包括：从测试受试者收集cfDNA，从cfDNA中捕获多于一个靶区组，其中多于一个靶区组包括序列可变靶区组和表观遗传靶区组，从而产生捕获的cfDNA分子组，对捕获的cfDNA分子进行测序，其中序列可变靶区组的捕获的cfDNA分子被测序至比表观遗传靶区组的捕获的cfDNA分子更深的测序深度。

在另一方面，本公开内容提供了一种确定受试者具有癌症的可能性的方法，包括：a)从测试受试者收集cfDNA；b)从cfDNA中捕获多于一个靶区组，其中多于一个靶区组包括序列可变靶区组和表观遗传靶区组，从而产生捕获的cfDNA分子组；c)对捕获的cfDNA分子进行测序，其中序列可变靶区组的捕获的cfDNA分子被测序至比表观遗传靶区组的捕获的cfDNA分子更深的测序深度；d)获得由核酸测序仪通过对捕获的cfDNA分子进行测序而产生的多于一个序列读段；e)将多于一个序列读段映射至一个或更多个参考序列以产生映射的序列读段；以及f)处理对应于序列可变靶区组和表观遗传靶区组的映射的序列读段，以确定受试者具有癌症的可能性。

在一些实施方案中，序列可变靶区组的捕获的cfDNA分子被测序至比表观遗传靶区组的捕获的cfDNA分子深至少2倍的测序深度。在一些实施方案中，序列可变靶区组的捕获的cfDNA分子被测序至比表观遗传靶区组的捕获的cfDNA分子深至少3倍的测序深度。在一些实施方案中，序列可变靶区组的捕获的cfDNA分子被测序至比表观遗传靶区组的捕获的cfDNA分子深4-10倍的测序深度。在一些实施方案中，序列可变靶区组的捕获的cfDNA分子被测序至比表观遗传靶区组的捕获的cfDNA分子深4-100倍的测序深度。

在一些实施方案中，cfDNA扩增包括将包含条形码的衔接子与cfDNA连接的步骤。在一些实施方案中，cfDNA扩增包括将包含条形码的衔接子与cfDNA连接的步骤。

在一些实施方案中，捕获cfDNA的多于一个靶区组包括使cfDNA与对序列可变靶区组特异性的靶结合探针和对表观遗传靶区组特异性的靶结合探针接触。在一些实施方案中，对序列可变靶区组特异性的靶结合探针以比对表观遗传靶区组特异性的靶结合探针更高的浓度存在。在一些实施方案中，对序列可变靶区组特异性的靶结合探针以比对表观遗传靶区组特异性的靶结合探针高至少2倍的浓度存在。在一些实施方案中，对序列可变靶区组特异性的靶结合探针以比对表观遗传靶区组特异性的靶结合探针高至少4倍或5倍的浓度存在。在一些实施方案中，对序列可变靶区组特异性的靶结合探针具有比对表观遗传靶区组特异性的靶结合探针更高的靶结合亲和力。

在一些实施方案中，从测试受试者获得的cfDNA基于甲基化水平被分区为至少2个级分，并且对每个级分进行方法的随后步骤。

在一些实施方案中，分区步骤包括使收集的cfDNA与固定在固体支持物上的甲基结合试剂接触。

在另一方面，本公开内容提供了一种用于捕获由肿瘤细胞产生的cfDNA的靶特异性探针的集合，所述集合包含对序列可变靶区组特异性的靶结合探针和对表观遗传靶区组特异性的靶结合探针，其中对序列可变靶区组特异性的靶结合探针的捕获产量比对表观遗传靶区组特异性的靶结合探针的捕获产量高至少2倍。在一些实施方案中，对序列可变靶区组特异性的靶结合探针的捕获产量比对表观遗传靶区组特异性的靶结合探针的捕获产量高至少4倍或5倍。

在一些实施方案中，其中在序列可变靶区组中存在至少10个区域，并且在表观遗传靶区组中存在至少100个区域。

在一些实施方案中，探针存在于单一溶液中。在一些实施方案中，探针包含捕获部分。

在另一方面，本公开内容提供了一种系统，该系统包括通信接口，所述通信接口通过通信网络接收由核酸测序仪通过对捕获的cfDNA分子组进行测序而产生的多于一个序列读段，其中捕获的cfDNA分子组通过从cfDNA样品中捕获多于一个靶区组来获得，其中多于一个靶区组包括序列可变靶区组和表观遗传靶区组，其中对应于序列可变靶区的捕获的cfDNA分子被测序至比对应于表观遗传靶区组的捕获的cfDNA分子更深的测序深度；和控制器，所述控制器包括或能够访问包括非暂时性计算机可执行指令的计算机可读介质，所述指令在由至少一个电子处理器执行时进行一种方法，所述方法包括：(i)通过通信网络接收由核酸测序仪产生的序列读段；(ii)将多于一个序列读段映射至一个或更多个参考序列以产生映射的序列读段；(iii)处理对应于序列可变靶区组和表观遗传靶区组的映射的序列读段，以确定受试者具有癌症的可能性。

在一些实施方案中，对应于序列可变靶区组的测序深度比对应于表观遗传靶区组的测序深度深至少2倍。在一些实施方案中，对应于序列可变靶区组的测序深度比对应于表观遗传靶区组的测序深度深至少3倍。在一些实施方案中，对应于序列可变靶区组的测序深度比对应于表观遗传靶区组的测序深度深4-10倍。在一些实施方案中，对应于序列可变靶区组的测序深度比对应于表观遗传靶区组的测序深度深至少4-100倍。

在一些实施方案中，在测序之前，将序列可变靶区组的捕获的cfDNA分子与表观遗传靶区组的捕获的cfDNA分子汇集。在一些实施方案中，在同一测序池中对序列可变靶区组的捕获的cfDNA分子和表观遗传靶区组的捕获的cfDNA分子进行测序。

在一些实施方案中，表观遗传靶区组包括超甲基化可变靶区组。在一些实施方案中，表观遗传靶区组包括低甲基化可变靶区组。在一些实施方案中，表观遗传靶区组包括甲基化对照靶区组。

在一些实施方案中，表观遗传靶区组包括片段化可变靶区组。在一些实施方案中，片段化可变靶区组包括转录起始位点区。在一些实施方案中，片段化可变靶区组包括CTCF结合区。

在一些实施方案中，表观遗传靶区组的足迹比序列可变靶区组的尺寸大至少2倍。在一些实施方案中，表观遗传靶区组的足迹比序列可变靶区组的尺寸大至少10倍。

在一些实施方案中，序列可变靶区组的足迹是至少25kB或50kB。

在又另一方面，本公开内容提供了一种组合物，所述组合物包含捕获的cfDNA，其中捕获的cfDNA包括捕获的序列可变靶区和捕获的表观遗传靶区，并且序列可变靶区的浓度大于表观遗传靶区的浓度，其中浓度针对序列可变靶区和表观遗传靶区的足迹尺寸进行归一化。

在一些实施方案中，捕获的cfDNA包含序列标签。在一些实施方案中，序列标签包括条形码。在一些实施方案中，序列可变靶区的浓度比表观遗传靶区的浓度大至少2倍。在一些实施方案中，序列可变靶区的浓度比表观遗传靶区的浓度大至少4倍或5倍。在一些实施方案中，浓度是针对靶区的足迹尺寸归一化的质量/体积浓度。

在一些实施方案中，表观遗传靶区包括超甲基化可变靶区；低甲基化可变靶区；转录起始位点区；和CTCF结合区中的一种、两种、三种或四种；任选地，其中表观遗传靶区还包括甲基化对照靶区。

在一些实施方案中，组合物根据本文别处公开的方法产生。在一些实施方案中，捕获在单个容器中进行。

在一些实施方案中，本文公开的系统和方法的结果被用作输入以生成报告。报告可以是纸质格式或电子格式。例如，如由本文公开的方法或系统确定的关于序列信息的信息和/或从序列信息导出的信息可以展示在这样的报告中。在一些实施方案中，该信息是如由本文公开的方法或系统确定的受试者的癌症状态。本文公开的方法或系统还可以包括将报告传送至第三方的步骤，第三方诸如是样品来源的受试者或健康护理从业者。

在另一方面，本公开内容提供了一种确定测试受试者中癌症复发风险的方法，该方法包括：在对测试受试者进行一次或更多次先前的癌症治疗之后的一个或更多个预选时间点，从被诊断为患有癌症的测试受试者收集起源于或衍生自肿瘤细胞的DNA；从DNA中捕获多于一个靶区组，其中多于一个靶区组包括序列可变靶区组和表观遗传靶区组，从而产生捕获的DNA分子组；对捕获的DNA分子进行测序，其中序列可变靶区组的捕获的DNA分子被测序至比表观遗传靶区组的捕获的DNA分子更深的测序深度，从而产生序列信息组；使用序列信息组检测起源于或衍生自肿瘤细胞的DNA在预选时间点的存在或不存在；并且确定癌症复发评分，所述癌症复发评分指示起源于或衍生自测试受试者的肿瘤细胞的DNA的存在或不存在，其中在癌症复发评分被确定为处于或高于预定阈值时，测试受试者的癌症复发状态被确定为处于癌症复发风险，或者在癌症复发评分低于预定阈值时，测试受试者的癌症复发状态被确定为处于较低的癌症复发风险。

在另一方面，本公开内容提供了一种将测试受试者分类为随后癌症治疗候选者的方法，该方法包括：在对测试受试者进行一次或更多次先前的癌症治疗之后的一个或更多个预选时间点，从被诊断为患有癌症的测试受试者收集起源于或衍生自肿瘤细胞的DNA；从DNA中捕获多于一个靶区组，其中多于一个靶区组包括序列可变靶区组和表观遗传靶区组，从而产生捕获的DNA分子组；对来自DNA分子组的多于一个捕获的DNA分子进行测序，其中序列可变靶区组的捕获的DNA分子被测序至比表观遗传靶区组的捕获的DNA分子更深的测序深度，从而产生序列信息组；使用序列信息组检测起源于或衍生自肿瘤细胞的DNA在一个或更多个预选时间点的存在或不存在；确定癌症复发评分，所述癌症复发评分指示起源于或衍生自肿瘤细胞的DNA的存在或不存在；并且将测试受试者的癌症复发评分与预定的癌症复发阈值进行比较，从而在癌症复发评分高于癌症复发阈值时，将测试受试者分类为随后癌症治疗的候选者，或者在癌症复发评分低于癌症复发阈值时，不将测试受试者分类为疗法的候选者。

以下是根据本公开内容的实施方案的示例性列表。

实施方案1是一种分离无细胞DNA(cfDNA)的方法，所述方法包括：

捕获从测试受试者获得的cfDNA的多于一个靶区组，

其中多于一个靶区组包括序列可变靶区组和表观遗传靶区组，

从而产生捕获的cfDNA分子组；

其中在所述捕获的cfDNA分子组中，对应于所述序列可变靶区组的cfDNA分子以比对应于所述表观遗传靶区组的cfDNA分子更高的捕获产量被捕获。

实施方案2是一种分离无细胞DNA(cfDNA)的方法，所述方法包括：

使从测试受试者获得的cfDNA与靶特异性探针组接触，

其中所述靶特异性探针组包括对序列可变靶区组特异性的靶结合探针和对表观遗传靶区组特异性的靶结合探针，并且所述靶特异性探针组被配置为以比对应于所述表观遗传靶区组的cfDNA更高的捕获产量捕获对应于所述序列可变靶区组的cfDNA，

从而形成靶特异性探针和cfDNA的复合物；并且

将所述复合物与未与靶特异性探针结合的cfDNA分开，从而提供捕获的cfDNA分子组。

实施方案3是实施方案1或2所述的方法，所述方法还包括对所述捕获的cfDNA分子组进行测序。

实施方案4是实施方案3所述的方法，所述方法包括将对应于所述序列可变靶区组的cfDNA分子测序至比对应于所述表观遗传靶区组的cfDNA分子更深的测序深度。

实施方案5是一种鉴定由肿瘤产生的DNA的存在的方法，所述方法包括：

从测试受试者收集cfDNA，

从所述cfDNA中捕获多于一个靶区组，

其中所述多于一个靶区组包括序列可变靶区组和表观遗传靶区组，从而产生捕获的cfDNA分子组，

对所述捕获的cfDNA分子进行测序，

其中所述序列可变靶区组的捕获的cfDNA分子被测序至比所述表观遗传靶区组的捕获的cfDNA分子更深的测序深度。

实施方案6是实施方案3-5中任一项所述的方法，其中所述序列可变靶区组的捕获的cfDNA分子被测序至比所述表观遗传靶区组的捕获的cfDNA分子深至少2倍的测序深度。

实施方案7是实施方案3-5中任一项所述的方法，其中所述序列可变靶区组的捕获的cfDNA分子被测序至比所述表观遗传靶区组的捕获的cfDNA分子深至少3倍的测序深度。

实施方案8是实施方案3-5中任一项所述的方法，其中所述序列可变靶区组的捕获的cfDNA分子被测序至比所述表观遗传靶区组的捕获的cfDNA分子深4-10倍的测序深度。

实施方案9是实施方案3-5中任一项所述的方法，其中所述序列可变靶区组的捕获的cfDNA分子被测序至比所述表观遗传靶区组的捕获的cfDNA分子深4-100倍的测序深度。

实施方案10是实施方案3-9中任一项所述的方法，其中在测序之前，将所述序列可变靶区组的捕获的cfDNA分子与所述表观遗传靶区组的捕获的cfDNA分子汇集。

实施方案11是实施方案3-10中任一项所述的方法，其中在同一测序池中对所述序列可变靶区组的捕获的cfDNA分子和所述表观遗传靶区组的捕获的cfDNA分子进行测序。

实施方案12是前述实施方案中任一项所述的方法，其中所述cfDNA在捕获之前被扩增。

实施方案13是实施方案12所述的方法，其中所述cfDNA扩增包括将包含条形码的衔接子与所述cfDNA连接的步骤。

实施方案14是前述实施方案中任一项所述的方法，其中所述表观遗传靶区组包括超甲基化可变靶区组。

实施方案15是前述实施方案中任一项所述的方法，其中所述表观遗传靶区组包括低甲基化可变靶区组。

实施方案16是实施方案14或15所述的方法，其中所述表观遗传靶区组包括甲基化对照靶区组。

实施方案17是前述实施方案中任一项所述的方法，其中所述表观遗传靶区组包括片段化可变靶区组。

实施方案18是实施方案17所述的方法，其中所述片段化可变靶区组包括转录起始位点区。

实施方案19是实施方案17或18所述的方法，其中所述片段化可变靶区组包括CTCF结合区。

实施方案20是前述实施方案中任一项所述的方法，其中捕获所述cfDNA的多于一个靶区组包括使所述cfDNA与对所述序列可变靶区组特异性的靶结合探针和对所述表观遗传靶区组特异性的靶结合探针接触。

实施方案21是实施方案20所述的方法，其中对所述序列可变靶区组特异性的靶结合探针以比对所述表观遗传靶区组特异性的靶结合探针更高的浓度存在。

实施方案22是实施方案20所述的方法，其中对所述序列可变靶区组特异性的靶结合探针以比对所述表观遗传靶区组特异性的靶结合探针高至少2倍的浓度存在。

实施方案23是实施方案20所述的方法，其中对所述序列可变靶区组特异性的靶结合探针以比对所述表观遗传靶区组特异性的靶结合探针高至少4倍或5倍的浓度存在。

实施方案24是实施方案20-23中任一项所述的方法，其中对所述序列可变靶区组特异性的靶结合探针具有比对所述表观遗传靶区组特异性的靶结合探针更高的靶结合亲和力。

实施方案25是前述实施方案中任一项所述的方法，其中所述表观遗传靶区组的足迹比所述序列可变靶区组的尺寸大至少2倍。

实施方案26是实施方案25所述的方法，其中所述表观遗传靶区组的足迹比所述序列可变靶区组的尺寸大至少10倍。

实施方案27是前述实施方案中任一项所述的方法，其中所述序列可变靶区组的足迹是至少25kB或50kB。

实施方案28是前述实施方案中任一项所述的方法，其中从所述测试受试者获得的cfDNA基于甲基化水平被分区为至少2个级分，并且对每个级分进行所述方法的随后步骤。

实施方案29是实施方案28所述的方法，其中分区步骤包括使收集的cfDNA与固定在固体支持物上的甲基结合试剂接触。

实施方案30是实施方案28或29所述的方法，其中所述至少2个级分包括超甲基化级分和低甲基化级分，并且所述方法还包括将所述超甲基化级分和所述低甲基化级分差异加标签或者对所述超甲基化级分和所述低甲基化级分单独地测序。

实施方案31是实施方案30所述的方法，其中所述超甲基化级分和所述低甲基化级分被差异加标签，并且所述方法还包括在测序步骤之前汇集差异加标签的超甲基化级分和低甲基化级分。

实施方案32是前述实施方案中任一项所述的方法，所述方法还包括确定对应于所述序列可变靶区组的cfDNA分子是否包含癌症相关突变。

实施方案33是前述实施方案中任一项所述的方法，所述方法还包括确定对应于所述表观遗传靶区组的cfDNA分子是否包含或指示癌症相关表观遗传修饰或拷贝数变异(例如，局部扩增(focal amplification))，任选地，其中所述方法包括确定对应于所述表观遗传靶区组的cfDNA分子是否包含或指示癌症相关表观遗传修饰和拷贝数变异(例如，局部扩增)。

实施方案34是实施方案33所述的方法，其中所述癌症相关表观遗传修饰包括一个或更多个超甲基化可变靶区中的超甲基化。

实施方案35是实施方案33或34所述的方法，其中所述癌症相关表观遗传修饰包括CTCF结合的一个或更多个扰动。

实施方案36是实施方案33-35中任一项所述的方法，其中所述癌症相关表观遗传修饰包括转录起始位点的一个或更多个扰动。

实施方案37是前述实施方案中任一项所述的方法，其中所述捕获的cfDNA分子组使用以下进行测序：高通量测序、焦磷酸测序、合成测序(sequencing-by-synthesis)、单分子测序、基于纳米孔的测序、半导体测序、连接测序、杂交测序、RNA-Seq(Illumina)、数字基因表达(Helicos)、下一代测序(NGS)、单分子合成测序(SMSS)(Helicos)、大规模并行测序、克隆单分子阵列(Solexa)、鸟枪测序、Ion Torrent、Oxford纳米孔、Roche Genia、Maxim-Gilbert测序、引物步移(primer walking)、使用PacBio、SOLiD、Ion Torrent或纳米孔平台的测序。

实施方案38是一种用于捕获由肿瘤细胞产生的cfDNA的靶特异性探针的集合，所述集合包含对序列可变靶区组特异性的靶结合探针和对表观遗传靶区组特异性的靶结合探针，其中对所述序列可变靶区组特异性的靶结合探针的捕获产量比对所述表观遗传靶区组特异性的靶结合探针的捕获产量高至少2倍。

实施方案39是实施方案38所述的靶特异性探针的集合，其中对所述序列可变靶区组特异性的靶结合探针的捕获产量比对所述表观遗传靶区组特异性的靶结合探针的捕获产量高至少4倍或5倍。

实施方案40是实施方案38或39所述的靶特异性探针的集合，其中所述表观遗传靶区组包括超甲基化可变靶区探针组。

实施方案41是实施方案38-40中任一项所述的靶特异性探针的集合，其中所述表观遗传靶区组包括低甲基化可变靶区探针组。

实施方案42是实施方案40或41所述的靶特异性探针的集合，其中所述表观遗传靶区探针组包括甲基化对照靶区探针组。

实施方案43是实施方案38-42中任一项所述的靶特异性探针的集合，其中所述表观遗传靶区探针组包括片段化可变靶区探针组。

实施方案44是实施方案43所述的靶特异性探针的集合，其中所述片段化可变靶区探针组包括转录起始位点区探针。

实施方案45是实施方案43或44所述的靶特异性探针的集合，其中所述片段化可变靶区探针组包括CTCF结合区探针。

实施方案46是实施方案38-45中任一项所述的靶特异性探针的集合，其中在所述序列可变靶区组中存在至少10个区域，并且在所述表观遗传靶区组中存在至少100个区域。

实施方案47是实施方案38-46中任一项所述的靶特异性探针的集合，其中所述表观遗传靶区组的足迹比所述序列可变靶区组的尺寸大至少2倍。

实施方案48是实施方案47所述的靶特异性探针的集合，其中所述表观遗传靶区组的足迹比所述序列可变靶区组的尺寸大至少10倍。

实施方案49是实施方案38-48中任一项所述的靶特异性探针的集合，其中所述序列可变靶区组的足迹是至少25kB或50kB。

实施方案50是实施方案38-49中任一项所述的靶特异性探针的集合，其中所述探针存在于单一溶液中。

实施方案51是实施方案38-50中任一项所述的靶特异性探针的集合，其中所述探针包括捕获部分。

实施方案52是一种组合物，所述组合物包含捕获的cfDNA，其中所述捕获的cfDNA包括捕获的序列可变靶区和捕获的表观遗传靶区，并且所述序列可变靶区的浓度大于所述表观遗传靶区的浓度，其中所述浓度针对所述序列可变靶区和所述表观遗传靶区的足迹尺寸进行归一化。

实施方案53是实施方案52所述的组合物，其中所述捕获的cfDNA包含序列标签。

实施方案54是实施方案53所述的组合物，其中所述序列标签包括条形码。

实施方案55是实施方案52-54中任一项所述的组合物，其中所述序列可变靶区的浓度比所述表观遗传靶区的浓度大至少2倍。

实施方案56是实施方案52-54中任一项所述的组合物，其中所述序列可变靶区的浓度比所述表观遗传靶区的浓度大至少4倍或5倍。

实施方案57是实施方案52-56中任一项所述的组合物，其中所述浓度是针对所述靶区的足迹尺寸归一化的质量/体积浓度。

实施方案58是实施方案52-57中任一项所述的组合物，其中所述表观遗传靶区包括超甲基化可变靶区；低甲基化可变靶区；转录起始位点区；和CTCF结合区中的一种、两种、三种或四种；任选地，其中所述表观遗传靶区还包括甲基化对照靶区。

实施方案59是实施方案52-58中任一项所述的组合物，所述组合物根据实施方案1-37中任一项所述的方法产生。

实施方案60是一种确定受试者具有癌症的可能性的方法，所述方法包括：

从测试受试者收集cfDNA；

从所述cfDNA中捕获多于一个靶区组；

其中所述多于一个靶区组包括序列可变靶区组和表观遗传靶区组，从而产生捕获的cfDNA分子组；

对所述捕获的cfDNA分子进行测序，

其中所述序列可变靶区组的捕获的cfDNA分子被测序至比所述表观遗传靶区组的捕获的cfDNA分子更深的测序深度；

获得由核酸测序仪通过对所述捕获的cfDNA分子进行测序而产生的多于一个序列读段；

将所述多于一个序列读段映射至一个或更多个参考序列以产生映射的序列读段；

处理对应于所述序列可变靶区组和所述表观遗传靶区组的映射的序列读段，以确定所述受试者具有癌症的可能性。

实施方案61是实施方案60所述的方法，具有实施方案21-38中任一项所述的特征。

实施方案62是实施方案60或61所述的方法，其中在获得所述多于一个序列读段和/或在同一测序池中测序之前，将所述序列可变靶区组的捕获的cfDNA分子与所述表观遗传靶区组的捕获的cfDNA分子汇集。

实施方案63是实施方案60-62中任一项所述的方法，其中所述cfDNA在捕获之前被扩增，任选地，其中所述cfDNA扩增包括将包含条形码的衔接子与所述cfDNA连接的步骤。

实施方案64是实施方案60-63中任一项所述的方法，其中所述表观遗传靶区组如实施方案15-19中任一项所述。

实施方案65是实施方案60-64中任一项所述的方法，其中捕获所述cfDNA的多于一个靶区组包括使所述cfDNA与对所述序列可变靶区组特异性的靶结合探针和对所述表观遗传靶区组特异性的靶结合探针接触。

实施方案66是一种系统，所述系统包括：

通信接口，所述通信接口通过通信网络接收由核酸测序仪通过对捕获的cfDNA分子组进行测序而产生的多于一个序列读段，其中所述捕获的cfDNA分子组通过从cfDNA样品中捕获多于一个靶区组来获得，其中所述多于一个靶区组包括序列可变靶区组和表观遗传靶区组，其中对应于所述序列可变靶区的捕获的cfDNA分子被测序至比对应于所述表观遗传靶区组的捕获的cfDNA分子更深的测序深度；和

控制器，所述控制器包括或能够访问包括非暂时性计算机可执行指令的计算机可读介质，所述指令在由至少一个电子处理器执行时进行一种方法，所述方法包括：

(i)通过所述通信网络接收由所述核酸测序仪产生的序列读段；

(ii)将所述多于一个序列读段映射至一个或更多个参考序列以产生映射的序列读段；

(iii)处理对应于所述序列可变靶区组和所述表观遗传靶区组的映射的序列读段，以确定受试者具有癌症的可能性。

实施方案67是实施方案66所述的系统，其中对应于所述序列可变靶区组的测序深度比对应于所述表观遗传靶区组的测序深度深至少2倍。

实施方案68是实施方案66所述的系统，其中对应于所述序列可变靶区组的测序深度比对应于所述表观遗传靶区组的测序深度深至少3倍。

实施方案69是实施方案66所述的系统，其中对应于所述序列可变靶区组的测序深度比对应于所述表观遗传靶区组的测序深度深4-10倍。

实施方案70是实施方案66中任一项所述的系统，其中对应于所述序列可变靶区组的测序深度比对应于所述表观遗传靶区组的测序深度深4-100倍。

实施方案71是实施方案66-70中任一项所述的系统，其中在测序之前，将所述序列可变靶区组的捕获的cfDNA分子与所述表观遗传靶区组的捕获的cfDNA分子汇集。

实施方案72是实施方案66-71中任一项所述的系统，其中在同一测序池中对所述序列可变靶区组的捕获的cfDNA分子和所述表观遗传靶区组的捕获的cfDNA分子进行测序。

实施方案73是实施方案66-72中任一项所述的系统，其中所述表观遗传靶区组包括超甲基化可变靶区组。

实施方案74是实施方案66-73中任一项所述的系统，其中所述表观遗传靶区组包括低甲基化可变靶区组。

实施方案75是实施方案72或73所述的系统，其中所述表观遗传靶区组包括甲基化对照靶区组。

实施方案76是实施方案66-75中任一项所述的系统，其中所述表观遗传靶区组包括片段化可变靶区组。

实施方案77是实施方案66-76中任一项所述的系统，其中所述片段化可变靶区组包括转录起始位点区。

实施方案78是实施方案76或77所述的系统，其中所述片段化可变靶区组包括CTCF结合区。

实施方案79是实施方案66-78中任一项所述的系统，其中所述表观遗传靶区组的足迹比所述序列可变靶区组的尺寸大至少2倍。

实施方案80是实施方案79所述的系统，其中所述表观遗传靶区组的足迹比所述序列可变靶区组的尺寸大至少10倍。

实施方案81是实施方案66-80中任一项所述的系统，其中所述序列可变靶区组的足迹是至少25kB或50kB。

实施方案82是以上实施方案中任一项所述的方法或系统，其中捕获在单个容器中进行。

实施方案83是实施方案1-37中任一项所述的方法，其中所述测试受试者先前被诊断为患有癌症并接受了一种或更多种先前的癌症治疗，任选地，其中所述cfDNA在所述一种或更多种先前的癌症治疗之后的一个或更多个预选时间点获得。

实施方案84是前一项实施方案所述的方法，所述方法还包括对所述捕获的cfDNA分子组进行测序，从而产生序列信息组。

实施方案85是前一项实施方案所述的方法，其中所述序列可变靶区组的捕获的DNA分子被测序至比所述表观遗传靶区组的捕获的DNA分子更深的测序深度。

实施方案86是实施方案84或85所述的方法，所述方法还包括使用所述序列信息组检测起源于或衍生自肿瘤细胞的DNA在预选时间点的存在或不存在。

实施方案87是前一项实施方案所述的方法，所述方法还包括确定癌症复发评分，所述癌症复发评分指示起源于或衍生自所述测试受试者的肿瘤细胞的DNA的存在或不存在。

实施方案88是前一项实施方案所述的方法，所述方法还包括基于所述癌症复发评分确定癌症复发状态，其中在癌症复发评分被确定为处于或高于预定阈值时，所述测试受试者的癌症复发状态被确定为处于癌症复发风险，或者在所述癌症复发评分低于所述预定阈值时，所述测试受试者的癌症复发状态被确定为处于较低的癌症复发风险。

实施方案89是实施方案87或88所述的方法，所述方法还包括将所述测试受试者的癌症复发评分与预定的癌症复发阈值进行比较，并且在所述癌症复发评分高于所述癌症复发阈值时，所述测试受试者被分类为随后癌症治疗的候选者，或者在所述癌症复发评分低于所述癌症复发阈值时，所述测试受试者不被分类为随后癌症治疗的候选者。

实施方案90是一种确定测试受试者中癌症复发风险的方法，所述方法包括：

(a)在对所述测试受试者进行一次或更多次先前的癌症治疗之后的一个或更多个预选时间点，从被诊断为患有癌症的测试受试者收集起源于或衍生自肿瘤细胞的DNA；

(b)从所述DNA捕获多于一个靶区组，其中所述多于一个靶区组包括序列可变靶区组和表观遗传靶区组，从而产生捕获的DNA分子组；

(c)对捕获的DNA分子进行测序，其中所述序列可变靶区组的捕获的DNA分子被测序至比所述表观遗传靶区组的捕获的DNA分子更深的测序深度，从而产生序列信息组；

(d)使用所述序列信息组检测起源于或衍生自肿瘤细胞的DNA在预选时间点的存在或不存在；和

(e)确定癌症复发评分，所述癌症复发评分指示起源于或衍生自所述测试受试者的肿瘤细胞的DNA的存在或不存在，其中在所述癌症复发评分被确定为处于或高于预定阈值时，所述测试受试者的癌症复发状态被确定为处于癌症复发风险，或者在所述癌症复发评分低于所述预定阈值时，所述测试受试者的癌症复发状态被确定为处于较低的癌症复发风险。

实施方案91是一种将测试受试者分类为随后癌症治疗候选者的方法，所述方法包括：

(c)对来自所述DNA分子组的多于一个捕获的DNA分子进行测序，其中所述序列可变靶区组的捕获的DNA分子被测序至比所述表观遗传靶区组的捕获的DNA分子更深的测序深度，从而产生序列信息组；

(d)使用所述序列信息组检测起源于或衍生自肿瘤细胞的DNA在一个或更多个预选时间点的存在或不存在，

(e)确定癌症复发评分，所述癌症复发评分指示起源于或衍生自所述肿瘤细胞的DNA的存在或不存在；和

(f)将所述测试受试者的癌症复发评分与预定的癌症复发阈值进行比较，从而在所述癌症复发评分高于所述癌症复发阈值时，将所述测试受试者分类为随后癌症治疗的候选者，或者在所述癌症复发评分低于所述癌症复发阈值时，不将所述测试受试者分类为疗法的候选者。

实施方案92是实施方案88-90所述的方法，其中所述测试受试者处于癌症复发的风险，并且被分类为随后癌症治疗的候选者。

实施方案93是实施方案89、91或92中任一项所述的方法，其中所述随后癌症治疗包括化学疗法或施用治疗性组合物。

实施方案94是实施方案90-93中任一项所述的方法，其中起源于或衍生自肿瘤细胞的DNA是无细胞DNA。

实施方案95是实施方案90-93中任一项所述的方法，其中起源于或衍生自肿瘤细胞的DNA从组织样品中获得。

实施方案96是实施方案87-95中任一项所述的方法，所述方法还包括基于所述癌症复发评分确定所述测试受试者的无病生存期(DFS)时间段。

实施方案97是实施方案96所述的方法，其中所述DFS时间段是1年、2年、3年、4年、5年或10年。

实施方案98是实施方案84-97中任一项所述的方法，其中所述序列信息组包括序列可变靶区序列，并且确定所述癌症复发评分包括确定指示序列可变靶区序列中存在的SNV、插入/缺失、CNV和/或融合体的量的至少第一分项评分。

实施方案99是实施方案98所述的方法，其中选自1、2、3、4或5的序列可变靶区中的突变数量足以使第一分项评分产生分类为癌症复发阳性的癌症复发评分，任选地其中所述突变数量选自1、2或3。

实施方案100是实施方案84-99中任一项所述的方法，其中所述序列信息组包括表观遗传靶区序列，并且确定所述癌症复发评分包括确定指示所述表观遗传靶区序列中异常序列读段的量的第二分项评分。

实施方案101是实施方案100所述的方法，其中异常序列读段包括指示超甲基化可变靶序列的甲基化的读段和/或指示片段化可变靶区中异常片段化的读段。

实施方案102是实施方案101所述的方法，其中大于或等于0.001％-10％范围内的值的指示超甲基化可变靶区组中的超甲基化和/或片段化可变靶区组中的异常片段化的对应于超甲基化可变靶区组和/或片段化可变靶区组的读段的比例足以将第二分项评分分类为癌症复发阳性。

实施方案103是实施方案102所述的方法，其中所述范围是0.001％-1％或0.005％-1％。

实施方案104是实施方案102所述的方法，其中所述范围是0.01％-5％或0.01％-2％。

实施方案105是实施方案102所述的方法，其中所述范围是0.01％-1％。

实施方案106是实施方案84-105中任一项所述的方法，所述方法还包括从所述序列信息组中指示一个或更多个指示起源于肿瘤细胞的特征的读段分数(fraction)中确定肿瘤DNA的分数。

实施方案107是实施方案106所述的方法，其中指示起源于肿瘤细胞的一个或更多个特征包括序列可变靶区的改变、超甲基化可变靶区的超甲基化和片段化可变靶区的异常片段化中的一个或更多个。

实施方案108是实施方案106或107所述的方法，所述方法还包括至少部分地基于肿瘤DNA的分数来确定癌症复发评分，其中大于或等于10^-11至1或10^-10至1范围内的预定值的肿瘤DNA的分数足以将所述癌症复发评分分类为癌症复发阳性。

实施方案109是实施方案108所述的方法，其中大于或等于10^–10至10^–9、10^–9至10^–8、10^–8至10^–7、10^–7至10^–6、10^–6至10^–5、10^–5至10^–4、10^–4至10^–3、10^–3至10^–2或10^–2至10^–1范围内的预定值的肿瘤DNA的分数足以将所述癌症复发评分分类为癌症复发阳性。

实施方案110是实施方案108或109所述的方法，其中所述预定值在10^–8至10^–6的范围内或者是10^-7。

实施方案111是实施方案107-110中任一项所述的方法，其中如果所述肿瘤DNA的分数大于或等于预定值的累积概率是至少0.5、0.75、0.9、0.95、0.98、0.99、0.995或0.999，则所述肿瘤DNA的分数被确定为大于或等于预定值。

实施方案112是实施方案111所述的方法，其中所述累积概率是至少0.95。

实施方案113是实施方案111所述的方法，其中所述累积概率在0.98-0.995的范围内或者是0.99。

实施方案114是实施方案84-113中任一项所述的方法，其中所述序列信息组包括序列可变靶区序列和表观遗传靶区序列，并且确定所述癌症复发评分包括确定指示序列可变靶区序列中存在的SNV、插入/缺失、CNV和/或融合体的量的第一分项评分和确定指示表观遗传靶区序列中异常序列读段的量的第二分项评分，并且将所述第一分项评分和所述第二分项评分组合以提供所述癌症复发评分。

实施方案115是实施方案114所述的方法，其中将所述第一分项评分和所述第二分项评分组合包括对每个分项评分独立地应用阈值(例如，在序列可变靶区中大于预定数量的突变(例如，>1)，并且在表观遗传靶区中大于预定分数的异常(例如，肿瘤)读段)，或者训练机器学习分类器以基于多于一个阳性和阴性训练样品来确定状态。

实施方案116是实施方案115所述的方法，其中-4至2或-3至1范围内的组合评分的值足以将癌症复发评分分类为癌症复发阳性。

实施方案117是实施方案83-116中任一项所述的方法，其中一个或更多个预选时间点选自由以下组成的组：施用一种或更多种先前的癌症治疗之后的1个月、2个月、3个月、4个月、5个月、6个月、7个月、8个月、9个月、10个月、11个月、1年、1.5年、2年、3年、4年和5年。

实施方案118是实施方案83-117中任一项所述的方法，其中所述癌症是结肠直肠癌。

实施方案119是实施方案83-118中任一项所述的方法，其中一种或更多种先前的癌症治疗包括手术。

实施方案120是实施方案83-119中任一项所述的方法，其中一种或更多种先前的癌症治疗包括施用治疗性组合物。

实施方案121是实施方案83-120中任一项所述的方法，其中一种或更多种先前的癌症治疗包括化学疗法。

本文公开的方法的各步骤，或由本文公开的系统进行的步骤，可以在相同时间或不同的时间和/或在同一地理位置或不同的地理位置例如国家进行。本文公开的方法的各步骤可以由同一人员或不同的人员进行。

附图简述

并入本说明书并构成其一部分的附图示出了某些实施方案，并与书面描述一起用于解释本文公开的方法、计算机可读介质和系统的某些原理。当结合附图阅读时，本文提供的描述被更好地理解，附图以实例的方式而非限制的方式被包括在内。应当理解，除非上下文另有说明，否则在所有附图中，相同的附图标记表示相同的部件。还应当理解，一些或所有附图可以是出于说明目的的示意图，并不一定描绘所示元件的实际相对尺寸或位置。

图1示出了分区方法的概述。

图2是适用于本公开内容的一些实施方案的系统实例的示意图。

图3示出了在如实施例ii中描述的液体活检测试中使用表观遗传靶区和序列可变靶区中的一个或两个来检测不同阶段的癌症的灵敏度。

图4示出了如实施例iii中描述被检测到或未被检测到ctDNA的受试者随时间的无复发生存期。

详细描述

现在将详细述及本发明的某些实施方案。虽然将结合这些实施方案描述本发明，但是应当理解，它们并不意图使本发明受限于这些实施方案。相反，意图本发明覆盖所有替代、修改和等同方案，它们可以被包括在如由所附权利要求书定义的本发明内。

在详细描述本教导之前，应当理解，本公开内容不限于特定的组合物或工艺步骤，因为这些可以变化。应该注意的是，除非上下文另外明确规定，否则如本说明书和所附的权利要求中使用的，单数形式“一(a)”、“一(an)”和“该(the)”包括复数指代物。因此，例如，提及“核酸(a nucleic acid)”包括多于一个核酸，提及“细胞(a cell)”包括多于一个细胞，等。

数值范围包括限定该范围的数字。考虑到有效数字和与测量相关联的误差，测量值和可测量值应当理解为近似值。此外，使用“包含(comprise)”、“包含(comprises)”、“包含(comprising)”、“包含(contain)”、“包含(contains)”、“包含(containing)”、“包括(include)”、“包括(includes)”和“包括(including)”并非旨在限制。应当理解，上文的一般描述和详细描述二者仅是示例性的和说明性的，而不是限制本教导。

除非在以上说明书中特别指出，否则说明书中叙述“包含(comprising)”各种组分的实施方案也被认为是“由”所叙述的组分“组成”或“基本上由”所叙述的组分“组成”；说明书中叙述“由”各种组分“组成”的实施方案也被认为是“包含(comprising)”或“基本上由”所叙述的组分“组成”；并且说明书中叙述“基本上由”各种组分“组成”的实施方案也被认为是“由”叙述的组分“组成”或“包含(comprising)”所叙述的组分(这种可互换性不适用于权利要求中这些术语的使用)。

本文使用的章节标题用于组织目的，并且不被解释为以任何方式限制所公开的主题。如果通过引用并入的任何文件或其他材料与本说明书的任何明确内容(包括定义)相矛盾，则以本说明书为准。

I.定义

“无细胞DNA(Cell-free DNA)”、“cfDNA分子”或简称为“cfDNA”包括以细胞外形式(例如，在血液、血清、血浆或其他体液诸如淋巴、脑脊液、尿液或痰中)存在于受试者中的DNA分子，并且包括不包含在细胞内或不以其他方式与细胞结合的DNA。虽然DNA最初存在于大型复杂生物的生物体(例如，哺乳动物)的一个或更多个细胞中，但DNA已经经历从一个或更多个细胞释放到存在于生物体中的流体中。通常，可以通过获得流体样品获得cfDNA，而无需进行体外细胞裂解步骤，并且还包括去除流体中存在的细胞(例如，离心血液以去除细胞)。

探针集合对于给定靶区组的“捕获产量”是指在典型条件下集合捕获的对应于靶区组的核酸的量(例如，相对于另一靶区组的量或绝对量)。示例性典型捕获条件是样品核酸和探针在包含严格杂交缓冲液的小反应体积(约20μL)中于65℃孵育10-18小时。捕获产量可以以绝对性术语表示，或者对于多于一个探针集合，可以以相对性术语表示。在比较对于多于一个靶区组的捕获产量时，将它们针对靶区组的足迹尺寸(例如，基于每千碱基)进行归一化。因此，例如，如果第一靶区和第二靶区的足迹尺寸分别是50kb和500kb(给出0.1的归一化因子)，则在对应于第一靶区组的捕获的DNA的质量/体积浓度多于对应于第二靶区组的捕获的DNA的质量/体积浓度的0.1倍时，对应于第一靶区组的DNA以比对应于第二靶区组的DNA高的产量被捕获。作为另外的实例，使用相同的足迹尺寸，如果对应于第一靶区组的捕获的DNA具有的质量/体积浓度为对应于第二靶区组的捕获的DNA的质量/体积浓度的0.2倍，则对应于第一靶区组的DNA以比对应于第二靶区组的DNA高两倍的捕获产量被捕获。

“捕获”或“富集”一种或更多种靶核酸是指优先将一种或更多种靶核酸与非靶核酸分离(isolating)或分开(separating)。

“捕获的”核酸组是指已经经历捕获的核酸。

“靶区组(target-region set)”或“靶区组(set of target regions)”或“靶区”是指被靶向用于捕获和/或被探针组靶向(例如，通过序列互补性)的多于一个基因组基因座或多于一个基因组区。

“对应于靶区组”意指核酸，诸如cfDNA，起源于靶区组中的基因座或一种或更多种探针特异性结合靶区组。

在探针或其他寡核苷酸和靶序列的上下文中，“特异性结合”意指在适当的杂交条件下，寡核苷酸或探针与其靶序列或其复制品杂交，以形成稳定的探针:靶杂交体，同时稳定的探针:非靶杂交体的形成被最小化。因此，探针与靶序列或其复制品以比与非靶序列大得多的程度杂交，从而能够捕获或检测靶序列。适当的杂交条件是本领域熟知的，可以基于序列组成进行预测，或者可以通过使用常规测试方法来确定(参见，例如，Sambrook等人，Molecular Cloning,A Laboratory Manual,第2版(Cold Spring Harbor LaboratoryPress,Cold Spring Harbor,NY,1989)在§§1.90-1.91、7.37-7.57、9.47-9.51和11.47-11.57，特别是§§9.50-9.51、11.12-11.13、11.45-11.47和11.55-11.57，通过引用并入本文)。

“序列可变靶区组”是指在赘生性细胞(例如，肿瘤细胞和癌细胞)中可能表现出序列改变，诸如核苷酸取代、插入、缺失或基因融合或转座的靶区组。

“表观遗传靶区组”是指在赘生性细胞(例如，肿瘤细胞和癌细胞)和非肿瘤细胞(例如，免疫细胞、来自肿瘤微环境的细胞)中可能表现出非序列修饰的靶区组。这些修饰不会改变DNA的序列。非序列修饰改变的实例包括，但不限于，甲基化、核小体分布、CTCF结合、转录起始位点、调节蛋白结合区和任何其他可能与DNA结合的蛋白的改变(增加或减少)。出于本发明的目的，对赘生物、肿瘤或癌症相关的局部扩增和/或基因融合敏感的基因座也可以被包括在表观遗传靶区组中，因为通过测序或映射至参考基因组中多于一个基因座的融合序列对拷贝数改变的检测倾向于更类似于对以上讨论的示例性表观遗传改变的检测，而不是对核苷酸取代、插入或缺失的检测，例如，因为局部扩增和/或基因融合可以在相对浅的测序深度处被检测到，这是因为它们的检测不依赖于一个或若干单独位置处碱基调用的准确度。例如，表观遗传靶区组可以包括用于分析片段长度或片段终点位置分布的靶区组。术语“表观遗传学”和“表观基因组学”在本文可互换使用。

循环肿瘤DNA或ctDNA是起源于肿瘤细胞或癌细胞的cfDNA组分。在一些实施方案中，cfDNA包括起源于正常细胞的DNA和起源于肿瘤细胞的DNA(即ctDNA)。肿瘤细胞是起源于肿瘤的赘生性细胞，不管它们是保持在肿瘤中还是变成与肿瘤分开(如，例如在转移性癌细胞和循环肿瘤细胞的情况下)。

术语“超甲基化”是指核酸分子群体(例如样品)内一种或更多种核酸分子相对于其他核酸分子的甲基化水平或程度增加。在一些实施方案中，超甲基化DNA可以包括包含至少1个甲基化残基、至少2个甲基化残基、至少3个甲基化残基、至少5个甲基化残基、至少10个甲基化残基、至少20个甲基化残基、至少25个甲基化残基或至少30个甲基化残基的DNA分子。

术语“低甲基化”是指核酸分子群体(例如样品)内一种或更多种核酸分子相对于其他核酸分子的甲基化水平或程度减少。在一些实施方案中，低甲基化DNA包括非甲基化DNA分子。在一些实施方案中，低甲基化DNA可以包括包含0个甲基化残基、至多1个甲基化残基、至多2个甲基化残基、至多3个甲基化残基、至多4个甲基化残基或至多5个甲基化残基的DNA分子。

如本文使用的术语“或其组合(a combination thereof)”和“或其组合(combinations thereof)”是指该术语前面所列术语的任何和所有排列和组合。例如，“A、B、C或其组合”意图包括以下的至少一种：A、B、C、AB、AC、BC或ABC，且如果顺序在特定上下文中是重要的，则BA、CA、CB、ACB、CBA、BCA、BAC或CAB。继续这个实例，明确包括了包含一个或更多个项目或术语的重复的组合，诸如BB、AAA、AAB、BBC、AAABCCCC、CBBAAA、CABABB等。除非从上下文另外显然，否则本领域技术人员将理解，通常不存在对任何组合中的项目或术语的数目限制。

除非上下文另外要求，否则“或”以包含性含义使用，即，等同于“和/或”。

II.示例性方法

本文提供了分离无细胞DNA(cfDNA)和/或鉴定由肿瘤(或赘生性细胞或癌细胞)产生的DNA的存在的方法。

在一些实施方案中，该方法包括针对多于一个靶区组捕获从测试受试者获得的cfDNA。靶区包括表观遗传靶区，根据表观遗传靶区是起源于肿瘤还是来自健康细胞，它们可以显示甲基化水平和/或片段化模式的差异。靶区还包括序列可变靶区，根据序列可变靶区是起源于肿瘤还是来自健康细胞，它们可以显示出序列上的差异。捕获步骤产生捕获的cfDNA分子组，并且在捕获的cfDNA分子组中对应于序列可变靶区组的cfDNA分子以比对应于表观遗传靶区组的cfDNA分子更高的捕获产量被捕获。

在一些实施方案中，该方法包括使从测试受试者获得的cfDNA与靶特异性探针组接触，其中靶特异性探针组被配置为以比对应于表观遗传靶区组的cfDNA更高的捕获产量捕获对应于序列可变靶区组的cfDNA。

以比对应于表观遗传靶区组的cfDNA更高的捕获产量捕获对应于序列可变靶区组的cfDNA可以是有益的，因为以足够的置信度或准确度分析序列可变靶区可能需要比分析表观遗传靶区更深的测序深度。测序的更深的深度可以导致每个DNA分子更多的读段，并且可以通过每个区域捕获更多独特的分子来促进测序。确定片段化模式(例如，测试转录起始位点或CTCF结合位点的扰动)或片段丰度(例如，在高甲基化和低甲基化分区中)所需的数据量通常少于确定癌症相关序列突变的存在或不存在所需的数据量。以不同的产量捕获靶区组可以促进在同一测序运行中(例如，使用汇集的混合物和/或在同一测序池中)将靶区测序至不同的测序深度。

在多种实施方案中，该方法还包括，例如，对于表观遗传靶区组和序列可变靶区组，将捕获的cfDNA测序至不同程度的测序深度，与以上讨论一致。

1.捕获步骤；扩增；衔接子；条形码

在一些实施方案中，本文公开的方法包括捕获DNA诸如cfDNA的一个或更多个靶区组的步骤。可以使用本领域已知的任何合适的方法来进行捕获。

在一些实施方案中，捕获包括使待捕获的DNA与靶特异性探针组接触。靶特异性探针组可以具有本文针对靶特异性探针组(sets of target-specific probes)描述的任何特征，包括但不限于以上阐释的实施方案和下文与探针相关联的部分。

捕获步骤可以使用适于特异性核酸杂交的条件进行，这通常在某种程度上取决于探针的特征，诸如长度、碱基组成等。本领域技术人员将熟悉本领域已知的关于核酸杂交的一般知识的适当条件。在一些实施方案中，形成了靶特异性探针和DNA的复合物。

在一些实施方案中，将靶特异性探针和DNA的复合物与未与靶特异性探针结合的DNA分开。例如，在靶特异性探针与固体支持物共价或非共价结合的情况下，可以使用洗涤或抽吸步骤来分开未结合的物质。可选地，在复合物具有不同于未结合材料的层析特性的情况下(例如，在探针包含结合层析树脂的配体的情况下)，可以使用层析。

如本文别处详细讨论的，靶特异性探针组可以包括多于一组，诸如用于序列可变靶区组的探针和用于表观遗传靶区组的探针。在一些这样的实施方案中，捕获步骤用用于序列可变靶区组的探针和用于表观遗传靶区组的探针同时在同一容器中进行，例如，用于序列可变靶区组的探针和用于表观遗传靶区组的探针处于同一组合物中。这种方法提供了相对简化的工作流程。在一些实施方案中，用于序列可变靶区组的探针浓度大于用于表观遗传靶区组的探针浓度。

可选地，捕获步骤用第一容器中的序列可变靶区探针组和用第二容器中的表观遗传靶区探针组进行，或者接触步骤用在第一时间和第一容器的序列可变靶区探针组和在第一时间之前或之后的第二时间的表观遗传靶区探针组进行。这种方法允许制备单独的第一组合物和第二组合物，所述第一组合物和第二组合物包含对应于序列可变靶区组的捕获的DNA和对应于表观遗传靶区组的捕获的DNA。组合物可以根据需要单独地处理(例如，如本文别处描述基于甲基化进行分级分离)并以适当的比例重组，以提供用于进一步处理和分析诸如测序的材料。

在一些实施方案中，扩增DNA。在一些实施方案中，扩增在捕获步骤之前进行。在一些实施方案中，扩增在捕获步骤之后进行。DNA的非特异性扩增方法是本领域已知的。参见，例如，Smallwood等人，Nat.Methods11:817-820(2014)。例如，可以使用在其5’末端具有衔接子序列而在3’末端具有随机碱基的随机引物。通常存在6个随机碱基，但长度可以在4个与9个碱基之间。这种方法适用于低输入/单细胞扩增和/或亚硫酸氢盐测序。

在一些实施方案中，衔接子被包括在DNA中。这可以，例如，如以上描述的，例如，通过在引物的5’部分提供衔接子与扩增程序同时进行。可选地，可以通过其他方法诸如连接添加衔接子。

在一些实施方案中，标签(其可以是或包括条形码)被包括在DNA中。标签可以促进鉴定核酸的来源。例如，条形码可以用于允许在汇集多于一个样品进行并行测序之后，鉴定DNA来自何处的来源(例如，受试者)。这可以，例如，如以上描述的，例如，通过在引物的5’部分提供条形码与扩增程序同时进行。在一些实施方案中，衔接子和标签/条形码由相同的引物或引物组提供。例如，条形码可以位于衔接子的3’侧和引物的靶杂交部分的5’侧。可选地，条形码可以通过其他方法，诸如连接，任选地与衔接子一起在同一连接底物中添加。

关于扩增、标签和条形码的另外的细节在下文的“方法的一般特征”部分中讨论，其可以在可行的程度上与任何前述实施方案和在简介和概述部分中阐述的实施方案组合。

2.捕获的组

在一些实施方案中，提供了捕获的DNA(例如，cfDNA)组。关于所公开的方法，例如，在如本文描述的捕获和/或分离步骤之后，可以提供捕获的DNA组。捕获的组可以包括对应于序列可变靶区组和表观遗传靶区组的DNA。在一些实施方案中，在针对靶向区域的尺寸(足迹尺寸)的差异进行归一化时，捕获的序列可变靶区DNA的量大于捕获的表观遗传靶区DNA的量。

可选地，可以提供分别包括对应于序列可变靶区组的DNA和对应于表观遗传靶区组的DNA的第一捕获的组和第二捕获的组。第一捕获的组和第二捕获的组可以被组合以提供组合的捕获的组。

在包括对应于序列可变靶区组和表观遗传靶区组的DNA的捕获的组(包括如以上讨论的组合的捕获的组)中，对应于序列可变靶区组的DNA可以以比对应于表观遗传靶区组的DNA更高的浓度存在，例如，高1.1倍至1.2倍的浓度、高1.2倍至1.4倍的浓度、高1.4倍至1.6倍的浓度、高1.6倍至1.8倍的浓度、高1.8倍至2.0倍的浓度、高2.0倍至2.2倍的浓度、高2.2倍至2.4倍的浓度、高2.4倍至2.6倍的浓度、高2.6倍至2.8倍的浓度、高2.8倍至3.0倍的浓度、高3.0倍至3.5倍的浓度、高3.5倍至4.0的浓度、高4.0倍至4.5倍的浓度、高4.5倍至5.0倍的浓度、高5.0倍至5.5倍的浓度、高5.5倍至6.0倍的浓度、高6.0倍至6.5倍的浓度、高6.5倍至7.0倍的浓度、高7.0倍至7.5倍的浓度、高7.5倍至8.0倍的浓度、8.0倍至8.5倍的浓度、8.5倍至9.0倍的浓度、高9.0倍至9.5倍的浓度、高9.5倍至10.0倍的浓度、高10倍至11倍的浓度、高11倍至12倍的浓度、高12倍至13倍的浓度、高13倍至14倍的浓度、高14倍至15倍的浓度、高15倍至16倍的浓度、高16倍至17倍的浓度、高17倍至18倍的浓度、18倍至19倍的浓度或高19倍至20倍的浓度。浓度的差异程度说明了针对靶区足迹尺寸的归一化，如定义部分讨论的。

a.表观遗传靶区组

表观遗传靶区组可以包括一种或更多种类型的靶区，这些靶区可能将来自赘生性(例如，肿瘤或癌症)细胞的DNA与来自健康细胞(例如，非赘生性循环细胞)的DNA区分开。这里详细讨论了这样的区域的示例性类型。在一些实施方案中，根据本公开内容的方法包括确定对应于表观遗传靶区组的cfDNA分子是否包含或指示癌症相关的表观遗传修饰(例如，在一个或更多个超甲基化可变靶区中的超甲基化；CTCF结合的一个或更多个扰动；和/或转录起始位点的一个或更多个扰动)和/或拷贝数变化(例如，局部扩增)。表观遗传靶区组也可以包括例如，如本文描述的一个或更多个对照区。

在一些实施方案中，表观遗传靶区组具有至少100kb，例如，至少200kb、至少300kb或至少400kb的足迹。在一些实施方案中，表观遗传靶区组具有在以下范围内的足迹：100-1000kb，例如，100-200kb、200-300kb、300-400kb、400-500kb、500-600kb、600-700kb、700-800kb、800-900kb和900-1,000kb。

i.超甲基化可变靶区

在一些实施方案中，表观遗传靶区组包括一个或更多个超甲基化可变靶区。通常，超甲基化可变靶区是指观察到的甲基化水平的增加指示样品(例如，cfDNA样品)包含由赘生性细胞(诸如，肿瘤或癌细胞)产生的DNA的可能性增加的区域。例如，已经重复观察到肿瘤抑制因子基因启动子的超甲基化。参见，例如，Kang等人，Genome Biol.18:53(2017)和其中引用的参考文献。

对结肠直肠癌中甲基化可变靶区的广泛讨论提供于以下中：Lam等人，BiochimBiophys Acta.1866:106-20(2016)。这些包括VIM、SEPT9、ITGA4、OSM4、GATA4和NDRG4。包含基于结肠直肠癌(CRC)研究的基因或其部分的示例性超甲基化可变靶区组提供于表1中。这些基因中的许多可能与结肠直肠癌以外的癌症相关联；例如，TP53被广泛认为是至关重要的肿瘤抑制因子，并且这种基因基于超甲基化的失活可能是常见的致癌机制。

表1.基于CRC研究的示例性超甲基化靶区(基因或其部分)。

在一些实施方案中，超甲基化可变靶区包含表1中列出的多于一个基因或其部分，例如表1中列出的基因或其部分的至少10％、20％、30％、40％、50％、60％、70％、80％、90％或100％。例如，对于作为靶区包括的每个基因座，可能存在一种或更多种探针，该一种或更多种探针具有在基因的转录起始位点与终止密码子(选择性剪接的基因的最后终止密码子)之间结合的杂交位点。在一些实施方案中，一种或更多种探针在表1中列出的基因或其部分的上游和/或下游300bp内，例如，在200bp或100bp内结合。

在各种类型的肺癌中的甲基化可变靶区被详细讨论于以下中：例如，Ooki等人，Clin.Cancer Res.23:7141-52(2017)；Belinksy,Annu.Rev.Physiol.77:453-74(2015)；Hulbert等人，Clin.Cancer Res.23:1998-2005(2017)；Shi等人，BMC Genomics 18:901(2017)；Schneider等人，BMC Cancer.11:102(2011)；Lissa等人，Transl Lung Cancer Res5(5):492-504(2016)；Skvortsova等人，Br.J.Cancer.94(10):1492–1495(2006)；Kim等人，Cancer Res.61:3419–3424(2001)；Furonaka等人，Pathology International 55:303-309(2005)；Gomes等人，Rev.Port.Pneumol.20:20-30(2014)；Kim等人，Oncogene.20:1765-70(2001)；Hopkins-Donaldson等人，Cell Death Differ.10:356-64(2003)；Kikuchi等人，Clin.Cancer Res.11:2954-61(2005)；Heller等人，Oncogene 25:959–968(2006)；Licchesi等人，Carcinogenesis.29:895–904(2008)；Guo等人，Clin.Cancer Res.10:7917-24(2004)；Palmisano等人，Cancer Res.63:4620–4625(2003)；和Toyooka等人，CancerRes.61:4556–4560,(2001)。

包含基于肺癌研究的基因或其部分的示例性超甲基化可变靶区组提供于表2中。这些基因中的许多可能与肺癌以外的癌症相关联；例如，Casp8(胱天蛋白酶8)是程序性细胞死亡的关键酶，并且这种基因基于超甲基化的失活可能是不限于肺癌的常见的致癌机制。另外地，许多基因出现在表1和表2二者中，这表明了普遍性。

表2.基于肺癌研究的示例性超甲基化靶区(基因或其部分)

基因名称	染色体
		MARCH11	chr5
TAC1	chr7
		TCF21	chr6
SHOX2	chr3
		p16	chr3
Casp8	chr2
		CDH13	chr16
MGMT	chr10
		MLH1	chr3
MSH2	chr2
		TSLC1	chr11
APC	chr5
		DKK1	chr10
DKK3	chr11
		LKB1	chr11
WIF1	chr12
		RUNX3	chr1
GATA4	chr8
		GATA5	chr20
PAX5	chr9
		E-钙粘蛋白	chr16
H-钙粘蛋白	chr16

关于表2中鉴定的靶区的任何前述实施方案可以与关于表1中鉴定的靶区的任何以上描述实施方案组合。在一些实施方案中，超甲基化可变靶区包含表1或表2中列出的多于一个基因或其部分，例如表1或表2中列出的基因或其部分的至少10％、20％、30％、40％、50％、60％、70％、80％、90％或100％。

另外的超甲基化靶区可以从例如癌症基因组图谱中获得。Kang等人，GenomeBiology 18：53(2017)，描述了使用来自乳腺、结肠、肾、肝和肺的超甲基化靶区的称为癌症定位器(Cancer Locator)的概率方法的构建。在一些实施方案中，超甲基化靶区可以对一种或更多种类型的癌症是特异性的。因此，在一些实施方案中，超甲基化靶区包括一个、两个、三个、四个或五个超甲基化靶区亚组，它们共同显示在乳腺癌、结肠癌、肾癌、肝癌和肺癌中的一个、两个、三个、四个或五个中的超甲基化。

ii.低甲基化可变靶区

整体低甲基化是各种癌症中通常观察到的现象。参见，例如，Hon等人，GenomeRes.22:246-258(2012年)(乳腺癌)；Ehrlich,Epigenomics1:239-259(2009)(综述文章注意到结肠癌、卵巢癌、前列腺癌、白血病、肝细胞癌和宫颈癌中的低甲基化观察结果)。例如，在健康细胞中通常甲基化的区域，诸如重复元件，例如LINE1元件、Alu元件、着丝粒串联重复序列、着丝粒周围串联重复序列和卫星DNA以及基因间区域，可能在肿瘤细胞中显示甲基化降低。因此，在一些实施方案中，表观遗传靶区组包括低甲基化可变靶区，其中观察到的甲基化水平的减少指示样品(例如，cfDNA样品)包含由赘生性细胞(例如，肿瘤或癌细胞)产生的DNA的可能性增加。

在一些实施方案中，低甲基化可变靶区包括重复元件和/或基因间区域。在一些实施方案中，重复元件包括LINE1元件、Alu元件、着丝粒串联重复序列、着丝粒周围串联重复序列和/或卫星DNA中的一个、两个、三个、四个或五个。

例如，根据hg19或hg38人类基因组构建体，显示癌症相关低甲基化的示例性特定基因组区域包括人类染色体1的核苷酸8403565-8953708和151104701-151106035。在一些实施方案中，低甲基化可变靶区与这些区域中的一个或两个重叠或包含这些区域中的一个或两个。

iii.CTCF结合区

CTCF是对染色质组织有贡献的DNA结合蛋白，并且通常与黏连蛋白共定位。CTCF结合位点的扰动已经在多种不同的癌症中被报道。参见，例如，2015年6月8日在线发布的Katainen等人，Nature Genetics,doi:10.1038/ng.3335；Guo等人，Nat.Commun.9:1520(2018)。CTCF结合在cfDNA中产生可以通过测序，例如通过片段长度分析检测的可识别的模式。例如，关于基于测序的片段长度分析的细节提供于Snyder等人，Cell 164:57-68(2016)；WO 2018/009723；和US20170211143A1中，这些文献的每一个通过引用并入本文。

因此，CTCF结合的扰动导致了cfDNA片段化模式的变异。因此，CTCF结合位点代表一种类型的片段化可变靶区。

存在许多已知的CTCF结合位点。参见，例如，在insulatordb.uthsc.edu/处在互联网上可得的CTCFBSDB(CTCF结合位点数据库)；Cuddapah等人，Genome Res.19:24-32(2009)；Martin等人，Nat.Struct.Mol.Biol.18:708-14(2011)；Rhee等人，Cell.147:1408-19(2011)，文献的每一个通过引用并入。根据例如hg19或hg38人类基因组构建体，示例性CTCF结合位点位于染色体8上的核苷酸56014955-56016161和染色体13上的核苷酸95359169-95360473。

因此，在一些实施方案中，表观遗传靶区组包括CTCF结合区。在一些实施方案中，CTCF结合区包括至少10个、20个、50个、100个、200个或500个CTCF结合区，或10-20个、20-50个、50-100个、100-200个、200-500个或500-1000个CTCF结合区，例如，诸如以上或者在CTCFBSDB或以上引用的Cuddapah等人、Martin等人或Rhee等人文章中的一个或多个中描述的CTCF结合区。

在一些实施方案中，至少一些CTCF位点可以是甲基化的或非甲基化的，其中甲基化状态与细胞是否是癌细胞相关联。在一些实施方案中，表观遗传靶区组包括在CTCF结合位点的上游和/或下游区域的至少100bp、至少200bp、至少300bp、至少400bp、至少500bp、至少750bp、至少1000bp。

iv.转录起始位点

转录起始位点也可能在赘生性细胞中显示扰动。例如，造血谱系的健康细胞中不同转录起始位点处的核小体组织(对健康个体中的cfDNA有实质贡献)可能不同于赘生性细胞中那些转录起始位点处的核小体组织。这导致了可以通过测序检测到的不同的cfDNA模式，例如，如以下中通常讨论的：Snyder等人，Cell 164:57-68(2016)；WO 2018/009723；和US20170211143A1。

因此，转录起始位点的扰动也会导致cfDNA片段化模式的变异。因此，转录起始位点也代表一种类型的片段化可变靶区。

人类转录起始位点从在dbtss.hgc.jp处在互联网上可得的DBTSS(人类转录起始位点数据库)可得并且在Yamashita等人，Nucleic Acids Res.34(数据库期号):D86–D89(2006)中描述，该文献通过引用并入本文。

因此，在一些实施方案中，表观遗传靶区组包括转录起始位点。在一些实施方案中，转录起始位点包括至少10个、20个、50个、100个、200个或500个转录起始位点，或10-20个、20-50个、50-100个、100-200个、200-500个或500-1000个转录起始位点，例如，诸如DBTSS中列出的转录起始位点。在一些实施方案中，至少一些转录起始位点可以是甲基化的或非甲基化的，其中甲基化状态与细胞是否是癌细胞相关联。在一些实施方案中，表观遗传靶区组包括在转录起始位点的上游和/或下游区域的至少100bp、至少200bp、至少300bp、至少400bp、至少500bp、至少750bp、至少1000bp。

v.拷贝数变异；局部扩增

虽然拷贝数变异诸如局部扩增是体细胞突变，但它们可以通过基于读段频率的测序以类似于检测某些表观遗传改变诸如甲基化改变的方法的方式来检测。因此，可以显示拷贝数变异诸如癌症中的局部扩增的区域可以被包括在表观遗传靶区组中，并且可以包含AR、BRAF、CCND1、CCND2、CCNE1、CDK4、CDK6、EGFR、ERBB2、FGFR1、FGFR2、KIT、KRAS、MET、MYC、PDGFRA、PIK3CA和RAF1中的一种或更多种。例如，在一些实施方案中，表观遗传靶区组包括至少2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个或18个前述靶。

vi.甲基化对照区

包含对照区以促进数据验证可以是有用的。在一些实施方案中，表观遗传靶区组包括预期在基本上所有样品中是甲基化或非甲基化的对照区，不管DNA是衍生自癌细胞还是正常细胞。在一些实施方案中，表观遗传靶区组包括预期在基本上所有样品中都是低甲基化的对照低甲基化区。在一些实施方案中，表观遗传靶区组包括预期在基本上所有样品中都是超甲基化的对照超甲基化区。

b.序列可变靶区组

在一些实施方案中，序列可变靶区组包括已知在癌症中经历体细胞突变(本文称为癌症相关突变)的多于一个区域。因此，方法可以包括确定对应于序列可变靶区组的cfDNA分子是否包含癌症相关突变。

在一些实施方案中，序列可变靶区组靶向多于一个不同的基因或基因组区(“小组(panel)”)，其被选择为使得确定比例的具有癌症的受试者在小组中的一个或更多个不同基因或基因组区中表现出遗传变体或肿瘤标志物。可以选择小组以将测序区域限制在固定数量的碱基对。可以例如通过调整如本文别处描述的探针的亲和力和/或量选择小组来测序所期望量的DNA。可以进一步选择小组，以实现期望的序列读段深度。可以选择小组来实现一定数量的测序碱基对的期望的序列读段深度或序列读段覆盖。可以选择小组来实现检测样品中一种或更多种遗传变体的理论灵敏度、理论特异性和/或理论准确度。

用于检测区域小组的探针可以包括用于检测感兴趣的基因组区域(热点区域)的探针以及核小体感知探针(例如，KRAS密码子12和13)，并且可以被设计为基于对受核小体结合模式和GC序列组成影响的cfDNA覆盖和片段尺寸变异分析来优化捕获。本文使用的区域也可以包括基于核小体位置和GC模型优化的非热点区域。

感兴趣的基因组位置列表的实例可以见于表3和表4中。在一些实施方案中，在本公开内容的方法中使用的序列可变靶区组包含表3的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个或70个基因的至少一部分。在一些实施方案中，在本公开内容的方法中使用的序列可变靶区组包含表3的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个或70个SNV。在一些实施方案中，在本公开内容的方法中使用的序列可变靶区组包含表3的至少1个、至少2个、至少3个、至少4个、至少5个或6个融合体。在一些实施方案中，在本公开内容的方法中使用的序列可变靶区组包含表3的至少1、至少2个或3个插入缺失的至少一部分。在一些实施方案中，在本公开内容的方法中使用的序列可变靶区组包含表4的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个、至少70个或73个基因的至少一部分。在一些实施方案中，在本公开内容的方法中使用的序列可变靶区组包含表4的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个、至少70个或73个SNV。在一些实施方案中，在本公开内容的方法中使用的序列可变靶区组包含表4的至少1个、至少2个、至少3个、至少4个、至少5个或6个融合体。在一些实施方案中，在本公开内容的方法中使用的序列可变靶区组包含表4的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个或18个插入缺失的至少一部分。这些感兴趣的基因组位置中的每一个可以被鉴定为给定小组的骨架区域或热点区域。感兴趣的热点基因组位置列表的实例可以见于表5中。表5中的坐标基于人类基因组的hg19组装，但是本领域技术人员将熟悉其他组装，并且可以鉴定对应于他们选择的组装中所指示的外显子、内含子、密码子等的坐标集。在一些实施方案中，在本公开内容的方法中使用的序列可变靶区组包括表5的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个或至少20个基因的至少一部分。每个热点基因组区域列出了若干特征，包括相关基因、它所驻留的染色体、代表基因的基因座的基因组的起始和终止位置、以碱基对计的基因的基因座的长度、基因覆盖的外显子以及给定的感兴趣基因组区域可能试图捕获的关键特征(例如，突变类型)。

表3

表4

表5

另外地，或者可选地，合适的靶区组从文献中可得。例如，通过引用并入本文的Gale等人，PLoS One 13:e0194630(2018)，描述了可以用作序列可变靶区组的一部分或全部的35个癌症相关基因靶的小组。这35个靶是AKT1、ALK、BRAF、CCND1、CDK2A、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FOXL2、GATA3、GNA11、GNAQ、GNAS、HRAS、IDH1、IDH2、KIT、KRAS、MED12、MET、MYC、NFE2L2、NRAS、PDGFRA、PIK3CA、PPP2R1A、PTEN、RET、STK11、TP53和U2AF1。

在一些实施方案中，序列可变靶区组包括来自至少10个、20个、30个或35个癌症相关基因诸如以上列出的癌症相关基因的靶区。

3.分区；表观遗传特征的分析

在本文描述的某些实施方案中，不同形式的核酸(例如，样品中的超甲基化和低甲基化的DNA，诸如如本文描述的捕获的cfDNA组)的群体可以在分析例如测序或加标签和测序之前基于核酸的一个或更多个特征进行物理分区。这种方法可以用于确定，例如，超甲基化可变表观遗传靶区是否显示肿瘤细胞的超甲基化特征，或者低甲基化可变表观遗传靶区是否显示肿瘤细胞的低甲基化特征。另外地，通过对异质核酸群体分区，人们可以增加稀有信号，例如通过富集在群体的一个级分(或分区)中更普遍的稀有核酸分子。例如，在超甲基化DNA中存在但在低甲基化DNA中较少(或没有)的遗传变异可以通过将样品分区为超甲基化核酸分子和低甲基化核酸分子来更容易地检测。通过分析样品的多于一个级分，可以对基因组或核酸种类的单个基因座进行多维分析，并且因此可以获得更大的灵敏度。

在一些情况下，异质核酸样品被分区为两个或更多个分区(例如，至少3个、4个、5个、6个或7个分区)。在一些实施方案中，每个分区被差异化地加标签。然后可以将加标签的分区合并在一起，以用于共同样品制备和/或测序。分区-加标签-合并步骤可以发生多于一次，其中每一轮分区基于不同的特征(本文提供的实例)发生，并且使用区别于其他分区和分区工具(partitioning means)的差异化加标签来加标签。

可以用于分区的特征的实例包括序列长度、甲基化水平、核小体结合、序列错配、免疫沉淀和/或结合DNA的蛋白质。产生的分区可以包括下列的核酸形式中的一种或更多种：单链DNA(ssDNA)、双链DNA(dsDNA)、较短的DNA片段和较长的DNA片段。在一些实施方案中，核酸的异质群体被分区为具有一种或更多种表观遗传修饰和不具有一种或更多种表观遗传修饰的核酸。表观遗传修饰的实例包括甲基化的存在或不存在；甲基化水平；甲基化类型(例如，5-甲基胞嘧啶相对于其他类型的甲基化，诸如腺嘌呤甲基化和/或胞嘧啶羟甲基化)；以及与一种或更多种蛋白诸如组蛋白的缔合和缔合水平。可替代地或另外地，异质的核酸群体可以被分区为与核小体缔合的核酸分子和不含核小体的核酸分子。可替代地或另外地，异质的核酸群体可以被分区为单链DNA(ssDNA)和双链DNA(dsDNA)。可替代地或另外地，异质的核酸群体可以基于核酸长度(例如，最多160bp的分子和具有大于160bp的长度的分子)来分区。

在一些情况下，每个分区(代表不同的核酸形式)被差异化地标记，并且在测序之前将分区合并在一起。在其他情况下，不同形式被分开地测序。

图1图示出了本公开内容的一种实施方案。不同核酸的群体(101)被分区为(102)两个或更多个不同的分区(103a、103b)。每个分区(103a、103b)代表不同的核酸形式。每个分区被区别地加标签(104)。在测序(108)之前，将加标签的核酸合并在一起(107)。读段用计算机模拟分析。标签用于分选来自不同分区的读段。检测遗传变体的分析可以在分区-分区水平以及整个核酸群体水平上进行。例如，分析可以包括计算机模拟分析以确定每个分区中核酸的遗传变体，诸如CNV、SNV、插入缺失、融合。在一些情况下，计算机模拟分析可以包括确定染色质结构。例如，序列读段的覆盖度可以用于确定染色质中的核小体定位。较高的覆盖度可能与基因组区域中较高的核小体占据相关，而较低的覆盖度可能与较低的核小体占据或核小体耗尽区域(NDR)相关。

样品可以包括修饰方面不同的核酸，所述修饰包括对核苷酸的复制后修饰和与一种或更多种蛋白质的通常是非共价的结合。

在一种实施方案中，核酸群体是从疑似具有赘生物、肿瘤或癌症或先前诊断患有赘生物、肿瘤或癌症的受试者的血清、血浆或血液样品获得的核酸群体。核酸群体包括具有不同甲基化水平的核酸。甲基化可以通过任一种或更多种复制后修饰或转录修饰发生。复制后修饰包括对核苷酸胞嘧啶，特别是在核碱基的5位置处的修饰，例如，5-甲基胞嘧啶、5-羟甲基胞嘧啶、5-甲酰基胞嘧啶和5-羧基胞嘧啶。

在一些实施方案中，原始群体中的核酸可以是单链的和/或双链的。基于核酸的单链型与双链型的分区可以通过例如使用对ssDNA分区的标记的捕获探针和使用对dsDNA分区的双链衔接子来实现。

亲和剂可以是具有期望的特异性的抗体、天然结合配偶体或其变体(Bock等人,Nat Biotech 28:1106-1114(2010)；Song等人,Nat Biotech 29:68-72(2011))，或例如通过噬菌体展示选择的对给定靶具有特异性的人工肽。

本文设想的捕获部分的实例包括如本文描述的甲基结合结构域(MBD)和甲基结合蛋白质(MBP)。

同样地，可以使用组蛋白结合蛋白进行对不同形式的核酸的分区，这可以分离与组蛋白结合的核酸和游离或未结合的核酸。可以用于本文公开的方法的组蛋白结合蛋白的实例包括RBBP4(RbAp48)和SANT结构域肽。

对于一些亲和剂和修饰，尽管与剂的结合可以取决于核酸是否带有修饰而以基本上全或无的方式发生，但是分离可以是一定程度的。在这样的情况中，与修饰未被充分代表的核酸(nucleic acids underrepresented in the modification)相比，修饰被过度代表的核酸(nucleic acids overrepresented in amodification)与剂以更大的程度与剂结合。可选地，具有修饰的核酸可以以全或无的方式结合。但是然后，各种水平的修饰可以从结合剂顺序洗脱。

例如，在一些实施方案中，分区可以是二元的或者基于修饰的程度/水平。例如，可以使用甲基结合结构域蛋白(例如MethylMiner甲基化DNA富集试剂盒(Thermo FisherScientific))将所有甲基化片段与未甲基化的片段分区。随后，另外的分区可以包括通过调整含有甲基结合结构域和结合片段的溶液的盐浓度来洗脱具有不同甲基化水平的片段。随着盐浓度增加，具有更大甲基化水平的片段被洗脱。

在一些情况中，最终的分区代表具有不同程度的修饰(过度代表性(overrepresentative)或代表性不足(under representative)的修饰)的核酸。过度代表性和代表性不足可以由核酸带有的修饰的数目相对于群体中每条链的修饰的中位数来定义。例如，如果样品中的核酸中5-甲基胞嘧啶残基的中位数为2，则包含多于两个5-甲基胞嘧啶残基的核酸的该修饰是过度代表性的，而具有1个或0个5-甲基胞嘧啶残基的核酸是代表性不足的。亲和分离的作用是将结合相中修饰被过度代表的核酸与非结合相(即，溶液中)中修饰未被充分代表的核酸富集。结合相的核酸可以在后续处理之前洗脱。

当使用MethylMiner甲基化DNA富集试剂盒(Thermo Fisher Scientific)时，可以使用顺序洗脱将各种水平的甲基化分区。例如，可以通过使核酸群体与来自试剂盒的附接至磁珠的MBD接触，将低甲基化分区(例如，无甲基化)与甲基化分区分离。珠用于从非甲基化核酸中分离出甲基化核酸。随后，顺序进行一个或更多个洗脱步骤，以洗脱具有不同甲基化水平的核酸。例如，第一组甲基化核酸可以在160mM或更高，例如至少200mM、300mM、400mM、500mM、600mM、700mM、800mM、900mM、1000mM或2000mM的盐浓度洗脱。在这样的甲基化核酸被洗脱后，磁性分离再次用于将较高水平的甲基化核酸与具有较低甲基化水平的核酸分离。洗脱和磁性分离步骤本身可以重复进行以产生各种分区，诸如低甲基化分区(例如，代表无甲基化)、甲基化分区(代表低甲基化水平)和高甲基化分区(代表高甲基化水平)。

在一些方法中，与用于亲和分离的剂结合的核酸经历洗涤步骤。洗涤步骤洗去与亲和剂弱结合的核酸。这样的核酸可以富集具有接近平均值或中值(即，在样品与剂初始接触时保持与固相结合的核酸和不与固相结合的核酸之间的中间值)程度的修饰的核酸。

亲和分离导致具有不同修饰程度的核酸的至少两个和有时三个或更多个分区。尽管分区仍然是分开的，但至少一个分区和通常两个或三个(或更多个)分区的核酸连接至核酸标签，核酸标签通常作为衔接子的组分被提供，其中不同分区中的核酸接收将一个分区的成员与另一个分区的成员区分开的不同的标签。连接至同一分区的核酸分子的标签可以彼此相同或不同。但是，如果彼此不同，标签可以具有它们的共同编码的一部分，以便将它们所附接的分子识别为特定分区。

关于基于诸如甲基化的特征来分区核酸样品的更多细节，参见WO2018/119452，其通过引用并入本文。

在一些实施方案中，核酸分子可以基于与特定蛋白质或其片段结合的核酸分子和不与该特定蛋白质或其片段结合的核酸分子被分级分离成不同的分区。

核酸分子可以基于DNA-蛋白质结合来分级分离。蛋白质-DNA复合物可以基于蛋白质的特定性质来分级分离。这样的性质的实例包括各种表位、修饰(例如组蛋白甲基化或乙酰化)或酶促活性。可以结合DNA并用作用于分级分离的基础的蛋白质的实例可以包括但不限于蛋白质A和蛋白质G。任何合适的方法可以用于基于蛋白质结合区域来分级分离核酸分子。用于基于蛋白质结合区域来分级分离核酸分子的方法的实例包括但不限于SDS-PAGE、染色质免疫沉淀(ChIP)、肝素层析和不对称场流动分级分离法(AF4)。

在一些实施方案中，核酸的分区通过使核酸与甲基化结合蛋白(“MBP”)的甲基化结合结构域(“MBD”)接触来进行。MBD结合5-甲基胞嘧啶(5mC)。MBD经由生物素接头与顺磁性珠诸如

M-280链霉亲和素偶联。分区为具有不同甲基化程度的级分可以通过增加NaCl浓度来洗脱级分来进行。

本文设想的MBP的实例包括，但不限于：

(a)MeCP2是相比于未修饰的胞嘧啶优先结合5-甲基-胞嘧啶的蛋白。

(b)RPL26、PRP8和DNA错配修复蛋白MHS6相比于未修饰的胞嘧啶优先结合5-羟甲基-胞嘧啶。

(c)FOXK1、FOXK2、FOXP1、FOXP4和FOXI3相比于未修饰的胞嘧啶优选与5-甲酰基-胞嘧啶结合(Iurlaro等人，Genome Biol.14:R119(2013))。

(d)对一个或更多个甲基化核苷酸碱基特异性的抗体。

一般来说，洗脱随着每个分子甲基化位点数目而变化，在增加的盐浓度的情况下，分子具有更多的甲基化洗脱。为了基于甲基化程度将DNA洗脱到不同的群体中，人们可以使用一系列NaCl浓度增加的洗脱缓冲液。盐浓度可以在从约100mM至约2500mM NaCl的范围内。在一种实施方案中，该过程导致三(3)个分区。分子与在第一盐浓度且包括含有甲基结合结构域的分子的溶液接触，该分子可以附接至捕获部分，诸如链霉亲和素。在第一盐浓度时，分子群体将结合MBD，而群体将保持未结合。未结合的群体可以被分离为“低甲基化的”群体。例如，代表低甲基化的DNA形式的第一分区是在低盐浓度，例如100mM或160mM保持未结合的分区。代表中等甲基化的DNA的第二分区使用中间盐浓度，例如100mM和2000mM之间的浓度来洗脱。这也从样品分离。代表超甲基化的DNA形式的第三分区使用高盐浓度，例如至少约2000mM来洗脱。

a.将分区加标签

在一些实施方案中，两个或更多个分区，例如每个分区被差异化地加标签。标签可以是包含指示与标签缔合的分子的特征的信息的分子，诸如核酸。例如，分子可以带有样品标签(其将一个样品中的分子与不同样品中的分子区分开)、分区标签(其将一个分区中的分子与不同分区中的分子区分开)或分子标签(其在加独特和非独特的标签的情形两者下，将不同分子彼此区分开)。在某些实施方案中，标签可以包括一个条形码或条形码的组合。如本文使用的，术语“条形码”指的是具有特定核苷酸序列的核酸分子，或指的是核苷酸序列本身，这取决于上下文。条形码可以具有例如10个和100个之间的核苷酸。根据特定目的的需要，条形码的集合可以具有简并序列，或者可以具有具有特定汉明距离的序列。因此，例如，样品索引、分区索引或分子索引可以包括一个条形码或两个条形码的组合，每个条形码附接至分子的不同末端。

标签可以用于标记单个多核苷酸群体分区，以便将一个标签(或多于一个标签)与特定分区相关联。可选地，标签可以在不采用分区步骤的本发明的实施方案中使用。在一些实施方案中，单个标签可以用于标记特定的分区。在一些实施方案中，多于一个不同的标签可以用于标记特定的分区。在采用多于一个不同的标签来标记特定分区的实施方案中，用于标记一个分区的标签组可以容易地与用于标记其他分区的标签组区分开。在一些实施方案中，标签可以具有另外的功能，例如标签可以用于索引样品来源或用作独特的分子标识符(其可以用于通过区分测序错误和突变来改进测序数据的质量，例如如在Kinde等人,Proc Nat’l Acad Sci USA 108:9530-9535(2011),Kou等人,PLoS ONE,11:e0146638(2016)中描述的)或用作非独特分子标识符，例如如在美国专利第9,598,731号中描述的。类似地，在一些实施方案中，标签可以具有另外的功能，例如标签可以用于索引样品来源或用作非独特的分子标识符(其可以用于通过区分测序错误和突变来改进测序数据的质量)。

在一种实施方案中，分区加标签包括用分区标签对每个分区中的分子加标签。在重新组合分区和对分子测序后，分区标签识别来源分区。在另一种实施方案中，不同的分区用例如包括一对条形码的不同的一组分子标签来加标签。以该方式，每个分子条形码指示来源分区，也可用于区分分区内的分子。例如，第一组的35个条形码可以用于对第一分区中的分子加标签，而第二组的35个条形码可以用于对第二分区中的分子加标签。

在一些实施方案中，在进行分区和用分区标签加标签之后，分子可以被汇集用于在单个运行中测序。在一些实施方案中，例如，在添加分区标签和汇集之后的步骤中，将样品标签添加至分子中。样品标签可以促进从多于一个样品产生的材料的汇集，以便在单个测序运行中测序。

可选地，在一些实施方案中，分区标签可以与样品以及分区相关联。作为简单实例，第一标签可以指示第一样品的第一分区；第二标签可以指示第一样品的第二分区；第三标签可以指示第二样品的第一分区；并且第四标签可以指示第二样品的第二分区。

虽然标签可以附接至已经基于一个或更多个特征分区的分子，但是文库中最终加标签的分子可能不再具有该特征。例如，虽然单链DNA分子可以被分区和加标签，但文库中的最终加标签的分子可能是双链的。类似地，虽然DNA可能经历基于不同甲基化水平的分区，但在最终的文库中，来源于这些分子的加标签的分子可能是未甲基化的。因此，附接至文库中的分子的标签通常指示最终的加标签的分子来源的“亲本分子”的特征，而不一定指示加标签的分子本身的特征。

例如，条形码1、2、3、4等用于对第一分区中的分子加标签和标记；条形码A、B、C、D等用于对第二分区中的分子加标签和标记；并且条形码a、b、c、d等用于对第三分区中的分子加标签和标记。差异化加标签的分区可以在测序之前被合并。差异化加标签的分区可以分开地测序或一起同时测序，例如在Illumina测序仪的同一流动池中。

在测序之后，对检测遗传变体的读段的分析可以在分区-分区水平以及整个核酸群体水平上进行。使用标签对来自不同分区的读段进行筛选。分析可以包括计算机模拟分析以使用序列信息、基因组坐标长度、覆盖度和/或拷贝数确定遗传和表观遗传变异(甲基化、染色质结构等中的一个或更多个)。在一些实施方案中，较高的覆盖度可能与基因组区域中较高的核小体占据相关，而较低的覆盖度可能与较低的核小体占据或核小体耗尽区域(NDR)相关。

b.核酸的5-甲基胞嘧啶模式的确定；亚硫酸氢盐测序

基于亚硫酸氢盐的测序及其变化形式提供了另一种不依赖于测序之前基于甲基化水平的分区确定核酸的甲基化模式的手段。在一些实施方案中，确定甲基化模式包括区分5-甲基胞嘧啶(5mC)与非甲基化胞嘧啶。在一些实施方案中，确定甲基化模式包括区分N-甲基腺嘌呤与非甲基化腺嘌呤。在一些实施方案中，确定甲基化模式包括区分5-羟甲基胞嘧啶(5hmC)、5-甲酰基胞嘧啶(5fC)和5-羧基胞嘧啶(5caC)与非甲基化胞嘧啶。亚硫酸氢盐测序的实例包括但不限于氧化亚硫酸氢盐测序(OX-BS-seq)、Tet辅助亚硫酸氢盐测序(TAB-seq)和还原亚硫酸氢盐测序(redBS-seq)。在一些实施方案中，确定甲基化模式包括全基因组亚硫酸氢盐测序，例如，如在MethylC-seq中(Urich等人，Nature Protocols 10:475-483(2015))。在一些实施方案中，确定甲基化模式包括基于阵列的甲基化模式确定，例如如在甲基化EPIC Beadchip中或使用Illumina Infinium阵列(例如，人类甲基化450阵列)(参见The Cancer Genome Atlas Research Network,Nature 507:315-322(2014))。在一些实施方案中，确定甲基化模式包括亚硫酸氢盐PCR。在一些实施方案中，确定甲基化模式包括EM-Seq(US 2013/0244237 A1)。在一些实施方案中，确定甲基化模式包括TAPS(WO2019/136413 A1)。

氧化亚硫酸氢盐测序(OX-BS-seq)用于区分5mC和5hmC，通过首先将5hmC转化为5fC，并且然后进行亚硫酸氢盐测序。Tet辅助亚硫酸氢盐测序(TAB-seq)也可以用于区分5mc和5hmC。在TAB-seq中，5hmC受糖基化保护。然后在进行亚硫酸氢盐测序之前，使用Tet酶将5mC转化为5caC。还原亚硫酸氢盐测序用于区分5fC与修饰的胞嘧啶。

通常，在亚硫酸氢盐测序中，核酸样品被分成两个等分试样，并且一个等分试样用亚硫酸氢盐处理。亚硫酸氢盐将天然胞嘧啶和某些修饰的胞嘧啶核苷酸(例如5-甲酰基胞嘧啶或5-羧基胞嘧啶)转化为尿嘧啶，而其他修饰的胞嘧啶(例如5-甲基胞嘧啶、5-羟甲基胞嘧啶)不被转化。来自两个等分试样的分子的核酸序列的比较指示哪些胞嘧啶被转化为尿嘧啶，而哪些没有被转化为尿嘧啶。因此，可以确定被修饰的和未被修饰的胞嘧啶。最初将样品分成两个等分试样对于仅含有少量核酸和/或包括异质细胞/组织来源诸如含有无细胞DNA的体液的样品是不利的。

因此，在一些实施方案中，亚硫酸氢盐测序在没有将样品最初分为两个等分试样的情况下例如，如下进行。在一些实施方案中，群体中的核酸与捕获部分，诸如本文描述的任何捕获部分，即可以被捕获或固定的标记物连接。在捕获部分与样品核酸连接之后，样品核酸用作扩增模板。在扩增之后，原始模板保持与捕获部分连接，但扩增子不与捕获部分连接。

捕获部分可以作为衔接子的组分连接至样品核酸，衔接子也可以提供扩增和/或测序引物结合位点。在一些方法中，样品核酸在两个末端处连接至衔接子，其中两个衔接子带有捕获部分。优选地，衔接子中的任何胞嘧啶残基被修饰，诸如被5-甲基胞嘧啶修饰，以保护免受亚硫酸氢盐的作用。在一些情况下，捕获部分通过可裂解的接头(例如，可光裂解的脱硫生物素-TEG或被USER^TM酶可裂解的尿嘧啶残基，Chem.Commun.(Camb).51:3266-3269(2015))连接至原始模板，在这种情况下，如果需要，可以去除捕获部分。

将扩增子变性并与用于捕获标签的亲和试剂接触。原始模板结合亲和试剂，而扩增产生的核酸分子不结合。因此，原始模板可以与扩增产生的核酸分子分离。

在原始模板与从扩增产生的核酸分子分开之后，可以使原始模板经历亚硫酸氢盐处理。可选地，扩增产物可以经历亚硫酸氢盐处理，而原始模板群体不经历亚硫酸氢盐处理。在这样的处理后，相应的群体可以被扩增(在原始模板群体的情况下，这将尿嘧啶转化为胸腺嘧啶)。群体也可以经历生物素探针杂交以用于捕获。然后分析相应的群体并比较序列以确定哪些胞嘧啶在原始样品中是5-甲基化的(或5-羟甲基化的)。检测模板群体中的T核苷酸(对应于被转化为尿嘧啶的未甲基化的胞嘧啶)和在扩增的群体的相应位置处的C核苷酸指示未修饰的C。在原始模板和扩增的群体的相应位置处C的存在指示原始样品中修饰的C。

在一些实施方案中，一种方法使用顺序DNA-seq和亚硫酸氢盐-seq(BIS-seq)NGS文库制备加分子标签的DNA文库(参见WO 2018/119452，例如在图4)。该过程通过标记衔接子(例如生物素)、全文库的DNA-seq扩增、亲本分子回收(例如链霉亲和素珠下拉)、亚硫酸氢盐转化和BIS-seq来进行。在一些实施方案中，所述方法通过有和没有亚硫酸氢盐处理的亲本文库分子的顺序NGS制备性扩增，以单碱基分辨率识别5-甲基胞嘧啶。这可以通过用在两条衔接子链之一上的标记物(例如生物素)修饰在BIS-seq中使用的5-甲基化的NGS衔接子(定向衔接子；Y形/叉形，用5-甲基胞嘧啶替代)来实现。样品DNA分子是连接的衔接子，并被扩增(例如，通过PCR)。由于仅亲本分子将具有标记的衔接子末端，因此它们可以通过标记特异性捕获方法(例如链霉亲和素磁珠)从其扩增的子代选择性地回收。由于亲本分子保留5-甲基化标志物，捕获文库上的亚硫酸氢盐转化将在BIS-seq后产生单碱基分辨率5-甲基化状态，将分子信息保留到相应的DNA-seq。在一些实施方案中，亚硫酸氢盐处理的文库可以在通过在标准多重NGS工作流程中添加样品标签DNA序列来捕获/NGS之前与未处理的文库组合。与BIS-seq工作流程一样，生物信息学分析可以针对基因组比对和5-甲基化碱基识别来进行。总之，该方法提供了在文库扩增后选择性地回收携带5-甲基胞嘧啶标志物的亲本、连接的分子的能力，从而允许亚硫酸氢盐转化的DNA的并行处理。这克服了亚硫酸氢盐处理对从工作流程提取的DNA-seq信息的质量/灵敏度的破坏性质。用该方法，回收的连接的、亲本DNA分子(经由标记的衔接子)允许扩增完整的DNA文库，并且并行应用引起表观遗传DNA修饰的处理。本公开内容讨论了使用BIS-seq方法识别胞嘧啶-5-甲基化(5-甲基胞嘧啶)，但在许多实施方案中BIS-seq方法不是必需的。BIS-seq的变化形式已经被开发出来以识别羟甲基化胞嘧啶(5hmC；OX-BS-seq、TAB-seq)、甲酰基胞嘧啶(5fC；redBS-seq)和羧基胞嘧啶。这些方法可以用本文描述的顺序/并行文库制备来实现。

c.分析修饰的核酸的替代方法

在一些这样的方法中，取决于修饰的程度，在对带有不同程度修饰(例如，每个核酸分子0个、1个、2个、3个、4个、5个或更多个甲基基团)的核酸群体进行分级分离之前，使该群体与衔接子接触。衔接子附接至群体中的核酸分子的一个末端或两个末端。优选地，衔接子包括足够数目的不同标签，使得标签组合的数目导致具有相同起点和终点的两个核酸接收相同标签组合的概率较低，例如95％、99％或99.9％。在附接衔接子后，核酸从结合衔接子内的引物结合位点的引物扩增。衔接子，无论是带有相同还是不同的标签，可以包括相同或不同的引物结合位点，但优选地衔接子包括相同的引物结合位点。在扩增后，核酸与优选地结合带有修饰的核酸的剂(诸如先前描述的这样的剂)接触。核酸被分成至少两个分区，至少两个分区的差异在于带有修饰的核酸对剂的结合程度不同。例如，如果剂对带有修饰的核酸具有亲和力，则修饰被过度代表的核酸(与群体中的中值代表相比)优先结合剂，而修饰未被充分代表的核酸不结合剂或更容易从剂洗脱。在分离后，不同的分区然后可以经历另外的处理步骤，这通常包括并行但单独的另外的扩增和序列分析。然后可以比较来自不同分区的序列数据。

这样的分离方案可以使用以下示例性程序来进行。核酸在两个末端与包括引物结合位点和标签的Y形衔接子连接。分子被扩增。扩增的分子然后通过与优先结合5-甲基胞嘧啶的抗体接触来分级分离，以产生两个分区。一个分区包括缺乏甲基化的原始分子和具有损失的甲基化的扩增拷贝。另一个分区包括具有甲基化的原始DNA分子。然后对这两个分区分别进行处理和测序，进一步扩增甲基化分区。然后可以比较两个分区的序列数据。在该实例中，标签不用于区分甲基化DNA和未甲基化DNA，而是用来区分这些分区中的不同的分子，以便人们可以确定具有相同起点和终点的读段是基于相同的还是不同的分子。

本公开内容提供了用于分析核酸群体的另外的方法，其中至少一些核酸包括一个或更多个修饰的胞嘧啶残基，诸如5-甲基胞嘧啶和先前描述的任何其他修饰。在这些方法中，核酸群体与包括一个或更多个在5C位置处修饰的胞嘧啶残基诸如5-甲基胞嘧啶的衔接子接触。优选地，这样的衔接子中的所有胞嘧啶残基也被修饰，或者衔接子的引物结合区域中的所有这样的胞嘧啶被修饰。衔接子附接至群体中的核酸分子的两个末端。优选地，衔接子包括足够数目的不同标签，使得标签组合的数目导致具有相同起点和终点的两个核酸接收相同标签组合的概率较低，例如95％、99％或99.9％。这样的衔接子中的引物结合位点可以相同或不同，但优选地相同。在附接衔接子后，核酸从结合衔接子的引物结合位点的引物扩增。扩增的核酸被分成第一等分试样和第二等分试样。在有或没有另外的处理的情况下，测定第一等分试样的序列数据。因此，确定第一等分试样中的分子的序列数据，而不论核酸分子的初始甲基化状态。第二等分试样中的核酸分子用亚硫酸氢盐处理。该处理将未修饰的胞嘧啶转化为尿嘧啶。然后亚硫酸氢盐处理的核酸经历扩增，该扩增由针对连接至核酸的衔接子的原始引物结合位点的引物引发。现在仅最初连接至衔接子的核酸分子(不同于其扩增产物)是可扩增的，因为这些核酸在衔接子的引物结合位点保留胞嘧啶，而扩增产物失去了这些胞嘧啶残基的甲基化，这些胞嘧啶残基在亚硫酸氢盐处理中已经经历转化为尿嘧啶。因此，仅群体中的原始分子经历扩增，其中的至少一些是甲基化的。在扩增后，这些核酸经历序列分析。比较从第一等分试样和第二等分试样确定的序列可以指示除其他以外，核酸群体中的哪些胞嘧啶经历甲基化。

这样的分析可以使用以下示例性程序来进行。甲基化DNA在两个末端连接至包括引物结合位点和标签的Y形衔接子。衔接子中的胞嘧啶是5-甲基化的。引物的甲基化用于在后续的亚硫酸氢盐步骤中保护引物结合位点。在附接衔接子后，DNA分子被扩增。扩增产物被分成两个等分试样，以用于有亚硫酸氢盐处理和没有亚硫酸氢盐处理的测序。未经历亚硫酸氢盐测序的等分试样可以在有或没有另外的处理的情况下经历序列分析。另一个等分试样用亚硫酸氢盐处理，这将未甲基化的胞嘧啶转化为尿嘧啶。只有受胞嘧啶甲基化保护的引物结合位点，当与对原始引物结合位点特异的引物接触时，可以支持扩增。因此，仅原始分子而不是来自第一扩增的拷贝经历另外的扩增。然后另外的扩增的分子经历序列分析。然后可以比较来自两个等分试样的序列。如在以上讨论的分离方案中，衔接子中的核酸标签不用于区分甲基化DNA和未甲基化DNA，而是用于区分同一分区内的核酸分子。

d.甲基化敏感性PCR

在一些实施方案中，使用甲基化敏感性扩增评价超甲基化可变区和/或低甲基化可变区中的甲基化。通过使已知方法适应本文描述的方法，可以使各种步骤对甲基化敏感。

例如，可以将样品例如，在如本文描述的捕获步骤之前或之后分为等分试样，并且可以将一个等分试样用甲基化敏感性限制性酶消化，例如，如Moore等人，Methods MolBiol.325:239-49(2006)中描述的，该文献通过引用并入本文。非甲基化序列在该等分试样中被消化。然后，消化的和未消化的等分试样可以通过如本文描述的适当步骤(扩增、任选地加标签、测序等)进行，并且分析序列以确定处理的样品中的消化程度，这反映了非甲基化胞嘧啶的存在。可选地，分为等分试样可以通过以下来避免：扩增样品，将扩增的物质与原始模板分开，并且然后将原始物质用甲基化敏感性限制性酶消化，然后进行进一步扩增，例如，如以上文关于亚硫酸氢盐测序讨论的。

在另一个实例中，可以将样品分为等分试样，并且在捕获之前处理一个等分试样以将非甲基化胞嘧啶转化为尿嘧啶，例如，如US 2003/0082600中描述的，该专利通过引用并入本文。非甲基化胞嘧啶转化为尿嘧啶将通过改变区域的序列降低具有低甲基化的靶区的捕获效率。然后，经处理的和未处理的等分试样可以通过如本文描述的适当步骤(捕获、扩增、任选地加标签、测序等)进行，并且分析序列以确定处理的样品中靶区的消耗程度，这反映了非甲基化胞嘧啶的存在。

4.受试者

在一些实施方案中，DNA(例如，cfDNA)从具有癌症的受试者获得。在一些实施方案中，DNA(例如，cfDNA)从疑似具有癌症的受试者获得。在一些实施方案中，DNA(例如，cfDNA)从具有肿瘤的受试者获得。在一些实施方案中，DNA(例如，cfDNA)从疑似具有肿瘤的受试者获得。在一些实施方案中，DNA(例如，cfDNA)从具有瘤形成的受试者获得。在一些实施方案中，DNA(例如，cfDNA)从疑似具有瘤形成的受试者获得。在一些实施方案中，DNA(例如，cfDNA)从处于从肿瘤、癌症或瘤形成缓解中(例如，在化学疗法、手术切除、放疗或其组合之后)的受试者获得。在任一项前述实施方案中，癌症、肿瘤或瘤形成或疑似癌症、肿瘤或瘤形成可以是关于肺、结肠、直肠、肾、乳腺、前列腺或肝的。在一些实施方案中，癌症、肿瘤或瘤形成或疑似癌症、肿瘤或瘤形成是关于肺的。在一些实施方案中，癌症、肿瘤或赘生物或疑似癌症、肿瘤或瘤形成是关于结肠或直肠的。在一些实施方案中，癌症、肿瘤或瘤形成或疑似癌症、肿瘤或瘤形成是关于乳腺的。在一些实施方案中，癌症、肿瘤或瘤形成或疑似癌症、肿瘤或瘤形成是关于前列腺的。在任一项前述实施方案中，受试者可以是人类受试者。

在一些实施方案中，受试者先前被诊断为患有癌症，例如，以上或本文别处提到的任何癌症。这样的受试者可能先前已经接收了一种或更多种先前的癌症治疗，例如，手术、化学疗法、放射和/或免疫疗法。在一些实施方案中，在一个或更多个先前癌症治疗之后的一个或更多个预选时间点，从先前被诊断和治疗的受试者获得样品(例如，cfDNA)。

从受试者获得的样品(例如，cfDNA)可以被测序以提供序列信息组，所述测序可以包括将序列可变靶区组的捕获的DNA分子测序至比表观遗传靶区组的捕获的DNA分子更深的测序深度，如本文别处详细描述的。

5.MBD珠分区的文库的分子标签鉴定的示例性方法

通过NGS对MBD珠分区的文库进行分子标签鉴定的示例性方法如下：

i)使用甲基结合结构域蛋白-珠纯化试剂盒将提取的DNA样品(例如，从人类样品中提取的血浆DNA，其任选地已经经历了如本文描述的靶捕获)进行物理分区，节省了用于下游处理过程的所有洗脱。

ii)将差异分子标签和启动NGS的衔接子序列并行应用于每个分区。例如，超甲基化、残留甲基化(“洗涤”)和低甲基化分区与具有分子标签的NGS衔接子连接。

iii)重新组合所有加分子标签的分区，并且随后使用衔接子特异性DNA引物序列扩增。

iv)捕获/杂交重新组合和扩增的总文库，靶向感兴趣的基因组区域(例如，癌症特异性遗传变体和差异甲基化区域)。

v)重新扩增捕获的DNA文库，附加样品标签。将不同的样品汇集并在NGS仪器上进行多重测定。

vi)对NGS数据的生物信息学分析，其中分子标签用于鉴定独特的分子，以及将样品解卷积为差异地MBD分区的分子。这种分析可以在标准遗传测序/变体检测的同时产生关于基因组区域的相对5-甲基胞嘧啶的信息。

以上阐述的示例性方法还可以包括本文别处阐述的根据本公开内容的方法的任何兼容特征。

6.示例性工作流程

这里提供了用于分区和文库制备的示例性工作流程。在一些实施方案中，分区和文库制备工作流的一些或所有特征可以组合使用。以上阐述的示例性工作流程还可以包括本文别处阐述的根据本公开内容的方法的任何兼容特征。

a.分区

在一些实施方案中，样品DNA(例如，在1ng与300ng之间)与适当量的甲基结合结构域(MBD)缓冲液(MBD缓冲液的量取决于使用的DNA的量)和与MBD蛋白缀合的磁珠混合，并且孵育过夜。甲基化DNA(超甲基化DNA)在该孵育期间结合磁珠上的MBD蛋白。将非甲基化(低甲基化DNA)或较少甲基化(中等甲基化)DNA用含递增浓度的盐的缓冲液从珠上洗掉。例如，包含非甲基化DNA、低甲基化DNA和/或中等甲基化DNA的一个、两个或更多个级分可以从这样的洗涤中获得。最后，使用高盐缓冲液从MBD蛋白中洗脱出高度甲基化DNA(高甲基化DNA)。在一些实施方案中，这些洗涤产生具有递增的甲基化水平的DNA的三个分区(低甲基化分区、中等甲基化分区和超甲基化分区)。

在一些实施方案中，将DNA的三个分区脱盐并且浓缩，为文库制备的酶促步骤做准备。

b.文库制备

在一些实施方案中(例如，在将DNA浓缩在分区中之后)，分区的DNA是可连接的，例如，通过延伸被延伸的DNA分子的末端突出物，并且将腺苷残基添加至片段的3’末端，并将每个DNA片段的5’末端磷酸化。添加DNA连接酶和衔接子，以将每个分区的DNA分子在每个末端上与衔接子连接。这些衔接子包含与其他分区中使用的衔接子中的分区标签可区分的分区标签(例如，非随机、非独特的条形码)。在连接之后，将三个分区汇集在一起并进行扩增(例如，通过PCR，诸如用对衔接子特异性的引物)。

在PCR之后，扩增的DNA可以在捕获之前进行清洗和浓缩。使扩增的DNA与本文描述的靶向感兴趣的特定区域的探针(其可以是例如生物素化的RNA探针)集合接触。将混合物例如在盐缓冲液中孵育过夜。探针被捕获(例如，使用链霉抗生物素蛋白磁珠)并且诸如通过一系列盐洗涤与未被捕获的扩增的DNA分开，从而提供捕获的DNA组。在捕获之后，将捕获组的DNA通过PCR扩增。在一些实施方案中，PCR引物包含样品标签，从而将样品标签掺入到DNA分子中。在一些实施方案中，将来自不同样品的DNA汇集在一起，并且然后例如使用Illumina NovaSeq测序仪进行多重测序。

III.方法的一般特征

1.样品

样品可以是从受试者分离的任何生物样品。样品可以是身体样品。样品可以包括身体组织，诸如已知或怀疑的实体瘤、全血、血小板、血清、血浆、粪便、红细胞、白血细胞或白细胞、内皮细胞、组织活检、脑脊液、滑液、淋巴液、腹水、组织间隙液或细胞外液、细胞之间的间隙中的流体，包括龈沟液、骨髓、胸膜渗出物、脑脊液、唾液、粘液、痰、精液、汗液、尿液。样品优选地为体液，特别地血液及其级分，以及尿液。样品可以呈最初从受试者分离出来的形式，或者可以已经经历另外的处理以去除或添加组分，诸如细胞，或相对于另一种组分富集一种组分。因此，用于分析的优选的体液是含有无细胞核酸的血浆或血清。样品可以从受试者分离或获得，并且被运送到样品分析场所。样品可以在期望的温度例如室温、4℃、-20℃和/或-80℃保存和运输。样品可以在样品分析的场所从受试者分离或获得。受试者可以是人类、哺乳动物、动物、伴侣动物、服务型动物或宠物。受试者可以具有癌症。受试者可以不具有癌症或可检测的癌症症状。受试者可能已经用一种或更多种癌症疗法，例如化疗、抗体、疫苗或生物制剂中的任何一种或更多种治疗。受试者可能处于缓解。受试者可能被诊断为或者未被诊断为易患癌症或任何癌症相关的遗传突变/障碍(geneticmutations/disorders)。

血浆的体积可以取决于测序区域所需的读段深度。示例性体积为0.4ml-40ml、5ml-20ml、10ml-20ml。例如，体积可以是0.5mL、1mL、5mL、10mL、20mL、30mL或40mL。取样的血浆的体积可以是5mL至20mL。

样品可以包含不同量的核酸，该量包括基因组当量。例如，约30ng DNA的样品可以含有约10,000(10⁴)个单倍体人类基因组当量，并且在cfDNA的情况下，含有约2,000亿(2x10¹¹)个个体多核苷酸分子。类似地，约100ng DNA的样品可以含有约30,000个单倍体人类基因组当量，并且在cfDNA的情况下，含有约6,000亿个个体分子。

样品可以包含来自不同来源的核酸，例如来自同一受试者的细胞和无细胞的核酸，来自不同受试者的细胞和无细胞的核酸。样品可以包含携带突变的核酸。例如，样品可以包含携带生殖系突变和/或体细胞突变的DNA。生殖系突变指的是存在于受试者的生殖系DNA中的突变。体细胞突变指的是源自受试者的体细胞例如癌细胞的突变。样品可以包含携带癌症相关突变(例如，癌症相关的体细胞突变)的DNA。样品可以包含表观遗传变体(即化学修饰或蛋白质修饰)，其中表观遗传变体与遗传变体诸如癌症相关突变的存在相关。在一些实施方案中，样品包含与遗传变体的存在相关的表观遗传变体，其中样品不包含该遗传变体。

在扩增之前样品中的无细胞核酸的示例性量在从约1fg至约1μg，例如1pg至200ng、1ng至100ng、10ng至1000ng的范围。例如，无细胞核酸分子的量可以多达约600ng、多达约500ng、多达约400ng、多达约300ng、多达约200ng、多达约100ng、多达约50ng或多达约20ng。无细胞核酸分子的量可以是至少1fg、至少10fg、至少100fg、至少1pg、至少10pg、至少100pg、至少1ng、至少10ng、至少100ng、至少150ng或至少200ng。无细胞核酸分子的量可以多达1飞克(fg)、10fg、100fg、1皮克(pg)、10pg、100pg、1ng、10ng、100ng、150ng、200ng、250ng或300ng。所述方法可以包括获得1飞克(fg)至200ng。

无细胞核酸是不包含在细胞内或不以其他方式与细胞结合的核酸，或者换句话说，是在去除完整细胞后保留在样品中的核酸。无细胞核酸包括DNA、RNA及其杂交体，包括基因组DNA、线粒体DNA、siRNA、miRNA、循环RNA(cRNA)、tRNA、rRNA、核小RNA(snoRNA)、piwi-相互作用RNA(piRNA)、长非编码RNA(长ncRNA)或这些的任一种的片段。无细胞核酸可以是双链的、单链的或其杂交体。无细胞核酸可以通过分泌或细胞死亡过程，例如细胞坏死和凋亡，释放到体液中。一些无细胞核酸从癌细胞，例如循环肿瘤DNA(ctDNA)释放到体液中。其他从健康细胞释放。在一些实施方案中，cfDNA是无细胞胎儿DNA(cffDNA)。在一些实施方案中，无细胞核酸由肿瘤细胞产生。在一些实施方案中，无细胞核酸由肿瘤细胞和非肿瘤细胞的混合物产生。

无细胞核酸具有约100个-500个核苷酸的示例性大小分布，110个至约230个核苷酸的分子代表约90％的分子，众数为约168个核苷酸，并且第二个次要峰在240个至440个核苷酸的范围内。

无细胞核酸可以通过分级分离或分区步骤从体液分离，在分级分离或分区步骤中，如溶液中发现的，无细胞核酸与完整的细胞和体液的其他不可溶的组分分离。分区可以包括诸如离心或过滤的技术。可替代地，体液中的细胞可以裂解，并且一起处理无细胞核酸和细胞核酸。通常，在添加缓冲液和洗涤步骤后，核酸可以用醇沉淀。可以使用进一步的清洁步骤诸如基于二氧化硅的柱以去除污染物或盐。可以贯穿整个反应添加非特异性批量载体核酸，诸如C1DNA，或用于亚硫酸氢盐测序、杂交和/或连接的DNA或蛋白质，以优化该程序的某些方面诸如收率。

在这样的处理后，样品可以包含各种形式的核酸，包括双链DNA、单链DNA和单链RNA。在一些实施方案中，单链DNA和RNA可以转化为双链形式以便它们被包括在后续的处理和分析步骤中。

样品中的双链DNA分子和被转化为双链DNA分子的单链核酸分子可以在一个末端或两个末端处连接至衔接子。通常，双链分子在存在所有四种标准核苷酸的情况下，通过用具有5’-3’聚合酶和3’-5’核酸外切酶(或校正功能)的聚合酶处理而被平端化。Klenow大片段和T4聚合酶是合适的聚合酶的实例。平端的DNA分子可以与至少部分地双链的衔接子(例如，Y形衔接子或钟形衔接子)连接。可替代地，互补核苷酸可以被添加至样品核酸和衔接子的平端，以便于连接。本文设想的是平端连接和粘端连接两者。在平端连接中，核酸分子和衔接子标签两者具有平端。在粘端连接中，通常，核酸分子带有“A”突出端，而衔接子带有“T”突出端。

2.标签

包含条形码的标签可以掺入到衔接子中或以其他方式与衔接子连接。标签可以通过连接、重叠延伸PCR以及其他方法掺入。

a.加分子标签(Molecular tagging)策略

加分子标签指的是一种加标签实践，其允许人们区分序列读段所来源的分子。加标签策略可以分为加独特标签策略和加非独特标签策略。在加独特标签中，样品中的所有或基本上所有分子带有不同的标签，使得可以基于单独的标签信息将读段指定给原始分子。在这样的方法中使用的标签有时被称为“独特标签”。在加非独特标签中，同一样品中的不同分子可以带有相同的标签，使得除了标签信息之外的其他信息用于将序列读段指定给原始分子。这样的信息可以包括起始和终止坐标、分子映射到的坐标、单独的起始或终止坐标等。在这样的方法中使用的标签有时被称为“非独特标签”。因此，没有必要对样品中的每个分子独特地加标签。对样品中落入可识别类别的分子独特地加标签就足够了。因此，不同可识别家族中的分子可以带有相同的标签，而不会丢失关于加标签的分子的身份的信息。

在加非独特标签的某些实施方案中，所使用的不同标签的数目可以足以使得特定组的所有分子带有不同标签的可能性非常高(例如，至少99％、至少99.9％、至少99.99％或至少99.999％)。应注意，当条形码用作标签时，以及当条形码被例如随机地附接至分子的两端时，条形码的组合一起可以构成标签。就这一数目而言，是落入调用的分子数目的函数。例如，类别可以是所有映射到参考基因组上的相同起始-终止位置的分子。类别可以是跨越特定遗传基因座，例如，特定碱基或特定区域(例如，多达100个碱基或基因或基因外显子)映射的所有分子。在某些实施方案中，用于独特地识别一类中的多个分子z的不同标签的数目可以在2*z、3*z、4*z、5*z、6*z、7*z、8*z、9*z、10*z、11*z、12*z、13*z、14*z、15*z、16*z、17*z、18*z、19*z、20*z或100*z中的任一个(例如，下限)和100,000*z、10,000*z、1000*z或100*z中的任一个(例如，上限)之间。

例如，在约3ng至30ng的人类无细胞DNA的样品中，人们预期约10³-10⁴个分子映射到特定的核苷酸坐标，并且具有任何起始坐标的约3个和10个之间的分子共享相同的终止坐标。因此，约50个至约50,000个不同的标签(例如，约6个和220个之间的条形码组合)足以独特地对所有这样的分子加标签。为了独特地对跨一个核苷酸坐标映射的所有10³-10⁴个分子加标签，将需要约100万至约2000万个不同的标签。

通常，反应中独特的标签条形码或非独特的标签条形码的指定遵循由美国专利申请20010053519、20030152490、20110160078和美国专利第6,582,908号和美国专利第7,537,898号和美国专利第9,598,731号描述的方法和系统。标签可以随机或非随机地连接至样品核酸。

在一些实施方案中，对加载到微孔板后的加标签的核酸测序。微孔板可以具有96个、384个或1536个微孔。在一些情况下，它们以独特标签与微孔的预期比率引入。例如，可以加载独特标签使得每基因组样品加载多于约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、50个、100个、500个、1000个、5000个、10000个、50,000个、100,000个、500,000个、1,000,000个、10,000,000个、50,000,000个或1,000,000,000个独特标签。在一些情况下，可以加载独特标签使得每基因组样品加载少于约2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、50个、100个、500个、1000个、5000个、10000个、50,000个、100,000个、500,000个、1,000,000个、10,000,000个、50,000,000个或1,000,000,000个独特标签。在一些情况下，每样品基因组加载的独特标签的平均数目少于或大于每基因组样品约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、50个、100个、500个、1000个、5000个、10000个、50,000个、100,000个、500,000个、1,000,000个、10,000,000个、50,000,000个或1,000,000,000个独特标签。

一种优选的格式使用连接到靶核酸两端的20个-50个不同的标签(例如，条形码)。例如，35个不同的标签(例如，条形码)连接到靶分子的两端，产生35×35排列，对于35个标签，这等于1225个标签组合。这样的标签的数目是足以使得具有相同起点和终点的不同分子具有接收不同标签组合的高概率(例如，至少94％、99.5％、99.99％、99.999％)。其他条形码组合包括10和500之间的任何数字，例如，约15x15、约35x35、约75x75、约100x100、约250x250、约500x500。

在一些情况下，独特标签可以是预定序列或者是随机序列或半随机序列的寡核苷酸。在其他情况下，可以使用多于一个条形码使得条形码在所述多于一个条形码中相对于彼此不必是独特的。在该实例中，条形码可以与个体分子连接，使得条形码和可以与其连接的序列的组合产生可以被单独地追溯的独特序列。如本文描述的，非独特条形码的检测与在序列读段的开始(起始)和结束(终止)部分的序列数据组合可以允许将独特的身份指定至特定分子。个体序列读段的长度或碱基对的数目也可以用于将独特身份指定至这样的分子。如本文描述的，来自已经指定了独特身份的核酸单链的片段可以从而允许随后识别来自亲本链的片段。

3.扩增

侧翼为衔接子的样品核酸可以通过PCR和其他扩增方法来扩增。扩增通常是通过引物与待扩增的DNA分子侧翼的衔接子中的引物结合位点结合而引发的。扩增方法可以涉及由热循环导致的变性、退火和延伸的循环，或者可以是等温的，如在转录介导的扩增中。其他扩增方法包括连接酶链式反应、链置换扩增、基于核酸序列的扩增和基于自我维持序列的复制。

优选地，本方法用T尾和C尾衔接子进行dsDNA“T/A连接”，这导致在连接至衔接子之前至少50％、60％、70％或80％的双链核酸扩增。优选地，本方法相对于单独用T尾衔接子进行的对照方法，扩增的分子的量或数目增加了至少10％、15％或20％。

4.诱饵组；捕获部分；富集

如以上讨论的，样品中的核酸可以经历捕获步骤，其中具有靶序列的分子被捕获以用于后续分析。靶捕获可以包括使用诱饵组，该诱饵组包括用捕获部分诸如生物素或以下提及的其他实例标记的寡核苷酸诱饵。探针可以具有被选择平铺在一组区域，诸如基因上的序列。在一些实施方案中，如本文别处讨论的，对于靶区组诸如序列可变靶区组和表观遗传靶区组的那些，诱饵组可以分别具有较高和较低的捕获产量。这样的诱饵组在允许靶分子与诱饵杂交的条件下与样品组合。然后，使用捕获部分分离捕获的分子，例如，基于珠的链霉亲和素的生物素捕获部分。例如，在2017年12月26日公布的美国专利9,850,523中进一步描述了这样的方法，该专利通过引用并入本文。

捕获部分包括但不限于生物素、亲和素、链霉亲和素、包含特定核苷酸序列的核酸、抗体识别的半抗原和可磁性吸引的颗粒。提取部分可以是结合对的成员，诸如生物素/链霉亲和素或半抗原/抗体。在一些实施方案中，附接至分析物的捕获部分被附接至可分离部分的其结合对捕获，所述可分离部分诸如可磁性吸引的颗粒或可以通过离心沉降的大颗粒。捕获部分可以是允许带有捕获部分的核酸与缺乏捕获部分的核酸亲和分离的任何类型的分子。示例性的捕获部分是生物素，其允许通过结合连接至或可连接至固相的链霉亲和素来亲和分离；或寡核苷酸，其允许通过结合连接至或可连接至固相的互补寡核苷酸来亲和分离。

5.测序

通常对任选地侧翼有衔接子、有或没有预先扩增的样品核酸进行测序。任选地利用的测序方法或商业上可得的形式包括，例如，Sanger测序、高通量测序、焦磷酸测序、合成测序、单分子测序、基于纳米孔的测序、半导体测序、连接测序、杂交测序、RNA-Seq(Illumina)、数字基因表达(Helicos)、下一代测序(NGS)、单分子合成测序(SMSS)(Helicos)、大规模并行测序、克隆单分子阵列(Solexa)、鸟枪法测序、Ion Torrent、Oxford纳米孔、Roche Genia、Maxim-Gilbert测序、引物步移、使用PacBio、SOLiD、Ion Torrent或纳米孔平台测序。测序反应可以在多种样品处理单元中进行，所述单元可以包括多行道(multiple lane)、多通道、多孔或基本上同时处理多个样品集的其他装置。样品处理单元还可以包括多个样品室，以便能够同时处理多个运行。

可以对一种或更多种包含癌症或其他疾病的标志物的核酸片段类型或区域进行测序反应。也可以对样品中存在的任何核酸片段进行测序反应。可以对基因组的至少约5％、10％、15％、20％、25％、30％、40％、50％、60％、70％、80％、90％、95％、99％、99.9％或100％进行测序反应。在其他情况下，可以对基因组的少于约5％、10％、15％、20％、25％、30％、40％、50％、60％、70％、80％、90％、95％、99％、99.9％或100％进行测序反应。

可以使用多重测序技术进行同时测序反应。在一些实施方案中，用至少约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应对无细胞多核苷酸进行测序。在其他实施方案中，用少于约1000个个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应对无细胞多核苷酸进行测序。测序反应通常顺序性地进行或同时进行。随后的数据分析通常对全部或部分的测序反应进行。在一些实施方案中，对至少约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应进行数据分析。在其他实施方案中，对少于约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应进行数据分析。读段深度的一种实例是每个基因座(例如，碱基位置)约1000个至约50000个读段。

a.测序的差异深度

在一些实施方案中，对应于序列可变靶区组的核酸被测序至比对应于表观遗传靶区组的核酸更深的测序深度。例如，对应于序列变体靶区组的核酸的测序深度可以比对应于表观遗传靶区组的核酸的测序深度深至少1.25倍、1.5倍、1.75倍、2倍、2.25倍、2.5倍、2.75倍、3倍、3.5倍、4倍、4.5倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍或15倍，或者深1.25倍至1.5倍、1.5倍至1.75倍、1.75倍至2倍、2倍至2.25倍、2.25倍至2.5倍、2.5倍至2.75倍、2.75倍至3倍、3倍至3.5倍、3.5倍至4倍、4倍至4.5倍、4.5倍至5倍、5倍至5.5倍、5.5倍至6倍、6倍至7倍、7倍至8倍、8倍至9倍、9倍至10倍、10倍至11倍、11倍至12倍、13倍至14倍、14倍至15倍或15倍至100倍。在一些实施方案中，所述测序深度深至少2倍。在一些实施方案中，所述测序深度深至少5倍。在一些实施方案中，所述测序深度深至少10倍。在一些实施方案中，所述测序深度深4倍至10倍。在一些实施方案中，所述测序深度深4倍至100倍。这些实施方案中的每一个涉及对应于序列可变靶区组的核酸被测序至比对应于表观遗传靶区组的核酸深的测序深度的程度。

在一些实施方案中，对应于序列可变靶区组的捕获的cfDNA和对应于表观遗传靶区组的捕获的cfDNA被同时测序，例如，在同一测序池(诸如Illumina测序仪的流通池)中和/或在同一组合物中，所述组合物可以是由将单独地捕获的组重新合并而得到的汇集的组合物，或者是通过在同一容器中捕获对应于序列可变靶区组的cfDNA和对应于表观遗传靶区组的捕获的cfDNA而获得的组合物。

6.分析

测序可以产生多于一个序列读段或读段(sequence reads or reads)。序列读段或读段可以包括长度小于约150个碱基或长度小于约90个碱基的核苷酸序列的数据。在一些实施方案中，读段的长度在约80个碱基和约90个碱基之间，例如，约85个碱基。在一些实施方案中，本公开内容的方法被应用于非常短的读段，例如，长度小于约50个碱基或约30个碱基。序列读段数据可以包括序列数据以及元信息。序列读段数据可以以任何合适的文件格式存储，包括例如，VCF文件、FASTA文件或FASTQ文件。

FASTA可以指用于检索序列数据库的计算机程序，并且名称FASTA也可以指标准文件格式。FASTA由例如Pearson&Lipman,1988,Improved tools for biological sequencecomparison,PNAS 85:2444-2448描述，在此将其通过引用以其整体并入。FASTA格式的序列以单行描述开始，随后为序列数据行。描述行通过第一列中的大于(“>”)符号与序列数据区分开。“>”符号后面的词是序列的标识符，并且该行的其余部分是描述(都是任选的)。在“>”和标识符的第一个字母之间不可有空格。建议文本的所有行少于80个字符。如果出现以“>”开头的另一行，则序列结束；这指示另一个序列的开始。

FASTQ格式是基于文本的格式，用于存储生物序列(通常是核苷酸序列)及其对应的质量评分。它与FASTA格式相似，但是在序列数据之后具有质量评分。为简洁起见，序列字母和质量评分都使用单个ASCII字符编码。FASTQ格式是用于存储高通量测序仪器诸如Illumina Genome Analyzer的输出结果的约定俗成的标准，例如Cock等人(“The SangerFASTQ file format for sequences with quality scores,and the Solexa/IlluminaFASTQ variants,”Nucleic Acids Res 38(6):1767-1771,2009)所描述的，在此将其通过引用以其整体并入。

对于FASTA和FASTQ文件，元信息包括描述行但不包括序列数据行。在一些实施方案中，对于FASTQ文件，元信息包括质量评分。对于FASTA和FASTQ文件，序列数据在描述行之后开始，并且通常使用一些任选地带有“-”的IUPAC模糊代码的子集呈现。在一种实施方案中，序列数据可以使用A、T、C、G和N字符，任选地根据需要包括“-”或者包括U(例如，以表示空位或尿嘧啶)。

在一些实施方案中，至少一个主序列读段文件和输出文件被存储为纯文本文件(例如，使用诸如ASCII、ISO/IEC 646、EBCDIC、UTF-8或UTF-16的编码)。本公开内容提供的计算机系统可以包括能够打开纯文本文件的文本编辑器程序。文本编辑器程序可以指能够在计算机屏幕上呈现文本文件(诸如纯文本文件)的内容、允许人员编辑文本(例如使用显示器、键盘和鼠标)的计算机程序。文本编辑器的实例包括但不限于Microsoft Word、emacs、pico、vi、BBEdit和TextWrangler。文本编辑器程序可以能够以人类可读格式在计算机屏幕上显示纯文本文件，显示元信息和序列读段(例如，不是二进制编码而是使用字母数字字符，因为它们可以用于打印或人类书写)。

虽然已经参照FASTA或FASTQ文件讨论了方法，但是本公开内容的方法和系统可以用于压缩任何合适的序列文件格式，包括例如Variant Call Format(VCF)格式的文件。典型的VCF文件可以包括标题部分和数据部分。标题包含任何数目的元信息行，每行都以字符‘##’开始，以及以单个‘#’字符开始的TAB分隔字段定义行。字段定义行命名了八个必填列，而主体部分包含填充由字段定义行定义的列的数据行。VCF格式由例如Danecek等人(“Thevariant call format and VCFtools,”Bioinformatics27(15):2156-2158,2011)描述，在此将其通过引用以其整体并入。标题部分可以被视为要写入压缩文件的元信息，并且数据部分可以被视为行，其中每一行只有在为独特的情况下可以被存储在主文件中。

一些实施方案提供了序列读段的装配。例如，在通过比对的装配中，将序列读段彼此比对或与参考序列比对。通过比对每个读段，继而与参考基因组比对，所有读段被按照关于彼此的关系定位以创建装配体。另外，将序列读段与参考序列比对或映射至参考序列也可以用于鉴定序列读段中的变异序列。鉴定变异序列可以与本文描述的方法和系统组合使用，以进一步帮助疾病或状况的诊断或预后或用于指导治疗决定。

在一些实施方案中，任何或全部步骤是自动化的。可选地，本公开内容的方法可以全部或部分地在一个或更多个专用程序中实现，例如每一个任选地以编译语言诸如C++写入，然后以二进制编译和分发。本公开内容的方法可以全部或部分地作为现有序列分析平台内的模块或通过调用现有序列分析平台内的功能而实现。在一些实施方案中，本公开内容的方法包括响应于单个启动队列(例如，源自人类活动、另一个计算机程序或机器的触发事件中的一个事件或事件组合)而全部被自动调用的多个步骤。因此，本公开内容提供了其中任何步骤或步骤的任何组合可以响应于队列而自动发生的方法。“自动地”通常意指不介入人类输入、影响或交互(例如，仅响应于原来的或预先排队的人类活动)。

本公开内容的方法还可以包括多种形式的输出，所述多种形式的输出包括对受试者的核酸样品的准确和灵敏的解释。检索的输出可以以计算机文件的格式提供。在一些实施方案中，输出是FASTA文件、FASTQ文件或VCF文件。输出可以被处理以产生含有序列数据诸如与参考基因组的序列比对的核酸序列的文本文件或XML文件。在其他实施方案中，处理产生包含坐标或描述受试者核酸中相对于参考基因组的一个或更多个突变的字串的输出。比对字串可以包括Simple UnGapped Alignment Report(SUGAR)、Verbose UsefulLabeled Gapped Alignment Report(VALGAR)和Compact Idiosyncratic GappedAlignment Report(CIGAR)(例如，Ning等人,Genome Research 11(10):1725-9,2001描述的，在此将其通过引用以其整体并入)。这些字串可以例如在来自EuropeanBioinformatics Institute(Hinxton，UK)的Exonerate序列比对软件中实现。

在一些实施方案中，产生包含CIGAR字串的序列比对—诸如，例如序列比对图(SAM)或二元比对图(BAM)文件(SAM格式在例如Li等人，“The Sequence Alignment/Mapformat and SAMtools,”Bioinformatics,25(16):2078-9,2009中描述，在此将其通过引用以其整体并入)。在一些实施方案中，CIGAR显示或包括每行一个空位的比对。CIGAR是一种报告为CIGAR字串的压缩的成对比对格式。CIGAR字串可以用于呈现长的(例如，基因组)成对比对。CIGAR字串可以在SAM格式中使用以表示读段与参考基因组序列的比对。

CIGAR字串可以遵循建立的基序。每个字符前面是数字，给出事件的碱基计数。使用的字符可以包括M、I、D、N和S(M＝匹配；I＝插入；D＝缺失；N＝空位；S＝取代)。CIGAR字串定义匹配和/或不匹配和缺失(或空位)的序列。例如，CIGAR字串2MD3M2D2M可以指示，比对包含2个匹配、1个缺失(为了节省一些空间省略数字1)、3个匹配、2个缺失和2个匹配。

在一些实施方案中，通过在一端或两端具有单链突出端的双链核酸上酶促形成平末端来制备用于测序的核酸群体。在这些实施方案中，在核苷酸(例如，A、C、G和T或U)存在的情况下，通常用具有5'-3'DNA聚合酶活性和3'-5'核酸外切酶活性的酶处理该群体。可以任选地使用的酶或其催化片段的实例包括Klenow大片段和T4聚合酶。在5'突出端处，酶通常延伸相对链上凹陷的3'端，直到它与5'端齐平以产生平末端。在3'突出端处，酶通常从3'端消化，达到相对链的5'端并且有时超过相对链的5'端。如果该消化行进超过了相对链的5'端，则缺口可以通过具有与对5'突出端使用的具有相同的聚合酶活性的酶填补。双链核酸上平末端的形成有利于例如衔接子的附接和随后的扩增。

在一些实施方案中，核酸群体经受另外的处理，诸如将单链核酸转化为双链核酸和/或将RNA转化为DNA(例如，互补DNA或cDNA)。这些形式的核酸还任选地与衔接子连接并扩增。

在具有或没有预先扩增的情况下，经受上文描述的形成平末端的处理的核酸以及任选地样品中的其它核酸，可以被测序以产生测序的核酸。测序的核酸可以指核酸的序列(例如，序列信息)或其序列已被确定的核酸。可以进行测序，以便从样品中个体核酸分子的扩增产物的共有序列直接或间接地提供样品中个体核酸分子的序列数据。

在一些实施方案中，样品中具有单链突出端的双链核酸在平末端形成后，在两端处被与包含条形码的衔接子连接，并且测序确定了核酸序列以及通过衔接子引入的直线连接的(in-line)条形码。平末端DNA分子任选地与至少部分双链的衔接子(例如，Y形或钟形衔接子)的平末端连接。可选地，样品核酸和衔接子的平末端可以用互补核苷酸加尾以促进连接(例如，粘末端连接)。

通常使核酸样品与足够数目的衔接子接触，使得相同核酸的任何两个拷贝从连接在两端的衔接子接收相同衔接子条形码组合的概率较低(例如，小于约1％或0.1％)。以这种方式使用衔接子可以允许对在参考核酸上具有相同的起点和终点并且被连接至相同条形码组合的核酸序列家族的鉴定。这样的家族可以代表扩增前的样品中的核酸的扩增产物序列。可以对家族成员的序列进行汇编，以获得原始样品中的核酸分子的共有核苷酸或完整的共有序列，所述核酸分子通过平末端形成和衔接子附接被修饰。换言之，占据样品中核酸的特定位置的核苷酸可以被确定为占据家族成员序列中对应位置的核苷酸的共有核苷酸。家族可以包括双链核酸的一条链或两条链的序列。如果家族的成员包括来自双链核酸的两条链的序列，则为了对序列汇编以获得共有核苷酸或序列的目的，一条链的序列可以被转化为它们的互补序列。一些家族仅包含单个成员序列。在该情况下，该序列可以被视为扩增前样品中的核酸的序列。可选地，仅有单个成员序列的家族可以从随后的分析中排除。

通过将测序的核酸与参考序列进行比较，可以确定测序的核酸中的核苷酸变异(例如，SNV或插入缺失)。参考序列通常是已知序列，例如，来自受试者的已知的全部或部分的基因组序列(例如，人类受试者的全基因组序列)。参考序列可以是，例如，hG19或hG38。如上文描述的，测序的核酸可以代表直接确定的样品中的核酸的序列或这种核酸的扩增产物的共有序列。可以在参考序列上的一个或更多个指定位置处进行比较。当相应的序列被最大程度地比对时，可以鉴定测序的核酸的子集，该子集包括与参考序列的指定位置对应的位置。在这样的子集中，可以确定哪些(如果有的话)测序的核酸在指定位置处包含核苷酸变异，以及任选地哪些(如果有的话)包含参考核苷酸(例如，与参考序列中的相同)。如果包含核苷酸变异的子集中的测序的核酸的数目超过选定的阈值，则变异核苷酸可以在指定位置被调用。阈值可以是简单的数字，诸如包含核苷酸变异的子集中的至少1个、2个、3个、4个、5个、6个、7个、8个、9个或10个测序的核酸，或者阈值可以是包含核苷酸变异的子集中的测序的核酸的比率，诸如至少0.5、1、2、3、4、5、10、15或20，以及其他可能性。可以对参考序列中感兴趣的任何指定位置重复比较。有时可以对占据参考序列上至少约20个、100个、200个或300个连续位置，例如，约20-500个或约50-300个连续位置的指定位置进行比较。

关于核酸测序的另外的细节，包括本文描述的形式和应用，还提供在以下文献中：例如，Levy等人,Annual Review of Genomics and Human Genetics,17:95-115(2016)；Liu等人,J.of Biomedicine and Biotechnology,Volume 2012,Article ID 251364:1-11(2012)；Voelkerding等人,Clinical Chem.,55:641-658(2009)；MacLean等人,NatureRev.Microbiol.,7:287-296(2009),Astier等人,J Am Chem Soc.,128(5):1705-10(2006)；美国专利第6,210,891号、美国专利第6,258,568号、美国专利第6,833,246号、美国专利第7,115,400号、美国专利第6,969,488号、美国专利第5,912,148号、美国专利第6,130,073号、美国专利第7,169,560号、美国专利第7,282,337号、美国专利第7,482,120号、美国专利第7,501,245号、美国专利第6,818,395号、美国专利第6,911,345号、美国专利第7,501,245号、美国专利第7,329,492号、美国专利第7,170,050号、美国专利第7,302,146号、美国专利第7,313,308号和美国专利第7,476,503号，在此将这些中的每一个通过引用以其整体并入。

IV.靶特异性探针的集合；组合物

1.靶特异性探针的集合

在一些实施方案中，提供了靶特异性探针的集合，所述集合包括对序列可变靶区组特异性的靶结合探针和对表观遗传靶区组特异性的靶结合探针。在一些实施方案中，对序列可变靶区组特异性的靶结合探针的捕获产量比对表观遗传靶区组特异性的靶结合探针的捕获产量高(例如，高至少2倍)。在一些实施方案中，靶特异性探针的集合被配置为具有的对序列可变靶区组特异性的捕获产量比其具有的对表观遗传靶区组特异性的捕获产量高(例如，高至少2倍)。

在一些实施方案中，对序列可变靶区组特异性的靶结合探针的捕获产量比对表观遗传靶区组特异性的靶结合探针的捕获产量高至少1.25倍、1.5倍、1.75倍、2倍、2.25倍、2.5倍、2.75倍、3倍、3.5倍、4倍、4.5倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍或15倍。在一些实施方案中，对序列可变靶区组特异性的靶结合探针的捕获产量比对表观遗传靶区组特异性的靶结合探针的捕获产量高1.25倍至1.5倍、1.5倍至1.75倍、1.75倍至2倍、2倍至2.25倍、2.25倍至2.5倍、2.5倍至2.75倍、2.75倍至3倍、3倍至3.5倍、3.5倍至4倍、4倍至4.5倍、4.5倍至5倍、5倍至5.5倍、5.5倍至6倍、6倍至7倍、7倍至8倍、8倍至9倍、9倍至10倍、10倍至11倍、11倍至12倍、13倍至14倍或14倍至15倍。在一些实施方案中，对序列可变靶区组特异性的靶结合探针的捕获产量比对表观遗传靶区组特异性的靶结合探针的捕获产量高至少10倍，例如，比对表观遗传靶区组特异性的靶结合探针的捕获产量高10倍至20倍。

在一些实施方案中，靶特异性探针的集合被配置为具有的对序列可变靶区组特异性的捕获产量比其对表观遗传靶区组的捕获产量高至少1.25倍、1.5倍、1.75倍、2倍、2.25倍、2.5倍、2.75倍、3倍、3.5倍、4倍、4.5倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍或15倍。在一些实施方案中，靶特异性探针的集合被配置为具有的对序列可变靶区组特异性的捕获产量比其对表观遗传靶区组特异性的捕获产量高1.25倍至1.5倍、1.5倍至1.75倍、1.75倍至2倍、2倍至2.25倍、2.25倍至2.5倍、2.5倍至2.75倍、2.75倍至3倍、3倍至3.5倍、3.5倍至4倍、4倍至4.5倍、4.5倍至5倍、5倍至5.5倍、5.5倍至6倍、6倍至7倍、7倍至8倍、8倍至9倍、9倍至10倍、10倍至11倍、11倍至12倍、13倍至14倍或14倍至15倍。在一些实施方案中，靶特异性探针的集合被配置为具有的对序列可变靶区组特异性的捕获产量比其对表观遗传靶区组的捕获产量高至少10倍，例如，比其对表观遗传靶区组的捕获产量高10倍至20倍。

探针的集合可以被配置为以各种方式为序列可变靶区组提供更高的捕获产量，包括浓度、不同长度和/或化学性质(例如，影响亲和力)及其组合。亲和力可以通过调整探针长度和/或包括如下文讨论的核苷酸修饰来调整。

在一些实施方案中，对序列可变靶区组特异性的靶特异性探针以比对表观遗传靶区组特异性的靶特异性探针更高的浓度存在。在一些实施方案中，对序列可变靶区组特异性的靶结合探针的浓度比对表观遗传靶区组特异性的靶结合探针的浓度高至少1.25倍、1.5倍、1.75倍、2倍、2.25倍、2.5倍、2.75倍、3倍、3.5倍、4倍、4.5倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍或15倍。在一些实施方案中，对序列可变靶区组特异性的靶结合探针的浓度比对表观遗传靶区组特异性的靶结合探针的浓度高1.25倍至1.5倍、1.5倍至1.75倍、1.75倍至2倍、2倍至2.25倍、2.25倍至2.5倍、2.5倍至2.75倍、2.75倍至3倍、3倍至3.5倍、3.5倍至4倍、4倍至4.5倍、4.5倍至5倍、5倍至5.5倍、5.5倍至6倍、6倍至7倍、7倍至8倍、8倍至9倍、9倍至10倍、10倍至11倍、11倍至12倍、13倍至14倍或14倍至15倍。在一些实施方案中，对序列可变靶区组特异性的靶结合探针的浓度比对表观遗传靶区组特异性的靶结合探针的浓度高至少2倍。在一些实施方案中，对序列可变靶区组特异性的靶结合探针的浓度比对表观遗传靶区组特异性的靶结合探针的浓度高至少10倍，例如，比对表观遗传靶区组特异性的靶结合探针的浓度高10倍至20倍。在这样的实施方案中，浓度可以指每组中单独探针的平均质量/体积浓度。

在一些实施方案中，对序列可变靶区组特异性的靶特异性探针比对表观遗传靶区组特异性的靶特异性探针对其靶具有更高的亲和力。亲和力可以以本领域技术人员已知的任何方式调节，包括通过使用不同的探针化学。例如，某些核苷酸修饰，诸如胞嘧啶5-甲基化(在某些序列上下文中)、在2’糖位置处提供杂原子的修饰和LNA核苷酸，可以增加双链核酸的稳定性，表明具有这样的修饰的寡核苷酸对其互补序列具有相对较高的亲和力。参见，例如，Severin等人，Nucleic Acids Res.39:8740–8751(2011)；Freier等人，NucleicAcids Res.25:4429–4443(1997)；美国专利第9,738,894号。此外，较长的序列长度将通常提供增加的亲和力。其他核苷酸修饰，诸如用核碱基次黄嘌呤取代鸟嘌呤，通过降低寡核苷酸与其互补序列之间的氢键的量来降低亲和力。在一些实施方案中，对序列可变靶区组特异性的靶特异性探针具有增加其对其靶的亲和力的修饰。在一些实施方案中，可选地或另外地，对表观遗传靶区组特异性的靶特异性探针具有减少其对其靶的亲和力的修饰。在一些实施方案中，对序列可变靶区组特异性的靶特异性探针比对表观遗传靶区组特异性的靶特异性探针具有更长的平均长度和/或更高的平均解链温度。如以上讨论的，这些实施方案可以彼此组合和/或以浓度差异组合，以实现捕获产量的期望倍数差异，诸如以上描述的任何倍数差异或其范围。

在一些实施方案中，靶特异性探针包含捕获部分。捕获部分可以是本文描述的任何捕获部分，例如，生物素。在一些实施方案中，靶特异性探针与固体支持物，例如共价或非共价连接，诸如通过捕获部分的结合对的相互作用连接。在一些实施方案中，固体支持物是珠，诸如磁珠。

在一些实施方案中，对序列可变靶区组特异性的靶特异性探针和/或对表观遗传靶区组特异性的靶特异性探针是如以上讨论的诱饵组，例如，包括捕获部分和被选择跨越区域小组(诸如基因)平铺的序列的探针。

在一些实施方案中，靶特异性探针以单一组合物提供。单一组合物可以是溶液(液体或冷冻的)。可选地，它可以是冻干产物。

可选地，靶特异性探针可以作为多于一种组合物提供，例如，包括包含对表观遗传靶区组特异性的探针的第一组合物和包含对序列可变靶区组特异性的探针的第二组合物。这些探针可以以适当的比例混合，以提供在浓度和/或捕获产量方面具有任何前述倍数差异的组合的探针组合物。可选地，它们可以用于单独的捕获程序(例如，用于样品的等分试样或顺序用于同一样品)，以提供分别包含捕获的表观遗传靶区和序列可变靶区的第一组合物和第二组合物。

a.对表观遗传靶区特异性的探针

用于表观遗传靶区组的探针可以包括对一种或更多种类型的靶区特异性的探针，这些靶区可能将来自赘生性(例如，肿瘤或癌症)细胞的DNA与来自健康细胞(例如，非赘生性循环细胞)的DNA区分开。例如，在以上关于捕获组的部分中，本文详细讨论了这样的区域的示例性类型。用于表观遗传靶区组的探针也可以包括用于例如，如本文描述的一个或更多个对照区的探针。

在一些实施方案中，用于表观遗传靶区探针组的探针具有至少100kb，例如，至少200kb、至少300kb或至少400kb的足迹。在一些实施方案中，用于表观遗传靶区组的探针具有以下范围内的足迹：100-1000kb，例如，100-200kb、200-300kb、300-400kb、400-500kb、500-600kb、600-700kb、700-800kb、800-900kb和900-1,000kb。

i.超甲基化可变靶区

在一些实施方案中，用于表观遗传靶区组的探针包括对一个或更多个超甲基化可变靶区特异性的探针。超甲基化可变靶区可以是以上阐述的任一个。例如，在一些实施方案中，对超甲基化可变靶区特异性的探针包括对表1中列出的多于一个基因座，例如，表1中列出的至少10％、20％、30％、40％、50％、60％、70％、80％、90％或100％的基因座特异性的探针。在一些实施方案中，对超甲基化可变靶区特异性的探针包括对表2中列出的多于一个基因座，例如，表2中列出的至少10％、20％、30％、40％、50％、60％、70％、80％、90％或100％的基因座特异性的探针。在一些实施方案中，对超甲基化可变靶区特异性的探针包括对表1或表2中列出的多于一个基因座，例如，表1或表2中列出的至少10％、20％、30％、40％、50％、60％、70％、80％、90％或100％的基因座特异性的探针。在一些实施方案中，对于作为靶区被包括的每个基因座，可能存在一种或更多种探针，该一种或更多种探针具有在基因的转录起始位点与终止密码子(选择性剪接的基因的最后终止密码子)之间结合的杂交位点。在一些实施方案中，一种或更多种探针在列出的位置的300bp内，例如在200bp或100bp内结合。在一些实施方案中，探针具有与以上列出的位置重叠的杂交位点。在一些实施方案中，对超甲基化靶区特异性的探针包括对一个、两个、三个、四个或五个超甲基化靶区亚组特异性的探针，所述超甲基化靶区亚组共同显示在乳腺癌、结肠癌、肾癌、肝癌和肺癌中的一个、两个、三个、四个或五个中的超甲基化。

ii.低甲基化可变靶区

在一些实施方案中，用于表观遗传靶区组的探针包括对一个或更多个低甲基化可变靶区特异性的探针。低甲基化可变靶区可以是以上阐述的任一个。例如，对一个或更多个低甲基化可变靶区特异性的探针可以包括诸如重复元件(例如，LINE1元件、Alu元件、着丝粒串联重复序列、着丝粒周围串联重复序列和卫星DNA)的区域的探针，并且在健康细胞中通常甲基化的基因间区可以在肿瘤细胞中显示甲基化降低。

在一些实施方案中，对低甲基化可变靶区特异性的探针包括对重复元件和/或基因间区特异性的探针。在一些实施方案中，对重复元件特异性的探针包括对LINE1元件、Alu元件、着丝粒串联重复序列、着丝粒周围串联重复序列和/或卫星DNA中的一个、两个、三个、四个或五个特异性的探针。

对显示癌症相关低甲基化的基因组区域特异性的示例性探针包括对人类1号染色体的核苷酸8403565-8953708和/或151104701-151106035特异性的探针。在一些实施方案中，对低甲基化可变靶区特异性的探针包括对与人类1号染色体核苷酸8403565-8953708和/或151104701-151106035重叠或包含人类1号染色体核苷酸8403565-8953708和/或151104701-151106035的区域特异性的探针。

iii.CTCF结合区

在一些实施方案中，用于表观遗传靶区组的探针包括对CTCF结合区特异性的探针。在一些实施方案中，对CTCF结合区特异性的探针包括对至少10个、20个、50个、100个、200个或500个CTCF结合区，或10-20个、20-50个、50-100个、100-200个、200-500个或500-1000个CTCF结合区，例如，诸如以上或者在CTCFBSDB或以上引用的文章的Cuddapah等人、Martin等人或Rhee等人中的一个或多个中描述的CTCF结合区特异性的探针。在一些实施方案中，用于表观遗传靶区组的探针包括在CTCF结合位点的上游和下游区域的至少100bp、至少200bp、至少300bp、至少400bp、至少500bp、至少750bp或至少1000bp。

iv.转录起始位点

在一些实施方案中，用于表观遗传靶区组的探针包括对转录起始位点特异性的探针。在一些实施方案中，对转录起始位点特异性的探针包括对至少10个、20个、50个、100个、200个或500个转录起始位点，或10-20个、20-50个、50-100个、100-200个、200-500个或500-1000个转录起始位点，例如，诸如DBTSS中列出的转录起始位点特异性的探针。在一些实施方案中，用于表观遗传靶区组的探针包括用于在转录起始位点的上游和下游的至少100bp、至少200bp、至少300bp、至少400bp、至少500bp、至少750bp或至少1000bp的序列的探针。

v.局部扩增

如以上提及的，虽然局部扩增是体细胞突变，但它们可以通过基于读段频率的测序以类似于检测某些表观遗传改变诸如甲基化改变的方法的方式来检测。因此，如以上讨论的，可以在癌症中显示局部扩增的区域可以被包括在表观遗传靶区组中。在一些实施方案中，对表观遗传靶区组特异性的探针包括对局部扩增特异性的探针。在一些实施方案中，对局部扩增特异性的探针包括对AR、BRAF、CCND1、CCND2、CCNE1、CDK4、CDK6、EGFR、ERBB2、FGFR1、FGFR2、KIT、KRAS、MET、MYC、PDGFRA、PIK3CA和RAF1中的一种或更多种特异性的探针。例如，在一些实施方案中，对局部扩增特异性的探针包括对至少2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个或18个前述靶中的一个或更多个特异性的探针。

vi.对照区

包含对照区以促进数据验证可以是有用的。在一些实施方案中，对表观遗传靶区组特异性的探针包括对预期在基本上所有样品中是甲基化的对照甲基化区特异性的探针。在一些实施方案中，对表观遗传靶区组特异性的探针包括对预期在基本上所有样品中都是低甲基化的对照低甲基化区特异性的探针。

b.对序列可变靶区特异性的探针

用于序列可变靶区组的探针可以包括对已知在癌症中经历体细胞突变的多于一个区域特异性的探针。探针可以对本文描述的任何序列可变靶区组是特异性的。例如，在以上关于捕获组的部分中，本文详细讨论了示例性序列可变靶区组。

在一些实施方案中，序列可变靶区探针组具有至少10kb，例如，至少20kb、至少30kb或至少40kb的足迹。在一些实施方案中，表观遗传靶区探针组具有以下范围内的足迹：10-100kb，例如，10-20kb、20-30kb、30-40kb、40-50kb、50-60kb、60-70kb、70-80kb、80-90kb和90-100kb。

在一些实施方案中，对序列可变靶区组特异性的探针包括对表3的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个或70个基因的至少一部分特异性的探针。在一些实施方案中，对序列可变靶区组特异性的探针包括对表3的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个或70个SNV特异性的探针。在一些实施方案中，对序列可变靶区组特异性的探针包括对表3的至少1个、至少2个、至少3个、至少4个、至少5个或6个融合体特异性的探针。在一些实施方案中，对序列可变靶区组特异性的探针包括对表3的至少1个、至少2个或3个插入缺失的至少一部分特异性的探针。在一些实施方案中，对序列可变靶区组特异性的探针包括对表4的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个、至少70个或73个基因的至少一部分特异性的探针。在一些实施方案中，对序列可变靶区组特异性的探针包括对表4的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个、至少70个或73个SNV特异性的探针。在一些实施方案中，对序列可变靶区组特异性的探针包括对表4的至少1个、至少2个、至少3个、至少4个、至少5个或6个融合体特异性的探针。在一些实施方案中，对序列可变靶区组特异性的探针包括对表4的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个或18个插入缺失的至少一部分特异性的探针。在一些实施方案中，对序列可变靶区组特异性的探针包括对表5的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19或至少20个基因的至少一部分特异性的探针。

在一些实施方案中，对序列可变靶区组特异性的探针包括对来自至少10个、20个、30个或35个癌症相关基因(诸如AKT1、ALK、BRAF、CCND1、CDK2A、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FOXL2、GATA3、GNA11、GNAQ、GNAS、HRAS、IDH1、IDH2、KIT、KRAS、MED12、MET、MYC、NFE2L2、NRAS、PDGFRA、PIK3CA、PPP2R1A、PTEN、RET、STK11、TP53和U2AF1)的靶区特异性的探针。

c.探针的组合物

在一些实施方案中，提供了单一组合物，所述单一组合物包含用于序列可变靶区组的探针和用于表观遗传靶区组的探针。探针可以以本文描述的任何浓度比率提供在这样的组合物中。

在一些实施方案中，提供了包含用于表观遗传靶区组的探针的第一组合物和包含用于序列可变靶区组的探针的第二组合物。第一组合物中探针的浓度与第二组合物中探针的浓度的比率可以是本文描述的任何比率。

2.包含捕获的cfDNA的组合物

在一些实施方案中，提供了包含捕获的cfDNA的组合物。捕获的cfDNA可以具有本文描述的关于捕获组的任何特征，包括，例如，对应于序列可变靶区组的DNA浓度(如以上讨论的针对足迹尺寸归一化)大于对应于表观遗传靶区组的DNA浓度。在一些实施方案中，捕获的组的cfDNA包括序列标签，所述序列标签可以如本文描述添加至cfDNA中。通常，包含序列标签导致cfDNA分子与其天然存在的未加标签的形式不同。

这样的组合物还可以包含本文描述的探针组或测序引物，它们中的每一个可以不同于天然存在的核酸分子。例如，本文描述的探针组可以包含捕获部分，并且测序引物可以包含非天然存在的标记物。

V.计算机系统

本公开内容的方法可以使用或借助于计算机系统来实现。例如，这样的方法可以包括：从测试受试者收集cfDNA；从cfDNA中捕获多于一个靶区组，其中多于一个靶区组包括序列可变靶区组和表观遗传靶区组，从而产生捕获的cfDNA分子组；对捕获的cfDNA分子进行测序，其中序列可变靶区组的捕获的cfDNA分子被测序至比表观遗传靶区组的捕获的cfDNA分子更深的测序深度；获得由核酸测序仪通过对捕获的cfDNA分子进行测序而产生的多于一个序列读段；将多于一个序列读段映射至一个或更多个参考序列以产生映射的序列读段；以及处理对应于序列可变靶区组和表观遗传靶区组的映射的序列读段，以确定受试者具有癌症的可能性。

图2示出了被编程或以其他方式配置成实现本公开内容的方法的计算机系统201。计算机系统201可以控制样品制备、测序和/或分析的各方面。在一些实例中，计算机系统201被配置成执行样品制备和样品分析，包括核酸测序。

计算机系统201包括中央处理单元(CPU，本文中也被为“处理器”和“计算机处理器”)205，其可以是单核或多核处理器或用于并行处理的多于一个处理器。计算机系统201还包括存储器或存储器位置210(例如，随机存取存储器、只读存储器、闪速存储器)、电子存储单元215(例如，硬盘)、用于与一个或更多个其他系统进行通信的通信接口220(例如，网络适配器)和外围设备225，诸如高速缓冲存储器(cache)、其他存储器、数据存储和/或电子显示适配器。存储器210、储存单元215、接口220和外围设备225与CPU 205通过通信网络或总线(实线路)，诸如主板(motherboard)通信。存储单元215可以是用于存储数据的数据存储单元(或数据储存库)。计算机系统201可以借助于通信接口220被可操作地耦合至计算机网络230。计算机网络230可以是互联网、内联网和/或外联网、或与互联网通信的内联网和/或外联网。在一些情况下，计算机网络230为电信和/或数据网络。计算机网络230可以包括一个或更多个计算机服务器，这可以启动分布式计算，诸如云计算。在一些情况下，借助于计算机系统201，计算机网络230可以实现对等网络(peer-to-peer network)，其可以启动耦合至计算机系统201的设备作为客户端或服务器运行。

CPU 205可以执行一系列的机器可读指令，该机器可读指令可以以程序或软件来体现。指令可以被存储于存储器位置，诸如存储器210中。由CPU 205进行的操作的实例可以包括读取、解码、执行和写回。

存储单元215可以存储文件，诸如驱动程序、库和保存的程序。存储单元215可以存储用户生成的程序和记录的会话以及与程序相关的输出。存储单元215可以存储用户数据，例如，用户偏好和用户程序。在一些情况下，计算机系统201可以包括一个或更多个另外的数据存储单元，该另外的数据存储单元在计算机系统201的外部，诸如位于通过内联网或互联网与计算机系统201通信的远程服务器上。可以使用例如通信网络或物理数据传输器(例如，使用硬盘驱动器、拇指驱动器或其他数据存储机制)将数据从一个位置传输到另一个位置。

计算机系统201可以与一个或更多个远程计算机系统通过网络230进行通信。对于实施方案，计算机系统201可以与用户(例如，操作者)的远程计算机系统进行通信。远程计算机系统的实例包括个人计算机(例如，便携式PC)、板式(slate)或平板PC(例如，

iPad、

Galaxy Tab)、电话、智能电话(例如，

iPhone、Android支持的设备、

)或个人数字助手。用户可以经由网络230访问计算机系统201。

如本文描述的方法可以通过机器(例如，计算机处理器)可执行代码的方式实现，该机器可执行代码被存储在计算机系统201的电子存储位置，诸如，例如存储器210或电子存储单元215上。机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间，代码可以由处理器205执行。在一些情况下，代码可以从存储单元215检索并存储在存储器210上，以便于处理器205即时访问。在一些情况下，可以不包括电子存储单元215，而将机器可执行指令存储于存储器210上。

在一个方面，本公开内容提供了一种包括计算机可执行指令的非暂时性计算机可读介质，在由至少一个电子处理器执行时，该非暂时性计算机可执行指令进行方法的至少一部分，该方法包括：从测试受试者收集cfDNA；从cfDNA中捕获多于一个靶区组，其中多于一个靶区组包括序列可变靶区组和表观遗传靶区组，从而产生捕获的cfDNA分子组；对捕获的cfDNA分子进行测序，其中序列可变靶区组的捕获的cfDNA分子被测序至比表观遗传靶区组的捕获的cfDNA分子更深的测序深度；获得由核酸测序仪通过对捕获的cfDNA分子进行测序而产生的多于一个序列读段；将多于一个序列读段映射至一个或更多个参考序列以产生映射的序列读段；以及处理对应于序列可变靶区组和表观遗传靶区组的映射的序列读段，以确定受试者具有癌症的可能性。

代码可以被预编译并配置成用于与具有适于执行该代码的处理器的机器一起使用或可以在运行时间期间被编译。代码可以以编程语言的形式提供，该编程语言可以被选择使得代码能够以预编译的或已编译好(as-compiled)的方式被执行。

本文所提供的系统和方法的各方面，诸如计算机系统201，可以体现在编程中。技术的各方面可以被认为是通常被携带在一种类型的机器可读介质或以一种类型的机器可读介质体现的机器(或处理器)可执行代码和/或相关数据的形式的“产品”或“制品(articles of manufacture)”。机器可执行代码可以被存储于电子存储单元诸如存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等或其相关模块，诸如多种半导体存储器、磁带驱动器、磁盘驱动器等的任一种或全部有形存储器，其可以在任何时间为软件编程提供非暂时性存储。

软件的全部或一部分有时可以通过互联网或多种其他通信网络进行通信。例如，此类通信可以使得将软件从一个计算机或处理器加载到另一个计算机或处理器中，例如，从管理服务器或主机加载到应用服务器的计算机平台中。因此，可以携带软件元件的另一类型的介质包括诸如那些在本地设备之间跨物理接口、通过有线和光纤陆线网络以及在多种空中链路(air-link)上使用的光波、电波和电磁波。携带此类波的物理元件，诸如有线或无线链路、光链路等，也可被认为是携带软件的介质。如本文使用的，除非被限制为非暂时性的、有形的“存储”介质，否则术语诸如计算机或机器“可读介质”是指参与将指令提供至处理器以便执行的任何介质。

因此，机器可读介质，诸如计算机可执行代码，可以采取许多形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括，例如光盘或磁盘，诸如附图中示出的在任何计算机等中的任何存储设备，诸如可以用于实现数据库等。易失性存储介质包括动态存储器，诸如此类计算机平台的主存储器。有形的传输介质包括同轴电缆；铜线和光纤，包括构成计算机系统内的总线的导线。载波传输介质可采取电信号或电磁信号或者声波或光波的形式，诸如在射频(RF)和红外(IR)数据通信期间生成的那些。因此，计算机可读介质的常见形式包括例如：软盘(floppy disk)、软磁盘(flexible disk)、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片、纸带、具有孔模式的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、传输数据或指令的载波、传输此类载波的缆线或链路，或者计算机可以从其读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可以参与将一串或更多串的一个或更多个指令运送至处理器以便执行。

计算机系统201可以包括电子显示器或与之通信，该电子显示器包括用户界面(UI)，以便提供例如样品分析的一个或更多个结果。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。

关于计算机系统和网络、数据库以及计算机程序产品的另外的细节还提供于以下文献中：例如，Peterson,Computer Networks:A Systems Approach,Morgan Kaufmann，第5版(2011)；Kurose,Computer Networking:ATop-Down Approach,Pearson，第7版(2016),Elmasri,Fundamentals of Database Systems,Addison Wesley，第6版(2010),Coronel,Database Systems:Design,Implementation,&Management,Cengage Learning，第11版(2014),Tucker,Programming Languages,McGraw-Hill Science/Engineering/Math，第2版(2006)；和Rhoton,Cloud Computing Architected:Solution Design Handbook,Recursive Press(2011)，将这些中的每一项在此通过引用以其整体并入。

VI.应用

1.癌症和其他疾病

本方法可以用于诊断受试者中状况特别是癌症的存在，以表征状况(例如，对癌症分期或确定癌症的异质性)，监测对状况的治疗的响应，得到发展状况或状况后续进程的预后风险。本公开内容还可以用于确定特定治疗选项的功效。如果治疗成功，则成功的治疗选项可以增加在受试者的血液中检测到的拷贝数变异或稀有突变的量，因为更多的癌症可能死亡并使DNA脱落。在其他实例中，这可能不会发生。在另一个实例中，也许某些治疗选项可能与癌症随时间推移的遗传特征谱相关。这种相关性可以用于选择疗法。

另外，如果观察到癌症在治疗之后缓解，则本方法可以用于监测剩余的疾病或疾病的复发。

在一些实施方案中，本文公开的方法和系统可以基于将核酸变异分类为体细胞来源或种系来源而用于鉴定定制或靶向的疗法以治疗患者的特定疾病或状况。通常，所考虑的疾病是一种类型的癌症。这样的癌症的非限制性实例包括胆道癌、膀胱癌、移行细胞癌、尿路上皮癌、脑癌、神经胶质瘤、星形细胞瘤、乳腺癌、化生癌、宫颈癌、宫颈鳞状细胞癌、直肠癌、结肠直肠癌、结肠癌、遗传性非息肉性结肠直肠癌、结肠腺癌、胃肠间质瘤(GIST)、子宫内膜癌、子宫内膜间质肉瘤、食管癌、食管鳞状细胞癌、食管腺癌、眼黑素瘤、葡萄膜黑素瘤、胆囊癌、胆囊腺癌、肾细胞癌、透明细胞肾细胞癌(clear cell renal cellcarcinoma)、移行细胞癌、尿路上皮癌、肾母细胞瘤、白血病、急性淋巴细胞白血病(ALL)、急性髓性白血病(AML)、慢性淋巴细胞白血病(CLL)、慢性髓性白血病(CML)、慢性粒单核细胞白血病(CMML)、肝癌(liver cancer)、肝上皮癌(liver carcinoma)、肝细胞瘤、肝细胞癌、胆管癌、肝母细胞瘤、肺癌、非小细胞肺癌(NSCLC)、间皮瘤、B细胞淋巴瘤、非霍奇金淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、T细胞淋巴瘤、非霍奇金淋巴瘤、前体T淋巴母细胞淋巴瘤/白血病、外周T细胞淋巴瘤、多发骨髓瘤、鼻咽癌(NPC)、神经母细胞瘤、口咽癌、口腔鳞状细胞癌、骨肉瘤、卵巢癌、胰腺癌、胰腺导管腺癌、假乳头状肿瘤、泡细胞癌。前列腺癌、前列腺腺癌、皮肤癌、黑素瘤、恶性黑素瘤、皮肤黑素瘤、小肠癌、胃癌(stomach cancer)、胃上皮癌(gastric carcinoma)、胃肠间质瘤(GIST)、子宫癌或子宫肉瘤。癌症的类型和/或阶段可以从遗传变异检测，所述遗传变异包括突变、罕见突变、插入缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰中的异常改变、表观遗传模式中的异常改变以及核酸5-甲基胞嘧啶的异常改变。

遗传数据还可以用于表征特定形式的癌症。癌症在组成和分期两方面经常是异质的。遗传特征谱数据可以允许表征癌症的具体亚型，该表征在该具体亚型的诊断或治疗中可能是重要的。该信息还可以为受试者或从业者提供关于癌症的具体类型的预后的线索，并且允许受试者或从业者根据疾病的进展调节治疗选项。一些癌症可以进展变成更具侵袭性和遗传上不稳定的。其他癌症可以保持为良性的、非活动的或休眠的。本公开内容的系统和方法可以用于确定疾病进展。

此外，本公开内容的方法可以用于表征受试者中的异常状况的异质性。这样的方法可以包括例如生成源自受试者的细胞外多核苷酸的遗传特征谱，其中所述遗传特征谱包括由拷贝数变异和稀有突变分析得到的多于一个数据。在一些实施方案中，异常状况是癌症。在一些实施方案中，异常状况可以是导致异质基因组群体的状况。在癌症的实例中，已知一些肿瘤包含处于癌症的不同阶段的肿瘤细胞。在其他实例中，异质性可以包括多于一个疾病病灶。再次，在癌症的实例中，可以存在多于一个肿瘤病灶，或许其中一个或更多个病灶是已从原发部位扩散的转移的结果。

本方法可以用于生成为由异质性疾病中的不同细胞得到的遗传信息的总和的指纹图谱或数据集或对其进行特征分析。该数据集可以包含单独的或组合的拷贝数变异、表观遗传变异和突变分析。

本方法可以用于诊断、预后、监测或观察癌症或其他疾病。在一些实施方案中，本文的方法不涉及诊断、预后或监测胎儿，并且因此不涉及非侵入性产前测试。在其他实施方案中，这些方法可以用于妊娠的受试者，以诊断、预后、监测或观察未出生的受试者的癌症或其他疾病，未出生的受试者的DNA和其他多核苷酸可以与母体分子共循环。

任选地使用本文公开的方法和系统评估的其它基于遗传的疾病、紊乱或状况的非限制性实例包括软骨发育不全、α-1抗胰蛋白酶缺乏症、抗磷脂综合征、孤独症、常染色体显性多囊肾病、夏科-马里-图思病(CMT)、猫叫综合征、克罗恩病、囊性纤维化、Dercum病、唐氏综合征、Duane综合征、杜兴氏肌营养不良症、因子V Leiden易栓症、家族性高胆固醇血症、家族性地中海热、脆性X综合征、戈谢病、血色素沉着病、血友病、全前脑畸形、亨廷顿病、克兰费尔特综合征、马方综合征、强直性肌营养不良、神经纤维瘤病、努南综合征、成骨不全、帕金森病、苯丙酮尿症、Poland异常、卟啉症、早老症、视网膜色素变性、重症联合免疫缺陷病(SCID)、镰状细胞病、脊髓性肌萎缩症、泰-萨克斯病、地中海贫血、三甲基胺尿症、特纳综合征、颚心脸综合征(velocardiofacial syndrome)、WAGR综合征、威尔逊病等。

在一些实施方案中，本文描述的方法包括使用如本文描述获得的序列信息组，在先前被诊断为患有癌症的受试者的先前癌症治疗之后的预选时间点，检测起源于或衍生自肿瘤细胞的DNA的存在或不存在。该方法还可以包括确定癌症复发评分，所述癌症复发评分指示起源于或衍生自测试受试者的肿瘤细胞的DNA的存在或不存在。

在确定了癌症复发分数的情况下，它还可以用于确定癌症复发状态。例如，在癌症复发评分高于预定阈值时，癌症复发状态可能处于癌症复发的风险。例如，在癌症复发评分高于预定阈值时，癌症复发状态可能处于癌症复发低风险或较低风险。在特定实施方案中，等于预定阈值的癌症复发评分可以导致处于癌症复发风险或处于癌症复发低风险或较低风险的癌症复发状态。

在一些实施方案中，将癌症复发评分与预定的癌症复发阈值进行比较，并且在癌症复发评分高于癌症复发阈值时，测试受试者被分类为随后癌症治疗的候选者，或者在癌症复发评分低于癌症复发阈值时，测试受试者不被分类为疗法的候选者。在特定实施方案中，等于癌症复发阈值的癌症复发评分可以导致被分类为随后癌症治疗的候选者或者不被分类为疗法的候选者。

以上讨论的方法还可以包括本文别处(包括在关于确定测试受试者癌症复发风险和/或将测试受试者分类为随后癌症治疗候选者的方法的部分)阐述的任何一个或多于一个兼容特征(any compatible feature or features)。

2.确定测试受试者中癌症复发风险和/或将测试受试者分类为随后癌症治疗候选者的方法

在一些实施方案中，本文提供的方法是确定测试受试者癌症复发风险的方法。在一些实施方案中，本文提供的方法是将测试受试者分类为随后癌症治疗的候选者的方法。

任何这样的方法可以包括在对测试受试者进行一次或更多次先前的癌症治疗之后的一个或更多个预选时间点，从被诊断为患有癌症的测试受试者收集DNA(例如，起源于或衍生自肿瘤细胞)。受试者可以是本文描述的任何受试者。DNA可以是cfDNA。DNA可以从组织样品中获得。

任何这样的方法可以包括从来自受试者的DNA捕获多于一个靶区组，其中多于一个靶区组包括序列可变靶区组和表观遗传靶区组，从而产生捕获的DNA分子组。捕捉步骤可以根据本文别处描述的任何实施方案来进行。

在任何这样的方法中，先前的癌症治疗可以包括手术、施用治疗性组合物和/或化学疗法。

任何这样的方法可以包括对捕获的DNA分子进行测序，从而产生序列信息组。序列可变靶区组的捕获的DNA分子可以被测序至比表观遗传靶区组的捕获的DNA分子更深的测序深度。

任何这样的方法可以包括使用序列信息组检测起源于或衍生自肿瘤细胞的DNA在预选时间点的存在或不存在。起源于或衍生自肿瘤细胞的DNA的存在或不存在的检测可以根据本文别处描述的任何实施方案来进行。

确定测试受试者中癌症复发风险的方法可以包括确定癌症复发评分，所述癌症复发评分指示测试受试者起源于或衍生自肿瘤细胞的DNA的存在或不存在或量。癌症复发评分还可以用于确定癌症复发状态。例如，在癌症复发评分高于预定阈值时，癌症复发状态可能处于癌症复发的风险。例如，在癌症复发评分高于预定阈值时，癌症复发状态可能处于癌症复发低风险或较低风险。在特定实施方案中，等于预定阈值的癌症复发评分可以导致处于癌症复发风险或处于癌症复发低风险或较低风险的癌症复发状态。

将测试受试者分类为随后癌症治疗候选者的方法可以包括将测试受试者的癌症复发评分与预定的癌症复发阈值进行比较，从而在癌症复发评分高于癌症复发阈值时，将测试受试者分类为随后癌症治疗的候选者，或者在癌症复发评分低于癌症复发阈值时，不将测试受试者分类为疗法的候选者。在特定实施方案中，等于癌症复发阈值的癌症复发评分可以导致被分类为随后癌症治疗的候选者或者不被分类为疗法的候选者。在一些实施方案中，随后的癌症治疗包括化学疗法或施用治疗性组合物。

任何这样的方法可以包括基于癌症复发评分确定测试受试者的无病生存期(DFS)时间段；例如，DFS时间段可以是1年、2年、3年、4年、5年或10年。

在一些实施方案中，序列信息组包括序列可变靶区序列，并且确定癌症复发评分可以包括确定指示序列可变靶区序列中存在的SNV、插入/缺失、CNV和/或融合体的量的至少第一分项评分。

在一些实施方案中，选自1、2、3、4或5的序列可变靶区中的突变数量足以使第一分项评分产生分类为癌症复发阳性的癌症复发评分。在一些实施方案中，突变的数量选自1、2或3。

在一些实施方案中，序列信息组包括表观遗传靶区序列，并且确定癌症复发评分包括确定指示表观遗传靶区序列中异常序列读段的量的第二分项评分。异常序列读段可以是指示不同于存在于来自健康受试者的对应样品中的DNA(例如，存在于来自健康受试者的血液样品中的cfDNA，或者存在于来自健康受试者的组织样品中的DNA，其中组织样品与从测试受试者获得的组织类型相同)的表观遗传状态的读段。异常读段可以与癌症相关的表观遗传改变一致，例如，超甲基化可变靶区的甲基化和/或片段化可变靶区的扰动的片段化，其中“扰动”意指不同于存在于来自健康受试者的对应样品中的DNA。

在一些实施方案中，大于或等于0.001％-10％范围内的值的指示超甲基化可变靶区组中的超甲基化和/或片段化可变靶区组中的异常片段化的对应于超甲基化可变靶区组和/或片段化可变靶区组的读段的比例足以将第二分项评分分类为癌症复发阳性。范围可以是0.001％-1％、0.005％-1％、0.01％-5％、0.01％-2％或0.01％-1％。

在一些实施方案中，任何这样的方法可以包括从序列信息组中指示一个或更多个指示起源于肿瘤细胞的特征的读段分数中确定肿瘤DNA的分数。这可以针对对应于一些或所有表观遗传靶区的读段进行，例如，包括超甲基化可变靶区和片段化可变靶区中的一个或两个(超甲基化可变靶区的超甲基化和/或片段化可变靶区的异常片段化可以被认为是起源于肿瘤细胞的指示)。这可以针对对应于序列可变靶区的读段来进行，例如，包含与癌症一致的改变诸如SNV、插入缺失、CNV和/或融合体的读段。肿瘤DNA的分数可以基于对应于表观遗传靶区的读段和对应于序列可变靶区的读段的组合来确定。

癌症复发评分的确定可以至少部分地基于肿瘤DNA的分数，其中大于10^-11至1或10^-10至1范围内的阈值的肿瘤DNA的分数足以将癌症复发评分分类为癌症复发阳性。在一些实施方案中，大于或等于以下范围内的阈值的肿瘤DNA的分数足以将癌症复发评分分类为癌症复发阳性：10^–10至10^–9、10^–9至10^–8、10^–8至10^–7、10^–7至10^–6、10^–6至10^–5、10^–5至10^–4、10^–4至10^–3、10^–3至10^–2或10^–2至10^–1。在一些实施方案中，大于至少10^-7的阈值的肿瘤DNA的分数足以将癌症复发评分分类为癌症复发阳性。可以基于累积概率来确定肿瘤DNA的分数大于阈值，诸如对应于任何前述实施方案的阈值。例如，如果肿瘤分数大于任何前述范围内的阈值的累积概率超过至少0.5、0.75、0.9、0.95、0.98、0.99、0.995或0.999的概率阈值，则认为样品是阳性的。在一些实施方案中，概率阈值是至少0.95，诸如0.99。

在一些实施方案中，序列信息组包括序列可变靶区序列和表观遗传靶区序列，并且确定癌症复发评分包括确定指示序列可变靶区序列中存在的SNV、插入/缺失、CNV和/或融合体的量的第一分项评分和确定指示表观遗传靶区序列中异常序列读段的量的第二分项评分，并且将第一分项评分和第二分项评分组合以提供癌症复发评分。在组合第一分项评分和第二分项评分的情况下，它们可以通过以下来组合：对每个分项评分独立地应用阈值(例如，在序列可变靶区中大于预定数量的突变(例如，>1)，并且在表观遗传靶区中大于预定分数的异常(例如，肿瘤)读段)，或者训练机器学习分类器以基于多于一个阳性和阴性训练样品来确定状态。

在一些实施方案中，-4至2或-3至1范围内的组合评分的值足以将癌症复发评分分类为癌症复发阳性。

在癌症复发评分被分类为癌症复发阳性的任何实施方案中，受试者的癌症复发状态可能处于癌症复发的风险和/或受试者可能被分类为随后癌症治疗的候选者。

在一些实施方案中，癌症是本文别处描述的任何一种类型的癌症，例如，结肠直肠癌。

3.治疗和相关管理

在某些实施方案中，本文公开的方法涉及鉴于核酸变异为体细胞来源或种系来源的状态，鉴定定制疗法并向患者施用定制疗法。在一些实施方案中，基本上任何癌症疗法(例如，手术疗法、放射疗法、化疗疗法和/或类似疗法)可以被包括为这些方法的一部分。通常，定制疗法包括至少一种免疫疗法(或免疫治疗剂)。免疫疗法通常是指增强针对特定癌症类型的免疫应答的方法。在某些实施方案中，免疫疗法是指增强针对肿瘤或癌症的T细胞应答的方法。

在某些实施方案中，来自受试者的样品的核酸变异为体细胞来源或种系来源的状态可以与来自参考群体的比较器结果的数据库进行比较，以鉴定用于该受试者的定制或靶向疗法。通常，参考群体包括与测试的受试者具有相同癌症或疾病类型的患者和/或正在接受或已经接受与测试的受试者相同的疗法的患者。当核酸变体和比较结果满足某些分类标准(例如，基本或近似匹配)时，可以鉴定定制或靶向疗法(或多于一种疗法)。

在某些实施方案中，本文描述的定制疗法通常为胃肠外(例如，静脉内或皮下)施用。包含免疫治疗剂的药物组合物通常被静脉内施用。某些治疗剂是口服施用的。然而，定制疗法(例如，免疫治疗剂等)也可以通过诸如以下的方法被施用：含服、舌下、直肠、阴道、尿道内、局部(topical)、眼内、鼻内和/或耳内，所述施用可以包括片剂、胶囊、颗粒、水性悬浮液、凝胶、喷雾剂、栓剂、油膏(salve)、软膏(ointment)等。

虽然本文已经示出和描述了本发明的优选实施方案，但对于本领域技术人员将明显的是，此类实施方案仅通过示例的方式提供。并不意图本发明限于本说明书中提供的特定实例。虽然已参考以上提及的说明书描述了本发明，但本文实施方案的描述和说明并不意图以限制性的意义来解释。本领域技术人员现将想到不偏离本发明的许多变化、改变和替换。此外，应当理解，本发明的所有方面并不限于本文根据各种条件和变量阐述的具体描述、配置或相对比例。应当理解，在实践本发明时可以采用本文描述的本公开内容的实施方案的各种替代选择。因此设想本公开内容还应涵盖任何此类替代选择、修改、变化或等同物。所附权利要求意图限定本发明的范围，并且从而涵盖在这些权利要求范围内的方法和结构及其等同物。

虽然为了清楚与理解的目的，已经通过图示和实例的方式对前述公开内容进行了一些详细描述，但是本领域普通技术人员通过阅读本公开内容将会清楚，在不偏离本公开内容的真实范围的情况下，可以进行形式和细节上的多种改变，并且可以在所附权利要求书的范围内实施。例如，所有方法、系统、计算机可读介质和/或组件特征、步骤、元件或其他方面可以以多种组合来使用。

本文引用的所有专利、专利申请、网站、其他出版物或文件、登录号等为了所有目的被通过引用以其整体并入，其程度如同每个单独的项目被具体且单独地指示通过引用如此并入一样。如果一个序列的不同版本在不同时间与一个登记号相关联，则意指在本申请的实际提交日期与该登记号相关联的版本。如果适用的话，有效提交日期意指真实提交日期或提及该登记号的优先权申请的提交日期中较早的一个。同样，如果出版物、网站等的不同版本在不同时间发布，则意指在本申请的实际提交日期最近发布的版本，除非另有指示。

VII.实施例

i)用不同浓度的用于序列可变靶区组的探针和用于表观遗传靶区组的探针进行的靶区探针组的表征

该实施例描述了包含用于序列可变靶区组的探针和用于表观遗传靶区组的探针的探针组的性能评估，作为将液体活检cfDNA的表观遗传和基因型分析组合的努力的一部分。

在与靶区探针组接触之前，cfDNA样品通过基于甲基化状态进行分区、末端修复、与衔接子连接来处理，并且通过PCR(例如，使用靶向衔接子的引物)进行扩增。

使处理的样品与靶区探针组接触，该靶区探针组包括用于序列可变靶区组的探针和用于表观遗传靶区组的探针。靶区探针呈被设计为平铺感兴趣区域的生物素化的寡核苷酸形式。用于序列可变靶区组的探针具有约50kb的足迹，并且用于表观遗传靶区组的探针具有约500kb的靶区足迹。用于序列可变靶区组的探针包括靶向表3-表5中鉴定的一系列区域的寡核苷酸，并且用于表观遗传靶区组的探针包括靶向一系列超甲基化可变靶区、低甲基化可变靶区、CTCF结合靶区、转录起始位点靶区、局部扩增靶区和甲基化对照区的寡核苷酸。

然后以这种方式分离的捕获的cfDNA被准备用于测序，并且使用Illumina HiSeq或NovaSeq测序仪进行测序。关于对应于用于序列可变靶区组的探针和用于表观遗传靶区组的探针的序列读段的多样性(序列读段的独特家族的数量)和读段家族尺寸(每个家族中个体读段的数量)分析结果。下文报告的值使用70ng的输入DNA获得。70ng输入被认为是相对高的量，并且代表对于维持期望的多样性水平和家族尺寸的挑战性条件。

2:1和5:1的探针比(表观遗传探针组:序列可变探针组的质量/体积浓度比)给出了序列可变靶区的多样性的降低，表明表观遗传靶区的量导致干扰从序列可变靶区产生预期数量的不同读段家族。

1:2或1:5的探针比(表观遗传探针组:序列可变探针组)给出了序列可变靶区的更高水平的多样性，这通常接近不同读段家族的预期数量，表明以这些比，表观遗传靶区的存在不以明显干扰从序列可变靶区产生不同读段家族的预期数量的量存在。

对于表观遗传靶区，所有比给出明显低于不同读段家族的预期数量的多样性水平。然而，这并不被认为是有问题的，因为表观遗传靶区的甲基化、拷贝数等的分析不需要与确定如意图用于序列可变区的核苷酸取代或插入缺失的存在或不存在相同程度的密集和深度的测序覆盖。

ii)使用组合的表观遗传靶区组和序列可变靶区组检测癌症

如以上描述的，使用以1:5(表观遗传探针组:序列可变探针组)比的探针，对来自具有从I至IVA(总计7个阶段)的不同癌症阶段的癌症患者的cfDNA样品群组进行分析。序列可变靶区序列通过检测基因组改变(诸如SNV、插入、缺失和融合体)来分析，这些改变可以在足够的支持下被判定，以区分真正的肿瘤变体与技术错误。对表观遗传靶区序列进行独立分析，以检测与血细胞相比癌症中已经显示出被差异甲基化的区域中的甲基化片段。最后，将两种分析的结果组合，以产生最终的肿瘤存在/不存在判定，以确定它们是否以95％的特异性显示出与癌症一致的特征。

图3示出了基于单独的或组合的序列可变靶区序列和表观遗传靶区序列检测癌症的灵敏度。对于IIIA期和IIIC期群组，癌症的检测对任一种单独的方法是100％灵敏的。对于除一个以外的所有其他群组，包括表观遗传靶区序列的分析，将灵敏度增加约10％-30％。一个例外是IIB期群组，其中每个样品要么根据两种方法都是真阳性，要么根据两种方法都是假阴性。

因此，所公开的方法和组合物可以提供可用于将表观遗传靶区和序列可变靶区同时测序至不同测序深度的捕获的cfDNA，用于癌症的灵敏的、组合的基于序列和表观遗传的检测。

iii)鉴定结肠直肠癌复发的风险水平

开发并进行了鉴定进行结肠直肠癌(CRC)治疗的患者是否具有高复发风险的测定。血浆样品(3mL至4mL)取自72名经历CRC标准护理治疗的患者(在42例中手术+/-新辅助疗法，在30中例辅助疗法+/-新辅助疗法)。

从样品中提取cfDNA(中值量为27ng)，并且使用基本上如本文描述的方法进行分析，该方法在早期CRC中得到验证，并且整合了指示癌症的基因组改变和表观基因组特征(包括超甲基化可变靶区)的评估。该方法在肿瘤组织无信息方法(LUNAR assay,GuardantHealth,CA)中区分肿瘤衍生的改变与非肿瘤衍生的改变(例如不确定潜能的种系或克隆造血(CHIP)改变)。该测定使用单一输入样品，并且将基因组改变的检测与癌症相关表观基因组信号的定量整合，并且使用来自50-75岁假定无癌症供体的80份血浆样品进行验证，并且导致单一假阳性(99％特异性)。分析灵敏度(检测极限)使用4名不同晚期CRC患者的稀释系列建立，跨越多个批次以临床相关联的DNA输入(30ng)进行一式三份测试。即使在最低测试水平(估计为0.1％肿瘤水平)，也能维持100％的灵敏度。

完成SOC疗法后，在手术切除之后中值31天(N＝42)或在辅助疗法完成之后中值37天(N＝27)收集血浆样品。中值随访时间为515天(33-938天)。如果检测到指示癌症的基因组改变或表观基因组改变，则认为样品的ctDNA呈阳性。基因组改变使用Guardant Health的数字测序平台检测，以区分真正的突变与测序错误。应用变体过滤器来区分肿瘤突变与非肿瘤突变(诸如CHIP)。表观基因组判定是基于测量肿瘤超甲基化区域中观察到的甲基化率是否高于基于血液中甲基化水平的预期。特别地，在该实施方案中，如果检测到的指示癌症的基因组改变的数量超过阈值，则基因组结果被认为是阳性的，其中阈值是1个、2个或3个改变。表观基因组结果包括甲基化分析，以确定指示超甲基化可变靶区组中超甲基化的读段比例。总体“肿瘤分数”还基于具有基于甲基化的肿瘤样特征的读段的总体比例来计算，并且如果肿瘤分数大于或等于10^-7的累积概率超过0.99的概率阈值，则样品被认为呈阳性。总计14个样品呈阳性，其中10个样品的表观基因组和基因组分支(prong)二者均呈阳性，仅3个样品的表观基因组分支呈阳性，并且仅1个样品的基因组分支呈阳性。

7/11名手术后1年复发的患者在CRC切除术之后检测到的ctDNA呈阳性。30/31名手术后1年无复发的患者在CRC切除术后ctDNA呈阴性。20/22名辅助疗法后1年无复发的患者在完成SOC辅助疗法后ctDNA呈阴性。4/5名辅助疗法后1年复发的患者在完成SOC辅助疗法后ctDNA呈阳性。总体，完成标准护理疗法之后的ctDNA检测具有100％的复发阳性预测值(PPV)、76％的阴性预测值(NPV)和9.22的复发风险比(p<0.0001)(图4)。

仅基因组分支和使用基因组和表观基因组分支的综合分析的测定性能统计总结于下表中。

表6

基因组测序与表观基因组分析的群组结果。在完成SOC疗法之后ctDNA呈阳性的14名患者中，10名通过基因组和表观基因组评估均呈阳性。

在手术群组中，ctDNA检测具有100％的复发阳性预测值(PPV)、76％的阴性预测值(NPV)和8.7的复发风险比(p<0.0001)。在辅助疗法群组中，ctDNA检测具有100％的复发PPV、76％的NPV和9.3的复发风险比(p<0.0001)。

在疗法完成后ctDNA阴性的患者根据他们在疗法之前ctDNA是阳性还是阴性进行进一步分类。在疗法之前为阳性而疗法之后为阴性的患者被称为“清除”患者，而疗法之前和之后为阴性的患者被称为“阴性”患者。清除的群体包含6个个体，其中3人复发，并且3人未复发。阴性群体包含26个个体，其中7人复发，并且19人未复发。

因此，在切除的CRC中，仅利用血浆的ctDNA检测、无肿瘤信息的(tumoruninformed)整合基因组和表观基因组测定在完成标准护理疗法后具有高复发PPV和NPV。在切除后的情形中，ctDNA检测鉴定可能受益于辅助疗法的患者。在辅助疗法完成之后，ctDNA检测鉴定可能受益于另外的疗法或改良疗法的患者。这些发现表明，来自切除后或辅助疗法后单次抽血的ctDNA可以鉴定高风险患者，并且为治疗决策提供信息。相比之下，目前的ctDNA残留疾病检测方法仅评估基因组改变，受低水平ctDNA的限制，并且依赖于肿瘤组织测序来区分肿瘤衍生的改变与混杂的非肿瘤衍生的改变(例如，不确定潜能的克隆造血；CHIP)。

Claims

1.一种分离无细胞DNA(cfDNA)的方法，所述方法包括：

捕获从测试受试者获得的cfDNA的多于一个靶区组，

其中所述多于一个靶区组包括序列可变靶区组和表观遗传靶区组，从而产生捕获的cfDNA分子组；其中在所述捕获的cfDNA分子组中,对应于所述序列可变靶区组的cfDNA分子以比对应于所述表观遗传靶区组的cfDNA分子更高的捕获产量被捕获。

2.一种分离无细胞DNA(cfDNA)的方法，所述方法包括：

使从测试受试者获得的cfDNA与靶特异性探针组接触，

其中所述靶特异性探针组包括对序列可变靶区组特异性的靶结合探针和对表观遗传靶区组特异性的靶结合探针，并且所述靶特异性探针组被配置为以比对应于所述表观遗传靶区组的cfDNA更高的捕获产量捕获对应于所述序列可变靶区组的cfDNA，从而形成靶特异性探针和cfDNA的复合物；并且

3.根据权利要求1或2所述的方法，所述方法还包括将所述捕获的cfDNA分子组测序至比对应于所述表观遗传靶区组的cfDNA分子更深的测序深度。

4.一种鉴定由肿瘤产生的DNA的存在的方法，所述方法包括：

从测试受试者收集cfDNA，

从所述cfDNA中捕获多于一个靶区组，

对所述捕获的cfDNA分子进行测序，

5.根据权利要求3-4中任一项所述的方法，其中所述序列可变靶区组的捕获的cfDNA分子被测序至比所述表观遗传靶区组的捕获的cfDNA分子深至少2倍的测序深度。

6.根据权利要求3-5中任一项所述的方法，其中在测序之前，将所述序列可变靶区组的捕获的cfDNA分子与所述表观遗传靶区组的捕获的cfDNA分子汇集。

7.根据权利要求3-6中任一项所述的方法，其中在同一测序池中对所述序列可变靶区组的捕获的cfDNA分子和所述表观遗传靶区组的捕获的cfDNA分子进行测序。

8.根据前述权利要求中任一项所述的方法，其中所述cfDNA在捕获之前被扩增，任选地，其中所述cfDNA扩增包括将包含条形码的衔接子与所述cfDNA连接的步骤。

9.根据前述权利要求中任一项所述的方法，其中所述表观遗传靶区组包括超甲基化可变靶区组。

10.根据前述权利要求中任一项所述的方法，其中所述表观遗传靶区组包括低甲基化可变靶区组。

11.根据前述权利要求中任一项所述的方法，其中所述表观遗传靶区组包括片段化可变靶区组。

12.根据权利要求11所述的方法，其中所述片段化可变靶区组包括转录起始位点区。

13.根据权利要求11或12所述的方法，其中所述片段化可变靶区组包括CTCF结合区。

14.根据前述权利要求中任一项所述的方法，其中捕获所述cfDNA的多于一个靶区组包括使所述cfDNA与对所述序列可变靶区组特异性的靶结合探针和对所述表观遗传靶区组特异性的靶结合探针接触。

15.根据权利要求14所述的方法，其中对所述序列可变靶区组特异性的靶结合探针以比对所述表观遗传靶区组特异性的靶结合探针更高的浓度存在。

16.根据权利要求14所述的方法，其中对所述序列可变靶区组特异性的靶结合探针以比对所述表观遗传靶区组特异性的靶结合探针高至少4倍或5倍的浓度存在。

17.根据前述权利要求中任一项所述的方法，其中所述表观遗传靶区组的足迹比所述序列可变靶区组的尺寸大至少2倍。

18.根据权利要求17所述的方法，其中所述表观遗传靶区组的足迹比所述序列可变靶区组的尺寸大至少10倍。

19.根据前述权利要求中任一项所述的方法，其中从所述测试受试者获得的cfDNA基于甲基化水平被分区为至少2个级分，并且对每个级分进行所述方法的随后步骤。

20.根据权利要求19所述的方法，其中所述至少2个级分包括超甲基化级分和低甲基化级分，并且所述方法还包括将所述超甲基化级分和所述低甲基化级分差异加标签或者对所述超甲基化级分和所述低甲基化级分单独地测序。

21.根据权利要求20所述的方法，其中所述超甲基化级分和所述低甲基化级分被差异加标签，并且所述方法还包括在测序步骤之前汇集差异加标签的超甲基化级分和低甲基化级分。

22.根据前述权利要求中任一项所述的方法，所述方法还包括确定对应于所述序列可变靶区组的cfDNA分子是否包含癌症相关突变。

23.根据前述权利要求中任一项所述的方法，所述方法还包括确定对应于所述表观遗传靶区组的cfDNA分子是否包含或指示癌症相关表观遗传修饰或拷贝数变异(例如，聚焦扩增)，任选地，其中所述方法包括确定对应于所述表观遗传靶区组的cfDNA分子是否包含或指示癌症相关表观遗传修饰和拷贝数变异(例如，聚焦扩增)。

24.根据权利要求23所述的方法，其中所述癌症相关表观遗传修饰包括一个或更多个超甲基化可变靶区中的超甲基化。

25.根据权利要求23或24所述的方法，其中所述癌症相关表观遗传修饰包括CTCF结合的一个或更多个扰动。

26.根据权利要求23-25中任一项所述的方法，其中所述癌症相关表观遗传修饰包括转录起始位点的一个或更多个扰动。

27.一种靶特异性探针的集合，所述靶特异性探针的集合用于捕获由肿瘤细胞产生的cfDNA，所述靶特异性探针的集合包含对序列可变靶区组特异性的靶结合探针和对表观遗传靶区组特异性的靶结合探针，其中对所述序列可变靶区组特异性的靶结合探针的捕获产量比对所述表观遗传靶区组特异性的靶结合探针的捕获产量高至少2倍。

28.根据权利要求27所述的靶特异性探针的集合，其中对所述序列可变靶区组特异性的靶结合探针的捕获产量比对所述表观遗传靶区组特异性的靶结合探针的捕获产量高至少4倍或5倍。

29.根据权利要求27或28所述的靶特异性探针的集合，其中所述表观遗传靶区组包括超甲基化可变靶区探针组。

30.根据权利要求27-30中任一项所述的靶特异性探针的集合，其中所述表观遗传靶区组包括低甲基化可变靶区探针组。

31.根据权利要求27-30中任一项所述的靶特异性探针的集合，其中所述表观遗传靶区探针组包括片段化可变靶区探针组。

32.根据权利要求31所述的靶特异性探针的集合，其中所述片段化可变靶区探针组包括转录起始位点区探针。

33.根据权利要求31或32所述的靶特异性探针的集合，其中所述片段化可变靶区探针组包括CTCF结合区探针。

34.根据权利要求27-33中任一项所述的靶特异性探针的集合，其中在所述序列可变靶区组中存在至少10个区域，并且在所述表观遗传靶区组中存在至少100个区域。

35.根据权利要求27-34中任一项所述的靶特异性探针的集合，其中所述表观遗传靶区组的足迹比所述序列可变靶区组的尺寸大至少2倍。

36.根据权利要求35所述的靶特异性探针的集合，其中所述表观遗传靶区组的足迹比所述序列可变靶区组的尺寸大至少10倍。

37.根据权利要求27-36中任一项所述的靶特异性探针的集合，其中所述序列可变靶区组的足迹是至少25kB或50kB。

38.根据权利要求27-37中任一项所述的靶特异性探针的集合，其中所述探针存在于单一溶液中。

39.一种组合物，所述组合物包含捕获的cfDNA，其中所述捕获的cfDNA包括捕获的序列可变靶区和捕获的表观遗传靶区，并且所述序列可变靶区的浓度大于所述表观遗传靶区的浓度，其中所述浓度针对所述序列可变靶区和所述表观遗传靶区的足迹尺寸进行归一化。

40.根据权利要求39所述的组合物，其中所述捕获的cfDNA包含序列标签。

41.根据权利要求39-40中任一项所述的组合物，其中所述序列可变靶区的浓度比所述表观遗传靶区的浓度大至少4倍或5倍。

42.根据权利要求39-41中任一项所述的组合物，其中所述表观遗传靶区包括超甲基化可变靶区；低甲基化可变靶区；转录起始位点区；和CTCF结合区中的一种、两种、三种或四种；任选地，其中所述表观遗传靶区还包括甲基化对照靶区。

43.一种确定受试者具有癌症的可能性的方法，所述方法包括：

a.从测试受试者收集cfDNA；

b.从所述cfDNA中捕获多于一个靶区组；

c.对所述捕获的cfDNA分子进行测序，

d.获得由核酸测序仪通过对所述捕获的cfDNA分子进行测序而产生的多于一个序列读段；

e.将所述多于一个序列读段映射至一个或更多个参考序列以产生映射的序列读段；

f.处理对应于所述序列可变靶区组和所述表观遗传靶区组的映射的序列读段，以确定所述受试者具有癌症的可能性。

44.一种系统，所述系统包括：

45.根据权利要求1-26中任一项所述的方法，其中所述测试受试者先前被诊断为患有癌症并接收了一种或更多种先前的癌症治疗，任选地，其中所述cfDNA在所述一种或更多种先前的癌症治疗之后的一个或更多个预选时间点获得，并且对所述捕获的cfDNA分子组进行测序，从而产生序列信息组。

46.根据前一项权利要求所述的方法，其中所述序列可变靶区组的捕获的DNA分子被测序至比所述表观遗传靶区组的捕获的DNA分子更深的测序深度。

47.根据权利要求46或46所述的方法，所述方法还包括使用所述序列信息组检测起源于或衍生自肿瘤细胞的DNA在预选时间点的存在或不存在。

48.根据前一项权利要求所述的方法，所述方法还包括确定癌症复发评分，所述癌症复发评分指示起源于或衍生自所述测试受试者的肿瘤细胞的DNA的存在或不存在，任选地还包括基于所述癌症复发评分确定癌症复发状态，其中在癌症复发评分被确定为处于或高于预定阈值时，所述测试受试者的癌症复发状态被确定为处于癌症复发风险，或者在所述癌症复发评分低于所述预定阈值时，所述测试受试者的癌症复发状态被确定为处于较低的癌症复发风险。

49.根据权利要求48所述的方法，所述方法还包括将所述测试受试者的癌症复发评分与预定的癌症复发阈值进行比较，并且在所述癌症复发评分高于所述癌症复发阈值时，所述测试受试者被分类为随后癌症治疗的候选者，或者在所述癌症复发评分低于所述癌症复发阈值时，所述测试受试者不被分类为随后癌症治疗的候选者。

50.一种确定测试受试者中癌症复发风险的方法，所述方法包括：

51.一种将测试受试者分类为随后癌症治疗候选者的方法，所述方法包括：

52.根据权利要求50-51中任一项所述的方法，其中起源于或衍生自肿瘤细胞的DNA是无细胞DNA。

53.根据权利要求48-52中任一项所述的方法，所述方法还包括基于所述癌症复发评分确定所述测试受试者的无病生存期(DFS)时间段。

54.根据权利要求45-53中任一项所述的方法，其中所述序列信息组包括序列可变靶区序列，并且确定所述癌症复发评分包括确定指示序列可变靶区序列中存在的SNV、插入/缺失、CNV和/或融合体的量的至少第一分项评分。

55.根据权利要求45-54中任一项所述的方法，其中所述序列信息组包括表观遗传靶区序列，并且确定所述癌症复发评分包括确定指示所述表观遗传靶区序列中异常序列读段的量的第二分项评分。

56.根据权利要求45-55中任一项所述的方法，所述方法还包括从所述序列信息组中的读段分数中确定指示一个或更多个指示起源于肿瘤细胞的特征的肿瘤DNA的分数。

57.根据权利要求56所述的方法，所述方法还包括至少部分地基于肿瘤DNA的分数来确定癌症复发评分，其中大于或等于10^-11至1或10^-10至1范围内的预定值的肿瘤DNA的分数足以将所述癌症复发评分分类为癌症复发阳性。

58.根据权利要求45-57中任一项所述的方法，其中所述序列信息组包括序列可变靶区序列和表观遗传靶区序列，并且确定所述癌症复发评分包括确定指示序列可变靶区序列中存在的SNV、插入/缺失、CNV和/或融合体的量的第一分项评分和确定指示表观遗传靶区序列中异常序列读段的量的第二分项评分，并且将所述第一分项评分和所述第二分项评分组合以提供所述癌症复发评分。

59.根据权利要求58所述的方法，其中将所述第一分项评分和所述第二分项评分组合包括对每个分项评分独立地应用阈值(例如，在序列可变靶区中大于预定数量的突变(例如，>1)，并且在表观遗传靶区中大于预定分数的异常(例如，肿瘤)读段)，或者训练机器学习分类器以基于多于一个阳性和阴性训练样品来确定状态。