CN113366577A

CN113366577A - 通过片段尺寸分析增强的对靶dna的检测

Info

Publication number: CN113366577A
Application number: CN201980087973.4A
Authority: CN
Inventors: 弗洛伦特·穆利埃; 迪尼卡·钱德拉南达; 安娜·皮斯科日; 詹姆士·布伦顿; 尼灿·罗森菲尔德
Original assignee: Cancer Research Technology Ltd
Current assignee: Cancer Research Technology Ltd
Priority date: 2018-11-07
Filing date: 2019-11-07
Publication date: 2021-09-07
Also published as: WO2020094775A1; CA3118610A1; US20230014674A1; GB201818159D0; EP3877980A1

Abstract

本发明提供了用于从含无细胞核酸的样品中检测变体核酸的计算机执行方法。所述方法包括(a)提供表示从所述样品获得的核酸片段之片段尺寸的数据和/或表示从所述样品获得的核酸片段中距拷贝数中立点之偏差的量度的数据；b)根据分类算法处理来自步骤a)的数据，其中基于多个无细胞核酸片段尺寸特征和/或距拷贝数中立点之偏差特征，所述分类算法的运行将样品数据分类为至少以下之一：包含所述变体核酸的第一类别和不包含所述变体核酸的第二类别；以及c)输出来自步骤b的所述样品的分类，由此确定所述样品是否包含所述变体核酸，或者所述样品包含所述变体核酸的概率。还提供了相关方法。

Description

通过片段尺寸分析增强的对靶DNA的检测

技术领域

本发明部分地涉及用于从例如无细胞DNA(cell-free DNA，cfDNA)来源(例如血浆或其他生物流体)检测靶DNA，例如循环肿瘤DNA(circulating tumour DNA，ctDNA)的存在的方法。特别地，本发明的方法可用于癌症的诊断、治疗并且特别是监测。

背景技术

癌症患者的血浆含有循环肿瘤DNA(ctDNA)，但这一有价值的信息来源被大得多数量的非癌来源DNA淡化：因此，ctDNA仅占总无细胞DNA(cfDNA)的一小部分(1，2)。选定基因组区域的高深度靶向测序可用于检测低水平的ctDNA，但用方法例如全外显子组测序(whole exome sequencing，WES)和浅层全基因组测序(shallow whole genomesequencing，sWGS)进行的更广泛的分析通常仅在ctDNA水平为约10％或更大时具有信息性(3-5)。患有晚期癌症的患者中的ctDNA浓度可超过总cfDNA的10％(6-8)，但是在患有低肿瘤负担的患者中(9-12)和患有一些癌症类型例如胶质瘤和肾癌的患者中(6)要低得多。目前提高ctDNA检测的策略依赖于与多种误差校正方法相结合而提高测序深度(2，13，14)。然而，仅集中于突变分析的方法没有利用ctDNA中染色质组织或片段尺寸的潜在差异(15-17)。越来越深入的测序结果也因非癌细胞突变或正常上皮细胞克隆性扩增或不确定潜能的克隆性造血(clonal hematopoiesis of indeterminate potential，CHIP)的检测的假阳性结果的可能性而混淆(13，18，19)。

来源细胞和cfDNA释放到血液中的机制可用特定的片段化特征标记cfDNA，潜在地提供有关细胞类型、基因表达、致癌潜力或治疗作用的准确信息(15，16，20)。cfDNA片段通常在167bp处显示出突出的模式，表明从凋亡胱天蛋白酶依赖性切割中释放(21-24)。已显示循环胎儿DNA比血浆中的母体DNA更短，并且这些尺寸差异已被用于提高非侵入性产前诊断的灵敏度(22，25-27)。仅在涵盖少量癌症类型和患者的少数研究中探究了肿瘤来源cfDNA的尺寸分布，并显示出相互矛盾的结果(28-33)。先前研究的限制在于，确定肿瘤来源DNA片段的具体尺寸需要详细表征匹配的肿瘤来源改变(30，33)，并且先前尚未对潜在生物学差异的更广泛理解和影响进行探索。Mouliere，Pikorz，Chandrananda，Moore et al.，2017，BioRxiv Preprint，doi：http：//dx.doi.org/10.1101/134437报道，在患有复发性高级别浆液性卵巢癌的患者中选择血浆中的短片段提高了循环肿瘤DNA(ctDNA)的检测。

尽管ctDNA检测在癌症护理领域显示出了前景，但对于在ctDNA检测的情况下使信噪比最大化的方法和系统仍存在未满足的需求。相关问题是需要区分体细胞癌突变与非癌细胞中存在的突变、正常上皮细胞的克隆性扩增或CHIP。本发明试图为这些需求提供解决方案并提供进一步的相关优点。

发明内容

本发明人假设可利用循环DNA片段长度的差异来增强检测ctDNA存在和癌症的非侵入性基因组分析的灵敏度。如本文中详细描述的，对尺寸选择的cfDNA的分析确定了在其他情况下检测不到的临床上可操作的突变和拷贝数改变。通过这样的预测模型提高了对患有晚期癌症的患者的鉴定：与在没有片段特征的情况下AUC＜0.80相比，其整合了AUC＞0.99的cfDNA的片段长度和拷贝数分析。与在没有片段化特征的情况下AUC＜0.5相比，提高对来自患有胶质瘤、肾癌和胰腺癌患者的患者的ctDNA的检测在AUC＞0.91的情况下实现。对来自不转移到中枢神经系统(central nervous system，CNS)以外的胶质瘤的ctDNA的检测先前被报道非常具有挑战性(6)。片段尺寸分析和特定片段尺寸的选择性测序可促进ctDNA检测，并且可以是用于临床应用、早期诊断和研究肿瘤生物学的更深入突变测序的替代方案。

因此，在第一方面中，本发明提供了用于从含无细胞核酸(例如DNA或RNA)样品检测变体核酸(例如DNA或RNA)的计算机执行方法，其包括：

a)提供表示从所述样品获得的核酸片段之片段尺寸的数据和/或表示从所述样品获得的核酸片段中距拷贝数中立点(copy number neutrality)之偏差的量度的数据；

b)根据分类算法使计算机的处理器处理来自步骤a)的数据，所述分类算法已在包含含有变体核酸的多个无细胞核酸样品和不包含变体核酸的多个样品的训练集上进行了训练，其中基于多个无细胞核酸片段尺寸特征和/或距拷贝数中立点之偏差特征，所述分类算法的运行将样品数据分类为至少两个类别之一，所述至少两个类别包含含有变体核酸的第一类别和不包含变体核酸的第二类别；以及

c)输出来自步骤b)的样品的分类，并由此确定样品是否包含变体核酸，或者确定样品包含变体核酸的概率。

在一些实施方案中，含无细胞核酸的样品是含无细胞DNA(cfDNA)样品，并且其中变体核酸是变体DNA。特别地，变体DNA可选自：循环肿瘤DNA(ctDNA)、循环细菌DNA、循环病原体DNA、循环线粒体DNA、循环胎儿DNA、来源于供体器官或供体组织的循环DNA、由生理改变的组织或细胞释放的循环DNA、循环染色体外DNA和双微体环状DNA。在一个特别优选的实施方案中，变体DNA是ctDNA。

在一些实施方案中，表示核酸片段(例如DNA或RNA片段)的片段尺寸的数据包含从序列读段中推断出的片段尺寸、通过荧光法确定的片段尺寸或通过光密度法确定的片段尺寸。

在一些实施方案中，本发明提供了用于从含无细胞DNA(cfDNA)样品检测变体DNA的计算机执行方法，其包括：

a)提供表示从所述样品获得的cfDNA片段之片段尺寸的序列数据和/或表示从所述样品获得的cfDNA片段中距拷贝数中立点之偏差的量度的序列数据；

b)根据分类算法使计算机的处理器处理来自步骤a)的序列数据，所述分类算法已在包含含有变体DNA的多个cfDNA样品和不包含变体DNA的多个样品的训练集上进行了训练，其中基于多个cfDNA片段尺寸特征和/或距拷贝数中立点之偏差特征，所述分类算法的运行将样品数据分类为至少两个类别之一，所述至少两个类别包含含有变体DNA的第一类别和不包含变体DNA的第二类别；以及

c)输出来自步骤b)的样品的分类，并由此确定样品是否包含变体DNA，或者确定样品包含变体DNA的概率。如在本文实施例中所描述的，分类算法可从cfDNA片段化特征和体细胞拷贝数改变(somatic copy number alteration，SCNA)分析中学习，并用相对较低的成本和浅层测序方法提高对ctDNA的检测。此外，可利用cfDNA片段化特征和/或SCNA分析对癌症和健康样品进行高精度分类。

在一些实施方案中，分类算法的运行至少基于选自以下的多个cfDNA片段尺寸特征将样品数据分类为所述至少两个、三个、四个或至少五个类别之一：

(i)尺寸范围为20至150bp的片段比例(P20至150)；

(ii)尺寸范围为100至150bp的片段比例(P100至150)；

(iii)尺寸范围为160至180bp的片段比例(P160至180)；

(iv)尺寸范围为180至220bp的片段比例(P180至220)；

(v)尺寸范围为250至320bp的片段比例(P250至320)；

(vi)比例P(20至150)/P(160至180)的比值；

(vii)比例P(100至150)除以尺寸范围为163至169bp的片段比例的比值；

(viii)比例P(20至150)/P180至220)的比值；以及

(ix)片段尺寸密度中具有10bp周期性的幅度振荡。应理解，在步骤a)中表示cfDNA片段之片段尺寸的序列数据包含分类算法所使用的cfDNA片段尺寸特征。

在一些实施方案中，多个cfDNA片段尺寸特征包含：P(160至180)、P(180至220)、P(250至320)和片段尺寸密度中具有10bp周期性的幅度振荡。如本文实施例中所描述的，线性和非线性机器学习算法二者均独立鉴定相同的四个片段尺寸特征P(160至180)、P(180至220)、P(250至320)和片段尺寸密度中具有10bp周期性的幅度振荡，以及SCNA特征(即距拷贝数中立点的经修整中值绝对偏差(t-MAD)得分)，尽管在特征的等级顺序方面具有一些差异。仅使用四个片段化特征就获得了高精度的分类(参见图26)。

在一些实施方案中，至少基于距拷贝数中立点之偏差特征分类算法的运行将样品数据分类为所述至少两个类别之一，所述距拷贝数中立点之偏差是距拷贝数中立点的经修整中值绝对偏差(t-MAD)得分或ichorCNA特征。

ichorCNA是用于从超低通全基因组测序(ultra-low-pass whole genomesequencing，ULP-WGS，0.1×覆盖度)估算无细胞DNA中肿瘤分数的工具。ichorCNA的代码可在以下URL获得：https：//github.com/broadinstitute/ichorCNA。ichorCNA使用作为隐马尔可夫模型(hidden Markov model，HMM)执行的概率模型来同时分割基因组、预测大规模的拷贝数变化并估计超低通全基因组测序(ULP-WGS)样品的肿瘤分数。方法学和概率模型描述于：Adalsteinsson，Ha，Freeman，et al.Scalable whole-exome sequencing ofcell-free DNA reveals high concordance with metastatic tumors.(2017)NatureCommunications Nov 6；8(1)：1324.doi：10.1038/s41467-017-00965-y(其内容通过引用并入本文)。分析工作流由2项任务组成：

GC含量偏差校正(使用HMMcopy)

a.从ULP-WGS计算读段覆盖度

b.数据校正和归一化

cfDNA肿瘤分数的CNA预测和估计。

特别地，当距拷贝数中立点之偏差特征包含t-MAD得分时，所述得分可通过以下来确定：对在来源于健康对象的全基因组数据集中显示高拷贝数变异性的基因组区域进行修整，并随后计算基因组的非修整区域中距log₂R＝0的中值绝对偏差。

在根据本发明的一些实施方案中，分类算法进行随机森林(random forests，RF)分析、逻辑回归(logistic regression，LR)分析或支持向量机(support vector machine，SVM)分析。分类算法可提供作为正确分类概率(例如，根据已在其上训练分类算法的训练集，所讨论的样品已被正确分类为健康类别或癌症类别的概率)的输出。

在一些实施方案中，当在训练集上训练时分类算法的性能通过接收者操作特征(receiver operating characteristic，ROC)分析的曲线下面积(area under the curve，AUC)值来评估。通常选择显示最高AUC值的分类算法模型作为具有最佳性能的分类算法模型。

在一些实施方案中，分类算法已在训练集上进行了训练，所述训练集包含来自健康对象的至少10、20、30、40或至少50个样品和来自已知患有癌症的对象的至少10、20、30、40或至少50个样品。特别地，训练集中采用的样品可以是表2中所示的那些。

在一些实施方案中，在步骤a)中提供的序列数据表示全基因组序列(WGS)读段、定制组测序(Tailored Panel Sequencing，TAPAS)序列读段、变体读段整合(Integration ofVariant Read，INVAR)TAPAS(参见2018年3月6日提交的共同未决专利申请GB1803596.4，其通过引用并入本文)、杂交捕获序列读段、标记扩增子深度测序(TAm-Seq)读段、聚焦外显子组序列读段或全外显子组序列读段。特别地，在步骤a)中提供的序列数据可表示浅层全基因组序列(shallow whole-genome sequence，sWGS)读段，任选地为0.4×深度的WGS读段。

在一些实施方案中，在步骤a)中提供的数据表示来自患有或怀疑患有癌症的对象的基本上无细胞液体样品的多个核酸片段(例如DNA片段)的片段尺寸。

在一些实施方案中，在步骤a)中提供的序列数据表示来自患有或怀疑患有癌症的对象的基本上无细胞液体样品的多个DNA片段的序列读段。

在一些实施方案中，癌症可选自黑素瘤、肺癌、胆管癌、膀胱癌、食管癌、结直肠癌、卵巢癌、胶质瘤、胰腺癌、肾癌和乳腺癌。

在一些实施方案中，样品是血浆样品、尿样品、唾液样品、脑脊液样品、血清样品或其他含核酸(例如含DNA)生物液体样品。

在一些实施方案中，其中变体DNA是ctDNA，该方法用于在从中获得样品的对象中检测癌症的存在、生长、预后、消退、治疗响应或复发。

在一些实施方案中，样品中ctDNA的存在是与含有非癌来源的体细胞突变的cfDNA区分开的。本文中特别考虑了在每个读段上包含片段尺寸信息可增强来自高深度测序的突变调用算法，以便区分肿瘤来源突变与其他来源的体细胞变体(包括非癌细胞的克隆性扩增)或背景测序噪声。在某些实施方案中，该方法可区分表示正常上皮细胞的克隆性扩增或不确定潜能的克隆性造血(CHIP)的变体序列读段与表示ctDNA的变体序列读段。

在某些实施方案中，在步骤a)中提供的片段尺寸数据表示来自对象的基本上无细胞液体样品的多个DNA片段的序列读段，并且其中该方法用于确定样品是包含ctDNA还是包含来自CHIP的cfDNA。特别地，分类算法可以已在训练集上进行了训练，所述训练集还包含从患有CHIP的对象获得的多个cfDNA样品，并且其中基于多个cfDNA片段尺寸特征和/或距拷贝数中立点之偏差特征，所述至少两个类别还包含含有CHIP来源的cfDNA的第三类别。

在第二个方面中，本发明提供了用于从含无细胞核酸的样品中检测变体核酸的方法，其包括：

对含无细胞核酸的样品或来源于含无细胞核酸的样品的文库进行分析，以确定所述样品或所述文库中核酸片段的片段尺寸，其中样品是从对象获得的；以及

使用片段尺寸执行本发明的第一方面的方法。

在一些实施方案中，所述分析包括：

对来自含核酸样品或文库的核酸进行测序并从序列读段中推断出片段尺寸；

通过荧光法测量来自含核酸样品或文库的核酸的片段尺寸；和/或

通过光密度法测量来自含核酸样品或文库的核酸的片段尺寸。

在一些实施方案中，本发明提供了用于从含无细胞DNA(cfDNA)样品检测变体DNA的方法，其包括：

对已从对象获得的含cfDNA样品或来源于含cfDNA样品的文库进行测序，以获得多个序列读段；

对序列读段进行处理以确定表示从所述样品获得的cfDNA片段之片段尺寸的序列数据和/或表示从所述样品获得的cfDNA片段中距拷贝数中立点之偏差的量度的序列数据；以及

使用序列数据执行本发明的第一方面的方法。

在一些实施方案中，测序包括产生来自样品的测序文库并进行全基因组测序、定制组测序(TAPAS)测序、杂交捕获测序、TAm-Seq测序、聚焦外显子组测序或全外显子组测序，任选地产生索引测序文库并进行浅层全基因组测序(例如，深度为0.4×)。

在一些实施方案中，对序列读段进行处理包括以下步骤中的一个或更多个：

将序列读段与和对象同一物种的参考基因组(例如人对象的人参考基因组GRCh37)进行比对；

除去污染的衔接子序列；

除去PCR和光学重复；

除去低映射质量的序列读段；以及

如果是多重测序，则通过排除测序条形码中的错配来信号分离(de-multiplexing)。

在一些实施方案中，变体DNA选自：循环肿瘤DNA(ctDNA)、循环细菌DNA、循环病原体DNA、循环线粒体DNA、循环胎儿DNA和来源于供体器官或供体组织的循环DNA、由生理改变的组织或细胞释放的循环DNA、循环染色体外DNA以及双微体环状DNA。

在一些实施方案中，对序列读段进行处理以确定表示从所述样品获得的cfDNA片段之片段尺寸的序列数据和/或表示从所述样品获得的cfDNA片段中距拷贝数中立点之偏差的量度的序列数据包括确定选自以下的一个或更多个(例如2、3、4、5个或更多个)特征：

(i)尺寸范围为20至150bp的片段比例(P20至150)；

(ii)尺寸范围为100至150bp的片段比例(P100至150)；

(iii)尺寸范围为160至180bp的片段比例(P160至180)；

(iv)尺寸范围为180至220bp的片段比例(P180至220)；

(v)尺寸范围为250至320bp的片段比例(P250至320)；

(vi)比例P(20至150)/P(160至180)的比值；

(viii)比例P(20至150)/P180至220)的比值；以及

(ix)片段尺寸密度中具有10bp周期性的幅度振荡。

在一些实施方案中，多个cfDNA片段尺寸特征包含：P(160至180)、P(180至220)、P(250至320)和片段尺寸密度中具有10bp周期性的幅度振荡。

在一些实施方案中，在将序列读段与从中获得样品的物种的参考基因组比对之后，使用基因组中读段末端的映射位置从序列读段中推断出cfDNA片段的片段尺寸。

在一些实施方案中，对序列读段进行处理以确定表示从所述样品获得的cfDNA片段中距拷贝数中立点之偏差的量度的序列数据包括确定距拷贝数中立点的经修整中值绝对偏差(t-MAD)得分或ichorCNA得分。特别地，t-MAD得分可通过以下来确定：对在来源于健康对象的全基因组数据集中显示高拷贝数变异性的基因组区域进行修整，并随后计算基因组的非修整区域中距log₂R＝0的中值绝对偏差。

在一些实施方案中，样品包含来自患有或怀疑患有癌症的对象的基本上无细胞液体的多个DNA片段。在一些具体情况下，癌症可选自黑素瘤、肺癌、胆管癌、膀胱癌、食管癌、结直肠癌、卵巢癌、胶质瘤、胰腺癌、肾癌和乳腺癌。

在一些实施方案中，样品是血浆样品、尿样品、唾液样品、脑脊液样品、血清样品或其他含DNA生物液体样品。

根据本发明的任何方面，样品可进行或者可以已进行一个或更多个处理步骤以除去完整细胞，例如通过离心。

在某些实施方案中，其中变体DNA是ctDNA，该方法可用于在从中获得样品的对象中检测癌症的存在、生长、预后、消退、治疗响应或复发。

在一些实施方案中，ctDNA的存在是与含有非癌来源，任选地CHIP来源的体细胞突变的cfDNA的存在区分开的。

在一些实施方案中，基于从序列读段确定的多个片段尺寸特征，包含cfDNA片段的体细胞突变被分类为肿瘤来源或CHIP来源。

在一些实施方案中，变体DNA是ctDNA并且将样品分类为包含ctDNA或不包含ctDNA，或者确定样品包含ctDNA的概率用于预测所述样品或来自同一对象的另一个样品是否将易于进行进一步ctDNA分析。

在一些情况下，进一步ctDNA分析包括以更大的测序深度进行测序和/或对所述样品中的ctDNA进行靶向测序。

在一些实施方案中，当如通过分类算法确定的样品包含ctDNA的概率为至少0.5(例如至少0.6或至少0.75)时，对样品进行所述进一步ctDNA分析。

在一些实施方案中：

所述样品是血浆样品，并且如通过分类算法确定的样品包含ctDNA的概率用于确定是否将在尿样品中可检测到ctDNA；或

所述样品是尿样品，并且其中如通过分类算法确定的样品包含ctDNA的概率用于确定是否将在血浆样品中可检测到ctDNA。如实施例8中所示，由分类算法示出的血浆样品包含ctDNA的相对较高的概率与可用尿样品进行可用的ctDNA检测的概率提高相关(还参见图27)。

在第三个方面中，本发明提供了用于在含无细胞DNA(cfDNA)样品中提高对循环肿瘤DNA(ctDNA)的检测的方法，其包括进行体外和/或机上尺寸选择以富集长度小于167bp的DNA片段和/或富集尺寸范围为250至320bp的DNA片段。在一些实施方案中，尺寸选择是用于富集长度在90至150bp范围内的DNA片段。在一些情况下，尺寸选择可包括排除高分子量DNA，例如当样品包含血清样品时来源于白细胞的那些。

在一些实施方案中，样品可以是从患有或怀疑患有选自以下的癌症的对象获得的：黑素瘤、胆管癌、结直肠癌、胶质瘤、胰腺癌、肾癌和乳腺癌。

在一些实施方案中，尺寸选择包括对从含cfDNA样品提取的DNA进行的体外尺寸选择和/或对由从含cfDNA样品提取的DNA创建的文库进行的体外尺寸选择。特别地，体外尺寸选择可包括琼脂糖凝胶电泳。

在一些实施方案中，尺寸选择包括对序列读段进行的机上尺寸选择。

在一些具体情况下，序列读段可包含配对末端读段，所述配对末端读段通过对来自存在于由含cfDNA样品产生的文库中的片段的两个末端的DNA进行测序产生。在将序列读段与从中获得样品的物种的参考基因组(例如人对象的人参考基因组GRCh37)比对之后，可使用基因组中读段末端的映射位置推断出含cfDNA样品中DNA片段的原始长度。

在一些实施方案中，基本上排除了长度在90至150bp范围之外的DNA片段(参见，例如图6B)。

在一些实施方案中，在全基因组基础或全外显子组基础上进行尺寸选择。如本文中所描述的，与局限于特定基因组基因座、癌症类型或病例的先前研究(30，32，33)形成对比，本发明人在全基因组和泛癌范围内鉴定了突变体cfDNA和非突变体cfDNA之间的尺寸差异。

在某些实施方案中，在浅层全基因组测序(sWGS)之前进行体外尺寸选择，或者对sWGS测序读段进行机上尺寸选择。

在某些实施方案中，该方法还包括在尺寸选择之后对序列读段进行体细胞拷贝数畸变分析和/或突变调用。在一些具体情况下，体细胞拷贝数畸变分析可包括处理序列读段以确定距拷贝数中立点的经修整中值绝对偏差(t-MAD)得分或ichorCNA得分。例如，t-MAD得分可通过对来源于健康对象的全基因组数据集中显示高拷贝数变异性的基因组区域进行修整，并随后计算基因组的非修整区域中距log₂R＝0的中值绝对偏差来确定。

在某些实施方案中，体细胞拷贝数畸变分析可包括检测选自NF1、TERT和MYC的一种或更多种基因的扩增。如本文实施例中所描述的，在尺寸选择之后进行的血浆cfDNA分析揭示了在没有尺寸选择的情况下在相同样品中观察不到的大量SCNA。

在某些实施方案中，突变调用包括检测选自BRAF、ARID1A和NF1的一种或更多种基因的突变。如本文实施例中所描述的，尺寸选择富集了几乎所有突变的突变体等位基因分数(mutant allele fraction，MAF)。

在一些实施方案中，癌症是选自结直肠癌、胆管癌、乳腺癌和黑素瘤的高ctDNA癌症。

在一些实施方案中，癌症是选自胰腺癌、肾癌和胶质瘤的低ctDNA癌症。

在某些实施方案中，样品可以是血浆样品、尿样品、唾液样品、脑脊液样品、血清样品或其他含DNA生物液体样品。

在一些实施方案中，该方法还包括在从中获得样品的对象中检测癌症的存在、生长、预后、消退、治疗响应或复发。根据本发明该方面的方法提高ctDNA的检测、突变调用和/或SCNA检测可有助于癌症的早期检测和持续的癌症监测，并且可告知治疗策略。

在一些实施方案中，该方法可在在对象的癌症治疗之前获得的样品和在对象的癌症治疗之后获得的样品上执行。如本文中所描述的，在通过成像或未进行尺寸选择的t-MAD分析检测之前，经尺寸选择的样品指示肿瘤进展69和87天(参见图10E和F)。

根据本发明的任何方面，对象可以是人、伴侣动物(例如狗或猫)、实验室动物(例如小鼠、大鼠、兔、猪或非人灵长类)、家畜或农场动物(例如猪、牛、马或绵羊)。优选地，对象是人患者。在一些情况下，对象是已被诊断患有癌症、被怀疑患有癌症或已被分类为处于发生癌症之风险中的人患者。

现将参照附图以举例而非限制的方式来描述本发明的实施方案。然而，鉴于本公开内容，本发明的多种另外的方面和实施方案对于本领域技术人员而言将是明显的。

本发明包括所描述的方面和优选特征的组合，除非明显不允许这样的组合或指出明确地避免这样的组合。本发明的这些以及另外的方面和实施方案在下面并且参照所附实施例和附图更详细地描述。

附图说明

图1示出了总结在本研究中完成的不同实验以及在每个步骤中使用的相应样品数目的流程图。

图2示出了在泛癌范围内用全基因组测序对血浆DNA片段化的调查。A，cfDNA的尺寸谱可由血浆样品的配对末端测序来确定，并反映其在核小体周围的组织。cfDNA通过多种方式在血液循环中释放，每种方式均在片段尺寸上留下标记。通过用sWGS(n＝344个血浆样品，来自65名健康对照和200名癌症患者)分析推断出cfDNA的尺寸谱，并通过个性化捕获测序(n＝18个血浆样品)推断出突变体ctDNA的尺寸谱。B，来自200名癌症患者的344个血浆样品的片段尺寸分布。基于先前的文献(3)将患者划分为两组：橙色表示先前观察到具有低ctDNA水平的癌症样品(肾癌、膀胱癌、胰腺癌和胶质瘤)并且蓝色表示观察到具有较高ctDNA水平的癌症样品(乳腺癌、黑素瘤、卵巢癌、肺癌、结直肠癌、胆管癌等，参见表1)。C，按B中定义的癌症分组低于150bp的cfDNA片段的比例。针对尺寸分布差异的Kruskal-Wallis检验表明释放大量ctDNA的癌症类型组与释放少量ctDNA的组以及健康个体组之间的显著差异(p＜0.001)。D，按癌症类型低于150bp的cfDNA片段的比例(所有样品)。由少于4名个体表示的癌症类型被分组在“其他”类别中。红线表示每种癌症类型的中值比例。

图3示出了本研究中包含的健康个体和癌症患者的所有血浆样品的cfDNA尺寸分布，取决于由sWGS确定的他们的癌症类型。在此示出的血浆样品从以下收集：肾癌(n＝33)、胶质母细胞瘤(n＝11)、膀胱癌(n＝19)、乳腺癌(n＝34)、黑素瘤(n＝21)、胰腺癌(n＝7)、卵巢癌(n＝59)、肺癌(n＝8)、结直肠癌(n＝21)、胆管癌(n＝14)、宫颈癌(n＝1)、阴茎癌(n＝1)、子宫内膜癌(n＝1))、胸腺瘤(n＝1)、肝细胞癌(n＝1)。还示出了来自健康个体(n＝46)的cfDNA的尺寸谱。

图4描绘了用动物模型和个性化捕获测序确定突变体ctDNA的尺寸谱。A，在使用sWGS的情况下，具有异种移植人肿瘤细胞的小鼠模型能够区分由癌细胞释放的DNA片段(与人基因组比对的读段)与由健康细胞释放的DNA(与小鼠基因组比对的读段)。B，来自从异种移植人卵巢肿瘤的小鼠提取的血浆的片段尺寸分布，其示出源自肿瘤细胞的ctDNA(红色)和源自非癌细胞的cfDNA(蓝色)。两条垂直线指示145bp和167bp。指示了短于150bp的读段分数。C，开发用于专门确定来自患有晚期癌症的19名患者的血浆中突变体DNA和非突变体DNA的尺寸谱的个性化杂交捕获测序组的设计。捕获组包含通过WES在肿瘤组织中鉴定的体细胞突变。然后从匹配的血浆样品分析每名患者平均165个突变。将读段进行比对并分为携带参考序列或突变序列的片段。计算配对末端读段的片段尺寸。D，来自患有晚期癌症的19名患者的血浆中突变体DNA和非突变体DNA的尺寸谱是通过肿瘤引导的捕获测序确定的。指示了短于150bp的读段分数。

图5示出了突变体DNA尺寸分布分析中包含的针对19名患者用杂交捕获测序确定的插入尺寸分布(A至S)。突变体DNA片段的尺寸分布以红色示出，并且来自相同样品的非肿瘤参考cfDNA的分布以灰色示出。垂直虚线表示145bp和167bp。插入尺寸通过汇总从每名患者的所有样品的突变体DNA和参考DNA观察到的插入尺寸来确定。

图6示出了在具有尺寸选择的情况下，来自血浆测序的肿瘤分数的提高。A，在没有尺寸选择、或使用计算机和体外尺寸选择的情况下并行分析从卵巢癌患者收集的血浆样品。B，对20名健康对照组群确定的体外和机上尺寸选择的准确性。尺寸选择之前的尺寸分布以绿色示出，在机上尺寸选择之后的(在90和150bp处有锐截止)以蓝色示出，并且在体外尺寸选择之后的以橙色示出。C，当如通过TAm-Seq确定的TP53突变的ctDNA MAF为0.271时，用来自在开始治疗之前收集的卵巢癌患者的血浆DNA的sWGS的SCNA分析。所推断的扩增以蓝色示出并且缺失以橙色示出。拷贝数中立点区域以灰色示出。D，在治疗开始之后三周收集的来自与组C相同患者的血浆样品的SCNA分析。TP53突变的MAF为0.068并且在该时间点(尺寸选择之前)通过sWGS未检测到ctDNA。E，在体外尺寸选择长度为90bp至150bp的片段之后，与D相同的血浆样品的分析。在体外尺寸选择之后，TP53突变的MAF提高至0.402，并且通过sWGS清楚地示出了SCNA。与C和D相比，检测到更多SCNA(例如在chr2、chr9、chr10中)。

图7示出了用sWGS确定的针对在治疗之前和之后收集的来自OV04组群的13名卵巢癌患者的每个血浆样品的插入尺寸分布。不具有尺寸选择的无细胞DNA(cfDNA)的分布以绿色示出，并且在尺寸选择之后相同cfDNA样品的分布以橙色示出。垂直线表示用PippinHT盒选择的90至150bp之间的片段的范围。需要注意的是，患者OV04-292和OV04-300显示出改变的片段化谱，表明样品的制备或分析前保存可能存在问题。

图8示出了用sWGS和靶向测序估计的体外尺寸选择的质量控制评估。A，在尺寸选择之前(绿色)和体外尺寸选择之后(橙色)通过sWGS评估的在尺寸选择研究中包含的血浆样品的DNA片段的尺寸分布。两条垂直虚线指示90bp至150bp的尺寸选择范围。B，在具有和不具有体外尺寸选择的情况下，与如在对来自卵巢癌患者的血浆DNA样品进行靶向测序(TAm-Seq)期间确定的测序背景噪声相对应的非参考等位基因分数的比例。

图9示出了体外和机上尺寸选择的第二质量控制评估。从健康对照选择20个血浆，提取DNA并在不具有尺寸选择、具有体外和机上尺寸选择的情况下对这些样品进行sWGS。A，针对每个样品和条件确定的尺寸谱。B，重复读段的分数提高，并且因此将这些除去以用于任何下游尺寸选择分析。为了确定尺寸选择是否可在分析期间引入更多的测序噪声，使用称为中值绝对成对差异(median absolute pairwise difference，MAPD)算法的QC度量来查找测序噪声。MAPD测量了每对相邻区域(neighboring bin)的log₂ CN比值之间的绝对差异，并找到了所有区域中的中值。较高的MAPD得分反映了较大的噪声，通常与质量差的样品相关。不论尺寸选择条件如何，所有样品均表现出MAPD得分为0.01(+-0.01)。C，除噪声估计之外，还比较了如通过t-MAD得分估计的在20个对照样品之间的ctDNA分数。不具有选择尺寸的样品的t-MAD得分与机上尺寸选择之后确定的t-MAD没有显著差异(t-检验，p＝0.43)，但观察到与体外尺寸选择之后的样品的显著差异(t-检验，p＝0.0068)。即使在体外尺寸选择之后t-MAD值提高，但检测到的平均值(0.011)和最大值(0.016)仍被限制在由整个对照组群(n＝65)凭经验确定的阈值限制内。D，确定了在体外尺寸选择之后回收的DNA产量(因为机上尺寸选择不受该技术偏差的影响)。

图10示出了在具有机上尺寸选择和t-MAD的情况下，通过sWGS对ctDNA富集的量化。A，将来自SCNA的肿瘤分数量化为名为t-MAD的全基因组得分的工作流程。B，通过数字PCR或杂交捕获测序确定的SNV的MAF与通过sWGS确定的t-MAD得分之间的相关性。数据包含来自具有匹配MAF测量值和t-MAD得分的多种癌症类型的癌症患者的97个样品。针对其中MAF＞0.025和t-MAD＞0.015的所有病例计算MAF和t-MAD得分之间的皮尔逊(Pearson)相关性(系数r)。线性回归指示了斜率为0.44的拟合(紫色实线)。C，在健康样品、从具有在循环中表现低的ctDNA量的癌症类型患者和从具有在循环中表现高的ctDNA量的癌症类型患者收集的样品之间由sWGS确定的t-MAD得分的比较。可计算t-MAD的所有样品均包含在内。D，使用t-MAD比较来自高ctDNA癌症样品(n＝189)的这些血浆样品和来自健康对照(n＝65)的血浆样品的分类的ROC分析，在不具有选择尺寸的情况下的曲线下面积(AUC)为0.69(黑色实体曲线)。在对来自癌症患者的样品应用机上尺寸选择之后，我们观察到AUC为0.90(黑色虚曲线)。E，由结直肠癌患者的纵向血浆样品确定t-MAD。在对90至150bp的DNA片段进行机上尺寸选择之前和之后分析t-MAD，并随后与该患者的RECIST状态进行比较。F，将机上尺寸选择应用于6名长期随访患者。t-MAD得分是在短DNA片段的机上尺寸选择之前和之后确定的。深蓝色圆圈指示其中在具有和不具有机上尺寸选择二者的情况下均检测到ctDNA的样品。浅蓝色圆圈指示其中仅在机上尺寸选择之后才检测到ctDNA的样品。空心圆圈指示其中通过任一分析均未检测到ctDNA的样品。评估RECIST状态的时间由红色条指示进展，或者由橙色条指示消退或稳定的疾病。

图11示出了根据可用匹配数据的癌症类型对MAF和t-MAD得分进行的比较。详述了来自卵巢癌、乳腺癌、胆管癌、结直肠癌和肺癌的数据。其他癌症类型被分组为“其他”类别中。样品根据其t-MAD得分进行标记，其中t-MAD＜0.015以浅紫色填色，并且t-MAD＞0.015以深紫色填色。当n＞5且t-MAD＞0.015时，指示皮尔逊相关性、p值和斜率。

图12示出了来自乳腺癌患者的血浆DNA，所述血浆DNA被掺入到来源于健康个体的合并血浆DNA中。将其以10倍、100倍和1000倍的梯级系列稀释。总共10ng DNA用于初始DNA文库制备。通过WES和TAm-Seq二者估计净样品TP53突变的等位基因分数为约45.6％，并将其用作稀释的参考。在稀释系列数据中，t-MAD得分显示检测到具有非常低的覆盖度和突变体AF(低至约0.4％AF，或100×稀释的样品)的SCNA。另外，已针对短片段(90至150bp)对测序数据进行了机上尺寸选择，提高了较低AF的t-MAD得分。

图13示出了由CT扫描确定的可用RECIST体积(以mm计)与tMAD得分和片段化特征的比较。将RECIST体积与以下进行比较：tMAD得分(A)、片段为20至150bp的比例(B)、片段为100至150bp的比例与片段为163至169bp的比例的比值(C)、片段为20至150bp的比例与片段为180至220bp的比例的比值(D)、统计幅度为10bp峰值和谷值(E)，以及片段为250至350bp的比例(F)。针对每个比较计算相关性和P值。

图14示出了在体外尺寸选择的情况下，通过sWGS对ctDNA富集的量化。A，体外尺寸选择对t-MAD得分的影响。对于从35名患者收集的48个血浆样品中的每一个，t-MAD得分是在体外尺寸选择(y轴)之后和没有选择尺寸(x轴)的情况下从sWGS确定的。体外尺寸选择提高了几乎所有样品的t-MAD得分，其中中值提高2.1倍(范围为1.1至6.4倍)。从sWGS确定的针对来自健康个体的46个样品的t-MAD得分在体外尺寸选择之前和之后二者下均＜0.015。B，使用t-MAD比较来自癌症样品(n＝48)的这些血浆样品和来自健康对照(n＝46)的血浆样品的分类的ROC分析，在不具有尺寸选择的情况下的曲线下面积(AUC)为0.64(绿色曲线)。在对来自癌症患者和健康患者的样品应用机上尺寸选择之后，观察到AUC为0.78(蓝色曲线)，并且在体外尺寸选择之后，AUC为0.97(橙色曲线)。C，在具有和不具有体外尺寸选择的情况下，匹配卵巢癌样品之间从sWGS确定的t-MAD得分的比较。针对平均值差异的t-检验表明在具有体外尺寸选择的情况下肿瘤分数(通过t-MAD测量)显著提高(p＜0.0001)。D，在复发性卵巢癌中频繁突变的15个基因的SCNA的检测，SCNA在35名患者治疗期间收集的血浆样品中进行测量。通过提高如通过tMAD量化的肿瘤分数(在体外尺寸选择之前)，从左到右对患者进行排序。如果该区域中的相对拷贝数大于0.05，则SCNA被标记为检测到基因。空方块表示拷贝数中立点区域，以浅蓝色的左下角三角形指示在不具有尺寸选择的情况下检测到SCNA，并且以深蓝色的右上三角形表示在体外尺寸选择之后检测到SCNA。

图15示出了在具有和不具有尺寸选择的情况下，对从35名卵巢癌患者收集的48个血浆样品中的每一个进行的分析。A，由t-MAD得分表示的ctDNA分数与富集水平之间为负相关(皮尔逊，-0.49，p＜0.001)。B，对于几乎所有样品，在具有尺寸选择的情况下从sWGS确定的t-MAD得分比不具有尺寸选择的情况下的更高，其中中值提高2.1倍。在具有尺寸选择的情况下通过t-MAD确定的富集因子因样品而变化，但对于具有低初始t-MAD得分的样品较高。出于比较目的添加来自健康个体的值。

图16示出了在sWGS之后确定的节段性log2比值的SCNA分析。这是使用在复发性卵巢癌中频繁突变的29个基因列表进行的，所述基因来自基线时和对13名患者进行治疗之后收集的血浆样品。log2比值表示不具有尺寸选择和具有较短DNA的体外尺寸选择的样品。

图17示出了在具有尺寸选择的情况下在多种癌症类型中通过WES检测体细胞改变的提高。A，在不具有尺寸选择以及在具有体外和机上尺寸选择的情况下，在6名HGSOC患者中通过WES检测的突变的MAF分析。B，经尺寸选择WES数据与未经选择的WES数据的比较，用于评估在来自6名HGSOC患者的血浆样品中检测到的突变数目。对于每名患者，以浅蓝色的第一条显示了在不具有尺寸选择的情况下调用的突变数目，第二条量化了在添加在具有机上尺寸选择的情况下确定的那些之后调用的突变数目，并且深蓝色的第三条显示了在添加体外尺寸选择之后调用的突变之后调用的突变数目。C，患者(n＝16)是从参加早期临床试验的具有不同癌症类型(结直肠癌、胆管癌、胰腺癌、前列腺癌)的组群中回顾性选择的。匹配的肿瘤组织DNA均可用于每个血浆样品，并且2名患者还具有在复发时收集的活检物。对肿瘤组织DNA和血浆DNA样品进行WES，并将机上尺寸选择应用于数据。通过WES检测的共享突变的2061/2133(97％)显示在机上尺寸选择之后更高的MAF。D，与通过匹配的肿瘤组织的WES调用的突变相比，仅在对来自16名患者(如在C中)的WES数据进行计算机选择之后才检测到的突变。16名患者中的3名在机上尺寸选择之后没有鉴定出另外的突变。在机上尺寸选择之后在血浆中检测到的82个突变中，23个(28％)在肿瘤WES数据中具有低信号水平，并且是在这些样品中最初未被鉴定的。

图18示出了在不具有和具有选择尺寸的情况下在OV04样品上通过WES调用的每个单一核苷酸变体(single nucleotide variant，SNV)的突变体等位基因分数(mutantallelic fraction，MAF)。A，对于从6名HGSOC患者的血浆样品检测到的大多数突变，在具有体外尺寸选择的情况下通过WES确定的MAF(垂直)高于在不具有体外尺寸选择的情况下的MAF(水平)。B，在来自WES数据的机上尺寸选择之后，在相同样品中也观察到富集。

图19描绘了在具有和不具有短DNA片段的尺寸选择的情况下，通过WES检测到的9个临床重要基因的突变。分析了提交至WES的所有血浆样品(来自OV04研究的6个卵巢癌病例，和来自CoPPO研究的16个癌症)。整合了不具有尺寸选择的情况下调用的突变，以及在体外和机上尺寸选择之后通过WES调用的新突变。

图20示出了：A，对于大多数样品，包含在基线时(红色圆圈)和初始治疗之后(蓝色三角形)收集的样品在具有体外尺寸选择的情况下，通过TAm-Seq确定的TP53突变的MAF高于在不具有尺寸选择的情况下的该MAF。仅示出了从13名患者收集的26个样品以及在治疗之前和之后收集的样品。虚线区域突出显示最初具有低MAF(＜5％)的样品，其中方法例如全外显子组测序(以约100×测序深度)将是无效的，并且其中体外尺寸选择富集MAF至＞5％，并且因此可用于大规模分析。B，在具有体外尺寸选择的情况下(黄色三角形)和不具有尺寸选择的情况下(绿色圆圈)，在治疗之前和初始治疗之后通过TAm-Seq检测到的MAF的比较。

图21示出了从个性化测序获得的突变体DNA和非突变体DNA的尺寸分布。该图中的10名患者中的一小部分被亚选择。选择的基因座对应于临床验证的变体(基于肿瘤组织DNA的WES)。左图显示出突变体DNA的尺寸分布，并且右图是对应的非突变体DNA的尺寸分布。颜色表示这些患者的t-MAD值(红色表示t-MAD得分＞0.02并且蓝色表示t-MAD得分＜0.02)。突变体ctDNA证实了在90至150bp尺寸范围内的富集(如先前在原稿中所述)。非突变体在90至150bp的尺寸范围内显示出较低的富集，但取决于患者而变化。如通过t-MAD确定的具有最高ctDNA浓度的患者具有较短非突变体DNA的富集，而具有较低t-MAD值的患者具有较少的短片段。这表明即使在非突变体DNA中，也可通过分析cfDNA片段的尺寸检测肿瘤信号(＝非突变体ctDNA)。

图22描绘了通过组合SCNA和片段尺寸特征增强ctDNA检测的潜力。A，示意性举例说明在片段尺寸分布中不同尺寸范围和特征的选择。对于每个样品，片段化特征包含特定尺寸范围内的片段的比例(P)、某些范围之间的比值以及从周期性“峰值”和“谷值”计算的在90至145尺寸bp范围内的10bp振荡幅度的定量。B，使用来自t-MAD得分和片段化特征的数据比较癌症和健康样品的主要组分分析(Principal Component Analysis，PCA)。以灰色显示的片段化特征不包括在以下步骤中。C，组合SCNA和片段尺寸特征的预测分析的工作流程。来自健康对照的血浆DNA sWGS数据被划分为训练集(60％的样品)和验证集(用于验证数据1和验证集2二者)。来自182个样品的泛癌组群的血浆样品的sWGS数据被划分为训练集(60％的样品)和验证集(验证数据1，以及健康个体验证集)，所述182个样品来自具有高ctDNA水平的癌症类型(结直肠癌、胆管癌、肺癌、卵巢癌、乳腺癌)的患者。来自表现出低ctDNA水平的癌症类型(胶质瘤、肾癌、胰腺癌)的57个样品的另一个sWGS数据集与健康个体验证集一起用作验证数据2。D，基于泛癌训练组群(癌症＝114，健康＝39)建立的3个预测模型的验证数据1(来自具有高ctDNA水平的癌症患者的样品＝68，健康＝26)的ROC曲线。米色曲线表示仅用t-MAD分类的ROC曲线，绿色长虚线表示基于递归特征消除组合前5个特征(t-MAD得分、10bp幅度、P(160至180)、P(180至220)和P(250至320))的逻辑回归模型，并且红色虚线示出了在针对最佳RF预测模型独立选择的相同5个特征的组合上训练的随机森林分类器的结果。E，与D相同的3个分类器的验证数据2(来自具有低ctDNA水平的癌症患者的样品＝57，健康＝26)的ROC曲线。米色曲线表示仅使用t-MAD的模型，绿色长虚线表示组合前5个特征(t-MAD得分、10bp幅度、P(160至180)、P(180至220)和P(250至320))的逻辑回归模型，并且红色虚线示出了针对在相同的5个预测特征的组合上训练的随机森林分类器的结果。F，表示用RF模型将两个验证数据集中的所有样品分类为癌症的概率的图。样品按癌症类型分开，并按分类为癌症的RF概率在每个样品中排序。水平虚线指示50％的概率，并且浅色长虚线指示33％的概率。

图23示出了健康样品和来自具有高ctDNA癌症的患者的样品之间的cfDNA片段化特征的ROC分析。

图24示出了在来自癌症患者的147个血浆样品中，t-MAD得分与通过sWGS确定的9个片段化特征的比较，所述血浆样品包含在分类器模型的训练数据集和验证数据集中。对每个交叉比较估计相关性得分，并将该值在图的左下侧示出。

图25示出了不同算法的性能度量：逻辑回归(关于t-MAD得分和片段化特征)；和随机森林(RF)，其关于来自sWGS的训练集数据(n＝153；114个癌症样品和39个健康对照)。显示针对每个模型的中值ROC得分和准确性值，以及0.95置信水平。

图26示出了LR和RF模型，其用单独的片段化特征从健康样品检测癌症。A，基于泛癌症训练组群(癌症＝114，健康＝39)建立的2个分类器的第一验证样品集(癌症＝68，健康＝26)的ROC曲线。橙色曲线表示仅用片段化特征训练而没有t-MAD的逻辑回归模型的ROC，并且红色虚线示出了在最佳的3个预测片段化特征(幅度_10bp、P(160至180)和P(250至320))的组合上训练的随机森林分类器的结果。B，基于与A相同的训练集建立的2个分类器的第二验证样品集(癌症＝57，健康＝26)的ROC曲线。橙色曲线表示仅用片段化特征训练的逻辑回归模型，并且红色虚曲线示出了在3个预测特征(幅度_10bp、P(160至180)和P(250至320))的组合上训练的随机森林分类器的结果。C，表示用RF模型将第二验证数据集(在B中描述)分类为癌症的概率的图。样品按癌症类型和分类为癌症的概率排序。水平虚线表示50％的概率。

图27示出了通过随机森林(RF)模型对给定肾细胞癌(renal cell carcinoma，RCC)患者血浆样品进行癌症分类的概率，如在y轴上示出。患者血浆样品在x轴上示出。对于每名患者，通过INVAR-TAPAS和t-MAD分析评估该相同血浆样品(并且在一些情况下匹配的尿上清液)的ctDNA含量。圆圈指示其中通过任一方法均未在任一液体中检测到ctDNA的患者。三角形指示其中通过任一方法在任一液体中检测到ctDNA的患者。

具体实施方式

现将参照附图讨论本发明的一些方面和实施方案。另一些方面和实施方案对于本领域技术人员将是明显的。在本文本中提及的所有文件均通过引用并入本文。

在描述本发明时，将采用以下术语，并且其旨在如以下所指示进行定义。

本文中使用的“计算机执行方法”应被视为意指其执行涉及使用计算机、计算机网络或其他可编程设备的方法，其中该方法的一个或更多个特征完全或部分地通过计算机程序实现。

本文中使用的“样品”可以是生物样品，例如无细胞DNA样品、细胞(包括循环肿瘤细胞)或组织样品(例如活检物)、生物流体、提取物(例如从对象获得的蛋白质或DNA提取物)。特别地，样品可以是肿瘤样品、含DNA的生物流体样品、血液样品(包括血浆或血清样品)、尿样品、宫颈涂片、脑脊液样品或非肿瘤组织样品。已发现尿和宫颈涂片含有细胞，并且因此可提供根据本发明使用的合适样品。适合根据本发明使用的其他样品类型包括细针抽吸物、淋巴结、手术切缘(surgical margin)、骨髓或来自肿瘤微环境的其他组织，其中可发现或预期发现痕量肿瘤DNA。样品可以是从对象新鲜获得的样品(例如血液抽取物)，或者可以是在进行确定之前已被处理和/或储存的样品(例如冷冻、经固定或进行一个或更多个纯化、富集或提取步骤，包括离心)。样品可通过富集或扩增过程从上述生物样品中的一种或更多种获得。例如，样品可包含由生物样品产生的DNA文库，并且可任选地是条码化的或以其他方式标记的DNA文库。可从单一患者获取多个样品，例如在治疗过程期间连续地获取。此外，可从多个患者获取多个样品。样品制备可如本文的材料和方法部分中所述。

本文中使用的“和/或”应被视为具体公开了在具有或不具有另一个的情况下的两个特定特征或部件中的每一个。例如，“A和/或B”应被视为具体公开了以下每一种：(i)A、(ii)B和(iii)A和B，就像每个在本文中单独列出一样。

提供序列读段

可提供或直接获得序列读段数据，例如通过对cfDNA样品或文库进行测序，或者通过获得或提供有已生成的测序数据，例如通过从非易失性或易失性计算机存储器、数据存储或网络位置检索序列读段数据。在通过对样品进行测序而获得序列读段的情况下，输入DNA的中位质量在一些情况下可以是1至100ng，例如2至50ng或3至10ng。可扩增DNA以获得具有例如100至1000ng DNA的文库。序列读段可以是以合适的数据格式，例如FASTQ。

序列数据处理和误差抑制

在读段压缩成读段家族的步骤之前或作为其一部分，可对序列读段数据(例如FASTQ文件)进行一个或更多个处理或清理步骤。例如，可使用选自如FastQC v0.11.5、用于除去衔接子序列的工具(例如cutadapt v1.9.1)的一种或更多种工具来处理序列数据文件。序列读段(例如，经修整序列读段)可与合适的参考基因组(例如人对象的人参考基因组GRCh37)进行比对。

本文中使用的“读段”或“测序读段”可被理解为意指已从一个分子读取并且读取一次的序列。取决于进行的测序，每个分子可读取许多次。

“分类器”或“分类算法”可以是将输入数据，例如cfDNA片段尺寸特征映射到类别，例如癌变或非癌变来源的模型或算法。在一些实施方案中，本发明提供了用于在对象中对癌症进行检测、分类、预测或监测的方法。特别地，可使用一种或更多种模式识别算法来评价从序列分析获得的数据，例如片段长度和/或拷贝数(例如，距拷贝数中立点的经修整中值绝对偏差“t-MAD”)。这样的分析方法可用于形成预测模型，该预测模型可用于对测试数据进行分类。例如，一种方便且特别有效的分类方法采用多元统计分析建模，首先使用来自已知类别(例如，来自已知患有特定癌症的对象)的样品的数据(“建模数据”)形成模型(“预测数学模型”)，其次根据类别对未知样品(例如“测试样品”)进行分类。

模式识别是使用多元统计(参数和非参数二者)来分析数据，并且从而基于一系列观察到的测量值对样品进行分类并预测一些因变量的值。有两种主要方法。一组方法称为“不受监督”的，并且这些以合理的方式简单地降低了数据复杂性，并且还产生了可由人眼解释的显示图。然而，这种类型的方法可能不适用于开发可用于对来源于对象的样品进行分类而不依赖于用于训练预测算法的初始样品群的临床测定。

另一种方法称为“受监督的”，其中使用具有已知类别或结局的样品训练集来产生数学模型，然后用独立的验证数据集对该数学模型进行评价。在此，序列信息例如片段化特征和/或拷贝数特征的“训练集”用于构建正确地预测每个样品的类别的统计模型。然后，用独立的数据(称为测试或验证集)对该训练集进行测试，以确定基于计算机的模型的稳健性(robustness)。这些模型有时称为“专家系统”，但可基于一系列不同的数学程序，例如支持向量机(SVM)、决策树、k-最近邻和朴素贝叶斯(

Bayes)，其各自均预期在本文中根据本发明使用。如本文实施例中详细描述的，逻辑回归(LR)和随机森林(RF)用于变量选择和将样品分类为“健康”或“癌症”。受监督的方法可使用具有降低维数的数据集(例如，前面数个主要组分)，但通常使用具有所有维数的未降低的数据。预测模型的稳健性也可使用交叉验证通过从分析中省略选定的样品来检查。定制组测序(TAPAS)

本文中使用的定制组测序是指对靶区域和/或基因的测序。这可采用靶向目的基因例如通常在癌症中突变的基因和/或发现在目标对象的肿瘤中携带突变的基因(例如通过对匹配的肿瘤组织DNA和血浆DNA样品进行测序鉴定的)的选定或定制捕获组。在一些情况下，捕获组的尺寸范围可以是0.5Mb至5Mb，例如1Mb至3Mb。

以下通过实施例的方式给出并且不应被解释为对权利要求书范围的限制。

实施例

材料和方法

研究设计

收集了来自200名具有多种癌症类型的患者的344个血浆样品和来自65名健康对照的65个血浆样品。在这些患者中，172名个体是通过在英国剑桥的Addenbrooke医院(Addenbrooke’s Hospital，Cambridge，UK)进行的前瞻性临床研究招募的，所述研究经当地研究伦理委员会(REC参考编号：07/Q0106/63；和NRES英格兰东部委员会(NRESCommittee East of England)-剑桥中心03/018))批准。从所有患者获得书面知情同意书，并在开始用手术或化学治疗剂治疗之前和之后收集血液样品。根据制造商的说明，使用QIAamp循环核酸试剂盒(Qiagen)或QIAsymphony(Qiagen)从2mL血浆中提取DNA。另外，招募了28名患者作为在丹麦哥本哈根Rigshospitalet(Rigshospitalet，Copenhagen，Denmark)进行的哥本哈根前瞻性个性化肿瘤学(Copenhagen Prospective PersonalizedOncology，CoPPO)计划(参考：PMID：25046202)的一部分，所述计划经当地研究伦理委员会批准。从所有28名患者中均可获得基线肿瘤组织活检物，以及从两名患者复发时收集的再活检物，包括匹配的血浆样品。在英国剑桥的Addenbrooke医院招募了脑肿瘤患者作为BLING研究(REC-15/EE/0094)的一部分。在荷兰阿姆斯特丹的荷兰癌症研究所(Netherlands Cancer Institute，Amsterdam，The Netherlands)招募膀胱癌患者，并被批准符合国家指南(N13KCM/CFMPB250)(47)。使用类似的方案(Seralab)从健康对照个体获得65个血浆样品。血浆样品被冻融不多于2次，以降低cfDNA的人为片段化。图1将研究描述为流程图。

体外尺寸选择

将8至20ng DNA加载到3％琼脂糖盒(HTC3010，Sage Bioscience)中，并根据制造商的方案用PippinHT(Sage Bioscience)进行尺寸选择。对20个健康对照样品进行体外尺寸选择的质量控制。对于任何下游尺寸选择分析，除去在体外选择的情况下观察到的重复读段。使用称为中值绝对成对差异(MAPD)算法的QC度量来确定测序噪声。MAPD测量每对相邻区域的log₂ CN比值之间的绝对差异，并确定所有区域的中值。较高的MAPD得分反映了较大的噪声，通常与质量差的样品相关。不论尺寸选择条件如何，所有样品均表现出MAPD得分为0.01(+-0.01)。

TAm-Seq

使用设计成评估单一核苷酸变体(SNV)和跨选定热点和TP53的整个编码区的小的缺失突变的引物，如前所述(34)制备标记扩增子深度测序文库。使用MiSeq或HiSeq 4000(Illumina)对文库进行测序。

浅层全基因组测序(sWGS)

使用市售试剂盒(ThruPLEX-Plasma Seq和/或Tag-Seq，Rubicon Genomics)制备索引测序文库。将文库以等摩尔量合并，并在HiSeq 4000(Illumina)上测序至＜0.4×覆盖深度，产生150bp的配对末端读段。使用内部流水线分析序列数据。在除去污染的衔接子序列之后，使用BWA-mem将配对末端序列读段与人参考基因组(GRCh37)进行比对(48)。使用MarkDuplicates(Picard工具)特征对PCR和光学重复进行标记，并且这些与低映射质量和补充比对的读段一起被排除在下游分析之外。必要时，出于比较目的，所有样品中的读段均被降取样(down-sampled)至1000万个。

体细胞拷贝数畸变分析

该分析使用名为CNAclinic的浅层全基因组测序拷贝数分析的软件套件(https：//github.com/sdchandra/CNAclinic)以及QDNAseq流水线在R中进行(49)。测序读段随机采样至1000万个读段/数据集，并在整个基因组长度上分配到同一尺寸(30Kbp)的非重叠区域。校正每个区域中的读段计数以说明序列GC含量和可映射性。从下游分析中排除倾向于伪影(artefact)的与“黑名单”区域(来源于ENCODE计划和1000基因组计划数据库)重叠的区域。通过来自相同经处理健康个体的计数对受试样品中的读段计数进行归一化，并将其log₂转换为获得的拷贝数比值/基因组区域。健康对照的读段计数通过其全基因组计数中值进行归一化。然后使用循环二元分割和隐马尔可夫模型算法二者对区域进行分割。计算每个区域的平均log₂R值。

构建了异常读段计数区域的内部经验黑名单。首先，使用来自健康血浆的65个sWGS数据集计算每30Kbp基因组区域的中值读段计数，作为GC含量和可映射性的函数。然后应用2D LOESS表面并计算实际计数和LOESS拟合值之间的差异。计算每个基因组区域的65个对照中的这些残差值的中值，并且将中值残差大于4个标准偏差的区域列为黑名单。对与该cfDNA黑名单重叠的每个受试样品的平均节段性log₂R值进行修整，并计算中值绝对值。该得分被定义为距log₂R＝0的经修整中值绝对偏差(t-MAD)。在https：//github.com/sdchandra/tMAD中提供了重现该分析的R代码(其通过引用整体并入本文)。

全外显子组测序(WES)

如上所述制备索引测序文库(参见方法，sWGS)。制备来自每个样品的血浆DNA文库并将其合并在一起用于外显子组捕获(TruSeq外显子组富集试剂盒，Illumina)。使用SpeedVac真空浓缩器(Eppendorf)浓缩合并物。按照制造商的方案进行外显子组富集。使用定量PCR(KAPA文库定量，KAPA Biosystems)对富集的文库进行定量，并通过生物分析仪(2100Bioanalyzer，Agilent Genomics)观察DNA片段尺寸，并以等摩尔比合并用于在HiSeq4000(Illumina)上进行配对末端下一代测序。测序读段被信号分离，使得在条形码中零错配。使用BWA-mem对所有外显子组测序数据(种系/血浆/肿瘤组织DNA)进行与GRCh37参考基因组的配对末端比对。使用Picard标记PCR重复。使用基因组分析工具试剂盒(GenomeAnalysis Tool Kit，GATK)进行基础质量得分再校准和局部再比对。

突变调用

对于PHRED质量≥30的所有碱基，用MuTect2计算每个单碱基基因座的突变等位基因分数(MAF)。然后应用过滤参数，使得如果在覆盖至少10×的基因座处的种系DNA中没有观察到等位基因的突变体读段，并且如果在血浆数据中发现支持突变体的至少4个读段(其中每条链(正向和反向)上至少1个读段)，则调用突变。在正常DNA中覆盖度＜10×并且没有突变体读段的基因座处，如果先前的血浆样品没有显示出突变的证据并且被充分覆盖(10×或更多)，则在血浆中调用突变。使用称为肿瘤非侵入性询问的集成信号放大的方法来聚集在尺寸选择之前和之后调用的突变。这种方法组合了使用不同的处理方法从相同血浆DNA样品调用的突变的不同子集。本研究中使用的突变聚集形式化如下：聚集的突变＝在不具有尺寸选择U的情况下检测到的突变(在具有体外尺寸选择U的情况下检测到的突变在具有机上尺寸选择的情况下检测到的突变)。

机上尺寸选择

通过对文库中存在的片段的两个末端的DNA进行测序产生配对末端读段。可使用基因组中读段末端的映射位置推断出DNA的原始长度。一旦完成比对，则使用Samtools软件来选择与特定范围内的片段长度相对应的配对读段。Mutect2用于从该机上尺寸选则的数据中调用突变，如在先部分中所述。

肿瘤引导的捕获测序

从RigsHospitalet(Copenhagen，Denmark)收集的患有晚期癌症的19名患者的匹配的肿瘤组织DNA和血浆DNA样品通过WES进行测序。通过突变调用从这些样品调用变体(参见上文)。用于纵向血浆样品分析的基于杂交的捕获被设计成使用SureDesign(Agilent)来涵盖每名患者的这些变体。包含每名患者160个变体的中值，并且另外，肿瘤引导的测序组中包含41个用于泛癌分析的常见目的基因。根据sWGS(参见上文)制备索引测序文库。制备来自每个样品的血浆DNA文库并将其合并在一起用于肿瘤引导的捕获测序(SureSelect，Agilent)。使用SpeedVac真空浓缩器(Eppendorf)浓缩合并物。按照制造商的方案进行捕获富集。使用定量PCR(KAPA文库定量，KAPA Biosystems)和由生物分析仪(2100Bioanalyzer，Agilent Genomics)控制的DNA片段尺寸对富集的文库进行定量，并以等摩尔比合并用于在HiSeq4000(Illumina)上进行配对末端下一代测序。测序读段被信号分离，使得在条形码中零错配。使用BWA-mem对所有外显子组测序数据(包括种系、血浆和肿瘤组织DNA，在产生的情况下)进行与GRCh37参考基因组的配对末端比对。使用Picard标记PCR重复。使用基因组分析工具试剂盒(GATK)进行基础质量得分再校准和局部再比对。

分类分析

对304个样品(182个高ctDNA癌症样品，57个低ctDNA癌症样品和65个健康对照)执行初步分析。对于每个样品，从sWGS数据计算以下特征：t-MAD、幅度_10bp、P(20至150)、P(160至180)、P(20至150)/P(160至180)、P(100至150)、P(100至150)/P(163至169)、P(180至220)、P(250至320)、P(20至150)/P(180至220)(参见表2)。数据排列在其中行表示每个样品，并且列包含上述特征的矩阵中，其中额外的“类别”列具有“癌症”/“健康”的二元标签。以下分析是利用随机森林、插入符号(caret)和PROC软件包在R中执行的。可获得插入符号软件包并且其在以下URL中进行了描述：http：//topepo.github.io/caret/index.html。在本文实施例中描述的用于分类算法的示例性源代码在下面标题为“代码”的部分中示出。计算特征之间的成对相关性以评估数据集中的多重共线性。选择单个变量用于从皮尔逊相关性＞0.75的对中除去。作为数据集中已有的单独变量的复合的高度相关的片段化特征，例如P(20至150)/P(180至220)，被优先除去。还评估了特征的零方差和线性相依性，但没有标记。在该预处理之后，选择以下5个变量用于进一步分析：t-MAD、幅度_10bp、P(160至180)、P(180至220)和P(250至320)(参见表2)。将所有57个低ctDNA样品留出(set aside)用于模型验证。剩余的高ctDNA癌症样品和健康对照的数据矩阵(n＝247)以60∶40的比例随机划分为1个训练数据集和1个验证数据集，其中不同的癌症类型和健康样品以类似的比例表示。因此，训练数据包含153个样品(癌症＝114，健康＝39)，而高ctDNA癌症的第一验证集包含94个样品(癌症＝68，健康＝26)。该验证数据集仅用于分类器的最终评估。

使用一种线性机器学习算法和一种非线性机器学习算法，即逻辑回归(LR)和随机森林(RF)进行将样品分类为健康或癌症。每种算法均与递归特征选择配对，以确定最佳预测变量。该分析是在训练集上在10倍交叉验证的5次重复的框内用插入符号执行的。该算法被配置为探索特征的所有可能子集。使用ROC度量选择每个分类器的最佳模型。另外，仅使用t-MAD作为预测器训练逻辑回归模型，以便在不添加片段化特征的情况下评估性能差异。最后，使用留出用于验证的68个高ctDNA癌症样品、57个低ctDNA癌症样品和26个健康对照来测试分类器，利用ROC分析中的曲线下面积来量化其性能。

对相同的训练组群和验证组群执行二次分析，其中唯一的区别是模型中使用的特征。在此，我们在不添加来自SCNA的信息(即t-MAD)的情况下测试了片段化特征的预测能力。因此，所利用的特征是：幅度_10bp、P(160至180)、P(180至220)和P(250至320)。

10bp周期性振荡的量化

在cfDNA样品的尺寸分布中观察到的10bp周期性振荡的幅度从sWGS数据如下确定。鉴定了75bp至150bp范围内的局部最大值和最小值。计算样品中它们位置的平均值(对于最小值：84、96、106、116、126、137、148以及最大值：81、92、102、112、122、134、144)。为了计算在低于150bp观察到的具有10bp周期性的振荡幅度，从最大值的高度总和中减去最小值的总和。这种差异越大，峰越明显。x bp峰的高度定义为长度为x的片段数目除以片段总数目。为了定义局部最大值，选择y个位置，使得y是区间[y-2，y+2]中的最大值。相同的原理用来选择最小值。

实施例1：研究肿瘤cfDNA的片段化特征

使用来自患有18种不同癌症类型的200名患者的344个血浆样品以及来自健康对照的另外65个血浆样品产生了cfDNA片段化特征的目录(图1和图2A)。与健康个体相比，癌症患者中cfDNA片段的尺寸分布在90至150bp、180至220bp和250至320bp的尺寸范围内不同(图2B和图3)。健康个体的血浆中以及患有晚期胶质瘤、肾癌、胰腺癌和膀胱癌的患者的血浆中的cfDNA片段尺寸明显比其他晚期癌症类型，包括乳腺癌、卵巢癌、肺癌、黑素瘤、结直肠癌和胆管癌中的更长(p＜0.001，Kruskal-Wallis；图2C)。根据20至150bp尺寸范围内的cfDNA片段比例对18种癌症类型进行的分类与Bettegowda et al.基于通过个体突变测定测量的ctDNA浓度进行的排序非常类似(图2D)(6)。与先前的报道(6，34)相反，该分类分析是在不存在突变或体细胞拷贝数改变(SCNA)的任何先验知识的情况下进行的，但允许探究不同癌症中的ctDNA含量。

实施例2：估量突变体ctDNA

使用两种高特异性方法确定血浆中突变体ctDNA的尺寸谱。首先，用来自携带人卵巢癌异种移植物的小鼠血浆的sWGS推断出ctDNA和非肿瘤cfDNA的特定尺寸谱(图4A)。ctDNA片段尺寸移位(shift)至小于167bp(图4B)。其次，使用具有从匹配的肿瘤样品的全外显子组分析中开发的患者特异性杂交捕获组的深度测序，在19名癌症患者的血浆中确定了突变体ctDNA的尺寸谱(图4C)。通过以＞300×的深度对cfDNA中的数百个突变进行测序，获得了来自突变体和正常DNA的等位基因特异性读段。在比核小体DNA尺寸(167bp的倍数)短约20至40bp的片段中观察到携带肿瘤突变等位基因的DNA片段的富集(图4D)。突变体ctDNA通常比非突变cfDNA更片段化，其中ctDNA在90至150bp的片段中具有最大富集(图5)，以及在250至320bp的尺寸范围内富集。这些数据还指出，患有晚期癌症的患者(治疗前)血浆中的突变体DNA始终比预测的单核小体和双核小体DNA片段长度短(图4D)。

实施例3：选择肿瘤来源的DNA片段

这些数据指出ctDNA比非肿瘤cfDNA短，并且表明可利用片段长度的生物学差异来提高ctDNA检测。在来自患有高级别浆液性卵巢癌(HGSOC)的35名患者的48个血浆样品中，使用体外尺寸选择用台式微流体装置随后是sWGS确定了较短片段选择性测序的可行性(图6A、图7和图8)。使用来自20名健康个体的血浆评估尺寸选择的准确性和质量(图6B和图9)。还使用来自未经处理的sWGS数据的读段对定位探索了片段化DNA的机上尺寸选择的效用(图6A)。通过选择与90至150bp尺寸范围内的片段长度相对应的配对末端读段，一旦将读段与基因组参考比对就进行机上尺寸选择。图6C、图6D和图6E举例说明了体外尺寸选择对一个HGSOC病例的作用。当ctDNA浓度高时，鉴定了治疗之前的血浆cfDNA的SCNA(图6C)。在化学治疗开始之后3周收集的后续血浆样品中仅观察到少量局灶性SCNA(不具有尺寸选择，图6D)。相同的治疗之后血浆样品的体外尺寸选择显示，在不具有尺寸选择的情况下，可检测SCNA的幅度具有中位6.4倍的提高。对该样品中较短片段的选择性测序导致检测到在不具有尺寸选择的情况下观察不到的多个其他SCNA(图6E)，以及与治疗之前当ctDNA水平为4倍高时获得的类似的全基因组拷贝数谱(图6C)。结论是，选择血浆中的短DNA片段可在全基因组范围内富集肿瘤含量。

实施例4：量化尺寸选择的影响

为了在全基因组范围内定量评估尺寸选择之后的富集，开发了来自sWGS数据(＜0.4×覆盖度)的度量，称为t-MAD(距拷贝数中立点的经修整中值绝对偏差，参见图10A)。所有sWGS数据均被降取样至1000万个测序读段用于比较。为了定义检测阈值，测量了来自46名健康个体的65个血浆样品的sWGS数据的t-MAD得分，并找到了最大值(中值＝0.01，范围0.004至0.015)。在通过数字PCR(digital PCR，dPCR)或WES在97个样品评估的高ctDNA癌症类型中的t-MAD与突变体等位基因分数(MAF)的比较，对于t-MAD大于检测阈值(0.015)或MAF＞0.025的样品在t-MAD和MAF之间具有高的相关性(皮尔逊相关，r＝0.80)(图10B)。图11示出t-MAD与MAF拟合线的斜率在癌症类型之间不同(范围0.17至1.12)，反映了SCNA范围的可能差异。使用将来自具有TP53突变的患者的DNA加标稀释到来自7名健康个体的池的DNA中来估计t-MAD用于检测低ctDNA水平的灵敏度(图12)，这证实了t-MAD得分与ctDNA水平是线性的，下至MAF为约0.01。另外，即使在MAF低至0.004的样品中，也存在大于样品检测阈值(0.015)的t-MAD得分。t-MAD还与通过RECIST1.1确定的肿瘤体积强相关(皮尔逊相关性，r＝0.6，p＜0.0001，n＝35)(图13)。

使用t-MAD从69％(130/189)的来自显示高ctDNA水平的癌症类型的样品中检测到ctDNA(图10C)。在怀疑ctDNA水平低的癌症类型(胶质瘤、肾癌、膀胱癌、胰腺癌)中，在17％(10/57)的病例中检测到ctDNA(图10C)。为了提高检测t-MAD的灵敏度，使用来自高ctDNA癌症(n＝189)和健康对照(n＝65)的90至150bp DNA片段的机上尺寸选择(图10D)。接受者操作特征(ROC)分析比较了样品的t-MAD得分，揭示了在机上尺寸选择之后的曲线下面积(AUC)为0.90，与不具有尺寸选择的情况下的AUC为0.69相对(图10D)。

为了探究尺寸选择测序是否可提高响应或疾病进展的检测，使用来自六名癌症患者的纵向血浆样品的sWGS(图10E和F)和90至150bp的cfDNA片段的机上尺寸选择。在两名患者中，经尺寸选择的样品表明在通过成像或未选择的t-MAD分析进行检测之前肿瘤进展60和87天(图10E和10F)。其他纵向样品在用t-MAD和尺寸选择检测ctDNA方面表现出提高(图10F)。将需要在大的临床研究中进行确认，以确定ctDNA的选择性测序用于临床应用的潜力。

实施例6：用尺寸选择鉴定更多的临床相关突变

检查了尺寸选择提高检测cfDNA中的新突变的灵敏度的能力。为了测试对拷贝数畸变的作用，对患有HGSOC的35名患者进行研究，因为HGSOC是原始拷贝数驱动的癌症(35)。t-MAD用于量化在具有体外尺寸选择的情况下48个血浆样品(包括在化学治疗开始之前和之后收集的样品)中ctDNA的富集。体外尺寸选择导致从47/48血浆样品的sWGS数据计算的t-MAD得分提高(98％，t-检验，p＝0.06)，具有平均2.5倍并且中值2.1倍的提高(图14A)。然后将t-MAD得分与通过sWGS获得的来自健康个体的血浆样品的得分进行比较。48个经尺寸选择的HGSOC血浆样品中的44个(92％)的t-MAD得分大于在体外尺寸选择的健康血浆样品中确定的最高t-MAD值，相较之下，在不具有尺寸选择的情况下在48个中仅有24个(50％)(图14A和图15)。比较来自癌症患者(开始治疗之前和治疗之后，n＝48)和健康对照(n＝46)的样品的t-MAD得分的ROC分析揭示，在体外尺寸选择之后，AUC为0.97，且最大灵敏度和特异性分别为90％和98％。这明显优于在不具有尺寸选择的情况下通过sWGS的检测(AUC＝0.64)(图14B)。

然后对其进行探究以确定灵敏度提高是否导致检测到具有潜在临床价值的SCNA。在基因组中，33/35(94％)的HGSOC患者在尺寸选择之后评价SCNA的t-MAD得分更高，并且拷贝数(log₂比值)值的绝对水平在体外尺寸选择之后显著提高(针对平均值的t-检验，p＝0.003)(图14C)。然后比较HGSOC中频繁改变的15个基因的相对拷贝数值(表3)。在尺寸选择之后对血浆cfDNA的分析揭示了在不具有尺寸选择的情况下在相同样品中观察不到的大量SCNA(图14D)，包括关键基因例如NF1、TERT和MYC的扩增(图16)。

为了排除尺寸选择可能仅提高对sWGS分析的灵敏度的可能性，对是否发现替代物的富集进行检查。对来自具有7种癌症类型的23名患者的血浆cfDNA进行了全外显子组测序(图2)。可使用WES数据完成携带突变体或非突变体等位基因的片段的尺寸分布的比较(图17A)，并表明尺寸选择是否可鉴定另外的突变。选择患有HGSOC的6名患者，并在具有和不具有体外尺寸选择的情况下在90至150bp范围内进行血浆DNA的WES，分析治疗开始之前和之后的时间点(36)。另外，对相同范围的片段尺寸进行机上尺寸选择(图17A)。SNV的MAF的分析揭示，在体外尺寸选择(平均4.19倍，中值4.27倍的提高，t-检验，p＜0.001)和机上尺寸选择(平均2.20倍，中值2.25倍的提高，t-检验，p＜0.001)二者的情况下，肿瘤分数的统计学显著富集(图17A和图18)。在开始治疗之后三周，ctDNA水平通常较低(36)，并且因此使用标记扩增子深度测序(TAm-Seq)进一步分析治疗之后血浆样品(37)。观察到通过体外尺寸选择的MAF的富集与不具有尺寸选择的情况下的相同样品相比为0.9至118倍(平均2.1倍，中值1.5倍)(图19)。

与没有尺寸选择相比，在具有体外和计算机方法二者的情况下的尺寸选择使通过WES检测到的突变数目平均提高53％(图17B)。在未经尺寸选择的样品中总共鉴定了1023个突变。通过体外尺寸选择检测到另外的260个突变，并且在机上尺寸选择之后调用了另外的310个突变(图17B和表4)。也可在肿瘤标本中检测到新突变，这排除了突变检测灵敏度的提高是测序假象的结果的可能性。然后在16名患者的独立组群中使用机上尺寸选择，其中可获得匹配的肿瘤组织DNA。机上尺寸选择富集了几乎所有突变的MAF(2061/2133，97％)，其中MAF平均提高×1.7(图17C)。对于16名患者中的13名(81％)，在机上尺寸选择之后，在血浆中鉴定了另外的突变。这82个另外的突变中的23个(28％)被确定存在于匹配的肿瘤组织DNA中(图17D)。值得注意的是，这包括关键癌症基因包含BRAF、ARID1A和NF1的突变(图20)。

实施例7：通过组合cfDNA片段化和体细胞改变分析的监督机器学习来检测癌症。

重要的是要注意，尽管体外和机上尺寸选择提高了检测的灵敏度，但它们也导致丢失用于分析的cfDNA。未被突变改变的癌症基因组区域也被排除在外并且不能有助于分析(图21)。假设利用cfDNA片段化谱的其他生物学特性可增强ctDNA的检测。

sWGS数据定义了其他cfDNA片段化特征，包括(1)多个尺寸范围的片段比例，(2)不同尺寸的片段比例的比值以及(3)片段尺寸密度中具有10bp周期性的振荡幅度(图22A)。在癌症患者和健康个体之间比较了这些片段化特征(图23)，并且表示20至150bp的片段比例(P)的特征显示出最高的AUC(0.819)。由t-MAD和片段化特征表示的样品的主要组分分析(PCA)显示了健康和癌变样品之间的分离，并且片段化特征与t-MAD得分聚类(图22B)。

此外，探究了片段化特征增强血浆样品中肿瘤DNA检测的潜力。使用304个样品(239个来自癌症患者并且65个来自健康对照)的t-MAD得分和9个片段化特征进行了预测分析(图22C和图24以及表2)。从sWGS确定的9个片段化特征包括基于以下限定尺寸范围内的片段比例(P)的五个特征：P(20至150)、P(100至150)、P(160至180)、P(180至220)、P(250至320)；基于这些比例的比值的三个特征：P(20至150)/P(160至180)、P(100至150)/P(163至169)、P(20至150)/P(180至220)；以及基于低于150bp观察到的具有10bp周期性的振荡幅度的另一些特征。

使用对153个样品进行训练的逻辑回归(LR)和随机森林(RF)进行变量选择并将样品分类为“健康”或“癌症”，并且在94个和83个独立样品的两个数据集上验证(图22C)。LR模型的最佳特征集包括t-MAD、10bp幅度、P(160至180)、P(180至220)和P(250至320)。使用RF模型独立鉴定了相同的五个变量(它们的排名具有一些差异)。图25示出了使用交叉验证对训练集数据的不同算法的性能度量。分类算法的源代码在以下标题为“代码”的部分示出。在验证泛癌数据集中单独使用t-MAD(图22D和图24)，可以以AUC＝0.764区分癌症样品与健康个体。使用LR模型将样品的分类提高至AUC＝0.908。RF模型(在153个样品训练集上训练)可在验证数据集(n＝94)中以AUC＝0.994甚至更准确地区分癌症与健康个体。在包含低ctDNA癌症样品(n＝83)的第二验证数据集上(图22E)，单独的t-MAD或LR表现地不太良好，其中AUC值分别为0.421和0.532。然而，RF模型仍能够以AUC＝0.914区分来自低ctDNA癌症的样品与来自健康对照的样品。在95％的特异性下，RF模型将来自高ctDNA癌症(结直肠癌、胆管癌、卵巢癌、乳腺癌、黑素瘤)的样品的64/68(94％)和来自低ctDNA癌症(胰腺癌、肾癌、胶质瘤)的样品的37/57(65％)正确分类为癌症(图22F)。在模型训练的第二迭代中，仅使用4个片段化特征，省略t-MAD(图26)。RF模型仍可区分癌症与健康对照，尽管AUC略有降低(具有高ctDNA水平的癌症类型为0.989，并且具有低ctDNA水平的癌症类型为0.891)，这表明cfDNA片段化模式是最重要的预测组分。

实施例8：使用随机森林(RF)模型预测癌症患者体液中ctDNA的检测

根据本发明并如实施例7中所述的随机森林(RF)模型基于长度为20至150、100至150、160至180、163至169、180至220和250至320bp的血浆无细胞DNA片段的密度或比例以及具有10bp周期性的振荡幅度，并且可预测已从患有癌症的个体收集的给定血浆样品的概率。

另外，我们的数据表明，这种相同RF分类模型的输出可允许将癌症患者液体样品分类为具有对于通过其他方法检测而言足够高ctDNA水平的样品(包括具有更高灵敏度和/或允许靶向分析特定的体细胞突变的那些)以及不具有足够高ctDNA水平的那些。

在将RF模型应用于患有肾细胞癌(RCC)的患者的血浆样品之后，对于通过RF模型的具有癌症概率＞50％的那些：

通过我们的定制组测序的变体读段的整合(INVAR TAPAS)法(参见2018年3月6日提交的共同未决专利申请GB1803596.4，其内容通过引用并入本文)，约62％在血浆中具有可检测的ctDNA；

通过INVAR和/或t-MAD(后者如上所述)，约63％在血浆中具有可检测的ctDNA；

通过INVAR和/或t-MAD，约81％在血浆和/或尿液中具有可检测的ctDNA。相反地，通过RF模型的仅11％的具有癌症概率＜50％的血浆样品具有可检测的ctDNA。这在图27中进行了总结。

总之，该分析具有突出其中ctDNA分析(通过更敏感或更具针对性的方法，例如INVAR-TAPAS)更有可能产生信息输出的那些癌症患者的潜力。反过来，这些样品更有可能被证明在临床上有用，例如，潜在地允许通过识别抗性突变预测对治疗的响应、疾病预测和通过应用靶向方法来评估克隆性演变。这可证明与其中ctDNA检测不可靠的那些癌症类型(例如肾癌和胶质母细胞瘤)特别相关，即使在预计ctDNA检测可靠的疾病晚期(基于来自其他癌症类型的等效数据)。此外，初步结果(未示出)表明上述RCC发现在胶质母细胞瘤组群中得到证实。

讨论：

我们的结果表明，用片段特异性分析探究cfDNA的基本特性可提供更灵敏的ctDNA分析。我们使选择标准基于生物学观察，即ctDNA片段尺寸分布与正常cfDNA不同。我们的工作基于对200名具有多种癌症类型的患者和65名健康个体的血浆cfDNA片段化模式进行全面调查。我们鉴定了可确定血浆样品中ctDNA的存在和量的特征，而无需先验的体细胞畸变知识。尽管该目录是其同类中的第一个，但我们注意到它采用了血浆样品的双链DNA，并且受到我们所使用的DNA提取和测序方法引起的潜在偏差的影响。另外的生物学作用可有助于cfDNA的进一步选择性分析。其他体液(尿、脑脊液、唾液)、不同的核酸和结构、释放到循环中的机制改变或样品处理方法可能显示不同的片段尺寸特征，并且可为选择性测序提供另外的可利用的生物学模式。

先前的工作已报道了突变体ctDNA的尺寸分布，但仅考虑了有限的基因组基因座、癌症类型或病例(30，32，33)。我们在全基因组和泛癌范围内确定了突变体DNA和非突变体DNA之间的尺寸差异。我们开发了在不使用高深度WGS的情况下对突变体ctDNA根据尺寸排列的方法。通过对每名患者＞150个突变以高深度进行测序，我们获得了可明确确定为肿瘤来源的大量读段，并且因此确定了癌症患者中突变体ctDNA和非突变cfDNA的尺寸分布。我们方法的潜在限制是基于捕获的测序受探针捕获效率的影响，并且因此我们的数据可能没有准确地反映＜100bp或＞300bp的ctDNA片段。

我们的工作提供了强有力的证据，即许多癌症类型的ctDNA的模态尺寸小于167bp，167bp是缠绕在染色体周围的DNA的长度。另外，我们的工作还表明，在尺寸大于167bp下，特别地在250至320bp范围内，存在高水平的突变体DNA片段的富集。这些更长的片段可解释可在癌症患者的血浆中检测到更长的ctDNA的先前的观察(29，32)。这些长片段的来源仍然未知，并且它们的观察可能与技术因素有关。然而，有可能的情况是将cfDNA压缩并释放到循环中的机制可根据其来源而不同，这将通过不同的片段尺寸反映(38)。提高对这些片段的表征将是重要的，特别是对于组合ctDNA分析与血液中的其他实体(例如微泡和肿瘤训化的血小板)的未来工作(39，40)。片段特异性分析不仅提高了检测罕见突变的灵敏度，而且可用于追踪ctDNA尺寸分布的改变。未来工作应解决这种方法是否可用于阐明治疗对肿瘤细胞的机械作用，例如通过基于片段尺寸区分坏死和凋亡(41)。

在癌症治疗期间的多个时间点处对血浆DNA进行全基因组和外显子组测序已被提出作为研究癌症演变的非侵入性手段并用于鉴定可能的治疗抗性机制(3)。然而，WGS和WES方法成本高并且因此迄今为止仅适用于肿瘤DNA分数＞5％至10％的样品(3-5，42)。我们证明我们可使用体外和机上尺寸选择利用片段长度的差异来富集血浆样品中的肿瘤含量，这提高了sWGS和WES数据中的突变和SCNA检测。我们证明了尺寸选择提高了对血浆中以低等位基因分数存在的突变的检测，同时通过sWGS和WES维持低测序深度。尺寸选择可用简单的方式并且以低成本实现，并且与广泛的下游全基因组和靶向基因组分析兼容，极大地提高了液体活检的潜在价值和效用。

尺寸选择可适用于计算机，这不引起增加成本；或者适用于体外，这增加了可应用于提取的DNA或从中创建的文库的简单且低成本的中间步骤。这种前瞻性地应用于新研究的方法可增强ctDNA检测和分析的临床效用，并为重新分析大量现有数据创造机会(4，34，43)。该技术的局限性在于材料和信息的潜在丢失，因为一些信息片段可存在于在分析中被滤除或不优先考虑的尺寸范围内。如果血浆中仅存在目的片段的数个拷贝，则这可能特别有问题。尽管可能丢失材料，但我们证明分类算法可从cfDNA片段化特征和SCNA分析中学习，并用廉价的测序方法提高ctDNA的检测(图22)。此外，单独的cfDNA片段特征可用于以高准确性对癌症和健康样品进行分类(高ctDNA癌症的AUC＝0.989，并且低ctDNA癌症的AUC＝0.891)(图26)。

分析片段尺寸可在其他应用中提供改善。在每个读段中引入片段尺寸信息可增强来自高深度测序的突变调用算法，以从其他来源例如体细胞变体或背景测序噪声鉴定肿瘤来源突变。另外，CHIP患者的cfDNA分析可与肿瘤细胞增殖期间释放的ctDNA在结构上不同(18，19)。因此，片段化分析或选择性测序策略可用于区分临床相关的肿瘤突变与正常细胞的克隆性扩增中存在的突变。这对于开发用于鉴定早期癌症患者的基于cfDNA的方法至关重要。

尺寸选择也可对体液中其他类型DNA的检测具有影响，或者用于富集循环细菌或病原体DNA和线粒体DNA的信号。这些DNA片段与核小体无关，并且通常在低于100bp下高度片段化。根据最近在微生物组和治疗效率之间建立的联系，过滤这样的片段可被证明是重要的(17，44)。此外，最近的工作突出了ctDNA检测与细胞增殖比与细胞死亡之间更强的相关性(45)。我们假设145bp下的ctDNA片段尺寸的分布模式可反映细胞增殖期间释放的cfDNA，并且167bp下的片段可反映由血细胞的凋亡或成熟/更新(turnover)释放的cfDNA。其他癌症特征(46)对ctDNA生物学、结构、浓度和释放的影响尚不清楚。

总之，ctDNA片段尺寸分析通过尺寸选择和机器学习方法促进了肿瘤DNA的非侵入性基因组分析。较短血浆DNA片段的尺寸选择富集了ctDNA，并导致用靶向和非靶向测序二者以最小的另外成本鉴定了更大量的基因组改变。组合cfDNA片段尺寸分析与具有非线性分类算法的SCNA检测提高了来自癌症患者和健康个体的样品之间的鉴别力。由于片段尺寸的分析基于ctDNA的结构特性，因此尺寸选择可用于任何下游测序应用。我们的工作可帮助克服目前对液体活检灵敏度的限制，支持扩展的临床和研究应用。我们的结果表明，利用cfDNA的内源性生物学特性为更深层次的ctDNA测序提供了替代范例。

代码

用于上述实施例中描述的分类算法的以下示例性分析代码在R编程环境中(参见https：//www.r-project.org/about.html)。特征可从表2获取，其中样品被分为A组癌症(“高ctDNA癌症”)和B组(“低ctDNA癌症”)，并且其中每个中均使用健康对照(即每个文件中的副本)。

本文中引用的所有参考文献均通过引用整体并入本文并且用于所有目的，其程度如同每个单独的出版物或专利或专利申请被具体地且单独地指出通过引用整体并入本文。

本文中所述的具体实施方案通过示例而不是通过限制来提供。本文中包含的任何小标题仅是为了方便起见，而不应被解释为以任何方式限制本公开内容。

参考文献

1.G.Siravegna，S.Marsoni，S.Siena，A.Bardelli，Integrating liquidbiopsies into the management of cancer，Nat.Rev.Clin.Oncol.(2017)，doi：10.1038/nrclinonc.2017.14.

2.J.C.M.Wan，C.Massie，J.Garcia-Corbacho，F.Mouliere，J.D.Brenton，C.Caldas，S.Pacey，R.Baird，N.Rosenfeld，Liquid biopsies come of age：towardsimplementation of circulating tumour DNA，Nat.Rev.Cancer 17，223-238(2017).

3.M.Murtaza，S.-J.Dawson，D.W.Y.Tsui，D.Gale，T.Forshew，A.M.Piskorz，C.Parkinson，S.-F.Chin，Z.Kingsbury，A.S.C.Wong，F.Marass，S.Humphray，J.Hadfield，D.Bentley，T.M.Chin，J.D.Brenton，C.Caldas，N.Rosenfeld，Non-invasive analysis ofacquired resistance to cancer therapy by sequencing of plasma DNA，Nature 497，108-112(2013).

4.V.A.Adalsteinsson，G.Ha，S.S.Freeman，A.D.Choudhury，D.G.Stover，H.A.Parsons，G.Gydush，S.C.Reed，D.Rotem，J.Rhoades，D.Loginov，D.Livitz，D.Rosebrock，I.Leshchiner，J.Kim，C.Stewart，M.Rosenberg，J.M.Francis，C.-Z.Zhang，O.Cohen，C.Oh，H.Ding，P.Polak，M.Lloyd，S.Mahmud，K.Helvie，M.S.Merrill，R.A.Santiago，E.P.O′Connor，S.H.Jeong，R.Leeson，R.M.Barry，J.F.Kramkowski，z.Zhang，L.Polacek，J.G.Lohr，M.Schleicher，E.Lipscomb，A.Saltzman，N.M.Oliver，L.Marini，A.G.Waks，L.C.Harshman，S.M.Tolaney，E.M.Van Allen，E.P.Winer，N.U.Lin，M.Nakabayashi，M.-E.Taplin，C.M.Johannessen，L.A.Garraway，T.R.Golub，J.S.Boehm，N.Wagle，G.Getz，J.C.Love，M.Meyerson，Scalable whole-exome sequencing of cell-freeDNA reveals highconcordance with metastatic tumors，Nat.Commun.8，1324(2017).

5.E.Heitzer，P.Ulz，J.Belic，S.Gutschi，F.Quehenberger，K.Fischereder，T.Benezeder，M.Auer，C.Pischler，S.Mannweiler，M.Pichler，F.Eisner，M.Haeusler，S.Riethdorf，K.Pantel，H.Samonigg，G.Hoefle，H.Augustin，J.B.Geigl，M.R.Speicher，Tumor-associated copy number changes in the circulation of patients withprostate cancer identified through whole-genome sequencing，Genome Med.5，30(2013).

6.C.Bettegowda，M.Sausen，R.J.Leary，I.Kinde，Y.Wang，N.Agrawal，B.R.Bartlett，H.Wang，B.Luber，R.M.Alani，E.S.Antonarakis，N.S.Azad，A.Bardelli，H.Brem，J.L.Cameron，C.C.Lee，L.A.Facher，G.L.Gallia，P.Gibbs，D.Le，R.L.Giuntoli，M.Goggins，M.D.Hogarty，M.Holdhoff，S.-M.Hong，Y.Jiao，H.H.Juhl，J.J.Kim，G.Siravegna，D.A.Laheru，C.Lauricella，M.Lim，E.J.Lipson，S.K.N.Marie，G.J.Netto，K.S.ctiner，A.Olivi，L.Olsson，G.J.Riggins，A.Sartore-Bianchi，K.Schmidt，l.-M.Shih，S.M.Oba-Shinjo，S.Siena，D.Theodorescu，J.Tie，T.T.Harkins，S.Veronese，T.-L.Wang，J.D.Weingart，C.L.Wolfgang，L.D.Wood，D.Xing，R.H.Hruban，J.Wu，P.J.Allen，C.M.Schmidt，M.A.Choti，V.E.Velculescu，K.W.Kinzler，B.Vogelstein，N.Papadopoulos，L.A.Diaz，Detection of Circulating Tumor DNA in Early-and Late-Stage HumanMalignancies，Sci.Transl.Med.6，224ra24-224ra24(2014).

7.F.Diehl，M.Li，D.Dressman，Y.He，D.Shen，S.Szabo，L.A.Diaz，S.N.Goodman，K.A.David，H.Juhl，K.W.Kinzler，B.Vogelstein，Detection and quantification ofmutations in the plasma of patients with colorectal tumors，Proc.Natl.Acad.Sci.102，16368-16373(2005).

8.S.-J.Dawson，D.W.Y.Tsui，M.Murtaza，H.Biggs，O.M.Rueda，S.-F.Chin，M.J.Dunning，D.Gale，T.Forshew，B.Mahler-Araujo，S.Rajah，S.Humphray，J.Becq，D.Halsall，M.Wallis，D.Bentley，C.Caldas，N.Rosenfeld，Analysis of CirculatingTumor DNA to Monitor Metastatic Breast Cancer，N.Engl.J.Med.368，1199-1209(2013).

9.F.Diehl，K.Schmidt，M.A.Choti，K.Romans，S.Goodman，M.Li，K.Thornton，N.Agrawal，L.Sokoll，S.A.Szabo，K.W.Kinzler，B.Vogelstein，L.A.Diaz，Circulatingmutant DNA to assess tumor dynamics.，Nat.Med.14，985-90(2008).

10.J.Tie，Y.Wang，C.Tomasetti，L.Li，S.Springer，I.Kinde，N.Silliman，M.Tacey，H.-L.Wong，M.Christie，S.Kosmider，I.Skinner，R.Wong，M.Steel，B.Tran，J.Desai，I.Jones，A.Haydon，T.Hayes，T.J.Price，R.L.Strausberg，L.A.Diaz，N.Papadopoulos，K.W.Kinzler，B.Vogelstein，P.Gibbs，Circulating tumor DNAanalysis detects minimal residual disease and predicts recurrence in patientswith stage II colon cancer.，Sci.Transl.Med.8，346ra92(2016).

11.A.A.Chaudhuri，J.J.Chabon，A.F.Lovejoy，A.M.Newman，H.Stehr，T.D.Azad，M.S.Khodadoust，M.S.Esfahani，C.L.Liu，L.Zhou，F.Scherer，D.M.Kurtz，C.Say，J.N.Carter，D.J.Merriott，J.C.Dudley，M.S.Binkley，L.Modlin，S.K.Padda，M.F.Gensheimer，R.B.West，J.B.Shrager，J.W.Neal，H.A.wakelee，B.W.Loo，A.A.Alizadeh，M.Diehn，Early Detection of Molecular Residual Disease inLocalized Lung Cancer by Circulating Tumor DNA Profiling.，Cancer Discov.7，1394-1403(2017).

12.J.D.Cohen，L.Li，Y.Wang，C.Thoburn，B.Afsari，L.Danilova，C.Douville，A.A.Javed，F.Wong，A.Mattox，R.H.Hruban，C.L.Wolfgang，M.G.Goggins，M.Dal Molin，T.-L.Wang，R.Roden，A.P.Klein，J.Ptak，L.Dobbyn，J.Schaefer，N.Silliman，M.Popoli，J.T.Vogelstein，J.D.Browne，R.E.Schoen，R.E.Brand，J.Tie，P.Gibbs，H.-L.Wong，A.S.Mansfield，J.Jen，S.M.Hanash，M.Falconi，P.J.Allen，S.Zhou，C.Bettegowda，L.A.Diaz，C.Tomasetti，K.W.Kinzler，B.Vogelstein，A.M.Lennon，N.Papadopoulos，Detection and localization of surgically resectable cancers with a mu1ti-analyte blood test.，Science 359，926-930(2018).

13.I.S.Haque，O.Elemento，Challenges in Using ctDNA to Achieve EarlyDetection of Cancer，bioRxiv，237578(2017).

14.A.M.Newman，A.F.Lovejoy，D.M.Klass，D.M.Kurtz，J.J.Chabon，F.Scherer，H.Stehr，C.L.Liu，S.V Bratman，C.Say，L.Zhou，J.N.Carter，R.B.West，G.W.Sledge Jr，J.B.Shrager，B.W.Loo，J.W.Neal，H.A.Wakelee，M.Diehn，A.A.Alizadeh，Integrateddigital error suppression for improved detection of circulating tumor DNA，Nat.Biotechnoi.34，547-555(2016).

15.P.Uiz，G.G.Thallinger，M.Auer，R.Graf，K.Kashofer，S.W.Jahn，L.Abete，G.Pristauz，E.Petru，J.B.Geigl，E.Heitzer，M.R.Speicher，Inferring expressed genesby whole-genome sequencing of plasma DNA，Nat.Genet.48，1273-1278(2016).

16.M.W.Snyder，M.Kircher，A.J.Hill，R.M.Daza，J.Shendure，Cell-free DNAComprises an In Vivo Nucleosome Footprint that Informs Its Tissues-Of-Origin.，Cell 164，57-68(2016).

17.P.Burnham，M.S.Kim，S.Agbor-Enoh，H.Luikart，H.A.Valantine，K.K.Khush，I.De Vlaminck，Single-stranded DNA library preparation uncovers the origin anddiversity of ultrashort cell-free DNA in plasma，Sci.Rep.6，27859(2016).

18.G.Genovese，A.K.

，R.E.Handseker，J.Lindberg，S.A.Rose，S.F.Bakhoum，K.Chambert，E.Mick，B.M.Neale，M.Fromer，S.M.Purcell，O.Svantesson，M.Landén，M.

，S.Lehmann，S.B.Gabriel，J.L.Moran，E.S.Lander，P.F.Sullivan，P.Sklar，H.

，C.M.Hultman，S.A.McCarroll，Clonal Hematopoiesis and Blood-Cancer Risk Inferred from Blood DNA Sequence，N.Engl.J.Med.371，2477-2487(2014).

19.Y.Hu，B.Ulrich，J.Supplee，Y.Kuang，P.H.Lizotte，N.Feeney，N.Guibert，M.M.Awad，K.-K.Wong，P.A.Janne，C.P.Paweletz，G.R.Oxnard，False positive plasmagenotyping due to clonal hematopoiesis.，Clin.Cancer Res.，clincanres.0143.2018(2018).

20.A.J.Bronkhorst，J.F.Wentzel，J.Aucamp，E.van Dyk，L.du Plessis，P.J.Pretorius，Characterization of the cell-free DNA released by culturedcancer cells，Biochim.Biophys.Acta-Mol.Cell Res.1863，157-165(2016).

21.S.Jahr，H.Hentze，S.Englisch，D.Hardt，F.O.Fackelmayer，R.D.Hesch，R.Knippers，DNA fragments in the blood plasma of cancer patients：quantitationsand evidence for their origin from apoptotic and necrotic cells.，CancerRes.61，1659-65(2001).

22.Y.M.D.Lo，K.C.A.Chan，H.Sun，E.Z.Chen，P.Jiang，F.M.F.Lun，Y.W.zheng，T.Y.Leung，T.K.Lau，C.R.Cantor，R.W.K.Chiu，Maternal plasma DNA sequencingreveals the genome-wide genetic and mutational profile of the fetus.，Sci.Transl.Med.2，61ra91(2010).

23.D.Chandrananda，N.P.Thorne，M.Bahlo，L.-S.Tam，G.Liao，E.Li，High-resolution characterization of sequence signatures due to non-random cleavageof cell-free DNA，BMC Med.Genomics 8，29(2015).

24.P.Jiang，Y.M.D.Lo，The Long and Short of Circulating Cell-Free DNAand the Ins and Outs of Molecular Diagnostics，Trends Genet.32，360-371(2016).

25.S.C.Y.Yu，K.C.A.Chan，Y.W.L.Zheng，P.Jiang，G.J.W.Liao，H.Sun，R.Akolekar，T.Y.Leung，A.T.J.I.Go，J.M.G.van Vugt，R.Minekawa，C.B.M.Oudejans，K.H.Nicolaides，R.W.K.Chiu，Y.M.D.Lo，Size-based molecular diagnostics usingplasma DNA for noninvasive prenatal testing.，Proc.Natl.Acad.Sci.U.S.A.111，8583-8(2014).

26.F.M.F.Lun，N.B.Y.Tsui，K.C.A.Chan，T.Y.Leung，T.K.Lau，P.Charoenkwan，K.C.K.Chow，W.Y.W.Lo，C.Wanapirak，T.Sanguansermsri，C.R.Cantor，R.W.K.Chiu，Y.M.D.Lo，Noninvasive prenatal diagnosis of monogenic diseases by digital sizeselection and relative mutation dosage on DNA in maternal plasma.，Proc.Natl.Acad.Sci.U.S.A.105，19920-5(2008).

27.G.Minarik，G.Repiska，M.Hyblova，E.Nagyova，K.Soltys，J.Budis，F.Duris，R.Sysak，M.Gerykova Bujalkova，B.Vlkova-Izrael，O.Biro，B.Nagy，T.Szemes，Utilization of Benchtop Next Generation Sequencing Platforms Ion Torrent PGMand MiSeq in Noninvasive Prenatal Testing for Chromosome 21 Trisomy andTesting of Impact of In Silico and Physical Size Selection on Its AnalyticalPerformance.，PLoS One 10，e0144811(2015).

28.M.B.Giacona，G.C.Ruben，K.A.Iczkowski，T.B.Roos，D.M.Porter，G.D.Sorenson，Cell-Free DNA in Human Blood Plasma，Pancreas 17，89-97(1998).

29.N.Umetani，A.E.Giuliano，S.H.Hiramatsu，F.Amersi，T.Nakagawa，S.Martino，D.S.B.Hoon，Prediction of breast tumor progression by integrity offree circulating DNA in serum.，J.Clin.Oncol.24，4270-6(2006).

30.F.Mouliere，B.Robert，E.Arnau Peyrotte，M.Del Rio，M.Ychou，F.Molina，C.Gongora，A.R.Thierry，T.Lee，Ed.High Fragmentation Characterizes Tumour-Derived Circulating DNA，PLoS One 6，e23418(2011).

31.F.Mouliere，S.El Messaoudi，D.Pang，A.Dritschilo，A.R.Thierry，Multi-marker analysis of circulating cell-free DNA toward personalized medicine forcolorectal cancer，Mol.Oncol.8，927-941(2014).

32.P.Jiang，C.W.M.Chan，K.C.A.Chan，S.H.Cheng，J.Wong，V.W.-S.Wong，G.L.H.Wong，S.L.Chan，T.S.K.Mok，H.L.Y.Chan，P.B.S.Lai，R.W.K.Chiu，Y.M.D.Lo，Lengthening and shortening of plasma DNA in hepatocellular carcinomapatients.，Proc.Natl.Acad.Sci.U.S.A.112，E1317-25(2015).

33.H.R.Underhill，J.O.Kitzman，S.Hellwig，N.C.Welker，R.Daza，D.N.Baker，K.M.Gligorich，R.C.Rostomily，M.P.Bronner，J.Shendure，D.JKwiatkowski，Ed.FragmentLength of Circulating Tumor DNA，PLOS Genet.12，e1006162(2016).

34.O.A.Zill，K.C.Banks，S.R.Fairclough，S.A.Mortimer，J.VVowles，R.Mokhtari，D.R.Gandara，P.C.Mack，J.I.Odegaard，R.J.Nagy，A.M.Baca，H.Eltoukhy，D.I，Chudova，R.B.Lanman，A，Talasaz，The Landscape of Actionable GenomicAlterations in Cell-Free Circulating Tumor DNA from 21，807 Advanced CancerPatients.，Clin.Cancer Res.，clincanres.3837.2017(2018).

35.G.Macintyre，T.E.Gorancva，D.De Silva，D.Ennis，A.M.Piskorz，M.Eldridge，D.Sie，L.-A.Lewsley，A.Hanif，C.Wilson，S.Dowson，R.M.Glasspool，M.Lockley，E.Brockbank，A.Montes，A.Walther，S.Sundar，R.Edmondson，G.D.Hall，A.Clamp，C.Gourley，M.Hall，C.Fotopoulou，H.Gabra，J.Paul，A.Supernat，D.Millan，A.Hoyle，G.Bryson，C.Nourse，L.Mincarelli，L.N.Sanchez，B.Ylstra，M.Jimenez-Linan，L.Moore，O.Hofmann，F.Markowetz，I.A.McNeish，J.D.Brenton，Copy number signaturesand mutational processes in ovarian carcinoma，Nat.Genet.，1(2018).

36.C.A.Parkinson，D.Gale，A.M.Piskorz，H.Biggs，C.Hodgkin，H.Addley，S.Freeman，P.Moyle，E.Sala，K.Sayal，K.Hosking，I.Gounaris，M.Jimenez-Linan，H.M.Earl，W.Qian，N.Rosenfeld，J.D.Brenton，E.R.Mardis，Ed.Exploratory Analysis ofTP53 Mutations in Circulating Tumour DNA as Biomarkers of Treatment Responsefor Patients with Relapsed High-Grade Serous Ovarian Carcinoma：ARetrospective Study，PLQS Med.13，e1002198(2016).

37.T.Forshew，M.Murtaza，C.Parkinson，D.Gale，D.W.Y.Tsui，F.Kaper，S.-J.Dawson，A.M.Piskorz，M.Jimenez-Linan，D.Bentiey，J.Hadfield，A.P.May，C.Caldas，J.D.Brenton，N.Rosenfeld，Noninvasive identification and monitoring of cancermutations by targeted deep sequencing of plasma DNA.，Sci.Transl.Med.4，136ra68(2012).

38.A.R.Thierry，S.El Messaoudi，P.B.Gahan，P.Anker，M.Stroun，Origins，structures，and functions of circulatingDNA in oncology，Cancer MetastasisRev.35，347-376(2016).

39.M.G.Best，N.Sol，B.A.Tannous，P.Weaseling，T.Wurdinger，RNA-Seq ofTumor-Educated Platelets Enables Blood-Based Pan-Cancer，Multiclass，andMolecular Pathway Cancer Diagnostics，Cancer Cell 28，666-676(2015).

40.M.G.Best，N.Sol，S.G.J.G.In′t Veld，A.Vancura，M.Muller，A.-L.N.Niemeijer，A.V Fejes，L.-A.Tjon Kon Fat，A.E.Huis In′t Veld，C.Leurs，T.Y.LeLarge，L.L.Meijer，I.E.Kooi，F.Rustenburg，P.Schellen，H.verschueren，E.Post，L.E.Wedekind，J.Bracht，M.Esenkbrink，L.Wils，F.Favaro，J.D.Schoonhoven，J.Tannous，H.Meijers-Heijboer，G.Kazemier，E.Giovannetti，J.C.Reijneveld，S.Idema，J.Killestein，M.Heger，S.C.de Jager，R.T.Urbanus，I.E.Hoefer，G.Pasterkamp，C.Mannhalter，J.Gomez-Arroyo，H.-J.Bogaard，D.P.Noske，W.P.Vandertop，D.van denBroek，B.Ylstra，R.J.A.Nilsson，P.Wesseling，N.Karachaliou，R.Rosell，E.Lee-Lewandrowski，K.B.Lewandrowski，B.A.Tannous，A.J.de Langen，E.F.Smit，M.M.van denHeuvel，T.Wurdinger，Swarm Intelligence-Enhanced Detection of Non-Small-CellLung Cancer Using Tumor-Educated Platelets.，Cancer Cell 32，238-252.e9(2017).

41.A.L.Riediger，S.Dietz，U.Schirmer，M.Meister，I.Heinzmann-Groth，M.Schneider，T.Muley，M.Thomas，H.Sültmann，Mutation analysis of circulatingplasma DNA to determine response to EGFR tyrosine kinase inhibitor therapy oflung adenocarcinoma patients，Sci.Rep.6，33505(2016).

42.J.Belic，M.Koch，P.Ulz，M.Auer，T.Gerhalter，S.Moban，K.Fischereder，E.Petru，T.Bauernhofer，J.B.Geigl，M.R.Speicher，E.Heitzer，Rapid Identificationof Plasma DNA Samples with Increased ctDNA Levels by a Modified FAST-SeqSApproach，Clin.Chem.61，838-849(2015).

43.D.G.Stover，H.A.Parsons，G.Ha，S.S.Freeman，W.T.Barry，H.Guo，A.D.Choudhury，G.Gydush，S.C.Reed，J.Rhoades，D.Rotem，M.E.Hughes，D.A.Dillon，A.H.Partridge，N.Wagle，I.E.Krop，G.Getz，T.R.Golub，J.C.Love，E.P.Winer，S.M.Tolaney，N.U.Lin，V.A.Adalsteinsson，Association of Cell-Free DNA TumorFraction and Somatic Copy Number Alterations With Survival in MetastaticTriple-Negative Breast Cancer.，J.Clin.Oncol.36，543-553(2018).

44.B.Routy，E.Le Chatelier，L.Derosa，C.P.M.Duong，M.T.Alou，R.Daillère，A.Fluckiger，M.Messaoudene，C.Rauber，M.P.Roberti，M.Fidelle，C.Flament，V.Poirier-Colame，P.Opolon，C.Klein，K.Iribarren，L.Mondragón，N.Jacquelot，B.Qu，G.Ferrere，C.Clémenson，L.Mezquita，J.R.Masip，C.Naltet，S.Brosseau，C.Kaderbhai，C.Richard，N.Rizvi，F.Levenez，N.Galleron，B.Quinquis，N.Pons，B.Ryffel，V.Minard-Colin，P.Gonin，J.-C.Soria，E.Deutsch，Y.Loriot，F.Ghiringhelli，G.zalcman，F.Goldwasser，B.Escudier，M.D.Hellmann，A.Eggermont，D.Raoult，L.Albiges，G.Kroemer，L.zitvogel，Gut microbiome influences efficacy of PD-1-based immunotherapy againstepithelial tumors.，Science 359，91-97(2018).

45.C.Abbosh，N.J.Birkbak，G.A.Wilson，M.Jamal-Hanjani，T.Constantin，R.Salari，J.Le Quesne，D.A.Moore，S.Veeriah，R.Rosenthal，T.Marafioti，E.Kirkizlar，T.B.K.Watkins，N.McGranahan，S.Ward，L.Martinson，J.Riley，F.Fraioli，M.Al Bakir，E.

，F.Zambrana，R.Endozo，W.L.Bi，F.M.Fennessy，N.Sponer，D.Johnson，J.Laycock，S.Shafi，J.Czyzewska-Khan，A.Rowan，T.Chambers，N.Matthews，S.Turajlic，C.Hiley，S.M.Lee，M.D.Forster，T.Ahmad，M.Falzon，E.Borg，D.Lawrence，M.Hayward，S.Kolvekar，N.Panagiotopoulos，S.M.Janes，R.Thakrar，A.Ahmed，F.Blackhall，Y.Summers，D.Hafez，A.Naik，A.Ganguly，S.Kareht，R.Shah，L.Joseph，A.Marie Quinn，P.A.Crosbie，B.Naidu，G.Middleton，G.Langman，S.Trotter，M.Nicolson，H.Remmen，K.Kerr，M.Cherty，L.Gomersall，D.A.Fennell，A.Nakas，S.Rathinam，G.Anand，S.Khan，P.Russell，V.Ezhil，B.Ismail，M.Irvin-Sellers，V.Prakash，J.F.Lester，M.Kornaszewska，R.Attanoos，H.Adams，H.Davies，D.Oukrif，A.U.Akarca，J.A.Hartley，H.L.Lowe，S.Lock，N.Iles，H.Bell，Y.Ngai，G.Elgar，Z.Szailasi，R.F.Schwarz，J.Herrero，A.Stewart，S.A.Quezada，K.S.Peggs，P.Van Loo，C.Dive，C.J.Lin，M.Rabinowitz，H.J.W.L.Aerts，A.Hackshaw，J.A.Shaw，B.G.zimmermann，TRACERxconsortium，PEACE consortium，C.Swanton，Phylogenetic ctDNA analysis depictsearly-stage lung cancer evolution.，Nature 545，446-451(2017).

46.D.Hanahan，R.A.Weinberg，Hallmarks of cancer：the next generation.，Cell 144，646-74(2011).

47.K.M.Patel，K.E.van der Vos，C.G.Smith，F.Mouliere，D.Tsui，J.Morris，D.Chandrananda，F.Marass，D.van den Broek，D.E.Neal，V.J.Gnanapragasam，T.Forshew，B.W.van Rhijn，C.E.Massie，N.Rosenfeld，M.S.van der Heijden，Association OfPlasma And Urinary Mutant DNA With Clinical Outcomes In Muscle InvasiveBladder Cancer，Sci.Rep.7，5554(2017).

48.H.Li，R.Durbin，Fast and accurate short read alignment with Burrows-Wheeler transform，Bioinformatics 25，1754-1760(2009).

49.I.Scheinin，D.Sie，H.Bengtsson，M.A.van de Wiel，A.B.Olshen，H.F.vanThuijl，H.F.van Essen，P.P.Eijk，F.Rustenburg，G.A.Meijer，J.C.Reijneveld，P.Wesseling，D.Pinkel，D.G.Albertson，B.Ylstra，DNA copy number analysis of freshand formalin-fixed specimens by shallow whole-genome sequencing withidentification and exclusion of problematic regions in the genome assembly，Genome Res.24，2022-2032(2014).

Claims

1.用于从含无细胞核酸的样品中检测变体核酸的计算机执行方法，其包括：

a)提供表示从所述样品获得的核酸片段之片段尺寸的数据和/或表示从所述样品获得的核酸片段中距拷贝数中立点之偏差的量度的数据；

b)根据分类算法使所述计算机的处理器处理来自步骤a)的数据，所述分类算法已在包含含有所述变体核酸的多个无细胞核酸样品和不包含所述变体核酸的多个样品的训练集上进行了训练，其中基于多个无细胞核酸片段尺寸特征和/或距拷贝数中立点之偏差特征，所述分类算法的运行将样品数据分类为至少两个类别之一，所述至少两个类别包含含有所述变体核酸的第一类别和不包含所述变体核酸的第二类别；以及

c)输出来自步骤b)的样品的分类，并由此确定所述样品是否包含所述变体核酸，或者确定所述样品包含所述变体核酸的概率。

2.权利要求1所述的方法，其中所述含无细胞核酸的样品是含无细胞DNA(cfDNA)的样品，并且其中所述变体核酸是变体DNA。

3.权利要求2所述的方法，其中所述变体DNA选自：循环肿瘤DNA(ctDNA)、循环细菌DNA、循环病原体DNA、循环线粒体DNA、循环胎儿DNA、来源于供体器官或供体组织的循环DNA、由生理改变的组织或细胞释放的循环DNA、循环染色体外DNA和双微体环状DNA。

4.权利要求3所述的方法，其中所述变体DNA是ctDNA。

5.前述权利要求中任一项所述的方法，其中表示所述核酸片段之片段尺寸的数据包含从序列读段中推断出的片段尺寸、通过荧光法确定的片段尺寸或通过光密度法确定的片段尺寸。

6.前述权利要求中任一项所述的方法，其中至少基于选自以下的多个cfDNA片段尺寸特征，所述分类算法的运行将样品数据分类为所述至少两个类别之一：

(i)尺寸范围为20至150bp的片段比例(P20至150)；

(ii)尺寸范围为100至150bp的片段比例(P100至150)；

(iii)尺寸范围为160至180bp的片段比例(P160至180)；

(iv)尺寸范围为180至220bp的片段比例(P180至220)；

(v)尺寸范围为250至320bp的片段比例(P250至320)；

(vi)比例P(20至150)/P(160至180)的比值；

(viii)比例P(20至150)/P180至220)的比值；以及

(ix)片段尺寸密度中具有10bp周期性的幅度振荡，

并且其中在步骤a)中表示cfDNA片段之片段尺寸的数据包含所述分类算法所使用的cfDNA片段尺寸特征。

7.权利要求6所述的方法，其中所述多个cfDNA片段尺寸特征包含：P(160至180)、P(180至220)、P(250至320)和片段尺寸密度中具有10bp周期性的幅度振荡。

8.前述权利要求中任一项所述的方法，其中在将序列读段与从中获得所述样品的物种的参考基因组比对之后，使用所述基因组中读段末端的映射位置，从序列读段中推断出cfDNA片段的片段尺寸。

9.前述权利要求中任一项所述的方法，其中至少基于以下距拷贝数中立点之偏差特征，所述分类算法的运行将样品数据分类为所述至少两个类别之一，所述距拷贝数中立点之偏差特征是距拷贝数中立点的经修整中值绝对偏差(t-MAD)得分或ichorCNA得分。

10.权利要求9所述的方法，其中所述t-MAD得分是通过以下来确定的：对来源于健康对象的全基因组数据集中显示高拷贝数变异性的基因组区域进行修整，并随后计算基因组的非修整区域中距log₂R＝0的中值绝对偏差。

11.前述权利要求中任一项所述的方法，其中所述分类算法进行随机森林(RF)分析、逻辑回归(LR)分析或支持向量机(SVM)分析。

12.前述权利要求中任一项所述的方法，其中当在所述训练集上训练时所述分类算法的性能通过接收者操作特征(ROC)分析的曲线下面积(AUC)值来评估。

13.前述权利要求中任一项所述的方法，其中已在训练集上训练的所述分类算法包含至少10个来自健康对象的样品和10个来自已知患有癌症的对象的样品。

14.权利要求13所述的方法，其中所述训练集包含表2中所示的至少10个健康样品和10个癌症样品，任选地其中所述训练集包含表2中所示的所有样品。

15.根据前述权利要求中任一项所述的方法，其中在步骤a)中提供的序列数据表示全基因组序列(WGS)读段、定制组测序(TAPAS)序列读段、经标记扩增子深度测序(Tam-Seq)读段、杂交捕获序列读段、聚焦外显子组序列读段或全外显子组序列读段。

16.根据权利要求15所述的方法，其中在步骤a)中提供的序列数据表示浅层全基因组序列(sWGS)读段，任选地为0.4×深度的WGS读段。

17.根据前述权利要求中任一项所述的方法，其中在步骤a)中提供的数据表示来自患有或怀疑患有癌症的对象的基本上无细胞液体样品的多个DNA片段的片段尺寸。

18.权利要求17所述的方法，其中所述癌症选自黑素瘤、肺癌、胆管癌、膀胱癌、食管癌、结直肠癌、卵巢癌、胶质瘤、胰腺癌、肾癌和乳腺癌。

19.前述权利要求中任一项所述的方法，其中所述样品是血浆样品、尿样品、唾液样品、脑脊液样品、血清样品或其他含DNA的生物液体样品。

20.前述权利要求中任一项所述的方法，其中所述变体核酸是ctDNA，并且其中所述方法用于在从中获得所述样品的对象中检测癌症的存在、生长、预后、消退、治疗响应或复发。

21.权利要求20所述的方法，其中所述样品中ctDNA的存在是与含有非癌来源的体细胞突变的cfDNA区分开的。

22.权利要求21所述的方法，其中所述非癌来源包括正常上皮细胞的克隆性扩增或不确定潜能的克隆性造血(CHIP)。

23.权利要求22所述的方法，其中在步骤a)中提供的片段尺寸数据表示来自对象的基本上无细胞液体样品的多个DNA片段的序列读段，并且其中所述方法用于确定所述样品含有ctDNA还是含有来自CHIP的cfDNA。

24.权利要求23所述的方法，其中所述分类算法已在还包含从患有CHIP的对象获得的多个cfDNA样品的训练集上进行了训练，并且其中基于多个cfDNA片段尺寸特征和/或距拷贝数中立点之偏差特征，所述至少两个类别还包含含有CHIP来源的cfDNA的第三类别。

25.用于从含无细胞核酸的样品中检测变体核酸的方法，其包括：

对含无细胞核酸的样品或来源于含无细胞核酸的样品的文库进行分析，以确定所述样品或所述文库中核酸片段的片段尺寸，其中所述样品是从对象获得的；以及

使用所述片段尺寸执行权利要求1至24中任一项所述的方法。

26.权利要求25所述的方法，其中所述分析包括：

对来自所述含核酸样品或文库的核酸进行测序并从序列读段中推断出片段尺寸；

通过荧光法测量来自所述含核酸样品或文库的核酸的片段尺寸；或

通过光密度法测量来自所述含核酸样品或文库的核酸的片段尺寸。

27.用于从含无细胞DNA(cfDNA)的样品中检测变体DNA的方法，其包括：

对所述序列读段进行处理以确定表示从所述样品获得的cfDNA片段之片段尺寸的序列数据和/或表示从所述样品获得的cfDNA片段中距拷贝数中立点之偏差的量度的序列数据；以及

使用所述序列数据执行权利要求1至24中任一项所述的方法。

28.权利要求27所述的方法，其中所述测序包括产生来自所述样品的测序文库并进行全基因组测序、定制组测序(TAPAS)测序、杂交捕获测序、TAm-Seq测序、聚焦外显子组测序或全外显子组测序，任选地产生索引测序文库并进行浅层全基因组测序(sWGS)，任选地深度为0.4×的sWGS。

29.权利要求27或权利要求28所述的方法，其中对所述序列读段进行处理包括以下步骤中的一个或更多个：

将序列读段与和所述对象同一物种的参考基因组(例如人对象的人参考基因组GRCh37)进行比对；

除去污染的衔接子序列；

除去PCR和光学重复；

除去低映射质量的序列读段；以及

如果是多重测序，则通过排除测序条形码中的错配来信号分离。

30.权利要求27至29中任一项所述的方法，其中所述变体DNA选自：循环肿瘤DNA(ctDNA)、循环细菌DNA、循环病原体DNA、循环线粒体DNA、循环胎儿DNA、来源于供体器官或供体组织的循环DNA、由生理改变的组织或细胞释放的循环DNA、循环染色体外DNA和双微体环状DNA。

31.权利要求27至30中任一项所述的方法，其中对所述序列读段进行处理以确定表示从所述样品获得的cfDNA片段之片段尺寸的序列数据和/或表示从所述样品获得的cfDNA片段中距拷贝数中立点之偏差的量度的序列数据包括确定选自以下的一个或更多个特征：

(i)尺寸范围为20至150bp的片段比例(P20至150)；

(ii)尺寸范围为100至150bp的片段比例(P100至150)；

(iii)尺寸范围为160至180bp的片段比例(P160至180)；

(iv)尺寸范围为180至220bp的片段比例(P180至220)；

(v)尺寸范围为250至320bp的片段比例(P250至320)；

(vi)比例P(20至150)/P(160至180)的比值；

(viii)比例P(20至150)/P180至220)的比值；以及

(ix)片段尺寸密度中具有10bp周期性的幅度振荡。

32.权利要求31所述的方法，其中所述多个cfDNA片段尺寸特征包含：P(160至180)、P(180至220)、P(250至320)和片段尺寸密度中具有10bp周期性的幅度振荡。

33.权利要求27至32中任一项所述的方法，其中在将所述序列读段与从中获得所述样品的物种的参考基因组比对之后，使用所述基因组中读段末端的映射位置从序列读段中推断出cfDNA片段的片段尺寸。

34.权利要求27至33中任一项所述的方法，其中对所述序列读段进行处理以确定表示从所述样品获得的所述cfDNA片段中距拷贝数中立点之偏差的量度的序列数据包括确定距拷贝数中立点的经修整中值绝对偏差(t-MAD)得分或ichorCNA得分。

35.权利要求34所述的方法，其中所述t-MAD得分是通过以下来确定的：对来源于健康对象的全基因组数据集中显示高拷贝数变异性的基因组区域进行修整，并随后计算所述基因组的非修整区域中距log₂R＝0的中值绝对偏差。

36.根据权利要求25至35中任一项所述的方法，其中所述样品包含来自患有或怀疑患有癌症的对象的基本上无细胞液体的多个DNA片段。

37.权利要求36所述的方法，其中所述癌症选自黑素瘤、肺癌、胆管癌、膀胱癌、食管癌、结直肠癌、卵巢癌、胶质瘤、胰腺癌、肾癌和乳腺癌。

38.权利要求25至37中任一项所述的方法，其中所述样品是血浆样品、尿样品、唾液样品、脑脊液样品、血清样品或其他含DNA生物液体样品。

39.权利要求27至38中任一项所述的方法，其中所述变体DNA是ctDNA并且其中所述方法用于在从中获得所述样品的对象中检测癌症的存在、生长、预后、消退、治疗响应或复发。

40.权利要求39所述的方法，其中ctDNA的存在是与含有非癌来源，任选地CHIP来源的体细胞突变的cfDNA的存在区分开的。

41.权利要求40所述的方法，其中基于从所述序列读段确定的多个片段尺寸特征，将包含cfDNA片段的体细胞突变分类为肿瘤来源或CHIP来源。

42.前述权利要求中任一项所述的方法，其中所述变体DNA是ctDNA，并且其中所述样品含ctDNA或不含tDNA的分类、或者所确定的所述样品包含ctDNA的概率被用于预测所述样品或来自同一对象的另一个样品是否将易于进行进一步ctDNA分析。

43.权利要求42所述的方法，其中所述进一步ctDNA分析包括以更大的测序深度进行测序和/或对所述样品中的ctDNA进行靶向测序。

44.权利要求42或权利要求43所述的方法，其中如通过所述分类算法确定的样品包含ctDNA的概率至少为0.5，并且其中对所述样品进行所述进一步ctDNA分析。

45.权利要求42至44中任一项所述的方法，其中：

所述样品是血浆样品，并且其中如通过所述分类算法确定的所述样品包含ctDNA的概率用于确定是否将在尿样品中可检测到ctDNA；或

所述样品是尿样品，并且其中如通过所述分类算法确定的所述样品包含ctDNA的概率用于确定是否将在血浆样品中可检测到ctDNA。

46.用于在含无细胞DNA(cfDNA)的样品中改善对循环肿瘤DNA(ctDNA)的检测的方法，其包括进行体外和/或机上尺寸选择以富集长度范围为90至150bp的DNA片段，其中所述样品是从患有或怀疑患有选自以下癌症的对象获得的：黑素瘤、胆管癌、结直肠癌、胶质瘤、胰腺癌、肾癌和乳腺癌。

47.权利要求46所述的方法，其中所述尺寸选择包括对从含cfDNA样品提取的DNA进行的体外尺寸选择和/或对由从含cfDNA样品提取的DNA创建的文库进行的体外尺寸选择。

48.权利要求46或权利要求47所述的方法，其中所述体外尺寸选择包括琼脂糖凝胶电泳。

49.权利要求46至48中任一项所述的方法，其中所述尺寸选择包括对序列读段进行的机上尺寸选择。

50.权利要求49所述的方法，其中所述序列读段是配对末端序列读段，所述配对末端序列读段是通过对来自存在于由所述含cfDNA样品产生的文库中的片段的两个末端的DNA进行测序产生的，并且其中在将所述序列读段与从中获得所述样品的物种的参考基因组进行比对之后，使用所述基因组中读段末端的映射位置推断出所述含cfDNA样品中的DNA片段的原始长度。

51.权利要求46至50中任一项所述的方法，其中基本上排除了长度在90至150bp范围之外的DNA片段。

52.权利要求46至51中任一项所述的方法，其中在全基因组基础或全外显子组基础上进行所述尺寸选择。

53.权利要求52所述的方法，其中在浅层全基因组测序(sWGS)之前进行所述体外尺寸选择，或者对sWGS测序读段进行所述机上尺寸选择。

54.权利要求46至53中任一项所述的方法，其中所述方法还包括在所述尺寸选择之后对所述序列读段进行体细胞拷贝数畸变分析和/或突变调用。

55.权利要求54所述的方法，其中所述体细胞拷贝数畸变分析包括对所述序列读段进行处理以确定距拷贝数中立点的经修整中值绝对偏差(t-MAD)得分或ichorCNA得分。

56.权利要求55所述的方法，其中所述t-MAD得分是通过以下来确定的：对来源于健康对象的全基因组数据集中显示高拷贝数变异性的基因组区域进行修整，并随后计算所述基因组的非修整区域中距log₂R＝0的中值绝对偏差。

57.权利要求46至56中任一项所述的方法，其中所述癌症是选自结直肠癌、胆管癌、乳腺癌和黑素瘤的高ctDNA癌症。

58.权利要求46至57中任一项所述的方法，其中所述癌症是选自胰腺癌、肾癌和胶质瘤的低ctDNA癌症。

59.权利要求46至58中任一项所述的方法，其中所述样品是血浆样品、尿样品、唾液样品、脑脊液样品、血清样品或其他含DNA生物液体样品。

60.权利要求46至59中任一项所述的方法，其中所述方法还包括在从中获得所述样品的对象中检测所述癌症的存在、生长、预后、消退、治疗响应或复发。

61.权利要求60所述的方法，其中对所述对象的癌症治疗之前获得的样品和对所述对象的癌症治疗之后获得的样品执行所述方法。