CN107406885A

CN107406885A - 使用血浆dna的尺寸和数目畸变检测癌症

Info

Publication number: CN107406885A
Application number: CN201680014332.2A
Authority: CN
Inventors: 卢煜明; 赵慧君; 陈君赐; 江培勇
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2015-01-13
Filing date: 2016-01-13
Publication date: 2017-11-28
Anticipated expiration: 2036-01-13
Also published as: US20190292607A1; KR102605348B1; WO2016112850A1; US20160201142A1; SG11201705685VA; TWI777276B; EP3245299A4; KR20190014121A; CN113462781A; CN107406885B; TW202108769A; KR101945024B1; KR20200145864A; AU2023219906A1; JP6817259B2; JP7169002B2; US10364467B2; EP3245299A1; JP2019022495A; KR20170106372A

Abstract

本发明提供一种分析循环游离DNA的尺寸和拷贝数畸变用于检测癌症的方法。所述方法包含以单个碱基分辨率以全基因组方式进行平行测序。使用染色体臂级z分数分析进一步鉴别血浆DNA分子。

Description

使用血浆DNA的尺寸和数目畸变检测癌症

相关申请的交叉引用

本申请要求2015年1月13日提交的Lo等人(代理人案号80015-015800US)的题为“使用血浆DNA的尺寸和数目畸变检测癌症(Using Size And Number Aberrations InPlasma DNA For Detecting Cancer)”的美国专利申请第62/102,867号；和2015年2月3日提交的Lo等人(代理人案号80015-015801US)的题为“使用血浆DNA中的尺寸和数目畸变检测癌症(Using Size and Number Aberrations in Plasma DNA for Detecting Cancer)”的美国专利申请第62/111,534号的优先权，出于所有目的所述美国专利申请的公开内容以其全文引用的方式并入本文中。

背景技术

对循环游离DNA的分析已经越来越多地用于检测和监测癌症(1-3)。在患有各种类型癌症的患者的血浆中可检测到不同癌症相关的分子特征，包括拷贝数畸变(4-7)、甲基化变化(8-11)、单核苷酸突变(4，12-15)、癌源病毒序列(16，17)和染色体重排(18，19)。尽管临床应用的迅速扩展，但癌症患者循环DNA的许多基本分子特征仍然不明确，由此限制了这类分析的最有效临床应用。

具体来说，关于对癌症患者循环DNA尺寸的此前研究得到了不一致的结果。研究已经证实，与无恶性病症的受试者相比，癌症患者循环DNA的总体完整性(尺寸测量值)增加(20-23)。使用具有不同扩增子尺寸的PCR，已经证明癌症患者中的较长DNA比例较高。DNA完整性的此种畸变在治疗之后显示出是可逆的并且这类变化的持续性与较差的预后有关(20，24)。另一方面，还存在看似矛盾的证据，来源于肿瘤组织的循环DNA可能会短于来源于非恶性细胞的那些循环DNA。举例来说，已经证明当使用具有较短扩增子的PCR检测癌症相关的突变时，携带那些突变的DNA分子的比例将较高(12，25)。

此外，研究在HCC患者的血浆中肿瘤源DNA的尺寸分布是一种挑战性的尝试，因为肿瘤源血浆DNA无法容易地与血浆中非肿瘤源的背景DNA区分开。癌症特异性突变的检测提供一种区分肿瘤血浆DNA与非肿瘤血浆DNA的基因型手段。然而，在整个基因组(29-32)上存在相对较少的癌症特异性突变。因此，难以准确地鉴别血浆中的肿瘤源DNA，特别是出于产生宽泛、详细且又成本有效的肿瘤源DNA的尺寸分布视图。

这类困难在可能含有肿瘤DNA和非肿瘤DNA的混合物的样品中，获得准确测量结果方面提供障碍。

发明内容

实施方式可提供用于确定区域是否呈现可与癌症有关的畸变(例如，扩增或缺失)的系统和方法。举例来说，实施方式可使用基于计数的分析将区域鉴别为可能具有畸变并且使用基于尺寸的分析来确认所述区域是否确实具有畸变。

在其它实施方式中，可以将呈现畸变的区域与对应于已知类型癌症的参考图形相比较。当足够数目的区域具有匹配的畸变时，可鉴别出癌症类型。针对肿瘤DNA的分析，例如，针对尺寸分析，这类匹配区域可进一步被鉴别为与所述癌症相关。

在又一其它实施方式中，对样品(例如，可能含有肿瘤DNA和非肿瘤DNA两者的混合物)中DNA片段的尺寸分析可取决于样品中所测量的肿瘤DNA的浓度。举例来说，对于低肿瘤DNA浓度，比健康对照者长的DNA片段可指示早期癌症，并且对于较高肿瘤DNA浓度，比健康对照者短的DNA片段可指示晚期癌症。

其它实施方式涉及与本文所述的方法有关的系统和计算机可读介质。

可参考以下详细说明和附图来更好地了解本发明实施方式的性质和优点。

附图说明

图1为示出根据本发明实施方式的将染色体区域鉴别为呈现畸变的方法100的流程图。

图2示出根据本发明实施方式的在代表性肝细胞癌(HCC)患者的血浆和组织样品中鉴别呈现扩增和缺失的区域的Circos曲线200。

图3示出根据本发明实施方式的各种受试者的血浆拷贝数畸变(CNA)结果。

图4为示出根据本发明实施方式的在HCC患者、B型肝炎病毒(HBV)携带者、患有肝硬化的患者和健康受试者的血浆中CNA的可检测性的表400。

图5示出在12位HCC患者的肿瘤和对应的血浆中检测到的CNA的表500。

图6示出说明根据本发明实施方式的分析生物体的生物样品以确定生物样品是否呈现第一类型癌症的方法的流程图。

图7示出根据实施方式的对于表700中不同类型癌症呈现不同图形的染色体臂。

图8A、图8B和图8C示出针对不同类型癌症的染色体区域的图形的表800。

图9示出说明根据本发明实施方式的分析生物体的生物样品的方法的流程图。

图10示出在血浆中(A)短于150bp、(B)150bp到180bp和(C)长于180bp的血浆DNA片段的比例对肿瘤DNA浓度的图示。

图11为在癌症患者中血浆DNA尺寸分析的原理的示意图。

图12示出源自扩增8q和缺失8p的代表性病例H291的血浆DNA的尺寸分布。(A)8p(红色)和8q(绿色)的血浆DNA的尺寸分布。(B)8p(红色)和8q(绿色)的血浆DNA尺寸的累积频率的图示。(C)HCC病例H291的累积频率的差值。

图13示出8q和8p之间尺寸的累积频率的差值(ΔS)。(A)对于血浆中8p和8q上具有不同CNA的所有HCC病例，ΔS对尺寸的图示。(B)不同群组当中ΔS₁₆₆的值。

图14为对于代表性HCC患者的1q和1p之间ΔS的值对尺寸的图示。

图15为对于健康对照受试者、HBV携带者、肝硬化患者和HCC患者1q和1p之间的ΔS₁₆₆值的图示。

图16为说明根据本发明实施方式的执行染色体臂级z分数分析(CAZA)和尺寸分析以便分析生物体的生物样品的方法的流程图。

图17为示出根据本发明的实施方式的分析生物体的生物样品的方法的流程图。

图18示出在血浆中具有不同肿瘤源DNA的百分比浓度的HCC患者中血浆DNA片段的尺寸分布。

图19示出对于(A)健康对照者、(B)慢性HBV携带者和(C)肝硬化患者的血浆DNA的尺寸分布图。

图20示出对于健康对照受试者、血浆中肿瘤DNA浓度小于2％的HCC患者和肿瘤DNA浓度大于6％的HCC患者的短片段的比例的箱线图。

图21为对于应用P(<150)区分肿瘤DNA浓度小于2％的HCC患者与健康对照受试者的接受者操作特征(ROC)曲线。

图22为对于应用P(<150)区分肿瘤DNA浓度大于6％的HCC患者与健康受试者的接受者操作特征(ROC)曲线。

图23示出对于健康对照受试者和血浆中肿瘤DNA浓度小于2％的HCC患者的长片段的比例的箱线图。

图24为对于使用P(>180)区分肿瘤DNA浓度小于2％的HCC患者与健康对照受试者的ROC曲线。

图25示出健康对照受试者、肿瘤DNA浓度小于2％的HCC患者和肿瘤DNA浓度大于6％的HCC患者的中值片段尺寸的箱线图。

图26为对于使用中值片段尺寸区分肿瘤DNA浓度小于2％的HCC患者与健康对照受试者的ROC曲线。

图27为对于使用中值片段尺寸区分肿瘤DNA浓度大于6％的HCC患者与健康对照受试者的ROC曲线。

图28示出对于肿瘤DNA浓度大于6％的HCC患者和健康对照受试者，与染色体1q进行比对的小于150bp的短血浆DNA片段的比例的箱线图。

图29为对于使用小于150bp的短血浆DNA片段的比例区分肿瘤DNA浓度大于6％的HCC患者与健康对照受试者的ROC曲线。

图30为HCC患者的ΔS对肿瘤尺寸的图示。

图31为某一尺寸DNA片段的百分比对肿瘤尺寸的图示。

图32示出可与根据本发明实施方式的系统和方法一起使用的实例计算机系统10的框图。

术语

如本文所用，术语“生物样品”是指从受试者(例如人类，如孕妇)身上取得并含有所关注的一个或多个核酸分子的任何样品。实例包括血浆、唾液、胸膜液、汗液、腹水、胆汁、尿、血清、胰液、粪便、子宫颈灌洗液和子宫颈涂片样品。

术语“核酸”或“多核苷酸”是指脱氧核糖核酸(DNA)或核糖核酸(RNA)和其呈单链或双链形式的聚合物。除非具体限制，否则所述术语涵盖含有天然核苷酸已知类似物的核酸，其具有与参考核酸类似的键合特性并且以与天然存在的核苷酸类似的方式代谢。除非另外指明，否则特定核酸序列也暗含地涵盖其经保守修饰的变异体(例如简并密码子取代)、等位基因、直系同源物、单核苷酸多态性(SNP)和互补序列以及明确指明的序列。具体来说，简并密码子取代可通过产生其中一个或多个选择的(或所有)密码子的第三位置被混合的碱基和/或脱氧肌苷残基取代的序列来实现(Batzer MA等人，《核酸研究(NucleicAcid Res.)》1991；19:5081；Ohtsuka E等人，《生物化学杂志(J Biol Chem)》1985；260:2605-2608；和Rossolini GM等人，《分子与细胞探针(Mol.Cell.Probes)》1994；8:91-98)。术语核酸可与基因、cDNA、mRNA、小非编码RNA、微RNA(miRNA)、Piwi-相互作用RNA和由基因或基因座编码的短发夹RNA(shRNA)互换地使用。

术语“基因”意指在产生多肽链中涉及的DNA区段。其可包括编码区之前和之后的区域(前导序列和尾部序列)以及单独编码区段(外显子)之间的插入序列(内含子)。

如本文所用，术语“基因座(locus)”或其复数形式“基因座(loci)”是在基因组上具有变化的任何长度的核苷酸(或碱基对)的位置或位址。

术语“测序标签”(也被称为序列读数)是指从核酸分子的全部或部分(例如，DNA片段)获得的序列。在一个实施方式中，仅测序片段的一个末端，例如，约30bp。然后可将测序标签与参考基因组进行比对。可替代地，可测序片段的两个末端以产生两个测序标签，这可提供更大的比对精确性并且还提供片段的长度。在又一实施方式中，例如，可通过接合环化线性DNA片段，并且可测序跨越接合位点的部分。

术语肿瘤DNA百分比浓度可与术语肿瘤DNA比例和肿瘤DNA浓度互换地使用，并且是指存在于来源于肿瘤的样品中的DNA分子的比例。

术语“尺寸分布图”一般涉及生物样品中DNA片段的尺寸。尺寸分布图可以是提供以各种尺寸的DNA片段的量分布的直方图。各种统计参数(也称为尺寸参数或仅称为参数)可用于区分一个尺寸分布图与另一个尺寸分布图。一个参数是相对于所有DNA片段或相对于另一尺寸或范围的DNA片段，特定尺寸或尺寸范围的DNA片段的百分比。

如本文所用，术语“参数”意指表征定量数据集和/或定量数据集之间数字关系的数值。举例来说，第一量的第一核酸序列和第二量的第二核酸序列之间的比率(或比率的函数)是参数。

如本文所用，术语“分类”是指与样品的特定特性有关的一个或多个任何数字或一个或多个其它字符(包括词)。举例来说，“+”符号可表示样品被分类为具有缺失或扩增(例如复制)。术语“截止值”和“阈值”是指操作中所使用的预定数字。举例来说，截止尺寸可指高于其则排除片段的尺寸。阈值可以是高于或低于其则适用特定分类的值。这些术语中的任一个可在这些背景中的任一背景下使用。

术语“癌症水平”可是指癌症是否存在、癌症的阶段、肿瘤尺寸、涉及多少染色体区域的缺失或扩增(例如复制或三倍)和/或癌症严重程度的其它量度。癌症水平可以是数字或其它字符。水平可以是零。癌症水平还包括与缺失或扩增有关的恶化前或癌变前状况。

“亚染色体区域”为小于染色体的区域。亚染色体区域的实例为100kb、200kb、500kb、1Mb、2Mb、5Mb或10Mb。亚染色体区域的另一个实例为对应于一个或多个带或子带或染色体臂之一的一个区域。带或子带为在细胞遗传学分析中观察到的特征。亚染色体区域可以由其相对于参考人类基因组序列的基因组坐标指代。

具体实施方式

癌症通常具有相对于人的正常基因组的带有拷贝数畸变(扩增或缺失)的区域。技术可计数样品(例如，血浆或血清)中包括肿瘤DNA片段和非肿瘤DNA片段的游离DNA片段。计数可鉴别过高表达(指示扩增)或过低表达(指示缺失)的区域。但由于此类基于计数的技术本质上具有统计性，所以可出现不正确的指示。实施例可使用基于计数的分析将区域鉴别为可能具有拷贝数畸变(也称为畸变)并且使用基于尺寸的分析来确认所述区域是否确实具有畸变。这类确认在鉴别具有畸变的区域中提供附加精确性。

具有畸变的区域可用于鉴别从其获得样品的生物体中癌症的存在。但癌症的存在无法传达癌症的类型。为解决这一问题，实施方式可使用来自具有已知癌症的样品的区域中畸变的参考图形。对于所测试的给定样品可以测定其中区域异常的测试图形，并且可以将测试图形与参考图形相比较以确定癌症的类型。可以测定呈现与对应于特定类型癌症的参考图形相同缺失或扩增的测试图形的区域的量，并且可以将所述量与阈值相比较以确定是否存在特定类型癌症的分类。一旦区域被鉴别为具有畸变并且对应于特定类型的癌症，在分析肿瘤DNA的区域中就可具有更大的置信度。举例来说，区域可用于测量样品中的肿瘤DNA浓度。

另外，关于游离肿瘤DNA片段的长度，各种研究已经显示出不一致的结果：一些显示出较长的肿瘤DNA片段而其它显示出较短的肿瘤DNA片段。在下文分析显示出两者可以是正确的，但是对于不同肿瘤DNA浓度的。在基于测量的肿瘤DNA浓度的尺寸分析中，实施方式可使用不同的尺寸阈值，所述测量的肿瘤DNA浓度可使用对在鉴别为具有畸变的区域中DNA片段的计数来测定。因此，一些实施方案可通过例如以下协调这些明显的不一致：(a)通过大规模平行测序实现的血浆DNA的全基因组高分辨率尺寸分布；和(b)区分癌症患者血浆中的肿瘤源DNA与非肿瘤背景DNA的高效方法(例如，使用被鉴别为具有畸变的区域)。

I.引言

借助使用大规模平行测序测量样品中数百万或数十亿的每个单独血浆DNA分子的长度已经变得可实行(26，27)。因此，可以全基因组方式并以单个碱基分辨率研究血浆DNA尺寸。使用这种方法，一般已经示出循环DNA的尺寸相似于单核小体DNA的尺寸，这表明血浆DNA可通过细胞凋亡产生(26，27)。在孕妇中，来源于胎儿的血浆DNA已经示出短于来源于母亲的DNA(26)。循环胎儿DNA和母本DNA之间的尺寸差已经提供了一种用于量化母本血浆中的胎儿DNA和通过对血浆DNA的尺寸分析检测染色体非整倍体的新概念基础(28)。此外，对于实体器官或骨髓移植的接收者，已经观察到来源于移植器官和患者自身组织的循环DNA的尺寸分布的差异(27)。

癌症患者的血浆含有肿瘤源DNA和非肿瘤源DNA的混合物。在下文实例分析患有肝细胞癌(HCC)的癌症患者中的血浆DNA的尺寸分布。还分析HCC患者、患有慢性B型肝炎病毒(HBV)感染的患者、患有肝硬化的患者和健康受试者中的血浆DNA的尺寸分布。实施方式可使用某些异常区域分析HCC患者的血浆中的肿瘤源DNA的尺寸分布图。使用这类异常区域可克服在血浆中肿瘤源血浆DNA不易与非肿瘤源背景DNA区分开的挑战。

一些实施方式使用受拷贝数畸变(CNA)影响的染色体臂推断肿瘤源血浆DNA和非肿瘤源血浆DNA的尺寸分布的差异。对于在肿瘤组织中扩增的染色体臂，肿瘤源DNA对血浆DNA的比例份额将增加，而对于在肿瘤中缺失的染色体臂，所述份额将下降。因此，扩增和缺失的染色体臂的尺寸分布图的比较将反映血浆中的肿瘤源DNA和非肿瘤源DNA之间的尺寸差。涉及全部染色体臂或大量染色体臂的CNA是相对常见的(33)。在HCC组织中，通常观察到染色体1p和8p的缺失以及染色体1q和8q的扩增(34-36)。因此，对于血浆DNA的CNA和尺寸分布图分析，分析集中于染色体1和8。

II.鉴别异常区域的计数分析

异常区域包括扩增或缺失。扩增意指在区域中的序列相较于其在参考序列中更常出现，并且因此序列已经扩增。扩增通常将仅出现于一个染色体拷贝中(单倍型)。缺失意指在区域中的序列相对于参考序列已经缺失，对于二倍体生物体通常仅一个染色体拷贝具有缺失。区域可由至少两个基因座(它们彼此分隔开)界定，并且这些基因座处的DNA片段可用于获得关于所述区域的集体值。

A.通过计数检测异常区域

区域的畸变可通过计数来源于所述区域的DNA片段(分子)的量来测定。举例来说，量可为在区域中DNA片段的数目、DNA片段与其重叠的碱基的数目或DNA片段的其它量度。可通过测序DNA片段以获得序列读数并且将序列读数与参考基因组进行比对来测定区域的DNA片段的量。在一个实施方式中，可以将区域的序列读数的量与另一区域的序列读数的量相比较以便确定过高表达(扩增)或过低表达(缺失)。在另一个实施方式中，可测定一个单倍型的序列读数的量并且将其与另一单倍型的序列读数的量相比较。

因此，可以将来自一个染色体区域的DNA片段的数目(例如，如通过计数与所述区域进行比对的测序标签测定)与参考值(其可从参考染色体区域、从在另一单倍型上的区域或从已知健康的另一样品中的相同区域测定)相比较。所述比较可确定量是否在统计学上与参考值不同(例如，高于还是低于)。可使用差值的阈值，例如对应于3标准差(SD)，如在群体中所见的值的分布中所见。

作为比较的一部分，可在比较之前归一化标签计数。可通过将与所述区域进行比对的测序读段的数目除以可与全基因组进行比对的测序读段的总数来计算特定区域的序列读数(标签)的归一化值。此归一化的标签计数允许来自一个样品的结果与另一个样品的结果进行比较。举例来说，归一化值可为预期来自特定区域的序列读数的比例(例如，百分比或浓度)。但是，如对本领域技术人员将显而易见的，许多其它归一化也是可能的。举例来说，可通过将一个区域的计数数目除以参考区域的计数数目(在以上情况下，参考区域恰好为全基因组)或通过总是使用相同数目的序列读数进行归一化。随后，可将此归一化标签计数与阈值进行比较，所述阈值可从一个或多个未呈现癌症的参考样品测定。

在一些实施方式中，阈值可为参考值。在其它实施方式中，参考值可为用于归一化的其它值，并且比较可包括参考值和阈值。举例来说，区域的量可除以参考值以获得参数，其与阈值相比较以查看在统计学上是否存在显著的不同。作为另一实例，可以将区域的量与参考值加阈值相比较。

在一个实施方式中，通过计算针对特定染色体区域的病例的z分数来进行比较。可使用以下等式计算z分数∶z分数＝(病例的归一化标签计数-平均值)/SD，其中“平均值”是与参考样品的特定染色体区域比对的平均归一化标签计数；并且SD是与参考样品的特定区域对比的标准化标签计数的数目的标准差。因此，z分数可对应于测试病例的染色体区域的归一化标签计数相距一个或多个参考受试者的相同染色体区域的平均归一化标签计数的标准差数目。可以将此z分数与阈值相比较，例如，对于扩增阈值为3并且对于缺失阈值为-3。扩增的染色体区域将具有高于阈值的正的z分数值。缺失的染色体区域将具有低于阈值的负的z分数值。

z分数的量值可由若干因素决定。一个因素是生物样品(例如血浆)中肿瘤源DNA的百分比浓度。样品(例如血浆)中肿瘤源DNA的百分比浓度越高，测试病例与参考病例的归一化标签计数之间的差值将越大。因此，z分数的量值将越大。

另一因素是一个或多个参考病例中归一化标签计数的变化。在测试病例的生物样品(例如血浆)中相同程度的染色体区域的过高表达的情况下，参考群组中归一化标签计数的较小变化(即较小标准差)将产生较高的z分数。类似地，在测试病例的生物样品(例如血浆)中相同程度的染色体区域的过低表达的情况下，参考组中归一化标签计数的较小标准差将产生更负的z分数。

另一因素是肿瘤组织中染色体畸变的量值。染色体畸变的量值是指特定染色体区域的拷贝数改变(增加或丢失)。肿瘤组织中拷贝数改变越高，血浆DNA中特定染色体区域的过高表达或过低表达的程度将越高。举例来说，与染色体的两个拷贝之一的丢失相比，染色体的两个拷贝的丢失拷贝将引起血浆DNA中染色体区域的更大的过低表达，并且，因此产生更负的z分数。通常，癌症中存在多个染色体畸变。每种癌症中的染色体畸变可进一步在其性质(即扩增或缺失)、其程度(单或多拷贝增加或丢失)和其程度(根据染色体长度畸变的尺寸)方面变化。

测量归一化标签计数的精确度受所分析的分子数目影响。举例来说，当百分比浓度分别为约12.5％、6.3％和3.2％时，可需要分析15,000、60,000和240,000个分子以检测具有一个拷贝改变(增加或丢失)的染色体畸变。用于检测不同染色体区域癌症的标签计数的另外细节描述于Lo等人的题为“使用大规模平行基因组测序诊断胎儿染色体非整倍体(Diagnosing Fetal Chromosomal Aneuploidy Using Massively Parallel GenomicSequencing)”的美国专利公开案第2009/0029377号；和Lo等人的题为“检测与癌症有关的基因或分子畸变(Detection Of Genetic Or Molecular Aberrations Associated WithCancer)”的美国专利第8,741,811号中，出于所有目的所述专利的公开内容以其全文引用的方式并入本文中。

B.方法

图1为说明根据本发明实施方式的将染色体区域鉴别为可能呈现扩增的方法100的流程图。方法100和本文所述的其它方法可完全或部分地使用计算机系统执行。

在步骤110，可鉴别生物体的多个染色体区域。每个染色体区域可包括多个基因座。区域的尺寸可为1Mb，或一些其它同等尺寸。全基因组可因而包括约3,000个区域，每个区域具有预定尺寸和位置。这类预定区域可变化以容纳一定长度的特定染色体或指定数目的待使用区域以及本文所提及的任何其它标准。如果区域具有不同的长度，那么这类长度可用于将结果归一化，例如如本文所述。

针对每个染色体区域可执行步骤120到140。在步骤120，针对每个染色体区域，相应群组的核酸分子可被鉴别为来自染色体区域。鉴别可基于鉴别核酸分子在参考基因组中的位置。举例来说，可测序游离DNA片段以获得序列读数，并且可将序列读数映射(比对)到参考基因组。如果生物体是人类，那么参考基因组将是可能来自特定亚群的参考人类基因组。作为另一实例，可用不同探针(例如，在PCR或其它扩增后)分析游离DNA片段，其中每个探针对应于不同基因组位置。在一些实施方式中，可通过接收序列读数或对应于游离DNA片段的其它实验数据，并且然后使用计算机系统分析实验数据来执行对游离DNA片段的分析。

在步骤130，计算机系统可计算相应群组的核酸分子的相应量。相应值界定了相应群组的核酸分子的性质。相应值可是本文所提及的任一值。举例来说，值可以是群组中的片段数目或群组中片段的尺寸分布的统计值。相应值也可以是归一化值，例如区域的标签计数除以样品的标签计数总数目或参考区域的标签计数数目。相应值还可以是与另一值的差值或比率，从而提供区域的差值的性质。

在步骤140，可以将相应量与参考值相比较以确定染色体区域是否呈现畸变(即扩增或缺失)的分类。在一些实施方式中，染色体区域可分类为不呈现畸变。比较可包括基于相应量和参考值确定z分数。作为一个实例，参考值可为本文所述的任何阈值或参考值。举例来说，参考值可为针对正常样品测定的阈值。作为另一实例，参考值可为针对另一区域的标签计数，并且比较可包括取差值或比率(或这类的函数)，并且然后确定差值或比率是否大于阈值。

参考值可基于其它区域的结果而变化。举例来说，如果邻近区域还示出偏差(尽管与阈值相比较小，例如，z分数为3)，那么可使用较低阈值。举例来说，如果三个相连区域都超过第一阈值，那么更有可能是癌症。因此，此第一阈值可低于从非相连区域鉴别癌症所需要的另一阈值。三个区域(或大于三个)甚至具有小偏差可具有足够低概率的机率影响，使得可维持灵敏度和特异性。

C.染色体臂级Z分数分析(CAZA)

在一些实施方式中，染色体可拆分成许多亚染色体区域(例如，1Mb区域)。此高分辨率不可使灵敏度和特异性达到最大。其它实施方式可将染色体拆分成两个臂，即p和q。分析所述两个臂可通过降低由这类精细分辨率造成的噪音而改善特异性。现提供染色体臂级z分数分析的实例。

我们分析来自90位HCC患者、67位慢性HBV感染的患者、36位患有与HBV有关的肝硬化的患者和32位健康受试者的总共225个血浆DNA样品。从每个血浆样品获得三千一百万个读数(范围：一千七百万到七千九百万)的中值。源自比健康对照组的均值低三个SD(z分数<-3)和比健康对照组的均值高三个SD(z分数>3)的染色体臂的序列读数的量被认为分别指示来自那些染色体臂的血浆DNA的显著过低表达和过高表达。这些定量血浆DNA畸变一般反映肿瘤中拷贝数丢失和拷贝数增加(CNA)的存在(4)。

图2示出根据本发明实施方式的在代表性肝细胞癌(HCC)患者的血浆和组织样品中鉴别呈现扩增和缺失的区域的Circos图示200。从内到外：肿瘤组织中的CNA(1Mb分辨率)；肿瘤组织中的臂-水平CNA；血浆CNA(1Mb分辨率)；臂-水平血浆CNA。具有增加和丢失的区域分别以绿色和红色示出。两条连续水平线之间的距离表示z分数为5。染色体G带图(在图示外部)从pter到qter沿顺时针方向取向。

图3示出使用CAZA的实施方式的针对所有被研究受试者的血浆拷贝数畸变(CNA)结果。分析了在HCC中频繁受CNA影响的四个染色体臂(1p、1q、8p和8q)。红色线和绿色分别表示血浆中对应染色体臂的过低表达和过高表达。每条垂直线表示一个病例的数据。

图4为示出根据本发明实施方式的在HCC患者、HBV携带者、患有肝硬化的患者和健康受试者的血浆中CNA的可检测性的表400。表400在最左边列中示出患者的类别。其余列示出患者数目和针对不同染色体臂在血浆中检测到的CNA的百分比。90位HCC患者中的七十六位(84.4％)在血浆中的染色体1和染色体8上具有至少一个染色体臂-水平CNA。12位HCC患者的肿瘤组织可用于证实血浆DNA发现。测序组织样品并且CNA图形在图5中示出。

图5示出在12位HCC患者的肿瘤和对应的血浆中检测到的CNA的表500。在表500中，患者病例数目在第一列中列出。如第二列中所示，患者以血浆中肿瘤DNA浓度的降序排列。第三列示出肿瘤尺寸。其余列示出针对不同染色体臂在肿瘤和血浆中检测到的CNA。‘增加(Gain)’指示拷贝数增加。‘丢失(Loss)’指示拷贝数丢失。‘Nil’指示无可检测的CNA。针对12位患者分析了总共48个染色体臂。示出了在肿瘤和血浆之间具有一致和不一致结果的染色体臂的数目(和百分比)。

在针对12位患者分析的48个染色体臂中，30个(63％)臂观察到血浆和肿瘤组织中的一致改变。对于10个(21％)臂，仅在肿瘤中观察到CNA，但在血浆中未观察到CNA。这些病例在血浆中倾向于具有较低的肿瘤DNA浓度。对于7个(15％)臂，在血浆中观察到CNA，但在肿瘤中未观察到CNA。在一种情况下(HOT428)，在肿瘤中观察到1q的增加，但在血浆中观察到丢失。这些数据可表明存在肿瘤异质性，其中可存在构成血浆DNA的癌细胞的其它变异区或克隆株。

在患有和没有肝硬化的HBV携带者之中，这些CNA的检测率分别为22.2％和4.5％。患有肝硬化的一位患者和一位没有肝硬化的慢性HBV携带者在血浆中呈现CNA(但在血液收集时并不知道具有HCC)分别被诊断为在3个月和4个月之后具有HCC。跟踪所有HBV携带者和肝硬化患者至少6个月。对于在血浆中无任何CNA的那些对照受试者，其中无一者在跟踪时段期间形成HCC。32位健康受试者中无一者在血浆中的染色体1或染色体8上具有可通过CAZA检测的CNA。在HCC患者中，由于CNA的存在，血浆中序列读数的不成比例的增加或减少反映在血浆样品中肿瘤DNA的百分比浓度。在HCC患者的血浆中肿瘤源DNA的中值百分比浓度为2.1％(范围：0％到53.1％；四分位数间距：1.2％到3.8％)。

CAZA提供了一种非侵入性检测与肿瘤相关的CNA的方式。在HCC中，染色体1和染色体8通常受CNA影响(34-36)。实际上，我们的数据显示出，90位HCC患者中的76位(84.4％)具有涉及血浆中染色体1和染色体8上的任一臂的至少一个CNA，而对于血浆中的这两个染色体，32位健康受试者中无一者呈现任何CNA。还在22.2％和4.5％的肝硬化患者和HBV携带者中检测到涉及染色体1和染色体8的血浆CNA。在一位HBV携带者和一位患有肝硬化的患者中，在血液收集之后不久就诊断出HCC。很可能在血液收集时癌症将已存在并且与血浆中的CNA有关，从而显示出实施方式的早期筛检能力。在HCC患者中相对高的血浆CNA检测率表明此方法在筛检HBV携带者中可具有未来价值。此外，CNA存在于几乎所有类型的癌症中(33)。因此，此方法可作为适应于所关注癌症的具体CNA图形的通用肿瘤标记来应用。

III.基于异常区域的图形检测癌症类型

一些实施方式可使用一种类型癌症的已知异常区域(连同不论是扩增还是缺失)以便鉴别由样品中鉴别的畸变暗示的潜在的癌症。在以上实例中，HCC的已知异常区域用于筛检HCC的样品。此筛检可将已鉴别的异常区域(包括不论是扩增还是缺失)与已知集合的异常区域相比较。如果确定充分高的匹配，那么癌症的类型可被标记为可能的测试结果。

匹配准则可为也在样品中鉴别出的所述集合区域的百分比。匹配准则可要求具体区域为异常的。举例来说，当1p、1q或8q异常时，或当这些染色体臂中的多于一个异常时，可针对HCC鉴别匹配。因此，可存在要求相同匹配的具体子集，但对于一种类型的癌症，子集可小于全部集合的已知异常区域。

因此，测试样品的异常区域的图形可与特定类型癌症的异常区域的图形相比较，所述特定类型癌症的异常区域的图形可从已知患有特定类型癌症的患者测定。实施方式可用于筛检癌症并且鉴别所涉及的癌症类型，特别是在肿瘤可以是较小(例如，尺寸小于2cm)的情况下。成像技术在鉴别尺寸小于2cm的肿瘤方面具有困难。这类技术还可以用于追踪患者在治疗之后的进展。

A.方法

图6为示出根据本发明实施方式的分析生物体的生物样品以确定生物样品是否呈现第一类型癌症的方法600的流程图。生物样品包括源自正常细胞和可能源自与癌症有关的细胞的核酸分子(也被称为片段)。在样品中这些分子中的至少一些分子可以是游离的。

在本文所述的此方法和任何其它方法的一个实施方式中，生物样品包括游离DNA片段。尽管血浆DNA的分析已经用于说明在本申请中描述的不同方法，但这些方法还可用于在含有正常DNA和肿瘤源DNA的混合物的样品中检测与肿瘤相关的染色体畸变。其它样品类型包括唾液、泪液、胸膜液、腹水、胆汁、尿、血清、胰液、粪便和子宫颈涂片样品。

在步骤610中，鉴别生物体的多个染色体区域。多个染色体区域为亚染色体并且可以是未重叠的。计数的染色体区域可具有限制。举例来说，可仅计数与至少一个其它区域相邻的区域(或相邻区域可能需要具有一定尺寸，例如四个或更多个区域)。对于其中区域不相同的实施方式，数目也可考虑相应长度(例如，数目可以是异常区域的总长度)。在一些实施方式中，区域对应于染色体的臂。在其它实施方式中，区域可小于臂，例如，1Mb区域。

在一些实施方式中，染色体区域可具有特定的单倍型(即，对应于特定的染色体拷贝)。在使用相对单倍型剂量(RHDO)分析的实施方式中，每个区域可包括至少两个杂合基因座。关于RHDO的另外细节可见于美国专利第8,741,811号中。

在步骤620中，对于生物体的生物样品中的多个核酸分子中的每个核酸分子，可鉴别核酸分子在生物体的参考基因组中的位置。多个核酸分子可包括500,000或更多个分子(片段)。此定位可以不同方式执行，包括执行分子的测序(例如经由随机测序)以获得所述分子的一个或两个(成对端)测序标签，并且然后将一个或多个测序标签与参考基因组进行比对。这类比对可使用如作为碱基局部比对检索工具(BLAST)的工具执行。位置可被鉴别为在染色体的臂中的数字。

在步骤630中，对于多个染色体区域中的每个染色体区域，相应群组的核酸分子可被鉴别为来自基于所鉴别区域的染色体区域。相应群组可包括至少一个位于染色体区域的多个基因座中每个基因座的核酸分子。

在步骤640中，计算机系统可计算针对多个染色体区域中每个染色体区域的相应群组的核酸分子的相应值。相应值可界定相应群组的核酸分子的性质。性质可以是核酸分子的计数、百分比或尺寸。相应值可包括尺寸分布的均值、尺寸分布的中值、尺寸分布的模式或尺寸低于尺寸阈值的核酸分子的比例。在部分IV中更详细地论述了使用尺寸作为性质。

在步骤650中，可以将相应值与相应参考值相比较以确定染色体区域呈现缺失还是扩增的分类。比较可包括基于相应值和相应参考值确定z分数。然后可以将z分数与一个或多个阈值相比较以确定是否存在缺失或扩增。不同阈值可以用于缺失和扩增。在其它实施方式中，参考值可包括所述阈值，例如，如果z分数中的其它值移动到等式的另一侧的话。参考值可对应于在健康样品、另一染色体区域(例如，未呈现畸变的染色体区域)或当被测试的区域为第一单倍型时的其它单倍型中测定的值。

在步骤660中，可以测定呈现缺失或扩增的染色体区域的测试图形。测试图形是指在所测试样品中异常区域的图形。测试图形可包括呈现缺失、扩增或正常的染色体区域的集合。测试图形还可包括被鉴别为呈现扩增的集合的第一子集。测试图形可进一步包括被鉴别为呈现缺失的集合的第二子集。测试图形可进一步包括被鉴别为未呈现扩增或缺失的集合的第三子集。

在步骤670中，可以将测试图形与不同类型癌症的多个参考图形相比较。一种类型癌症的参考图形可包括已知集合的异常区域。可以从组织和/或游离核酸分子的混合物的参考样品中测定参考图形。参考图形可包括许多区域，其中每个区域具有界定状态的扩增、缺失，或无畸变。所述比较可确定测试图形的哪些区域具有与参考图形中的区域相同的畸变。举例来说，可以确定在测试图形和参考图形两者中相同区域是否被指示为具有扩增、缺失，或正常。

在步骤680中，基于所述比较，可以确定呈现与对应于第一类型癌症的第一参考图形相同的缺失或扩增的测试图形的区域的量。在各种实施方式中，量可为与已知集合的异常区域匹配的染色体区域的数目或百分比。

在步骤690中，将区域的量与第一阈值相比较以确定生物样品是否呈现第一类型癌症的第一分类。第一阈值可对第一类型癌症具有特异性或可用于多种类型的癌症。这类阈值可以为与待鉴别的第一类型癌症的已知集合的异常区域匹配所需的染色体区域的最小量。在各种实施方式中，最小量可以是3、4、5、6、7、8、9、10、11、12或13个染色体区域。在一些实施方式中，具体区域可需要是异常的，并且因此可以使用除将量与第一阈值相比较以外的其它准则。这类具体区域可以是约束条件或加权高于其它区域。具体异常区域可以是针对一种类型癌症的已知异常区域全部集合的子集。癌症的类型除了其它癌症之外还可包括HCC、结肠直肠癌、乳癌、肺癌或鼻咽癌。

用于确定分类的阈值可基于进行计数的区域的位置和尺寸而变化。举例来说，可以将在特定染色体或染色体的臂上的区域的量与所述特定染色体(或臂)的阈值相比较，作为用于确定是否表明特定类型癌症的准则。可以使用多个阈值。举例来说，在特定染色体(或臂或更大的亚染色体区域)上匹配区域(即，在测试图形和参考图形中相同分类的畸变)的量可需要大于第一阈值，并且在基因组中匹配区域的总量可需要大于第二阈值。

匹配区域的量的阈值还可取决于对于区域的分类不均衡强烈的程度。举例来说，用作确定癌症类型分类的阈值的匹配区域的量可取决于用于检测每个区域中畸变的特异性和灵敏度(异常阈值)。举例来说，如果异常阈值低(例如z分数为2)，那么可以选择较高(例如，15个匹配区域或80％)的量阈值。但如果异常阈值较高(例如，z分数为3)，那么量阈值可以较低(例如，5个匹配区域或60％)。示出畸变的区域的量也可以是加权值，例如示出高度不均衡的一个区域可加权高于仅显示出略微不均衡的区域(即存在比仅畸变阳性和阴性有更多的分类)。对于待鉴别的癌症类型，这类加权可以与需要具有畸变的某些区域类似的方式操作。

在一些实施方式中，可基于其它类型癌症的匹配区域数目动态地测定阈值。举例来说，阈值可以是已鉴别癌症的匹配区域的数目，至少为大于下一个最可能癌症类型的匹配区域的具体数目。这类阈值可以是除了最小阈值以外的附加准则。因此，在一些情况下，如果不存在足够数目的匹配区域，那么无法鉴别出癌症类型。

B.结果

方法600测试多个癌症类型以确定精确性。方法600利用已知癌症类型的患者测试。此外，所用的阈值可以使用已知癌症类型的样品测定。不同阈值可以用于不同的癌症类型。

测序17位癌症患者(6位患有HCC的患者、4位患有结肠直肠癌(CRC)、3位患有乳癌(BrC)、2为患有肺癌(LC)和2位患有鼻咽癌(NPC))中的每一位的血浆DNA。基于CAZA方法，针对每一位患者分析每个染色体臂的拷贝数畸变(CNA)。

图7示出根据实施方式的对于表700中不同类型癌症呈现不同图形的染色体臂。在≥50％的病例中出现的CNA的颜色突出显示。拷贝数丢失以红色突出显示，并且拷贝数增加以绿色突出显示。

表700具有在最左列上列出的染色体臂。其它列中的每一列列出了癌症类型和癌症类型的患者数目。缺失用‘-’标识。扩增用‘+’标识。正常区域用‘Nil’标识。

对于患有不同类型癌症的患者，在血浆样品中观察到的CNA的图形是不同的。基于在血浆中观察到的最常见的CNA图形，实施方式可利用在血浆中观察到的CNA推断癌症的潜在组织来源，但CNA的来源未知。在表700中列出CNA的图形是出于说明目的，并且可通过分析更多数目的临床样品来建立更全面的CNA列表。

还可由对肿瘤组织的分析来测定CNA的参考图形。作为实例，在HCC肿瘤组织中通常检测到1q、6p、8q和17q上的增加和4q、8p、13q、16q和17p上的丢失(Moinzadeh P等人《英国癌症杂志(Br J Cancer)》2005；92:935-941)。在CRC肿瘤组织中通常检测到5p、8q、9p、13q和20q上的增加和8p、9p、17p和18q上的丢失(Farzana等人《公共科学图书馆·综合(PLoS One)》2012；2:231968和Lips EH等人《病理学杂志(J Pathol)》2007；212:269-77)。在非小细胞肺癌组织中通常检测到5p、7p、7q、8q、14q、17q和20q上的增加和3p、8p、9p、13q和18q上的丢失，而在小细胞肺癌组织中通常检测到3q、5p、14q和19q上的增加和3p、4p、4q、5q、10p、10q、13q、15q、17p和22q上的丢失(Zhao X等人《癌症研究(Cancer Res)》2005；65:5561-70)。在乳癌组织中1q、8q、17q和20q上的增加和4p、5q、8p、11q和13q上的丢失是常见的(Andre F等人《临床癌症研究(Clin Cancer Res)》2009；15:441-51)。此处描述的CNA的图形充当说明性实例并且并非旨在成为可用于本文所述的方法的唯一图形。

基于在此实例中的CNA图形，假设出于癌症筛检的目的针对患者BrC2执行血浆DNA测序。观察到CNA，包括1q、3q、8q和14q的拷贝数增加和2p、2q、3p、4p、7q、8p、9p、11p、12p、12q、16q和17p的拷贝数丢失。在她的血浆中的CNA匹配乳癌的13个典型CNA。相比之下，她的CNA分别仅匹配HCC、CRC、LC和NPC的3、6、4和1个典型CNA。因此，基于她的血浆DNA的CNA图形，推断她患有的最可能的癌症是乳癌。所选择的阈值可以用于确定观察到的CNA数目是否与某些癌症类型的典型CNA相符。在此实例中，阈值7、8、9、10、11、12或13可以用于将CNA分类为与乳癌相符。还可以使用匹配区域的百分比。举例来说，可以使用匹配通常异常区域的区域百分比。通常异常区域可以被定义为在多于50％的参考样品中具有特定畸变的区域。

在其它实施方式中，其它统计学方法，例如但不限于分级聚类，可以用于推断患者正患有最可能的癌症类型。举例来说，每个参考样品可分配有多维数据点，其中每个维度对应于不同区域。在一个实施方案中，每个维度可分配有-1(缺失)、0(正常)或1(扩增)。对于不同水平的扩增，较高的数目可以是可能的。特定癌症类型的样品将集群在一起，并且新样品可分配到一个集群。阈值可对应于用于确定新样品应分配到哪个集群(如果存在)的度量，其中分配的集群对应于样品所鉴别的癌症类型。举例来说，集群可具有质心，所述质心对应于由至少预定数目的集群的参考图形共用的集群的参考图形的区域。集群可包括界定哪些测试图形处于集群内部的边界。边界可具有除简单球形以外的各种形状。当确定哪些参考图形属于哪个集群时，边界可被确定为集群分析的一部分，其中最远离质心但在集群内的参考图形可界定边界。用于确定测试图形是否为集群的一部分的阈值可被认为是在从质心到测试图形的方向上质心到边界的距离。

在又一实施方式中，可以测定具有不同类型癌症的相对概率。可将患者的CNA图形与每种类型癌症的CNA的概率相比较。举例来说，具有1q增加的患者将与不同类型癌症的1q增加的机率相比较。出于说明的目的，我们假设1q增加可出现在70％的HCC患者、20％的LC患者和1％的CRC患者中。借助于这些概率，可基于患有具有所述CNA的不同癌症类型的患者的相对百分比测定优势比。举例来说，基于1q增加，患者可被认为患有HCC的可能性比患有LC的可能性高3.5倍并且患有HCC的可能性比患有CRC的可能性高70倍。HCC与LC与CRC的优势比可以是70:20:1。本领域的技术人员将理解此优势比可以若干不同但等效的形式表示。还可以测定在除1q以外的染色体臂处不同CNA的优势比。然后可借助在个别CNA处的概率或优势比计算总体优势比。换句话说，考虑到来自患者的CNA图形和具有给定CNA图形的不同类型癌症的概率，在总体优势比中可相互比较不同类型的癌症的概率。尽管此实例使用在不同染色体臂处的CNA的概率，但可以使用在除染色体臂以外的不同亚染色体区域处的CNA的概率。在一些实施方式中，如果在患者的染色体臂或其它亚染色体区域处未发现CNA，那么无CNA的图形可以与在不同类型癌症的染色体臂或亚染色体区域处未发现CNA的概率相比较。来自患者而无CNA的区域图形然后可以用于测定不同类型癌症的概率。此外，相比于如果仅使用一种类型的区域，组合对具有CNA的区域和无CNA的区域的分析可以用于以潜在更高的精度测定一种类型癌症的概率或相对概率。

在另一实例中，假设患者NPC1具有测序的血浆DNA。观察到CNA，包括2q、12q和22q的拷贝数增加并且6q和18q的拷贝数丢失。此患者的CNA图形匹配NPC的四个典型CNA。相比而言，此CNA图形匹配HCC、CRC、BrC和LC的图形的0、2、0和0个典型CNA。在另一实施方式中，还可以计数癌症类型的典型CNA的缺乏。举例来说，NPC的典型CNA中每一者都存在于此患者中。相比之下，HCC、CRC、BrC和LC的7、16、13和8个典型CNA不存在于此患者中。因此，此患者的CNA图形不暗示有HCC、CRC、BrC和LC。

图8A、图8B和图8C示出可进一步通过使用表800中较高分辨率CNA分析来增强此方法的精确性如何。在此组癌症患者中鉴别影响1Mb区域的CNA。表800具有在最左列上列出的1MB区域的基因组坐标。其它列中的每一列列出了癌症类型和癌症类型的患者数目。缺失用‘-’标识。扩增用‘+’标识。正常区域用‘Nil’标识。

在此实例中，鉴别跨越1Mb并且存在于具有相同癌症类型的所有患者中的CNA。借助于较高的分辨率，可以鉴别存在于高比例的患有相同类型癌症的患者中的亚染色体CNA。在基于臂的分析中不鉴别癌症类型-特异性CNA。举例来说，在患有肺癌的所有三位患者中鉴别在跨越坐标30到31Mb和44到45Mb的染色体18上的拷贝数增加，但所述拷贝数增加在患有其它癌症类型的患者中是不常见的。如上文所论述，不同的统计测试可以用于确定哪种癌症特异性CNA图形最类似于测试病例。不同的统计测试可包括例如在不同癌症相关的CNA图形和分级聚类中对典型CNA的数目进行计数。

IV.血浆中肿瘤源DNA片段的尺寸分析

DNA片段的尺寸分布上的统计学显著差异可以用于以可计数数目的类似方式鉴别畸变。已经报告总(即肿瘤加加肿瘤)血浆DNA的尺寸分布在癌症患者中增加(Wang BG等人《癌症研究(Cancer Res.)》2003；63:3966-8)。然而，如果正具体地研究肿瘤源DNA(代替DNA的总(即肿瘤加非肿瘤)量)，那么已经观察到肿瘤源DNA分子的尺寸分布短于来源于非肿瘤细胞的分子的尺寸分布(Diehl等人《美国国家科学院院刊(Proc Natl Acad Sci U SA.)》.2005；102:16368-73)。因此，循环DNA的尺寸分布可以用于确定是否存在癌症相关的染色体畸变。

尺寸分析可使用如本文和美国专利第8,620,593号中所提及的各种参数。举例来说，可使用上述的Q或F值。这类尺寸值不需要通过从其它区域的计数来归一化，因为这些值不随着读段的数目而按比例调整。可以使用涉及区域的深度和细化的技术。在一些实施方式中，当比较两个区域时可以考虑特定区域的GC偏向。在一些实施方案中，尺寸分析仅使用DNA分子。

A.方法

图9为示出根据本发明实施方式的分析生物体的生物样品的方法900的流程图。生物样品可包括源自正常细胞和可能源自与癌症有关的细胞的核酸分子。在生物样品中，至少一些核酸分子可以是游离的。在一个方面中，方法900可以涉及基于第一染色体的片段尺寸和一个或多个参考染色体的片段尺寸的分离值(例如差值或比率)确定序列不均衡的分类。

在步骤910中，针对生物样品中多个核酸分子中的每个核酸分子，可以测量核酸分子的尺寸。获得核酸分子的尺寸描述于2013年3月7日提交的Lo等人的题为“在母本血浆中对胎儿DNA浓度的基于尺寸的分析(Size-Based Analysis of Fetal DNA Fraction inMaternal Plasma)”美国专利公开案第2013/0237431号中，出于所有目的所述公开案的内容以引入的方式并入本文中。

在步骤920中，可以鉴别核酸分子在生物体的参考基因组中的位置。位置可以是基因组的任何部分，如对于步骤120和其它地方所描述。举例来说，鉴别的是多个核酸分子中的每个核酸分子来源于哪个染色体。此确定可以通过映射到参考基因组进行。

在步骤930中，对于多个染色体区域中的每个染色体区域，基于所鉴别的位置，可将相应群组的核酸分子鉴别为来自第一染色体区域。第一染色体区域可包括多个第一基因座。

在步骤940中，计算机系统可计算第一群组核酸分子的尺寸分布的第一统计值。在实施方式中，可以通过计算在所指定的尺寸处在第一曲线下的面积来测定第一统计值。第一曲线可为第一染色体区域的核酸分子在一定范围尺寸的累积频率的图示。在一个实施方式中，第一统计值可以为对应于第一染色体的片段尺寸分布的平均值、均值、中值或模式。在另一实施方式中，第一统计值可包括低于第一尺寸的片段的长度的总和，其可为一种类型的截止值。举例来说，可对小于200bp的片段中的每个片段的长度求和。总和可以除以另一数字，如对应于第一染色体的所有片段的长度总和或大于第二尺寸截止值(其可以与第一尺寸相同)的片段的长度总和。举例来说，第一统计值可以是低于第一尺寸截止值的片段的总长度相对于片段的总长度的比率，或小片段的总长度相对于大片段的总长度的比率。

在步骤950中，可以将第一统计值与第一参考值相比较以确定第一染色体区域是否呈现畸变的分类。在实施方式中，第一参考值可以是第二染色体区域的第二组核酸分子的尺寸分布的统计值。第二染色体区域可以被认为是参考染色体区域。可通过计算在所指定的尺寸处在第二曲线下的面积来测定第一参考值。第二曲线可以是第二染色体区域的核酸分子在所述范围尺寸的累积频率的图示。在一个实施方式中，第一参考值可以是多个参考染色体的统计值。在一个实施方案中，可以组合统计值使得所述统计值可以是一个或多个第二染色体的统计值。在另一实施方式中，可以单独地比较多个参考染色体的统计值。所述比较可确定第一染色体区域呈现缺失还是扩增的分类。

可以比较第一统计值和第一参考值以获得分离值。在一个实施方式中，分离值可以是第一统计值和所测定的第一参考值之间的差值。在另一实施方式中，分离值可以是第一统计值与第一参考值的比率。在又一实施方式中，可以测定多个分离值，例如，对于每个参考值的一个分离值，其可以针对每个参考染色体进行计算。

分离值可以是使用以下等式在第一染色体区域和参考染色体区域之间的短DNA片段的比例上的差值：

ΔF＝P(≤150bp)_测试-P(≤150bp)_参考

P(≤150bp)_测试表示源自第一染色体区域的尺寸≤150bp的测序片段的比例，并且P(≤150bp)_参考表示源自参考染色体区域的尺寸≤150bp的测序片段的比例。在其它实施方式中，可以使用其它尺寸阈值，例如但不限于100bp、110bp、120bp、130bp、140bp、160bp和166bp。在其它实施方式中，尺寸阈值可以以碱基或核苷酸或其它单位表示。在一些实施方案中,参考染色体区域可以被定义为除第一染色体区域之外的所有亚染色体区域。在其它实施方案中，参考区域可以仅为除第一染色体区域之外的亚染色体区域的一部分。

在基于计数的分析中使用的相同对照组可以用于基于尺寸的分析中。可以使用对照组的ΔF的均值和SD值来计算测试区域的基于尺寸的z分数。

可以将分离值与一个或多个截止值相比较。在一个实施方式中，可以针对多个分离值中的每个分离值执行比较。举例来说，可以测定第一统计值和每个参考值之间的不同分离值。在各种实施方案中，可以将每个分离值与相同或不同截止值相比较。在另一实施方式中，将分离值与两个截止值相比较以确定分离值是否在特定范围内。范围可包括一个截止值以确定非正常数据点是否存在(例如畸变)并且第二截止值可以用于确定数据点是否可能由测量或分析中的误差造成(例如，分离值是否大于曾预期的分离值，甚至对于患病的样本)。

针对第一基因组位置，基于比较确定序列不均衡(例如畸变)是否存在的分类。在一个实施方式中，多个截止值(例如N个截止值)可以用于单个分离值。在这类实施方式中，可以确定N+1分类。举例来说，两个截止值可以用于确定染色体区域是正常或健康、不确定还是异常(例如扩增或缺失)的分类。在其中执行多个比较(例如对于每个分离值执行一个比较)的另一实施方式中，分类可以基于每个比较。举例来说，基于规则的方法可查看由每个比较产生的分类。在一个实施方案中，仅当所有的分类一致时才提供决定性分类。在另一实施方案中，使用大部分分类。在又一实施方案中，可以基于每个分离值接近于相应截止值的程度，使用更复杂的的公式，并且可以分析这些接近性值以确定分类。举例来说，可以对接近性值(连同其它因数，如归一化)进行求和并且可以将结果与另一截止值相比较。在其它实施方式中，方法900的变型还可以应用于第一染色体的统计值与可来源于参考样品的截止值的直接比较。

B.尺寸与癌症的相关性

为了进一步分析，我们单独地探究三种不同尺寸群组的血浆DNA分子，即，小于150bp的那些、在150bp和180bp之间的那些和高于180bp的那些。在小于150bp的DNA片段的比例和血浆中肿瘤DNA浓度之间存在正相关(皮尔逊(Pearson's)r＝0.6；p值<0.001)(图10A)。在图10A、图10B和图10C中肿瘤DNA浓度以对数标度为单位示出。在尺寸在150bp和180bp之间的DNA片段的比例和血浆中肿瘤DNA浓度之间未观察到相关性(r＝-0.07；p值＝0.95)(图10B)。在大于180bp的DNA的比例和血浆中肿瘤DNA浓度之间观察到负相关(r＝-0.41；p值<-0.001)(图10C)。

较低的肿瘤DNA浓度将更可能出现在癌症的早期，并且较高肿瘤DNA浓度将更可能出现在癌症的后期。因此，比正常DNA片段大的平均尺寸(或其它统计值)的存在可指示早期癌症，并且比正常DNA片段小的平均尺寸的存在指示晚期癌症。

在其它实施方式中，可以测量肿瘤DNA浓度。当肿瘤DNA浓度低于某一阈值时，可以执行尺寸分析以确定尺寸分布的统计值是否大于阈值(即，测试DNA片段是否长)。当肿瘤DNA浓度高于某一阈值时，可以执行尺寸分析以确定尺寸分布的统计值是否小于阈值(即，测试DNA片段是否短)。

尺寸分析的方法和关于尺寸与癌症的关系的数据论述于2011年11月30日提交的Lo等人的题为“检测与癌症有关的基因或分子畸变(Detection of Genetic or MolecularAberrations Associated with Cancer)”的美国专利公开案第2013/0040824号中，出于所有目的所述公开案的内容以引入的方式并入本文中。

V.借助于尺寸分析确认CNA畸变

我们使用大规模平行测序来以单个碱基分辨率并以全基因组方式研究血浆DNA样品的尺寸分布图。我们使用CAZA以鉴别肿瘤源血浆DNA用于研究它们的具体尺寸分布图。

在这一研究中，我们使用CAZA方法以鉴别显示出暗示存在肿瘤相关的CNA的血浆DNA定量畸变的染色体臂。在鉴别具有扩增或缺失的染色体臂之后，我们专注于这些区域作为比较肿瘤源血浆DNA(富集于扩增区域中)非肿瘤源血浆DNA(富集于缺失区域中)的策略。相比于基于检测癌症相关的突变，我们认为此方法可提供更稳健的方式来鉴别用于尺寸分布分析的肿瘤DNA。对于检测癌症相关的突变，已经报告在癌症基因组中平均存在约数千个点突变(29-32，39)。另一方面，对于CAZA，按照几十兆个碱基总计，来源于呈现CNA的基因组区域的无数血浆DNA分子中的任一个血浆DNA分子都将是适用的。

A.组合分析

图11示出在癌症患者中血浆DNA尺寸分析的原理的示意图。图11示出阶段1110到2150。阶段1110示出血浆中的组织细胞。如上所述，肿瘤细胞可包括在各种区域中的扩增和/或缺失。实例显示出在特定染色体上扩增的一个区域和在特定染色体上缺失的另一个区域。

在阶段1120，示出血浆具有来自各种区域的份额。在血浆样品中示出DNA片段。在癌症患者中，血浆DNA来源于肿瘤细胞(红色分子)和非肿瘤细胞(蓝色分子)两者。在肿瘤组织中扩增的基因组区域将向血浆贡献更多的肿瘤DNA。在肿瘤组织中缺失的基因组区域将向血浆贡献更少的DNA。

在阶段1130，执行双端测序。双端测序可以用于测定血浆样品中DNA片段的尺寸。

在阶段1140，基于计数的分析用于鉴别异常区域。在示出的实例中，CAZA分析用于确定在血浆DNA中染色体臂是过高表达还是过低表达，这暗示在肿瘤中存在染色体臂的扩增或缺失。大的正z分数可指示存在染色体臂的扩增，而大的负z分数可指示存在染色体臂的缺失。可以使用除所述臂以外的其它尺寸区域。

在阶段1150，可以分析测试区域的尺寸分布。如上文所解释，肿瘤DNA片段短于健康细胞的DNA片段。可以测试异常区域的DNA片段以确认尺寸分析另外示出相同的畸变。在示出的实例中，将呈现扩增的区域的尺寸分布与呈现缺失的区域的尺寸分布相比较。因此，在一些实施方式中，可以比较源自过低表达(富集非肿瘤DNA)和过高表达(富集肿瘤源DNA)的染色体臂的血浆DNA分子的尺寸分布图，如下文更详细描述。

B.两个区域之间的尺寸差

为比较源自肿瘤组织和非肿瘤组织的血浆DNA的尺寸分布图，我们分析来自具有CNA的染色体臂的血浆DNA片段。基于先前研究(34-36)以及我们在这一研究中的发现，与HCC有关的典型CNA包括1p和8p缺失以及1q和8q扩增。在血浆中具有53％肿瘤源DNA的HCC病例(H291)用于说明原理。此病例示出血浆中的8p缺失和8q扩增。因此，相比于从8p的缺失区域释放，肿瘤将从8q的扩增区域释放更多的血浆DNA。因此，与无CNA的区域相比，8q将相对地富集肿瘤源DNA并且8p将相对地耗乏肿瘤DNA(或换句话说，相对地富集非肿瘤DNA)。在图12A中示出对于8p和8q的血浆DNA的尺寸分布图。8q的尺寸分布图在8p的尺寸分布图的左侧，这指示8q的血浆DNA的尺寸分布短于8p的血浆DNA的尺寸分布。因为8q富集有肿瘤DNA，所以数据表明由肿瘤释放的DNA往往会短于不是源自肿瘤的DNA。

为量化缩短的程度，对于每个血浆样品构建针对8p和8q的尺寸分布的累积频率图示(图12B)。这些图示示出DNA分子的渐进性累积，从短尺寸到长尺寸，作为样品中所有血浆DNA分子的比例。两种曲线之间的差值ΔS(图12C)然后被计算为

ΔS＝S_8q-S_8p

其中ΔS表示在特定尺寸处8p和8q之间的累积频率差值，并且S_8p和S_8q分别表示在8p和8q上小于特定尺寸的血浆DNA片段的比例。对于特定尺寸的正值ΔS指示，与8p相比，在8q上短于所述特定尺寸的DNA的丰度较高。使用此方法，针对在血浆中在8p和8q上呈现CNA的所有HCC病例，我们扫描了从50bp到250bp的ΔS值。在图12C中，将对于HCC病例H291的8q和8p之间的累积频率的差值ΔS绘制为红线。与健康对照组(灰线)相比，所有这些HCC病例显示出相比于源自8p(富集非肿瘤DNA)，源自8q(富集肿瘤DNA)短于200bp的血浆DNA的丰度较高(图13A)。图13A示出对于血浆中在8p和8q上具有不同CNA的所有HCC病例的ΔS对尺寸的图示。具有血浆中不同范围的肿瘤DNA百分比浓度的病例以不同颜色示出。随着肿瘤DNA百分比浓度增加，ΔS增大，这指示较高丰度的较短DNA片段。这些数据进一步支持肿瘤源DNA短于非肿瘤源DNA。

ΔS值在166bp处达到最大值，表明来源于肿瘤组织和非肿瘤组织的血浆DNA之间的关键差值为<166bp和≥166bp的DNA的相对丰度。我们将此值表示为ΔS₁₆₆。对于本研究的所有受试者，包括HBV携带者和患有肝硬化的患者绘制ΔS₁₆₆(图13B)。对于HCC群组，如通过血浆CAZA分析测定的在8p和8q上具有和不具有不同CNA的患者分别由红点和黑点表示。对于几乎所有的非HCC受试者，ΔS₁₆₆值接近0，这指示对于来自8p和8q的DNA的尺寸分布是类似的。可以将ΔS₁₆₆(或在一些其它指定尺寸处的值)与阈值相比较，并且如果差值超过阈值，那么至少一个区域可以被鉴别为呈现畸变。如果已知一个区域不具有畸变(例如，通过CNA分析)，那么当差值超过阈值时其它区域将被鉴别为呈现畸变。在这类实施方式中，差值的符号可指示畸变的类型。举例来说，当第一区域具有扩增而第二区域没有扩增时，那么差值将为正数。当第一区域具有缺失而第二区域没有缺失时，那么差值将为负数。如果测定到畸变，那么两个区域可以被鉴别为可能具有畸变，其中符号指示每个区域可具有的畸变类型。如果差值足够大，其可指示一个区域具有扩增而另一区域具有缺失(或扩增的量不同)，那么相比于正常区域差值将大于扩增区域。拷贝数分析可为区域提供初始分类，使得可以选择合适的阈值。

还执行基于1p和1q的血浆DNA尺寸分布图的尺寸分析(图14和图15)并且显示出相同趋势。在图15中，对于HCC群组，如通过血浆CAZA分析测定的在1p和1q上具有和没有不同CNA的患者分别由红点和黑点表示。可以使用在正常区域中的扩增区域或正常区域和缺失区域执行此尺寸分析。

在另一实施方式中，可以将扩增或缺失区域的尺寸分布与已知具有癌症或已知健康的一个或多个参考受试者的尺寸分布相比较。尺寸分布可以由值(例如，统计值，如平均尺寸或中值尺寸)表示。

因此，染色体区域的畸变可以用于选择针对尺寸分析的特定区域。所选择区域的尺寸分析然后可以用于确定癌症水平的分类。使用CNA和尺寸分析的组合可提供更大的精确性。CNA分析可偶尔产生假阳性，即，不患有癌症的患者却具有拷贝数畸变的区域。因此，然后可以使用尺寸分析确认由于足够数目呈现畸变的区域而被鉴别为患有癌症的患者。在一些实施方式中，所选择的区域为具有扩增的区域。

本研究被设计具有以高分辨率和全面方式探究HCC患者的血浆DNA尺寸分布的打算，其可阐明与通过肿瘤组织产生或释放血浆DNA相关的机制。本研究的另一目标是解决在关于癌症相关的血浆DNA尺寸分布的文献中存在的一些明显的不一致。研究已经报告在癌症患者的血浆中存在较长DNA(20-23)，而其它研究报告在较短血浆DNA分子之中癌症相关的DNA突变的发病率较高(12，25)。为实现这些研究目标。采纳了两步方法。首先，我们使用双端大规模平行测序，测量被招募受试者的血浆样品中所有DNA分子的长度。此方法允许以高达单个碱基分辨率来测定各血浆DNA分子的长度。此外，可以分析在基因组上的血浆DNA分子，并且可以在高精度下测定不同尺寸的DNA之间的相对量。因此，可以获得宽且深测量的血浆DNA尺寸分布图。其次，我们利用在源自基因组位置(与扩增或缺失有关)的血浆DNA中肿瘤DNA含量的相对差值的优点，CAZA方法，作为鉴别用于详细分析的肿瘤源血浆DNA的方式。

本研究提供了对在释放血浆DNA中可涉及的生物机制的许多见解。所有被招募受试者(包括HBV携带者、患有肝硬化或HCC的患者)的血浆DNA在166bp处呈现显著的峰(图14和图16)。此图形类似于在孕妇和器官移植接收者的血浆中的观察结果(26，27)。在研究的所有群组患者的血浆DNA尺寸分布图中存在特征166bp峰，表明在人类血浆中(包括孕妇、移植接收者、患有HCC的患者、患有肝硬化或慢性HBV的患者的血浆)的大部分循环DNA分子相似于单核小体单元并且很可能来源于细胞凋亡的过程。

对带有肿瘤相关的CNA的血浆DNA分子的尺寸分布图的研究指示这类分子短于未携带这类标记的那些分子(图13)。这与我们的观察一致，即随着增加血浆中肿瘤DNA的百分比浓度，血浆DNA的尺寸分布将向左偏移。然而，具有血浆中低肿瘤DNA百分比浓度的HCC患者比健康对照者具有明显更长的尺寸分布的事实表明，存在并未携带肿瘤相关的基因组标记的血浆DNA的附加组分。有可能此组分来源于肿瘤周围的非瘤性肝组织。这些长DNA分子可以来源于坏死而非细胞凋亡。已经报告除了典型寡核小体DNA片段以外，与组织坏死有关的细胞死亡可产生较长的DNA片段(37，38)。对于将来研究，将关注的是研究这些较长DNA分子的DNA甲基化分布图以查看它们是否具有与对于肝所预期的相似性。

我们证明异常短和长DNA分子的群体共存在于患有肝细胞癌的患者的血浆中。短DNA分子优先携带肿瘤相关的拷贝数畸变。

总起来说，我们以单个核苷酸分辨率剖析了患有HCC的患者中的血浆DNA的尺寸分布。我们已经证实了来源于肿瘤组织和非肿瘤组织的血浆DNA尺寸的差异。

还分析了ΔS和肿瘤尺寸之间的关系。使用ΔS分析，分析10位在血浆中具有8p缺失和8q扩增的HCC患者的血浆DNA样品。针对映射到8p和8q的血浆DNA片段之间的尺寸差，测定ΔS。ΔS的正值指示，与8p相比，对于8q低于150bp的短DNA片段的丰度更大。在图30中，将ΔS的值对HCC患者的最长肿瘤尺寸进行图示。

在ΔS和肿瘤尺寸之间观察到正相关(r＝0.876，皮尔逊相关)。此观察结果表明，来自呈现不同类型CNA的区域的血浆DNA片段的尺寸分布可以用于反映HCC患者中肿瘤的尺寸。

对于这10位HCC患者，还分析了总血浆DNA的总体尺寸分布。对于每个病例测定小于150bp(P(<150))的血浆DNA片段的百分比并且在图31中对肿瘤尺寸进行图示。在具有最大尺寸大于3cm的较大癌症的患者中短片段的比例显著较高。在一个实施方式中，短片段的比例可以用于反映癌症的尺寸和严重度。在其它实施方式中，可以使用尺寸的其它截止值，例如但不限于100bp、110bp、120bp、130bp、140bp、160bp和166bp。

校准函数可以用于提供肿瘤尺寸和统计值之间的关系。校准函数可以由来自具有已知尺寸肿瘤的生物体的参考样品的校准数据点测定。校准数据点可包括肿瘤尺寸的测量值和对应的来自染色体区域的核酸分子尺寸的统计测量值。当从新受试者获得新样品时，可以测定统计值，并且校准函数可以用于将统计值转换成肿瘤尺寸。校准函数的实例为线性拟合，类似于图30中示出的线性拟合。其它类型的回归分析，如最小平方拟合，可以用于产生校准函数。

以各种方式将校准函数定义为例如，多个系数的指定函数，如线性或非线性函数。其它实施方式可存储多个校准数据点(例如，校准函数的数据点)，使得可以产生校准函数。此外，可在这类校准数据点之间执行内插法以获得校准函数。校准函数可以存储于计算机存储器中并且从计算机存储器检索。

C.方法

图16为示出根据本发明实施方式的执行CAZA和尺寸分析以便分析生物体的生物样品的方法1600的流程图。

在步骤1605中，可以鉴别生物体的多个染色体区域。每个染色体区域可包括多个基因座。可以选择多个染色体区域中的一个染色体区域作为第一染色体区域。鉴别多个染色体区域可以类似于图6的步骤610。

在步骤1610中，针对多个核酸分子中的每个核酸分子，可以鉴别核酸分子在生物体的参考基因组中的位置。可以以与图6的步骤620类似的方式执行鉴别核酸分子的位置。

在步骤1615中，针对生物样品中多个核酸分子中的每个核酸分子，可以测量核酸分子的尺寸。可类似于图9的步骤910测量核酸分子的尺寸。

在步骤1620中，基于所鉴别的位置，相应群组的核酸分子可以被鉴别为来自多个染色体区域中每个染色体区域的染色体区域。相应群组可包括至少一个位于染色体区域的多个基因座中每个基因座的核酸分子。鉴别相应群组的核酸分子可以类似于图1的步骤120。

在步骤1625中，计算机系统可计算相应群组的核酸分子的相应量。计算相应量可以类似于图1的步骤130中的计算。

在步骤1630中，可以将相应量与计数参考值相比较以确定染色体区域是否呈现扩增的计数分类。基于所述比较，第一染色体区域可以被鉴别为可能呈现畸变。可以以与图1的步骤120到140或图6的步骤630到650类似的方式执行步骤1620到1630。

在步骤1640中，第一群组核酸分子可以被鉴别为来自第一染色体区域。

在步骤1645中，计算机系统可计算第一群组核酸分子的第一尺寸分布的第一统计值。可以通过计算在指定尺寸处在第一曲线下的面积来测定第一统计值。第一曲线可以是第一染色体区域的核酸分子在一定范围尺寸的累积频率的图示。在步骤1645中计算第一统计值可以类似于在图9的步骤940中的计算第一统计值。

在步骤1650中，可以将第一统计值与尺寸参考值相比较以确定第一染色体区域是否呈现畸变的尺寸分类。可以通过计算在指定尺寸处在第二曲线下的面积来测定尺寸参考值。第二曲线可以是第二染色体区域的核酸分子在所述范围尺寸的累积频率的图示。所述比较可以基于两个曲线之间的差异。在一些实施方式中，比较第一统计值与尺寸参考值可以类似于图9中的步骤950。

在步骤1655中，可以确定第一染色体区域是否呈现畸变的最终分类。举例来说，尺寸分类和计数分类中的至少一个可以用于确定对于第一染色体区域是否存在畸变。在一些实施方式中，仅当计数分类和尺寸分类指示相同畸变时，最终分类可以是存在第一畸变。因此，第一统计值与尺寸参考值的比较可确认第一染色体区域是否呈现畸变。在一些实施方式中，针对基于对应的计数分类被鉴别为异常的染色体区域集合，可以确定尺寸分类集合。基于所述尺寸分类集合，染色体区域中的每个染色体区域可以被确认为异常或不异常。

在一些实施方式中，第一染色体区域是否呈现畸变的最终分类可以基于多个计数参考值和多个尺寸参考值。每个计数参考值可对应于不同的计数分类(例如，区别独特对的计数分类，如区别水平1和水平2，或水平2和水平3)。类似地，每个尺寸参考值可对应于不同的尺寸分类。可根据尺寸分类和计数分类的特定组合来确定最终分类。

根据尺寸分布的统计值，尺寸分类可包括多个分类。举例来说，统计值和尺寸参考值之间的大差值可产生对应于高概率畸变的尺寸分类，而统计值和尺寸参考值之间的小差值可产生对应于低概率畸变的尺寸分类。类似地，根据核酸分子群组的量，计数分类可包括多个分类。举例来说，核酸分子群组的量与计数参考值相比较之间大的差值可产生对应于高概率畸变的计数分类，而小差值可产生对应于低概率畸变的计数分类。

因此，最终分类可以基于不同尺寸分类和计数分类的不同阈值。举例来说，考虑到指示某一可能低概率的畸变的计数分类，指示高概率畸变的尺寸分类可产生指示畸变的最终分类。当由尺寸分类或计数分类中之一指示的畸变概率增加时，那么由其它分类指示的概率的阈值降低。在一些情况下，一种分类可显示出高概率的第一类型畸变，另一种分类可显示出低概率的第二类型畸变，并且最终分类可指示存在第一类型畸变。在一些情况下，最终分类可对应于畸变的概率或机率。

D.实例病例

癌症相关的CNA的检测特异性可以通过血浆DNA尺寸分析改善，如以下两种病例中所示。病例1为患有B型肝炎相关的肝硬化的患者，并且病例2为慢性B型肝炎感染携带者。这两者在招募时都不知道患有任何癌症。他们自从招募后便开始临床上追踪两年并且未检测到癌症。在招募时从两位受试者中每一位都收集静脉血液。测序血浆DNA。在这两位患者中的每一位中都检测到涉及染色体1q的CNA。对于病例1，1p和1q的z分数分别为-2.3和15.5。这些结果与1q扩增的解释一致。在血浆DNA片段尺寸分析中，ΔS为-0.019。ΔS的负值指示，与1p相比，在1q中短DNA片段的丰度较低。由于基于计数的分析表明1q扩增，所以基于尺寸的分析结果与我们对癌症相关的CNA的预期相反。在癌症患者中，与具有扩增的区域或无任何CNA的区域相比，由于存在较多癌源短片段，预期拷贝数增加的区域显示出总体上较短的尺寸分布。因此，在这种情况下的尺寸分析不暗示在血浆DNA中存在癌症相关的CNA。

对于病例2，1p和1q的z分数分别为0.4和-4.4。这些结果与1q缺失的解释相符。在血浆DNA片段尺寸分析中，ΔS为0.044。ΔS的正值指示，与1p相比，在1q中短DNA片段的丰度更大。由于基于计数的分析表明1q缺失，所以基于尺寸的分析结果与我们对癌症相关的CNA的预期相反。在癌症患者中，与具有扩增的区域或无任何CNA的区域相比，由于存在较少的癌源短片段，预期拷贝数丢失的区域显示出总体上较长的尺寸分布。因此，在这种情况下的尺寸分析不暗示在血浆DNA中存在癌症相关的CNA。

VI.确定癌症阶段

如上文所提及，DNA片段的尺寸可指示癌症阶段。对于呈现扩增的区域，癌症的后期呈现较小片段。

除内在生物学意义之外，血浆DNA尺寸分布也可适用于研发用于检测血浆中癌症相关的改变的诊断方法。举例来说，可以通过专注于分析短DNA片段来实现从血浆中富集肿瘤DNA。此外，我们观察到短DNA分子的比例与血浆中肿瘤源DNA的百分比浓度具有正相关。尺寸分布的改变可以用于在治疗过程期间监测患者。此外，在患有或无HCC的患者血浆中存在长DNA分子群体确保了另外的研究。当更好地理解控制这些DNA分子释放的组织来源或病理性方法时，测量血浆中长DNA的比例可以适用于对这类疾病的评定。

A.HCC患者的血浆DNA尺寸分布

HCC患者、HBV携带者、肝硬化患者和健康对照者的血浆DNA的尺寸分布在图18和图19中示出。在图19中，每个个体由不同颜色表示。一般来说，在每个受试者的尺寸分布图中在166bp处观察到最显著的峰。此观察结果与先前关于孕妇和移植接收方的报告一致(26-28)，这表明大部分的循环DNA分子来源于细胞凋亡。有趣的是，当与32位健康对照者(图18中粗黑线)的中值尺寸分布图相比时，在具有低肿瘤DNA百分比浓度的HCC患者中血浆DNA的尺寸较长。然而，随着血浆中肿瘤DNA的百分比浓度增加，血浆DNA的尺寸分布逐渐地向左偏移(图18)。

如早先所描述，图13A为在血浆中8p和8q上具有不同CNA的所有HCC病例的ΔS对尺寸的图示。随着血浆中肿瘤DNA百分比浓度从小于2％增加到超过8％，ΔS增加，这指示较短DNA片段的丰度较高。血浆中的肿瘤DNA百分比浓度可随着癌症阶段进展而增加。因此，较短DNA片段的量可指示晚期癌症。图13B示出与无HCC受试者相比，对于HCC患者ΔS₁₆₆较高，这指示<166bp和≥166bp的DNA的相对丰度可以用于指示癌症的存在。因此，ΔS₁₆₆还可指示癌症阶段。

图20示出当短片段的比例可以用于区分HCC患者与健康对照受试者时的实例。针对32位健康对照受试者、血浆中肿瘤DNA浓度小于2％的HCC患者和血浆中肿瘤DNA浓度大于6％的HCC患者绘制小于150bp的血浆DNA片段的比例。与健康对照受试者(标记为‘CTR’)相比，肿瘤DNA浓度小于2％的HCC患者具有显著较低比例的小于150bp的短DNA片段(p＝0.0002，t测试)，并且肿瘤DNA浓度大于6％的那些HCC患者具有显著较高比例的短片段(p＝0.003，t测试)。肿瘤DNA浓度为2％到6％的HCC患者具有在肿瘤浓度小于2％的HCC患者和肿瘤浓度大于6％的HCC患者之间的DNA片段比例。以这种方式，肿瘤浓度为2％到6％的HCC患者可具有类似于健康对照受试者的分布。

图21示出对于应用P(<150)以区分肿瘤DNA浓度小于2％的HCC患者与健康对照受试者的接受者操作特征(ROC)曲线。基于在血浆中呈现过低表达的染色体区域的过低表达的量值测定肿瘤浓度，所述染色体区域的过低表达与肿瘤中的拷贝数丢失相符。对于任何染色体臂都没有显著过低表达的病例，对于与拷贝数增加相符的区域的过高表达的量值用于测定在假设单个拷贝增加情况下的肿瘤浓度。肿瘤浓度可以用以下等式测定：

其中P_测试表示映射到用于测试病例的所关注染色体臂的片段的比例，P_正常表示映射到用于健康对照组的染色体臂的片段的平均比例，并且ΔN表示拷贝数改变的量值(例如，1表示复制或缺失，并且更大的数字表示更高阶扩增)。曲线下面积(AUC)为0.776，其中95％置信界限为0.670和0.882。此结果指示尺寸分析可以用于鉴别血浆中肿瘤浓度小于2％的HCC患者。ROC曲线分析指示可以选择不同阈值以实现不同灵敏度和特异性。

图22，类似于图21，示出利用P(<150)的尺寸分析还可检测血浆中肿瘤浓度大于6％的HCC患者。用于区分这些患者与健康受试者的AUC为0.893，其中95％置信界限为0.761和1.000。

如图20示出了短血浆DNA片段的比例，图23示出长血浆DNA片段的比例可以用于检测HCC。在此实例中，针对血浆中肿瘤DNA浓度小于2％和大于6％的HCC患者和健康对照受试者绘制大于180bp的片段的比例，表示为P(>180)。在肿瘤DNA浓度小于2％的HCC患者中此比例显著较高(p<0.00001，t测试)。

图24示出对于使用P(>180)以区分肿瘤DNA浓度小于2％的HCC患者与健康对照受试者的ROC曲线。AUC为0.883，其中95％置信界限为0.805和0.961。

图25提供具有不同肿瘤DNA浓度的DNA片段的不同尺寸分布的另一个实例。图25示出健康对照受试者、肿瘤DNA浓度小于2％的HCC患者和肿瘤DNA浓度大于6％的HCC患者的中值片段尺寸的箱线图。相比于健康对照受试者，肿瘤DNA浓度小于2％的HCC患者的DNA片段的中值尺寸显著更长(p<0.00001，t测试)。相比之下，肿瘤DNA浓度大于6％的HCC患者的DNA片段的中值尺寸显著较短(p＝0.03，t测试)。图25支持使用DNA片段尺寸作为一种确定癌症阶段的方式。较长中值尺寸与较小肿瘤DNA浓度有关，而较短中值尺寸与较大肿瘤DNA浓度有关。如果个体具有低于第一截止值的较小肿瘤DNA浓度和高于长尺寸阈值的中值尺寸，那么可以确认早期癌症。另一方面，如果个体具有高于第二截止值的较大肿瘤DNA浓度和低于短尺寸阈值的中值尺寸，那么可以确认晚期癌症。

肿瘤DNA浓度为2％到6％的HCC患者具有在肿瘤浓度小于2％的HCC患者和肿瘤浓度大于6％的HCC患者之间的中值DNA片段尺寸。以这种方式，肿瘤浓度为2％到6％的HCC患者可具有类似于图25中的健康对照受试者的分布。因此，如果个体具有从低截止值到高截止值的肿瘤DNA浓度和从短尺寸阈值到长尺寸阈值的中值尺寸，那么可以确认中期癌症。

图26和图27为示出可以用于区分HCC患者与健康对照受试者的不同尺寸阈值的ROC曲线。图26为对于使用中值片段尺寸区分肿瘤DNA浓度小于2％的HCC患者与健康对照受试者的ROC曲线。AUC为0.812，其中95％置信界限为0.718和0.907。

图27为对于使用中值片段尺寸以区分肿瘤DNA浓度大于2％的HCC患者与健康对照受试者的ROC曲线。AUC为0.795，其中95％置信界限为0.627和0.963。

尺寸分布的其它统计特征(例如，中值、均值、百分位)可以用作用于区分HCC患者和健康受试者的参数。

除了分析由所有基因组区域产生的血浆DNA片段的尺寸分布以外，尺寸分析还可专注于由具体基因组区域产生的DNA片段。具体基因组区域可以是染色体臂。

图28示出与肿瘤DNA浓度大于6％的HCC患者和健康对照受试者的与染色体1q进行比对的小于150bp的短血浆DNA片段的比例的箱线图。在HCC患者中，短片段的比例显著较高(p<0.00001，t测试)。

图29为对于使用小于150bp的短血浆DNA片段的比例以区分肿瘤DNA浓度大于6％的HCC患者与健康对照受试者的ROC曲线。AUC为0.915，其中95％置信区间为0.808到1.000。

B.方法

图17为示出根据本发明实施方式的分析生物体的生物样品的方法1700的流程图。生物样品可包括源自正常细胞和源自与癌症有关的细胞的核酸分子。在生物样品中至少一些核酸分子是游离的。

在步骤1710中，针对生物样品中多个核酸分子中的每个核酸分子，测量核酸分子的尺寸。可类似于图9的步骤910测量核酸分子的尺寸。

在步骤1720中，鉴别核酸分子在生物体的参考基因组中的位置。可以以与图6的步骤620类似的方式执行鉴别核酸分子的位置。

在步骤1730中，基于所鉴别的位置，第一群组核酸分子被鉴别为来自第一染色体区域。第一染色体区域可包括多个第一基因座。鉴别相应群组的核酸分子可以类似于图1的步骤120。

在步骤1740中，计算机系统可计算第一群组核酸分子的尺寸分布的第一统计值。计算相应量可以类似于图1的步骤130中的计算。

在步骤1750中，可以测量源自与癌症有关的细胞的核酸分子的浓度。可以根据于2011年11月30日提交的Lo等人的题为“检测与癌症有关的基因或分子畸变(Detection ofGenetic or Molecular Aberrations Associated with Cancer)”的美国专利公开案第2013/0040824号中描述的方法计算浓度。肿瘤核酸分子的浓度对应于来自一种或多种肿瘤的样品中的核酸分子的比例。浓度/比例可以表示为任何百分比或十进制值。

以下实例为测量肿瘤核酸的浓度的方法，但可以使用其它方法。可以基于血浆中对于呈现显著过低表达(与肿瘤组织中拷贝数丢失(或拷贝数增加)相符)的区域的过低表达(过高表达)的量值测定肿瘤核酸的浓度。另一个实例用于测定对于受拷贝数畸变影响的区域(例如，丢失两个同源染色体的一个拷贝的区域)在两个同源染色体上等位基因不平衡的程度。另一个实例用于测定包括单核苷酸突变、一个或多个核苷酸的缺失和转位的癌症相关的突变的百分比浓度。可以通过上文关于图21所述的方法测定肿瘤浓度。

在步骤1760中，可以基于所测量的浓度选择第一参考值。在一个实例中，选择第一参考值可包括当所测量的浓度低于截止值时选择尺寸阈值。在另一实例中，选择第一参考值可包括当所测量的浓度高于截止值时选择尺寸阈值。在这些实例中，截止值和尺寸阈值可不同并且可取决于所测量的浓度的值。

在步骤1770中，可以将第一统计值与第一参考值相比较以确定生物样品的癌症阶段。第一统计值可以是本文所述的任何统计值。

可以基于尺寸分析连同源自与癌症有关的细胞的核酸分子的所测量浓度来确认是否存在癌症。举例来说，当所测量的浓度低于低截止值时，可以确认尺寸分布是否比健康对照组的尺寸分布长(例如，第一统计值是否高于尺寸阈值)。如果尺寸分布比健康对照组的尺寸分布长，那么这可确认早期癌症。低截止值的实例为0.01、0.015、0.02或0.025。作为另一实例，当所测量的浓度高于高截止值时，可以确认尺寸分布是否比健康对照组的尺寸分布短(例如，第一统计值是否低于尺寸阈值)。如果尺寸分布比健康对照组的尺寸分布短，那么这可确认晚期癌症。高截止值的实例可以是浓度为0.03、0.035、0.04、0.045、0.05、0.055、0.06、0.065或0.07。

我们证明在HCC患者的血浆中存在附加群体的较短和较长DNA分子。这些数据可已经解决文献中存在的明显不一致，其中群组报告在癌症患者的血浆中存在较长或较短DNA分子的增多。

VII.材料和方法

现在论述在获得图2到图5的结果中使用的技术。这类技术可以用于上文其它实例中。

招募用于研究的受试者包括90位患有HCC的患者，所述患者被准许进入香港威尔斯亲王医院外科(Department of Surgery of the Prince of Wales Hospital,HongKong)，进行肿瘤切除。在手术之前收集所有血液样品。从香港威尔士亲王医院的内科和治疗科(Department of Medicine and Therapeutics of the Prince of Wales Hospital,Hong Kong)招募六十七位HBV携带者和36位患有HBV相关的肝硬化的患者。所有患者提供书面知情同意书并且所述研究由机构审查委员会审批通过。

为了提取DNA和制备序列文库，将外周血液样品收集到含EDTA的试管中。将外周血液样品在4℃下在1,600g下离心10分钟。将血浆部分在4℃下在16,000g下再离心10分钟以获得无细胞血浆。使用齐安普(QIAamp)DSP DNA血液迷你试剂盒(凯杰(Qiagen))从3到4.8mL的血浆中提取DNA。用SpeedVac浓缩器(Savant DNA120；赛默科技(ThermoScientific))将血浆DNA浓缩成每个样品75μL最终体积。通过使用卡帕(KAPA)文库制备试剂盒(卡帕生物系统(Kapa Biosystems))根据制造商说明制备编索引的DNA文库。使用卡帕高保真热启动预混PCR试剂盒(KAPA HiFi HotStart ReadyMix PCR Kit)(卡帕生物系统)通过14轮PCR来富集经衔接子接合的DNA。所述文库然后通过2100生物分析仪(Bioanalyzer)(安捷伦(Agilent))进行分析并且在测序之前通过卡帕文库定量试剂盒(Kapa Library Quantification Kit)(卡帕生物系统)进行定量。

为测序并比对DNA，每个DNA文库经稀释并杂交到双端测序流动池(伊路米那(Illumina))。在cBot集群产生系统(伊路米那)上用TruSeq PE集群产生试剂盒3版(伊路米那)产生DNA集群，接着在HiSeq 2000系统(伊路米那)上用TruSeq SBS试剂盒3版(伊路米那)进行76×2循环的测序。使用4-重方案(4-plex protocol)执行测序。我们执行附加7次测序循环以对每个测序的DNA分子上的索引序列进行解码。使用HiSeq控制软件(HCS)1.4版和实时分析(RTA)软件1.13版(伊路米那)进行实时图像分析和碱基判定，通过这些软件，自动化矩阵和定相计算基于外加的用所述文库测序的PhiX控制3版。在碱基判定之后，除去衔接序列和低品质碱基(即，品质分数<5)。

对于测序数据分析，基于六碱基索引序列，将来自每个泳道的序列分配到对应的样品。然后使用短寡核苷酸比对程序2(Short Oligonucleotide Alignment Program 2)(SOAP2)将测序读段与非重复屏蔽的人类参考基因组(NCBI构建37/hg19)进行比对(40)。对于双端读段的每个成员，允许至多两个核苷酸错配，但不允许插入或缺失。映射到唯一基因组位置的读段用于下游分析。将与具有正确取向并且跨越≤600bp的插入尺寸的相同染色体进行比对的双端读段保留用于下游尺寸分析。在与参考人类基因组进行比对之后，可以从在每对序列读数的最外端处的核苷酸坐标推断每个血浆DNA片段的尺寸。第一单端读段用于CNA分析。认可使用Bowtie 2软件(41)的映射品质大于30(即1次错误比对/1,000次比对)的读段。

对于针对CNA执行CAZA分析，将整个人类基因组分成100kb区间(bin)。如先前所报告(42)，针对每个100kb区间测定经GC校准的读取计数。通过将在染色体臂上的每个100kb区间的所有值进行求和来测定所关注的每个染色体臂的经GC校准的读取计数的数目。z分数统计用于确定当与参考群组相比时染色体臂中的血浆DNA代表是否将显著增加或降低。计算映射到每个染色体臂的测序读段的百分比并且针对相应染色体臂，与32位健康对照受试者的均值相比。臂级z分数被计算为

其中P_测试表示映射到测试病例所关注的染色体臂的片段比例；P_正常和SD_正常分别表示映射到健康对照组的染色体臂的片段比例的均值和SD。z分数<-3并且>3的染色体臂被视为具有在血浆中分别对应于缺失和扩增的CNA。

血浆中肿瘤源DNA的百分比浓度(F)可以被计算为

其中P_测试表示映射到测试病例所关注的染色体臂的片段比例；P_正常表示映射到健康对照组的染色体臂的片段的均值比例，并且ΔN表示拷贝数改变。对于在至少一个染色体臂中显示出缺失的病例，我们基于一个或多个缺失的染色体臂计算F。由于大部分染色体臂缺失仅涉及两个同源染色体中的一个(33)，所以针对我们的分析我们假设单个拷贝丢失。对于仅具有染色体臂扩增但无缺失的24个病例，在假设单个拷贝增加的情况下，基于扩增臂计算F。

通过使用以Perl和R语言书写的生物资讯程序执行测序数据分析。<0.05的p值在统计学上被认为是显著的并且所有概率都是双尾的。

VIII.计算机系统

本文所提及的任何计算机系统都可利用任何合适数目的子系统。这类子系统的实例在图32中以计算机设备10示出。在一些实施方式中，计算机系统包括单个计算机设备，其中子系统可以是计算机设备的组件。在其它实施方式中，计算机系统可包括多个具有内部组件的计算机设备，其各自是子系统。计算机系统可包括台式计算机和膝上型计算机、平板计算机、移动电话和其它移动装置。

图32中所示的子系统经由系统总线75互连。示出了附加的子系统，如打印机74、键盘78、一个或多个存储装置79、耦合到显卡82的监测器76等。耦合到I/O控制器71的外围装置和输入/输出(I/O)装置可以通过本领域中已知的任何数量的构件如输入/输出(I/O)端口77(例如USB、)连接到计算机系统。举例来说，I/O端口77或外部接口81(例如以太网、Wi-Fi等)可以用于将计算机设备10连接到广域网(如因特网)、鼠标输入装置或扫描仪。经由系统总线75的互连允许中央处理器73与每个子系统进行通信并控制来自系统存储器72或一个或多个存储装置79(例如固定盘，如硬盘驱动器或光盘)的指令的执行，以及子系统之间的信息交换。系统存储器72和/或一个或多个存储装置79可体现为计算机可读介质。另一子系统为数据采集装置85，如相机、麦克风、加速计等。本文所提及的任何数据可以从一个组件输出到另一个组件并且可以输出到用户。

计算机系统可包括例如通过外部接口81或通过内部接口连接在一起的多个相同组件或子系统。在一些实施方式中，计算机系统、子系统或设备可经网络进行通信。在这类情况下，一个计算机可以被视为客户端并且另一个计算机被视为服务器，其中每一者可以是同一计算机系统的一部分。客户端和服务器可各自包括多个系统、子系统或组件。

应理解，本发明的任何实施方式可以以模块化或集成方式使用硬件(例如专用集成电路或现场可编程门阵列)和/或使用具有通用可编程处理器的计算机软件以控制逻辑的形式来实施。如本文所用，处理器包括单核处理器、在同一集成芯片上的多核处理器，或在单个电路板上或网络化的多个处理单元。基于本公开和本文所提供的教示，本领域的普通技术人员将知道并且理解使用硬件和硬件与软件的组合来实施本发明实施方式的其它方式和/或方法。

在本申请中所述的任何软件组件或功能可以实施为以待通过处理器使用任何合适的计算机语言如例如Java、C、C++、C#、面向对象的C语言、Swift或脚本语言(如使用例如常规或面向对象技术的Perl或Python)而执行的软件代码。软件代码可以存储为用于存储和/或传输的计算机可读介质上的一系列指令或命令，合适的介质包括随机存取存储器(RAM)、只读存储器(ROM)、磁性介质(如硬盘驱动器或软性磁盘)或光学介质(如光盘(CD)或DVD(数字通用光盘))、快闪存储器等。计算机可读介质可以是这类存储或传输装置的任何组合。

还可以使用适合于经由符合多种方案的有线、光学和/或无线网络(包括因特网)传输的载波信号来编码和传输这类程序。因此，根据本发明一个实施方式的计算机可读介质可以使用利用这类程序编码的数据信号产生。利用程序代码编码的计算机可读介质可以与兼容装置一起封装或与其它装置分开提供(例如经由因特网下载)。任何这类计算机可读介质可驻存于单个计算机产品(例如硬盘驱动器、CD或整个计算机系统)上或其内部，并且可以存在于系统或网络内的不同计算机产品上或其内部。。计算机系统可包括用于向用户提供本文所提及的任何结果的监视器、打印机或其它合适的显示器。

本文中所述的任何方法可完全或部分用计算机系统执行，所述计算机系统包括一个或多个处理器，所述处理器可以经配置以执行所述步骤。因此，实施方式可以涉及经配置以执行本文所述的任何方法的步骤的计算机系统，可能用不同组件执行相应步骤或相应步骤群组。尽管本文中方法的步骤以经编号步骤的形式呈现，但其可以同时或以不同顺序执行。另外，这些步骤的部分可以与其它方法的其它步骤部分一起使用。此外，步骤的全部或部分可以是任选的。另外，任何方法的任何步骤都可以用执行这些步骤的模块、电路或其它构件来执行。

可在不脱离本发明实施方式的精神和范围的情况下，以任何合适方式组合特定实施方式的具体细节。然而，本发明的其它实施方式可以涉及与每个个别方面或这些个别方面的具体组合相关的具体实施方式。

对本发明的实例性实施方式的以上描述已经为了说明和描述的目的而呈现。其并非旨在是穷尽性的或将本发明限制于所描述的精确形式，并且鉴于以上教示许多修改和变化都是可能的。

除非具体相反地指示，否则“一个(a/an)”或“所述(the)”的叙述旨在意指“一个或多个”。除非具体相反地指示，否则“或”的使用旨在意指“兼或”，而非“异或”。

本文所提及的所有专利、专利申请、公开和描述都出于所有目的以其全文引用的方式并入。不承认任一者是现有技术。

IX.参考文献

1.Chan KCA(2013)，筛选血浆中的癌症改变：朝向基于个人化血液的肿瘤标记物的时代(Scanning for cancer genomic changes in plasma:toward an era ofpersonalized blood-based tumor markers)，《临床化学(Clin Chem)》59(11):1553-1555。

2.Dawson SJ,Rosenfeld N,&Caldas C(2013)，监测转移性乳癌的循环肿瘤DNA(Circulating tumor DNA to monitor metastatic breast cancer)，《新英格兰医学杂志(N Engl J Med)》369(1):93-94。

3.Bidard FC,Weigelt B,&Reis-Filho JS(2013)，随大流：从循环肿瘤细胞到DNA(Going with the flow:from circulating tumor cells to DNA)，《科学·转化医学(SciTransl Med)》5(207):207ps214。

4.Chan KCA等人(2013)，在血浆中的癌症基因组筛选：通过大规模平行测序检测肿瘤相关的拷贝数畸变、单个核苷酸变异体和肿瘤不均匀性(Cancer genome scanning inplasma:detection of tumor-associated copy number aberrations,single-nucleotide variants,and tumoral heterogeneity by massively parallelsequencing)，《临床化学》59(1):211-224。

5.Heitzer E等人(2013)，从患有癌症的患者血浆DNA中建立肿瘤特异性拷贝数变化(Establishment of tumor-specific copy number alterations from plasma DNA ofpatients with cancer)，《国际癌症杂志(Int J Cancer)》133(2):346-356。

6.Heitzer E等人(2013)，在患有通过全基因组测序鉴别的前列腺癌的患者的循环中肿瘤相关的拷贝数改变(Tumor-associated copy number changes in thecirculation of patients with prostate cancer identified through whole-genomesequencing)，《基因组医学(Genome Med)》5(4):30。

7.Leary RJ等人(2012)，在癌症患者的循环中借助全基因组测序检测染色体变化(Detection of chromosomal alterations in the circulation of cancer patientswith whole-genome sequencing)，《科学·转化医学》4(162):162ra154。

8.Chan KCA等人(2013)，通过血浆DNA亚硫酸氢盐测序非侵入性检测癌症相关的全基因组低甲基化和拷贝数畸变(Noninvasive detection of cancer-associatedgenome-wide hypomethylation and copy number aberrations by plasma DNAbisulfite sequencing)，《美国国家科学院院刊(Proc Natl Acad Sci U S A》110(47):18761-18768。

9.Chan KCA等人(2008)，对作为肝细胞癌生物标记的循环甲基化DNA的定量分析(Quantitative analysis of circulating methylated DNA as a biomarker forhepatocellular carcinoma)，《临床化学》54(9):1528-1536。

10.Wong IH等人(1999)，检测在肝癌患者的血浆和血清中的异常p16甲基化(Detection of aberrant p16methylation in the plasma and serum of liver cancerpatients)，《癌症研究(Cancer Res)》59(1):71-73。

11.Balgkouranidou I等人(2014)，在游离DNA中乳癌癌转移遏制因子-1启动子甲基化提供关于非小细胞肺癌的预测信息(Breast cancer metastasis suppressor-1promoter methylation in cell-free DNA provides prognostic information innon-small cell lung cancer)，《英国癌症杂志(Br J Cancer)》110(8):2054-2062。

12.Diehl F等人(2005)，检测和定量在患有结肠直肠肿瘤的患者的血浆中的突变(Detection and quantification of mutations in the plasma of patients withcolorectal tumors)，《美国国家科学院院刊》102(45):16368-16373。

13.Yung TKF等人(2009)，在非小细胞肺癌患者中通过微流体数字PCR来单分子检测血浆中的表皮生长因子受体突变(Single-molecule detection of epidermal growthfactor receptor mutations in plasma by microfluidics digital PCR in non-smallcell lung cancer patients)，《临床癌症研究(Clin Cancer Res)》15(6):2076-2084。

14.Murtaza M等人(2013)，通过对血浆DNA进行测序来非侵入性分析对癌症疗法的获得性抗性(Non-invasive analysis of acquired resistance to cancer therapyby sequencing of plasma DNA)，《自然(Nature)》497(7447):108-112。

15.Forshew T等人(2012)，通过对血浆DNA的靶向深测序来非侵入性鉴别和监测癌症突变(Noninvasive identification and monitoring of cancer mutations bytargeted deep sequencing of plasma DNA)，《科学·转化医学》4(136):136ra168。

16.Lo YMD等人(1999)，定量分析在患有鼻咽癌的患者的血浆中的游离埃-巴二氏病毒DNA(Quantitative analysis of cell-free Epstein-Barr virus DNA in plasmaof patients with nasopharyngeal carcinoma)，《癌症研究》59(6):1188-1191。

17.Chan KCA等人(2013)，通过监控程序中的血浆埃-巴二氏病毒DNA分析来早期检测鼻咽癌(Early detection of nasopharyngeal carcinoma by plasma Epstein-Barrvirus DNA analysis in a surveillance program)，《癌症(Cancer)》119(10):1838-1844。

18.McBride DJ等人(2010)，使用癌症特异性基因组重排定量在来自患有实体肿瘤的患者的血浆中的疾病负荷(Use of cancer-specific genomic rearrangements toquantify disease burden in plasma from patients with solid tumors)，《基因、染色体和癌症(Genes,Chromosomes&Cancer)》49(11):1062-1069。

19.Leary RJ等人(2010)，使用大规模平行测序研发个人化肿瘤生物标记(Development of personalized tumor biomarkers using massively parallelsequencing)，《科学·转化医学》2(20):20ra14。

20.Chan KCA,Leung SF,Yeung SW,Chan ATC和Lo YMD(2008)，在鼻咽癌患者中在放射治疗之后循环DNA完整性的持续畸变与较差的预后有关(Persistent aberrations incirculating DNA integrity after radiotherapy are associated with poorprognosis in nasopharyngeal carcinoma patients)，《临床癌症研究》14(13):4141-4145。

21.Gao YJ等人(2010)，在患有急性白血病的患者的血浆中循环游离DNA的完整性增加(Increased integrity of circulating cell-free DNA in plasma of patientswith acute leukemia)，《临床化学和实验室医学(Clin Chem Lab Med)》48(11):1651-1656。

22.Umetani N等人(2006)，在患有结肠直肠或壶腹周围癌的患者的血清中游离循环DNA的完整性增加：用于ALU重复序列的直接定量PCR(Increased integrity of freecirculating DNA in sera of patients with colorectal or periampullary cancer:direct quantitative PCR for ALU repeats)，《临床化学》52(6):1062-1069。

23.Wang BG等人(2003)，癌症患者中血浆DNA完整性增加(Increased plasma DNAintegrity in cancer patients)，《癌症研究》63(14):3966-3968。

24.Umetani N等人(2006)，通过血清中的游离循环DNA的完整性预测乳房肿瘤进展(Prediction of breast tumor progression by integrity of free circulatingDNA in serum)，《临床肿瘤学杂志(J Clin Oncol)》24(26):4270-4276。

25.Schwarzenbach H等人(2012)，可在分级的循环游离肿瘤DNA上检测的肿瘤遏制基因处的杂合子的丢失作为乳癌进展的指标(Loss of heterozygosity at tumorsuppressor genes detectable on fractionated circulating cell-free tumor DNAas indicator of breast cancer progression)，《临床癌症研究》18(20):5719-5730。

26.Lo YMD等人(2010)，母本血浆DNA测序揭示胎儿的全基因组基因和突变概况(Maternal plasma DNA sequencing reveals the genome-wide genetic andmutational profile of the fetus)，《科学·转化医学》2(61):61ra91。

27.Zheng YWL等人(2012)，在血浆中非造血衍生的DNA短于造血衍生的DNA：移植模型。(Nonhematopoietically derived DNA is shorter than hematopoieticallyderived DNA in plasma:a transplantation model)，《临床化学》58(3):549-558。

28.Yu SCY等人(2014)，使用血浆DNA的基于尺寸的分子诊断用于非侵入性产前测试(Size-based molecular diagnostics using plasma DNA for noninvasive prenataltesting)，《美国国家科学院院刊》111(23):8583-8588。

29.Pleasance ED等人(2010)，来自人类癌症基因组的体细胞突变的综合目录(Acomprehensive catalogue of somatic mutations from a human cancer genome)，《自然》463(7278):191-196。

30.Fujimoto A等人(2012)，对肝癌的全基因组测序鉴别对染色质调节因子中的突变图形和复发性突变的病因影响(Whole-genome sequencing of liver cancersidentifies etiological influences on mutation patterns and recurrentmutations in chromatin regulators)，《自然遗传学(Nat Genet)》44(7):760-764。

31.Tao Y等人(2011)，通过全基因组数据的细胞群体基因分析揭示的肝细胞癌的快速生长和驱动突变(Rapid growth of a hepatocellular carcinoma and the drivingmutations revealed by cell-population genetic analysis of whole-genome data)，《美国国家科学院院刊》108(29):12042-12047。

32.Totoki Y等人(2011)，肝细胞癌基因组的高分辨率表征(High-resolutioncharacterization of a hepatocellular carcinoma genome)，《自然遗传学》43(5):464-469。

33.Beroukhim R等人(2010)，在人类癌症中体细胞拷贝数变化的概况(Thelandscape of somatic copy-number alteration across human cancers)，《自然》463(7283):899-905。

34.Chiang DY等人(2008)，VEGFA的病灶性增加和肝细胞癌的分子分类(Focalgains of VEGFA and molecular classification of hepatocellular carcinoma)，《癌症研究》68(16):6779-6788。

35.Kan Z等人(2013)，全基因组测序鉴别肝细胞癌中的复发性突变(Whole-genome sequencing identifies recurrent mutations in hepatocellularcarcinoma)，《基因组研究(Genome Res)》23(9):1422-1433。

36.Kim TM等人(2008)，肝细胞癌中复发性拷贝数变化的临床暗示和在1q上复发性增加中假定的致癌基因(Clinical implication of recurrent copy numberalterations in hepatocellular carcinoma and putative oncogenes in recurrentgains on 1q)，《国际癌症杂志》123(12):2808-2815。

37.Nakano H和Shinohara K(1994)，X射线诱导的细胞死亡：细胞凋亡和坏死(X-ray-induced cell death:apoptosis and necrosis)，《辐射研究(Radiation Research)》140(1):1-9。

38.Walker NI,Harmon BV,Gobe GC和Kerr JF(1988)，细胞死亡的图形(Patternsof cell death)，《实验病理学的方法和成果(Methods and Achievements inExperimental Pathology)》13:18-54。

39.Alexandrov LB等人(2013)，在人类癌症中突变过程的标志(Signatures ofmutational processes in human cancer)，《自然》500(7463):415-421。

40.Li R等人(2009)，SOAP2：用于短读段比对的经改善的超快工具(SOAP2:animproved ultrafast tool for short read alignment)，《生物信息学(Bioinformatics)》25(15):1966-1967。

41.Langmead B和Salzberg SL(2012)，借助Bowtie 2的快速带缺口的读段比对(Fast gapped-read alignment with Bowtie 2)，《自然方法(Nature Methods)》9(4):357-359。

42.Chen EZ等人(2011)，通过母本血浆DNA测序对胎儿三染色体性18和三染色体性13的非侵入性产前诊断(Noninvasive prenatal diagnosis of fetal trisomy 18 andtrisomy 13 by maternal plasma DNA sequencing)，《公共科学图书馆·综合》6(7):e21791。

Claims

1.一种分析生物体的生物样品的方法，所述生物样品包括源自正常细胞和可能来自与癌症有关的细胞的核酸分子，其中所述核酸分子中的至少一些在所述生物样品中是游离的，所述方法包含：

鉴别所述生物体的多个染色体区域，每个染色体区域包括多个基因座；

针对所述生物样品中多个所述核酸分子中的每个核酸分子：

测量所述核酸分子的尺寸；和

鉴别所述核酸分子在所述生物体的参考基因组中的位置；

针对所述多个染色体区域中的每个染色体区域：

基于所鉴别的位置，将相应群组的核酸分子鉴别为来自所述染色体区域，所述相应群组包括至少一个位于所述染色体区域的所述多个基因座中每个基因座的核酸分子；

借助计算机系统，计算所述相应群组的核酸分子的相应量；和

比较所述相应量与计数参考值以确定所述染色体区域是否呈现畸变的计数分类，对于所述多个染色体区域的第一染色体区域的所述计数分类指示第一畸变；

基于所鉴别的位置，将第一组核酸分子鉴别为来自所述第一染色体区域；

借助计算机系统，计算所述第一组核酸分子的第一尺寸分布的第一统计值；和

比较所述第一统计值与尺寸参考值以确定所述第一染色体区域是否呈现所述第一畸变的尺寸分类；和

使用所述第一染色体区域的所述计数分类和所述尺寸分类，确定所述第一染色体区域是否呈现所述第一畸变的最终分类。

2.根据权利要求1所述的方法，其中仅当所述计数分类和所述尺寸分类指示相同畸变时，所述最终分类为存在所述第一畸变。

3.根据权利要求1所述的方法，其中所述多个染色体区域未重叠。

4.根据权利要求1所述的方法，其中所述最终分类为存在所述第一畸变，所述方法进一步包含：

获得提供肿瘤的尺寸和所述第一统计值之间的关系的校准函数；和

使用所述校准函数测定所述肿瘤的所述尺寸。

5.根据权利要求4所述的方法，其中所述校准函数是利用来自具有已知尺寸的肿瘤的生物体的参考样品的校准数据点确定，其中校准数据点包括所述肿瘤尺寸的测量值和来自所述第一染色体区域的核酸分子尺寸的对应统计测量值。

6.根据权利要求1所述的方法，其中所述相应值包含所述第一尺寸分布的均值、所述第一尺寸分布的中值、所述第一尺寸分布的模式或其尺寸低于尺寸阈值的核酸分子的比例。

7.根据权利要求1所述的方法，其中所述尺寸参考值对应于第二染色体区域的第二尺寸分布的第二统计值。

8.根据权利要求7所述的方法，其中比较所述第一统计值与所述尺寸参考值包括：

确定所述第一统计值和所述尺寸参考值之间的分离值；和

比较所述分离值与阈值。

9.根据权利要求1所述的方法，其进一步包含：

针对基于对应的计数分类被鉴别为畸变的染色体区域集合确定尺寸分类集合；和

基于所述尺寸分类集合，确认所述染色体区域集合是否畸变。

10.一种分析生物体的生物样品的方法，所述生物样品包括源自正常细胞和可能来自与癌症有关的细胞的核酸分子，其中所述核酸分子中的至少一些在所述生物样品中是游离的，所述方法包含：

针对所述生物样品中多个所述核酸分子中的每个核酸分子：

测量所述核酸分子的尺寸；

鉴别所述核酸分子在所述生物体的参考基因组中的位置；

基于所鉴别的位置，将第一组核酸分子鉴别为来自第一染色体区域，所述第一染色体区域包括多个第一基因座；

借助计算机系统，计算所述第一组核酸分子的尺寸分布的第一统计值，其中通过计算指定尺寸的第一曲线下面积来测定所述第一统计值，所述第一曲线为所述第一染色体区域的核酸分子在尺寸范围的累积频率图；和

比较所述第一统计值与第一参考值以确定所述第一染色体区域是否呈现畸变的分类，其中：

所述第一参考值为第二染色体区域的第二组核酸分子的尺寸分布的统计值，和

通过计算所述指定尺寸的第二曲线下面积来测定所述第一参考值，所述第二曲线为所述第二染色体区域的核酸分子在所述尺寸范围的累积频率图。

11.根据权利要求10所述的方法，其中比较所述第一统计值与所述第一参考值包括：

计算所述第一统计值和所述第一参考值之间的差值；和

比较所述差值与阈值。

12.根据权利要求11所述的方法，其中所述指定尺寸为所述第一曲线和所述第二曲线之间的差值曲线最大的地方。

13.根据权利要求11所述的方法，其中当所述差值超过所述阈值时，所述分类为所述第一染色体区域可能呈现畸变。

14.根据权利要求13所述的方法，其中当所述差值超过所述阈值时，所述差值的符号指示所述第一染色体区域的畸变类型。

15.根据权利要求10所述的方法，其进一步包含：

在计算第一统计值之前，基于核酸分子的第一量，将所述生物样品中的所述第一染色体区域鉴别为具有第一畸变，所述核酸分子基于所鉴别的位置而被鉴别为来自所述第一染色体区域。

16.根据权利要求15所述的方法，其进一步包含：

基于核酸分子的第二量，将所述第二染色体区域鉴别为具有与所述第一畸变相反的第二畸变，所述核酸分子基于所鉴别的位置而被鉴别为来自所述第二染色体区域，其中所述分类确认所述第一畸变和所述第二畸变。

17.根据权利要求10所述的方法，其中所述尺寸范围为0个碱基至所述指定尺寸。

18.根据权利要求10所述的方法，其中所述尺寸范围为80至所述指定尺寸。

19.根据权利要求10所述的方法，其中所述指定尺寸为140个碱基至190个碱基。

20.一种分析生物体的生物样品的方法，所述生物样品包括源自正常细胞和可能来自与癌症有关的细胞的核酸分子，其中所述核酸分子中的至少一些在所述生物样品中是游离的，所述方法包含：

鉴别所述生物体的多个染色体区域，每个染色体区域包括多个基因座，其中所述多个染色体区域为亚染色体；

针对所述生物体的所述生物样品中的多个核酸分子中的每个核酸分子：

鉴别所述核酸分子在所述生物体的参考基因组中的位置；

针对所述多个染色体区域中的每个染色体区域：

借助计算机系统，计算所述相应群组的核酸分子的相应值，所述相应值界定所述相应群组的所述核酸分子的性质；和

比较所述相应值与相应参考值以确定所述染色体区域呈现缺失还是扩增的分类；和

确定呈现缺失或扩增的所述染色体区域的测试图谱，所述测试图谱包括：

呈现缺失或扩增的所述染色体区域的集合；

呈现扩增的所述集合的第一子集；和

呈现缺失的所述集合的第二子集；

比较所述测试图谱与不同类型癌症的多个参考图谱；

基于所述比较，测定所述测试图谱中的与对应于第一类型癌症的第一参考图谱呈现相同缺失或扩增的区域的第一量；和

比较所述第一量与第一阈值以确定所述生物样品是否呈现所述第一类型癌症的第一分类。

21.根据权利要求20所述的方法，其中所述多个染色体区域未重叠。

22.根据权利要求20所述的方法，其中至少一个所述相应群组的所述核酸分子的所述性质为所述染色体区域的一种单倍型，并且其中所述相应参考值为所述染色体区域的另一种单倍型。

23.根据权利要求20所述的方法，其中至少一个所述相应群组的所述核酸分子的所述性质包含位置在所述染色体区域中的核酸分子的数目。

24.根据权利要求20所述的方法，其中至少一个所述相应群组的所述核酸分子的所述性质包含尺寸分布。

25.根据权利要求24所述的方法，其中所述相应值包含所述尺寸分布的均值、所述分布的中值、所述尺寸分布的模式或其尺寸低于尺寸阈值的核酸分子的比例。

26.根据权利要求20所述的方法，其中所述多个参考图谱是利用参考组织样品和/或游离核酸分子的混合物来测定。

27.根据权利要求20所述的方法，其中所述第一类型癌症为HCC、结肠直肠癌、乳癌、肺癌或鼻咽癌。

28.根据权利要求20所述的方法，其中所述第一参考图谱包括第一数目个区域，每个区域具有定义的扩增、缺失或无畸变状态，其中区域的所述第一量为与所述测试图谱匹配的所述第一数目个区域的百分比。

29.根据权利要求20所述的方法，其还包含：

通过下述确定所述第一阈值：

聚集参考图谱集合，其中每个集群对应于不同类型的癌症；

界定对应于所述第一类型癌症的第一集群的质心，其中所述质心对应于所述第一集群的所述参考图谱的区域，所述区域为所述第一集群的至少预定数目的参考图谱所共有；和

界定所述第一集群的边界与所述质心的距离作为所述第一阈值。

30.根据权利要求20所述的方法，其还包含：

针对所述多个参考图谱中的每个参考图谱：

测定所述测试图谱中与所述参考图谱呈现相同缺失或扩增的区域的相应量；和

通过将所述相应量相互比较，测定每种类型癌症的相对概率；和

基于所述相对概率，鉴别匹配类型的癌症。

31.一种分析生物体的生物样品的方法，所述生物样品包括源自正常细胞和来自与癌症有关的细胞的核酸分子，其中所述核酸分子中的至少一些在所述生物样品中是游离的，所述方法包含：

针对所述生物样品中多个所述核酸分子中的每个核酸分子：

测量所述核酸分子的尺寸；

鉴别所述核酸分子在所述生物体的参考基因组中的位置；

借助计算机系统，计算所述第一组核酸分子的尺寸分布的第一统计值；

测量源自与癌症有关的细胞的核酸分子的浓度；

基于所述测量的浓度，选择第一参考值；

比较所述第一统计值与所述第一参考值以确定所述生物样品的癌症阶段。

32.根据权利要求31所述的方法，其中基于所述测量的浓度选择所述第一参考值包括：

当所测量的浓度低于低截止值时选择长尺寸阈值，所述长尺寸阈值被配置为用于鉴别比正常长的尺寸分布，其中当所述第一统计值大于所述长尺寸阈值时，确定为早期癌症。

33.根据权利要求31所述的方法，其中基于所测量的浓度选择所述第一参考值包括：

当所测量的浓度高于高截止值时选择短尺寸阈值，所述短尺寸阈值被配置为用于鉴别比正常短的尺寸分布，其中当所述第一统计值小于所述短尺寸阈值时，确定为晚期癌症。

34.根据权利要求31所述的方法，其中基于所述量的浓度选择所述第一参考值包括：

当所测量的浓度低于高截止值并且高于低截止值时，选择短尺寸阈值和长尺寸阈值，所述长尺寸阈值被配置为用于鉴别正常的尺寸分布，其中当所述第一统计值大于所述短尺寸阈值并且小于所述长尺寸阈值时，确定为中期癌症。

35.一种计算机产品，其包含计算机可读介质，所述计算机可读介质存储用于控制计算机系统执行上述任何方法的操作的多个指令。

36.一种系统，其包含：

根据权利要求35所述的计算机产品；和

一或多个处理器，所述一或多个处理器用于执行存储在所述计算机可读介质上的指令。

37.一种系统，其包含用于执行上述任何方法的构件。

38.一种系统，其被配置为执行上述任何方法。

39.一种系统，其包含分别执行上述任何方法的步骤的模块。