CN111712582A

CN111712582A - 使用核酸大小范围进行非侵入性产前检查和癌症检测

Info

Publication number: CN111712582A
Application number: CN201880083024.4A
Authority: CN
Inventors: 卢煜明; 赵慧君; 陈君赐; 江培勇
Original assignee: Chinese University of Hong Kong CUHK; Grail Inc
Current assignee: Greer LLC; Chinese University of Hong Kong CUHK
Priority date: 2017-11-02
Filing date: 2018-11-02
Publication date: 2020-09-25
Anticipated expiration: 2038-11-02
Also published as: JP2023139321A; WO2019085988A1; CA3081538A1; US20190130065A1; JP2021501609A; US11168356B2; TWI828637B; AU2018359944A1; EP4254417A2; DK3704264T3; TW201928065A; EP3704264A1; EP4254417A3; CN111712582B; IL274097A; KR20200080272A; EP3704264B1; EP3704264A4; US20220064714A1; CN117079713A

Abstract

分子大小区带分析用于确定染色体区域是否表现出拷贝数畸变或表观遗传学变异。可以分析多个分子大小范围，而不是专注于特定分子大小。通过使用多个分子大小范围而不是特定大小，此方法可以分析更多序列读数，并且甚至在临床相关性DNA可能占生物样品中低相对浓度的生物样品时，所述方法也能够确定染色体区域是否表现出拷贝数畸变。使用多个范围可以允许使用来自基因组区域的所有序列读数，而不是所述基因组区域中选定的读数子集。在类似或更高的特异性下，分析的准确性可以随着更高的灵敏度而增加。分析可以包含更少的测序读段来实现相同的准确性，从而产生更有效的过程。

Description

使用核酸大小范围进行非侵入性产前检查和癌症检测

相关申请的交叉引用

本申请要求于2017年11月2日提交的标题为“使用核酸大小范围进行非侵入性产前检查和癌症检测(USING NUCLEIC ACID SIZE RANGE FOR NONINVASIVE PRENATALTESTING AND CANCER DETECTION)”的美国临时申请第62/580,906号的优先权，所述申请的全部内容出于所有目的通过引用并入本文。

背景技术

孕妇血浆和血清中存在源自胎儿的循环性游离DNA(cfDNA)的证明(Lo等人,《柳叶刀(Lancet)》,1997；350:485–487)通过非侵入性产前检查(NIPT)的发展，已经完全转变了产前检查的实践。NIPT在避免与如通过羊膜穿刺术和绒毛膜绒毛取样(CVS)等侵入性组织取样相关联的风险方面具有优势。迄今为止，NIPT已经被用于胎儿RhD血型基因分型(Finning等人《英国医学杂志(BMJ)》2008；336:816–818；Lo等人《新英格兰医学杂志(NEngl J Med)》1998；339:1734–1738)、用于性别相关病症的胎儿性别鉴定(Costa等人《新英格兰医学杂志》2002；346:1502)、染色体非整倍体检测(Chiu等人《美国国家科学院院刊(Proc Natl Acad Sci U S A)》2008；105:20458-20463；Fan等人《自然(Nature)》2012；487:320-324；Chiu等人《英国医学杂志》2011；342:c7401；Bianchi等人《新英格兰医学杂志》2014；370:799-808；Yu等人《美国国家科学院院刊》2014；111:8583-8；Norton等人《新英格兰医学杂志》2015；372:1589–1597)和单基因病症的诊断(Lam等人《临床化学(Clin.Chem.)》2012；58:1467-75；Lo等人《科学转化医学期刊(Sci.Transl.Med.)》2010；2:61ra91-61ra91；Ma等人《基因(Gene)》2014；544:252-258；New等人《临床内分泌与代谢杂志(J.Clin.Endocrinol.Metab.)》2014；99:E1022–E1030)。具体地说，使用对母体血浆DNA的大规模平行测序，用于常见染色体非整倍体的NIPT已经在几十个国家迅速用于临床服务，并且每年被数百万孕妇使用(Allyse等人《国际女性健康杂志(Int.J.Womens.Health)》2015；7:113-26；Chandrasekharan等人《科学转化医学期刊》2014；6:231fs15)。

在早期验证研究中(Chiu等人《英国医学杂志》2011；342:c7401；Sparks等人《美国产科与妇科学杂志(Am.J.Obstet.Gynecol.)》2012；206:319.e1-9)，对非整倍体高危患者进行了NIPT，并且已经实现了将高阳性预测值(PPV)从92％提高到100％。特定母体样品中胎儿DNA的相对浓度通常被称为胎儿DNA相对浓度，是NIPT准确性的重要决定因素(Chiu等人《英国医学杂志》2011；342:c7401；Jiang等人《生物信息学(Bioinformatics)》2012；28:2883–2890,《npj基因组医学(npj Genomic Med.)》2016；1:16013)。随着胎儿DNA相对浓度的减小，21三体检测的灵敏度将明显降低(Chiu等人《英国医学杂志》2011；342:c7401；Canick等人《产前诊断(Prenat.Diagn.)》2013；33:667–674)。因此，在胎儿DNA相对浓度低的妊娠中，可能会发生三体检测的假阴性结果。例如，Canick等人报告称，在212例唐氏综合征患者中，有4个假阴性，所有这些假阴性的胎儿DNA相对浓度介于4％与7％之间(Canick等人《产前诊断》2013；33:667–674)。

重要的是要注意，在许多进行NIPT的实验室中，将在一定比例的分析中观察到测试失败或无响应的结果。在一些研究中，实验室总失败率可能高达8.8％(Porreco等人《美国产科与妇科学杂志》2014；211:365.e1-365.e12)。NIPT未能获得结果的主要原因之一是，一些样品中的母体血浆DNA中的胎儿DNA相对浓度过低，通常<4％(Gil等人《胎儿诊断与治疗(Fetal Diagn.Ther.)》2014；35:156-73)。已证明，在胎儿DNA相对浓度低于4％的患者中，非整倍体的患病率据报道为4.7％，这与整个群组中0.4％的患病率相比明显更高(Norton等人《新英格兰医学杂志》2015；372:1589-1597)。因此，这种测试失败最终会对NIPT的整体性能产生不利影响。例如，说明了较高的测试失败率将导致较低的实际PPV(Yaron《产前诊断》2016；36:391-6)。在理论估计中(Yaron《产前诊断》2016；36:391–6)，实验室中0.1％的失败率将给出67％的实际PPV，然而根据美国妇产科医师学会(ACOG)的建议，假设测试失败被报道为与非整倍体风险增加相关联的所有这些患者均将接受侵入性检查，以确定胎儿是否确实为非整倍体，则1％的失败率将产生16.7％的实际PPV(Yaron《产前诊断》2016；36:391-6)。

已经显示，大约2％的妊娠中胎儿DNA相对浓度低于4％(Wang等人《产前诊断》2013；33:662-666)。对于第一血液样品显示胎儿DNA相对浓度低的患者，重抽血液不太可能保证足够的胎儿DNA相对浓度，因为10与21周之间的胎儿DNA的增加非常微妙(胎儿DNA相对浓度平均每周增加大约0.1％)(Wang等人《产前诊断》2013；33:662-666)。另外，这种低的胎儿DNA相对浓度优先发生在母体体重高的女性中。在一些研究中，由于胎儿DNA相对浓度低于4％而未能报告结果的比例高达5.9％(Hall等人《公共科学图书馆·综合(PLoS One)》2014；9:e96677)。

因此，开发一种用于改进针对母体血浆中胎儿DNA相对浓度低(例如，低于4％)的孕妇的NIPT的性能的方法将是有用的，此类改进对于针对常见染色体非整倍体(例如，21三体、18三体、13三体和性染色体非整倍体，以及亚染色体畸变(例如微缺失和微重复))的NIPT的性能是有价值的。另外，可以使用类似的方法提高拷贝数畸变和癌症测试的准确性和效率。下文中解决了这些和其它需求。

发明内容

分子大小区带分析用于确定染色体区域是否表现出拷贝数畸变或用于检测癌症。可以分析多个大小范围，而不是专注于特定大小。通过使用多个大小范围而不是特定大小，甚至在临床相关性DNA可能是低相对浓度的生物样品时，方法也能够确定染色体区域是否表现出拷贝数畸变。使用多个范围可以允许使用来自基因组区域的所有序列读数，而不是所述基因组区域中选定的读数子集。在类似或更高的特异性下，分析的准确性可以随着更高的灵敏度而增加。分析可以包含更少的测序读数来实现相同的准确性，从而产生更有效的过程。由于可以用较低相对浓度的临床相关性DNA进行分析，所以可以在妊娠或癌症的早期进行分析。

参考以下详细描述和附图，可以更好地理解本发明的实施例的本质和优点。

附图说明

图1示出了根据本发明的实施例的血浆DNA大小带分析的原理的示意图。

图2A示出了根据本发明的实施例的针对血浆DNA片段的大小的非整倍体染色体的所测得的胎儿DNA相对浓度。

图2B示出了根据本发明的实施例的包含来自整倍体胎儿和21三体胎儿的DNA的样品的大小带的z评分。

图3示出了根据本发明的实施例的针对跨胎儿DNA相对浓度为4％的不同个体妊娠的非整倍体染色体所测得的基因组代表(GR)的基于大小带的变化模式。

图4A示出了根据本发明的实施例的整倍体胎儿的妊娠与21三体胎儿的妊娠之间的基于大小带的变化模式的热图图示。

图4B示出了根据本发明的实施例的整倍体胎儿的妊娠与21三体胎儿的妊娠之间的基于大小带的变化模式的t-SNE(t分布随机近邻嵌入)图。

图4C示出了根据本发明的实施例的使用常规z评分方法的整倍体胎儿的妊娠与21三体胎儿的妊娠之间的z评分分布。

图5A和5B示出了根据本发明的实施例的通过学习不同大小带之间的z评分模式对基于神经网络的模型的性能评估。

图6示出了根据本发明的实施例的确定来自受试者的生物样品中的染色体区域是否表现出拷贝数畸变的方法。

图7示出了根据本发明的实施例的肝细胞癌(HCC)患者的血浆DNA中所测得的甲基化的基于大小带的变化模式。

图8示出了根据本发明的实施例的确定来自受试者的生物样品中的癌症分类的方法。

图9示出了根据本发明的实施例的肝细胞癌(HCC)患者的血浆DNA中所测得的拷贝数畸变的基于大小带的变化模式。

图10展示了根据本发明的实施例的用于癌症检测的大小带状基因组代表(GR)方法的工作流程。

图11A、11B和11C示出了根据本发明的实施例的大小带状GR方法与常规z评分方法之间的比较。

图12示出了根据本发明的实施例的确定癌症分类的方法。

图13展示了根据本发明的实施例的用于癌症检测的大小带状甲基化密度(MD)方法的工作流程。

图14A、14B和14C示出了根据本发明的实施例的大小带状MD方法与常规z评分方法之间的比较。

图15展示了根据本发明的实施例的系统。

图16示出了根据本发明的实施例的计算机系统。

术语

术语“样品”、“生物样品”或“患者样品”意指包含源自活体或死亡受试者的任何组织或材料。生物样品可以是游离样品，所述游离样品可以包含来自受试者的核酸分子和来自病原体(例如，病毒)的潜在核酸分子的混合物。生物样品通常包括核酸(例如，DNA或RNA)或其片段。术语“核酸”通常可以指脱氧核糖核酸(DNA)、核糖核酸(RNA)或其任何杂交体或片段。样品中的核酸可以是游离核酸。样品可以是液体样品或固体样品(例如，细胞或组织样品)。生物样品可以是体液，如血液、血浆、血清、尿液、阴道液、水囊肿(例如，睾丸)液、阴道冲洗液、胸膜液、腹水液、脑脊髓液、唾液、汗液、泪液、痰液、支气管肺泡灌洗液、乳头排出液、来自身体不同部位(例如，甲状腺、乳房)的抽吸液等。也可以使用粪便样品。在各个实施例中，已经富集了游离DNA的生物样品(例如，通过离心方案获得的血浆样品)中的大部分DNA可以是游离的(例如，大于50％、60％、70％、80％、90％、95％或99％的DNA可以是游离的)。离心方案可以包含，例如，3,000g×10分钟下获得流体部分，并且在例如30,000g下再离心另外10分钟以除去残留的细胞。

如本文所使用的，术语“基因座(locus)”或其复数形式“基因座(loci)”是跨基因组变异的任何长度的核苷酸(或碱基对)的位置或地址。术语“序列读数”是指从所有或部分核酸分子(例如，DNA片段)获得的序列。在一个实施例中，仅片段的一个末端被测序。可替代地，可以对片段的两个末端(例如，从每个末端起约30bp)进行测序以生成两个序列读数。然后可以将配对的序列读数与参考基因组进行比对，所述参考基因组可以提供片段的长度。在又另一个实施例中，可以例如通过连接将线性DNA片段环化，并且可以对跨连接位点的部分进行测序。

如本文所使用的，术语“片段”(例如，DNA片段)可以指包括至少3个连续核苷酸的多核苷酸或多肽序列的一部分。核酸片段可以保留亲本多肽的生物活性和/或一些性质。核酸片段可以是双链或单链的、甲基化或非甲基化的、完整的或带切口的、与其它大分子(例如脂质颗粒、蛋白质)络合的或不与其它大分子络合的。肿瘤来源的核酸可以指从肿瘤细胞释放的任何核酸，包含来自肿瘤细胞中的病原体的病原体核酸。

术语“测定”通常是指用于确定核酸性质的技术。测定(例如，第一测定或第二测定)通常是指用于确定样品中核酸的数量、样品中核酸的基因组同一性、样品中核酸的拷贝数变异、样品中核酸的甲基化状态、样品中核酸的片段大小分布、样品中核酸的突变状态或样品中核酸的片段化模式的技术。可以使用本领域普通技术人员已知的任何测定来检测本文所提及的核酸性质中的任何性质。核酸的性质包含序列、数量、基因组同一性、拷贝数、一个或多个核苷酸位置处的甲基化状态、核酸的大小、一个或多个核苷酸位置处的核酸突变以及核酸片段化的模式(例如，核酸片段化的一个或多个核苷酸位置)。术语“测定”可以与术语“方法”互换地使用。测定或方法可以具有特定的灵敏度和/或特异性，并且可以使用ROC-AUC统计来测量所述测定或方法作为诊断工具的相对有用性。

如本文所使用的，术语“随机测序”通常是指测序，其中所测序的核酸片段在测序程序之前没有被特异性地识别或预先确定。不需要靶向特定基因位点的序列特异性引物。在一些实施例中，将衔接子添加到片段的末端，并且将用于测序的引物附接到衔接子。因此，任何片段均可以用附接到同一通用衔接子上的同一引物进行测序，并且因此测序可以是随机的。可以使用随机测序进行大规模平行测序。

“核酸”可以指单链或双链形式的脱氧核糖核苷酸或核糖核苷酸及其聚合物。所述术语可以涵盖含有已知的核苷酸类似物或经修饰的主链残基或键的核酸，所述核酸是合成的、天然存在的和非天然存在的，所述核酸具有与参考核酸类似的结合性质，并且以类似于参考核苷酸的方式进行代谢。此类类似物的实例可以包含但不限于硫代磷酸酯、亚磷酰胺、甲基膦酸酯、手性甲基膦酸酯、2-O-甲基核糖核苷酸、肽核酸(PNA)。

除非另外指出，否则特定的核酸序列还隐含地涵盖其保守修饰的变体(例如，简并密码子取代)和互补序列，以及明确指出的序列。具体地说，简并密码子取代可以通过生成序列来实现，在所述序列中，一个或多个所选的(或全部)密码子的第三位被混合碱基和/或脱氧肌苷残基取代(Batzer等人,《核酸研究(Nucleic Acid Res.)》,19:5081(1991)；Ohtsuka等人,《生物化学杂志(J.Biol.Chem.)》,260:2605-2608(1985)；Rossolini等人,《分子与细胞探测(Mol.Cell.Probes)》,8:91-98(1994))。术语核酸可与基因、cDNA、mRNA、寡核苷酸和多核苷酸互换使用。

术语“核苷酸”除了指天然存在的核糖核苷酸或脱氧核糖核苷酸单体之外，还可以理解为指其相关的结构变体，包含衍生物和类似物，除非上下文另有明确指示，否则这些衍生物和类似物在使用核苷酸的特定情况下(例如，与互补碱基的杂交)在功能上是等同的。

“序列读数”是指从核酸分子的任何部分或全部测序的一串核苷酸。例如，序列读数可以是生物样品中存在的完整核酸片段。又例如，序列读数可以是从核酸片段测序的短核苷酸串(例如，20到150个碱基)、在核酸片段的一个或两个末端处的短核苷酸串或生物样品中存在的整个核酸片段的测序。可以通过多种方式获得序列读数，例如，使用测序技术或使用探针，例如，通过杂交阵列或捕获探针或扩增技术(如聚合酶链反应(PCR)或使用单个引物的线性扩增或等温扩增)或基于生物物理测量(如质谱法)。可以从单分子测序获得序列读数。“单分子测序”是指对单个模板DNA分子进行测序以获得序列读数，而无需解释来自模板DNA分子的克隆拷贝的碱基序列信息。单分子测序可以对整个分子或仅部分DNA分子进行测序。可以对大多数DNA分子进行测序，例如，大于50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或99％。

术语“通用测序”是指将衔接子添加到片段末端并将用于测序的引物附接到衔接子的测序。因此，任何片段均可以用同一引物进行测序，并且因此测序可以是随机的。

“临床相关性”DNA的实例包含母体血浆中的胎儿DNA和患者血浆中的肿瘤DNA。另一个实例包含对移植患者血浆中与移植物相关的DNA的数量的测量。另外的实例包含对受试者血浆中造血DNA和非造血DNA的相对数量的测量。后一个实施例可以用于检测或监测或预测涉及造血组织和/或非造血组织的病理过程或损伤。

术语“癌症水平”(或更一般地，“疾病水平”或“病状水平”)可以指是否存在癌症(即，存在或不存在)、癌症的阶段、肿瘤的大小、是否存在转移、身体的总肿瘤负荷、癌症对治疗的反应和/或癌症严重程度的其它测量(例如癌症复发)。癌症水平可以是数字(例如，概率)或其它标记，如符号、字母和颜色。所述水平可以是零。癌症水平也可以包含恶化前或癌前病状(状态)。癌症水平可以以各种方式使用。例如，筛查可以检查癌症是否存在于以前不知道患有癌症的人身上。评估可以调查被诊断出患有癌症的人，以监测癌症随着时间的进展、研究治疗的有效性或确定预后。在一个实施例中，预后可以表示为患者死于癌症的可能性，或在特定持续时间或时间之后癌症进展的可能性，或癌症转移的可能性。检测可以意指“筛查”或可以意指检查具有癌症暗示性特征(例如症状或其它阳性测试)的人是否患有癌症。“病理学水平”可以指与病原体相关的病理学水平，其中所述水平可以如上文针对癌症所描述的那样。疾病/病状的水平也可以如上文针对癌症所描述的那样。当癌症与病原体相关时，癌症水平可以是一种类型的病理水平。

如本文所使用的，术语“染色体非整倍体”是指染色体的定量数量相对于二倍体基因组的定量数量的变化。所述变化可以是增加或损失。所述变化可以涉及一条染色体的全部或染色体的一部分。

如本文所使用的，术语“序列失衡”或“畸变”意指由临床相关的染色体区域的数量中的至少一个截止值所定义的相对于参考数量的任何显著偏差。序列失衡可以包含染色体剂量失衡、等位基因失衡、突变剂量失衡、拷贝数失衡、单倍型剂量失衡和其它类似失衡。作为实例，当肿瘤的基因组中基因的一个等位基因缺失或基因的一个等位基因扩增或两个等位基因差异扩增时，就会出现等位基因失衡，从而在样品中的特定基因座处产生失衡。作为另一个实例，患者可能在肿瘤抑制基因中具有遗传突变。然后患者可能继续发展成肿瘤，其中肿瘤抑制基因的非突变等位基因被删除。因此，在肿瘤内，存在突变剂量失衡。当肿瘤将其DNA释放到患者血浆中时，肿瘤DNA将与患者的原发性DNA(来自正常细胞)在血浆中混合。通过使用本文所描述的方法，可以检测血浆中这种DNA混合物的突变剂量失衡。畸变可以包含染色体区域的缺失或扩增。

哺乳动物基因组中的“DNA甲基化”通常是指在CpG二核苷酸中向胞嘧啶残基的5'碳上添加甲基(即5-甲基胞嘧啶)。DNA甲基化可以发生在其它情景下的胞嘧啶中，例如，CHG和CHH，其中H是腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化还可以呈5-羟甲基胞嘧啶形式。还报道了非胞嘧啶甲基化，如N6-甲基腺嘌呤。

“分类”是指与样品的特定性质相关联的任何一个或多个数字或一个或多个其它特性。例如，符号“+”(或词语“正”)可以表示样品被归类为具有缺失或扩增。分类可以是二进制的(例如，正或负)或具有更多的分类等级(例如，从1到10或0到1的标度)。

术语“截止值”和“阈值”可以指在操作中使用的预定数字。阈值或参考值可以是高于或低于特定分类(例如，病状的分类，如受试者是否患有病状或所述病状的严重程度)所使用的值的值。可以参考或不参考样品或受试者的特性来预先确定截止值。例如，可以基于所测试的受试者的年龄或性别选择截止值。可以在测试数据输出之后并且基于所述测试数据输出选择截止值。例如，当样品的测序达到一定深度时，可以使用某些截止值。作为另一个实例，可以使用具有一种或多种病状的已知分类和测得的特性值(例如，甲基化水平、统计大小值或计数)的参考受试者来确定参考水平，以区分不同的病状和/或病状的分类(例如，受试者是否患有所述病状)。这些术语中的任何一个术语均可以在这些情景中的任何情景下使用。如本领域技术人员将理解的，可以选择截止值以实现期望的灵敏度和特异性。

“位点”(也被称为“基因组位点”)对应于单个位点，所述位点可以是单个碱基位置或一组相关的碱基位置(例如，CpG位点)或较大的一组相关的碱基位置。“基因座”可以对应于包含多个位点的区域。基因座可以仅包含一个位点，这将使所述基因座在此情景下等同于一个位点。

每个基因组位点(例如，CpG位点)的“甲基化指数”可以指在所述位点处显示出甲基化的DNA片段(例如，如根据序列读数或探针所确定的)占覆盖所述位点的读数总数的比例。“读数”可以对应于从DNA片段获得的信息(例如，位点处的甲基化状态)。可以使用优先与特定甲基化状态的DNA片段杂交的试剂(例如引物或探针)来获得读数。通常，在用根据DNA分子的甲基化状态而差异性地修饰或差异性地识别DNA分子的方法(例如亚硫酸氢盐转化、或甲基化敏感型限制性酶、或甲基化结合蛋白或抗甲基胞嘧啶抗体)处理之后，应用此类试剂。在另一个实施例中，识别甲基胞嘧啶和羟甲基胞嘧啶的单分子测序技术可以用于阐明甲基化状态和确定甲基化指数。

区域的“甲基化密度”可以指区域内显示甲基化的位点处的读数数除以覆盖所述区域中的所述位点的读数的总数。位点可以具有特定的特性，例如，是CpG位点。因此，区域的“CpG甲基化密度”可以指显示CpG甲基化的读数数除以覆盖所述区域中的CpG位点(例如，特定CpG位点、CpG岛内或更大区域内的CpG位点)的读数的总数。例如，可以根据CpG位点处经亚硫酸氢盐处理(对应于甲基化胞嘧啶)后未转化的胞嘧啶的总数确定人类基因组中每个100-kb组距的甲基化密度，作为映射到100-kb区域的序列读数覆盖的所有CpG位点的比例。这种分析也可以针对其它的组距大小(例如500bp、5kb、10kb、50-kb或1-Mb等)进行。区域可以是整个基因组或染色体或染色体的一部分(例如，染色体臂)。当区域仅包含CpG位点时，所述CpG位点的甲基化指数与所述区域的甲基化密度相同。“甲基化的胞嘧啶的比例”可以指区域中在所分析的胞嘧啶残基(即包含CpG背景外的胞嘧啶)的总数内显示被甲基化(例如，在亚硫酸氢盐转化之后未转化)的胞嘧啶位点“C's”的数量。甲基化指数、甲基化密度和甲基化的胞嘧啶的比例是“甲基化水平”的实例，所述甲基化水平可以包含其它涉及位点处甲基化的读数计数的比率。除了亚硫酸氢盐转化之外，可以使用本领域技术人员已知的其它方法来查询DNA分子的甲基化状态，所述方法包含但不限于对甲基化状态敏感的酶(例如，甲基化敏感型限制性酶)、甲基化结合蛋白、使用对甲基化状态敏感的平台的单分子测序(例如，纳米孔测序(Schreiber等人《美国国家科学院院刊》2013；110:18910-18915)和太平洋生物科学公司(Pacific Biosciences)的单分子实时分析(Flusberg等人《自然方法(Nat Methods)》2010；7:461-465))。

“甲基化感知测序”是指任何允许在测序过程期间确定DNA分子的甲基化状态的测序方法，包含但不限于亚硫酸氢盐测序，或先于甲基化敏感型限制性酶消化的测序、使用抗甲基胞嘧啶抗体或甲基化结合蛋白的免疫沉淀或允许阐明甲基化状态的单分子测序。“甲基化感知测定”或“甲基化敏感测定”可以包含基于测序和非测序的方法，如MSP、基于探针的查询、杂交、限制性酶消化，然后进行密度测量、抗甲基胞嘧啶免疫测定、甲基化的胞嘧啶或羟甲基胞嘧啶比例的质谱查询、免疫沉淀后不进行测序等。

“分离值”(或相对丰度)对应于涉及两个值(例如两个数量的DNA分子、两个分数贡献或两个甲基化水平(如样品(混合物)甲基化水平和参考甲基化水平))的差值或比率。分离值可以是简单的差值或比率。作为实例，x/y以及x/(x+y)的直接比率是分离值。分离值可以包含其它因子，例如，乘法因子。作为其它实例，可以使用数值的函数的差值或比率，例如两个值的自然对数(ln)的差值或比率。分离值可以包含差值和/或比率。甲基化水平是例如在甲基化的DNA分子(例如，在特定位点处)与其它DNA分子(例如，在特定位点处的所有其它DNA分子或仅非甲基化的DNA分子)之间的相对丰度的实例。其它DNA分子的数量可以充当归一化因子。作为另一个实例，可以确定相对于所有或非甲基化的DNA分子的强度的甲基化的DNA分子的强度(例如，荧光强度或电强度)。相对丰度还可以包含每体积的强度。

术语“对照”、“对照样品”、“参考”、“参考样品”、“正常”和“正常样品”可以互换使用，以大体上描述不具有特定病状的样品或健康的样品。在一个实例中，本文所公开的方法可以在患有肿瘤的受试者上进行，其中参考样品是取自受试者的健康组织的样品。在另一个实例中，参考样品是取自患有疾病(例如，癌症或癌症的特定阶段)的受试者的样品。参考样品可以从受试者或数据库中获得。参考通常是指参考基因组，所述参考基因组用于映射通过对受试者的样品进行测序而获得的序列读数。参考基因组通常指可以与来自生物样品和原发性样品的序列读数进行比对和比较的单倍体或二倍体基因组。对于单倍体基因组，每个位点处只有一个核苷酸。对于二倍体基因组，可以识别杂合基因座，这种基因座具有两个等位基因，其中任一等位基因均可以允许与所述基因座对齐的匹配。参考基因组可以例如通过包含一个或多个病毒基因组而与病毒对应。

如本文所使用的，短语“健康”通常是指拥有良好健康状况的受试者。此类受试者表现出不存在任何恶性或非恶性疾病。“健康个体”可能患有与被测定的病状无关的其它疾病或病状，其通常可能不被视为“健康的”。

术语“癌症”或“肿瘤”可以互换使用，并且通常指异常的组织肿块，其中所述肿块的生长超过正常组织的生长，并且与正常组织的生长不协调。根据以下特性，可以将癌症或肿瘤定义为“良性”或“恶性”：细胞分化程度，包含形态和功能、生长速率、局部浸入和转移。“良性”肿瘤通常是分化良好的，其生长特征性地比恶性肿瘤慢，并且仍局限于原发位点。另外，良性肿瘤不具有浸润、侵入或转移到远处位点的能力。“恶性”肿瘤通常是分化不良的(间变)，具有特征性的快速生长，伴有周围组织的逐渐浸润、侵入和破坏。此外，恶性肿瘤具有转移到远处位点的能力。“阶段”可以用于描述恶性肿瘤的进展程度。与后期恶性肿瘤相比，早期癌症或恶性肿瘤与体内较少的肿瘤负荷相关联，通常具有较少的症状、更好的预后和更好的治疗结果。后期或晚期癌症或恶性肿瘤通常与远处转移和/或淋巴扩散相关联。

术语“假阳性”(FP)可以指不患有病状的受试者。假阳性通常是指没有肿瘤、癌症、癌前病状(例如，癌前病变)、局部性或转移性癌症、非恶性疾病的受试者或健康的受试者。术语假阳性通常是指受试者不患有病状，但是通过本公开的测定或方法被识别为患有病状。

术语“灵敏度”或“真阳性率”(TPR)可以指真阳性数除以真阳性数和假阴性数之和。灵敏度可以表征一种测定或方法正确地鉴别真正患有病状的人群的比例的能力。例如，灵敏度可以表征一种方法正确地鉴别人群中患有癌症的受试者的数量的能力。在另一个实例中，灵敏度可以表征一种方法正确地鉴别一种或多种指示癌症的标志物的能力。

术语“特异性”或“真阴性率”(TNR)可以指真阴性数除以真阴性数和假阳性数之和。特异性可以表征一种测定或方法正确地鉴别真正不患有病状的人群的比例的能力。例如，特异性可以表征一种方法正确地鉴别人群中不患有癌症的受试者的数量的能力。在另一个实例中，特异性可以表征一种方法正确地鉴别一种或多种指示癌症的标志物的能力。

术语“ROC”或“ROC曲线”可以指接收器操作特性曲线。ROC曲线可以是二进制分类器系统性能的图形表达。对于任何给定的方法，可以通过在各个阈值设置下绘制灵敏度与特异性的曲线来生成ROC曲线。可以在受试者血浆样品中各种浓度的肿瘤来源的核酸中确定用于检测受试者中肿瘤存在的方法的灵敏度和特异性。此外，提供三个参数(例如，灵敏度、特异性和阈值设置)中的至少一个参数，并且ROC曲线可以确定任何未知参数的值或期望值。可以使用拟合到ROC曲线的曲线来确定未知参数。术语“AUC”或“ROC-AUC”通常是指接收器操作特性曲线下方的面积。考虑到方法的灵敏度和特异性两者，这种度量可以提供所述方法的诊断效用的测量。通常，ROC-AUC在0.5到1.0的范围内，其中接近0.5的值指示所述方法具有有限的诊断效用(例如，较低的灵敏度和/或特异性)而接近1.0的值指示所述方法具有较大的诊断效用(例如，较高的灵敏度和/或特异性)。参见例如Pepe等人,“比值比在测量诊断、预后或筛查标志物的性能时的局限性(Limitations of the Odds Ratio inGauging the Performance of a Diagnostic,Prognostic,or Screening Marker)”《美国流行病学杂志(Am.J.Epidemiol)》2004,159(9):882-890，所述文献通过引用整体并入本文。根据以下文献总结了使用似然函数、比值比、信息论、预测值、校准(包含拟合优度)和重新分类测量值来表征诊断效用的另外的方法：Cook,“风险预测中接收器操作特性曲线的使用和误用(Use and Misuse of the Receiver Operating Characteristic Curve inRisk Prediction)”,《循环(Circulation)》2007,115:928-935，所述文献通过引用整体并入本文。

术语“约(about)”或“大约(approximately)”可以意指在特定值的一个可接受的误差范围内，如本领域普通技术人员所确定的，这将部分地取决于如何测量或确定所述值，即，测量系统的局限性。例如，根据本领域的实践，“约”可以意指在1个或大于1个标准偏差内。可替代地，“约”可以意指给定值的最多20％、最多10％、最多5％或最多1％的范围。可替代地，特别是对于生物系统或过程，术语“约”或“大约”可以意指在值的数量级内、值的5倍内，并且更优选地，值的2倍内。当在本申请和权利要求书中描述特定值时，除非另外指出，否则应假设术语“约”表示所述特定值在可接受的误差范围内。术语“约”可以具有本领域普通技术人员通常理解的含义。术语“约”可以指±10％。

术语“约”可以指±5％。

本文所使用的术语仅出于描述特定情况的目的，并且不旨在进行限制。如本文所使用的，除非上下文另外清楚地指示，否则单数形式“一个/种(a/an)”和“所述(the)”旨在也包含复数形式。除非特别指出相反的情况，否则“或”的使用旨在表示“包含性的或”，而非“排他性的或”。术语“基于”旨在表示“至少部分地基于”。此外，在详细描述和/或权利要求书中使用了术语“包含(including/include)”、“具有(having/has/with)”或其变体的情况下，这种术语旨在以类似于术语“包括(comprising)”的方式是包含性的。

具体实施方式

基于大小的游离DNA分析已经用于分析生物样品中的染色体非整倍体和癌症。然而，使用先前的基于大小的技术，当生物样品具有低百分比的临床相关性DNA时，可能难以获得具有统计意义的结果。当临床相关性DNA的相对浓度低时，可以使用先前的基于大小的分析来确认另一种类型的分析的结果，而不是依赖于单一的分析技术。本发明的实施例涉及使用大小带，这可以允许在分析中使用更多的游离DNA，并且可以实现对大小模式进行分析。因此，即使在临床相关性DNA的低相对浓度下，也可以准确地进行基于大小的分析。

在这项研究中，我们旨在应用游离DNA的大小分析以降低NIPT所需的胎儿DNA相对浓度的限制。我们旨在在不对特异性造成不利影响的情况下，提高NIPT的灵敏度。类似的技术可以应用于癌症分析。据发现，即使在临床相关性DNA的相对浓度低时，使用多个大小范围而不是特定大小也可以实现对生物样品的分析。实施例可以包含使用大小带确定染色体区域是否表现出拷贝数畸变(CNA)。CNA可能与非整倍体或癌症相关。实施例还可以包含使用大小带确定癌症水平。

I.基于大小的分析

已经证明了母体血浆中的胎儿来源的分子比母体DNA分子短(Chan等人《临床化学(Clin Chem)》2004；50:88-92；Lo等人《科学转化医学期刊》2010；2:61ra91-61ra91)。研究人员已经利用这种大小差异来富集用于NIPT的母体血浆样品中的胎儿DNA(Li等人《临床化学》2004；50:1002–1011,《美国医学会杂志(JAMA)》2005；293:843-9；Lun等人《美国国家科学院院刊》2008；105:19920-5)。Yu等人已经说明，可以通过在配对末端测序数据中确定来自非整倍体染色体的短片段的畸变比例，从而检测胎儿染色体非整倍体(Yu等人《美国国家科学院院刊》2014；111:8583-8)。当与母体血浆中的DNA分子计数相比时，这种方法可以实现良好的NIPT性能(Yu等人《美国国家科学院院刊》2014；111:8583–8)。

为了提高对具有低胎儿DNA相对浓度(例如<4％)的孕妇的胎儿染色体异常的非侵入性检测的准确性先前已经探索的一种可能的方法是通过计算机内大小选择或物理大小选择对短DNA分子进行选择性分析(例如，于2008年7月23日提交的WO 2009/013496，其出于所有目的通过引用并入本文)。在这些方法中，来自短血浆DNA分子的数据或分子形成了统计分析、疾病分类和病例解释的基础。由于与母体来源的DNA分子的大小分布相比，胎儿来源的DNA分子的大小分布更短，因此对短DNA片段的选择性分析可以优先地富集胎儿来源的DNA分子，从而获得更高的胎儿DNA相对浓度。

由于胎儿DNA相对浓度是控制NIPT性能的关键因素，因此这可能会提高NIPT的准确性。然而，据报道，对长度<150bp的经测序读数的计算机内选择可以增加有效的胎儿DNA相对浓度，但由于胎儿DNA相对浓度与被计数的分子数量之间存在权衡，因此不一定增加通过单分子计数检测非整倍体的灵敏度(Fan等人《临床化学》2010；56:1279–1286)。换句话说，如表1所示，由于被计数的血浆DNA片段的数量显著减少，因此先前选择短DNA的方法在不增加测序深度的情况下无法提高灵敏度。减小所分析的血浆DNA片段的大小可减少被分析的DNA片段的数量。例如，如果仅分析小于100bp的长度，则DNA片段将减小48.5倍。同时，通过专注于较小的血浆DNA片段，胎儿的DNA相对浓度得以富集。例如，对于小于100bp的长度，胎儿DNA相对浓度具有1.78倍的富集。然而，与所分析的血浆DNA分子中48.5倍的减小相比，1.78倍的富集是很小的。

表1

另一方面，我们先前已经开发了另一种基于血浆DNA大小的方法(美国专利8,620,593)，以通过利用低于某个阈值(例如，150bp大小)的DNA分子提高诊断特异性。在这种方法中，将源自潜在非整倍体染色体的血浆DNA分子的平均大小与源自其它染色体的血浆DNA分子的平均大小进行比较。这种方法已经被证明可提高染色体非整倍体的非侵入性检测的特异性，因为胎儿染色体非整倍体会导致来自过度表达的染色体(例如，三体染色体)的血浆DNA分子的平均大小缩短，或导致未充分表达的染色体(例如，单体染色体)的血浆DNA分子的平均大小延长。然而，由于所计数的血浆DNA分子的数量减少，因此无法预期这种方法会增强灵敏度。

先前曾有一些尝试使用特定的短DNA分子的计算机内选择来量化非整倍体染色体的拷贝数变化的努力(Fan等人《临床化学》2010；56:1279-1286)。然而，这种特定的大小选择将减少有助于最终临床分类的DNA分子的数量，从而增加随机变异。从分析上讲，这种随机变异的增加可以体现为变异系数(CV)或标准偏差(SD)的增加。根据泊松分布，所分析分子的数量每减少4倍，CV将增加2倍。另一方面，循环性胎儿DNA的相对浓度浓度每增加2倍，需要计数以达到对胎儿染色体非整倍体的正确诊断的分子数量将减少4倍。如果对小于150bp的分子使用大小选择，则胎儿DNA相对浓度将增加约2倍，但血浆DNA分子的数量将减少4.7倍。因此，通过简单的大小选择来富集胎儿DNA相对浓度将无法有效地抵消血浆DNA分子减少的不利影响，这可能是为什么通过简单的计算机内大小选择无法持续改进NIPT的重要原因(Fan等人《临床化学》2010；56:1279-1286)。

II.大小模式

在这项研究中，我们开发了一种通过利用跨一系列不同大小范围的分子计数的详细变化模式来整合血浆DNA大小信息的新方式，根据经验数据，这种新方式令人惊讶地导致了测试灵敏度的提高。这是反常的，因为当将血浆DNA分子分级成更多大小带时，每个大小带的经测序的DNA分子应该少得多，并且每个带内的血浆DNA分子无法单独提高灵敏度。我们的新方法使用跨不同带的关系来改善性能，而非单独使用一个特定带。

我们推断，非整倍体染色体的基因组代表(GR)的变化将根据存在于不同大小的血浆DNA分子中的所测得的胎儿DNA相对浓度而变化。我们假定受影响的染色体的GR变化之间的关系将以非随机方式连接到不同的大小范围(大小带)，因为游离的胎儿和母体DNA大小反映了两种不同的片段化模式(Lo等人《科学转化医学期刊》2010；2:61ra91-61ra91)。因此，我们开发了一种新方法来分析源自不同大小带中的畸变染色体的GR值的详细变化形状。图1展示了这种方法的原理示意图。

图1示出了血浆DNA大小带分析的原理的示意图100。母体血浆包括分别来自胎儿和母体细胞的胎儿DNA分子(部分104中的波浪红线和分子106)和母体DNA分子(部分108中的波浪黑线和分子110)的混合物。胎儿DNA分子通常比母体DNA分子短，如通过胎儿DNA大小分布相对于母体DNA分子的大小分布向左偏移所证明的。因此，所测得的胎儿DNA相对浓度将根据不同的大小带而变化，所述胎儿DNA相对浓度通常在较短的大小范围内富集。因此，对于怀有三体胎儿的女性，所测得的基因组代表(GR)预计根据不同的大小带而变化(可以通过z评分来测量所述GR相对于参考组的偏差)，但相比之下，在整倍体胎儿的妊娠中不会发生特定的变化。

图1将大小带示出为离散带和滑动窗口两者。在频率与大小的关系图中，不同颜色的柱(例如，柱112)示出了对应于离散大小范围的大小带。在z评分(chr21)与大小的关系图116和118中，有颜色的柱(例如，柱122和柱124)示出了不同大小带的z评分。在z评分与大小的关系图中，线126和128将大小带的结果示出为滑动窗口。在非整倍体胎儿的妊娠中，线128指示以特定大小为中心的大小带的z评分。例如，在线128上具有给定的x坐标和y坐标的数据点针对围绕以x坐标表示的大小为中心的大小范围具有以y坐标表示的z评分。每个z评分是针对整个大小带计算的合并z评分。因此，在整倍体胎儿妊娠的图116中，线126将大小带的结果示出为滑动窗口。在非整倍体胎儿妊娠的图118中，线128将大小带的结果示出为滑动窗口。

无论大小带是基于离散窗口还是滑动窗口，大小带的z评分的形状或模式在整倍体胎儿的妊娠与非整倍体胎儿的妊娠之间都明显不同。例如，如图116和图118所示，与整倍体胎儿的妊娠中更具循环性的模式相比，非整倍体胎儿的妊娠显示出双峰模式。

跨不同大小带的计数的模式可能与胎儿DNA相对浓度、肿瘤DNA相对浓度或其它临床相关性DNA相对浓度相关。因此，与仅使用特定大小的DNA分子的方法相比，当整合血浆DNA大小性质时，这种同时对跨不同大小带的一系列分子计数和基于不同大小带的读数之间的关系进行量化的新方法将不会损失血浆DNA分子。与仅使用低于某个大小截止值的单个读数相比，这种同时量化将提高准确性。可以通过使用(但不限于)机器学习方法(如人工神经网络、k-最近邻算法、支持向量机和混合高斯模型等)来识别血浆中拷贝数变化的大小带模式。

A.验证大小模式数据分析

大小模式(即，与特定大小带中游离DNA的数量相关的相对浓度或参数的形状)可以取决于游离DNA的特性。例如，如图1中的图116和118所示，大小模式可以取决于生物样品是否包含来自非整倍体胎儿的游离DNA。首先，分析不同大小的DNA的胎儿DNA相对浓度，以显示与母体DNA相比，某些大小的游离DNA富含胎儿DNA。其次，使用大小带将怀有非整倍体胎儿的孕妇的数据与怀有整倍体胎儿的孕妇的数据进行对比分析。这些分析证实，可以分析大小模式以区分CNA中的差异，包含当CNA是非整倍体胎儿的结果时。

1.测得的胎儿DNA相对浓度根据不同的大小带而变化

为了验证胎儿DNA相对浓度的变化将以非随机方式根据片段大小而变化的假定，我们重新分析了先前研究中所描述的数据(Chan等人《美国国家科学院院刊》2016；113:E8159–E8168)。

图2A示出了针对血浆DNA片段大小为50bp到400bp的非整倍体染色体所测得的胎儿DNA相对浓度。x轴是DNA分子的大小，而y轴是所述大小的DNA分子中胎儿DNA的相对浓度。例如，在120bp的大小下，胎儿DNA相对浓度为70.5％，这意味着在大小为120bp的DNA分子中，70.5％的DNA分子来自胎儿并且29.5％的DNA分子来自孕妇。根据来自怀有男性胎儿的孕妇的样品中的Y染色体百分比确定胎儿DNA相对浓度。发现胎儿DNA相对浓度分别在120bp和280bp的大小下富集。在120bp的大小下，发现了70.5％的最大胎儿DNA相对浓度，比在200bp大小下17.4％的最小胎儿DNA相对浓度高4倍。

2.血浆DNA中的CNA针对不同大小带而变化

表现出不均匀模式的胎儿DNA相对浓度的变化将影响源自非整倍体染色体的分子计数的呈现。非整倍体染色体具有异常数量的染色体。与母体DNA相比，胎儿中异常数量的染色体将影响胎儿DNA的数量。例如，21三体具有三条21号染色体而不是只有两条。如果胎儿具有21三体，则胎儿DNA比正常的整倍体胎儿DNA具有更高的相对浓度。由于胎儿DNA通常比母体DNA短，因此与怀有整倍体胎儿的孕妇的母体样品相比，怀有具有21三体的胎儿的孕妇将可能具有更高的21号染色体短DNA浓度。

图2B示出了使用大小带滑动窗口的21三体胎儿的妊娠和整倍体胎儿的妊娠的z评分结果。大小带滑动窗口的带宽为50bp。21三体胎儿的妊娠中的胎儿DNA相对浓度为4％。如图2B所示，21三体胎儿的120-bp位置在所有分析的样品中具有最高z评分，并且因此对应于所测得的拷贝数畸变的最高程度。不同的大小带会影响120bp和其它大小的z评分的幅度。下文描述了受影响的染色体的z评分的计算。

假设具有50-bp带宽的大小带的中点定位在长度i处(例如，大小带的中点定位在75bp的i处，并且所述带的范围为50bp到100bp)，则可以使用所关注的特定大小范围(例如，50bp到100bp)内的此类片段来计算映射到目标染色体(例如，21号染色体)的测序读数的百分比，表示为基因组代表i(即，GR_i)。计算长度i的z评分：

其中M_i和SD_i表示以长度i为中心的大小带中的目标染色体的基因组代表的平均值和标准偏差，二者是在这项研究中从50例携带整倍体胎儿的妊娠中推断出的。将通过动态地改变大小分布中大小带中点的位置来查询整个大小范围(范围为50bp到400bp)。

在图2B中，对于21三体胎儿的妊娠，我们可以在基于大小带的z评分曲线202中观察到规则的波状模式。这种观察使人联想到不同大小带中胎儿DNA相对浓度的变化。然而，在整倍体胎儿的对照组中并未示出此类模式。特定大小带中这种变化的幅度似乎不同于胎儿DNA相对浓度的变化。例如，120bp处的z评分远高于280bp处的z评分(图2B)，但这两个大小之间的胎儿DNA相对浓度是相当的(图2A)。可变性可能是由于长度大于166bp的分子计数比长度小于166bp的分子计数减少得更快，因此长分子中会出现较高的取样变异。

图2B还示出了所有大小的z评分，展示为对应于x轴上标记为“所有(All)”的值的圆圈。红色圆圈204(最高的圆圈)对应于21三体。红色圆圈204的z评分低于3。因此，如果使用所有的片段，并且采用z评分3作为截止值，这个病例将被错误地分类为整倍体胎儿，从而导致假阴性结果。相比之下，如果使用随不同大小带而变化的z评分中的不同变化形状，则与对照组相比，所述病例可以被正确地鉴定为21三体病例。

B.应用大小模式分析

针对怀有整倍体胎儿或非整倍体胎儿的孕妇生成大小模式数据。然后，通过不同的技术(包含使用机器学习模型)对数据进行分析，以确定大小模式是否可以用于在整倍体胎儿的妊娠与非整倍体胎儿的妊娠之间进行区分。

1.血浆中CNA的大小带形状可告知具有低胎儿相对浓度的染色体非整倍体

为了评估是否可以将这种基于大小带的z评分模式推广到其它胎儿DNA相对浓度低的样品，我们分析了各自带有男性胎儿的另外111份母体血浆DNA样品，包含各自带有21三体胎儿的48例和各自带有整倍体胎儿的63例。使用源自男性胎儿的Y染色体序列评估胎儿DNA相对浓度(Hudecova等人《公共科学图书馆·综合》2014；9:e88484；Chiu等人《英国医学杂志》2011；342:c7401)。为了获得足够的低胎儿DNA相对浓度为4％或更低的病例，将48例三体胎儿妊娠的每个配对末端测序数据集与来自整倍体胎儿病例的测序数据集在计算机内进行混合，以实现4％或更低的胎儿DNA相对浓度水平。

图3示出了针对跨胎儿DNA相对浓度为4％的不同个体妊娠的非整倍体染色体所测得的基因组代表(GR)的基于大小带的变化模式。Y轴指示z评分值，表明与怀有整倍体胎儿的孕妇相比，怀有非整倍体胎儿的孕妇中所测得的GR的偏差程度。X轴指示不同的大小带。红色线(也是深色线)表示三体胎儿的妊娠；灰色线表示整倍体胎儿的妊娠。

图3显示，与来自整倍体胎儿病例的拷贝数畸变模式相比，几乎所有三体胎儿病例均显示出始终不同的基于大小带的所测得的拷贝数畸变模式。在每个病例中，如图2B所示，21三体病例的大小模式线明显不同于整倍体病例的模式，这使得与使用所有大小片段的z评分相比，可以更容易地确定21三体。

我们进一步使用了热图和t-SNE(t-分布随机近邻嵌入)方法来使携带三体与整倍体病例的妊娠之间的数据结构可视化。图4A示出了整倍体胎儿的妊娠与21三体胎儿的妊娠之间的基于大小带的变化模式的热图图示。蓝色(例如，区域402)用于指示整倍体的大小带的特征，而绿色(例如，区域404)用于指示21三体的大小带的特征。图4A中几乎所有病例(46/48，96％)都涉及将21三体胎儿病例聚集在一起。类似地，图4A中几乎所有涉及整倍体胎儿的病例(62/63，98％)都聚集在一起。

图4B示出了整倍体胎儿的妊娠与21三体胎儿的妊娠之间的基于大小带的变化模式的t-SNE图。t-SNE图基于根据机器学习确定的两个特征。t-SNE图给出了一致的结果，即可以容易地将21三体病例的妊娠与整倍体病例的妊娠进行区分(图4B)，这表明血浆DNA中所测得的拷贝数畸变的基于大小带的形状可以告知具有低胎儿DNA相对浓度(如4％)的病例的染色体非整倍体。

图4C示出了使用常规z评分方法的整倍体胎儿的妊娠与21三体胎儿的妊娠之间的z评分分布。虚线指示z评分阈值为3。使用z评分截止值3时，21三体的检出率仅为48％。换句话说，52％的21三体将导致假阴性。另外，图4C显示，一次整倍体妊娠将导致21三体的假阳性。与图4B中不生成任何假阳性或假阴性的t-SNE方法相比，常规的z评分方法将导致较低的灵敏度和特异性。

2.用于检测胎儿DNA相对浓度低的病例的机器学习模式识别。

我们利用神经网络模型进一步证明了基于大小带的方法用于检测胎儿拷贝数畸变的用途。我们将样品分为训练数据集和测试数据集。训练数据集包含33例21三体胎儿的妊娠和63例整倍体胎儿的妊娠，并且测试数据集含有15例21三体胎儿和50例整倍体胎儿。使用一层各自有20个神经元构造的神经网络来学习捕获隐藏在大小带中的模式的模型。之后，我们将此模型应用于测试数据集。

图5示出了神经网络模型的训练数据集和测试数据集。事实证明，在21三体概率的截止值为0.7的情况下，我们能够分别对1％、2％、3％和4％的胎儿DNA相对浓度实现40％、80％、100％和100％的灵敏度和98％的特异性。即使在1％的低胎儿DNA相对浓度下，神经网络模型仍示出了鉴别21三体真阳性的能力。

可以使用除神经网络模型以外的机器学习模型来确定可以确定受试者中胎儿非整倍体或癌症的概率的模式和特征。这些机器学习模型的训练可以使用数据集，包含来自受病症或临床相关特征影响的受试者的样品和来自不受影响的受试者的样品。可以考虑用于训练的参数包含大小带的带宽、大小带的中心点、DNA分子的数量、DNA分子的位置、表观基因组信号(例如，甲基化)和其它变量。

3.用于检测拷贝数畸变的示例方法

图6示出了确定来自受试者的生物样品中的染色体区域是否表现出拷贝数畸变的方法600。所述生物样品可以包含游离DNA分子的混合物，所述游离DNA分子包含临床相关性DNA分子和其它DNA分子。临床相关性DNA分子可以包含胎儿DNA或母体DNA。如果临床相关性DNA分子包含胎儿DNA，则其它DNA可以包含母体DNA。如果临床相关性DNA分子包含母体DNA，则其它DNA可以包含胎儿DNA。临床相关性DNA可以包含肿瘤DNA，而其它DNA分子包含非肿瘤DNA。

在框602处，方法600可以包含针对多个大小范围中的每个大小范围，从生物样品中测量对应于所述大小范围的第一数量的游离DNA分子。游离DNA分子可以来自特定的基因组区域，所述特定的基因组区域可以是染色体或染色体的一部分。例如，基因组区域可以是染色体臂。基因组区域可以是来自基因组的任何区域。在一些实施例，游离DNA分子可以来自多个不相交或连续的基因组区域。大小范围可以是本文所描述的大小带。

可以通过机器学习模型确定待使用的特定大小范围。可以在数据集上训练机器学习模型，并且所述模型可以更改所使用的范围(例如，中心点位置和/或大小范围的带宽)，以便优化检测拷贝数畸变或临床病状的灵敏度和特异性。数据集可以包含多个参考大小模式。有利的是，机器学习模型可以确定大小范围的某个带宽。另外，机器学习模型可以确定，某些大小范围对于预测结果可能比其它大小范围更为重要。例如，可以将大小范围确定为围绕100bp到150bp的任何大小为中心的滑动大小范围。在其它实施例中，机器学习模型可以确定，离散的不重叠的大小范围可以在滑动大小范围上提供改进的结果。可以使用与训练集上的灵敏度和/或特异性或其它准确度相关的成本函数来更新机器学习模型的参数和特征选择(例如，待使用的大小范围和特定的大小比率)。验证数据集也可用于确认模型的准确性。

在框604处，方法600可以包含使用对应于所述大小范围的第一数量的游离DNA分子和包含不在所述大小范围内的大小的第二大小范围中的第二数量的DNA分子，通过计算机系统针对所述多个大小范围中的每个大小范围计算大小比率。大小比率可以是游离DNA分子的z评分或归一化数量(例如，相对浓度、百分比或相对丰度)。例如，大小比率可以是基因组代表(GR)。在其它实施例中，大小比率可以是使用GR计算的z评分(例如，图2B中的曲线202上的点处的z评分值)。

每个大小范围可以具有描述大小范围中大小的范围的数值的带宽。例如，带宽可以在50bp到100bp、100bp到200bp、200bp到300bp或300bp到400bp的范围内。以100bp为中心的带宽为50bp的大小范围将在75bp到125bp之间。每个大小范围可以与所述多个大小范围中的任何其它大小范围不重叠(例如，离散大小带，如图1中的柱122和柱124)。在其它实施例中，每个大小范围可以与所述多个大小范围中的至少一个其它大小范围重叠。以这种方式，大小范围可以被视为滑动窗口。然后，滑动窗口导致在许多大小上连续的大小比率值(例如，图1中的线126或线128)。

第二大小范围可以大于所述多个大小范围中的每个大小范围。第二大小范围可以包含所有大小的游离DNA分子，或者可以包含所测得的游离DNA分子的基因组区域中所有大小的游离DNA分子。第二大小范围可以包含来自与框602中所测得的游离DNA分子的基因组区域相同的基因组区域(例如，一个或多个相同的染色体或一个或多个相同的染色体臂)的游离DNA分子。第二大小范围还可以包含来自框602中所测得的游离DNA分子的基因组区域以外的基因组区域的游离DNA分子。例如，对于21三体，在框602处所测得的游离分子可以来自21号染色体。在这种情况下，第二大小范围可以包含来自其它染色体(例如，充当参考的不同染色体或跨整个基因组的不同染色体)的游离DNA分子。然后，方法600还可以包含测量第二大小范围中的游离DNA分子的数量。

在框606处，方法600可以包含获得包含所述多个大小范围的多个参考大小比率的参考大小模式。可以从来自在染色体区域中具有拷贝数畸变的受试者或在染色体区域中没有拷贝数畸变的受试者的多个参考样品中确定参考大小模式。例如，如果被测试的拷贝数畸变与胎儿非整倍体相关，则参考样品可以来自已知具有整倍体胎儿的受试者。在其它实施例中，参考样品可以来自已知具有胎儿非整倍体的受试者。可以按与框604中计算大小比率的方式相同的方式来确定所述多个大小范围的每个参考大小比率，不同之处是使用参考样品而不是生物样品。例如，在图2B中，参考样品的大小模式可以是图2B中除曲线202之外的曲线中的任何一条曲线。参考大小模式可以是参考样品的所有大小模式的统计学表述。例如，参考大小模式可以是所有大小模式的均值(平均值、中值或众数)。例如，这个平均的参考大小模式可以是图1中的线126。

在框608处，方法600可以包含将多个大小比率与参考大小模式进行比较。将多个大小比率与参考大小模式进行比较可以包含将所述多个大小比率中的每个大小比率与对应的大小范围处的参考大小比率进行比较。例如，所述多个大小比率可以是构成图1中的线128的点。在一些情况下，所述多个大小比率可以仅构成线128的一部分。假设参考大小模式是图1中的线126，将多个大小比率与参考大小模式进行比较可以包含线128的点与线126的参考点之间的统计学比较。

可以确定每个大小范围的每个大小比率在统计上类似于对应大小范围处的参考大小比率。可以使用阈值确定统计相似性。阈值可以指示大小比率需要多接近参考大小比率。阈值可以是相对于参考大小比率的一定数量的标准偏差(例如，1、2或3)。在一些实施例中，并非每个大小比率都需要在统计上类似于参考大小比率。相反，最小数量的大小比率在统计上可能是类似的。例如，80％、85％、90％或95％的大小比率在统计上可能类似于对应的参考大小比率。

将多个大小比率与参考大小模式进行比较可以包含将多个大小比率与从多个参考样品中确定的多个阈值进行比较。例如，每个大小范围可以具有不同的阈值，所述阈值可以基于参考样品的标准偏差。单个大小范围也可以具有不同的阈值，每个阈值与大小比率不同于参考样品的不同确定性水平相关联。比较可以包含对超过的阈值的数字进行计数，并确定所述数字是否超过数量或相对浓度(例如，0.5、0.6、0.7、0.8或0.9)。如果数字超过所述数量，则可以确定染色体区域表现出拷贝数畸变。

在一些实施例中，将多个大小比率与参考大小模式进行比较可以包含确定包含所述多个大小范围的多个大小比率的大小模式。大小模式可以是将大小比率与大小范围关联的图。例如，大小模式可以是图1中的线128、图2B中的曲线202或图3中的21三体线中的任何一个。可以确定大小模式具有与参考大小模式的形状类似的形状。确定类似的形状可以包含确定大小模式的斜率(例如，一阶导数)和/或拐点(例如，二阶导数)类似于参考大小模式中的斜率和拐点。可以使用阈值来确定斜率或拐点的相似性，所述阈值可以指示统计学显著性(例如，一定数量的标准偏差)。

在一些实施例中，将多个大小比率与参考大小模式进行比较可以包含使用包含神经网络的机器学习进行比较。机器学习模型可以用于确定如何计算大小比率、如何将大小比率与参考大小模式进行比较和/或如何确定大小模式是否类似于参考大小模式。如何计算大小比率可以包含确定大小范围的带宽和第二大小范围的大小和带宽。如何将大小比率与参考大小模式进行比较可以包含确定不同大小范围的权重，以及是否使用大小模式的零阶导数、一阶导数或二阶导数。如何确定大小模式是否类似于参考模式可以包含确定相似性的阈值。

获得参考大小模式并将多个大小比率与参考大小模式进行比较可以包含将所述多个大小比率输入到机器学习模型中。可以使用来自所述多个参考样品的多个训练大小模式来训练机器学习模型。经训练的机器学习模型(例如，神经网络)可以输出样品在染色体区域中具有畸变的概率。

在框610处，方法600可以包含基于所述比较确定染色体区域是否表现出拷贝数畸变。拷贝数畸变可以是非整倍体，包含21三体、18三体、13三体和性染色体的非整倍体。拷贝数畸变可以是癌症的征兆。方法600还可以包含治疗受试者的癌症或制定针对非整倍体的计划。

如果从来自具有拷贝数畸变的受试者的多个参考样品中确定参考大小模式，并且比较显示大小比率或大小模式类似于参考大小模式，则可以确定染色体区域表现出拷贝数畸变。并且如果比较示出大小比率或大小模式与参考大小模式之间的差异，则可以确定染色体区域并未表现出拷贝数畸变。在一些实施例中，可以确定表现出拷贝数畸变的概率。所述概率可以与大小比率或大小模式类似或不类似于参考大小模式的程度相关。可以使用包含本文所描述的神经网络的机器学习模型或任何模型来确定所述概率。

可替代地，如果从来自没有拷贝数畸变的受试者的多个参考样品中确定参考大小模式，并且比较显示大小比率或大小模式类似于参考大小模式，则可以确定染色体区域并未表现出拷贝数畸变。并且如果比较示出大小比率或大小模式与参考大小模式之间的差异，则可以确定染色体区域表现出拷贝数畸变。

C.低胎儿相对浓度下的提高的准确性

为了通过利用血浆DNA中所测得的拷贝数畸变的基于大小带的模式对方法的性能进行基准测试，我们还使用传统的z评分(Chiu等人《美国国家科学院院刊》2008；105:20458–20463)和大小选择方法计算了跨不同胎儿DNA相对浓度(如4％、3％、2％和1％)的特异性和灵敏度。由于胎儿DNA在120bp下给出了母体血浆中存在的所测得的胎儿DNA相对浓度的最大值(图2A)，因此我们假定120bp左右的大小带将给出比使用所有DNA片段更好的性能。为此，我们选择了105bp到155bp的大小带，并且计算了对应的z评分。

表2示出了与使用和不使用大小选择的常规的基于计数的方法相比，基于大小带的模式识别的性能。与传统的z评分和大小选择方法相比，使用血浆DNA中所测得的拷贝数畸变的基于大小带的模式会得出更出色的性能。例如，在我们的研究中，在胎儿DNA相对浓度为3％的情况下，识别所测得的拷贝数畸变的基于大小带的模式得出了100％的灵敏度和98％的特异性。作为比较，常规的基于计数的方法仅得出10％的灵敏度和98％的特异性。通过使用小于150bp的片段的大小选择，灵敏度提高到43％。然而，选择长度甚至更短至120bp的片段时，灵敏度降低到20％。这表明与现有的使用大小选择的方法相比，本发明所提出的方法提供了更好的分析性能。

表2

除了增加的准确性之外，本发明的实施例还可以实现减少的测序数量。大小模式方法可以不涉及丢弃某些大小的序列读数，并且因此，在分析中使用了给定测序深度下的更多序列读数。然后，大小模式方法可以不需要另外的测序来在一定大小范围内提供更多的读数。此外，即使在某些低胎儿相对浓度水平下具有较高的测序深度，不使用大小带或大小模式的方法仍无法准确地确定21三体。如果不分析大小带或大小模式，则低胎儿相对浓度可能不会导致21三体与整倍体病例之间具有统计学意义的大小差异。此外，现有的使用不具有大小带或大小模式的大小选择的方法可以用于补充其它技术，而使用大小带或大小模式的实施例可以独立地用于确定21三体或拷贝数畸变。

在这项研究中，我们开发了一种新方法来对胎儿DNA相对浓度低(例如，扩展到2％)的孕妇进行NIPT。随着将更多的样品被用于训练神经网络模型或其它机器学习模型，我们期望进一步降低检测的限制。我们利用了这样一个事实，即母体血浆DNA中拷贝数变化的程度将在三体胎儿妊娠整倍体胎儿妊娠之间表现出与不同大小带相关的不同模式。这是通过降低扩展到低于2％的胎儿DNA相对浓度的胎儿染色体非整倍体非侵入性检测的限制来实现广泛人群覆盖范围的重要步骤。使用常规方法，胎儿DNA相对浓度低于4％的妊娠不适合NIPT，并且通常会出现不可报告的结果或测试失败的问题。

我们的新方法不仅有可能降低假阴性率(由于检测限制的降低)，而且有可能提高实际PPV，因为许多报告显示，在胎儿DNA相对浓度低于4％的妊娠中，携带非整倍体的风险会增加(Norton等人《新英格兰医学杂志》2015；372:1589-1597)。先前，一些工作者认为胎儿DNA相对浓度低的妊娠应该接受遗传咨询，并且由于非整倍体的风险增加应对其提供全面的超声评估和诊断测试(Yaron《产前诊断》2016；36:391-396)。由于胎儿的DNA相对浓度通常与母体体重成反比(Wang等人《产前诊断》2013；33:662-666；Hudecova等人《公共科学图书馆·综合》2014；9:e88484)，具有高体重指数的妊娠将特别受益于这种基于大小带的方法灵敏地应对胎儿DNA相对浓度低的情况的能力。我们的新方法的另一个用途是当胎儿DNA相对浓度通常较低时，允许在妊娠期早期(例如，妊娠期10周之前)进行NIPT。

D.肿瘤学中的甲基化水平分析

拷贝数畸变(CNA)也存在于许多癌症中。因此，可以使用CNA确定受试者的癌症水平。另外，癌症患者通常在某些基因组区域中显示出较高的甲基化水平。因此，甲基化标志物也可以与大小带分析组合使用，以确定癌症水平。

1.甲基化的大小模式分析

我们推断，其它类型的与癌症相关联的畸变(如甲基化)也能够用于构建特定的基于大小带的模式，所述模式可以与非癌症受试者的模式进行区分。因此，如上文所提及的，我们还进一步分析了来自HCC患者的4份血浆DNA样品。我们使用了(但不限于)靶向性亚硫酸氢盐测序来量化在健康受试者器官中被视为非甲基化的但在癌症患者中有更高甲基化可能性的区域的甲基化水平。我们应用了本文所描述的基于大小带的方法来探索与健康受试者相比甲基畸变方面的与大小带相关联的模式。在于2013年3月15日提交的美国专利申请序列号13/842,209(2017年8月15日作为美国专利第9,732,390号发布)和于2015年7月20日提交的美国专利申请序列号14/803,692中对甲基化进行了进一步的描述，两者的内容出于所有目的通过引用并入本文。

图7示出了肝细胞癌(HCC)患者的血浆DNA中所测得的甲基化的基于大小带的变化模式。通过计算来自已知未患有HCC的健康受试者的参考样品的平均甲基化水平均值并计算与平均甲基化水平相关联的标准偏差来计算z评分。将每个大小带处的z评分计算为所述大小带处的甲基化水平与平均甲基化水平均值之间的差值，并且将所述差值除以标准偏差。图7中的虚线指示z评分为+3或-3，所述评分可以用于显示相对于平均甲基化水平均值的统计学显著性。

红色或深色线702、704、706和708表示早期HCC(eHCC)，并且灰色线表示没有HCC的慢性乙型肝炎病毒(HBV)携带者。在图7中，我们可以确定与HCC患者(线702、704、706和708)相关联的甲基畸变的不同大小带模式，这允许从HCC01、HCC02和HCC03中的HBV携带者(灰色线)中鉴别出癌症患者。线702、704和706示出了具有至少两个峰的模式，所述两个峰值从HBV样品的灰色线来看明显更高。线708更接近灰色线，但是仍然具有比HBV样品的灰色线高的两个峰。不管大小范围如何，每个图中最右边的标记为“所有”的数据是所有数据的合并z评分。事实证明，对于HCC04，基于非随机大小带的弯曲模式比使用所有片段的畸变甲基化的总体程度(由圆圈710表示)更具信息性。不同的图中使用了不同的基因组区域。染色体臂1q用于HCC01和HCC04，10p用于HCC02，并且19q用于HCC03。在其它实施例中，也可以使用基于大小带的变化模式(例如但不限于，低甲基化、点突变、羟甲基化、片段化末端等)来检测癌症。

2.用于确定癌症水平的示例方法

图8示出了确定来自受试者的生物样品中的癌症水平的方法800。生物样品可以包含游离DNA分子的混合物。游离DNA分子可以包含肿瘤DNA分子和非肿瘤DNA分子。

在框802处，方法800可以包含针对多个大小范围中的每个大小范围，从生物样品中测量对应于所述大小范围的第一数量的甲基化的游离DNA分子。甲基化的游离DNA分子可以来自染色体臂。可以按如本文所描述的方法600或任何其它方法执行对应于大小范围的甲基化的游离DNA分子的数量的测量，不同之处是游离DNA分子是被甲基化的。第一数量的甲基化的游离DNA分子可以来自一个或多个基因组区域。基因组区域可以是染色体臂，例如1p、1q、8p、8q、13q或14p。可以使用基因组区域的各种组合。可以通过分析各种区域组合用于确定具有已知癌症水平的样品的训练集上的癌症水平的准确性来确定待使用的特定区域。

在框804处，方法800可以包含使用对应于所述大小范围的第一数量的甲基化的游离DNA分子和包含不在所述大小范围内的大小的第二大小范围中的第二数量的DNA分子，通过计算机系统针对每个大小范围计算甲基化水平。第二数量可以是甲基化的游离DNA分子。在这些或其它实施例中，第二数量可以包含非甲基化的游离DNA分子。

甲基化水平可以是一个或多个位点处甲基化或非甲基化的DNA分子的z评分或归一化数量(例如，相对浓度、百分比或相对丰度)。例如，甲基化水平可以是第一数量与第二数量的比率。在其它实施例中，甲基化水平可以是z评分。可以使用对应于大小范围的游离DNA分子的数量与第二数量的比率来计算z评分。然后，将计算出的比率与平均比率均值之间的差值除以标准偏差，从而确定z评分。平均比率均值可以是对照组(例如，非癌症患者、参考样品或与癌症无关的基因组区域)的平均甲基化水平。如果甲基化水平是z评分，则大小范围的甲基化水平可以是图7中的线702、704、706和708上的任何点。

在框806处，方法800可以包含获得包含所述多个大小范围的多个参考甲基化水平的参考大小模式。可以通过机器学习算法并且可以按照与针对方法600所描述的方式相同的方式来确定所述多个大小范围。可以从来自患有癌症的受试者或来自未患癌症的受试者的多个参考样品中确定参考大小模式。例如，参考样品可以来自已知不患有HCC或任何类型的癌症的患者。参考大小模式可以基于来自无HCC的慢性HBV携带者的数据。例如，参考大小模式可以是图7中HBV的任何灰线。在一些实施例中，如方法600所解释的，参考大小模式可以是参考样品的所有大小模式的统计学表述。

在框808处，方法800可以包含将多个甲基化水平与参考大小模式进行比较。方法800可以包含将多个大小比率中的每个甲基化水平与对应大小范围处的参考甲基化水平进行比较。可以按照在方法600中将大小比率与参考大小模式进行比较的方式，进行甲基化水平与参考大小模式的比较，不同之处是用甲基化水平代替大小。方法800可以包含确定每个甲基化水平在统计上类似于对应大小范围处的参考甲基化水平。在一些实施例中，方法800可以包含确定每个甲基化水平或一些甲基化水平在统计上不同于对应大小范围处的参考甲基化水平。

在一些实施例中，将多个甲基化水平与参考大小模式进行比较可以包含确定包含所述多个大小范围的多个甲基化水平的大小模式。可以将大小模式与参考大小模式进行比较。可以确定大小模式具有与参考大小模式的形状类似的形状。方法800中与参考大小模式的比较可以类同于方法600中与参考大小模式的比较。

如果第一数量的甲基化的游离DNA分子来自一个以上基因组区域，则可以基于这些游离DNA分子在基因组中的位置来分析甲基化水平。所述多个甲基化水平可以包含多维向量。多维向量可以是N×M，其中N是大小范围的数目而M是基因组区域的数目。基因组区域可以是染色体、染色体臂或染色体臂的一部分。参考大小模式可以类似地是多维向量(例如，大小N×M)。可以使用机器学习模型或其它技术将所述多个甲基化水平与参考大小模式进行比较。下文(例如，图13、14A、14B和14C)描述了多维向量和甲基化水平的用途。

在框810处，方法800可以包含基于所述比较确定癌症水平。癌症水平可以包含受试者是否患有癌症、癌症的可能性或肿瘤大小。

如果从来自患有癌症的受试者的多个参考样品中确定参考大小模式，并且比较包含确定类似的甲基化水平或类似的形状，则可以确定所述受试者患有癌症。利用该参考大小模式，如果比较包含确定不同的甲基化水平或不同的形状，则可以确定所述受试者没有癌症。如果从没有癌症的多个参考样品中确定参考大小模式，并且比较包含确定不同的甲基化水平或形状，则可以确定所述受试者患有癌症。并且如果从没有癌症的多个参考样品中确定参考大小模式，并且比较包含确定类似的甲基化水平或形状，则可以确定所述受试者不患有癌症。

E.带有大小带状矩阵的模式分析

对于各种癌症，包含染色体臂的某些基因组区域可能更有可能出现拷贝数畸变。然后，可以通过染色体臂分析可能的拷贝数畸变的大小范围，从而帮助确定癌症的概率或检测癌症。可以使用机器学习模型基于不同染色体区域(例如，臂)的大小特性的模式确定癌症分类器。

1.大小模式分析

由于癌症患者血浆中肿瘤来源的DNA的大小分布已被证明不同于非肿瘤来源的DNA分子，前者通常包括更短的DNA分子(Jiang等人《美国国家科学院院刊》2015；112:E1317–E1325)，因此我们推断，本发明中所描述的基于大小带的方法对于检测如拷贝数畸变(CNA)和甲基畸变等与癌症相关联的畸变将是有用的。作为实例，我们将基于大小带的模式识别应用于早期肝细胞癌(HCC)患者的4份血浆DNA样品和67例无HCC癌症的慢性乙型肝炎(HBV)携带者(HBV携带者)。使用健康对照的三十份血浆DNA样品建立拷贝数变化的正常参考范围，所述正常参考范围被用于称呼HCC患者和HBV携带者的CNA和甲基畸变。

图9示出了肝细胞癌(HCC)患者的血浆DNA中所测得的拷贝数畸变的基于大小带的变化模式。红色线表示早期HCC(eHCC)而灰色线表示无HCC的慢性乙型肝炎病毒(HBV)携带者。我们观察到，在患有HCC癌症的患者中所测得的CNA的大小带模式的曲线(红色或深色线902、904、906和908)不同于HBV携带者的患者的曲线(灰色线)。例如，HCC01和HCC03病例分别在13q和1p染色体臂上获得了拷贝增益。

在HCC01和HCC03中，我们可以一致地检测到基于非随机波浪状大小带的模式，其中中点位于210bp的大小带相对于其左侧和右侧趋向于一个转折点，这表明拷贝数发生了变化，并且120bp附近的大小带模式显示出“钟形曲线”趋势。对于遭受14q缺失的HCC02病例，存在倒置的“钟形曲线”。对于HCC04病例，如果我们对所有片段使用z评分，则无法检测到癌症，如z评分低于3且在非癌症患者的z评分范围内的圆圈910所示。然而，如果利用基于大小带的方法，我们则可以将HCC04与显示出基于随机大小带的模式(灰色线)的非癌症患者区分开。相比之下，对照组中不存在此类基于非随机的不同大小带的模式。不同的染色体臂显示不同的大小模式。大小模式可能需要被称为特定于染色体臂的大小模式。

2.具有大小带状GR矩阵的癌症分类器

癌症细胞通常带有在任何染色体臂中都会出现的拷贝数畸变，当肿瘤细胞将DNA释放到癌症患者的血液循环中时，所述拷贝数畸变将反映在血浆中。由于与本底正常游离DNA相比，肿瘤来源的游离DNA分子显示出不同的大小性质(例如，肿瘤游离DNA分子比源自正常细胞的本底游离DNA短)，所以跨不同大小范围的相对肿瘤DNA相对浓度将会发生变化。因此，癌症患者血浆中存在的跨不同大小范围所测得的拷贝数畸变程度将是跨不同大小范围的相对肿瘤DNA相对浓度的函数。

我们提出了，捕获跨不同大小范围的所测得的拷贝数畸变的详细模式将改善区分癌症患者和非癌症患者的性能。模式也可以包含多个区域。

图10展示了根据本发明的实施例的用于癌症检测的大小带状基因组代表(GR)方法的工作流程。在阶段1010，我们将经测序的游离DNA片段映射到参考基因组。在阶段1020，将经测序的片段映射到不同的染色体臂。

在阶段1030，将经测序的片段进一步分类成不同的大小范围(大小带)。例如，所述大小范围可以包含但不限于：35-75bp、40-80bp、45-85bp、50-90bp、55-95bp、60-100bp、65-105bp、70-110bp、75-115bp、80-120bp、85-125bp、90-130bp、95-135bp、100-140bp、105-145bp、110-150bp、115-155bp、120-160bp、125-165bp、130-170bp、135-175bp、140-180bp、145-185bp、150-190bp、155-195bp、160-200bp、165-205bp、170-210bp、175-215bp、180-220bp、185-225bp、190-230bp、195-235bp、200-240bp、205-245bp、210-250bp、215-255bp、220-260bp、225-265bp、230-270bp、235-275bp、240-280bp、245-285bp、250-290bp、255-295bp、260-300bp、265-305bp、270-310bp、275-315bp、280-320bp、285-325bp、290-330bp、295-335bp、300-340bp、305-345bp、310-350bp、315-355bp、320-360bp、325-365bp、330-370bp、335-375bp、340-380bp、345-385bp、350-390bp、355-395bp、360-400bp、365-405bp、370-410bp、375-415bp、380-420bp以及385-425bp。这种大小范围也可以用于所有其它实施例。

对于特定大小范围内的一组分子，将计算映射到每个染色体臂的经测序的片段的比例，在本文中被称为基因组代表(GR)。GR是对应于大小范围内特定区域(或整个基因组)的所有DNA片段的比例。阶段1030示出了不同大小范围、不同染色体臂、已知患有癌症的样品和已知未患有癌症的样品的GR。

作为实例，如果每个染色体臂包含71个大小范围，并且常染色体共有39个染色体臂，则大小范围和染色体臂产生2,769维向量。阶段1040示出了显示可能的多维向量的表(“大小带状GR矩阵”)。第一行1042对应于癌症样品1，并且显示71×N维向量，其中N是染色体臂的数量。该表显示了M个癌症样品和P个非癌症样品。

在阶段1050，可以使用多维向量和由多维向量形成的大小带状GR矩阵来训练癌症分类模型。机器学习算法或深度学习算法可以用于训练癌症分类器，这些算法包含但不限于支持向量机(SVM)、决策树、朴素贝叶斯分类、逻辑回归、聚类算法、主成分分析(PCA)、奇异值分解(SVD)、t分布随机近邻嵌入(tSNE)、人工神经网络以及集成方法，所述集成方法构建一组分类器，并且然后通过对其预测进行加权投票对新数据点进行分类。一旦训练了癌症分类器，就可以预测新患者患癌症的概率。

训练数据可以包含癌症受试者和非癌症受试者。对游离DNA测量值(大小带状GR、甲基化等)进行建模的机器学习算法可以用于构建分类边界(例如，使用按线性或非线性公式(如逻辑回归公式)组织的一组经训练的权重和系数)，所述分类边界最好地区分癌症受试者与非癌症受试者。包含游离DNA测量值的新样品输入向量从最佳分类边界朝与癌症相关联的数据点的偏离将指示存在癌症的可能性。可以将这种偏差归一化或转化为0到1范围内的癌症的概率。概率越高，存在癌症的可能性就越大。高于某个阈值(例如>0.6)的癌症概率可以被视为癌症的阳性测试。

对于肝细胞癌，据报道1p、1q、8p和8q在拷贝数方面通常是畸变的(《美国国家科学院院刊》2015年3月17日；112(11):E1317-25)。因此，为了说明大小带状癌症检测的性能，我们使用大规模平行测序平台对许多健康对照(CTR)、HBV携带者(HBV)、肝硬化受试者(肝硬化)、早期HCC(eHCC)、中期HCC(iHCC)以及晚期HCC(aHCC)进行了测序。对于训练数据集，我们对有限数量的晚期HCC患者进行了测序，并且然后将晚期HCC患者的测序结果与非HCC受试者的测序结果进行人工混合，以形成含有肿瘤DNA相对浓度覆盖广泛(0.01％到50％)的足够的HCC阳性患者和非HCC患者的训练数据集。为此，通过改变所使用的测序读数的比例，通过随机地、重复地混合34名HBV受试者、10名CTR受试者和9名aHCC受试者，产生了401例HCC患者，并且通过随机地、重复地混合34名HBV受试者、15名肝硬化受试者和10名CTR受试者，产生了175例非HCC患者。使用SVM算法训练使用此401例HCC患者和175例非HCC患者的癌症分类器。

在阶段1060，可以使用经训练的癌症分类模型来预测新样品是否患有癌症。可以通过所述模型确定癌症的概率，其中概率高于阈值被视为癌症阳性测试。

将用于检测癌症的大小带状方法和常规的z评分方法应用于测试数据集，所述测试数据集包含30名CTR受试者、19名HBV受试者、14名肝硬化受试者、36名eHCC受试者和11名iHCC受试者。

图11A示出了用于检测癌症的大小带状方法的结果。使用SVM训练癌症分类器。eHCC受试者和iHCC受试者两者的中位值均高于0.60的癌症概率，而iHCC的概率高于eHCC。CTR受试者、HBV受试者和肝硬化受试者均显示出低于0.20的中值概率。用于检测癌症的大小带状方法在95％的特异性下具有64％的灵敏度。红色虚线对应于95％的特异性。

图11B示出了用于检测癌症的常规z评分方法的结果。红色虚线对应于95％的特异性，z评分约为4.2。以染色体臂1p、1q、8p和8q为例。计算了测试样品的每个臂的GR。还计算了对应的平均值和标准偏差。将每个臂的z评分计算为(GR-平均值)/标准偏差。绝对z评分等于对应于四个染色体臂的四个绝对z评分的总和。iHCC受试者的癌症绝对z评分中值明显高于CTR受试者、HBV受试者、肝硬化受试者和eHCC受试者的绝对z评分中值。虽然iHCC的绝对z评分中值高于其它受试者的绝对z评分，但有几个iHCC受试者的z评分与其它受试者的z评分相当类似。然而，eHCC的绝对z评分中值仅略高于CTR受试者、HBV受试者和肝硬化受试者的绝对z评分中值，并且与z评分阈值水平3大致相同。在95％特异性下，常规的z评分方法的灵敏度为51％。因此，与常规的z评分方法相比，大小带状方法显示出更出色的灵敏度。

图11C通过接收器操作特性曲线(ROC)分析示出了大小带状方法相对于常规的z评分方法的优越性(0.84对0.82)。

3.使用分子大小区带的基因组代表(GR)矩阵的示例方法

图12示出了确定来自受试者的生物样品中的癌症分类的示例方法1200。所述生物样品可以包含游离DNA分子的混合物，所述游离DNA分子包含肿瘤DNA分子和非肿瘤DNA分子。

在框1202处，可以从生物样品中测量第一数量的游离DNA分子。第一数量的游离DNA分子可以对应于M个范围中的每个大小范围和N个基因组区域中的每个基因组区域。可以按方法600或方法800所述确定多个大小范围。每个基因组区域可以是染色体臂。

在框1204处，可以使用第一数量的游离DNA分子和第二大小范围中的第二数量的游离DNA分子来计算大小比率，所述第二大小范围包含不在所述大小范围内的大小。可以按方法600中那样计算大小比率，但是大小比率可以针对特定的基因组区域(例如，染色体臂)。作为实例，大小比率可以是图10中行1004中的基因组代表GR1、GR2、GR3、……、GR 71中的任何一个。计算大小比率可以生成N×M个大小比率的测量向量。N可以是大于等于1的整数。N和M可以是大于1的整数，包含大于2、3、4、5或6。

在框1206处，可以获得参考大小模式。参考大小模式可以包含N个基因组区域和M个大小范围的参考大小比率的参考向量。可以从来自患有癌症的受试者或来自未患癌症的受试者的多个参考样品中确定参考大小模式。可以使用机器学习模型确定参考大小模式。

可以使用大小比率训练集来确定机器学习模型，所述大小比率训练集包含来自患有癌症的个体的多个基因组区域中的每一个基因组区域的大小比率。可以使用机器学习算法或深度学习算法确定癌症分类器。机器学习模型或深度学习算法可以包含支持向量机(SVM)、决策树、朴素贝叶斯分类、逻辑回归、聚类算法、主成分分析(PCA)、奇异值分解(SVD)、t分布随机近邻嵌入(tSNE)、人工神经网络或本文所描述的任何算法。训练集可以包含被确定患有癌症的个体和被确定未患有癌症的个体在不同基因组区域处的大小比率。机器学习模型可以是图10中的癌症分类器。

在框1208处，可以将测量向量与参考向量进行比较。可以使用机器学习模型对所述比较进行比较。所述比较可以基于测量向量与参考向量的相似性的得出值。

将测量向量与参考向量进行比较可以包含将N×M个大小比率与从多个参考样品中确定的多个阈值进行比较。例如，每个大小范围可以具有不同的阈值，所述阈值可以基于参考样品的标准偏差。因此，可能存在N×M个阈值。单个大小范围也可以具有不同的阈值，每个阈值与大小比率不同于参考样品的不同确定性水平相关联。比较可以包含对超过的阈值的数目进行计数，并且基于所述比较确定癌症水平。超过的阈值的较高水平可以指示测量向量与参考向量之间的较大差异。

在框1210处，可以基于所述比较确定癌症水平。癌症可以包含肝细胞癌。癌症可以包含结肠直肠癌、肺癌、鼻咽癌、卵巢癌、胃癌和血癌。方法1200可以允许区分癌症受试者与非癌症受试者。基于所述基于测量向量与参考向量的相似性的值，可以将受试者分类为患有癌症或具有高癌症可能性。可以将所述基于相似性的值与截止值进行比较。所述基于相似性的值如果大大超出截止值，则可以指示癌症的可能性或严重性更高。所述方法可以进一步包括当受试者被分类为患有癌症或具有高癌症可能性时治疗癌症。

方法1200可以适用于确定自身免疫性病症而不是癌症的水平。自身免疫性病症可以包含系统性红斑狼疮(SLE)。如于2014年9月19日提交的美国专利公开号2015/0087529A1中所描述的，已经发现大小DNA片段与SLE相关，所述文献的内容出于所有目的通过引用并入本文。可以通过将测量向量与参考向量进行比较来确定自身免疫性病症的水平。参考向量可以来自参考大小模式。可以从来自健康受试者或已知自身免疫性病症水平的受试者的样品中确定参考大小模式。方法1200可以允许区分患有自身免疫性病症的受试者与没有自身免疫性病症的受试者。

4.利用分子大小区带的甲基化密度(MD)矩阵的癌症分类器

癌症细胞通常带有任何基因组区域中都会出现的特定甲基化模式。例如，在癌症细胞中，与非恶性细胞相比，Alu重复区域可以优先被较少地甲基化，而CpG岛区域可以优先被较多地甲基化。当肿瘤细胞将DNA释放到血液循环中时，这种与癌症相关联的畸变甲基化信号可以反映在癌症患者的血浆中。如上文所解释的，跨不同大小范围的相对肿瘤DNA相对浓度不同。因此，癌症患者血浆中存在的跨不同大小范围的所测得的与癌症相关联的甲基化水平的程度将是跨不同大小范围的相对肿瘤DNA相对浓度的函数。

我们提出了，捕获跨不同大小范围的所测得的甲基化畸变的详细模式将改善区分癌症患者和非癌症患者的性能。

图13展示了根据本发明的实施例的用于癌症检测的大小带状甲基化密度(MD)方法的工作流程。在阶段1310，我们使用Methy-Pipe(Jiang等人,《公共科学图书馆·综合》2014；9(6):e100360)或其它甲基化感知对准器将经测序的亚硫酸氢盐转化的游离DNA片段映射到参考基因组。在阶段1320，对映射到不同的差异甲基化区域的经测序的片段进行定位。

在阶段1330，将经测序的片段进一步分类成不同的大小范围(大小带)。例如，大小范围可以包含本文所描述的任何大小范围，包含图10的阶段1030中所描述的那些大小范围。

对于特定大小范围内的一组分子，将计算所关注的区域(例如，Alu重复或CpG岛)上经测序的CpG的比例，从而得到反映甲基化水平的甲基化密度(MD)。区域可以显示肝癌细胞与其它正常细胞之间的不同甲基化水平，所述细胞包含造血细胞(例如，T细胞、B细胞、中性粒细胞、巨噬细胞、成红细胞等)、肝细胞和结肠细胞。阶段1330示出了不同大小范围、不同基因组区域和已知患有癌症的样品以及已知未患有癌症的样品的MD。

作为实例，如果每个区域包含71个大小范围，并且总共有32,450个区域显示出肝癌细胞与其它正常细胞之间的甲基化差异，则大小范围和基因组区域产生2,303,950维向量。阶段1340示出了显示可能的多维向量的表(“大小带状MD矩阵”)。该表的第一行1342对应于癌症样品1，显示71×N维向量，其中N是基因组区域的数量。该表显示了M个癌症样品和P个非癌症样品。

在阶段1350，可以使用多维向量和由多维向量形成的大小带状MD矩阵来训练癌症分类模型。可以通过执行分类的任何合适的机器学习模型进行训练，例如，如本文所描述的，包含图10的阶段1050。一旦训练了癌症分类器，就可以预测新患者的样品指示癌症的概率。癌症概率高于某个阈值(例如>0.6)可以被视为癌症的阳性测试。

为了说明使用大小带状甲基化水平的癌症检测的性能，我们使用大规模平行测序平台对许多健康对照(CTR)、HBV携带者(HBV)、肝硬化受试者(肝硬化)、早期HCC(eHCC)、中期HCC(iHCC)和晚期HCC(aHCC)进行了测序。对于训练数据集，我们对有限数量的晚期HCC患者进行了测序，并且然后将晚期HCC患者的测序结果与非HCC受试者的测序结果进行人工混合，以形成含有肿瘤DNA相对浓度覆盖广泛(0.01％到50％)的足够的HCC阳性患者和非HCC患者的训练数据集。为此，通过改变所使用的测序读数的比例，通过随机地、重复地混合27名HBV受试者和7名aHCC受试者，产生了140例HCC患者，并且通过随机地、重复地混合7名HBV受试者和20名CTR受试者，产生了140例非HCC患者。使用SVM算法训练使用此140例HCC患者和140例非HCC患者的癌症分类器。

在阶段1360，可以使用经训练的癌症分类模型来预测新样品是否患有癌症。可以通过所述模型确定癌症的概率，其中概率高于阈值被视为癌症阳性测试。

图14A、14B和14C示出了根据本发明的实施例的大小带状MD方法与常规z评分方法之间的比较。图14A示出了大小带状MD方法的结果。图14B示出了常规z评分方法的结果。

图14A和14B显示，在包含27名HBV受试者、36名eHCC受试者和11名iHCC受试者的测试数据集中，用于检测癌症的大小带状甲基化方法优于常规的z评分方法。按照以下方式进行常规的z评分方法：(1)计算源自所有关注的区域的总片段的合并的甲基化水平(用“X”表示)；(2)计算非癌症组中合并的甲基化水平的平均值(M)以及合并的甲基化水平的标准偏差(SD)；(3)然后通过下式定义常规的甲基化z评分：z评分＝(X-M)/SD。使用SVM训练癌症分类器。在92.5％的特异性下，图14A中的大小带状甲基化方法的灵敏度为74.5％。相比之下，在92.5％的特异性下，图14B中的常规z评分方法具有65.9％的较低的灵敏度。提高的灵敏度可以带来重要的益处。早期癌症的早期检测通常与更好的治疗结果相关联。eHCC组和iHCC组两者均被视为可治疗的阶段。因此，可治疗病例中灵敏度的任何增加均具有临床影响，并且可以转化为患者的非常不同的生存状况。

图14C示出了大小带状甲基化方法在接收器操作特性曲线(ROC)分析中的优越性(SVM:0.89AUC对z评分:0.87AUC)。

因此，使用具有基因组代表(GR)的多维向量(例如，图10-12)可以适用于使用甲基化密度代替GR的分析。

F.另外的大小模式应用

基于大小带的模式将告知在血浆DNA中看到的那些畸变的起源。作为实例，在妊娠情况下，由于母体DNA片段比胎儿DNA长，所以如果拷贝数畸变源自母亲，则大小带模式将出现在与来源于胎儿的拷贝数畸变相反的方向上(Yu等人《临床化学》2017；63:495-502)。基于大小带的分子诊断也可以应用于其它临床病状(如癌症)下的游离DNA分析(Jiang等人《美国国家科学院院刊》2015；112:E1317–E1325)，包含增强对点突变、亚染色体畸变和表观遗传学异常的检测。临床病状可以包含确定对移植的组织或器官的免疫反应的存在。

此外，这也允许我们区分血浆DNA(如系统性红斑狼疮(SLE))中存在的血浆DNA混杂畸变，因为SLE患者血浆DNA中存在明显的拷贝数变化(Chan等人《美国国家科学院院刊》2014；111:E5302–E5311)可能是由于抗DNA抗体与特定DNA序列的优先结合，而不是特定细胞中真正的拷贝数的变化。因此，对于SLE患者血浆中存在的所测得的拷贝数畸变，预期在基于大小带的分析中将看到与不同大小带相关的随机形状变化。

实施例可以包含在确定患者的疾病或病状的水平或概率之后治疗所述患者的所述疾病或病状。治疗可以包含任何合适的疗法、药物或外科手术，包含本文提及的参考文献中所描述的任何治疗。参考文献中关于治疗的信息通过引用并入本文。

III.材料和方法

样品收集和处理

从香港中文大学的大学病理学服务(UPS)的现有患者数据中获得针对这项回顾性研究所分析的匿名数据。UPS实验室开发的测试的结果生成了由161个样品组成的患者数据。招募了进入香港威尔斯亲王医院外科病区接受肿瘤切除术的匿名HCC患者。外科手术前收集了所有的血液。从香港威尔斯亲王医院内科与治疗病区招募了匿名HBV携带者和肝硬化受试者。通过使血液离心获得血浆来获得样品。简而言之，将外周血样品收集到含有EDTA的试管中，随后将其在4℃下以1,600g离心10分钟。将血浆部分在4℃下以16,000g再离心10分钟，以获得游离血浆，将所述游离血浆在-80℃下储存直至进一步分析。使用QIAamp DSPDNA血液微型试剂盒(凯杰(Qiagen))从4-10mL血浆中萃取DNA。用SpeedVac浓缩器(SavantDNA120；赛默飞世尔科技公司(Thermo Scientific))将血浆DNA浓缩至每个样品75-μL最终体积。

测序文库制备和DNA测序

使用经萃取的血浆DNA，根据制造商的说明，使用配对的末端测序样品制备试剂盒构建索引的DNA文库。在这一步骤中，对血浆双链DNA分子进行末端修复以形成平末端(blunt end)，并且同时添加额外的A碱基。将可以帮助PCR扩增、退火至流通池(flowcell)并且促进测序的衔接子连接到A标记的双链血浆DNA分子，从而形成测序文库。如先前所描述的，可以在配对的末端模式下对文库进行测序，其中每个末端使用36个或50个或75个循环(Yu等人《美国国家科学院院刊》2014；111:8583–8)。

序列比对

使用短寡核苷酸比对程序2(SOAP2)(Li等人《生物信息学》2009；25:1966–1967)将每个样品的序列与人类参考基因组(hg19)进行比对，如先前所描述的(Yu等人《美国国家科学院院刊》2014；111:8583-8)。平均而言，每个样品获得了1200万个唯一映射的配对末端读数(范围:1000万-1500万)。

甲基化水平

可以如本文所述获得序列读数位点的甲基化状态。例如，可以使用DNA分子的序列读数来分析DNA分子，其中测序是甲基化感知的。例如，甲基化感知测序可以包含但不限于：亚硫酸氢盐测序、或先于甲基化敏感型限制性酶消化的测序、使用抗甲基胞嘧啶抗体或甲基化结合蛋白的免疫沉淀或允许阐明甲基化状态的单分子测序。还可以使用其它甲基化感知测定。

序列读数可以各自包含来自生物样品的游离DNA分子的甲基化状态。甲基化状态可以包含特定的胞嘧啶残基是5-甲基胞嘧啶还是5-羟甲基胞嘧啶。可以以各种方式获得序列读数，每种方式为各种测序技术、PCR技术(例如，实时或数字)、阵列和用于鉴别片段序列的其它合适技术。实时PCR是对一组DNA进行集体地分析的实例，例如，作为与位点处甲基化的DNA数量成比例的强度信号。序列读数可以覆盖一个以上的位点，这取决于两个位点彼此的接近程度和序列读数的长度。

可以通过从甲基化感知测序中接收序列读数来进行分析，并且因此可以仅对先前从DNA获得的数据进行所述分析。在其它实施例中，所述分析可以包含实际的测序或用于执行DNA分子性质测量的其它活动步骤。所述测序可以以多种方式进行，例如，使用大规模平行测序或下一代测序、使用单分子测序和/或使用双链或单链DNA测序文库制备方案，以及本文所描述的其它技术。作为测序的一部分，一些序列读数可能与细胞核酸对应。

所述测序可以是靶向性测序，例如，如本文所描述的。例如，可以从病毒中富集核酸分子的生物样品。从病毒中富集核酸分子的生物样品可以包含使用与病毒的一部分或整个基因组结合的捕获探针。其它实施例可以使用特异于病毒的特定基因座的引物。可以从人类基因组的一部分(例如，常染色体区域)富集核酸分子的生物样品。图1提供了这种捕获探针的实例。在其它实施例中，测序可以包含随机测序。

在通过测序装置测序之后，可以由计算机系统接收序列读数，所述计算机系统可以可通信地耦接到执行所述测序的测序装置，例如，通过有线通信或无线通信或通过可拆卸的存储装置。在一些实施例中，可以接收一个或多个包含核酸片段两端的序列读数。可以通过将DNA分子的一个或多个序列读数映射(比对)到人类基因组的相应部分(例如，映射到特定区域，如差异甲基化区域(DMR))来确定DNA分子的位置。在一个实施方案中，如果读数未映射到所关注的区域，则可以忽略所述读数。在其它实施例中，特定的探针(例如，在PCR或其它扩增之后)可以指示位置，如通过特定的荧光色。鉴别可以是游离DNA分子对应于一个或多个位点的集合中的一个位点，即，由于仅需要一个或多个位点处的甲基化的DNA的数量，因此所述特定位点可能是未知的。

因此，在CpG背景下，在测序和比对之后，可以根据胞嘧啶残基处甲基化序列读数“M”(甲基化的)的计数和非甲基化序列读数“U”(非甲基化的)的计数推断单个CpG位点的甲基化状态。使用亚硫酸氢盐测序数据构建了母体血液、胎盘和母体血浆的整个甲基化组。可以使用以下等式计算母体血浆中特定基因座的平均甲基化的CpG密度(也被称为甲基化密度MD)：

其中M是甲基化读数的计数，U是基因座内的CpG位点处非甲基化读数的计数。如果基因座中有多个CpG位点，则M和U与各个位点的计数对应。

作为替代方案，可以根据Infinium HD甲基化测定方案对亚硫酸氢盐转化的基因组DNA进行甲基化测定。可以在Illumina iScan仪器上扫描杂交的微珠芯片。通过GenomeStudio(v2011.1)甲基化模块(v1.9.0)软件对DNA甲基化数据进行了分析，对内部对照和本底的减除进行了归一化。单个CpG位点的甲基化指数可以用β值(β)表示，可以使用甲基化等位基因与非甲基化等位基因之间的荧光强度比来计算所述β值：

胎儿DNA相对浓度的计算

在携带男性胎儿的妊娠中，可以根据与Y染色体对齐的读数的比例(％chrY)确定母体血浆样品中的胎儿DNA相对浓度(f)。先前的研究中表明，携带女性胎儿的孕妇血浆中的少数序列错误地与Y染色体对齐(Chiu等人《美国国家科学院院刊》2008；105:20458-20463)。因此，携带男性胎儿的孕妇血浆中的％chrY是源自男性胎儿的Y染色体读数和与Y染色体错位对齐的母体读数的混合物(Chiu等人《英国医学杂志》2011；342:c7401)。在携带男性胎儿的妊娠中，％chrY与f之间的关系可以用以下等式表示：

％chrY＝％chrY_男性×f-％chrY_女性×(1-f)，

其中％chrY_男性是含有100％男性DNA的血浆样品中与Y染色体对齐的读数的比例，而％chrY_女性是含有100％女性DNA的血浆样品中与Y染色体对齐的读数的比例。

在不脱离本发明实施例的精神和范围的情况下，可以以任何合适的方式组合特定实施例的具体细节。然而，本发明的其它实施例可以针对涉及每个单独方面的特定实施例，或这些单独方面的特定组合。

IV.示例系统

图15展示了根据本发明的实施例的系统1500。所示系统包含样品1505，如样品固持器1510内的游离DNA分子，其中样品1505可以与测试剂1508接触以提供物理特性信号1515。样品固持器的实例可以是流动池，其包含测试剂的探针和/或引物或液滴移动通过的管(液滴包含测试剂)。检测器1520检测来自样品的物理特性1515，如荧光强度值等。检测器可以间隔地(例如，周期性间隔)进行测量以获得构成数据信号的数据点。在一个实施例中，模数转换器多次将来自检测器的模拟信号转换为数字形式。样品固持器1510和检测器1520可以形成测定装置，例如，根据本文所描述的实施例进行测序的测序装置。数据信号1525从检测器1520发送到逻辑系统1530。数据信号1525可以存储在本地存储器1535、外部存储器1540或存储装置1545中。

逻辑系统1530可以是或可以包含计算机系统、ASIC、微处理器等。其还可以包含显示器(例如，监视器、LED显示器等)和用户输入装置(例如，鼠标、键盘、按钮等)或与所述显示器和用户输入装置耦接。逻辑系统1530和其它组件可以是独立的或网络连接的计算机系统的一部分，或者逻辑系统可以直接附接到或结合在包含检测器1520和/或样品固持器1510的装置(例如，测序装置)中。逻辑系统1530还可以包含在处理器1550中执行的软件。逻辑系统1530可以包含存储用于控制系统1500以执行本文所描述的任何方法的指令的计算机可读介质。例如，逻辑系统1530可以向包含样品固持器1510的系统提供命令，使得测序或其它物理操作得以执行。可以按特定的顺序执行此类物理操作，例如，按特定的顺序添加和去除试剂。此类物理操作可以由机器人系统(例如，包含机械臂的机器人系统)执行，其可以用于获取样品并执行测定。

本文提到的任何计算机系统均可以使用任何合适数量的子系统。这种子系统的实例示出于图16中的计算机设备1600中。在一些实施例中，计算机系统包含单个计算机设备，其中子系统可以是计算机设备的组件。在其它实施例中，计算机系统可以包含具有内部组件的多个计算机设备，其中每个计算机设备是子系统。

图16中所示的子系统通过系统总线1675互连。示出了另外的子系统，如打印机1674、键盘1678、固定硬盘1679、耦接到显示适配器1682的监视器1676等。耦接到I/O控制器1671的外围装置和输入/输出(I/O)装置可以通过本领域已知的任何数量的装置(如串行端口1677)连接到计算机系统。例如，串行端口1677或外部接口1681(例如，以太网、Wi-Fi等)可以用于将计算机设备1600连接到如因特网等广域网络、鼠标输入装置或扫描仪。通过系统总线1675的互连允许中央处理器1673与每个子系统通信并且控制来自系统存储器1672或固定硬盘1679的指令的执行以及子系统之间的信息交换。系统存储器1672和/或固定硬盘1679可以体现为计算机可读介质。本文提到的值中的任何一个值均可以从一个组件输出到另一个组件，并且可以输出给用户。

计算机系统可以包含多个例如通过外部接口1681或通过内部接口连接在一起的相同的组件或子系统。在一些实施例中，计算机系统、子系统或设备可以通过网络进行通信。在这种情况下，一台计算机可以被视为客户端，而另一台计算机可以被视为服务器，其中每台计算机可以是同一计算机系统的一部分。客户端和服务器可以各自包含多个系统、子系统或组件。

应当理解的是，可以按照模块化或集成的方式使用硬件(例如，专用集成电路或现场可编程门阵列)和/或使用具有一般可编程处理器的计算机软件以控制逻辑的形式实施本发明的实施例中的任何实施例。基于本文提供的公开内容和教导，本领域普通技术人员将了解并且意识到使用硬件以及硬件和软件的组合来实现本发明的实施例的其它方式和/或方法。

本申请中所描述的任何软件组件或功能可以被实施为将由处理器使用任何合适的计算机语言(如例如，Java、C++、Python或Perl)使用例如常规或面向对象的技术执行的软件代码。软件代码可以作为一系列指令或命令存储于计算机可读介质上，以用于存储和/或传输，合适的介质包含随机存取存储器(RAM)、只读存储器(ROM)、如硬盘驱动器或软盘等磁性介质、或如光盘(CD)或DVD(数字通用光盘)等光学介质、闪存等。计算机可读介质可以是存储或传输装置的任何组合。

也可以使用适于经由符合各种协议的有线、光学和/或无线网络(包含因特网)传输的载波信号来编码和传输此类程序。因此，可以使用以此类程序编码的数据信号产生根据本发明的实施例的计算机可读介质。用程序代码编码的计算机可读介质可以与兼容装置打包在一起，或者与其它装置分开提供(例如，通过因特网下载)。任何此类计算机可读介质可以驻留在单个计算机程序产品(例如，硬盘驱动器、CD或整个计算机系统)之上或内部，并且可以存在于系统或网络内的不同计算机程序产品之上或内部。计算机系统可以包含监视器、打印机或其它合适的显示器，以便向用户提供本文提到的任何结果。

本文描述的任何方法可以用包含一个或多个处理器的计算机系统完全或部分地执行，所述计算机系统可以被配置成执行步骤。因此，实施例可以针对被配置成执行本文描述的任何方法的步骤的计算机系统，所述计算机系统可能具有执行相应步骤或相应步骤组的不同组件。尽管以编号的步骤呈现，但是本文的方法步骤也可以同时执行或按不同的顺序执行。另外，这些步骤的一部分可以与来自其它方法的其它步骤的一部分一起使用。而且，步骤的全部或部分可以是任选的。另外，任何方法的任何步骤都可以用模块、电路或用于执行这些步骤的其它装置来执行。

出于说明和描述的目的，已经呈现了本发明的实例实施例的以上描述。以上描述并非旨在穷举本发明或将本发明限制于所描述的精确形式，并且根据上述教导，许多修改和变化是可能的。

在先前的描述中，出于解释的目的，已经阐述了许多细节以便提供对本技术的各种实施例的理解。然而，对于本领域的技术人员将显而易见的是，可以在没有这些细节中的一些细节或具有另外的细节的情况下实践某些实施例。

已经描述了若干个实施例，本领域技的术人员将认识到，在不脱离本发明的精神的情况下，可以使用各种修改、替代性构造和等同物。另外，为了避免不必要地模糊本发明，没有描述许多公知的过程和元件。此外，任何特定实施例的细节可能并不总是存在于所述实施例的变型中，或者可能被添加到其它实施例中。

在提供了值的范围的情况下，应当理解的是，也具体地公开了所述范围的上限与下限之间的至下限的第十个单位(除非上下文明确另外指出)的每个中间值。涵盖了在所陈述的范围内的任何所陈述的值或中间值与所陈述的范围内的任何其它所陈述的值或中间值之间的每个较小范围。这些较小范围的上限和下限可以独立地包含或排除在所述范围内，并且在较小的范围内包含任一限制、不包含两个限制或包含两个限制的每个范围也涵盖在本发明内，遵从所述范围中任何具体排除的限制。在所陈述的范围包含所述限制中的一个或两个的情况下，也包含排除所述包含的限制中的一个或两个的范围。

如本文和所附权利要求书中所使用的，除非上下文另外明确指出，否则单数形式“一个/一种(a/an)”和“所述(the)”包含复数指代物。因此，例如，提及“方法”时包含多个此类方法并且提及“所述颗粒”时包含提及本领域技术人员已知的一种或多种颗粒及其等同物等。出于清楚和理解的目的，现在已经详细描述了本发明。然而，将了解的是，在所附权利要求的范围内可以实践某些改变和修改。

本文所引用的所有出版物、专利和专利申请均出于所有目的通过引用整体并入本文。没有一项被承认为是现有技术。

Claims

1.一种确定来自受试者的生物样品中的染色体区域是否表现出拷贝数畸变的方法，其中所述生物样品包含游离DNA分子的混合物，所述游离DNA分子包含临床相关性DNA分子和其它DNA分子，所述方法包括：

针对多个大小范围中的每个大小范围：

从所述生物样品中测量对应于所述大小范围的第一数量的游离DNA分子，并且

使用对应于所述大小范围的所述第一数量的游离DNA分子和包含不在所述大小范围内的大小的第二大小范围中的第二数量的DNA分子，通过计算机系统计算大小比率；

获得包含所述多个大小范围的多个参考大小比率的参考大小模式，其中从来自在所述染色体区域中具有拷贝数畸变的受试者或在所述染色体区域中没有拷贝数畸变的受试者的多个参考样品中确定所述参考大小模式；

将多个所述大小比率与所述参考大小模式进行比较；

基于所述比较确定所述染色体区域是否表现出拷贝数畸变。

2.根据权利要求1所述的方法，其中所述临床相关性DNA分子包括胎儿DNA或母体DNA。

3.根据权利要求1所述的方法，其中所述临床相关性DNA分子包括肿瘤DNA，并且所述其它DNA分子包括非肿瘤DNA。

4.根据权利要求2所述的方法，其中所述拷贝数畸变是非整倍体。

5.根据权利要求3所述的方法，其中所述拷贝数畸变是癌症的征兆。

6.根据权利要求1所述的方法，其中所述多个大小范围中的每个大小范围由带宽表征。

7.根据权利要求6所述的方法，其中所述带宽在50bp到200bp的范围内。

8.根据权利要求1所述的方法，其中每个大小范围与所述多个大小范围中的任何其它大小范围不重叠。

9.根据权利要求1所述的方法，其中每个大小范围与所述多个大小范围中的至少一个其它大小范围重叠。

10.根据权利要求1所述的方法，其中所述大小比率包括z评分。

11.根据权利要求1所述的方法，其中所述第二大小范围是比所述多个大小范围中的每个大小范围大的范围。

12.根据权利要求1所述的方法，其中所述第二大小范围包括所述生物样品中所有大小的游离DNA分子或所述染色体区域中所有大小的游离DNA分子。

13.根据权利要求1所述的方法，其中所述游离DNA分子来自基因组区域。

14.根据权利要求13所述的方法，其中所述基因组区域是染色体。

15.根据权利要求13所述的方法，其中所述基因组区域是染色体臂。

16.根据权利要求1所述的方法，其中：

将所述多个所述大小比率与所述参考大小模式进行比较包括：

将所述多个所述大小比率中的每个大小比率与对应的大小范围处的所述参考大小比率进行比较，

确定每个大小比率在统计上类似于所述对应大小范围处的所述参考大小比率。

17.根据权利要求1所述的方法，其中：

确定包含所述多个大小范围的所述多个所述大小比率的大小模式；

将所述大小模式与所述参考大小模式进行比较，

确定所述大小模式具有与所述参考大小模式的形状类似的形状。

18.根据权利要求16所述的方法，其中：

从来自具有拷贝数畸变的受试者的所述多个参考样品中确定所述参考大小模式，

所述方法进一步包括：

基于所述比较确定所述染色体区域表现出拷贝数畸变。

19.根据权利要求1所述的方法，其中：

获得所述参考大小模式并将所述多个所述大小比率与所述参考大小模式进行比较包括将所述多个所述大小比率输入到机器学习模型中，并且

使用来自所述多个参考样品的多个训练大小模式来训练所述机器学习模型。

20.根据权利要求1所述的方法，其中将所述多个所述大小比率与所述参考大小模式进行比较包括将所述多个所述大小比率与从所述多个参考样品中确定的多个阈值进行比较。

21.一种确定来自受试者的生物样品中的癌症分类的方法，其中所述生物样品包含游离DNA分子的混合物，所述游离DNA分子包含肿瘤DNA分子和非肿瘤DNA分子，所述方法包括：

针对多个大小范围中的每个大小范围：

从所述生物样品中测量对应于所述大小范围的第一数量的甲基化的游离DNA分子，并且

使用对应于所述大小范围的所述第一数量的甲基化的游离DNA分子和包含不在所述大小范围内的大小的第二大小范围中的第二数量的DNA分子，通过计算机系统计算甲基化水平；

获得包含所述多个大小范围的多个参考甲基化水平的参考大小模式，其中从来自患有癌症的受试者或来自未患癌症的受试者的多个参考样品中确定所述参考大小模式；

将多个所述甲基化水平与所述参考大小模式进行比较；以及

基于所述比较确定癌症水平。

22.根据权利要求21所述的方法，其中所述第二数量是甲基化的游离DNA分子的数量。

23.根据权利要求21所述的方法，其中所述甲基化的游离DNA分子来自染色体臂。

24.根据权利要求21所述的方法，其中：

将所述多个所述甲基化水平与所述参考大小模式进行比较包括：

将所述多个大小范围的每个甲基化水平与对应的大小范围处的所述参考甲基化水平进行比较，

确定每个甲基化水平在统计上类似于所述对应大小范围处的所述参考甲基化水平。

25.根据权利要求21所述的方法，其中：

确定包含所述多个大小范围的所述多个所述甲基化水平的大小模式；

将所述大小模式与所述参考大小模式进行比较，

26.根据权利要求24所述的方法，其中：

从来自患有癌症的受试者的所述多个参考样品中确定所述参考大小模式，

所述方法进一步包括：

确定所述受试者患有癌症。

27.根据权利要求21所述的方法，其中所述第一数量的甲基化的游离DNA分子来自基因组区域。

28.根据权利要求27所述的方法，其中所述基因组区域是染色体臂，所述染色体臂选自由1p、1q、8p、8q、13q和14q组成的组。

29.根据权利要求21所述的方法，其中将所述多个所述甲基化水平与所述参考大小模式进行比较包括将所述多个所述甲基化水平与从所述多个参考样品中确定的多个阈值进行比较。

30.根据权利要求21所述的方法，其中：

所述多个大小范围包括M个大小范围，

测量所述第一数量的甲基化的游离DNA分子包括测量对应于所述大小范围和对应于N个基因组区域的每个基因组区域的所述第一数量的甲基化的游离DNA分子，

使用对应于所述大小范围和对应于所述基因组区域的所述第一数量的甲基化的游离DNA计算所述甲基化水平，并且所述第二数量产生N×M个甲基化水平的测量向量，其中N是大于或等于1的整数并且M是大于1的整数，

所述参考大小模式包含所述N个基因组区域和所述M个大小范围的参考甲基化水平的参考向量，其中从来自患有癌症的受试者或来自未患癌症的受试者的多个参考样品中确定所述参考大小模式，并且

将所述多个所述甲基化水平与所述参考大小模式进行比较包括将所述测量向量与所述参考向量进行比较。

31.一种确定来自受试者的生物样品中的癌症分类的方法，其中所述生物样品包含游离DNA分子的混合物，所述游离DNA分子包含肿瘤DNA分子和非肿瘤DNA分子，所述方法包括：

针对N个基因组区域中的每个基因组区域：

针对M个大小范围中的每个大小范围：

从所述生物样品中测量对应于所述大小范围和对应于所述基因组区域的第一数量的游离DNA分子，并且

使用对应于所述大小范围和对应于所述基因组区域的所述第一数量的游离DNA分子和包含不在所述大小范围内的大小的第二大小范围中的第二数量的DNA分子，通过计算机系统计算大小比率，从而生成N×M个大小比率的测量向量，其中N是大于或等于1的整数并且M是大于1的整数；

获得包含所述N个基因组区域和所述M个大小范围的参考大小比率的参考向量的参考大小模式，其中从来自患有癌症的受试者或来自未患癌症的受试者的多个参考样品中确定所述参考大小模式；

将所述测量向量与所述参考向量进行比较；以及

基于所述比较确定癌症水平。

32.根据权利要求31所述的方法，其中每个基因组区域是染色体臂。

33.根据权利要求31所述的方法，其中：

使用机器学习模型确定所述参考大小模式，其中所述机器学习模型包括选自由以下组成的组中的至少一个：支持向量机、决策树、朴素贝叶斯分类、逻辑回归、聚类算法、主成分分析、奇异值分解、t分布随机近邻嵌入和人工神经网络。

34.根据权利要求31所述的方法，其中将所述测量向量与所述参考向量进行比较包括使用由训练向量的训练集训练的机器学习模型，所述训练向量包括针对确定为患有癌症的个体和确定为未患有癌症的个体的不同基因组区域的大小比率。

35.根据权利要求31所述的方法，其中所述癌症包括肝细胞癌。

36.根据权利要求31所述的方法，其中所述癌症水平包括癌症的概率。

37.根据权利要求31所述的方法，其中：

获得所述参考大小模式并将所述测量向量与所述参考向量进行比较包括使用机器学习模型，

使用多个参考大小模式训练所述机器学习模型，

将所述测量向量与所述参考向量进行比较包括确定表征所述测量向量与所述参考向量的相似性的截止值，并且

确定所述癌症水平使用所述截止值。

38.根据权利要求31所述的方法，其中将所述测量向量与所述参考向量进行比较包括将所述N×M个大小比率与从所述多个参考样品中确定的多个阈值进行比较。

39.一种计算机产品，其包括非暂态计算机可读介质，所述非暂态计算机可读介质存储用于控制计算机系统以执行根据权利要求1所述的操作的多个指令。

40.一种系统，其包括：

根据权利要求39所述的计算机产品；以及

一个或多个处理器，所述一个或多个处理器用于执行存储于所述非暂态计算机可读介质上的指令。

41.一种系统，其包括用于执行上文所述方法中的任何方法的装置。

42.一种系统，其被配置成执行上文所述方法中的任何方法。

43.一种系统，其包括分别执行上文所述方法中的任何方法的所述步骤的模块。