CN115287348A

CN115287348A - Dna混合物中组织的单倍型的甲基化模式分析

Info

Publication number: CN115287348A
Application number: CN202210931079.4A
Authority: CN
Inventors: 卢煜明; 陈君赐; 赵慧君; 江培勇; 孙坤
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2015-07-20
Filing date: 2016-07-20
Publication date: 2022-11-04
Also published as: AU2016295712B2; EP3325663A1; TWI732771B; CN108138233A; TW201718871A; US20200270707A1; DK3739061T3; EP4063517A1; CN108138233B; US10689706B2; EP3739061B1; TW202205300A; CA2993588A1; EP3739061A1; HUE059407T2; WO2017012544A1; EP3325663B1; AU2016295712A1; HK1252222A1; HK1248283A1

Abstract

提供了用于确定不同组织对生物样品的贡献的系统、设备和方法，所述生物样品包括来自多个组织类型的无细胞DNA分子的混合物，例如如在血浆或血清和其它体液中发生。实施方案能够分析DNA混合物的针对特定单倍型的甲基化模式(例如，特定基因座处的甲基化水平)，并且能够确定多个组织类型对DNA混合物的分数贡献，例如胎儿组织类型或可能具有肿瘤的特定器官的组织类型的分数贡献。针对单倍型确定的此类分数贡献可以以多种方式使用。

Description

DNA混合物中组织的单倍型的甲基化模式分析

相关申请的交叉引用

本申请要求于2015年7月20日提交的题目为“DNA混合物中组织的单倍型的甲基化模式分析”的美国临时申请第62/194,702号的优先权，通过引用将其全部内容并入本文用于所有目的。

背景

之前已经证实，通过怀有胎儿的孕妇的血浆DNA的分析，利用相对单倍型剂量分析(RHDO)的方法可以推导出被胎儿遗传的母体单倍型(Lo et al.Sci Transl Med 2010；2:61ra91和美国专利8,467,976)。可以利用孕妇的单倍型信息。利用家族分析或用于直接分析单倍型的方法可以获得单倍型信息(例如Fan et al.Nat Biotechnol 2011；29:51-57；Snyder et al.Nat Rev Genet 2015；16:344-358)。在母亲中为杂合但是在父亲中为纯合的SNP能够用于RHDO分析。

特定SNP的此类应用可限制能够被使用的基因座，并因而限制了数据量和准确性。特定SNP的此类应用也可以限制该方法的临床效用，因为来自其他家族成员的DNA样品可能无法获得，并且用于直接分析单倍型的方法将增加分析的成本。

概述

描述了用于确定不同组织对生物样品的贡献的实施方案，所述生物样品包括来自多个组织类型的无细胞DNA分子的混合物，例如如在血浆或血清和其它体液中发生。实施方案能够分析DNA混合物的针对特定单倍型的甲基化模式(例如，特定基因座处的甲基化水平)，并且能够确定多个组织类型对DNA混合物的分数贡献，例如胎儿组织类型或可能具有肿瘤的特定器官的组织类型的分数贡献。针对单倍型确定的此类分数贡献可以以多种方式使用。

在一些实施方案中，可以利用来自母体样品的两组无细胞DNA分子的甲基化水平确定组织类型的两个分数浓度，各组无细胞DNA分子针对胎儿的亲本的两个亲本单倍型中不同的一个单倍型，针对所分析的染色体区域。在多个实施方案中，母体样品可以是来自怀有一个或多个胎儿的孕妇的血浆或血清样品。两个分数贡献可以用于鉴定胎儿基因组的部分。例如，胎儿组织的两个分数贡献之间的分离值可以表明基因座处的胎儿单倍型，并且可以表明两个亲本单倍型中的哪一个被胎儿遗传。例如，较高的分数贡献可以表明遗传的单倍型，并且如果分离值小于阈值，则两个单倍型均可以被遗传；当两个亲本针对所分析的区域共享单倍型(或基因型的等位基因)时，两个单倍型均能够被遗传。

在一些实施方案中，针对一个单倍型仅确定胎儿组织的一个分数贡献。当所述一个分数贡献超过参考值(例如，如从其它样品确定的)时，可以确定胎儿具有遗传的针对所分析的区域的一个单倍型。

在一些实施方案中，可以针对来自母体样品的两组无细胞DNA分子确定两个甲基化水平，作为鉴定胎儿基因组的部分的一部分，各组无细胞DNA分子针对胎儿的亲本的两个亲本单倍型中不同的一个单倍型。可以将两个甲基化水平彼此进行比较以鉴定哪个单倍型被胎儿遗传，例如通过该单倍型的甲基化水平较低。例如，胎儿贡献低甲基化的无细胞DNA分子，并且一个单倍型的较低的甲基化水平的测量结果表明所述一个单倍型被胎儿遗传。

在一些实施方案中，利用来自多个组织类型的无细胞DNA分子的混合物可以检测胎儿的目标染色体区域的序列失衡。可以针对具有第一目标单倍型和第二目标单倍型(其具有不同的等位基因)的目标染色体区域鉴定目标杂合基因座。利用所述目标杂合基因座处的甲基化水平可以确定混合物中胎儿组织的第一目标分数贡献，在所述目标杂合基因座处，利用位于(即覆盖)所述第一单倍型的基因座的目标组的无细胞DNA分子来确定甲基化水平。类似的，可以确定胎儿组织类型的第一参考分数贡献。可以将第一目标分数贡献和第一参考分数贡献的分离值与阈值进行比较，以确定胎儿是否具有序列失衡。如果两个分数贡献显著不同，则可以确定序列失衡。所使用的特定阈值可以取决于所测试的特定序列失衡(例如扩增或缺失)。

在一些实施方案中，第一组织类型中第一单倍型的分数贡献可用于确定所述第一组织类型是否具有疾病状态。所述第一单倍型可以具有健康细胞或异常细胞特异性的标签。因此，所述第一单倍型可以不存在于生物体的健康细胞中，或者存在于生物体的健康细胞中但不存在于混合物中可能有的异常细胞中。可以将所述第一分数贡献和参考分数贡献之间的分离值与阈值进行比较，以确定第一组织类型是否具有疾病状态的分类。

在一些实施方案中，利用甲基化去卷积可以确定拷贝数异常的组织来源。第一染色体区域可以被鉴定为展现出拷贝数异常。可以确定第一染色体区域中的单倍型。对于M个组织类型中的每一个，可以确定对应的第一分数贡献和对应的第二分数贡献之间的对应的分离值。具有最高分离值的组织类型可以被鉴定为来源组织。

其它实施方案涉及与本文所述的方法相关的系统和计算机可读介质。

可以参考以下具体实施方式和附图来更好地了解本发明的实施例的性质和优点。

附图简述

图1为说明根据本发明的实施方案分析无细胞DNA分子的DNA混合物以从甲基化水平确定来自各种组织类型的分数贡献的方法的流程图。

图2显示示出根据本发明实施方案的DNA甲基化去卷积(例如，使用血浆)及其应用的几种潜在应用的示意图。

图3A显示根据本发明的实施方案15名孕妇的不同器官对血浆DNA的贡献百分比的图。图3B显示根据本发明的实施方案由血浆DNA甲基化去卷积推断的胎盘贡献的血浆DNA分数与使用胎儿特异性SNP等位基因推导的胎儿DNA分数之间的相关性的图350。

图4显示根据本发明的实施方案由孕妇血浆DNA组织映射分析确定的百分比贡献的表。

图5显示根据本发明的实施方案基于胎儿特异性SNP等位基因通过血浆DNA组织映射和胎儿DNA分数在除胎盘之外的器官的百分比贡献的图。

图6显示根据本发明的实施方案来自未怀孕的健康对照个体的血浆DNA组织映射分析的百分比贡献的表。

图7显示根据本发明的实施方案，使用第一组标志物(具有高的器官特异性)，11名孕妇和4名未怀孕的个体的不同器官对血浆DNA的估算贡献的表。

图8显示根据本发明的实施方案，使用第二组标志物(具有低的器官特异性)，11名孕妇和4名未怀孕的健康个体的不同器官对血浆DNA的估算贡献的表。

图9A为显示估算的胎儿DNA分数(来自胎盘的贡献)与通过计数母本血浆样品中的胎儿特异性等位基因确定的胎儿DNA分数之间的相关性的图。

图9B为显示来自甲基化标志物的估算与通过胎儿特异性等位基因计数确定的胎儿DNA分数之间绝对差异的图。

图10A为显示根据本发明的实施方案使用具有不同选择标准的标志物推导的胎盘对血浆DNA的贡献的图。图10B是显示在相同类型组织中使用具有低变异性(i类)和高变异性(ii类)的标志物的血浆DNA去卷积的准确性的图。

图11A显示根据本发明的实施方案胎儿已经从母亲遗传M等位基因并且在特定基因座处具有MN的基因型的第一种情况。图11B显示根据本发明的实施方案胎儿已经从母亲遗传N等位基因并且在特定基因座处具有MN的基因型的第二种情况。

图12A显示根据本发明的实施方案使用甲基化去卷积确定胎儿遗传的母本单倍型。图12B显示根据本发明实施方案父本单倍型甲基化分析的图示。

图13为示出根据本发明的实施方案使用甲基化去卷积从母本样品确定胎儿基因组的一部分的方法1300的流程图。

图14为说明根据本发明的实施方案使用甲基化水平从母本样品确定胎儿基因组的部分的方法1400的流程图。

图15显示根据本发明实施方案基于母本单倍型的单倍型去卷积的染色体非整倍性检测。

图16显示根据本发明的实施方案基于父本单倍型的单倍型去卷积的染色体非整倍性检测。

图17为根据本发明的实施方案使用来自怀孕女性的生物样品来检测所述怀孕女性的未出生胎儿的胎儿基因组的部分中的序列失衡的方法1700的流程图。

图18显示根据本发明实施方案用于器官移植监测的单倍型去卷积的图示。

图19为说明根据本发明实施方案分析生物体的生物样品以检测第一组织类型是否具有与第一单倍型相关的疾病状态的方法的流程图。

图20显示根据本发明的实施方案在HCC患者的血浆中检测到的拷贝数异常的图。

图21为说明根据本发明实施方案分析生物体的生物样品以鉴定染色体异常的来源的方法的流程图。

图22显示根据本发明实施方案可与系统和方法一起使用的示例性计算机系统10的框图。

术语

“甲基化组”提供了基因组中多个位点或基因座的DNA甲基化量的量度。甲基化组可以对应于所有基因组、基因组的大部分或基因组的相对较小部分。相关甲基化组的实例是可以提供DNA到体液(例如血浆、血清、汗水、唾液、尿、生殖器分泌物、精液、粪便液、腹泻液、脑脊髓液、胃肠道分泌物、腹水、胸膜液、眼内液、来自阴囊积水的(例如睾丸的)液体、来自囊肿的液体、胰腺分泌物、肠分泌物、痰液、泪液、来自乳房和甲状腺的抽吸液等)中的器官的甲基化组(例如脑细胞、骨、肺、心、肌肉和肾等的甲基化组)。器官可以是移植器官。胎儿甲基化组是另一实例。

“血浆甲基化组”是从动物(例如人类)的血浆或血清测定的甲基化组。因为血浆和血清包括游离DNA，所以血浆甲基化组是游离甲基化组的一个实例。血浆甲基化组也是混合甲基化组的一个实例，因为其是胎儿/母体甲基化组或肿瘤/患者甲基化组或者在器官移植的背景下来源于不同组织或器官或供体/受体的DNA的混合物。

“位点”(也称为“基因组位点”)对应于单个位点，其可以是单个碱基位置或一组相关碱基位置，例如CpG位点或较大的一组相关碱基位置。“基因座”可以对应于包括多个位点的区域。基因座可以只包括一个位点，此将使得所述基因座在此背景下相当于一个位点。

每个基因组位点(例如CpG位点)的“甲基化指数”可以指在位点上展示甲基化的DNA片段(例如，如从序列读取或探针所测定的)占覆盖所述位点的读数总数的比例。“读取”可以对应于从DNA片段获得的信息(例如位点处的甲基化状态)。读取可以利用优先与特定甲基化状态的DNA片段杂交的试剂(例如引物或探针)来获得。通常，此类试剂在用依赖其甲基化状态而差别修饰或差别识别DNA分子的方法处理之后施用，所述方法例如亚硫酸氢盐转化、或甲基化敏感的限制性酶、甲基化结合蛋白、或抗甲基胞嘧啶抗体、或识别甲基胞嘧啶和羟甲基胞嘧啶的单分子测序技术。

区域的“甲基化密度”可以指区域内展示甲基化的位点的读数的数目除以所述区域中覆盖位点的读数的总数。位点可以具有特定的特征，例如为CpG位点。因此，区域的“CpG甲基化密度”可以指展示CpG甲基化的读数的数目除以区域中覆盖CpG位点(例如特定CpG位点、CpG岛内的CpG位点或更大区域)的读数的总数。举例来说，人类基因组中每个100kb区域的甲基化密度可以从CpG位点上在亚硫酸氢盐处理之后未转化的胞嘧啶(其对应于甲基化胞嘧啶)的总数占测得并比对到100kb区域的序列读数所覆盖的所有CpG位点的比例。此分析也可以针对例如500bp、5kb、10kb、50kb或1Mb等其它区域尺寸进行。区域可以是整个基因组或染色体或染色体的一部分(例如染色体臂)。当区域仅仅包括CpG位点时，CpG位点的甲基化指数与区域的甲基化密度相同。“甲基化胞嘧啶的比例”可以指在分析的胞嘧啶残基的总数上，即在区域中包括在CpG背景外的胞嘧啶，展示甲基化(例如在亚硫酸氢盐转化之后未转化)的胞嘧啶位点“C”的数目。甲基化指数、甲基化密度和甲基化胞嘧啶的比例是“甲基化水平”的实例。除了亚硫酸氢盐转化，本领域技术人员已知的其它方法可以用于询问DNA分子的甲基化状态，包括但不限于，甲基化状态敏感的酶(例如，甲基化敏感的限制性酶)、甲基化结合蛋白、利用对甲基化状态敏感的平台(例如，纳米孔测序(Schreiber etal.Proc Natl Acad Sci 2013；110:18910-18915)以及通过Pacific Biosciences单分子实时分析(Flusberg et al.Nat Methods 2010；7:461-465))的单分子测序。

“甲基化谱”(也称为甲基化状态)包括与区域的DNA甲基化有关的信息。与DNA甲基化有关的信息可以包括(但不限于)CpG位点的甲基化指数、区域中CpG位点的甲基化密度、相邻区域上CpG位点的分布、含有一个以上CpG位点的区域内每一个别CpG位点的甲基化的模式或水平以及非CpG甲基化。基因组的大部分的甲基化型态可以视为相当于等同于甲基化组。哺乳动物基因组中的“DNA甲基化”通常是指添加甲基到CpG双核苷酸中胞嘧啶残基的5'碳(即5-甲基胞嘧啶)。DNA甲基化可以发生在例如CHG和CHH等其它背景下的胞嘧啶中，其中H是腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化也可以呈5-羟基甲基胞嘧啶形式。还报导了非胞嘧啶甲基化，例如N6-甲基腺嘌呤。

“甲基化知晓测序”是指允许在测序过程中确定DNA分子的甲基化状态的任何测序方法，包括但不限于，亚硫酸氢盐测序、甲基化敏感的限制性酶消化之后进行测序、利用抗甲基胞嘧啶抗体或甲基化结合蛋白的免疫沉淀、或者允许阐明甲基化状态的单分子测序。

“组织”对应于作为功能单元集合在一起的一组细胞。在单个组织中存在一种类型以上的细胞。不同类型的组织可以由不同类型的细胞(例如肝细胞、肺泡细胞或血液细胞)，但也可以对应于来自不同生物体(母亲与胎儿)的组织或对应于健康细胞与肿瘤细胞。“参考组织”对应于用于确定组织特异性甲基化水平的组织。来自不同个体的相同组织类型的多个样品可以用于确定该组织类型的组织特异性甲基化水平。

“生物样品”是指取自个体(例如人类，例如孕妇、癌症患者或怀疑患有癌症者、器官移植受体或怀疑患有涉及器官的疾病过程的个体(例如心肌梗塞中的心或中风中的脑或贫血中的造血系统))并含有一或多个相关核酸分子的任何样品。生物样品可以是体液，例如血液、血浆、血清、尿、阴道液、来自阴囊积水的(例如，睾丸的)液体(例如，)子宫或阴道冲洗液、胸膜液、腹水、脑脊髓液、唾液、汗水、泪液、痰液、支气管肺泡灌洗液等。也可以使用粪便样品。在多个实施方案中，富含无细胞DNA的生物样品(例如通过离心方案获得的血浆样品)中大部分DNA可以是无细胞的(与细胞相对)，例如大于50％、60％、70％、80％、90％、95％或99％的DNA可以是无细胞的。离心方案可以包括，3,000g x 10分钟以获得流体部分，并在30,000g下再次-离心10分钟以除去残余细胞。

术语“癌症等级”可以指癌症是否存在(即存在或不存在)、癌症阶段、肿瘤尺寸、是否存在转移、身体的总肿瘤负荷和/或癌症严重程度(例如，癌症复发)的其它量度。癌症等级可以是数值或其它标记，例如，符号、字母和颜色。等级可以是零。癌症等级还包括与突变或多种突变相关的癌变前或癌前期病状(状态)。癌症等级可以按各种方式使用。举例来说，筛选可以检查已知先前未患癌症的某人是否存在癌症。评估可以研究已经被诊断为患有癌症的某人以监测癌症随时间推移的进展、研究疗法的效用或确定预后。在一个实施例中，预后可以表示为患者死于癌症的机率，或在特定持续时间或时间后癌症进展的机率，或癌症转移的机率。检测可以意指‘筛选’或可以意指检查具有癌症的暗示性特征(例如症状或其它阳性测试)的某人是否患有癌症。

术语染色体区域的“序列失衡”可以指来自染色体区域的无细胞DNA分子的量相对于预期值(如果生物体是健康的)的任何显著偏离。例如，染色体区域在某些组织中可以展现出扩增或缺失，从而导致含有来自所述组织的DNA(其与来自其他组织的DNA混合)的DNA混合物中该染色体区域的序列失衡。作为实例，预期值可以获自另一样品或获自假设正常(例如，代表二倍体生物体的两个拷贝的量)的另一染色体区域。染色体区域可以由多个非连锁的子区域构成。

基因组基因座(标志物)的“类型”对应于跨越组织类型的基因座的特定属性。该描述主要指I型基因座和II型基因座，其性质于下文中详细提供。给定类型的基因座在跨越组织类型的甲基化水平中具有特定的统计学变化。基因组基因座(标志物)的“类别”对应于跨越不同个体的相同组织类型的基因座的甲基化水平的特定变化。基因组基因座(标志物)的组可以由任何数目的不同类型和/或类别的基因座组成。因此，基因座组对应于针对特定测量结果所选择的基因座，并且并不暗示该组基因座的任何特定性质。

“分离值”对应于涉及两个数值，例如两个分数贡献或者两个甲基化水平，的差值或比值。分离值可以是简单的差值或比值。分离值可以包括其它因子，例如，乘积因子。作为其它实例，可以使用数值的函数的差值或比值，例如，两个数值的自然对数(ln)的差值或比值。分离值可以包括差值和比值。

“分类”是指与样品的特定属性相关联的任何数字或其他特性。例如，符号“+”(或文字“正”)可以表示样品被分类为具有缺失或扩增。分类可以是二元的(例如，正或负)，或者具有更多级别的类别(例如，从1到10或从0到1的数值范围)。术语“截断”和“阈值”是指在操作中使用的预定数字。阈值可以是高于或低于适用特定分类的值。这两个术语中的任何一个都可以在这两种情况下使用。

发明的详细描述

DNA混合物(例如，血浆)中组织类型(例如，胎儿组织、肝等)之间的甲基化差异可用于区分具体组织类型中单倍型的性质。例如，孕妇血浆中两种母体单倍型的甲基化水平可用于确定哪种单倍型是从母亲遗传至胎儿。作为另外的实例，胎儿组织中两种单倍型的甲基化水平可用于检测胎儿中的序列失衡(例如，非整倍性)。也可以分析其他组织类型，例如，用于检测具体组织类型中的疾病状态。也可以确定拷贝数异常所来源于的组织类型。

利用对于具体组织类型的某些基因组位点的已知甲基化水平，一些实施方案可以确定血浆(或其他DNA混合物)中来自各种组织类型的无细胞DNA的百分比。例如，可以测量肝样品的基因组位点的甲基化水平，并且这些组织特异性甲基化水平可用于确定混合物中有多少无细胞DNA来自肝。可以测量对DNA混合物提供大量贡献的组织类型的甲基化水平，使得能够解释无细胞DNA混合物的优势性(例如，大于90％、95％或99％)。这样的其他样品可以包括但不限于以下的一些或全部：肺、结肠、小肠、胰腺、肾上腺、食管、脂肪组织、心脏和脑。

去卷积方法可用于确定已知组织特异性甲基化水平的每种组织类型的分数贡献(例如，百分比)。在一些实施方案中，可以从指定基因组位点的已知组织特异性甲基化水平和混合甲基化水平产生线性方程组，并且可以确定最近似于测量的混合甲基化水平的分数贡献(例如，利用最小二乘法)。

一旦确定了分数贡献，分数贡献可用于不同目的。例如，胎儿组织的分数贡献的差异可用于确定哪种单倍型遗传自亲本。可以确定两种亲本单倍型中每一种的一个或多个杂合基因座处的等位基因。一个或多个杂合基因座处的无细胞DNA可用于确定两种分数贡献：每种单倍型有一种。例如，具有第一单倍型的等位基因的无细胞DNA分子可用于确定第一分数贡献，具有第二单倍型的等位基因的无细胞DNA分子可用于确定第二分数贡献。对于胎儿组织，遗传的单倍型会对应于较高的分数贡献。

此外，由于胎儿无细胞DNA通常具有低甲基化，遗传的单倍型会具有较低的甲基化水平。可以比较两种单倍型的甲基化水平，具有较低甲基化水平的单倍型可以鉴定为遗传的单倍型。

作为另外的实例，可以检测胎儿的目标染色体区中的序列失衡。可以对目标染色体区中第一单倍型测定混合物中胎儿组织类型的目标分数贡献。相似地，可以对参考染色体区测定胎儿组织类型的参考分数贡献。可以比较两种贡献之间的分离值与阈值，以确定胎儿是否具有序列失衡(例如，非整倍性)。

作为另外的实例，第一单倍型可以具有对健康细胞或异常细胞特异性的特征。对于第一单倍型和参考分数贡献测定的分数贡献之间的分离值可以与阈值比较，以确定第一组织类型是否具有疾病状态的分类。作为实例，第一单倍型可以为移植器官或肿瘤的单倍型，或者仅存在于健康细胞，而不存在于移植器官或肿瘤。疾病状态可以为移植器官是否被排斥，或肿瘤是否尺寸增加或转移(例如，在未切除全部肿瘤的手术后)。

作为另外的实例，利用甲基化去卷积，可以确定拷贝数异常的组织来源。第一染色体区可以鉴定为表现拷贝数异常。对于每种M组织类型，可以确定第一染色体区中两种单倍型的分数贡献之间的对应的分离值。具有最高分离值的组织类型可以鉴定为来源组织。

首先描述甲基化去卷积，然后描述甲基化标志物的选择和甲基化去卷积的准确性。然后描述利用分数贡献来确定胎儿基因组的部分。

I.通过甲基化去卷积的DNA混合物的组成

不同组织类型对于基因组位点可以具有不同甲基化水平。这些差异可用于确定混合物中来自各种组织类型的DNA的分数贡献。因此，通过组织特异性甲基化模式分析可以确定DNA混合物的组成。以下示例讨论甲基化密度，但是可以使用其他甲基化水平。

A.单个基因组位点

利用单个甲基化基因组位点(甲基化标志物)来确定来自生物体的DNA混合物的组成，可以描述甲基化去卷积的原则。假设组织A对于基因组位点是完全甲基化，即，甲基化密度(MD)为100％，并且组织B是完全非甲基化，即，MD为0％。在该实例中，甲基化密度指在感兴趣的区域中甲基化的CpG二核苷酸的背景下胞嘧啶残基的百分比。

如果DNA混合物C由组织A和组织B组成，并且DNA混合物C的总体甲基化密度为60％，我们可以根据以下公式推断组织A和B对DNA混合物C的分数贡献：

MD_C＝MD_A×a+MD_B×b,

其中MD_A，MD_B，MD_C分别代表组织A、组织B和DNA混合物C的MD；a和b为组织A和B对DNA混合物C的分数贡献。在该具体实例中，假设组织A和B是DNA混合物的仅有的两种组成物。因此，a+b＝100％。因此，经计算，组织A和B分别对DNA混合物贡献60％和40％。

组织A和组织B的甲基化密度可以获自生物体的样品或相同类型的其他生物体的样品(例如，其他人，可能是相同的亚群体)。如果利用来自其他生物体的样品，组织A的样品的甲基化密度的统计分析(例如，平均值、中值、几何平均值)可用于获得甲基化密度MD_A，对于MD_B也是相似的。

基因组位点可以选择为具有最低的个体间变异，例如，小于具体的变异绝对量或位于测试基因组位点的最低比例内。例如，对于最低比例，实施方案可以仅选择一组测试基因组位点间变异的最低10％的基因组位点。其他生物体可以取自健康人，以及具有特别生理状态的人(例如，孕妇或具有不同年龄的人或具有特定性别的人)，它们可以对应于包括目前被测试的生物体的特定亚群。

亚群的其他生物体也可以具有其他生理状态(例如，患肝炎或糖尿病的患者等)。这样的亚群对于各种组织可以具有改变的组织特异性甲基化模式。除了利用正常组织的甲基化模式之外，这样的疾病状态下的组织的甲基化模式可用于去卷积分析。当测试来自这样的亚群并具有那些状态的生物体时，这种去卷积分析可以更准确。例如，相比于正常的肝脏和正常肾脏，硬化的肝脏或纤维化的肾脏可以分别具有不同甲基化模式。因此，如果针对肝硬化患者筛选其他疾病，将硬化的脏包括作为向血浆DNA贡献DNA的候选者之一以及其他组织类型的健康组织，会更为准确。

B.多个基因组位点

当存在更多可能的候选组织时，更多基因组位点(例如，10个或更多)可用于确定DNA混合物的组成。DNA混合物的比例组成估计的准确性取决于多种因素，包括基因组位点数量，基因组位点(也称为“位点”)对于具体组织的特异性，和用于确定参考组织特异性水平的位点在不同候选组织之间和不同个体之间的变异性。位点对组织的特异性指具体组织与组织类型之间的基因组位点的甲基化密度的差异。

它们的甲基化密度之间的差异越大，该位点对于该具体组织的特异性越高。例如，如果一个位点在肝中为完全甲基化(甲基化密度＝100％)并且在全部其他组织中为完全非甲基化(甲基化密度＝0％)，该位点对于肝为高度特异性。但是，不同组织之间位点的变异性可以通过，例如但不限于，不同组织类型中位点的甲基化密度的范围或标准偏差来反映。范围越大或标准偏差越高会允许更明确和更准确地确定不同器官对DNA混合物在数学上的相对贡献。这些因素对于估计候选组织对DNA混合物的分数贡献的准确性的影响在本申请的后续章节中说明。

在此，我们利用数学方程来说明不同器官对DNA混合物的分数贡献的推导。DNA混合物中不同位点的甲基化密度与不同组织中相应位点的甲基化密度之间的数学关系可以表示为：

其中

代表DNA混合物中位点i的甲基化密度；p_k代表组织k对DNA混合物的分数贡献；MD_ik代表组织k中位点i甲基化密度的。当位点的数量等于或大于器官数量时，可以确定各个p_k的值。组织特异性甲基化密度可以获自其他个体，并且位点可以选择为具有最小个体间变异，如上文所述。

算法中可以包括其他标准来提高准确性。例如，全部组织的累加贡献可以限定为100％，即，

∑_kp_k＝100％.

此外，全部器官的贡献可以要求为非负数：

由于生物学变异，观察到的整体甲基化模式可能与从组织甲基化推导的甲基化模式不完全相同。在这样的情况下，会需要数学分析来确定个体组织的最可能的分数贡献。对此，DNA中观察到的甲基化模式和从组织推导的甲基化模式之间的差异由W表示。

其中O为对DNA混合物观察到的甲基化模式，M_k为个体组织k的甲基化模式。p_k为组织k对DNA混合物的分数贡献。每个p_k的最可能的值可以通过最小化W来确定，W为观察到的和推导的甲基化模式之间的差异。该方程可以利用数学算法求解，例如通过，但不限于，利用二次规划、线性/非线性回归、期望最大化(EM)算法、最大似然率算法、极大后验估计和最小二乘法。

C.甲基化去卷积方法

如上文所述，可以分析包括来自生物体的无细胞DNA分子混合物的生物样品，以确定混合物的组成，特别是来自不同组织类型的贡献。例如，可以确定来自肝的无细胞DNA分子的百分比贡献。生物样品中百分比贡献的这些测定可用于产生生物样品的其他测定，例如，鉴定肿瘤位于哪里，如后面的章节所述。

图1是一幅流程图，显示了根据本发明的实施方案，从甲基化水平分析无细胞DNA分子的DNA混合物以确定来自各种组织类型的分数贡献的方法100。生物样品包括来自M个组织类型的无细胞DNA分子的混合物。生物样品可以为例如本文所述的各种实例中的任意一种。组织类型的数量M大于2。在不同实施方案中，M可以为3、7、10、20或更多，它们之间的任意数量。可以至少部分地利用计算机系统来实施方法100，本文所述的其他方法也可以。

在框110中，鉴定N个基因组位点用于分析。N个基因组位点可以具有不同属性，例如，在第II节更详细描述，其描述了类型I和类型II基因组位点。作为实例，N个基因组位点可以仅包括类型I或类型II位点，或两者的组合。可以基于一个或多个其他样品的分析鉴定基因组位点，例如，基于获自关于不同个体中测量的甲基化水平的数据库的数据。

具体基因组位点可以选择为提供期望的准确性水平。例如，可以使用至少具有阈值变异性的基因座，与仅使用对一种组织类型特异的基因座相反。第一组(例如，10)基因组位点可以选择为使得每个基因组位点具有跨M个组织类型至少0.15的甲基化水平变异系数，并且使得每个基因组位点对于M个组织类型具有最大和最小甲基化水平之间的差异，该差异超过一个或多个其他样品0.1。该第一组基因组位点可以不具有对具体组织类型的特异性甲基化特征，例如，在该具体组织类型仅为甲基化或主要甲基化。这样的第一组被称为类型II位点。这些基因组位点可以与称为类型I位点的具有具体特征的基因组位点联合使用。

利用类型II位点能确保组织类型之间的甲基化水平的全部空间被基因组位点跨越，从而对类型I位点提供更高的准确性。仅利用更多的类型I位点提供了对甲基化空间(即，与其他位点具有相同模式的更多基因组位点)的多余的基向量，而增加在不同组织之间具有不同值的甲基化水平的其他基因组位点增加了用于通过线性方程组辨别分数贡献的新的基向量。

在一些实施方案中，N个基因组位点中至少有10个基因组位点，每个具有跨越M个组织类型的至少0.15的甲基化水平变异系数。在所述至少10个基因组位点中，每个也可以具有超过0.1的对于M个组织类型的最大和最小甲基化水平之间的差异。可以对一个样品或一组样品测定基因组基因座的这些甲基化性质。该样品组可以对于包括所测试的现有生物体的生物体亚群，例如，与现有生物体共有具体形状的亚群。这些其他样品可以称为参考组织，并且不同参考组织可以使用来自不同样品。

在框120中，对M个组织类型中的每个，获得N个基因组位点处的N个组织特异性甲基化水平。N大于或等于M，使得组织特异性甲基化水平可用于去卷积中来确定百分比分数。组织特异性甲基化水平可形成N×M维度的矩阵A。矩阵A的每一列可对应于具体组织类型的甲基化模式，其中模式是N个基因组位点处的甲基化水平的模式。

在不同实施方案中，组织特异性甲基化模式可以从公共数据库或以往研究中获得。在本文的实例中，嗜中性粒细胞和B细胞的甲基化数据下载于Gene ExpressionOmnibus(Hodges et al.Mol Cell 2011；44:17-28)。其他组织的甲基化模式(海马、肝、肺、胰腺、心房、结肠(包括其各部分，例如，乙状结肠、横结肠、升结肠、降结肠)、肾上腺、食管、小肠和CD4 T细胞)下载于RoadMap Epigenomics project(Ziller et al.Nature 2013；500:477-81)。血沉棕黄层、胎盘、肿瘤和血浆数据的甲基化模式来自于公开的报道(Lun etal.Clin Chem.2013；59:1583-94；Chan et al.Proc Natl Acad Sci U S A.2013；110:18761-8)。这些组织特异性甲基化模式可用于鉴定要用于去卷积分析中的N个基因组位点。

在框130中，接收包括来自M个组织类型的无细胞DNA分子的混合物的生物样品。生物样品可以以不同方式获自患者生物体。获得这些样品的方式可以为非侵入性的或侵入性的。非侵入性获得样品的实例包括一些类型的流体(例如，血浆或血清或尿液)或粪便。例如，血浆包括来自多种器官组织的无细胞DNA分子，并因此可用于通过一个样品分析多种器官。

在框140中，分析来自生物样品的无细胞DNA分子，以鉴定其在对应于该生物体的参考基因组中的位置。例如，可以对无细胞DNA分子进行测序以获得序列读取，并且序列读取可以映射(比对)至参考基因组。如果生物体是人，则参考基因组应为参考人类基因组，可能来自于具体亚群。作为另外的实例，可以用不同探针分析无细胞DNA分子(例如，在PCR或其他扩增之后)，其中每个探针对应于一个基因组位置，其能覆盖杂合的且一个或多个CpG位点，如下文所述。

可以分析具有统计学显著性数量的无细胞DNA分子，以提供用于确定来自M个组织类型的分数贡献的准确的去卷积。在一些实施方案中，分析至少1000个无细胞DNA分子。在其他实施方案中，可以分析至少10000或50000或100000或500000或1000000或5000000个无细胞DNA分子或更多。所分析的分子的总数可以取决于M和N以及希望的精确度(准确性)。在不同实例中，所分析的无细胞DNA的总数可以小于500000、一百万、两百万、五百万、一千万、两千万或五千万。

在框150中，利用无细胞DNA分子，测量N个基因组位点处的N个混合甲基化水平，所述无细胞DNA分子中的每个位于参考基因组的N个基因组位点中任意一个。通过DNA分子的一个或多个碱基对应于基因组位点或基因座的一个或多个碱基位置，DNA分子可以鉴定为位于基因组位点或基因座。因此，DNA分子的序列会覆盖基因组位点或基因座的一个或多个碱基位置。基于框140中确定的位置，可以确定该信息。这样鉴定位于基因座的位点的DNA分子的可用于本文描述的方法的任何相似的框。

N个混合甲基化水平指生物样品的混合物的甲基化水平。作为示例，如果来自混合物的无细胞DNA分子位于N个基因组位点之一，则该分子在该位点的甲基化指数可以包括在该位点的总体甲基化密度之内。N个混合甲基化水平可以形成长度为N的甲基化向量b，其中b对应于观察到的值，从中可以确定每个对应组织类型的分数贡献。

在一个实施方案中，利用全基因组亚硫酸盐测序，可以测定DNA混合物中基因组位点的甲基化水平。在其他实施方案中，CpG位点的甲基化水平可以利用甲基化微阵列分析测定，例如Illumina HumanMethylation450系统，或通过利用甲基化免疫沉淀(例如，利用抗甲基胞嘧啶抗体)或用甲基化结合蛋白进行处理，然后进行微阵列分析或DNA测序，或通过使用甲基化敏感的限制性酶处理，然后进行微阵列或DNA测序，或通过使用甲基化知晓测序，例如，利用单分子测序法(例如，通过纳米孔测序(Schreiber et al.Proc Natl AcadSci 2013；110:18910-18915)或通过Pacific Biosciences单分子实时分析(Flusberg etal.Nat Methods 2010；7:461-465))。组织特异性甲基化水平可以以相同方式测量。在其他实施方案中，其他方法可用于分析血浆DNA的甲基化水平以用于血浆DNA甲基化去卷积分析，例如，但不限于靶标亚硫酸盐测序、甲基化特异性PCR、非基于亚硫酸盐的甲基化知晓测序(例如，通过单分子测序平台(Powers et al.Efficient and accurate whole genomeassembly and methylome profiling of E.coli.BMC Genomics.2013；14:675))。

在框160中，测定组成向量的M值。每个M值对应于M个组织类型中具体组织类型对于DNA混合物的比例贡献。由于矩阵由N×M组织特异性甲基化水平(即，对于M个组织类型中每一个的N个组织特异性甲基化水平)组成，可以解出组成向量的M值，以提供N个混合甲基化水平(例如，甲基化向量b)。M比例贡献可以对应于向量x，通过对Ax＝b求解可以确定向量x。当N大于M时，解答可以包含错误最小化，例如利用最小二乘法。

在框170中，组成向量被用于确定混合物中M个组织类型中每一种的量。组成向量的M值可以直接认作M个组织类型的比例贡献。在一些实施方式中，M值可以转化为百分比。误差项可以用于移动M值至更高或更低的值。

D.应用

如上所述，分数贡献可用于进一步测量生物样品和其他测定，例如特定染色体区域是否具有序列失衡，特定组织类型是否患病，以及确定两种亲本单倍型的哪种单倍型被从其获得样品的怀孕女性的胎儿遗传。

图2示出了显示根据本发明实施方案的DNA甲基化去卷积(例如，使用血浆)的若干潜在应用的示意图。在图2中，生物样品205在210处进行全基因组亚硫酸氢盐测序。在230处，血浆DNA组织映射使用组织特异性甲基化概况220来确定组织贡献百分比。示例性组织特异性甲基化概况显示为肝、血液细胞、脂肪组织、肺、小肠和结肠。贡献百分比可以如上所述和其他地方确定，例如求解Ax＝b。应用的例子包括产前检测241，癌症检测和监测242，器官移植监测和器官损伤评估244。

可用于确定不同器官对血浆DNA的贡献的甲基化标志物(基因组位点)列表可通过比较不同组织的甲基化谱(图2)来鉴定，所述组织包括肝、肺、食道、心脏、胰腺、乙状结肠、小肠、脂肪组织、肾上腺、，结肠、T细胞、B细胞、嗜中性粒细胞、脑和胎盘。在各种实例中，从Baylor医学院的Human Epigenome Atlas检索了肝、肺、食道、心脏、胰腺、结肠、小肠、脂肪组织、肾上腺、脑和T细胞的全基因组亚硫酸氢盐测序数据(www.genboree.org/epigenomeatlas/index.rhtml)。B细胞和嗜中性粒细胞的亚硫酸氢盐测序数据来自Hodges等人的出版物(Hodges等；Directional DNA methylation changes and complexintermediate states accompany lineage specificity in the adult hematopoieticcompartment(定向DNA甲基化变化和复杂中间状态伴随着成体造血隔室中的谱系特异性)，Mol Cell 2011；44：17-28)。胎盘的亚硫酸氢盐测序数据来自Lun等人(Lun等，Clin Chem2013；59：1583-94)。在其他实施方案中，可以使用微阵列分析产生的数据集来鉴定标志物，例如，使用Illumina Infinium HumanMethylation450 BeadChip阵列。

II.甲基化标志物的选择

我们在上文描述了使用甲基化分析来确定DNA混合物组成的原理。具体而言，可以使用甲基化分析确定不同器官(或组织)对血浆DNA的百分比贡献。在本节中，我们将进一步描述选择该技术的甲基化标志物和临床应用的方法。

通过甲基化分析确定DNA混合物组成的结果受用于DNA混合物组成的去卷积的甲基化标志物的影响。因此，选择合适的基因组甲基化标志物对于精确确定DNA混合物的构成是重要的。

A.用于去卷积的甲基化标志物的标准

对于标志物选择，可以考虑以下三个属性。(i)希望甲基化标志物在不同个体中在相同组织类型中测量的甲基化水平具有低变异性。由于DNA混合物组成的确定取决于对组织特异性甲基化模式的识别，因此在不同个体中相同组织类型的甲基化水平的低变异性将有助于精确鉴定DNA混合物中的组织特异性模式。在其中组织特异性甲基化水平获自其他生物体样本(例如，来自数据库)的实施方案中，低变异性意指来自其他样本的甲基化水平与当前被测试的生物体的组织特异性甲基化水平相似。

(ii)希望甲基化标志物在不同组织中的甲基化水平具有高度变异性。对于特定的标志物，不同组织中甲基化水平的较高差异可以更精确地确定不同组织对DNA混合物的贡献。特别是，通过使用具有属性(ii)的一组标志物和具有属性(iii)的另一组标志物，可以获得精确度的提高。

(iii)与来自大多数或全部其他组织的甲基化标志物相比，甲基化标志物在特定组织中具有特别不同的甲基化水平是合乎需要的。与上述第(ii)点相比，标志物可以具有大多数组织的甲基化水平的低变异性，但是其中一个特定组织的甲基化水平与大多数其他组织不同。该标志物对于确定具有与其他组织不同的甲基化水平的组织的贡献特别有用。

B.实施例

标志物选择的原理在表1中的以下假设实例中说明。

表1.六个假定的甲基化标志物在不同组织中的甲基化密度。

在该假设的实例中，与标志物1相比，标志物2在来自三个个体的肝中甲基化密度的变异性较低。因此，标志物2作为确定肝在DNA混合物中的贡献的标签优于标志物1。

与标志物4相比，标志物3在不同组织类型的甲基化密度上具有更高的变异性。根据上面讨论的数学关系，来自不同组织的估计贡献的相同水平的变化将提供标志物3的DNA混合物的推导的甲基化密度比标志物4更大的变化。因此，标志物3可以更准确地估计每个组织的贡献。

标志物5在肝，心脏和肺中的甲基化密度具有低变异性。它们的甲基化密度在10％至14％之间变化。然而，结肠的甲基化密度是80％。该标志物对于确定DNA混合物中结肠的贡献特别有用。类似地，对标志物6而言，与其他组织相比，心脏是低甲基化的。因此，心脏的贡献可以由标志物6精确地确定。因此，标志物5和6的组合将能够准确地确定结肠和心脏的贡献。然后标志物2和3的加入将足以推断四个器官(包括肝，心脏，肺和结肠)中的每一个器官的贡献。

C.不同的标志物类型

甲基化标志物可能不一定需要具有以上所有三个属性。I型甲基化标志物通常具有上述属性(iii)。许多这样的标志物也可以具有属性(i)。另一方面，II型甲基化标志物通常具有上述属性(ii)。许多这样的标志物也可以具有属性(i)。特定标志物也可能具有全部三个属性。

在一些实施方案中，标志物大致分为两种类型(I型和II型)。I型标志物具有组织特异性。这些标志物对于一个或多个组织的特定组的甲基化水平与大多数其他组织不同。例如，与所有其他组织的甲基化水平相比，特定的组织可以具有显著的甲基化水平。在另一个实例中，两种组织(例如组织A和组织B)具有相似的甲基化水平，但组织A和B的甲基化水平与其余组织的甲基化水平显著不同。

II型标志物具有高的组织间甲基化变异性。这些标志物的甲基化水平在不同组织中是高度可变的。此类别中的单个标志物可能不足以确定特定组织对DNA混合物的贡献。然而，II型标志物的组合或与一种或多种I型标志物的组合可以共同用于推断个体组织的贡献。在上述定义下，特定的标志物可以仅是I型标志物，仅是II型标志物，或者同时是I型和II型标志物。

1.I型标志物

在一个实施方案中，I型标志物可以通过将标志物的甲基化密度与该特定标志物对于所有候选组织的甲基化密度的平均值和标准偏差(SD)进行比较来鉴定。在一个实施方式中，如果一个组织中的甲基化密度与所有组织的平均值相差3个标准偏差(SD)，则标志物被鉴定。

研究了从上述来源获得的14种组织的甲基化谱以选择标志物。在一次分析中，使用上述标准鉴定了总计1,013种I型标志物(美国临时申请号62/158,466的附录A的表S1中标记为I型的标志物)。在其他实施方案中，可使用特定组织之间的其他截止值和平均甲基化密度，例如但不限于1.5SD，2SD，2.5SD，3.5SD和4SD。在又一个实施方案中，I型标志物可通过比较特定组织的甲基化密度与所有组织的中位甲基化密度来鉴定。

在其他实施方案中，当多于一个组织(例如但不限于2,3,4或5个组织)显示出显著不同于所有候选组织的平均甲基化密度的甲基化密度时，可以获得I型标志物。在一个实施方式中，可以从所有候选组织的甲基化密度的平均值和SD计算截止甲基化密度。为了说明的目的，截止值可以定义为高于或低于平均甲基化密度3个SD。当多于一个(例如但不限于2、3、4、5或多于5个)组织的甲基化密度高于组织的平均甲基化密度3个SD以上或低于组织的平均甲基化密度3个SD以上时选择标志物。

2.II型标志物

为了鉴定II型标志物，计算所有14个候选组织中甲基化密度的平均值和SD，并将SD与平均值的比率表示为变异系数(CV)。在这个说明性实例中，我们使用CV>0.25的截止值以及该组组织的最大和最小甲基化密度差值超过0.2来鉴定合格的II型标志物。使用这些标准，鉴定了5820种II型标志物(附录A表S1中标记为II型的标志物)。在其他实施例中，可以使用CV的其他截止值，例如但不限于0.15、0.2、0.3和0.4。在其他实施方案中，可以使用最大和最小甲基化密度差值的其他截止值，例如但不限于0.1、0.15、0.25、0.3、0.35、0.4、0.45和0.5。

在其他实施方案中，相同组织类型的多个样品的平均值可以用于测量跨不同组织的甲基化水平的变异。例如，来自10个样品的相同基因组位点的10个甲基化水平可被平均以获得基因组位点的单个甲基化水平。可以进行类似的过程以确定基因组位点的其他组织类型的平均甲基化水平。然后可以使用组织类型的平均值来确定基因组位点在组织类型中是否具有显著变异。除平均值之外，可以使用其他统计值，例如中值或几何平均值。这样的统计值可以用来识别I型和/或II型标志物。

相同组织类型的不同样品(例如来自不同个体)可用于确定不同样品上的甲基化水平的变异。因此，如果存在相同组织类型的多个样本，则实施例可以进一步测量相同组织类型的这些样本中特定标志物的变异。样本间变异较小的标志物会比变异较大的标志物更可靠。标志物和去卷积的进一步细节可以在Chiu等人共同拥有的美国专利公开2016/0017419(标题为“甲基化模式分析对DNA组合物中的甲基化模式分析”)和标题为“非侵入性测定来自血浆的胎儿或肿瘤的甲基化”的PCT公开WO2014/043763中找到。

D.不同类别的标志物

基因组基因座(甲基化标志物)的“类别”对应于同一组织类型不同个体的基因座的甲基化水平的特定变异。不同种类在个体间特定组织类型之间可能有不同的变异范围。第一类甲基化标志物在测试的个体中在甲基化水平上可能有10％的差异或者更低。第二类甲基化标志物可能在测试个体的甲基化水平中具有超过10％的差异。使用具有低个体间变异的甲基化标志物(第一类标志物)将潜在地提高确定DNA混合物中特定器官的贡献的准确性。

E.潜在的甲基化标志物的鉴定

在一些实施方案中，以下面的方式鉴定潜在的甲基化标志物。然后可以使这些潜在的甲基化标志物经受上述标准以鉴定I型和II型标志物。在其他实施方案中，不需要鉴定I型或II型。并且，其他实施方案可以使用其他技术来鉴定潜在的甲基化标志物。

在一些实施方案中，常染色体上的所有CpG岛(CGI)和CpG岸被认为是潜在的甲基化标志物。没有使用性染色体上的CGI和CpG岸，以最小化源数据中与性相关的染色体剂量差异有关的甲基化水平的变异。CGI是从加州大学圣克鲁斯分校(UCSC)数据库(genome.ucsc.edu/，用于人基因组的27,048个CpG岛)下载的(Kent等人，UCSC的人类基因组浏览器，Genome Res.2002；12(6):996-1006)，并且CpG岸被定义为CpG岛的2kb侧翼窗口(Irizarry等，The human colon cancer methylome shows similar hypo-andhypermethylation at conserved tissue-specific CpG island shores.Nat Genet2009；41(2):178-186)。然后，将CpG岛和岸细分为不重叠的500bp单位，并将每个单位视为潜在的甲基化标志物。

在14种组织类型之间比较所有潜在基因座的甲基化密度(即，在500bp单位内被甲基化的CpG的百分比)。如先前报道的(Lun等，ClinChem。2013；59：1583-94)，发现胎盘与其余组织相比全面低甲基化。因此，胎盘的甲基化分布不包括在标志物鉴定阶段。使用其余13种组织类型的甲基化谱，鉴定了两种类型的甲基化标志物。例如，I型标志物可以指任何基因组位点，其在一个组织中的甲基化密度与13种组织类型的平均水平相比较时低于或高于3SD。当(A)最高甲基化组织的甲基化密度比最低甲基化组织的甲基化密度高至少20％时，II型标志物可被认为是高度可变的；和(B)当除以该组的平均甲基化密度(即变异系数)时，13种组织类型的甲基化密度的SD至少为0.25。最后，为了减少潜在多余标志物的数量，在一个CpG岛侧翼的两个CpG岸的一个连续区块中可以只选择一个标志物。

F.基于应用的选择

为特定应用选择的一组甲基化标志物可以根据所需应用的参数而变化。例如，对于侧重于单倍型或等位基因分析的应用，有用的标志物将是与杂合等位基因之一位于相同的无细胞DNA分子上的标志物。由于无细胞DNA分子(例如血浆DNA)通常小于200bp，所以有用的标志物可以是杂合基因座(例如SNP)的200bp内的CpG位点。作为另一个例子，对于将DNA从特定组织释放到血浆中具有特别意义的应用，可以选择相比标志物组的其他标志物在该组织类型中差异甲基化的优先更大数量的甲基化标志物(例如I型标志物)。

去卷积分析中甲基化标志物的数量和选择可根据预期用途而变化。如果肝脏的分数贡献是特别感兴趣的，例如在接受肝脏移植的患者中，可以在去卷积分析中使用更多的I型肝脏特异性标志物以增加移植肝脏对血浆DNA贡献的量化精确度。

III.组成准确性

如上所述，实施方案可以鉴定血浆DNA的组织贡献者。在各种实例中，参照不同组织的甲基化谱进行血浆DNA的全基因组亚硫酸氢盐测序并进行分析。以二次规划为例，将血浆DNA测序数据去卷积为来自不同组织的分数贡献。对孕妇，肝细胞癌、肺癌和结直肠癌患者以及骨髓和肝移植后的受试者进行了测试。

在大多数受试者中，白细胞是循环DNA库的主要贡献者。孕妇的胎盘贡献与通过胎儿特异性遗传标志物显示的分数贡献相关。移植受体中对血浆的移植物来源的贡献与使用供体特异性遗传标志物确定的贡献相关。患有肝细胞癌、肺癌或结肠直肠癌的患者显示来自肿瘤器官的血浆DNA贡献增加。肝细胞癌患者的肝脏贡献也与使用肿瘤相关拷贝数异常进行的测量相关。

在癌症患者以及在血浆中表现出拷贝数异常的孕妇中，甲基化去卷积确定了导致异常的组织类型。在怀孕期间诊断为患有滤泡性淋巴瘤的孕妇中，甲基化去卷积显示来自进入血浆DNA库的B细胞和局部B细胞(而不是胎盘)显著升高的贡献，作为在血浆中观察到的拷贝数异常的来源。因此，实施方式可以用作基于识别不同组织进入血浆的扰动的分数贡献来评估范围广泛的生理和病理状况的有力工具。

A.不同类型血液细胞的贡献

作为甲基化去卷积的一个例子，我们确定了不同组织和细胞类型对循环DNA的贡献。从两名患有系统性红斑狼疮(SLE)的患者收集两份血液样品。收集后，将静脉血样以1,500g离心10分钟。离心后，分离血液细胞和血浆。然后从血液细胞中提取DNA。在HiSeq2000测序仪中使用流通池的一个泳道对DNA进行亚硫酸氢盐转化和测序。使用细胞类型特异性甲基化模式分析分析两个血液细胞样品。嗜中性粒细胞、淋巴细胞、食道、结肠、胰腺、肝、肺、心脏、肾上腺和海马的甲基化模式被包括作为血液细胞DNA的潜在候选物。选择609个甲基化标志物进行分析。两名受试者的全血样品也被送往细胞计数以确定血液细胞的嗜中性粒细胞和淋巴细胞的成分组成。

表2.通过去卷积模式分析和细胞计数获得血液组织贡献

对于甲基化模式分析，嗜中性粒细胞和淋巴细胞被确定为构成血液细胞DNA的主要组分。根据细胞计数分析，嗜中性粒细胞和淋巴细胞的贡献的相对比例类似于它们在血液样品中的相对丰度。

B.孕妇

利用孕妇血浆DNA的甲基化分析分析不同组织，包括肝脏，肺脏，胰腺，结肠，海马，小肠，血液细胞，心脏，肾上腺，食道和胎盘的贡献。由于胎盘基因型通常与胎儿的基因型相同，但与孕妇的基因型不同，胎盘对母体血浆的精确贡献可通过计数样品中胎儿特异性等位基因的数量来准确确定。

1.胎儿DNA百分比的组成和相关性

对15名孕妇进行全基因组血浆DNA亚硫酸氢盐测序，其中孕早期、中期和晚期的孕妇各五名。进行甲基化去卷积并推断来自不同组织的百分比贡献。使用二次规划分析基于表S1中所有I型和II型标志物的甲基化水平(如甲基化密度)确定不同器官的贡献。

图3A显示根据本发明的实施方案15名孕妇的不同器官对血浆DNA的百分比贡献的图300。每条柱对应于一个样品的结果。不同的颜色表示不同器官对血浆的贡献。这些结果显示白细胞(即嗜中性粒细胞和淋巴细胞)是血浆DNA库的最重要贡献者。该观察结果与之前在骨髓移植后获得的观察结果一致(Lui YY等，ClinChem 2002；48：421-7)。

图4显示了根据本发明的实施方案从孕妇血浆DNA组织作图分析确定的百分比贡献的表400。这些结果还表明，胎盘是孕妇血浆DNA的另一关键贡献者，其分数浓度为9.9％至38.4％。

我们还利用父本遗传的胎儿单核苷酸多态性(SNP)等位基因测量了胎盘的贡献，这些等位基因是孕妇所不具有，如之前所述(31)。为分析胎儿特异性SNP等位基因，通过分析绒毛膜样品或胎盘来确定胎儿的基因型。通过分析血液细胞来确定孕妇的基因型。基于SNP的结果显示甲基化去卷积结果的独立验证。

图3B显示根据本发明的实施方案由血浆DNA甲基化去卷积推导的胎盘贡献的血浆DNA分数和利用胎儿特异性SNP等位基因推导的胎儿DNA分数之间的相关性的图350。图350显示通过甲基化去卷积确定的胎盘贡献与使用SNP测量的胎儿DNA分数具有强相关性(r＝0.99，p<0.001，Pearson相关性)。因此，观察到两个参数值之间良好的正相关性，表明血浆DNA甲基化去卷积准确地确定了胎盘对母体血浆样品的贡献。

图5显示了根据本发明的实施方案通过血浆DNA组织作图的除胎盘外器官贡献百分比和基于胎儿特异性SNP等位基因的胎儿DNA分数的图。X轴表示通过基于SNP的分析估计的胎儿DNA分数，并且Y轴表示由血浆组织DNA作图分析推导的贡献百分比。嗜中性粒细胞的血浆DNA贡献显示出反向相关性。这可能是由于嗜中性粒细胞是血浆DNA库的主要贡献者，因此，随着胎盘贡献的增加，嗜中性粒细胞的相对贡献将必然降低。其余组织的甲基化去卷积结果显示与胎儿DNA分数无关。

图6显示了根据本发明的实施方案非妊娠健康对照受试者中来自血浆DNA组织作图分析的贡献百分比的表600。当将该过程应用于未怀孕的健康对照的血浆时，大多数样品中不存在胎盘贡献(中值：0％；四分位数范围：0％至0.3％)。

2.选择标志物与随机标志物的比较

使用相对于随机标志物的选择标志物来测试百分比贡献的准确性。对不同的标志物组进行不同的组分计算。根据以上所述的标准选择一组，另一组是随机组。结果显示，为了获得准确的结果，慎重选择甲基化标志物(基因座)使用是重要的。

本次分析招募了11名孕妇和4名健康非妊娠受试者。使用Illumina HiSeq2000测序仪，将它们的血浆DNA转化为亚硫酸氢盐并测序。每个血浆样品用一条泳道的测序流式细胞进行测序。然后使用生物信息学程序Methy-Pipe分析序列读取(Jiang P.PLoS One2014；9：e100360)。该程序可以将亚硫酸氢盐转换的序列读取与参考基因组比对，并确定每个测序片段上每个CpG位点的甲基化状态。

第一组标志物对鉴定血浆DNA中不同的组织具有高度特异性。对于每种组织类型，选择与其他组织相比具有最大甲基化密度差异的标志物。从含有至少一个CpG二核苷酸的基因组区域确定标志物。在这个实例中，CpG岛(CGI)被用作潜在的标志物，在特定的DNA区段中具有高频率的CpG位点。这个具体实例中的CGI从加利福尼亚大学圣克鲁斯分校(UCSC)数据库下载：(genome.ucsc.edu)。我们总共从人类基因组中获得了27,048个CpG岛。CpG岛的中值大小为565bp(范围：200bp至45kb)。90％的所述岛小于1.5kb。

对于每个甲基化标志物，确定目标组织和其他组织之间甲基化密度的差异。然后将该差异表示为跨越其他组织的标准偏差(SD)的数量。对于目标组织，根据甲基化密度的这种差异对所有标志物进行排序。选择20个标志物，其最大差异高于(10个标志物)和低于(10个标志物)其他组织的平均甲基化密度。标志物的数量可以变化，例如但不限于5、15、20、30、40、50、100和200。

此外，还选择了在所有不同组织中具有高变异性的标志物。在这个实例中，选择具有最高和最低甲基化密度的组织之间具有>50％差异的标志物。在其他应用中，可以使用其他值，例如但不限于20％、30％、40％、60％、70％和80％。此外，还基于平均值和SD计算了不同组织中甲基化密度的变异性。在这个实例中，如果SD的值大于平均值的两倍，也会选择一个标志物。在其他应用中，也可以使用其他截止值，例如但不限于1、1.5、2.5和3。基于这些选择标准，为第一组选择了344个甲基化标志物。

对于第二组，从以上讨论的27,048个CGI中随机选择341个标志物。从1到27,048将所有的CGI编号。然后由计算机产生一个随机数(1到27,048)用于标志物选择。然后重复该过程，直到总共选择341个标志物。如果生成的随机数已被使用，则会生成另一个。预计这组标志物在鉴定组织特异性甲基化模式方面具有低得多的特异性。因此，预计确定血浆DNA组成的准确性会降低。

图7的表700显示根据本发明的实施方案，使用第一组标志物(具有高器官特异性)，11名孕妇和4名未怀孕的健康受试者的不同器官对血浆DNA的估计贡献。通过计数胎儿特异性等位基因来确定胎儿DNA分数，并显示在最后一行。在四个未怀孕的对照受试者的每一个中，胎盘对血浆的贡献被确定为接近0％。这表明了这种方法的特殊性。

图8的表800显示根据本发明的实施方案，使用第二组标志物(具有低器官特异性)，11名孕妇和4名未怀孕的健康受试者的不同器官对血浆DNA的估计贡献。通过计数胎儿特异性等位基因确定的胎儿DNA分数，并显示在最后一行。使用这些特异性较低的标志物，观察到胎盘贡献的相对不一致的百分比，并且在四个未怀孕的对照受试者中观察到来自胎盘的相当大的贡献。这表明标志物的组织特异性在该方法中是重要的。

图9A的曲线图900显示，估计的胎儿DNA分数(来自胎盘的贡献)和通过计数母体血浆样品中的胎儿特异性等位基因所确定的胎儿DNA分数之间的相关性。使用第一组甲基化标志物，两种技术的结果具有良好的相关性。然而，使用第二组甲基化标志物，通过使用甲基化分析的估计显示出与使用胎儿特异性等位基因计数所确定的真实值明显偏离。

图9B的曲线图950显示，通过胎儿特异性等位基因计数所确定的来自甲基化标志物的估计与胎儿DNA分数之间的绝对差异。使用第一组标志物和第二组标志物，使用甲基化分析进行估计的中值误差分别为4％和8％。

C.不同标准的影响

如上所述，可以使用各种标准来识别不同类型的标志物。例如，I型标志物可以通过特定组织中的甲基化水平来鉴定，该甲基化水平不同于所有组织的平均甲基化水平，例如至少通过特定阈值如3SD。并且，对于II型标志物，使用了一定变化和最大差异的标准。以下各节显示了识别标志物的不同标准的准确性。

1.具有较低严格标准的标志物的性能

我们使用在不同组织中具有不同变异性的标志物，进行甲基化去卷积分析的性能比较。基于两组具有不同选择标准的标志物，对15名孕妇测定胎盘对血浆DNA的贡献。两组标志物都包括前部分中描述的所有I型标志物。但是，对于两组标志物，II型标志物的选择标准是不同的。

第I组标志物包括满足甲基化密度CV>0.25的标准的所有5,820个II型标志物，以及针对组织的组，最大和最小甲基化密度之差超过0.2。对于第二组标志物，CV要求>0.15，针对组织的组，最大和最小甲基化密度之间的差异超过0.1。这组标志物中有8,511个II型标志物。

图10A的图表1000显示根据本发明的实施方案，使用具有不同选择标准的标志物推导的胎盘对血浆DNA的贡献。纵轴对应于使用II组标志物推导出的胎盘贡献。横轴对应于使用I组标志物推导出的胎盘贡献。基于具有不同选择标准的两组标志物的胎盘贡献结果之间存在良好的相关性(r＝0.99，Pearson相关性)。因此，使用CV>0.15，以及针对组织的组的最大和最小甲基化密度之间差异超过0.1的要求，可以获得良好的准确性。

2.在相同类型组织内甲基化水平变化的影响

为了研究相同类型组织(例如来自不同个体)之间的标志物甲基化水平的变化是否会影响去卷积分析的性能，我们分析了来自两个怀孕病例的胎盘组织。鉴定了两类甲基化标志物。具体而言，根据两个胎盘组织中甲基化水平的相似性来鉴定这两个类别。i类标志物的甲基化密度为10％或更低。ii类标志物在两个胎盘组织之间具有高变异性(甲基化密度的差异超过10％)。

图10B的图表1050显示，使用相同类型的组织中具有低变异性(类别i)和高变异性(类别ii)的标志物的血浆DNA去卷积的准确性。进行血浆DNA去卷积以确定15名孕妇的胎盘对血浆DNA的贡献。对于每个标志物，将两个胎盘组织的甲基化密度的平均值用于表示该分析中胎盘的甲基化水平。对于使用类别i和类别ii标志物的每个去卷积分析，总共使用了1,024个标志物。

根据胎儿特异性SNP等位基因的比例进一步确定血浆中胎盘来源的DNA的量。然后将通过基于类别i和类别ii标志物的甲基化去卷积分析所推导的百分比贡献，与基于胎儿特异性SNP等位基因的结果进行比较。分别使用第i类和第ii类标志物，根据基于胎儿特异性等位基因估计的值所衍生的胎盘贡献的中值偏差分别为2.7％和7.1％。因此，使用具有较低的组织内甲基化水平的个体间差异的类别i标志物，在甲基化去卷积分析中给出了更好的准确性。

当使用在相同类型组织(类别ii)内具有高变异性的标志物时(P<0.0001，Wilcoxon符号-秩检验)，观察到甲基化去卷积和胎儿特异性等位基因分析的结果之间显著更高的差异。换句话说，在相同类型的组织内使用具有低变异性的标志物，可以提高甲基化去卷积分析的准确性。因此，可以基于相同类型组织内的变异性来选择标志物，例如但不限于CV的值，以及相同类型组织的最大和最小甲基化密度之间的差异。

IV.胎儿标签的去卷积

如果基因组标签(例如，特定的SNP等位基因)是已知的，则实施方案可以确定哪种组织是这种标签的来源。因此，如果特定标签代表胎儿(例如，特定基因座处的父亲等位基因)，那么对于胎盘组织来说该标签的分数贡献将是相当大的。

为了说明单核苷酸改变也可用于确定该改变所源自的组织来源，我们分析了孕妇的血浆DNA。对胎盘和母体血沉棕黄层进行基因分型，以鉴定母亲是纯合的且胎儿是杂合的SNP。我们将胎儿和母亲共有的等位基因表示为A，将胎儿特异性等位基因表示为B。因此，母亲具有AA的基因型，在这些SNP的每一个中胎儿具有AB的基因型。

对母体血浆DNA进行亚硫酸氢盐测序后，选择携带胎儿特异性等位基因(B等位基因)和至少一个CpG位点的所有DNA片段，并用于下游分析。总共13.1亿个片段被测序，并且677,140个携带胎儿特异性等位基因(B等位基因)的片段被用于去卷积分析。所有被至少10个DNA片段覆盖的CpG位点被用于去卷积分析。可以使用覆盖某个位点的其他数目的DNA片段，例如5、15、20、25或30个。由于B等位基因是胎儿特异性的，因此预计这些DNA片段来源于胎盘。

表3.使用胎儿特异性等位基因进行甲基化去卷积分析。

在表3中，从甲基化去卷积分析显示，胎盘被推断为这些携带胎儿特异性SNP等位基因的DNA片段的主要贡献者。这些结果表明，甲基化去卷积分析准确鉴定了携带胎儿特异性等位基因的这些DNA片段的组织来源。

这表明，特定的等位基因可以归因于胎儿。下文更详细地描述了这种技术，其使用甲基化去卷积分析来确定胎儿的基因型和单倍型。

V.胎儿基因组的测定(变异分析)

对于无创性产前检测，使用母体血浆DNA来分析母体突变的遗传是一项具有挑战性的任务。例如，如果孕妇对于突变是杂合的，则使用母体血浆DNA分析对胎儿的突变状态进行分析在技术上将是困难的，因为不管她的胎儿的突变状况如何，突变和正常等位基因都将存在于她的血浆中。以前，已经开发了许多不同的方法来解决这个问题(Lun等人，ProcNatl Acad Sci USA.2008；105：19920-5；Lo等人，Sci Transl Med.2010；2：61ra91；Lam等人Clin Chem.2012；58：1467-75)。这些先前方法的原理涉及对母体血浆中突变和正常等位基因的相对量之间的比较。为了增强比较的统计效力，这些方法中的一些还涉及将与突变相关的SNP等位基因和与正常等位基因相关的SNP等位基因的相对量进行比较。作为替代或补充，本发明的一些实施方案可通过甲基化去卷积分析来推断胎儿的突变状态。

A.使用甲基化去卷积确定等位基因的贡献，

在这个实例中，胎儿的基因型被确定。假定父亲和母亲的基因型分别是特定基因座上的NN和MN。M和N分别表示突变和正常等位基因。在这种情况下，胎儿可以遗传母亲的M等位基因或N等位基因。因此，胎儿有两种可能的基因型，即MN和NN。在母体血浆中，携带胎儿基因型的DNA实际上来源于胎盘。因此，这些DNA片段将显示胎盘甲基化概况。

图11A示出了根据本发明的实施方案，胎儿已经从母亲遗传M等位基因并且在特定基因座处具有基因型MN的第一种情况。在图11A的上图部分(标记的基因型)中，父亲显示具有基因型NN，母亲显示具有基因型MN，并且胎儿显示具有基因型MN。显示胎盘甲基化概况的DNA片段用P标记，其中显示在胎儿基因型上。例如，胎盘甲基化概况可以对应于特定基因座附近的基因组位点处的某些甲基化水平。与特定基因座对齐的DNA片段还可以包括基因座附近的基因组位点(例如，基因座的200bp内)，因此可以用于测量甲基化水平以用于甲基化去卷积分析。考虑到父母的基因型，M等位基因对于母亲是特异性的，而N等位基因在父亲和母亲之间共有。

在图11A的下部(标记的母体血浆)中，显示了两个等位基因M和N的实例，其中每个实例代表目标基因座处血浆中的不同DNA分子。为了说明目的，仅显示少量的DNA分子。在这个实例中，假设胎儿DNA百分比为25％，如用P标记的25％DNA分子那样。

在母亲血浆样品中，我们选择性分析携带M等位基因的DNA片段，并进行甲基化去卷积分析。由于胎儿具有基因型MN，胎盘会对母体血浆DNA贡献M和N等位基因。因此，携带M等位基因的一些DNA片段也会在基因座附近的基因组位点携带胎盘特异性甲基化特性。甲基化去卷积分析表明，携带M等位基因的一些DNA片段将来自胎盘，因此胎儿基因型确实包括M等位基因。

图11B显示了根据本发明的实施方案，胎儿从母亲遗传了N等位基因并且在特定基因座处具有基因型NN的第二种情况。在这种情况下，只有携带N等位基因的DNA片段才会显示母体血浆中的胎盘甲基化特性。因此，用甲基化去卷积对携带M等位基因的DNA片段进行选择性分析，将表明这些DNA片段对胎盘没有显著贡献。因此，可以确定胎儿不具有M，因此具有NN的基因型。

在一些实施方案中，可以比较M和N等位基因的胎盘贡献。在这里，我们假设胎儿DNA约占母体血浆总DNA的10％。M和N等位基因的选择性去卷积将有助于指示胎儿从母亲遗传哪个等位基因。预期结果如下表4所示：

表4.针对NN父系基因型的M和N等位基因的胎盘贡献。

在表4中，可以比较M和N等位基因的胎盘贡献百分比。两个等位基因大致相等的胎盘贡献(例如，在彼此的阈值内)表明胎儿基因型是MN。另一方面，与M等位基因相比，N等位基因显著更高的胎盘贡献将表明胎儿基因型为NN。

在另一个实施方案中，父本基因型不需要被考虑。在这种情况下，胎儿可能的基因型包括MM、MN和NN。

表5.未知父系基因型的M和N等位基因的胎盘贡献。

在表5中，显示了携带不同胎儿基因型的M和N等位基因的DNA片段的胎盘贡献。当胎儿具有MM的基因型时，M等位基因的胎盘贡献将显著高于N等位基因的胎盘贡献。当胎儿具有NN的基因型时，N等位基因的胎盘贡献将显著高于N等位基因的胎盘贡献。当胎儿具有NM的基因型时，M等位基因的胎盘贡献将近似等于N等位基因的胎盘贡献。

因此，在父本基因型未知的情况下，可以为两个等位基因确定分数贡献。也就是说，第一分数贡献可以使用与基因座对齐并且包括N个的第一组无细胞DNA分子来确定。第一组无细胞DNA分子的甲基化水平可以在靠近基因座附近的K个基因组位点测量。并且，第二分数贡献可以使用与基因座对齐且包括M个的第二组无细胞DNA分子来确定。第二组无细胞DNA分子的甲基化水平可以在靠近基因座附近的K个基因组位点测量。对于胎儿基因型为MN的第一种情况，针对任一等位基因所确定的分数贡献将大致相同，这可以通过确定分数贡献是否在彼此的阈值内来测试。

为了说明这种方法的可行性，我们分析了孕妇的血浆DNA。血浆DNA经亚硫酸氢盐转化，并使用大规模平行测序进行分析。另外，分析胎盘和血液细胞以确定胎儿和母亲的基因型。为了说明的目的，分析了位于KLF2基因内的SNP。对于这个SNP，母亲和胎儿的基因型分别是CG和CC。使用这种基因型组合，胎盘会将C等位基因贡献给母体血浆，但是母体血浆中的所有G等位基因将来自母体组织。

在测序数据中，有24个携带G等位基因的片段和55个携带C等位基因的片段。将这些DNA片段中的CpG位点用于甲基化去卷积。在此分析中，目标是确定两个等位基因的胎盘贡献。为了说明这个原理，只有胎盘和血液细胞被认为是进行甲基化去卷积分析的候选组织。在另一个实施方案中，可以使用三种或更多种组织作为候选物。在又一个实施方案中，可以使用预期具有显著贡献的组织，例如血液细胞、肝、肺、肠和胎盘作为候选物。

	C等位基因	G等位基因	C/G比率
				胎盘	62.6％	1.8％	34
血液细胞	37.4％	98.2％

表6.未知父本基因型的C和G等位基因的胎盘贡献。

在表6中，分别推导出C等位基因和G等位基因的胎盘贡献分别为62.6％和1.8％。C/G的胎盘贡献率为34。这些结果表明，胎儿的基因型将是CC。这与胎盘组织的基因分型结果一致。

基于对具有特定甲基化模式的DNA的等位基因比率的分析(Tong等人，Clin Chem2006；52：2194-202)，该实施方案与先前的用于无创产前测试的方法不同，并且潜在地具有更多实用性。在该先前的方法中，首先基于甲基化模式从DNA混合物(例如血浆DNA)鉴定组织特异性DNA。例如，特定的基因在血液细胞中完全未甲基化并在胎盘中甲基化。采用使甲基化胎盘DNA保持完整的酶进行鉴定。

因此，保留在血浆中的所有甲基化DNA分子将来自胎盘而非来自血液细胞。然后，可以通过使用完整胎盘DNA，测量在基因座处不同等位基因的量来确定位于胎盘衍生DNA分子上的SNP的等位基因比率。当胎儿对于SNP是杂合时，在胎盘特异性DNA中两个等位基因的比率将大约为1。然而，如果胎儿受非整倍体染色体影响并且具有携带该特定SNP的三个染色体拷贝，则两个等位基因的比例将为1：2，或2：1。

在该先前的方法中，组织特异性DNA分子需要首先基于对目标组织为特有的甲基化状态来鉴定。该甲基化的DNA分子对于胎盘是独特的，因为血液细胞对于目标区域完全未甲基化。但是，在本实施方案中，不需要某种甲基化状态的唯一性。候选组织只需要在它们的甲基化特性上不同，因此可以使用更多的基因座，从而使得可以进行单倍型去卷积。因此，可以基于它们的甲基化特性来确定不同等位基因的组织贡献。此外，之前的方法可能更容易受到统计变化的影响，因为每个等位基因的胎儿读取的数量直接相互比较。然而，当胎盘贡献相互比较时，胎儿读取的数量不会直接相互比较。相反，胎盘的贡献由所有读取确定(甲基化或非甲基化)，因此即使胎儿读取的数量不同，胎盘贡献可以相同。因此，可以考虑对一种单倍型的覆盖偏差。

B.使用去卷积确定遗传性单倍型

先前已经证明，通过分析携带胎儿的孕妇的血浆DNA(或其他无细胞DNA)，可以使用相对单倍型剂量分析(RHDO)过程来推导由胎儿遗传的母体单倍型(Lo等人，Sci TranslMed 2010；2:61ra91和美国专利第8,467,976号)。在该方法中，使用孕妇的单倍型信息。可以使用家族分析或直接分析单倍型的方法获得后一信息(例如Fan等人，Nat Biotechnol2011；29:51-57；Snyder等人，Nat Rev Genet 2015；16:344-358)。母亲中杂合但父亲中纯合的SNP，可用于RHDO分析。特定SNP的这种使用会限制可使用的基因座，并因此限制数据量和准确性。实施方案可以不限于这种特定的SNP。此外，可以将实施方案与上述参考结合使用以提供更高的准确度。

使用两种单倍型的无细胞DNA分子，实施方案可以使用甲基化去卷积来确定胎盘贡献。可比较胎盘贡献以确定哪个单倍型是由胎儿遗传的。实施方案可以从推导的母体或父亲单倍型开始，然后测量在那些推导的单倍型中的每一个中含有SNP等位基因的血浆DNA分子的甲基化水平。然后可以进行甲基化去卷积。胎儿单倍型可以被鉴定为来自甲基化去卷积分析的具有最高胎盘贡献的胎儿单倍型。在所有上述实施方案中，父本或母本单倍型可以通过家族分析(即通过分析其他家族成员的DNA)或通过直接方法(例如Fan等人，NatBiotechnol 2012描述的方法)来确定，而不是通过推导的单倍型。

1.母体单倍型

在这个实例中，我们证明了血浆DNA甲基化去卷积分析可以用于推断未出生胎儿遗传的母体单倍型。来自孕妇的基因组DNA来源，例如可以对血沉棕黄层DNA进行基因分型，例如，使用微阵列。然后，将母体基因分型结果输入单倍型推导程序(例如，IMPUTE2，Howie等人，PLoS Genet.2009；7:e1000529)，以推断可能的第一母体单倍型和第二母体单倍型。可以考虑群体特异性基因型和单倍型信息以提高推断的准确性。在其他实施方案中，可以通过单分子分析来计算亲本单倍型，例如但不限于以下描述的方法：Fan等人(NatBiotechnol.2011；29:51-7)，Kaper等人(Proc Natl Acad Sci USA.2013；110:5552-7)，Lan等人(Nat Commun.2016；7:11784)和Selvaraj等人(Nat Biotech 2013；31:1111-1118)。然后，可以对母体血浆DNA进行全基因组重亚硫酸盐测序，并与参照基因组序列进行比对。然后可以对每个预测的单倍型进行甲基化去卷积。由于母体血浆中的胎儿DNA主要是胎盘来源的，由胎儿遗传的母体单倍型显示的胎盘贡献是最高的。

母体单倍型信息可用于将SNP等位基因和同一同源染色体上的CpG位点联系在一起。然后，使用SNP等位基因可以鉴定来自相同染色体拷贝(单倍型)的DNA片段。在该特定染色体拷贝(单倍型)上的CpG位点(或其他位点)可用于甲基化去卷积。由于可用于去卷积的CpG位点的数量与同源染色体上的SNP数量成比例，并且远大于在基于单倍型的去卷积分析中与单个SNP连接的CpG位点的数量，所以该方法将比使用与单个SNP连接的CpG位点的去卷积分析更精确。该原理在图12A中示出。

图12A显示根据本发明的实施方案，使用甲基化去卷积确定由胎儿遗传的母体单倍型。在图12A的上图部分中，母亲和胎儿的两种单倍型显示在母亲为杂合的三个基因座上。两种母体单倍型标记为Hap I和Hap II。在这个实例中，胎儿从母亲遗传了Hap I。为了说明目的，仅显示了母亲为杂合的SNP基因座。为了说明的目的，在这个实例中父亲针对这些基因座中的每一个都是纯合的。然而，相同的原则延伸到父亲在没有任何变化的情况下是杂合的。

在图12A的下部(标记的母体血浆)中，显示了每个基因座处两个等位基因的情况，每个实例代表目标基因座处血浆中的不同DNA分子。为了说明目的，仅显示少量的DNA分子。在这个实例中，假设胎儿DNA百分比为20％，如通过用P标记的20％DNA分子所示。

在母体血浆中，携带胎儿基因型的DNA分子来源于胎盘，因此携带胎盘特异性甲基化模式。标有“P”的圆圈代表在杂合基因座附近呈现胎盘甲基化模式的CpG位点。包括杂合基因座和邻近位点的读取，可以用于测量甲基化水平以检测胎盘甲基化模式。在这个实例中，一个目标是确定胎儿是否遗传了母亲的Hap I或Hap II。为此，选择在Hap I上携带等位基因并覆盖至少一个CpG位点的血浆DNA片段进行甲基化去卷积。由于胎儿已经从母亲遗传了Hap I，所以胎盘会对这个血浆DNA分子库贡献很大的比例。另一方面，当用甲基化去卷积分析在Hap II上带有等位基因的片段时，将观察到来自胎盘的非常低的贡献。

为了说明这一点，我们分析了表6中所述的母亲血浆样品。我们关注了染色体1上的5-Mb区域。选择母亲为杂合的和胎儿为纯合的SNP进行分析。对于这些SNP基因座中的每一个，在母亲和胎儿之间共享的等位基因形成一个单倍型(表示为Hap I)，仅存在于母体基因组上的等位基因形成另一个单倍型(表示为Hap II)。因此，在这个实例中，有两种母体单倍型(Hap I和Hap II)，胎儿从母亲遗传了Hap I。在母体血浆中，使用甲基化去卷积分别分析携带在Hap I上的等位基因的DNA片段和携带在Hap II上的等位基因的DNA片段。将杂合SNP的同一血浆DNA分子上的所有CpG位点用于去卷积分析。在这个实例中，这些CpG位点都没有与I型或II型标志物重叠。

表7.Hap I和Hap II的甲基化去卷积。

表7显示携带在两种母体单倍型(即Hap I和Hap II)的等位基因的血浆DNA片段的去卷积。胎儿已经遗传了母体Hap I。从该去卷积分析中，推断胎盘对在Hap I上携带等位基因的血浆DNA片段贡献了53.5％。另一方面，胎盘对在Hap II上携带位基因的血浆DNA片段没有贡献。因此，甲基化去卷积分析已准确预测胎儿从母亲遗传了Hap I。使用与I型和/或II型标志物重叠的CpG位点可以获得更高的准确度。

作为进一步实例，为证明这种方法的实用性，招募了另一名孕妇。采集母本外周血。将血液样品分级成血浆和细胞组分。使用Illumina HumanOmni2.5-8BeadChip阵列分析母本白细胞层。我们使用IMPUTE2(Howie等人.PLoS Genet.2009；7:e1000529)来推断染色体1p的端粒末端的5Mb区域上的851个杂合SNP的分型。单倍型分型基于1000个基因组的参考单倍型(mathgen.stats.ox.ac.uk/impute/1000GP_Phase3.tgz).

在获得了分型单倍型之后，使用与两种单倍型相连的CpG位点来进行甲基化去卷积。杂合SNP的相同血浆DNA分子上所有的CpG位点用于去卷积分析。在该实例中，这些CpG位点都没有与I型或II型标志物重叠。在用于去卷积的851个SNP中，820个(96.2％)位于内含子和基因间区域。它们中没有一个与CpG岛或岸重叠。

表8.Hap I和Hap II的甲基化去卷积。

表8显示携带在从一组参考单倍型推断的两个母本单倍型上的等位基因的血浆DNA片段的去卷积。两种单倍型被命名为Hap I和Hap II。推断的Hap I具有显著高于Hap II的胎盘贡献量，即68.9％相对于9.3％。因此，母本Hap I被推断为已经由胎儿遗传。依赖于单倍型推断的母本遗传与来自母本和胎儿基因型的结果一致。

该方法的优点为不限于胎儿的父亲为纯合的并且胎儿的母亲为杂合的SNP。事实上，在上述实例中，我们在没有了解或推断父本基因型或单倍型的情况下已经进行了分析。这是优于先前所述方法的优点((Lo等人.Sci Transl Med 2010；2:61ra91,US Patent 8,467,976,Fan等人.Nature 2012；487:320-324,Kitzman等人.Sci Transl Med 2012；4:137ra76)。

在一些实施方案中，可以将第一单倍型的第一分数的贡献与基于胎儿DNA分数得到的参考值进行比较，以确定单倍型是否已经由胎儿遗传。可以将阈值计算为例如但不限于胎儿DNA分数的1倍、1.2倍、1.4倍、1.6倍、1.8倍、2倍、2.2倍、2.4倍、2.6倍或2.8倍。以这种方式，如果第一分数贡献足够大，不需要确定第二单倍型的第二分数贡献。

在一些实施方案中，遗传的单倍型可以具有的去卷积的分数浓度是胎儿分数的两倍，并且非遗传的单倍型具有不显著的贡献。当父本单倍型可能对该分析产生噪音时，非遗传的单倍型的贡献可能不具有零贡献，因为一些父本等位基因可能与母本等位基因相同。如果噪音水平较高，可以确定第二单倍型的分数贡献，并且可以推断具有较高去卷积分数的单倍型由胎儿遗传。

一些实施方式可以使用参考值来测试两种单倍型，以确认仅有一种被遗传。如果两者均看起来被遗传，则可以将两个分数贡献彼此比较。此外，如果两者均看起来被遗传，则可以检查父本基因组，因为胎儿可能遗传了与非遗传的母本单倍型匹配的父本单倍型。

在其它实施方案中，可以使用第二分数贡献以确定参考值，例如，第二分数贡献加上阈值。因此，参考值可以为第二分数贡献和阈值的总和。

2.父本单倍型

在另一实施方案中，可以将甲基化去卷积分析应用于父本单倍型遗传的分析。

图12B显示根据本发明的实施方案的父本单倍型甲基化分析的图解。可以在携带父本Hap III和Hap IV上的等位基因的母本血浆DNA片段上进行甲基化去卷积。当Hap III已经由胎儿遗传时，与Hap IV相比，对于Hap III，胎盘贡献较高。因此，可以推断胎儿的父本遗传。

该实施方案具有优于基于父本特异性等位基因的分析的先前方法的优点。例如，对于位置1处的SNP，A等位基因存在于父亲中，但不存在于母亲中。因此，母本血浆中父本特异性A等位基因的检测表明胎儿遗传Hap III。然而，对于位置2处的SNP，C和T等位基因均不是胎儿特异的。在这种情况下，不能使用父本特异性等位基因分析。然而，甲基化去卷积分析不需要父本特异性等位基因的存在。因此，在父亲和母亲中均为杂合的SNP可以用于两种父本单倍型的甲基化去卷积分析。

因此，与用于母本单倍型类似的过程可以用于确定遗传了哪种父本单倍型。在图12B中，对于Hap III的胎盘贡献将高于来自Hap IV的胎盘贡献。可以以与确定母本单倍型相同或类似的方式确定父本单倍型。

3.使用去卷积的方法

图13为说明根据本发明的实施方案使用甲基化去卷积从母本样品确定胎儿基因组的一部分的方法1300的流程图。生物样品包括来自多种组织类型，包括母本组织类型和胎儿组织类型的无细胞DNA分子的混合物。胎儿有一名父亲和一名母亲，该母亲为怀孕女性。胎儿基因组的部分可以是整个染色体拷贝或仅染色体拷贝的一部分。可以将胎儿基因组的确定部分进行组合以提供胎儿基因组的不同部分，直至整个胎儿基因组的信息。

在框1310处，分析了来自生物样品的多个无细胞DNA分子。可以使用图1的方法100的框140中所述的技术进行框1310。例如，可以分析至少1,000个无细胞DNA分子以确定无细胞DNA分子的位置，以及可以如下所述测量甲基化水平。此外，分析无细胞DNA分子以确定无细胞DNA分子的相应等位基因。例如，可以从获自测序或与DNA分子杂交的特定探针(两种技术均可以提供序列读取(例如，当存在杂交时，可以将探针视为序列读取))的序列读取确定DNA分子的等位基因。

在框1320处，确定胎儿的第一亲本的第一亲本基因组的第一染色体区域的第一单倍型和第二单倍型。本领域技术人员将意识到确定亲本单倍型的各种技术。可以由与用于确定低于甲基化水平的相同样品或由不同样品确定单倍型。在一些实施方式中，可以由细胞样品，例如，血液样品的白细胞层或另一器官的组织确定单倍型。确定单倍型的实例提供于美国专利第8,467,976号中，将其通过引用整体并入。第一亲本可以为母亲或父亲。检测亲本单倍型的方法的其它实例包括但不限于以下所述的方法：Fan等人(Nat Biotechnol2011；29:51-57)、Snyder等人(Nat Rev Genet 2015；16:344-358)、来自10X Genomics(www.10xgenomics.com/)的GemCode technology和来自Cergentis(www.cergentis.com/)的Targeted Locus Amplification(TLA)技术。

在框1330处，从第一和第二单倍型鉴定一个或多个杂合基因座。每个杂合基因座在第一单倍型中具有相应的第一等位基因，以及在第二单倍型中具有相应的第二等位基因。一个或多个杂合基因座可以为第一多个杂合基因座，其中第二多个杂合基因座可以对应于不同的染色体区域。

在框1340处，鉴定第一组的多个无细胞DNA分子。多个无细胞DNA分子中的每一个位于来自框1330的杂合基因座中的任何一个，并且包括相应的第一等位基因，使得无细胞DNA分子可以被鉴定为对应于第一单倍型。无细胞DNA分子可能位于多于一个杂合基因座处，但通常读取将仅包含一个杂合基因座。第一组的无细胞DNA分子中的每一个还包括N个基因组位点中的至少一个，其中基因组位点用于测量甲基化水平。N为整数，例如，大于或等于2、3、4、5、10、20、50、100、200、500、1,000、2,000或5,000。因此，无细胞DNA分子的读取可以表明1个位点、2个位点等的覆盖。

在框1350处，使用第一组的多个无细胞DNA分子测量N个基因组位点(例如，CpG位点)处的N个第一混合甲基化水平。对于N个基因组位点中的每一个，可以测量一个第一混合甲基化水平。框1350可以以与图1的方法100的框150类似的方式执行。在一些实施方案中，DNA分子的甲基化水平的测量可以使用甲基化知晓测序的结果，其也可以用于确定DNA分子的位置和各自的等位基因。本领域技术人员将意识到可以用于确定DNA分子上的位点的甲基化状态的各种技术。

在框1360处，使用N个第一甲基化水平确定混合物中胎儿组织类型的第一分数贡献。在一些实施方案中，框1360可以经由图1的方法100的框160和170来执行。因此，可以同时确定一组M个组织类型的分数贡献。例如，如在图1的方法100的框120中，框1360可以使用针对M个组织类型中的每一个确定N个基因组位点处的N个组织特异性甲基化水平。

在框1370处，鉴定第二组的多个无细胞DNA分子。多个无细胞DNA分子中的每一个位于来自框1330的杂合基因座中的任一个，并且包括相应的第二等位基因，使得可以将无细胞DNA分子鉴定为对应于第二单倍型。第二组无细胞DNA分子中的每一个还包括N个基因组位点中的至少一个，其中基因组位点用于测量甲基化水平。

在框1380处，使用第二组的多个无细胞DNA分子测量N个基因组位点处的N个第二混合甲基化水平。框1380可以以与框1350类似的方式执行。

在框1385处，使用N个第二甲基化水平确定混合物中胎儿组织类型的第二分数贡献。框1385可以以与框1360类似的方式执行。

在框1390处，计算第一分数贡献和第二分数贡献之间的第一分离值。本文描述了分离值的实例，例如包括差值或比值。

在框1395处，基于第一分离值在一个或多个杂合基因座处确定胎儿基因组的部分。因此，可以确定第一亲本的遗传单倍型。例如，第一分离值可以是第一分数贡献和第二分数贡献的比值。当比值大于阈值时，可以确定胎儿基因组的部分具有一个或多个拷贝的第一单倍型，并且无第二单倍型的拷贝。阈值的实例包括但不限于1.3、1.4、1.5、1.6、1.8、2.0、2.2、2.4、2.6、2.8和3.0。当比值小于阈值时，可以确定胎儿基因组的部分具有一个或多个拷贝的第二单倍型，并且无第一单倍型的拷贝。阈值的实例包括但不限于0.1、0.2、0.3、0.4、0.5、0.6、0.7和0.8。当比值等于阈值内的一个时，可以确定胎儿基因组的部分具有第一单倍型和第二单倍型。阈值的实例包括但不限于0.85、0.9、0.95、1.0、1.05、1.1和1.15。当两个亲本在被分析的区域中具有相同的单倍型时，两种单倍型可能都是遗传的。

作为另一实例，第一分离值是第一分数贡献和第二分数贡献的差值。当差值大于阈值时，可以确定胎儿基因组的部分具有一个或多个拷贝的第一单倍型，并且无第二单倍型的拷贝。阈值的实例包括但不限于1％、1.5％、2％、2.5％、3％、4％、5％、6％、7％、8％、10％、12％、14％、16％、18％和20％。当差值小于阈值时，例如阈值为负数时，可以确定胎儿基因组的部分具有一个或多个拷贝的第二单倍型，并且无第一单倍型的拷贝。

也可以确定另一亲本的遗传单倍型。例如，可以鉴定另一亲本的基因组中第一染色体区域的第二多个杂合基因座。可以确定另一亲本的单倍型中每一个的分数贡献，并且可以使用分离值来确定另一亲本的遗传单倍型。

例如，第一多个杂合基因座和第二多个杂合基因座可以是相同的基因座或可以是不同的。第二多个杂合基因座中的每一个可以包括另一亲本的第一单倍型(例如，第一父本单倍型)中对应的第三等位基因和另一亲本的第二单倍型(例如，第二父本单倍型)中对应的第四等位基因。第三和第四等位基因可以与第一和第二等位基因相同。除了第一亲本的第一组和第二组无细胞DNA分子之外，第三组多个无细胞DNA分子可以各自位于第二多个杂合基因座中的任何一个处，包括杂合基因座的相应的第三等位基因，并且包括K个基因组位点中的至少一个。K个基因组位点可以与用于第一亲本的N个基因组位点相同或不同。以与第一亲本类似的方式，可以使用第三组的第二多个无细胞DNA分子在K个基因组位点处测量K个第三混合甲基化水平，并且可以使用K个第三甲基化水平确定混合物中胎儿组织类型的第三分数贡献。第三分数贡献对应于另一亲本的第一单倍型(例如，第一父本单倍型)。

第四组的多个无细胞DNA分子可以各自位于第二多个杂合基因座中的任何一个处，包括杂合基因座的相应第四等位基因，并且包括K个基因组位点中的至少一个。因此，第四组DNA可以用于测试另一亲本的第二单倍型。可以使用第四组的第二多个无细胞DNA分子测量K个基因组位点处的K个第四混合甲基化水平，并且可以使用K个第四甲基化水平确定混合物中胎儿组织类型的第四分数贡献。可以计算第三分数贡献与第四分数贡献之间的第二分离值，并且可以基于第二分离值确定第二多个杂合基因座处的胎儿基因组部分。来自另一亲本的遗传单倍型可以以与第一亲本类似的方式确定。第四分数贡献对应于另一亲本的第二单倍型(例如，第二父本单倍型)。

在一些实施方案中，不需要确定第二分数贡献。相反，如果相应的分数贡献足够高，则可以确定单倍型是遗传的。例如，可以将第一分数贡献与参考值进行比较以确定胎儿在第一染色体区域处是否遗传第一单倍型。当第一分数贡献超过参考值时，可以确定胎儿在第一染色体区域处已经遗传了第一单倍型。

在其它实施方案中，可以由第二分数贡献确定参考值。例如，参考值可以为第二分数贡献和阈值的总和。与阈值的总和可以确保第一分数贡献足够大于第二分数贡献。

通过将第二分数贡献与参考值进行比较以确定胎儿在第一染色体区域是否遗传了第二单倍型，可以对第二单倍型进行单独的遗传测定。当第二分数贡献超过参考值时，可以确定胎儿在第一染色体区域已经遗传了第二单倍型。如果两个分数贡献都被确定为超过参考值，则两个分数贡献可以彼此比较以确定一个分数贡献是否明显大于另一个(例如，使用阈值)。可以确定另一亲本的单倍型以鉴定这些单倍型中的一种是否与第一亲本的单倍型相同，由此解释第一亲本的两种单倍型可能均已经被遗传。

C.使用甲基化水平确定遗传的单倍型

其它实施方案可以使用一般低甲基化的无细胞胎儿DNA来鉴定具有较低总甲基化水平的遗传单倍型。实施方案可以从推断的母本或父亲单倍型开始，然后测量在那些推断的单倍型中的每一个中含有SNP等位基因的血浆DNA分子的甲基化水平。在分析母本单倍型的一个实施方式中，可以比较两种推断的母本单倍型的甲基化水平，并且具有较低甲基化水平的母本单倍型将被预测为由胎儿遗传的单倍型。在分析父亲单倍型的另一实施方式中，可以比较两种推断的父本单倍型的甲基化水平，并且具有较低甲基化水平的父本单倍型将被预测为由胎儿遗传的单倍型。

1.实施例

作为实例，可以确定两种母本单倍型中的每一种的甲基化水平。因为与其它组织相比，胎盘组织是相对低甲基化的，预计胎儿遗传的母本单倍型比胎儿未遗传的母本单倍型更低甲基化的。使用母亲的实际单倍型测试母本血浆中的甲基化密度，使用母本、父本和胎儿基因型对其进行推导。

	Hap I	Hap II
			总体甲基化密度	65％	87％

表9.实际Hap I和Hap II的甲基化密度。

表9显示了母本血浆中两种母本单倍型的甲基化密度。因为Hap I为胎儿通过基因分型遗传的实际单倍型，单倍型的甲基化分析的结果正确地鉴定了遗传。

在其它实施方案中，可以基于单独的母亲的基因型推断母本单倍型，或者来自单倍型数据库的群体的参考单倍型也可以用于该分析中。使用IMPUTE2程序对该实例中使用的母本单倍型进行分型。因此，推断的母本单倍型也可以用于该分析中。

	Hap I	Hap II
			总体甲基化密度	68％	76％

表10.推断的Hap I和Hap II的甲基化密度。

表10显示母本血浆中两种推断的母本单倍型的甲基化密度。由胎儿遗传的推断的母本单倍型具有较低的甲基化密度。可以用来确定一个单倍型是否具有足够低的甲基化密度的统计学程序的实例包括卡方检验。两个甲基化水平之间的分离可能需要足够大(例如，大于阈值)以进行确定。如果分离不充分，则可以进行不确定的分类。在一些实施方案中，如果分离不够大并且如果两种甲基化水平都低于阈值水平(其可以通过包含胎儿DNA来表征)，则可以确定两种单倍型的遗传的确定。例如，表9和10表明低于70％的甲基化密度可能表明胎儿已经遗传了该单倍型。当亲本共有被分析区域的单倍型时，两种单倍型都可以被遗传。

在另一实施方案中，可以比较携带父本Hap III和Hap IV的母本血浆DNA的总体甲基化密度。与母本单倍型分析类似，胎儿将被推断为已经遗传了具有较低总体甲基化密度的父本单倍型。

2.使用甲基化水平的方法

图14是说明根据本发明的实施方案使用甲基化水平从母本样品确定胎儿基因组的一部分的方法1400的流程图。生物样品包括来自多种组织类型，包括母本组织类型和胎儿组织类型的无细胞DNA分子的混合物。胎儿有一名父亲和一名母亲，该母亲为怀孕女性。胎儿基因组的部分可以是整个染色体拷贝或仅染色体拷贝的一部分。如同本文所述的其它方法，可以将胎儿基因组的确定部分进行组合以提供整个胎儿基因组。

在框1410处，分析来自生物样品的多个无细胞DNA分子。可以以与图13的方法1300的框1310类似的方式执行框1410。

在框1420处，确定胎儿的第一亲本的第一亲本基因组的第一染色体区域的第一单倍型和第二单倍型。可以以与图13的框1320类似的方式执行框1420。在一些实施方案中，第一亲本基因组的基因型可以使用来自第一亲本的样品，例如可以包含或不包含胎儿DNA的血液样品或其它组织，在多个杂合基因座处确定。可以，例如，从参考基因组的数据库获得多个参考单倍型。可以使用基因型和多个参考单倍型推断第一单倍型和第二单倍型。例如，每种基因型的等位基因可以与参考单倍型进行比较，并且可以丢弃不包括相应基因座处等位基因的任何单倍型。一旦保留两种参考单倍型，那些单倍型可以被鉴定为第一单倍型和第二单倍型。

在框1430处，从第一和第二单倍型鉴定多个杂合基因座。每个杂合基因座具有第一单倍型中的第一等位基因和第二单倍型中的第二等位基因。

在框1440处，鉴定了第一组的多个无细胞DNA分子。以与图13的框1340类似的方式执行框1440。

在框1450处，使用第一组的多个无细胞DNA分子测量第一混合甲基化水平。例如，第一混合甲基化水平可以为第一组的无细胞DNA分子的甲基化密度。甲基化密度可以计算为第一组所有无细胞DNA分子的总甲基化密度。在另一实例中，可以针对每个基因座计算单独的甲基化密度，并且可以组合单独的甲基化密度以获得第一混合甲基化水平，例如，单独的甲基化密度的平均值。

在框1460处，鉴定了第二组的多个无细胞DNA分子。可以以与图13的框1370类似的方式执行1460。

在框1470处，使用第二组的多个无细胞DNA分子测量第二混合甲基化水平。例如，第二混合甲基化水平可以为第二组的无细胞DNA分子的甲基化密度。

在框1480处，基于第一混合甲基化水平和第二混合甲基化水平中的哪一个较低，确定胎儿遗传了第一单倍型和第二单倍型中的哪一个。作为框1480的一部分，可以在第一混合甲基化水平和第二混合甲基化水平之间确定分离值，并将其与阈值进行比较。阈值可以确保较低的水平足够低。可以使用卡方检验来确定阈值。例如，可以对已知遗传单倍型的样品进行测量，可以确定分离值的分布，并且可以选择精确确定从样品获得的训练数据中的遗传单倍型的阈值。也可以组合方法1300和1400，每种方法作为检查执行，并且如果两种方法彼此一致则确定遗传单倍型。

D.基因座的选择

各种实施方案可以用于比较母本血浆中两种推断的母本单倍型的甲基化水平或分数贡献。在一个实施方案中，可以在分析之前确定待分析的SNP基因座的数量。例如，可以根据许多因素确定单倍型去卷积分析中使用的SNP基因座的数量，所述因素，例如，但不限于期望的统计功效、胎盘和相关区域中血液细胞甲基化水平的平均差值以及针对每个SNP分析的分子数量。

相关区域的大小可以是固定的，并且在分析中可以使用相关区域内所有SNP。可以考虑许多因素确定相关区域的大小，所述因素，例如，但不限于期望的统计功效、胎盘和相关区域中血液细胞甲基化水平的平均差值、针对每个SNP分析的分子数量和与相关区域减数分裂重组的机会。

在其它实施方案中，在分析之前不确定SNP的数量和待分析区域的大小。例如，可以连续增加SNP的数量，直到关于哪种母本单倍型比其它母本单倍型具有在统计学上显著较少的甲基化，数据足以得出统计学上显著的结论。例如，可以按照其基因组坐标的升序排列相关区域上的SNP。然后可以用基因组坐标数最少的SNP数据进行统计检验。如果这足以得出关于哪种单倍型在统计学上甲基化较少的结论，则得出结论。类似地，可以以降序排列SNP，其中使用最高数量的足够的基因组坐标。

如果统计精度不够，则可以从具有较高数量的基因组坐标的下一个SNP开始进行另一个统计比较。另一方面，如果第一个SNP的数据不足以断定一个单倍型比另一个单倍型的甲基化少(或者分数贡献之间的分离值不够大)，则可以添加另一个SNP的数据并且进行另一轮统计测试。可以继续该过程，直至累积数据足以作出统计学上显著的结论。可以进行许多统计检验来比较两种单倍型的甲基化水平，例如但不限于学生t检验、曼-惠特尼秩和检验和卡方检验。统计显著性水平可以基于结论的期望置信度来确定，例如但不限于采用0.05、0.01、0.001、0.0001或0.00001的P值。

E.与RHDO组合

在一些实施方案中，由美国专利8,467,976的RHDO分析产生的结果可以与本发明的甲基化实施方案组合以获得更准确的诊断程序或减少所需的测序量。例如，可以使用本发明的实施方案并使用美国专利8,467,976的RHDO分析的结果来确定胎儿单倍型，并且可以比较来自两种技术的确定的胎儿单倍型。例如，两种分析的结果只有在一致的情况下才能被接受。如果两种分析显示出不同的结论，则可以进行进一步的分析，例如，可以在基因组上以更高的覆盖深度重复测量。

为了使这种组合方法最具成本效益，优选具有能够产生两种方法的数据的一种类型的测序。在一个实施方案中，这可以通过将产生测序以及甲基化信息的单分子方法，例如，使用来自Pacific Biosciences的单分子实时测序技术或纳米孔测序(例如，来自Oxford Nanopore Technologies)，来完成。这些是可识别甲基化测序的两个实例。在另一实施方案中，可以对亚硫酸氢盐测序结果进行RHDO分析。对于这样的实施方案，也可以使用亚硫酸氢盐测序来确定任何母本和父本遗传信息。因此，亚硫酸氢盐测序是可识别甲基化测序的另一个实例。此外，可以使用其它可识别甲基化测序技术，例如氧化亚硫酸氢盐测序(Booth等人.Science 2012；336:934-937)或Tet辅助亚硫酸氢盐测序(Yu等人.Cell 2012；149:1368-1380)。后面的实例将允许对分析的DNA分子的5-甲基胞嘧啶分布进行分析。

F.胎儿基因组知识的用途

胎儿基因组的无创产前分析可以用于确定胎儿是否从亲本遗传了疾病。这对于单基因疾病的检测特别有用，所述单基因疾病例如先天性肾上腺增生症(New等人.J ClinEndocrinol Metab 2014；99:E1022-30)、β-地中海贫血(Lam等人.Clin Chem.2012；58:1467-75)和遗传性肌营养不良(Genet Med 2015；17:889-96)。如果检测到单基因疾病，则可以进行各种治疗，例如可以终止妊娠，怀孕前或出生后提供治疗。例如，可以对确诊怀有患先天性肾上腺增生症胎儿的孕妇进行产前类固醇治疗，以避免性发育异常。

VI.用于非整倍性检测的单倍型去卷积分析

单倍型去卷积还可以用于检测胎儿染色体区域的序列失衡，例如非整倍体、微缺失或微放大(例如微复制)。例如，可以将一个区域中的单倍型的分数贡献与另一个区域中的另一单倍型的分数贡献进行比较。

A.母亲

图15显示了根据本发明实施方案的基于母体单倍型的单倍型去卷积的染色体非整倍性检测。在这个实例中，母亲有两种母体单倍型，即Hap I和Hap II。出于说明的目的，我们假设她血浆DNA的80％是来源于她自己的细胞以及20％是来源于胎盘，这是通常测量范围中的示例性百分比。这种方法通常可用于具有不同胎儿DNA百分比的妊娠。胎儿DNA百分比的知识不是必要的，而简单地提供以用于说明，即使可以按各种方式进行胎儿DNA百分比的测量，例如使用胎儿特异性等位基因或胎儿特异性甲基化标记。

胎儿已遗传Hap I和另一个来自父亲的单倍型，即Hap III。胎盘来源的DNA将显示胎儿的基因型，并且可以通过分析由来自胎盘的DNA产生的分数贡献来检测序列失衡。

如上所述，母体单倍型的胎儿遗传可以通过两种母体单倍型的去卷积来确定。可以对两种母体单倍型的每一种进行胎盘对母体DNA的贡献的分析。被胎儿遗传的母体单倍型(在本例中为Hap I)与没有被胎儿遗传的母体单倍型(Hap II)相比，具有更高的胎盘贡献。胎盘对Hap I的贡献与母体血浆中的胎儿DNA分数正相关。

在确定哪个母体单倍型已被胎儿遗传后，胎儿从母亲遗传的染色体的剂量可以进一步通过母体单倍型去卷积来确定。在这个实例中，使用母体单倍型去卷积分析两个染色体区域。在一个实施方案中，参考染色体(RefChr)是不太可能受染色体非整倍性影响的染色体或染色体区域。参考染色体区域显示在图15的左侧。目标染色体(TargetChr)是可能受染色体非整倍性影响的染色体或染色体区域。目标染色体区域显示在图15的右侧。两个区域可以是相同染色体的不同区域或两个不同染色体的区域。

在所示的实例中，通过每个区域的Hap I和Hap II的甲基化去卷积，已经推断胎儿已经从母亲遗传了参考染色体和目标染色体的Hap I。然后，可以比较在参考染色体和目标染色体之间胎盘对母体血浆DNA的Hap I的贡献。如果目标染色体区域的Hap I的胎盘贡献与参考染色体区域的Hap I的胎盘贡献显著不同(例如，扩增更高或缺失更低)，则可以鉴定出序列失衡。

出于说明的目的，我们以三体检测为例。然而，也可以使用这种方法检测其他类型的染色体非整倍性，包括单体性、亚染色体区域的扩增或亚染色体区域的缺失。对于三体，受影响的染色体的额外拷贝可以从父亲(表示为三体(F))或母亲(表示为三体(M))遗传。在超过90％的21三体病例中，21号染色体的额外拷贝来源于母亲(Driscoll等人N Engl JMed 2009；360:2556-2562)。在三体(M)的情况下，Hap I对于目标染色体的胎盘贡献高于对于参考染色体的胎盘贡献。在图15中，三体(M)显示具有两个Hap I的实例，这将为目标区域提供比参考区域的Hap I的一个实例更高的胎盘贡献。

Hap I对目标染色体的胎盘贡献是否高于对参考染色体的胎盘贡献可以通过比较两个胎盘贡献之间的分离值和阈值来确定，该分离值和阈值可以基于胎儿DNA百分比的单独测量。更高的胎儿DNA百分比会导致两个胎盘贡献之间更高的预期分离值，并且因此阈值可以设定得更高。例如，胎儿DNA百分比为20％时，Hap I对参考区域的胎盘贡献为约20％，并且Hap I对目标区域的胎盘贡献为约36.4％。

例如，假设参考染色体上存在10个DNA分子，则其中两个是胎儿的，其中八个是母体的。对于两个胎儿DNA分子，一个来自Hap I，一个来自Hap III。对于八个母亲DNA分子，四个是Hap I，四个是Hap II。对于目标区域，将会有一个来自胎儿的额外的Hap I的DNA分子。因此，总共有两个胎儿Hap I DNA分子和4个母体Hap I DNA分子，提供2/6＝33.3％。差异的阈值(例如，13.3％)可以设置在0和13.3％之间以提供最佳的特异性和灵敏度。分离值的分布可以从参考样品组中确定。在整倍体的情况下，胎盘贡献近似相等，例如，分离值将小于阈值。本领域技术人员将知道如何基于本文和美国专利第8,467,976号以及本文引用的其它参考文献的描述来选择合适的阈值。

在一个实施方案中，对于已知携带整倍体胎儿的一组孕妇，目标染色体和参考染色体之间的Hap I的胎盘贡献的比率(或其它分离值)可用作参考区间。测试病例中的比率可以与该参考组相比较以确定目标区域相对于参考区域是否存在Hap I的胎盘贡献显著升高。在20％胎儿DNA的实例中，比率将为33.3/20＝1.67。该比率可以概括为2/(1+f)，其中f代表胎儿DNA分数。在另一个实施方案中，可以确定目标染色体和参照染色体之间的Hap I的胎盘贡献的差异。然后将该差异与参考组进行比较。

B.父亲

在另一个实施方案中，可以在母体血浆中进行父体单倍型(Hap III和Hap IV)的单倍型去卷积。父体单倍型的分析可以以与母系单倍型相似的方式进行。

图16显示了根据本发明的实施方案的基于父体单倍型的单倍型去卷积的染色体非整倍性检测。在这个实例中，父亲有两种父体单倍型，即Hap III和Hap IV。如图15，胎儿遗传了母亲的Hap I和父亲的Hap III。

在其中染色体的额外拷贝源自父亲(三体(F))的情况下，Hap III的胎盘贡献对于目标染色体将高于对于参考染色体。这显示了三体(F)的实例，其中显示了Hap III的两个拷贝。如上文关于母体单倍型所述，可以将Hap III对目标区域和参考区域的胎盘贡献之间的分离值与阈值进行比较，以确定目标区域是否存在额外的Hap III拷贝。在各种实施方案中，可以将测试病例的两种胎盘贡献的比率或差异与孕妇的参照组(每个孕妇都已知携带整倍体胎儿)进行比较，以便确定胎儿是否具有目标染色体的三体性染色体或者目标染色体区域的扩增或缺失。阈值可以基于整倍体胎儿的参照组、非整倍性胎儿的参照组或这两者的分离值。如本文所述，也可以使用胎儿DNA百分比的单独测量。

C.检测序列失衡的方法

图17是根据本发明的实施方案的用于使用来自怀孕女性的生物样本来检测怀孕女性的未出生胎儿的胎儿基因组的一部分中的序列失衡的方法1700的流程图。

在框1710，分析来自生物样品的多个无细胞DNA分子。框1710可以以与图13的方法1300的框1310类似的方式实施。

在框1720，确定胎儿的第一亲本的第一亲本基因组的目标染色体区域的第一目标单倍型，并且确定第一亲本基因组的参考染色体区域的第一参考单倍型。框1720可以以与图13的框1320类似的方式实施。目标染色体区域和参考染色体区域可以是整个染色体或仅是染色体的一部分。因此，目标染色体区域可以是第一染色体并且参考染色体区域可以是不同于第一染色体的第二染色体。第一亲本可以是胎儿的母亲或父亲。

可以基于各种标准来选择目标染色体区域。例如，可以选择多个目标区域，如可能出现以测试诸如1Mb、5Mb、10Mb、20Mb、50Mb等的特定大小的许多非重叠区域。作为另一实例，可以基于拷贝数分析来选择目标染色体区域，所述拷贝数分析将该区域鉴定为具有比预期更多的DNA分子，例如，如美国专利公布2009/0029377和2011/0276277中所述。

在一些实施方案中，可以确定胎儿已经从第一亲本遗传了第一目标单倍型，并且胎儿已经从第一亲本遗传了第一参考单倍型。确定可以包括图13或图14的实施方案。例如，确定胎儿已从第一亲本中遗传第一目标单倍型可包括确定混合物中对应于第二目标单倍型的胎儿组织类型的第二目标分数贡献，计算第一目标分数贡献与第二目标分数贡献之间的第二分离值，并且基于第二分离值确定胎儿已从第一亲本遗传了第一目标单倍型。

在框1730，鉴定第一亲本基因组的目标染色体区域的多个目标杂合基因座。每个目标杂合基因座包括第一目标单倍型中对应的第一目标等位基因和第一亲本基因组的第一染色体区域的第二目标单倍型中对应的第二目标等位基因。参照图15的实例，目标杂合基因座在Hap I上具有相应的{G，T，A}的第一目标等位基因，并且在Hap II上具有相应的{A，G，C}的第二目标等位基因。

在框1740，鉴别目标组的多个无细胞DNA分子。目标组的每个无细胞DNA分子位于目标杂合基因座中的任一处，包括相应的第一目标等位基因，并且包括目标染色体区域中的N个基因组位点中的至少一个。框1740可以按照与本文所述类似的方式实施。例如，序列读数可以被映射到参考基因组，其中多个无细胞DNA分子的目标组与目标杂合基因座中的任一个对齐。

在框1750，使用目标组的多个无细胞DNA分子测量N个基因组位点处的N个第一混合甲基化水平。框1750可以以与图13的框1350类似的方式实施。

在框1760，使用N个第一甲基化水平确定混合物中胎儿组织类型的第一分数贡献。框1760可以以与图13的框1360类似的方式实施。

在框1770，针对第一亲本基因组的参考染色体区域，鉴定多个参考杂合基因座。每个参考杂合基因座包括第一参考单倍型中对应的第一参考等位基因和第一亲本基因组的参考染色体区域的第二参考单倍型中对应的第二参考等位基因。参照图15的实例，参考杂合基因座在Hap I上具有相应的{A，T，C}的第一目标等位基因，并且在Hap II上具有相应的{T，C，A}的第二目标等位基因。

在框1775，鉴定参考组的多个无细胞DNA分子。参考组的每个无细胞DNA分子位于参考杂合基因座中的任一个上，包括相应的第一参考等位基因，并且包括参考染色体区域中K个基因组位点中的至少一个。

在框1780，使用参考组的多个无细胞DNA分子，测量K个基因组位点处的K个参考混合甲基化水平。

在框1785，使用K个参考甲基化水平确定混合物中胎儿组织类型的第一参考分数贡献。

在框1790，计算在第一目标分数贡献和第一参考分数贡献之间的第一分离值。

在框1795，将第一分离值与阈值进行比较以确定胎儿是否对目标染色体区域具有序列失衡的分类。如果第一分离值超过阈值，则可以鉴定序列失衡。可以如上所述确定阈值，例如基于在不具有序列失衡的样本的参考组和/或具有序列失衡的样本的参考组中所见的分离值。作为实例，对于被测试的序列失衡，分类可以是正的、负的或不确定的。

可以依据序列失衡的类型，使用不同的阈值。例如，如果序列失衡是缺失，则第一分离值预期为负值。在这种情况下，阈值可以为负数，并且比较可以通过更大的负数来确定第一阈值超过阈值。如果被测试的序列失衡是扩增，则可以测试分离值是否大于阈值。因此，所使用的阈值可以取决于正测试的序列失衡的类型。

VII.标签的去卷积以鉴定患病组织

如果基因组标签(例如，特定的SNP等位基因)是已知的，则实施方案可以确定哪个组织是此类标签的来源。由于展示标签的无细胞DNA分子是来自来源组织，因此可以从使用展示标签的无细胞DNA分子所确定的分数贡献来鉴定来源组织。因此，具有移植器官标签(例如，移植器官的单倍型的标签)的无细胞DNA分子可用于以高灵敏度监测来自移植器官的无细胞DNA分子的数量变化，例如，鉴于混合物中DNA的高分数贡献来自移植器官。为移植提供的实例显示出该技术是准确的。在另一个实例中，可以使用肿瘤的标签来鉴定肿瘤所在的组织。

A.器官移植

作为器官移植的实例，我们分析了接受肝移植的患者的血浆和接受骨髓移植的患者的血浆。对于每种情况，通过对来自患者和供体的组织进行基因分型来鉴定供体特异性SNP等位基因。对于肝移植受体，对供体肝脏的活组织检查和受体的血液细胞进行测序。对于骨髓移植病例，对颊拭子(受体基因型)和血液细胞(供体基因型)进行测序。在亚硫酸氢盐转化后对血浆DNA样品进行测序。将携带供体特异性SNP等位基因和至少一个CpG位点的测序的DNA片段用于下游甲基化去卷积分析。对接受肝脏和骨髓移植的患者分别进行了总计7200万和12100万读数的测序。对于这两种情况，分别将38和5355片段用于去卷积分析。

表6.不同器官对两种移植受体中携带供体特异性等位基因的血浆DNA片段的分数贡献。

表6显示在肝移植受体和骨髓移植受体中携带供体特异性等位基因的血浆DNA片段的甲基化去卷积分析。数字表示不同组织对供体特异性血浆DNA片段的贡献百分比。对于肝移植病例，肝被证明是这些DNA片段的最重要的贡献者。对于骨髓移植病例，造血系统(包括T细胞、B细胞和嗜中性粒细胞)是供体特异性DNA片段的主要贡献。这些结果表明，甲基化去卷积能够准确地指示具有单核苷酸改变的DNA片段的组织来源。少量的测序片段归因于其它组织，这可能是因为测量不精确，由于相对少量的供体特异性片段用于去卷积分析。

可以以上述方式确定与移植器官相关的组织的分数贡献并进行监测。由于仅使用展现出供体标签的无细胞DNA分子，基线分数贡献(参考分数贡献的实例)相对较高，因此可以检测到血浆中供体DNA总量的小变化。因此，可以应用甲基化去卷积分析来监测器官移植。

如上对于肝移植所见，甲基化去卷积不是绝对特异的。在此分析中，携带供体特异性等位基因的血浆DNA片段用于甲基化去卷积分析。这些片段对于供体是特异性的，并且应在肝脏移植受体中仅来源于肝脏。因此，肝脏的理论贡献应该是100％。另一种可能性是，某些细胞类型存在于不同类型的组织中，使得肝甲基化谱与其它组织重叠。例如，肝脏中的结缔组织细胞也可能存在于其它器官中。但是，来自其它患者或当前患者的其它样本(例如，在其它时间)的相对百分比可以鉴定是否有更多的无细胞DNA分子被释放。

在各种实施方案中，供体标签可对应于供体基因组的特定单倍型或染色体区域中的两种单倍型。可以使用位于特定供体单倍型的无细胞DNA分子进行甲基化去卷积，并且可以监测特定单倍型的分数贡献的增加。如果发生显著增加(例如，如通过百分比或绝对阈值所测量的)，则可以鉴定移植器官的排斥。

图18显示了根据本发明实施方案的用于器官移植监测的单倍型去卷积的说明。供体具有标记Hap I和Hap II的单倍型，并且受体具有标记Hap III和Hap IV的单倍型。供体在基因座1和基因座3具有标签，因为在受体单倍型上没有发现等位基因。基因座2和基因座4没有供体标签。因此，实施方案可以使用位于基因座1和基因座3的DNA分子作为去卷积过程的一部分。

血浆DNA去卷积可用于确定来自移植器官的确定的分数贡献是在基线还是相对于基线增加。在一些实施方案中，如果存在不同的标签，则可以分别对Hap I和Hap II中的每一个确定分数贡献；此类不同的标签可以存在于不同的位置。在其它实施方案中，例如当它们共享标签时，可以对两种单倍型确定单个分数贡献。在图18所示的实例中，Hap I和HapII在基因座1和基因座3共享标签。

因此，可以使用单倍型去卷积来确定移植器官的贡献。单倍型对移植器官贡献的增加有助于指示器官对血浆DNA贡献的增加。在不同的实施方案中，基线水平可以从不具有排斥的移植受体队列中确定或从具有排斥的移植受体队列中确定。当使用具有排斥的受体时，基线水平可以被确定为低于具有排斥的移植受体群体的基线水平。

如上所述，供体可具有两个相同的单倍型，或者受体也可具有两个相同的单倍型。此外，供体和受体可共享单倍型。只要供体或受体具有独特的单倍型，就可确定自供体组织的无细胞DNA分子的百分比变化。在前者中，当见到血浆(或其它样本)中供体独特的单倍型的贡献增加时，会检测到排斥。在后者中，当见到血浆中受体独特的单倍型的贡献减少时，会检测到排斥。

因此，一些实施方案可以使用存在于生物的正常细胞中并且不存在于可能在混合物中的异常细胞中的第一单倍型。这对应于前述后一实例，当受体具有独特的单倍型。另一实例是，与肿瘤相比，患者在健康细胞中具有独特的单倍型(例如先前在生物体中发现)。在该实施方案中，当第一分离值小于阈值时，可以确定第一组织类型具有疾病状态。

在一些实施方案中，如果检测到移植器官被排斥，则可以提供治疗。例如，变化是可以提供抗排斥药物的剂量。在另一实例中，可以获得新的器官，并且可以进行手术以移除旧的移植器官并放入新的移植器官。

B.肝细胞癌(HCC)

作为用于确定癌症标签或异常的来源组织(或监测已知存在或已存在的肿瘤)的实例，我们分析了HCC患者的血浆。对患者的肿瘤和血液细胞进行测序以鉴定癌症特异性单核苷酸突变。将带有癌症特异性突变和至少一个CpG位点的经测序的DNA片段用于下游甲基化去卷积分析。总计11,968片段用于去卷积分析。除了来自正常组织器官的甲基化谱之外，我们还包括作为候选的来源组织的HCC组织的甲基化谱。

在另一个实施方案中，可将更多肿瘤组织类型视为突变的候选组织。在一个实施方案中，常见癌症的甲基化谱例如但不限于结肠直肠癌、肺癌、乳腺癌、胰腺癌、前列腺癌、膀胱癌、子宫颈癌和卵巢癌可作为候选组织。在另一个实施方案中，分析中可以仅包括患者特异的最有可能的癌症。例如，在女性患者中，考虑乳腺癌、卵巢癌、结直肠癌和宫颈癌。在另一实施方案中，在选择候选组织时考虑种族来源和年龄。

表7显示出携带癌症相关突变的血浆DNA片段的甲基化去卷积。去卷积分析准确地确定携带癌症相关突变的DNA片段主要来源于肝癌组织。

组织	贡献(％)
		肝	0.0
肺	0.0
		结肠	0.0
小肠	0.0
		胰腺	0.0
肾上腺	0.0
		食管	0.0
脂肪组织	0.0
		心	0.0
脑	0.0
		T细胞	0.0
B细胞	0.0
		嗜中性粒细胞	4.6
肝癌	95.4
		胎盘	0.0

表7.使用癌症突变的HCC患者的分数贡献。

在一些实施方案中，肿瘤最初可通过检测拷贝数异常来鉴定，例如，如美国专利第8,741,811号和第9,121,069号中所述。例如，如美国专利申请第14/994,053号中所述，可基于先前在各种肿瘤中鉴定的拷贝数异常模式来确定特定的来源组织。一旦确定了肿瘤，就可以进行治疗，例如通过手术、放疗或化疗。无论哪一种方式，可以在确定来源组织后获得活组织检查。可以从活组织检查或血浆中的DNA片段确定癌症特异性点突变(例如，如美国专利公布第2014/0100121号中所述，或与拷贝数异常有关的其它混合物)。

在治疗后，关键改变是基因组异常(包括拷贝数异常和点突变)的消失。当这些异常消失后，受影响的区域中点突变的基因组标签的分析通过甲基化去卷积分析给出组织贡献的变化。如果肿瘤在将来恢复，组织组成中的癌症相关的变化(如使用甲基化去卷积分析所确定的)将再次出现。例如，可以将分数贡献与参考分数贡献进行比较，如果检测到变化，则可以提供新的治疗过程。

在各种实施方案中，癌症特异性突变可以仅在一种单倍型上或在两种单倍型上，例如以类似于上述供体实例的方式。因此，如与供体一样，如果存在不同的标记，则可以分别对Hap I和Hap II中的每一个确定分数贡献；此类不同的标签可以存在于不同的位置。在其它实施方案中，例如当它们共享标签时，可以对两种单倍型确定单个分数贡献。

C.印迹

在另一个实施方案中，单倍型去卷积分析可以应用于分析显示组织特异性印记的基因组区域。已显示，不同组织器官中父体和母体遗传的等位基因的差异甲基化是常见现象(Baran等人，Genome Res2015；25:927-36)。单倍型去卷积可用于监测展示出组织特异性印记的器官的贡献。例如，当父体和母体遗传的单倍型在肝脏中具有不同的甲基化状态但在其它组织中不存在时，可以对父体和母体遗传的单倍型进行甲基化去卷积。在一个实施方案中，父体和母体甲基化模式可作为候选组织包含在分析中。

D.使用基因组标签的方法

图19是示出根据本发明的实施方案的用于分析生物体的生物样本以检测第一组织类型是否具有与第一单倍型相关的疾病状态的方法1900的流程图。生物样品包括来自多种组织类型(包括第一组织类型)的无细胞DNA分子的混合物。方法1900至少部分地使用计算机系统来实施。

在框1910，分析来自生物样品的多个无细胞DNA分子。可以使用图1的方法100的框140中所述的技术来实施框1910。例如，可以分析至少1,000个无细胞DNA分子以确定无细胞DNA分子的位置，并且可以如下所述测量甲基化水平。此外，分析无细胞DNA分子以确定无细胞DNA分子的各自的等位基因。例如，可以从序列读取或从与DNA分子杂交的特定探针来确定DNA分子的等位基因。

在框1920，鉴定一个或多个基因座。每个基因座在第一染色体区域的第一单倍型上具有第一等位基因。第一单倍型具有下列性质之一：(1)不存在于生物体的健康细胞中，而是例如可能来自肿瘤或移植组织；或者(2)存在于生物体的正常细胞中并且不存在于可能在混合物中的异常细胞中。因此，第一单倍型具有基因组标签。以这种方式，在健康(正常)细胞与异常细胞之间存在差异，从而允许实施方案追踪一个或另一个或这两者的分数贡献，以便追踪异常细胞的程度(例如，分数贡献)。对于性质(1)，第一单倍型与疾病状态相关，例如癌症或移植组织的排斥。因此，特定癌症可以在特定癌症的癌症基因组中具有第一单倍型。

可通过获得组织样本(例如，肿瘤组织样本或移植组织)和分析组织样本的DNA分子，在第一单倍型的一个或多个基因座上鉴定一个或多个第一等位基因以确定第一单倍型。此类组织样本可以从活组织检查中获得，并且方法1900可用于测试癌症是否已经转移到其它组织或在手术后复发。每个基因座可能是异常细胞中的杂合基因座或纯合基因座。例如，在图18中，基因座1和基因座3在供体器官中是纯合的。但是，最终对于所有基因座，在血浆中都会观察到多于一个等位基因，因为每个基因座都会有健康细胞或异常细胞的标签。因此，两种单倍型是跨组织类型存在，但单个组织类型在被分析的区域中可能仅具有一种单倍型。

在框1930，鉴定第一组的多个无细胞DNA分子。多个无细胞DNA分子中的每一个位于来自框1920的基因座中任一个，并且包括在一个基因座的相应的第一等位基因，使得无细胞DNA分子可以被鉴定为对应于第一单倍型。第一组无细胞DNA分子中的每一个还包括N个基因组位点中的至少一个，其中基因组位点用于测量甲基化水平。N是整数，例如大于或等于2、3、4、5、10、20、50、100、200、500、1,000、2,000或5,000。

在框1940，使用第一组的多个无细胞DNA分子测量N个基因组位点处的N个第一混合甲基化水平。对于N个基因组位点中的每一个，可以测量一个第一混合甲基化水平。框1940可以以与图1的方法100的框150类似的方式实施。在一些实施方案中，DNA分子的甲基化水平的测量可以使用甲基化识别(methylation-aware)测序结果，其也可用于确定DNA分子的位置和各自的等位基因。

在框1950，使用N个第一甲基化水平确定混合物中第一组织类型的第一分数贡献。在一些实施方案中，框1950可以经由图1的方法100的框160和框170来实施。因此，对于M组织类型组可以同时确定分数贡献。例如，如在图1的方法100的框120中，框1950可以在N个基因组位点使用对于M个组织类型中的每一个所确定的N个组织特异性甲基化水平。

在框1960，计算在第一分数贡献和参考分数贡献之间的分离值。本文描述了分离值的实例。参考分数贡献可以使用来自对于第一组织类型是健康的生物体的样品来确定。对于移植实例，参考分数贡献可以从移植的第一组织未被排斥的生物体的生物样品的一个或多个测量结果来确定。

在框1970，可以将分离值与阈值进行比较以确定第一组织类型是否具有疾病状态的分类。例如，如果第一单倍型与癌症相关，则可评估的第一分数贡献指示第一组织类型具有癌症，如可以通过超过阈值的分离值来测量(例如，当参考分数贡献为零时)。第一分数贡献超过阈值的数量可以表示某种程度的癌症。作为另一个实例，第一单倍型可以对移植组织是特异的，并且相对于参考的高贡献可以指示生物体排斥移植组织。

在第一单倍型存在于生物体的正常细胞中而不存在于可能在混合物中的异常细胞中的实施方案中，当第一分离值小于阈值时，可以确定第一组织类型具有疾病状态。疾病状态的实例是先兆子痫，其可能与胎儿组织(诸如胎盘)中的连续的病理变化相关。作为实例，在这种情况下，如果第一单倍型对胎儿是特异性的(例如，父系遗传的单倍型)，在妊娠并发先兆子痫的母体血浆中可能会增加。

在一些实施方案中，还可以使用患病组织(例如移植组织或肿瘤)的第二单倍型。因此，可以计算第二分数贡献并将其与参考分数贡献进行比较。因此，可以各自位于一个或多个基因座中的任何一个处的第二组的多个无细胞DNA分子包括在第一染色体区域的第二单倍型上的相应的第二等位基因，并且包括N个基因组位点的至少一个。第二单倍型具有仅来自健康细胞或异常细胞的相同性质。

可以测试多种组织类型(例如，使用图1的方法100)，以确定第一单倍型的组织来源，例如，当它与癌症相关时。因此，可以使用N个第一甲基化水平确定混合物中其他组织类型的分数贡献，并且可以将相应的分数贡献和各自的参考分数贡献之间的相应的分离值与阈值进行比较以确定是否每个其他组织类型具有特定的癌症的分类。不同的组织可能有不同的参考分数贡献。

VIII.鉴定癌症CNA的组织来源

在一些实施方案中，肿瘤的来源可能不是已知的。因此，可能难以鉴定肿瘤中的点突变，如可用于图19的方法1900或本文所述的其他方法。另外，肿瘤可能不具有显著数量的点突变，但可能具有显示扩增和缺失的染色体区域(拷贝数异常的实例)。

为了解决这个问题，实施方案可以使用拷贝数分析来鉴定显示拷贝数异常(CNA)的区域。通常，CNA仅发生在区域的一个单倍型上。由于只有一个单倍型具有扩增或缺失，所以在肿瘤所在的组织类型的分数贡献之间将存在相对较大的差异。

可以以各种方式进行CNA分析，例如，如描述于美国专利第8,741,811号和第9,121,069号。例如，可以将人类基因组(或其他类型生物体的基因组)分成大约3,000个非重叠的1-Mb区域。可以确定映射到每个1-Mb区域的读取数。在校正GC偏差之后(Chen EZ等(2011)PLoS One 6(7)：e21791)，可以计算每个区域的序列读取密度。对于每个区域，可以将测试用例的序列读取密度与参考对照对象的值进行比较。可以将拷贝数的增加和减少分别限定为高于和低于对照平均值3个标准差。因此，可以基于位于第一染色体区域中的第一量的无细胞DNA分子鉴定显示拷贝数异常的第一染色体区域。

为了确定血浆中拷贝数异常的组织来源，可以使用位于在血浆中显示出此类异常的基因组区域内的甲基化标记物来进行血浆DNA组织映射。在以下针对癌症患者的实例中，仅在影响至少30Mb的连续染色体区域的异常的情况下进行血浆DNA拷贝数异常的映射，以便可以使用足够数量的甲基化标记物进行映射。

A.鉴定具有拷贝数异常(CNA)的区域

在知情同意下，从香港威尔斯亲王医院手术部招募患有HCC的62岁男性患者。在诊断和切除肿瘤3个月后，将10毫升静脉血收集在EDTA管中。将血液样品以3000g离心10分钟以从血浆中分离血液细胞。将血浆以30000g再离心10分钟以除去剩余的细胞。

根据制造商的说明书，使用10x基因组学平台，将从血液细胞中提取的DNA用于SNP分型以构建患者的单倍型。使用MagAttract HMW DNA试剂盒(QIagen，德国)从血液样品或组织样品中提取高分子量DNA。在4200TapeStation系统(Agilent，德国)上通过基因组DNA分析ScreenTape验证DNA质量。在Qubit 3.0荧光计(Thermo Fisher Scientific，Waltham，MA)上通过dsDNA HS分析试剂盒定量DNA。使用GemCode系统及其相关试剂(10X基因组，Pleasanton，CA)进行样品索引和文库制备(Zheng等人，Nat Biotechnol.2016Mar；34：303-11)。简而言之，投入1ng的DNA用于GEM反应，其中将单个DNA分子分区以引入特定的条形码并延伸DNA。GEM反应后，根据制造商的建议制备测序文库。使用KAPA文库定量试剂盒(KAPABiosystems，Wilmington，MA)通过qPCR对文库进行定量。在HiSeq 2500测序仪(Illumina，San Diego，CA)上对标准化的文库进行测序，其中98-bp、14-bp I5和8-bp I7索引读数的配对末端测序。使用Long Ranger软件套件(10X基因组)分析测序结果，以便对所有杂合SNP进行分型，并确定患者的两个单倍型。

使用Illumina将血浆样品测序至17x的深度。根据之前描述的方法(Chan等人，Clin Chem.2013；59：211-24)，在HCC患者的血浆中检测拷贝数异常。

图20显示根据本发明的实施方案在HCC患者的血浆中检测到的拷贝数异常图。内圈表示在诊断时(术前)收集的血浆样品的结果，外圈表示在肿瘤切除后(术后)3个月时收集的血浆样品的结果。每个点代表1-Mb区域。绿色点、红色点和灰色点分别代表拷贝数增加、拷贝数减少和无拷贝数变化的区域。在诊断时血浆样品中检测到拷贝数异常，并且在肿瘤被去除后这些变化消失。

在图20中，突出显示具有CNA的两个区域。区域2010具有拷贝数增加，区域2020具有拷贝数减少。可以使用对象的任何组织样品而不仅仅是肿瘤样品来确定这些区域的单倍型。拷贝数的差异是驱动分数贡献差异的原因，这种差异应该在肿瘤组织类型中最大。

B.确定拷贝数异常的组织来源

我们对两个单倍型独立地进行了甲基化去卷积分析。为了说明的目的，这两个单倍型被命名为Hap I和Hap II。将覆盖杂合SNP和至少一个CpG位点的血浆DNA分子用于该分析。独立于携带Hap II上的等位基因的那些血浆DNA分子来分析携带Hap I上的SNP等位基因的血浆DNA分子。将CpG位点的甲基化状态用于独立地映射到Hap I和Hap II的分子的甲基化去卷积。结果，可以确定对在血浆DNA中Hap I和Hap II的组织贡献。

首先我们关注具有扩增的区域。为了说明的目的，我们分析了染色体1q上的扩增区域作为实例。

	诊断时	肿瘤切除后
			Hap I	34,119	11,131
Hap II	26,582	11,176

表11显示了来自两个单倍型的序列读取的数量。在诊断时，与映射到Hap II的读取的数量相比，映射到Hap I的读取的数量增加了。这表明Hap I相对于Hap II被扩增。这一观察结果与特定染色体在癌症中重复而不是两个同源染色体被扩增到相同程度的事实相符，这与拷贝数异常优先出现在一个单倍型上的事实相符(Adey A.等人，Nature.2013；500：207-11；LaFramboise T.等人，PLoS Comput Biol.2005；1(6)：e65)。在切除肿瘤后，两个单倍型剂量的差异消失。在诊断时和肿瘤切除后采集的血浆样品之间的绝对序列读取数的差异是由于两个血浆样品产生的序列读取的总数的差异。

表12显示了在诊断时和肿瘤切除后针对两个单倍型，不同组织对血浆DNA的分数贡献。在诊断时，针对Hap I和Hap II，肝脏对血浆DNA的贡献分别19.7％和8.0％。11.7％的差异是不同类型组织中最高的。这表明血浆中Hap I和Hap II之间的剂量差异最可能是由肝脏的贡献所贡献的。这进一步表明染色体异常的可能来源来自肝脏，因为拷贝数变化最可能是由于序列读取计数分析中Hap I的重复。在另一实施方案中，可以对Hap I和Hap II的贡献差异进行排序，以指示不同组织是拷贝数异常的来源的相对可能性。

心脏的值是-17，其在表11所确定的拷贝数异常的相反方向。因此，虽然心脏的绝对值大于肝脏的绝对值，但相反的迹象会将心脏折扣为肿瘤的组织类型来源的可行候选者。由于所有器官的总贡献是100％，所以肝脏贡献的正面差异导致其他组织具有负值。

类似地，也可以在具有拷贝数较少的区域上进行这种单倍型特异性甲基化去卷积。为了说明目的，我们在显示拷贝数减少的染色体1p上的区域上进行了此分析。

	诊断时	肿瘤切除后
			Hap I	19,973	8,323
Hap II	12,383	7,724

表13显示了来自两个单倍型的多个序列读取。在诊断时，与映射到Hap I的读取的数量相比，映射到Hap II的读取的数量减少。在肿瘤组织中，具有染色体拷贝数减少的大部分区域将仅涉及两条染色体之一的缺失。因此，Hap II剂量的相对减少与Hap II的缺失相一致。在切除肿瘤后，两个单倍型剂量的差异消失表明肿瘤来源的DNA量已经从血浆中减少或消失。

表14显示了在诊断时和肿瘤切除后针对两个单倍型，不同组织对血浆DNA的百分比贡献。在诊断时，针对Hap I和Hap II，肝脏对血浆DNA的贡献分别为13.3％和5.5％。7.8％的差异是不同类型组织中最高的。这表明血浆中Hap I和Hap II之间的剂量差异最可能是由肝脏的贡献所贡献的。这进一步表明，染色体异常的可能来源来自肝脏，因为拷贝数变化最可能是由于在序列读取计数分析中Hap II的缺失。在另一实施方案中，可以对Hap I和Hap II的贡献差异进行排序，以指示不同组织是拷贝数异常来源的相对可能性。

C.确定肿瘤的组织来源的方法

图21是示出根据本发明的实施方案分析生物体的生物样品以鉴定染色体异常的来源的方法的流程图。生物样品包括来自包括第一组织类型的多种组织类型的无细胞DNA分子的混合物。

在框2110处，分析来自生物样品的多个无细胞DNA分子。可以使用图1的框1910和图1的方法100的框140，以及描述类似特征的其他框中描述的技术来执行框2110。

在框2115处，基于位于第一染色体区域中的无细胞DNA分子的第一量，将第一染色体区域鉴定为在生物体中显示出拷贝数异常。作为实例，进行血浆DNA分析以鉴定显示拷贝数异常的区域。异常可以对应于超过或低于的表示。在一些实施方案中，可以将基因组分离成区域(例如1-Mb区域)，并且可以确定来自特定区域的无细胞DNA分子的量(例如通过将序列读取映射到参考基因组的那部分)。可以对特定区域的量进行标准化(例如，关于区域的平均量)，可以鉴定超过或低于的表示。

除了计算映射到特定区域的DNA分子之外，可以使用其他技术。例如，可以使用排列于第一染色体区域的DNA分子大小的分布来检测CNA。例如，无细胞肿瘤DNA小于正常细胞的无细胞DNA。这种大小差异可被用于检测该区域的两个单倍型之间或该区域与另一区域之间的大小分布(例如，平均大小或不同大小的DNA分子数量比例)的差异。

在框2120处，确定生物体的第一染色体区域中的第一单倍型和第二单倍型。两个单倍型可能已经被确定为框2115的一部分。可以使用相同的无细胞混合物或来自不同样品(例如细胞样品)确定两个单倍型。

在框2130处，鉴定第一染色体区域的一个或多个杂合基因座。每个杂合基因座包括第一单倍型中的相应的第一等位基因和第二单倍型中相应的第二等位基因。可以以与本文描述的方法的其他类似的框一样的类似的方式进行框2130。

在框2140处，鉴定了第一组的多个无细胞DNA分子。位于一个或多个杂合基因座中的任何一个处的第一组的每个DNA分子包括杂合基因座的相应的第一等位基因，并且包括N个基因组位点中的至少一个。N是大于或等于2的整数。可以以与本文描述的方法的其他类似的框一样的类似的方式进行框2140。

在框2150处，使用第一组的多个无细胞DNA分子测量在N个基因组位点处的N个第一混合甲基化水平。可以以与本文描述的方法的其他类似的框一样的类似的方式进行框2150。

在框2160处，鉴定第二组的多个无细胞DNA分子。位于一个或多个杂合基因座中的任何一个处的第二组的每个DNA分子包括杂合基因座的相应的第二等位基因，并且包括N个基因组位点中的至少一个。可以以与本文描述的方法的其他类似的框一样的类似的方式进行框2160。

在一些实施方案中，可以确定在第一组的多个无细胞DNA分子中的第一数量的无细胞DNA分子，并且可以确定在第二组的多个无细胞DNA分子中的第二数量的无细胞DNA分子无细胞DNA分子，例如如表11中所示。可以确定哪个数值更高，从而提供关于组织来源的预期分离值的信息，例如哪个单倍型应该具有更高的分数贡献。

第一组的多个无细胞DNA分子可以具有第一大小分布，并且第二组的多个无细胞DNA分子可以具有第二大小分布。可以为每个单倍型确定DNA分子大小分布的统计值，由此提供第一统计值和第二统计值。预计具有较小大小分布的单倍型具有比其他单倍型更高的拷贝数，因为已知肿瘤无细胞DNA较小，如描述于美国专利第8,741,811号中。大小分布的统计值的实例是不同大小、平均大小的多个DNA分子的比例，或特定大小(例如，低于截止大小)的DNA分子的百分比。

在框2170处，使用第二组的多个无细胞DNA分子测量N个基因组位点处的N个第二混合甲基化水平。可以以与本文描述的方法的其他类似的框一样的类似的方式进行框2170。

可以针对多个M种组织类型中的每一个进行框2180和2190。M种组织类型可以包括筛选的组织类型的默认列表，并且参考甲基化水平可以是已知的。默认列表可以包括癌症是最主要见到的组织。M是大于1的整数。

在框2180处，计算机系统使用N个第一甲基化水平确定混合物中组织类型的相应的第一分数贡献。计算机系统使用N个第二甲基化水平确定混合物中组织类型的相应的第二分数贡献。可以以与本文描述的方法的其他类似的框一样的类似的方式进行框2180。

在框2190处，计算相应的第一分数贡献和相应的第二分数贡献之间的相应的分离值。可以使用各种分离值，例如，如本文所述的。

在框2195处，基于具有相应的单独值中的最大值的第一组织类型的第一分离值，第一组织类型被鉴定为拷贝数异常的来源。该确定可以要求最高分离值足够高于第二最高分离值。例如，可以要求差异至少为阈值，例如1％、2％、35、4％、5％、6％或7％。在一实施方式中，可以将第一分离值与下一个最高分离值之间的差异与阈值进行比较，以确定第一组织类型是拷贝数异常的来源的可能性的分类。因此，即使差异不高于阈值，也可以提供概率或其他分类。例如，可以使用从0到阈值的线性关系，其中一旦差值等于阈值，概率为100％。

取决于如何确定分离值，最大值可以是最大负数或最大正数。例如，可以使用HapII-Hap I来确定表14中的差异值。无论最大值应该是正值还是负值，都可以使用在每个单倍型上的DNA分子的分析来确定，例如，如表13中的计数或如上所述的大小分析。在一些实施方式中，总是可以确定分离值，使得最大正值是预期的，例如通过从具有较高拷贝数的单倍型的分数贡献中减去具有较低拷贝数的单倍型的分数贡献。

在来源被鉴定后，可以进行对象(整个对象或特定候选器官)的使用成像模态(例如，计算机断层扫描(CT)扫描或磁共振成像(MRI))的调查以确认或排除器官中肿瘤的存在。如果证实存在肿瘤，则可以进行治疗，例如手术(通过刀或辐射)或化学疗法。

IX.计算机系统

本文中提及的任何计算机系统都可以利用任何适合数目的子系统。所述子系统的实例展示于图22中计算机设备10。在一些实施例中，计算机系统包括单一计算机设备，其中子系统可以是计算机设备的组件。在其它实施例中，计算机系统可以包括多个具有内部组件的各自作为子系统的计算机设备。计算机系统可以包括台式和便携式计算机、平板电脑、移动电话和其它移动装置。

图22中所示的子系统经由系统总线75互连。展示其它子系统，例如打印机74、键盘78、存储装置79、与显示适配器82耦接的监视器76等。与I/O控制器71耦接的外围装置和输入/输出(I/O)装置可以通过本领域中已知的诸如输入/输出(I/O)端口77的许多构件(例如USB、

)与计算机系统连接。举例来说，I/O端口77或外部接口81(例如以太网、Wi-Fi等)可以用以将计算机系统10连接到广域网(例如因特网)、鼠标输入装置或扫描仪。经由系统总线75的互连使得中央处理器73与每个子系统通信并且控制来自系统存储器72或存储装置9(例如固定磁盘)的指令的执行以及子系统之间的信息的交换。系统存储器72和/或存储装置79可以包含计算机可读介质。另一子系统是数据收集装置，例如照相机、扩音器、加速计等。本文中提及的任何数据都可以由一个组件向另一个组件输出并且可以向用户输出。

计算机系统可以包括例如通过外部接口81或通过内部接口连接在一起的多个相同组件或子系统。在一些实施例中，计算机系统、子系统或设备可以经网络通信。在所述情况下，一个计算机可以视为客户端并且另一个计算机视为服务器，其中每一者可以是同一计算机系统的一部分。客户端和服务器可以各自包括多个系统、子系统或组件。

实施方案的各方面都可以按控制逻辑形式以模块化或集成方式使用硬件(例如专用集成电路或现场可编程门阵列)和/或使用具有通用可编程处理器的计算机软件来实施。如本文中所用，处理器包括单核处理器、同一集成芯片上的多核处理器，或单一电路板上或网络连接的多个处理单元。基于本发明和本文中所提供的传授内容，本领域的普通技术人员将知道并且了解使用硬件和硬件与软件的组合来实施本发明的实施例的其它方式和/或方法。

本申请中描述的任何软件组件或函数都可以实施为由处理器使用任何适合的计算机语言(例如Java、C、C++、C#、Objective-C、Swift或scripting language诸如Perl或Python的脚本语言程序)、使用例如常规或面向对象的技术执行的软件代码。软件代码可以存储为用于存储和/或传输的计算机可读介质上的一系列指令或命令，适合的非暂时性计算机可读介质包括随机存取存储器(RAM)、只读存储器(ROM)、磁性介质(例如硬盘驱动器或软性磁盘)或光学介质(例如光盘(CD)或DVD(数字通用光盘))、快闪存储器等。计算机可读介质可以是此类存储或传输装置的任何组合。

所述程序还可以使用适合于经由符合多种方案的有线、光学和/或无线网络(包括因特网)传输的载波信号来编码和传输。因此，计算机可读介质可以使用以此类程序编码的数据信号产生。以程序代码编码的计算机可读介质可以与相容装置一起封装或与其它装置分开地提供(例如经由因特网下载)。任何此类计算机可读介质都可以存在于单一计算机产品(例如硬盘驱动器、CD或整个计算机系统)之上或之内，并且可以存在于系统或网络内的不同计算机产品之上或之内。计算机系统可以包括用于向用户提供本文中提及的任何结果的监视器、打印机或其它适合的显示器。

本文中所描述的任何方法都可以完全或部分地用计算机系统执行，所述计算机系统包括一或多个处理器，所述处理器可以经配置以执行所述步骤。因此，实施例可以涉及经配置以执行本文中所描述的任何方法的步骤的计算机系统，可能用不同组件执行相应的步骤或相应群组的步骤。尽管本文中方法的步骤以编号步骤的形式呈现，但其可以同时或以不同顺序执行。另外，这些步骤的部分可以与其它方法的其它步骤的部分一起使用。此外，步骤的全部或部分可以是任选的。另外，任何方法的任何步骤都可以用执行这些步骤的模块、单元、电路或其它构件来执行。

可以在不脱离本发明的实施方案的精神和范围下以任何适合的方式组合特定实施方案的特定细节。然而，本发明的其它实施方案可以涉及与每个个别方面或这些个别方面的特定组合相关的特定实施方案。

已经出于说明和描述的目的呈现了本发明的例示性实施方案的以上描述。其并不打算是穷尽性的或将本发明限制于所描述的精确形式，并且鉴于以上传授内容许多修改和变化是可能的。

除非具体地相反指示，否则“一(a/an)”或“所述(the)”的叙述打算意指“一或多个”。使用“或”意指“兼有或”，并且不“排除或”，除非明确指出相反。提及“第一”组件并非必需要求提供第二组件。而且，提及“第一”或“第二”组件并非将所提及的组件限制于具体位置，除非明确指明。

此处提及的所有专利、专利申请案、公开案和描述都以全文引用的方式并入以达成所有目的。不承认任一者是现有技术。

Claims

1.计算机可读介质，其存储有多个指令，所述指令用于控制计算机系统以执行利用来自孕妇的生物样品确定所述孕妇的未出生胎儿的胎儿基因组的一部分中的序列失衡的方法，其中所述生物样品包括来自多个组织类型的无细胞DNA分子的混合物，所述多个组织类型包括母体组织类型和胎儿组织类型，所述未出生胎儿具有父亲和身为所述孕妇的母亲，所述方法包括：

分析来自所述生物样品的多个无细胞DNA分子，所述多个无细胞DNA分子为至少1,000个无细胞DNA分子，其中分析无细胞DNA分子包括：

鉴定所述无细胞DNA分子在参考人类基因组中的位置；和

确定所述无细胞DNA分子各自的等位基因；

鉴定目标染色体区域的目标基因座；

鉴定目标组的多个无细胞DNA分子，各无细胞DNA分子：

位于所述目标基因座的任一个处，和

包括所述目标染色体区域中的N个基因组位点的至少一个，N是大于或等于2的整数；

利用所述目标组的多个无细胞DNA分子测量所述N个基因组位点处的N个目标混合甲基化水平；

利用所述N个目标混合甲基化水平，确定所述混合物中胎儿组织类型的第一目标分数贡献；和

鉴定参考染色体区域的多个参考基因座；

鉴定参考组的多个无细胞DNA分子，各无细胞DNA分子：

位于所述参考基因座的任一个处，和

包括所述参考染色体区域中的K个基因组位点的至少一个；

利用所述参考组的多个无细胞DNA分子测量所述K个基因组位点处的K个参考混合甲基化水平；

利用所述K个参考混合甲基化水平，确定所述混合物中胎儿组织类型的第一参考分数贡献；

计算所述第一目标分数贡献和所述第一参考分数贡献之间的第一分离值；

将所述第一分离值与阈值进行比较，以确定所述未出生胎儿对于所述目标染色体区域是否具有序列失衡的分类。

2.如权利要求1所述的计算机可读介质，其中所述序列失衡是目标染色体区域的扩增。

3.如权利要求1所述的计算机可读介质，其中使用的所述阈值取决于被测试的序列失衡的类型。

4.如权利要求1所述的计算机可读介质，其中所述方法还包括：

测量所述生物样品中的胎儿DNA百分比；以及

利用所述胎儿DNA百分比来确定所述阈值。

5.如权利要求1所述的计算机可读介质，其中所述方法还包括：

利用参考组的样品来确定所述阈值，所述样品均具有所述序列失衡或均不具有所述序列失衡。

6.如权利要求1所述的计算机可读介质，其中所述目标染色体区域是第一染色体，并且所述参考染色体区域是不同于所述第一染色体的第二染色体。

7.如权利要求1所述的计算机可读介质，其中分析无细胞DNA分子包括：确定无细胞DNA分子的尺寸，其中所述目标组的多个无细胞DNA分子具有第一大小分布，并且其中所述参考组的多个无细胞DNA分子具有第二大小分布，所述方法还包括：

确定所述第一大小分布的第一统计值；

确定所述第二大小分布的第二统计值；以及

比较所述第一统计值和所述第二统计值来确定所述未出生的胎儿对于所述目标染色体区域是否存在序列失衡的分类。

8.计算机可读介质，其存储有多个指令，所述指令用于控制计算机系统以执行分析移植受体的生物样品用于确定第一组织类型的移植器官排斥的方法，所述生物样品包括来自多个组织类型的无细胞DNA分子的混合物，所述多个组织类型包括第一组织类型，所述方法包括：

鉴定所述无细胞DNA分子在对应于所述移植受体的参考基因组中的位置；和

确定所述无细胞DNA分子各自的等位基因；

鉴定一个或多个基因座，各基因座具有第一染色体区域的第一单倍型上的对应的第一等位基因，其中所述第一单倍型：

不存在于所述移植受体的细胞中，或者

存在于所述移植受体的细胞中，但不存在于所述移植器官的细胞中；

鉴定第一组的多个无细胞DNA分子，各无细胞DNA分子：

位于所述一个或多个基因座的任一个处，

包括一个基因座的对应的第一等位基因，和

包括N个基因组位点的至少一个，N是大于或等于5的整数；

利用所述第一组的多个无细胞DNA分子测量所述N个基因组位点处的N个第一混合甲基化水平；

利用所述N个第一混合甲基化水平确定所述混合物中所述第一组织类型的第一分数贡献；

确定所述第一分数贡献和参考分数贡献之间的第一分离值；

将所述第一分离值与阈值进行比较，以确定所述移植器官是否被移植受体排斥的分类。

9.如权利要求8所述的计算机可读介质，其中所述第一单倍型在第一染色体上，并且其中所述第一组织类型在所述第一染色体的两个拷贝上均具有所述第一单倍型。

10.如权利要求8所述的计算机可读介质，其中所述第一单倍型不存在于所述移植受体的细胞中，并且其中所述第一单倍型与移植器官的排斥相关。

11.如权利要求10所述的计算机可读介质，其中当所述第一分离值大于所述阈值时，所述移植器官被确定为被所述移植受体排斥。

12.如权利要求10所述的计算机可读介质，其中所述方法还包括：

鉴定第二组的多个无细胞DNA分子，各无细胞DNA分子：

位于所述一个或多个基因座的任一个处，

包括所述第一染色体区域的第二单倍型上的对应的第二等位基因，所述第二单倍型不存在于所述移植受体的细胞中，并且所述第二单倍型与移植器官的排斥相关，和

包括所述N个基因组位点的至少一个；

利用所述第二组的多个无细胞DNA分子测量所述N个基因组位点处的N个第二混合甲基化水平；

利用所述N个第二混合甲基化水平确定所述混合物中所述第一组织类型的第二分数贡献；

确定所述第二分数贡献和所述参考分数贡献之间的第二分离值；

将所述第二分离值与阈值进行比较，作为确定所述移植器官被所述移植受体排斥的分类的一部分。

13.如权利要求8所述的计算机可读介质，其中所述方法还包括：

通过以下确定所述第一单倍型上位于所述一个或多个基因座的每一个的对应的第一等位基因：

分析具有所述第一单倍型的组织样品的DNA分子以确定所述第一单倍型。

14.如权利要求8所述的计算机可读介质，其中所述参考分数贡献由移植受体的生物样品的一个或多个测量结果确定，在所述移植受体中，移植的第一组织未被排斥。

15.如权利要求8所述的计算机可读介质，其中所述参考分数贡献为零。

16.如权利要求8所述的计算机可读介质，其中所述N个第一混合甲基化水平形成甲基化向量b，并且其中确定所述第一组织类型的所述第一分数贡献包括：

对于M个组织类型的每一个：

获得所述N个基因组位点处的N个组织特异性甲基化水平，N大于或等于M，其中所述组织特异性甲基化水平形成N×M维度的矩阵A，所述M个组织类型包括所述第一组织类型，所述M为大于一的整数；

解出组合向量x，其提供矩阵A的甲基化向量b；以及

对于所述组合向量x的一个或多个组件的每一个组件：

利用所述组件确定所述混合物中M个组织类型的对应的组织类型的对应的分数贡献。

17.如权利要求8所述的计算机可读介质，其中所述第一单倍型存在于所述移植受体的细胞中，但不存在于所述移植器官的细胞中。

18.如权利要求8所述的计算机可读介质，其中当所述第一分离值小于所述阈值时，所述移植器官被确定为被所述移植受体排斥。

19.计算机可读介质，其存储有多个指令，所述指令用于控制计算机系统以执行分析癌症患者的生物样品用于确定第一组织类型的癌症等级的方法，所述生物样品包括来自多个组织类型的无细胞DNA分子的混合物，所述多个组织类型包括第一组织类型，所述方法包括：

鉴定所述无细胞DNA分子在对应于所述癌症患者的参考基因组中的位置；和

确定所述无细胞DNA分子各自的等位基因；

不存在于所述癌症患者的健康细胞中，或者

存在于所述癌症患者的健康细胞中，但不存在于所述第一组织类型的癌细胞中；

鉴定第一组的多个无细胞DNA分子，各无细胞DNA分子：

位于所述一个或多个基因座的任一个处，

包括一个基因座的对应的第一等位基因，和

包括N个基因组位点的至少一个，N是大于或等于5的整数；

确定所述第一分数贡献和参考分数贡献之间的第一分离值；

将所述第一分离值与阈值进行比较，以确定所述癌症患者的第一组织类型的癌症等级的分类。

20.如权利要求19所述的计算机可读介质，其中所述第一单倍型在第一染色体上，并且其中所述第一组织类型在所述第一染色体的两个拷贝上均具有所述第一单倍型。

21.如权利要求19所述的计算机可读介质，其中所述第一单倍型不存在于所述癌症患者的健康细胞中，并且其中所述第一单倍型与癌症等级相关。

22.如权利要求21所述的计算机可读介质，其中当所述第一分离值大于所述阈值时，所述第一组织类型被确定为具有癌症。

23.如权利要求21所述的计算机可读介质，其中所述方法还包括：

鉴定第二组的多个无细胞DNA分子，各无细胞DNA分子：

位于所述一个或多个基因座的任一个处，

包括所述第一染色体区域的第二单倍型上的对应的第二等位基因，所述第二单倍型不存在于所述癌症患者的健康细胞中，并且所述第二单倍型与癌症等级相关，和

包括所述N个基因组位点的至少一个；

将所述第二分离值与阈值进行比较，作为确定所述癌症患者的第一组织类型的癌症等级的分类的一部分。

24.如权利要求19所述的计算机可读介质，其中特定的癌症在所述特定的癌症的癌症基因组中具有所述第一单倍型。

25.如权利要求24所述的计算机可读介质，其中所述特定的癌症选自肝癌、肺癌、胰腺癌、心房癌、结肠癌、肾上腺癌、食管癌、小肠癌和CD4 T细胞癌。

26.如权利要求19所述的计算机可读介质，其中所述第一组织类型的癌症等级的分类包括：是否存在癌症的分类、癌症阶段的分类、肿瘤尺寸的分类、和/或转移的分类。

27.如权利要求19所述的计算机可读介质，其中所述方法还包括：

利用所述N个第一混合甲基化水平确定所述混合物中其它组织类型的多个对应的分数贡献；

确定所述多个对应的分数贡献和对应的参考分数贡献之间的对应的分离值；以及

将所述对应的分离值与所述阈值进行比较，以确定所述癌症患者的其它组织类型的每一个的癌症等级的分类。

28.如权利要求21所述的计算机可读介质，其中位于所述一个或多个基因座的每一个的对应的第一等位基因是癌症特异性突变。

29.如权利要求19所述的计算机可读介质，其中所述方法还包括：

30.如权利要求19所述的计算机可读介质，其中所述参考分数贡献由癌症患者的生物样品的一个或多个测量结果确定，在所述癌症患者中，所述第一组织类型是健康。

31.如权利要求19所述的计算机可读介质，其中所述参考分数贡献为零。

32.如权利要求19所述的计算机可读介质，其中所述N个第一混合甲基化水平形成甲基化向量b，并且其中确定所述第一组织类型的所述第一分数贡献包括：

对于M个组织类型的每一个：

解出组合向量x，其提供矩阵A的甲基化向量b；以及

对于所述组合向量x的一个或多个组件的每一个组件：

33.如权利要求19所述的计算机可读介质，其中所述第一单倍型存在于所述癌症患者的健康细胞中，但不存在于所述第一组织类型的癌细胞中。

34.如权利要求19所述的计算机可读介质，其中当所述第一分离值小于所述阈值时，所述第一组织类型被确定为具有癌症。

35.如权利要求19所述的计算机可读介质，其中所述癌细胞来自肿瘤。

36.计算机产品，其包括权利要求1-35中任一项所述的计算机可读介质。

37.系统，其包括：

权利要求36所述的计算机产品；以及

一个或多个处理器，其用于执行存储在所述计算机可读介质上的指令。

38.系统，其包括用于执行权利要求1-35中的任一方法的装置。

39.系统，其包括分别执行权利要求1-35中的任一方法的步骤的模块。