CN115667543A

CN115667543A - 用于监测器官健康和疾病的方法和系统

Info

Publication number: CN115667543A
Application number: CN202280004277.4A
Authority: CN
Inventors: 李勇; R·塔夫特; A·G·克劳福德; N·金
Original assignee: Inmair Ltd
Current assignee: Inmair Ltd
Priority date: 2021-02-09
Filing date: 2022-02-07
Publication date: 2023-01-31
Also published as: US20230175064A1; WO2022173698A1; EP4291681A1

Abstract

提供了用于监测组织和器官健康的方法、组合物和系统。本文提供的方法、组合物和系统包括但不限于基于全基因组序列(WGS)的方法，用于评估来自无细胞DNA(cfDNA)样品的拷贝数信号以鉴定组织特异性cfDNA拷贝数谱并且使得能够定量(830)所述cfDNA样品中的组织级分。

Description

用于监测器官健康和疾病的方法和系统

技术领域

本文提供的系统、方法和组合物涉及用于从样品中提取基因座特异性cfDNA拷贝数信号以用于健康监测、诊断或细胞谱分析和分析的方法。具体地，所述系统、方法和组合物涉及用于分析样品中的无细胞DNA(cfDNA)以确定组织或细胞类型对样品中总cfDNA的相对贡献的方法。本文提供的方法利用序列特异性cfDNA覆盖度、强度或拷贝数信号，并且不涉及直接确定cfDNA上的甲基化状态。

背景技术

近年来，无细胞DNA(cfDNA)已成为用于疾病诊断的生物标记物发现的有前景的来源。特别地，胎儿cfDNA和完整胎儿细胞可进入母体血液循环。因此，对这种胎儿遗传物质的分析可允许早期无创产前检测(NIPT)。对胎儿cfDNA进行NIPT的关键挑战是其通常与母体cfDNA混合，并且因此对cfDNA的分析因需要考虑母体基因型信号而受到阻碍。此外，对cfDNA的分析可用作检测和诊断癌症的诊断工具。

用于从无细胞核酸样品(例如，血浆样品)制备测序文库的当前方案通常涉及分离cfDNA以制备用于分析的测序文库。然而，分析cfDNA的现有方法(无论是用于NIPT还是肿瘤学应用)依赖于提取来自cfDNA测序的遗传变化的信号，并且因此限于NIPT和肿瘤学。

发明内容

本公开涉及用于分析样品中的cfDNA以提取用于定量所述样品中的cfDNA的组织和/或细胞特异性级分的cfDNA基因座特异性拷贝数信号的系统、方法和组合物。

本文提供的一些实施方案涉及分析生物样品中的无细胞DNA(cfDNA)的方法。在一些实施方案中，所述样品来自患有潜在细胞死亡或组织或疾病损伤的人受试者。在一些实施方案中，细胞死亡或组织/器官损伤包括钝伤如头部创伤、肝或肾上的药物毒性、涉及器官损伤的疾病如心肌病中的心脏损伤、肾病中的肾损伤、肝病中的肝损伤或糖尿病中的β细胞死亡。在一些实施方案中，细胞死亡或组织/器官损伤包括癌症或怀孕，其中发生过量的细胞死亡或细更新。

在一些实施方案中，所述方法包括获得包含cfDNA的生物样品，其中所述cfDNA包含多个cfDNA片段，每个片段对应于一种或多种组织或细胞类型；定量每个cfDNA片段以产生全基因组或靶向(基因座特异性)cfDNA谱，其中所述全基因组cfDNA谱包括多个拷贝数信号，每个拷贝数(包括覆盖度或强度)信号对应于cfDNA片段；以及将所述全基因组cfDNA拷贝数信号谱与参考拷贝数信号谱的集合进行比较，以确定或定量细胞损伤、组织损伤或器官损伤的来源。在一些实施方案中，所述方法任选地包括通过从样品下拉或PCR来富集cfDNA以提供富集的cfDNA。

本文提供的一些实施方案涉及监测受试者中的组织或器官损伤的进展的方法。在一些实施方案中，所述方法包括从所述受试者获得生物样品，其中所述生物样品包含无细胞DNA(cfDNA)；定量所述样品中的所述cfDNA以获得包括多个拷贝数信号的全基因组cfDNA拷贝数信号谱，每个拷贝数信号对应于特定细胞类型或组织类型的cfDNA片段；以及将所述全基因组cfDNA拷贝数信号谱与健康受试者或纯组织类型的已知拷贝数信号谱的集合进行比较。在一些实施方案中，所述定量在没有PCR或富集的情况下进行。在一些实施方案中，与所述已知拷贝数信号相比，所述样品中拷贝数信号的差异与所述受试者中与组织或器官损伤有关的疾患相关。

本文提供的另外的实施方案涉及基于解剖起源定量无细胞DNA(cfDNA)片段的方法。在一些实施方案中，所述方法包括对包含cfDNA片段的样品进行基于测序的测定。根据基于测序的测定的结果，获得一个或多个目标cfDNA片段的相应拷贝数。将所述一个或多个目标cfDNA片段的所述相应拷贝数与相应参考拷贝数进行比较。所述相应参考拷贝数与目标细胞类型、组织类型或器官类型相关。

本文提供的另外的实施方案涉及基于解剖起源定量无细胞DNA(cfDNA)片段的方法。在一些实施方案中，所述方法包括获取或得到包含cfDNA片段的生物样品。不同cfDNA片段与从其获得所述样品的受试者内的不同细胞类型、组织类型或器官类型相关。对所述生物样品进行全基因组序列(WGS)测定以生成全基因组cfDNA谱，所述全基因组cfDNA谱包括所述生物样品内的多种cfDNA片段类型的每种cfDNA片段类型的相应拷贝数信号。将所述全基因组cfDNA谱与已知cfDNA拷贝数特征的参考谱进行比较。每种已知的cfDNA拷贝数特征对应于不同的相应细胞类型、组织类型或器官类型。

附图说明

图1示出描绘沿靶向染色体位置的cfDNA的肾组织和血液信号谱的图。使用来自从cfDNA测序获得的肾病患者的血浆cfDNA拷贝数信号的非负矩阵因子分解方法提取组织/细胞类型特异性信号。在cfDNA样品上通过多重PCR测定靶区域。

图2描绘与如通过独立测定确认的图1有关的组织信号谱。

图3描绘示出基于血浆中肾cfDNA的级分的定量预测患者中的肾衰竭的结果的图。

图4A和4B描绘在一组肾移植受者中随时间变化的来自肾组织的DNA比例的时程模式的图。图3A示出供体肾cfDNA的估计的肾级分，并且图3B示出患者自身的肾cfDNA的估计的肾级分。图3A和3B两者均示出随时间推移的统计学显著变化，并且时间变化的模式与对于这些患者已知的生物医学程序一致。

图5描绘跨各种疾病的结肠cfDNA的组分级分，其中发现克罗恩病的级分显著大于所分析的其它疾病。

图6描绘说明用于评价用于组织cfDNA定量的cfDNA样品的过程的框图。

图7至图11描绘根据本发明技术的方面作为一系列屏幕的如可作为图形或显示用户界面的一部分呈现的用于cfDNA样品的WGS方案的步骤。

图12A至12D描绘呈信号显著性对比频率的p值(即，p值分布)的曲线形式的研究的结果的图表。

图13描绘呈信号显著性对比所观察到的基因座的cfDNA计数的p值的曲线形式的研究的结果的图表。

图14描绘图13中所示数据的条形图形式的总结。

图15描绘说明患者/对照差异信号的基因集富集分析的结果的表。

图16描绘关于对数正态分布(垂直轴)和泊松分布(水平轴)的cfDNA信号不均匀性的图，其示出正常(N)、肾病(KD)和癌症(SIN)数据点的可观察到的聚类或分离。

图17描绘图14中绘制的三个组(正常/对照、肾病和癌症)的对数(线粒体DNA级分)的图。

图18描绘说明用于评价用于组织cfDNA定量的cfDNA样品的过程的框图。

图19描绘说明用于评价用于组织cfDNA定量的cfDNA样品的过程的框图。

具体实施方式

在以下具体实施方式中，参考了附图，附图形成具体实施方式的一部分。在附图中，除非上下文另有规定，否则类似的符号通常标识类似的组分。具体实施方式、附图和权利要求书中所述的示例性实施方案并非旨在为限制性的。在不脱离本文所提出的主题的精神或范围的情况下，可利用其他实施方案，并且可作出其他改变。将容易理解的是，如本文大体所述并且如附图所示，本公开的各方面可被布置、替代、组合、分离和设计成多种不同的构型，所有这些构型均明确涵盖于本文中。

本文提供的系统、方法和组合物的实施方案涉及分析样品中的核酸片段以确定多少核酸片段源自受试者身体的各种部分的基因组的各种部分。更具体地，本文提供的系统、方法和组合物涉及分析样品中的cfDNA群体以确定来自受试者身体的各种部分的基因组的各种部分的cfDNA的相对量。因此，所述系统、方法和组合物涉及cfDNA的组织起源定量，并且可在涉及细胞死亡升高或遗传改变升高的广泛应用中使用，包括例如用于监测疾病进展、监测器官或组织健康、诊断或检测疾病、确定药物功效或毒性或新生儿健康监测。

在一个实施方案中，已知携带cfDNA的生物样品(诸如血浆)取自疑似具有特定类型的器官损伤或细胞更新升高的受试者。对生物样品中的cfDNA进行全基因组序列(WGS)分析，以鉴定可显示比典型受试者中更多或更少cfDNA的基因组区域。例如，如果受试者患有肝损伤或肾衰竭，则与基线对照群体相比，可能期望看到源自肝或肾的更多cfDNA。一旦完成序列分析，就通过各种不同的机器学习、人工智能或其它方案进行比较，以鉴定来自受试者的cfDNA与基线对照的差异。在一个实施方案中，分析的一部分可包括定量来自受试者的不同组织和正常基线对照的cfDNA的相对级分。在一些实施方案中，定量可包括确定一组参考组织谱以及基于全基因组cfDNA覆盖度数据定量cfDNA样品中组织cfDNA的级分中的一者或两者。

例如，对于一组正常和/或患病样品的全基因组或靶向cfDNA拷贝数谱，导出一组参考cfDNA覆盖度谱，并且所得线性组合重建来自正常和/或患病样品的cfDNA拷贝数信号。每个参考谱对应于特定细胞或组织类型。使用无监督机器学习方法诸如非负矩阵因子分解，可分解来自个体的cfDNA信号并提取参考组织或细胞特异性谱，从而生成基线参考谱。根据体液类型，主要细胞或组织类型可不同。例如，对于血浆，白细胞信号谱将是主要贡献因素。图1中描绘提取的肾组织的示例性分析和沿靶向染色体位置的cfDNA的血液信号谱。在此示例中，使用来自先前测定的数据，有可能不仅定量供体的肾级分，而且定量患者自身的肾级分，如图1所示。更具体地，并且如图1和2所示，嵌合体扩增子组中202个随机基因座的测序覆盖度含有指示cfDNA肾源的表观遗传信号，并且可对来自血浆中的混合物的肾和血液cfDNA信号进行数学分解。特别地，图1描绘所估计的组织模块中的两个的测序覆盖度谱。基于与来自ChIPAtlas数据库的独立表观遗传谱的谱相关性，这两个模块被注释为肾和血液组织。这些谱和相关性的实例在图2中示出，其中肾谱基于其与肾的多个表观遗传谱的相关性而命名。

分析cfDNA的传统方法需要序列特异性检测，这限制了测定的灵敏度并且不提供受试者中每种组织类型对生物样品中的总cfDNA的相对贡献的准确、可靠或可重现的确定。例如，与正常样品相比，传统方法可能不确定样品中多少cfDNA来自肺、脾、肝、肾等。cfDNA测序的先前方法是用于与监测移植物组织或癌症的状态有关的应用。然而，此类方法需要基于等位基因的分析，所述分析需要对供体与宿主或肿瘤与正常之间的单核苷酸变异进行测序和检测。不存在可从cfDNA测序、阵列杂交或类似方法定量受试者的自身器官健康状态的现有方法。

此外，通过组织活检进行用于监测器官或组织健康的传统方法。组织活检可用于检查和确定基于特定组织的疾病的存在或程度，并且可通过从取自受试者的组织活检样品中提取细胞或组织来进行。然而，这些方法是侵袭性的、耗时的、昂贵的，并且通常携带增加的意外健康后果风险。

相比之下，本文所述的系统、方法和组合物涉及确定源自各种组织的cfDNA片段的量。此外，本发明的系统、方法和组合物是非侵入性的，并且可提供对细胞死亡或组织损伤的动力学的直接确定。本文提供的系统、方法和组合物可允许在发现临床症状或受试者身体的功能恶化之前早期检测各种适应症。此外，这些方法不需要选择特异性靶向器官，而是使得护理人员能够发现哪些器官可能恶化，这是使用组织活检作为筛选方法不可能实现的。相关地，所述方法、系统和组合物可在单个分析中一次实现多个器官的定量和监测，具有比组织活检方法更少的取样偏差。此外，利用如本文所述的用于筛选和监测的方法可帮助降低不必要的活检的发生率和/或可有助于将活检程序靶向组织，在所述组织中存在潜在组织损伤的指示。

除非另外指明，否则本文所公开的方法和系统的实践包括分子生物学、微生物学、蛋白质纯化、蛋白质工程、蛋白质和DNA测序以及重组DNA领域中常用的常规技术和装置，这些技术和装置在本领域的技术范围内。此类技术和装置是本领域技术人员已知的，并且在许多文本和参考文献中有所描述(参见例如Sambrook等人，“Molecular Cloning:ALaboratory Manual”，第三版(Cold Spring Harbor)，[2001])；和Ausubel等人，“CurrentProtocols in Molecular Biology”[1987])。

数值范围包括限定该范围的数字。在本说明书通篇中给出的每一最大数值限度旨在包括每一更低数值限度，如同此类更低数值限度在本文中明确地写出一样。在本说明书通篇中给出的每一最小数值限度将包括每一更高数值限度，如同此类更高数值限度在本文中明确地写出一样。在本说明书通篇中给出的每一数值范围将包括落入此类更宽数值范围内的每一更窄数值范围，如同此类更窄数值范围均在本文中明确写出一样。

除非本文中另有定义，否则本文所用的所有技术和科学术语的含义与本发明所属领域的普通技术人员通常理解的含义相同。包括本文所包括的术语的各种科学词典是本领域技术人员熟知的并且是可用的。虽然与本文所述的方法和材料类似或等同的任何方法和材料也可用于本文所公开的实施方案的实践或测试，但本文描述了一些方法和材料。

下文紧接着定义的术语通过整体参考本说明书来进行更全面的描述。应当理解，本公开不限于所述的特定方法、方案和试剂，因为这些方法、方案和试剂可根据本领域技术人员使用它们的上下文而变化。如本文所用，除非上下文另有明确指示，否则单数术语“一个”、“一种”和“该”包括复数指代。

除非另外指明，否则分别地，以5'至3'的取向从左到右书写核酸，并且以氨基至羧基的取向从左到右书写氨基酸序列。

如本文所用，“多核苷酸”和“核酸”可互换使用，并且可指任何长度的核苷酸的聚合形式，即核糖核苷酸或脱氧核糖核苷酸。因此，这些术语包括单链、双链或多链DNA或RNA。多核苷酸的示例包括基因或基因片段、无细胞DNA(cfDNA)、整个基因组DNA、基因组DNA、表观基因组、基因组DNA片段、外显子、内含子、信使RNA(mRNA)、调控RNA、转移RNA、核糖体RNA、非编码RNA(ncRNA)诸如PIWI相互作用RNA(piRNA)、小干扰RNA(siRNA)和长非编码RNA(lncRNA)、小发夹(shRNA)、小核RNA(snRNA)、微RNA(miRNA)、小核仁RNA(snoRNA)和病毒RNA、核酶、cDNA、重组多核苷酸、支链多核苷酸、质粒、载体、任何序列的分离DNA、任何序列的分离RNA、核酸探针、引物或前述任一项的扩增拷贝。多核苷酸可包含经修饰的核苷酸，诸如甲基化的核苷酸和核苷酸类似物，包括具有非天然碱基的核苷酸、具有经修饰的天然碱基诸如氮杂或去氮杂嘌呤的核苷酸。多核苷酸可由以下四个核苷酸碱基的特定序列构成：腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)。当多核苷酸是RNA时，尿嘧啶(U)也可例如作为胸腺嘧啶的天然替代物存在。尿嘧啶也可用于DNA。术语“核酸序列”可以指多核苷酸或任何核酸分子(包括天然和非天然碱基)的字母表示。

术语供体DNA(dDNA)是指源自移植物供体的细胞的DNA分子。在各种实施方案中，dDNA在从接受来自供体的移植组织或器官的受赠者中获得的样品中发现。

循环无细胞DNA或简单地无细胞DNA(cfDNA)是未限制在细胞内并且在血流或其它体液中自由循环的DNA片段。已知cfDNA具有不同的起源，在一些情况下来自在受赠者血液中循环的供体组织DNA，在一些情况下来自肿瘤细胞或受肿瘤影响的细胞，在其它情况下来自母体血液中循环的胎儿DNA。其它非限制性示例包括源自例如同一生物体天然的组织或器官如肾、肺、脑和心脏的cfDNA。组织特异性cfDNA的水平可增加或减少，其中发生细胞死亡、组织损伤或器官损伤，包括例如钝伤如头部创伤、肝或肾中的药物毒性、涉及器官损伤的疾病如心肌病中的心脏损伤、肾病中的肾脏损伤、肝病中的肝损伤和糖尿病中的β细胞死亡。示例还包括癌症和怀孕，其中发生过量的细胞死亡或细胞更新。

通常，cfDNA被片段化并且仅包括一小部分基因组，其可与从其获得cfDNA的个体的基因组不同。cfDNA生物发生的确切机制是未知的。通常认为cfDNA来自凋亡或坏死细胞死亡，然而还存在表明活性cfDNA从活细胞释放的证据。一般来说，cfDNA源自多种细胞类型，并且取决于细胞起源和健康状态，受试者的全基因组cfDNA谱可变化。

术语非循环基因组DNA(gDNA)或细胞DNA用于指被限制在细胞中并且通常包含完整基因组的DNA分子。

二项式分布是n个独立实验的序列中成功数量的离散概率分布，每个实验询问是-否问题，并且各自具有其自身的布尔值结果：含有信息的单个位的随机变量：正(具有概率p)或负(具有概率q＝1-p)。对于单个试验，即n＝1，二项式分布是伯努利分布。通常使用二项式分布来模拟大小n样品中的成功数量，所述大小n采用大小N群体的替换绘制。如果随机变量X遵循参数

和p∈[0,1]的二项式分布，则随机变量X被写成X～B(n,p)。

本文表示为Pois()的泊松分布是表示给定数量的事件在固定时间间隔和/或空间中发生的概率的离散概率分布，如果这些事件以已知的平均速率发生并且与自上次事件以来的时间无关的话。泊松分布也可用于其它指定间隔如距离、面积或体积中的事件数量。根据泊松分布观察到间隔中的k事件的概率由以下等式给出：

其中λ是间隔中事件的平均数量或事件率，也称为率参数e是2.71828、欧拉数或自然对数的底，k取值0、1、2、…，并且k！是k的阶乘。

伽玛分布是连续概率分布的双参数簇。共同使用三种不同的参数化：形状参数k和尺度参数θ；形状参数α＝k，并且逆尺度参数β＝1/θ，称为率参数；或形状参数k和平均参数μ＝k/β。在这三种形式的每一者中，两个参数都是正实数。伽玛分布是随机变量X的最大熵概率分布，其中E[X]＝kθ＝α/β是固定的且大于0，并且E[ln(X)]＝ψ(k)+ln(θ)＝ψ(α)-ln(β)是固定的(ψ是双伽玛函数)。

本文中的术语“样品”是指通常来源于生物流体、细胞、组织、器官或生物体且包含核酸或核酸混合物的样品，并且在本文中可被称为生物样品。此类样品包括但不限于痰/口腔液、羊水、血液、血液级分或细针活检样品(例如，外科活检、细针活检等)、尿液、腹膜液、胸膜液等。虽然样品通常取自人类受试者(例如，患者)，但测定可用于来自任何哺乳动物的样品，这些哺乳动物包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样品可按从生物来源获得的原样直接使用，或者经过预处理以改变样品的性质后使用。例如，此类预处理可包括由血液制备血浆、稀释粘性流体等。预处理的方法还可包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分失活、添加试剂、裂解等。如果对于样品采用此类预处理方法，则此类预处理方法通常使得所关注核酸保留在试验样品中，有时其浓度与未处理的试验样品(例如，即未受到任何此类预处理方法的样品)中的浓度成比例。就本文所述的方法而言，此类“经处理的”或“处理后的”样品仍被视为生物“试验”样品。

本文中术语“生物流体”是指取自生物来源的液体，并且包括例如血液、血清、血浆、痰、灌洗液、脑脊液、尿液、精液、汗液、泪液、唾液等。如本文所用，术语“血液”、“血浆”和“血清”明确地涵盖其级分或加工部分。类似地，在样品取自活检、拭子、涂片等的情况中，“样品”明确地涵盖衍生自活检、拭子、涂片等的处理级分或部分。

可从受试者获得样品，其中希望监测组织或器官健康、诊断或检测疾病或以其它方式分析受试者的样品。如本文所用，“受试者”是指作为治疗、观察或实验对象的动物。“动物”包括冷血和温血脊椎动物和无脊椎动物，诸如鱼、贝类、爬行动物和(特别是)哺乳动物。“哺乳动物”包括但不限于小鼠、大鼠、兔子、豚鼠、狗、猫、绵羊、山羊、牛、马、灵长类动物(诸如猴、黑猩猩和猿)以及(特别是)人。受试者可以是患有或疑似患有癌症、遗传病症、器官损伤或组织损伤或可监测的其它疾病或病症的受试者。在一些实施方案中，受试者是器官受赠者，诸如为器官移植物的受者的受试者。在一些实施方案中，受试者由于慢性疾病或钝伤而具有潜在器官损伤。

所述系统、方法和组合物的实施方案涉及从受试者获得样品并且监测、检测、评价、预测或诊断所述受试者的疾病或病症、监测所述受试者的组织或器官损伤或评价或定量核酸组织起源。疾病可包括例如癌症、遗传病症、器官特异性病症或其它疾病或病症，其特征在于基于组织起源和/或疾病类型的不同基因组区域中的cfDNA增加。

如本文所用，术语参考基因组是指可用于参考来自受试者的已鉴定序列的任何生物体的任何特定已知基因组序列，无论是部分的还是完整的。“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。

本文提供的方法、系统和组合物的一些实施方案涉及基于全基因组cfDNA拷贝数(CN)信号同时定量cfDNA样品中的多种组织或细胞类型的相对贡献。根据预期应用，cfDNA样品可源自生物样品，例如源自血液、血浆、尿液、脑脊液或任何其它类型的人体体液。全基因组cfDNA覆盖度、拷贝数或强度信号可通过基于测序的DNA分子计数，诸如通过任何测序技术或通过基于杂交的DNA拷贝数定量技术获得。在一些实施方案中，可在拷贝数信号测量之前对cfDNA进行靶向PCR或富集测定或全基因组扩增。在任何实施方案中，可使用各种扩增方法，包括例如整个基因组的非特异性扩增，例如全基因组扩增(WGA)方法诸如MDA，或例如几kb的一些或单个选定区域的高度靶向PCR扩增。

鉴于来自来自本文所述的任何系统或方法的生物样品或一组生物样品的cfDNA覆盖度，可定量不同组织的相对级分。在一些实施方案中，定量可包括确定一组参考组织谱以及基于全基因组或靶向cfDNA覆盖度数据定量cfDNA样品中组织cfDNA的级分中的一组或两者。

例如，对于一组正常样品的全基因组cfDNA拷贝数谱，导出一组参考cfDNA覆盖度谱，使得所得线性组合对应于来自正常样品的cfDNA拷贝数谱。虽然血液cfDNA拷贝数谱对应于来自多种细胞或组织类型的信号的混合物，但是参考谱对应于特定细胞或组织类型。使用无监督机器学习方法如非负矩阵因子分解，可分解一组血浆cfDNA信号并提取参考谱，从而生成一组基线参考谱。根据体液类型，主要细胞或组织类型可不同。例如，对于血浆白细胞，信号谱将是主要贡献因素。

类似地，从具有已知器官损伤或与器官损伤相关的特定疾病的一组患者样品的全基因组cfDNA拷贝数谱，可采用半监督机器学习来提取除基线参考谱以外的组织或疾病特异性cfDNA谱。所获得的基线参考谱可用于考虑来自患者样品的cfDNA信号的基线部分，并且然后从未考虑的cfDNA覆盖度信号导出另外的组织参考谱。

无监督和半监督方法可进一步与基于深度神经网络的监督机器学习方法耦合以预测对相关cfDNA样品的获取受到限制的组织或细胞类型的cfDNA覆盖度谱。深度学习方法可用于鉴于给定细胞类型的表观遗传信号预测细胞类型的cfDNA覆盖度谱作为输入特征，包括例如DNA酶可接近性信号、组蛋白标记信号和基因组DNA甲基化信号。

因此，在一些实施方案中，一组参考组织谱用于目标样品上的组织定量。对于cfDNA覆盖度谱，可通过将观察到的cfDNA覆盖度谱线性投影到已知参考谱上来定量组织级分。

本文提供的系统、方法和组合物的实施方案可包括广泛应用，包括例如器官健康监测、药物毒性监测、运动医学、疾病诊断和检测、肿瘤学、无创产前检测(NIPT)和新生儿健康监测或疾病病理学研究。

在器官健康监测领域，所述系统、方法和组合物的实施方案可用于例如监测多个器官，诸如，例如肾、肺或心脏，并且用于从单个血液测试疾病前和疾病后监测和诊断。本文所述的实施方案包括靶向主要器官的低成本通用血液测试，使得能够早期检测和预防严重器官衰竭，包括用于监测高风险群体的策略。例如，对患有狼疮或糖尿病的患者的肾健康监测；对患有心肌病家族史的个体的心脏健康监测；或对患有败血症的患者的多器官健康监测。此外，除非观察到严重的功能结果，否则例如头部或胸部/肺区域上创伤(钝伤)的严重程度不易接近。本文提供的系统、方法和组合物的实施方案能够定量监测创伤的严重程度，并通知早期医疗干预。

在药物毒性监测领域，所述系统、方法和组合物的实施方案可用于例如监测给定患者中处方药物的肝或肾毒性，从而实现个性化用药和对个别患者的药物方案的实时调整，或测量临床试验中新药物的肝或肾药物毒性。

在运动医学领域中，所述系统、方法和组合物的实施方案可用于例如监测由于强化训练所致的身体损伤的量级，从而实现运动员训练时间表的合理调整并预防过度训练综合征。发现无细胞DNA随运动而增加。对于运动员，过度训练综合征(OTS)是当他们不断挑战极限时频繁发生的状况。一旦发生OTS，就可能需要数天至数周来恢复，或在一些情况下，运动员可能从不恢复。用于肌肉cfDNA定量的方法并且因此OTS的早期检测和预防将对运动员具有高价值以实现最佳训练结果。

在疾病诊断和检测领域中，所述系统、方法和组合物的实施方案可用于例如监测或分析难以诊断或经常错误诊断的疾病，例如肠易激综合征、炎症性肠病、乳糜泻、纤维肌痛、类风湿性关节炎、多发性硬化症、狼疮、多囊卵巢综合征、阑尾炎、克罗恩氏病、溃疡性结肠炎或特发性肌病。这些疾病中的一些通常仅使用组织活检可靠地诊断。当前使用组织活检来诊断许多疾病，诸如乳糜泻。存在许多没有现有诊断标记物或缺乏良好诊断标记物的疾病，例如慢性疲劳综合征。本文提供的系统、方法和组合物的实施方案能够监测、检测、评估、预测或诊断这些和其它疾病和病症。例如，所述系统和方法的实施方案可用于确定用于鉴定某种疾病的某些组织组分的级分。如图5所示，例如，结肠cfDNA的组分级分显示在各种疾病上，其中克罗恩氏病的级分显著大于所分析的其它疾病。

在肿瘤学领域，所述系统、方法和组合物的实施方案可例如用于cfDNA的组织起源定量和从单一cfDNA全基因组序列(WGS)测定确定癌症组织起源以及突变。WGS包括个体的种系基因组的整个序列(包括所有染色体)。

在NIPT和新生儿健康监测领域中，所述系统、方法和组合物的实施方案可例如用于确定和监测母体健康状态，并且测量针对胎儿的母体免疫反应。一些实施方案涉及预测流产和早产。一些实施方案涉及通过新生血浆cfDNA测序监测、研究、诊断或预测新生儿健康状况，诸如器官早产、黄疸、遗传缺陷或其它新生健康状况。

在疾病病理学研究领域中，所述系统、方法和组合物的实施方案可例如用于简单和低成本的组织起源定量，以使得研究人员的纵向研究能够通过对多个人类器官之间的动力学和相互作用进行谱分析来了解许多疾病的发病机制。

因此，本文提供的一些实施方案涉及用于定量受试者中的cfDNA的方法和系统。在一些实施方案中，所述方法包括获得已知携带来自患有或疑似患有特定类型的癌症的受试者的cfDNA(如血浆)的生物样品。如本文所用，“癌症”是指在哺乳动物、尤其是人类中发现的所有类型的癌症或赘瘤或恶性肿瘤，包括白血病、肉瘤、癌和黑素瘤。癌症的示例是脑癌、乳腺癌、宫颈癌、结肠癌、头颈癌、肾癌、肺癌、非小细胞肺癌、黑素瘤、间皮瘤、卵巢癌、肉瘤、胃癌、子宫癌和成神经管细胞瘤。另外的癌症可包括例如霍奇金氏病、非霍奇金氏淋巴瘤、多发性骨髓瘤、成神经细胞瘤、乳腺癌、卵巢癌、肺癌、横纹肌肉瘤、原发性血小板增多症、原发性巨球蛋白血症、小细胞肺部肿瘤、原发性脑瘤、胃癌、结肠癌、恶性胰腺胰岛瘤、恶性类癌瘤、膀胱癌、皮肤癌前病变、睾丸癌、淋巴瘤、甲状腺癌、成神经细胞瘤、食道癌、泌尿生殖道癌、恶性高钙血症、宫颈癌、子宫内膜癌、肾上腺皮质癌和前列腺癌。

在一些实施方案中，对生物样品中的cfDNA进行全基因组序列(WGS)分析，以鉴定与健康患者中的cfDNA的量相比或与跨健康患者的截面的cfDNA水平相比可显示升高或减少量的cfDNA的区域。例如，如果患者患有肝损伤或肝癌，则与来自基线对照群体的肝的cfDNA水平相比，可预期观察到被鉴定为来源于肝的升高的cfDNA水平。可通过本文提供的各种算法从总cfDNA水平确定某种类型的cfDNA的水平，包括通过各种机器学习、人工智能或其它算法进行分析以鉴定与基线对照相比来自患者的特定cfDNA的水平和差异，或者鉴定和比较源自多种组织类型的多种类型的cfDNA的水平和差异。在一些实施方案中，对cfDNA的分析包括定量来自受试者的不同组织和正常基线对照的cfDNA的相对级分。在一些实施方案中，定量可包括确定一组参考组织谱以及基于全基因组cfDNA覆盖度数据定量cfDNA样品中组织cfDNA的级分中的一者或两者。基线对照可包括来自样品群体的健康对照样品，包括来自各种地理区域、年龄、民族、种族或性别的样品以建立正确的基线。

本文提供的一些实施方案涉及分析生物样品中的无细胞DNA(cfDNA)的方法。在一些实施方案中，所述方法包括获得包含cfDNA的生物样品；富集来自所述样品的cfDNA以提供经富集的cfDNA，其中所述经富集的cfDNA包含多个cfDNA片段，每个片段对应于特定组织或细胞类型；定量每个cfDNA片段以生成全基因组cfDNA谱，其中所述全基因组cfDNA谱包括多个拷贝数信号，每个拷贝数信号对应于cfDNA片段；以及将所述全基因组cfDNA谱与已知cfDNA拷贝数特征的参考谱进行比较，以确定细胞损伤、组织损伤或器官损伤。

在一些实施方案中，生物样品可以是具有或疑似具有cfDNA谱的任何生物样品。因此，生物样品可以是源自或获自受试者的任何样品，诸如获自受试者的体液。因此，举例来说，生物样品可以是或者可源自或获自血液、血浆、血清、尿液、脑脊液、唾液、淋巴液、房水、玻璃体液、耳蜗流体、泪液、乳、痰、阴道分泌物或它们的任何组合。

在一些实施方案中，富集目标核酸或其片段，诸如富集样品中的cfDNA，可包括任何合适的富集技术。在一些实施方案中，富集cfDNA可包括通过分子倒置探针、溶液捕获、下拉探针、诱饵组、标准PCR、多重PCR、杂交捕获、核酸内切酶消化、DNA酶I超敏反应和选择性环化的富集。通过消除不希望的材料，可通过阴性选择核酸来实现富集。这种富集包括“足迹”技术或“消减”杂交捕获。在前者期间，靶样品通过保护蛋白质或通过单链和双链布置而免受核酸酶活性的伤害。在后者期间，消除结合‘诱饵’探针的核酸。在一些实施方案中，富集包括cfDNA的扩增。在一些实施方案中，扩增包括PCR扩增或全基因组扩增。

在一些实施方案中，定量核酸(如定量cfDNA)可包括适合于确定样品中核酸或核酸片段的量的任何技术。因此，例如，定量可包括使用基于测序的DNA分子计数对cfDNA进行测序或执行基于杂交的DNA定量。

在一些实施方案中，每个拷贝数信号指示来自特定组织或细胞类型的cfDNA的相对贡献。如本文所用，拷贝数是指基于通过DNA分子计数，诸如通过任何测序技术或通过基于杂交的DNA拷贝数定量技术获得的信号的样品中的全基因组cfDNA覆盖度。

在一些实施方案中，组织类型是需要监测、分析、测量或正在发生或可能发生疑似损伤的任何组织类型。在一些实施方案中，组织类型是肾、肌肉、心脏、血管、肝、脑、眼睛、肺、脂肪、腺体、骨骼、骨髓、软骨、肠、胃、皮肤或膀胱。在一些实施方案中，细胞类型是血细胞、神经元细胞、肾细胞、上皮、细胞外基质细胞或免疫细胞，或细胞的任何组合。例如，所述方法可包括测量或监测受试者中的一种或多种组织或器官类型。因此，在一些实施方案中，全基因组cfDNA谱定量来自多个器官的cfDNA的量，以提供对器官健康的评估。在一些实施方案中，同时定量每个cfDNA片段。如本文所用，同时是指动作同时或基本上同时发生。因此，同时定量是指在单个测定中同时或基本上同时分析多个cfDNA片段。因此，本文提供的实施方案涉及单一分析通用血液测试，其中多个器官是或能够在单个测定中监测。例如，可以在许多或单个组织上确定组织cfDNA的定量。一个示例可以是肾cfDNA级分的定量。如图3所示，患有肾衰竭的患者(最左图表)的肾级分更高，并且本文描述的定量能够预测肾衰竭(最右侧的图)。特别地，使用估计的肾覆盖度谱，可定量患者自身的肾cfDNA级分，并且估计的级分可预测哪些cfDNA样品来自肾衰竭患者。也就是说，如所示，估计的肾％可准确地分类哪些样品来自患有肾衰竭的患者。

在一些实施方案中，获得样品并从受试者周期性地分析以随时间推移监测健康状况，使得在第一时间点分析初始样品，并且在第二时间点分析第二样品，并且评估cfDNA谱的差异以提供cfDNA谱中的变化的指示。此类分析可提供与随时间推移的某些组织类型的改进或恶化有关的信息。例如，此类方法可用于监测器官移植、监测药物毒性、监测治疗方案、监测各种器官或组织随时间推移的健康状况、监测怀孕的不同阶段期间的母体健康、在怀孕期间或在出生之前或在出生之后监测新生儿健康或用于其它合适的评估。因此，本文提供的一些实施方案涉及随时间推移监测器官移植。在一些实施方案中，全基因组cfDNA谱指示器官中的药物毒性。在一些实施方案中，样品是母体样品，并且全基因组cfDNA谱指示胎儿健康。用于监测某些组织、器官、细胞或疾患的合适时间段可取决于特定应用，并且可以是分钟数量级的，例如，每1分钟、2分钟、3分钟、4分钟、5分钟、6分钟、7分钟、8分钟、9分钟、10分钟、12分钟、15分钟、20分钟、25分钟、30分钟、35分钟、40分钟、45分钟、50分钟、55分钟或60分钟监测样品；小时数量级的，例如每1小时、2小时、3小时、4小时、5小时、6小时、7小时、8小时、9小时、10小时、12小时、15小时、18小时、20小时或24小时；天数量级的，例如1天、2天、3天、4天、5天、6天、7天、8天、9天、10天、15天、20天、25天或30天；月数量级的，例如1月、2月、3月、4月、5月、6月、7月、8月、9月、10月、11月或12个月；或年数量级的，例如1年、2年、3年、4年、5年、6年、7年、8年、9年、10年、15年、20年、25年、30年、35年、40年、45年、50年、55年、60年、65年、70年、75年、80年或更多年，或持续前面提及的值中的任何两个定义的范围内的时间量。例如，可使用本文所述的系统和方法随时间推移监测肾器官移植物。如图4A至图4B所示，可随时间推移监测供体肾cfDNA和患者的自身肾cfDNA的随时间变化的来自肾组织的DNA比例的时程模式。如此示例所示，除了定量供体肾cfDNA％以外，还可定量受者的自身肾cfDNA％(相对于受者的总cfDNA量并且不包括供体cfDNA)。

在一些实施方案中，所述方法还包括从全基因组cfDNA谱中减去基线参考谱。基线参考谱对应于基线cfDNA样品中呈现的特定细胞或组织类型，使得可在测试样品中考虑基线谱，并且可将来自基线的变化或变异用于诊断或异常检测。

本文提供的一些实施方案涉及监测受试者的癌症进展的方法。在一些实施方案中，所述方法包括从所述受试者获得生物样品，其中所述生物样品包含无细胞DNA(cfDNA)；定量所述样品中的所述cfDNA以获得包括多个拷贝数信号的全基因组cfDNA谱，每个拷贝数信号对应于特定细胞类型或组织类型的cfDNA片段；以及将所述多个拷贝数信号与健康受试者的已知拷贝数信号的谱进行比较。在一些实施方案中，与已知拷贝数信号相比，所述样品中拷贝数信号的差异与所述受试者中的癌性或癌前疾患相关。在一些实施方案中，在定量cfDNA之前，从样品中富集总cfDNA。在一些实施方案中，所述方法还包括将所述多个拷贝数信号与癌症患者样品的已知拷贝数信号的谱进行比较。在一些实施方案中，生物样品包括血液、血浆、血清、尿液、脑脊液、唾液、淋巴液、房水、玻璃体液、耳蜗流体、泪液、乳、痰、阴道分泌物或它们的任何组合。在一些实施方案中，定量包括使用基于测序的DNA分子计数对cfDNA进行测序。在一些实施方案中，定量包括执行基于杂交的DNA定量。在一些实施方案中，所述方法还包括在定量cfDNA之前富集cfDNA。在一些实施方案中，富集包括通过PCR扩增或全基因组扩增来扩增cfDNA。

实施例

在以下实施例中更详细地公开了附加的替代方案，这些实施例并非旨在以任何方式限制权利要求书的范围。

一般程序和方法

提取

正常血液循环速率是约5升/分钟，使得全血量每分钟循环一次。这种速率远远高于cfDNA生成和降解动力学，并且cfDNA组成在短时间帧(例如小于5分钟)内在人的血液中均匀。在这些条件下，抽血大约是cfDNA的泊松采样。使用多项式分布或多变量超几何分布来对DNA提取进行建模。

提取过程遵循泊松分布n"_l～Pois(n"·Σ_tβ_t·A_tl)，或联合多项式分布(n"_l)～Multi(Σ_tβ_t·A_t,n")，其中n"_l是基因座l处的拷贝数，n"是cfDNA片段的总拷贝，β_t是来自组织类型t的cfDNA的级分，并且A_t是组织类型t的参考拷贝数谱。

PCR扩增

通过伽玛分布n'_l～Gamma(n"_l·ρ,θ)或联合狄利克雷分布(n'_l)/θ～Dir(α＝(n"_l·ρ))模拟PCR过程，其中ρ＝(1+r)/(1-r)/[1-(1+r)^–t],θ＝[(1+r)^t-1]·(1-r)/(1+r)，并且r是每个循环中的PCR扩增效率，n'_l是PCR之后基因座l处DNA分子的数量，n'是从cfDNA片段扩增的DNA分子的总数。

测序

类似于提取，测序遵循泊松分布n_l～Pois(n·n'_l/n')或联合多项式分布(n_l)～Multi(n'_l/n',n)，其中n是测序中观察到的片段的数量，并且n_l是给定基因座l处观察到的cfDNA拷贝数。

一些数量

典型人中具有大约5,000mL血液，1.8ng/mL-44ng/mL血浆cfDNA对应于人基因组的135-3300万个拷贝。1％的组织级分对应于13,500个–330,000个拷贝。举例来说，在3ng的cfDNA用作cfDNA WGS测定的输入的情况下，这对应于总计900个拷贝，1％组织基因组的9个拷贝，以及0.1％组织基因组的0.9个拷贝。

实施例1-对聚集的cfDNA信号谱进行建模

以下实施例展示对聚集的cfDNA信号谱进行建模的实施方案。

忽略提取和PCR变异性，cfDNA信号的模型S是(n_l)～Multi(Σ_tβ_t·A_t,n)。鉴于大约均匀分布的大量仓(或基因座)，它接近泊松分布：n_l～Pois(n·Σ_tβ_t·A_t)。给定已知组织谱A，仅未知物是组织级分B＝(β_t)，其可通过数值优化来求解。

cfDNA信号的模型PS是伽玛-泊松(负二项式)分布n_l～NB(n"_l·ρ,p＝n·θ/(n’+n·θ))。给定n’＝n"·ρ·θ，n"_l＝n"·Σ_tβ_t·A_tl，并且忽略提取的变异性，给出n_l～NB(n"·ρ·Σ_tβ_t·A_tl,n/(n"·ρ+n))。当n<<n"·ρ时，它大约是n_l～Pois(n·Σ_tβ_t·A_tl)，其与模型S相同。

将E和P步骤组合到单个狄利克雷分布中，(n’_l)/θ～Dir(n"·α·1/(1+1/ρ))，或n’_l～Gamma(n"·α·ρ/(1+ρ),(1+ρ)θ)。狄利克雷分布用于估计未知多项式概率分布。更具体地，其将贝塔分布延伸至多个维度中，并且在先前分布与观察到的分布之间提供平滑转变，并且允许控制转变发生的速率。

将提取、PCR和测序步骤组合在一起，cfDNA信号的模型EPS是(n_l)～DM(n"/(1+1/ρ)·α,n)或(n_l)～DM(n"·α·(1+r)/2,n)，其中DM是狄利克雷多项式分布。鉴于大约均匀分布的大量仓(或基因座)，它接近负二项式分布：n_l～NB(n"·α·ρ/(1+ρ),(1+ρ)θn/[(1+ρ)θn+n’]或n_l～NB(n"·α_l·(1+r)/2,n/[n+n"·(1+r)/2]。μ的平均值和方差＝n·α_l，δ²＝n·α_l·[n/n"·(1/ρ+1)+1]。当n<<n"时，例如，对于具有>1ng输入cfDNA的30x WGS，n_l接近泊松分布n_l～Pois(n·α_l)。表1提供参与cfDNA定量的概率模型的列表，其中α_l＝Σ_tβ_t·A_tl，并且α＝Σ_tβ_t·A_t。

表1

cfDNA信号的模型PS是伽玛-泊松(负二项式)分布n_l～NB(n"_l·ρ,p＝n·θ/(n'+n·θ))。给定n'＝n"·ρ·θ，n"_l＝n"·Σ_tβ_t·A_tl，并且忽略提取的变异性，给出n_l～NB(n"·ρ·Σ_tβ_t·A_tl,n/(n"·ρ+n))。当n<<n"·ρ时，它大约是n_l～Pois(n·Σ_tβ_t·A_tl)，其与模型S相同。

乘性更新

泊松模型n_l～Pois(n·α_l)等同于具有KL散度作为成本的非负矩阵因子分解。应用基于Lee和Seung，2001中描述的非负矩阵因子分解(NMF)算法的乘性更新算法β_st←β_st·Σ_lA_tl·r_sl/(β·A)_sl/Σ_lA_tl用于计算β_t。

迭代加权线性回归

对于给定样品，在估计的组织级分β₀情况下，具有成本函数的加权线性回归被定义为E(β；β₀,A)＝1/2·Σ_l[(r_l-(β·A)_l)²/(β₀·A)_l]。对这种加权线性回归求解(β₀,A)，然后β←r·W^-1·A^T(A·W^-1·A^T)^-1，其中W＝diag(β₀·A)，从而提供另外的迭代更新算法。这与常规线性回归之间的差异E＝1/2·Σ_l[(r_l-(β·A)_l)²基于W＝diag(α)＝β·A_L进行加权。

模型EPS的推导

给定(n'_l)/θ～Dir((n"_l·ρ))和(n"_l)～Multi(α,n")，并且总方差定律给出为：

E((n'_l)/θ)＝α,

var((n'_l)/θ)＝var(n"_l/n")+E(n"_l·ρ(n"·ρ-n"_l·ρ)/[(n"·ρ)²(n"·ρ+1)]。

～＝var(n"_l/n")+E(n"_l/n"(1-n"_l/n")/[n"·ρ])。

＝α(1-α)/n"+α/[n"·ρ]-(var(n"_l/n")+α²)/[n"·ρ])

＝α(1-α)/n"+α/[n"·ρ]-(α(1-α)/n"+α²)/[n"·ρ])

＝α(1-α){1/n"(1-1/[n"·ρ])+1/[n"·ρ]}

～＝α(1-α){1/n"+1/[n"·ρ]}

＝α(1-α)/[n"·1/(1+1/ρ))]

这匹配Dir(n"·α·1/(1+1/ρ))。给定n"_l～Pois(n"·α_l)和n'_l～Gamma(n"_l·ρ,θ)，并且总方差定律给出：

E((n'_l))＝n"·α_l·ρ·θ,

var((n'_l))＝var(n"_l·ρ·θ)+E(n"_l·ρθ²)

＝n"·α_l·ρ(1+ρ)θ²

这匹配Gamma(n"·α·ρ/(1+ρ),(1+ρ)θ)。

n·n'_l/n'～Gamma(n"·α·ρ/(1+ρ),(1+ρ)θn/n')

n_l～Pois(n·n'_l/n')

n_l～NB(n"·α·ρ/(1+ρ),(1+ρ)θn/[(1+ρ)θn+n']

n_l～NB(n"·α·ρ/(1+ρ),(1+ρ)n/[(1+ρ)n+n"·ρ]

实施例2-确定组织cfDNA谱

以下实施例展示用于确定组织cfDNA参考谱的方法的实施方案。

两种互补策略可用于估计组织特异性或细胞类型特异性cfDNA信号谱。第一种方法是基于在不同级分下含有目标组织/细胞的一组样品使用无监督机器学习。第二种方法是通过基于组织/细胞类型的基因组DNA(gDNA)表观遗传谱或基因表达谱预测源自给定组织/细胞的cfDNA信号谱来使用有监督的机器学习。

无监督机器学习

有监督的机器学习方法应用非负矩阵因子分解来分解cfDNA混合物信号并提取组织特异性cfDNA覆盖度谱。泊松模型n_l～Pois(n·α_l)等同于具有库尔贝克-莱布勒(KL)散度作为成本的非负矩阵因子分解。KL散度是概率分布与参考概率分布不同的量度。对于目标组织类型的足够大小和组织组成的给定数据集，应用Lee和Seung 2001的NMF算法来估计每个样品中的组织级分，以及确定组织cfDNA谱。样品中组织t的组织级分通过β_st←β_st·Σ_lA_tl·r_sl/(β·A)_sl/Σ_lA_tl估计，而组织类型t的基因座l处的cfDNA信号通过A_tl←A_tl·Σ_sβ_st·r_sl/(β·A)_sl/Σ_sβ_st估计，其中·是矩阵乘法，r_sl是覆盖样品中的基因座l的读段的级分。

有监督的机器学习

无监督算法存在两个相关的限制。首先，其需要来自特定生理或疾病条件下的个体的样品，例如以学习肾cfDNA谱，需要获取来自具有升高的肾损伤的患者的多个cfDNA样品。其次，对于具有罕见小细胞群体或细胞类型的组织类型，由此类细胞贡献的血液cfDNA信号的级分可能非常小。因此，需要更大量的cfDNA样品来有效地学习此类组织或细胞类型的cfDNA信号谱。这些限制可通过大型数据集克服。然而，实际上，大型数据集可阻碍基于cfDNA WGS的组织定量广泛应用于所有组织类型。

出于这些原因，可使用预测来自特定组织细胞样品的表观遗传或表达数据的组织特异性cfDNA拷贝数谱的有监督的机器学习。有监督的机器学习不需要获取来自具有特定器官损伤的患者的cfDNA样品，而是仅使用来自正常或疾病样品的分离的组织细胞。所述方法应用深度神经网络，并且更具体地一维测序数据上的递归神经网络或卷积神经网络，以预测cfDNA谱。神经网络的输入特征包括给定组织类型的全基因组DNA酶可接近性、DNA甲基化、组蛋白甲基化、组蛋白乙酰化谱或基因表达谱。来自机器学习的预测是所关注组织的全基因组cfDNA拷贝数谱。

组织内和交叉组织交叉验证两者均用于训练和评价机器学习模型。更具体地，组织特异性表观遗传数据被制备为输入特征，并且将估计的组织cfDNA覆盖度谱(来自无监督算法)制备为靶标。对于组织内交叉验证，保留基因组中用于验证的基因座的子集，并且其它基因座用于训练。对于交叉组织交叉验证，用于某些细胞类型的cfDNA参考谱(诸如血细胞)用于训练，并且用于另外细胞类型的cfDNA参考谱(诸肾或肺细胞)用于验证。

实施例3-cfDNA研究

以下实施例展示用于分析来自受试者的样品中的cfDNA的研究的实施方案。

试验研究

获得了来自10名患有终末期肾病(ESRD)的患者和10名年龄、性别和体重匹配的正常对照的血浆DNA并进行了研究。对于每个样品，进行30X WGS。获得了能够可靠地区分ESRD与正常对照的强cfDNA信号的存在。聚类分析和主成分分析(PCA)显示，ESRD和正常样品形成不同的组。对于正常对照，确定的肾级分<0.5％。

混合物研究

对于三个病例-对照对，通过连续稀释将ESRD与对照cfDNA混合来制备合成cfDNA混合物。对于每个病例-对照对，用对照cfDNA稀释具有100％、50％、25％、12.5％、6.25％、3.125％、1.5625％和0.78125％ ESRD cfDNA的八种混合物。利用此数据集，确定组织定量分析性能。混合物研究证明，估计的肾级分是真实肾级分的线性函数，并且肾级分可精确地(CV<20％)确定低至0.5％。

在图6的框图中描绘了用于验证的一个实施方案，其说明用于评价用于组织cfDNA定量的cfDNA样品的过程。如图6中所公开的实施方案中所示，第一群组200可包括进行文库制备(步骤210)、30x WGS(步骤220)并且然后进行分析的对照和患病受试者。对WGS产物的部分进行生物标记物发现(步骤250)，而对其它部分进行信号验证(步骤240)或WGS算法(步骤260)。第二群组280可以是合成混合物群组，包括例如来自糖尿病受试者、狼疮受试者、高血压受试者、肾病(如慢性肾病(CKD)或多囊性肾病(PKD))受试者的许多样品、对照样品或来自其它受试者的样品。将混合物应用于扩增子测定(步骤290)、测序(步骤300)和算法(步骤310)以确定(步骤320)用于定量组织的方法的性能(包括确定定量限(LOQ)或检测限LOD)和方法的线性度)或诊断疾病(包括确定方法的灵敏度和特化)。

完全研究

在混合研究之后，收集在慢性肾病(CKD)的各个阶段的约200个糖尿病患者样品并进行30x cfDNA WGS。结果表明，估计的肾级分能够可靠地区分患有早期CKD与终末期CKD的患者，估计的肾级分能够可靠地区分患有早期CKD的患者与没有CKD的糖尿病患者，并且估计的肾级分与肾病的严重程度相关。

不同器官研究

收集来自患有心力衰竭或肺损伤(例如，囊性纤维化)的患者或正常对照的五个血液样本，并且进行30x cfDNA WGS。结果证明，患有心力衰竭、肺损伤或肾病的患者在彼此之间具有不同的cfDNA信号谱，并且它们与正常对照不同，并且可定量心脏cfDNA级分和肺cfDNA级分。

不同移植物研究

收集来自具有肺或心脏移植物的患者的五个血液样品，并且进行30x cfDNA WGS。结果证明，具有心脏移植物或肺移植物的患者具有不同的模式，并且估计的肺级分或心脏级分与基于遗传变体的供体器官级分线性相关。

如本文所用，术语“包含”与“包括”、“含有”或“特征在于”同义，并且是包括性的或开放式的，并且不排除另外的未列举的要素或方法步骤。

在考虑先前论述的情况下，下文提供了利用用于组织起源定量的cfDNA的本发明方法的另外的方面和进展。如本文所论述，在某些实现方式中，这种组织起源定量可使用生物流体作为样品介质来进行。举例来说，如本文所用的组织起源定量可在血液样品上进行，诸如通用血液测试的一部分，在一个实现方式中，其可提供为用于定量样品内的多种组织类型的单一测定。这种测试可在“按需要”基础或作为个体或个体组的常规筛选或健康评估的一部分进行。例如，可对个体进行这种测试，包括但不限于易患或被诊断为患有病症或疾病的个体、参与研究或试验(例如，药理学试验、纵向研究等)的个体、在某些职业中工作或在某些区域或条件中生活的个体、经历治疗方案的个体(例如，癌症治疗方案、自身免疫性病症的治疗方案等)、已经接受了组织或器官移植的个体、经历产前检测的个体等。

虽然某些前述论述已经解决了与基于扩增子的测定方法有关的本发明方法的方面，但是还关注的是基于全基因组序列(WGS)分析的方法，其中未对样品进行PCR扩增，并且因此结果不会导致漏失或过度代表效应。也就是说，这种基于WGS的方法提供对全基因组的全面和无偏差评估。这种广义筛选方法可有助于鉴定在损伤的其它适应症之前的组织损伤或细胞死亡的实例或来源，并且不必靶向用于评估的特定组织类型。此外，此类广义方法可在纵向或“随时间推移”研究中有用，其中可随时间推移评估和监测样品(例如，血液样品)中的cfDNA片段的相对贡献或贡献的变化，以获得患者健康(例如，警告体征)的变化的指示。

考虑到前述内容，进行了试验和验证研究以评估基于cfDNA的组织起源定量的基于全基因组序列的方法。关于试验研究，采用30x全基因组序列(WGS)方法以使用具有约10ng至约20ng输入cfDNA的无PCR cfDNA WGS评价cfDNA。参与者包括10个正常-ESRD(终末期肾病)对，并且研究被设计用于体质指数(BMI)、身高、性别和种族匹配。在来自UI驱动的过程设计的示例屏幕截图的上背景下，在图7至图11中提供合适的测定方案设计的实施例。根据此实施例，图7至图11中所示的字段和步骤可提供为显示在合适的基于处理器的设备上的图形界面以用于配置和/或使用样品板布局和用于进行本文论述的技术的方面的逐步程序预排。在此方面，图7至图11中所示的布局和过程步骤可被解释为描绘用于进行本发明技术的方面的显示界面的屏幕截图或广义组件的实施例。关于验证研究，研究中包括了400名患有多个器官疾病的患者。

在图12A至图12D中示出研究的结果，其中示出信号显著性对比频率的p值(即，p值分布)的曲线。基于计算的p值分布，使用WGS方法检测强全基因组疾病信号(例如，肾病)的存在。

图13和图14示出针对9名肾疾病(KD)和正常供体并且考虑性别、年龄、体重和种族的试验研究的结果。对于这些结果，cfDNA拷贝数信号总结至26,650基因座。在这些图中，图13描绘来自不同性状(例如，KD/正常、男性/女性、年龄、体重、随机)的基因座p值的分布，其中基因座的计数沿y轴显示并且p值沿x轴显示。如图13所示，相对于考虑的其它性状，cfDNA拷贝数计数和KD/正常性状的对应p值是高度显著的。在图14中，将相同数据总结(并且通过条形图以图形方式示出)，其中针对每种性状显示cfDNA拷贝数计数并且显著(p<0.001)基因座数量沿x轴显示。

转到图15，提供患者/对照差异信号的基因集富集分析的结果。特别地，示出不同基因集的p值和错误发现率(FDR)q值(如基于相对于每个基因集中基因的数量的重叠基因的数量所确定)。信号的肾特异性通过观察到的显著性值支持。

转到图16，示出关于对数正态分布(垂直轴)和泊松分布(水平轴)的cfDNA信号不均匀性的图，其示出正常(N)、肾病(KD)和癌症(SIN)数据点的可观察到的聚类或分离。在这种背景下，预期正常(即，非患病)患者表现出cfDNA片段的基线分布，而预期患病患者表现出与肾病或损伤的程度成比例的多个肾特异性cfDNA片段。根据所描绘的结果，正常对照具有比肾病患者更高的空间不均匀性，具有0.0089的相关秩检验p值和0.019的T检验p值。可注意，样品KD10和N07是异常值，并且可能彼此错误标记。基于此分析，可解释与患病和较少线粒体DNA相比，健康cfDNA具有更强的组织特异性信号。

关于线粒体DNA并且转向图17，示出图16中绘制的三个组(正常/对照、肾病和癌症)的对数(线粒体DNA级分)的图。如这些绘制的结果中所示，与正常对照组相比，肾病受试者表现出更高的线粒体DNA级分，相关p值为0.021。癌症患者(单个样品)表现出最低的线粒体DNA级分。也就是说，与健康供体和癌症患者相比，肾病患者表现出显著更高的线粒体cfDNA组合物水平。这种结果与肾生物学所理解的一致。特别地，外部刺激可增强线粒体过程，诸如有丝分裂、裂变和融合以及线粒体生物发生，以减弱ATP产生的不规则水平。急性肾损伤早期阶段中的线粒体稳态的破坏是驱动管状损伤和持久肾功能障碍的重要因素。

转到图18，在图18的框图中描绘了用于测试和验证的另一个实施方案，其说明用于评价用于组织cfDNA定量的cfDNA样品的过程。如图18所示，试验群组400可包括进行文库制备(步骤410)、30x WGS(步骤420)以及然后经由初步算法的分析步骤430以用于信号验证(步骤440)的对照和患病受试者。验证群组450还可进行文库制备(步骤410)、30x WGS(步骤420)，并且然后经由用于组织定量(步骤470)的WGS算法进行分析(步骤460)。另外，验证群组450可进行生物标记物发现(步骤480)并进行富集测定(步骤490)。例如，可将混合物应用于富集测定(步骤490)、测序(步骤500)和算法(步骤510)以确定用于定量组织(步骤470)的方法的性能(包括确定定量限(LOQ)、空白限(LOB)或检测限LOD)和方法的线性度)或诊断疾病(包括确定方法的灵敏度和特化。

考虑到与获取、处理和分析cfDNA计数和使用此类计数导出的所得输出有关的本发明论述，应当理解，如本文所论述的各种步骤中的一些或全部可在合适的基于处理器的系统上实施。举例来说，这种系统可存储(诸如在有形计算机可读介质上)或访问(诸如通过基于云或网络的存储)例行程序、代码或其它处理器可执行指令，以用于实施与获取或获得cfDNA计数有关的目前所描述的步骤中的一个或多个，处理和比较此类计数、获取或生成参考或基线计数(包括经由无监督或有监督的机器学习)、比较或处理cfDNA计数以鉴定组织、器官或细胞损害或损伤等。类似地，这种基于处理器的系统和可执行代码可被配置成经由适合于配置数据或分析运行的用户界面来显示和接收指令，以用于显示或管理测序或cfDNA计数操作，用于显示或输出cfDNA计数操作的结果或cfDNA数据的分析，诸如用于诊断目的等。也就是说，本文描述的步骤和技术中的一些或全部可总计或部分地在被配置成生成、采集、处理和/或分析cfDNA计数数据以生成临床上有用的数据的基于处理器的系统上实施。

策略和工作流程

关于工作流程和策略的以下论述，表明前瞻性或未来活动的声明或语言应理解为指示可能已经执行或以其它方式发生的事件或动作。

概念阶段的详细计划

在验证阶段，测定和生物信息学算法两者都将优化用于准确组织cfDNA定量，如图19中描绘的实施方案中所示。基于cfDNA WGS的组织起源定量算法将被开发为扩增子解决方案。将使用具有频繁肾损伤的疾病进行扩增子解决方案的评价。图19示出用于组织起源定量的WGS和扩增子工作流程的概述。阴影指示基于cfDNA的组织起源定量的潜在应用终点(“发现生物标记物”，病因与病理)以及“组织起源定量和疾病分类”模块)。验证阶段将集中于扩增子解决方案和与肾病合并的适应症。

考虑到围绕肾衰竭的概念验证工作和现有的外部合作，将依赖于肾病作为验证阶段的焦点。另外，将利用可容易获得的NIPT WGS数据进行算法开发。

患者群组鉴定(步骤700)

在验证阶段，将集中于涉及肾脏损伤或多器官损伤的适应症。具体地，将募集患有糖尿病、高血压、狼疮和囊性肾病的患者。将募集无肾脏损伤(例如，非糖尿病或糖尿病前)、轻度肾损伤以及终端期肾病(ESRD)的患者。

为了获得用于创建实际合成混合物的起始材料，将需要直接获取来自患有肾衰竭的患者的cfDNA样品。

群组-1

总计12名患者将被募集，包括没有肾损伤的三名正常对照(1级)、患有肾损伤的三名前驱糖尿病患者、患有轻度(3级)肾损伤的三个糖尿病患者和患有终末期(5级)肾病的三名糖尿病患者。所有患者都是女性和年龄平衡的。

群组-2

将募集四种疾病组中的一种的患者，包括120名患有糖尿病、50名患有高血压、50名患有狼疮和20名患有多囊性肾病。另外，将包括来自20名健康对照的80个样品，各自在当天的不同时间具有4次抽血。

肾病可通过肾小球滤过率(GFR)分级为5个阶段。对于除糖尿病外的每种疾病类型，患者相等地分布在5个肾GFR阶段。对于糖尿病，将采用前期糖尿病患者的第6组。原理是肾损伤可能在糖尿病之前发生，即使累积肾功能损失不明显。

患者和对照是性别和年龄平衡的。对于每个患者或对照，将记录抽血的时间。将收集患者健康数据，包括肾GFR得分、其它合并症和药物。

将收集一小组基线样品以确定肾级分的生物变异性：来自10名健康志愿者的血液cfDNA，40-60x覆盖度。

将购买一组组织活检样品以建立参考表观遗传谱：2个-10个组织(肾)活检样品，每个受试者经受DNA酶(外部)和甲基化。

将获得来自外部合作者的患者血液cfDNA样品。来自患有各种程度的肾损伤的患者的血液cfDNA的(100x)#，30-40x覆盖度。将包括来自患有肺、肝或心脏移植物的患者的少量样品。这些将充当阳性对照，其中基于嵌合体算法的真实器官级分将是已知的。

样品和文库制备(步骤720)

血浆DNA提取(步骤710)

使用QiaAmp循环核酸试剂盒(Qiagen)制备血浆DNA，1ml至5ml血浆作为输入。然后在生物分析仪(Agilent Technologies)上分析DNA样品以确定大小分布。使用Qubit荧光计(Invitrogen)确定每ml血浆的总cfDNA浓度。

WGS测定(步骤730和740)

约5ng至10ng的cfDNA输入将用于使用具有25个PCR循环的TruSeq DNA Nano或使用ThruPLEX DNA-Seq或SMARTer ThruPLEX血浆-Seq试剂盒(TaKaRa)的文库制备，其具有更好的片段末端修复。将跳过片段化步骤。可在具有50x覆盖度的HiSeq或NovoSeq上进行进配对末端测序。

基于扩增子的组织起源定量

标记物选择

两种策略将在选择为组织定量提供最多信息的基因座中组合。

首先，将使用公共基因表达或表观遗传数据760(例如，ChipAtlas、单细胞表观遗传谱或来自HuBMAP项目的数据)以及文献来鉴定(步骤770)三类基因：

(1)在不同组织类型之间具有不同活性的基因，

(2)仅在肾中具有活性的肾特异性基因，和

(3)在白细胞中具有活性、但在肾中没有活性的基因。

然后将靶区域定义为TSS周围的-150bp至+50bp区域(以基于WGS数据确定)。

除了基因活性驱动的靶选择以外，将利用cfDNA WGS测序数据来鉴定信息基因座。为此，将选择3名患有肾衰竭的患者、3名患有轻度肾损伤的患者和3名健康对照。每个患者将以50x覆盖度进行测序。数据然后将用于(步骤780)选择：

(1)在三个组之间没有显示差异的基因座，

(2)与肾损伤负相关的基因座，和

(3)与肾损伤正相关的基因座。

它将在两种策略产生一致靶基因的情况下确定，并且然后将选择三个类别中的每一个中的约300个靶标。

扩增子测定开发(步骤800)

对于验证阶段，将使用具有客户热点设计的AmpliSeq测定。

用于900个靶基因座的引物设计将使用DesignStudio进行。目标是在约110bp-120bp的窄靶标尺寸范围内以200个-300个靶标进行。需要窄扩增子大小范围以使固有扩增子均匀性最大化。为了实现这一点，可能需要离线设计，而不是使用DesignStudio的默认版本。

除了选择PCR(步骤810)循环的数量以保留最大量的表观遗传信息之外，PCR条件将不进行优化，即以平衡1)实现足够扩增与2)避免平稳之间的权衡。

扩增子算法开发

对于WGS数据，Dragen比对器将用于比对和堆叠以获得全基因组覆盖度数据。对于扩增子数据，将使用现有TruSight嵌合体工作流程或替代方案来获得覆盖度计数。

概率机器学习算法(步骤820)将用两种部件开发：1)无监督学习部件以从不同cfDNA扩增子数据训练集中提取组织特异性覆盖度谱；2)基于(1)中获得的组织谱来定量新样品的组织级分的另一部件。现有矩阵因子分解方法诸如NMF将用作比较的基线方法。

基于WGS的组织起源定量(步骤830)

动机和挑战

CfDNA WGS具有适用于更广泛疾病的通用组织定量解决方案的潜力。cfDNA WGS解决方案可潜在帮助研究人员发现疾病诊断的生物标记物。更重要的是，它可允许研究人员更好地理解许多较差研究的疾病的病因和发病机制。

值得注意的是，即使在0.2x覆盖度下，WGS数据量仍然是扩增子测定的20倍，其中对于300个基因座为1000x覆盖度。挑战是信号在基因组上非常稀疏地分布，然而，应该有可能开发生物信息学方法，以用于从低覆盖度WGS数据中智能地提取信号并实现与扩增子测定相似或比其更好的性能。

WGS算法开发策略

与扩增子版本相比，WGS组织定量算法应该更具多功能，以适应跨基因组的低覆盖度和大量靶标。可利用先前表观遗传数据来将基因组区域归入组织起源相关表观遗传组中。更具体地，基因组至仓转变矩阵T_g×b可源自公共表观遗传或表达数据，其中g和b分别是人类基因组中的碱基数量和仓的数量。Let X_g×s是跨基因组的原始覆盖度信号，其中s是样品的数量。给定T，分仓读段计数矩阵Z＝T^t·X可直接用于组织起源定量，如同其来自使用b扩增子的扩增子测定一样。

可利用诸如体细胞突变的其它信息来进一步改进组织起源定量。

来自NIPT的大量现有数据(参见表2)将用于算法开发和测试，而群组-1WGS数据将充当概念验证的测试集。

表2：NIPT cfDNA WGS数据的可用性。

	<u>深度</u>	<u>测序设置</u>	<u>每月通量</u>
				<u>Verifi plus</u>	<u>1-2x</u>	<u>NextSeq上的24bp x</u><u>1</u>	<u>5000个样品</u>
<u>Verifi plus Reflex</u>	<u>10x</u>	<u>HiSeq2000上的24bp x</u><u>2</u>	<u>600个样品</u>

鉴于NIPT数据在多个测序深度的可用性，可能有可能确定WGS组织起源定量算法的性能限制。

表观遗传和表达数据

NIPT中的潜在应用

除了充当器官健康监测和疾病诊断的全域血液测试的潜力之外，WGS组织起源定量算法可用于解决NIPT解决方案的几个当前挑战。

首先，通过利用在读段覆盖度中隐藏的表观遗传信号(可能与遗传信号组合)，可能有助于改善亚-2％范围内的胎儿级分定量。其次，它可有助于开发妊娠测试，对胎盘成像作为非怀孕女性中不存在的独特组织。妊娠测试可以是在样品上确定胎儿三体之前的QC要求。

另外，基于母体cfDNA的组织定量可有助于管理母体的健康，例如通过定量糖尿病风险评估的β细胞损伤。它能够潜在地预测流产风险和提前早产。

验证策略

生物变异性(LOB)

将在4个时间点(早餐或午餐之前和2小时之后)从10个健康参与者抽取血液。样品将用于确定无肾损伤的人的基线肾％。

组织定量线性度和灵敏度

将使用计算机稀释实验以及实际稀释实验来确定定量线性度和灵敏度。

将选择具有严重肾损伤(5期)的三名糖尿病患者，其与3名无肾损伤(1期)的患者随机配对。5期样品将用对应的1期样品连续稀释，从而形成原始肾％的一系列样品1x、1/2x、…1/64x。混合物将经受组织起源定量。所得数据将用于确定定量线性度和灵敏度。

使用亚硫酸盐测序数据的验证

验证基于cfDNA读段覆盖度的组织定量的一种可能的策略是将其与使用亚硫酸氢盐测序的正交方法进行比较。对于这种验证，将对群组-1样品进行亚硫酸氢盐WGS，肾级分基于公共肾甲基化组数据进行定量。然后将定量与基于EpiDemix cfDNA扩增子的组织起源定量进行比较。

确定诊断测试性能

对群组-2中的320个样品进行扩增子测定。所得数据用于确定交叉验证设置中的灵敏度和特异性。将确定用于区分正常对比3-5期肾病的分类性能(灵敏度、特异性和精确度)。另外，将研究肾cfDNA％是否与原发性疾病(即糖尿病)的分期或肾损伤的分期相关。

使用嵌合体定量来确定真实级分

利用来自器官移植患者的样品，可针对基于SNP的嵌合体定量验证基于cfDNA覆盖度的组织定量。鉴于存在两个肾，这种验证策略将不用于肾移植患者。它可用于诸如心脏、肺、肝等的其它器官的整个器官移植。它也将用于NIPT数据，其中胎儿和母体的基因组是不同的。

鉴于基于SNP的嵌合体定量的已知高准确性，这种验证(如果适用)将优于基于甲基化的验证。

结论

以上描述公开了本发明的几种方法和材料。本发明易于在方法和材料上进行修改，以及在制造方法和装备上进行改变。考虑到本公开或本文公开的本发明的实践，这种修改对于本领域技术人员来说将变得显而易见。因此，并非意图将本发明限制于本文所公开的具体实施方案，而是其涵盖了落入本发明的真实范围和精神内的所有修改形式和替代形式。

本文引用的所有参考文献，包括但不限于公开和未公开的申请、专利和参考文献，均全文以引用方式并入本文，并且据此成为本说明书的一部分。就以引用方式并入的出版物和专利或专利申请与说明书中包含的公开内容相矛盾的程度而言，本说明书旨在取代和/或优先于任何此类矛盾的材料。

Claims

1.一种基于解剖起源定量无细胞DNA(cfDNA)片段的方法，所述方法包括以下步骤：

对包含cfDNA片段的样品进行基于测序的测定；

根据所述基于测序的测定的结果获得一个或多个所关注cfDNA片段的相应拷贝数；以及

将所述一个或多个所关注cfDNA片段的所述相应拷贝数与相应参考拷贝数进行比较，其中所述相应参考拷贝数与所关注细胞类型、组织类型或器官类型相关。

2.根据权利要求1所述的方法，其中所述相应参考拷贝数包括从其获取所述样品的患者的先前测量的拷贝数。

3.根据权利要求1所述的方法，其中所述相应参考拷贝数包括群体来源的参考拷贝数。

4.根据权利要求1所述的方法，所述方法还包括在进行所述基于测序的测定之前，富集所述样品内的所述cfDNA片段。

5.根据权利要求4所述的方法，其中富集所述cfDNA片段包括使用分子倒置探针、溶液捕获、下拉探针、诱饵组、标准聚合链反应(PCR)、多重PCR、杂交捕获、核酸内切酶消化、DNA酶I超敏反应、选择性环化或核酸的阴性选择。

6.根据权利要求4所述的方法，其中富集所述cfDNA片段包括扩增所述cfDNA片段。

7.根据权利要求1所述的方法，其中获得所述一个或多个所关注cfDNA片段的所述相应拷贝数包括使用基于测序的DNA分子计数对所述cfDNA进行测序或执行基于杂交的DNA定量。

8.根据权利要求1所述的方法，其中所述相应拷贝数信号指示来自特定组织或细胞类型的cfDNA的相对贡献。

9.根据权利要求1所述的方法，其中所述相应参考拷贝数是使用无监督机器学习或有监督的机器学习中的一者或两者生成的，所述无监督机器学习或有监督的机器学习预测来自表观遗传或表达数据的组织特异性cfDNA拷贝数谱。

10.根据权利要求1所述的方法，其中将所述一个或多个所关注cfDNA片段的所述相应拷贝数与所述相应参考拷贝数进行比较包括鉴定相对于所述相应参考拷贝数，所述相应cfDNA片段的拷贝数升高。

11.根据权利要求11所述的方法，所述方法还包括生成与所述相应cfDNA片段的所述升高的拷贝数相关的组织或器官的指示。

12.一种基于解剖起源定量无细胞DNA(cfDNA)片段的方法，所述方法包括以下步骤：

获取或得到包含cfDNA片段的生物样品，其中不同cfDNA片段与从其获得所述样品的受试者内的不同细胞类型、组织类型或器官类型相关；

对所述生物样品进行全基因组序列(WGS)测定以生成全基因组cfDNA谱，所述全基因组cfDNA谱包括所述生物样品内的多种cfDNA片段类型的每种cfDNA片段类型的相应拷贝数信号；以及

将所述全基因组cfDNA谱与已知cfDNA拷贝数特征的参考谱进行比较，其中每种已知cfDNA拷贝数特征对应于不同的相应细胞类型、组织类型或器官类型。

13.根据权利要求12所述的方法，其中确定每种cfDNA片段类型的所述相应拷贝数信号包括使用基于测序的DNA分子计数对所述cfDNA进行测序或执行基于杂交的DNA定量。

14.根据权利要求12所述的方法，其中将所述全基因组cfDNA谱与所述参考谱进行比较包括定量来自所述受试者的不同组织和正常基线对照的cfDNA的相对级分。

15.根据权利要求14所述的方法，其中所述定量的行为包括确定一组参考组织谱以及基于全基因组cfDNA覆盖度数据定量所述生物样品中组织cfDNA的级分中的一者或两者。

16.根据权利要求12所述的方法，其中所述全基因组cfDNA谱对来自多个器官的cfDNA的量进行定量。

17.根据权利要求12所述的方法，其中将所述全基因组cfDNA谱与所述参考谱进行比较包括从所述全基因组cfDNA谱中减去基线参考谱。

18.根据权利要求12所述的方法，其中所述参考谱包括所述受试者的先前生成的全基因组cfDNA谱。

19.根据权利要求12所述的方法，其中所述参考谱包括群体来源的参考谱。

20.根据权利要求12所述的方法，其中将所述全基因组cfDNA谱与所述参考谱进行比较包括鉴定一个或多个相应cfDNA片段的相应升高的拷贝数信号。