CN111032868A

CN111032868A - 用于评估无细胞dna中的dna甲基化的方法和系统

Info

Publication number: CN111032868A
Application number: CN201880056483.3A
Authority: CN
Inventors: 周向红; 何珊珊; 玛丽·路易莎·萨默; 周永刚; 倪晓晖; 曾卫华
Original assignee: University of California San Diego UCSD
Current assignee: University of California San Diego UCSD
Priority date: 2017-06-30
Filing date: 2018-06-29
Publication date: 2020-04-17

Abstract

本公开内容涉及与富集特定DNA以用于甲基化状态和/或谱分析(例如在癌症诊断方法中)的方法有关的一些实施方案。在特定的一些实施方案中，所述方法利用无细胞DNA而不是基因组DNA作为DNA来源，并允许集中于富集具有两个或更多个酶消化位点并包含至少一个CpG位点的片段。

Description

用于评估无细胞DNA中的DNA甲基化的方法和系统

相关申请的交叉引用

本申请要求2017年6月30日提交的美国临时专利申请序列号62/527,236和2018年6月29日提交的美国临时专利申请序列号62/691,815的优先权，其全部内容通过引用并入本文。

技术领域

本公开内容的领域的一些实施方案包括至少细胞生物学、分子生物学、DNA分析、文库制备、诊断和/或医学。

背景技术

癌细胞通常表现出异常的DNA甲基化模式。高甲基化和/或低甲基化的肿瘤DNA片段可通过细胞凋亡或坏死释放到血流中，在那里它们可能成为体液(例如血浆或尿)中循环无细胞DNA(cfDNA)的一部分。因此，cfDNA甲基化谱分析是用于癌症筛查的有前途的策略。全基因组亚硫酸氢盐测序提供了DNA甲基化组的全面视图，但是对整个基因组进行深度测序可能是昂贵的。简化代表性亚硫酸氢盐测序(Reduced Representation BisulfiteSequencing，RRBS)是用于具有高CpG含量的基因组区域(大多数DNA甲基化发生在CpG位点)的甲基化谱分析的具有成本效益的技术。在RRBS中，首先用限制性内切核酸酶(通常是MspI)消化基因组DNA，然后进行大小选择以富集CpG密集区域。这些区域仅构成基因组的约3％，但提供了关于基因组的全面DNA甲基化信息。但是，cfDNA在性质上已经片段化，表现出在166bp附近特征峰。如果遵循典型RRBS程序选择40-220bp之间的片段，其可能非常类似于选择整个cfDNA群体。因此，尽管从基因组DNA产生并存在于典型RRBS文库中的几乎每个片段都已被MspI剪切了两次，但对于cfDNA而言并非如此。因此，对cfDNA进行典型的RRBS将缺少cfDNA的CpG富集，否则将有利于进行甲基化谱分析，例如用于临床诊断应用。

本公开内容涉及将RRBS应用于cfDNA的本领域的改进，包括促进从血源性或血浆源性或尿源性(或其组合)cfDNA制备文库用于甲基化谱分析。

发明内容

癌细胞通常可表现出异常的DNA甲基化模式，例如肿瘤抑制基因启动子区域的高甲基化以及基因间区域的普遍低甲基化。因此，患者的DNA甲基化谱可以成为临床实践中癌症评估的靶标。高甲基化和/或低甲基化的肿瘤DNA片段可通过例如细胞凋亡或坏死等过程释放到血流中，在那里这些循环肿瘤DNA(ctDNA)成为血浆中循环无细胞DNA(cfDNA)的一部分。cfDNA甲基化谱分析的非侵入性可能是用于一种或更多种疾病或病症筛查(包括至少常规癌症筛查)的有效策略。本公开内容的一些实施方案提供了用于富集cfDNA的对于甲基化谱分析为信息性的区域(例如CpG岛)的方法，从而与没有这种富集措施的情况相比，用于甲基化谱分析所分析的核酸更有效。在特定方面，个体患有癌症或怀疑患有癌症或有患癌症的风险，并且ctDNA分子的分析有助于确定个体是否患有癌症或怀疑患有癌症或有患癌症的风险。cfDNA可以是双链的、单链的或其混合物。

本公开内容的一些实施方案涉及与用于分析分子中甲基化量和/或位置的分子的制备有关的方法、系统和组合物。在特定的实施方案中，分子包含cfDNA，并且在特定方面，cfDNA来自个体(例如来自个体的血液或血浆或尿(或其组合)样品)。在特定的实施方案中，本公开内容提供了用于评估cfDNA分子中，例如cfDNA分子的富CpG区域中的DNA甲基化的方法和系统。这样的方法和系统可以富集无细胞DNA分子的富CpG区域，并且在方法的特定实施方案中有利地允许甲基化谱分析，例如用于临床诊断应用。本公开内容提供了用于富集无细胞DNA分子的富CpG区域的改进的方法、系统和组合物，包括促进从cfDNA制备文库用于甲基化谱分析。cfDNA的来源可以是例如血源性或血浆源性或尿源性(或其组合)。

对于本公开内容的与癌症有关的一些实施方案，合适样品中cfDNA的检测和表征可以是用于非侵入性癌症筛查，包括鉴定肿瘤起源组织的有效方法。与传统的组织活检不同，液体活检(也可以称为流体活检或流体相活检)(例如抽血)可用于诊断多种不同的恶性肿瘤，并且可用于本公开内容涵盖的方法中。

本公开内容涉及富集cfDNA中的CpG岛的一些实施方案，使得甲基化谱分析对于提供甲基化信息特别有效。具体的实施方案包括评估cfDNA的富CpG区域中的DNA甲基化的方法。

在特定的实施方案中，本方法不用于基因组DNA，而是用于cfDNA。这种区别区分了适合于富集基因组DNA的CpG岛的方法与不适合于富集cfDNA的CpG岛的方法。本公开内容改编了基因组DNA的甲基化分析方法以应用与基因组DNA具有独特差异的cfDNA的甲基化分析方法。

在特定的实施方案中，本发明的方法用于高度降解的基因组DNA，例如旧DNA或来自福尔马林固定石蜡包埋的组织样本的DNA。

本公开内容的一些实施方案包括对简化代表性亚硫酸氢盐测序(RRBS)的改进和/或改编，这是用于在单核苷酸水平上分析全基因组范围的甲基化谱的有效且高通量的技术。该技术结合了限制酶和亚硫酸氢盐测序，以富集具有高CpG含量的基因组区域，并且在至少一些情况下，该方法减少了需要测序的核苷酸数量。然而，由于标准RRBS不能用于cfDNA或高度降解的基因组DNA，因此本公开内容提供了对RRBS的改编以用于cfDNA或高度降解的基因组DNA。

本公开内容的方法可称为cfRRBS，其包括用于cfDNA或高度降解的基因组DNA的成本效益的甲基化谱分析的RRBS类似方法。与典型的RRBS不同，在特定的实施方案中，本文公开的cfRRBS程序包括cfDNA或高度降解的基因组DNA的双脱氧核苷酸(ddNTP)标记，然后进行MspI消化和文库构建。然后至少在特定实施方案中，对文库进行150～400bp的大小选择。在所公开方法的一些实施方案中，丢弃不包含或仅包含一个MspI可识别序列的DNA片段，并且仅富集包含两个或更多个MspI可识别序列的片段。在特定的实施方案中，这确保了每个分子包含至少一个CpG位点，这导致了有利于诊断工具的广泛临床应用的成本效益的测序。

在一个方面，本公开内容提供了用于处理或分析对象的多个无细胞脱氧核糖核酸(DNA)分子的方法，其包括：(a)使末端(i)不能与衔接子偶联或(ii)被配置为用于从所述多个cfDNA的其余部分中分离的所述多个无细胞DNA(cfDNA)分子经受足以使所述无细胞DNA分子的至少子集在一个或更多个CpG位点处发生片段化以提供多个DNA片段的条件；将所述衔接子与所述多个DNA片段的末端偶联以提供多个经标记的DNA片段，所述经标记的DNA片段具有可与非甲基化的核酸碱基区分的甲基化的核酸碱基；任选地(b)对所述多个经标记的DNA片段或其衍生物进行核酸测序以产生多个序列读段(sequence read)；以及任选地(c)处理所述多个序列读段以(i)从所述多个序列读段的两端的所述衔接子鉴定序列，以及(ii)在鉴定所述序列之后，将来自所述多个无细胞DNA分子的无细胞DNA分子鉴定为具有一个或更多个CpG位点。

在一些实施方案中，所述多个DNA片段的至少子集具有甲基化的核酸碱基。在一些实施方案中，将无细胞DNA分子鉴定为具有一个或更多个CpG位点包括将无细胞DNA分子鉴定为具有两个或三个或四个或更多个CpG位点。在一些实施方案中，所述方法还包括在将所述衔接子与所述多个DNA片段的末端偶联之前或之后，从所述多个DNA片段中分离具有所述末端的所述cfDNA分子的片段。在一些实施方案中，将所述片段与磁珠偶联，并且其中使用磁分离来分离所述片段。在一些实施方案中，所述方法还包括在将所述衔接子与所述多个DNA片段的末端偶联之前或之后，使所述多个cfDNA分子、所述多个DNA片段或其衍生物经受足以使所述甲基化的核酸碱基与所述非甲基化的核酸碱基区分开的条件。在一些实施方案中，使所述多个cfDNA分子、所述多个DNA片段或其衍生物经受所述条件包括对所述多个DNA片段进行亚硫酸氢盐转化。

在一些实施方案中，所述方法还包括使所述多个经标记的DNA片段或其衍生物经受足以使所述甲基化的碱基与所述非甲基化的核酸碱基区分开的条件。在一些实施方案中，使所述多个经标记的DNA片段或其衍生物经受所述条件包括对所述多个经标记的DNA片段进行亚硫酸氢盐转化。在一些实施方案中，(a)中的所述条件足以使所述经修饰的cfDNA分子的所述至少所述子集在多个CpG位点处片段化。

在一些实施方案中，步骤(a)还包括对所述多个cfDNA分子进行限制酶消化，以使所述多个cfDNA分子的所述至少所述子集在所述一个或更多个CpG位点处片段化。在一些实施方案中，使用一种或更多种限制酶进行所述限制酶消化，所述限制酶富集来自所述多个cfDNA分子的具有CpG位点的DNA片段。在一些实施方案中，所述一种或更多种限制酶包含MspI、HpaII和/或TaqI。在某些方面，仅使用MspI，而在另一些方面，与MspI一起使用的HpaII或与MspI一起使用的TaqI，或与MspI一起使用的HpaII和TaqI两者。在一些情况下，仅使用HpaII，而在另一些情况下，仅使用TaqI。在一些方面，MspI不用于消化。在该方法中使用多种酶的情况下，它们可以基本上同时或以任何顺序依次暴露于多个cfDNA分子。

在一些实施方案中，根据样品的性质、方法的目的、方法的预期应用等将衔接子特别地配置，包括使其最有效化。在某些实施方案中，每个所述衔接子包含至少一个功能序列(其可以具有任何合适的大小或序列)，所述功能序列被配置为与核酸测序仪的流动池偶联。在一些实施方案中，在(b)中偶联所述衔接子包括将所述衔接子与所述多个DNA片段的所述末端连接。在一些实施方案中，所述方法还包括在所述连接之前，对所述多个DNA片段进行末端修复或核酸碱基加尾。在一些实施方案中，所述方法还包括在所述连接之前，对所述多个DNA片段进行末端修复和核酸碱基加尾。

在一些实施方案中，所述衔接子被配置为与核酸分子偶联，以提供用于测序的文库。在一些实施方案中，所述衔接子被配置为与所述核酸分子连接。在一些实施方案中，所述衔接子包含至少一个茎环区域。在一些实施方案中，所述方法还包将所述衔接子与所述核酸分子偶联，以及使与所述核酸分子偶联的所述衔接子的所述茎环区域线性化。在一些实施方案中，所述线性化使用内切核酸酶、尿嘧啶糖基化酶或其功能类似物或其组合来进行。在一些实施方案中，所述内切核酸酶是内切核酸酶VIII或其功能类似物。在一些实施方案中，所述尿嘧啶糖基化酶是尿嘧啶脱氧核糖核酸(DNA)糖基化酶。

在一些实施方案中，所述衔接子是Y形的。在一些实施方案中，所述衔接子是平末端的。在一些实施方案中，所述衔接子包含已知序列。在一些实施方案中，所述衔接子包含独特序列，所述独特序列允许对所述多个经标记的DNA片段或其衍生物进行独特的分子鉴定。

在一些实施方案中，所述衔接子的所述核酸碱基是非甲基化的。在一些实施方案中，所述衔接子的所述核酸碱基是甲基化的。在一些实施方案中，所述方法还包括对所述多个DNA片段或所述多个经标记的DNA片段进行扩增。在一些实施方案中，所述扩增包括聚合酶链式反应(PCR)。

在一些实施方案中，所述方法还包括对所述多个DNA片段或所述多个经标记的DNA片段进行大小选择，以提供经大小选择的多个DNA片段。在一些实施方案中，所述经大小选择的多个经标记的DNA片段的长度为至少约或不超过约130至约400个核酸碱基，包括约150至约400个核酸碱基，约150至约300个核酸碱基，约150至约200个核酸碱基，约200至约400个核酸碱基，约200至约300个核酸碱基，约300至约400个核酸碱基，等等。在一些实施方案中，所述经大小选择的多个DNA片段的长度为至少约或不超过约30至约250个核酸碱基，约30至约200个核酸碱基，约30至约100个核酸碱基，约75至约250个核酸碱基，约75至约200个核酸碱基，约75至约150个核酸碱基，约75至约125个核酸碱基，约100至约250个核酸碱基，约100至约200个核酸碱基，约100至约150个核酸碱基，约175至约250个核酸碱基，约175至约225个核酸碱基，约200至约250个核酸碱基，等等。

在一些实施方案中，所述方法还包括测量所述多个DNA片段的至少一部分或所述多个经标记的DNA片段的至少一部分的甲基化状态，以提供所述多个DNA片段或所述经大小选择的多个经标记的DNA片段的所述至少所述一部分的甲基化谱。在一些实施方案中，所述方法还包括测量所述经大小选择的多个DNA片段的至少一部分或所述多个经标记的DNA片段的至少一部分的甲基化状态，以提供所述经大小选择的多个DNA片段或所述多个经标记的DNA片段的所述至少所述一部分的甲基化谱。在一些实施方案中，所述方法还包括相对于一种或更多种参考处理所述甲基化谱。甲基化谱可包含任意数量的CpG位点、富CpG序列和/或CpG岛的信息(包括某些甲基化位点的存在和/或不存在)。在一些实施方案中，所述参考包括一个或更多个另外对象的cfDNA分子的参考甲基化谱。例如，从其获得cfDNA的参考甲基化图谱的对象可能是健康的，可能没有癌症，可能患有癌症或可能具有升高的患癌症风险。

在一些实施方案中，所述多个cfDNA分子获自所述对象的身体样品。在一些实施方案中，所述身体样品选自血浆、血清、骨髓、脑脊髓液、胸膜液、唾液、粪便、痰、乳头抽出物、活检、颊刮屑、尿及其组合。在一些实施方案中，所述方法还包括处理来自所述多个cfDNA分子的具有一个或更多个CpG位点的所述cfDNA分子，以产生所述多个cfDNA分子的甲基化谱。在一些实施方案中，所述方法还包括处理所述甲基化谱以产生所述对象患有或怀疑患有疾病或病症的可能性。在将来自个体的样品的甲基化谱与一种或更多种参考进行比较的情况下，一种或更多种参考的样品来源可能与该个体的样品来源相同或不同。

在一些实施方案中，所述疾病或病症选自癌症、多发性硬化、创伤性或缺血性脑损伤、糖尿病、胰腺炎、阿尔茨海默病和胎儿异常。在一些实施方案中，所述疾病或病症是选自以下的癌症：胰腺癌、肝癌、肺癌、结直肠癌、白血病、膀胱癌、骨癌、脑癌、乳腺癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、黑素瘤、卵巢癌、睾丸癌、肾癌、肉瘤、胆道癌、甲状腺癌、胆囊癌、脾癌和前列腺癌。

在一些实施方案中，获自所述对象的身体样品的cfDNA分子的甲基化谱可用于监测异常的组织特异性细胞死亡。

在另一方面，本公开内容提供了用于富集来自对象的多个无细胞DNA(cfDNA)分子的多个脱氧核糖核酸(DNA)片段的方法，其包括：(a)对所述多个无细胞DNA分子或其衍生物的至少一部分中的每一个的一个或两个末端进行修饰，以提供具有以下末端的多个经修饰的无细胞DNA分子：(i)不能与衔接子偶联或(ii)被配置为用于从所述多个cfDNA的其余部分中分离；(b)使所述多个经修饰的无细胞DNA分子经受足以使所述经修饰的无细胞DNA分子的至少子集中的每一个在一个或更多个CpG位点处发生片段化以提供多个DNA片段的条件；其中所述多个DNA片段的至少子集具有甲基化的核酸碱基；以及(c)将所述衔接子与所述多个DNA片段的末端偶联以提供多个经标记的DNA片段，所述经标记的DNA片段具有可与非甲基化的核酸碱基区分的甲基化的核酸碱基。

在一些实施方案中，所述多个DNA片段的至少子集具有甲基化的核酸碱基。在一些实施方案中，所述方法还包括在(c)之前或之后，从所述多个DNA片段中分离具有所述末端的所述cfDNA分子的片段。在一些实施方案中，将所述片段与磁珠偶联，并且其中使用磁分离来分离所述片段。在一些实施方案中，在(a)中，所述经修饰的无细胞DNA分子的末端不能进行连接或引物延伸。在一些实施方案中，所述方法还包括在(c)之前或之后，使所述多个DNA片段经受足以使所述甲基化的核酸碱基与所述非甲基化的核酸碱基区分开的条件。在一些实施方案中，使所述多个DNA片段经受足以使所述甲基化的核酸碱基与所述非甲基化的核酸碱基区分开的条件包括对所述多个DNA片段进行亚硫酸氢盐转化。

在一些实施方案中，所述方法还包括在(c)之后，使所述多个经标记的DNA片段经受足以使所述甲基化的核酸碱基与所述非甲基化的核酸碱基区分开的条件，从而产生额外的多个经标记的DNA片段。在一些实施方案中，使所述多个经标记的DNA片段经受足以使所述甲基化的核酸碱基与所述非甲基化的核酸碱基区分的所述条件包括对所述多个经标记的DNA片段进行亚硫酸氢盐转化。

在一些实施方案中，(b)中的所述条件足以使所述经修饰的无细胞DNA分子的所述至少所述子集中的每一个在多个CpG位点处片段化。在一些实施方案中，所述修饰包括使所述多个cfDNA分子的所述至少所述一部分中的每一个的3’末端经受足以用双脱氧核苷酸(ddNTP)部分或其功能类似物修饰所述3’末端的条件。在一些实施方案中，所述修饰包括使所述多个cfDNA分子的所述至少所述一部分中的每一个的5’末端经受足以使所述5’末端脱磷酸化的条件。脱磷酸化可通过任何合适的方式发生，包括例如利用脱磷酸酶，例如小牛肠碱性磷酸酶。

在一些实施方案中，所述修饰包括在所述多个cfDNA分子的至少一部分中的每一个的所述一个或两个末端引入一个或更多个阻断剂寡核苷酸。在一些实施方案中，(b)还包括对所述多个经修饰的无细胞DNA分子进行限制酶消化以使所述经修饰的无细胞DNA分子的所述至少所述子集中的每一个在所述一个或更多个CpG位点处片段化。在一些实施方案中，使用富集具有CpG位点的片段的一种或更多种限制酶来进行所述限制酶消化。在一些实施方案中，所述一种或更多种限制酶包含MspI、HpaII和/或TaqI。

在一些实施方案中，每个所述衔接子包含被配置为与核酸测序仪的流动池偶联的功能序列。在一些实施方案中，在(c)中偶联所述衔接子包括将所述衔接子与所述多个DNA片段的所述末端连接。在一些实施方案中，所述方法还包括在所述连接之前，对所述多个DNA片段进行末端修复或核酸碱基加尾。在一些实施方案中，所述方法还包括在所述连接之前，对所述多个DNA片段进行末端修复和核酸碱基加尾。在某些实施方案中，衔接子被标记。

在一些实施方案中，所述衔接子被配置为与核酸分子偶联，以提供用于测序的文库。在一些实施方案中所述衔接子被配置为与所述核酸分子连接。在一些实施方案中，所述衔接子包含至少一个茎环区域。在一些实施方案中，所述方法还包括将所述衔接子与所述核酸分子偶联，以及使与所述核酸分子偶联的所述衔接子的所述茎环区域线性化。在一些实施方案中，所述线性化使用内切核酸酶、尿嘧啶糖基化酶或其功能类似物或其组合来进行。在一些实施方案中，所述内切核酸酶是内切核酸酶VIII或其功能类似物。在一些实施方案中，所述尿嘧啶糖基化酶是尿嘧啶脱氧核糖核酸(DNA)糖基化酶。

在一些实施方案中，所述方法还包括对所述多个DNA片段或所述多个经标记的DNA片段进行大小选择，以提供经大小选择的多个DNA片段。在一些实施方案中，所述经大小选择的多个DNA片段的长度为约130至约400个核酸碱基。在一些实施方案中，所述经大小选择的多个DNA片段的长度为约30至约250个核酸碱基。

在一些实施方案中，所述方法还包括测量所述多个DNA片段或所述多个经标记的DNA片段的至少一部分的甲基化状态，以提供所述多个DNA片段或所述多个经标记的DNA片段的所述至少所述一部分的甲基化谱。在一些实施方案中，所述方法还包括还包括测量所述经大小选择的多个DNA片段的至少一部分的甲基化状态，以提供所述经大小选择的多个DNA片段或经大小选择的多个经标记的DNA片段的所述至少所述一部分的甲基化谱。在一些实施方案中，所述方法还包括相对于一种或更多种参考处理所述甲基化谱。

在一些实施方案中，所述方法还包括对所述经大小选择的多个DNA片段或经大小选择的多个经标记的DNA片段或其衍生物的至少一部分进行核酸测序以产生多个序列读段。在一些实施方案中，所述参考包含一个或更多个另外对象的cfDNA分子的参考甲基化谱。在一些实施方案中，所述多个cfDNA分子获自所述对象的身体样品。在一些实施方案中，所述身体样品选自血浆、血清、骨髓、脑脊髓液、胸膜液、唾液、粪便、痰、乳头抽出物、活检、颊刮屑和尿。

在另一方面，本公开内容提供了用于处理或分析多个无细胞脱氧核糖核酸(DNA)分子的方法，其包括：(a)检索由测序仪产生的多个序列读段，其中所述多个序列读段的至少子集包含独立序列读段，所述独立序列读段包含：(i)来自所述多个无细胞DNA分子的序列和(ii)位于每个所述独立序列读段的两端的衔接子序列，所述衔接子序列不来自所述多个无细胞DNA分子；(b)处理所述多个序列读段以(i)鉴定来自所述多个序列读段的在两端具有所述衔接子序列的一个或更多个序列读段，以及(ii)将所述一个或更多个序列读段鉴定为与所述多个无细胞DNA分子的一个或更多个CpG位点相关；以及(c)使用在(b)中鉴定的所述一个或更多个CpG位点产生所述多个无细胞DNA分子的甲基化谱。在特定的实施方案中，甲基化谱在临床方法中用于个体的诊断、预后、治疗功效和/或治疗方案。

在一些实施方案中，所述一个或更多个CpG位点包含两个或更多个、三个或更多个或四个或更多个CpG位点。在一些实施方案中，所述方法还包括产生报告，例如电子输出指示所述甲基化谱的报告。在一些实施方案中，所述方法还包括处理所述甲基化谱以产生所述对象患有或怀疑患有至少一种疾病或病症的可能性或风险。在一些实施方案中，所述疾病或病症选自癌症、多发性硬化、创伤性或缺血性脑损伤、糖尿病、胰腺炎、阿尔茨海默病和胎儿异常。在一些实施方案中，所述疾病或病症是选自以下的癌症：胰腺癌、肝癌、肺癌、结直肠癌、白血病、膀胱癌、骨癌、脑癌、乳腺癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、黑素瘤、卵巢癌、睾丸癌、肾癌、肉瘤、胆道癌、甲状腺癌、脾癌、胆囊癌和前列腺癌。

在另一方面，本公开内容提供了用于处理或分析多个无细胞脱氧核糖核酸(DNA)分子的系统，其包括：存储多个序列读段的数据库，其中所述多个序列读段的至少子集包含独立序列读段，所述独立序列读段包含：(i)来自所述多个无细胞DNA分子的序列和(ii)位于每个所述独立序列读段的两端的衔接子序列，所述衔接子序列不来自所述多个无细胞DNA分子；以及可操作地耦合到所述数据库的一个或更多个计算机处理器，其中所述一个或更多个计算机处理器被单独地或共同地编程为：(1)从所述数据库中检索所述多个序列读段；(2)处理所述多个序列读段以(i)鉴定来自所述多个序列读段的在两端具有所述衔接子序列的一个或更多个序列读段，以及(ii)将所述一个或更多个序列读段鉴定为与所述多个无细胞DNA分子的一个或更多个CpG位点相关；以及(3)使用在(2)中鉴定的所述一个或更多个CpG位点产生所述多个无细胞DNA分子的甲基化谱。此后，甲基化谱可指示与序列读段相关的个体是否患有特定的疾病或病症，包括例如癌症。甲基化谱可指示个体是否患有某种类型的癌症，患有某种癌症阶段，将对一种或更多种特定疗法产生良好的响应，个体的预期寿命等。

在一些实施方案中，所述一个或更多个CpG位点包含两个或更多个CpG位点。在一些实施方案中，所述一个或更多个计算机处理器被单独地或共同地编程为电子地输出指示所述甲基化谱的报告。在一些实施方案中，所述一个或更多个计算机处理器被单独地或共同地编程为处理所述甲基化谱，以产生所述对象患有或怀疑患有一种或更多种疾病或病症的可能性或风险。在一些实施方案中，所述疾病或病症选自癌症、多发性硬化、创伤性或缺血性脑损伤、糖尿病、胰腺炎、阿尔茨海默病和胎儿异常。在一些实施方案中，所述疾病或病症是选自以下的癌症：胰腺癌、肝癌、肺癌、结直肠癌、白血病、膀胱癌、骨癌、脑癌、乳腺癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、黑素瘤、卵巢癌、睾丸癌、肾癌、肉瘤、胆道癌、甲状腺癌、脾癌、胆囊癌和前列腺癌。

在一些实施方案中，获自所述对象的身体样品的cfDNA分子的甲基化模式可用于监测异常的组织特异性细胞死亡。

在另一方面，本公开内容提供了包含机器可执行代码的非暂时性计算机可读介质，在由一个或更多个计算机处理器执行时，所述机器可执行代码执行用于处理或分析多个无细胞脱氧核糖核酸(DNA)分子的方法，所述方法包括：(a)检索由测序仪产生的多个序列读段，其中所述多个序列读段的至少子集包含独立序列读段，所述独立序列读段包含：(i)来自所述多个无细胞DNA分子的序列和(ii)位于每个所述独立序列读段的两端的衔接子序列，所述衔接子序列不来自所述多个无细胞DNA分子；(b)处理所述多个序列读段以(i)鉴定来自所述多个序列读段的在两端具有所述衔接子序列的一个或更多个序列读段，以及(ii)将所述一个或更多个序列读段鉴定为与所述多个无细胞DNA分子的一个或更多个CpG位点相关；以及(c)使用在(b)中鉴定的所述一个或更多个CpG位点产生所述多个无细胞DNA分子的甲基化谱。

通过下面的详细描述，本公开内容的其他方面和优点对于本领域技术人员将变得明显，其中仅示出和描述了本公开内容的说明性实施方案。将认识到，本公开内容能够具有其他和不同的一些实施方案，并且其若干细节能够在多个明显的方面进行修改，而不脱离本公开内容。因此，附图和描述在本质上应被认为是说明性的，而不是限制性的。

在一些实施方案中，存在富集来自cfDNA(包括获自血液或血浆或尿或其组合)的富CpG序列的方法，所述方法包括以下步骤：标记或修饰cfDNA分子的末端以产生经标记的cfDNA分子，其中经标记的cfDNA分子的末端不能进行连接；用识别甲基化形式、非甲基化形式或两种形式的C^CGG、T^CGA或其他位点的一种或更多种限制酶(例如MspI、HpaII、TaqI，或包含MspI、TaqI和/或HpaII的混合物)消化经标记的cfDNA分子，以产生在两端可连接的经消化的cfDNA分子以及产生仅在一端可连接的经消化的cfDNA分子；将甲基化的衔接子与经消化的cfDNA分子的可连接末端连接，从而产生经衔接子连接的cfDNA分子；对经衔接子连接的cfDNA分子进行亚硫酸氢盐转化以产生亚硫酸氢盐转化的经衔接子连接的cfDNA分子；以及扩增(例如通过聚合酶链式反应)在分子的两端均包含衔接子的亚硫酸氢盐转化的经衔接子连接的cfDNA分子。在一些具体的一些实施方案中，衔接子可以连接至单链DNA，并且亚硫酸氢盐转化可以在衔接子连接之前进行。在特定的实施方案中，所述方法还包括对经扩增的亚硫酸氢盐转化的经衔接子连接的cfDNA分子进行大小选择的步骤。经大小选择的扩增的亚硫酸氢盐转化的经衔接子连接的cfDNA分子的长度可为约150至约400个核苷酸。在一些实施方案中，标记步骤包括在所述标记之前或之后将所述cfDNA分子的5’末端脱磷酸化。标记可包括在cfDNA分子的3’末端添加ddNTP，并且在一些情况下，所述标记是可检测的。在特定的实施方案中，标记包含ddNTP，其是荧光的、比色的、生物素化的、放射性的或其组合。在某些实施方案中，方法还包括在所述连接步骤之前对所述经消化的cfDNA分子进行末端修复和核苷酸加尾的步骤。

在特定的实施方案中，衔接子包含至少一个茎环区域。在这种情况下，所述方法可还包括使经衔接子连接的cfDNA分子上的衔接子的茎环区域线性化的步骤。线性化可通过至少一种尿嘧啶DNA糖基化酶进行，或通过限制酶进行，或通过两者进行。在特定的实施方案中，线性化通过尿嘧啶DNA糖基化酶和内切核酸酶VIII的混合物进行。在一些情况下，衔接子是叉形的。衔接子可包含一个或更多个已知序列，包括一个或更多个独特序列。

在一些实施方案中，所述方法还包括从血液或血浆中获得cfDNA的步骤。可以分析经大小选择的扩增的cfDNA分子中的一些或全部，例如部分或完全测序。在一些情况下，分析经大小选择的扩增的cfDNA分子中的一些或全部的甲基化谱，并且经大小选择的扩增的cfDNA分子中的一些或全部的甲基化谱可与或不与参考进行比较。可以将来自第一个体的cfDNA的经大小选择的扩增的cfDNA分子中的一些或全部的甲基化谱与第二个体或更多个体的DNA中的一个或更多个甲基化谱进行比较。

本公开内容的方法包括用于富集来自无细胞DNA(cfDNA)的富CpG序列的方法，其包括对cfDNA分子末端进行修饰以产生其中经标记的cfDNA分子的末端不能进行连接的cfDNA分子的步骤。可通过对末端的一种或更多种修饰来实现对末端的修饰以防止连接。例如，可以修饰DNA的5’末端和/或3’末端。在一些情况下，5’末端被脱磷酸化，除此之外或作为替代，通过向DNA 3’末端添加试剂(例如使用ddNTP)来修饰3’末端。

通过引用并入

本说明书中提到的所有出版物、专利和专利申请都以相同的程度通过引用并入本文，就如同每个单独的出版物、专利或专利申请被明确地并单独地指出通过引用并入一样。在通过引用并入的出版物和专利或专利申请与说明书中包含的公开内容相矛盾的情况下，说明书旨在取代和/或优先于任何这样的矛盾材料。

附图简述

本发明的新特征在所附的权利要求书中具体阐述。通过参考下面的详细说明，可以更好地理解本发明的特征和优点，所述详细说明阐述了利用本发明的原理的说明性实施方案以及附图(在本文中也称为“附图”和“图”)，其中：

图1示出了进行无细胞DNA(cfDNA)的甲基化谱分析的流程图。

图2示出了使用具有Y形衔接子的无细胞RRBS(cfRRBS)对cfDNA进行甲基化谱分析。

图3示出了使用具有茎环衔接子的无细胞RRBS(cfRRBS)对cfDNA进行甲基化谱分析。

图4示出了使用具有单链连接衔接子的无细胞RRBS(cfRRBS)对cfDNA进行甲基化谱分析。

图5示出了使用具有通过链霉亲和素磁珠去除的无细胞RRBS(cfRRBS)对cfDNA进行甲基化谱分析。

图6A-6C。图6A示出了截短的Y形衔接子，图6B示出了在末端具有条形码的截短的Y形衔接子，并且图6C示出了在末端具有条形码加通过酶消化留下的核酸碱基的截短的Y形衔接子。

图7A-7C。图7A示出了茎环衔接子，图7B示出了在末端具有条形码的茎环衔接子，并且图7C示出了在末端具有条形码加通过酶消化留下的核酸碱基的茎环衔接子。

图8A-8D示出了不同的单链连接衔接子的实例。

图9示出了来自RRBS测定和来自cfRRBS测定的产物的凝胶电泳的比较。

图10示出了被编程或以其他方式配置为执行本文提供的方法的计算机系统。

详细说明

尽管已经在本文中示出和描述了本发明的多种实施方案，但是对于本领域技术人员显而易见的是，这些实施方案仅作为示例提供。在不脱离本发明的情况下，本领域技术人员可以想到许多变化、改变和替换。应当理解，可以采用本文所述的本发明的一些实施方案的多种替代方案。

为了与长期的专利法惯例保持一致，当在本说明书中(包括在权利要求书中)结合词语包含使用时，未用数量词限定的名词表示“一个/种或更多个/种”。本公开内容的一些实施方案可由或基本上由本公开内容的一个或更多个元素、方法步骤和/或方法组成。预期可以相对于本文描述的任何其他方法或组合物来实施本文描述的任何方法、系统或组合物。

I.定义实例

本发明的多个方面可以以范围形式呈现。应当理解，范围形式的描述仅是为了方便和简洁，而不应被解释为对本公开内容的范围的不灵活的限制。因此，应该将范围的描述视为已明确公开了该范围内的所有可能的子范围以及各个数值，就好像已明确写出一样。例如，对范围例如1至6的描述应视为已明确公开了该范围内的子范围，例如1至3，1至4，1至5，2至4，2至6，3至6等，以及各个数值，例如1、2、3、4、5和6。这与范围的广度无关。当存在范围时，范围可包括范围端点。

如本文所用，术语“对象”通常是指具有进行处理或分析的生物学样品的个体。对象可以是动物或植物。对象可以是哺乳动物，例如人、狗、猫、马、猪或啮齿动物。对象可以是患者，例如患有或怀疑患有疾病或具有患疾病风险，所述疾病例如是一种或更多种癌症(例如脑癌、乳腺癌、宫颈癌、结直肠癌、子宫内膜癌、食管癌、胃癌、肝胆道癌、白血病、肝癌、肺癌、淋巴瘤、卵巢癌、胰腺癌、皮肤癌、泌尿道癌、睾丸癌、肾癌、肉瘤、胆道癌、甲状腺癌、胆囊癌、脾癌或前列腺癌，并且癌症可包括或不包括实体瘤，一种或更多种感染性疾病，一种或更多种遗传疾病，或一种或更多种肿瘤，或其任何组合。对于患有或怀疑患有一种或更多种肿瘤的对象，肿瘤可以是一种或更多种类型。对象可患有疾病或怀疑患有疾病。该对象可能是无症状的。

如本文所用，术语“样品”通常是指生物学样品。样品可以取自组织和/或细胞或者组织和/或细胞的环境。在一些实例中，样品可包含或来源于组织活检、血液(例如全血)、血浆、细胞外液、干血斑、培养的细胞、培养基、废弃的组织、植物物质、合成蛋白、细菌和/或病毒样品、真菌组织、古细菌或原生动物。在收集之前，样品可能已与来源分离。样品可包含法医证据。非限制性实例包括在收集之前从主要来源分离的指纹、唾液、尿、血液、粪便、精液或其他体液。在一些实例中，在样品制备过程中将样品与其主要来源(细胞、组织、体液(例如血液)、环境样品等)分离。样品可源自灭绝物种，包括但不限于源自化石的样品。样品可能会或不会从其主要来源中纯化或以其他方式富集。在一些情况下，在进一步处理之前将主要来源均质化。可以将样品过滤或离心以去除血沉棕黄层、脂质或颗粒物质。也可以纯化或富集样品的核酸，或可以用RNase或DNase处理。样品可包含完整的、破碎的或部分降解的组织和/或细胞。

样品可获自患有疾病或病症的对象，并且对象可具有或不具有疾病或病症的诊断。对象可能需要第二意见。疾病或病症可以是感染性疾病、免疫障碍或疾病、癌症、遗传性疾病、退行性疾病、生活方式疾病或损伤。感染性疾病可能是由细菌、病毒、真菌和/或寄生物引起的。癌症的非限制性实例包括胰腺癌、肝癌、肺癌、结直肠癌、白血病、膀胱癌、骨癌、脑癌、乳腺癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、黑素瘤、卵巢癌、甲状腺癌、胆囊癌、脾癌和前列腺癌。遗传性疾病或病症的一些实例包括但不限于囊性纤维化、夏科-马里-图思病(Charcot-Marie-Tooth disease)、亨廷顿病(Huntington′s disease)、波伊茨-耶格综合征(Peutz-Jeghers syndrome)、唐氏综合症(Down syndrome)、类风湿性关节炎和泰-萨克斯病(Tay-Sachs disease)。生活方式疾病的非限制性实例包括肥胖、糖尿病、动脉硬化、心脏病、卒中、高血压、肝硬化、肾炎、癌症、慢性阻塞性肺病(COPD)、听力问题和慢性背痛。损伤的一些实例包括但不限于：擦伤、脑部伤、瘀伤、烧伤、脑震荡、充血性心力衰竭、结构损伤(construction injury)、脱臼、连枷胸、骨折、血胸、椎间盘突出(herniateddisc)、髋骨隆凸挫伤(hip pointer)、低体温、撕裂伤、神经挟捏(pinched nerve)、气胸、肋骨骨折、坐骨神经痛、脊髓损伤、肌腱韧带筋膜损伤、创伤性脑损伤和鞭伤。可以在治疗患有疾病或病症的对象之前和/或之后获取样品。可以在治疗对象的疾病或病症之前和/或之后获取样品。可以在治疗或治疗方案期间获取样品。可以从对象获取多个样品以随时间监测治疗效果，包括从治疗开始之前开始。样品可取自已知或怀疑患有感染性疾病的对象，对于该感染性疾病，诊断抗体可能存在或可能不存在。

样品可取自怀疑患有疾病或病症的对象。样品可取自经历了无法解释的症状例如疲劳、恶心、体重减轻、痛、疼痛、虚弱或记忆力减退的对象。样品可取自具有经解释的症状的对象。样品可取自由于一种或更多种因素而具有出现疾病或病症的风险的对象，所述因素例如家族和/或个人病史、年龄、环境暴露、生活方式风险因素、存在其他已知风险因素、或其组合。

样品可取自健康个体。在一些情况下，样品可纵向取自同一个体。在一些情况下，可对纵向获取的样品进行分析，其目的是监测个体健康以及健康组织的早期检测(例如癌症的早期诊断)。在一些实施方案中，样品可在家庭环境或现场护理环境收集，然后在分析之前通过邮件递送、快递递送或其他运输方法来运输。例如，家庭用户可通过手指点刺收集血斑样品，并且可以将血斑样品干燥并随后在分析之前通过邮件递送来运输。在一些情况下，纵向获取的样品可用于监测对预期会影响健康、运动表现或认知表现的刺激的响应。非限制性实例包括对药物、节食和/或运动方案的响应。在一些情况下，个体样品是多用途的，可进行甲基化谱分析以获得临床相关信息，但也可用于获取有关个体的个人或家庭血统的信息。

在一些实施方案中，生物学样品是包含一个或更多个核酸分子的核酸样品。核酸分子可以是无细胞的或基本上无细胞的核酸分子，例如无细胞DNA(cfDNA)或无细胞RNA(cfRNA)或其混合物。核酸分子可源自多种来源，包括人、哺乳动物、非人哺乳动物、猿、猴、黑猩猩、爬行动物类、两栖或禽类来源。此外，样品可提取自包含无细胞序列的多种动物流体，包括但不限于血液、血清、血浆、骨髓、玻璃体、痰、粪便、尿、眼泪、汗液、唾液、精液、粘膜排泄物、粘液、脑脊髓液、胸膜液、羊水和淋巴液。样品可以取自胚胎、胎儿或孕妇。在一些实例中，样品可分离自母亲的血浆。在一些实例中，样品可包含源自胎儿的无细胞核酸(例如，cfDNA)(通过从怀孕对象获得的身体样品)或来源于对象自身的组织。

样品的组分(包括核酸)可以例如用可识别的标签标记，以允许样品的多路复用。可识别标签的一些非限制性实例包括：荧光团、磁性纳米颗粒和核酸条形码。荧光团可包括荧光蛋白，例如GFP、YFP、RFP、eGFP、mCherry、tdtomato、FITC、Alexa Fluor 350、AlexaFluor 405、Alexa Fluor 488、Alexa Fluor 532、Alexa Fluor 546、Alexa Fluor 555、Alexa Fluor 568、Alexa Fluor 594、Alexa Fluor 647、Alexa Fluor 680、Alexa Fluor750、Pacific Blue、Coumarin、BODIPY FL、Pacific Green、Oregon Green、Cy3、Cy5、Pacific Orange、TRITC、Texas Red、藻红蛋白、别藻蓝蛋白(Allophcocyanin)或其他荧光团。在测序之前，可将一个或更多个条形码标签附着(例如，通过偶联或连接)至样品中的无细胞核酸(例如，cfDNA)。条形码可以独特地标记样品中的cfDNA分子。或者，条形码可以非独特地标记样品中的cfDNA分子。条形码可以非独特地标记样品中的cfDNA分子，使得与非独特标签一起组合获取的获自cfDNA分子的其他信息(例如cfDNA分子的内源序列的至少一部分)可用作样品中cfDNA分子的独特标识符(例如，相对于其他分子进行独特识别)。例如，可基于在序列读段一个或两个末端的包含一个或更多个连续碱基区域的序列信息、序列读段的长度、以及在序列读段一个或两个末端的所附条形码的序列来检测具有独特身份(例如，来自给定模板分子)的cfDNA序列读段。通过在扩增之前将DNA(例如cfDNA)样品分成许多(例如至少约50、至少约100、至少约500、至少约1千、至少约5千、至少约1万、至少约5万或至少约10万)个不同的离散亚单位(例如，分区、孔或液滴)，使得可以独特地分辨扩增的DNA分子并将其鉴定为源自它们各自的DNA输入分子，可在不进行标记的情况下独特地鉴定DNA分子。

可对任意数量的样品进行多路复用。例如，多路复用分析可包含至少约2、约3、约4、约5、约6、约7、约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约25、约30、约35、约40、约45、约50、约55、约60、约65、约70、约75、约80、约85、约90、约95、约100或更多个样品。可识别标签可以提供一种询问每个样品来源的方法，也可以引导不同的样品分离到不同的区域或固体支持物上。

可以在分析之前混合任何数量的样品，而无需标记或多路复用。例如，多路复用分析可包含至少约2、约3、约4、约5、约6、约7、约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约25、约30、约35、约40、约45、约50、约55、约60、约65、约70、约75、约80、约85、约90、约95、约100或更多个样品。可使用组合池设计在不进行标记的情况下对样品进行多路复用，其中以允许使用计算多路分解从分析池中辨析单个样品的信号的方式将样品混合到池中。

样品可以在测序之前富集。例如，可选择性富集或非选择性富集cfDNA分子的来自对象基因组或转录组的一个或更多个区域。例如，可通过靶向序列捕获(例如，使用面板)、选择性扩增或靶向扩增以选择性富集cfDNA分子的来自对象基因组或转录组的一个或更多个区域。作为另一个实例，可通过普遍扩增(universal amplification)非选择性富集cfDNA分子的来自对象基因组或转录组的一个或更多个区域。在一些实施方案中，扩增包括普遍扩增、全基因组扩增或非选择性扩增。可对cfDNA分子进行大小选择以选择具有预定范围的长度的片段。例如，可以在衔接子连接之前对DNA片段进行大小选择，以选择约40个碱基对(bp)至约250bp的长度。作为另一个实例，可以在衔接子连接之后对DNA片段进行大小选择，以选择约160bp至约400bp的长度。

在一些实施方案中，可以在处理用于分析的读段之前从进一步的分析中去除序列读段的子集。例如，可以滤除质量得分小于预定阈值(例如90％、99％、99.9％或99.99％)的序列读段的子集。可使用条形码序列、长度、质量得分、GC含量或独立序列读段的其他属性对给定cfDNA样品中的序列读段组进行校正或归一化。

如本文所用，术语“核酸”或“多核苷酸”通常是指包含一个或更多个核酸亚基或核苷酸的分子。核酸可包含一个或更多个选自腺苷(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)或其变体的核苷酸。核苷酸通常包含核苷和至少1、2、3、4、5、6、7、8、9、10或更多个磷酸(PO3)基团。核苷酸可包含单独的或组合的核碱基、五碳糖(核糖或脱氧核糖)以及一个或更多个磷酸基团。

核糖核苷酸是其中糖是核糖的核苷酸。脱氧核糖核苷酸是其中糖是脱氧核糖的核苷酸。核苷酸可以是核苷单磷酸或核苷多磷酸。核苷酸可以是脱氧核糖核苷多磷酸，例如脱氧核糖核苷三磷酸(dNTP)，其可以选自脱氧腺苷三磷酸(dATP)、脱氧胞苷三磷酸(dCTP)、脱氧鸟苷三磷酸(dGTP)、尿苷三磷酸(dUTP)和脱氧胸苷三磷酸(dTTP)dNTP，其包含可检测的标签，例如发光标签或标志物(例如，荧光团)。核苷酸可包含可以引入到正在生长的核酸链中的任何亚基。这样的亚基可以是A、C、G、T或U，或者是一个或更多个互补A、C、G、T或U特异性的或与嘌呤(即A或G，或其变体)或嘧啶(即C、T或U，或其变体)互补的任何其他亚基。在一些实例中，核酸是脱氧核糖核酸(DNA)、核糖核酸(RNA)或其衍生物或变体。核酸可以是单链或双链的。核酸分子可以是线性的、弯曲的或圆形的或其任何组合。

如本文所用，术语“核酸分子”、“核酸序列”、“核酸片段”、“寡核苷酸”和“多核苷酸”通常是指多核苷酸，例如脱氧核糖核苷酸(DNA)或核糖核苷酸(RNA)，或其类似物和/或其组合(例如DNA和RNA的混合物)。核酸分子可以具有各种长度。核酸分子可具有至少约5个碱基、10个碱基、20个碱基、30个碱基、40个碱基、50个碱基、60个碱基、70个碱基、80个碱基、90、100个碱基、110个碱基、120个碱基、130个碱基、140个碱基、150个碱基、160个碱基、170个碱基、180个碱基、190个碱基、200个碱基、300个碱基、400个碱基、500个碱基、1千碱基(kb)、2kb、3、kb、4kb、5kb、10kb或50kb的长度，或者其可具有在任意两个上述值之间的任意数量的碱基。寡核苷酸通常由四种核苷酸碱基的特定序列组成：腺嘌呤(A)；胞嘧啶(C)；鸟嘌呤(G)；胸腺嘧啶(T)(当多核苷酸为RNA时，尿嘧啶(U)代替胸腺嘧啶(T))。因此，术语“核酸分子”、“核酸序列”、“核酸片段”、“寡核苷酸”和“多核苷酸”至少部分意图是多核苷酸分子的字母表示。或者，该术语可以应用于多核苷酸分子本身。该字母表示可以输入到具有中央处理单元的计算机中的数据库中和/或用于生物信息学应用，例如功能基因组学和同源性搜索。寡核苷酸可包含一种或更多种非标准核苷酸、核苷酸类似物和/或经修饰的核苷酸。

如本文所用，术语“无细胞DNA”或“cfDNA”通常是指在身体的流体(例如血流或来自其的血浆)中自由循环的DNA。在本文所用方法的特定实施方案中，cfDNA涵盖特定类型的cfDNA，例如循环肿瘤DNA(ctDNA)，其是在血液中的与细胞不相关的肿瘤来源的片段化DNA。cfDNA可以是双链的、单链的或具有两者的特征。

如本文所用，术语“CpG位点”通常是指沿着核酸分子的位置，其在沿5′至3′方向包含与鸟嘌呤(G)相邻的胞嘧啶(C)。核酸分子可包含至少1、2、3、4、5、6、7、8、9、10、20、30、40、50、100、500、1000、10000或更多个CpG位点。沿着核酸分子的3’至5’方向的CpG位点可称为“GpC位点”。

如本文所用，术语“CpG岛”通常是指满足以下条件的基因组DNA的连续区域：(1)具有大于约0.6的对应于“观察数与预期数比率”的CpG二核苷酸频率；(2)具有大于约0.5的“GC含量”；和(3)长度为至少约0.2千碱基(kb)，可能的例外是排除或掩盖了符合这些标准的重复区域。鉴定CpG岛的标准由例如Gardiner-Garden等人(J.Mol.Biol.，196：262-282，1987)描述，其通过引用整体并入本文。

如本文所用，术语“富CpG”通常是指具有高CpG含量的基因组区域，其中可能发生大多数DNA甲基化。高CpG含量的区域可能具有至少1％、2％、3％、4％、5％、6％、7％、8％、9％、10％或更高的CpG含量。在一些情况下，这样的CpG含量大于1％。在一些实施方案中，富CpG区域可包含CpG岛和启动子区域。富CpG区域可包括任何长度(例如，没有长度限制为至少0.2kb)。

如本文所用，术语“亚硫酸氢盐转化”通常是指用于将非甲基化的碱基(例如胞嘧啶碱基)转化为尿嘧啶碱基，从而保留碱基(例如甲基化胞嘧啶)的生物化学方法。用于亚硫酸氢盐转化的试剂的实例包括亚硫酸氢钠、亚硫酸氢镁和亚硫酸氢三烷基铵。

II.富集具有富CpG区域的DNA

本公开内容提供了有效富集具有富CpG区域的特定DNA，包括cfDNA，其可以是双链的或单链的或具有两者特征，并且所述富集允许随后的分析或使分析更有效。本公开内容提供了用于获得关于cfDNA的甲基化信息的有用的方法、系统和组合物，其可以临床用于特定个体的筛查、诊断、预后或治疗方面。该个体可患有或怀疑患有特定疾病或病症或需要针对特定疾病或病症的治疗计划，并且本公开内容涵盖癌症实施方案和非癌症实施方案。

癌细胞可能表现出异常的DNA甲基化模式。高甲基化和/或低甲基化的肿瘤DNA片段可通过例如细胞凋亡或坏死等过程释放到血流中，在那里它们可能成为体液(例如血浆或尿)中循环无细胞DNA(cfDNA)的一部分。因此，cfDNA甲基化谱分析是用于癌症筛查或其他疾病或病症筛查的有前途的策略。全基因组亚硫酸氢盐测序提供了DNA甲基化组的全面视图，但是对整个基因组进行深度测序可能是昂贵的。

简化代表性亚硫酸氢盐测序(RRBS)可以作为对高CpG含量或CpG位点的基因组区域进行甲基化谱分析的具有成本效益的技术。这样的CpG位点可能是令人感兴趣的，因为大多数DNA甲基化发生在CpG位点。在RRBS中，可以用限制性内切核酸酶(例如MspI限制酶)消化基因组DNA以产生片段，然后可对片段进行大小选择以富集具有CpG密集区域的片段。这些区域可能占基因组的一小部分(约3％)，但提供了关于基因组的全面DNA甲基化信息。无细胞DNA的片段化性质可能会在166个碱基对(bp)附近出现特征峰，这可能给典型RRBS带来挑战。在无细胞DNA片段上执行RRBS以选择特定大小范围的片段(例如40至220bp的片段)可能会选择所有或几乎所有cfDNA群，因此导致低富集。

虽然从基因组DNA产生并存在于典型RRBS文库中的大多数片段可能已被限制性内切核酸酶(例如MspI)切割了两次，但由于无细胞DNA的片段化性质，所以对于cfDNA而言并非如此。因此，由于有限的CpG富集，对无细胞DNA进行典型的RRBS可能会导致挑战。富集无细胞DNA分子的富CpG区域的方法和系统可有利地允许甲基化谱分析以用于临床诊断应用。

本公开内容的一些实施方案提供了用于富集cfDNA中的CpG岛的新技术。特定实施方案促进了成本效益的甲基化谱分析，并且在特定方面，本公开内容的方法可用于癌症诊断，例如包括通过液体活检的早期诊断。

本文提供了用于评估无细胞DNA分子的富CpG区域中的DNA甲基化的方法、组合物和系统。富集无细胞DNA分子的富CpG区域的方法、组合物和系统可以有利地实现甲基化谱分析以用于临床诊断应用。本公开内容提供了富集cfDNA分子的富CpG区域的改进的方法和系统，包括促进从一个或更多个cfDNA样品制备文库以进行甲基化谱分析，例如血源性样品或血浆源性样品或尿源性样品(或其组合)。

本公开内容提供了用于制备分子以用于分析分子中甲基化量和/或位置的方法、组合物和系统。在一些实施方案中，分子包含cfDNA。在一些实施方案中，cfDNA获自或来源于对象的一种或更多种身体样品。例如，身体样品可以是来自对象的血液、血浆、血清、骨髓、脑脊髓液、胸膜液、唾液、粪便、乳头抽吸液、颊刮屑、痰和/或尿样品。

癌细胞可表现出异常的DNA甲基化模式，例如一个或更多个肿瘤抑制基因的一个或更多个调节区域(包括一个或更多个启动子区域)的高甲基化，以及一个或更多个基因间区域的普遍低甲基化。因此，可以将对象或患者的DNA甲基化谱处理为临床实践中评估(包括癌症评估)的靶标。高甲基化和/或低甲基化的肿瘤DNA片段可通过例如细胞凋亡或坏死等过程释放到血流中，在那里这些循环肿瘤DNA(ctDNA)可成为血浆中循环无细胞DNA(cfDNA)的一部分。cfDNA甲基化谱分析的微创或非侵入性性质可以使这样的cfDNA甲基化谱分析成为对任何疾病或病症(包括癌症)进行常规筛查或诊断、预后、治疗选择或治疗监测的有效策略。本公开内容提供了用于处理或富集cfDNA分子的对于甲基化谱分析为信息性的基因组区域(例如CpG岛)的方法和系统，使得与在没有这样的处理或富集的情况下的甲基化谱分析相比，经处理的甲基化谱分析可以更有效的进行。在一些实施方案中，所述对象患有或怀疑患有或有风险患疾病或病症(例如癌症)，并且处理cfDNA分子以进行甲基化谱分析可以帮助确定所述对象是否患有或怀疑患有或有风险患癌症。

在用于非侵入性筛查方法中，包括用于癌症筛查和肿瘤起源组织的鉴定中，检测和表征来自对象身体样品(例如血浆、血液和/或尿样品中)的无细胞DNA可能是一种有效的方法。与传统的组织活检不同，液体活检(也可以称为流体活检或流体相活检)(其可包括抽血)可用于诊断多种不同的恶性肿瘤

本公开内容涉及处理或富集无细胞DNA中的CpG岛，使得甲基化谱分析对于提供来自对象的身体样品的甲基化信息特别有效。一些实施方案包括评估cfDNA的富CpG区域中的DNA甲基化的方法。

在一些方面，本公开内容提供了对无细胞DNA分子而不是基因组DNA分子进行的方法和系统。这样的区别可区分适于处理或富集基因组DNA的CpG岛的方法和系统与对处理或富集无细胞DNA的CpG岛不太有效的方法和系统。在一些方面，本公开内容提供了改进用于进行基因组DNA的甲基化谱分析以促进cfDNA(其可能与基因组DNA有所不同)的甲基化谱分析的方法和系统。

在一些方面，本公开内容提供了改进的方法和系统，其包括对简化代表性亚硫酸氢盐测序(RRBS)的改编，这是用于在单核苷酸水平上处理和分析全基因组范围的甲基化谱的有效且高通量的技术。RRBS技术可使用限制酶和亚硫酸氢盐测序的组合来富集具有高CpG含量的基因组区域，从而减少要处理用于序列分析的DNA分子或核苷酸的数量。在一些方面，可改编用于富集基因组DNA分子的RRBS方法以具有处理cfDNA分子的适合性或相容性。

本公开内容提供了用于cfDNA的成本效益的甲基化谱分析的方法，其可以被称为无细胞简化代表性亚硫酸氢盐测序(cfRRBS)，并且可包括RRBS-类似方法。在一些方面，可对常规RRBS方法进行修改或改编以用于无细胞DNA，包括对cfDNA分子或片段的3′-末端和/或5’-末端进行修饰以阻断该末端的连接和/或聚合酶延伸，或旨在易于去除cfDNA分子，例如cfDNA的双脱氧核苷酸(ddNTP)或生物素标记，对cfDNA分子进行酶消化(例如，使用诸如MspI的酶)以产生DNA片段，以及从DNA片段构建文库。可对文库进行特定长度范围(例如150bp至400bp)的大小选择。在本公开内容的一些方法和系统中，丢弃不包含或仅包含一个酶可识别序列的DNA片段，使得仅富集包含两个或更多个酶可识别序列的片段。在一些实施方案中，这样的方法富集了包含至少一个CpG位点的分子，从而有利于成本效益的测序，用于筛选和诊断工具的广泛临床应用。

本公开内容的一些实施方案包括富集无细胞DNA(cfDNA)分子的包含CpG岛的区域的集合。本公开内容的一些实施方案包括富集来自无细胞DNA的富CpG(例如，包含CpG岛)序列集合的方法。

本公开内容的一些实施方案包括用于分析cfDNA样品中的胞嘧啶甲基化谱的方法。本文涵盖用于检测cfDNA样品中胞嘧啶甲基化的方法。

可对来自对象的无细胞DNA样品进行甲基化谱分析，以用于例如肿瘤或非实体癌的筛查、诊断、预后、治疗选择或治疗监测。例如，研究可表明具有某些甲基化谱的患者可能对手术、化学疗法、放射疗法、靶向疗法、激素疗法、免疫疗法或其组合响应最佳。cfDNA样品的准确甲基化谱分析可潜在阻止将无效治疗开给和施用于患者。

另外，可至少部分地基于患者的甲基化谱来向患者开出和施用一种或更多种癌症治疗。用于在患者中进行甲基化谱分析的方法可包括来自组织的基因组DNA分析。例如，可以在一组遗传基因座的每一个处进行来自正常和/或肿瘤组织样品的基因组DNA的聚合酶链式反应(PCR)和片段分析，以进行甲基化谱分析。这样的甲基化谱分析方法可能需要的肿瘤组织用于分析的可用性。在一些情况下，肿瘤组织的可用性可能具有挑战。组织的获取可能是耗时且昂贵，需要与病理学家协调。在一些情况下活检组织可能是困难的(如果不是不可能获得的话)，可能是昂贵的且涉及疼痛的手术，并且可能由于潜在的癌症基因组进化而产生低至中等的临床相关性。在一些情况下，可能需要等到最初的癌症诊断后数月甚至数年才能获得患者的甲基化谱。因此，用于进行甲基化谱分析的液体活检方法可以提供对肿瘤活检的较早、侵入性较小且成本较低的替代的优点。

当从获自对象的身体样品的很大一部分来自肿瘤细胞时，进行甲基化谱分析可能相对简单。然而，在源自血液样品的无细胞DNA(cfDNA)样品中，从cfDNA中检测肿瘤DNA并从其评估甲基化谱可能是不灵敏且有噪声的过程。由于来自非肿瘤DNA(例如，来自非肿瘤来源的细胞的基因组DNA)的压倒性信号，从这些不灵敏且有噪声的信号检测肿瘤DNA并评估甲基化谱可能是具有挑战性的。本公开内容提供了以有效和高通量的方式从无细胞DNA(cfDNA)分子进行甲基化谱分析的方法和系统。在富集了cfDNA分子的具有富CpG区域的片段之后，可使用生物信息学方法对富集的片段进行测序和处理，以获得对象的甲基化谱。

在一个方面，本公开内容提供了用于处理或分析对象的多个无细胞脱氧核糖核酸(DNA)分子的方法，其包括：(a)使末端不能与衔接子偶联或被设计成易于除去cfDNA分子的所述多个无细胞DNA(cfDNA)分子经受足以使所述无细胞DNA分子的至少子集发生片段化以产生包含一个或更多个CpG位点的片段的条件，以提供多个DNA片段；将所述衔接子与所述多个DNA片段的末端偶联以提供多个经标记的DNA片段，所述经标记的DNA片段具有可与非甲基化的核酸碱基区分的甲基化的核酸碱基；(b)对所述多个经标记的DNA片段或其衍生物进行核酸测序以产生多个序列读段；以及(c)处理所述多个序列读段以(i)从所述多个序列读段的两端的所述衔接子鉴定序列，以及(ii)在鉴定所述序列之后，将来自所述多个无细胞DNA分子的无细胞DNA分子鉴定为具有一个或更多个CpG位点。

在另一方面，本公开内容提供了用于富集来自对象的多个无细胞DNA(cfDNA)分子的多个脱氧核糖核酸(DNA)片段的方法，其包括：(a)对所述多个无细胞DNA分子或其衍生物的至少一部分中的每一个的一个或两个末端进行修饰，以提供多个经修饰的无细胞DNA分子，所述经修饰的无细胞DNA分子具有不能与衔接子偶联或被设计成易于除去cfDNA分子的末端；(b)使所述多个经修饰的无细胞DNA分子经受足以使所述经修饰的无细胞DNA分子的至少子集中的每一个发生片段化而产生包含一个或更多个CpG位点的片段的条件，以提供多个DNA片段；以及(c)将所述衔接子与所述多个DNA片段的末端偶联以提供多个经标记的DNA片段，所述经标记的DNA片段具有可与非甲基化的核酸碱基区分的甲基化的核酸碱基。

图1示出了进行无细胞DNA(cfDNA)的甲基化谱分析的一个实施方案的流程图。在操作105中，可从对象获得多个无细胞DNA(cfDNA)分子。接下来，在操作110中，可对多个cfDNA分子的一个或两个末端进行修饰或标记以产生经修饰的cfDNA分子。接下来，在操作115中，可富集经修饰的cfDNA分子的至少一部分的富CpG区域，并且可从富集的cfDNA制备文库。接下来，在操作120中，可使用所制备的文库进行甲基化谱分析(例如，亚硫酸氢盐测序)。在特定实施方案中，所有操作均由同一实体执行，而在另一些情况下，并非所有操作均由同一实体执行。例如，操作110和115可由同一实体执行，而操作105和120可由与执行操作110和115的实体不同的实体执行。在另一些情况下，操作110、115和120由同一实体执行。

图2示出了使用具有Y形衔接子的无细胞RRBS(cfRRBS)对cfDNA进行甲基化谱分析的一个实施方案。在操作205中，可对cfDNA分子的一个或两个末端进行修饰(例如，用阻断基团)。可对cfDNA分子进行修饰，以防止对经修饰的cfDNA分子进行一种或更多种随后的活性(例如衔接子连接)。可通过cfDNA的5’末端的脱磷酸化(例如，使用磷酸酶，例如小牛肠碱性磷酸酶)对cfDNA分子的末端进行修饰。5’末端的脱磷酸化可防止例如经修饰的cfDNA分子的衔接子连接。

可通过在cfDNA的3’末端添加试剂来对cfDNA分子的末端进行修饰。可用双脱氧核苷酸(ddNTP)部分或其功能类似物对cfDNA分子的3’末端进行修饰。ddNTP部分可包含可检测的标记(例如荧光信号、离子信号、比色信号、生物素化信号或放射性信号)。在一些实施方案中，cfDNA分子的脱磷酸化的5’末端和ddNTP修饰的3’末端均不能与衔接子偶联或连接。进行包括5’-末端脱磷酸化、3’-末端ddNTP修饰(例如标记)或其组合的修饰可产生具有不能与衔接子偶联的末端的cfDNA分子。在一些实施方案中，cfDNA分子的一个或两个末端的修饰防止含有零个或一个限制酶(例如，MspI)消化位点的cfDNA片段与衔接子偶联(例如，连接)。这种作用将提高富集期望分子的机会。

可通过在cfDNA分子的一个或两个末端引入一个或更多个阻断剂寡核苷酸来对cfDNA分子进行修饰。例如，这样的阻断剂寡核苷酸可以是PCR阻断剂寡核苷酸。阻断剂寡核苷酸的实例包括3’-Phosphat或3’-Inverted End(例如由biomers.net提供)。cfDNA末端可以生物素化，并且可使用基于亲和素和/或链霉亲和素蛋白的缀合物或支持物和/或珠，包括包被有亲和素和/或链霉亲和素的珠洗掉或以其他方式排除生物素标记的片段。由于对cfDNA分子的一个或两个末端进行了这样的修饰，因此在限制酶消化后的后续操作中，只有那些不具有经修饰末端的片段才能与衔接子偶联或连接，或者不会被洗掉。这样的修饰可以确保仅在两端具有限制酶消化位点的片段在制备的文库中被有效地扩增。

在对cfDNA分子的一个或两个末端进行修饰之后，在操作210中，可对经修饰的cfDNA分子进行限制酶消化，从而产生cfDNA片段，使得仅不具有经修饰末端的那些片段能够与衔接子偶联或连接。对于这样的cfDNA片段，仅那些在两端具有限制酶消化位点的片段可以在制备的文库中被有效地扩增。经修饰的cfDNA分子可以用限制酶消化。限制酶可能够消化CpG位点(例如C^CG位点)附近的甲基化形式、非甲基化形式或两者的DNA。限制酶的实例包括MspI、HpaII、TaqI或其他酶，或其混合物。限制酶消化可使经修饰的cfDNA分子在一个或更多个CpG位点处片段化，从而产生两种类型的片段：在片段的一个末端具有经修饰(例如ddNTP修饰)的末端(例如3’末端或5’末端)的那些以及在片段的任一个末端不具有经修饰(例如标记)的末端的那些。

在衔接子连接之前，在操作215中，可对限制酶消化的(例如，MspI消化的)cfDNA片段进行修饰，以使衔接子与之偶联或连接。例如，可用一个或更多个特定核苷酸对在两端缺少修饰的MspI消化的片段的末端进行修饰，使得经修饰的末端能够与衔接子上的一个或更多个特定互补核苷酸结合。例如，可对MspI消化的DNA片段进行末端修复和/或核酸碱基(例如，dNTP)加尾。具有ddNTP修饰末端的那些cfDNA片段可能无法用dNTP加尾，因此这样的片段可能无法使衔接子与之偶联或连接。

在操作215中，使衔接子与限制酶消化的DNA片段偶联或连接。衔接子可以是用于与DNA片段偶联的任何合适的类型(例如，连接衔接子)。在一些实施方案中，衔接子是甲基化的，从而使它们不受随后操作的影响，以使DNA片段经受足以使所述甲基化的核酸碱基与所述非甲基化的核酸碱基区分开的条件(例如，通过亚硫酸氢盐转化)。在一些实施方案中，衔接子是非甲基化的。衔接子可以具有或不具有特定的二级或三级结构。衔接子可由用户或另一方生成，或者它们可以商业获得。衔接子可包含一个或更多个结构，例如叉形(例如，Y形衔接子或环形衔接子)。例如，图2示出了使用具有Y形衔接子的无细胞RRBS(cfRRBS)对cfDNA进行甲基化谱分析。衔接子可包含茎环，例如，图3示出了使用具有茎环衔接子的无细胞RRBS(cfRRBS)对cfDNA进行甲基化谱分析。

在一端被ddNTP修饰(例如具有ddNTP标记)的DNA片段可具有仅与一端偶联或连接的衔接子。在一些实施方案中，衔接子包含已知序列，其可在随后的处理步骤中使用，例如，用作扩增引物的靶位点。衔接子可具有任何合适的长度，例如在衔接子DNA的每一侧至少约20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约55、至少约60、至少约65、至少约70、至少约75、至少约80、至少约85、至少约90、至少约95、或至少约100bp。

在衔接子包含一个或更多个茎环的情况下，在进行修饰(在操作305中)、限制酶消化(在操作310中)、以及末端修复和/或dA加尾和衔接子连接(在操作315中)之后，可在操作320中使用一种或更多种使茎环线性化的酶消化经衔接子连接的DNA片段，所述酶例如限制酶或USER^TM(尿嘧啶特异性切除试剂)酶，从而在尿嘧啶残基(U)的位置处产生单核苷酸缺口。在一些实施方案中，使用内切核酸酶、尿嘧啶糖基化酶或其功能类似物或其组合进行线性化。在一些实施方案中，内切核酸酶是内切核酸酶VIII或其功能类似物。在一些实施方案中，尿嘧啶糖基化酶是尿嘧啶脱氧核糖核酸(DNA)糖基化酶。USER^TM酶可以是尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶-裂解酶内切核酸酶VIII的混合物，其可从New England BioLabs获得。在另一些实施方案中，USER^TM的替代品是尿嘧啶-DNA切除混合物(Epicentre)，其中尿嘧啶-DNA切除混合物由两种酶组成：HK^TM-UNG(Heat-Killable Uracil N-Glycosylase[UNG])和内切核酸酶IV。HK-UNG被配置为从DNA分子中的尿嘧啶-脱氧核苷酸切割尿嘧啶碱基，在dUTP引入位置处产生无碱基位点，随后内切核酸酶IV在无碱基位点处切割磷酸二酯键。使用一种或更多种用于使茎环线性化的酶可以促进DNA两条链的分离，从而为后续的亚硫酸氢盐转化(在操作320中)、扩增(在操作325中)和甲基化谱分析(在操作330中，如本文其他地方所述)做好准备。

在操作220中，可使经衔接子连接的DNA片段经受足以使甲基化的核酸碱基与所述非甲基化的核酸碱基区分开的条件。这样的条件可以例如通过亚硫酸氢盐转化来施加，其将非甲基化的胞嘧啶残基(核酸碱基)转化为尿嘧啶残基(核酸碱基)，但是不影响甲基化的胞嘧啶残基。适用于亚硫酸氢盐转化的亚硫酸氢盐的实例包括亚硫酸氢钠、亚硫酸氢镁和亚硫酸氢三烷基铵，并且可使用其一种或组合。

在亚硫酸氢盐转化之后，在操作225中，可对亚硫酸氢盐转化的DNA分子进行扩增。DNA分子可选择性或非选择性地扩增。例如，可通过选择性扩增或靶向扩增选择性富集DNA分子的来自对象的基因组或转录组的一个或更多个区域。作为另一个实例，可通过普遍扩增、全基因组扩增或非选择性扩增来非选择性地扩增DNA分子。可进行任何种类的扩增，包括聚合酶链式反应(PCR)。在一些实施方案中，扩增可使用来自衔接子的已知序列作为扩增引物的靶标。在一些实施方案中，扩增可显著地依赖于DNA分子两端偶联或连接的衔接子，使得仅那些在两端具有衔接子的片段被有效地扩增，而其他在零个或一个末端上具有衔接子的片段被显著地低效率地扩增，从而富集DNA分子的在两端具有限制酶(例如，MspI)消化位点并且还包含CpG岛的cfDNA片段的集合。在操作230中，然后可以如本文其他地方所述对经扩增的片段进行甲基化谱分析。

可在亚硫酸盐转化之后但在大小选择之前对DNA分子进行扩增。当对DNA分子进行扩增时，仅具有与两个末端偶联或连接的衔接子的分子才能被有效地扩增。对于仅具有零个或与一个末端偶联或连接的一个衔接子的那些分子，扩增效率可能低得多，从而产生的产物可忽略不计。因此，在一些实施方案中，制备的文库可仅包含具有在两端具有限制酶(例如，MspI)消化位点的序列的片段，其具有与两端偶联或连接的衔接子。在这种情况下，制备的文库可在其中包含富CpGDNA区域(例如，富CpG区域和/或CpG岛)。在一些实施方案中，在两端具有限制酶(例如，MspI)消化位点并且具有在预定范围(例如，约40bp至约220bp)内的原始DNA长度(在与衔接子偶联或连接之前)可能是富CpG区域。

在一些实施方案中，衔接子可包含双链或单链连接衔接子。例如，图4示出了使用具有单链连接衔接子的无细胞RRBS(cfRRBS)对cfDNA进行甲基化谱分析。如图4所示，当在用于富集cfDNA的富CpG区域的方法或系统中使用这样的单链连接衔接子时，可在限制酶(例如，MspI)消化和末端修复之后但是在衔接子连接之前进行亚硫酸氢盐转化。例如，可对cfDNA分子进行在一个或两个末端的修饰(在操作405中)、限制酶消化和/或末端修复(在操作410中)、亚硫酸氢盐转化(在操作415中)和单链衔接子连接(在操作420中)。此步骤顺序可区别于在用于富集cfDNA的富CpG区域的方法或系统中使用平末端、Y形衔接子或茎环衔接子的情况不同，后者是对已进行了限制酶消化和经衔接子连接的分子进行亚硫酸氢盐转化。在一些实施方案中，单链连接衔接子可以是甲基化的或非甲基化的。单链连接衔接子可被配置为可与具有未经修饰的末端(例如，能够与其偶联或连接的末端)的亚硫酸氢盐转化的DNA片段(例如，用尿嘧啶残基代替了原始非甲基化的胞嘧啶残基)连接。然后，可对具有单链连接衔接子的经衔接子连接的片段进行随后的扩增(在操作425中)和甲基化谱分析(在操作430中)。

在一些实施方案中，在限制酶消化(例如，通过MspI)之后，在文库制备中去除或分离(例如通过链霉亲和素磁珠)末端修饰的(例如，末端标记的，例如生物素标记的)无细胞DNA分子和片段。例如，图5示出了使用具有通过链霉亲和素磁珠去除的无细胞RRBS(cfRRBS)对cfDNA进行甲基化谱分析。可对cfDNA分子进行在一个或两个末端的修饰(在操作505中)和MspI(或其他限制酶)消化(在操作510中)。可使用磁性去除(例如，通过链霉亲和素磁珠)除去已经过末端修饰和MspI消化的片段以及已经过末端修饰但未经过MspI消化的无细胞DNA分子。剩余的片段随后可进行末端修复和/或dA加尾和衔接子连接(在操作520中)、亚硫酸氢盐转化(在操作525中)、扩增(在操作530中)和甲基化谱分析(在操作535中)。或者，可在衔接子连接之后进行末端修饰的片段的这种去除，从而可使用生物素-dNTP代替生物素-ddNTP，在这种情况下，末端修饰对于阻断衔接子连接可能是不必要的。

衔接子可包含一个或更多个条形码，其允许cfDNA分子的独特分子标识符。在这种情况下，具有一个或更多个条形码的衔接子可以是平末端、茎环或叉形(Y形)衔接子。如果使用茎环衔接子而没有分子条形码，则衔接子具有在衔接子的集合中不是独特的共同序列。如果使用叉形衔接子而没有分子条形码，则衔接子具有在衔接子集合内独特的共同序列。在使用分子条形码的情况下，则无论是平末端、茎环还是叉形(Y形)衔接子，存在许多独特序列。在特定实施方案中，分子条形码是具有相同和不同序列的条形码的集合。对于具有相同序列的条形码，应有合理数量以标记多个DNA分子。

在一些实施方案中，样品条形码用于文库制备。在一个实例中，可使用用于PCR扩增的一组12种独特的索引引物(包含12种样品条形码)进行样品索引，使得在对不同样品进行索引或条形码化时，可使用用于不同样品的包含不同样品条形码的不同索引引物(例如，对于样品#1选择索引/条形码#5，对于样品#2选择索引/条形码#7，等等)。以这种方式，当考虑用于后续测序的样品时，可以将不同的样品汇集在一起以进行多重测序，从而节省成本和时间。但是，由于样品条形码的缘故，测序读段可用于指示和区分哪个读段源自哪个样品。

在使用茎环衔接子的情况下，可在索引引物中(用于文库的PCR扩增)而不是衔接子序列中设计条形码。在这种情况下，衔接子序列可包含共同序列。在使用叉形(Y形)衔接子的情况下，可在衔接子序列中设计条形码，并且引物序列(用于文库的PCR扩增)可包含共同序列。

图6A示出了截短的Y形衔接子的一个实例，图6B示出了在末端具有条形码的截短的Y形衔接子的一个实例，并且图6C示出了在末端具有条形码加通过酶消化留下的核酸碱基的截短的Y形衔接子的一个实例。如图6B所示，Y形衔接子可在其双链末端具有条形码，如通过“NN...N”个随机核酸碱基(例如，“A”、“T”、“C”或“G”)的串指示的，使得与没有条形码的Y形衔接子(图6A)相比，双链末端的长度延长(例如，约2、约3、约4、约5、约6、约7、约8、约9、约10、约15、约20、约25、约30、约35、约40、约50或大于约50个核酸碱基)。如图6C所示，Y形衔接子可在末端具有条形码加上通过酶消化留下的核酸碱基，使得与没有条形码的Y形衔接子(图6A)和具有条形码但没有酶消化位点(图6B)和具有条形码和通过酶消化留下的核酸碱基(图6C)的Y形衔接子相比，双链末端的长度延长(例如，约2、约3、约4、约5、约6、约7、约8、约9、或约10个核酸碱基)。

图7A示出了茎环衔接子的一个实例，图7B示出了在末端具有条形码的茎环衔接子的一个实例，并且图7C示出了在末端具有条形码加通过酶消化留下的核酸碱基的茎环衔接子的一个实例。如图7B所示，茎环衔接子可在其双链末端具有条形码，如通过“NN...N”个随机核酸碱基(例如，“A”、“T”、“C”或“G”)的串指示的，使得与没有条形码的茎环衔接子(图7A)相比，双链末端的长度延长(例如，约2、约3、约4、约5、约6、约7、约8、约9、约10、约15、约20、约25、约30、约35、约40、约50或大于约50个核酸碱基)。如图7C所示，茎环衔接子可在末端具有条形码加上通过酶消化留下的核酸碱基，使得与没有条形码的茎环衔接子(图7A)和具有条形码但没有通过酶消化留下的核酸碱基的茎环衔接子(图7B)相比，双链末端的长度延长(例如，约2、约3、约4、约5、约6、约7、约8、约9、或约10个核酸碱基)。通过酶消化留下的核酸碱基(图7C)通过例如限制酶消化之后保留的酶消化位点的一部分。

图8A-8D示出了不同的单链连接衔接子的实例。单链连接衔接子可在其双链末端具有延伸，如通过“NN...N”个随机核酸碱基(例如，“A”、“T”、“C”或“G”)的串指示的，使得双链末端的长度延长(例如，约2、约3、约4、约5、约6、约7、约8、约9、约10、约15、约20、约25、约30、约35、约40、约50或大于约50个核酸碱基)。

图9示出了来自RRBS测定和来自cfRRBS测定的产物的凝胶电泳的比较。假设输入DNA分子包含3个不同区域：长度为65bp的“A”区域，长度为242bp的“B”区域和长度为66bp的“C”区域，MspI限制酶识别位点(“切割位点”)位于“A”和“B”区域之间以及“B”和“C”区域之间的边界处，并且使用两种不同的测定处理相同的输入DNA分子：典型RRBS测定(在操作905中)和本公开内容的cfRRBS测定(在操作910中)。

在典型RRBS测定(在操作905中)中，MspI限制酶在两个MspI限制酶识别位点处消化输入DNA分子，从而使区域“A”和区域“B”从输入DNA分子断裂，产生三种独立的“A”、“B”和“C”片段。这三种片段中的每一种在两端与60bp的衔接子连接，从而产生长度为185bp的经衔接子连接的“A”片段，长度为362bp的经衔接子连接的“B”片段和长度为186bp的经衔接子连接的“C”片段。对于输入cfDNA分子，此结果可能是不希望的，因为可预期所有三种经衔接子连接的片段都被有效地扩增，而只有“B”片段包含希望富集的富CpG区域。

在本公开内容的cfRRBS测定中(在操作910中)，首先对输入DNA分子进行修饰，使得“A”区域和“C”区域各自的一端(暴露端)不能与衔接子偶联或连接。接下来，MspI限制酶在两个MspI限制酶识别位点处消化输入DNA分子，从而使区域“A”和区域“B”二者从输入DNA分子断裂，产生三种独立的“A”、“B”和“C”片段(与典型RRBS测定一样)。然而，在这种情况下，仅“B”片段能够在两端被衔接子连接，而“A”和“B”片段则不能在两端被衔接子连接。因此，cfRRBS测定仅产生长度为362bp的经衔接子连接的“B”片段。对于输入cfDNA分子来说，此结果可能是期望的，因为只有“B”片段(包含希望富集的富CpG区域)才能被有效地扩增。

在操作915中，对来自典型RRBS测定和来自cfRRBS测定二者的产物进行凝胶电泳。如图9所示，典型RRBS测定和cfRRBS测定二者均产生360bp范围内的期望产物。但是，典型RRBS测定会产生200bp范围内的伪产物(spurious product)，而cfRRBS测定除了120bp范围内的衔接子二聚体(其可有效地大小选择以避免不需要的后续扩增和其他分析)不产生伪产物。因此，这种原理验证测定证明了进行本公开内容的cfRRBS测定以富集富CpG区域cfDNA用于cfDNA甲基化谱分析的优点。

III.具有富CpG区域的富集DNA的甲基化谱分析

在富集了cfDNA分子样品的富CpG区域后，可对富集的DNA分子进行甲基化谱分析。例如，可使用任何合适的测序方法从富集的DNA分子产生测序读段。测序方法可以是第一代测序方法，例如Maxam-Gilbert或Sanger测序，或高通量测序(例如，下一代测序或NGS)方法。高通量测序方法可以同时(或基本同时)对至少10,000、100,000、1百万、1千万、1亿、10亿或更多个多核苷酸分子进行测序。测序方法可包括但不限于：焦磷酸测序、合成测序(sequencing-by-synthesis)、单分子测序(single-molecule sequencing)、纳米孔测序(nanopore sequencing)、半导体测序(semiconductor sequencing)、连接测序(sequencing-by-ligation)、杂交测序(sequencing-by-hybridization)、数字基因表达(Helicos)、大规模平行测序，例如Helicos、Clonal Single Molecule Array(Solexa/Illumina)、使用PacBio的测序、SOLiD、Ion Torrent或Nanopore platforms、BGISEQ或其组合。

在一些实施方案中，测序包括全基因组测序(WGS)。在一些实施方案中，测序包括例如参考DNA样品的全基因组亚硫酸氢盐测序(WGBS)。在一些实施方案中，测序包括使用包含多个遗传基因座的组的靶向测序。测序可以在足以以期望的性能(例如，准确性、灵敏度、特异性、阳性预测值(PPV)、阴性预测值(NPV)或受试者操作特征(ROC)曲线下面积(AUC))在对象中进行甲基化谱分析的深度进行。在一些实施方案中，以至少约5X、至少约10X、至少约20X、至少约50X、至少约75X、至少约100X、至少约125X、至少约150X、至少约175X或至少约200X的深度进行测序。

在一些实施方案中，多个遗传基因座可对应于基因组的编码和/或非编码基因组区域，例如CpG岛、高甲基化区域和/或低甲基化区域、和/或邻近这样的高甲基化区域和/或低甲基化区域的区域。基因组区域可对应于基因组的癌症相关(或肿瘤相关)编码和/或非编码基因组区域，例如癌症驱动突变或遗传变体。遗传变体可包括例如单核苷酸变体(SNV)、拷贝数变体(CNV)、插失(indel)、融合基因、高甲基化和低甲基化。

在一些实施方案中，对对象进行甲基化谱分析可包括将cfDNA测序读段与参考基因组进行比对。参考基因组可包含基因组(例如，人类基因组)的至少一部分。参考基因组可包含整个基因组(例如，整个人类基因组)。在一些实施方案中，参考基因组可包含多个基因组区域，其对应于基因组的编码和/或非编码基因组区域，例如富CpG区域、CpG岛、高甲基化区域和/或低甲基化区域、和/或邻近这样的高甲基化区域和/或低甲基化区域的区域。多个基因组区域可对应于基因组的癌症相关(或肿瘤相关)编码和/或非编码基因组区域，例如癌症驱动突变或遗传变体。遗传变体可包括例如单核苷酸变体(SNV)、拷贝数变体(CNV)、插失(indel)、融合基因、高甲基化和低甲基化。可使用例如Burrows-Wheeler算法或其他比对算法(例如，适用于亚硫酸氢盐转化的读段)来进行比对。

在一些实施方案中，在对象中进行甲基化谱分析可包括产生针对多个遗传基因座中的每一个的cfDNA测序读段的定量测量。可产生对cfDNA测序读段的定量测量，例如与给定基因座(例如，富CpG区域、CpG岛、高甲基化区域、低甲基化的区域、邻近高甲基化区域的区域、邻近低甲基化的区域的区域)对齐的DNA测序读段的计数。例如，具有与给定的富CpG区域或CpG岛对齐的测序读段的一部分或全部的cfDNA测序读段可以计入对该富CpG区域或CpG岛的定量测量。

特定和非特定富CpG区域和/或CpG岛的模式的组合可形成对象的甲基化谱。这些富CpG区域和/或CpG岛的模式随时间的变化可指示对象甲基化谱的变化。这样的变化可包括一个或更多个特定CpG位点的甲基化的存在或不存在，特定富CpG位点或岛的甲基化水平的升高，特定富CpG位点或岛的甲基化水平的降低，等。

在一些实施方案中，可进行结合测量以用于甲基化谱分析，其可包括使用对多个富集的cfDNA片段中的多个富CpG区域和/或CpG岛具有选择性的探针来测定富集的cfDNA片段。在一些实施方案中，探针是与富CpG区域和/或CpG岛的核酸序列具有序列互补性的核酸分子。在一些实施方案中，核酸分子是引物或富集序列。在一些实施方案中，所述测定包括使用阵列杂交或聚合酶链式反应(PCR)或核酸测序。

在一些实施方案中，富集cfDNA分子的多个遗传基因座的至少一部分。在一些实施方案中，富集包括扩增多个cfDNA分子。例如，可通过选择性扩增(例如，通过使用包含与CpG岛的核酸序列具有序列互补性的核酸分子的引物或探针组)来扩增多个cfDNA分子。替代地或组合地，可通过普遍扩增(例如，通过使用通用引物)来扩增多个cfDNA分子。在一些实施方案中，富集包括选择性地分离多个cfDNA分子的至少一部分。

在一些实施方案中，在对象中进行甲基化谱分析包括处理富集的cfDNA片段的序列读段以获得偏差的定量测量。在一些实施方案中，偏差的定量测量是相对于一个或更多个参考cfDNA样品的z得分。参考cfDNA样品可获自具有特定甲基化谱的对象和/或获自不具有特定甲基化谱的对象。参考cfDNA样品可获自具有癌症类型的对象或不具有癌症类型的对象(例如，胰腺癌、肝癌、肺癌、结直肠癌、白血病、膀胱癌、骨癌、脑癌、乳腺癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、黑素瘤、卵巢癌、睾丸癌、肾癌、肉瘤、胆道癌、甲状腺癌、胆囊癌、脾癌和前列腺癌)。参考cfDNA样品可以获自具有特定癌症阶段或不具有特定癌症阶段(包括I期、II期、III期或IV期)的对象。参考cfDNA样品可获自具有异常组织特异性细胞死亡的对象。

在一些实施方案中，在对象中进行甲基化谱分析包括当偏差的定量测量满足预定标准时确定对象的偏差的cfDNA甲基化谱。在一些实施方案中，预定标准是对象的甲基化谱的z得分(或从多个z得分计算的定量测量)大于或小于预定数量。预定数量可以是约0.1、约0.2、约0.5、约1、约1.5、约2、约2.5、约3、约3.5、约4、约4.5、约5或大于约5。

在一些实施方案中，多个遗传基因座包含富CpG区域、CpG岛、高甲基化区域和/或低甲基化区域、和/或邻近这样的高甲基化区域和/或低甲基化区域的区域。多个遗传基因座可包含至少约10个不同的遗传基因座、至少约20个不同的遗传基因座、至少约30个不同的遗传基因座、至少约40个不同的遗传基因座、至少约50个不同的遗传基因座、至少约75个不同的遗传基因座、至少约100个不同的遗传基因座、至少约500个不同的遗传基因座、至少约1千个不同的遗传基因座、至少约5千个不同的遗传基因座、至少约1万个不同的遗传基因座、至少约5万个不同的遗传基因座、至少约10万个不同的遗传基因座、至少约50万个不同的遗传基因座、至少约100万个不同的遗传基因座、至少约200万个不同的遗传基因座、至少约300万个不同的遗传基因座、至少约400万个不同的遗传基因座、至少约500万个不同的遗传基因座、至少约1000万个不同的遗传基因座、至少约2500万个不同的遗传基因座、至少约5000万个不同的遗传基因座、至少约7500万个不同的遗传基因座、至少约1亿个不同的遗传基因座、或超过约1亿个不同的遗传基因座。不同遗传基因座的位置可在或不在相同基因中、相同染色体上或不同染色体上。

在一些实施方案中，以以下灵敏度进行测定对象的偏差的cfDNA甲基化谱：至少约10％、至少约20％、至少约30％、至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％。

在一些实施方案中，以以下特异性进行测定对象的偏差的cfDNA甲基化谱：至少约10％、至少约20％、至少约30％、至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％。

在一些实施方案中，以以下阳性预测值(PPV)进行测定对象的偏差的cfDNA甲基化谱：至少约10％、至少约20％、至少约30％、至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％。

在一些实施方案中，以以下阴性预测值(NPV)进行测定对象的偏差的cfDNA甲基化谱：至少约10％、至少约20％、至少约30％、至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％。

在一些实施方案中，以以下受试者操作特征(ROC)曲线下面积(AUC)进行测定对象的偏差的cfDNA甲基化谱：至少约0.5、至少约0.6、至少约0.7、至少约0.75、至少约0.8、至少约0.85、至少约0.9、至少约0.95、至少约0.96、至少约0.97、至少约0.98、或至少约0.99。

在一些实施方案中，在对象中进行甲基化谱分析包括当偏差的定量测量满足预定标准时确定对象的正常cfDNA甲基化谱。在一些实施方案中，预定标准是对象的甲基化谱的z得分(或从多个z得分计算的定量测量)大于或小于预定数量。预定数量可以是约0.1、约0.2、约0.5、约1、约1.5、约2、约2.5、约3、约3.5、约4、约4.5、约5或大于约5。

在一些实施方案中，以以下灵敏度进行测定对象的正常cfDNA甲基化谱：至少约10％、至少约20％、至少约30％、至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％。

在一些实施方案中，以以下特异性进行测定对象的正常cfDNA甲基化谱：至少约10％、至少约20％、至少约30％、至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％。

在一些实施方案中，以以下阳性预测值(PPV)进行测定对象的正常cfDNA甲基化谱：至少约10％、至少约20％、至少约30％、至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％。

在一些实施方案中，以以下阴性预测值(NPV)进行测定对象的正常cfDNA甲基化谱：至少约10％、至少约20％、至少约30％、至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％。

在一些实施方案中，以以下受试者操作特征(ROC)曲线下面积(AUC)进行测定对象的正常cfDNA甲基化谱：至少约0.5、至少约0.6、至少约0.7、至少约0.75、至少约0.8、至少约0.85、至少约0.9、至少约0.95、至少约0.96、至少约0.97、至少约0.98、或至少约0.99。

在一些实施方案中，对象已被诊断患有癌症或怀疑患有癌症或有患癌症的风险。例如，癌症可以是一种或更多种类型，包括：脑癌、乳腺癌、宫颈癌、结直肠癌、子宫内膜癌、食管癌、胃癌、肝胆道癌、白血病、肝癌、肺癌、淋巴瘤、卵巢癌、胰腺癌、皮肤癌、睾丸癌、肾癌、肉瘤、胆道癌、前列腺癌、甲状腺癌、胆囊癌、脾癌或尿路癌。

在一些实施方案中，基于所获得的对象的cfDNA甲基化谱(例如，确定偏差的cfDNA甲基化谱或正常cfDNA甲基化谱)，本公开内容的方法包括施用治疗有效剂量的一种或更多种治疗以治疗对象的疾病或病症(例如癌症)。在一些实施方案中，所述治疗包括化学疗法、放射疗法、靶向疗法、免疫疗法或其组合。基于所获得的对象的甲基化谱，可中断对象的现有治疗，并且可向该对象施用另一种治疗。或者，基于所获得的对象的甲基化谱，可继续对象的现有治疗和/或可向对象施用另一种治疗。基于甲基化谱的结果，对象可被认为对于一种或更多种治疗是难治性的，因此，从不给予该治疗，或者给予该治疗但是基于同一个体随后的甲基化谱的结果中断该治疗，或者在一定数量的剂量和/或时间段已经过去后中断该治疗。

可评估所获得的对象的cfDNA甲基化谱，以在对象中确定癌症的诊断、癌症的预后或肿瘤进展或消退的迹象。另外，可以基于cfDNA甲基化谱评估或监测(例如，两个或更多个时间点之间的cfDNA甲基化谱的差异)分配一种或更多种临床结果。这样的临床结果可包括以下一种或更多种：诊断包含一种或更多种类型的肿瘤的癌症对象，诊断包含一种或更多种类型和/或阶段的肿瘤的癌症对象，预测患有癌症的对象(例如，指示、开处方或施用对象的临床治疗方案(例如手术、化学疗法、放射疗法、激素疗法、靶向疗法、免疫疗法或其他治疗)，指示、开处方或施用对象的另一种临床作用方案(例如，不治疗，继续监测(例如基于指定的时间间隔)，停止当前治疗，切换至另一种治疗)，或者指示对象的预期生存时间。

在一些实施方案中，确定对象的cfDNA甲基化谱包括确定一个或更多个遗传基因座(例如，多个富CpG区域和/或CpG岛)的一个或更多个预定阈值。可通过对来自一个或更多个对照对象(例如，已知患有或未患有某疾病或病症的患者，已知患有或未患有某肿瘤类型的患者，已知患有或未患有某阶段的某肿瘤类型的患者，或未诊断出或表现出疾病或病症的任何临床症状的健康个体)的一个或更多个样品进行cfDNA甲基化谱分析并且基于对照样品的cfDNA甲基化谱分析确定合适的预定阈值来产生预定阈值(例如，对于多个富CpG区域和/或CpG岛中的每一个)。

可基于期望的灵敏度、特异性、阳性预测值(PPV)、阴性预测值(NPV)或确定对象的偏差的cfDNA甲基化谱或确定对象的正常cfDNA甲基化谱的准确性来调节预定阈值。例如，如果期望确定对象的偏差的cfDNA甲基化谱状态的高灵敏度，则可以将预定阈值调整为较低。或者，如果期望确定对象的偏差的cfDNA甲基化谱的高特异性，则可以将预定阈值调整为较高。可以调节预定阈值，以使从对照对象获得的对照样品的受试者操作特征(ROC)曲线下面积(AUC)最大化。可以调节预定阈值，以便在确定对象的偏差的cfDNA甲基化谱时在假阳性(FP)和假阴性(FN)之间实现期望的平衡。

在一些实施方案中，确定对象的cfDNA甲基化谱还包括在第二随后时间点重复cfDNA甲基化谱分析。可以选择第二时间点，以进行相对于第一时间点的cfDNA甲基化谱的合适比较。第二时间点的实例可对应于手术切除后的时间，治疗对象中的疾病或病症(例如癌症)的治疗施用期间或治疗施用之后的时间以监测治疗效力，或者在对象中疾病或病症(例如癌症)不可检测之后的时间，例如以监测对象中的残留疾病或癌症复发。

在一些实施方案中，确定对象的cfDNA甲基化谱还包括确定第一cfDNA甲基化谱与第二cfDNA甲基化谱之间的差异，该差异指示对象的肿瘤的进展或消退。替代地或组合地，该方法可进一步包括通过计算机处理器生成第一cfDNA甲基化谱和第二cfDNA甲基化谱作为第一时间点和第二时间点的函数的图。该图可指示对象的肿瘤的进展或消退。例如，计算机处理器可生成y轴上的两个或更多个cfDNA甲基化谱相对于x轴上的与在对应于两个或更多个cfDNA甲基化谱的数据的收集时间相对应的时间的图。

所确定的差异或示出第一cfDNA甲基化谱与第二cfDNA甲基化谱之间差异的图可指示对象肿瘤的进展或消退。例如，如果第二cfDNA甲基化谱的偏差大于第一cfDNA甲基化谱的偏差，则该差异可指示例如肿瘤进展，治疗对于对象中的肿瘤无效，肿瘤对正在进行的治疗的抗性，肿瘤转移到对象中的其他部位，或对象中残留疾病或癌症复发。或者，如果第二cfDNA甲基化谱的偏差小于第一cfDNA甲基化谱的偏差，则该差异可指示例如肿瘤消退，对象中肿瘤的手术切除的功效，治疗对于对象中疾病或病症(例如，癌症)的功效，或对象中没有残留疾病或癌症复发。

在评估和/或监测cfDNA甲基化谱之后，可基于cfDNA甲基化谱评估或监测(例如，两个或更多个时间点之间cfDNA甲基化谱的差异)分配一种或更多种临床结果。这样的临床结果可包括以下一种或更多种：诊断包含一种或更多种类型的肿瘤的癌症对象，诊断包含一种或更多种类型和/或阶段的肿瘤的癌症对象，预测患有癌症的对象(例如，指示、开处方或施用对象的临床治疗方案(例如手术、化学疗法、放射疗法、靶向疗法、免疫疗法或其他治疗)，指示、开处方或施用对象的另一种临床作用方案(例如，不治疗，继续监测(例如基于指定的时间间隔)，停止当前治疗，切换至另一种治疗)，或者指示对象的预期生存时间。

IV具有富CpG区域的富集DNA的应用

在特定实施方案中，使用本文中涵盖的富集cfDNA中的富CpG区域或CpG岛的方法或系统产生的文库用于应用。在某些方面，测定文库的一个或更多个特征。可测定文库以确定文库的一些或全部分子中甲基化位点的数量和/或位置。在特定的实施方案中，确定文库的一些或全部分子中的至少一部分(包括一个或更多个特定位点)的甲基化模式。可对文库的一些或全部分子的至少一部分进行甲基化谱分析。

在一些实施方案中，一个或更多个甲基化位点或标志物可包括多种特定疾病或病症(包括癌症)的血浆甲基化生物标志物。可通过来自具有某疾病或病症特征(癌症类型、阶段、预后、治疗响应等)的患者的甲基化谱数据与来自健康对照的甲基化谱数据的比较来鉴定差异甲基化的标志物基因。通过鉴定出不同癌症的多种甲基化谱，本文中公开的一些实施方案可基于简单的非侵入性液体活检检测多种类型的癌症，以及为进一步的具体临床研究提供肿瘤位置信息。例如，基于非侵入性液体活检，甲基化谱可用于检测任何疾病或病症。

在一些情况下，基于确定对象是否具有指示疾病或病症的cfDNA甲基化谱，可将cfDNA甲基化谱用于诊断对象或患者。在某些实施方案中，存在基于cfDNA甲基化谱来诊断对象的方法，包括产生指示患者是否患有癌症的cfDNA甲基化谱。在某些实施方案中，通过使用本文涵盖的方法、组合物和系统处理来自患者的包含无细胞DNA的生物学样品来产生cfDNA甲基化谱。

在一些实施方案中，cfDNA甲基化谱可用于诊断具有癌症症状、无癌症症状、具有癌症的家族或患者病史、处于癌症风险中或已被诊断患有癌症的患者。患者可以是哺乳动物患者，尽管在大多数实施方案中患者是人。癌症可能是恶性、良性、转移性或癌前期。在另一些实施方案中，癌症是黑素瘤、非小细胞肺癌、小细胞肺癌、肺癌、肝癌、视网膜母细胞瘤、星形细胞瘤、成胶质细胞瘤、牙龈瘤、舌瘤、白血病、神经母细胞瘤、头癌、颈癌、乳腺癌、胰腺癌、前列腺癌、肾癌、骨癌、睾丸癌、卵巢癌、肝癌、间皮瘤、宫颈癌、胃肠癌、淋巴瘤、脑癌、结肠癌、肉瘤、胆囊癌甲状腺癌、脾癌或膀胱癌。癌症可包括包含肿瘤细胞的肿瘤。

在一些实施方案中，存在基于本文的富集包含CpG岛或富CpGDNA以用于癌症诊断的方法和系统，在确定其需求之后治疗癌症患者中的癌症的方法。这样的治疗方法可包括在基于本文公开的方法确定患者患有癌症之后，向患者施用有效量的化学疗法、放射疗法、激素疗法、靶向疗法或免疫疗法(或其组合)。可确定癌症的起源点，在这种情况下，将治疗调整至该起源的癌症。在一些实施方案中，肿瘤切除术作为治疗执行，或者可以是具有其他治疗之一的治疗的一部分。化疗剂的实例包括但不限于：烷基化剂，例如双官能烷基化剂(例如，环磷酰胺、氮芥、苯丁酸氮芥、美法仑)或单官能烷基化剂(例如，达卡巴嗪(DTIC)、亚硝基脲、替莫唑胺(口服达卡巴嗪))；蒽环类药物(例如，柔红霉素、多柔比星、表柔比星、伊达比星、米托蒽醌和戊柔比星)；破坏细胞骨架的紫杉烷类(例如，紫杉醇、多西他赛、abraxane、泰索帝(taxotere))；埃博霉素(epothilone)；组蛋白去乙酰酶抑制剂(例如，伏立诺他(vorinostat)、罗米地辛(romidepsin))；拓扑异构酶I抑制剂(例如，伊立替康、拓扑替康(topotecan))；拓扑异构酶II抑制剂(例如，依托泊苷(etoposide)、替尼泊苷(teniposide)、塔氟泊苷(tafluposide))；激酶抑制剂(例如，硼替佐米、厄洛替尼、吉非替尼、伊马替尼、维罗非尼和vismodegib)；核苷酸类似物和核苷酸前体类似物(例如，阿扎胞苷、硫唑嘌呤、卡培他滨、阿糖胞苷、去氧氟尿苷(doxifluridine)、氟尿嘧啶、吉西他滨、羟基脲、巯基嘌呤、甲氨蝶呤、硫鸟嘌呤(tioguanine)(以前是硫鸟嘌呤(thioguanine))；肽类抗生素(例如，博来霉素、放线菌素)；基于铂的抗肿瘤药(例如，卡铂、顺铂、奥沙利铂)；类维生素A(例如，维生素A酸(retinoin)、阿利维A酸(alitretinoin)、贝沙罗汀(bexarotene))；以及长春花生物碱(例如，长春碱、长春新碱、长春地辛和长春瑞滨)。免疫疗法的实例包括但不限于细胞疗法，例如树突状细胞疗法(例如，涉及嵌合抗原受体)；抗体疗法(例如阿仑单抗(Alemtuzumab)、阿特珠单抗(Atezolizumab)、伊匹单抗(Ipilimumab)、纳武单抗(Nivolumab)、奥法木单抗(Ofatumumab)、派姆单抗(Pembrolizumab)、利妥昔单抗(Rituximab)或与这些抗体之一具有相同靶标的其他抗体，例如CTLA-4、PD-1、PD-L1或其他检查点抑制剂)；以及细胞因子疗法(例如干扰素或白介素)。

在一些实施方案中，使用cfDNA甲基化谱分析来诊断对象的方法可进一步包括在确定患者的甲基化谱之前或之后进行活检，进行CAT扫描，进行乳房X光检查，进行超声检查或以其他方式评估怀疑具有癌症的组织。在一些实施方案中，将发现的癌症分类为癌症分类或分期(例如，I期、II期、III期或IV期)。

在特定实施方案中，通过富集cfDNA中的CpG岛的方法和系统获得的cfDNA甲基化谱用于监测治疗和/或监测肿瘤进展，包括在治疗期间和/或之后。例如，可在多个时间点抽血以监测整个一种或更多种治疗方案中的肿瘤进展，并且可测定来自其的cfDNA。

在某些实施方案中，通过本公开内容的方法和系统获得的cfDNA甲基化谱可用于评估疾病阶段或用作预后生物标志物，例如在不能进行组织活检或存档的肿瘤样品不能用于遗传分析的情况下。

在一些实施方案中，通过本文提供的富集cfDNA中富CpG区域的方法和系统获得的cfDNA甲基化谱可用于癌症的筛选和早期检测。例如，可以定期从没有任何癌症症状的个体抽取血液，以尽早发现癌症或确定癌症易感性。

在一些实施方案中，通过本文提供的富集cfDNA中富CpG区域的方法和系统获得的cfDNA甲基化谱可用于从母体血浆或血清中进行胎儿DNA的产前测试，以鉴定唐氏综合症和胎儿中的其他染色体异常。

在一些实施方案中，通过本文提供的富集cfDNA中富CpG区域的方法和系统获得的cfDNA甲基化谱可用于诊断其他类型的疾病，例如多发性硬化症、创伤性/缺血性脑损伤、糖尿病、胰腺炎或阿尔茨海默病。

预期本说明书中讨论的任何实施方案可相对于本发明的任何方法、系统、试剂盒、计算机可读介质或设备来实施，反之亦然。此外，本发明的设备可以用于实现本发明的方法。

V本公开内容的试剂盒

本文中描述的任何组合物可包含在试剂盒中。在一个非限制性实例中，cfDNA和/或一种或更多种用于收集cfDNA的设备、酶、引物、ddNTP、衔接子、dNTP、一种或更多种封闭剂、亚硫酸氢盐转化试剂、缓冲液、其他化学品(包括ATP、DTT等等)或其任何组合可包含在试剂盒中。

试剂盒的组分可在水性介质中或以冻干形式包装。试剂盒可包括容器，所述容器通常可包括至少一个小瓶、试管、烧瓶、瓶、注射器，或可以放置组分并且在一些情况下适当地进行等分的其他容器。在试剂盒中有多种组分的情况下，试剂盒通常还包含第二、第三和/或其他额外容器，可以将额外组分分别放置在其中。但是，小瓶中可包含多种组分的组合。本公开内容的试剂盒可允许将试剂盒组分紧密密闭地容纳以用于商业用途。这样的容器可包括注射或吹塑的塑料容器，期望的小瓶容纳在其中。

本公开内容的试剂盒可包括用于执行本文提供的方法，例如用于分析多个无细胞脱氧核糖核酸(DNA)分子的方法的说明书。这样的说明书可以是物理形式(例如，印刷说明书)或电子形式(例如，用于在用户界面上显示的说明书的网络链接)。

VI.实施例

给出了以下实施例以便更充分地说明本公开内容的某些实施方案。然而，其绝不应被解释为限制本公开内容的广泛范围。

实施例1：使用简化代表性亚硫酸氢盐测序(cfRRBS)处理无细胞DNA

癌细胞可表现出异常的DNA甲基化模式。高甲基化和/或低甲基化的肿瘤DNA片段可通过例如细胞凋亡或坏死等过程释放到血流中，在那里它们可成为体液(例如血浆或尿)中循环无细胞DNA(cfDNA)的一部分。这样的cfDNA可进行甲基化谱分析，以用于临床诊断应用，例如癌症筛查。例如，全基因组亚硫酸氢盐测序可提供DNA甲基化组的全面视图，但是对整个基因组进行深度测序可能是昂贵的。虽然从基因组DNA产生并存在于典型RRBS文库中的大多数片段可能已被限制性内切核酸酶(例如MspI)切割了两次，但对于无细胞的DNA片段而言可能并非如此。因此，由于有限的CpG富集，对无细胞DNA进行典型的RRBS可能会导致挑战。富集无细胞DNA分子的富CpG区域可有利地实现甲基化谱分析，以用于临床诊断应用。

cfRRBS方法可通过下面的示例性工作流程进行说明。

首先，从获自对象的血浆提取10ng的输入无细胞DNA(cfDNA)。接下来，将输入cfDNA分子脱磷酸化并用双脱氧核苷酸(ddNTP)部分(标记)进行修饰。接着，将经修饰的cfDNA分子用10U的MspI限制酶消化过夜，以产生DNA片段。接下来，用5U的Klenow fragmentexo^-以及1毫摩尔(mM)dATP、0.1mM dGTP和0.1mM dCTP的混合物对DNA片段进行末端修复和dA加尾。然后，通过T4 DNA连接酶将dA加尾的DNA与TruSeq多路复用甲基化衔接子连接。

在一些情况下，可添加条形码(例如，独特分子标识符)以促进抑制测序错误或PCR偏差。将含有经衔接子连接的DNA片段的连接混合物用Agencourt AMPure XP珠纯化，然后进行亚硫酸氢盐转化。接下来，将亚硫酸氢盐转化的文库扩增20个循环，并进行大小选择至150至400bp。所制备的文库包含高度富集的富CpG区域和CpG岛，这些包含必不可少的甲基化信息，从而显著降低了cfDNA测序成本，并促进了例如癌症的早期诊断等应用。

实施例2：制备简化代表性亚硫酸氢盐测序文库以用于无细胞DNA甲基化谱分析

如图2所示，cfRRBS方法的实例可从对输入cfDNA分子进行脱磷酸化开始，例如，用小牛肠碱性磷酸酶(NEB)对10ng输入cfDNA进行脱磷酸化，然后用ddNTP部分(例如，“A”、“C”、“G”或“T”，其可以标记或未标记)，例如用100皮摩尔(pM)双脱氧核苷酸(ddNTP)通过10U末端转移酶(NEB)进行修饰。

接下来，使用10U甲基化不敏感的限制酶MspI(NEB)对片段在37℃进行消化15小时。接下来，将5U Klenow fragment exo-(NEB)以及1mM dATP、0.1mM dGTP和0.1mM dCTP的混合物通过与DNA在30℃孵育20分钟然后37℃孵育20分钟来用于末端修复和dA加尾。然后通过用30Weiss U T4 DNA连接酶

在16℃孵育20小时，然后用USER^TM酶(NEB)在37℃孵育15分钟，将dA加尾的DNA与500纳摩尔(nM)甲基化茎环衔接子连接。接下来，用Agencourt AMPure XP珠(Beckman Coulter)纯化包含经衔接子连接的DNA片段的连接混合物，并使用Epitect加亚硫酸氢盐试剂盒(Qiagen)进行两轮亚硫酸氢盐转化。使用KAPA HiFi HotStart Uracil+ReadyMix PCR Kit将文库扩增并建立索引12个循环，然后将大小选择至150-400bp。最终文库类似于

DNA，并且与Illumina平台测序兼容。

通过执行该程序，丢弃含有零个或仅一个MspI可识别序列的DNA片段，而仅富集包含两个或更多个MspI可识别序列的片段。该程序确保了每个富集的DNA片段均包含具有至少一个CpG位点的序列读段，该结果可实现具有成本效益的测序，从而有助于诊断工具的广泛临床应用。

为了测试cfRRBS方案的性能，使用了具有已知序列并包含两个MspI消化位点的373bp的输入DNA片段进行了研究。100ng输入DNA样品用于产生RRBS文库，而10ng输入DNA样品用于产生cfRRBS文库。如图9所示，与富集所有3种片段(A、B和C)的典型RRBS不同，cfRRBS预期仅富集在两端具有两个MspI可识别序列的片段B。

cfRRBS工作流程的概念验证已通过所制备文库的DNA凝胶电泳进行了证明。如图9所示，RRBS程序产生了～360bp和～260bp的片段两者，而cfRRBS程序如预期的仅产生～360bp的片段。由于低输入DNA量，因此在cfRRBS库中形成了明显量的～120bp的衔接子二聚体。这些衔接子二聚体可例如通过凝胶切除大小选择长度为150至400bp的片段而被有效地去除。

参考图3，在实例中：

1.在操作305中，例如用小牛肠碱性磷酸酶将DNA的5’末端脱磷酸化，并且例如用ddNTP对DNA的3’末端进行修饰。此步骤的一个目的是破坏在MspI消化之前DNA分子在DNA分子的任一端与经衔接子连接的能力。这是cfRRBS文库制备中的有用步骤，确保了只有两端具有MspI消化位点的片段才能在两端与衔接子连接，从而有效扩增以产生制备的文库。

2.在操作310中，对经衔接子连接的DNA分子进行MspI消化，产生在两端具有MspI位点的DNA片段(中间的框)以及在一端具有MspI位点的片段(左侧和右侧的框)。

3.在操作310中，将MspI消化的DNA片段准备用于衔接子连接。由于ddNTP标记的末端无法进行dA加尾，因此这些末端无法在下一步中与衔接子连接。因此，期望的片段可以在两端进行dA加尾，而其他片段(不希望被扩增的片段)只能在一端进行dA加尾，或者两端都不能进行dA加尾。

4.在操作315中，将衔接子(例如茎环衔接子)与dA加尾DNA片段连接。

5.在操作320中，对经衔接子连接的DNA片段进行USER^TM(尿嘧啶特异性切除试剂；NEB)处理，以通过将茎环切成线性形状来使茎环线性化，从而可以在随后的亚硫酸氢盐转化中分离两条DNA链。

6.在操作320中，在茎环线性化之后，进行亚硫酸氢盐转化以将非甲基化的胞嘧啶(C)残基转化为尿嘧啶残基(U)。

7.在操作325中，仅在两端具有衔接子的片段(底部框)可通过PCR有效地扩增。具有仅连接至一端的衔接子的片段的扩增预期是低效率的并且可忽略不计。因此，预期所制备的cfRRBS文库仅包含两端具有MspI消化位点的cfDNA片段，从而产生富集了富CpG区域的DNA片段。这些DNA片段准备用于甲基化谱分析(在操作330中)。

VII.计算机系统

本公开内容提供被编程为执行本公开内容的方法的计算机系统。图10示出了计算机系统1001，其被编程或以其他方式配置为例如处理序列读段以(i)从序列读段两端的衔接子来鉴定序列，以及(ii)在鉴定序列之后，将无细胞DNA分子鉴定为具有一个或更多个CpG位点；测量DNA片段的甲基化状态以提供甲基化谱；相对于参考处理甲基化谱；以及处理甲基化谱以产生对象患有或怀疑患有疾病或病症的可能性。计算机系统1001可调节本公开内容的分析、计算和生成的多个方面，例如，处理序列读段以(i)从序列读段两端的衔接子来鉴定序列，以及(ii)在鉴定序列之后，将无细胞DNA分子鉴定为具有一个或更多个CpG位点；测量DNA片段的甲基化状态以提供甲基化谱；相对于参考处理甲基化谱；以及处理甲基化谱以产生对象患有或怀疑患有疾病或病症的可能性。计算机系统1001可以是用户的电子设备或相对于电子设备位于远程的计算机系统。该电子设备可以是移动电子设备。

计算机系统1001包括中央处理单元(CPU，在本文中也称为“处理器”和“计算机处理器”)1005，其可以是单核或多核处理器，或者是用于并行处理的多个处理器。计算机系统1001还包括存储器或存储器位置1010(例如，随机存取存储器、只读存储器、闪存)、电子存储单元1015(例如，硬盘)、用于与一个或更多个其他系统通信的通信接口1020(例如，网络适配器)，以及外围设备1025，例如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器1010、存储单元1015、接口1020和外围设备1025通过诸如主板的通信总线(实线)与CPU 1005通信。存储单元1015可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统1001可借助于通信接口1020可操作地耦合到计算机网络(“网络”)1030。网络1030可以是互联网、内部网和/或外部网，或者与互联网通信的内部网和/或外部网。在一些情况下，网络1030是电信和/或数据网络。网络1030可包括一个或更多个计算机服务器，其可以启用分布式计算，例如云计算。例如，一个或更多个计算机服务器可启用在网络1030(“云”)上的计算，以执行本公开内容的分析、计算和生成的多个方面，例如，处理序列读段以(i)从序列读段两端的衔接子来鉴定序列，以及(ii)在鉴定序列之后，将无细胞DNA分子鉴定为具有一个或更多个CpG位点；测量DNA片段的甲基化状态以提供甲基化谱；相对于参考处理甲基化谱；以及处理甲基化谱以产生对象患有或怀疑患有疾病或病症的可能性。这样的云计算可由云计算平台例如Amazon Web Services(AWS)、Microsoft Azure、Google CloudPlatform和IBM cloud提供。在一些情况下，网络1030可以在计算机系统1001的帮助下实现对等网络(peer-to-peer network)，其可以使耦合到计算机系统1001的设备能够充当客户端或服务器。

CPU 1005可执行一系列机器可读指令，其可体现在程序或软件中。指令可存储在存储器位置例如存储器1010中。指令可定向到CPU 1005，CPU 1005可随后编程或以其他方式配置CPU 1005以执行本公开内容的方法。由CPU 1005执行的操作的实例可包括获取、解码、执行和写回。

CPU 1005可以是电路的一部分，例如集成电路。系统1001的一个或更多个其他组件可包括在电路中。在一些情况下，该电路是专用集成电路(ASIC)。

存储单元1015可存储文件，例如驱动程序、文库和保存的程序。存储单元1015可存储用户数据，例如用户偏好和用户程序。在一些情况下，计算机系统1001可包括一个或更多个额外的数据存储单元，其位于计算机系统1001外部，例如位于通过内部网或互联网与计算机系统1001通信的远程服务器上。

计算机系统1001可通过网络1030与一个或更多个远程计算机系统进行通信。例如，计算机系统1001可与用户(例如，医生、护士、看护人员、患者、或对象)远程计算机系统通信。远程计算机系统的实例包括个人计算机(例如，便携式PC)、平板或平板电脑(例如

iPad、

Galaxy Tab)、电话、智能电话(例如，

iPhone、安卓支持设备、

)或个人数字助理。用户可通过网络1030访问计算机系统1001。

可通过存储在计算机系统1001的电子存储位置上(例如存储器1010或电子存储单元1015上)的机器(例如计算机处理器)可执行代码的方式来执行本文所述的方法。机器可执行或机器可读代码可以以软件形式提供。在使用期间，代码可由处理器1005执行。在一些情况下，代码可从存储单元1015检索并存储在存储器1010中，以供处理器1005随时访问。在一些情况下，可排除电子存储单元1015，并且将机器可执行指令存储在存储器1010中。

可对代码进行预编译和配置，以与具有适用于执行代码的处理器的机器一起使用，或者可以在运行时进行编译。代码可用编程语言来提供，可选择编程语言以使代码能够以预编译或编译时的方式执行。

本文提供的系统和方法(例如计算机系统1001)的方面可以体现在编程中。可以将技术的多个方面视为通常以机器可读介质的类型承载或体现的机器(或处理器)可执行代码和/或关联数据形式的“产品”或“制造品”。机器可执行代码可存储在电子存储单元上，例如存储器(例如，只读存储器、随机存取存储器、闪存)或硬盘。“存储”类型的介质可包括计算机、处理器等的任何或所有有形存储器，或其相关模块，例如各种半导体存储器、磁带驱动器、磁盘驱动器等，它们可以随时为软件编程提供非暂时性存储。软件的全部或一部分有时可通过互联网或各种其他电信网络进行通信。例如，这样的通信可以使得能够将软件从一个计算机或处理器加载到另一计算机或处理器，例如从管理服务器或主机加载到应用服务器的计算机平台。因此，可以承载软件元件的另一种类型的介质包括光波、电波和电磁波，例如在本地设备之间的物理接口之间、通过有线和光学座机网络以及通过各种空中链路使用。携带这样的波的物理元件例如有线或无线链路、光学链路等也可以被视为携带软件的介质。如本文所使用，除非限于非暂时性有形“存储”介质，否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。

因此，机器可读介质(例如计算机可执行代码)可采用多种形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘，例如任何计算机等中的任何存储设备等，例如可用于实现附图中所示的数据库等。易失性存储介质包括动态存储器，例如这种计算机平台的主存储器。有形传输介质包括同轴电缆；铜线和光纤，包括构成计算机系统内总线的线。载波传输介质可采用电信号或电磁信号或声波或光波的形式，例如在射频(RF)和红外(IR)数据通信期间生成的那些。因此，计算机可读介质的常见形式包括例如：软驱、软盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、打孔卡纸磁带、带孔图案的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒带、用于传输数据或指令的载波、用于传输这样的载波的电缆或链路、或计算机可以从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可能涉及将一个或更多个指令的一个或更多个序列传送给处理器以供执行。

计算机系统1001可包括电子显示器1035或与之通信，电子显示器1035包括用户界面(UI)1040，用户界面1040用于提供例如甲基化谱、指示甲基化谱的报告和/或对象患有或怀疑患有疾病或病症的可能性。UI的实例包括但不限于图形用户界面(GUI)和基于Web的用户界面。

可通过一种或更多种算法来执行本公开内容的方法和系统。可由中央处理单元1005在执行时通过软件来执行算法。算法可例如处理序列读段以(i)从序列读段两端的衔接子来鉴定序列，以及(ii)在鉴定序列之后，将无细胞DNA分子鉴定为具有一个或更多个CpG位点；测量DNA片段的甲基化状态以提供甲基化谱；相对于参考处理甲基化谱；以及处理甲基化谱以产生对象患有或怀疑患有疾病或病症的可能性。尽管已经在本文中示出和描述了本发明的优选实施方案，但是对于本领域技术人员明显的是，这些实施方案仅作为示例提供。并非意图通过说明书中提供的特定实例来限制本发明。尽管已经参考前述说明书描述了本发明，但是本文中实施方案的描述和图示并不意味着以限制的意义来解释。在不背离本发明的情况下，本领域技术人员将想到许多变化、改变和替代。此外，应当理解，本发明的所有方面不限于本文阐述的具体描述、构造或相对比例，其取决于多种条件和变量。应当理解，本文所述的本发明的一些实施方案的各种替代方案可用于实施本发明。因此，可以预期的是，本发明还将覆盖任何这样的替代、修改、变化或等同形式。意图是所附权利要求限定了本发明的范围，并且因此涵盖这些权利要求范围内的方法和结构及其等同物。

Claims

1.用于处理或分析对象的多个无细胞脱氧核糖核酸(DNA)分子的方法，其包括：

(a)使所述多个无细胞DNA(cfDNA)分子经受足以使所述无细胞DNA分子的至少子集发生片段化而产生包含一个或更多个CpG位点的片段的条件，以提供多个DNA片段，所述多个无细胞DNA(cfDNA)分子的末端(i)不能与衔接子偶联或(ii)被配置为用于从所述多个cfDNA的其余部分中分离；

(b)将所述衔接子与所述多个DNA片段的末端偶联以提供多个经标记的DNA片段，所述经标记的DNA片段具有可与非甲基化的核酸碱基区分的甲基化的核酸碱基；

(c)对所述多个经标记的DNA片段或其衍生物进行核酸测序以产生多个序列读段；以及

(d)处理所述多个序列读段以(i)从所述多个序列读段两端的所述衔接子鉴定序列，以及(ii)在鉴定所述序列的情况下，则将来自所述多个无细胞DNA分子的无细胞DNA分子鉴定为具有一个或更多个CpG位点。

2.权利要求1所述的方法，其中所述多个DNA片段的至少子集具有甲基化的核酸碱基。

3.权利要求1或2所述的方法，其中将无细胞DNA分子鉴定为具有一个或更多个CpG位点包括将无细胞DNA分子鉴定为具有两个或更多个CpG位点。

4.权利要求1至3中任一项所述的方法，其还包括在(b)之前或之后，从所述多个DNA片段中分离具有所述末端的所述cfDNA分子的片段。

5.权利要求4所述的方法，其中将所述片段与磁珠偶联，并且其中使用磁分离来分离所述片段。

6.权利要求1至5中任一项所述的方法，其还包括在(b)之前或之后，使所述多个cfDNA分子、所述多个DNA片段或其衍生物经受足以使所述甲基化的核酸碱基与所述非甲基化的核酸碱基区分开的条件。

7.权利要求6所述的方法，其中使所述多个cfDNA分子、所述多个DNA片段或其衍生物经受所述条件包括对所述多个DNA片段进行亚硫酸氢盐转化。

8.权利要求1至7中任一项所述的方法，其还包括使所述多个经标记的DNA片段或其衍生物经受足以使所述甲基化的碱基与所述非甲基化的核酸碱基区分开的条件。

9.权利要求8所述的方法，其中使所述多个经标记的DNA片段或其衍生物经受所述条件包括对所述多个经标记的DNA片段进行亚硫酸氢盐转化。

10.权利要求1至9中任一项所述的方法，其中(a)中的所述条件足以使所述经修饰的cfDNA分子的所述至少所述子集片段化，以产生含有多个CpG位点的片段。

11.权利要求1至10中任一项所述的方法，其中(a)还包括对所述多个cfDNA分子进行限制酶消化，以使所述多个cfDNA分子的所述至少所述子集片段化，以产生含有所述一个或更多个CpG位点的片段。

12.权利要求11所述的方法，其中使用一种或更多种限制酶进行所述限制酶消化，其富集来自所述多个cfDNA分子的具有CpG位点的DNA片段。

13.权利要求12所述的方法，其中所述一种或更多种限制酶包含MspI、HpaII和/或TaqI。

14.权利要求1至13中任一项所述的方法，其中每个所述衔接子包含被配置为与核酸测序仪的流动池偶联的功能序列。

15.权利要求1至14中任一项所述的方法，其中在(b)中偶联所述衔接子包括将所述衔接子与所述多个DNA片段的所述末端连接。

16.权利要求15所述的方法，其还包括在所述连接之前，对所述多个DNA片段进行末端修复或核酸碱基加尾。

17.权利要求16所述的方法，其还包括在所述连接之前，对所述多个DNA片段进行末端修复和核酸碱基加尾。

18.权利要求15所述的方法，其中所述衔接子被配置为与核酸分子偶联，以提供用于测序的文库。

19.权利要求18所述的方法，其中所述衔接子被配置为与所述核酸分子连接。

20.权利要求18所述的方法，其中所述衔接子包含至少一个茎环区域。

21.权利要求20所述的方法，其还包括将所述衔接子与所述核酸分子偶联，以及使与所述核酸分子偶联的所述衔接子的所述茎环区域线性化。

22.权利要求21所述的方法，其中所述线性化使用内切核酸酶、尿嘧啶糖基化酶或其功能类似物或其组合来进行。

23.权利要求22所述的方法，其中所述内切核酸酶是内切核酸酶VIII或其功能类似物。

24.权利要求22所述的方法，其中所述尿嘧啶糖基化酶是尿嘧啶脱氧核糖核酸(DNA)糖基化酶。

25.权利要求1至24中任一项所述的方法，其中所述衔接子是Y形的。

26.权利要求1至25中任一项所述的方法，其中所述衔接子是平末端的。

27.权利要求1至26中任一项所述的方法，其中所述衔接子包含已知序列。

28.权利要求1至27中任一项所述的方法，其中所述衔接子包含独特序列，所述独特序列允许对所述多个经标记的DNA片段或其衍生物进行独特的分子鉴定。

29.权利要求1至28中任一项所述的方法，其中所述衔接子的所述核酸碱基是非甲基化的。

30.权利要求1至29中任一项所述的方法，其中所述衔接子的所述核酸碱基是甲基化的。

31.权利要求1至30中任一项所述的方法，其还包括对所述多个DNA片段或所述多个经标记的DNA片段进行扩增。

32.权利要求31所述的方法，其中所述扩增包括聚合酶链式反应(PCR)。

33.权利要求1至32中任一项所述的方法，其还包括对所述多个DNA片段或所述多个经标记的DNA片段进行大小选择，以提供经大小选择的多个DNA片段。

34.权利要求33所述的方法，其中所述经大小选择的多个DNA片段的长度为约130至约400个核酸碱基。

35.权利要求33所述的方法，其中所述经大小选择的多个DNA片段的长度为约30至约250个核酸碱基。

36.权利要求1至35中任一项所述的方法，其还包括测量所述多个DNA片段或所述多个经标记的DNA片段的至少一部分的甲基化状态，以提供所述经大小选择的多个DNA片段或所述多个经标记的DNA片段的所述至少所述一部分的甲基化谱。

37.权利要求33所述的方法，其还包括测量所述经大小选择的多个DNA片段的至少一部分的甲基化状态，以提供所述经大小选择的多个DNA片段的所述至少所述一部分的甲基化谱。

38.权利要求36或37所述的方法，其还包括相对于参考处理所述甲基化谱。

39.权利要求38所述的方法，其中所述参考包含一个或更多个另外对象的cfDNA分子的参考甲基化谱。

40.权利要求1至39中任一项所述的方法，其中所述多个cfDNA分子获自所述对象的身体样品。

41.权利要求40所述的方法，其中所述身体样品选自血浆、血清、骨髓、脑脊髓液、胸膜液、唾液、粪便和尿。

42.权利要求1至41中任一项所述的方法，其还包括处理来自所述多个cfDNA分子的具有一个或更多个CpG位点的所述cfDNA分子，以产生所述多个cfDNA分子的甲基化谱。

43.权利要求42所述的方法，其还包括处理所述甲基化谱以产生所述对象患有或怀疑患有疾病或病症的可能性。

44.权利要求43所述的方法，其中所述疾病或病症选自癌症、多发性硬化、创伤性或缺血性脑损伤、糖尿病、胰腺炎、阿尔茨海默病、胎儿异常以及涉及异常组织特异性细胞死亡的任何病症。

45.权利要求44所述的方法，其中所述疾病或病症是选自以下的癌症：胰腺癌、肝癌、肺癌、结直肠癌、白血病、膀胱癌、骨癌、脑癌、乳腺癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、黑素瘤、卵巢癌、睾丸癌、肾癌、肉瘤、胆道癌和前列腺癌。

46.用于富集来自对象的多个无细胞DNA(cfDNA)分子的多个脱氧核糖核酸(DNA)片段的方法，其包括：

(a)对所述多个无细胞DNA分子或其衍生物的至少一部分中的每一个的一个或两个末端进行修饰，以提供具有以下末端的多个经修饰的无细胞DNA分子，所述末端(i)不能与衔接子偶联或(ii)被配置为用于从所述多个cfDNA的其余部分中分离；

(b)使所述多个经修饰的无细胞DNA分子经受足以使所述经修饰的无细胞DNA分子的至少子集中的每一个发生片段化而产生包含一个或更多个CpG位点的片段的条件，以提供多个DNA片段；以及

(c)将所述衔接子与所述多个DNA片段的末端偶联以提供多个经标记的DNA片段，所述经标记的DNA片段具有可与非甲基化的核酸碱基区分的甲基化的核酸碱基。

47.权利要求46所述的方法，其中所述多个DNA片段的至少子集具有甲基化的核酸碱基。

48.权利要求46或47所述的方法，其还包括在(c)之前或之后，从所述多个DNA片段中分离具有所述末端的所述cfDNA分子的片段。

49.权利要求48所述的方法，其中将所述片段与磁珠偶联，并且其中使用磁分离来分离所述片段。

50.权利要求46至49中任一项所述的方法，其中在(a)中，所述经修饰的无细胞DNA分子的末端不能进行连接或引物延伸。

51.权利要求46至49中任一项所述的方法，其还包括在(c)之前或之后，使所述多个DNA片段经受足以使所述甲基化的核酸碱基与所述非甲基化的核酸碱基区分开的条件。

52.权利要求51所述的方法，其中使所述多个DNA片段经受足以使所述甲基化的核酸碱基与所述非甲基化的核酸碱基区分开的条件包括对所述多个DNA片段进行亚硫酸氢盐转化。

53.权利要求46至52中任一项所述的方法，其还包括在(c)之后，使所述多个经标记的DNA片段经受足以使所述甲基化的核酸碱基与所述非甲基化的核酸碱基区分开的条件，从而产生另外的多个经标记的DNA片段。

54.权利要求53所述的方法，其中使所述多个经标记的DNA片段经受足以使所述甲基化的核酸碱基与所述非甲基化的核酸碱基区分的所述条件包括对所述多个经标记的DNA片段进行亚硫酸氢盐转化。

55.权利要求46至54中任一项所述的方法，其中(b)中的所述条件足以使所述经修饰的无细胞DNA分子的所述至少所述子集中的每一个发生片段化，以产生包含一个或更多个CpG位点的片段。

56.权利要求46至55中任一项所述的方法，其中所述修饰包括使所述多个cfDNA分子的所述至少所述一部分中的每一个的3’末端经受足以用双脱氧核苷酸(ddNTP)部分或其功能类似物修饰所述3’末端的条件。

57.权利要求46至56中任一项所述的方法，其中所述修饰包括使所述多个cfDNA分子的所述至少所述一部分中的每一个的5’末端经受足以使所述5’末端脱磷酸化的条件。

58.权利要求46至57中任一项所述的方法，其中所述修饰包括在所述多个cfDNA分子的至少一部分中的每一个的所述一个或两个末端引入一个或更多个阻断剂寡核苷酸。

59.权利要求46至58中任一项所述的方法，其中(b)还包括对所述多个经修饰的无细胞DNA分子进行限制酶消化以使所述经修饰的无细胞DNA分子的所述至少所述子集中的每一个发生片段化，以产生包含一个或更多个CpG位点的片段。

60.权利要求59所述的方法，其中使用富集具有CpG位点的片段的一种或更多种限制酶进行所述限制酶消化。

61.权利要求60所述的方法，其中所述一种或更多种限制酶包含MspI、HpaII和/或TaqI。

62.权利要求46至61中任一项所述的方法，其中每个所述衔接子包含被配置为与核酸测序仪的流动池偶联的功能序列。

63.权利要求46至62中任一项所述的方法，其中在(c)中偶联所述衔接子包括将所述衔接子与所述多个DNA片段的所述末端连接。

64.权利要求63所述的方法，其还包括在所述连接之前，对所述多个DNA片段进行末端修复或核酸碱基加尾。

65.权利要求64所述的方法，其还包括在所述连接之前，对所述多个DNA片段进行末端修复和核酸碱基加尾。

66.权利要求46所述的方法，其中所述衔接子被配置为与核酸分子偶联，以提供用于测序的文库。

67.权利要求66所述的方法，其中所述衔接子被配置为与所述核酸分子连接。

68.权利要求65所述的方法，其中所述衔接子包含至少一个茎环区域。

69.权利要求68所述的方法，其还包括将所述衔接子与所述核酸分子偶联，以及使与所述核酸分子偶联的所述衔接子的所述茎环区域线性化。

70.权利要求69所述的方法，其中所述线性化使用内切核酸酶、尿嘧啶糖基化酶或其功能类似物或其组合来进行。

71.权利要求70所述的方法，其中所述内切核酸酶是内切核酸酶VIII或其功能类似物。

72.权利要求70所述的方法，其中所述尿嘧啶糖基化酶是尿嘧啶脱氧核糖核酸(DNA)糖基化酶。

73.权利要求46至72中任一项所述的方法，其中所述衔接子是Y形的。

74.权利要求46至73中任一项所述的方法，其中所述衔接子是平末端的。

75.权利要求46至74中任一项所述的方法，其中所述衔接子包含已知序列。

76.权利要求46至75中任一项所述的方法，其中所述衔接子包含独特序列，所述独特序列允许对所述多个经标记的DNA片段或其衍生物进行独特的分子鉴定。

77.权利要求46至76中任一项所述的方法，其中所述衔接子的所述核酸碱基是非甲基化的。

78.权利要求46至77中任一项所述的方法，其中所述衔接子的所述核酸碱基是甲基化的。

79.权利要求46至78中任一项所述的方法，其还包括对所述多个DNA片段或所述多个经标记的DNA片段进行扩增。

80.权利要求79所述的方法，其中所述扩增包括聚合酶链式反应(PCR)。

81.权利要求46至80中任一项所述的方法，其还包括对所述多个DNA片段或所述多个经标记的DNA片段进行大小选择，以提供经大小选择的多个DNA片段。

82.权利要求81所述的方法，其中所述经大小选择的多个DNA片段的长度为约130至约400个核酸碱基。

83.权利要求81所述的方法，其中所述经大小选择的多个DNA片段的长度为约30至约250个核酸碱基。

84.权利要求46至83中任一项所述的方法，其还包括测量所述多个DNA片段或所述多个经标记的DNA片段的至少一部分的甲基化状态，以提供所述经大小选择的多个DNA片段或所述多个经标记的DNA片段的所述至少所述一部分的甲基化谱。

85.权利要求81所述的方法，其还包括测量所述经大小选择的多个DNA片段的至少一部分的甲基化状态，以提供所述经大小选择的多个DNA片段的所述至少所述一部分的甲基化谱。

86.权利要求84或85所述的方法，其还包括相对于参考处理所述甲基化谱。

87.权利要求81所述的方法，其还包括对所述经大小选择的多个DNA片段或其衍生物的至少一部分进行核酸测序以产生多个序列读段。

88.权利要求86所述的方法，其中所述参考包含一个或更多个另外对象的cfDNA分子的参考甲基化谱。

89.权利要求46至88中任一项所述的方法，其中所述多个cfDNA分子获自所述对象的身体样品。

90.权利要求89所述的方法，其中所述身体样品选自血浆、血清、骨髓、脑脊髓液、胸膜液、唾液、粪便和尿。

91.用于处理或分析多个无细胞脱氧核糖核酸(DNA)分子的方法，其包括：

(a)检索由测序仪产生的多个序列读段，其中所述多个序列读段的至少子集包含独立序列读段，所述独立序列读段包含：(i)来自所述多个无细胞DNA分子的序列和(ii)位于每个所述独立序列读段的两端的衔接子序列，所述衔接子序列不来自所述多个无细胞DNA分子；

(b)处理所述多个序列读段以(i)鉴定来自所述多个序列读段的在两端具有所述衔接子序列的一个或更多个序列读段，以及(ii)将所述一个或更多个序列读段鉴定为与所述多个无细胞DNA分子的一个或更多个CpG位点相关；以及

(c)使用在(b)中鉴定的所述一个或更多个CpG位点产生所述多个无细胞DNA分子的甲基化谱。

92.权利要求91所述的方法，其中所述一个或更多个CpG位点包含两个或更多个CpG位点。

93.权利要求91或92所述的方法，其还包括电子输出指示所述甲基化谱的报告。

94.权利要求91至93中任一项所述的方法，其还包括处理所述甲基化谱以产生所述对象患有或怀疑患有疾病或病症的可能性。

95.权利要求94所述的方法，其中所述疾病或病症选自癌症、多发性硬化、创伤性或缺血性脑损伤、糖尿病、胰腺炎、阿尔茨海默病和胎儿异常以及涉及异常组织特异性细胞死亡的任何病症。

96.权利要求95所述的方法，其中所述疾病或病症是选自以下的癌症：胰腺癌、肝癌、肺癌、结直肠癌、白血病、膀胱癌、骨癌、脑癌、乳腺癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、黑素瘤、卵巢癌、睾丸癌、肾癌、肉瘤、胆道癌和前列腺癌。

97.用于处理或分析多个无细胞脱氧核糖核酸(DNA)分子的系统，其包含：

存储多个序列读段的数据库，其中所述多个序列读段的至少子集包含独立序列读段，所述独立序列读段包含：(i)来自所述多个无细胞DNA分子的序列和(ii)位于每个所述独立序列读段的两端的衔接子序列，所述衔接子序列不来自所述多个无细胞DNA分子；以及

可操作地耦合到所述数据库的一个或更多个计算机处理器，其中所述一个或更多个计算机处理器被单独地或共同地编程为：

(1)从所述数据库中检索所述多个序列读段；

(2)处理所述多个序列读段以(i)鉴定来自所述多个序列读段的在两端具有所述衔接子序列的一个或更多个序列读段，以及(ii)将所述一个或更多个序列读段鉴定为与所述多个无细胞DNA分子的一个或更多个CpG位点相关；以及

(3)使用在(2)中鉴定的所述一个或更多个CpG位点产生所述多个无细胞DNA分子的甲基化谱。

98.权利要求97所述的系统，其中所述一个或更多个CpG位点包含两个或更多个CpG位点。

99.权利要求97所述的系统，其中所述一个或更多个计算机处理器被单独地或共同地编程为电子地输出指示所述甲基化谱的报告。

100.权利要求97所述的系统，其中所述一个或更多个计算机处理器被单独地或共同地编程为处理所述甲基化谱，以产生所述对象患有或怀疑患有疾病或病症的可能性。

101.权利要求100所述的系统，其中所述疾病或病症选自癌症、多发性硬化、创伤性或缺血性脑损伤、糖尿病、胰腺炎、阿尔茨海默病和胎儿异常以及涉及异常组织特异性细胞死亡的任何病症。

102.权利要求101所述的系统，其中所述疾病或病症是选自以下的癌症：胰腺癌、肝癌、肺癌、结直肠癌、白血病、膀胱癌、骨癌、脑癌、乳腺癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、黑素瘤、卵巢癌、睾丸癌、肾癌、肉瘤、胆道癌和前列腺癌。

103.包含机器可执行代码的非暂时性计算机可读介质，在由一个或更多个计算机处理器执行时，所述机器可执行代码执行用于处理或分析多个无细胞脱氧核糖核酸(DNA)分子的方法，所述方法包括：

104.富集来自无细胞DNA(cfDNA)的富CpG序列集合的方法，其包括以下步骤：

标记cfDNA分子的末端以产生经标记的cfDNA分子，其中经标记的cfDNA分子的末端不能进行连接；

用识别甲基化形式、非甲基化形式或两种形式的C^CGG位点的一种或更多种限制酶消化经标记的cfDNA分子，以产生在两端可连接的经消化的cfDNA分子以及产生仅在一端可连接的经消化的cfDNA分子；

将甲基化的衔接子与经消化的cfDNA分子的可连接末端连接，从而产生经衔接子连接的cfDNA分子；

对经衔接子连接的cfDNA分子进行亚硫酸氢盐转化以产生亚硫酸氢盐转化的经衔接子连接的cfDNA分子；以及

扩增在分子的两端均包含衔接子的亚硫酸氢盐转化的经衔接子连接的cfDNA分子。

105.权利要求104所述的方法，其还包括对经扩增的亚硫酸氢盐转化的经衔接子连接的cfDNA分子进行大小选择的步骤。

106.权利要求105所述的方法，其中经大小选择的扩增的亚硫酸氢盐转化的经衔接子连接的cfDNA分子的长度为约150至约400个核苷酸。

107.权利要求104至106中任一项所述的方法，其中所述标记步骤包括在所述标记之前或之后将所述cfDNA分子的5’末端脱磷酸化。

108.权利要求104至107中任一项所述的方法，其中所述标记包括在所述cfDNA分子的3’末端添加ddNTP。

109.权利要求108所述的方法，其中所述标记是可检测的。

110.权利要求108所述的方法，其中所述标记包含ddNTP，其是荧光的、比色的、生物素化的、放射性的或其组合。

111.权利要求104至110中任一项所述的方法，其中所述方法还包括在所述连接步骤之前对所述经消化的cfDNA分子进行末端修复和核苷酸加尾的步骤。

112.权利要求104至111中任一项所述的方法，其中所述限制酶是MspI、HpaII或包含MspI和/或HpaII的混合物。

113.权利要求104至112中任一项所述的方法，其中所述衔接子包含至少一个茎环区域。

114.权利要求113所述的方法，其还包括使所述经衔接子连接的cfDNA分子上的衔接子的茎环区域线性化的步骤。

115.权利要求114所述的方法，其中所述线性化通过至少一种尿嘧啶DNA糖基化酶进行，通过限制酶进行，或通过两者进行。

116.权利要求113或114所述的方法，其中所述线性化通过尿嘧啶DNA糖基化酶和内切核酸酶VIII的混合物进行。

117.权利要求104至116中任一项所述的方法，其中所述衔接子是叉形的。

118.权利要求104至117中任一项所述的方法，其中所述扩增步骤包括聚合酶链式反应。

119.权利要求104至118中任一项所述的方法，其中所述衔接子包含一个或更多个已知序列。

120.权利要求104至119中任一项所述的方法，其中所述衔接子包含一个或更多个独特序列。

121.权利要求104至120中任一项所述的方法，其还包括从血液或血浆中获得cfDNA的步骤。

122.权利要求105至121中任一项所述的方法，其中分析经大小选择的扩增的cfDNA分子中的一些或全部。

123.权利要求105至122中任一项所述的方法，其中对经大小选择的扩增的cfDNA分子中的一些或全部进行部分或完全测序。

124.权利要求105至123中任一项所述的方法，其中分析经大小选择的扩增的cfDNA分子中的一些或全部的甲基化谱。

125.权利要求105至124中任一项所述的方法，其中将经大小选择的扩增的cfDNA分子中的一些或全部的甲基化谱与参考进行比较。

126.权利要求104至125中任一项所述的方法，其中所述cfDNA获自个体的血液或血浆。

127.权利要求105至126中任一项所述的方法，其中将来自第一个体的cfDNA的经大小选择的扩增的cfDNA分子中的一些或全部的甲基化谱与第二个体或更多个体的DNA中的一个或更多个甲基化谱进行比较。