CN109890984B

CN109890984B - 通过母体血浆dna的甲基化和大小谱分析进行胎龄评估

Info

Publication number: CN109890984B
Application number: CN201780064607.8A
Authority: CN
Inventors: 卢煜明; 赵慧君; 陈君赐; 江培勇
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2016-10-19
Filing date: 2017-10-18
Publication date: 2024-03-29
Anticipated expiration: 2037-10-18
Also published as: MY205940A; EP3529377A1; SG11201903346QA; WO2018072705A1; US20180105807A1; IL265769B2; US11512306B2; CN109890984A; US20230047963A1; IL265769B1; EP4209598A1; IL265769A; EP3529377A4; EP3529377B1

Abstract

从无细胞DNA样品中测量的一个或多个特性的时间变化用于估计胎儿的胎龄。实例特性包含从所述无细胞DNA样品中测量的甲基化水平、从所述无细胞DNA样品中测量的DNA片段的大小(例如，长于特定大小的胎源DNA片段的比例)以及DNA片段与参考基因组对齐的结束模式。

Description

通过母体血浆DNA的甲基化和大小谱分析进行胎龄评估

相关申请的交叉引用

本申请要求于2016年10月19日提交的美国临时专利申请号62/410,108的权益，所述申请的内容出于所有目的通过引用整体并入本文。

背景技术

母体血浆中无细胞胎儿脱氧核糖核酸(DNA)的发现为无创产前诊断开辟了新的可能性(YMD Lo等人，《柳叶刀(Lancet)》，1997；350:485-487)。此技术已迅速转化为临床应用，检测胎源的、父系遗传的基因或序列，例如，用于胎儿性别测定和胎儿恒河猴D型(RHD)状态测定，并且特别是用于筛查胎儿染色体非整倍性(RWK Chiu等人，2008，《美国国家科学院院刊(Proc Natl Acad Sci USA)》；105:20458-2046)。已经证明，孕妇血浆中的胎源无细胞DNA的生物学特性与母源DNA表现出许多差异。例如，无细胞胎儿DNA通常比母体DNA分子更短(YMD等人，2010，《科学转化医学(Sci Transl Med)》；2:61ra91)并且孕妇血浆中无细胞胎儿DNA的总甲基化水平通常低于母源DNA的总甲基化程度(FMF Lun等人，《临床化学(Clin.Chem.)》，2013；59:1583-94)。

发明内容

各种实施例针对分析无细胞DNA样品的应用(例如，诊断和治疗应用)，所述无细胞DNA样品包含来自怀有至少一个胎儿的怀孕女性的胎儿和母体DNA。一种应用的实施例可以使用从无细胞DNA样品中测量的一个或多个特性的时间变化来估计至少一个胎儿的胎龄。实例特性包含从无细胞DNA样品中测量的甲基化水平、从无细胞DNA样品中测量的DNA片段的大小(例如，长于特定大小的胎源DNA片段的比例)以及DNA片段的末端与参考基因组对齐的模式。

在进一步的实施例中，所估计胎龄可以与使用针对生物样品的另一种技术确定的胎龄，如基于病历或基于超声诊断确定的胎龄进行比较。当所估计胎龄与使用其它技术确定的胎龄不匹配时可以生成警报消息。如果不匹配是由管理误差引起的，则可以采取纠正措施。如果不匹配可能由如妊娠相关疾病等病理原因，如先兆子痫、早产、宫内生长受限(IUGR)、或胎儿染色体非整倍性引起，则可以进行进一步的诊断和治疗。

其它实施例涉及与本文描述的方法相关联的系统和计算机可读媒体。

参考以下详细描述和附图，可以更好地理解本发明的实施例的本质和优点。

附图说明

图1是根据本发明某些实施例的母体血浆中循环无细胞DNA的大小分布的图。

图2A示出了根据本发明的某些实施例的具有不同游离胎儿DNA浓度的两个母体血浆样品(妊娠头三个月)中的DNA片段的大小分布的图。。

图2B示出了根据本发明的某些实施例的具有不同游离胎儿DNA浓度的两个母体血浆样品(妊娠中三个月)中的DNA片段的大小分布的图。

图3是示出了根据本发明的某些实施例的DNA片段的比例的图，所述DNA片段对于在母体血浆中具有各种胎儿DNA百分比的样品，具有150个或更少的碱基对。

图4A示出了根据本发明的某些实施例的在妊娠期间收集的样品中的常染色体中甲基化的CpG位点的百分比的条形图。

图4B示出了根据本发明的某些实施例的在妊娠器件收集的样品中的X染色体中甲基化的CpG位点的百分比的条形图。

图5是根据本发明的某些实施例的母体血浆、成年女性对照血浆、胎盘组织，和成年女性对照血液的甲基化密度与片段大小的关系的图。

图6A和图6B示出了根据本发明的某些实施例的甲基化密度和血浆DNA分子大小的关系的图。图6A是妊娠头三个月母体血浆的图。图6B是妊娠末三个月母体血浆的图。

图7示出了根据本发明的某些实施例的胎龄、母体血浆DNA的甲基化水平和大小谱之间的相关性，其中妊娠头三个月样品、妊娠中三个月样品和妊娠末三个月样品分别以红色、绿色和蓝色点表示；横轴表示甲基化水平；并且纵轴表示胎源长片段(例如，≥150bp)的比例。

图8是示出根据本发明的某些实施例的实例方法的流程图，所述方法用于基于甲基化水平(和/或胎源长DNA的比例)确定胎儿的胎龄。

图9A示出了根据本发明的某些实施例的携带胎儿特异性等位基因和母亲和胎儿共有的等位基因的血浆DNA的非随机片段化模式的说明性实例。

图9B示出了根据本发明的某些实施例的从血细胞获得并使用超声进行人工碎裂的DNA样品的实例测序结果。

图10示出了根据本发明的某些实施例的基因组坐标是具有信息式SNP的区域中的母体血浆DNA片段的结束位置的概率的图。

图11示出了根据本发明的某些实施例的具有不同胎龄的样品中的血浆DNA结束位置的主成分分析的结果。

图12是示出根据本发明的某些实施例的基于结束位置分析确定胎儿的胎龄的实例方法的流程图。

图13示出了根据本发明的实施例的系统。

图14示出了根据本发明的某些实施例的可与系统和方法一起使用的实例计算机系统的框图。

术语

“组织”与组合在一起作为功能单元的一组细胞对应。可以在单一组织中发现多于一种类型的细胞。不同类型的组织可以由不同类型的细胞(例如，肝细胞、肺泡细胞或血细胞)组成，而且可以与来自不同生物体(母亲和胎儿)的组织或与健康细胞和肿瘤细胞对应。

“生物样品”是指取自受试者(例如，人类，如孕妇、患有癌症的个人、或疑似患有癌症的个人、器官移植接受者或疑似患有涉及器官的疾病过程(例如心肌梗塞的心脏、中风的大脑、或贫血的造血系统)的受试者)且含有一个或多个感兴趣的核酸分子的任何样品。生物样品可以是体液，如血液、血浆、血清、尿液、阴道液、水囊肿(例如，睾丸)液、阴道冲洗液、胸膜液、腹水液、脑脊髓液、唾液、汗液、泪液、痰液、支气管肺泡灌洗液、乳头排出液、来自身体不同部位(例如，甲状腺、乳房)的吸入液等。也可以使用粪便样品。在各种实施例中，已经富集无细胞DNA的生物样品(例如，通过离心方案获得的血浆样品)中的大部分可以是无细胞的，例如，大于50％、60％、70％、80％、90％、95％或99％的DNA可以是无细胞的。离心方案可以包含，例如，3,000g×10分钟下获得流体部分，并在例如，30,000g下再-离心另外10分钟以除去残留的细胞。

术语“核酸”或“多核苷酸”是指脱氧核糖核酸(DNA)或核糖核酸(RNA)以及其单链或双链形式的聚合物。除非确切地限制，所述术语涵盖了含有已知的天然核苷酸类似物的核酸，所述天然核苷酸的已知类似物具有与参比核酸类似的结合特性并且以与天然存在的核苷酸相类似的方式代谢。除非另外指出，否则特定的核酸序列还隐含地涵盖其保守修饰的变体(例如，简并密码子取代)、等位基因、直向同源物、SNP、拷贝数变体和互补序列以及明确指出的序列。具体地，简并密码子取代可以通过产生序列来实现，在所述序列中，一个或多个所选的(或全部)密码子的第三位被混合碱基和/或脱氧肌苷残基取代(Batzer等人，《核酸研究(Nucleic Acid Res.)》，19:5081(1991)；Ohtsuka等人，《生物化学杂志(J.Biol.Chem.)》，260:2605-2608(1985)；以及Rossolini等人，《分子与细胞探测(Mol.Cell.Probes)》，8:91-98(1994))。术语核酸可与基因、cDNA、mRNA、小非编码RNA、微RNA(miRNA)、Piwi相互作用RNA和由基因或基因座编码的短发夹RNA(shRNA)互换使用。

术语“基因”指参与产生多肽链的或转录的RNA产物的DNA片段。其可以包含编码区之前和之后的区域(前导区和尾区)以及单个编码片段(外显子)之间的插入序列(内含子)。

如本文所使用的术语“基于”意指“至少部分地基于”并且指的是在确定另一个值时使用的一个值(或结果)，如在方法的输入和所述方法的输出的关系中产生的值。如本文所使用的术语“获得”也是指方法的输入与方法的输出的关系，如当得到是在公式计算时产生的。

如本文所使用的术语“参数”是指表征定量数据集和/或定量数据集之间的数值关系的数值。例如，第一核酸序列的第一量和第二核酸序列的第二量之间的比率(或比率的函数)是参数。

如本文所使用的，术语“基因座”或其复数形式“基因座”是指任何长度的核苷酸(或碱基对)的位置或地址，其具有跨基因组的变异。“序列读段”是指从核酸分子的任何部分或全部测序的一串核苷酸。举例来说，序列读段可以是从核酸片段测序的短核苷酸串(例如，20到150个)、在核酸片段的一个或两个末端处的短核苷酸串或生物样品中存在的整个核酸片段的测序。序列读段可以通过多种方式获得，例如，使用测序技术或使用探针，例如，通过杂交阵列或捕获探针或扩增技术，如聚合酶链反应(PCR)或使用单引物的线性扩增或等温扩增。

术语“等位基因”是指在相同的物理基因组基因座的可替代的DNA序列，其可能带来或可能不带来不同的表型性状。在任何特定的二倍体生物体中，每个染色体具有两个拷贝(除了男性人类受试者的性染色体)，每个基因的基因型包括存在于所述基因座的一对等位基因，其在纯合子中是相同的并且在杂合子中是不同的。生物群体或物种通常在各个个体中的每个基因座处包含多个等位基因。在群体中发现多于一个等位基因的基因组基因座被称为多态性位点。基因座上的等位变异可以作为群体中存在的等位基因的数量(即，多态性的程度)或杂合子的比例(即，杂合率)来测量。如本文所用，术语“多态性”是指人类基因组中的任何个体间变异，而不管其频率如何。此类变异的实例包含但不限于单核苷酸多态性、简单串联重复多态性、插入—缺失多态性、突变(可能是疾病引起)和拷贝数变异。如本文所使用的术语“单倍型”是指多个基因座上的等位基因的组合，其在同一染色体或染色体区域上一起传递。单倍型可以指少到一对基因座或染色体区域或整个染色体。

术语“游离胎儿DNA浓度”与“胎儿DNA比例”和“胎儿DNA分数”可互换使用，并且是指从胎儿获得的生物样品(例如，母体血浆或血清样品)中存在的胎儿DNA分子的比例(YMD等人，《美国人类遗传学杂志(Am J Hum Genet)》，1998；62:768-775；Lun FMF等人，《临床化学》，2008；54:1664-1672。

术语“大小谱”一般涉及生物样品中的DNA片段的大小。大小谱可以是直方图，其提供各种大小的DNA片段的数量的分布。各种统计参数(也称为大小参数或恰参数)可以用于将一种大小谱与另一种大小谱区分开。一个参数是相对于所有DNA片段或相对于另一个大小或范围的DNA片段的特定大小或大小范围的DNA片段的百分比。

“结束位置”、“末端位置”、“结束模式”或“结束位点”(或仅是“末端”)可以指基因组坐标、基因组同一性或或如血浆DNA分子等无细胞DNA分子的最外基部，即末端的核苷酸同一性。末端位置可以与DNA分子的任一末端对应。DNA分子的起点和终点都可以与结束位置对应。在实践中，一个末端位置是通过以下分析方法检测或确定的无细胞DNA分子的一个末端上的最外侧碱基的基因组坐标或核苷酸同一性，如但不限于大规模平行测序或新一代测序、单分子测序、双链或单链DNA测序文库制备方案、聚合酶链反应(PCR)或微阵列。这种体外技术可以改变无细胞DNA分子的真实体内一个或多个物理末端。因此，每个可检测的末端可以代表生物学上真实的末端或末端是向内的一个或多个核苷酸或从分子的原始末端延伸的一个或多个核苷酸，如Klenow片段的5'钝化和3'填充非平末端双链DNA分子的突出端。末端位置的基因组同一性或基因组坐标可以从序列读段与如hg19等人类参考基因组的对齐结果获得。末端位置的基因组同一性或基因组坐标也可以从代表人类基因组的原始坐标的索引或代码目录获得。末端位置的基因组同一性或基因组坐标可以指无细胞DNA分子上的位置或核苷酸同一性，所述位置或核苷酸同一性通过以下读取，例如但不限于靶特异性探针、微量测序、DNA扩增。

“优选末端”(或“周期结束位置”)指的是在具有生理(例如，妊娠)或病理(疾病)状态(例如，癌症)的生物样品中比不具有这种状态的生物样品或比在相同的病理或生理状态下的不同时间点或阶段，例如在治疗之前或之后的或生物样品中具有更高的代表性或更普遍(例如，如由速率测量的)的末端。因此，相对于其它状态，在相关生理或病理状态中优选末端有更高的可能性或概率被检测到。可以在病理状态和非病理状态之间，例如，在患有和不患有癌症的患者中比较增加的概率并量化为概率比或相对概率。概率比可以基于以下确定：基于检测到测试样品中至少阈值数量的优选末端的概率或者基于在患有这种病症的患者或不患有这种病症的患者中检测到优选末端的概率。概率比的阈值的实例包含但不限于：1.1、1.2、1.3、1.4、1.5、1.6、1.8、2.0、2.5、3.0、3.5、4.0、4.5、5、6、8、10、20、40、60、80以及100。这种概率比可以通过比较具有和不具有相关状态的样品的相对丰度值来测量。因为相关生理或疾病状态下检测到优选末端的概率较高，所以可以在具有同一生理或疾病状态下的多于一个的个体中看到这种优选结束位置。随着概率的增加，即使分析的无细胞DNA分子的数量远小于基因组的大小，也可以检测到多于一个无细胞DNA分子在同一个优选结束位置上结束。因此，优选或周期结束位置也称为“频繁结束位置”。在一些实施例中，定量阈值可以用来要求同一个样品或同一个样品等分试样中末端至少被多次(例如，3次、4次、5次、6次、7次、8次、9次、10次、15次、20次或50次)被检测认为是优选末端。相关的生理状态可以包含当人健康、无疾病或未患有感兴趣的疾病时的状态。类似地，“优选结束窗口”与一组连续的优选结束位置对应。

DNA分子在一位置上结束的“速率”与DNA分子在所述位置上的结束频率有关。速率可以基于许多DNA分子，所述DNA分子在针对所分析的许多DNA分子而标准化的位置上结束。因此，速率与多少DNA分子在一位置上结束的频率相对应，并且与具有在所述位置上结束的DNA分子数的局部最大值的位置的周期性无关。

“校准样品”可以与生物样品对应，所述生物样品的组织特异性DNA分数经由校准方法，例如，使用特定于组织的等位基因来获得或确定。作为另一个实例，校准样品可以与可以从中确定优选结束位置的样品对应。校准样品可以用于两种目的。在一些情况下，可以知道校准样品的胎龄。

“校准数据点”包含“校准值”和感兴趣的DNA(即，特定组织类型的DNA)的所测的或已知的比例分配。校准值可以是针对校准样品确定的相对丰度，对于所述校准样品，组织类型的比例分布是已知的。校准数据点可以以各种方式定义，例如，作为离散点或作为校准函数(也称为校准曲线或校准表面)。校准函数可以从校准数据点的附加数学变换获得。

术语“测序深度”是指基因座被与所述基因座对齐的序列读段所覆盖的次数。基因座可以与核苷酸一样小、或者与染色体臂一样大、或者与整个基因组一样大。测序深度可以被表示为50X、100X等，其中“X”是指基因座被序列读段覆盖的次数。测序深度也可以应用于多个基因座或整个基因组，在此情况下，x可以分别指对基因座或整个基因组进行测序的平均次数。超深测序可以指测序深度为至少100X。

“分离值”与涉及两个值的差异或比率相对应。分离值可以是简单的差值或比率。作为实例，x/y以及x/(x+y)的直接比率是分离值。分离值可以包含其它因子，例如，乘法因子。作为其它实例，可以使用数值的函数的差值或比率，如两个值的自然对数(ln)的差值或比率。分离值可以包含差值和比率。

“相对丰度”是将在基因组位置中的一个窗口内结束的无细胞DNA分子的量(一个值)和在基因组位置中的另一个窗口内结束的无细胞DNA分子的量(另一个值)联系起来的一类分离值。两个窗口可以重叠，但是可以具有不同的尺寸。在其它实施方式中，两个窗口不会重叠。进一步地，窗口可以具有一个核苷酸的宽度，并且因此等同于一个基因组位置。

如本文所使用的术语“分类”是指与样品的特定性质相关联的任何一个或多个数字或其它一个或多个字符。举例来说，符号“+”(或词语“正”)可以表示样品归类为具有缺失或扩增。分类可以是二进制(例如，正或负)或具有更多的分类等级(例如，从1到10或0到1的标度)。

术语“截止值”和“阈值”是指在操作中使用的预定数量。例如，截止大小指的是不包括片段的大小。阈值可以是高于或低于特定分类适用的值。这些术语中的任何一个都可以用于这些背景中的任何一个。

“局部最大值”可以指基因组的位置(例如，核苷酸)，在所述位置，当与相邻位置比较时获得感兴趣参数的最大值，或者指在这种基因组位置处的感兴趣参数的值。例如，相邻位置的范围可以从50bp到2000bp。感兴趣的参数的实例包含但不限于在基因组位置结束的片段的数量、与所述位置重叠的片段的数量或覆盖基因组位置的大于阈值大小的片段的比例。当感兴趣的参数具有周期性结构时，可以产生许多局部最大值。全局最大值是局部最大值中的特定最大值。类似地，“局部最小值”可以指基因组的位置，在所述位置，当与相邻位置比较时获得感兴趣参数的最小值，或者指在这种基因组位置处的感兴趣参数的值。

哺乳动物基因组中的“DNA甲基化”通常是指在CpG二核苷酸中向胞嘧啶残基的5'碳(即5-甲基胞嘧啶)添加甲基基团。DNA甲基化可以发生于其它背景下的胞嘧啶中，例如，CHG和CHH，其中H是腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化还可以呈5-羟甲基胞嘧啶形式。还报道了非胞嘧啶甲基化，如N6-甲基腺嘌呤。

“甲基化组”提供了基因组中多个位点或基因座处的DNA甲基化量的量度。甲基化组可以与基因组的全部、基因组的大部分或基因组的一个或多个相对较小部分对应。“胎儿甲基化组”与怀孕女性的胎儿的甲基化组对应。胎儿甲基化组可以使用多种胎儿组织或胎儿DNA来源来确定，包含胎盘组织和母体血浆中的无细胞胎儿DNA。“肿瘤甲基化组”与生物体(例如，人)的肿瘤的甲基化组对应。可以使用母体血浆中的肿瘤组织或无细胞肿瘤DNA来确定肿瘤甲基化组。胎儿甲基化组和肿瘤甲基化组是感兴趣的甲基化组的实例。感兴趣的甲基化组的其它实例是器官(例如，脑细胞、骨骼、肺、心脏、肌肉和肾脏的甲基化组等)的甲基化组，其可以将DNA贡献到体液(例如，血浆、血清、汗液、唾液、尿液、生殖器分泌物、精液、粪便液、腹泻液、脑脊液、胃肠道分泌物、胰腺分泌物、肠道分泌物、痰液、眼泪、乳房和甲状腺的吸入液等)中。器官可以是移植器官。

“血浆甲基化组”是从动物(例如，人类)的血浆或血清中确定的甲基化组。血浆甲基化组是无细胞甲基化组的实例，因为血浆和血清包含无细胞DNA。血浆甲基化组也是混合甲基化组的实例，因为其是胎儿/母体甲基化组或肿瘤/患者甲基化组的混合物。“胎盘甲基化组”可以从绒毛膜绒毛样品(CVS)或胎盘组织样品(例如，在分娩后获得)中确定。“细胞甲基化组”与从患者的细胞(例如，血细胞)中确定的甲基化组对应。血细胞的甲基化组称为血细胞甲基化组(或血液甲基化组)。

“位点”与单个位点对应，其可以是单个碱基位置或一组相关碱基位置，例如，CpG位点。“基因座”可以与包含多个位点的区域对应。基因座可以仅包含一个位点，这将使得所述基因座在此背景下相当于一个位点。

每个基因组位点(例如，CpG位点)的“甲基化指数”是指在所述位点显示甲基化的序列读段与覆盖所述位点的读段总数的比例。区域的“甲基化密度”是显示甲基化的区域内的位点的读段数除以覆盖所述区域中的位点的读段总数。位点可以具有特定的特征，例如，是CpG位点。因此，区域的“CpG甲基化密度”是指显示CpG甲基化的读段数除以覆盖所述区域中的CpG位点(例如，特定CpG位点、CpG岛内或更大区域内的CpG位点)的读段总数。举例来说，人类基因组中每个100-kb组距的甲基化密度可以从CpG位点处经亚硫酸氢盐处理(对应于甲基化胞嘧啶)后未转化的胞嘧啶总数确定，作为映射到100-kb区域的序列读段覆盖的所有CpG位点的比例。此分析还可以针对其它组距大小，例如，50-kb或1-Mb等进行。区域可以是整个基因组或染色体或染色体的一部分(例如，染色体臂)。当区域仅包含CpG位点时，所述CpG位点的甲基化指数与所述区域的甲基化密度相同。“甲基化的胞嘧啶比例”是指区域中在分析的胞嘧啶残基，即包含CpG背景外的胞嘧啶的总数内显示被甲基化(例如，在亚硫酸氢盐转化之后未转化)的胞嘧啶位点“C's”的数量。甲基化指数、甲基化密度和甲基化的胞嘧啶的比例是“甲基化程度”的实例。

“甲基化谱”(也称为甲基化状态)包含与区域的DNA甲基化相关的信息。与DNA甲基化相关的信息可以包含但不限于CpG位点的甲基化指数、区域中CpG位点的甲基化密度、相邻区域内的CpG位点的分布、含有多于一个CpG位点的区域内每个单独CpG位点的甲基化模式或程度以及非CpG甲基化。基因组中大部分的甲基化谱可以视为相当于甲基化组。

具体实施方式

例如，描述了母体无细胞DNA(例如，母体血浆DNA)中DNA片段的片段化模式、大小和甲基化水平的时间变化以及应用，以确定胎儿的胎龄。各种实施例针对分析无细胞DNA样品的应用(例如，诊断和治疗应用)，所述无细胞DNA样品包含来自怀有至少一个胎儿的怀孕女性的胎儿和母体DNA。各种应用可以使用母体血浆DNA的特性来确定胎儿的胎龄。例如，从无细胞DNA样品测量的一个或多个特性的时间变化可以用于估计至少一个胎儿的胎龄。在一些实施例中，胎源长(或短)DNA片段的一比例、无细胞(胎儿)DNA的甲基化水平或其组合可以用于确定胎儿的胎龄。在一些实施例中，母体血浆中的DNA片段的结束模式可以用于确定胎儿的胎龄。

所估计胎龄可以与使用针对生物样品的另一种技术确定的胎龄，如基于病历或基于超声诊断确定的胎龄进行比较。当所估计胎龄与使用其它技术确定的胎龄不匹配时可以生成警报消息。如果不匹配是由管理误差引起的，则可以采取纠正措施。如果不匹配可能由如妊娠相关疾病等病理原因，如先兆子痫、早产、宫内生长受限(IUGR)、胎儿染色体非整倍性等引起，则可以进行进一步的诊断和治疗。

I.无细胞DNA片段化

无细胞的DNA片段化是指当产生或释放无细胞DNA分子时，高分子量(或长)DNA分子(如细胞核中的DNA分子)被切割、破碎或消化成短片段的过程。无细胞DNA以短片段的形式天然存在。无细胞DNA的非随机片段化过程在一定程度上可以发生在含有如血浆、血清、尿液、唾液、脑脊液、胸膜液、羊水、腹膜液和腹水等无细胞DNA的各种类型的生物样品中。

已经表明在开放染色质结构域内，包含转录起始位点周围，以及如连接子位置等核小体核心之间的位置上的如血浆DNA等无细胞DNA通常较短且完整性较差，即完整概率较差或完整性较差(Straver等人，《产前诊断(Prenat Diagn)》，2016，36:614-621)。

因为每个不同组织具有其特征性基因表达谱，所述基因表达谱可以由包含染色质结构和核小体位置的因素调节，因此例如，血浆DNA的某些基因组位置处的完整概率或完整性的无细胞DNA模式可以用作那些DNA分子的组织起源的标签或标记。例如，可以通过分析来自孕妇的母体血浆样品并将检测到的等位基因与在仅母体样品中检测到的等位基因进行比较来鉴定胎儿特异性等位基因。胎儿特异性单核苷酸多态性(SNP)等位基因可用于鉴定胎儿特异性无细胞DNA。

血浆DNA大多由少于200个碱基对(bp)的短片段组成(Lo等人，《科学转化医学(SciTransl Med)》，2010；2(61):61ra91)。血浆DNA的片段化模式是非随机的(Snyder等人，《细胞(Cell)》，2016；164:57-68以及WO 2016/015058 A2)。在血浆DNA的大小分布中可以在166bp处观察到峰值。血浆DNA片段化模式可能受许多因素的影响，如在已贡献血浆DNA分子的细胞的基因组中的核小体位置、转录因子结合位点、DNA酶切割或过敏性位点、表达谱(Snyder等人，《细胞》，2016；164:57-68以及PCT WO 2016/015058；Ivanov等人，《BMC基因组学(BMC Genomics)，2015；16增刊13:S1)和DNA甲基化谱(Lun等人，《临床化学》，2013；59:1583-1594)。血浆DNA片段化模式可以用于各种应用。

II.血浆DNA片段的大小

并非所有无细胞DNA分子都具有相同的长度。有些分子比其它分子短。已知母体血浆中的无细胞胎儿DNA分子通常比母源DNA分子短(Chan KCA等人，《临床化学》，2004；50:88-92；Lo YMD等人，《科学转化医学》，2010；2:61ra91)。因此，胎儿DNA的存在可能导致母体血浆DNA的总体大小分布的变化。移位程度可能与胎儿DNA的游离浓度有关。因此，可以通过测量母体血浆DNA的大小谱的特定值来确定母体血浆中的游离胎儿DNA浓度。用于确定血浆DNA片段的大小和针对从怀孕女性受试者获得的生物样品中的序列不平衡的产前诊断进行的基于大小的分析的一些实例技术可以在以下中找到：例如，题为“基于大小的基因组分析”的WO 2011054936 A1、题为“母体血浆中胎儿DNA分数的基于大小的分析”的WO 2013/132305 A1，其内容出于各种目的通过引用整体并入本文。

A.确定血浆DNA片段的大小

血浆DNA的大小分布可以通过以下确定，例如，但不限于使用实时PCR、针对性富集、电泳和质谱分析。在各种实施例中，DNA片段的大小可以由以下表示：长度、分子质量或与长度或质量成比例的所测参数，如电泳图中的迁移率和DNA片段在电泳或质谱仪中行进固定距离所需的时间。在另一个实例中，人们可以用如溴化乙锭或SYBR Green等嵌入荧光染料染色DNA，其中与DNA片段结合的染料量将与DNA片段的长度成比例。当UV光照射在样品上时，人们可以通过所发射的荧光的强度确定与DNA片段结合的染料量。

可以用来测量许多DNA分子大小的一种方法是大规模平行基因组测序。这可以通过以下进行：例如，Illumina Genome Analyzer平台(使用合成法测序)(Bentley DR等人，《自然(Nature)》，2008；456:53-59)、ABI SOLiD(使用连接法测序)(McKernan等人，《基因组研究(Genome Res)》，2009；19:1527-1541)、Roche 454平台(Marguelis等人，《自然》2005；437:376–380)以及Helicos单分子测序平台(Harris等人，《科学》，2008；320:106-109)。也可以使用其它大规模平行测序平台，如Pacific Biosciences(单分子实时(SMRT^TM)技术)(Eid等人，《科学(Science)》，2009；323:133-138)、纳米孔测序(Clarke J等人，《自然-纳米技术(Nat Nanotechnol)》，2009；4:465-470)、半导体测序(例如，通过Ion Torrent(www.iontorrent.com)等。

从这种基因组测序中获得DNA片段的大小信息的一种实例技术是进行双端(PE)测序，其中对DNA分子(片段)的两端进行测序。然后，与分子两端对应的序列可以映射回参考基因组(例如，参考人类基因组或参考马基因组，或任何感兴趣的动物的基因组)。母体血浆DNA的测序文库可以如前所述构建(Lo YM等人，《科学转化医学》，2010；2:61ra91)，除了可以通过三引物PCR扩增将6碱基条形码引入每个血浆样品的DNA分子外。在一个实施例中，两端各自以足够长的长度(例如，约10到24个碱基或25到36个碱基)进行测序，以针对每个末端单独地映射回参考人类基因组。在另一个实施例中，可以只将某一比例的序列映射回而不会与人类基因组的非重复区域不匹配。在一个方面，如果在映射中一起使用两个序列，则映射可以是明确的。在此情况下，即使每个端点可能太短而无法放心地映射回，使用两个序列都可以提供明确的映射。分子的大小可以通过例如，减去两个序列末端的基因组坐标来计算出来。在其它实施例中，对齐可以不是唯一的，并且可以允许不匹配。

在一个实例分析中，血浆DNA分子由Illumina Genome Analyzer系统使用双端测序方案随机测序。在此实例分析中，使用版本1的Illumina双端(PE)簇生成试剂盒。每个末端的测序为36bp。使用Illumina提供的GAPipeline-1.0软件包中的eland_pair程序将每个序列的两端与重复掩蔽的人类基因组(NCBI Build 36，版本48)进行对齐。来自每个端的36bp中仅32bp可以用于对齐。

在另一个实施例中，分子的大小可以通过完整或接近完整的整个DNA分子而不是仅仅两端的测序来获得。这可以通过具有相对长读段长度的测序平台有效地完成，如Roche454平台、Pacific Biosciences单分子实时(SMRT^TM)技术以及Ion Torrent技成术(www.iontorrent.com)。

通过使用索引或条形码可以增加上述基于测序的方法的生产率(Cronn等人，《核酸研究(Nucleic Acids Res)》，2008；36:e122)。因此，可以将样品(或患者)特异性指数(或条形码)添加到特定核酸测序文库中的核酸片段中。然后，将许多此类文库(每个文库具有样品(或患者)特异性指数(或条形码))混合在一起并一起测序。在测序反应之后，可以基于条形码或指数从每个样品或患者收获测序数据。此策略可以增加生产率并因此提高本发明的成本效益。

在另一个实施例中，生物样品中的核酸分子可以在大小分析之前被挑选或分级。在一个变体中，核酸分子用装置(例如，微阵列或含有探针的解决方案)处理，所述装置优先结合来自基因组(例如，染色体21、18、13或X中之一)中的选定基因座的核酸分子，然后可以对核酸分子的结合子集进行大小分析。在这种实施例中，可以使用Nimblegen序列捕获系统(www.nimblegen.com/products/seqcap/index.html)或Agilent SureSelect靶向富集系统(www.opengenomics.com/SureSelect_Target_Enrichment_System)或类似平台。在另一个实施历中，可以差异化地去除或降解或消化未结合的核酸子集。

在一些实施例中，符合以下标准的双端(PE)读段可以用于随后的分析：(1)每个建议的对的各个成员都在测序流动细胞上的同一集群位置上进行测序，并且与具有与针对人类参考基因组所预期的正确朝向的同一染色体对齐；(2)所述对的两个成员的测序读段可以与重复掩蔽的人类参考基因组对齐而没有任何核苷酸不匹配；(3)所述对中每个成员的测序读段具有>4的唯一性分数；以及(4)所述对显示插入物大小小于600bp。然后根据两端中每一端的位置计算每个对齐的序列的大小。

除了使用大规模平行测序之外，还可以通过电泳过程实现血浆DNA大小分布的分析。电泳过程测量片段移动穿过介质的时间。不同尺寸的颗粒需要不同的时间来移动穿过介质。DNA片段到达传感器所花费的持续时间与DNA片段的大小正相关。如Agilent2100Bioanalyzer等分析仪可以通过比较测试样品的运行时间与已知长度的DNA片段混合物(即，DNA梯)的运行时间来自动将持续时间转换为片段大小。因此，在一个实施例中，可以进行母体血浆DNA的测序文库的微流体电泳以确定母体血浆DNA的大小分布。

在一些实施例中，血浆DNA可以通过本领域技术人员已知的全基因组扩增系统，如Rubicon Genomics PlasmaPlex WGA试剂盒(www.rubicongenomics.com/products)扩增。然后可以通过分析仪分析扩增的产物。在又其它实施例中，可以通过来自例如，Caliper(www.caliperls.com/products/labchip-systems)的电泳系统分析所扩增的产物。在其它实施例中，可以使用例如，基于纳米孔的测序仪(例如，来自Oxford NanoporeTechnologies(www.nanoporetech.com))或Helico DNA测序仪(www.helicosbio.com)直接分析血浆DNA的大小分布而不需要扩增。

至少一些实施例可以与任何单分子分析平台一起使用，其中可以使用以下分析染色体起源和分子长度：例如，电泳、光学方法(例如，光学作图及其变体en.wikipedia.org/wiki/Optical_mapping#cite_note-Nanocoding-3以及Jo等人，《美国国家科学院院刊》，2007；104:2673-2678)、基于荧光的方法、基于探针的方法、数字PCR(基于微流体或基于乳状液的，如BEAMing(Dressman等人，《美国国家科学院院刊》，2003；100:8817-8822)或RainDance(www.raindancetech.com/technology/pcr-genomics-research.asp))、滚环扩增、质谱、熔化分析(或熔解曲线分析)、分子筛分等。作为质谱分析的一个实例，较长的分子将具有较大的质量(大小值的一个实例)。

B.大小分布

以下实施例表明人们可以测量大小谱，例如，通过双端大规模平行测序或通过电泳(例如，使用Bioanalyzer)。后一个实例特别有用，因为使用Bioanalyzer的电泳是一种快速且相对便宜的方法。这将允许人们在将血浆DNA样品进行相对昂贵的测序过程之前快速进行此分析作为质量控制措施。

图1示出了根据本发明某些实施例的母体血浆中循环无细胞DNA的大小分布的图100。通过测量DNA片段的大小然后计数各种大小，例如在50个碱基对(bp)到约220bp的范围内的DNA片段的数量，可以获得大小分布。图100示出了两种分布。分布110用于母体血浆样品中的所有DNA片段，分布120仅用于来自胎儿的DNA。横轴是碱基对(bp)中的DNA片段的大小。纵轴是具有各种大小的所测DNA片段的百分比。

在图1中，母体血浆中的胎源DNA的分布120显示胎源DNA的平均大小短于母源DNA的平均大小(Chan KC等人，《临床化学》，2004；50:88-92)。具有166bp的DNA片段的分数减少，并且具有胎源的DNA的小于150bp的较短DNA片段的比例增加(Lo YM等人，《科学转化医学》，2010；2:61ra91)。

图2A示出了根据本发明的某些实施例的具有不同游离胎儿DNA浓度的两个母体血浆样品(妊娠头三个月)中的DNA片段的大小分布的图200。这两名孕妇都怀有男性胎儿。游离胎儿DNA浓度由来自总测序的DNA片段中的Y染色体的序列的比例确定。这两个样品都是在妊娠的头三个月从孕妇身上采集的。游离胎儿DNA浓度为10％的案例338(实线210)具有比游离胎儿DNA浓度为20％的案例263(虚线220)更低的游离胎儿DNA浓度。与案例263相比，案例338在166bp处具有更高的峰值，但是在大小低于150bp时峰值较低。换句话说，在案例263中，短于150bp的DNA片段更丰富，而在案例338中，大约166bp的DNA片段更丰富。这些观察结果与短DNA和长DNA的相对量可能与游离胎儿DNA浓度相关的假设一致。

图2B示出了根据本发明的某些实施例的具有不同游离胎儿DNA浓度的两个母体血浆样品(妊娠中三个月)中的DNA片段的大小分布的图250。这两个样品都是在中三个月从孕妇身上采集的。这两名孕妇都怀有男性胎儿。游离胎儿DNA浓度由来自总测序的DNA片段中的Y染色体的序列的比例确定。类似于图2A中所示的先前实例，具有约19％的较高游离胎儿DNA浓度的案例5415(虚线270)在大小低于150bp处具有较高的峰值，而具有12％的较低游离胎儿DNA浓度的案例5166(实线260)在166bp处具有较高的峰值。

图2A和2B还示出了在妊娠中三个月的长DNA片段的比例高于妊娠头三个月。

C.母体血浆DNA中短/长DNA片段的比例

各种参数可以提供生物样品中的DNA片段的大小谱的统计学测量。可以使用所分析的DNA片段中的全部或仅仅一部分的大小来定义参数。在一个实施例中，参数指出短DNA片段和长DNA片段的相对丰度，其中短DNA片段和长DNA片段可以与特定大小或大小范围对应。

为研究母体血浆DNA的总体大小分布是否可以用于确定胎儿的胎龄，可以使用不同的参数来量化短DNA片段和长DNA片段的相对丰度，并确定这些参数与胎龄之间的相关性。例如，一个此类参数是150bp或更低的DNA片段的比例，其可以标记为CF(大小≤150)，其中CF是指累积频率。因此，CF(大小≤150)是指大小小于或等于150bp的片段的累积频率。

图3是示出了根据本发明的某些实施例的DNA片段的比例的实例图300，所述DNA片段对于在母体血浆中具有各种胎儿DNA百分比的样品，具有150个或更少的碱基对。针对80个母体血浆样品的游离胎儿DNA浓度将例如，≤150bp的DNA的比例作图。整倍体样品由实心圆圈310表示。三体13(T13)样品由未填充的三角形320表示。三体18(T18)样品由未填充的菱形330表示，并且三体21(T21)样品由倒置的未填充三角形340表示。

图3示出了对于所有样品，游离胎儿DNA浓度与具有150个或更少的碱基对的DNA片段的比例之间存在正相关(Pearson相关系数＝0.787)。在具有不同胎儿染色体状态的样品中，大小参数和游离胎儿DNA浓度之间的正相关似乎是一致的。这些结果表明，大小参数的分析可以用于估计母体血浆样品中的游离胎儿DNA浓度，反之亦然。

如图2A和图2B所指出并在下文参考图7详细讨论的，实验数据表明胎源长DNA片段的比例也随着胎龄的增加而增加。因此，还可以使用胎源长DNA片段的比例来确定胎儿的胎龄。

III.母体血浆的甲基化

DNA甲基化是被时常研究的表观遗传机制之一。DNA的甲基化主要发生在向CpG二核苷酸中的胞嘧啶残基的5'碳添加甲基基团的背景下。胞嘧啶甲基化为基因转录和DNA功能增加了一层控制。例如，富含CpG二核苷酸(称为CpG岛)的基因启动子的高甲基化通常与基因功能的抑制相关。

人类胎盘表现出过多的涉及DNA甲基化的特殊生理特征。在全局水平上，与大多数体细胞组织相比，胎盘组织是低甲基化的。在基因水平上，所选基因组基因座的甲基化状态是胎盘组织的特异性特征。全局和基因座特异性甲基化谱均显示出妊娠期依赖性变化。

对胎盘组织的DNA甲基化谱的研究提供了对如先兆子痫和子宫内生长受限等妊娠相关或发育相关疾病的病理生理学的见解。印迹基因，即表达依赖于等位基因亲本来源的基因，在胎盘中起关键作用。基因组印记中的障碍与如Prader-Willi综合征和Angelman综合征等发育障碍相关联。已经在由辅助生殖技术产生的妊娠中观察到胎盘和胎儿组织中基因组印记和全局DNA甲基化的改变的概况(H Hiura等人，2012；《人类生殖(Hum Reprod)》；27:2541-2548)。许多环境因素(例如，母亲吸烟)(KE Haworth等人，2013；《表观基因组学(Epigenomics)》；5:37-49)、母体饮食因素(X Jiang等人，2012，《美国实验生物学会联合会会志(FASEB J)》；26:3563-3574)以及母亲代谢状态(例如，糖尿病)(N Hajj等人，《糖尿病(Diabetes)》，doi:10.2337/db12-0289)与后代的表观遗传畸变有关。各种组织和样品的甲基化谱的测定和使用的实例可以在例如题为“从血浆中非侵入性测定胎儿或肿瘤的甲基”的WO2014/043763 A1中找到，其内容出于所有目的通过引用整体并入本文。

A.用于甲基化谱分析的技术

可以使用各种技术来研究胎盘甲基化组。例如，亚硫酸氢钠，其是一种将未甲基化的胞嘧啶残基修饰为尿嘧啶并使甲基化的胞嘧啶不变的化学物质，其将胞嘧啶甲基化的差异转化为遗传序列差异以进一步问诊。因此，研究胞嘧啶甲基化的方法可以包含用亚硫酸氢钠处理组织DNA，然后直接测序亚硫酸氢盐转化的DNA分子的单个克隆。在分析多个DNA分子克隆后，可以获得每个CpG位点的胞嘧啶甲基化模式和定量分析。

通常消化未甲基化DNA的甲基化敏感性限制酶可以提供研究DNA甲基化的低成本方法。从这些研究中产生的数据可能仅限于具有酶识别基序的基因座，并且结果可能不是定量的。通过抗甲基化胞嘧啶抗体结合的DNA的免疫沉淀可以用于研究基因组的大片段，但由于抗体与此类区域结合的较高强度，倾向于偏向通过密集甲基化的基因座。还可以使用基于探针的先验设计和探针与靶DNA之间的杂交效率的基于微阵列的方法。

为全面地问诊甲基化组，一些实施例使用大规模平行测序(MPS)来提供全基因组信息和基于每个核苷酸和每个等位基因的甲基化水平的定量评估。可以进行亚硫酸氢盐转化然后进行全基因组MPS(R Lister等人，2008，《细胞(Cell)》；133:523-536)。

某些实施例可以全面、非侵入地和连续地问诊胎儿甲基化组。在一个实施例中，使用全基因组亚硫酸氢盐测序来分析在孕妇的社交活动中发现的无细胞胎儿DNA分子。尽管血浆DNA分子的丰度和碎片性质较低，但可以从母体血浆中组合高分辨率的胎儿甲基化组，并连续观察妊娠进展的变化。鉴于对非侵入性产前检测(NIPT)的强烈兴趣，实施例可以为胎儿生物标志物发现提供强有力的新工具，或者用作实现胎儿或妊娠相关疾病的NIPT的直接平台。胎儿甲基化组可以从各种样品的全基因组亚硫酸氢盐测序的数据获得。此技术可以应用于妊娠合并先兆子痫、宫内发育迟缓或早产的甲基化分析。对于这种复杂的妊娠，此技术由于其非侵入性而可以连续使用，以允许对治疗进行监测、预测和/或响应。

在亚硫酸氢盐修饰过程中，未经甲基化的胞嘧啶在PCR扩增后转化为尿嘧啶，然后转化为胸腺嘧啶，而甲基化胞嘧啶保持完整(M Frommer等人，1992，《美国国家科学院院刊》，89:1827-31)。在测序和对齐后，单个CpG位点的甲基化状态因此可以从甲基化序列读段“M”(甲基化的)的计数和CpG背景下胞嘧啶残基处未甲基化序列读段“U”(未甲基化的)的计数推断。使用亚硫酸氢盐测序数据，可以构建母体血液、胎盘和母体血浆的全部甲基化组。可以使用以下等式计算母体血浆中特定基因座的平均甲基化的CpG密度(也称为甲基化密度MD)：

其中M是甲基化读段的计数，U是基因座内的CpG位点处未甲基化读段的计数。如果某个基因座中有多个CpG位点，则M和U与各个位点的计数对应。

可以使用亚硫酸氢盐转化的血浆DNA的大规模平行测序(MPS)进行甲基化谱分析。亚硫酸氢盐转化的血浆DNA的MPS可以以随机或鸟枪方式进行。测序的深度可以根据感兴趣区域的大小而变化。在另一个实施例中，首先可以使用溶液相或基于固相杂交的方法捕获亚硫酸氢盐转化的血浆DNA中的一个或多个感兴趣的区域，然后进行MPS。

大规模平行测序可以使用以下进行：如Illumina等合成法测序平台、如来自生命科技(Life Technologies)的SOLiD平台等连接法测序平台、如来自生命科技的IonTorrent或Ion Proton等基于半导体的测序系统、或如Helicos系统、Pacific Biosciences系统等单分子测序系统或基于纳米孔的测序系统。基于纳米孔的测序包含使用以下纳米孔：使用例如，脂质双层和蛋白质纳米孔构建的纳米孔，以及固态纳米孔(如基于石墨烯的纳米孔)。因为单分子测序平台可以允许直接阐明DNA分子(包含N6-甲基腺嘌呤、5-甲基胞嘧啶和5-羟甲基胞嘧啶)的甲基化状态而无需亚硫酸氢盐转化(BA Flusberg等人，2010，《自然-方法(Nat Methods)》；7:461-465；J Shim等人，2013，《科学报告(Sci Rep)》；3:1389.doi:10.1038/srep01389)，使用此类平台可以允许分析非亚硫酸氢盐转化的样品DNA(例如，血浆DNA)的甲基化状态。

除了测序之外，还可以使用其它技术。在一个实施例中，甲基化谱分析可以通过甲基化特异性PCR、甲基化敏感性限制酶消化随后进行进行PCR或连接酶链反应随后进行PCR来进行。在一些实施例中，PCR是单分子或数字PCR的形式(B Vogelstein等人，1999，《美国国家科学院院刊》；96:9236-9241)。在一些实施例中，PCR可以是实时PCR。在一些实施例中，DNA可以是多重PCR。

B.血浆DNA分子的甲基化

DNA分子以低浓度和碎片形式存在于人血浆中，通常长度类似于单核细胞单位(YMD Lo等人，2010，《科学转化医学》；2:61ra91；以及YW Zheng等人，2012，《临床化学》；58:549-558)。尽管有这些限制，全基因组亚硫酸氢盐测序管道能够分析血浆DNA分子的甲基化。在又其它实施例中，单分子测序平台将允许直接阐明DNA分子的甲基化状态而无需亚硫酸氢盐转化(BA Flusberg等人，2010，《自然-方法》；7:461-465；J Shim等人，2013，《科学报告》；3:1389.doi:10.1038/srep01389)，并且因此可以使用非亚硫酸氢盐转化的血浆DNA来确定血浆DNA的甲基化水平或确定血浆甲基化组。此类平台可以检测N6-甲基腺嘌呤、5-甲基胞嘧啶和5-羟甲基胞嘧啶，这可以提供与不同形式的甲基化的不同生物学功能相关的改善的结果(例如，改善的灵敏度或特异性)。当应用用于检测或监测如先兆子痫或特定类型的癌症等定病症的实施例时，这种改善的结果可以有用。

亚硫酸氢盐测序还可以区分不同形式的甲基化。在一个实施例中，可以包含可以区分5-甲基胞嘧啶和5-羟甲基胞嘧啶的其它步骤。一种此类方法是氧化亚硫酸氢盐测序(oxBS-seq)，其可以阐明5-甲基胞嘧啶和5-羟甲基胞嘧啶在单碱基分辨率下的位置(MJBooth等人，2012，《科学》；336:934-937；MJ Booth等人，2013，《自然-实验室指南(NatureProtocols)》；8:1841–1851)。在oxBS-seq中，通过用过钌酸钾(KRuO4)处理，将5-羟甲基胞嘧啶特异性氧化成5-甲酰基胞嘧啶，然后使用亚硫酸氢盐转化将新形成的5-甲酰基胞嘧啶转化为尿嘧啶，这允许将5-羟甲基胞嘧啶与5-甲基胞嘧啶区分开来。因此，可以从单一的oxBS-seq试验获得5-甲基胞嘧啶的读数，并且通过与亚硫酸氢盐测序结果的比较推断出5-羟甲基胞嘧啶水平。在另一个实施例中，使用Tet辅助的亚硫酸氢盐测序(TAB-seq)可以将5-甲基胞嘧啶与5-羟甲基胞嘧啶区分开来(M Yu等人，2012，《自然-实验室指南》；7:2159–2170)。TAB-seq可以在单碱基分辨率下鉴定5-羟甲基胞嘧啶，并确定其在每个修饰位点的丰度。此方法涉及β-葡糖基转移酶介导的5-羟甲基胞嘧啶(葡糖基化)保护和重组小鼠Tet1(mTet1)介导的5-甲基胞嘧啶氧化成5-羧基胞嘧啶。在随后的亚硫酸氢盐处理和PCR扩增后，胞嘧啶和5-羧基胞嘧啶(从5-甲基胞嘧啶获得)均转化为胸腺嘧啶(T)，而5-羟甲基胞嘧啶将被读为C。

C.甲基化组的甲基化水平

可以研究母体血浆DNA、母体血细胞和胎盘组织的甲基化以确定甲基化水平。可以确定重复区域、非重复区域和总体的甲基化水平。

图4A示出了根据本发明的某些实施例的在妊娠期间收集的样品中的常染色体中甲基化的CpG位点的百分比的条形图400。图4B示出了根据本发明的某些实施例的在妊娠器件收集的样品中的X染色体中甲基化的CpG位点的百分比的条形图450。对于妊娠头三个月和妊娠中三个月母体血浆样品，甲基化的CpG的总体比例分别为66.93％和68.22％。从非妊娠个体获得的比例结果低于妊娠头三个月母体血细胞样品的比例，但高于绒毛膜绒毛样品(CVS)和足月胎盘组织样品的比例。分娩后母体血浆样品的甲基化的CpG的百分比为73.1％，这与血细胞数据相似。这些趋势在分布在所有常染色体和染色体X上的CpG中观察到，并跨越人类基因组的非重复区域和多种重复元件。

发现胎盘中的重复和非重复元件相对于母体血细胞是低甲基化的。所述结果与文献中的发现一致，即胎盘相对于其它组织，包含外周血细胞是低甲基化的。

在来自孕妇、非孕妇和成年男性的血细胞DNA中，介于约71％到72％之间的测序的CpG位点被甲基化。这些数据与与68.4％的甲基化血液单核细胞CpG位点的报告相当，所述报告由Y Li等人，2010，《PLoS生物学(PLoS Biol)》；8:e1000533报告。与先前关于胎盘组织的低甲基化性质的报道一致，55％和59％的CpG位点分别在CVS和足月胎盘组织中被甲基化。

图4A和图4B还示出了妊娠头三个月母体血浆与妊娠末三个月母体血浆之间甲基化水平的差异。例如，图4A和图4B表示CVS(或妊娠头三个月)样品的甲基化水平低于胎盘(妊娠末三个月)样品的甲基化水平。血浆样品中胎儿DNA分子的标准化甲基化水平也显示妊娠头三个月血浆样品中胎儿DNA分子的甲基化水平与妊娠末三个月血浆样品中胎儿DNA分子的甲基化水平之间的显著差异。

如图4A和图4B所示，血沉棕黄层样品的总甲基化水平为约71.7％，妊娠头三个月血浆样品的总甲基化水平为约66.93％，并且妊娠末三个月血浆样品的总甲基化水平为约68.22％。基于妊娠头三个月血浆样品中的胎儿DNA分子的已知分数(例如，14.4％)和妊娠末三个月血浆样品中的胎儿DNA分子的已知分数(例如，33.9％)，妊娠头三个月血浆样品和妊娠末三个月血浆样品中的胎儿DNA分子的甲基化水平可以根据以下因素确定：

M＝M₁*(1-f)+M₂*f，

其中M是血浆样品的总体甲基化水平，M₁是血沉棕黄层的甲基化水平，M₂是胎儿DNA分子的甲基化水平，以及f是血浆样品中的胎儿DNA分子的分数。因此，胎儿DNA分子的甲基化水平可以通过以下确定：

M₂＝(M-M₁*(1-f))/f。

基于图4A和图4B所示数据以及上述等式所示，可以确定妊娠头三个月血浆样品的胎儿DNA分子的甲基化水平为约38.6％，妊娠末三个月血浆样品的胎儿DNA分子的甲基化水平为约61.4％。

应当注意的是，如上所述，在一些情况下，样品中的胎儿DNA分子的甲基化水平可以基于样品中的无细胞DNA分子的总甲基化水平和样品中的胎儿DNA分子的分数来确定。在一些情况下，可以以不同方式确定样品中的胎儿DNA分子的甲基化水平。例如，可以基于例如，分子中的胎儿特异性等位基因从生物样品中鉴定胎儿DNA分子，并且然后可以分析胎儿DNA分子以确定胎儿DNA分子的甲基化水平。

如图4A和图4B所指出并在下文参考图7详细讨论的，实验数据还表明胎源长DNA片段的甲基化水平也随着胎龄的增加而增加。进一步地，可以鉴定甲基化水平与胎龄具有更强相关性的甲基化标志物。因此，还可以使用胎源长DNA片段的甲基化水平来确定胎儿的胎龄。

可以将与母体血浆样品、母体血细胞和胎盘样品相关的甲基化水平相互比较，以确定甲基化水平组是否彼此不同。例如，可以使用例如，Mann-Whitney检验来比较甲基化水平。P值例如，≤0.01，并且可以被认为是统计学上显著不同的，尽管可以使用其它值，其中较低的数量将减少假阳性区域。

IV.胎龄与甲基化水平和/或片段大小的关系

如上所述，据报道母体血浆中的无细胞DNA的大小与DNA甲基化水平正相关(FMFLun等人，《临床化学》，2013；59:1583-94)。研究了不同胎龄的母体血浆DNA的片段大小与甲基化水平之间的关系，以确定胎龄、母体血浆的甲基化水平和/或大小谱之间的相关性。

A.片段大小与甲基化水平之间的实例关系

图5是根据本发明的某些实施例的母体血浆(线510)、成年女性对照血浆(线520)、胎盘组织(线530)和成年女性对照血液(线540)的甲基化密度与片段大小的关系的图500。对于大小相同且含有至少一个CpG位点的DNA分子，计算其平均甲基化密度。可以绘制DNA分子大小与其甲基化密度之间的关系。具体地，对于覆盖至少1个CpG位点的测序读段，确定范围为50bp到180bp的每个片段长度的平均甲基化密度。注意甲基化密度随着血浆DNA大小的增加而增加，峰值在166bp到167bp左右。然而，在使用超声波发生器系统破碎的胎盘和对照血液DNA样品中未观察到这种模式。

图6A和图6B示出了根据本发明的某些实施例的不同胎龄的甲基化密度和血浆DNA分子大小的关系的图。图6A是妊娠头三个月母体血浆的图600。图6B是妊娠末三个月母体血浆的图650。覆盖至少一个CpG位点的所有序列读段的数据由蓝色曲线605和605'表示。还包含胎儿特异性SNP等位基因的读段的数据由红色曲线610和610'表示。还包含母体特异性SNP等位基因的读段的数据由绿色曲线615和615'表示。

包含胎儿特异性SNP等位基因的读段被认为已经从胎儿DNA分子获得的。包含母体特异性SNP等位基因的读段被认为已经从母体DNA分子获得的。通常，具有高甲基化密度的DNA分子的大小更长。这种趋势在妊娠头三个月和妊娠末三个月都存在于胎儿和母体DNA分子中。

B.不同胎龄时片段大小与甲基化水平的关系

图6A(妊娠头三个月)和6B(妊娠末三个月)示出了不同胎龄的甲基化密度与血浆DNA分子大小之间的关系。甲基化密度和/或血浆DNA分子的大小也可以与胎龄相关。

图7基于研究示出了胎龄、母体血浆DNA的甲基化水平和大小谱之间的相关性，其中妊娠头三个月样品、妊娠中三个月样品和妊娠末三个月样品分别以红色、绿色和蓝色点表示，横轴表示甲基化水平，并且纵轴表示胎源长片段(例如，≥150bp)的比例。

在此研究中，在妊娠头三个月(12到14周)、妊娠中三个月(20到23周)和妊娠末三个月(38到40周)的每一个中从10名孕妇获得外周血样品，并针对每种情况收获血浆和母体血沉棕黄层。胎儿样品也分别通过绒毛膜绒毛取样、羊膜穿刺术和胎盘取样获得，这取决于研究是针对妊娠头三个月、妊娠中三个月和妊娠末三个月。使用微阵列平台(HumanOmni2.5，Illumina)对母体血沉棕黄层和胎儿样品进行基因分型。信息式SNP基因座的数量的中位数为195,331(范围为146,428-202,800)，其中母亲是纯合的并且胎儿是杂合的。携带胎儿特异性等位基因的血浆DNA分子被鉴定为源自胎儿。这些样品中的中位胎儿DNA分数为17.1％(范围：7.0％到46.8％)。将全基因组双端亚硫酸氢盐测序应用于血浆DNA样品，并通过Methy-Pipe软件包进行分析，如在以下中所描述：例如，FMF Lun等人，《临床化学》，2013；59:1583-94以及P.Jiang等人，《公共科学图书馆：综合(PLoS One)》，2014；9:e100360。对于每种情况，获得大约0.52亿到1.86亿(中值为1.03亿)映射和非重复双端读段。对于妊娠头三个月母体血浆样品、妊娠中三个月母体血浆样品和妊娠末三个月母体血浆样品，胎儿特异性读段分别覆盖约36,115(在范围17,252到57,980内)、35,914(在范围22,815到68,624内)和134,671(在范围92,580到176,996内)个CpG位点。胎儿DNA的甲基化水平表达为每个样品的测序的胎儿特异性血浆DNA分子中被甲基化的CpG的比例。对于妊娠头三个月样品(710)、妊娠中三个月样品(720)和妊娠末三个月样品(730)，中位甲基化水平分别为约42.2％(范围为37.0％到45.7％)、46.8％(范围为43.6％到51.0％)、52.9％(范围为51.1％到55.6％)。据发现，胎儿DNA的甲基化水平随着胎龄的增加而增加，从妊娠头三个月到妊娠末三个月上升约25％(p值<0.0001，Mann-Whitney检验)。妊娠中三个月组的甲基化水平介于妊娠头三个月组与妊娠末三个月组的值之间。然而，对于从中位数为68.9％，范围为65.7％到71.4％的妊娠头三个月(未示出)到中位数为70.0％，范围为69.4％到71.3％的妊娠末三个月(未示出)的母源DNA的甲基化水平，没有统计上显著的变化(p值＝0.2,Mann–Whitney检验)。

母体血浆DNA的大小谱通过对齐的双端读段的每个端的最外侧核苷酸的坐标来确定，如上所述。如图5、图6A和图6B，图7示出了母体血浆中的无细胞DNA的大小与DNA甲基化水平正相关。量化每个血浆样品的长DNA片段的比例还显示，胎源长DNA片段(≥150bp)的比例也随着胎龄的增加而增加，如图7所示和如图2A和图2B所指示的。图7示出了对于妊娠头三个月血浆样品、妊娠中三个月血浆样品和妊娠末个月血浆样品，胎源长DNA片段的比例的中值分别为约45.6％(范围为38.3％到49.9％)、48.6％(范围为42.6％到57.7％)和54.0％(范围为49.2％到59.7％)。从妊娠头三个月(约45.6％)到妊娠末三个月(约54.0％)，胎源长DNA的比例的中位数增加约18％(p值<0.0001，Mann-Whitney检验)。另一方面，从妊娠头三个月(中位数为73.8％，并且范围为69.6％到75.7％)到妊娠末三个月(中位数为78％，并且范围为73.5％到79％)，母源长DNA的比例的中位数(未显示)仅增加约7％(p值＝0.001，Mann-Whitney检验)。妊娠末三个月的这种长胎儿DNA的在150bp到200bp的范围内浓缩。妊娠中三个月组的胎源长DNA的比例介于妊娠头三个月组与妊娠末三个月组的值之间。

还如图7所示的，单独或与胎源长DNA的比例组合的甲基化水平可以在来自三个胎龄组的样品之间产生合理的分离。因此，分子胎龄可以单独基于甲基化水平确定，或者与使用母体血浆DNA的胎源长DNA的比例组合确定。

虽然图7示出了关于妊娠头三个月、妊娠中三个月和妊娠末三个月的集群，但是本领域技术人员将理解，可以使用不同的时间分辨率对数据进行集群，如在妊娠期间按周、按两周或按月。

C.实例方法

图8是示出根据本发明的某些实施例的实例方法的流程图800，所述方法用于基于包含无细胞DNA分子的母体样品中的甲基化水平(和/或胎儿特异性长DNA片段的比例)确定胎儿的胎龄。

在框810处，可以分析从怀孕女性受试者收集的生物样品。生物样品很多是如血浆、血清、尿液、唾液、脑脊液、胸膜液、羊水、腹膜液或腹水样品等具有无细胞DNA分子的样品。每个无细胞DNA分子可以通过确定胎儿或女性受试者的基因组中的无细胞DNA分子的位置并确定无细胞DNA分子是否在一个或多个位点被甲基化来分析。例如，如上所述，大规模平行测序(MPS)可以用于甲基化谱分析。在一些实施例中，可以鉴定和分析胎儿DNA分子，而不是所有无细胞DNA分子。例如，可以通过分析来自孕妇的母体血浆样品并将检测到的等位基因与在仅母体样品中检测到的等位基因进行比较来鉴定胎儿特异性等位基因，并且胎儿特异性等位基因可以用于鉴定胎儿特异性无细胞DNA分子，并确定胎儿特异性长DNA片段的比例。

在框820处，对于一个或多个位点中的每一个，可以基于在方框810处进行的每个无细胞DNA分子的分析来确定在所述位点处被甲基化的无细胞DNA分子的相应数量。

在框830处，可以基于在框820处确定的一个或多个位点处被甲基化的无细胞DNA分子的相应数量来计算生物样品中无细胞DNA分子的所测量甲基化水平。在一些实施例中，样品中的胎儿DNA分子的甲基化水平可以基于样品中的无细胞DNA分子的总体甲基化水平和样品中的胎儿DNA分子的分数来确定，如上文参考图4A和图4B所述。样品中的无细胞DNA分子的甲基化水平可以基于在框820处确定的一个或多个位点处被甲基化的无细胞DNA分子的相应数量和样品中的无细胞DNA分子的总数来确定。可替代地，可以通过分析来自孕妇的母体血浆样品并将检测到的等位基因与在仅母体样品中检测到的等位基因进行比较来鉴定胎儿特异性等位基因，并且胎儿特异性等位基因可以用于鉴定母体血浆样品中的胎儿特异性无细胞DNA分子。可以使用上述各种技术分析鉴定的胎儿特异性无细胞DNA片段，以确定胎儿特异性DNA片段的甲基化水平。

在框840处，可以获得一个或多个校准数据点，其中所述一个或多个校准数据点使用已知胎龄且包含无细胞DNA分子的多个校准样品来确定。每个校准数据点指定与校准甲基化水平相对应的胎龄。多个校准样品可以包含例如，血浆、血清、尿液、唾液、脑脊髓液、胸膜液、羊水、腹膜液或腹水样品。例如，在一些实施例中，多个校准样品包含在妊娠的各个阶段期间来自孕妇的母体血浆样品。对于多个校准样品中的每个校准样品，可以基于如上所述在一个或多个位点处被甲基化的DNA分子的计数来确定无细胞DNA分子的甲基化水平。

在框850处，可以将生物样品的所测量甲基化水平与至少一个校准数据点的校准甲基化水平进行比较。例如，校准数据点的校准甲基化水平可以绘制在图表上并形成不同胎龄的集群，并且还可以在图表上绘制生物样品的所测量甲基化水平以确定确定生物样品的所测量甲基化水平所落入的集群。

在框860处，可以基于比较来估计胎儿的胎龄。例如，胎儿的胎龄可以被确定为与生物样品的所测量甲基化水平落入的集群相关联的胎龄。

在一些实施方式中，所估计胎龄可以与使用针对生物样品的另一种技术确定的胎龄进行比较，例如，基于末次月经期的日期(病历)或基于超声诊断确定的胎龄。当所估计胎龄与使用其它技术确定的胎龄不匹配时可以生成警报消息。然后，医务人员可以确定是否由管理错误(例如，病历中的错误)或病理原因引起不匹配。如果不匹配是由管理误差引起的，则可以采取纠正措施。如果不匹配可能由如妊娠相关疾病等病理原因，例如，先兆子痫、早产、宫内生长受限(IUGR)、胎儿染色体非整倍性等引起，则可以进行进一步的诊断。

在一些实施例中，另外或可替代地，可以测量或计算基于与各种大小相对应的无细胞DNA片段的计数的统计值，并将其用于用于单独或与甲基化水平组合确定生物样品的胎龄，如上文参考图7所述。如上所述，无细胞DNA片段的大小分布可以通过以下确定，例如，但不限于实时PCR、针对性富集、电泳和质谱分析。DNA片段的大小可以由以下表示：长度、分子质量或与长度或质量成比例的所测参数，如电泳图中的迁移率和在电泳或质谱仪中行进固定距离所需的时间。每个参考样品中不同大小的胎儿特异性或所有无细胞DNA片段的比例(或频率)可以绘制，例如，如图1、图2A和图2B所示。

在一些实施例中，统计值可以包含(胎儿特异性)无细胞DNA片段的比例，其大小大于例如，约150bp或其它合适的值，所述其它合适的值可以是大于150bp的胎儿特异性或所有无细胞DNA片段的累积频率。在一些实施例中，统计值可以包含胎儿特异性或所有无细胞DNA片段的比例，所述片段的大小不大于例如，约150bp或其它合适的值。可以使用校准样品测量或计算类似的统计值，以确定校准统计值。胎龄与统计值和/或甲基化水平之间的相关性可以存储在校准数据点中，并且可以用于通过将所测量统计值(和/或所测量甲基化水平)与校准统计值(和/或)校准甲基化水平进行比较来确定与样品相关的胎龄。

应当注意的是，虽然图8描述了作为顺序过程的方法，但是许多操作可以并行或同时执行。另外，可以重新布置操作的顺序。操作可能具有图中未包含的另外步骤。一些操作可以是任选的，并且因此在各种实施例中可以省略。一个框中描述的一些操作可以与另一个框中的操作一起执行。一些操作可以重复或反复执行。例如，来自生物样品的结果可以用于分析新的生物样品。此外，可以用硬件、软件、固件、中间件、微代码、硬件描述语言或其任何组合来实现方法的实施例。

V.结束位置分析

在体外剪切或超声处理的高分子量基因组组织DNA片段显示结束位置在基因组中随机分散的DNA分子。然而，对单个无细胞DNA分子，尤其是血浆DNA分子的实际结束位置或终点的研究表明，切割无细胞DNA分子的位置不是随机的。无细胞DNA片段化的过程可以精心安排到切割或分裂的特定核苷酸位置。在如血浆等样品中具有高代表性的无细胞DNA分子存在某些结束位置。此类结束位置的发生或呈现的数量在统计上显著高于仅偶然预期的。这些无-细胞DNA结束位置的非随机位置可以称为优选结束位置或优选末端。

在一些情况下，存在通常在各种生理状态或疾病状态的个体中存在的无细胞DNA结束位置(即，优选末端)。例如，优选末端大部分出现在孕妇身上。这些妊娠特异性末端在具有相当生理状态的其它个体中也具有高度代表性。例如，在一名孕妇的血浆中鉴定的优选末端也可以在其它孕妇的血浆中检测到。此外，来自孕妇的样品中具有此类优选末端的无细胞DNA片段的比例与孕妇血浆中的胎儿DNA分数相关。确定此类优选末端与妊娠或胎儿有关，因为其数量在分娩后的母体血浆样品中显著减少。

存在许多用于分析无细胞DNA优选末端的应用或实用程序。其可以提供有关妊娠中的胎儿DNA分数的信息，并从而提供胎儿的健康状况的信息。例如，据报道，相比匹配胎龄的对照妊娠，如先兆子痫、早产、宫内生长受限(IUGR)、胎儿染色体非整倍性等许多妊娠相关疾病与胎儿DNA的游离浓度，即胎儿DNA分数或胎儿分数的扰动有关。

A.结束位置的确定

通过比较具有不同生理状态下，例如，非妊娠样品对比妊娠样品时个体的优选末端的无细胞DNA谱，可以鉴定与特定生理状态或病理状态相关的优选末端的目录。另一种方式是在生理(例如，妊娠)过程的不同时间比较优选末端的无细胞DNA谱。此类时间点的实例包含怀孕前后。

在一些实施例中，可以使用与特定组织相关的基因标记鉴定优选的末端。例如，含有胎儿特异性SNP等位基因的无细胞DNA分子可以用于鉴定如母体血浆等样品中的胎儿特异性优选末端。类似地，含有母体特异性SNP等位基因的血浆DNA分子可以用于鉴定母体血浆中的母体特异性优选末端。

当优选末端在生理状态下具有被检测到的高可能性或概率时，可以认为优选末端与所述生理状态相关。在一些实施例中，优选末端在相关生理状态下比在其它状态下具有更可能被检测到的某种概率。因为在相关生理状态下检测到优选末端的概率较高，所以可以在具有同一生理状态的多于一个的个体中看到这种优选或周期末端(或结束位置)。高概率还可以使这种优选或周期末端在同一无细胞DNA样品或同一个体的等分试样中可被多次检测到。在一些实施例中，可以将定量阈值设定为仅包含在同一样品或同一样品等分试样中在优选末端中被检测到至少指定次数(例如，5次、10次、15次、20次等)的末端。

在针对任何生理或病理状态建立无细胞DNA优选末端的目录后，可以使用靶向或非靶向方法检测其在等其它个体的无细胞DNA样品，如血浆中的存在，以确定其它个体的分类。例如，可以通过随机非靶向测序检测无细胞DNA优选末端。需要考虑测序深度，以便可以实现识别相关优选末端的全部或部分的合理概率。可替代地，可以对无细胞DNA样品进行具有高密度优选末端的基因座的杂交捕获，以使用具有此类优选末端的无细胞DNA分子中富集样品，随后进行例如，但不限于测序检测、微阵列或PCR。如反向PCR或滚环扩增等基于扩增的方式也可以用于特异性扩增和富集具有优选末端的无细胞DNA分子。扩增产物可以通过测序、微阵列、荧光探针、凝胶电泳或本领域技术人员已知的其它标准方法鉴定。

B.实例结果

在母体和胎儿基因组中可能存在在血浆DNA的产生过程中优先被切割的位点。通过分析来自孕妇的血浆DNA，可以获得胎儿特异性无细胞DNA片段的优选结束位置。胎源和母源血浆DNA片段可以通过基于多态性的方法进行区分。此外，携带胎儿和母体特异性等位基因的片段(一个或多个信息式SNP)可以用于确定胎源和母源DNA的优选结束位置。

图9A示出了根据本发明的某些实施例的携带胎儿特异性等位基因和母亲和胎儿共有的等位基因的血浆DNA的非随机片段化模式的说明性实例。图9B示出了根据本发明的某些实施例的从血细胞获得并使用超声作为对照进行人工碎裂的DNA样品的测序结果。在图9A和图9B的上部，每条水平线表示一个测序的DNA片段。DNA片段的末端表示测序的DNA片段的结束位置。根据最左外侧核苷酸(最小基因组坐标)的坐标对片段进行分类。在图9A和图9B的下部，示出了在特定位置上结束的DNA片段的百分比。图9A和图9B的下部的水平轴线表示基因组坐标，并且信息SNP位于由虚线所指示的中心。

如图9A所示，在血浆DNA中观察到非随机片段化结束模式。在片段结束在特定核苷酸位置的概率图中，对于携带胎儿特异性等位基因和母体和胎儿共有的等位基因的两组片段中的每一个，观察到三个峰值。这些峰值分别表示母体血浆中的胎源和母源DNA末端位置的热点。峰值的位置在胎源DNA片段和母源DNA片段之间大部分重叠。相比之下，来自图9B中所示的血细胞的超声处理DNA的片段化模式似乎是随机的，并且片段在核苷酸位置上结束的概率在整个区域是相似的。

可以计算p值以基于泊松概率函数确定特定位置是否具有显著增加的携带共享等位基因或胎儿特异性等位基因的读段的结束概率：

p值＝泊松(N_实际，N_预测)，

其中泊松()是泊松概率函数，N_实际是在特定核苷酸处结束的实际读段数，N_预测是读段的总数除以无细胞DNA大小的模式值(例如，166bp)。P值<0.01用作截止值以定义携带胎儿特异性等位基因或共有等位基因的读段的优选结束位置。对于携带共有等位基因和胎儿特异性等位基因的DNA片段，独立地确定统计学上显著的结束位置。可以使用其它概率分布，例如，二项分布、负二项分布和正态分布。

图10示出了根据本发明的某些实施例的基因组坐标是具有信息式SNP的区域中的母体血浆DNA片段的结束位置的概率的图1000。在图10的顶部和底部分别示出了具有显著增加的携带共有等位基因和胎儿特异性等位基因的血浆DNA片段末端的可能性的核苷酸位置的结果。横轴表示基因组坐标，并且突变(信息式SNP)位于由虚线1010所指示的中心。如所示出的，对于仅携带胎儿特异性等位基因的片段，对于仅携带共有等位基因的片段或携带两者的片段，存在在结束位置具有高发生率的坐标。

C.结束模式与胎龄之间的关系

如上所述，已经证明血浆DNA的片段化结束模式遵循非随机分布(Lo YM等人，《科学转化医学》，2010:61ra91；Snyder MW等人，《细胞》，2016；164:57-68；Straver R等人，《产前诊断》，2016；36:614-21；Maxim I等人，《BMC基因组学》，2015；16:S1)。母体血浆DNA的片段化结束模式也可能与胎龄相关。因此，母体血浆中的DNA结束模式也可以提供妊娠胎龄的估计，如下面的研究结果所示。

在所述研究中，血浆DNA样品分别来自妊娠头三个月的57名和妊娠末三个月的11名怀有男性胎儿的女性。对每个血浆DNA样品进行大规模平行双端测序(例如，使用Illumina HiSeq2500)。为实现高深度测序覆盖率，将妊娠头三个月和妊娠末三个月测序结果分别汇集为三个代表性的妊娠头三个月库(平均测序深度为93X)和三个代表性的妊娠末三个月库(平均测序深度为21X)。一名怀有男性胎儿的妊娠末三个月孕妇进行了测序而没有汇集到约270X的单倍体基因组覆盖率。来自此样品的数据用于定义Y染色体上将存在于母体血浆中的最普遍的0.5％末端位点。这些末端形成参考数据集。然后测定恢复母体血浆DNA库中任何这些最普遍的0.5％血浆DNA末端位点(即参考数据集)的频率。通常，每个库研究约50K最普遍的末端位点。恢复的末端用于执行主成分分析。也可以使用其它分类技术，包含但不限于线性判别分析、逻辑回归、机器学习算法、支持向量机、人工神经网络、k均值聚类、K最近邻和随机决策森林。应注意的是，尽管在研究中使用Y染色体，但是可以使用其它染色体，只要染色体包含胎儿特异性等位基因。

图11示出了根据本发明的某些实施例的与不同胎龄对应的样品中的血浆DNA结束位置的主成分分析的实例结果。基于血浆DNA分子在每个末端位点上结束的频率排列的最普遍0.5％(约50K)血浆DNA末端位点的归一化末端频率用于进行主成分分析。在图11中，横轴表示第一主成分，其中每个样品的主成分的值是通过将血浆DNA分子在50K最普遍末端位点中的每个末端位点上结束的频率乘以第一50K维向量得到的，所述向量可以在相乘(频率的线性变换)之后提供最高的方差。

主成分分析的结果表明，在使用第一向量进行这种线性变换之后，可以捕获47.8％的原始方差。纵轴表示第二主成分，其中每个样品的第二主成分的值是通过将血浆DNA分子在50K最普遍末端位点中的每个末端位点上结束的频率乘以第二50K维向量得到的，其中第二向量与第一向量不相关，并且在使用第二向量进行线性变换之后可以实现第二高的方差。分析结果表明，使用第二向量，在线性变换后可以捕获约19.6％的原始方差。如图11所示，妊娠头三个月和妊娠末三个月样品形成两个不同的集群：用于妊娠头三个月样品的集群1110和用于妊娠末三个月样品的集群1120。这些数据表明血浆DNA末端模式可用于预测胎龄。

应注意的是，虽然图11仅示出了关于妊娠头三个月和妊娠末三个月的集群，但是本领域技术人员将理解，可以使用不同的时间分辨率对数据进行聚类，如在妊娠期间按周、按两周或按月。此外，可以使用两个以上的主用于主成分分析。另外，在各种实施例中，可以使用更多或更少的最普遍末端位点，如1％或更多的末端位点或0.25％或更少的末端位点。在各种实施例中，最普遍的末端位点可以使用如妊娠头三个月、妊娠中三个月和/或妊娠末三个月等一个或多个不同妊娠阶段的样品来确定。

D.实例方法

在框1210中，可以分析来自生物样品的无细胞DNA分子，其中可以通过确定参参考基因组中与无细胞DNA分子的至少一个末端对应的基因组位置来分析每个无细胞DNA分子。生物样品可以包含来自女性受试者和胎儿的无细胞DNA分子。生物样品可以是例如，血浆、血清、尿液、唾液、脑脊髓液、胸膜液、羊水、腹膜液或腹水样品。例如，在一些实施例中，生物样品可以包含来自孕妇的母体血浆样品。如上所述，可以使用靶向或非靶向方法确定无细胞DNA分子的结束位置。在一些实施例中，可以鉴定和分析胎儿DNA分子，而不是所有无细胞DNA分子。例如，可以通过分析来自孕妇的母体血浆样品并将检测到的等位基因与在仅母体样品中检测到的等位基因进行比较来鉴定胎儿特异性等位基因，并且胎儿特异性等位基因可以用于鉴定母体血浆样品中的胎儿特异性无细胞DNA分子(即，胎儿DNA分子)。

在框1220中，可以测量样品向量。样品向量的每个值与无细胞DNA分子在一组位点中的相应位点上结束的频率相对应。所述一组位点可以包含基于一个或多个第一校准样品中在各个位点上结束的无细胞DNA分子的数量确定的最普遍的位点(例如，所有结束位点的前0.5％)。无细胞DNA分子在相应位点上结束的频率可以基于细胞DNA分子的总数和在相应位点上结束的无细胞DNA分子的计数来确定。在一些实施例中，可以使用大小或甲基化来富集样品中的胎儿DNA分子，并使用富集样品中的无细胞DNA分子分析胎儿DNA分子的末端位点。

在框1230中，可以从具有已知胎龄的一个或多个第二校准样品确定多个代表性向量，其中每个代表性向量与胎龄对应并且包含无细胞DNA分子在所述一组位点上结束的代表性频率。第二校准样品可以包含来自如妊娠头三个月、妊娠中三个月和妊娠末三个月等不同妊娠阶段的多个孕妇的样品。在一些实例中，代表性向量可以从第二校准样品测量，如上文关于样品向量所描述的。在一些实例中，代表性向量可以是从具有特定胎龄的两个或更多个校准样品测量的向量集群的质心，其中可以使用从具有特定胎龄的两个或更多个校准样品测量的向量的平均值来确定质心。在一些实例中，可以使用主成分分析来确定代表性向量，其可以提供与协方差矩阵的最大特征值相关联的特征向量。

在框1240中，可以将样品向量与多个代表性向量进行比较，以确定哪个代表性向量最接近样品向量。例如，可以计算样品向量和每个代表性向量之间的欧几里德距离，并且与样品向量具有最短欧几里德距离的代表性向量可以是最接近的代表性向量。在其它实例中，可以使用如关于图11所述的二维或更多维主成分分析来分析样品向量和多个代表性向量以找到最接近样品向量的代表性向量。

在框1250中，可以基于与最接近的代表性向量相关联的胎龄来确定与生物样品相关联的胎龄。在一些实施例中，所确定的胎龄可以与使用针对生物样品的另一种技术确定的胎龄进行比较，例如，基于末次月经期的日期(病历)或基于超声诊断确定的胎龄。当所确定的胎龄与使用其它技术确定的胎龄不匹配时可以生成警报消息。然后，医务人员可以确定是否由管理错误(例如，病历中的错误)或病理原因引起不匹配。如果不匹配是由管理误差引起的，则可以采取纠正措施。如果不匹配可能由如妊娠相关疾病等病理原因，如先兆子痫、早产、宫内生长受限、胎儿染色体非整倍性等引起，则可以进行进一步的诊断。

应当注意的是，虽然图12描述了作为顺序过程的方法，但是许多操作可以并行或同时执行。另外，可以重新布置操作的顺序。操作可能具有图中未包含的另外步骤。一些操作可以是任选的，并且因此在各种实施例中可以省略。一个框中描述的一些操作可以与另一个框中的操作一起执行。一些操作可以重复或反复执行。例如，来自生物样品的结果也可以用于分析新的生物样品。此外，可以用硬件、软件、固件、中间件、微代码、硬件描述语言或其任何组合来实现方法的实施例。

另外，在各种实施例中，图12中所描述的方法可以单独使用或与如图8中所描述的方法等其它方法组合使用，以更准确并且更可靠地确定胎儿的胎龄。

VI.实例应用和处理

对照使用其它方法确定的胎龄，如基于末次月经期的日期(基于病历的胎龄)或基于超声波诊断确定的胎龄，使用本文公开的技术确定的胎龄可以被称为生物(或分子)胎龄。可以将生物胎龄与使用其它方法确定的胎龄，如基于病历的胎龄进行比较，以用于例如，交叉验证。

比较结果可以用于各种应用中。例如，如果生物胎龄与基于病历的胎龄相匹配，则这可以确认所确定的胎龄是正确的并且胎儿正如预期的那样发育。另一方面，如果两者不匹配，则可能生成警报。在一些情况下，警报可以提醒管理人员检查不匹配是否是由关于病历的管理错误引起的。

如果确定没有出现管理错误，则可能由于病理原因而导致不匹配。在一些情况下，生物胎龄可能比基于末次月经期的胎龄更早，这可能有助于避免在妊娠的后期错误地将分娩开始解释为早产。真正的早产可能需要皮质类固醇治疗来改善胎儿肺成熟。因此，避免误解释为早产可以避免不必要的皮质类固醇治疗。另一方面，如果在42个月的真实生物胎龄期间没有分娩迹象，则可能需要施用子宫兴奋剂(例如催产素)。相反，如果通过本文公开的分子方法估计的生物胎龄龄小于基于末次月经期确定的胎龄，则可能需要保持警惕，何时分娩会被视为可以进行皮质类固醇治疗的早产，或者可能不需要将妊娠错误标记为42周后没有分娩迹象并且需要子宫兴奋剂。在一些情况下，生物胎龄可能比使用超声估计的胎龄早。这可能表明胎儿宫内发育迟缓。这种观察结果可能引发更加强的产前治疗方案，如更常规的超声评估、或评估并监测先兆子痫和早产。如果认为先兆子痫的风险很高，可以给予患者阿司匹林治疗以降低先兆子痫的风险。另一方面，如果生物胎龄比使用超声估计的胎龄晚，则可以诊断胎儿为巨大症，这可能需要更早地进行引产。因此，生物胎龄可以用于监测妊娠进展并确定生物妊娠进展是否比正常更快或更慢。另外，生物胎龄可能受某些疾病的影响。因此，生物胎龄与通过其它方法确定的胎龄之间的不匹配可以指示胎儿的潜在疾病，例如，如先兆子痫、早产、IUGR、胎儿染色体非整倍性等妊娠相关疾病。

一旦检测到胎儿具有一种或多种潜在疾病，可以给母亲给药化合物以治疗潜在的疾病。用于治疗的治疗剂可以掺入组合物中，在一些实施例中，其适用于药物用途。此类组合物可以包括肽或多肽和可接受的载剂，例如药学上可接受的载剂。“药学上可接受的载剂”包含与药物给予相容的任何和所有溶剂、分散介质、包衣、抗细菌剂和抗真菌剂、等渗剂以及吸收延迟剂等。此类载剂或稀释剂的实例包含但不限于：水、盐水、林格氏溶液、右旋糖溶液和5％人血清白蛋白。也可以使用脂质体和如固定油等非水性载体。除非常规介质或试剂与活性化合物不相容，否则考虑使用这些组合物。补充的活性化合物也可以掺入这些组合物中。治疗剂(和任何其它治疗用治疗剂)可以通过任何合适的方式给药，包括胃肠外、肺内、鞘内和鼻内，并且如果期望局部治疗，使用病灶内给药。胃肠外输注包含例如，肌肉内、静脉内、动脉内、腹膜内、或皮下给药。给药可以通过任何合适的途径，例如，通过注射，如静脉内或皮下注射，部分取决于给药是短暂性的还是慢性的。本文考虑了各种给药方案，包含但不限于在各种时间点上的单次或多次给药、推注给药和脉冲输注。

治疗剂的给药途径可以是口服、腹膜内、经皮、皮下、静脉内或肌内注射、吸入、局部、病灶内、输注、脂质体介导的给药、局部、鞘内、龈袋、直肠、支气管内、鼻腔、经粘膜、肠、眼或耳给药或本领域已知的任何其它方法。在一些实施例中，治疗剂经口服、静脉内或腹膜内给药。在一些实施例中，治疗剂以治疗有效量或剂量施用。日剂量范围可以为约0.01mg/kg到约500mg/kg、或约0.1mg/kg到约200mg/kg、或约1mg/kg到约100mg/kg或约10mg/kg到约50mg/kg。然而，剂量可以根据若干因素而变化，包含所选择的给药途径、组合物的制剂、患者反应、病症的严重程度，受试者的体重和处方医师的判断。根据个体患者的要求，剂量可以随时间增加或减少。在一些情况下，最初给予患者低剂量，然后将其增加到患者可耐受的有效剂量。有效量的确定在本领域的技术人员的能力范围之内。

在一些实施例中，治疗剂在延长的时间段内，例如，至少30、40、50、60、70、80、90、100、150、200、250、300、350天或更长时间施用于受试者。

VII.实例系统

图13示出了根据本发明的实施例的系统1300。所示系统包含样品1305，如样品固持器1310内的无细胞DNA分子，其中样品1305可以与测试剂1308接触以提供物理特征信号1315。样品固持器的实例可以是流动池，其包含测定仪的探针和/或引物或液滴通过其移动的管(液滴包含测试剂)。如荧光强度值等来自样品的物理特征1315由检测器1320检测。检测器可以间隔地(例如，周期性间隔)进行测量以获得构成数据信号的数据点。在一个实施例中，模数转换器多次将来自检测器的模拟信号转换为数字形式。数据信号1325从检测器1320发送到逻辑系统1330。数据信号1325可以存储在本地存储器1335、外部存储器1340或存储装置1345中。

逻辑系统1330可以是或可以包含计算机系统、ASIC、微处理器等。其还可以包含显示器(例如，监视器、LED显示器等)和用户输入装置(例如，鼠标、键盘、按钮等)或与之耦合。逻辑系统1330和其它组件可以是独立或网络连接的计算机系统的一部分，或者其可以直接附接或结合在热循环仪装置中。逻辑系统1330还可以包含在处理器1350中执行的优化软件。逻辑系统1330可以包含存储用于控制系统1300仪执行本文描述的任何方法的指令的计算机可读媒体。

本文提到的任何计算机系统可以使用任何合适数量的子系统。此类子系统的实例如图14所示在计算机系统10中。在一些实施例中，计算机系统包含单个计算机设备，其中子系统可以是计算机设备的组件。在其它实施例中，计算机系统可以包含具有内部组件的多个计算机设备，每个计算机设备是子系统。计算机系统可以包含台式计算机和膝上型计算机、平板计算机、移动电话和其它移动装置。

图14中所示的子系统通过系统总线75互连。示出了另外的子系统，如打印机74、键盘78、一个或多个存储装置79、耦合到显示适配器82的监视器76等。耦合到I/O控制器71的外围装置和输入/输出(I/O)装置可以通过本领域已知的任何数量的连接，如输入/输出(I/O)端口77(例如，USB、)连接到计算机系统。例如，I/O端口77或外部接口81(例如，以太网、Wi-Fi等)可以用于将计算机系统10连接到如因特网等广域网、鼠标输入装置或扫描仪。通过系统总线75的互连允许中央处理器73与每个子系统通信并且控制来自系统存储器72或一个或多个存储装置79(例如，如硬盘驱动器或光盘等固定磁盘)的多个指令的执行以及子系统之间的信息交换。系统存储器72和/或一个或多个存储装置79可以体现为计算机可读媒体。另一个子系统是如相机、麦克风、加速计等数据收集装置85。本文提及的任何一种数据可以从一个组件输出到另一个组件，并且可以输出给用户。

计算机系统可以包含多个例如，通过外部接口81或通过内部接口连接在一起的相同的组件或子系统。在一些实施例中，计算机系统、子系统或设备可以通过网络进行通信。在此类情况下，一台计算机可以被认为是客户机，而另一台计算机可以被认为是服务器，其中每台计算机可以是同一计算机系统的一部分。客户机和服务器可以各自包含多个系统、子系统或组件。

实施例的各个方面可以使用硬件(例如，特定于应用的集成电路或现场可编程门阵列)以控制逻辑的形式实施，和/或以模块化或集成方式使用具有一般可编程处理器的计算机软件实施。如本文所使用的，处理器包含单核处理器、在同一集成芯片上的多核处理，或者在单个电路板上或联网的多个处理单元。基于本文提供的公开内容和教导，本领域普通技术人员将了解并且意识到使用硬件以及硬件和软件的组合来实现本发明的实施例的其它方式和/或方法。

本申请中描述的任何软件组件或功能可以实施为由处理器使用任何合适的计算机语言，例如，Java、C、C++、C#、Objective-C、Swift或如Perl或Python等脚本语言使用例如，常规或面向对象的技术执行的软件代码。软件代码可以存储为计算机可读媒体上用于存储和/或传输的一系列指令或命令。合适的非暂时性计算机可读媒体可以包含随机存取存储器(RAM)、只读存储器(ROM)、如硬盘驱动器或软盘等磁媒体或如光盘(CD)或DVD(数字通用光盘)等光学媒体、闪存等。计算机可读媒体可以是此类存储或传输装置的任何组合。

也可以使用适于经由符合各种协议的有线、光学和/或无线网络，包含因特网来传输的载波信号来编码和传输此类程序。因此，计算机可读媒体可以使用以此类程序编码的数据信号产生。用程序代码编码的计算机可读媒体可以与兼容装置一起打包或者与其它装置分开提供(例如，通过因特网下载)。任何此类计算机可读媒体可以驻留在单个计算机产品(例如，硬盘驱动器、CD或整个计算机系统)上或内，并且可以存在于系统或网络内的不同计算机产品之上或之内。计算机系统可以包含监视器、打印机或其它合适的显示器，用于向用户提供本文提到的任何结果。

本文描述的任何方法可以用包含一个或多个处理器的计算机系统完全或部分地执行，所述计算机系统可以被配置成执行这些步骤。因此，实施例可以针对被配置成执行本文描述的任何方法的步骤的计算机系统，所述计算机系统可能具有执行相应步骤或相应步骤组的不同组件。尽管以编号的步骤呈现，但是本文的方法步骤可以同时或以不同的顺序执行。另外，这些步骤的一部分可以与来自其它方法的其它步骤的一部分一起使用。而且，步骤的全部或部分可以是任选的。另外，任何方法的任何步骤都可以用模块、单元、电路或用于执行这些步骤的其它装置来执行。

在不脱离本发明实施例的精神和范围的情况下，可以以任何合适的方式组合特定实施例的具体细节。然而，本发明的其它实施例可以针对涉及每个单独方面的特定实施例，或这些单独方面的特定组合。

已经出于说明和描述的目的呈现了本发明的实例实施例的以上描述。其并非旨在穷举或将本发明限制于所描述的精确形式，并且鉴于上述教导，许多修改和变化是可能的。

除非特别指出相反的情况，否则对“一个(a/an)”或“所述”的引用旨在表示“一个或多个”。除非特别指出相反的情况，否则“或”的使用旨在表示“包含性的”，而非“排他性的”。对“第一”组件的引用不一定要求提供第二组件。此外，除非明确说明，否则对“第一”或“第二”组件的引用并不将所引用的组件限制到特定位置。

出于所有目的，本文提及的所有专利、专利申请、出版物和描述均通过引用整体并入。没有一项被承认为是现有技术。

Claims

1.一种分析来自怀有胎儿的女性受试者的生物样品的方法，所述生物样品包含来自所述女性受试者和所述胎儿的无细胞DNA分子，所述方法包括：

分析来自所述生物样品的所述无细胞DNA分子，其中分析所述无细胞DNA分子包含：

确定所述无细胞DNA分子在所述胎儿或所述女性受试者的基因组中的位置；以及

确定所述无细胞DNA分子是否在一个或多个位点处被甲基化；

针对所述一个或多个位点中的每一个：

确定在所述位点处被甲基化的无细胞DNA分子的相应数量；

基于在所述一个或多个位点处被甲基化的无细胞DNA分子的所述相应数量计算所述生物样品中的无细胞DNA分子的所测量甲基化水平；

获得一个或多个校准数据点，其中每个校准数据点指定与校准甲基化水平相对应的胎龄，并且其中所述一个或多个校准数据点是从具有已知胎龄且包含无细胞DNA分子的多个校准样品中确定的；

将所述所测量甲基化水平与至少一个校准数据点的校准甲基化水平进行比较；以及

基于所述比较估计所述胎儿的胎龄。

2.根据权利要求1所述的方法，其中所述一个或多个校准数据点是通过以下确定的：

针对所述多个校准样品中的每个校准样品：

基于在所述一个或多个位点处被甲基化的无细胞DNA分子的数量确定校准甲基化水平；以及

基于所述已知胎龄和所述多个校准样品的所述校准甲基化水平确定所述一个或多个校准数据点。

3.根据权利要求1所述的方法，其进一步包括：

在所估计胎龄与使用另一种技术确定的胎龄不匹配时生成警报消息。

4.根据权利要求3所述的方法，其中所述另一种技术包含基于超声的方法或基于末次月经期的方法。

5.根据权利要求1所述的方法，其进一步包括：

从所述生物样品中鉴定多个胎儿DNA分子，每个胎儿DNA分子具有胎儿特异性等位基因，

其中分析来自所述生物样品的所述无细胞DNA分子包含仅分析所述多个胎儿DNA分子。

6.根据权利要求1所述的方法，其中计算所述生物样品中的无细胞DNA分子的所测量甲基化水平基于所述生物样品中的胎儿DNA分子的分数。

7.根据权利要求1所述的方法，其进一步包括：

基于所述生物样品中与各种大小相对应的无细胞DNA分子的计数确定所测量统计值，其中所述一个或多个校准数据点中的每个校准数据点指定与(1)所述校准甲基化水平和(2)使用所述多个校准样品确定的校准统计值相对应的所述胎龄，

其中将所述所测量甲基化水平与至少一个校准数据点的所述校准甲基化水平进行比较包括：将所述所测量甲基化水平和所述所测量统计值与至少一个校准数据点的校准甲基化水平和校准统计值进行比较。

8.根据权利要求7所述的方法，其中所述所测量统计值包含大小大于或小于所述生物样品中的碱基对的阈值数量的无细胞DNA分子的比例。

9.根据权利要求1所述的方法，其中所述所测量甲基水平是通过以下确定的：

其中M是在一个或多个CpG位点处被甲基化的无细胞DNA分子的计数，并且U是在所述一个或多个CpG位点处未被甲基化的无细胞DNA分子的计数。

10.根据权利要求1所述的方法，其中所述多个校准样品包含来自各个妊娠阶段的怀孕女性受试者的母体血浆样品。

11.一种计算机产品，其包括计算机可读媒体，所述计算机可读媒体存储用于控制计算机系统执行权利要求1-10中任一项所述的方法的多个指令。

12.一种系统，其包括；

根据权利要求11所述的计算机产品；以及

一个或多个处理器，其用于执行存储在计算机可读媒体上的指令。