CN116004786A

CN116004786A - 使用孕妇体内的长游离片段进行的分子分析

Info

Publication number: CN116004786A
Application number: CN202310049803.5A
Authority: CN
Inventors: 卢煜明; 赵慧君; 陈君赐; 江培勇; 郑淑恒; 余烁妍; 张尔庭; 彭文磊
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2020-02-05
Filing date: 2021-02-05
Publication date: 2023-04-25
Also published as: JP2024045112A; JP2023123759A; IL294431B1; GB2605736B; JP7311934B2; US11371084B2; GB2614994B; IL294431A; AU2023204613B2; AU2023204613A1; GB202305176D0; JP7416501B2; EP4069864A4; IL298811B2; MX2022009820A; AU2021216616A1; TWI835367B; BR112022015073A2; TW202424206A; GB202313363D0

Abstract

本文所描述的方法和系统涉及使用长游离DNA片段分析来自怀孕个体的生物样本。常常使用甲基化CpG位点和单核苷酸多型性(SNP)的状态分析生物样本的DNA片段。CpG位点和SNP通常与最近的CpG位点或SNP间隔数百个或数千个碱基对。在大部分游离DNA片段上找到两个或更多个连续CpG位点或SNP是不大可能或不可能的。长于600bp的游离DNA片段可包含多个CpG位点和/或SNP。与单独短游离DNA片段相比，在长游离DNA片段上存在多个CpG位点和/或SNP可允许进行分析。长游离DNA片段可用于识别起源组织和/或用于提供关于怀孕女性体内胎儿的信息。

Description

使用孕妇体内的长游离片段进行的分子分析

本申请是基于中国专利申请第202180013180.5号的分案申请。

相关申请的交叉引用

本申请要求2020年2月5日提交的美国临时申请第62/970,634号和2021年1月8日提交的美国临时申请第63/135,486号的优先权，所述两案的全部内容出于所有目的并入本文中。

背景技术

已报告孕妇体内的循环游离DNA的模态尺寸为约166bp(Lo等人《科学转化医学(Sci Transl Med.)》2010；2:61ra91)。存在极少关于大于600bp的片段的公布数据。一个实例为报告使用PCR进行的来自母体血浆的Y染色体的碱性蛋白Y2基因(BPY2)的8kb片段扩增的Amicucci等人的作品(Amicucci等人《临床化学(Clin Chem)》2000；40:301-2)。尚不知晓所述数据是否可在整个基因组中通用。实际上，使用大规模平行短读段测序技术，例如使用Illumina平台检测例如大于600bp的所述长DNA片段存在许多挑战(Lo等人《科学转化医学》2010；2:61ra91；Fan等人,《临床化学》2010；56:1278-86)。这些挑战包含：(1)Illumina测序平台的推荐尺寸范围跨度通常为100-300bp(De Maio等人《微生物基因组学(MicobGenom.)》2019；5(9))；(2)DNA扩增应参与在流量槽上的测序文库制备(经由PCR)或测序集群生成(经由桥式扩增)。此类扩增过程可促进扩增较短DNA片段，此部分归因于以下事实：长DNA模板(例如>600bp)应需要相较于短DNA模板(例如<200bp)而言相对长的时间来完成子股合成。因此，在于Illumina平台上测序之前或期间的这些PCR过程的固定时间框内，子股未能在PCR过程期间完全生成的那些长DNA分子将在下游分析中不可用；(3)长DNA分子将具有更大概率形成妨碍扩增的二级结构；(4)使用Illumina测序技术，长DNA分子将相较于短DNA分子而言更可能产生含有超过一个克隆DNA分子的集群，这是因为文库被变性、稀释且扩散在二维表面上，接着进行桥式扩增(Head等人《生物技术(Biotechniques.)》2014；56:61-4)。

发明内容

本文所描述的方法和系统涉及使用长游离DNA片段分析生物样本。使用这些长游离DNA片段允许进行未考虑的分析或用较短游离DNA片段不可能进行的分析。常常使用甲基化CpG位点和单核苷酸多型性(SNP)的状态分析生物样本的DNA片段。CpG位点和SNP通常与最近的CpG位点或SNP间隔数百个或数千个碱基对。生物样本中的大部分游离DNA片段的长度通常小于200bp。因此，在大部分游离DNA片段上找到两个或更多个连续CpG位点或SNP是不大可能或不可能的。包含长于600bp或1kb的游离DNA片段的长于200bp的游离DNA片段可包含多个CpG位点和/或SNP。与单独短游离DNA片段相比，在长游离DNA片段上存在多个CpG位点和/或SNP可允许进行更高效和/或更准确的分析。长游离DNA片段可用于识别起源组织且/或用于提供关于怀孕女性体内胎儿的信息。另外，使用长游离DNA片段准确地分析来自孕妇的样本是出乎意料的，这是因为我们预期所述长游离DNA片段主要是母体起源。我们不预期胎儿起源的长游离DNA片段以足以提供关于胎儿的信息的量存在。

存在有SNP的长游离DNA片段可用于确定胎儿遗传的单倍型。长游离DNA片段通过具有多个CpG位点而可具有指示起源组织的甲基化模式。另外，三核苷酸重复序列和其它重复序列可存在于长游离DNA片段上。这些重复序列可用于确定胎儿的遗传病症的可能性或胎儿亲缘。长游离DNA片段的量可用于确定胎龄。类似地，在长游离DNA片段的末端处的基序也可用于确定胎龄。长游离DNA片段(包含例如所述片段的量、长度分布、基因组位置、甲基化状态等)可用于确定怀孕相关病症。

本公开的这些和其它实施例详细描述于下文中。举例来说，其它实施例涉及与本文所描述的方法相关的系统、装置和计算机可读媒体。

可参考以下具体实施方式和附图来获得对本公开的实施例的性质和优点的更好理解。

作为非限制性实例，本申请提供了以下实施方案：

实施方案1.一种分析获自怀有胎儿的女性的生物样本的方法，所述女性在第一染色体区中具有第一单倍型和第二单倍型，所述生物样本包含来自所述胎儿和所述女性的多个游离DNA分子，所述方法包括：

接收对应于所述多个游离DNA分子的读段；

测量所述多个游离DNA分子的尺寸；

识别来自所述多个游离DNA分子的第一组游离DNA分子为具有大于或等于截止值的尺寸；

由对应于所述第一组游离DNA分子的读段确定所述第一单倍型的序列和所述第二单倍型的序列；

将来自所述多个游离DNA分子的第二组游离DNA分子与所述第一单倍型的所述序列进行比对，所述第二组游离DNA分子具有小于所述截止值的尺寸；

将来自所述多个游离DNA分子的第三组游离DNA分子与所述第二单倍型的所述序列进行比对，所述第三组游离DNA分子具有小于所述截止值的尺寸；

使用所述第二组游离DNA分子测量参数的第一值；

使用所述第三组游离DNA分子测量所述参数的第二值；

比较所述第一值与所述第二值；和

基于所述第一值与所述第二值的所述比较确定所述胎儿遗传所述第一单倍型的可能性。

实施方案2.根据实施方案1所述的方法，其中所述截止值为600nt。

实施方案3.根据实施方案1所述的方法，其中所述截止值为1knt。

实施方案4.根据实施方案1至3中任一项所述的方法，其中由对应于所述第一组游离DNA分子的所述读段确定所述第一单倍型的所述序列和所述第二单倍型的所述序列包括：

将对应于所述第一组游离DNA分子的读段与参考基因组进行比对。

实施方案5.根据实施方案1所述的方法，其中由对应于所述第一组游离DNA分子的所述读段确定所述第一单倍型的所述序列和所述第二单倍型的所述序列包括：

将所述读段的第一子组与所述读段的第二子组进行比对以识别所述读段中的基因座处的不同等位基因，

确定所述读段的所述第一子组在所述基因座处具有第一等位基因，

确定所述读段的所述第二子组在所述基因座处具有第二等位基因，

确定所述读段的所述第一子组对应于所述第一单倍型，和

确定所述读段的所述第二子组对应于所述第二单倍型。

实施方案6.根据实施方案1至5中任一项所述的方法，其中所述参数为游离DNA分子计数、游离DNA分子尺寸概况或游离DNA分子甲基化程度。

实施方案7.根据实施方案6所述的方法，其中：

所述参数为所述游离DNA分子计数，且

所述方法进一步包括：

当所述第一值大于所述第二值时，确定所述胎儿遗传所述第一单倍型的可能性高于遗传所述第二单倍型的可能性。

实施方案8.根据实施方案6所述的方法，其中：

所述参数为所述游离DNA分子尺寸概况，且

所述方法进一步包括：

当所述第一值小于所述第二值时，确定所述胎儿遗传所述第一单倍型的可能性高于遗传所述第二单倍型的可能性，指示所述第二组游离DNA分子的特征在于小于所述第三组游离DNA分子的尺寸概况。

实施方案9.根据实施方案6所述的方法，其中：

所述参数为所述游离DNA分子甲基化程度，且

所述方法进一步包括：

当所述第一值小于所述第二值时，确定所述胎儿遗传所述第一单倍型的可能性高于遗传所述第二单倍型的可能性。

实施方案10.根据实施方案1至9中任一项所述的方法，其进一步包括：

使用所述第一值和所述第二值计算分离值；

比较所述分离值与截止值；和

基于所述分离值与所述截止值的所述比较确定胎儿非整倍体的可能性。

实施方案11.根据实施方案10所述的方法，其中：

从来自怀有整倍体胎儿的怀孕女性的参考样本确定所述截止值，

从来自怀有非整倍体胎儿的怀孕女性的参考样本确定所述截止值，或

假定为非整倍体胎儿，计算所述截止值。

实施方案12.根据实施方案1至11中任一项所述的方法，其进一步包括：

识别对应于所述第一组游离DNA分子的所述读段中的一读段中的子序列的重复序列的数目，

其中：

确定所述第一单倍型的所述序列包括确定所述子序列的重复序列的数目。

实施方案13.根据实施方案12所述的方法，其中：

所述子序列的所述重复序列与重复序列相关疾病相关，且

所述方法进一步包括确定所述胎儿遗传所述重复序列相关疾病的可能性。

实施方案14.一种分析获自怀有胎儿的女性的生物样本的方法，所述生物样本包含来自所述胎儿和所述女性的多个游离DNA分子，所述方法包括：

接收对应于所述多个游离DNA分子的序列读段；

测量所述多个游离DNA分子的尺寸；

识别来自所述多个游离DNA分子的一组游离DNA分子为具有大于或等于截止值的尺寸；且

对于所述组游离DNA分子中的一个游离DNA分子：

确定多个位点中的各位点处的甲基化状态，

确定甲基化模式，其中：

所述甲基化模式使用对应于所述游离DNA分子的一个或多个序列读段指示所述多个位点中的各位点处的甲基化状态，

比较所述甲基化模式与一个或多个参考模式，其中所述一个或多个参考模式中的各者针对特定组织类型加以确定；和

使用所述甲基化模式确定所述游离DNA分子的起源组织。

实施方案15.根据实施方案14所述的方法，其中所述截止值为600nt。

实施方案16.根据实施方案14所述的方法，其中所述截止值为1knt。

实施方案17.根据实施方案14至16中任一项所述的方法，其进一步包括通过以下确定所述组游离DNA分子中的各游离DNA分子的所述起源组织：

确定多个对应位点中的各位点处的甲基化状态，其中所述多个对应位点对应于所述游离DNA分子，

确定所述甲基化模式，和

比较所述甲基化模式与所述一个或多个参考模式中的至少一个参考模式。

实施方案18.根据实施方案17所述的方法，其进一步包括：

测定对应于各起源组织的游离DNA分子的量，和

使用对应于各起源组织的游离DNA分子的所述测量定所述生物样本中的所述起源组织的贡献分率。

实施方案19.根据实施方案14至18中任一项所述的方法，其中测量所述多个游离DNA分子的所述尺寸包括：

将所述序列读段与参考基因组进行比对。

实施方案20.根据实施方案14至18中任一项所述的方法，其中测量所述多个游离DNA分子的尺寸包括：

对所述多个游离DNA分子进行全长测序，和

计数所述多个游离DNA分子中的各游离DNA分子中的核苷酸的数目。

实施方案21.根据实施方案14或17所述的方法，其中测量所述多个游离DNA分子的所述尺寸包括：

将来自所述生物样本的所述多个游离DNA分子与所述生物样本中的其它游离DNA分子以物理方式分离，其中所述其它游离DNA分子具有小于所述截止值的尺寸。

实施方案22.根据实施方案14至21中任一项所述的方法，其中所述一个或多个参考模式中的一个参考模式通过以下确定：

使用来自参考组织的DNA分子测量多个参考位点中的各参考位点处的甲基化密度，比较所述多个参考位点中的各参考位点处的所述甲基化密度与一个或多个阈值甲基化密度，和

基于比较所述甲基化密度与所述一个或多个阈值甲基化密度来识别所述多个参考位点中的各参考位点为甲基化、未甲基化或非信息性的，其中所述多个位点为经识别为甲基化或未甲基化的所述多个参考位点。

实施方案23.根据实施方案14至22中任一项所述的方法，其中所述起源组织为胎盘。

实施方案24.根据实施方案14至22中任一项所述的方法，其中所述起源组织为胎儿或母体的。

实施方案25.根据实施方案24所述的方法，其中：

所述起源组织为胎儿的，

所述方法进一步包括：

将所述序列读段中的一序列读段与参考基因组的第一区进行比对，所述第一区包括对应于等位基因的多个位点，所述多个位点包含阈值数目个位点，

使用所述多个位点中的各位点处存在的对应等位基因确定第一单倍型，

比较所述第一单倍型与对应于男性个体的第二单倍型，和

使用所述比较确定所述男性个体为所述胎儿的父亲的可能性的分类。

实施方案26.根据实施方案24所述的方法，其中：

所述起源组织为胎儿的，

所述方法进一步包括：

将所述序列读段中的一序列读段与参考基因组的第一区进行比对，所述第一区包括对应于等位基因的第一多个位点，所述多个位点包含阈值数目个位点，

比较所述多个位点中的各位点处的等位基因与男性个体的基因组中对应位点处的等位基因，和

实施方案27.根据实施方案24所述的方法，其进一步包括：

对于所述组游离DNA分子中的各游离DNA分子：

将对应于所述游离DNA分子的序列读段与参考基因组进行比对，

识别所述序列读段为对应于所述女性中所存在的单倍型，

使用所述甲基化模式确定所述起源组织为胎儿的，和

确定所述单倍型为母体遗传胎儿单倍型。

实施方案28.根据实施方案27所述的方法，其进一步包括：

识别所述单倍型为携带致病遗传突变或变异，和

对所述胎儿可能患有由所述遗传突变或变异造成的疾病进行分类。

实施方案29.根据实施方案28所述的方法，其中识别所述单倍型为携带所述致病遗传突变包括：

识别第一序列读段中的所述遗传突变或变异，

测量对应于在所述第一序列读段的第一距离内的第一基因组位置的第二序列读段中的第一甲基化程度，和

测量对应于在所述第一序列读段的第二距离内的第二基因组位置的第三序列读段中的第二甲基化程度，其中：

所述第一甲基化程度和所述第二甲基化程度与所述遗传突变相关。

实施方案30.根据实施方案24所述的方法，其进一步包括：

对于所述组游离DNA分子中的各游离DNA分子：

识别所述序列读段为对应于一区，其中所述区通过以下确定：

接收对应于来自胎儿组织的多个胎儿DNA分子的多个胎儿序列读段，

接收对应于多个母体DNA分子的多个母体序列读段，

针对所述多个胎儿序列读段中的各胎儿序列读段确定在所述区内的多个甲基化位点中的各甲基化位点处的胎儿甲基化状态，

针对所述多个母体序列读段中的各母体序列读段确定所述多个甲基化位点中的各甲基化位点处的母体甲基化状态，

测定表征其中所述胎儿甲基化状态不同于所述母体甲基化状态的位点的量的参数的值，

比较所述参数的所述值与阈值，和

确定所述参数的所述值超过所述阈值。

实施方案31.根据实施方案14至28中任一项所述的方法，其中所述截止值为至少500nt。

实施方案32.根据实施方案14至31中任一项所述的方法，其中确定所述游离DNA分子的所述起源组织包括将所述甲基化模式输入机器学习模型中，所述模型通过以下加以训练：

接收多个训练甲基化模式，各训练甲基化模式在所述多个位点中的一个或多个位点处具有甲基化状态，各训练甲基化模式由来自已知组织的DNA分子确定，

储存多个训练样本，各训练样本包含所述多个训练甲基化模式中的一者和指示对应于所述训练甲基化模式的所述已知组织的标签，和

当将所述多个训练甲基化模式输入所述模型中时使用所述多个训练样本基于匹配或不匹配对应标签的所述模型的多个输出来最佳化所述模型的参数，其中所述模型的一个输出指明对应于输入甲基化模式的组织。

实施方案33.根据实施方案32所述的方法，其中所述机器学习模型包括卷积类神经网络(CNN)、线性回归、逻辑回归、深度递归神经网络、贝氏分类器(Bayes'sclassifier)、隐藏马可夫模型(hidden Markov model，HMM)、线性鉴别分析(LDA)、k平均集群、具有噪音的应用的基于密度的空间集群(DBSCAN)、随机森林算法或支持向量机(SVM)。

实施方案34.根据实施方案32所述的方法，其中来自所述已知组织的各DNA分子为细胞DNA。

实施方案35.根据实施方案32或34所述的方法，其中所述模型的所述参数包括指示所述多个位点中的一个位点是否具有与所述多个位点中的另一位点相同的甲基化状态的第一参数。

实施方案36.根据实施方案32至35中任一项所述的方法，其中所述模型的所述参数包括指示所述多个位点中的各位点之间的距离的第二参数。

实施方案37.根据实施方案14至31中任一项所述的方法，其中所述一个或多个参考模式中的一个参考模式对应于参考组织，

所述方法进一步包括当所述甲基化模式匹配所述参考模式时，确定所述起源组织为所述参考组织。

实施方案38.根据实施方案14至37中任一项所述的方法，其中所述多个位点包括至少5个CpG位点。

实施方案39.根据实施方案14至31中任一项所述的方法，其中使用所述甲基化模式确定所述起源组织包括：

通过比较所述甲基化模式与来自多个参考组织中的第一参考组织的第一参考甲基化模式来确定类似性分数；

比较所述类似性分数与阈值；和

当所述类似性分数超过所述阈值时，确定所述起源组织为所述第一参考组织。

实施方案40.根据实施方案39所述的方法，其中：

所述类似性分数为第一类似性分数，

所述方法进一步包括：

通过以下计算所述阈值：

通过比较所述甲基化模式与来自所述多个参考组织中的第二参考组织的第二参考甲基化模式来确定第二类似性分数，所述第一参考组织与所述第二参考组织为不同组织，所述阈值为所述第二类似性分数。

实施方案41.根据实施方案39或40所述的方法，其中：

所述第一参考甲基化模式包括对于所述第一参考组织而言具有至少第一甲基化机率的第一子组位点，

所述第一参考甲基化模式包括对于所述第一参考组织而言具有至多第二甲基化机率的第二子组位点，且

确定所述类似性分数包括：

当所述多个位点中的一个位点为甲基化的且所述多个位点中的所述位点处于所述第一子组位点中时增加所述类似性分数，和

当所述多个位点中的一个位点为甲基化的且所述多个位点中的所述位点处于所述第二子组位点中时降低所述类似性分数。

实施方案42.根据实施方案39或40所述的方法，其中：

所述第一参考甲基化模式包括所述多个位点，其中所述多个位点中的各位点的特征在于对于所述第一参考组织而言的甲基化机率和未甲基化机率，

通过以下确定所述类似性分数：

对于所述多个位点中的各位点：

确定对应于所述游离DNA分子中的所述位点的所述甲基化状态的所述参考组织中的机率，

计算多个机率的乘积，所述乘积为所述类似性分数。

实施方案43.根据实施方案42所述的方法，其中所述机率使用贝他(β)分布来确定。

实施方案44.根据实施方案14至43中任一项所述的方法，其进一步包括：

对所述多个游离DNA分子进行测序以获得序列读段，和

通过测量对应于所述位点的核苷酸和邻近所述位点的核苷酸的特征来确定所述位点的甲基化状态。

实施方案45.根据实施方案14至44中任一项所述的方法，其中所述多个游离DNA分子的尺寸包括CpG位点的数目。

实施方案46.根据实施方案14至45中任一项所述的方法，其中所述多个位点中的至少一个位点为甲基化的。

实施方案47.根据实施方案14至46中任一项所述的方法，其中所述多个位点中的两个位点间隔至少160nt。

实施方案48.一种分析获自怀有胎儿的女性的生物样本的方法，所述生物样本包含来自所述胎儿和所述女性的游离DNA分子，所述方法包括：

接收对应于所述游离DNA分子中的一个游离DNA分子的第一序列读段；

将所述第一序列读段与参考基因组的区进行比对，已知所述区潜在地包含子序列的重复序列；

识别对应于所述游离DNA分子的所述第一序列读段中的所述子序列的重复序列的数目；

比较所述子序列的重复序列的数目与阈值数目；和

使用所述重复序列的数目与所述阈值数目的所述比较确定所述胎儿患有遗传病症的可能性的分类。

实施方案49.根据实施方案48所述的方法，其中确定所述胎儿患有所述遗传病症的所述可能性的所述分类包括：

当所述重复序列的数目超过所述阈值数目时，确定所述胎儿可能患有所述遗传病症。

实施方案50.根据实施方案48或49所述的方法，其中所述阈值数目为55个或更多个。

实施方案51.根据实施方案48至50中任一项所述的方法，其中所述遗传病症为X染色体脆裂症(fragile X syndrome)。

实施方案52.根据实施方案48至51中任一项所述的方法，其中所述子序列为三核苷酸序列。

实施方案53.根据实施方案48至52中任一项所述的方法，其中所述游离DNA分子具有大于截止值的长度。

实施方案54.根据实施方案53所述的方法，其中所述截止值为600nt。

实施方案55.根据实施方案53所述的方法，其中所述截止值为1knt。

实施方案56.根据实施方案48至54中任一项所述的方法，其进一步包括确定所述游离DNA分子是胎儿起源。

实施方案57.根据实施方案56所述的方法，其中：

所述第一序列读段中的所述子序列的所述重复序列的数目为所述子序列的重复序列的第一数目，

确定所述游离DNA分子是胎儿起源包括：

接收对应于获自所述女性怀孕前的血沉棕黄层或样本的母体起源的游离DNA分子的第二序列读段，

将所述第二序列读段与所述参考基因组的所述区进行比对，

识别所述第二序列读段中的所述子序列的第二数目个重复序列，和

确定所述第二数目个重复序列少于所述第一数目个重复序列。

实施方案58.根据实施方案56所述的方法，其中：

确定所述游离DNA分子是胎儿起源包括：

使用所述游离DNA分子的甲基化位点和未甲基化位点确定所述游离DNA分子的甲基化程度，和

比较所述甲基化程度与参考程度。

实施方案59.根据实施方案58所述的方法，其进一步包括确定所述甲基化程度超过所述参考程度。

实施方案60.根据实施方案56所述的方法，其中：

确定所述游离DNA分子是胎儿起源包括：

确定所述游离分子的多个位点的甲基化模式，

通过比较所述甲基化模式与来自母体或胎儿组织的参考模式来确定类似性分数，和比较所述类似性分数与一个或多个阈值。

实施方案61.根据实施方案48所述的方法，其进一步包括：

接收对应于所述游离DNA分子的多个序列读段，

将所述多个序列读段与所述参考基因组的多个区进行比对，已知所述多个区潜在地包含子序列的重复序列，

识别所述多个序列读段中的所述子序列的重复序列的数目；

比较所述子序列的重复序列的数目与多个阈值数目；和

对于多种遗传病症中的各者，使用与所述多个阈值数目中的一阈值数目的所述比较来确定所述胎儿患有对应遗传病症的可能性的分类。

实施方案62.一种分析获自怀有胎儿的女性的生物样本的方法，所述生物样本包含来自所述胎儿和所述女性的游离DNA分子，所述方法包括：

将所述第一序列读段与参考基因组的第一区进行比对；

识别对应于所述游离DNA分子的所述第一序列读段中的第一子序列的第一数目个重复序列；

分析获自男性个体的序列数据以判定所述第一子序列的第二数目个重复序列是否存在于所述第一区中；和

使用所述第一子序列的所述第二数目个重复序列是否存在的所述判定来确定所述男性个体为所述胎儿的父亲的可能性的分类。

实施方案63.根据实施方案62所述的方法，其进一步包括：

确定所述游离DNA分子是胎儿起源。

实施方案64.根据实施方案62或63所述的方法，其中所述第一子序列包括等位基因。

实施方案65.根据实施方案62至64中任一项所述的方法，其中：

所述分类是当判定所述第一子序列的所述第二数目个重复序列存在时所述男性个体可能为所述父亲，或

所述分类是当判定所述第一子序列的所述第二数目个重复序列不存在时所述男性个体可能不为所述父亲。

实施方案66.根据实施方案62至65中任一项所述的方法，其进一步包括：

比较所述第一数目个重复序列与所述第二数目个重复序列，

其中：

确定所述男性个体为所述父亲的所述可能性的所述分类包括：

使用所述第一数目个重复序列与所述第二数目个重复序列的所述比较，和

所述分类是当所述第一数目个重复序列在所述第二数目个重复序列的阈值内时所述男性个体可能为所述父亲。

实施方案67.根据实施方案62至66中任一项所述的方法，其中：

所述游离DNA分子为第一游离DNA分子；

所述方法进一步包括：

接收对应于所述游离DNA分子中的第二游离DNA分子的第二序列读段；

将所述第二序列读段与所述参考基因组的第二区进行比对；

识别对应于所述第二游离DNA分子的所述第二序列读段中的第二子序列的第一数目个重复序列；

分析获自所述男性个体的所述序列数据以判定所述第二子序列的第二数目个重复序列是否存在于所述第二区中；

其中：

确定所述男性个体为所述胎儿的所述父亲的所述可能性的所述分类进一步包括使用所述第二子序列的所述第二数目个重复序列是否存在于所述第二区中的所述判定。

实施方案68.根据实施方案62至67中任一项所述的方法，其中所述游离DNA分子具有大于截止值的尺寸。

实施方案69.根据实施方案68所述的方法，其中所述游离DNA分子具有大于600nt的尺寸。

实施方案70.根据实施方案68所述的方法，其中所述游离DNA分子具有大于1knt的尺寸。

实施方案71.一种分析获自怀有胎儿的女性的生物样本的方法，所述生物样本包含来自所述胎儿和所述女性的多个游离DNA分子，所述方法包括：

测量所述多个游离DNA分子的尺寸；

测量具有大于截止值的尺寸的游离DNA分子的第一量；

使用所述第一量生成标准化参数的值；

比较所述标准化参数的所述值与一个或多个校准数据点，其中各校准数据点指明对应于所述标准化参数的校准值的胎龄，且其中所述一个或多个校准数据点是从具有已知胎龄且包含具有大于所述截止值的尺寸的游离DNA分子的多个校准样本确定；和

使用所述比较来确定胎龄。

实施方案72.根据实施方案71所述的方法，其进一步包括：

使用超声波或所述女性的最后一次月经期的日期来确定所述胎儿的参考胎龄，

比较所述胎龄与所述参考胎龄，和

使用所述胎龄与所述参考胎龄的所述比较来确定怀孕相关病症的可能性的分类。

实施方案73.根据实施方案71所述的方法，其进一步包括：

确定对应于具有大于所述截止值的尺寸的所述游离DNA分子的至少一个末端的第一子序列，

其中：

所述第一量属于具有大于所述截止值的尺寸且在对应游离DNA分子的一个或多个末端处具有所述第一子序列的游离DNA分子。

实施方案74.根据实施方案73所述的方法，其中所述第一子序列为1、2、3或4个核苷酸。

实施方案75.根据实施方案73或74所述的方法，其中生成所述标准化参数的所述值包括：

(a)以具有大于所述截止值的尺寸的游离DNA分子的总量标准化所述第一量；

(b)以具有大于所述截止值的尺寸且在第二子序列上终止的游离DNA分子的第二量标准化所述第一量，所述第二子序列与所述第一子序列不同，或

(c)以具有小于所述截止值的尺寸的游离DNA分子的第三量标准化所述第一量。

实施方案76.根据实施方案71至75中任一项所述的方法，其进一步包括接收对应于所述多个游离DNA分子的序列读段。

实施方案77.一种分析获自怀有胎儿的女性的生物样本的方法，所述生物样本包含来自所述胎儿和所述女性的多个游离DNA分子，所述方法包括：

测量所述多个游离DNA分子的尺寸；

测量具有大于截止值的尺寸的游离DNA分子的第一量；

使用所述第一量生成标准化参数的第一值；

获得对应于健康怀孕的所述标准化参数的预期值的第二值，其中所述第二值视所述胎儿的胎龄而定；

确定所述标准化参数的所述第一值与所述标准化参数的所述第二值之间的偏差；和

使用所述偏差确定怀孕相关病症的可能性的分类。

实施方案78.根据实施方案77所述的方法，其中获得所述第二值包括：

从具有所述标准化参数的校准值的关于怀孕女性的测量结果的校准表获得所述第二值，其中所述校准表通过以下生成：

获得具有怀孕女性个体的测量结果的关于胎龄的第一表，

获得具有所述标准化参数的校准值的关于胎龄的第二表，和

由所述第一表和所述第二表产生具有所述校准值的关于所述测量结果的所述校准表。

实施方案79.根据实施方案78所述的方法，其中所述怀孕女性个体的所述测量结果为自从最后一次月经期以来的时间。

实施方案80.根据实施方案78所述的方法，其中所述怀孕女性个体的所述测量结果为所述怀孕女性个体的图像的特征。

实施方案81.根据实施方案80所述的方法，其中所述图像的特征包括女性个体的胎儿的长度、尺寸、外貌或解剖结构。

实施方案82.根据实施方案72至81中任一项所述的方法，其中所述怀孕相关病症包括子痫前症、子宫内生长受限、侵入性胎盘形成、早产、新生儿溶血性疾病、胎盘功能不全、胎儿水肿、胎儿畸形、溶血、肝酶升高和低血小板计数(HELLP)综合征或全身性红斑狼疮。

实施方案83.根据实施方案71至82中任一项所述的方法，其中所述截止值为600nt或更大。

实施方案84.根据实施方案71至82中任一项所述的方法，其中所述截止值为1,000nt或更大。

实施方案85.根据实施方案71至84中任一项所述的方法，其中所述第一量为数目或频率。

实施方案86.根据实施方案71至85中任一项所述的方法，其中使用所述第一量生成所述标准化参数的所述值包括：

测量包含小于所述截止值的尺寸的游离DNA分子的第二量；和

计算所述第一量与所述第二量的比。

实施方案87.根据实施方案86所述的方法，其中：

所述截止值为第一截止值，

第二截止值小于所述第一截止值，且

所述第二量包括具有小于所述第二截止值的尺寸的游离DNA分子或所述第二量包括所述多个游离DNA分子中的所有游离DNA分子。

实施方案88.一种分析获自怀有胎儿的女性的生物样本的方法，所述生物样本包含来自所述胎儿和所述女性的多个游离DNA分子，所述方法包括：

测量所述多个游离DNA分子的尺寸；

识别具有大于截止值的尺寸的一组游离DNA分子；

使用第一量生成末端基序参数的值，其中生成所述末端基序参数的所述值包括：

测量在所述组中的所述游离DNA分子的一个或多个末端处具有第一子序列的所述组中的游离DNA分子的所述第一量；

比较所述末端基序参数的所述值与阈值；和

使用所述比较来确定怀孕相关病症的可能性的分类。

实施方案89.根据实施方案88所述的方法，所述方法进一步包括：

测量在所述游离DNA分子的一个或多个末端处具有与所述第一子序列不同的子序列的游离DNA分子的第二量，且

其中：

生成所述末端基序参数的所述值包括使用所述第一量与所述第二量的比。

实施方案90.根据实施方案88所述的方法，其中所述第一子序列的长度为1、2、3或4个核苷酸。

实施方案91.根据实施方案90所述的方法，其中所述第一子序列在对应游离DNA分子的末端处包括最后一个核苷酸。

实施方案92.根据实施方案88所述的方法，其中：

所述阈值为第一阈值，且

所述末端基序参数为第一末端基序参数，

所述方法进一步包括：

测量在所述游离DNA分子的一个或多个末端处具有与所述第一子序列不同的第二子序列的游离DNA分子的第二量，

使用第三量生成第二末端基序参数的值，和

比较所述第二末端基序参数的所述值与第二阈值；

其中：

确定所述怀孕相关病症的所述可能性的所述分类使用所述第二末端基序参数的所述值与所述第二阈值的所述比较，其中当所述第一末端基序参数的所述值超过所述第一阈值且所述第二末端基序参数的所述值超过所述第二阈值时所述怀孕相关病症为可能的。

实施方案93.根据实施方案88所述的方法，其中所述第一量的游离DNA分子包括经确定为来自起源组织的游离DNA分子。

实施方案94.根据实施方案88所述的方法，其中：

所述阈值为第一阈值，且

所述组游离DNA分子为第一组游离DNA分子，

所述方法进一步包括：

识别具有在第一尺寸范围内的尺寸的第二组游离DNA分子，所述第一尺寸范围包含大于所述截止值的尺寸，

使用所述第二组中的第二量的游离DNA分子生成尺寸参数的值，和

比较所述尺寸参数的所述值与第二阈值，

其中确定所述怀孕相关病症的所述可能性的所述分类包括使用所述尺寸参数的所述值与所述第二阈值的所述比较。

实施方案95.根据实施方案88至94中任一项所述的方法，其中所述截止值为600nt。

实施方案96.根据实施方案88至94中任一项所述的方法，其中所述截止值为1,000nt。

实施方案97.一种分析怀孕生物的生物样本的方法，所述生物样本包含多个游离核酸分子，所述方法包括：

对所述多个游离核酸分子进行测序，其中超过20％的经测序的所述多个游离核酸分子具有大于200nt的长度。

实施方案98.根据实施方案97所述的方法，其中测序通过单分子实时技术进行。

实施方案99.根据实施方案97或98所述的方法，其中：

超过11％的经测序的所述多个游离核酸分子具有大于400nt的长度，

超过10％的经测序的所述多个游离核酸分子具有大于500nt的长度，

超过8％的经测序的所述多个游离核酸分子具有大于600nt的长度，

超过6％的经测序的所述多个游离核酸分子具有大于1knt的长度，

超过3％的经测序的所述多个游离核酸分子具有大于2knt的长度，

超过1％的经测序的所述多个游离核酸分子具有大于3knt的长度，

至少0.9％的经测序的所述多个游离核酸分子具有大于4knt的长度，或

至少0.04％的经测序的所述多个游离核酸分子具有大于10knt的长度。

实施方案100.根据实施方案97至99中任一项所述的方法，其中所述多个游离核酸分子包括至少100个游离核酸分子。

实施方案101.根据实施方案97至100中任一项所述的方法，其中所述多个游离核酸分子来自多个不同基因组区。

实施方案102.根据实施方案97至101中任一项所述的方法，其中所述测序产生用于实施方案1至94中任一项的读段。

实施方案103.根据实施方案97至101中任一项所述的方法，其中所述测序产生读段，

所述方法进一步包括：

使用所述读段以确定胎儿非整倍体、畸变、遗传突变或变异或亲本单倍型遗传。

实施方案104.根据实施方案1至103中任一项所述的方法，其中：

相对于所述生物样本而言富集所述多个游离DNA分子以获得大于或等于所述截止值的尺寸，其中所述生物样本中超过20％的所述游离核酸分子具有大于200nt的尺寸。

实施方案105.根据实施方案104所述的方法，其进一步包括：

使用电泳富集所述多个游离DNA分子。

实施方案106.根据实施方案104所述的方法，其进一步包括：

使用用于基于尺寸选择性结合游离DNA分子的磁珠富集所述多个游离DNA分子。

实施方案107.根据实施方案104所述的方法，其进一步包括：

使用杂交、免疫沉淀、扩增或CRISPR富集所述多个游离DNA分子。

实施方案108.根据实施方案105至107中任一项所述的方法，其中富集用于获得大于600nt、700nt、800nt、900nt或1knt的尺寸。

实施方案109.根据实施方案1至103中任一项所述的方法，其中相对于所述生物样本而言富集所述多个游离DNA分子以获得甲基化概况，

所述方法进一步包括：

使用免疫沉淀富集所述多个游离DNA分子。

实施方案110.一种计算机程序产品，其包括指令，所述指令在经实行时控制计算系统以执行如上述实施方案中任一项所述的方法。

实施方案111.一种计算机可读储存媒体，其包括根据实施方案110所述的计算机程序产品。

实施方案112.一种计算系统，其包括根据实施方案111所述的计算机程序产品。

附图说明

图1A和图1B显示根据本发明实施例的确定的游离DNA的尺寸分布。(A)在线性尺度上的0-20kb，(B)在对数尺度上的0-20kb。

图2A和图2B显示根据本发明实施例的确定的游离DNA的尺寸分布。(A)y轴的在线性尺度上的0-5kb。(B)y轴的在对数尺度上的0-5kb。

图3A和图3B显示根据本发明实施例的确定的游离DNA的尺寸分布。(A)y轴的在线性尺度上的0-400bp。(B)y轴的在对数尺度上的0-400bp。

图4A和图4B显示根据本发明实施例的确定的于携带共享等位基因的片段(共享)与携带胎儿特异性等位基因的片段(胎儿特异性)之间的游离DNA的尺寸分布。(A)y轴的在线性尺度上的0-20kb bp。(B)y轴的在对数尺度上的0-20kb。蓝线指示携带共享等位基因的片段(主要是母体起源)且红线指示携带胎儿特异性等位基因的片段(是胎盘起源)。

图5A和图5B显示根据本发明实施例的确定的于携带共享等位基因的片段(共享)与携带胎儿特异性等位基因的片段(胎儿特异性)之间的游离DNA的尺寸分布。(A)y轴的在线性尺度上的0-5kb bp。(B)y轴的在对数尺度上的0-5kb。蓝线指示携带共享等位基因的片段(主要是母体起源)且红线指示携带胎儿特异性等位基因的片段(是胎盘起源)。

图6A和图6B显示根据本发明实施例的确定的于携带共享等位基因的片段(共享)与携带胎儿特异性等位基因的片段(胎儿特异性)之间的游离DNA的尺寸分布。(A)y轴的在线性尺度上的0-1kb。(B)y轴的在对数尺度上的0-1kb。蓝线指示携带共享等位基因的片段(主要是母体起源)且红线指示携带胎儿特异性等位基因的片段(是胎盘起源)。

图7A和图7B显示根据本发明实施例的确定的于携带共享等位基因的片段(共享)与携带胎儿特异性等位基因的片段(胎儿特异性)之间的游离DNA的尺寸分布。(A)y轴的在线性尺度上的0-400bp。(B)y轴的在对数尺度上的0-400bp。蓝线指示携带共享等位基因的片段(主要是母体起源)且红线指示携带胎儿特异性等位基因的片段(是胎盘起源)。

图8显示根据本发明实施例的于携带母体特异性等位基因的片段与携带胎儿特异性等位基因的片段之间的单分子双股DNA甲基化程度。

图9A和图9B显示根据本发明实施例的(A)于携带母体特异性等位基因的片段与携带胎儿特异性等位基因的片段之间的单分子双股DNA甲基化程度的经拟合分布和(B)使用单分子双股DNA甲基化程度进行的接收者操作特征(ROC)分析。

图10A和图10B显示根据本发明实施例的单分子双股DNA甲基化程度与血浆DNA的片段尺寸之间的相关性。(A)0-20kb的尺寸范围。(B)0-1kb的尺寸范围。

图11A和图11B显示根据本发明实施例的孕妇母体血浆DNA中的经识别的长胎儿特异性DNA分子的实例。(A)黑条柱指示与人类参考基因组的染色体10中的区比对的长胎儿特异性DNA分子。(B)本公开的使用PacBio测序确定的遗传和表观遗传的详细图示。以黄色突出显示的碱基(由箭头标记)可能归因于序列误差，所述序列误差在一些实施例中可经校正。

图12A和图12B显示根据本发明实施例的孕妇母体血浆DNA中的经识别的携带共享等位基因的长母体DNA分子的实例。(A)黑条柱指示与人类参考物的染色体6中的区比对的长母体特异性DNA分子。(B)根据本发明实施例的使用PacBio测序确定的遗传和表观遗传信息的详细图示。

图13显示根据本发明实施例的根据甲基化程度在1kb至20kb的不同分辨率下的来自胎盘的DNA(红色)和来自母体血细胞的DNA(蓝色)的频率分布。

图14A和图14B显示根据本发明实施例的根据甲基化程度在16-kb和24-kb窗口内的来自胎盘的DNA(红色)和来自母体血细胞的DNA(蓝色)的频率分布。

图15A和图15B显示根据本发明实施例的孕妇母体血浆DNA中的经识别的长母体特异性DNA分子的实例。(A)黑条柱指示与人类参考物的染色体8中的区比对的长母体特异性DNA分子。(B)根据本发明实施例的使用PacBio测序确定的遗传和表观遗传的详细图示。

图16显示根据本发明实施例的推断胎儿的母体遗传图示。

图17绘示根据本发明实施例的用母体起源和胎儿起源信息进行的于血浆DNA分子中的遗传/表观遗传病症确定。

图18绘示根据本发明实施例的胎儿异常片段的识别。

图19A-19G显示根据本发明实施例的使用PacBio测序进行的游离DNA基因分型的误差校正图示。‘.’表示与沃森股(Watson strand)中的参考碱基相同的碱基。‘,’表示与克里克股(Crick strand)中的参考碱基相同的碱基。‘字母’表示与参考等位基因不同的替代性等位基因。‘*’表示插入。‘^’表示缺失。

图20显示根据本发明实施例的分析获自怀有胎儿的女性的生物样本的方法。

图21显示根据本发明实施例的分析获自怀有胎儿的女性的生物样本以便确定单倍型遗传的方法。

图22显示根据本发明实施例的用于确定血浆中的长DNA分子的起源组织的甲基化模式。

图23显示根据本发明实施例的用于确定胎儿起源和母体起源的接收者操作特征(ROC)曲线。

图24显示根据本发明实施例的成对甲基化模式。

图25为根据本发明实施例的不同染色体当中的经选择标记区的分布表。

图26为根据本发明实施例的基于血浆DNA分子的单分子甲基化模式使用错配分数大于0.3的血沉棕黄层DNA分子的不同百分比作为标记区的选择准则进行的血浆DNA分子的分类表。

图27显示根据本发明实施例的以非侵入性方式使用胎盘特异性甲基化单倍型确定胎儿遗传的方法流程。

图28绘示根据本发明实施例的使用母体血浆中的长游离DNA进行的X染色体脆裂症(fragile X syndrome)的非侵入性产前检测的原理。

图29绘示根据本发明实施例的基于甲基化模式的胎儿的母体遗传。

图30绘示根据本发明实施例的使用血浆DNA分子的遗传和表观遗传信息进行的针对胎儿的母体遗传的定性分析。

图31绘示根据本发明实施例的相较于相对单倍型剂量(RHDO)分析而言使用血浆DNA分子的遗传和表观遗传信息以全基因组方式进行的针对胎儿的母体遗传的定性分析的检测率。

图32显示根据本发明实施例的以全基因组方式进行的父体特异性变体的检测率与用于分析的具有不同尺寸的经测序血浆DNA分子的数目之间的关系。

图33显示根据本发明实施例的X染色体脆裂症的非侵入性检测的工作流。

图34显示根据本发明实施例的相较于胎盘和血沉棕黄层DNA的甲基化概况而言的血浆DNA的甲基化模式。

图35为根据本发明实施例的显示在整个人类基因组中的500-bp区中的CpG位点分布的表。

图36为根据本发明实施例的显示在整个人类基因组中的1-kb区中的CpG位点分布的表。

图37为根据本发明实施例的显示在整个人类基因组中的3-kb区中的CpG位点分布的表。

图38为根据本发明实施例的显示使用甲基化状态匹配分析的母体血浆中不同组织对DNA分子的贡献比例的表。

图39A和图39B显示根据本发明实施例的通过SNP途径推断的胎盘贡献与胎儿DNA分率之间的关系。

图40显示根据本发明实施例的使用甲基化模式分析来分析获自怀有胎儿的女性的生物样本以便确定起源组织的方法。

图41A和图41B显示根据本发明实施例的来自怀孕初期、中期和晚期母体血浆样本的游离DNA分子的尺寸分布。

图42为根据本发明实施例的显示不同孕期的长血浆DNA分子的比例的表。

图43A和图43B显示根据本发明实施例的来自怀孕初期、中期和晚期母体血浆的涵盖胎儿特异性等位基因的DNA分子的尺寸分布。

图44A和图44B显示根据本发明实施例的来自怀孕初期、中期和晚期母体血浆的涵盖母体特异性等位基因的DNA分子的尺寸分布。

图45为根据本发明实施例的不同孕期的长胎儿和母体血浆DNA分子的比例表。

图46A、图46B和图46C显示根据本发明实施例的跨不同孕期的特定尺寸范围的胎儿特异性血浆DNA片段的比例图。

图47A、图47B和图47C显示根据本发明实施例的来自怀孕初期、中期和晚期母体血浆的跨0kb至3kb的片段尺寸范围的游离DNA分子的5'端处的碱基含量比例图。

图48为根据本发明实施例的来自怀孕初期、中期和晚期母体血浆的短和长游离DNA分子当中的末端核苷酸碱基比例表。

图49为根据本发明实施例的来自怀孕初期、中期和晚期母体血浆的涵盖胎儿特异性等位基因的短和长游离DNA分子当中的末端核苷酸碱基比例表。

图50为根据本发明实施例的来自怀孕初期、中期和晚期母体血浆的涵盖母体特异性等位基因的短和长游离DNA分子当中的末端核苷酸碱基比例表。

图51绘示根据本发明实施例的使用256个末端基序进行的短和长血浆游离DNA分子的层级集群分析。

图52A和图52B显示根据本发明实施例的4聚体末端基序概况的主成分分析。

图53为根据本发明实施例的来自怀孕初期母体血浆的短血浆DNA分子当中的具有最高频率的25个末端基序的表。

图54为根据本发明实施例的来自怀孕中期母体血浆的短血浆DNA分子当中的具有最高频率的25个末端基序的表。

图55为根据本发明实施例的来自怀孕晚期母体血浆的短血浆DNA分子当中的具有最高频率的25个末端基序的表。

图56为根据本发明实施例的来自怀孕初期母体血浆的长血浆DNA分子当中的具有最高频率的25个末端基序的表。

图57为根据本发明实施例的来自怀孕中期母体血浆的长血浆DNA分子当中的具有最高频率的25个末端基序的表。

图58为根据本发明实施例的来自怀孕晚期母体血浆的长血浆DNA分子当中的具有最高频率的25个末端基序的表。

图59A、图59B和图59C显示根据本发明实施例的(A)怀孕初期、(B)怀孕中期和(C)怀孕晚期母体血浆中的短和长血浆DNA分子当中的16个NNXY基序的基序频率散布图。

图60显示根据本发明实施例的分析获自怀有胎儿的女性的生物样本以便确定胎龄的方法。

图61显示根据本发明实施例的分析获自怀有胎儿的女性的生物样本以便分类怀孕相关病症的可能性的方法。

图62为根据本发明实施例的显示四种子痫前症病例的临床信息的表。

图63A-63D为根据本发明实施例的来自子痫前症和血压正常怀孕晚期母体血浆样本的游离DNA分子的尺寸分布图。

图64A-64D为根据本发明实施例的来自子痫前症和血压正常怀孕晚期母体血浆样本的游离DNA分子的尺寸分布图。

图65A-65D为根据本发明实施例的来自子痫前症和血压正常怀孕晚期母体血浆样本的涵盖胎儿特异性等位基因的DNA分子的尺寸分布图。

图66A-66D为根据本发明实施例的来自子痫前症和血压正常怀孕晚期母体血浆样本的涵盖胎儿特异性等位基因的DNA分子的尺寸分布图。

图67A-67D为根据本发明实施例的来自子痫前症和血压正常怀孕晚期母体血浆样本的涵盖母体特异性等位基因的DNA分子的尺寸分布图。

图68A-68D为根据本发明实施例的来自子痫前症和血压正常怀孕晚期母体血浆样本的涵盖母体特异性等位基因的DNA分子的尺寸分布图。

图69A和图69B为根据本发明实施例的经PacBio SMRT测序加以测序的子痫前症和血压正常母体血浆样本中的涵盖胎儿特异性等位基因和母体特异性等位基因的短DNA分子的比例图。

图70A和图70B为根据本发明实施例的经PacBio SMRT测序和Illumina测序加以测序的子痫前症和血压正常母体血浆样本中的短DNA分子的比例图。

图71为根据本发明实施例的指示经PacBio SMRT测序加以测序的子痫前症和血压正常母体血浆样本中的短和长DNA分子的相对比例的尺寸比率图。

图72A-72D显示根据本发明实施例的经PacBio SMRT测序加以测序的子痫前症和血压正常母体血浆样本中的血浆DNA分子的不同末端的比例。

图73显示根据本发明实施例的使用具有四种类型的片段末端(各股的5'端处的第一核苷酸)，即C端、G端、T端和A端中的各者的血浆DNA分子的频率进行的子痫前症和血压正常怀孕晚期母体血浆DNA样本的层级集群分析。

图74显示根据本发明实施例的使用16个双核苷酸基序XYNN(来自5'端的第一核苷酸和第二核苷酸的二核苷酸序列)进行的子痫前症和血压正常怀孕晚期母体血浆DNA样本的层级集群分析。

图75显示根据本发明实施例的使用16个双核苷酸基序NNXY(来自5'端的第三核苷酸和第四核苷酸的二核苷酸序列)进行的子痫前症和血压正常怀孕晚期母体血浆DNA样本的层级集群分析。

图76显示根据本发明实施例的使用256个四核苷酸基序(来自5'端的第一核苷酸至第四核苷酸的二核苷酸序列)进行的子痫前症和血压正常怀孕晚期母体血浆DNA样本的层级集群分析。

图77A-77D显示根据本发明实施例的子痫前症和血压正常母体血浆DNA样本中的四种类型的片段末端当中的T细胞贡献。

图78显示根据本发明实施例的分析获自怀有胎儿的女性的生物样本以确定怀孕相关病症的可能性的方法。

图79显示根据本发明实施例的推断胎儿的重复序列相关疾病的母体遗传的图示。

图80显示根据本发明实施例的推断胎儿的重复序列相关疾病的父体遗传的图示。

图81、图82和图83为显示重复序列扩展疾病的实例的表。

图84为根据本发明实施例的显示于胎儿中的重复序列扩展检测和重复序列相关甲基化确定的实例的表。

图85显示根据本发明实施例的分析获自怀有胎儿的女性的生物样本以便确定胎儿的遗传病症可能性的方法。

图86显示根据本发明实施例的分析获自怀有胎儿的女性的生物样本以便确定亲缘的方法。

图87显示用于尺寸选择之后的两个代表性血浆DNA分子的甲基化模式。

图88为根据本发明实施例的经尺寸选择的样本和不经尺寸选择的样本的测序信息表。

图89A和图89B显示根据本发明实施例的经基于珠粒的尺寸选择的样本和不经基于珠粒的尺寸选择的样本的血浆DNA尺寸概况的图式。

图90A和图90B显示根据本发明实施例的经尺寸选择的样本中的胎儿DNA分子与母体DNA分子之间的尺寸概况。

图91为根据本发明实施例的经尺寸选择的样本与不经尺寸选择的样本之间的携带信息性SNP的血浆DNA分子的数目统计表。

图92为根据本发明实施例的经尺寸选择的血浆DNA样本和非经尺寸选择的血浆DNA样本中的甲基化程度表。

图93为根据本发明实施例的母体或胎儿特异性游离DNA分子中的甲基化程度表。

图94为根据本发明实施例的经尺寸选择的样本和不经尺寸选择的样本中的前10个末端基序的表。

图95为根据本发明实施例的显示长血浆DNA分子增强起源组织效能分析的接收者操作特征(ROC)图。

图96绘示根据本发明实施例的用于血浆DNA分子的机场测序(airportsequencing)的原理。

图97为根据本发明实施例的在特定尺寸范围内的血浆DNA分子百分比和其对应甲基化程度的表。

图98为根据本发明实施例的跨不同尺寸的尺寸分布和甲基化模式的图式。

图99为根据本发明实施例的使用纳米孔测序确定的胎儿DNA分率的表。

图100为根据本发明实施例的胎儿特异性DNA分子与母体特异性DNA分子之间的甲基化程度的表。

图101为根据本发明实施例的在特定尺寸范围内的血浆DNA分子百分比和其对应的胎儿DNA分子和母体DNA分子甲基化程度的表。

图102A和图102B为根据本发明实施例的通过纳米孔测序确定的胎儿DNA分子和母体DNA分子的尺寸分布图。

图103为显示根据本发明实施例的基于单个信息性SNP和两个信息性SNP的胎儿DNA分子与母体DNA分子之间的甲基化程度差异的图式。

图104为根据本发明实施例的胎儿DNA分子与母体DNA分子之间的甲基化程度差异表。

图105绘示根据本发明实施例的测量系统。

图106显示根据本发明实施例的计算机系统。

术语

“组织”对应于怀孕个体或其胎儿中归并为功能单元的一组细胞。可在单一组织中找到超过一种类型的细胞。不同类型的组织可由不同类型的细胞(例如肝细胞、肺泡细胞或血细胞)组成，但也可对应于来自不同生物的组织(母亲与胎儿；已接受移植的怀孕个体中的组织；感染微生物或病毒的怀孕生物或其胎儿的组织)。“参考组织”可对应于用于确定组织特异性甲基化程度的组织。来自不同怀孕个体或其胎儿的相同组织类型的多个样本可用于确定所述组织类型的组织特异性甲基化程度。

“生物样本”是指取自怀孕个体(例如人类(或其它动物)，如孕妇、患病人员或疑似患病的怀孕人员、怀孕器官移植体接受者或疑似患有涉及器官(例如心肌梗塞中的心脏或中风中的脑或贫血中的造血系统)的疾病病程的怀孕个体)且含有所关注的一个或多个核酸分子的任何样本。生物样本可为体液，如血液、血浆、血清、尿液、阴道液、阴道冲洗液、胸膜液、腹水、脑脊髓液、唾液、汗液、泪液、痰、支气管肺泡灌洗液、乳头排出液、来自身体不同部分(例如甲状腺、乳房)的抽吸液、眼内液体(例如眼房液)等。也可使用粪便样本。在各种实施例中，已富集游离DNA的生物样本(例如经由离心方案获得的血浆样本)中的大部分DNA可为游离的，例如多于50％、60％、70％、80％、90％、95％或99％ DNA可为游离的。离心方案可包含例如3,000g×10分钟获得流体部分，和以例如30,000g再离心10分钟以去除残余细胞。作为生物样本分析的一部分，可分析生物样本的统计学上显著数目个游离DNA分子(例如以提供准确测量结果)。在一些实施例中，分析至少1,000个游离DNA分子。在其它实施例中，可分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000个或更多个游离DNA分子。可分析至少相同数目个序列读段。

“序列读段”是指从核酸分子的任何部分或全部测序的一串核苷酸。举例来说，序列读段可以是从核酸片段测序的短串核苷酸(例如20-150个核苷酸)、在核酸片段的一个或两个末端处的短串核苷酸或存在于生物样本中的整个核酸片段的测序。序列读段可以各种方式获得，所述方式例如为使用测序技术或使用探针，例如在杂交阵列或如可用于微阵列中的捕获探针中；或扩增技术，如聚合酶链反应(PCR)或使用单一引物进行的线性扩增或等温扩增。作为生物样本分析的一部分，可分析统计学上显著数目个序列读段，例如可分析至少1,000个序列读段。作为其它实例，可分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000个或更多个序列读段。

“位点”(也称作“基因组位点”)对应于单一位点，其可为单碱基位置或一组相关碱基位置，例如CpG位点或更大组相关碱基位置。“基因座”可对应于包含多个位点的区。基因座可仅包含一个位点，这种情况将使得基因座在所述情形下等效于一个位点。

“甲基化状态”是指既定位点处的甲基化状态。举例来说，位点可为甲基化的、未甲基化的或在一些情况下为未确定的。

各基因组位点(例如CpG位点)的“甲基化指数”可指在所述位点处显示甲基化的DNA片段(例如如由序列读段或探针确定)相对于涵盖所述位点的读段总数的比例。“读段”可对应于获自DNA片段的信息(例如位点处的甲基化状态)。读段可使用优先杂交至在一个或多个位点处具有特定甲基化状态的DNA片段的试剂(例如引物或探针)来获得。通常，所述试剂在用视DNA分子的甲基化状态而有差异地修饰或有差异地辨识DNA分子的方法处理后施用，所述方法例如为亚硫酸氢盐转化、或甲基化敏感限制酶、或甲基化结合蛋白、或抗甲基胞嘧啶抗体、或辨识甲基胞嘧啶和羟甲基胞嘧啶的单分子测序技术(例如单分子实时测序和纳米孔测序(例如来自牛津纳米孔科技(Oxford Nanopore Technologies)))。

区的“甲基化密度”可指显示甲基化的区内的位点处的读段数目除以涵盖所述区中的所述位点的读段总数。位点可具有特定特征，例如为CpG位点。因此，区的“CpG甲基化密度”可指显示CpG甲基化的读段数目除以涵盖所述区中的CpG位点(例如特定CpG位点、CpG岛内的CpG位点或更大区)的读段总数。举例来说，人类基因组中各100kb位元子的甲基化密度可由亚硫酸氢盐处理之后在CpG位点处未转化的胞嘧啶(其对应于甲基化胞嘧啶)总数测定为在100kb区定位的序列读段所涵盖的所有CpG位点的比例。此分析也可针对其它位元子尺寸，例如500bp、5kb、10kb、50kb或1Mb等执行。区可为整个基因组或染色体或染色体的一部分(例如染色体臂)。CpG位点的甲基化指数与一区仅包含所述CpG位点时所述区的甲基化密度相同。“甲基化胞嘧啶的比例”可指相对于所分析的胞嘧啶残基，即包含所述区中除CpG情形的外的胞嘧啶的总数而言显示为甲基化(例如在亚硫酸氢盐转化之后未经转化)的胞嘧啶位点“C's”数目。甲基化指数、甲基化密度、在一个或多个位点处甲基化的分子计数和在一个或多个位点处甲基化的分子(例如胞嘧啶)比例为“甲基化程度”的实例。除亚硫酸氢盐转化以外，可使用本领域技术人员已知的其它方法来查询DNA分子的甲基化状态，包含但不限于对甲基化状态敏感的酶(例如甲基化敏感限制酶)、甲基化结合蛋白、使用对甲基化状态敏感的平台进行的单分子测序(例如纳米孔测序(Schreiber等人《国家科学院院刊(ProcNatl Acad Sci)》2013；110:18910-18915)和通过单分子实时测序(例如来自太平洋生物科学(Pacific Biosciences)的单分子实时测序)(Flusberg等人《自然-方法(Nat Methods)》2010；7:461-465))。

“甲基化组”提供基因组中的多个位点或基因座处的DNA甲基化的量的量度。甲基化组可对应于所有基因组、基因组的相当大部分或基因组的一个或多个相对小的部分。

“甲基化概况”包含与多个位点或区的DNA或RNA甲基化相关的信息。与DNA甲基化相关的信息可包含但不限于CpG位点的甲基化指数、区中的CpG位点的甲基化密度(简称MD)、CpG位点在相连区上的分布、含有超过一个CpG位点的区内每个单独CpG位点的甲基化模式或程度和非CpG甲基化。在一个实施例中，甲基化概况可包含超过一种类型的碱基(例如胞嘧啶或腺嘌呤)的甲基化或非甲基化模式。基因组的相当大部分的甲基化概况可视为等效于甲基化组。哺乳动物基因组中的“DNA甲基化”通常指将甲基添加至CpG二核苷酸当中的胞嘧啶残基的5'碳(即5-甲基胞嘧啶)。DNA甲基化可在例如CHG和CHH的其它情形下发生于胞嘧啶中，其中H为腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化也可呈5-羟甲基胞嘧啶形式。也已报告非胞嘧啶甲基化，如N⁶-甲基腺嘌呤。

“甲基化模式”是指甲基化和非甲基化碱基的次序。举例来说，甲基化模式可为单个DNA股、单个双股DNA分子或另一类型的核酸分子上的甲基化碱基的次序。作为一实例，三个连续CpG位点可具有以下甲基化模式中的任一者：UUU、MMM、UMM、UMU、UUM、MUM、MUU或MMU，其中“U”指示未甲基化位点且“M”指示甲基化位点。当我们将此概念扩展至包含但不限于甲基化的碱基修饰时，我们将使用术语“修饰模式”，其是指经修饰和非经修饰碱基的次序。举例来说，修饰模式可为单个DNA股、单个双股DNA分子或另一类型的核酸分子上的经修饰碱基的次序。作为一实例，三个连续潜在地可修饰位点可具有以下修饰模式中的任一者：UUU、MMM、UMM、UMU、UUM、MUM、MUU或MMU，其中“U”指示未经修饰位点且“M”指示经修饰位点。不基于甲基化的碱基修饰的一个实例为如于8-氧代基-鸟嘌呤中的氧化变化。

术语“高甲基化”和“低甲基化”可指单个DNA分子的甲基化密度，其如通过其单分子甲基化程度所测量，例如分子内的甲基化碱基或核苷酸数目除以所述分子内的可甲基化碱基或核苷酸总数。高甲基化分子为其中单分子甲基化程度等于或高于阈值的分子，所述阈值可根据不同应用而界定。阈值可为5％、10％、20％、30％、40％、50％、60％、70％、80％、90％或95％。低甲基化分子为其中单分子甲基化程度等于或低于阈值的分子，所述阈值可根据不同应用而界定且可根据不同应用而变化。阈值可为5％、10％、20％、30％、40％、50％、60％、70％、80％、90％或95％。

术语“高甲基化”和“低甲基化”也可指DNA分子群体的甲基化程度，其如通过这些分子的多分子甲基化程度所测量。高甲基化分子群体为其中多分子甲基化程度等于或高于阈值的分子群体，所述阈值可根据不同应用而界定且可根据不同应用而变化。阈值可为5％、10％、20％、30％、40％、50％、60％、70％、80％、90％或95％。低甲基化分子群体为其中多分子甲基化程度等于或低于阈值的分子群体，所述阈值可根据不同应用而界定。阈值可为5％、10％、20％、30％、40％、50％、60％、70％、80％、90％和95％。在一个实施例中，可将分子群体与一个或多个经选择的基因组区进行比对。在一个实施例中，一个或多个经选择的基因组区可与如遗传病症、铭记病症、代谢病症或神经病症的疾病相关。一个或多个经选择的基因组区的长度可为50个核苷酸(nt)、100nt、200nt、300nt、500nt、1000nt、2knt、5knt、10knt、20knt、30knt、40knt、50knt、60knt、70knt、80knt、90knt、100knt、200knt、300knt、400knt、500knt或1Mnt。

术语“测序深度”是指基因座经与基因座比对的序列读段涵盖的次数。基因座可能与核苷酸一样小，或与染色体臂一样大，或与整个基因组一样大。测序深度可表示为50×、100×等，其中“×”是指基因座经序列读段涵盖的次数。测序深度也可应用于多个基因座或全基因组，在此情况下，×可指基因座或单倍体基因组或全基因组分别经测序的平均次数。超深度测序可指测序深度为至少100×。

“校准样本”可对应于以下生物样本：其临床相关DNA的分率浓度(例如组织特异性DNA分率)为已知的或经由校准方法来测定，所述校准方法例如使用对组织具有特异性的等位基因，如在怀孕个体中的移植中，由这些位基因存在于供体基因组中但不存在于可用作经移植器官的标记物的接受者基因组中。作为另一实例，校准样本可对应于可自其确定末端基序的样本。校准样本可出于两种目的使用。

“校准数据点”包含“校准值”和临床相关DNA的经测量或已知的分率浓度(例如特定组织类型的DNA)。校准值可由如针对校准样本测定的相对频率(例如集合值)来测定，所述校准样本的临床相关DNA的分率浓度为已知的。校准数据点可以各种方式，例如作为离散点或作为校准函数(也称为校准曲线或校准表面)被界定。校准函数可从校准数据点的额外数学转换导出。

“分离值”对应于涉及两个值，例如两个贡献分率或两个甲基化程度的差或比率。分离值可为简单差或比率。作为实例，x/y以及x/(x+y)的正比为分离值。分离值可包含例如乘法因数的其它因数。作为其它实例，可使用所述值的函数的差或比率，例如两个值的自然对数(ln)的差或比率。分离值可包含差和比率。

“分离值”和“集合值”(例如属于相对频率)为提供在不同分类(状态)之间变化的样本量度的参数(也称为度量)的两个实例，且因此可用于确定不同分类。集合值可为分离值，例如当在样本的一组相对频率与一组参考相对频率之间取差时，如可在集群中所做一般。

如本文所使用的术语“分类”是指与样本的特定特性相关的任何一个或多个数字或一个或多个其它字元。举例来说，符号“+”(或字语“正”)可表示样本归类为具有缺失或扩增。分类可为二元的(例如正或负)或具有更多分类层级(例如1至10或0至1的等级)。

如本文所使用的术语“参数”意指表征定量数据组和/或定量数据组之间的数值关系的数值。举例来说，第一核酸序列的第一量与第二核酸序列的第二量之间的比率(或比率的函数)为参数。

术语“尺寸概况”大体上关于生物样本中的DNA片段的尺寸。尺寸概况可为提供一定量的各种尺寸的DNA片段的分布的直方图。各种统计参数(也称为尺寸参数或仅称为参数)可用于区分一个尺寸概况与另一尺寸概况。一个参数为特定尺寸或尺寸范围的DNA片段相对于所有DNA片段或相对于另一尺寸或范围的DNA片段的百分比。

术语“截止值”和“阈值”是指操作中所使用的预定数值。举例来说，截止尺寸可指尺寸大于其的片段经排除的尺寸。阈值可为一值，高于或低于所述值，则特定分类适用。在这些情形中的任一者下均可使用这些术语中的任一者。截止值或阈值可为表示特定分类或在两个或更多个分类之间进行鉴别的“参考值”或衍生自所述参考值。如技术人员应了解，此类参考值可以各种方式确定。举例来说，可针对具有不同已知分类的两个不同群组的个体确定度量，且可选择参考值来表示一个分类(例如平均值)或两个集群的度量之间的值(例如经选择以获得期望灵敏度和特异性)。作为另一实例，参考值可基于样本的统计分析或模拟来确定。特定截止值、阈值、参考值等可基于期望准确度(例如灵敏度和特异性)来确定。

“怀孕相关病症”包含特征在于母体和/或胎儿组织中的基因的异常相对表达水平或母亲和/或胎儿中的异常临床特征的任何病症。这些病症包含但不限于母亲的子痫前症(Kaartokallio等人《科学报告(Sci Rep.)》2015；5:14107；Medina-Bastidas等人《国际分子科学期刊(Int J Mol Sci.)》2020；21:3597)、子宫内生长受限(Faxén等人《美国围产期学期刊(Am J Perinatol.)》1998；15:9-13；Medina-Bastidas等人《国际分子科学期刊》2020；21:3597)、侵入性胎盘形成、早产(Enquobahrie等人《BMC怀孕与分娩(BMC PregnancyChildbirth.)》2009；9:56)、新生儿溶血性疾病、胎盘功能不全(Kelly等人《内分泌学(Endocrinology.)》2017；158:743-755)、胎儿水肿(Magor等人《血液(Blood.)》2015；125:2405-17)、胎儿畸形(Slonim等人《美国国家科学院院刊》2009；106:9425-9)、HELLP综合征(Dijk等人《临床研究期刊(J Clin Invest.)》2012；122:4003-4011)、全身性红斑狼疮(Hong等人《实验医学期刊(J Exp Med.)》2019；216:1154-1169)和其它免疫疾病。

缩写“bp”是指碱基对。在一些情况下，“bp”可用于表示DNA片段的长度，即使DNA片段可为单股的且不包含碱基对。在单股DNA的情形下，“bp”可解释为提供以核苷酸为单位的长度。

缩写“nt”是指核苷酸。在一些情况下，“nt”可用于表示以碱基为单位的单股DNA长度。此外，“nt”可用于表示相对位置，如所分析的基因座的上游或下游。对于双股DNA，除非上下文另外清楚地指示，否则“nt”仍可指单股长度而非两股中的核苷酸总数。在关于技术概念化、数据显示、处理和分析的一些情形下，“nt”和“bp”可互换使用。

术语“机器学习模型”可包含基于使用样本数据(例如训练数据)对测试数据作出预测的模型，且因此可包含监督式学习。机器学习模型常常使用计算机或处理器来研发。机器学习模型可包含统计模型。

术语“数据分析框架”可包含可将数据视为输入且随后输出所预测结果的算法和/或模型。“数据分析框架”的实例包含统计模型、数学模型、机器学习模型、其它人工智能模型和其组合。

术语“实时测序”可指涉及在测序所涉及的反应进展期间进行数据收集或监测的技术。举例来说，实时测序可涉及光学监测或拍摄DNA聚合酶并有新碱基。

术语“子序列”可指小于对应于核酸分子的完全序列的一串碱基。举例来说，当核酸分子的完全序列包含5个或更多个碱基时，子序列可包含1、2、3或4个碱基。在一些实施例中，子序列可指形成单元的一串碱基，其中单元以串联连续方式重复多次。实例包含在与三核苷酸重复序列病症相关的基因座处重复的3nt单元或子序列、作为微卫星重复5至50次的1nt至6nt单元或子序列、作为小卫星重复5至50次的10nt至60nt单元或子序列、或在其它遗传元件中包含如Alu重复序列。

术语“约(about/approximately)”可意指在如通过本领域普通技术人员所测定的特定值的可接受误差范围内，其将部分地视所述值如何经测量或测定，即测量系统的限制而定。举例来说，根据本领域中的实践，“约”可意指在1或大于1个标准差内。可替代地，“约”可意指既定值的至多20％、至多10％、至多5％或至多1％的范围。可替代地，尤其关于生物系统或方法，术语“约”可意指在值的一定数量级内、在5倍内且更佳在2倍内。当特定值描述于本申请和权利要求书中时，除非另外说明，否则应假定术语“约”意指在特定值的可接受误差范围内。术语“约”可具有如本领域普通技术人员通常所理解的含义。术语“约”可指±10％。术语“约”可指±5％。

在提供一定范围的值的情况下，应理解，除非上下文另外清楚地指示，否则还特定地公开在所述范围上限与下限之间的各插入值，精确至下限单位的十分位。在陈述范围内的任何陈述值或插入值之间的各较小范围和所述陈述范围内的任何其它陈述值或插入值均涵盖在本公开案的实施例内。这些较小范围的上限和下限可独立地包含在所述范围内或排除在所述范围外，且其中任一限值、无限值或两个限值包含在所述较小范围内的各范围也涵盖于本公开案内，受制于陈述范围内的任何经特定地排除的限值。如果陈述范围包含限值中的一或两者时，排除那些所包含的限值中的任一者或两者的范围也包含于本公开案中。

可使用标准缩写，例如bp，碱基对；kb，千碱基；pi，微微升；s或sec，秒；min，分钟；h或hr，小时；aa，氨基酸；nt，核苷酸；等等。

除非另外定义，否则本文所使用的所有技术和科学术语均具有与本公开案所属领域的普通技术人员通常所理解的含义相同的含义。尽管在本公开案的实施例的实践或测试中可使用与本文所描述的方法和材料类似或等效的任何方法和材料，但现可描述一些潜在和例示性方法和材料。

具体实施方式

游离DNA分子的分析主要涉及短游离DNA片段，此常常归因于分析技术的限制。使用Illumina测序技术从长DNA分子获得序列信息的有限能力在小鼠游离DNA的新近测序结果中得以证实(Serpas等人《美国国家科学院院刊》2019；116:641-649)。野生型小鼠中使用Illumina测序的仅0.02％经测序的DNA分子在600bp和2000bp范围内。即使使用来自太平洋生物科学的单分子实时(SMRT)技术(即PacBio SMRT测序)测序原先经制备用于Illumina测序的DNA文库，仍存在仅0.33％的在600bp和2000bp范围内的经测序的DNA分子。这些经报告数据表明，测序步骤将损失93％的存在于原始DNA文库中的在600bp和2000bp范围内的长DNA分子。

我们推测，由于PCR在扩增上文所描述的长DNA分子中的限制，DNA文库制备步骤也将损失相当大比例的长游离DNA分子。Jahr等人使用凝胶电泳报告许多千碱基，例如～10,000个千碱基的大尺寸片段的存在(Jahr等人《癌症研究(Cancer Res.)》2001；61:1659-65)。然而，凝胶电泳图像中所示的波段将不易于提供凝胶中的这些分子的序列信息，更不必说提供表观遗传信息。

我们先前已使用Oxford Nanopore Technologies测序平台来研究从母体血浆提取的游离DNA(Cheng等人《临床化学(Clin Chem.)》2015；61:1305-6)。我们观测到极小比例的大于1kb的长血浆DNA(0.06％至0.3％)。我们假设此类低百分比可能为此平台的低测序准确度的结果。

在游离DNA的领域中，大部分研究聚焦于短DNA分子(例如<600bp)。包含长游离DNA分子的遗传和表观遗传信息的特性为未探索的。本公开案提供分析长游离DNA分子的系统性方式，所述系统性方式包含解码其遗传和表观遗传信息以及其在非侵入性产前测试中的临床效用，所述非侵入性产前测试例如但不限于单基因病症的非侵入性检测、胎儿基因组的阐明(例如非侵入性全胎儿基因组测序)、全基因组水平的重新突变的检测、和如子痫前症和早产的怀孕相关病症的检测/监测。

I.游离DNA尺寸分析

获自孕妇的游离DNA样本经测序，且发现相当大部分的DNA片段为长的。长游离DNA片段的准确测序得到展现。这些长游离DNA分子的尺寸概况经分析。胎儿长游离DNA分子与母体长游离DNA分子的量经比较。长游离DNA分子可与参考基因组经更准确地比对。长游离DNA分子可用于确定单倍型遗传。

怀孕晚期的孕妇的一个血浆DNA样本使用PacBio SMRT测序加以分析。双股游离DNA分子与发夹衔接子接合且经受利用零模波导和单个聚合酶分子进行的单分子实时测序(Eid等人《科学(Science.)》2009；323:133-8)。

我们对11亿个子读段进行测序，其中65930万个子读段可与人类参考基因组(hg19)经比对。子读段由460万个PacBio单分子实时(SMRT)测序孔生成，所述孔含有至少一个可与人类参考基因组经比对的子读段。平均而言，SMRT孔中的各分子平均经测序143次。在此实例中，存在450万个环形共同序列(CCS)，表明可用于下游分析的450万个游离DNA分子。各游离DNA的尺寸通过计数已经识别的碱基数目由CCS测定。

图1A和图1B显示0kb至20kb的游离DNA的尺寸分布。y轴显示频率。x轴显示线性尺度(图1A)或对数尺度(图1B)上0kb至20kb的以碱基对为单位的尺寸。因为测序通过全长DNA分子执行，所以各DNA分子的尺寸可直接通过计数子读段或CCS中的核苷酸数目来测定。DNA片段尺寸测量可使用可经由全长DNA片段读取的任何测序平台来达成且不限于单分子测序器的使用。举例来说，Sanger测序器可经由800bp读取。如通过Illumina平台进行的短读段测序可经由250bp读取。如Pacific Biosciences和Oxford Nanopore的单分子测序器可经由超过10,000bp读取。DNA片段的尺寸也可在与例如人类参考基因组的参考基因组比对之后测定。DNA片段的尺寸可通过双边测序、接着为与参考基因组的比对来测定。图1B显示长尾模式。在450万个CCS当中，存在22.5％的大于200bp的游离DNA、19.0％的大于300bp的游离DNA、11.8％的大于400bp的游离DNA、10.6％的大于500bp的游离DNA、8.9％的大于600bp的游离DNA、6.4％的大于1kb的游离DNA、3.5％的大于2kb的游离DNA、1.9％的大于3kb的游离DNA、0.9％的大于4kb的游离DNA和0.04％的大于10kb的游离DNA。在现行PacBio SMRT结果中观测到的最长游离DNA为29,804bp。

怀孕个体的一个血浆DNA也在Illumina测序平台上使用基于PCR的文库制备方案经测序(Lun等人《临床化学》2013；59:1583-94)。在1820万个双边读段当中，存在5.3％的大于200bp的游离DNA、2.0％的大于300bp的游离DNA、0.3％的大于400bp的游离DNA、0.2％的大于500bp的游离DNA、0.2％的大于600bp的游离DNA(表1)。作为比较，我们通过集合来自5个怀孕个体的单分子实时测序数据(即总计440万个CCS)来分析尺寸概况。与通过Illumina测序平台获得的对应大于600bp的血浆DNA分子(0.2％)相比，我们观测到更多大于600bp的血浆DNA分子(28.56％)。这些结果表明，PacBio SMRT测序可使得我们能够达成超过143倍的长DNA分子(长于600bp)。我们可使用单分子实时测序获得4.77％的大于3kb的血浆DNA分子，但在Illumina测序平台中不存在读数。

与显示使用Oxford Nanopore Technologies测序平台的极小比例的大于1kb的长血浆DNA分子(0.06％至0.3％)的先前报告(Cheng等人《临床化学》2015；61:1305-6)形成对比，我们可获得超过21倍的大于1kb的血浆DNA(6.4％)，表明PacBio SMRT测序在从长DNA群体获得序列信息中的有效程度高得多。

与如Illumina测序平台的双边短读段测序相比，如PacBio SMRT技术的长读段测序技术在确定长DNA片段的特征(例如长度)方面具有多个优点。举例来说，长读段一般将允许我们更准确地与人类参考基因组(例如hg19)比对。长读段技术也将允许我们通过直接计数经测序的核苷酸数目准确地测定血浆DNA分子的长度。相比的下，基于双边短读段的血浆DNA尺寸评估为使用经比对双边读段的最外坐标推断血浆DNA分子的尺寸的间接方法。对于此类间接途径，比对中的误差将引起准确尺寸推断。在此方面，双边读段之间的尺寸跨距增大将增加比对中的误差概率。

表1.游离DNA的PacBio与Illumina测序之间的尺寸分布比较。

图2A和图2B显示0kb至5kb的游离DNA的尺寸分布。y轴显示频率。x轴显示线性尺度(图2A)或对数尺度(图2B)上0kb至5kb的以碱基对为单位的尺寸。存在一系列伴随周期性模式出现的主峰。所述周期性模式甚至延伸至在1kb和2kb范围内的分子。具有最高频率(2.6％)的峰在166bp下，其与使用Illumina技术的先前发现一致(Lo等人《科学转化医学》2010；2:61ra91)。图2B中的邻接主峰之间的距离为约200bp，表明长游离DNA生成也将涉及核小体结构。

图3A和图3B显示0bp至400bp的游离DNA的尺寸分布。y轴显示频率。x轴显示线性尺度(图3A)或对数尺度(图3B)上0bp至400bp的以碱基对为单位的尺寸。先前报告(Lo等人《科学转化医学》2010；2:61ra91)的在166bp下具有最主峰且10bp周期性出现于小于166bp的分子中的特征特点也可使用本公开案的新型方法再现。这些结果表明，通过计数从本公开案的单分子测序的碱基数目测定分子尺寸是可靠的。

A.针对胎儿DNA和母体DNA的尺寸分析

母体和胎儿DNA片段的尺寸经分析且经比较。作为一实例，一个孕妇的血沉棕黄层DNA和经匹配的胎盘DNA经测序以分别获得59×和58×单倍体基因组涵盖度。我们识别总计822,409种信息性单核苷酸多型性(SNP)，其中母亲为同型接合的且胎儿为异型接合的。胎儿特异性等位基因经定义为存在于胎儿基因组中但不存在于母体基因组中的那些等位基因。我们经由PacBio测序在母体血浆(M13160)中识别出2,652个胎儿特异性片段和24,837个共享片段(即携带共享等位基因的片段；主要是母体起源)。胎儿DNA分率为21.8％。

图4A和图4B显示携带共享等位基因的片段(共享)与携带胎儿特异性等位基因的片段(胎儿特异性)之间的游离DNA的尺寸分布。x轴显示线性尺度(图4A)或对数尺度(图4B)上0kb至20kb的以碱基对为单位的尺寸。携带共享等位基因的片段(主要是母体起源)和携带胎儿特异性等位基因的片段(为胎盘起源)两者均展现长尾分布，表明来源于胎儿来源和母体来源两者的长DNA分子的存在。对于主要母体起源的片段，存在22.6％的尺寸大于2kb的血浆DNA分子，而对于胎儿起源的片段，存在8.5％的尺寸大于2kb的血浆DNA分子。这些结果表明，胎儿DNA分子含有较少长DNA分子。存在于此关于血浆DNA的胎儿起源和母体起源的基于SNP的分析中的长DNA百分比似乎比在总尺寸分析中观测到的长DNA百分比高得多。所述差异可能归因于以下事实：长DNA分子涵盖一个或多个SNP的概率高于短DNA分子涵盖一个或多个SNP的概率，且因此长DNA将有利地经选择用于基于SNP的分析。偏离对应的原始池中的长DNA比例的加SNP标签的长DNA分子的相对比例将受那些分子的尺寸控制。在那些胎儿特异性DNA片段当中，最长DNA片段为16,186bp，而在那些携带共享等位基因的片段当中，最长片段为24,166bp。

图5A和图5B显示携带共享等位基因的片段(共享)与携带胎儿特异性等位基因的片段(胎儿特异性)之间的游离DNA的尺寸分布。x轴显示线性尺度(图5A)或对数尺度(图5B)上0kb至5kb的以碱基对为单位的尺寸。对于胎儿特异性DNA片段和共享DNA片段两者的那些小于2kb的片段，存在以周期性方式出现的主峰系列。主峰可能与核小体结构经比对。

图6A和图6B显示携带共享等位基因的片段(共享)与携带胎儿特异性等位基因的片段(胎儿特异性)之间的游离DNA的尺寸分布。x轴显示线性尺度(图6A)或对数尺度(图6B)上0kb至1kb的以碱基对为单位的尺寸。对于胎儿特异性DNA片段和共享DNA片段两者的那些小于1kb的片段，存在以周期性方式出现的主峰系列。主峰可能与核小体结构比对。似乎存在朝向共享DNA片段尺寸概况的左侧的胎儿DNA尺寸概况的可观测位移，表明胎儿DNA将包括比母体DNA更多的短DNA分子。

图7A和图7B显示携带共享等位基因的片段(共享)与携带胎儿特异性等位基因的片段(胎儿特异性)之间的游离DNA的尺寸分布。x轴显示线性尺度(图7A)或对数尺度(图7B)上0bp至400bp的以碱基对为单位的尺寸。先前报告(Lo等人《科学转化医学》2010；2:61ra91)的在166bp下具有最主峰且10bp周期性出现于小于166bp的胎儿分子和母体分子两者中的特征特点也可使用本公开案的新型方法再现。这些结果表明，通过计数从本公开案的单分子测序的碱基数目测定分子尺寸是可靠的。

B.尺寸和甲基化分析

长游离母体和胎儿DNA分子的甲基化程度经分析。发现胎儿DNA分子的甲基化程度低于母体DNA分子的甲基化程度。

在PacBio SMRT测序中，DNA聚合酶介导互补股中并入经荧光标记的核苷酸。在DNA合成期间产生的荧光脉冲的包含脉冲间持续时间和脉冲宽度的特征将反映聚合酶动力学，所述聚合酶动力学可用于使用我们先前公开案(2020年8月17日提交的名为“《核酸的碱基修饰确定(DETERMINATION OF BASE MODIFICATIONS OF NUCLEIC ACIDS)》”的美国申请第16/995,607号)中所描述的途径确定例如但不限于5-甲基胞嘧啶的核苷酸修饰，所述案的全部内容出于所有目的以引用的方式并入本文中。

在实施例中，我们分别识别出95,210个携带母体特异性等位基因的片段和2,652个携带胎儿特异性等位基因的片段。母体特异性等位基因在本文中经定义为可自其中母亲为异型接合的且胎儿为同型接合的SNP识别的存在于母体基因组中但不存在于胎儿基因组中的那些等位基因。在此实例中，我们识别出总计677,375种所述信息性SNP。我们测定各游离DNA分子的尺寸。在一个实施例中，当基因组中的甲基化状态可变，例如CpG岛的甲基化程度一般低于不具有CpG岛的区的甲基化程度，以将由基因组情形引入的可变性降至最低时，我们可计算机模拟来选择大于1kb、含有至少5个CpG位点且对应于小于5％的CpG密度(即分子中的CpG位点数目除以所述分子的总长度<0.05)的片段以用于下游分析。

图8显示携带母体特异性等位基因的片段与携带胎儿特异性等位基因的片段之间的单分子双股DNA甲基化程度。y轴显示以百分比为单位的单分子双股DNA甲基化程度。x轴显示携带母体特异性等位基因的片段和携带胎儿特异性等位基因的片段两者。携带胎儿特异性等位基因的片段的单分子双股DNA甲基化程度(平均值：62.7％；四分位数范围IQR：50.0％-77.2％)低于携带母体特异性等位基因的片段的对应单分子双股DNA甲基化程度(平均值：72.7％；IQR：60.6％-83.3％)(P<0.0001)。

图9A显示通过于R套装(r-project.org/)中实施的核密度估计拟合的片段的单分子双股DNA甲基化程度的经验分布。频率示于y轴上。x轴显示以百分比为单位的单分子双股DNA甲基化程度。胎儿特异性长DNA片段的分布在母体特异性片段的分布的左侧中，表明较低单分子双股DNA甲基化程度存在于胎儿DNA分子中。

图9B显示使用单分子双股DNA甲基化程度进行的接收者操作特征(ROC)分析。y轴显示灵敏度。x轴显示特异性。使用单分子双股DNA甲基化程度执行ROC分析以使用单分子双股DNA甲基化程度研究区分胎儿DNA片段与母体DNA片段的动力，发现ROC曲线下面积(AUC)为0.62，大于0.5的随机猜测结果。在实施例中，我们可在单分子中利用甲基化状态的空间模式(如甲基化状态的序列)、经修饰碱基与基因组坐标之间的相对或绝对距离以进一步改善血浆中的片段的胎儿/母体起源确定。在实施例中，我们可组合甲基化模式与其它片段化体学度量(fragmentomic metric)(即关于DNA片段化的参数)，所述片段化体学度量包含但不限于偏好末端(Chan等人《美国国家科学院院刊》2016；113:E8159-8168)、末端基序(Serpas等人《美国国家科学院院刊》2019；116:641-649)、尺寸(Lo等人《科学转化医学》2010；2:61ra)、取向感知(即关于基因组内的特定元件，例如开放染色质区、片段化模式的取向(Sun等人《基因组研究(Genomes Res.)》2019；29:418-427))、拓朴形式(例如线性对环形DNA分子(Ma等人《临床化学》2019；65:1161-1170))，从而改善区分胎盘起源(胎儿起源)的片段的分类动力。

图10A和图10B显示根据片段尺寸变化的胎儿DNA片段和母体DNA片段两者的单分子双股DNA甲基化程度。y轴显示以百分比为单位的单分子双股DNA甲基化程度。x轴显示0kb至大于20kb的尺寸(图10A)和0kb至大于1kb的尺寸(图10B)。另一方面，在长范围(图10A)和短范围(图10B)两者内，胎儿特异性DNA分子的单分子双股DNA甲基化程度一般低于母体特异性DNA分子的单分子双股DNA甲基化程度。对于短DNA分子，此发现与孕妇血浆中胎儿DNA的甲基化程度低于母体DNA的甲基化程度的现行认识一致(Lun等人,《临床化学》2013；59:1583-94)。

在实施例中，因为胎儿DNA分子的甲基化程度相对地低于母体DNA分子的甲基化程度，因此我们将选择单分子双股DNA甲基化程度小于如但不限于80％、70％、60％、50％、40％、30％、20％、10％和5％的特定阈值的分子，以在血浆DNA池中富集胎儿起源的游离DNA分子。举例来说，对于>1kb的片段，胎儿DNA分率为2.6％。如果我们选择单分子双股甲基化程度<50％的片段(>1kb)，则那些经进一步选择的>1kb的片段的胎儿DNA分率将增加至5.6％(即115.4％增加)。在另一实例中，对于<200bp的片段，胎儿DNA分率为26.2％。如果我们选择单分子双股甲基化程度<50％的片段(<200bp)，则那些经进一步选择的>200bp的片段的胎儿DNA分率将增加至41.6％(即58.8％)。因此，在某些情形下，阈值单分子双股DNA甲基化程度用于富集胎儿DNA的用途将对长DNA分子更有效。

C.单倍型和长游离DNA甲基化

在实施例中，我们可使用本公开案中所描述的方法获得各单个DNA分子的碱基组成、尺寸和碱基修饰。长游离DNA分子的SNP和甲基化信息可用于单倍型分析。存在于本公开案中披露的游离DNA池中的长DNA分子的使用将允许通过根据但不限于公布方法，利用存在于各共同序列中的单倍型信息来定相基因组中的变体(Edge等人《基因组研究》2017；27:801-812；Wenger等人《自然-生物技术(Nat Biotechnol.)》2019；37:1155-1162)。根据游离DNA的序列信息确定单倍型的实施方案与必须依赖于由组织DNA制备的长DNA的先前研究不同。基因组区内的单倍型有时可称为单倍型区块。单倍型区块可视为染色体上已经定相的一组等位基因。在一些实施例中，根据支持在染色体上以物理方式连接的两个等位基因的一组序列信息以及不同序列之间的等位基因重叠信息，单倍型区块将尽可能长地延伸。

图11A和图11B显示孕妇母体血浆DNA中的经识别的长胎儿特异性DNA分子的实例。在那些胎儿特异性DNA片段当中，我们特此说明我们发明的实施例使用一个与人类参考基因组的染色体10(chr10:56282981-56299166)中的区比对(图11A)且携带7个胎儿特异性等位基因(图11B)的16,186bp分子。7个胎儿特异性等位基因中有6个与从母体和胎儿基因组的深度测序(使用Illumina平台)推断的等位基因信息一致的胎儿特异性等位基因(图11B)。根据本公开案中所描述的方法，其甲基化程度经测定为27.1％(图11B)，比母体特异性片段的平均程度(72.7％)低得多。这些结果表明，单分子双股DNA甲基化模式将充当区分胎儿与母体起源的游离DNA分子的标记物。

图12A和图12B显示孕妇母体血浆DNA中的经识别的携带共享等位基因的长母体DNA分子的实例。在那些携带共享等位基因的片段当中，与人类参考物的染色体6(chr6:111074371-111098536)中的区比对(图12A)且携带18个共享等位基因(图12B)的最长片段为24,166bp。所有那些共享等位基因均与从母体和胎儿基因组的深度测序(使用Illumina平台)推断的等位基因信息一致(图12B)。根据本公开案中所描述的方法，其甲基化程度经测定为66.9％(图12B)。长度约为千碱基的游离DNA分子的遗传和表观遗传信息不能够易于通过使用如亚硫酸氢盐测序(Illumina)的短读段测序加以识别。

此处，我们描述用于确定分子来源于孕妇或胎儿的相对可能性的方法。在孕妇中，携带胎儿基因型的DNA分子实际上来源于胎盘，而大部分携带母体基因型的DNA分子来源于母体血细胞。在此方法中，我们首先根据针对胎盘和母体血细胞两者的DNA分子的甲基化程度构建DNA分子的频率分布曲线。为了达成此举，我们将人类基因组分配至不同尺寸化位元子中。

图13显示根据甲基化程度在1kb至20kb的不同分辨率下的来自胎盘的DNA(红色)和来自母体血细胞的DNA(蓝色)的频率分布。频率示于y轴上。甲基化程度示于x轴上。位元子尺寸的实例包含但不限于1kb、2kb、5kb、10kb、15kb和20kb。各位元子的甲基化程度是基于甲基化CpG位点数目除以CpG位点总数来测定。在测定所有位元子的甲基化程度之后，可针对不同位元子尺寸构建胎盘基因组和母体血细胞基因组中的各者的频率分布曲线。

基于长DNA分子的甲基化程度，其来源于胎盘或母体血细胞的可能性可通过在此类甲基化程度下的两种类型的DNA分子的相对丰度以及样本中的胎儿DNA的分率浓度确定。

使x和y分别为在特定甲基化程度下的来源于胎盘和母体血细胞的DNA分子的频率，且f为样本中的胎儿DNA的分率浓度。

DNA分子来源于胎儿的机率(P)可计算为：

根据前一实例，考虑16kb和27.1％甲基化程度的血浆DNA分子。

图14A和图14B显示根据甲基化程度在16kb(图14A)和24kb(图14B)窗口内的来自胎盘的DNA(红色)和来自母体血细胞的DNA(蓝色)的频率分布。频率示于y轴上。甲基化程度示于x轴上。基于16kb片段的频率分布图(图14A)，来源于胎盘和母体血细胞的DNA分子的频率分别为0.6％和0.08％。当胎儿DNA分率为21.8％时，此DNA片段来源于胎盘的机率为64％，表明胎盘起源的可能性增加。

也可计算24kb和66.9％甲基化程度的血浆DNA分子的DNA分子来源于胎儿组织的机率。基于24kb片段的频率分布图，来源于胎盘和母体血细胞的DNA分子的频率分别为0.05％和0.16％(图14B)。此DNA片段来源于胎盘的机率为0.8％，表明其为胎盘起源是极不可能的。换句话说，存在分子是母体起源的高可能性。

此计算可进一步通过提及胎儿DNA和母体DNA的尺寸分布曲线来考虑DNA分子的尺寸。所述分析可例如但不限于使用贝氏定理(Bayes's theorem)、逻辑回归、多元回归和支持向量机、随机森林分析、分类和回归树(CART)、K最近相邻算法来执行。

图15A和图15B显示与人类参考物的染色体8(chr8:108694010-108712904)中的区(图15A)比对且携带7个母体特异性等位基因(图15B)的血浆中的长DNA片段的尺寸为18,896bp。所有那些母体特异性等位基因均与从母体和胎儿基因组的深度测序(Illumina技术)推断的等位基因信息一致(图15B)。根据本公开案中所描述的方法，其甲基化程度经测定为72.6％(图15B)，显示与母体特异性片段的综合甲基化程度(72.7％)相当。因此，此类分子将更可能归类为母体起源的片段。长度约为千碱基的游离DNA分子的遗传和表观遗传信息不能够易于通过使用如亚硫酸氢盐测序(Illumina)的短读段测序加以识别。

使用上文所描述的方法可计算此分子来源于胎盘的机率。基于19kb片段的频率分布图，来源于胎盘和母体血细胞的DNA分子的频率分别为0.65％和0.23％。此DNA片段来源于胎盘的机率为43％，表明其是母体起源的可能性增加。

D.临床单倍型分析应用

在实施例中，分析孕妇血浆DNA中的短DNA分子和长DNA分子两者的能力将允许我们进行相对单倍型剂量(RHDO)分析(Lo等人《科学转化医学》2010；2:61ra91；Hui等人《临床化学》2017；63:513-524)且不要求先前获自组织的父体或母体或胎儿基因型信息。此能力将比先前可能的更具成本效益且临床上适用。

图16绘示此关于我们可如何使用孕妇体内的游离DNA进行RHDO分析的原理。从孕妇分离游离DNA且使其在阶段1605经受SMRT测序。包含长DNA分子和短DNA分子的各分子的尺寸、等位基因信息和甲基化状态可根据本公开案中所描述的方法加以测定。在阶段1610，根据尺寸信息，我们可将经测序分子划分成两个类别，即长DNA分子和短DNA分子。用于确定长DNA类别和短DNA类别的截止值可包含但不限于150bp、180bp、200bp、250bp、300bp、350bp、400bp、450bp、500bp、550bp、600bp、650bp、700bp、750bp、800bp、850bp、900bp、950bp、1kb、1.1kb、1.2kb、1.3kb、1.4kb、1.5kb、1.6kb、1.7kb、1.8kb、1.9kb、2kb、2.5kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、15kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、200kb、300kb、400kb、500kb或1Mb。在实施例中，在阶段1615，存在于长DNA分子中的等位基因信息可用于构筑母体单倍型，即Hap I和Hap II。短DNA分子可根据等位基因信息与母体单倍型进行比对。因此，源自母体Hap I和Hap II的游离DNA分子(例如短DNA)数目可经测定。

在阶段1620，单倍型的不平衡可经分析。不平衡可为分子计数、分子尺寸或分子甲基化状态。在阶段1625，可推断胎儿的母体遗传。如果母体血浆DNA中的Hap I的剂量经过度呈现，则胎儿将可能遗传母体Hap I。否则，胎儿将可能遗传母体Hap II。包含但不限于逐次机率比检定(SPRT)、二项式检定、卡方检定(Chi-squared test)、司徒顿t字检定(Student'st-test)、非参数检定(例如威尔卡森检定(Wilcoxon test))和隐藏马可夫模型(hiddenMarkov model)的不同统计途径将用于确定哪个母体单倍型经过度呈现。

在实施例中，除计数分析的外，短DNA分子的甲基化和尺寸也经测定且经指派至母体单倍型。两个单倍型(即Hap I和Hap II)之间的甲基化不平衡可用于确定胎儿遗传的母体单倍型。如果胎儿已遗传Hap I，则相较于携带Hap II的等位基因的片段而言，在母体血浆中存在更多携带Hap I的等位基因的片段。来源于胎儿的DNA片段的低甲基化会使Hap I的甲基化程度低于Hap II的甲基化程度。换句话说，如果Hap I的甲基化显示低于Hap II的甲基化程度，则胎儿将更可能遗传母体Hap I。否则，胎儿将更可能遗传母体Hap II。在另一实施例中，单独的片段来源于胎儿或母亲的机率可如上文所描述加以计算。对于所有与HapI比对的片段，这些片段来源于胎儿的集合机率可基于贝氏定理加以测定。类似地，这些片段来源于胎儿的集合机率可针对Hap II加以计算。随后，胎儿遗传Hap I或Hap II的可能性可基于两个集合机率加以推断。

在实施例中，两个单倍型(即Hap I和Hap II)之间的尺寸延长或缩短可用于确定胎儿遗传的母体单倍型。如果胎儿已遗传Hap I，则相较于携带Hap II的等位基因的片段而言，在母体血浆中存在更多携带Hap I的等位基因的片段。来源于胎儿的DNA片段将相对地短于来源于Hap II的DNA片段。换句话说，如果源自Hap I的分子含有比Hap II更多的短DNA，则胎儿将更可能遗传母体Hap I。否则，胎儿将更可能遗传母体Hap II。

在一些实施例中，我们可执行母体Hap I与Hap II之间的计数、尺寸和甲基化合并分析以推断胎儿的母体遗传。举例来说，我们可使用逻辑回归以组合包含计数、尺寸和甲基化状态的那些三个度量。

在临床实践中，关于计数、尺寸和甲基化状态的基于单倍型的分析将允许判定未出生胎儿是否已遗传与遗传病症相关的母体单倍型，所述遗传病症例如但不限于包含X染色体脆裂症、肌肉萎缩症、亨廷顿氏舞蹈症(Huntington disease)或β-地中海型贫血的单基因病症。本公开案中单独地描述涉及长游离读段中的DNA序列的重复序列的病症检测。

E.长游离DNA分子的靶向测序

本公开案中所描述的方法也可应用于分析一个或多个经选择的长DNA片段。在实施例中，所关注的一个或多个长DNA片段可首先通过杂交方法进行富集，所述杂交方法允许来自所关注的一个或多个区的DNA分子与具有互补序列的合成寡核苷酸杂交。为了使用本公开案中所描述的方法将所有尺寸、遗传和表观遗传信息解码成一个，目标DNA分子在经受测序之前优选不通过PCR扩增，这是因为原始DNA分子中的碱基修饰信息将不转移至PCR产物。

已研发出数种用于在不执行PCR扩增的情况下富集这些目标区域的方法。在另一实施例中，一个或多个目标长DNA分子可经由使用集群规律间隔短回文重复序列(CRISPR)-CRISPR相关蛋白9(Cas9)系统加以富集(Stevens等人《公共科学图书馆·综合(PLOS One)》2019；14(4):e0215441；Watson等人《实验室研究(Lab Invest)》2020；100:135-146)。即使所述CRISPR-Cas9介导的切割将更改原始长DNA分子的尺寸，其遗传和表观遗传信息仍得以保存且能够使用本公开案中所描述的方法获得，包含但不限于碱基含量、单倍型(即相)信息、重新突变、碱基修饰(例如4mC(N4-甲基胞嘧啶)、5hmC(5-羟甲基胞嘧啶)、5fC(5-甲酰基胞嘧啶)、5caC(5-羧基胞嘧啶)、1mA(N1-甲基腺嘌呤)、3mA(N3-甲基腺嘌呤)、7mA(N7-甲基腺嘌呤)、3mC(N3-甲基胞嘧啶)、2mG(N2-甲基鸟嘌呤)、6mG(O6-甲基鸟嘌呤)、7mG(N7-甲基鸟嘌呤)、3mT(N3-甲基胸腺嘧啶)、4mT(O4-甲基胸腺嘧啶)和8oxoG(8-氧代基鸟嘌呤)。在实施例中，首先将DNA样本中的DNA分子的末端去磷酸化，以使其不易直接接合至测序衔接子。随后，Cas9蛋白与引导RNA(crRNA)导向所关注的长DNA分子以产生双股切割。接着，将通过在两侧上进行双股切割侧接的所关注的长DNA分子接合至所选测序平台规定的测序衔接子。在另一实施例中，可用核酸外切酶处理DNA，以使Cas9蛋白未结合的DNA分子降解(Stevens等人《公共科学图书馆·综合》2019；14(4):e0215441)。由于这些方法不涉及PCR扩增，因此可对具有碱基修饰的原始DNA分子进行测序，且确定碱基修饰。

在实施例中，这些方法可用于通过参考如人类参考基因组(hg19)的参考基因组设计引导RNA，例如长散布核元件(LINE)重复序列来靶向大量共享同源序列的长DNA分子。在一个实例中，此类分析可用于分析母体血浆中的循环游离DNA，以检测胎儿非整倍体(Kinde等人《公共科学图书馆·综合》2012；7(7):e41162)。在实施例中，经去活化或‘死’Cas9(dCas9)和其相关单引导RNA(sgRNA)可用于在不切割双股DNA分子的情况下富集经靶向长DNA。举例来说，sgRNA的3'端可经设计以携带额外通用短序列。我们可使用与所述通用短序列互补的经生物素标记的单股寡核苷酸以捕获dCas9所结合的那些经靶向长DNA分子。在另一实施例中，我们可使用经生物素标记的dCas9蛋白或sgRNA或两者以促进富集。

在实施例中，我们可执行尺寸选择以在对所关注的一个或多个特定基因组区无限制的情况下使用包含但不限于化学方法、物理方法、酶方法、基于凝胶的方法和基于磁珠的方法或合并远不止所述途径的方法的途径富集长DNA片段。在其它实施例中，免疫沉淀可用于富集具有特定甲基化概况的DNA片段，如通过使用抗甲基胞嘧啶抗体和甲基结合蛋白加以介导。经结合或捕获DNA的甲基化概况可使用非甲基化感知测序来确定。

F.基于长血浆DNA分子的胎儿遗传分析的一般概念

图17绘示具有母体和胎儿起源的信息的血浆DNA分子中的遗传/表观遗传病症的确定。孕妇体内的长血浆DNA分子可根据所述分子整体或部分[即区(a)]中的CpG位点的遗传和/或表观遗传概况经确定是胎儿或母体起源。遗传信息可为但不限于序列信息、单核苷酸多型性、插入、缺失、串联重复序列、卫星DNA、微卫星、小卫星、反转等。表观遗传信息可为一个或多个CpG位点的甲基化状态以及其在血浆DNA分子中的相对次序。在另一实施例中，表观遗传信息可为A、C、G或T中任一者的修饰。具有组织起源信息的长血浆DNA可用于通过确定此类长血浆DNA分子[即区(b)]中的遗传和/或表观遗传病症的存在进行非侵入性产前测试。

图18绘示胎儿异常片段的识别。作为一实例，基于本公开案的区(a)的甲基化模式识别长DNA片段是胎儿起源。我们可基于此类胎儿起源的分子确定胎儿受遗传或表观遗传病症影响的可能性。遗传病症可涉及单核苷酸变体、插入、缺失、串联重复序列、卫星DNA、微卫星、小卫星、反转等。遗传病症的实例包含但不限于：β-地中海型贫血、α-地中海型贫血、镰状细胞性贫血、囊肿纤维化、性联遗传病症(例如血友病、杜兴氏肌肉萎缩症(Duchennemuscular dystrophy))、脊髓性肌肉萎缩症、先天性肾上腺增生等。表观遗传病症可例如甲基化增加(即高甲基化)或损失(低甲基化)的异常DNA甲基化程度。表观遗传病症的实例包含但不限于X染色体脆裂症、安裘曼氏综合征(Angelman's syndrome)、普-威二氏综合征(Prader-Willi syndrome)、面肩臂肌肉萎缩症(FSHD)、免疫缺乏症、着丝粒不稳定性和脸部异常(ICF)综合征等。可发现遗传或表观遗传病症存在于区(b)中。

G.改善测序准确度

测序准确度可用长游离DNA片段的序列读段加以改善。在图11B中，在长胎儿特异性DNA分子中的7个等位基因当中，有1个似乎在PacBio与Illumina测序之间不一致的等位基因。

图19A-19G显示使用PacBio测序进行的游离DNA基因分型的误差校正图示。我们目测到图11B的那些7个位点的子读段比对结果。第1列指示基因组坐标；第2列为参考序列。第3列和后续列指示经比对子读段。举例来说，在图19A中，存在8个穿过所述区的子读段。‘.’表示与沃森股中的参考碱基相同。‘,’表示与克里克股中的参考碱基相同。‘字母’表示替代性等位基因。‘*’表示插入和/或缺失。我们可看到，图19F中所示的不一致位点主碱基在共同序列中称为‘T’。然而，在9个于所述位点中的子读段当中(图19F)，9个子读段中仅有5个(即56％主等位基因分率(MAF))经确定为‘T’，而其它子读段经确定为‘C’。此位点的主等位基因分率(图19F)低于其它位点的主等位基因分率(图19A-E和图19G)(MAF范围：67％-89％)。因此，如果我们例如使用至少60％的MAF设定用于确定共同序列中的各位点的碱基组成的严格准则，则此误差位点将经排除在下游解译的外。另一方面，此类错误位点碰巧落入同聚物(即一系列连续相同碱基‘TTTTTTT’)内。在实施例中，我们可设定使得同聚物内的变体经旗标为QC失败且暂时不用于下游分析的准则。在实施例中，我们可应用不同定位质量和碱基质量以校正或过滤低质量碱基或子读段来改善碱基组成分析。

在纳米孔测序的测序准确度经进一步改善的情况下，本发明的实施例也可与此类经改善的测序平台一起使用且因此产生改善的准确度。

H.实例方法

来自获自孕妇的具有游离DNA片段的生物样本的长游离DNA片段可经测序。这些长游离DNA片段可用于确定胎儿的单倍型遗传。

1.测序长游离DNA片段

图20显示分析怀孕生物的生物样本的方法2000。生物样本可包含多个游离核酸分子。生物样本可为本文所描述的任何生物样本。大于20％的生物样本中的游离核酸分子的尺寸大于200nt(核苷酸)。

在区块2010处，测序多个游离核酸分子。测序可通过单分子实时技术进行。在一些实施例中，测序可通过使用纳米孔进行。

大于20％的经测序的多个游离核酸分子可具有大于200nt的长度。在一些实施例中，15％-20％、20％-25％、25％-30％、30％-35％或超过35％的经测序的多个游离核酸分子可具有大于200nt的长度。

在一些实施例中，大于11％的经测序的多个游离核酸分子可具有大于400nt的长度。在实施例中，5％-10％、10％-15％、15％-20％、20％-25％或超过25％的经测序的多个游离核酸分子可具有大于400nt的长度。

在一些实施例中，大于10％的经测序的多个游离核酸分子可具有大于500nt的长度。在实施例中，5％-10％、10％-15％、15％-20％、20％-25％或超过25％的经测序的多个游离核酸分子可具有大于500nt的长度。

在实施例中，大于8％的经测序的多个游离核酸分子可具有大于600nt的长度。在实施例中，5％-10％、10％-15％、15％-20％、20％-25％或超过25％的经测序的多个游离核酸分子可具有大于600nt的长度。

在一些实施例中，大于6％的经测序的多个游离核酸分子可具有大于1knt的长度。在实施例中，3％-5％、5％-10％、10％-15％、15％-20％、20％-25％或超过25％的经测序的多个游离核酸分子可具有大于1knt的长度。

在实施例中，大于3％的经测序的多个游离核酸分子可具有大于2knt的长度。在实施例中，1％-5％、5％-10％、10％-15％、15％-20％、20％-25％或超过25％的经测序的多个游离核酸分子可具有大于2knt的长度。

在实施例中，大于1％的经测序的多个游离核酸分子可具有大于3knt的长度。在实施例中，1％-5％、5％-10％、10％-15％、15％-20％、20％-25％或超过25％的经测序的多个游离核酸分子可具有大于3knt的长度。

在一些实施例中，至少0.9％的经测序的多个游离核酸分子可具有大于4knt的长度。在实施例中，0.5％-1％、1％-5％、5％-10％、10％-15％、15％-20％或超过20％的经测序的多个游离核酸分子可具有大于4knt的长度。

在一些实施例中，至少0.04％的经测序的多个游离核酸分子可具有大于10knt的长度。在实施例中，0.01％至0.1％、0.1％至0.5％、0.5％-1％、1％-5％、5％-10％、10％-15％或超过15％的经测序的多个游离核酸分子可具有大于4knt的长度。

多个游离核酸分子可包含至少10、50、100、150或200个游离核酸分子。多个游离核酸分子可来自多个不同基因组区。举例来说，多个染色体臂或染色体可由游离核酸分子涵盖。多个游离核酸分子中的至少两个可对应于非重叠区。

测序长游离DNA片段的方法可通过本文所描述的任何方法使用。来自测序的读段可用于确定胎儿非整倍体、畸变(例如复本数畸变)、遗传(genetic)突变或变异或亲本单倍型遗传(inheritance)。序列读段的量可表示游离DNA片段的量。

2.单倍型遗传

图21显示分析获自怀有胎儿的女性的生物样本的方法2100。女性可在第一染色体区中具有第一单倍型和第二单倍型。生物样本可包含来自胎儿和女性的多个游离DNA分子。生物样本可为本文所描述的任何生物样本。

在区块2105处，可接收对应于多个游离DNA分子的读段。读段可为序列读段。在一些实施例中，所述方法可包含执行测序。

在区块2110处，可测量多个游离DNA分子的尺寸。尺寸可通过将对应于DNA分子的末端的一个或多个序列读段与参考基因组进行比对来测量。尺寸可通过对DNA分子进行全长测序且随后计数全长序列中的核苷酸数目来测量。最外面核苷酸处的基因组坐标可用于测定DNA分子的长度。

在区块2115处，可识别来自多个游离DNA分子的第一组游离DNA分子为具有大于或等于截止值的尺寸。截止值可为与长DNA相关的任何截止值。举例来说，截止值可包含150bp、180bp、200bp、250bp、300bp、350bp、400bp、450bp、500bp、550bp、600bp、650bp、700bp、750bp、800bp、850bp、900bp、950bp、1kb、1.5kb、2kb、2.5kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、15kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、200kb、300kb、400kb、500kb或1Mb。

在区块2120处，可从对应于第一组游离DNA分子的读段确定第一单倍型的序列和第二单倍型的序列。确定第一单倍型的序列和第二单倍型的序列可包含将对应于第一组游离DNA分子的读段与参考基因组进行比对。

在一些实施例中，确定第一单倍型的序列和第二单倍型的序列可不包含参考基因组。确测序列可包含将读段的第一子组与读段的第二子组进行比对以识别读段中的基因座处的不同等位基因。所述方法可包含确定读段的第一子组在基因座处具有第一等位基因。所述方法也可包含确定读段的第二子组在基因座处具有第二等位基因。所述方法可进一步包含确定读段的第一子组对应于第一单倍型。另外，所述方法可包含确定读段的第二子组对应于第二单倍型。所述比对可与用图16描述的比对类似。

在区块2125处，可将来自多个游离DNA分子的第二组游离DNA分子与第一单倍型的序列进行比对。第二组游离DNA分子可具有小于截止值的尺寸。第二组游离DNA分子可为第一单倍型的短DNA分子。

在区块2130处，可将来自多个游离DNA分子的第三组游离DNA分子与第二单倍型的序列进行比对。第三组游离DNA分子可具有小于截止值的尺寸。第三组游离DNA分子可为第二单倍型的短DNA分子。

在区块2135处，可使用第二组游离DNA分子测量参数的第一值。参数可为游离DNA分子的计数、游离DNA分子的尺寸概况或游离DNA分子的甲基化程度。值可为原始值或统计值(例如平均值、中值、众数、百分位数、最小值、最大值)。在一些实施例中，值可经标准化至参考样本、另一区、两个单倍型或其它尺寸范围的参数的值。

在区块2140处，可使用第三组游离DNA分子测量参数的第二值。所述参数为与第二组游离DNA分子的参数相同的参数。

在区块2145处，可将第一值与第二值进行比较。比较可使用分离值。可使用第一值和第二值计算分离值。可将分离值与截止值进行比较。分离值可为本文所描述的任何分离值。截止值可从来自怀有整倍体胎儿的怀孕女性的参考样本确定。在其它实施例中，截止值可从来自怀有非整倍体胎儿的怀孕女性的参考样本确定。在一些实施例中，假定为非整倍体胎儿，可确定截止值。举例来说，来自怀有整倍体胎儿的怀孕女性的参考样本的数据可经调整以解释非整倍体的染色体区的复本数增加或减少。截止值可由调整数据来确定。

在2150处，可基于第一值与第二值的比较确定胎儿遗传第一单倍型的可能性。可基于分离值与截止值的比较确定所述可能性。当参数为游离DNA分子的尺寸概况时，所述方法可包含当第一值小于第二值时，确定胎儿具有比遗传第二单倍型高的遗传第一单倍型的可能性，指示第二组游离DNA分子的特征在于比第三组游离DNA分子小的尺寸概况。当参数为游离DNA分子的甲基化程度时，所述方法可包含当第一值小于第二值时，确定胎儿具有比遗传第二单倍型高的遗传第一单倍型的可能性。

在一些实施例中，方法可包含识别对应于第一组游离DNA分子的所述读段中的一读段中的子序列的重复序列的数目。确定第一单倍型的序列可包含确测序列包含子序列的重复序列的数目。第一单倍型可包含重复序列相关疾病，所述重复序列相关疾病可为本文所描述的任何重复序列相关疾病。胎儿遗传重复序列相关疾病的可能性可经确定。胎儿遗传重复序列相关疾病的可能性可与胎儿遗传第一单倍型的可能性相当或类似。识别序列的重复序列之后描述于本公开案中，包含用图16加以描述。

II.使用甲基化分析起源组织

长游离DNA分子可具有数个甲基化位点。如本公开案中所论述，孕妇体内的长游离DNA分子的甲基化程度可用于确定起源组织。另外，存在于长游离DNA分子上的甲基化模式可用于确定起源组织。

与白血细胞和来自例如但不限于肝、肺、食道、心脏、胰脏、结肠、小肠、脂肪组织、肾上腺、脑等的组织的细胞相比，来自胎盘组织的细胞具有独特甲基化组学模式(methylomic pattern)(Sun等人《美国国家科学院院刊》2015；112:E5503-12)。怀孕母亲血液中的循环胎儿DNA的甲基化概况可相似于胎盘中的循环胎儿DNA的甲基化概况，因此提供探索用于产生不视胎儿性别或基因型而定的非侵入性胎儿特异性生物标记物的手段的可能性。然而，孕妇的母体血浆DNA的亚硫酸氢盐测序(例如使用Illumina测序平台)可能由于以下多个限制而缺乏区分胎儿起源的分子与母体起源的分子的能力：(1)血浆DNA可在亚硫酸氢盐处理期间经降解，且长DNA分子通常将断裂成较短分子；(2)大于500bp的DNA分子可能不会经Illumina测序平台有效地测序用于下游分析(Tan等人《科学报告(Sci Rep.)》2019；9:2856)。

对于基于甲基化的关于起源组织的分析，我们可聚焦于几个差异甲基化区(DMR)且使用来自与DMR相关的多个分子的集合甲基化信号(Sun等人《美国国家科学院院刊》2015；112:E5503-12)代替单分子甲基化模式。多项研究尝试使用基于甲基化敏感限制酶的途径(Chan等人《临床化学》2006；52:2211-8)或基于甲基化特异性PCR的途径(Lo等人《美国人类遗传学期刊(Am J Hum Genet.)》1998；62:768-75)以评估胎盘对血浆DNA池的贡献。然而，那些研究仅适合于分析一个或几个标记物且可能对用于在全基因组尺度上分析分子具挑战性。然而，那些读段是从经扩增信号(即于流量槽中的在DNA文库制备期间的基于PCR的扩增和在测序集群生成期间的桥式扩增)推断而来。所述扩增步骤可潜在地引起偏好短DNA分子，导致与长DNA分子相关的信息损失。此外，Li等人仅分析与先前经开发的DMR相关的那些读段(Li等人,《核酸研究(Nuclei Acids Res.)》2018；46:e89)。

在本公开案中，我们描述用于基于单个DNA分子的甲基化模式在无亚硫酸氢盐处理和DNA扩增的情况下区分孕妇血浆中的胎儿DNA分子与母体DNA分子的新途径。在实施例中，一个或多个长血浆DNA分子将用于分析(例如使用生物信息学和/或针对尺寸选择的实验分析进行)。长DNA分子可定义为尺寸为至少但不限于100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、10kb、20kb、30kb、40kb、50kb、100kb、200kb等的DNA分子。存在少量关于母体血浆中的较长游离DNA分子的存在和甲基化状态的数据。举例来说，尚不知晓所述较长游离DNA分子的甲基化状态是否将反映起源组织的细胞DNA的甲基化状态，例如因此长片段具有更多在于身体中发生片段化之后甲基化状态可能会改变的位点；当片段在血浆中循环时，此类改变可能会发生。举例来说，研究已显示，循环DNA的甲基化状态与DNA片段的尺寸相关(Lun等人《临床化学》2013；59:1583-94)。因此，从所述较长游离DNA分子推断起源组织的可行性是未知的。因此，为了识别组织相关甲基化记号所采取的途径和为了确定且解释所述组织特异性较长游离DNA分子的存在所采取的方法实质上与应用于短游离DNA分析的途径和方法不同。

根据本公开案的实施例，我们可识别短DNA分子和长DNA分子且确定其包含但不限于甲基化模式、片段末端、尺寸和碱基组成的生物学特征。短DNA分子可定义为尺寸小于但不限于50bp、60bp、70bp、80bp、90bp、100bp、200bp、300bp等的DNA分子。短DNA分子可为不在视为长的范围内的DNA分子。我们描述用于推断孕妇血浆中的循环DNA分子的起源组织的新途径。此新途径在血浆中的一个或多个长DNA分子上利用甲基化模式。DNA分子越长，其可能含有的CpG位点数目越多。多个CpG位点在血浆DNA分子上的存在将提供起源组织信息，即使任何单个CpG位点的甲基化状态可能不会为确定起源组织提供信息。长DNA分子中的所述甲基化模式可包含各CpG位点的甲基化状态、甲基化状态的次序和任何两个CpG位点之间的距离。两个CpG位点之间的甲基化状态可视两个CpG位点之间的距离而定。当分子中的特定距离内的CpG位点(例如CpG岛)展现组织特异性模式时，统计模型可在起源组织分析期间向那些信号指派更多权重。

图22示意性绘示此原理。图22显示DNA分子的甲基化模式。显示用于不同组织(胎盘、肝、血细胞、结肠)的七个CpG位点和六个血浆DNA片段A-E。甲基化CpG位点以红色示出，且未甲基化CpG位点以绿色示出。作为一实例，我们考虑跨胎盘、肝、血细胞和结肠组织的7个具有各种甲基化状态的CpG位点。我们考虑以下情境：单个CpG位点不展现相较于其它组织而言对胎盘具有特异性的甲基化状态。因此，具有可变尺寸的那些血浆DNA分子A、B、C、D和E的起源组织可不仅基于单个CpG位点处的甲基化状态来确定。对于血浆DNA分子A和B，因为所述两个分子的尺寸相对地短，因此分别仅含有3个和4个CpG位点。在实施例中，含有超过一个CpG位点的DNA分子中的甲基化模式可定义为甲基化单倍型。如图22中所示，血浆DNA分子A和B可基于其甲基化单倍型由胎盘或肝贡献，这是因为胎盘和肝在对应于分子A的那些基因组位置(位置1、2和3)和对应于分子B的那些基因组位置(位置1、2、3和4)中共享相同甲基化单倍型。然而，当我们可在血浆中获得如分子C、D和E的长DNA分子时，可基于甲基化单倍型明确地确定那些分子C、D和E来源于胎盘。

组织的参考模式可基于参考组织的甲基化模式。在一些实施例中，甲基化模式可基于数个读段和/或样本。各CpG位点的甲基化程度(也称为甲基化指数MI且描述于下文中)可用于判定位点是否为甲基化的。

A.用于甲基化模式的统计模型

在实施例中，血浆DNA分子来源于胎盘的可能性可通过比较单个DNA分子的甲基化单倍型与多个参考组织中的甲基化模式来确定。长血浆DNA分子可对所述分析有利。长DNA分子可定义为尺寸为至少但不限于100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、10kb、20kb、30kb、40kb、50kb、100kb、200kb等的DNA分子。参考组织可包含但不限于胎盘、肝、肺、食道、心脏、胰脏、结肠、小肠、脂肪组织、肾上腺、脑、嗜中性白血细胞、淋巴球、嗜碱性球、嗜酸性球等。在实施例中，我们可通过协同分析利用单分子实时测序确定的血浆DNA的甲基化单倍型和基于参考组织的全基因组亚硫酸氢盐测序的甲基化组数据来确定血浆DNA分子来源于胎盘的可能性。作为一实例，使用全基因组亚硫酸氢盐测序分别将胎盘和血沉棕黄层样本测序至单倍体基因组的平均94倍和75倍基因组涵盖度。基于经测序胞嘧啶数目(即甲基化，由C表示)和经测序胸嘧啶数目(即未甲基化，由T表示)使用下式计算各CpG位点的甲基化程度(也称为甲基化指数MI)：

基于从胎盘DNA推断的MI值将CpG位点分级成三个类别：

1.类别A MI值≥70的CpG位点。

2.类别B MI值在30与70之间的CpG位点。

3.类别C MI值为≤30的CpG位点。

类似地，使用从血沉棕黄层DNA推断的CpG位点处的MI值将CpG位点分类成三个类别：

1.类别A MI值≥70的CpG位点。

2.类别B MI值在30与70之间的CpG位点。

3.类别C MI值为≤30的CpG位点。

类别使用30和70的MI截止值。截止值可包含其它数值，包含10、20、40、50、60、80或90。在一些实施例中，这些类别可用于确定参考组织的参考甲基化模式(例如用图22加以描述供使用)。类别A位点可视为甲基化的。类别C位点可视为未甲基化的。类别B位点可视为非信息性的且不包含于参考模式中。

对于具有n个CpG位点的血浆DNA分子，各CpG位点的甲基化状态通过我们先前公开案(美国申请第16/995,607号)中所描述的途径来确定。在一些实施例中，甲基化状态可通过亚硫酸氢盐测序或用纳米孔测序来确定。为了确定血浆DNA分子来源于胎盘或母体背景的可能性，结合先前胎盘和母体血沉棕黄层DNA中的甲基化信息分析所述分子的甲基化模式。在实施例中，我们利用以下原理：如果血浆DNA片段中经确定为甲基化(M)的CpG位点与胎盘中的较高甲基化指数一致，则此类观测结果将指示此分子更可能来源于胎盘。如果血浆DNA分子中经确定为甲基化(M)的CpG位点与胎盘中的较低甲基化指数一致，则此类观测结果将指示此分子不大可能来源于胎盘；如果血浆DNA中经确定为未甲基化(U)的CpG位点与胎盘中的较低甲基化指数一致。则此类观测结果将指示此分子更可能来源于胎盘。如果血浆DNA中经确定为未甲基化(U)的CpG位点与胎盘中的较高甲基化指数一致，则此类观测结果将指示此分子不大可能来源于胎盘。

我们实施以下评分流程。反映血浆DNA片段的胎儿起源的可能性的初始分数(S)设定为0。当比较血浆DNA分子的甲基化状态与先前胎盘DNA的甲基化信息时，

a.如果血浆DNA分子上的CpG位点经确定为‘M’且其于胎盘中的对应物属于类别A，则给S新增1分(即给分数单位增加1)。

b.如果血浆DNA分子上的CpG位点经确定为‘U’且其于胎盘中的对应物属于类别A，则给S扣除1分(即给分数单位减少1)。

c.如果血浆DNA分子上的CpG位点经确定为‘M’且其于胎盘中的对应物属于类别B，则给S新增0.5分。

d.如果血浆DNA分子上的CpG位点经确定为‘U’且其于胎盘中的对应物属于类别B，则给S新增0.5分。

e.如果血浆DNA分子上的CpG位点经确定为‘M’且其于胎盘中的对应物属于类别C，则给S扣除1分。

f.如果血浆DNA分子上的CpG位点经确定为‘U’且其于胎盘中的对应物属于类别C，则给S新增1分。

我们称以上过程为‘甲基化状态匹配’。

在血浆DNA分子中的所有CpG位点均经处理之后，获得所述血浆DNA分子的最终集合分数S(胎盘)。在实施例中，要求CpG位点数目为至少30个且要求血浆DNA分子长度为至少3kb。可使用CpG位点的其它数目和长度，包含但不限于本文所描述的任何数目和长度。

当比较血浆DNA分子的甲基化状态与对应位点处的血沉棕黄层DNA的甲基化程度时，将应用类似评分流程。在血浆DNA分子中的所有CpG位点均被处理之后，获得所述血浆DNA分子的最终集合分数S(血沉棕黄层)。

如果S(胎盘)>S(血沉棕黄层)，则确定血浆DNA分子是胎儿起源；否则，确定血浆DNA分子是母体起源。

存在用于评估推断血浆DNA分子的胎儿-母体起源的效能的17个胎儿特异性DNA分子和405个母体特异性DNA分子。胎儿特异性分子为携带胎儿特异性SNP等位基因的血浆DNA分子，而母体特异性DNA分子为携带母体特异性SNP等位基因的血浆DNA分子。

图23显示用于确定胎儿起源和母体起源的接收者操作特征曲线(ROC)。y轴显示灵敏度，且x轴显示特异性。红线表示使用存在于本公开案中的基于甲基化状态匹配的方法区分胎儿起源与母体起源的分子的效能。蓝线表示使用单分子甲基化程度(即DNA分子中经确定为甲基化的CpG位点的比例)区分胎儿起源与母体起源的分子的效能。图23显示用于甲基化状态匹配过程的接收者操作特征曲线下面积(AUC)(0.94)显著地高于基于单分子甲基化程度的AUC(0.86)(P值<0.0001；DeLong测试)。表明长DNA分子的甲基化模式分析将可用于确定胎儿/母体起源。

在实施例中，当判定血浆DNA是胎儿起源抑或母体起源时，可考虑S(胎盘)与S(血沉棕黄层)之间的差幅(ΔS)。可要求ΔS的绝对值超过例如但不限于5、10、20、30、40、50等的特定阈值。作为说明，当我们使用10作为ΔS的阈值时，胎儿DNA分子检测中的正预测值(PPV)从14.95％提高至91.67％。

在实施例中，CpG位点的甲基化状态将受其邻近CpG位点的甲基化状态影响。DNA分子上的任何两个CpG位点之间的核苷酸距离越接近，两个CpG位点将越可能共享相同甲基化状态。此现象已称为共甲基化。多个组织特异性CpG岛甲基化已经报告；因此，在一些用于起源组织分析的统计模型中，更多权重将经指派至共享相同甲基化状态的密集集群的CpG位点(例如CpG岛)。对于情境‘a’和‘f’，如果现行经受探寻的CpG位点相对于先前CpG位点在不超过100bp的基因组距离内定位且此两个连续CpG位点的甲基化状态匹配过程的结果相同，则将给现行CpG位点的分数S额外新增1分。对于情境‘b’和‘e’，如果现行经受探寻的CpG位点相对于先前CpG位点在不超过100bp的基因组距离内定位且此两个连续CpG位点的甲基化状态匹配过程的结果相同，则将给现行CpG位点的分数S额外扣除1分。然而，如果现行经受探寻的CpG位点相对于先前CpG位点在不超过100bp的基因组距离内定位、但此两个连续CpG位点的甲基化状态匹配过程的结果不一致，则将使用前述预设评分流程。另一方面，如果现行经受探寻的CpG位点相对于先前CpG位点在大于100bp的基因组距离内定位，则将使用前述具有预设参数的评分流程。可使用除1以外的得分和除100bp以外的距离，包含本文所描述的任何得分和距离。

在其它实施例中，基于从胎盘和血沉棕黄层DNA推断的MI值将CpG位点分级成超过三个类别。先前参考组织的甲基化信息可从单分子实时测序(即纳米孔测序和/或PacBioSMRT测序)推断。可要求血浆DNA分子长度为至少但不限于100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、10kb、20kb、30kb、40kb、50kb、100kb、200kb等。可要求CpG位点数目为至少但不限于3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100等。

在实施例中，我们可使用用于表征血浆DNA分子的甲基化模式的机率模型。血浆DNA分子上的k个CpG位点(k≥1)的甲基化状态表示为M＝(m₁、m₂、…、m_k)，其中血浆DNA分子上的CpG位点i处的m_i为0(对于未甲基化状态而言)或1(对于甲基化状态而言)。在实施例中，与来源于胎盘的血浆DNA分子相关的M机率可视胎盘组织中的参考甲基化模式而定。用于那些对应的1、2、…、k个CpG位点的胎盘组织中的参考甲基化模式将遵循贝他(β)分布(beta distribution)。贝他(β)分布通过以贝他(α、β)表示的两个正参数α和β参数化。衍生自贝他(β)分布的值的范围将为0至1。基于所关注的组织的深度亚硫酸氢盐测序数据，参数α和β分别通过所述特定组织的各CpG位点处的经测序胞嘧啶(甲基化)和胸嘧啶(未甲基化)数目确定。对于胎盘，此类贝他(β)分布表示为贝他(α^P、β^p)。来源于胎盘的血浆DNA分子的机率P(M|胎盘)将通过以下模型化：

其中‘i’表示第i个CpG位点；贝他

指示与胎盘中的第i个CpG位点处的甲基化模式相关的贝他(β)分布；P为在k个CpG位点中具有既定甲基化模式的所观测血浆DNA分子的联合机率。

来源于血沉棕黄层(即白血细胞)的血浆DNA分子的机率P(M|血沉棕黄层)将通过以下模型化：

其中‘i’表示第i个CpG位点；贝他

指示与血沉棕黄层DNA中的第i个CpG位点处的甲基化模式相关的贝他(β)分布。P为在k个CpG位点中具有既定甲基化模式的所观测血浆DNA分子的联合机率。

贝他

和贝他

可分别从胎盘和血沉棕黄层DNA的全基因组亚硫酸氢盐测序结果确定。

对于血浆DNA分子，如果我们观测到P(M|胎盘)>P(M|血沉棕黄层)，则此类血浆DNA分子将可能来源于胎盘；否则，其将可能来源于血沉棕黄层。我们使用此模型达成0.79的AUC。

B.机器学习模型

在又其它实施例中，我们可使用用于确定特定血浆DNA分子的胎儿/母体起源的机器学习算法。为了测试使用基于机器学习的途径对孕妇体内的胎儿DNA分子和母体DNA分子进行分类的可行性，我们研发血浆DNA分子的甲基化模式图法。

图24显示成对甲基化模式的界定。血浆DNA分子上显示九个CpG位点。甲基化CpG位点以红色示出，且未甲基化CpG位点以绿色示出。当一对中的两个CpG位点共享相同甲基化状态(例如第1个CpG和第5个CpG)时，所述对将经编码为1，如通过箭头指示的位置‘a’中所示。当一对中的两个CpG位点具有不同甲基化状态(例如第1个CpG和第2个CpG)时，所述对将经编码为0，如通过箭头指示的位置‘b’中所示。编码规则同样适用于DNA分子上的所有具有任何2个CpG位点的对。

我们使用含有9个CpG位点的血浆DNA分子作为一实例。此血浆DNA分子的甲基化模式通过我们先前公开案(美国申请第16/995,607号)中所描述的途径来确定，即U-M-M-M-U-U-U-M-M(U和M分别表示未甲基化CpG和甲基化CpG)。任何两个CpG位点之间的甲基化状态的成对比较均可适用于基于机器学习或深度学习的分析。在此实例中，规则同样适用于总计36对。如果血浆DNA分子上存在总计n个CpG位点，则将存在n×(n-1)/2个比较对。可使用不同数目个，包含5、6、7、8、10、11、12、13个CpG位点等。如果分子包含多于机器学习模型中所使用的位点数目，则滑动窗口可用于将位点划分成适当数目个位点。

我们获得一个或多个分别来自胎盘和血沉棕黄层DNA样本的分子。那些DNA分子的甲基化模式根据我们先前公开案(美国申请第16/995,607号)中所描述的途径通过PacificBioscience(PacBio)单分子实时(SMRT)测序来确定。那些甲基化模式经转译成成对甲基化模式。

与胎盘DNA相关的成对甲基化模式和与血沉棕黄层DNA相关的成对甲基化模式用于训练卷积类神经网络(CNN)以区分潜在地胎儿起源与母体起源的分子。来自胎盘的DNA片段的各目标输出(即类似于因变数值)经指派为‘1’，而来自血沉棕黄层的DNA片段的各目标输出经指派为‘0’。成对甲基化模式用于训练以确定用于CNN模型的参数(常常称为权重)。当通过S函数(sigmoid function)和期望目标输出(二进制值：0或1)计算的输出分数之间的总预测误差通过反复地调整模型参数而达到最小值时，获得用于区分DNA片段的胎儿-母体起源的CNN的最佳参数。总预测误差通过深度学习算法中的S交叉熵损失函数测量(https://keras.io/)。自训练数据集学习的模型参数用于分析DNA分子(如血浆DNA分子)以输出指示DNA分子来源于胎盘或血沉棕黄层的可能性的机率性分数。如果血浆DNA片段的机率性分数超过特定阈值，则此类血浆DNA分子被视为胎儿起源。否则，其将被视为母体起源。阈值将包含但不限于0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、0.95、0.99等。在一个实例中，我们使用此CNN模型达成0.63的AUC以判定血浆DNA分子是胎儿起源抑或母体起源，指示使用深度学习算法推断来自母体血浆的DNA分子的起源组织为可能的。通过获得更多单分子实时测序结果进一步改善深度学习算法的效能。

在一些其它实施例中，统计模型可包含但不限于线性回归、逻辑回归、深度递归神经网络(例如长短期存储器LSTM)、贝氏分类器(Bayes's classifier)、隐藏马可夫模型(HMM)、线性鉴别分析(LDA)、k平均集群、具有噪音的应用的基于密度的空间集群(DBSCAN)、随机森林算法和支持向量机(SVM)等。将涉及包含但不限于二项分布、柏努利分布(Bernoulli distribution)、伽马分布(gamma distribution)、常态分布、帕松分布(Poisson distribution)等的不同统计分布。

C.对胎盘具有特异性的甲基化单倍型

单个DNA分子上的各CpG位点的甲基化状态可使用我们先前公开案(美国申请第16/995,607号)中所描述的途径或本文所描述的任何技术来确定。除单分子双股DNA甲基化程度的外，我们可确定可为沿单个DNA分子的邻接CpG位点的甲基化状态的序列的各DNA分子的单分子甲基化模式。

不同DNA甲基化记号可见于不同组织和细胞类型中。在实施例中，我们可基于单独的血浆DNA分子的单分子甲基化模式推断其的起源组织。

来自十个血沉棕黄层样本和六个胎盘组织样本的基因组DNA使用SMRT测序(PacBio)加以测序。我们能够通过将来自各样本类型的经定位高质量环形共同测序(CCS)读段综合在一起来分别达成血沉棕黄层DNA和胎盘DNA的58.7倍和28.7倍涵盖度。

通过使用滑动窗口途径将基因组划分成5个CpG位点的约2820万个重叠窗口。在其它实施例中，可使用如但不限于2、3、4、5、6、7和8个CpG位点的不同窗口尺寸。我们也可使用非重叠窗口途径。各窗口视为潜在标记区。对于各潜在标记区，我们在涵盖所述标记区内的所有5个CpG位点的所有经测序胎盘DNA分子当中识别出主要单分子甲基化模式。将在血浆DNA分子的CpG位点与参考组织的单独的DNA分子的对应CpG位点之间作出比较。随后，我们计算涵盖同一标记区内的所有CpG位点的各血沉棕黄层DNA分子的错配分数，这是通过比较其单分子甲基化模式与胎盘中的主要单分子甲基化模式来进行。

其中错配CpG位点数目是指显示相较于胎盘中的主要单分子甲基化模式而言不同的血沉棕黄层DNA分子中的甲基化状态的CpG位点数目。

较高错配分数指示血沉棕黄层DNA分子的甲基化模式与胎盘中的主要单分子甲基化模式更加不同。我们使用以下准则从2820万个潜在标记区选择显示来自胎盘与血沉棕黄层的DNA分子池之间的实质性单分子甲基化模式差异的标记区：a)超过50％的胎盘DNA分子具有主要单分子甲基化模式；和b)超过80％的血沉棕黄层DNA分子具有大于0.3的错配分数。我们基于这些准则选择281,566个标记区以用于下游分析。

图25为不同染色体当中的经选择标记区的分布表。第一栏显示染色体数目。第二栏显示染色体中的标记区数目。

我们特此说明我们基于单分子甲基化模式使用经SMRT测序加以测序的涵盖如先前在本公开案中所描述的胎儿特异性等位基因或母体特异性等位基因的血浆DNA分子进行的单独的血浆DNA分子的起源组织分类概念。涵盖经选择标记区的具有与胎盘中的主要单分子甲基化模式相同的甲基化模式的任何血浆DNA分子将归类为胎盘特异性(即胎儿特异性)DNA分子。相反地，如果血浆DNA分子的单分子甲基化模式与胎盘中的主要单分子甲基化模式不同，则我们将此分子归类为非胎盘特异性的。此分析中的正确分类以胎儿特异性DNA分子经识别为胎儿源性(即对胎盘具有特异性)且母体DNA分子经识别为非胎儿源性(即对胎盘不具有特异性)的方式根据胎盘特异性甲基化单倍型是否存在于所述分子中加以界定。先前用于起源组织分析的基于甲基化的方法通常涉及对生物样本内的游离DNA的一定范围的组织贡献者的百分比或贡献比例进行去卷积。本发明方法优于先前方法的优势在于，组织向生物样本贡献游离DNA(例如母体血浆中的胎盘源性DNA)的证据可在不考虑来自其它组织的贡献存在或不存在的情况下确定。此外，任一个游离DNA分子的胎盘起源可在不考虑所述组织对游离DNA分子的贡献分率的情况下用本发明方法确定。

在28个涵盖胎儿特异性等位基因的DNA分子当中，17个(61％)归类为胎盘特异性的，且11个(39％)归类为非胎盘特异性的。另一方面，在467个涵盖母体特异性等位基因的DNA分子当中，433个(93％)归类为非胎盘特异性的，且34个(7％)归类为胎盘特异性的。

在实施例中，我们可使用错配分数大于0.3的血沉棕黄层DNA分子的不同百分比作为阈值，所述百分比包含但不限于大于60％、70％、75％、80％、85％和90％等。我们可通过调整标记区选择中所使用的准则改善怀孕个体中的血浆DNA的胎盘或非胎盘起源的总分类准确度。当我们尝试判定致病突变或复本数畸变是否存在于胎儿中时，以上举动在非侵入性产前测试环境中尤其至关重要。

图26为基于血浆DNA分子的单分子甲基化模式使用错配分数大于0.3的血沉棕黄层DNA分子的不同百分比作为标记区的选择准则进行的血浆DNA分子的分类表。第一栏显示错配分数大于0.3％的血沉棕黄层DNA分子的百分比。第二栏将DNA分子划分成涵盖胎儿特异性等位基因的DNA分子和涵盖母体特异性等位基因的DNA分子。第三栏和第四栏显示基于单分子甲基化模式的DNA分子为胎盘特异性或非胎盘特异性的分类。第五栏显示与第二栏中的特异性等位基因相同地经分类的DNA分子的百分比。

图27显示以非侵入性方式使用胎盘特异性甲基化单倍型确定胎儿遗传的方法流程。如图27中所示，来自孕妇血浆的游离DNA经提取用于单分子实时测序。长血浆DNA分子根据本公开案中的实施例加以识别。各长血浆DNA分子的各CpG位点处的甲基化状态根据本公开案中的实施例加以确定。各长血浆DNA分子的甲基化单倍型根据本公开案中的实施例加以确定。如果长血浆DNA分子经识别为携带胎盘特异性甲基化单倍型，则与所述分子相关的遗传和表观遗传信息将视为经胎儿遗传。在实施例中，如果根据本公开案中的实施例基于甲基化单倍型信息确定一个或多个含有与孕妇所携带的致病突变相同的致病突变的长血浆DNA分子是胎儿起源，则表明胎儿已从母亲遗传突变。

实施例可适用于包含但不限于以下的遗传疾病：β-地中海型贫血、镰状细胞性贫血、α-地中海型贫血、囊肿纤维化、A型血友病、B型血友病、先天性肾上腺增生、杜兴氏肌肉萎缩症、贝氏肌肉萎缩症(Becker muscular dystrophy)、软骨发育不全、致死性发育不良、冯威里氏病(von Willebrand disease)、努南综合征(Noonan syndrome)、遗传性听觉损失和失聪、各种先天性代谢缺陷(例如I型瓜氨酸血症、丙酸酸血症、Ia型肝糖贮积病(冯吉尔克病(von Gierke disease))、Ib/c型肝糖贮积病(冯吉尔克病)、II型肝糖贮积病(庞培病(Pompe disease))、I型粘多醣贮积症(MPS)(贺氏(Hurler)/贺氏-谢氏(Hurler-Scheie)/谢氏(Scheie))、II型MPS(亨特综合征(Hunter syndrome))、IIIA型MPS(圣菲利波综合征(Sanfilippo syndrome)A)、IIIB型MPS(圣菲利波综合征B)、IIIC型MPS(圣菲利波综合征C)、IIID型MPS(圣菲利波综合征D)、IVA型MPS(莫奎综合征(Morquio syndrome)A)、IVB型MPS(莫奎综合征B)、VI型MPS(马-拉二氏综合征(Maroteaux-Lamy syndrome))、VII型MPS(斯利综合征(Sly syndrome))、粘脂贮积症II(I-细胞疾病)、异染性脑白质失养症、GM1神经节苷脂贮积症、OTC缺乏症(X性联鸟氨酸氨基甲酰转移酶缺乏症)、肾上腺脑白质失养症(X性联ALD)、克拉培病(Krabbe disease)(球状细胞脑白质失养症)等。

在其它实施例中，胎儿的遗传疾病可能与不存在于亲本基因组中的胎儿基因组中的重新DNA甲基化相关。实例将为患有X染色体脆裂症的胎儿中的FMRP转译调节子1(FMR1)基因的高甲基化。X染色体脆裂症由FMR1基因的5'未转译区中的CGG三核苷酸重复序列扩展造成。正常等位基因将含有约5至44个CGG重复序列复本。准突变等位基因将含有55至200个CGG重复序列复本。完全突变等位基因将含有超过200个CGG重复序列复本。

图28绘示携带正常或准突变等位基因的未受影响孕妇的男性胎儿的X染色体脆裂症的非侵入性产前检测原理。在图28中，‘n’表示母体基因组中的CGG复本数目；‘m’表示胎儿基因组中的CGG复本数目。未受影响孕妇的基因组将具有FMR1基因，所述FMR1基因具备具有不超过200个复本(即n≤200)的CGG重复序列且为未甲基化的。相比的下，受X染色体脆裂症影响的男性胎儿的基因组将具备具有超过200个CGG重复序列复本(m>200)且为甲基化的FMR1基因。我们可通过执行母体血浆DNA的单分子测序来自重复序列数目和甲基化状态可经同时确定的所关注的基因组区(例如FMR1基因)识别多个长DNA分子。如果我们在未受影响妇女的血浆中识别出一个或多个涵盖FMR1基因、含有超过200个CGG重复序列复本且为甲基化的DNA分子，则将指示胎儿将可能患有X染色体脆裂症。在又另一实施例中，我们可根据本公开案中的实施例使用胎盘特异性甲基化单倍型进一步确定所述血浆DNA分子的胎儿起源。如果我们识别出一个或多个含有携带胎盘特异性甲基化单倍型的分子内的一个或多个区的分子且所述分子涵盖FMR1基因、含有超过200个CGG重复序列复本且为甲基化的，则我们可更确信地得出结论：胎儿患有X染色体脆裂症。相反地，如果我们识别出一个或多个具有胎盘特异性甲基化单倍型的分子且所述分子涵盖FMR1基因、含有少于200个CGG重复序列复本且不为甲基化的，则将指示胎儿将可能未受影响。在X染色体脆裂症的情况下，完全突变(>200个重复序列)实际上使得整个基因甲基化且关闭基因功能。因此，尤其对于X染色体脆裂而言，甲基化(而非显示胎盘甲基化概况)的长等位基因的检测将高度表明胎儿患有所述疾病。

检测遗传病症可在知晓或不知晓母亲先前状态的情况下执行。具有准突变的妇女可能不具有任何症状，但一些具有准突变的妇女可能具有轻度症状且常常仅在事后知晓。如果我们不知晓母体突变状态，则一种途径为检测来自似乎不患有疾病的妇女血浆中的长等位基因或分析母体血沉棕黄层且确定其不显示此类长等位基因。作为另一途径，我们可组合cfDNA分子的重复序列长度与甲基化状态。如果甲基化状态表明胎儿模式(甲基化单倍型)且显示长等位基因，则胎儿可能受影响。此途径适用于例如亨廷顿氏舞蹈症的许多三核苷酸病症。

D.用长血浆DNA分子非侵入性构筑胎儿基因组

甲基化模式可用于确定单倍型遗传。使用用甲基化模式进行的定性途径确定单倍型遗传可比表征特定片段的量的定量方法更高效。甲基化模式可用于确定单倍型的母体和父体遗传。

1.胎儿的母体遗传

Lo等人证实在使用亲本单倍型信息的情况下构建全基因组遗传图谱且从母体血浆DNA序列确定胎儿的突变状态的可行性(Lo等人《科学转化医学》2010；2:61ra91)。此技术已称为相对单倍型剂量(RHDO)分析，且为一种解析胎儿的母体遗传的途径。所述原理基于以下事实：当与未经传递至胎儿中的另一母体单倍型相比时，胎儿所遗传的母体单倍型将在孕妇血浆DNA中相对地经过度呈现。因此，RHDO为定量分析方法。

存在于本公开案中的实施例利用长血浆DNA分子中的甲基化模式以确定所述血浆DNA分子的起源组织。在一个实施例中，本文中的公开内容将允许对胎儿的母体遗传进行定性分析。

图29显示确定胎儿的母体遗传的实例。母体基因组(A/G)中的基因组位置P为异型接合的。经填充的圆圈指示甲基化位点，且空心圆圈指示未甲基化位点。胎盘中的甲基化模式为“-M-U-M-M-”，其中“M”表示CpG位点处的甲基化胞嘧啶且“U”表示CpG位点处的未甲基化胞嘧啶。在一个实施例中，胎盘和相关参考组织中的甲基化模式可获自先前由测序(例如单分子实时测序和/或亚硫酸氢盐测序)生成的数据。在血浆DNA中，发现一种在所述特定基因组基因座处携带等位基因A的非父体血浆DNA(由Z表示)展示相对于其它组织的甲基化模式而言与胎盘中的甲基化模式相容的甲基化模式(“-M-U-M-M-”)。未发现展示与胎盘中的甲基化模式相容的甲基化模式的携带等位基因G的分子。因此，基于等位基因A和“-M-U-M-M-”甲基化模式的存在可确定胎儿遗传母体等位基因A。

图30显示使用血浆DNA分子的遗传和表观遗传信息进行的胎儿的母体遗传的定性分析。如图30的顶部分支中所示，根据本公开案中的实施例，血浆DNA经提取，接着为针对长DNA的尺寸选择。经尺寸选择的血浆DNA分子经受单分子实时测序(例如使用由太平洋生物科学制造的系统)。遗传和表观遗传信息根据本公开案中的实施例加以确定。出于说明的目的，将分子(X)与在染色体位置a(chr1:a)处含有等位基因G且在染色体位置e(chr1:e)处含有等位基因A的人类染色体1进行比对。分子X在染色体位置d处具有等位基因C。

此分子X的CpG甲基化状态经确定为“-M-U-M-M-”，其中“M”表示CpG位点处的甲基化胞嘧啶且“U”表示CpG位点处的未甲基化胞嘧啶。经填充的圆圈指示甲基化位点，且空心圆圈指示未甲基化位点。作为参考样本分析的结果，已知胎盘DNA在位置a与e之间的区中具有“-M-U-M-M-”的甲基化模式。根据本公开案中的实施例，基于匹配胎盘DNA的甲基化模式的分子X的甲基化模式，分子X经确定为胎盘起源。

如图30的下部分支中所示，来自母体白血细胞的DNA经受单分子实时测序。母体白血细胞的表观遗传和遗传信息根据本公开案中的实施例获得。使用包含但不限于WhatsHap(Patterson等人《计算生物学期刊(J Comput Biol.)》2015；22:498-509)、HapCUT(Bansal等人《生物信息学(Bioinformatics.)》2008；24:i153-9)、HapCHAT(Beretta等人《BMC生物信息学(BMC bioinformatics.)》2018；19:252)等的方法将遗传等位基因定相成两个单倍型，即母体单倍型I(Hap I)和母体单倍型II(Hap II)。此处，我们在母体基因组中获得两个单倍型，即“-A-C-G-T-”(Hap I)和“-G-T-A-C-”(Hap II)。Hap I与一种或多种野生型变体相关，而Hap II与一种或多种疾病相关变体有关。一种或多种疾病相关变体可包含但不限于单核苷酸变体、插入、缺失、易位、反转、重复序列扩展和/或其它遗传结构变异。

对于基因组位置e，母体基因型经确定为AA且父体基因型经确定为GG。由于甲基化模式，因此血浆DNA分子X经确定为胎盘起源。由于存在母体特异性等位基因A、但不存在父体特异性等位基因G，因此分子X被推断为从母体单倍型中的一者遗传。

为了进一步确定哪个母体单倍型经传递至胎儿，我们比较此胎盘源性分子X的除位置chr1:e以外的基因组位置处的等位基因信息与母体单倍型。作为一实例，分子X在位置a处具有等位基因G且在位置d处具有等位基因C。这些等位基因中的任一者在分子X中的存在指示分子X应经指派至母体Hap II，所述母体Hap II包含相同等位基因。

因此，我们可得出结论：与一种或多种疾病相关变体有关的母体单倍型II经传递至胎儿。未出生胎儿经确定为处于受疾病影响的风险下。

与作为基于定量分析的途径的RHDO相比，针对胎儿的母体遗传的基于甲基化模式的定性分析可能需要较少血浆DNA分子来得出关于胎儿遗传哪个母体单倍型的结论。我们以全基因组方式用不同数目个用于分析的血浆DNA分子执行计算机模拟分析以评估胎儿的母体遗传的检测率。

对于RHDO模拟分析，在母体基因组的单倍型区块中将N个血浆DNA分子集体地与M个异型接合SNP进行比对。胎儿DNA分率为f。那些对应SNP的父体基因型为同型接合的且与经传递至胎儿的母体Hap I相同。在N个血浆DNA分子当中，与母体Hap I进行比对的血浆DNA分子的平均值为N×(0.5+f/2)，而与母体Hap II进行比对的血浆DNA分子的平均值为N×(0.5-f/2)。我们假定从单倍型取样的血浆DNA分子遵循二项分布。

所述数目个血浆DNA分子经指派至Hap I(即X)，遵循以下分布：

X～Bin(N,0.5+f/2)(1)，

其中“Bin”表示二项分布。

所述数目个血浆DNA分子经指派至Hap II(即Y)，遵循以下分布：

Y～Bin(N,0.5-f/2)(2)。

因此，与母体Hap II相比，经指派至母体Hap I的血浆DNA分子将在母体血浆中相对地经过度呈现。为了判定过度呈现是否为统计学上显著的，我们在其中两个单倍型(由X'和Y'表示)同样在血浆中经呈现的虚无假设情况下比较两个母体单倍型之间的血浆DNA计数差异。

X'～Bin(N,0.5)(3)，

Y'～Bin(N,0.5)(4)。

我们如下进一步定义两个单倍型之间的相对剂量差异：

D＝(X-Y)/N(5)，

D'＝(X'-Y')/N(6)。

在一个实例中，将反映相对单倍型剂量的统计D与D'平均值(M)进行比较，通过D'标准差(SD)标准化为以下(即z-分数)：

z-分数＝(D–M)/SD(7)。

>3的z-分数指示Hap I经传递至胎儿。

对于RHDO分析，基于公式(1)至(7)，我们在其中Hap I经传递至胎儿的整个全基因组中模拟30,000个单倍型区块。单倍型区块的平均长度为100kb。各单倍型区块含有平均100个SNP，其中10个SNP将在促成单倍型不平衡方面提供信息。在一个实例中，胎儿DNA分率为10％且片段尺寸中值为150bp。我们通过改变在1百万至3亿范围内的用于RHDO分析的血浆DNA分子数目用>3的z-分数计算单倍型区块百分比，所述百分比在本文中称为检测率。本文中的血浆DNA分子数目根据帕松分布通过涵盖信息性SNP位点的血浆DNA的机率加以调整。

对于与针对胎儿的母体遗传的基于甲基化模式的定性分析相关的计算机模拟，我们出于说明的目的作出如下假定：

1)用于分析的母体基因组中存在N个涵盖单倍型区块的血浆DNA分子。

2)用于起源组织分析的长度为至少3kb的血浆DNA片段的机率由a表示。

3)携带超过10个CpG位点的血浆DNA分子的机率由b表示。

4)那些>3kb的片段的胎儿DNA分率由f表示。

如本公开案的一个实施例中所绘示，我们可达成那些具有至少10个CpG位点的大于3kb的血浆DNA分子的起源组织的准确推断。假定满足以上准则的血浆DNA分子数目(Z)遵循帕松分布，其中平均值为λ(即N×a×b×f)。

Z～帕松(λ)(8)。

在一个实例中，基于公式(8)，我们模拟30,000个其中Hap I经传递至胎儿的单倍型区块。各单倍型区块的平均长度为100kb。各单倍型区块含有平均100个SNP，其中20个异型接合SNP将经定相成两个母体单倍型。胎儿DNA分率为1％。在尺寸选择之后存在40％的尺寸>3kb的血浆DNA分子。存在87.1％的具有至少10个CpG位点的尺寸>3kb的血浆DNA分子。Z值≥1的单倍型区块百分比指示检测率。我们通过利用甲基化模式改变在1百万至3亿范围内的用于起源组织分析的血浆DNA分子数目(N)来重复多次计算机模拟运作。本文中的血浆DNA分子数目根据帕松分布通过涵盖异型接合SNP的血浆DNA的机率加以进一步调整。

图31显示相较于相对单倍型剂量(RHDO)分析而言以全基因组方式使用血浆DNA分子的遗传和表观遗传信息进行的针对胎儿的母体遗传的定性分析的检测率。用于分析的分子数目示于x轴上。呈百分比形式的胎儿的母体遗传的检测率示于y轴上。与RHDO相比，使用基于甲基化模式的途径，胎儿的母体遗传的检测率较高。举例来说，使用1亿个片段，基于甲基化模式的检测率为100％，而基于RHDO的检测率仅为55％。这些结果表明，使用基于甲基化模式的方法进行的胎儿的母体遗传的推断将优于使用基于RHDO的方法进行的胎儿的母体遗传的推断。

2.胎儿的父体遗传

获得用于分析的长血浆DNA分子的能力可适用于改善孕妇血浆DNA中的父体特异性变体的检测率，这是因为与短DNA分子的使用相比，相同数目个长DNA分子的使用将增加总基因组涵盖度。我们基于以下假定进一步执行计算机模拟：

1)视血浆DNA长度L而定，胎儿DNA分率为f。其经重写为f_L，其中下标L指示具有bp长度L的血浆DNA分子用于分析。

2)需要在母体血浆DNA中经识别的父体特异性变体数目为V。

3)用于分析的血浆DNA分子数目为N。

4)源自特定基因组基因座或区的血浆DNA分子数目遵循帕松分布。

在一个实例中，那些尺寸为150bp、1kb和3kb的血浆DNA分子的胎儿DNA分率分别为10％(f_150bp＝0.1)、2％(f_1kb＝0.02)和1％(f_3kb＝0.01)。基因组中的父体特异性变体数目为250,000(V＝250,000)。用于分析的血浆DNA分子数目(N)范围为5000万至5亿。

图32显示以全基因组方式进行的父体特异性变体的检测率与用于分析的具有不同尺寸的经测序血浆DNA分子数目之间的关系。以百万为单位的用于分析的经测序分子数目示于x轴上。所检测的父体特异性变体百分比示于y轴上。不同曲线显示用于分析的不同尺寸DNA片段，其中顶部为3kb，中间为1kb且底部为150bp。用于分析的血浆DNA分子越长，可达成的父体特异性变体的检测率越高。举例来说，使用4亿个血浆DNA分子，当聚焦于尺寸为150bp、1kb和3kb的分子时，检测率分别为86％、93％和98％。

在其它实施例中，可使用包含但不限于柏努利分布、贝他(β)常态分布、常态分布、康韦-马克士威-帕松分布(Conway-Maxwell-Poisson distribution)、几何分布等的其它分布。在一些实施例中，吉布斯取样(Gibbs sampling)和贝氏定理将用于母体和父体遗传分析。

3.X染色体脆裂遗传分析

在实施例中，胎儿的母体遗传的基于甲基化模式的确定可促进使用母体血浆DNA的单分子实时测序进行的X染色体脆裂症非侵入性检测。X染色体脆裂症为通常由X染色体上的FMR1(X染色体脆裂智能障碍1)基因内的CGG三核苷酸重复序列扩展造成的遗传病症。由重复序列扩展造成的X染色体脆裂症和其它病症描述于本申请的其它地方。用于检测胎儿的X染色体脆裂症的方法也可适用于本文所公开的任何其它重复序列扩展。

具有准突变的女性个体处于怀有患有X染色体脆裂症的儿童的风险下，所述准突变定义为在FMR1基因中具有55至200个CGG重复序列复本。怀有患有X染色体脆裂症的胎儿的可能性视存在于FMR1基因中的CGG重复序列数目而定。母亲体内的重复序列数目越大，当传递至胎儿时从准突变扩展至完全突变的风险越高。在12周胎龄时从先前经确认携带115±2个CGG重复序列的X染色体脆裂准突变等位基因且具有经诊断患有X染色体脆裂症的儿子(原发病患)的妇女收集母体血浆样本。随后，母体血浆经受单分子实时测序。在一个实例中，我们使用单分子实时测序获得330万个与人类参考基因组比对的环形共同序列(CCS)，其中中值子读段深度为75倍/CCS(四分位数范围：14-237倍)。各经测序血浆DNA的遗传和表观遗传信息可根据本公开案的实施例加以确定。为了获得染色体X的两个母体单倍型，我们使用于iScan系统(Illumina)上的作为微阵列技术的Infinium Omni2.5Exome-8 Beadchip以在染色体X上对2,000个SNP进行基因分型用于从母体血沉棕黄层和原发病患口颊拭子提取的两个DNA。两个母体单倍型，即Hap I和Hap II可基于母体和原发病患基因组的基因型信息加以推断。

图33显示用于非侵入性检测X染色体脆裂症的工作流。在母体血沉棕黄层DNA的异型接合SNP位点中，与原发病患基因型相同的等位基因用于界定与准突变等位基因有关的单倍型(即Hap I)，所述准突变等位基因为后代中的完全突变的潜在前驱体。另一方面，与原发病患基因型不同的等位基因用于界定与对应野生型等位基因有关的单倍型(Hap II)。来自原发病患的怀有胎儿的母亲的母体血浆DNA经受单分子实时测序。视所获得的遗传信息是否与所研究的那些基因组基因座中的Hap I或Hap II的等位基因相同而定，测序读段经指派至母体Hap I和Hap II。根据本公开案中的实施例，血浆DNA分子的甲基化模式用于确定含有特定数目个CpG位点的那些血浆DNA分子的起源组织(即基于甲基化模式分析经识别为胎盘起源的DNA分子将经确定为源自胎儿)。

在情境A下，如果胎儿(即胎盘)DNA分子可从被指派至母体Hap I的那些血浆DNA分子检测、但不可在经指派至母体Hap II的那些血浆DNA分子中检测，则Hap I将经确定为传递至未出生胎儿。胎儿将经确定为处于受X染色体脆裂症影响的高风险下。血浆DNA分子的胎盘起源将基于如下文所论述的分子的甲基化状态。

在情境B下，如果胎儿DNA分子可从被指派至母体Hap II的那些血浆DNA分子检测、但不可在经指派至母体Hap I的那些血浆DNA分子中检测，则Hap II将经确定为传递至未出生胎儿。胎儿将经确定为未受X染色体脆裂症影响。

在实施例中，胎儿DNA分子的“可检测”和“不可检测”定义可视被识别为胎儿(即胎盘)起源的血浆DNA分子百分比的截止值而定。用于“可检测”的截止值可包含但不限于大于1％、2％、3％、4％、5％、10％、15％、20％、30％、40％、50％等。用于“不可检测”的截止值可包含但不限于小于1％、2％、3％、4％、5％、10％、15％、20％、30％、40％、50％等。在一些实施例中，可要求Hap I与Hap II之间的被确定为胎儿起源的血浆DNA分子百分比差异大于但不限于1％、2％、3％、4％、5％、10％、15％、20％、30％、40％、50％等。在一些其它实施例中，单倍型信息可获自长读段测序技术(例如PacBio或纳米孔测序)(Edge等人《自然-通讯(NatCommun.)》2019；10:4660)、合成长读段(例如使用来自10X Genomics的平台)(Hui等人《临床化学》2017；63:513-14)、基于经靶向基因座扩增(TLA)的定相(Vermeulen等人《美国人类遗传学期刊》2017；101:326-39)和统计定相(例如Shape-IT)(Delaneau等人《自然-方法》2011；9:179-81)。

在实施例中，我们可根据本申请中所公开的甲基化状态匹配途径来确定至少200bp且含有至少5个CpG位点(或用于长DNA分子的任何其它截止值)的那些血浆DNA分子的母体和胎儿起源。我们识别出一个位于基因组位置chrX:143、782、245-143、782、786处(离FMR1基因3.2Mb)的血浆DNA分子，其中等位基因(位置：chrX:143782434；SNP寄存编号：rs6626483；等位基因基因型：C)与母体Hap II上的对应等位基因相同，但与母体Hap I上的对应等位基因不同。

图34显示相较于胎盘和血沉棕黄层DNA的甲基化概况而言血浆DNA的甲基化模式。血浆DNA分子含有5个CpG位点。甲基化模式经确定为“M-U-U-U-U”。根据本公开案中所描述的甲基化状态匹配途径，将获自单分子实时测序的此甲基化模式与获自亚硫酸氢盐测序的胎盘组织和血沉棕黄层DNA样本的参考甲基化概况进行比较。源自胎盘的此分子的分数[即S(胎盘)]为2，大于源自血沉棕黄层的分子的分数[即S(血沉棕黄层)]-3。因此，此类血浆DNA分子(chrX:143、782、245-143、782、786)被确定为胎儿起源。然而，我们并未观测到携带来自胎儿起源的母体Hap I的等位基因的任何血浆DNA分子。因此，我们得出结论：胎儿遗传母体Hap II且未受X染色体脆裂症影响。

我们设想：本文所描述的途径的效能可由于以下因素而未显著地受X染色体失活影响：

1)X失活在人类中未完成。X染色体上多达1/3的基因显示从X失活的可变逃避(Cotton等人《人类分子遗传学(Hum Mol Genet.)》2015；25:1528-1539)。CpG岛外部的CpG位点(即大部分CpG位点)在两个性别中经类似程度地甲基化，表明X染色体中大部分CpG位点的甲基化状态可不受X失活影响(Yasukochi等人《美国国家科学院院刊》2010；107:3704-9)。

2)我们使用关于未出生胎儿的性别匹配的胎盘组织的甲基化概况。此策略将可用于使用怀有男性胎儿的妇女的血浆DNA甲基化模式检测胎儿的母体遗传，这是因为经推测不受X失活影响的涉及男性胎儿的胎盘组织将具有与或多或少涉及特定区的X失活的其它母体组织不同的独特甲基化模式。

我们使用单分子实时测序进一步测序从母体血沉棕黄层样本提取的DNA。我们获得230万个CCS，其中中值子读段深度为5倍/CCS。结果确认母体Hap I携带具有124个CGG重复序列的准突变等位基因且母体Hap II携带具有43个CGG重复序列的野生型等位基因。此外，我们用单分子实时测序进一步测序从未出生胎儿的绒毛膜取样提取的DNA。我们获得110万个CCS，其中中值子读段深度为4倍/CCS。结果确认未出生胎儿携带野生型等位基因。

E.人类基因组中的CpG位点的分布

较长的DNA片段引起较大的片段具有多个CpG位点的机率。这些多个CpG位点可用于甲基化模式或其它分析。

图35显示在整个人类基因组中的500bp区中的CpG位点的分布。第一栏显示CpG位点数目。第二栏显示500bp区数目和CpG位点数目。第三栏显示由具有特定数目个CpG位点的区表示的所有区的比例。举例来说，86.14％500bp区将具有至少1个CpG位点。另外，11.08％500bp区将具有至少10个CpG位点。

图36显示在整个人类基因组中的1kb区中的CpG位点的分布。第一栏显示CpG位点数目。第二栏显示1kb区数目和CpG位点数目。第三栏显示由具有特定数目个CpG位点的区表示的所有区的比例。举例来说，91.67％500bp区将具有至少1个CpG位点。此外，32.91％500bp区将具有至少10个CpG位点。

图37显示在整个人类基因组中的3kb区中的CpG位点的分布。第一栏显示CpG位点数目。第二栏显示3kb区数目和CpG位点数目。第三栏显示由具有特定数目个CpG位点的区表示的所有区的比例。举例来说，92.45％3kb区将具有至少1个CpG位点。另外，87.09％3kb区将具有至少10个CpG位点。

在一些实施例中，CpG位点的不同数目和不同尺寸截止值将用于最大化胎盘特异性标记物识别和起源组织分析的灵敏度和特异性。一般而言，CpG位点的出现频率高于SNP。既定尺寸的DNA片段可能具有比SNP多的CpG位点。上文所示的表可显示具有与CpG位点相同数目个SNP的区的较低比例，这是因为相同尺寸区中存在比CpG位点少的SNP。因此，使用CpG位点允许使用更多片段且提供比仅使用SNP更佳的统计。

F.起源组织分析的实例

在实施例中，我们可将于母体血浆中的起源组织分析延伸至超过两个包含T细胞、B细胞、嗜中性白血细胞、肝和胎盘的器官/组织。我们使用单分子实时测序来测序9个母体DNA样本。我们根据本公开案中所描述的甲基化状态匹配途径使用血浆DNA甲基化模式推断胎盘对母体血浆DNA的贡献。在一个实施例中，对于此甲基化状态匹配分析，将母体血浆DNA样本中长度为至少500bp且含有至少5个CpG位点的DNA分子中的各者的甲基化模式与获自亚硫酸氢盐测序的参考组织甲基化概况进行比较。使用包含嗜中性白血细胞、T细胞、B细胞、肝和胎盘的五个组织作为参考组织。血浆DNA分子将经指派至对应于所述血浆DNA分子的最大甲基化状态匹配分数的组织。相对于其它组织而言经指派至一组织的血浆DNA分子百分比将视为所述组织对所述样本的母体血浆DNA的贡献比例。在实施例中，母体血浆中的嗜中性白血细胞、T细胞和B细胞的贡献比例总和提供造血细胞的贡献比例的替代表示。

图38显示使用甲基化状态匹配分析的母体血浆中的来自不同组织的DNA分子的贡献比例。第一栏显示样本识别。第二栏显示呈百分比形式的造血细胞贡献。第三栏显示呈百分比形式的肝贡献。第四栏显示呈百分比形式的胎盘贡献。图38显示母体血浆DNA的主要贡献者为造血细胞(中值：55.9％)，此与先前报告一致(Sun等人《美国国家科学院院刊》2015；112:E5503-12；Zheng等人《临床化学》2012；58:549-58)。

图39A和图39B显示胎盘贡献与通过SNP途径推断的胎儿DNA分率之间的关系。X轴显示通过SNP途径确定的胎儿分率。Y轴显示通过使用甲基化状态匹配分析确定的呈百分比形式的母体血浆中的胎盘贡献。图39A显示通过甲基化状态匹配分析确定的胎盘贡献与通过SNP推断的胎儿DNA分率之间的良好相关性(皮尔森相关系数(Pearson's r)＝0.95；P值<0.0001)。我们根据二次规划通过比较通过单分子实时测序确定的血浆DNA甲基化密度与获自亚硫酸氢盐测序的各种参考组织甲基化概况来进一步执行母体血浆DNA的组织去卷积分析(Sun等人《美国国家科学院院刊》2015；112:E5503-12)。图39B显示相较于使用甲基化状态匹配分析而言使用基于甲基化密度的途径使胎盘贡献(Sun等人《美国国家科学院院刊》2015；112:E5503-12)与胎儿DNA分率之间的相关性降低(皮尔森相关系数＝0.65；P值＝0.059)。

这些数据表明推断母体血浆DNA样本中的不同组织所贡献的DNA分子的比例为可行的。在另一实施例中，此方法也可用于测量来自在侵入性实体组织生检之后获得的样本中的不同细胞类型或组织或来自在手术之后获得的实体组织的DNA分子。在一些实施例中，单个DNA分子水平上甲基化模式用于推断不同组织对母体血浆DNA的贡献比例的用途将优于基于来自整个基因组中所有经测序血浆DNA分子的集合甲基化密度的途径的用途。

G.实例方法

图40显示分析获自怀有胎儿的女性的生物样本的方法4000。生物样本可包含来自胎儿和女性的多个游离DNA分子。

在区块4010处，可接收对应于多个游离DNA分子的序列读段。在一些实施例中，方法4000可包含执行游离DNA分子的测序。

在区块4020处，可测量多个游离DNA分子的尺寸。测量可包含将序列读段与参考基因组进行比对。在一些实施例中，测量可包含对全长序列中的核苷酸进行全长测序且计数其数目。在一些实施例中，测量可包含将来自生物样本的多个游离DNA分子与生物样本中的其它游离DNA分子以物理方式分离，其中其它游离DNA分子具有小于截止值的尺寸。物理分离可包含本文所描述的任何技术，包含使用珠粒。

在区块4030处，可识别来自多个游离DNA分子的一组游离DNA分子为具有大于或等于截止值的尺寸。截止值可大于或等于200nt。截止值可为至少500nt，包含600nt、700nt、800nt、900nt、1knt、1.1knt、1.2knt、1.3knt、1.4knt、1.5knt、1.6knt、1.7knt、1.8knt、1.9knt或2knt。截止值可为本文所描述的用于长游离DNA分子的任何截止值。尺寸可为CpG位点数目而非分子长度。举例来说，截止值可为3、4、5、6、7、8、9、10、11、12、13、14、15或更多个CpG位点。

在区块4040处，对于所述组游离DNA分子中的一个游离DNA分子，可确定多个位点中的各位点处的甲基化状态。多个位点可包含至少5、6、7、8、9、10、11、12、13、14、15或更多个CpG位点。多个位点中的至少一个可为甲基化的。多个位点中的两个位点可间隔至少160nt、170nt、180nt、190nt、200nt、250nt或500nt。所述方法可包含对多个游离DNA分子进行测序以获得序列读段，且通过测量对应于位点的核苷酸和邻近位点的核苷酸的特征来确定位点的甲基化状态。举例来说，甲基化可如美国申请第16/995,607号中一般加以确定。

在区块4050处，可确定甲基化模式。甲基化模式可指示多个位点中的各位点处的甲基化状态。

在区块4060处，可将甲基化模式与一个或多个参考模式进行比较。一个或多个参考模式中的各者可经确定用于特定组织类型。在一些实施例中，比较可包含确定匹配参考模式的位点数目。

一个或多个参考模式中的所述参考模式可通过使用来自参考组织的DNA分子测量多个参考位点中的各参考位点处的甲基化密度来确定。可将多个参考位点中的各参考位点处的甲基化密度与一个或多个阈值甲基化密度进行比较。可基于比较甲基化密度与一个或多个阈值甲基化密度来识别多个参考位点中的各参考位点为甲基化、未甲基化或非信息性的，其中多个位点为经识别为甲基化或未甲基化的多个参考位点。非信息性位点可包含具有在两个阈值甲基化密度之间的甲基化密度的位点。举例来说，非信息性位点的甲基化指数可在30与70之间或在如本文所描述的任何其它范围内。

在步骤4070处，可使用甲基化模式确定游离DNA分子的起源组织。起源组织可为胎盘。起源组织可为胎儿或母体的。所述方法可包含当甲基化模式匹配参考模式时，确定起源组织为参考组织，与用图22进行的描述类似。匹配可指精确匹配。在一些实施例中，确定起源组织为参考组织可在甲基化模式匹配特定百分比的位点的参考模式时发生。举例来说，甲基化模式可匹配至少60％、70％、80％、85％、90％、95％、97％或更多位点的参考模式。

所述方法可包含通过利用比较甲基化模式与来自多个参考组织中的第一参考组织的第一参考甲基化模式确定类似性分数来确定起源组织。类似性分数可用本文所描述的甲基化状态匹配方法或贝他(β)分布机率模型加以计算。可将类似性分数与阈值进行比较。当类似性分数超过阈值时可确定起源组织为第一参考组织。类似性分数可为第一类似性分数。所述方法可进一步包含通过利用比较甲基化模式与来自多个参考组织中的第二参考组织的第二参考甲基化模式确定第二类似性分数来计算阈值。第一参考组织与第二参考组织可为不同组织。阈值可为第二类似性分数。与所有其它参考组织相比，第一参考组织可具有最高类似性分数。

第一参考甲基化模式可包含对于第一参考组织而言具有至少第一甲基化机率的第一子组位点。举例来说，第一子组位点可为视为甲基化或通常视为甲基化的位点。第一参考甲基化模式可包含对于第一参考组织而言具有至多第二甲基化机率的第二子组位点。举例来说，第二子组位点可为视为未甲基化或通常视为未甲基化的位点。确定类似性分数可包含当多个位点中的一位点为甲基化的且多个位点中的所述位点处于第一子组位点中时增加类似性分数，且当多个位点中的一位点为甲基化的且多个位点中的所述位点处于第二子组位点中时减少类似性分数。类似性分数可经确定为与本文所描述的甲基化状态匹配途径类似。

第一参考甲基化模式包括多个位点，其中多个位点中的各位点的特征在于对于第一参考组织而言的甲基化机率和未甲基化机率。对于多个位点中的各位点，类似性分数可通过确定对应于游离DNA分子中的位点的甲基化状态的参考组织中的机率来确定。类似性分数可通过计算多个机率的乘积来确定。乘积可为类似性分数。机率可通过贝他(β)分布确定，与本文所描述的途径类似。

方法4000可进一步包含确定所述组游离DNA分子中的各游离DNA分子的起源组织。此确定可包含确定多个对应位点中的各位点处的甲基化状态，其中多个对应位点对应于游离DNA分子。确定起源组织可进一步包含确定甲基化模式。另外，确定起源组织也可包含比较甲基化模式与一个或多个参考模式中的至少一个参考模式。在一些实施例中，甲基化模式的比较可与图22和随附描述类似。在图22中，胎盘、肝、血细胞和结肠为具有所说明的参考模式的参考组织的实例。图38显示作为参考组织的另一实例的造血细胞。

在一些实施例中，对应于各起源组织的游离DNA分子的量可经测定。各起源组织可包含多个参考组织中的各参考组织。可使用对应于各起源组织的游离DNA分子的测量定起源组织的贡献分率。举例来说，起源组织可为胎盘。其它起源组织可包含造血细胞和肝。举例来说，胎盘的贡献分率可由游离DNA分子的量除以对应于所有起源组织的总游离DNA分子来测定。在一些实施例中，由游离DNA分子的量除以总游离DNA分子计算的分率可经由函数或一组校准数据点与贡献分率相关。函数和所述组校准数据点两者均可由具有已知的起源组织的贡献分率的多个校准样本确定。各校准数据点可规定对应于分率的校准值的贡献分率。函数可表示校准数据点的线性或非线性拟合且可使贡献分率与起源组织的分率或涉及起源组织的其它参数相关。测定贡献分率的实施例可与已用图39A和图39B加以描述的实施例类似。

机器学习模型可用于确定起源组织。模型可通过接收多个训练甲基化模式来训练，各训练甲基化模式在多个位点中的一个或多个位点处具有甲基化状态，各训练甲基化模式由来自已知组织的DNA分子确定。来自已知组织的各分子可为细胞DNA。训练可包含储存多个训练样本，各训练样本包含多个训练甲基化模式中的一者和指示对应于训练甲基化模式的已知组织的标签。训练可包含使用多个训练样本当将多个训练甲基化模式输入模型中时基于匹配或不匹配对应标签的模型的输出来最佳化模型的参数。参数可包含指示多个位点中的一个位点是否具有与多个位点中的另一位点相同的甲基化状态的第一参数。举例来说，模型可与图24的成对比较类似。参数可包含指示多个位点中的各位点之间的距离的第二参数。在一些实施例中，机器学习模型可不需要将甲基化位点与参考基因组进行比对。模型的输出可规定对应于输入甲基化模式的组织。

机器学习模型可为卷积类神经网络(CNN)或本文所描述的任何模型。模型可包含但不限于线性回归、逻辑回归、深度递归神经网络(例如长短期存储器，LSTM)、贝氏分类器、隐藏马可夫模型(HMM)、线性鉴别分析(LDA)、k平均集群、具有噪音的应用的基于密度的空间集群(DBSCAN)、随机森林算法和支持向量机(SVM)。

亲缘可通过方法4000确定。起源组织可为胎儿。所述方法可进一步包含将所述序列读段中的一个序列读段与参考基因组的第一区进行比对，第一区包括对应于等位基因的多个位点，多个位点包含阈值数目个位点，使用多个位点中的各位点处存在的对应等位基因确定第一单倍型，比较第一单倍型与对应于男性个体的第二单倍型，且使用比较确定男性个体为胎儿的父亲的可能性的分类。如果单倍型匹配，则男性个体可能视为父亲，或如果单倍型不匹配，则男性个体可能不视为父亲。在一些实施例中，可将第一单倍型与男性个体的两个单倍型进行比较。

在实施例中，当起源组织为胎儿时，可通过将所述序列读段中的一个序列读段与参考基因组的第一区进行比对来测试亲缘。第一区可包含对应于等位基因的第一多个位点。多个位点可包含阈值数目个位点。阈值数目个位点可为3、4、5、6、7、8、9、10、11、12、13、14、15或更多个位点。可将多个位点中的各位点处的等位基因与男性个体的基因组中对应位点处的等位基因进行比较。可使用比较确定男性个体为胎儿的父亲的可能性的分类。如果特定数目或百分比的等位基因匹配，则男性个体可能视为父亲，且如果少于所述数目或百分比的等位基因匹配，则男性个体可能不视为父亲。截止百分比可为100％、90％、80％或70％。

在一些实施例中，单倍型可经确定。所述方法可包含对于所述组游离DNA分子中的各游离DNA分子，将对应于游离DNA分子的序列读段与参考基因组进行比对。可识别序列读段为对应于女性中所存在的单倍型。可从对女性进行基因分型知晓女性中所存在的单倍型。在一些实施例中，可通过分析来自女性的生物样本中的单倍型的DNA片段浓度知晓女性的单倍型。可使用甲基化模式确定起源组织为胎儿的。可确定单倍型为母体遗传胎儿单倍型。

单倍型的遗传可使用参考组织的甲基化而非使用如与铭记基因座相关的甲基化概况的已知甲基化概况来确定。甲基化模式与参考模式的匹配或类似性分数可排除基于遗传其的父母，既定等位基因或位点是否为甲基化的认识。

单倍型可经识别为携带致病遗传突变或变异。识别单倍型为携带致病遗传突变可包含在第一序列读段中识别遗传突变或变异。遗传变异可包含单核苷酸差异、缺失或插入。可测量对应于在第一序列读段的第一距离内的第一基因组位置的第二序列读段中的第一甲基化程度。也可测量对应于在第一序列读段的第二距离内的第二基因组位置的第三序列读段中的第二甲基化程度。第一距离可为100nt、200nt、300nt、400nt、500nt、600nt、700nt、800nt、900nt、1knt、2knt、5knt或10knt。第二序列读段和第三序列读段可与第一序列读段处于同一染色体臂上。第一甲基化程度和第二甲基化程度可能与遗传突变或变异相关。第一甲基化程度和第二甲基化程度可大于与遗传突变或变异相关的一或两个阈值程度。阈值程度可使用已知具有或不具有遗传突变或变异的个体来确定。所述方法可包含对胎儿可能患有由遗传突变或变异造成的疾病进行分类。

胎儿特异性甲基化模式可经确定。所述方法可包含对于所述组游离DNA分子中的各游离DNA分子，将对应于游离DNA分子的序列读段与参考基因组进行比对。所述方法可包含识别序列读段为对应于一区。所述区可通过接收对应于来自胎儿组织的多个胎儿DNA分子的多个胎儿序列读段来确定。所述方法可包含接收对应于多个母体DNA分子的多个母体序列读段。所述方法可包含针对多个胎儿序列读段中的各胎儿序列读段确定在所述区内的多个甲基化位点中的各甲基化位点处的胎儿甲基化状态。所述方法可包含针对多个母体序列读段中的各母体序列读段确定多个甲基化位点中的各甲基化位点处的母体甲基化状态。

用于确定胎儿特异性甲基化模式的方法可包含确定表征其中胎儿甲基化状态不同于母体甲基化状态的位点的量的参数的值。所述方法可包含比较参数的值与阈值。参数可为在胎儿DNA分子与母体DNA分子之间不同的位点的比例。比例可为本文所描述的错配分数。阈值可指示错配分数的最低水平且可为0.3、0.4、0.5、0.6、0.7、0.8、0.9或更大。在一些实施例中，阈值可表示母体或胎儿DNA分子的平均错配分数。所述方法可包含确定参数的值超过阈值。在一些实施例中，可要求特定百分比的母体或胎儿DNA分子的参数的值超过阈值。举例来说，百分比可为50％、60％、70％、80％、90％或更大。在一些实施例中，可要求特定百分比的对应于所述区的胎儿DNA分子具有胎儿特异性甲基化模式。举例来说，百分比可为40％、50％、60％、70％、80％或更大。此方法可与用图25所描述的方法类似。

所述方法可包含从起源组织富集生物样本以获得游离DNA分子。富集生物样本可包含选择且扩增所述组游离DNA分子。富集可包含如本文所描述的基于尺寸的选择。在一些实施例中，富集可包含基于甲基化模式的选择。举例来说，可使用基于甲基-CpG结合域(MBD)的捕获和测序。可将游离DNA与可结合甲基化胞嘧啶的加标签的MBD蛋白一起培育。随后，可用抗体结合磁珠使蛋白质-DNA复合体沉淀。可优先富集具有更多甲基化CpG位点的DNA分子以用于下游分析。

III.长游离DNA片段随胎龄的变化

长游离DNA片段的量可随胎龄变化。长游离DNA片段可用于确定胎龄。另外，与较短游离DNA片段相比，长游离DNA片段在特定末端基序中可更丰富，且特定末端基序的相对量可随胎龄变化。末端基序的量也可用于确定胎龄。使用长游离DNA片段确定的胎龄与经由其它临床技术确定的胎龄的偏差可指示怀孕相关病症。在一些实施例中，长游离DNA片段可用于在不必确定胎龄的情况下确定怀孕相关病症的可能性。

A.针对胎儿DNA和母体DNA的尺寸分析

使用单分子实时(SMRT)测序(PacBio)对怀孕初期(胎龄：13周)的两个孕妇的血浆DNA、怀孕中期(胎龄：21-22周)的两个孕妇的血浆DNA和怀孕晚期(胎龄：38周)的五个孕妇的血浆DNA进行测序。对于各案例，获得中值1.76亿(范围：4900万-6.85亿)个子读段，其中1.28亿(范围：3500万-5.07亿)个子读段可与人类参考基因组(hg19)进行比对。SMRT孔中的各分子平均经测序107次。中值965,308(范围：251,686-2,871,525)个高质量环形共同测序(CCS)读段经定义为具有至少3个子读段的CCS读段，可用于下游分析。

将来自获自各孕期的样本的所有经测序分子综合在一起以用于尺寸分析。怀孕初期、怀孕中期和怀孕晚期母体血浆样本分别存在总计194万、509万和445万个游离DNA分子。

图41A和图41B显示来自怀孕初期、怀孕中期和怀孕晚期母体血浆样本的在0kb至5kb尺寸范围内的游离DNA分子的尺寸分布。x轴显示尺寸。y轴显示频率。对于图41A，绘制y轴的在线性尺度上在0kb至5kb范围内的尺寸分布，且对于图41B，绘制y轴的在对数尺度上在0kb至5kb范围内的尺寸分布。来自所有三个孕期的血浆DNA如图41A中所示展现在166bp下的预期主峰，且如图41B中所示展现延伸至在1kb和2kb范围内的分子的以周期性模式出现的一系列主峰。

图42为显示不同孕期的长血浆DNA分子比例的表。第一栏显示与血浆样本相关的胎龄。第二栏显示长于500bp的DNA分子比例。第三栏显示长于1kb的DNA分子比例。与怀孕初期和怀孕中期相比，怀孕晚期的500bp或大于500bp的血浆DNA分子频率增加。怀孕初期、怀孕中期和怀孕晚期的大于500bp的长血浆DNA分子比例分别为15.8％、16.1％和32.3％。怀孕初期、怀孕中期和怀孕晚期的大于1kb的长血浆DNA分子比例分别为11.3％、10.6％和21.4％。当怀孕初期和怀孕中期母体血浆的长游离DNA分子显示类似比例时，怀孕晚期母体血浆的长DNA分子比例为前述长DNA分子比例的约两倍。

对于此公开案的所分析的所有母体血浆DNA样本，从其经配对母体血沉棕黄层和胎儿样本提取的DNA经作为基于阵列杂交的基因分型方法的于iScan系统(Illumina)上的Infinium Omni2.5Exome-8 Beadchip基因分型。视案例来自怀孕初期、怀孕中期抑或怀孕晚期而定，分别通过绒毛膜取样、羊水穿刺术抑或胎盘取样获得胎儿样本。对于各案例，识别中值203,647个信息性单核苷酸多型性(SNP)，其中母亲为同型接合的且胎儿为异型接合的。当用于所有案例的来自各孕期的经测序的DNA分子综合在一起时，我们识别怀孕初期、怀孕中期和怀孕晚期的分别总计1,362、2,984和6,082个涵盖胎儿特异性等位基因的DNA分子。另一方面，对于各案例，识别中值210,820个信息性SNP，其中母亲为异型接合的且胎儿为同型接合的。我们识别怀孕初期、怀孕中期和怀孕晚期的分别总计30,574、65,258和78,346个涵盖母体特异性等位基因的DNA分子。在所有母体血浆样本当中，从≤600bp的DNA分子的测序数据测定的中值胎儿DNA分率为15.6％(范围为7.6％-26.7％)。

图43A和图43B显示来自怀孕初期、怀孕中期和怀孕晚期母体血浆的涵盖胎儿特异性等位基因的DNA分子的尺寸分布。x轴显示尺寸。y轴显示频率。对于图43A，绘制y轴的在线性尺度上在0kb至3kb范围内的尺寸分布，且对于图43B，绘制y轴的在对数尺度上在0kb至3kb范围内的尺寸分布。

图44A和图44B显示来自怀孕初期、怀孕中期和怀孕晚期母体血浆的涵盖母体特异性等位基因的DNA分子的尺寸分布。x轴显示尺寸。y轴显示频率。对于图44A，绘制y轴的在线性尺度上在0kb至3kb范围内的尺寸分布，且对于图44B，绘制y轴的在对数尺度上在0kb至3kb范围内的尺寸分布。

如图43A至图44B中所示，来自所有三个孕期的涵盖胎儿特异性等位基因的血浆DNA分子和涵盖母体特异性等位基因的血浆DNA分子展现长尾分布，表明来源于胎儿来源和母体来源两者的长DNA分子存在于所有三个孕期中。

图45为不同孕期的长胎儿和母体血浆DNA分子的比例表。第一栏显示与血浆样本相关的胎龄。第二栏显示长于500bp的胎儿DNA分子比例。第三栏显示长于500bp的母体DNA分子比例。第四栏显示长于1kb的胎儿DNA分子比例。第五栏显示长于1kb的母体DNA分子比例。在母体血浆中的DNA分子池当中，与涵盖母体特异性等位基因的DNA分子相比，涵盖胎儿特异性等位基因的DNA分子(为胎盘起源)具有较小比例的长DNA分子。怀孕初期、怀孕中期和怀孕晚期的尺寸大于500bp的涵盖胎儿特异性等位基因的长血浆DNA分子比例分别为19.8％、23.2％和31.7％。怀孕初期、怀孕中期和怀孕晚期的尺寸大于1kb的涵盖胎儿特异性等位基因的长血浆DNA分子比例分别为15.2％、16.5％和19.9％。

不管怀孕初期和怀孕中期母体血浆中存在相较于怀孕晚期母体血浆而言较小比例的长血浆DNA分子且在所有三个孕期中胎儿DNA分子含有较少长DNA分子的事实如何，我们先前公开案和本公开案中所描述的方法均允许我们分析先前不可能用短读段测序技术分析的相当大比例的长血浆DNA分子。另外，我们可使用包含但不限于基于电泳、层析和珠粒的方法的不同尺寸选择策略来富集血浆样本中的长DNA片段。

图46A、图46B和图46C显示不同孕期中特定尺寸范围的胎儿特异性血浆DNA片段的比例图。所评估的怀孕案例的胎龄通过断定孕期的超声波(dating ultrasound)来验证。图46A显示小于或等于150bp的DNA片段的结果。图46B显示150至600bp的DNA片段的结果。图46C显示大于或等于600bp的DNA片段的结果。所述图式在y轴上具有胎儿特异性片段比例且在x轴上具有胎龄。如所述图式中所示，与在150bp至600bp范围内的胎儿特异性片段比例(图46B)相比，短于150bp的胎儿特异性片段比例(图46A)和长于600bp的胎儿特异性片段比例(图46C)两者将达成区分怀孕晚期样本与怀孕初期和怀孕中期样本的特定鉴别动力。长于600bp的胎儿特异性片段的比例可提供最佳鉴别动力。此结论通过以下事实证明：当使用短于150bp的胎儿特异性片段的比例时，怀孕晚期与怀孕初期和怀孕中期的合并组之间的绝对最小距离为0.38，而当使用大于600bp的胎儿特异性片段的比例时，对应值为3.76。这些结果表明，长DNA分子的使用反映病理生理学状态，此将优于短DNA分子的使用。

B.血浆DNA末端分析

除尺寸的外，我们针对各经测序的DNA分子分别确定沃森股和克里克股两者的5'端处的第一核苷酸。此分析由4个类型的末端，即A端、C端、G端和T端组成。来自获自各孕期的母体血浆样本的具有特定末端的血浆DNA分子百分比经计算。各片段尺寸下的A端、C端、G端和T端的百分比经进一步分析。

图47A、图47B和图47C显示跨0kb至3kb的片段尺寸范围的来自怀孕初期、怀孕中期和怀孕晚期母体血浆的游离DNA分子的5'端处的碱基含量比例图。图47A显示怀孕初期母体血浆。图47B显示怀孕中期母体血浆。图47C显示怀孕晚期母体血浆。呈百分比形式的碱基含量示于y轴上。以碱基对为单位的片段尺寸示于x轴上。如所述图式中所见，跨许多尺寸范围(大部分小于1kb)的C端经过度呈现且根据用于怀孕初期、怀孕中期和怀孕晚期样本的不同尺寸范围变化。怀孕晚期样本的血浆DNA末端模式似乎与怀孕初期和怀孕中期样本不同。举例来说，在于105bp至172bp范围内的尺寸下的T端和G端曲线混合在一起，但其在怀孕初期和怀孕中期样本中发散。对于较长片段(例如大于约1kb)，C端片段不为最丰富片段。在约1kb下G端片段超过C端片段，且随后在约2kb下A端片段变得比G端片段丰富。

图48为来自怀孕初期、怀孕中期和怀孕晚期母体血浆的短游离DNA分子和长游离DNA分子当中的末端核苷酸碱基比例表。第一栏显示分子末端处的碱基。第二栏显示预期比例点和物种。第三栏显示怀孕初期母体血浆的小于或等于500bp的片段当中的末端物种比例。第四栏显示怀孕初期母体血浆的大于500bp的片段当中的末端物种比例。第五栏和第六栏分别与第三栏和第四栏类似，不同的处在于怀孕中期母体血浆代替怀孕初期母体血浆。第七栏和第八栏分别与第三栏和第四栏类似，不同的处在于怀孕晚期母体血浆代替怀孕初期母体血浆。

如果游离DNA片段化为完全随机的，则末端核苷酸碱基比例应反映人类基因组的组成，所述组成为29.5％ A、29.5％ T、20.5％ C和20.5％ G，如图48的第二栏中所示。与随机片段化形成对比，≤500bp的短游离DNA分子的5'端显示C端的相当大过度呈现(对于怀孕初期、怀孕中期和怀孕晚期母体血浆分别为30.4％、30.4％和31.3％)、G端的略微过度呈现(对于怀孕初期、怀孕中期和怀孕晚期分别为27.4％、26.9％和25.3％)和A端的过低呈现(对于怀孕初期、怀孕中期和怀孕晚期分别为19.8％、19.4％和19.3％)以及T端的过低呈现(对于怀孕初期、怀孕中期和怀孕晚期分别为22.4％、23.3％和24.1％)。

然而，当与短游离DNA分子相比时，>500bp的长游离DNA分子显示A端比例的相当大增加(对于怀孕初期、怀孕中期和怀孕晚期母体血浆分别为29.6％、26.0％和26.7％)、G端比例的略微增加(对于怀孕初期、怀孕中期和怀孕晚期分别为31.0％、29.5％和29.9％)、T端比例的相当大减少(对于怀孕初期、怀孕中期和怀孕晚期分别为13.9％、16.9％和16.4％)和C端比例的略微减少(对于怀孕初期、怀孕中期和怀孕晚期分别为25.5％、27.5％和27.1％)。

图49为来自怀孕初期、怀孕中期和怀孕晚期母体血浆的涵盖胎儿特异性等位基因的短游离DNA分子和长游离DNA分子当中的末端核苷酸碱基比例表。图50为来自怀孕初期、怀孕中期和怀孕晚期母体血浆的涵盖母体特异性等位基因的短游离DNA分子和长游离DNA分子当中的末端核苷酸碱基比例表。第一栏显示分子末端处的碱基。第二栏显示预期比例点和物种。第三栏显示怀孕初期母体血浆的小于或等于500bp的片段当中的末端物种比例。第四栏显示怀孕初期母体血浆的大于500bp的片段当中的末端物种比例。第五栏和第六栏分别与第三栏和第四栏类似，不同的处在于怀孕中期母体血浆代替怀孕初期母体血浆。第七栏和第八栏分别与第三栏和第四栏类似，不同的处在于怀孕晚期母体血浆代替怀孕初期母体血浆。图49和图50显示短游离DNA分子和长游离DNA分子当中的末端核苷酸碱基比例中的所述差异保持不变，即使当我们单独地检查涵盖胎儿特异性等位基因的DNA分子和涵盖母体特异性等位基因的DNA分子时也如此。

图51绘示使用256个4聚体末端基序进行的短血浆游离DNA分子和长血浆游离DNA分子的层级集群分析。各栏指示用于分别基于短片段(在第一列中由青色表示)和长片段(在第一列中由黄色表示)分析末端基序频率的样本。从第二列开始，各列指示末端基序的类型。根据列标准化频率(z-分数)(即低于或高于整个样本中的平均频率的标准差数值)，末端基序频率以一系列颜色梯度呈现。颜色越红，指示末端基序频率越高，而颜色越蓝，指示末端基序频率越低。

在图51中，我们通过分析短游离DNA分子和长游离DNA分子的4聚体末端基序概况对其等进行表征。我们针对各经测序的DNA分子分别确定沃森股和克里克股两者的5'端处的第一4核苷酸序列(4聚体基序)。对于各母体血浆样本，分别计算短血浆DNA分子(≤500bp)和长血浆DNA分子(>500bp)的各血浆DNA末端基序频率。基于256个4聚体末端基序频率的层级集群分析显示整个不同母体血浆样本中的长DNA分子的末端基序概况形成与短DNA分子的末端基序概况不同的集群。这些结果表明长DNA和短DNA具有不同片段化特性。在实施例中，我们将使用长DNA分子与短DNA分子之间的这些末端基序的相对扰动以指示源自如但不限于细胞凋亡和坏死的细胞死亡路径的游离DNA贡献。来自这些细胞死亡路径的经提高的活性可能与怀孕相关病症和其它病症相关。

图52A和图52B显示使用用于分类分析的4聚体末端基序概况进行的主成分分析(PCA)。图52A显示来自不同孕期的短游离DNA分子(≤500bp)。图52B显示来自不同孕期的母体血浆样本的长游离DNA分子(>500bp)。X轴和y轴上的括号内的百分比表示通过对应成分阐述的可变性的量。各蓝点表示怀孕初期母体血浆样本。各黄点表示怀孕中期母体血浆样本。各红点表示怀孕晚期母体血浆样本。椭圆形表示用于分组来自特定孕期的数据点的95％信赖水平。与短游离DNA分子(图52A)(也描述于美国申请第15/787,050号中)相比，长游离DNA分子(图52B)的4聚体末端基序概况在怀孕初期、怀孕中期和怀孕晚期母体血浆样本之间产生更清晰的间距。在实施例中，我们可利用单独长血浆DNA分子的末端基序概况或与包含但不限于甲基化程度和尺寸的其它母体血浆DNA特征的组合以用于分子胎龄评估。

举例来说，我们使用神经网络来训练用于基于256个末端基序、总甲基化程度和尺寸≥600bp的片段比例预测胎龄的模型。输出变数为1、2和3，表示怀孕初期、怀孕中期和怀孕晚期。输入变数包含256个末端基序、总甲基化程度和尺寸≥600bp的片段比例。我们使用留一法来评估预测胎龄的效能。对于包括9个样本的数据集，以一个样本经选择为测试样本且剩余8个样本用于基于神经网络训练模型的方式进行留一法。基于已建立模型，此类测试样本经确定为1、2或3。随后，我们对尚未经测试的其它样本重复此方法。对于此类训练和测试过程，我们总计重复9次。通过比较那些测试结果与关于胎龄的临床信息，9个样本中有8个(89％)就胎龄而言经恰当地预测。在另一实施例中，所述分析可例如但不限于使用贝氏定理、逻辑回归、多元回归和支持向量机、随机森林分析、分类和回归树(CART)、K最近相邻算法来执行。

接着，将来自获自各孕期的样本的所有经测序分子综合在一起以用于下游末端基序分析。根据短血浆DNA分子和长血浆DNA分子当中的256个末端基序的频率对其进行分等级。

图53至图58为特定长度的DNA片段(短于或长于500bp)和不同孕期的具有最高频率的25个末端基序的表。图53、图54和图55为短片段(<500bp)中的通过末端基序等级分选的末端基序表。在图53至图55中，第一栏显示末端基序。第二栏显示短片段中的基序频率等级。第三栏显示长片段中的基序频率等级。第四栏显示短片段中的基序频率。第五栏显示长片段中的基序频率。第六栏显示变化倍数(短片段中的基序频率除以长片段中的基序频率)。

图56、图57和图58为长片段(>500bp)中的通过末端基序等级分选的末端基序表。在图56至图58中，第一栏显示末端基序。第二栏显示长片段中的基序频率等级。第三栏显示短片段中的基序频率等级。第四栏显示长片段中的基序频率。第五栏显示短片段中的基序频率。第六栏显示变化倍数(长片段中的基序频率除以短片段中的基序频率)。

图53和图56来自怀孕初期样本。图54和图57来自怀孕中期样本。图55和图58来自怀孕晚期样本。

在短血浆DNA分子当中的前25个具有最高频率的末端基序当中，其中11个以CC二核苷酸起始。在怀孕初期、怀孕中期和怀孕晚期母体血浆中，以CC起始的末端基序分别一起占短血浆DNA末端基序的14.66％、14.66％和15.13％。在长血浆DNA分子当中的前25个具有最高频率的末端基序当中，以TT二核苷酸结束的4聚体基序在怀孕中期和怀孕晚期母体血浆中占其中的9个且在怀孕初期母体血浆中占其中的10个。

我们针对各经测序的DNA分子分别确定沃森股和克里克股两者的5'端的第三核苷酸(X)和第四核苷酸(Y)的二核苷酸序列。X和Y可为DNA中的四个核苷酸碱基中的一个。存在16个可能性NNXY基序，即NNAA、NNAT、NNAG、NNAC、NNTA、NNTT、NNTG、NNTC、NNGA、NNGT、NNGG、NNGC、NNCA、NNCT、NNCG和NNCC。

图59A、图59B和图59C显示短血浆DNA分子和长血浆DNA分子当中的16个NNXY基序的基序频率散布图。图59A显示怀孕初期结果。图59B显示怀孕中期结果。图59C显示怀孕晚期结果。长片段的基序频率示于y轴上。短片段的基序频率示于x轴上。各圆圈表示16个NNXY基序中的一个。各散布图中的点线对指代相较于短血浆DNA分子(≤500bp)而言长血浆DNA分子(>500bp)中的基序频率的1.5倍增加(上线)和降低(下线)。位于阴影区域外部的圆圈表示变化倍数>1.5的基序。

在所有三个孕期中(图11)，当短血浆DNA分子的末端显示以CC二核苷酸(CCNN)起始的4聚体基序的高频率(Jiang等人《癌症发现(Cancer Discov)》2020；10(5):664-673；Chan等人《美国人类遗传学期刊》2020；107(5):882-894)时，长血浆DNA分子的末端显示以TT(NNTT)结束的4聚体基序的频率的>1.5倍增加。在怀孕初期、怀孕中期和怀孕晚期母体血浆中，NNTT基序分别占长血浆DNA末端基序的18.94％、15.22％和15.30％。相反地，在怀孕初期、怀孕中期和怀孕晚期母体血浆中，NNTT基序分别仅占短血浆DNA末端基序的9.53％、9.29％和8.91％。

如先前Han等人所报告，对>150bp的A端片段富集从死亡细胞新释放至血浆中的游离DNA。发现作为在细胞凋亡期间参与DNA片段化的主要胞内核酸酶的DNA片段化因子β(DFFB)负责生成所述片段(Han等人《美国人类遗传学期刊》2020；106:202-214)。在本公开案中，我们已显示，也对A端片段富集>500bp的长游离DNA分子，表明DFFB可能也负责生成这些片段。在正常怀孕中，滋胚层细胞凋亡随妊娠发展而增多(Sharp等人《美国生殖免疫学期刊(Am J Reprod Immuno)》2010；64(3):159-69)。实际上，我们涵盖胎儿特异性等位基因的长DNA分子比例随孕期发展而增加的发现可能反映滋胚层细胞凋亡随孕期发展而增多。

在实施例中，我们可使用本文所描述的方法来针对胎盘相关怀孕并发症的预测、筛检和发展监测分析母体血浆中的长游离DNA分子，所述胎盘相关怀孕并发症包含但不限于子痫前症、子宫内生长受限(IUGR)、早产和妊娠期滋胚层疾病。已报告胎盘相关怀孕并发症中的滋胚层细胞凋亡水平增加，所述胎盘相关怀孕并发症如为子痫前症(Leung等人《美国妇产科期刊(Am J Obstet Gynecol)》2001；184:1249-1250)、IUGR(Smith等人《美国妇产科期刊》1997；177:1395-1401；Levy等人《美国妇产科期刊》2002；186:1056-1061)和妊娠期滋胚层疾病。此外，已报告以下中的母体血浆中的胎儿DNA含量升高：子痫前症(Lo等人《临床化学》1999；45(2):184-8；Smid等人《纽约科学院年报(Ann N Y Acad Sci)》2001；945:132-7)、IUGR(Sekizawa等人《美国妇产科期刊》2003；188:480-4)和早产(Leung等人《柳叶刀(Lancet)》1998；352(9144):1904-5)。我们假设在胎盘相关怀孕并发症中，由于胎盘细胞凋亡增多，因此母体血浆样本中的胎盘起源的长游离DNA分子比例增加。因此，胎盘起源的长游离DNA分子自身以及包含但不限于A端片段和NNTT基序的长DNA记号可能充当胎盘细胞凋亡的生物标记。

尽管上文分析中使用单核苷酸基序和4核苷酸基序，但在其它实施例中可使用例如2、3、5、6、7、8、9、10或更长的其它长度的基序。

C.实例方法

长游离DNA片段可用于确定怀有胎儿的女性的胎龄。长游离DNA片段的量随胎龄而变化且可用于确定胎龄。游离DNA片段的末端基序也随胎龄而变化且可用于确定胎龄。当使用长游离DNA片段确定的胎龄显著地偏离经由其它临床技术确定的胎龄时，则怀孕女性和/或胎儿可视为患有怀孕相关病症。在一些实施例中，可不需要确定胎龄以确定怀孕相关病症的可能性。

1.胎龄

图60显示分析获自怀有胎儿的女性的生物样本的方法6000。胎龄可经确定且可用于分类怀孕相关病症的可能性。生物样本可包含来自胎儿和女性的多个游离DNA分子。

对应于多个游离DNA分子的序列读段可经接受。在一些实施例中，用于获得序列读段的测序可经执行。

在区块6020处，可测量多个游离DNA分子的尺寸。尺寸可以与用图21加以描述的方式类似的方式来测量。尺寸可使用序列读段来测量。

在区块6030处，可测量具有大于截止值的尺寸的游离DNA分子的第一量。量可为游离DNA分子的数目、总长度或质量。

在区块6040处，可使用第一量生成标准化参数的值。标准化参数的值可为通过游离DNA分子总数目、通过来自胎儿或母亲的游离DNA分子数目或通过来自特定区的DNA分子数目标准化的第一量。举例来说，如用图46A-C所描述，标准化参数可为胎儿特异性片段比例。

在区块6050处，可将标准化参数的值与一个或多个校准数据点进行比较。各校准数据点可规定对应于标准化参数的校准值的胎龄。举例来说，特定孕期或特定周数的胎龄可对应于标准化参数的校准值。一个或多个校准数据点可从具有已知胎龄且包含具有大于截止值的尺寸的游离DNA分子的多个校准样本确定。在一些实施例中，校准数据点从具有标准化参数的值的功能相关胎龄确定。

在区块6060处，可使用比较确定胎龄。胎龄可视为对应于最接近标准化参数的值的校准值的年龄。在一些实施例中，胎龄可视为对应于低于标准化参数的值的校准值的最高龄。

所述方法可进一步包含使用超声波或女性最后一次月经期的日期确定胎儿的参考胎龄。所述方法也可包含比较胎龄与参考胎龄。所述方法可进一步包含使用胎龄与参考胎龄的比较确定怀孕相关病症的可能性的分类。举例来说，胎龄与参考胎龄之间的差异可指示怀孕相关病症。差异可为不同孕期或相差最小周数(例如1、2、3、4、5、6、7周或更多周)的胎龄差异。

所述方法可进一步包含使用末端基序。举例来说，所述方法可包含确定对应于具有大于截止值的尺寸的游离DNA分子的至少一个末端的第一子序列。第一量可属于具有大于截止值的尺寸且在对应游离DNA分子的一个或多个末端处具有第一子序列的游离DNA分子。第一子序列可为或包含1、2、3、4、5或6个核苷酸。如用图52A和图52B所描述，末端基序可用于经由PCA分析确定胎龄。可使用具有不同末端基序和已知胎龄且经受PCA分析的校准样本。可在末端基序上使用如线性鉴别分析、逻辑回归、支持向量机、线性回归、非线性回归等的其它分类和回归算法。分类和回归算法可使胎龄与特定末端基序和/或特定尺寸片段相关。

末端基序可为用图47-59或图94加以论述的任何基序。可将末端基序等级或频率与来自具有已知胎龄的个体的校准样本中的末端基序等级或频率进行比较。随后，末端基序等级或频率可用于确定胎龄。以偏离从具有相同胎龄的参考样本确定的等级或频率的等级或频率存在的末端基序可指示怀孕相关病症。

生成标准化参数的值可包含(a)通过具有大于截止值的尺寸的游离DNA分子的总量标准化第一量；(b)通过具有大于截止值的尺寸且以第二子序列结束的游离DNA分子的第二量标准化第一量，第二子序列与第一子序列不同，或(c)通过具有小于截止值的尺寸的游离DNA分子的第三量标准化第一量。

2.怀孕相关病症

图61显示分析获自怀有胎儿的女性的生物样本的方法6100。实施例可包含在不必确定胎龄的情况下分类怀孕相关病症的可能性。生物样本可包含来自胎儿和女性的多个游离DNA分子。

在区块6120处，可测量多个游离DNA分子的尺寸。尺寸可以与用图21加以描述的方式类似的方式来获得。测量尺寸可使用所接受的序列读段。

在区块6130处，可测量具有大于截止值的尺寸的游离DNA分子的第一量。截止值可大于或等于200nt。截止值可为至少500nt，包含600nt、700nt、800nt、900nt、1knt、1.1knt、1.2knt、1.3knt、1.4knt、1.5knt、1.6knt、1.7knt、1.8knt、1.9knt或2knt。截止值可为本文所描述的用于长游离DNA分子的任何截止值。第一量可为数目或频率。

在区块6140处，可使用第一量生成标准化参数的第一值。生成标准化参数的值可包含测量包含小于截止值的尺寸的游离DNA分子的第二量；和计算第一量与第二量的比。截止值可为第一截止值。第二截止值可小于第一截止值。第二量可包含具有小于第二截止值的尺寸的游离DNA分子或第二量可包含多个游离DNA分子中的所有游离DNA分子。标准化参数可为长游离DNA分子的频率的量度。

在区块6150处，可获得对应于健康怀孕的标准化参数的预期值的第二值。第二值可视胎儿的胎龄而定。第二值可为预期值。在一些实施例中，第二值可为与异常值有区别的截止值。

获得第二值可包含从具有标准化参数的校准值的关于怀孕女性测量结果的校准表获得第二值。校准表可通过获得具有怀孕女性个体测量结果的关于胎龄的第一表生成。可获得具有标准化参数的校准值的关于胎龄的第二表。第一表和第二表中的数据可来自相同个体或不同个体。可由第一表和第二表产生具有校准值的关于测量结果的校准表。校准表可包含关于测量结果的校准值的函数。

怀孕女性个体的测量结果可以是自从最后一次月经期以来的时间或怀孕女性个体的图像(例如超声波)特征。怀孕女性个体的测量结果可为怀孕女性个体的图像特征。举例来说，图像特征可包含女性个体的胎儿的长度、尺寸、外貌或解剖结构。特征可包含生物特征测量结果，例如顶臀长度或股骨长度。可使用特定器官的外貌，包含四室心脏或脊髓上的脊椎的外貌。胎龄可由开业医师从超声波图像确定(例如产科实践委员会(Committee onObstetric Practice)等人,“用于估计到期日的方法(Methods for estimating the duedate)”,委员会观点(Committee Opinion),第700期,2017年5月)。

在一些实施例中，机器学习模型可使一个或多个校准数据点与图像特征相关。模型可通过接收多个训练图像来训练。各训练图像可来自已知无怀孕相关病症或已知不患有怀孕相关病症的女性个体。女性个体可具有一定范围的胎龄。训练可包含储存来自女性个体的多个训练样本。各训练样本可包含与训练图像相关的标准化参数的已知值。模型可通过使用多个训练样本基于具有标准化参数的已知值的匹配或不匹配图像的模型的输出最佳化模型的参数来训练。模型的输出可规定对应于图像的标准化参数的值。标准化参数的第二值可通过将女性图像输入机器学习模型中来生成。

在区块6160处，可确定标准化参数的第一值与标准化参数的第二值之间的偏差。偏差可为分离值。

在区块6170处，可使用偏差确定怀孕相关病症的可能性的分类。当偏差超过阈值时，怀孕相关病症可为可能的。阈值可指示统计学上显著的差异。阈值可指示10％、20％、30％、40％、50％、60％、70％、80％、90％或100％的差异。

怀孕相关病症可包含/包括子痫前症、子宫内生长受限、侵入性胎盘形成、早产、新生儿溶血性疾病、胎盘功能不全、胎儿水肿、胎儿畸形、溶血、肝酶升高和低血小板计数(HELLP)综合征或全身性红斑狼疮。

IV.针对怀孕相关病症的尺寸和末端分析

长DNA分子的尺寸和/或末端分析用于确定子痫前症的可能性。所述方法也可应用于其它怀孕相关病症。从四个经诊断患有子痫前症的孕妇的母体血浆样本提取的DNA经受单分子实时(SMRT)测序(PacBio)。

图62为显示四个子痫前症案例的临床信息的表。第一栏显示案例编号。第二栏显示停止血液取样时以周为单位的胎龄。第三栏显示胎儿性别。第四栏显示关于子痫前症(PET)的临床信息。

M12804为重度子痫前症(PET)与预存在IgA肾病的案例。M12873为伴随迭加轻度PET的慢性高血压的案例。M12876为重度迟发型PET的案例。M12903为伴随子宫内生长受限(IUGR)的重度迟发型PET的案例。五个血压正常怀孕晚期母体血浆样本用作对照以用于本公开案中的后续分析。

对于此公开案的四个子痫前症和所分析的五个血压正常怀孕晚期母体血浆DNA样本，从其经配对母体血沉棕黄层和胎盘样本提取的DNA经于iScan系统(Illumina)上的Infinium Omni2.5Exome-8 Beadchip基因分型。

各样本的血浆DNA浓度通过用Qubit荧光计(赛默飞世尔科技(ThermoFisherScientific))进行的Qubit dsDNA高灵敏度分析加以定量。子痫前症案例和怀孕晚期案例的平均血浆DNA浓度分别为95.4ng/mL(范围为52.1-153.8ng/mL)血浆和10.7ng/mL(范围为6.4-19.1ng/mL)血浆。子痫前症案例的平均血浆DNA浓度比怀孕晚期案例的平均血浆DNA浓度高约9倍。

对于子痫前症和血压正常怀孕晚期母体血浆样本，从涵盖其中母亲为同型接合的且胎儿为异型接合的信息性单核苷酸多型性(SNP)的≤600bp的DNA分子的测序数据确定的平均胎儿DNA分率分别为22.6％(范围为16.6％-25.7％)和20.0％(范围为15.6％-26.7％)。

A.尺寸分析

尺寸分析根据本公开案中的实施例在子痫前症和血压正常怀孕晚期母体血浆样本上执行。图63A-63D和图64A-64D显示来自子痫前症和血压正常怀孕晚期案例的血浆DNA分子的尺寸分布。x轴显示尺寸。y轴显示频率。对于图63A-63D，绘制x轴的在线性尺度上在0kb至1kb范围内的尺寸分布，且对于图64A-64D，绘制x轴的在对数尺度上在0kb至5kb范围内的尺寸分布。图63A和图64A显示样本M12804。图63B和图64B显示样本M12873。图63C和图64C显示样本M12876。图63D和图64D显示样本M12903。

蓝线表示来自五个血压正常怀孕晚期案例的经综合的所有经测序的血浆DNA分子的尺寸分布。红线表示来自单独的子痫前症案例的经测序的血浆DNA分子的尺寸分布。在图63A-63D中，蓝线为在200bp下的较短峰的线和在300bp与400bp之间的较高峰的线。在图64A-64D中，蓝线对应于在1kb下较高峰的线。

一般而言，子痫前症患者的血浆DNA尺寸概况短于血压正常怀孕晚期孕妇的血浆DNA尺寸概况，其中166-bp峰的高度增加且短于166bp的DNA分子比例增加(图63A-63D)。这些变化在两个重度子痫前症案例M12876和M12903中更明显。变化在伴随子宫内生长受限(IUGR)的子痫前症案例M12903中甚至更剧烈。

四个子痫前症血浆样本中的三个显示经减小的尺寸为200-5000bp的长血浆DNA分子比例(图64B-64D)。M12873、M12876和M12903中的>500bp的长血浆DNA分子比例分别为11.7％、8.9％和4.5％，而来自五个血压正常怀孕晚期案例的综合测序数据中的长血浆DNA分子比例为32.3％。与来自五个血压正常怀孕晚期案例的综合测序数据相比，来自伴随预存在IgA肾病的重度子痫前症(PET)(M12804)的案例的血浆样本显示经减少的小于2000bp的较短DNA分子比例，但显示经增加的大于2000bp的较长DNA分子比例(图2A)。M12804中的长血浆DNA分子比例为34.9％。

图65A-65D和图66A-66D显示来自子痫前症和血压正常怀孕晚期母体血浆样本的涵盖胎儿特异性等位基因的DNA分子的尺寸分布。A图至D图中的各者显示不同子痫前症样本。x轴显示尺寸。图65A-65D中的y轴显示频率且图66A-66D中的y轴显示累积频率。在图66A-66D中，尺寸为0kb至35kb。

各图中的蓝线表示来自五个血压正常怀孕晚期案例的经综合的所有经测序的涵盖胎儿特异性等位基因的血浆DNA分子的尺寸分布。各图中的红线表示来自单独的子痫前症案例的经测序的涵盖胎儿特异性等位基因的血浆DNA分子的尺寸分布。在图65A-65D中，蓝线为在200bp下的较短峰的线和在300bp与400bp之间的较高峰的线。在图66A-66D中，蓝线对应于在100bp与1000bp之间的较低峰的线。

图67A-67D和图68A-68D显示来自子痫前症和血压正常怀孕晚期母体血浆样本的涵盖胎儿特异性等位基因的DNA分子的尺寸分布。A图至D图中的各者显示不同子痫前症样本。x轴显示尺寸。图67A-67D中的y轴显示频率且图68A-68D中的y轴显示累积频率。在图68A-68D中，尺寸为0kb至35kb。

各图中的蓝线表示来自五个血压正常怀孕晚期案例的经综合的所有经测序的涵盖母体特异性等位基因的血浆DNA分子的尺寸分布。各图中的红线表示来自单独的子痫前症案例的经测序的涵盖母体特异性等位基因的血浆DNA分子的尺寸分布。在图67A中，蓝线为在200bp下的较高峰的线和在300bp与400bp之间的较高峰的线。在图67B-67D中，蓝线为在200bp下的较短峰的线。在图68A中，蓝线对应于在1000bp与10000bp之间的较高峰的线。在图68B-68D中，蓝线对应于在100bp与1000bp之间的较低峰的线。

当与血压正常怀孕晚期母体血浆样本相比时，血浆DNA缩短现象在四个子痫前症血浆样本中的三个中的涵盖胎儿特异性等位基因的DNA分子(图65B-65D和图66B-66D)和涵盖母体特异性等位基因的DNA分子(图67B-67D和图68B-68D)两者中观测到。例外情况为伴随预存在IgA肾病的重度PET的案例M12804，所述案例显示在那些涵盖胎儿特异性等位基因的血浆DNA分子当中经增加的小于1kb的较短DNA分子比例和经减少的大于1kb的较长DNA分子比例(图65A和图66A)。实际上，案例M12804中的涵盖母体特异性等位基因的血浆DNA分子显示经拉长的尺寸概况(图67A和图68A)。

图69A和图69B为子痫前症和血压正常母体血浆样本中经PacBio SMRT测序加以测序的涵盖(A)胎儿特异性等位基因的短DNA分子和涵盖(B)母体特异性等位基因的短DNA分子的比例图。y轴显示<150bp的短DNA片段比例。x轴显示正常样本和PET样本。

在实施例中，短DNA分子的比例经定义为尺寸小于150bp的母体血浆DNA分子百分比。M12804经排除在此分析的外，这是因为此案例具有预存在IgA肾病，但其它样本并不具有预存在IgA肾病。当与血压正常对照血浆样本组相比时，子痫前症血浆样本组显示显著地经增加的涵盖胎儿特异性等位基因的短DNA分子比例(P＝0.036，威尔卡森秩和检定(Wilcoxon rank sum test))和涵盖母体特异性等位基因的短DNA分子比例(P＝0.036，威尔卡森秩和检定)。

图70A和图70B为子痫前症和血压正常母体血浆样本中经(A)PacBio SMRT测序和(B)Illumina测序加以测序的短DNA分子的比例图。y轴显示<150bp的短DNA片段比例。

在实施例中，短DNA分子的比例经定义为尺寸小于150bp的母体血浆DNA分子百分比。M12804经去除在此分析的外，这是因为此案例可能由于此案例中的预存在IgA肾病而显示相较于此群组中的其它子痫前症案例而言不同的尺寸概况。当与血压正常对照血浆样本组(中值：12.1％；范围：8.5％-15.8％)相比时，子痫前症血浆样本组显示显著地经增加的短DNA分子比例(中值：28.0％；范围：25.8％-35.1％)(P＝0.036，威尔卡森秩和检定)。相反地，在先前的经受亚硫酸氢盐转化和Illumina测序的四个子痫前症和四个胎龄匹配的血压正常母体血浆DNA样本群组中，子痫前症血浆和对照血浆样本中的短DNA分子比例并非显著地不同(P＝0.340，威尔卡森秩和检定)(图70B)。

在一些实施例中，我们可使用用于经PacBio SMRT测序加以测序的母体血浆样本中的短DNA分子比例的20％截止值以判定孕妇是否处于罹患子痫前症的高风险或低风险下。具有高于20％的比例的短DNA分子的母体血浆样本将经确定为处于罹患子痫前症的高风险下，而具有低于20％的比例的短DNA分子的母体血浆样本将经确定为处于罹患子痫前症的低风险下。在使用此截止值的情况下，灵敏度和特异性两者均为100％。在一些其它实施例中，所使用的短DNA分子的比例的截止值可包含但不限于5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％等。在另一实施例中，母体血浆样本中的短DNA分子比例将用于监测且评估怀孕期间子痫前症的严重程度。

在实施例中，使用以下等式计算各样本的指示短DNA分子与长DNA分子的相对比例的尺寸比。

其中P(50-150)指示尺寸在50bp至150bp范围内的经测序的血浆DNA分子比例；且P(200-1000)指示尺寸在200bp至1000bp范围内的经测序的血浆DNA分子比例。

图71为指示经PacBio SMRT测序加以测序的子痫前症和血压正常母体血浆样本中的短DNA分子与长DNA分子的相对比例的尺寸比图。y轴显示尺寸比。x轴显示正常样本和PET样本。当与血压正常对照血浆样本组(P＝0.016，威尔卡森秩和检定)相比时，子痫前症血浆样本组显示显著地较高的尺寸比。

在实施例中，我们可利用由包含但不限于PacBio SMRT测序和Oxford Nanopore测序的长读段测序平台生成的尺寸概况来预测孕妇的子痫前症发展和严重程度。在一些实施例中，我们可通过分析血浆DNA分子的尺寸概况来监测子痫前症发展和包含但不限于肝和肾损伤的重度子痫前症特点发展。在一些实施例中，分析中所使用的尺寸参数可包含但不限于短DNA分子或长DNA分子比例和指示短DNA分子与长DNA分子的相对比例的尺寸比。用于确定短DNA和长DNA类别的截止值可包含但不限于150bp、180bp、200bp、250bp、300bp、350bp、400bp、450bp、500bp、550bp、600bp、650bp、700bp、750bp、800bp、850bp、900bp、950bp、1kb等。用于确定短分子与长分子的尺寸比的尺寸范围可包含但不限于50-150bp、50-166bp、50-200bp、200-400bp、200-1000bp、200-5000bp或其它组合。

尺寸末端分析可包含使用用图61中的方法6100加以描述的方法。

B.片段末端分析

片段末端分析根据本公开案中的实施例在子痫前症和血压正常怀孕晚期母体血浆样本上执行。沃森股和克里克股两者的5'端处的第一核苷酸经确定用于各经测序的血浆DNA分子。T端、C端、A端和G端片段的比例经确定用于各血浆DNA样本。

图72A-72D显示经PacBio SMRT测序加以测序的子痫前症和血压正常母体血浆样本中的血浆DNA分子的不同末端比例。x轴显示正常怀孕晚期样本和PET样本。y轴显示既定末端比例。图72A显示T端比例。图72B显示C端比例。图72C显示A端比例。图72D显示G端比例。当与血压正常对照血浆样本组相比时，子痫前症血浆样本组显示显著地经增加的T端血浆DNA分子比例(P＝0.016，威尔卡森秩和检定)和显著地经减小的G端血浆DNA分子比例(P＝0.016，威尔卡森秩和检定)。

图73显示使用四种类型的片段末端(各股的5'端处的第一核苷酸)，即C端、G端、T端和A端进行的子痫前症和血压正常怀孕晚期母体血浆DNA样本的层级集群分析。各栏指示血浆DNA样本。第一列指示各样本属于哪个组，其中青色指示血压正常怀孕晚期母体血浆DNA样本且橙色指示子痫前症血浆DNA样本。青色涵盖前五栏。橙色涵盖后四栏。

从第二列开始，各列指示片段末端的类型。根据列标准化频率(z-分数)(即低于或高于整个样本中的平均频率的标准差数值)，末端基序频率以一系列颜色梯度呈现。颜色越红，指示末端基序频率越高，而颜色越蓝，指示末端基序频率越低。基于4种类型的片段末端频率的层级集群分析显示子痫前症血浆DNA样本的片段末端概况形成与血压正常怀孕晚期血浆DNA样本的集群不同的集群。

在实施例中，我们可针对各经测序的DNA分子分别确定沃森股和克里克股两者的5'端的第一核苷酸(X)和第二核苷酸(Y)的二核苷酸序列。X和Y可为DNA中的四个核苷酸碱基中的一个。存在16个可能性双核苷酸末端基序XYNN，即AANN、ATNN、AGNN、ACNN、TANN、TTNN、TGNN、TCNN、GANN、GTNN、GGNN、GCNN、CANN、CTNN、CGNN和CCNN。我们可根据本公开案中的实施例针对各经测序的DNA分子分别确定沃森股和克里克股两者的5'端的第三核苷酸(X)和第四核苷酸(Y)的二核苷酸序列。存在16个可能性双核苷酸NNXY基序。我们也可针对各经测序的DNA分子分别确定沃森股和克里克股两者的5'端处的第一四核苷酸序列(4聚体基序)。

图74显示使用16个双核苷酸基序XYNN(5'端的第一核苷酸和第二核苷酸的二核苷酸序列)进行的子痫前症和血压正常怀孕晚期母体血浆DNA样本的层级集群分析。图75显示使用16个双核苷酸基序NNXY(5'端的第三核苷酸和第四核苷酸的二核苷酸序列)进行的子痫前症和血压正常怀孕晚期母体血浆DNA样本的层级集群分析。图76显示使用256个四核苷酸基序(5'端的第一核苷酸至第四核苷酸的二核苷酸序列)进行的子痫前症和血压正常怀孕晚期母体血浆DNA样本的层级集群分析。

在图74-76中，第一列指示各样本属于哪个组，其中青色指示血压正常怀孕晚期母体血浆DNA样本且橙色指示子痫前症血浆DNA样本。青色涵盖前五栏。橙色涵盖后四栏。从第二列开始，各列指示片段末端的类型。根据列标准化频率(z-分数)(即低于或高于整个样本中的平均频率的标准差数值)，末端基序频率以一系列颜色梯度呈现。颜色越红，指示末端基序频率越高，而颜色越蓝，指示末端基序频率越低。

这些结果表明，子痫前症样本和非子痫前症样本中的血浆DNA具有不同片段化特性。在一个实施例中，我们可利用由包含但不限于PacBio SMRT测序和Oxford Nanopore测序的长读段测序平台生成的末端基序概况来预测孕妇的子痫前症发展。尽管上文分析中使用单核苷酸基序、双核苷酸基序和四核苷酸基序，但在其它实施例中可使用例如3、5、6、7、8、9、10或更长的其它长度的基序。

在一些实施例中，我们可组合片段末端分析和起源组织分析以改善包含但不限于子痫前症的怀孕相关病况的预测、检测和监测的效能。首先，我们可对各母体血浆样本执行片段末端分析以将血浆DNA分子分离成四个片段末端类别，即T端、C端、A端和G端片段。随后，我们可根据本公开案中的实施例使用甲基化状态匹配分析，使用来自片段末端类别中的各者的血浆DNA分子单独地对各母体血浆DNA样本执行起源组织分析。片段末端类别中的一个当中的不同组织的贡献比例经定义为相对于其它组织而言经指派至对应组织的对应片段末端类别中的血浆DNA分子百分比。

我们使用单分子实时测序分析三个和五个来自患有和不患有子痫前症的孕妇的血浆DNA样本。我们获得中值658,722、889,900、851,501和607,554个具有A端、C端、G端和T端的血浆片段。对于具有A端的片段，我们根据本公开案中所描述的甲基化状态匹配途径将具有至少10个CpG位点的任何片段的甲基化模式与嗜中性白血细胞、T细胞、B细胞、肝和胎盘的参考甲基化概况进行比较。血浆DNA片段将经指派至对应于那些组织当中甲基化状态匹配的最大分数的组织。在所分析的所有样本当中使用此方法将中值2.43％(范围：0.73％-5.50％)的A端片段指派至T细胞(即T细胞贡献)。我们以类似方式分别进一步分析那些具有C端、G端和T端的片段。对于那些具有C端、G端和T端的片段，分别观测到3.20％(范围：1.55％-5.19％)、3.52％(范围：1.53％-6.27％)和2.22％(0％-7.79％)的中值T细胞贡献。

图77A-77D显示子痫前症和血压正常母体血浆DNA样本中属于不同片段末端类别，即(A)T端、(B)C端、(C)A端和(D)G端的DNA分子当中的T细胞贡献。x轴显示正常怀孕晚期样本和PET样本。y轴显示呈百分比形式的T细胞贡献。结果显示，在G端片段当中，与血压正常怀孕晚期血浆样本相比，子痫前症血浆样本中的T细胞贡献显著地减小(P＝0.036，威尔卡森秩和检定)。在实施例中，我们可使用母体血浆DNA样本中的所有G端片段当中的T细胞贡献的3％截止值以判定孕妇是否处于罹患子痫前症的高风险或低风险下。

C.实例方法

图78显示分析获自怀有胎儿的女性的生物样本的方法7800。生物样本可包含来自胎儿和女性的多个游离DNA分子。所述方法可生成怀孕相关病症的可能性的分类。怀孕相关病症可为子痫前症或本文所描述的任何怀孕相关病症。

对应于多个游离DNA分子的序列读段可经接受。

在区块7810处，可测量多个游离DNA分子的尺寸。尺寸可经由对核苷酸进行比对或计数核苷酸数目或包含用图21加以描述的本文所描述的任何技术来测量。

在区块7820处，可识别具有大于截止值的尺寸的一组游离DNA分子。截止值可为用于长游离DNA片段的任何截止值，包含500nt、600nt、700nt、800nt、900nt、1knt、1.1knt、1.2knt、1.3knt、1.4knt、1.5knt、1.6knt、1.7knt、1.8knt、1.9knt或2knt。截止值可为本文所描述的用于长游离DNA分子的任何截止值。

在区块7830处，可使用第一量生成末端基序参数的值。可测量在所述组中的游离DNA分子的一个或多个末端处具有第一子序列的所述组中的游离DNA分子的第一量。在一些实施例中，末端基序参数可为通过于一末端处的所有子序列的总量标准化的第一量。在一些实施例中，末端可为3'端。在一些实施例中，末端可为5'端。

第一子序列的长度可为1、2、3、4、5、6、7、8、9、10或更多个核苷酸。第一子序列可包含在对应游离DNA分子的末端处的最后一个核苷酸。举例来说，第一子序列可为图74中所示的XYNN模式。在一些实施例中，第一子序列可不包含在对应游离DNA分子的末端处的最后一个核苷酸或多个核苷酸。举例来说，第一子序列可包含图75的NNXY模式。

可测量在游离DNA分子的一个或多个末端处具有与第一子序列不同的子序列的游离DNA分子的第二量。末端基序参数的值可使用第二量与第三量的比生成。举例来说，可使第二量除以第三量或可使第三量除以第二量。

在区块7840处，可将末端基序参数的值与阈值进行比较。阈值可为表示相对于不患有怀孕相关病症的个体的相关参数的值而言的统计学上显著的差异的值。阈值可从一个或多个正常怀孕参考个体或一个或多个患有怀孕相关病症的参考个体确定。

在一些实施例中，可将末端基序参数的值与阈值进行比较，且可将第二末端基序参数的值与第二阈值进行比较。可测量在游离DNA分子的一个或多个末端处具有与第一子序列不同的第二子序列的游离DNA分子的第二量。因此，不同末端基序的量可经测定。第二末端基序参数的值可使用第二量生成。可将第二末端基序参数的值与第二阈值进行比较。第二阈值可与第一阈值相同或不同。额外子序列可以与第一子序列和第二子序列相同的方式使用。在一些实施例中，所有可能性子序列可用于与阈值的比较。

在区块7850处，可使用比较确定怀孕相关病症的可能性的分类。当尺寸参数的值或末端基序参数的值超过阈值时，怀孕相关病症可为可能的。

在一些实施例中，确定怀孕相关病症的可能性的分类可使用第二末端基序参数的值与第二截止值的比较来进行。当第一末端基序参数的值超过第一阈值且第二末端基序参数的值超过第二阈值时，怀孕相关病症可为可能的。

所述方法可包含使用除末端基序参数的外的尺寸参数。具有在第一尺寸范围内的尺寸的第二组游离DNA分子可经识别。第一尺寸范围可包含大于截止值的尺寸。第一尺寸范围包含可大于截止值的尺寸。第一尺寸范围可小于550nt、600nt、650nt、700nt、750nt、800nt、850nt、900nt、950nt、1nt、1.5knt、2knt、3knt、5knt或更大。尺寸参数的值可使用第二组中的游离DNA分子的第二量生成。可将尺寸参数的值与第二阈值进行比较。确定怀孕相关病症的可能性的分类可使用尺寸参数的值与第二阈值的比较。当超过第一阈值和第二阈值中的一或两者时，分类可能具有怀孕相关病症。

尺寸参数可为标准化参数。举例来说，在第二尺寸范围内的游离DNA分子的第三量可经测量。第二尺寸范围可包含小于第一截止值的尺寸。第二尺寸范围可包含所有尺寸。第二尺寸范围可包含50-150nt、50-166nt、50-200nt、200-400nt。第二尺寸范围可包含本文所描述的用于短游离DNA片段的任何尺寸。第二尺寸范围可排除在第一尺寸范围内的尺寸。尺寸参数的值可通过测定第二量与第三量的比生成。举例来说，可使第二量除以第三量或可使第三量除以第二量。

所述量的游离DNA分子中的任一者可为来自特定起源组织的游离DNA分子。举例来说，起源组织可为T细胞或本文所描述的另一起源组织。第二量可与用图77A-77D加以描述的T细胞贡献类似。起源组织的贡献可使用如本公开案中所描述的甲基化状态或模式来测定。

V.重复序列扩展相关疾病

获自孕妇的长游离DNA片段可用于识别基因中的重复序列扩展。基因中的重复序列扩展可导致神经肌肉疾病。串联重复序列扩展已与包含但不限于如X染色体脆裂症的神经退化性病症、亨廷顿氏舞蹈症和脊髓小脑失调的人类疾病相关。这些串联重复序列扩展可出现在基因的蛋白质编码区(马查多-约瑟夫疾病(Machado-Joseph disease)、HRS综合征(Haw River syndrome)、亨廷顿氏舞蹈症)或非编码区(弗里德利希运动失调(Friedrichataxia)、肌强直性营养不良、X染色体脆裂症的一些形式)中。扩展涉及小卫星、五核苷酸、四核苷酸，且诸多三核苷酸重复序列已与脆裂位点相关。与这些疾病相关的扩展可能由复制滑动或不对称重组或表观遗传畸变造成。序列中的重复序列数目是指子序列总出现次数。举例来说，“CAGCAG”包含两个重复序列。因为重复序列包含子序列的至少两个实例，因此重复序列数目不可为1个。子序列可应理解为重复单元。

在实施例中，于孕妇中的长游离DNA分析可促进对重复序列相关疾病的检测。举例来说，三核苷酸重复序列表示DNA序列中的3bp基序的重复延伸段。一个实例为序列‘CAGCAGCAG’包括三个3bp‘CAG’基序。已报告通常为三核苷酸重复序列扩展的微卫星扩展在神经病症中起关键作用(Kovtun等人《细胞研究(Cell Res.)》2008；18:198-213；McMurray等人《自然评论-遗传学(Nat Rev Genet.)》2010；11:786-99)。一个实例为ATXN3基因中的超过55个CAG重复序列(总计165bp)为病原性的，导致特征在于进行性运动问题的3型脊髓小脑失调(SCA3)疾病。此病况以体染色体显性模式遗传。因此，经更改基因的一个复本足以造成所述病症。为了测定微卫星的重复序列数目，通常使用聚合酶链反应(PCR)以扩增所关注的基因组区且随后使PCR产物经受如以下的多个不同技术：毛细管电泳(Lyon等人《分子诊断学期刊(J Mol Diagn.)》2010；12:505-11)、南方墨点分析(Hsiao等人《临床实验室分析期刊(J Clin Lab Anal.)》1999；13:188-93)、熔化曲线分析(Lim等人《分子诊断学期刊》2014；17:302-14)和质谱法(Zhang等人《分析方法(Anal Methods.)》2016；8:5039-44)。然而，这些方法为劳力密集且耗时的且难以应用于如产前测试的真实临床实践中的高通量筛检。桑格测序(Sanger sequencing)在经由手动检查从复杂序列痕迹推理长重复序列方面具有相当大的困难。众所周知Illumina测序技术和Ion Torrent在对具有那些重复序列的富GC(或贫GC)区进行测序方面具有相当大的困难(Ashely等人2016；17:507-22)且包括经扩展重复序列的DNA长度易于超过序列读段长度(Loomis等人《基因组研究(GenomeRes.)》2013；23:121-8)。

另一实例为由邻近DMPK基因的在50至4000个CTG重复序列范围内的CTG重复序列扩展造成的肌强直性营养不良以及体染色体显性病症。DM的分子诊断常规地在产前诊断中通过在胎儿基因组DNA上以侵入性方式分析CTG数目来执行。

与短读段测序(数百个碱基)形成对比，本公开案中所描述的方法能够从母体血浆DNA获得长DNA分子(多个千碱基)。我们可使用本公开案中所描述的方法以非侵入性方式判定未出生胎儿是否从受影响母亲遗传此疾病。

图79显示针对重复序列相关疾病的推断胎儿的母体遗传的图示。在阶段7905，孕妇体内的游离DNA经受单分子实时(例如PacBio SMRT)测序。在阶段7910，根据本公开案将经测序结果划分成长DNA和短DNA类别。在阶段7915，存在于长DNA分子中的等位基因信息可用于构筑母体单倍型，即Hap I和Hap II。Hap I和Hap II可各自包含三核苷酸子序列(例如CTG)的经扩展重复序列。在阶段7920，可分析单倍型的不平衡，与如用图16加以描述类似。在阶段7925，可推断胎儿的母体遗传。根据本公开案，本文所描述的方法允许我们不仅确定单倍型(例如Hap I和Hap II)，且也使用长DNA分子的序列信息确定哪个单倍型具有造成病症的经扩展重复序列(例如受影响Hap I)。在此实例中，我们可根据本文所描述的方法使用分布在整个母体Hap I和Hap II中的短DNA分子的计数、尺寸或甲基化状态来判定胎儿是否遗传母体Hap I(受影响)或Hap II(未受影响)。

图80显示针对重复序列相关疾病的推断胎儿的父体遗传的图示。我们可使用孕妇体内的游离DNA判定胎儿是否遗传受影响父体单倍型。如图80中所示，其丈夫受重复序列扩展疾病影响(例如70个CTG重复序列)的未受影响孕妇体内的游离DNA(例如对于Hap I而言5个CTG重复序列和对于Hap II而言6个CTG重复序列)经受PacBio SMRT测序，经测序的长DNA分子经识别且用于确定单倍型和重复序列数目。如果具有CTG重复序列(在此实例中例如为70个CTG重复序列)的长延伸段的单倍型存在于未受影响孕妇的母体血浆中，则表明胎儿遗传受影响父体单倍型。在一些实施例中，含有经扩展重复序列的DNA也携带一个或多个不存在于母体基因组中的另一父体特异性等位基因。此情形将适用于确认父体遗传。

在另一实施例中，我们可使用孕妇体内的游离DNA判定胎儿是否遗传受影响父体单倍型。如图80中所示，其丈夫受重复序列扩展疾病影响(例如70个CTG重复序列)的未受影响孕妇体内的游离DNA(例如对于Hap I而言5个CTG重复序列和对于Hap II而言6个CTG重复序列)经受PacBio SMRT测序，经测序的长DNA分子经识别且用于确定单倍型和重复序列数目。如果具有CTG重复序列(在此实例中例如为70个CTG重复序列)的长延伸段的单倍型存在于未受影响孕妇的母体血浆中，则表明胎儿遗传受影响父体单倍型。在一些实施例中，含有经扩展重复序列的DNA也携带一个或多个不存在于母体基因组中的另一父体特异性等位基因。此情形将适用于确认父体遗传。

图81、图82和图83为显示重复序列扩展疾病的实例的表。第一栏显示重复序列扩展相关疾病。第二栏显示重复子序列。第三栏显示正常个体中的重复序列数目。第四栏显示患病个体中的重复序列数目。第五栏显示与重复序列相关的遗传位置。第六栏列举基因名称。第七栏列举遗传模式。表来源于omicslab.genetics.ac.cn/dred/index.php。

A.重复序列扩展检测的实例

据报告，父体遗传的经扩展CAG重复序列可在母体血浆中使用直接途径通过PCR加以检测且在3130XL遗传分析器上进行后续片段分析(Oever等人《产前诊断(PrenatDiagn.)》2015；35:945-9)。针对亨廷顿的非侵入性产前测试可通过PCR达成，这是因为经扩展等位基因的尺寸仅从>35个三核苷酸重复序列[即跨重复序列的长度为105bp(35×3)或更高的DNA区]起始。尤其针对大部分三核苷酸重复序列病症的许多经扩展重复序列(Orr等人《神经科学年度评论(Annu.Rev.Neurosci.)》2007；30:575-621)将涉及超出记录在先前报告中的短胎儿DNA分子的尺寸的长度为300bp或更高的重复序列。具有大经扩展重复序列的DNA将造成PCR困难(Orr等人《神经科学年度评论》2007；30:575-621)。如Oever等人的研究所表明，与较小重复序列的信号强度相比，长CAG重复序列的信号强度常常低得多，且此现象在基因组DNA和血浆DNA两者中观测到，产生用于检测那些长CAG重复序列的较低灵敏度(Oever等人《产前诊断》2015；35:945-9)。PCR的另一限制将在于在扩增期间不能够保存甲基化信号。在一个实施例中，长DNA分子的单分子实时测序将允许确定一个或多个区中的串联重复序列多型性和其相关甲基化程度。

图84为显示胎儿中的重复序列扩展检测和重复序列相关甲基化确定的实例的表。第一栏显示多个碱基对中的重复序列类型。第二栏显示重复单元。第三栏显示基因组位置。第四栏显示参考碱基，即存在于人类参考基因组中的序列。第五栏显示父体基因型。第六栏显示母体基因型。第七栏显示胎儿基因型。第八栏显示与父体等位基因有关的胎儿DNA甲基化程度。第九栏显示与母体等位基因有关的胎儿DNA甲基化程度。

图84显示1bp、2bp、3bp和4bp串联重复序列的多个实例。举例来说，在chr3:192384705-192384706的基因组位置处识别“GATA”串联重复序列。此基因座处的父亲的基因型为T(GATA)₃/T(GATA)₅，其中等位基因1具有3个重复单元且等位基因2具有5个重复单元。与参考等位基因T(GATA)₃相比，父体等位基因2表明涉及重复序列扩展的遗传事件。此基因座处的母亲的基因型为T/T，展现涉及重复序列收缩的遗传事件。此基因座处的胎儿基因型为T(GATA)₅/T，表明胎儿遗传父体等位基因2(即T(GATA)₅)和母体等位基因T。与父体等位基因和母体等位基因相关的甲基化程度分别为50.98％和62.8％。这些结果表明，串联重复序列多型性的使用将允许确定胎儿的母体和父体遗传。此技术将允许识别与两个等位基因相关的不同甲基化模式。另一实例显示在chr4:73237157-73237158的基因组位置处，胎儿已从母亲遗传重复序列扩展[(TAAA)₃]。与含有父体等位基因的胎儿分子的甲基化程度(62.84％)相比，含有从母亲遗传的重复序列扩展的胎儿分子显示较高甲基化程度(95.65％)。这些数据表明，我们可检测重复序列、重复序列结构和相关甲基化变化。在一个实施例中，我们可使用特定截止值以判定母体遗传与父体遗传之间的甲基化差异是否显著。截止值将为大于但不限于5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％或90％等的甲基化程度中的绝对差值。母体遗传的确定可与用图21的方法2100所描述的方法类似。

B.实例方法

子序列重复序列可用于确定胎儿信息。举例来说，子序列重复序列的存在可用于确定分子是胎儿起源。另外，子序列重复序列可指示遗传病症的可能性。子序列重复序列可用于确定母体和/或父体单倍型的遗传。另外，胎儿的亲缘可使用子序列重复序列来确定。

1.使用子序列重复序列进行的胎儿起源分析

图85显示分析获自怀有胎儿的女性的生物样本的方法8500，生物样本包含来自胎儿和女性的游离DNA分子。胎儿的遗传病症的可能性可经确定。

在区块8510处，可接收对应于所述游离DNA分子中的一个游离DNA分子的第一序列读段。游离DNA分子可具有大于截止值的长度。截止值可大于或等于200nt。截止值可为至少500nt，包含600nt、700nt、800nt、900nt、1knt、1.1knt、1.2knt、1.3knt、1.4knt、1.5knt、1.6knt、1.7knt、1.8knt、1.9knt或2knt。截止值可为本文所描述的用于长游离DNA分子的任何截止值。

在步骤8520处，可将第一序列读段与参考基因组的区进行比对。已知所述区可潜在地包含子序列的重复序列。所述区可对应于图81-83中的位置或基因中的任一者。子序列可为三核苷酸序列，包含本文所描述的任何三核苷酸序列。

在区块8530处，可识别对应于游离DNA分子的第一序列读段中的子序列的重复序列的数目。

在区块8540处，可将子序列的重复序列的数目与阈值数目进行比较。阈值数目可为55、60、75、100、150或更多个。对于不同遗传病症，阈值数目可为不同的。举例来说，阈值可反映患病个体中的重复序列的最小数目、正常个体中的重复序列的最大数目或此两个数目之间的数目(参见图81-83)。

在区块8550处，可使用重复序列数目与阈值数目的比较来确定胎儿患有遗传病症的可能性的分类。当重复序列数目超过阈值数目时，胎儿可经确定为可能患有遗传病症。遗传病症可为X染色体脆裂症或图81-83中所列的任何病症。

在一些实施例中，所述方法可包含重多个不同目标基因座的分类，已知各目标基因座潜在地具有子序列的重复序列。可接收对应于游离DNA分子的多个序列读段。可将多个序列读段与参考基因组的多个区进行比对。已知多个区可潜在地包含子序列的重复序列。多个区可为非重叠区。多个区中的各区可具有不同SNP。多个区可来自不同染色体臂或染色体。多个区可涵盖至少0.01％、0.1％或1％参考基因组。可识别多个序列读段中的子序列的重复序列的数目。可将子序列的重复序列的数目与多个阈值数目进行比较。各阈值数目可指示不同遗传病症的存在或可能性。对于多种遗传病症中的各者，可使用与所述多个阈值数目中的一阈值数目的比较来确定胎儿患有对应遗传病症的可能性的分类。

游离DNA分子可经确定是胎儿起源。胎儿起源的确定可包含接收对应于获自女性怀孕前的血沉棕黄层或样本的母体起源的游离DNA分子的第二序列读段。可将第二序列读段与参考基因组的所述区进行比对。可识别第二序列读段中的子序列的第二数目个重复序列。可确定第二数目个重复序列少于第一数目个重复序列。

胎儿起源的确定可包含使用游离DNA分子的甲基化位点和未甲基化位点确定游离DNA分子的甲基化程度。可将甲基化程度与参考程度进行比较。所述方法可包含确定甲基化程度超过参考程度。甲基化程度可为甲基化位点的数目或比例。

胎儿起源的确定可包含确定游离分子的多个位点的甲基化模式。可通过比较甲基化模式与来自母体或胎儿组织的参考模式来确定类似性分数。可将类似性分数与一个或多个阈值进行比较。类似性分数可为本文所描述的任何类似性分数，包含例如如用方法4000加以描述的类似性分数。

2.使用子序列重复序列进行的亲缘分析

图86显示分析获自怀有胎儿的女性的生物样本的方法8600，生物样本包含来自胎儿和女性的游离DNA分子。生物样本可经分析以确定胎儿的父亲。

在区块8610处，可接收对应于游离DNA分子中的一个游离DNA分子的第一序列读段。所述方法可包含确定游离DNA分子是胎儿起源。游离DNA分子可通过本文所描述的任何方法被确定为胎儿起源，所述任何方法包含例如如用方法8500加以描述的方法。游离DNA分子可具有大于截止值的尺寸。截止值可大于或等于200nt。截止值可为至少500nt，包含600nt、700nt、800nt、900nt、1knt、1.1knt、1.2knt、1.3knt、1.4knt、1.5knt、1.6knt、1.7knt、1.8knt、1.9knt或2knt。截止值可为本文所描述的用于长游离DNA分子的任何截止值。

在区块8620处，可将第一序列读段与参考基因组的第一区进行比对。已知第一区可具有子序列的重复序列。

在区块8630处，可识别对应于游离DNA分子的第一序列读段中的第一子序列的第一数目个重复序列。第一子序列可包含等位基因。

在区块8640处，可分析获自男性个体的序列数据以判定第一子序列的第二数目个重复序列是否存在于第一区中。第二数目个重复序列包含第一子序列的至少两个实例。序列数据可通过从男性个体提取生物样本且在生物样本中的DNA上执行测序来获得。

在区块8650处，可使用第一子序列的第二数目个重复序列是否存在的判定来确定男性个体为胎儿的父亲的可能性的分类。所述分类可为当判定第一子序列的第二数目个重复序列存在时男性个体可能为父亲。所述分类可为当判定第一子序列的第二数目个重复序列不存在时男性个体可能不为父亲。

所述方法可包含比较第一数目个重复序列与第二数目个重复序列。确定男性个体为父亲的可能性的分类可包含使用第一数目个重复序列与第二数目个重复序列的比较。所述分类可为当第一数目个重复序列在第二数目个重复序列的阈值内时男性个体可能为父亲。阈值可在第二数目个重复序列的10％、20％、30％或40％内。

所述方法可包含使用重复序列的多个区。举例来说，游离DNA分子为第一游离DNA分子。所述方法可包含接收对应于所述游离DNA分子中的第二游离DNA分子的第二序列读段。所述方法也可包含将第二序列读段与参考基因组的第二区进行比对。所述方法可进一步包含识别对应于第二游离DNA分子的第二序列读段中的第二子序列的第一数目个重复序列。所述方法可包含分析获自男性个体的序列数据以判定第二子序列的第二数目个重复序列是否存在于第二区中。确定男性个体为胎儿的父亲的可能性的分类可进一步包含使用第二子序列的第二数目个重复序列是否存在于第二区中的判定。可能性的分类可为在男性个体的序列数据中当重复序列存在于第一区和第二区两者中时男性个体为胎儿的父亲的可能性较高。

VI.用于富集长血浆DNA分子的尺寸选择

在实施例中，我们可在分析(例如单分子实时测序)之前以物理方式选择具有一个或多个期望尺寸范围的DNA分子。作为一实例，尺寸选择可使用固相可逆固定技术来执行。在其它实施例中，尺寸选择可使用电泳(例如使用Coastal Genomic系统或Pippin尺寸选择系统)来执行。我们途径与主要聚焦于较短DNA的先前操作不同(Li等人《美国医学会期刊(JAMA)》2005；293:843-9)，本领域中众所周知胎儿DNA短于母体DNA(Chan等人《临床化学》2004；50:88-92)。

尺寸选择技术可应用于本文所描述的方法中的任一种且用于本文所描述的任何尺寸。举例来说，游离DNA分子可通过电泳、磁珠、杂交、免疫沉淀、扩增或CRISPR来富集。所得经富集样本可具有比富集前生物样本大的浓度或高的比例的特定尺寸片段。

A.用电泳进行的尺寸选择

在实施例中，利用DNA的电泳移动率视DNA尺寸而定，我们可使用基于凝胶电泳的途径来选择目标DNA分子，所述目标DNA分子具有期望尺寸范围，例如但不限于≥100bp、≥200bp、≥300bp、≥400bp、≥500bp、≥600bp、≥700bp、≥800bp、≥900bp、≥1kb、≥2kb、≥3kb、≥4kb、≥5kb、≥6kb、≥7kb、≥8kb、≥9kb、≥10kb、≥20kb、≥30kb、≥40kb、≥50kb、≥60kb、≥70kb、≥80kb、≥90kb、≥100kb、≥200kb；或其它尺寸范围，包含大于本文所描述的任何截止值的尺寸。举例来说，使用LightBench(Coastal Genomics)自动化凝胶电泳系统以用于DNA尺寸选择。原则上，在凝胶电泳期间较短DNA将比较长DNA移动地更快。我们将此尺寸选择技术应用于一个血浆DNA样本(M13190)，旨在选择大于500bp的DNA分子。我们使用具有‘通道内过滤器’(ICF)收集装置的3％尺寸选择卡匣和具有内部尺寸标记的负载缓冲器以用于尺寸选择。将DNA文库负载至凝胶中且开始电泳。当达到目标尺寸时，从ICF检索<500bp的第一部分。恢复运作且允许完成电泳以获得≥500bp的第二部分。我们使用单分子实时测序(PacBio)来对分子尺寸≥500bp的第二部分进行测序。我们获得1,434个高质量环形共同序列(CCS)(即1,434个分子)。其中，97.9％经测序分子大于500bp。大于500bp的DNA分子的此类比例比不经尺寸选择的对应DNA分子的比例(10.6％)高得多。那些分子的总甲基化经确定为75.5％。

图87显示在(I)分子I和(II)分子II中进行尺寸选择之后两个代表性血浆DNA分子的甲基化模式。分子I(chr21:40,881,731-40,882,812)长1.1kb，具有25个CpG位点。使用我们先前公开案(美国申请第16/995,607号)中所描述的途径确定分子I的单分子甲基化程度(即甲基化位点数目除以位点总数)为72.0％。分子II(chr12:63,108,065-63,111,674)长3.6kb，具有34个CpG位点。分子II的单分子甲基化程度经确定为94.1％。此表明基于尺寸选择的甲基化分析允许我们有效地分析长DNA分子的甲基化且比较两个或更多个分子之间的甲基化状态。

B.用珠粒进行的尺寸选择

固相可逆固定技术视DNA分子尺寸而使用顺磁珠来选择性结合核酸。此类珠粒包含聚苯乙烯核、磁铁矿和经羧酸酯改质的聚合物涂层。DNA分子将在存在聚乙二醇(PEG)和盐的情况下视反应中的PEG和盐浓度而定选择性结合至珠粒。PEG使得带负电DNA在珠粒表面上与羧基结合，所述带负电DNA在存在磁场的情况下经收集。具有期望尺寸的分子使用例如10mM Tris-HCl、pH 8缓冲剂或水的洗脱缓冲剂从磁珠洗脱。PEG与DNA的体积比将确定我们可获得的DNA分子的尺寸。PEG:DNA的比越低，将保留在珠粒上的长分子越多。

1.样本处理

来自两个怀孕晚期孕妇的周边血液样本在EDTA血液管中经收集。收集周边血液样本，且在4℃下在1,600×g下离心10分钟。在4℃下在16,000×g下进一步离心血浆部分10分钟以去除残余细胞和碎屑。在室温下在5,000×g下离心血沉棕黄层部分5分钟以去除残余血浆。在分娩(delivery)之后立即收集胎盘组织。使用QIAamp循环核酸套组(凯杰(Qiagen))执行血浆DNA提取。使用QIAamp DNA小型套组(凯杰)执行血沉棕黄层和胎盘组织DNA提取。

2.血浆DNA尺寸选择

将提取后血浆DNA样本划分成两个等分试样。来自各患者的一个等分试样经受用AMPure XP SPRI珠粒(贝克曼库尔特有限公司(Beckman Coulter,Inc.))进行的尺寸选择。使50μL各经提取血浆DNA样本与25μL AMPureXP溶液充分混合且在室温下培育5分钟。用磁铁将珠粒与溶液分隔开且用180μL 80％乙醇洗涤。随后，使珠粒再悬浮于50μL水中且涡旋1分钟以从珠粒洗脱经尺寸选择的DNA。随后，去除珠粒以获得经尺寸选择的DNA溶液。

3.单核苷酸多型性识别

用iScan系统(Illumina)对胎儿基因组DNA样本和母体基因组DNA样本进行基因分型。辨认单核苷酸多型性(SNP)。将胎盘的基因型与母亲的基因型进行比较以识别胎儿特异性等位基因和母体特异性等位基因。胎儿特异性等位基因经定义为存在于胎儿基因组中但不存在于母体基因组中的等位基因。在一个实施例中，那些胎儿特异性等位基因可通过分析其中母亲为同型接合的且胎儿为异型接合的那些SNP位点来确定。母体特异性等位基因由存在于母体基因组中但不存在于胎儿基因组中的等位基因定义。在一个实施例中，那些胎儿特异性等位基因可通过分析其中母亲为异型接合的且胎儿为同型接合的那些SNP位点来确定。

4.单分子实时测序

使用SMRTbell模板制备套组1.0-SPv3(太平洋生物科学)使两个经尺寸选择的样本以及其对应未经选择样本经受单分子实时(SMRT)测序模板构筑。用1.8×AMPure PB珠粒纯化DNA，且使用TapeStation仪器(安捷伦(Agilent))估计文库尺寸。用SMRT Link 5.1.0版软件(太平洋生物科学)计算测序引物粘合和聚合酶结合条件。简单来说，使测序引物v3粘合至测序模板，且随后使用Sequel结合和内部控制套组2.1(太平洋生物科学)使聚合酶结合至模板。在Sequel SMRT细胞1M v2上执行测序。在Sequel系统上用Sequel测序套组2.1(太平洋生物科学)收集测序影片20小时。

5.尺寸分析

图88为经尺寸选择的样本和不经尺寸选择的样本的测序信息表。第一栏为样本识别符。第二栏列举样本组—无论是否存在尺寸选择。第三栏列举经测序分子数目。第四栏列举平均子读段深度。第五栏列举中值片段尺寸。第六栏显示大于或等于500bp的片段比例。

我们分析两个经基于珠粒的尺寸选择和不经基于珠粒的尺寸选择的样本(299和300)。如图88中所示，对于不经尺寸选择的样本299和300，我们使用单分子实时测序(例如PacBio SMRT测序)分别获得250万和310万个经测序分子。平均子读段深度为91×和67×。中值片段尺寸为176bp和512bp。

对于经旨在选择≥500bp的DNA片段的基于固相可逆固定的尺寸选择的经配对样本(B299和B300)，我们分别获得410万和200万个经测序分子，其中平均子读段深度为18×和19×。对于样本B299和B300，发现中值片段尺寸分别为2.5kb和2.2kb。平均片段尺寸比不经尺寸选择的对应样本长4至14倍。在尺寸选择之后≥500bp的片段比例对于样本B299而言从27.3％增加至97.6％且对于样本B300而言从50.5％增加至97.4％。

图89A和图89B显示经基于珠粒的尺寸选择和不经基于珠粒的尺寸选择的来自怀孕女性的DNA样本的尺寸分布。图89A显示样本299，且图89B显示样本300。x轴显示片段尺寸。y轴显示在对数尺度上各片段尺寸的频率。在基于珠粒的尺寸选择之后，较高频率存在于整个DNA样本中的大于1kb的长DNA分子中。这些数据表明，基于珠粒的尺寸选择可富集更多长DNA分子以用于下游分析。所述富集将经由最大化每个测序运作的经测序的长DNA分子数目来使分析更具成本效益。当分析各DNA分子的起源组织时，长DNA分子的所述富集也将改善信息性，这是因为将存在更多各血浆DNA分子的可接近CpG位点以用于甲基化模式匹配分析。在一个实施例中，可使用美国申请第16/995,607号中所描述的方法执行甲基化分析。经尺寸选择的样本中保存核小体模式，表明经尺寸选择的血浆DNA分子将适合于研究核小体结构。

对于样本299，我们使用微阵列技术(Infinium Omni2.5)获得用于母体血沉棕黄层DNA和胎盘DNA的基因型信息。根据基因型信息将经测序的血浆DNA分子分为母体特异性DNA分子和胎儿特异性DNA分子。

图90A和图90B显示胎儿特异性DNA分子与母体特异性DNA分子之间的尺寸分布。尺寸示于x轴上。在图90A中，频率示于y轴上。在图90B中，累积频率示于y轴上。在图90A中，与母体DNA尺寸分布相比，胎儿DNA尺寸分布显示相对较小分子中的较高频率。在图90B中，胎儿DNA分子的所述尺寸缩小示于累积频率图中，即胎儿DNA累积尺寸分布位于母体DNA累积尺寸分布的左侧。

C.增强经尺寸选择的血浆DNA的信息性.

在实施例中，信息性SNP可由含有对胎儿或母体基因组具有特异性的等位基因的那些SNP定义。那些SNP提供用于区分胎儿DNA分子与母体DNA分子的手段。我们识别419,539种信息性SNP。在其它实施例中，信息性SNP可由母体基因组中的那些异型接合SNP定义。在其它实施例中，信息性SNP可由母体基因组中的那些异型接合且以单倍型形式分组在一起的SNP定义。

图91为经尺寸选择的样本与不经尺寸选择的样本之间的携带信息性SNP的血浆DNA分子的数目统计表。第一栏显示样本识别和群组。第二栏显示所分析的血浆DNA分子总数。第三栏显示携带信息性SNP的血浆DNA分子数目。第四栏显示携带信息性SNP的血浆DNA分子百分比。

如图91中所示，不经尺寸选择的样本中仅存在6.5％携带信息性SNP的血浆DNA分子，而携带信息性SNP的血浆DNA分子比例增加至20.6％。因此，利用尺寸选择将极大地改善适用于本公开案中存在的效用的长DNA分子的产量。我们在不经尺寸选择的样本299中识别260个>500bp的胎儿DNA分子，而在经尺寸选择的样本B299中识别918个>500bp的胎儿DNA分子。通过标准化测序通量，这些数据表明，在通过利用基于珠粒的尺寸选择获得>500bp的胎儿特异性DNA分子中存在约3倍富集。我们经由尺寸选择将实质上增加用于分析的长胎儿DNA分子数目。

D.甲基化

图92为经尺寸选择的血浆DNA样本和非经尺寸选择的血浆DNA样本中的甲基化程度表。第一栏显示样本识别。第二栏显示群组。第三栏显示甲基化CpG位点数目。第四栏显示未甲基化CpG位点数目。第五栏显示基于甲基化位点和总位点数目的甲基化程度。如图92中所示，与对应非经尺寸选择的样本相比，经尺寸选择的样本中的总甲基化程度显示为较高(在所有CpG位点中，对于样本299和B299为71.5％对69.1％；对于样本300和B300为71.4％对69.3％)。

图93为母体或胎儿特异性游离DNA分子中的甲基化程度表。第一栏显示样本识别。第二栏显示群组。第三栏显示甲基化CpG位点数目。第四栏显示未甲基化CpG位点数目。第五栏显示基于甲基化位点和总位点数目的甲基化程度。

如图93中所示，当与不经尺寸选择的样本相比时，也在经尺寸选择的样本中的胎儿特异性血浆DNA分子和母体特异性血浆DNA分子两者中观测到甲基化程度增加。在经尺寸选择的样本和非经尺寸选择的样本两者中的血浆中，与母体特异性DNA分子相比，那些胎儿特异性片段倾向于为低甲基化的。

E.末端基序

图94为经尺寸选择的样本和不经尺寸选择的样本中的前10个末端基序的表。第一栏显示等级。第二栏至第五栏用于不经尺寸选择的样本。第六栏至第九栏用于经尺寸选择的样本。第二列列举样本识别。第二栏、第四栏、第六栏和第八栏列举末端基序。第三栏、第五栏、第七栏和第九栏列举末端基序频率。

如图94中所示，不经尺寸选择的通过单分子实时测序加以测序的血浆DNA分子展现优先以C起始的末端基序，表明核酸酶DNASE1L3的裂解记号(Han等人,《美国人类遗传学期刊》2020；106:202-214)。相比的下，对于那些经尺寸选择的样本，通过单分子实时测序加以测序的血浆DNA携带主要以A或G起始的末端基序，表明核酸酶DFFB的裂解记号(Han等人,《美国人类遗传学期刊》2020；106:202-214)。这些数据表明，尺寸选择将允许我们选择性富集来源于游离DNA片段化中的不同酶过程的血浆DNA分子。所述选择性靶向将可用于与一种或多种核酸酶的异常含量相关的病症的分析、检测或监测中。在一个实施例中，血浆DNA的尺寸选择将增强监测DFFB活性或DFFB介导的DNA降解动力学的效能。

在一些实施例中，结合至富集长血浆DNA的珠粒的DNA和保留在富集短血浆DNA的上清液中的DNA经测序。长DNA将可用于构筑单倍型信息。短血浆DNA将可用于监测DNASE1L3活性。在实施例中，我们将执行长DNA分子和短DNA分子的协同合并分析。举例来说，将短DNA血浆DNA与母体单倍型(即Hap I和Hap II)进行比对，一个展现更多短DNA和/或更多低甲基化和/或相对较高剂量的母体单倍型相较于另一单倍型而言将可能为胎儿所遗传。

在一些实施例中，尺寸选择可基于但不限于基于凝胶电泳的技术，如PippinHTDNA尺寸选择、BluePippin DNA尺寸选择、Pippin Prep DNA尺寸选择系统、SageELF全样本份化系统、Pippin Pulse电泳、SageHLS HMW文库系统等。

F.长血浆DNA分子增强起源组织分析的效能

图95为显示长血浆DNA分子增强起源组织分析的效能的接收者操作特征(ROC)图。y轴显示灵敏度。x轴显示特异性。不同线显示不同尺寸片段的结果。具有最高曲线下面积(AUC)的红线用于大于3,000bp的片段。

如图95中所示，当区分孕妇血浆中的胎儿DNA分子与母体DNA分子时，根据本公开案中的实施例，基于长血浆DNA分子(例如>3000bp)的效能(AUC：0.94)比那些基于如以下的相对短DNA分子的分析高得多：100-200bp(AUC：0.66)和200-500bp(AUC：0.67)。这些数据表明，长血浆DNA的使用将极大地增强区分胎儿DNA分子与母体DNA分子的准确度，因此在以非侵入性方式确定胎儿遗传方面产生较高效能。

VII.用于母体血浆DNA的长DNA分析的纳米孔测序

除使用单分子实时测序技术的外，可使用纳米孔测序以对来自母体血浆的长游离DNA片段进行测序。甲基化和SNP信息可改善长游离DNA片段的纳米孔测序的准确度。

图96显示获自孕妇的血浆DNA的纳米孔测序的原理，其中核酸序列在单个DNA分子穿过纳米尺寸的孔隙时从整个膜中的离子电流变化推理而来。此类孔隙可例如但不限于由蛋白质(例如α溶血素、气单胞菌溶素(aerolysin)和包皮垢分枝杆菌孔蛋白A(Mycobacterium smegmatis porin A，MspA))或合成材料(如硅或石墨烯)产生(Magi等人,《生物信息学简报(Brief Bioinform.)》2018；19:1256-1272)。在实施例中，双股血浆DNA分子经受末端修复过程。此类过程将血浆DNA转化成钝端DNA，接着添加A尾。如图96中所示，各自携带马达蛋白(即马达衔接子)的序列衔接子接合至血浆DNA分子的任一末端。测序过程在马达蛋白松解双股DNA时开始，使得第一股能够穿过纳米孔。当DNA股穿过纳米孔时，感测器测量视序列情形和相关碱基修饰而定的随时间推移的离子电流变化(pA)(称作1D读段)。在其它实施例中，发夹序列衔接子将用于使第一股和互补股共价系栓在一起。在测序期间，双股DNA分子的一股经测序，接着互补股(称作1D²或2D读段)经测序，这些举动可潜在地改善测序准确度。原始电流信号用于碱基辨认和碱基修饰分析。在其它实施例中，碱基辨认和碱基修饰分析通过例如但不限于递归神经网络(RNN)或隐藏马可夫模型(HMM)的机器学习途径进行。在本公开案中，我们呈现用于使用纳米孔测序表征血浆DNA分子的特性的方法，所述特性包含但不限于分子计数、碱基组成、分子尺寸、末端基序和碱基修饰。

出于说明的目的，我们使用纳米孔测序(牛津纳米孔科技)来对38周胎龄的孕妇的三个母体血浆DNA样本(M12970、M12985和M12969)进行测序。使用接合测序套组(牛津纳米孔)使从4mL母体血浆提取的血浆DNA经受文库制备。简单来说，用FFPE修复混合物(NEB)修复DNA，随后用NEBNext末端制备模块(NEB)进行末端修复且加A尾。随后，将衔接子混合物添加至经修复DNA中且与钝性/TA主混合物接合。在用AMPure XP珠粒(贝克曼(Beckman))清洁之后，使经衔接子接合的文库与测序缓冲剂和负载珠粒混合，且负载至PromethION R9流量槽上。在PromethION beta装置(牛津纳米孔)上对流量槽进行测序64小时。

A.比对

使用Minimap2将经测序读段与人类参考基因组(hg19)进行比对(Li H,《生物信息学》2018；34(18):3094-3100)。在一些实施例中，BLASR(Mark J Chaisson等人,《BMC生物信息学》2012；13:238)、BLAST(Altschul SF等人,《分子生物学期刊(J Mol Biol.)》1990；215(3):403-410)、BLAT(Kent WJ,《基因组研究》2002；12(4):656-664)、BWA(Li H等人,《生物信息学》2010；26(5):589-595)、NGMLR(Sedlazeck FJ等人,《自然-方法》2018；15(6):461-468)和LAST(Kielbasa SM等人,《基因组研究》2011；21(3):487-493)可用于将经测序读段与参考基因组进行比对。对于样本M12970、M12985和M12969，我们分别获得1131万、1230万和2128万个经测序分子。其中，经定位片段数目分别为367万、263万和433万个。

B.尺寸和甲基化

通过纳米孔测序确定的血浆DNA分子的核苷酸数目用于推断所述DNA分子的尺寸。DNA分子的电流信号可用于确定碱基修饰。在实施例中，各CpG位点的甲基化状态通过开源软件Nanopolish确定(Simpson等人,《自然-方法》2017；14:407-410)。在另一实施例中，甲基化状态可通过使用包含但不限于以下的其它软件确定：DeepMod(Liu等人,《自然-通讯》2019；10:2449)、Tomo(Stoiber等人,BioRxiv.2017:p.094672)、DeepSignal(Ni等人,《生物信息学》2019；35:4586-4595)、Guppy(github.com/nanoporetech)、Megalodon(github.com/nanoporetech/megalodon)等。

图97为在特定尺寸范围内的血浆DNA分子百分比和其对应甲基化程度的表。显示三个样本：M12970、M12985和M12969。第一栏显示片段尺寸。第二栏显示所述片段尺寸的片段数目。第三栏显示所述片段尺寸的频率。第四栏显示所述片段尺寸的甲基化CpG位点数目。第五栏显示所述片段尺寸的未甲基化CpG位点数目。第六栏显示呈百分比形式的甲基化程度。

如图97中所示，对于样本M12970、M12985和M12969，尺寸≥500bp的DNA分子比例分别为16.6％、7.6％和12.6％。尺寸≥500bp的DNA分子比例比通过Illumina测序生成的数据(0.2％)高得多。对于样本M12970、M12985和M12969，尺寸≥500bp的DNA分子的甲基化程度分别为64.12％、65.05％和63.30％。另外，具有更多长血浆DNA的群体中的甲基化程度增加。作为一实例，对于样本M12970，尺寸≥2000bp的那些分子中的甲基化程度为70.7％，所述甲基化程度相对于尺寸≥500bp的分子而言等效于10.3％甲基化程度增加。也在样本M12985和M12969中观测到具有更多长DNA的群体中的类似增加趋势。具有不同尺寸的血浆DNA分子将反映向血液循环中贡献游离DNA的不同路径，所述路径如但不限于衰老、细胞凋亡、坏死、主动分泌等。长DNA分子的甲基化状态将进一步允许我们推理那些长DNA分子的起源组织。因此，长DNA分子片段化模式和甲基化模式的合并分析将允许我们推理特定器官的衰老、细胞凋亡、坏死和主动分泌的相对比率。通过不同路径进行的游离DNA生成的相对比率将反映如怀孕、子痫前症、早产、子宫内生长受限等的基础病理生理学病况。

图98为跨不同尺寸的尺寸分布和甲基化模式图。尺寸示于x轴上。频率示于y轴左侧上。甲基化程度示于y轴右侧上。尺寸分布(频率)数据显示为黑线。所示甲基化程度显示为黄线。

图98显示跨不同片段尺寸的尺寸分布和甲基化程度。尺寸分布具有在164bp、313bp和473bp下的多个峰，其中平均间隔为154bp。所述尺寸分布模式暗示核酸酶裂解的核小体，表明血浆DNA片段化的非随机过程可通过纳米孔测序识别。与基于Illumina测序数据的具有在166bp下的主峰的血浆DNA尺寸模式形成对比，主峰在380bp下。这些数据指示纳米孔测序将富集更多长DNA片段。血浆DNA的纳米孔测序的此类特征将特别适用于检测难以通过短读段测序技术解析的那些变体。在实施例中，纳米孔测序将可用于分析三联体重复序列扩展。三核苷酸重复序列数目将用于预测如X染色体脆裂症、亨廷顿氏舞蹈症、脊髓小脑失调、肌强直性营养不良和弗里德利希氏运动失调的三核苷酸重复序列病症的发展、严重程度和发作年龄。图98也显示根据不同尺寸变化的甲基化程度。一系列甲基化峰值与尺寸分布中的峰一致。

C.胎儿DNA和母体DNA

我们通过使用iScan平台(Illumina)对从母体血沉棕黄层和胎盘提取的DNA进行基因分型来识别中值204,410种信息性SNP(范围：199,420–205,597)，其中母亲为同型接合(AA)且胎儿为异型接合(AB)的，所述信息性SNP用于确定胎儿特异性等位基因(B)和共享等位基因(A)。

图99为使用纳米孔测序测定的胎儿DNA分率的表。第一栏显示样本识别符。第二栏显示携带共享等位基因的分子数目。第三栏显示携带胎儿特异性等位基因的分子数目。第四栏显示通过第三栏中的值乘以二且除以第二栏和第三栏的总和来计算的胎儿DNA分率。如图99中所示，对于样本M12970、M12985和M12969，我们分别识别84,911、52,059和95,273个携带共享等位基因的分子以及17,776、7,385和17,007个携带胎儿特异性等位基因的分子。对于样本M12970、M12985和M12969，胎儿DNA分率分别经测定为34.6％、24.9％和30.3％。另外，我们识别中值212,330种信息性SNP(范围：210,411–214,744)，其中母亲为异型接合(AB)且胎儿为同型接合(AA)的，所述信息性SNP用于确定母体特异性等位基因(B)。对于样本M12970、M12985和M12969，我们分别识别65,349、34,017和65,481个携带共享等位基因的分子以及43,594、26,704和48,337个携带母体特异性等位基因的分子。

图100为胎儿特异性DNA分子与母体特异性DNA分子之间的甲基化程度表。第一栏显示样本识别符。第二栏、第三栏和第四栏显示胎儿特异性DNA的结果。第五栏、第六栏和第七栏显示母体特异性DNA的结果。第二栏和第五栏显示甲基化CpG位点数目。第三栏和第六栏显示未甲基化CpG位点数目。第四栏和第七栏显示基于甲基化位点的百分比的甲基化程度。

根据本公开案中的实施例，确定用于各胎儿特异性DNA分子的甲基化模式。如图100中所示，对于样本M12970、M12985和M12969，经确定为甲基化的经测序CpG位点比例(即总甲基化程度)分别将为62.43％、62.39％和61.48％。胎儿特异性DNA的所述总甲基化程度比母体特异性DNA的对应总甲基化程度平均低8％。这些结果表明，我们将能够根据本公开案中的实施例使用纳米孔测序结果基于胎儿DNA分子与母体DNA分子之间的差异甲基化模式来区分胎儿DNA分子与母体DNA分子。

图101为在特定尺寸范围内的血浆DNA分子百分比和其对应的胎儿DNA分子和母体DNA分子甲基化程度的表。显示三个样本：M12970、M12985和M12969。第一栏显示片段尺寸。第二栏至第六栏显示胎儿特异性DNA的结果。第七栏至第十一栏显示母体特异性DNA的结果。第二栏和第七栏显示所述片段尺寸的片段数目。第三栏和第八栏显示所述片段尺寸的频率。第四栏和第九栏显示所述片段尺寸的甲基化CpG位点数目。第五栏和第十栏显示所述片段尺寸的未甲基化CpG位点数目。第六栏和第十一栏显示呈百分比形式的甲基化程度。

如图101中所见，分析具有包含但不限于≥500bp、≥600bp、≥1000bp和≥2000bp的不同尺寸范围的胎儿特异性DNA分子和母体特异性DNA分子的特性。与母体DNA分子相比，我们获得相对较小比例的尺寸大于1kb的胎儿DNA分子。然而，孕妇血浆中的所述长胎儿DNA分子(例如≥1000bp)的量(范围：4.9％-9.3％)显著地高于Illumina测序的预期值(<0.2％)。所述长胎儿DNA片段不易于在如Illumina测序平台(例如但不限于MiSeq、NextSeq、HiSeq、NovaSeq等)的习知短读段测序技术中经披露，这是因为DNA文库的插入尺寸限于小于550bp(例如Illumina NextSeq系统，support.illumina.com/sequencing/sequencing_instruments/nextseq-550/questions.html)。在实施例中，长胎儿DNA片段和母体DNA片段的包含但不限于尺寸和甲基化概况的分析可提供用于评估不同疾病的新型工具。举例来说，DNASE1L3缺乏症造成单基因性全身性红斑狼疮。所述DNASE1L3缺乏症将导致更多长DNA分子的生成(Chan等人,《美国人类遗传学期刊》2020；107:882-894)。因此，本文所描述的实施例将尤其对在怀孕期间监测那些患者的疾病严重程度且通过分析那些长DNA分子的特征评估未出生胎儿是否将受同一病况影响敏感。

图102A和图102B为通过纳米孔测序确定的胎儿DNA分子和母体DNA分子的尺寸分布图。片段尺寸示于x轴上。频率在图102A中在线性尺度中示于y轴上且在图102B中在对数尺度中示于y轴上。母体DNA用蓝线显示。胎儿DNA用红线显示。

如图102A和图102B中所示，在Illumina短读段测序平台中，母体DNA分子和胎儿DNA分子两者均含有比先前报告数目(Lo等人,《科学转化医学》2020；2:61ra91)多的长DNA分子。这些结果表明，通过纳米孔测序进行的血浆DNA分析披露之前并未了解的游离DNA的一组新特征。所述特征可用于非侵入性产前测试中。

D.用于确定胎儿DNA分子和母体DNA分子的经改善准确度

因为纳米孔测序将伴有较高测序误差(在～5％与40％之间)(Goodwin等人,《基因组研究》2015；25:1750-1756)，因此其可能会造成基于SNP基因型信息的胎儿DNA分子和母体DNA分子的不准确分类。在实施例中，我们可使用两种或更多种信息性SNP来对片段进行评分且判定所述片段是否来源于胎盘。举例来说，对于携带其中母亲为同型接合(AA)且胎儿为异型接合(AB)的两种信息性SNP的片段，仅当两种信息性SNP均支持此类片段源自胎儿的结论时，其将被确定为胎儿起源。类似地，对于携带两种信息性SNP的片段，仅当两种信息性SNP均支持此类片段源自母亲时，其将被确定为母体起源。

图103为显示基于单种信息性SNP和两种信息性SNP的胎儿DNA分子与母体DNA分子之间的甲基化程度差异的图式。y轴显示胎儿DNA分子与母体DNA分子之间的呈百分比形式的甲基化程度差异。x轴显示针对甲基化程度差异的使用单种信息性SNP对使用两种信息性SNP。

如图103中所示，使用两种信息性SNP来区分胎儿DNA分子与母体DNA分子，胎儿DNA分子与母体DNA分子之间的甲基化程度差异比基于一种信息性SNP的结果大得多。胎儿特异性分子与母体特异性分子之间的平均甲基化程度差异从5.4％增加至11.3％，等效于109％增量。这些结果表明，多种SNP的使用将极大地改善区分胎儿特异性DNA分子与母体特异性DNA分子的准确度。

图104为胎儿DNA分子与母体DNA分子之间的甲基化程度差异表。第一栏显示样本识别符。第二栏、第三栏和第四栏显示胎儿特异性DNA的结果。第五栏、第六栏和第七栏显示母体特异性DNA的结果。第二栏和第五栏显示甲基化CpG位点数目。第三栏和第六栏显示未甲基化CpG位点数目。第四栏和第七栏显示基于甲基化位点的百分比的甲基化程度。

如图104中所见，胎儿特异性DNA的所述总甲基化程度比母体特异性DNA的对应总甲基化程度平均低16.3％。在实施例中，甲基化信号的使用继而将增强胎儿DNA和母体DNA分类的准确度。举例来说，对于携带推定胎儿特异性等位基因的片段，当所述片段的甲基化程度经测定为低于阈值时，此类片段将具有较高的来源于胎儿的可能性。此类阈值可为但不限于60％、50％、40％、30％、20％、10％等。对于携带推定母体特异性等位基因的片段，当所述片段的甲基化程度经测定为高于阈值时，此类片段将具有较高的来源于母亲的可能性。此类阈值可为但不限于90％、80％、70％、60％、50％、40％等。

在一些其它实施例中，将要求信息性SNP总数为至少例如但不限于3、4、5、6、7、8、9、10种等。将要求支持源自胎儿的片段的信息性SNP数目为至少例如但不限于3、4、5、6、7、8、9、10种等。将要求支持源自母亲的片段的信息性SNP数目为至少例如但不限于3、4、5、6、7、8、9、10种等。在实施例中，将要求支持源自胎儿的片段的信息性SNP百分比达到例如1％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％或100％的特定阈值。将要求支持源自母亲的片段的信息性SNP百分比达到例如1％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％或100％的特定阈值。

在一些其它实施例中，我们可环化血浆DNA分子，接着进行滚环式扩增。经扩增DNA可通过纳米孔测序加以测序，因此模板DNA信息可经测序多次。共同序列可从经重复测序的信息推断而来。

VIII.实例系统

图105绘示根据本公开案的一实施例的测量系统10500。如所示的系统在分析装置10510内包含如游离DNA分子的样本10505，其中可在样本10505上执行分析10508。举例来说，样本10505可与分析10508的试剂接触以得到物理特征10515的信号。分析装置的实例可为包含分析的探针和/或引物或其中移动小滴的管(其中小滴包含分析)的流量槽。通过检测器10520来检测来自样本的物理特征10515(例如荧光强度、电压或电流)。检测器10520可按间隔(例如周期性间隔)进行测量以获得构成数据信号的数据点。在一个实施例中，类比-数字转换器在多个时间将来自检测器的类比信号转换成数字形式。分析装置10510和检测器10520可形成分析系统，例如根据本文所描述的实施例执行测序的测序系统。将数据信号10525从检测器10520发送至逻辑系统10530。作为一实例，数据信号10525可用于确定DNA分子的参考基因组中的序列和/或位置。数据信号10525可包含在同一时间作出的各种测量结果，例如用于样本10505的不同分子的荧光染料的不同颜色或不同电信号，且因此数据信号10525可对应于多个信号。数据信号10525可储存于区域存储器10535、外部存储器10540或储存装置10545中。

逻辑系统10530可为或可包含计算机系统、ASIC、微处理器、图形处理单元(GPU)等。其也可包含或耦接显示器(例如监视器、LED显示器等)和使用者输入装置(例如鼠标、键盘、按钮等)。逻辑系统10530和其它组件可为独立的或网络连接的计算机系统的一部分，或其可直接连接至包含检测器10520和/或分析装置10510的装置(例如测序装置)或并入其中。逻辑系统10530也可包含在处理器10550中实行的软件。逻辑系统10530可包含计算机可读媒体，所述计算机可读媒体储存用于控制测量系统10500以执行本文所描述的方法中的任一种的指令。举例来说，逻辑系统10530可向包含分析装置10510的系统提供命令，使得测序或其它物理操作得以执行。所述物理操作可以特定次序执行，例如以特定次序添加和去除试剂。所述物理操作可通过如可用于获得样本且执行分析的例如包含机械手臂的机器人系统执行。

测量系统10500也可包含可向个体提供治疗的治疗装置10560。治疗装置10560可确定治疗且/或用于执行治疗。所述治疗的实例可包含手术、放射线疗法、化学疗法、免疫疗法、靶向疗法、激素疗法和干细胞移植体。逻辑系统10530可连接至治疗装置10560，例如以得到本文所描述的方法的结果。治疗装置可从如成像装置和使用者输入的其它装置接收输入(例如以控制治疗，如对机器人系统进行控制)。

本文所提及的计算机系统中的任一者可利用任何合适数目个子系统。所述子系统的实例示于计算机系统10的图106中。在一些实施例中，计算机系统包含单一计算机装置，其中子系统可为计算机装置的组件。在其它实施例中，计算机系统可包含具有内部组件的多个计算机设备，所述多个计算机设备各自为子系统。计算机系统可包含桌上型和膝上型计算机、平板计算机、移动电话和其它移动装置。

图106中所示的子系统经由系统总线75互连。显示额外子系统，如打印机74、键盘78、一个或多个储存装置79、与显示适配器82耦接的监视器76(例如显示屏，如LED)和其它装置。耦接至I/O控制器71的周边设备和输入/输出(I/O)装置可通过任何数目个本领域中已知的构件，如输入/输出(I/O)埠77(例如USB，

)连接至计算机系统。举例来说，I/O埠77或外部介面81(例如以太网(Ethernet)、Wi-Fi等)可用于连接计算机系统10与如因特网的广域网络、鼠标输入装置或扫描仪。经由系统总线75进行的互连可允许中央处理器73与各子系统通信且允许控制来自系统存储器72或一个或多个储存装置79(例如如硬驱动机的固定磁盘或光盘)的多个指令的实行以及子系统之间的信息交换。系统存储器72和/或一个或多个储存装置79可实施计算机可读媒体。另一子系统为如摄影机、麦克风、加速计和其类似装置的数据收集装置85。本文所提及的数据中的任一者可从一个组件输出至另一组件且可输出至使用者。

计算机系统可包含多个相同组件或子系统，所述多个相同组件或子系统例如通过外部介面81、通过内部介面或经由可从一个组件至另一组件连接且去除的可去除储存装置连接在一起。在一些实施例中，计算机系统、子系统或设备可经网络通信。在这些情况下，可将一个计算机视为用户端且将另一计算机视为服务器，其中各者可为同一计算机系统的一部分。用户端和服务器可各自包含多个系统、子系统或组件。

实施例的方面可以控制逻辑形式使用硬件电路(例如特殊应用集成电路或场可程序化闸阵列)且/或使用具有大体上可程序化处理器的计算机软件以模块化或整合式方式来实施。如本文所使用，处理器可包含单核处理器、同一积体晶片上的多核处理器或单电路板上或网络化的多处理单元以及专用硬件。基于本公开案和本文所提供的教示内容，本领域普通技术人员应知晓且了解使用硬件和硬件与软件的组合来实施本公开案的实施例的其它方式和/或方法。

本申请中所描述的软件组件或功能中的任一者可以软件代码形式来实施，所述软件代码待使用例如习知或物件导向技术使用任何合适的计算机语言(如Java、C、C++、C#、Objective-C、Swift)或手稿语言(如Perl或Python)由处理器执行。软件代码可储存为计算机可读媒体上的一系列指令或命令以用于储存和/或传输。合适的非暂时性计算机可读媒体可包含随机存取存储器(RAM)、只读存储器(ROM)、磁性媒体(如硬驱动机或软磁盘)或光学媒体(如密闭磁盘(CD)或数字光盘(DVD)或蓝光光盘)、闪存和其类似装置。计算机可读媒体可为所述储存或传输装置的任何组合。

所述程序也可使用适于经由符合各种协议的有线、光学和/或无线网络(包含因特网)传输的载波信号来加以编码和传输。因此，计算机可读媒体可使用以所述程序编码的数据信号创建。以程序码编码的计算机可读媒体可与相容装置一起封装或与其它装置分开提供(例如经由因特网下载)。任何所述计算机可读媒体可驻存于单一计算机产品(例如硬驱动机、CD或整个计算机系统)之上或之内，且可存在于系统或网络内的不同计算机产品之上或之内。计算机系统可包含用于向使用者提供本文所提及的结果中的任一者的监视器、打印机或其它合适显示器。

本文所描述的方法中的任一种可完全或部分地用计算机系统来执行，所述计算机系统包含可经配置以执行步骤的一个或多个处理器。因此，实施例可针对经配置以执行本文所描述的方法中的任一种的步骤的计算机系统，其中潜在地，不同组件执行对应步骤或对应步骤组。尽管以经编号步骤形式呈现，但本文方法的步骤可在相同时间或在不同时间或按逻辑上可能的不同次序执行。另外，这些步骤的部分可与其它方法的其它步骤的部分一起使用。此外，步骤的全部或部分可为任选的。另外，所述方法中的任一种的步骤中的任一个可用用于执行这些步骤的系统的模块、单元、电路或其它构件来执行。

如本领域技术人员在阅读本公开案的时将显而易见，本文所描述且说明的单独的实施例中的每一者具有离散组件和特点，所述离散组件和特点可在不脱离本公开案的范围或精神的情况下易于与其它数个实施例中的任一个的特点分离或组合。

本公开的例示性实施例的上述描述已出于说明和描述的目的呈现且经阐述以便向本领域普通技术人员提供如何制作且使用本公开案的实施例的完整公开内容和描述。其既不意图为穷尽性的或将本公开案限于所描述的精确形式，它也不意图表示实验为所执行的所有或唯一实验。尽管已出于清楚理解起见，通过说明和实例相当详细地描述本公开案，但本领域普通技术人员依据本公开案的教示内容容易地显而易见，可在不脱离所附权利要求书的精神或范围的情况下对其作出某些改变和修改。

因此，先前仅仅说明本发明的原理。应了解，本领域技术人员将能够设计各种配置，尽管并未在本文中明确地加以描述或显示，但所述配置实施本发明的原理且包含于其精神和范围内。此外，本文所叙述的所有实例和条件性语言均主要意图辅助读者理解本公开案的原理为但不限于所述经特定地叙述的实例和条件。此外，本文中叙述本发明的原理、方面和实施例以及其具体实例的所有陈述均意图涵盖其结构等效物和功能等效物两者。另外，希望所述等效物包含当前已知的等效物和未来研发的等效物，即不管结构如何，执行相同功能的所研发的任何元素。因此，本发明的范围不意图限于本文所显示且描述的例示性实施例。相反地，本发明的范围和精神通过所附权利要求书体现。

除非相反地特定指示，否则“一(a/an)”或“所述/所述”的叙述意图意指“一个或多个”。除非相反地特定指示，否则“或”的使用意图意指“包含性地或”而非“排他性地或”。提及“第一”组件不必要求提供第二组件。此外，除非明确陈述，否则提及“第一”或“第二”组件不会将所提及组件限于特定位置。术语“基于”意图意指“至少部分地基于”。

权利要求书可经拟定以排除可为任选的任何元素。因此，此陈述意图与对所要求元素的叙述结合充当如“仅仅(solely)”、“仅(only)”和其类似术语的排他性术语使用或意图充当“否定性”限制使用的前提基础。

本文所提及的所有专利、专利申请、公开案和描述均出于所有目的特此以全文引用的方式并入，如同每个单独公开案或专利被特定地且单独地指示为以引用的方式并入一般；且以引用的方式并入本文中以结合所引用的公开案公开且描述方法和/或材料。不承认任一者为现有技术。

Claims

1.一种分析获自怀有胎儿的女性的生物样本的方法，所述女性在第一染色体区中具有第一单倍型和第二单倍型，所述生物样本包含来自所述胎儿和所述女性的多个游离DNA分子，所述方法包括：

接收对应于所述多个游离DNA分子的读段；

测量所述多个游离DNA分子的尺寸；

识别来自所述多个游离DNA分子的第一组游离DNA分子为具有大于或等于截止值的尺寸，其中所述截止值为至少500nt；

用对应于所述第一组游离DNA分子的读段确定所述第一单倍型的序列和所述第二单倍型的序列；

使用所述第二组游离DNA分子测量参数的第一值；

使用所述第三组游离DNA分子测量所述参数的第二值；

比较所述第一值与所述第二值；和

2.根据权利要求1所述的方法，其中所述截止值为600nt。

3.根据权利要求1所述的方法，其中所述截止值为1knt。

4.根据权利要求1所述的方法，其中由对应于所述第一组游离DNA分子的所述读段确定所述第一单倍型的所述序列和所述第二单倍型的所述序列包括：

5.根据权利要求1所述的方法，其中由对应于所述第一组游离DNA分子的所述读段确定所述第一单倍型的所述序列和所述第二单倍型的所述序列包括：

确定所述读段的所述第一子组对应于所述第一单倍型，和

确定所述读段的所述第二子组对应于所述第二单倍型。

6.根据权利要求1所述的方法，其中所述参数为游离DNA分子计数、游离DNA分子尺寸概况或游离DNA分子甲基化程度。

7.根据权利要求6所述的方法，其中：

所述参数为所述游离DNA分子计数，且

所述方法进一步包括：

8.根据权利要求6所述的方法，其中：

所述参数为所述游离DNA分子尺寸概况，且

所述方法进一步包括：

9.根据权利要求6所述的方法，其中：

所述参数为所述游离DNA分子甲基化程度，且

所述方法进一步包括：

10.根据权利要求1所述的方法，其中所述截止值是第一截止值，

所述方法进一步包括：

使用所述第一值和所述第二值计算分离值；

比较所述分离值与第二截止值；和

基于所述分离值与所述第二截止值的所述比较确定胎儿非整倍体的可能性。

11.根据权利要求10所述的方法，其中：

从来自怀有整倍体胎儿的怀孕女性的参考样本确定所述第二截止值，

从来自怀有非整倍体胎儿的怀孕女性的参考样本确定所述第二截止值，或

假定为非整倍体胎儿，计算所述第二截止值。

12.根据权利要求1所述的方法，其进一步包括：

其中：

13.根据权利要求12所述的方法，其中：

所述子序列的所述重复序列的数目与重复序列相关疾病相关，且

14.根据权利要求1所述的方法，其中：

相对于所述生物样本而言富集所述多个游离DNA分子以获得大于或等于所述截止值的尺寸，其中所述生物样本中超过20％的所述游离DNA分子具有大于200nt的尺寸。

15.根据权利要求14所述的方法，其进一步包括：

使用电泳富集所述多个游离DNA分子。

16.根据权利要求14所述的方法，其进一步包括：

17.根据权利要求14所述的方法，其进一步包括：

18.根据权利要求16所述的方法，其中富集用于获得大于600nt、700nt、800nt、900nt或1knt的尺寸。

19.根据权利要求1所述的方法，其中相对于所述生物样本而言富集所述多个游离DNA分子以获得甲基化概况，

所述方法进一步包括：

使用免疫沉淀富集所述多个游离DNA分子。

20.一种计算机产品，其包括储存指令的非暂时性计算机可读媒体，所述指令在经实行时控制计算系统以执行分析获自怀有胎儿的女性的生物样本的方法，所述女性在第一染色体区中具有第一单倍型和第二单倍型，所述生物样本包含来自所述胎儿和所述女性的多个游离DNA分子，所述方法包括：

接收对应于所述多个游离DNA分子的读段；

测量所述多个游离DNA分子的尺寸；

使用所述第二组游离DNA分子测量参数的第一值；

使用所述第三组游离DNA分子测量所述参数的第二值；

比较所述第一值与所述第二值；和

21.根据权利要求1所述的方法，其中对应于所述多个游离DNA分子的读段是通过单分子测序获得的。

22.根据权利要求21所述的方法，其中所述单分子测序包括光学监测DNA聚合酶将新碱基并入所述多个游离DNA分子中的游离DNA分子的互补股。