CN105074004A

CN105074004A - 用于检测胎儿染色体非整倍性的无创性方法

Info

Publication number: CN105074004A
Application number: CN201380068714.XA
Authority: CN
Inventors: M·奥思特莱斯; C·德吕昂萨格纳; N·文森特; B·康拉德
Original assignee: GENESUPPORT SA
Current assignee: GENESUPPORT SA
Priority date: 2012-10-31
Filing date: 2013-10-31
Publication date: 2015-11-18
Also published as: EP3026124A1; EP2728014A1; IL238426A0; AU2013340795A1; JP2015534807A; US20150275290A1; EP2914738A1; WO2014068075A1; DK2728014T3; HK1208708A1; EP2728014B1; CA2888906A1

Abstract

本发明涉及从包含游离DNA的母体生物样品获得用于诊断胎儿非整倍性的一组参照样品和/或一组参照参数的方法，所述方法包括：-从获自怀有整倍体胎儿的整倍体孕妇的一组生物样品中提取游离DNA；-在所述提取步骤之后，分析每个样品内DNA分子的大小分布并基于所述样品内DNA分子的大小分布选择一组样品；-对每个经大小选择的样品的DNA进行大规模平行测序；-将每个样品所获得的序列映射到人类基因组上；-计算一组参照参数，其中每个参照参数指示每个样品映射到目的染色体或染色体区域上的唯一精确序列的数量；-获得一组参照样品和/或一组参照参数。

Description

用于检测胎儿染色体非整倍性的无创性方法

本发明涉及使用游离DNA，特别是经大小选择的游离DNA进行胎儿非整倍性的无创性产前诊断。更具体地说，本发明涉及诊断胎儿非整倍性的方法，其特征在于使用一组提供高度增强的灵敏度和特异性的外部参照样品。本发明还涉及获得所述参照样品和包含所述参照样品的试剂盒和/或一组用于诊断胎儿非整倍性的参照参数的方法。

胎儿染色体非整倍性检测是产前诊断中的重要步骤。染色体非整倍性引起几种主要疾病，如唐氏综合症(也称为21三体)、18三体、13三体，尽快预测胎儿是否会受到这些异常现象之一的影响是至关重要的。此外，胎儿患非整倍性的风险通常随母亲年龄的增加而增加。因此，在大多数发达国家中孕妇平均年龄的增加，进一步提高了对强大且安全的检测胎儿染色体非整倍性的诊断方法的需求。

通常通过有创性方法进行胎儿染色体非整倍性的检测，如绒膜绒毛取样、羊膜腔穿刺术或脐带血取样。这些方法的共同之处在于它们依赖于收集胎儿生物材料(羊水、绒膜绒毛、脐带血)以获得胎儿细胞，这是染色体核型分析所必需的。这些方法已被常规性地实施了很长时间。然而，由于它们的有创性，它们对于胎儿和母亲并不是无风险的。最常见的风险是流产的可能性，就羊膜腔穿刺术来说其接近1％。其他风险也与这些有创性方法有关，如感染、疾病(例如AIDS或乙型肝炎)从母体到胎儿的传播、羊水渗漏或早产的风险。

也已经开发了基于超声扫描或基于检测母体血清生化标记物的无创性方法，但是这些方法主要局限于检测副现象，并且对检测染色体异常的核心病理具有有限的临床有效性。

1997年，母体血浆中的游离胎儿核酸的发现开启了新的可能性。使用这些核酸评估胎儿染色体剂量的第一个策略是基于分析靶核酸(胎盘mRNA和含有胎盘特异性DNA甲基化标记的DNA分子)中SNP的等位基因比例，这基于通过SNP的等位基因比例分析来评估胎儿染色体剂量。最近开发了另一种使用数字PCR的策略(Loetal.,2007)。该技术在于测量母体血浆中潜在的非整倍体染色体(例如21号染色体)上的特定基因座的总量并将该数量与参照染色体上的进行比较。

2008年，Chiu等人在用于在母体血浆中诊断胎儿21三体的方法中成功实施了大规模平行测序(Chiuetal.,2008)。他们的方法在于对从血浆样品中提取的DNA进行大规模平行测序。随后将从MPGS步骤中获得的序列与人类基因组的参照序列进行比对，计算每条染色体的已被唯一映射(map)至人类基因组上的位置而没有错配的序列的数量，并将其与在MPGS中获得的序列的总数进行比较。该比率指示了存在于母体血浆样品中的DNA分子的“染色体表达”。与一组已知为整倍体的参照样品相比，给定的样品中的21号染色体的过表达指示胎儿21三体。

大约在同一时间，Fan等人成功地开发了另一种使用鸟枪法测序无细胞血浆来诊断胎儿21三体的方法(Fanetal.,2008)。对提取自母体血浆样品的游离DNA进行大规模测序后，Fan等人将每个序列映射到人类基因组上。然后，将人类基因组的每条染色体分为50kb的区段(bin)，并计算每个区段的唯一映射到人类基因组上且带有最多一个错配的序列标签的数量。随后，Fan等人计算了每条染色体上的序列标签的这种计数的中位值。最后，Fan等人将来自怀有患21三体的胎儿的母亲的血浆中21号染色体的序列标签密度与来自怀有整倍体胎儿的母亲的血浆中21号染色体的序列标签密度进行比较，他们注意到21三体的序列标签密度高于整倍体样品的序列标签密度，置信水平为99％。

这些技术都依赖于检测给定的染色体与整倍体参照样品相比的过表达。它们提供了有用的“概念验证”并为在胎儿非整倍性诊断中有效使用新一代测序技术铺平了道路。然而，在常规临床环境中实施该方法需要比目前在现有技术中所述的更高水平的灵敏度和特异性。

无创性产前诊断使用全基因组新一代测序(WG-NGS)检测胎儿非整倍性的灵敏度取决于母体血浆中的胎儿DNA分数，并取决于测序深度。而所述胎儿DNA分数取决于一系列大量固有的生物变量，经实验修正的技术变量包括i)，DNA提取方法的效率，ii)，NGS的精度和通量，即可比对到所测序的基因组上的具有唯一精确匹配的序列标签(称为“没有错配的唯一精确序列”或“UES”)的分数以及所测序的分子的总数，iii)，生物信息学算法的性质，和iv)，来自具有正常胎儿染色体核型的孕妇的样品的对照组——其提供了参照组。后者是最重要的，因为每条单染色体的单个分子计数由所有常染色体的中位序列标签密度来标准化(Fanetal2008)。

本发明实施了之前未被用于无创性产前诊断并且比标准方法具有高五倍的产量的DNA提取方法，以及严格质量控制的NGS工作流程，所述NGS工作流程具有比所公开的参考文献总体上多25-30％的UES，并具有比当前标准高三倍的大于15·10⁶的平均UES总计数。所述测试的最终读出符合稳健的临床测试的要求，即对主要的胎儿非整倍性的100％灵敏度和100％特异性。例如，该方法将21三体或唐氏综合征与正常的男性和女性染色体核型区别开，其偶然产生错误结果的先验概率≤1.1·10^-5。由于基准是≤2.7·10^-3，这表示提高了两个数量级。本发明提供了方法的组合，所述方法使得能够建立高质量的参照组序列，这是确定NGS方法的性能的关键步骤。

因此，本发明的第一方面涉及从母体生物样品，优选血液样品中获得用于诊断胎儿非整倍性的一组参照样品和/或一组参照参数的方法，所述方法包括：

-从获自怀有整倍体胎儿的整倍体孕妇的一组生物样品，优选血液样品中提取游离DNA的步骤；

-对每个样品中的DNA进行大规模平行测序的步骤；

-将每个样品所获得的序列映射到人类基因组上的步骤；

-任选计算一组参照参数，其中每个参照参数指示每个样品映射到目的染色体或染色体区域上的唯一精确序列的数量；

-获得一组参照样品和/或一组参照参数；

其中所述方法包括以下额外的步骤/特征中的至少一种：

-从每个生物样品中提取游离DNA，其包括：

○将所述生物样品与包含氯仿和苯酚的组合物混合；

○从所述混合物中萃取水相；

○从所述水相中沉淀DNA；

○任选收集沉淀的DNA。

-在所述提取步骤之后，分析每个样品内DNA分子的大小分布，并基于所述样品内DNA分子的大小分布选择一组样品；

-在所述提取步骤之后或在所述基于DNA分子的大小分布的选择步骤之后，对每个样品的DNA进行预测序，将所获得的序列映射到人类基因组上，并基于映射到人类基因组上的唯一精确序列的量来选择一组样品；

-在将获自大规模平行测序的序列进行映射的步骤之后，基于映射到人类基因组上的唯一精确序列的数量选择一组样品。

所述方法可包含这些额外的步骤或特征中的任一个、这些额外的步骤或特征中的任意两个或三个的组合或所述四个额外的步骤和特征。

优选地，本发明的方法包括游离DNA的大小选择的步骤，特别是紧接所述提取步骤之后和大规模平行测序之前。根据这个实施方案，本发明涉及从包含游离DNA的母体生物样品中获得用于诊断胎儿非整倍性的一组参照样品和/或一组参照参数的方法，所述方法包括：

-从获自怀有整倍体胎儿的整倍体孕妇的一组生物样品中提取游离DNA；

-对每个经大小选择的样品的DNA进行大规模平行测序；

-将每个样品所获得的序列映射到人类基因组上；

-计算一组参照参数，其中每个参照参数指示每个样品映射到目的染色体或染色体区域上的唯一精确序列的数量；

-获得一组参照样品和/或一组参照参数。

这种包括大小选择步骤的用于获得一组参照样品的方法的一个优选实例包括：

a)从一组生物样品中提取游离DNA，所述生物样品获自怀有整倍体胎儿的整倍体孕妇，并且还任选获自怀有非整倍体胎儿的整倍体孕妇；

b)将所提取的游离DNA的样品进行大小选择的步骤，特别是为了将大小大于200bp的游离DNA分子去除；

c)对在步骤(b)中获得的经大小选择的提取的DNA样品进行处理，以用于制备测序文库，例如通过末端修复DNA分子和连接测序接头，任选随后扩增经接头-连接的片段；

d)对在(c)中获得的每一个经大小选择的样品的DNA进行大规模平行测序；

e)将每个样品在步骤(d)中获得的序列映射到人类基因组上；

f)计算一组参照参数，其中每个参照参数指示每个样品映射到目的染色体或染色体区域上的唯一精确序列的数量；

g)获得一组参照样品和/或一组参照参数。

特别优选的是，在获得参照组样品时，从其中提取游离DNA的生物样品组还包括获自怀有非整倍体胎儿的整倍体孕妇的样品，通过这种方式，所述参照组为整倍体和非整倍体样品都提供了参照值。

在一个替代的实施方案中，从包含游离DNA的母体生物样品中获得用于诊断胎儿非整倍性的一组参照样品的方法在大规模平行测序之前包括对样品的经大小选择的子集进行预测序和映射的步骤。根据这个替代的实施方案，所述方法包括：

(i)从获自一组怀有整倍体胎儿的整倍体孕妇的一组生物样品，优选血液样品中提取游离DNA；

(ii)分析每个样品内DNA分子的大小分布；

(iii)基于所述样品内DNA分子的大小分布选择第一组样品；

(iv)对来自所述第一组样品的每个样品的DNA进行预测序；

(v)将步骤(iv)中获得的序列映射到人类基因组上；

(vi)基于步骤(v)中映射到人类基因组上的唯一精确序列的数量选择第二组样品；

(vii)对来自所述第二组样品的每个样品的DNA进行大规模平行测序；

(viii)将步骤(vii)中获得的序列映射到人类基因组上；

(ix)基于步骤(viii)中映射到人类基因组上的唯一精确序列的数量选择一组参照样品。

在一个具体的实施方案中，步骤(iii)包括选择其中至少90wt％，优选95wt％以上的DNA分子的大小为156bp至176bp的样品。

在另一个实施方案中，步骤(iii)包括选择具有至少0.88ng/μL大小为156bp至176bp的DNA分子的样品。

在另一个实施方案中，步骤(iv)包括对每个样品内1000至100000个序列进行测序。

在另一个实施方案中，步骤(vi)包括选择具有相对于步骤(iv)中获得的序列总数至少70％的唯一精确序列的样品。

在另一个实施方案中，步骤(vii)包括对每个样品的至少2500万个序列进行测序。在另一个实施方案中，步骤(vii)包括获得每个样品的至少2500万个过滤后(filterpassing)读长(read)。

在另一个实施方案中，步骤(ix)包括选择具有超过1500万个唯一精确序列读长的样品。

本发明还涉及从母体生物测试样品，优选血液样品诊断胎儿非整倍性的方法，所述方法包括：

(a)从获自孕妇的母体生物测试样品中提取游离DNA；

(b)对提取自所述测试样品的游离DNA进行大规模平行测序；

(c)将步骤(b)中获得的序列映射到人类基因组上；

(d)计算指示映射到目的染色体或染色体区域的唯一精确序列的数量的测试参数；

(e)计算一组参照参数，其中每个参照参数指示例如根据本发明所获得的一组参照样品(如一组整倍体参照样品)的样品映射到目的染色体或染色体区域上的唯一精确序列的数量；

(f)将步骤(d)中计算的所述测试参数与步骤(e)中计算的所述参照参数组进行比较；

(g)基于所述比较，诊断胎儿非整倍性。

诊断胎儿非整倍性的一个优选的方法包括上述方法，其中，在所述提取步骤之后，进行基于所述样品内DNA分子的大小的大小选择步骤。所述大小选择步骤基本上从所述测试样品中去除了大小大于200bp的DNA分子。优选地，在制备测序文库之前进行这个步骤。特别优选地，这个诊断方法与参照样品的使用相结合，所述参照样品也经过了如上所述的游离DNA大小选择的步骤。事实上，根据本发明，优选对测试样品进行与参照样品相同的方法学。

根据这个优选的实施方案，用于从母体生物测试样品，优选血液样品诊断胎儿非整倍性的方法包括：

(a)从获自孕妇的母体生物测试样品(如血液)中提取游离DNA；

(b)对所提取的游离DNA进行大小选择的步骤，以使大小大于200bp的DNA分子从所述样品中基本去除；

(c)对经大小选择的提取的游离DNA进行处理，以用于制备测序文库，例如通过末端修复DNA分子和连接测序接头，任选随后扩增经接头-连接的片段；

(d)对步骤(c)中获得的游离DNA进行大规模平行测序；

(e)将步骤(d)中获得的序列映射到人类基因组上；

(f)计算指示映射到目的染色体或染色体区域上的唯一精确序列的数量的测试参数；

(g)计算一组参照参数，其中每个参照参数指示根据本发明的大小选择的方法获得的一组参照样品(如一组整倍体参照样品)的样品映射到目的染色体或染色体区域上的唯一精确序列的数量；

(h)将步骤(f)中计算的所述测试参数与步骤(g)中计算的所述参照参数组进行比较；

(i)基于所述比较，诊断胎儿非整倍性。

优选地，从母体生物测试样品中提取游离DNA包括：

-将所述生物样品与包含氯仿和苯酚的组合物混合；

-从所述混合物中萃取水相；

-从所述水相中沉淀DNA；

-任选收集沉淀的DNA。

在一个具体的实施方案中，所述测试参数是标准化为所有常染色体的中位唯一精确序列标签密度的目的染色体或染色体区域的唯一序列标签密度。

在另一个实施方案中，所述测试参数是映射到所述染色体或染色体区域上的唯一精确序列相对于映射到所有染色体上的唯一精确序列总数或映射到所有常染色体上的唯一精确序列总数的百分比。

在另一个实施方案中，通过计算所述测试参数相对于参照参数组的z分数来进行步骤(f)中的所述比较。

在另一个实施方案中，所述测试参数是目的染色体或染色体区域的绝对精确序列计数或目的染色体或染色体区域的平均精确序列计数。

在其他的实施方案中，通过计算目的染色体或染色体区域的唯一精确序列计数，或目的染色体或染色体区域的平均精确序列计数属于参照组的目的染色体的唯一精确序列计数的正态分布的概率来进行步骤(f)中的所述比较。

在另一个实施方案中，所述目的染色体是21号染色体、18号染色体、16号染色体、11号染色体或13号染色体。

在另一个实施方案中，所述目的染色体是21号染色体，并且21三体样品的z分数至少是4.4，而21号染色体是整倍体的样品的z分数的绝对值小于4.4。

本发明还涉及从包含胎儿和母体游离DNA的母体生物样品中提取游离DNA的方法，所述方法包括：

-将所述生物样品与包含氯仿和苯酚的组合物混合；

-从所述混合物中萃取水相；

-从所述水相中沉淀DNA；

-任选收集沉淀的DNA。

本发明还涉及氯仿和苯酚的用途，优选用于从包含胎儿和母体游离DNA的母体生物样品中提取游离DNA的包含氯仿和苯酚的组合物的用途。

在一个具体的方面，所述用途是在从母体生物样品中获得用于诊断胎儿非整倍性的一组参照样品的方法中。

在另一个方面，所述用途是在从母体生物测试样品诊断胎儿非整倍性的方法中。

本发明还涉及根据本发明的方法可获得的一组参照样品。

本发明还涉及计算机程序产品，其用于实施从母体生物样品中获得用于诊断胎儿非整倍性的一组参照样品的方法中的一个或多个步骤。

本发明还涉及计算机程序产品，其用于实施从母体生物测试样品诊断胎儿非整倍性的方法中的一个或多个步骤，例如步骤(d)至(g)中的一个或多个。

本发明还涉及包含以下中的一个或多个的试剂盒：

-用于提取游离DNA的一个或多个组合物和/或试剂盒，例如包括包含苯酚和氯仿的组合物；

-根据本发明的方法可获得的一组参照样品；

-根据本发明的方法可获得的一组参照参数，其任选包括在物理载体(如计算机可读介质)中；

-计算机程序产品，其用于实施从母体生物样品中获得用于诊断胎儿非整倍性的一组参照样品的方法中的一个或多个步骤；

-计算机程序产品，其用于实施从母体生物测试样品诊断胎儿非整倍性的方法中的一个或多个步骤。

根据一个优选的实施方案，用于诊断胎儿非整倍性的试剂盒包括：

-根据本发明的方法可获得的一组参照样品，例如经过大小选择以富集大小≤200bp的游离DNA，去除大于200bp的DNA分子，并且不仅包含来自怀有整倍体胎儿的整倍体孕妇的样品，还包含来自怀有非整倍体胎儿的整倍体孕妇的样品的一组样品

-和/或一组参照参数，其中每个参照参数指示根据本发明的方法可获得的参照组的样品映射到目的染色体或染色体区域上的唯一精确序列的数量，其任选包括在物理载体中。

这样的试剂盒还可包含以下中的至少一个：

-用于提取游离DNA的一种或多种组合物和/或试剂盒，包括包含苯酚和氯仿的组合物；

附图说明

图1：通过毛细管电泳得到的3个母体血浆样品的大小分布。将这些样品中的DNA分子连接到132bp的测序接头/条形码上。

图2：通过NGS测序得到的91个样品(整倍体和非整倍体)的过滤后序列读长的总数。纵坐标的坐标轴图例写作“Cnt+1e6”，即以百万计的序列计数。

图3：图2中所示的相同样品的唯一精确序列的数量。纵坐标的坐标轴图例写作“Cnt+1e6”，即以百万计的序列计数。

图4：映射到21号染色体上的总唯一序列读长相对于已知健康个体(根据本发明的方法所选择的参照样品)的百分比，置信区间为1/100,000(z分数＝4.4)。中间的水平虚线相当于参照样品的平均百分比。虚线上面和下面的水平实线相当于鉴别阈值(平均值±4.4*SD)。有效鉴别出21三体样品。

图5：映射到18号染色体上的总唯一序列读长相对于已知健康个体(根据本发明的方法所选择的参照样品)的百分比，置信区间为1/100,000(z分数＝4.4)。中间的水平虚线相当于参照样品的平均百分比。虚线上面和下面的水平实线相当于鉴别阈值(中位值±4.4*SD)。有效鉴别出18三体样品。

图6：使用第二评分算法的1号染色体的分数。相对于已知健康个体(根据本发明的方法所选择的参照样品)，鉴别阈值相当于1/100,000,000,000置信区间。

图7：使用第二评分算法的19号染色体的分数。相对于已知健康个体(根据本发明的方法所选择的参照样品)，鉴别阈值相当于1/100,000,000,000置信区间。

图8：使用第二评分算法的13号染色体的分数。相对于已知健康个体(根据本发明的方法所选择的参照样品)，鉴别阈值相当于1/100,000,000,000置信区间。有效鉴别出13三体样品。

图9：使用第二评分算法的18号染色体的分数。相对于已知健康个体(根据本发明方法所选择的参照样品)，鉴别阈值相当于1/100,000,000,000置信区间。有效鉴别出18三体样品。

图10：使用第二评分算法的21号染色体的分数。相对于已知健康个体(根据本发明的方法所选择的参照样品)，鉴别阈值相当于1/100,000,000,000置信区间。有效鉴别出21三体样品。

图11：使用第二评分算法的22号染色体的分数。相对于已知健康个体(根据本发明的方法所选择的参照样品)，鉴别阈值相当于1/100,000,000,000置信区间。有效鉴别出22三体样品。

图12：使用第二评分算法的4号染色体的分数。相对于已知健康个体(根据本发明的方法所选择的参照样品)，鉴别阈值相当于1/100,000,000,000置信区间。未鉴别出4p微缺失(Wolf-Hirschhorn综合征)样品。

图13：使用第二评分算法的5号染色体的分数。相对于已知健康个体(根据本发明的方法所选择的参照样品)，鉴别阈值相当于1/100,000,000,000置信区间。有效鉴别出5p微缺失/复制(猫叫综合征)样品。

图14：4p微缺失综合征样品的4号染色体上的序列标签密度。4p缺失位点具有明显的相对于参照样品平均密度的负偏差。

图15：5p微缺失/复制综合征样品的5号染色体上的序列标签密度。5p缺失和复制位点分别具有明显的相对于参照样品平均密度的正偏差和负偏差。

图2至13中所示的数据都使用相同的91个样品的组而获得，并且以相同的顺序示于每幅图中。条状物(bar)的下面指示了每10个样品的ID。相应的条状物的里面或上面指示了特定样品(样品2、3、4、26、40、44、45、55、56、61、63、68、69、70、71、83、85、88、89、90、91)的染色体核型。这些染色体核型也列于表5中(文字与图中的一致)。

图16：大小选择：在使用AMPure磁珠对三个测试样品GWX-351、-352和-353的提取的游离DNA进行大小选择之前(图A，左侧)和之后(图B，右侧)的Bioanalyzer结果。113.00和43.00处的峰是大小标记物([s]表示以秒计的迁移时间，并可以直接翻译为碱基对)。在经大小选择的样品(图B)中，通过纯化处理去除>1000bp的大分子量峰，保留150-200bp的对应于胎儿游离DNA的较小分子量峰。

图17-38：使用本发明的大小选择步骤(TPR，y轴)和没有大小选择的相同步骤(GW，x轴)对所有常染色体的非整倍性检测测试的结果的比较。对于所有的常染色体，根据实施例3所述的方案评估了48个测试样品，并将其与六个参照样品A1、A2、N1、N2、B1、B2(进行和不进行大小选择)进行比较。通过大小选择进行的胎儿富集明显导致检测13、16、18和21三体的信号更强。

-图17：1号染色体

-图18：2号染色体

-图19：3号染色体

-图20：4号染色体

-图21：5号染色体

-图22：6号染色体

-图23：7号染色体

-图24：8号染色体

-图25：9号染色体

-图26：10号染色体

-图27：11号染色体

-图28：12号染色体

-图29：13号染色体

-图30：14号染色体

-图31：15号染色体

-图32：16号染色体

-图33：17号染色体

-图34：18号染色体

-图35：19号染色体

-图36：20号染色体

-图37：21号染色体

-图38：22号染色体

图39：所获得的与参照组A1相比的名为GWX-1137的整倍体样品的结果。在图39a至39d中，内部的细虚线代表概率阈值为1/1000，外部的粗虚线代表概率阈值为1/10000，即落在这些阈值之外的值是正常的机率分别小于1/1000或小于1/10000：

图39a：与衍生自参照组A1的每个样品的13号染色体的UEM的值(灰色点)相比的衍生自测试样品GWX-1137的13号染色体的UEM的值(被圈的黑点)，其包括经验证的T13非整倍体样品。所述测试样品在代表正常染色体核型的值的区间内。

图39b：与衍生自参照组A1的每个样品的16号染色体的UEM的值(灰色点)相比的衍生自测试样品GWX-1137的16号染色体的UEM的值(被圈的黑点)，其包括经验证的T16非整倍体样品。所述测试样品在代表正常染色体核型的值的区间内。

图39c：与衍生自参照组A1的每个样品的18号染色体的UEM的值(灰色点)相比的衍生自测试样品GWX-1137的18号染色体的UEM的值(被圈的黑点)，其包括经验证的T18非整倍体样品。所述测试样品在代表正常染色体核型的值的区间内。

图39d：与衍生自参照组A1的每个样品的21号染色体的UEM的值(灰色点)相比的衍生自测试样品GWX-1137的21号染色体的UEM的值(被圈的黑点)，其包括经验证的T21非整倍体样品。所述测试样品在代表正常染色体核型的值的区间内。

图40：所获得的与参照组N1相比的非整倍体样品的结果。在图40a至40d中，内部的细虚线代表概率阈值为1/1000，外部的粗虚线代表概率阈值为1/10000，即这些阈值之外的值是正常的机率分别小于1/1000或小于1/10000：

图40a：与衍生自参照组N1的每个样品的13号染色体的UEM的值(灰色点)相比的衍生自测试样品GWX-1196FDT8b的13号染色体的UEM的值(被圈的黑点)，其包括经验证的非整倍体T13样品。所述测试样品在代表正常染色体核型的值的区间外，且其为正常的机率小于1/10000，即偶然产生这样的异常结果的概率≤1·10^-5。怀疑是13三体。

图40b：与衍生自参照组N1的每个样品的16号染色体的UEM的值(灰色点)相比的衍生自测试样品GWX-1420FDT6b的16号染色体的UEM的值(被圈的黑点)，其包括经验证的非整倍体T16样品。所述测试样品在代表正常染色体核型的值的区间外，且其为正常的机率小于1/10000，即偶然产生这样的异常结果的概率≤1·10^-5。怀疑是16三体。

图40c：与衍生自参照组N1的每个样品的18号染色体的UEM的值(灰色点)相比的衍生自测试样品GWX-1421FDT5b的18号染色体的UEM的值(被圈的黑点)，其包括经验证的非整倍体T18样品。所述测试样品在代表正常染色体核型的值的区间外，且其为正常的机率小于1/10000，即偶然产生这样的异常结果的概率≤1·10^-5。怀疑是18三体。

图40d：与衍生自参照组N1的每个样品的21号染色体的UEM的值(灰色点)相比的衍生自测试样品GWX-1470FDT4b的21号染色体的UEM的值(被圈的黑点)，其包括经验证的非整倍体T21样品。所述测试样品在代表正常染色体核型的值的区间外，且其为正常的机率小于1/10000，即偶然产生这样的异常结果的概率≤1·10^-5。怀疑是21三体。

图41：如实施例5所述使用基于半导体的NGS平台进行大规模平行测序对三个三体样品进行本发明的非整倍性检测测试的结果。粗的黑色方块代表使用半导体技术得到的所讨论的样品属于六个不同的正常参照组的概率，其中所述六个参照组也使用与用于处理所述测试样品的相同的半导体技术和实验方案来产生。示出了对使用边合成边测序平台产生的相同的测试样品和仅仅四个参照组所得到的结果的比较(细的条状物)。

定义

本文使用的术语“新一代测序”(NGS)或“大规模平行测序”是同义词，并且是指其中几十万个测序过程平行进行的高通量测序方法。新一代测序法可用于在单次运行中获得数百万个序列。这些方法包括：单分子实时测序、离子半导体测序、焦磷酸测序、边合成边测序、边连接边测序。

本文使用的术语“游离DNA”是指在生物样品中(例如在血液中)自由循环的DNA分子或一组DNA分子。同义词是“循环DNA”。游离DNA是细胞外的，该术语与可存在于例如细胞核或线粒体中的细胞内DNA相对使用。

本文使用的术语非整倍性是指一条染色体的数量相对于二倍体基因组的数量的变异。所述变异可以是增加或减少。它可涉及整个染色体或其部分，例如仅仅一段染色体区域。非整倍性可包括单体性(缺少一条染色体)、部分单体性(一条染色体的一部分的易位或缺失)、三体性(增加一条额外的染色体)、部分三体性(一条染色体的一部分的增加和/或复制)。

本文使用整倍性意指与非整倍性相反，即整倍体样品是指二倍体基因组、染色体或染色体部分。例如，21号染色体的单个整倍体具有21号染色体的两个拷贝。

单体性或部分单体性的实例包括Wolf-Hirschhorn综合征、猫叫综合征、5q缺失综合征、Williams综合征、Jacobsen综合征、天使综合征、Prader-Willi综合征、Miller-Dieker综合征、Smith-Magenis综合征、18q缺失综合征、DiGeorge综合征。

三体性的实例包括1三体性、2三体性、3三体性、4三体性、5三体性、6三体性、7三体性、8三体性(Warkany综合征)、9三体性、10三体性、11三体性、12三体性、13三体性(帕陶氏综合征)、14三体性、15三体性、16三体性、17三体性、18三体性(爱德华氏综合征)、19三体性、20三体性、21三体性(唐氏综合征)、22三体性。

涉及一个或数个染色体区域的减少(缺失)的疾病的其他实例包括1p36缺失综合征、TAR缺失、1q21.1缺失、2q11.2缺失、2q11.2q13缺失、2q13缺失、2q37缺失、3q29缺失、Wolf-Hirschhorn缺失、Sotos综合征缺失、6q16缺失、Williams综合征缺失、WBS-末端缺失、8p23.1缺失、9q34缺失、10q23缺失、Potocki-Shaffer综合征、SHANK2FGFs缺失、12q14缺失综合征、13q12缺失、15q11.2缺失、Prader-Willi/天使综合征、15q13.3缺失、15q24BP0-BP1缺失、15q24BP0-BP1缺失、15q24BP2-BP3缺失、15q25.2缺失、Rubinstein-Taybi综合征、16p13.11缺失、16p11.2p12.1缺失、16p12.1缺失、16p11.2末端缺失、16p11.2缺失、17p13.3缺失、17p13.3缺失、HNPP、Smith-Magenis综合征缺失、NF1缺失综合征、RCAD(肾囊肿与糖尿病)、17q21.31缺失、DiGeorge/VCFS缺失、22q11.2末端缺失、Phelan-McDermid综合征。

涉及一个或数个染色体区域的增加(复制)的疾病的其他实例包括1p36复制、1q21.1复制、2q11.2复制、2q11.2q13复制、2q13复制、2q37复制、3q29复制、Wolf-Hirschhorn区域复制、5q35复制、6q16复制、Williams综合征复制、WBS末端复制、8p23.1复制、9q34复制、10q23复制、11p11.2复制、SHANK2FGFs复制、12q14复制、13q12复制、15q11.2复制、Prader-Willi/天使区域复制、15q13.3复制、15q24BP0-BP1复制、15q24BP2-BP3复制、15q25.2复制、Rubinstein-Taybi区域复制、16p13.11复制、16p11.2p12.1复制、16p12.1复制、16p11.2末端复制、16p11.2复制、17p13.3复制、17p13.3复制、17p13.3复制、CMT1A、Potocki-Lupski综合征、NF1复制、17q12复制、17q21.31复制、22q11.2复制、22q11.2末端复制、22q13复制。

关于这些疾病的参考文献以及涉及小于10Mb的染色体部分的拷贝数变异的非整倍性相关的基因组疾病的全面综述可参见Cooperetal.,2011，其通过引用的方式纳入本文。

本文使用的术语“整倍体样品”是指获自怀有整倍体胎儿的整倍体母亲的样品。术语“整倍体”可以相对的意义来使用，即涉及特定的目的染色体或染色体区域。或者，术语“整倍体”可以绝对的意义来使用，即涉及整个基因组。在这种情况下，整倍体样品在其整个基因组上不具有任何非整倍性。

本文使用的术语“非整倍体样品”是指获自怀有非整倍体胎儿的整倍体母亲的样品。与“整倍体”类似，术语“非整倍体”可参照特定的目的染色体或染色体区域来使用或参照整个染色体组来使用。

本文使用的术语“唯一精确序列”是指唯一映射到人类基因组上而没有任何错配的序列。换言之，所述序列已和人类基因组中的单个位置进行比对，并且与所述位置具有完全相同的序列，即相对于人类基因组中的所述位置处存在的序列没有任何缺失、添加或突变。所述唯一精确序列的长度通常为20至100bp，优选40至70bp，更优选50bp。本文使用的术语“唯一精确序列”(UES)与术语“唯一精确匹配”(UEM)是同义的。

如本文所使用的，例如在“母体生物样品”中的“母体样品”是获自孕妇的样品。

如本文所使用的，“生物样品”优选是指包含游离DNA的生物样品，更优选是指全血、血浆、血清、尿液或母乳样品。

具体实施方式

本发明的第一方面是指建立一组整倍体参照生物样品，或一组整倍体和非整倍体参照样品，其中仔细选择每个参照样品以增加胎儿非整倍性诊断方法的统计置信度。这个选择过程的工作流程包括如下若干重要的选择步骤：

-基于样品内DNA的大小分布的选择(步骤(ii)和(iii))；

-基于通过对样品进行预测序并将所得到的序列映射到人类基因组上而获得的唯一精确序列的数量的选择(步骤(iv)至(vi))；

-基于通过对样品进行测序并将得到的序列映射到人类基因组上而获得的唯一精确序列的数量的选择(步骤(vii)至(ix))；

本发明的方法可包括三个上述选择步骤中的任意一个。然而，在一个优选的实施方案中，进行所有三个选择步骤，从而增加了最终参照样品组的质量。

生物样品收集

本发明方法通常可在游离DNA、特别是胎儿和母体游离DNA可存在于其中的任何生物样品上进行。特别地，所述生物样品可以是体液，如血液、尿液、母乳。优选血液样品。本文提及的血液样品是指全血样品、血浆样品或血清样品。可在妊娠期的任何时间收集生物样品，但优选从妊娠7周起收集，例如在妊娠7周至20周之间，优选妊娠7周至14周，更优选妊娠7周至10周。在决定中断妊娠的情况下(例如，取决于国家法律，可能允许通过使用药物或药物的组合进行中断)，早在妊娠7周时进行的诊断具有使更多医疗选择保持开放的优点。

可在有创性产前方法(如绒膜绒毛取样、羊膜腔穿刺术或脐带血取样)后收集生物样品。可在所述有创性方法之后的任何时间收集样品，例如所述有创性方法后至少10min、20min或30min。也可在所述有创性方法的至少一天或更多天后收集生物样品，例如所述有创性方法的二至五天后。

或者，生物样品可收集自尚未经过有创性产前方法的妇女。这种情况对于待诊断的生物样品是优选的，因为该方法的优点就是避免任何有创性方法。

可不依赖于本发明的方法来诊断用于形成参照组的样品中的胎儿非整倍性状态。这可用于确定用于形成参照组样品的样品确实是整倍体样品，或换言之，是获自怀有整倍体胎儿的整倍体母亲的样品。用于获得参照组样品的整倍体样品优选是参照如上文所给出的术语的“绝对”定义的整倍体，即它们在整个基因组上是整倍体，而非仅对于特定的目的染色体。如上所述，根据本发明的一个优选的变体，用于建立参照样品的样品还可包括来自怀有非整倍体胎儿(例如具有21、18或13三体的胎儿)的整倍体母亲的样品。同样地，可不依赖于本发明的方法来诊断这种样品中的胎儿非整倍性状态。

评估胎儿非整倍性状态的方法可包括通过有创性产前诊断方法(如羊膜腔穿刺术、绒膜绒毛取样或脐带血取样)从母亲处收集胎儿细胞材料。然后，可通过下列技术中的任一种来评估胎儿的非整倍性状态：染色体核型分析、荧光原位杂交(FISH)、短串联重复序列的定量聚合酶链反应(PCR)、荧光定量PCR(QF-PCR)、定量实时PCR(RT-PCR)剂量分析、单核苷酸多态性的定量质谱分析以及比较基因组杂交(CGH)。

在大多数情况下，母亲的非整倍性状态是已知的，因为大多数非整倍性相关的疾病是有症状的。然而，如果需要的话，也可通过使用获自母亲的细胞材料来评估母亲的非整倍性状态。可使用上述的任意技术。

游离DNA的提取

本发明方法的重要参数是从母体生物样品中有效提取DNA。优选通过苯酚-氯仿提取方案进行游离DNA的提取。所述提取方案通常包括：

-将所述生物样品与包含氯仿和苯酚的组合物混合；

-从所述混合物中萃取水相；

-从所述水相中沉淀游离DNA；

-任选收集游离DNA。

本发明包括苯酚/氯仿用于从生物样品、优选从血液样品如血浆样品中提取游离DNA的用途。本方法对于从母体生物样品中提取混合的胎儿和母体游离DNA是特别可观的，因为它比现有方法产生更稳健的胎儿DNA信号。根据本发明，术语“苯酚/氯仿”是指苯酚和氯仿的混合物，即包含苯酚和氯仿的组合物。所述组合物优选是水溶液，并优选还包含异戊醇。所述组合物的pH优选为7至9，更优选7.8至8.2。一个优选的组合物是pH为7.8至8.2的苯酚:氯仿:异戊醇的25:24:1的混合物。所述组合物可包含一种或多种添加剂，如一种或多种抗氧化剂和/或稳定剂。

在一个具体的实施方案中，所述提取方法包括用一种或多种蛋白酶如蛋白酶K对生物样品进行预处理的步骤。

水相的萃取可包括将与氯仿和苯酚混合的生物样品离心，并收集水相。所述离心实现了将混合的生物样品分离成主要包含苯酚、蛋白质或蛋白质碎片的下层有机相和包含核酸的上层水相。

在一个实施方案中，从水相中沉淀游离DNA包括以下的步骤：

-将至少一种沉淀剂与水相混合；

-将所述混合的水相离心；以及

-收集离心沉淀物。

所述沉淀剂优选选自糖原、低级醇如异丙醇或乙醇或其混合物。随后，可将包含DNA的离心沉淀物例如用乙醇和/或乙醚洗涤一次或多次。最后，可将DNA重悬于悬浮缓冲液，例如Tris缓冲液中。

所述苯酚-氯仿提取方案比在使用大规模平行测序进行胎儿非整倍性检测的情况下传统使用的柱法产生的DNA量高5倍(Chiuetal.,2008、Fanetal.,2008)。其还产生了更高分数的大小为156-176bp的DNA，即母体和胎儿游离DNA。因此，这个方案是增加来自胎儿DNA的序列读长的数量的重要工具。

测序文库的制备

提取游离DNA之后，任选对含提取的DNA的样品进行处理以用于制备测序文库。这种处理可在提取游离DNA之后立即进行，或优选地，可在对所提取的游离DNA进行大小选择的步骤之后进行。

所述文库制备可包括一个或多个扩增步骤、与一个或多个测序接头连接、和/或条形编码DNA分子。测序文库制备的一般工作流程包括将任选和一个或多个条形码序列连接的一个或多个接头序列连接至样品内的DNA分子上的步骤，然后对经接头/条形码连接的DNA分子进行扩增。

测序接头是通常用于现代测序技术中的短核苷酸序列。所述接头用于将待测序的DNA分子锚定在(例如流动池中的)固体表面上。因此，设计这些接头以便和连接在所述固体表面上的靶寡核苷酸杂交。优选通过修复DNA分子末端来进行接头的连接，即将所提取的DNA分子的突出端去除或补平，例如通过一种或多种核酸外切酶和/或聚合酶的作用，从而产生平末端DNA分子。然后，可任选将一个或多个‘A’碱基的突出端加至所述平末端DNA分子的3’末端。然后加入在其3’末端包含一个或多个‘T’碱基的突出端的接头并将其连接至DNA分子3’末端的一个或多个‘A’碱基的突出端。也可将接头进行平端连接。

也可对样品内的DNA片段进行条形编码。条形编码是指将样品特异性的标签连接至样品的DNA分子。条形编码使得能够在单次测序运行中对若干样品进行测序，这节省了时间和资源。

还可对样品内的DNA片段进行一个或多个扩增循环，例如通过PCR。可运行10至25个扩增循环，例如18个扩增循环。优选在将接头序列连接至DNA分子之后进行扩增。PCR扩增优选使用针对所述接头序列的引物，从而将文库富集为经接头连接的片段。

游离DNA大小分布的分析和选择

在提取游离DNA之后，可分析每个样品内DNA分子的大小分布。优选通过毛细管电泳进行所述分析。例如通过使用商业的lab-on-a-chip毛细管电泳系统进行。可以在制备测序文库之前或之后进行大小分布分析。然而，优选在制备测序文库之前进行。

本发明人已证实：对于总量相等的输入DNA，在NGS之后总原始读长的数量发生意想不到的变化。原始提取物的毛细管电泳显示对此的一个可能的解释可以是高分子量(MW)DNA种类(>1000bp)——其降低了包含可用于NGS的目的胎儿DNA的小MW部分的相对量——的存在。在游离DNA提取之后和在文库制备之前立即进行的去除高分子量种类的实验已经证实小MW种类(<200bp，特别是150-200bp)的大小选择和高MW种类的排除大大消除了NGS之后获得的原始读长的数量的可变性(见图16)。除了其由仅仅对经大小选择的分子进行处理用于测序文库制备并进行大规模测序这样的事实所产生的经济利益，该技术步骤还提高了实验的稳健性和分辨率。具体地，该大小选择的步骤增加胎儿分数，即游离循环胎儿DNA占循环游离DNA总量的比例，使得在低胎儿分数的情况下它的使用对实验的稳健性至关重要。文库制备之前的大小选择所带来的胎儿分数的增加具有降低可靠地检测三体性所需的读长的数量的作用。

可通过本领域已知的任何技术进行去除大小大于200bp的游离DNA分子的步骤。特别优选使用磁珠，例如如下文实施例中所述的AMPure珠。也可以使用凝胶电泳。本发明人已经证明不论用于大规模平行测序步骤的具体技术是什么，都能获得本发明的大小选择的有益效果。例如，使用边合成边测序法以及基于半导体的新一代测序技术都能获得。还已经证明：虽然测试样品和参照组使用相同的大规模平行测序平台是最佳的，但是当将不同的平台施用于样品和参照组时也能获得可靠的结果。

此外，通过分析一组整倍体样品中的DNA分子的大小分布，本申请的发明人已发现：用于制备测序文库而处理的游离DNA——即，经接头连接的游离DNA——的大小分布在约298bp处具有大小顶峰(图1)。在减去132bp的接头/条形码序列大小之后，峰值大小相当于166bp。该值与之前由Fanetal.,2008提供的数据一致并与游离DNA主要来自单核小体的假设一致。

根据本发明，样品内DNA的大小分布可在构建用于诊断胎儿非整倍体的合适的参照样品组的过程中用作标准。该标准使得能够选择具有高水平游离DNA的样品并去除具有低水平游离DNA的样品。

选择标准可在于在约166bp处大小顶峰的出现。本文使用的术语“约166bp”可具有下列含义：“151至181bp”或“156至176bp”或“161至171bp”或“163至169bp”或“165至167bp”。或者，该术语的含义可以是“恰恰在166bp处”。

用于选择合适的参照样品的另一标准可能在于在约166bp处的顶峰的高度，或换句话说，大小为约166bp的DNA分子的分数。因此，在一个具体的实施方案中，步骤(iii)包括选择这样的样品：其中样品内至少80wt％，更优选至少90wt％，优选至少95wt％，更优选至少97wt％的DNA分子的大小为约166bp，优选156至176bp。

可选地或另外地，步骤(iii)包括选择这样的样品：其中大小为约166bp(优选156至176bp)的DNA分子的浓度为至少0.88ng/μl，优选至少0.90ng/μl，更优选至少0.95ng/μl或至少1.00ng/μl或至少1.05ng/μl或至少1.10ng/μl。

可选地或另外地，步骤(iii)包括选择这样的样品：其中大小为约166bp(优选156至176bp)的DNA分子的量为至少13ng，优选至少13.5ng，更优选至少14.25ng或至少15ng或至少15.75ng或至少16.5ng。

优选地，在步骤(iii)所选择的样品组中的大小为约166bp(优选156至176bp)的提取的DNA分子的平均浓度为至少0.88ng/μl，优选至少0.90ng/μl，更优选至少0.95ng/μl或至少1.00ng/μl或至少1.05ng/μl或至少1.10ng/μl。

优选地，在步骤(iii)所选择的样品组中的大小为约166bp(优选156至176bp)的DNA分子的平均量为至少13ng，优选至少13.5ng，更优选至少14.25ng或至少15ng或至少15.75ng或至少为16.5ng。

可以为测序步骤制备的DNA文库来测量浓度和/或量，例如可以经接头/条形码连接的DNA分子(例如以与132bp的接头/条形码连接的DNA分子)来测量。优选地，在连接接头/条形码之后，所述DNA分子已经进行了18个扩增循环。更优选地，以通过使用20ngDNA作为输入材料使用lllumina'sChIP测序方案制备的DNA文库来测量浓度和/或量。也可以在制备DNA文库之前测量浓度和/或量。

有趣的是，本申请的发明人还发现：母体血浆样品中的DNA分子在约133至143bp处存在较小的大小肩峰(图1，右图)。这个肩峰很可能反映的是胎儿DNA，并可被用作选择具有富集的胎儿DNA分数的样品的额外或可选的质量控制标准。因此，步骤(iii)还可包括选择其DNA大小分布在133和143bp之间显示出顶峰或肩峰的样品。

上文所示的大小值(166bp处的峰值和相关值)相当于未经接头或条形码连接的DNA分子，即母体血液中存在的DNA分子。如果需要的话，可对这些值进行调整以考虑接头、条形码的存在，或在DNA分子的一个或两个末端的任何序列标签的存在。

如本文所使用的，峰值是指表示样品内DNA分子的大小分布的曲线中的局部最大值。肩峰是指这条曲线中的拐点。

预测序

根据本发明，预测序是指可以任选在大规模新一代测序之前进行的小规模测序。因此，与现有技术的方法相反，本发明的这种变体的特征在于对参照组的每个样品先后进行两个测序步骤。因此，“预测序”也可称为“第一测序”。类似地，“大规模平行测序”可称为“第二测序”。

本发明人假定小序列文库内唯一精确序列的比例将代表通过新一代测序获得的全规模文库中唯一精确序列的比例。因此，通过在早期阶段进行DNA样品的小规模测序，可在早期去除唯一精确序列数不足的样品。这个预测序步骤比随后进行的大规模平行测序所消耗的时间和成本都要小得多。因此，本发明使得能够节约时间和资源，同时去除质量不足的样品，由此产生质量提高的参照组。

优选地，所述预测序步骤包括对每个样品的1000至100,000个序列，更优选每个样品的5000至50000个序列进行测序。

每个序列读长的大小优选为20至100bp，更优选40至70bp，例如50bp。这些大小，特别是50bp，是过短读长(其更可能映射到人类基因组中的一个以上的位置上)和过长读长(其提高序列内具有SNP的机率)之间的良好的折衷。

如果如上所述的大小选择步骤在游离DNA提取之后和文库制备之前进行，则预测序步骤通常不是必须的。

序列映射

可使用任何标准比对软件进行序列在人类基因组上的比对，例如如Chiuetal.,2008或Fanetal.,2008中所述。用于所述映射的人类基因组序列优选是参照序列，如由NBCI(http://www.ncbi.nlm.nih.gov/assembly/2758/)或UCSC(http://hgdownload.cse.ucsc.edU/downloads.html#human)建立的序列。所述参照序列优选是February2009(hg19，GRCh37)，也称为hg19。

如果本发明的方法包括两个测序步骤(作为任选的变体)，其也包括两个映射步骤：映射在预测序步骤获得的序列和映射在大规模平行测序步骤获得的序列。优选以相同的方式进行所述两个映射步骤，即通过使用相同的人类基因组序列和/或相同的比对软件。

两个映射步骤都可在人类基因组的整个序列上，例如在整个hg19参照序列上进行。

或者，可以仅在人类基因组的部分上进行比对，或换言之在人类基因组的部分序列上进行。一般而言，通过遮蔽(mask)人类基因组的预定义区域来获得分数计算中使用的人类基因组的部分序列。可基于许多不同的参数选择待遮蔽的区域，包括：测序质量较低的区域(这些区域也称为“未良好注释的区域”)；区域内大量重复的出现；人类基因组内的区域复制；结构复杂的区域。因此，优选在人类基因组的未良好注释的区域、人类基因组的高度拷贝重复区域、人类基因组的复制区域或结构复杂的区域中选择所遮蔽的区域。

测序质量较低的区域或“未良好注释的”区域是例如结构框架(scaffold)N50小于46,395,641和/或重叠群(contig)N50小于38,508,932、和/或总组件缺口长度大于239,845,127/3,137,144,693，和/或基因组覆盖率至少90％，优选至少95％的区域(Yandelletal.,2012)。未良好注释的区域的实例是亚端粒区和中心体周围(pericentromeric)区。

基因组组件由结构框架和重叠群组成。重叠群是衍生自重叠读长的集合的连续共有序列。结构框架是通过测序读长的配对而彼此连接的有序和定向的重叠群组。通过首先将每个重叠群按长度从最长至最短进行排序来计算重叠群N50。然后，从最长的重叠群开始，将每个重叠群的长度相加，直到该运行总和等于所述组件中所有重叠群总长度的一半。所述组件的重叠群N50是此列中最短的重叠群的长度。以同样的方式计算结构框架N50，但是使用结构框架而非重叠群。仅包含单个读长或读长对的结构框架和重叠群——通常叫做‘单一模式(singleton)’——可被排除在这些计算之外，短于～800bp的重叠群和结构框架可能是这样。

基因组覆盖率是指基于大小估算的包含在所述组件中的基因组的百分比；这些通常基于细胞学技术。结构复杂的区域是例如高度变异区域，例如具有大量CNV(拷贝数变异)和/或SNV(单核苷酸变异)的区域(Frazeretal.,2009)。例如估计5％的人类基因组是拷贝数可变的。

预测序后基于唯一精确序列的数量的质量控制

本发明方法的任选步骤(vi)在于基于所得到的所述样品的唯一精确序列数来选择一组样品。因此，步骤(vi)可在于选择其唯一精确序列多于最小量的样品，或换言之，去除其唯一精确序列少于最小量的样品。

本文使用的术语“数量”可以指唯一精确序列的绝对数量或比率。可相对于在预测序步骤得到的序列读长的总数计算所述比率。然而，优选相对于过滤后读长的数量计算所述比率。

过滤可在于去除至少部分映射到接头序列上的序列。过滤后读长的数量是序列读长的总数减去至少部分映射到接头序列上的序列读长的数量。

在一个优选的实施方案中，步骤(v)包括选择这样的样品——其具有相对于所述样品在预测序步骤得到的序列读长的总数的至少70％的唯一精确序列，优选至少72％的唯一精确序列，更优选至少75％或更优选至少77％或更优选至少80％的唯一精确序列。

如果在游离DNA提取之后和文库制备之前进行如上所述的大小选择步骤，则在预测序之后，基于所得到的所述样品的唯一精确序列的数量选择一组样品的步骤通常不是必须的。

大规模平行测序

在本发明中可使用多种大规模平行测序技术和平台。

例如所述大规模平行测序平台可在于“边合成边测序”系统，例如lllumina’sHiSeq2000平台。该平台使用可逆的基于终止剂的方法，该方法在单个碱基掺入到生长中的DNA链时对其进行检测。“边合成边测序”系统中的测序工作流程可总结在如下的3个阶段中：

-首先，制备DNA文库：已经描述过这个步骤，并且如上所述，可在选择合适的整倍体参照样品的整个过程或诊断过程的早期阶段进行。例如，在DNA提取之后立即进行，或在对所提取的游离DNA进行大小选择之后立即进行。在这一阶段中，将DNA分子的两个末端都与接头连接。此外，它们包含用于通过PCR扩增文库并对其测序的引物位点。

-第二，产生簇：在这一阶段中，将DNA分子与连接在流动池内固体表面上的寡核苷酸探针杂交。通过固相桥式扩增对各DNA分子进行扩增，形成具有相同序列的分子簇。

-第三，“边合成边测序”阶段。将四种核苷酸——每种都包含荧光标记的终止剂——的混合物引入流动池。当每个dNTP掺入到生长中的DNA链时，对荧光标记的终止剂进行成像，然后将其裂解以允许掺入下一个碱基。由于每个测序循环中都存在所有四种可逆的结合有终止剂的dNTP，自然竞争使掺入偏差最小化。直接从每个循环中的强度信号测量结果进行碱基识别。

或者，所述大规模平行测序平台可在于例如基于半导体的新一代测序技术。

在一个具体的实施方案中，所述大规模平行测序步骤在于对每个样品的至少1千万，优选至少2千万，更优选至少3千万个序列进行测序。

可选地或另外地，在所述映射步骤(例如步骤(viii))中获得每个样品的至少6百万，优选至少8百万，更优选至少1千万，或至少1200万或至少1400万或至少1500万个唯一精确序列。可选地或另外地，在所述映射步骤(例如步骤(viii))中获得每个样品的至少1200万，优选至少1500万，更优选至少2000万个唯一精确序列的平均数。

在大规模平行测序步骤中获得的序列总数和/或唯一精确序列数也可在选择形成参照样品组的样品的过程中用作质量控制标准。

在一个具体的实施方案中，用于获得本发明的一组整倍体参照样品或一组整倍体和非整倍体参照样品的方法，包括选择其每个样品的序列总数为至少1000万，优选至少2000万，更优选至少3000万个的样品。

可选地或另外地，用于获得本发明的一组整倍体参照样品或一组整倍体和非整倍体参照样品的方法，包括选择具有至少600万，优选至少800万，更优选至少1000万或至少1200万或至少1400万或至少1500万个唯一精确序列的样品。特别优选整倍体和非整倍体参照样品中的1000万至1250万个唯一精确序列。

可选地或另外地，所述参照样品组具有在大规模平行测序步骤中获得的至少2000万，优选至少2500万，更优选至少2700万的平均序列总数。术语“序列总数”可以指在测序步骤获得的未过滤的读长的总数，或在测序平台包括过滤的情况下过滤后读长的总数。在这种情况下，术语“序列总数”优选是指过滤后读长的总数。

可选地或另外地，所述参照样品组的唯一精确序列平均数为至少1200万，优选至少1500万，更优选至少2000万。

诊断方法

本发明的第二主要方面在于从母体生物样品诊断胎儿非整倍性的方法，其特征在于将待诊断的样品与用如上文所述的获得一组参照样品的方法所获得的参照组样品进行比较。

本方法的工作流程可简要概括如下：

-从生物样品中提取游离DNA；

-对所提取的DNA分子进行NGS(大规模平行)测序；

-将序列映射到人类基因组上；

-计算所述样品的目的染色体或染色体区域的分数；

-将所述分数与所获得的参照样品组的相同染色体或染色体区域的分数组进行比较；

-基于所述比较结果，诊断是或不是胎儿染色体非整倍性。

因此，相比于上述用于获得一组参照样品的方法的实施方案，所述诊断方法的工作流程不一定包括步骤(ii)、(iii)、(iv)、(v)和(vi)，即基于大小分布的选择和基于预测序结果的选择。当然，这不意指不能对待诊断的样品进行大小分布分析/选择或预测序。实际上特别优选的是，在从测试样品中提取游离DNA之后和在大规模平行测序之前，更特别是在文库制备之前进行去除大小大于200bp的DNA分子的大小选择步骤。

一般而言，上述涉及选择一组参照样品的方法中的具体步骤的特征和实施方案也适用于诊断胎儿非整倍性的方法中的相应步骤。

评分算法

所计算的给定的染色体或染色体区域的分数是指示给定的样品的映射到所述染色体或染色体区域的唯一精确序列(UES或UEM)的计数的参数。可在整个人类基因组序列上，或在人类基因组的部分序列上、或换言之其某些区域已经被遮蔽的序列上计算分数。

仅在人类基因组的经仔细选择的部分上计算分数是提高诊断方法的统计学置信度的方式。一般而言，通过遮蔽人类基因组的预定义区域来获得分数计算中使用的人类基因组的部分序列。可将很多参数考虑用于确定待遮蔽的区域，包括测序质量较低的区域(换言之，也定义为未良好注释的区域)、区域内大量重复的出现、人类基因组内的区域复制、结构复杂的区域。因此，优选在人类基因组的未良好注释的区域、人类基因组的高度拷贝重复区域、人类基因组的复制区域或结构复杂的区域中选择所遮蔽的区域。

可通过将每条染色体分割为预定义的长度的区段(例如50kb的区段)来计算每条染色体的分数。所述分割可在如上所述的整个人类基因组序列上或在部分人类基因组序列上，即在其某些区域已经被遮蔽的人类基因组序列上进行。

然后对映射到给定的区段上的唯一精确序列(UES)数进行计数，从而产生每个区段的UES计数。

在一个具体的实施方案中，对每个区段的UES计数进行偏差校正，即进行校正以考虑与测序过程相关的偏差。已知的偏差由整个基因组上GC分布的变化引起。如Fanetal.,2010所指出的，序列标签在整个基因组上的分布是不均匀的。事实上，在染色体区域的GC含量和映射到所述区域上的序列数之间存在正相关，这解释了为什么来自富含GC的区域的序列比来自GC含量低的区域的序列在序列文库中呈现的更多。该偏差可通过加权每个区段的UES的计数来补偿，例如使用与所述区段中的GC含量成反比的权重。

然后计算目的染色体或染色体区域上所有区段的中位UES计数值。该值代表整个染色体或染色体区域的UES的计数，并被称为染色体或染色体区域的序列标签密度。如上所示，可通过使用未加权的UES计数或通过用偏差校正因子加权每个UES计数来计算该中位值。在另一个实施方案中，选择除了中位值的其他值用于代表整个染色体的UES计数：例如染色体内所有区段的UES计数的总和。

最后，可将目的染色体或染色体区域的序列标签密度标准化为所有染色体的中位序列标签密度。或者，可将其标准化为所有常染色体的中位序列标签密度。还或者，可将其标准化为预定义的染色体组的中位序列标签密度。本文使用的“染色体组”是指选自1号染色体至22号染色体及X和Y染色体的染色体的任意组合。还或者，可将其标准化为预定义的染色体区域组的中位序列标签密度。还或者，可将其标准化为所有染色体、或所有常染色体、或预定义的染色体组、或预定义的染色体区域组的序列标签密度的总和。

染色体或染色体区域的标准化的序列标签密度可用作指示给定的样品的映射到目的染色体或染色体区域上的唯一精确序列的数量的参数。但是该参数可以用如下的其他值来表示：

-目的染色体或染色体区域的序列标签密度；

-映射到所述目的染色体或染色体区域上的UES的数量；

-由所述样品的UES总数标准化的映射到所述目的染色体或染色体区域上的UES的数量；

-由映射到预定义的染色体组或染色体区域组的UES总数标准化的映射到所述目的染色体或染色体区域上的UES的数量。

如图6至13中所示，其他评分算法可用于区别整倍体样品和非整倍体样品，从而产生指示映射到目的染色体或染色体区域上的唯一精确序列的数量的其他参数。

优选地，所述目的染色体是21号染色体和/或所述胎儿非整倍性是21三体。或者，所述目的染色体是18号染色体和/或所述胎儿非整倍性是18三体。或者，所述目的染色体是13号染色体和/或所述胎儿非整倍性是13三体。或者，所述目的染色体是22号染色体和/或所述胎儿非整倍性是22三体。或者，所述目的染色体是4号染色体和/或胎儿非整倍性是Wolf-Hirschhorn综合征。

或者，所述目的染色体区域是包含Wolf-Hirschhorn综合征中的缺失区域的4号染色体的部分。或者，所述目的染色体是5号染色体和/或所述胎儿非整倍性是猫叫综合征。或者，所述目的染色体区域是包含猫叫综合征中的缺失和/或复制区域的5号染色体的部分和/或所述胎儿非整倍性是猫叫综合征。或者，所述目的染色体是19号染色体。或者，所述目的染色体是1号染色体。还可选择上述染色体或染色体区域的任意组合作为具体的实施方案。

更优选地，所述目的染色体是21号染色体、18号染色体或13号染色体，更优选地，所述目的染色体是21号染色体或18号染色体。

测试样品与参照样品组的比较

不论选择什么测试参数指示测试样品的映射到目的染色体或染色体区域上的唯一精确序列的数量，计算参照组样品中每个样品的相同的参数，从而得到参照参数组(“相同参数”意指通过使用与用于测试样品的相同的方法计算所述参数，但是将其应用于在参照样品中获得的测序数据，而不是在测试样品中获得的那些)。

然后，将所获得的测试样品的测试参数与所获得的参照样品的参照参数组进行比较。

在第一方法中，可根据下式，通过计算测试样品的z分数进行所述比较：

Z分数＝(P_测试-平均(P_参照))/(SD(P_参照))

其中

-P_测试是从测试样品中计算得到的指示映射到目的染色体或染色体区域上的唯一精确序列的数量的测试参数。

-平均(P_参照)和SD(P_参照)分别是从参照样品组中计算得到的指示映射到目的染色体或染色体区域上的唯一精确序列的数量的参照参数组的平均值和标准偏差。

优选地，目的染色体或染色体区域的非整倍体样品的z分数的绝对值大于4，更优选大于4.4。

优选地，目的染色体或染色体区域的整倍体样品的z分数的绝对值小于4.4，更优选小于4。

优选地，参照组样品中的每个样品的z分数的绝对值小于4.4，更优选小于4。

如图4和5所示，通过使用本发明的方法选择合适的参照样品组，使得能够将21三体和18三体样品与整倍体样品区别开，用z分数4.4作为临界值。该z分数相当于偶然产生错误结果的≤1.1·10^-5的先验概率，其远低于现有技术中的相关数据。

在第二方法中，可使用基于概率的计算进行所述比较，优选使用同时包括整倍体和非整倍体(三倍体)样品的参照组。根据该方法，所述过程同样包括两个步骤。第一步包括将获自测试样品的序列在参照人类基因组上比对，第二步包括将所获得的测试样品的每条染色体的结果与所获得的参照组样品的相应染色体的结果进行比较：

-将获自具有经验证的三体的一组样品中的给定染色体的UES计数的值连同获自一组正常参照样品的相同的给定染色体的UES计数的值表示在图中；

-使用正常的参照组样品确定值的区间，就概率而言，应该只有千分之一的正常样品超过该区间。将该区间在图上示出。因此，每条染色体建立了一副“参照图”；

-然后，将获自测试样品的给定染色体的UES计数的值也标示在相应的充当临床评估基准的参照图上。一直将多个参照组(例如至少四个及优选六个参照组(例如图17至38所示的参照组N1、N2、B1、B2、A1和A2)——其每组包含至少50及优选至少75个参照样品)用于建立诊断，由此提供了对所述诊断的确认。

实施例

实施例1

从母体血液中提取DNA以及质量控制实验

在等待当地伦理委员会批准的前瞻性临床研究的情况下，收集了100名孕妇的血液样品。所述母亲的孕龄是14.63±4.00周。

有创性产前诊断30分钟后收集两支7.5ml管(BDVacutainer采血管，BecktonDickinson，NJUSA07417或BCT-管，Streck，Inc.，Omaha，NE68128)。血浆根据所述纯化(Chiuetal2008；Fanetal2008)，并立即冷冻于-20℃。将2ml血浆等份试样用于使用如下的nucleospin血浆试剂盒(MacherelyNagel，根据如下所述的制造商的说明书)或使用如下的苯酚-氯仿法提取游离DNA：

nucleospin血浆试剂盒(根据制造商的说明书)

将20μl蛋白酶K加入到2ml血浆等份试样中，并将混合物在37℃下加热10分钟(不搅拌)。将所述血浆-蛋白酶K混合物转移至5ml管中，然后加入缓冲液BB(1.5×的血浆体积)，将管翻转混合3次并涡旋振荡3秒。将混合物上样于几个柱子上(600μl/柱)并以2000g(320rpm)离心30秒，然后以11000g(9600rpm)离心5秒。然后第一次用500μl缓冲液WB对柱子进行洗涤并以11000g(9600rpm)离心30秒，第二次用250μl缓冲液WB洗涤并以11000g(9600rpm)离心3分钟。最后，将20μl洗脱缓冲液加入柱中，然后将其以11000g(9600rpm)离心30秒。将所得的DNA提取物在单个的2ml管中混合。

苯酚-氯仿法

加入200μl10％SDS、40μl0.5MEDTA和25μl蛋白酶K，并将样品在58℃下孵育2小时。加入2mLRT平衡的生物苯酚，并搅拌样品，将其以4000rpm离心10分钟。将水相(1800ml)转移到新的5mL管中，用20μl糖原/GlycoBlue、1/9体积的3MNaAc和0.7体积的冰冷的异丙醇沉淀DNA。在剧烈涡旋振荡后，转移2ml到新管中并在微量离心机中以最大速度离心10分钟。缓慢倒出上清液，加入剩余体积，并将管在相同条件下离心。将DNA沉淀物首先用600μl70％的乙醇洗涤，然后用600μl乙醚洗涤，并悬浮在20μl0.5mMTrispH8.2中。

用PicoGreen测量DNA浓度，并在对应于男性胎儿的样品上进行THO1和SRY的qPCR测定。这些测定的原理是为了对如下进行定量：

-男性DNA，即胎儿DNA，通过扩增存在于人类Y染色体上的SRY基因的137bp序列；

-总人类DNA，即胎儿+母体DNA，通过扩增存在于人类11号染色体上的包含THO1STR(短串联重复)的162bp序列。

将小鼠基因GALT用作内部对照。简单地说，为每个样品制备主混合物(mastermix)，其包含12.5μlAbsoluteQPCRMix(AB-1133/A，ABGene)、2.5μl引物/探针混合物SRY/TH01/GALT和0.4μl5U/μl的AmpliTagGold(N8080249，AppliedBiosystems)。制备25μlPCR混合物，各包含：5μl溶于水的待扩增的DNA样品、5μl10拷贝/μl的StdGalt(GALT的标准序列)、15μl主混合物。

每个系列都包括标准品(10μl标准品、200个细胞/10μl)。在RotorGeneqPCR仪器(Qiagen)上运行50个RT-PCR循环(95℃/15”；60℃/60”)，在通道SRY(绿色)、THO1(黄色)、GALT(红色)上于60℃下收集。

表1示出了使用两种方法——基于柱和基于苯酚的方法——平行提取的来自怀有男性胎儿的孕妇的九个血浆样品的比较结果。可以看出，基于苯酚的提取的产量明显更高(p＝2.2·10^-5)，并且基于苯酚的方法产生约五倍多的DNA，最重要的是产生更一致且更稳健的SRY(即胎儿DNA)的信号(p<0.05)。在表1中，以“细胞/μl”计的值是参照所述标准品进行计算的，并且是指基于6pg基因组DNA/细胞的假设，就细胞数量而言的基因组DNA量的等价物。

实施例2

基于染色质-免疫沉淀(ChIP)的鸟枪法测序NGS方案

方法

根据说明书进行ChIP测序方案(lllumina)。将20ng游离DNA用于文库构建。将相当于总文库体积的1/15的1μl的各文库在2100Bioanalyzer(Agilent)上运行用于分析大小分布和测定峰浓度。将每五个文库在MiSeq(lllumina)上进行预测序。根据说明书(lllumina)使用TruSeqSBSv3试剂盒，将文库以50bp的单个读长和50+7个循环在HiSeq2000(lllumina)上进行测序，从而得到30·10⁶个读长/样品。

如上所述，对50个样品平行进行两种提取方案(柱提取和苯酚/氯仿提取)。剩余的样品仅通过苯酚/氯仿法提取。

结果

对游离DNA的大小测定表明：在减去接头/条形码序列大小之后，峰值大小几乎完全在所预测的166bp的大小以内(图1；Loetal,2010)。所分析的所有91个样品的峰值大小分布是均匀的，仅有1-2bp的变化。在右侧图中可见的较小大小的肩峰很可能反映的是峰值大小为133-143bp的胎儿DNA。

苯酚/氯仿提取方案产生了更高浓度的大小在166bp峰值附近的DNA分子，柱文库和苯酚/氯仿文库之间具有统计学上显著性差异(p<10^-25；表2，显示了大小范围为156bp至176bp的DNA分子的部分的浓度，每种提取方法测量50个文库)。

30个预测序文库(表3)和91个样品的最终输出序列(表4和图2)的唯一精确序列在过滤后读长的75-80％之间。

总之，UES的中位数多于2000万，这比在所公布的非整倍性测试中用作基准的各自数量多出四倍以上(Fanetal.,2008、Chiuetal.,2008、Stummetal.,2012)。

将每条染色体分割为50kb区段，对于每个区段，计数映射到所述区段上的UES的数量。计算每条染色体的每个区段的UES计数的中位值，从而得到所有常染色体的序列标签密度。

将21号染色体的序列标签密度标准化为所有常染色体的序列标签密度的中位值，从而得到21号染色体的标准化的序列标签密度，如图4中所有91个整倍体和非整倍体样品所示。该值指示由21号染色体产生的胎儿和母体DNA片段的分数。

将具有正常染色体核型的样品用于构建提供基准以标准化单个染色体计数的参照组。使用这样的参照组，本发明的诊断方法能够使用4.4的z分数完美地区分21三体病例和非21三体病例(图3)。

以类似的方式，将18号染色体的序列标签密度标准化为所有常染色体的序列标签密度的中位值，从而得到标准化的序列标签密度，如图5中本研究所分析的所有91个整倍体和非整倍体样品所示。

从图5中可清楚地看出，使用相同的66个整倍体样品的参照组，本发明的诊断方法也能够使用4.4的z分数区分18三体病例和非18三体病例。

总之，本发明的方法使得能够进行比第一代实验(Chiuetal2008、Fanetal2008、Stummetal2012)高出约两个数量级的更严格的区分，其偶然产生错误结果的先验概率≤1.1·10^-5。

最后，将另一种算法用于处理获自91个样品的数据。结果示于表6至13。通过使用该第二种算法和根据本发明方法选择的一组参照样品，所述诊断方法使得能够将21三体样品、13三体样品、18三体样品、22三体样品、4p微缺失样品、5p微缺失-复制样品与整倍体样品区别开，其偶然产生错误结果的先验概率≤1.1·10^-11。

实施例3：游离DNA的大小选择

先前的研究已表明存在于血液中的游离胎儿DNA小于200bp，平均在150bp左右。

从确定量的血液中提取的DNA的量可以是可变的，从几纳克到微克以上(平均在10-50ng/2mL血浆之间)。对DNA的分析已表明该变化主要由存在或不存在来自母体的很可能是细胞裂解产物的大DNA片段(≥1kb)而引起。

本发明人设计了方案以从所提取的游离DNA样品中去除大DNA片段，从而“富集”包含胎儿DNA的小DNA片段(小于或等于200bp)，由此提高无创性产前诊断测试的质量。在任何进一步处理(如制备测序文库)之前，对粗制的DNA提取物进行大小选择的步骤。

将磁珠(BeckmanCoulter)用于大小选择。根据该技术，DNA片段结合到磁珠上，然后通过应用磁场从污染物中分离。将所结合的DNA用乙醇洗涤然后将其从磁颗粒上洗脱下来。

实验与结果

通过BioanalyzerHighSensitivity分析若干粗提取的游离DNA样品以检测它们的大小分布。三种粗制的DNA提取物(名为GWX-351、GWX-352和GWX-353)的DNA大小分布的实例示于图16A中(左侧图)。

对于纯化(大小选择)，从样品GWX-351、-352和-353中制备20μl的DNA溶液(10ng)。加入10μlAMPure珠，将样品在室温下孵育几分钟。然后在磁力架上将小珠从混合物中分离出来，并将上清液转移到新管中。

对小珠进行进一步的分离循环。在最后一轮纯化之后，将小珠用200μl新鲜的80％的乙醇洗涤两次，而不重悬小珠。然后将小珠干燥10分钟，并重悬于10μlEB缓冲液。

图16B(右侧图)示出了在用AMPure珠连续循环纯化之后，通过Bioanalyzer对样品GWX-351、-352和-353进行分析所得到的结果。通过纯化过程去除大分子量的峰，保留150-200bp的较低分子量的峰。获得了与其他样品的对比结果。所述结果证明使用小珠可除去高分子量部分，产生大小约为200bp和更小的部分。

实施例4：经大小选择的游离DNA样品的非整倍性检测(1)

a)DNA提取

从48名孕妇处收集血液样品并如实施例1所述使用苯酚-氯仿法提取游离DNA。

b)富集大小小于200bp的游离DNA片段：大小选择

如实施例3所述将经血液提取的游离DNA在磁珠(AMPureBeckmanCoulter)上进行连续的大小选择步骤。部分样品不进行大小选择步骤以使得能够比较有和没有大小选择的非整倍性检测实验的灵敏度。

c)文库制备(用于通过边合成边测序技术进行的大规模平行测序)

i)末端修复

这个步骤使用末端修复混合物将由dsDNA的片段化所产生的突出端转变为平末端。此混合物的3’至5’核酸外切酶活性去除3’突出端，并且聚合酶活性补平5’突出端。

将20μl末端修复混合物(ERP)加入到含样品DNA的板的各孔中，将混合物充分混合并短暂离心。然后按照制造商的说明书将板在热循环仪上孵育。

将样品从热循环仪中移出并进行纯化步骤。

ii)添加腺苷酸3’末端

将单个‘A’核苷酸加至平端dsDNA片段的3’末端，以防止其在接头连接反应中彼此连接，并为随后将接头连接至片段提供互补的突出端，所述接头在其3’末端具有相应的单个‘T’核苷酸。该策略确保了低比率的嵌合体(拼接的模板)形成。

将12.5μLA加尾混合物(ATL)加入到含平端DNA片段的板的各孔中。混合并短暂离心之后，按照制造商的说明书将板在热循环仪上孵育。

iii)连接接头

在添加腺苷酸3’末端之后，立即将成对的末端接头(如由lllumina商业化的那些)——其允许PCR扩增——连接至dsDNA的末端。

将5μl接头预混合物加入到A加尾板的各孔中，然后加入2.5μl连接混合物。将板短暂离心并根据制造商的说明书在热循环仪上孵育。然后将5μl终止连接缓冲液加至各孔中以使连接终止。然后进行纯化步骤。

iv)富集DNA片段

本过程的这个步骤使用PCR以选择性地富集那些在两个末端都有接头分子的DNA片段，同时将特异性的VINCI索引(index)加至各样品并完成接头序列以允许随后在流动池上进行杂交。没有接头的片段不能与流动池中的和表面结合的引物杂交，仅在一个末端具有接头的片段能与和表面结合的引物杂交但不能形成簇。

将34μlPCR预混合物加入到PCR板的各孔中，然后加入1μl解冻的PCRP7-索引引物(25μM)。将15μl样品转移到PCR板的各孔中，并在样品板的空孔内加入15μl水作为阴性对照。

使用下列PCR程序将板在热循环仪上孵育：

98℃30秒

15个如下的循环：

98℃10秒

65℃30秒

72℃30秒

72℃5分钟

在10℃下保持

所述扩增产生了以约280bp为中心的弥散(条带)。将在约120bp产生条带的任何空接头通过随后的AMPure纯化步骤去除。

d)大规模平行测序和映射

如实施例2所述在HiSeq2000(lllumina)上对文库进行测序，并映射到人类基因组上。

e)结果

使用概率表测定每个测试样品的每条常染色体的唯一精确序列(UES也称为UEM)计数，并将其与第一参照组的每个样品的相应染色体的值进行比较。对其他五个参照组重复此操作，得到总共六个参照组(名为A1、A2、B1、B2、N1、N2)。所述参照组都包括经验证的整倍体和三倍体样品并按照如上文所述的包括大小选择≤200bp的DNA分子的步骤的本发明方法来获得。参照组A1和A2包括总共267个样品；组N1和N2包括总共167个样品；组B1和B2包括总共100个样品。

具体地，将获自第一组参照样品(例如参照组N1)——其具有经验证的三体性和经验证的整倍性——中的给定的染色体的UES计数的值在图上标绘出。将参照组的正常(整倍体)样品用于确定值的区间，就概率而言，应该只有千分之一的正常样品超过该区间。在图上示出该区间。

以这种方式，建立了一幅“参照图”/染色体/参照组(即六幅参照图/染色体)。参照组A1的13、16、18和21号染色体的“参照图”可分别参见图39a至39b(灰色点)。还示出了概率区间。参照组N1的13、16、18和21号染色体的类似的参照图可分别参见图40a至40d(灰色点)。在图39和40中，内部的细虚线代表概率阈值为1/1000，外部的粗虚线代表概率阈值为1/10000。

一旦建立了每条染色体和每个参照组的参照图，就将获自每个测试样品的给定的染色体的UES计数的值标绘在相应的参照图上。在图39中，将单个测试样品的13、16、18和21号染色体的值在参照图上表示为被环绕的黑点。在图40中，将四个不同测试样品的13、16、18和21号染色体的值在参照图上表示为被环绕的黑点。对具有所有染色体的所有48个测试样品以及所有参照组进行了这项操作。

结果清楚地证实本发明的测试允许极其可靠地检测胎儿非整倍性。图39a至39d表明名为GWX-1137的样品的13、16、18和21号染色体是正常的。图40a至40d表明名为GWX-1196、GWX-1420、GWX-1421和GWX-1470的样品的13、16、18和21号染色体是正常的机率分别小于1/10000。

使用大小选择步骤获得的结果与没有使用大小选择获得的那些的比较明确地表明大小选择有效富集胎儿分数，如几乎总是存在的增强的信号强度所表明的，其导致更稳健的检测，特别是对于低胎儿分数。评估所有常染色体的信号强度。所有常染色体的比较如图17至38所示，其中x轴“GWX”是没有进行大小选择的，y轴“TPR”是进行大小选择的。大小选择之后的信号强度在41/48或85％的情况下更强，并且在7/48或15％的情况下与没有进行大小选择的样品相同。没有一例在大小选择后信号强度变弱。这个由大小选择赋予的改善的信号强度甚至在更少的用于计算所述统计数据的UES的存在下也是可测量的。事实上，在25％的比相应的未经大小选择的样品具有更少的UES的经大小选择的样品中，具有更高信号强度的部分仍然有83％。如13、16、18和21号染色体的信号强度比较的图中所示(图29、32、34和37)，更稳健地检测到非整倍性，特别是对于低胎儿分数。后续实验也表明大小选择过程没有在常染色体的检测中引入偏差。

大小选择过程还减少了潜在假阳性结果。首先怀疑所使用的48个样品中的9个为病理性的：7个最终经核型分析得到验证，两个临界例子在大小选择后证明具有正常结果。

总之，大小选择步骤能全局性地改善信号强度，这导致对胎儿分数的更稳健的检测——其对具有低胎儿分数的临界样品特别有用。

实施例5：经大小选择的游离DNA样品的非整倍性检测(2)

将实施例4所述的方案进行调整以适用于使用基于半导体的NGS平台而不是边合成边测序平台，同样使用48个测试样品。使用与用于分析测试样品的相同的方法学——包括大小选择和使用基于半导体的NGS平台——生成六个新的参照组。用于该平台的文库制备使用平末端的接头连接，并不包括dA加尾。此外，使用较低数量的PCR循环(8个而非15个)。所述大小选择步骤与实施例4中所述的相同。

也使用基于半导体的NGS平台连同使用边合成边测序平台生成的参照样品对所述48个样品进行了测试。在该测试中，用于制备参照样品的测序平台是这两组实验之间的唯一差别。

三个样品的结果示于图41a、b和c中。黑色粗条示出了使用相同方案制备测试样品和参照样品时所获得的结果。较小的细条代表用于制备样品的测序平台和用于制备参照组的不同时所获得的结果。可以看出，虽然用相同的测序平台处理测试样品和参照组时所获得的结果最佳，但是当用于测试样品的平台和用于参照组的不同时，结果也是有用的和有差别的。总之，使用半导体技术的结果进一步证实了本发明的游离DNA的大小选择提供了更稳健的测定。该实施例还证实了大小选择过程所带来的优点不依赖大规模平行测序平台的类型。

参考文献

ChiuRW，ChanKC，GaoY，LauVY，ZhengW，LeungTY，FooCH，XieB，TsuiNB，LunFM，ZeeBC，LauTK，CantorCR，LoYM.NoninvasiveprenataldiagnosisoffetalchromosomalaneuploidybymassivelyparallelgenomicsequencingofDNAinmaternalplasma.ProcNatlAcadSciUSA.2008Dec23；105(51)：20458-63.

CooperGM，CoeBP，GirirajanS，RosenfeldJA，VuTH，BakerC，WilliamsC，StalkerH，HamidR，HannigV，Abdel-HamidH，BaderP，McCrackenE，NiyazovD，LeppigK，ThieseH，HummelM，AlexanderN，GorskiJ，KussmannJ，ShashiV，JohnsonK，RehderC，BallifBC，ShafferLG，EichlerEE.Acopynumbervariationmorbiditymapofdevelopmentaldelay，NatGenet.2011Aug14；43(9)：838-46

FanHC，BlumenfeldYJ，ChitkaraU，HudginsL，QuakeSR.NoninvasivediagnosisoffetalaneuploidybyshotgunsequencingDNAfrommaternalblood.ProcNatlAcadSciUSA.2008Oct21；105(42)：16266-71

FrazerKA，MurraySS，SchorkNJ，TopolEJ.Humangeneticvariationanditscontributiontocomplextraits.NatRevGenet.2009Apr；10(4)：241-51.

LoYM，LunFM，ChanKC，TsuiNB，ChongKC，LauTK，LeungTY，ZeeBC，CantorCR，ChiuRW.DigitalPCRforthemoleculardetectionoffetalchromosomalaneuploidy.ProcNatlAcadSciUSA.2007Aug7；104(32)：13116-21.

LoYM，ChanKC，SunH，ChenEZ，JiangP，LunFM，ZhengYW，LeungTY，LauTK，CantorCR，ChiuRW.MaternalplasmaDNAsequencingrevealsthegenome-widegeneticandmutationalprofileofthefetus.SciTranslMed.2010Dec8；2(61)：61ra91

StummM，EntezamiM，TrunkN，BeckM，J，WegnerRD，HagenA，BecketR，HofmannW.Noninvasiveprenataldetectionofchromosomalaneuploidiesusingdifferentnextgenerationsequencingstrategiesandalgorithms.PrenatDiagn.2012Jun；32(6)：569-77.

YandellM，EnceD.Abeginner′sguidetoeukaryoticgenomeannotation.NatRevGenet.2012Apr18；13(5)：329-42.

表

表1：通过柱提取和苯酚/氯仿提取获得的DNA量的比较

表1(续)

表1(结束)

表2：通过柱提取获得的文库和通过苯酚/氯仿提取获得的文库之间在峰值处的DNA分数的比较

表2(续)

样品	精确唯一读长	样品	精确唯一读长
				112	15591	78	15716
113	15369	79	15645
				114	15083	80	15582
115	15521	81	15362
				116	15129	82	15584
136	15006	14	15719
				137	15187	19	15703
138	14982	25	15975
				139	14996	30	15784
140	15160	35	15825
				63	15757	40	15908
64	15505	45	15809
				65	15447	51	15614
66	15245	5	15766
				67	15336	6	15947

表3：由通过预测序30个文库获得的总共20000个序列数来映射的唯一精确序列的数量

表4：91个样品的NGS测序结果

表4(续)

表4(结束)

样品ID	染色体核型
		2	69、XXX
3	Mos45、X(50％)/46、X、del(Y)(50％)
		4	CVS/AC-LK46、XX、CVS-Direct 47、XX、+22
26	46、XX
		40	47、XY、+21
44	47、XX、+13
		45	47、XX、+18

55	47、XX、+21
		56	47、XX、+21
61	47、XY、+21
		63	47、XX、+21
68	47、XX、+18
		69	46、XX、del(4p)
70	46、XX、del(5p)
		71	47、XY、+21
72	47、XY、+18
		83	47、XY、+21
85	47、XY、+21
		88	47、XY、+18
89	47、XY、+21
		90	(XY)
91	47、XX、+13

表5：图2至13中所示的特定样品的染色体核型

Claims

1.从包含游离DNA的母体生物样品中获得用于诊断胎儿非整倍性的一组参照样品和/或一组参照参数的方法，所述方法包括：

-在所述提取步骤之后，分析每个样品内DNA分子的大小分布并基于所述样品内DNA分子的大小分布选择一组样品；

-对每个经大小选择的样品的DNA进行大规模平行测序；

-将每个样品所获得的序列映射到人类基因组上；

-计算一组参照参数，其中每个参照参数指示每个样品映射到目的染色体或染色体区域的唯一精确序列的数量；

-获得一组参照样品和/或一组参照参数。

2.权利要求1的方法，其包括：

(i)从获自一组怀有整倍体胎儿的整倍体孕妇的一组生物样品中提取游离DNA；

(ii)分析每个样品内DNA分子的大小分布；

(iii)基于所述样品内DNA分子的大小分布选择第一组样品；

(iv)对来自所述第一组样品的每个样品的DNA进行预测序；

(v)将步骤(iv)中得到的序列映射到人类基因组上；

(viii)将步骤(vii)中得到的序列映射到人类基因组上；

3.权利要求1或2的方法，其中从所述生物样品组的每个样品中提取游离DNA包括：

-将所述生物样品与含有氯仿和苯酚的组合物混合；

-从所述混合物中萃取水相；

-从所述水相中沉淀DNA。

4.权利要求1至3中任一项的方法，其中基于DNA分子的大小分布选择一组样品的步骤包括从样品中去除大小大于200bp的DNA分子的步骤。

5.权利要求1至3中任一项的方法，其中基于所述样品内DNA分子的大小分布选择一组样品的步骤包括选择其中至少90wt％，优选95wt％以上的DNA分子的大小小于200bp、优选为156bp至176bp的样品。

6.权利要求1至3的方法，其中基于所述样品内DNA分子的大小分布选择一组样品的步骤包括选择至少0.88ng/μL的DNA分子大小小于200bp、优选156bp至176bp的样品。

7.权利要求1至6中任一项的方法，其中大小选择在制备测序文库之前进行。

8.权利要求1的方法，其中参照样品组包括具有1000万个以上的唯一精确序列读长的样品。

9.权利要求2至6中任一项的方法，其中步骤(vi)包括选择具有相对于在步骤(iv)中得到的序列总数的至少70％的唯一精确序列的样品。

10.权利要求2至6中任一项的方法，其中步骤(vii)包括对每个样品的至少2500万个序列进行测序。

11.权利要求2至6、8或9中任一项的方法，其中步骤(ix)包括选择具有1500万以上个的唯一精确序列读长的样品。

12.权利要求1至11中任一项的方法，其中，从其中提取游离DNA的生物样品组还包括获自怀有非整倍体胎儿的整倍体孕妇的样品。

13.从母体生物测试样品诊断胎儿非整倍性的方法，其包括：

(a)从获自孕妇的母体生物测试样品中提取游离DNA；

(b)对提取自所述测试样品的游离DNA进行大规模平行测序；

(c)将步骤(b)中获得的序列映射到人类基因组上；

(d)计算指示映射到目的染色体或染色体区段区域上的唯一精确序列的数量的测试参数；

(e)计算一组参照参数，其中每个参照参数指示如权利要求1至11中获得的一组参照样品的样品映射到目的染色体或染色体区域上的唯一精确序列的数量；

(g)基于所述比较，诊断胎儿非整倍性。

14.权利要求13的方法，其中，在所述提取步骤之后，进行基于所述样品内DNA分子的大小分布的大小选择步骤。

15.权利要求14的方法，其中所述大小选择在制备测序文库之前进行。

16.权利要求14或15的方法，其中大小选择包括从样品中去除大小大于200bp的DNA分子的步骤。

17.权利要求13至16中任一项的方法，其中所述从母体生物测试样品中提取游离DNA包括：

-将所述生物样品与含有氯仿和苯酚的组合物混合；

-从所述混合物中萃取水相；

-从所述水相中沉淀DNA。

18.权利要求13的方法，其中所述测试参数是标准化为所有常染色体的中位唯一精确序列标签密度的目的染色体或染色体区域的唯一序列标签密度。

19.权利要求13的方法，其中所述步骤(f)中的比较通过计算所述测试参数相对于参照参数组的z分数来进行。

20.权利要求14至16中任一项的方法，其中所述测试参数是目的染色体或染色体区域的绝对精确序列计数或目的染色体或染色体区域的平均精确序列计数。

21.权利要求20的方法，其中所述步骤(f)中的比较通过计算目的染色体或染色体区域的唯一精确序列计数、或目的染色体或染色体区域的平均精确序列计数属于参照组的目的染色体的唯一精确序列计数的正态分布的概率来进行。

22.权利要求13至21中任一项的方法，其中所述目的染色体是21号染色体、16号染色体、18号染色体、13号染色体或11号染色体。

23.从包含胎儿和母体的游离DNA的母体生物样品中提取游离DNA的方法，其包括：

-将所述生物样品与含有氯仿和苯酚的组合物混合；

-从所述混合物中萃取水相；

-从所述水相中沉淀DNA。

24.诊断胎儿非整倍性的试剂盒，其包括：

-根据权利要求1至12中任一项的方法可获得的一组参照样品；

-和/或一组参照参数，其中每个参照参数指示根据权利要求1至11中任一项的方法可获得的参照组的样品映射到目的染色体或染色体区域上的唯一精确序列的数量，其任选包括在物理载体中。

25.权利要求24的试剂盒，其还包括如下中的至少一个：

-用于提取游离DNA的一种或多种组合物和/或试剂盒，包括含有苯酚和氯仿的组合物；