CN107109324A

CN107109324A - 确定胎儿核酸含量的方法和装置

Info

Publication number: CN107109324A
Application number: CN201580072546.0A
Authority: CN
Inventors: 康雄斌; 陈芳; 刘萍; 徐惠欣; 芦静; 蒋浩君
Original assignee: BGI Shenzhen Co Ltd
Current assignee: Hainan Huada Gene Technology Co ltd
Priority date: 2015-01-16
Filing date: 2015-01-16
Publication date: 2017-08-29
Anticipated expiration: 2035-01-16
Also published as: WO2016112539A1; CN107109324B

Abstract

本发明公开一种构建不同组合基因型SNP位点分布区域的装置，包括：第一区域‑第二区域构建单元，用于构建第一区域和第二区域，第一区域是第一组合基因型SNP位点的分布区域，第二区域是第二组合基因型SNP位点的分布区域；第三区域‑第四区域构建单元，用于从第二区域中构建第三区域和第四区域，第三区域是第二组合基因型SNP位点中的第一预定比例的AAaa SNP位点的分布区域，第四区域是第二组合基因型SNP位点中的AAab SNP位点的分布区域。本发明还公开一种构建不同组合基因型SNP位点分布区域的方法、一种孕妇样本中胎儿核酸含量的确定方法及装置。

Description

确定胎儿核酸含量的方法和装置

技术领域

本发明涉及生物信息领域，具体的，本发明涉及一种构建不同组合基因型SNP位点的分布区域的装置、一种构建不同组合基因型SNP位点的分布区域的方法、一种区分不同组合基因型SNP位点的方法，一种确定孕妇样本中胎儿核酸含量的方法、一种确定孕妇样本中胎儿核酸含量的装置和一种计算机可读介质。

背景技术

自从在母亲血浆中发现胎儿游离DNA，产前检测技术发生了很大的革新。如今随着二代测序技术价格不断降低以及技术创新，无创产前检测发展迅速应用广泛。比如产前血友病、性别混乱和单基因病等遗传病的诊断。在这些诊断中，胎儿浓度是一个重要的参数。另外，异常的胎儿浓度还可以用以辅助预测一些疾病风险，比如较高水平的胎儿浓度可能与早产相关联，较低水平的胎儿浓度可用于辅助鉴定是否患有中度或重度的子痫。

关于如何检测孕妇血浆中胎儿DNA浓度已经存在好几种方法，比如直接统计孕妇血浆中Y染色体和常染色体各自在游离DNA中所占的比例，然而当怀的是女胎的时候，该方法不可行。有研究通过母亲和胎儿基因组中甲基化和未甲基化等一些表观遗传标记的差异来计算胎儿浓度，但该方法受到重亚硫酸盐转换或者甲基化限制酶消化等影响，常常精度不高。还有研究是基于新一代测序技术分析胎儿和母亲基因组中差异的位点，然而在有些无创产前检测中，无法提前获取胎儿的基因组信息。再有研究是基于父亲和母亲的基因组信息找出胎儿特异性基因位点，但是很多时候无法获取胎儿父亲的基因组信息，且另外分析父母的基因组信息需要增加额外费用。

发明内容

依据本发明的一方面，本发明提供一种构建不同组合基因型SNP位点分布区域的装置，组合基因型为SNP位点在第一来源核酸中的基因型和在第二来源核酸中的基因型的组合，该装置包括：第一区域-第二区域构建单元，用于构建第一区域和第二区域，第一区域是第一组合基因型SNP位点的分布区域，第二区域是第二组合基因型SNP位点的分布区域，第一区域和第二区域是基于第一关系和第二关系的差异划分开的，第一关系为第一组合基因型SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，第二关系为第二组合基因型SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，第一组合基因型为ABaa和ABab，第二组合基因型为AAaa和AAab；第三区域-第四区域构建单元，用于从第二区域中构建第三区域和第四区域，第三区域是第二组合基因型SNP位点中的第一预定比例的AAaa SNP位点的分布区域，第四区域是第二组合基因型SNP位点中的AAab SNP位点的分布区域，第三区域和第四区域是基于第三关系和第四关系的差异划分开的，第三关系为第二组合基因型SNP位点中的第一预定比例的AAaa SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，第四关系为第二组合基因型SNP位点中的AAab SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系；其中，AA和AB分别表示纯合和杂合的来自第一来源核酸的SNP位点，aa和ab分别表示纯合和杂合的来自第二来源核酸的相同SNP位点，定义A或a表示SNP位点的最高碱基，B或b表示相同SNP位点的次高碱基。由于一般认为SNP为二态性，即为二等位基因，由两种碱基组成，分别为最高碱基和次高碱基，这里以A和B分别表示一SNP位点在一种来源核酸中的最高碱基和次高碱基，对应的，以a和b分别表示同一SNP位点在另一种来源核酸中的最高碱基和次高碱基。在本发明的这一方面，该装置基于同一SNP位点在两种来源核酸中的基因型形成的4种可能组合，假定第一来源核酸的含量大于第二来源核酸含量，以及若在同一序列测定结果中，4种组合的SNP位点的次高碱基深度和最高碱基深度各自满足的关系的差异来构建4种不同组合基因型SNP位点的分布区域。利用该装置构建得的分布区域能够用以确定待检测数据中的SNP位点的组合基因型，和/或区分开待检测数据中的不同组合基因型SNP位点以及获取其中某种组合基因型SNP位点的数据信息。

依据本发明的一方面，本发明提供一种构建不同组合基因型SNP位点分布区域的装置，组合基因型为SNP位点在第一来源核酸中的基因型和在第二来源核酸中的基因型的组合，该装置包括：第一区域-第二区域构建单元，用于构建第一区域和第二区域，第一区域是第一组合基因型SNP位点的分布区域，第二区域是第二组合基因型SNP位点的分布区域，第一区域和第二区域是基于第一关系和第二关系的差异划分开的，第一关系为第一组合基因型SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，第二关系为第二组合基因型SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，第一组合基因型为ABaa和ABab，第二组合基因型为AAaa和AAab；第三区域-第四区域构建单元，用于从第二区域中构建第三区域和第四区域，第三区域是第二组合基因型SNP位点中的第一预定比例的AAaa SNP位点的分布区域，第四区域是第二组合基因型SNP位点中的AAab SNP位点的分布区域，第三区域和第四区域是基于第三关系和第四关系的差异划分开的，第三关系为第二组合基因型SNP位点中的第一预定比例的AAaa SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，第四关系为第二组合基因型SNP位点中的AAab SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系；以及闭合第四区域构建单元，用于从第四区域中构建闭合第四区域，闭合第四区域是第二组合基因型SNP位点中的第二预定比例的AAab SNP位点的分布区域，闭合第四区域是基于AAab SNP位点的次高碱基和最高碱基的深度都服从正态分布，以及设定第二预定比例，从第四区域中构建获得的；其中，AA和AB分别表示纯合和杂合的来自第一来源核酸的SNP位点，aa和ab分别表示纯合和杂合的来自第二来源核酸的相同SNP位点，定义A或a表示SNP位点的最高碱基，B或b表示相同SNP位点的次高碱基。

依据本发明一方面，本发明提供一种构建不同组合基因型SNP位点的分布区域的方法，组合基因型为SNP位点在第一来源核酸中的基因型和在第二来源核酸中的基因型的组合，该方法包括：基于第一关系和第二关系的差异，构建第一区域和第二区域，第一区域是第一组合基因型SNP位点的分布区域，第二区域是第二组合基因型SNP位点的分布区域，第一关系为第一组合基因型SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，第二关系为第二组合基因型SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，第一组合基因型为ABaa和ABab，第二组合基因型为AAaa和AAab；基于第三关系和第四关系的差异，从第二区域中构建第三区域和第四区域，第三区域是第二组合基因型SNP位点中的第一预定比例的AAaa SNP位点的分布区域，第四区域是第二组合基因型SNP位点中的AAab SNP位点的分布区域，第三关系为第二组合基因型SNP位点中的第一预定比例的AAaa SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，第四关系为第二组合基因型SNP位点中的AAab SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系；其中，AA和AB分别表示纯合和杂合的来自第一来源核酸的SNP位点，aa和ab分别表示纯合和杂合的来自第二来源核酸的相同SNP位点，以A或a表示SNP位点的最高碱基，B或b表示相同SNP位点的次高碱基。

依据本发明的另一方面，本发明提供一种区分不同组合基因型SNP位点的方法，所称的组合基因型为SNP位点在第一来源核酸中的基因型和在第二来源核酸中的基因型的组合，该方法包括：对混合核酸样本中的至少一部分核酸进行序列测定，获得测序数据，测序数据由多个读段组成，混合核酸样本包含第一来源核酸和第二来源核酸；将测序数据与参考序列比对，获得比对结果；基于比对结果，识别出SNP位点以及确定SNP位点所处的分布区域，所称的分布区域是依据本发明一方面的构建不同组合基因型SNP位点的分布区域的方法构建的；基于SNP位点所处的分布区域，确定该SNP位点的组合基因型。

进一步的，依据本发明的一方面，依据落入第四区域的SNP位点的信息估算第二来源核酸在混合核酸中占的比例。由于落入第四区域或者落入闭合第四区域的SNP位点的组合基因型为AAab，次高碱基只来自第二来源核酸，利用次高碱基获得的读段支持数量在覆盖该位点的读段总数中占的比例，可估算出第二来源核酸的浓度，可表示为第二来源核酸浓度＝2＊次高碱基深度/(最高碱基深度+次高碱基深度)，公式中的次高碱基和最高碱基来自同一AAab SNP位点。在本发明的一个具体实施方式中，利用落入闭合第四区域每个SNP位点进行第二来源核酸浓度估算，获得一组第二来源核酸浓度数值，取数值中的中位数为第二来源核酸浓度。对于只包含两种来源核酸的混合核酸样本，其中的一个来源的核酸含量确定，另一个也就随之确定。

依据本发明的又一方面，本发明提供一种确定孕妇样本中胎儿核酸含量的方法，该方法包括：获取测序结果，所述测序结果的获取包括对孕妇样本中的至少一部分核酸进行序列测定，测序结果由多个读段组成，孕妇样本包含母体核酸和胎儿核酸；将测序结果与参考序列比对，获得比对结果；基于比对结果，识别出SNP位点；基于比对结果，确定SNP位点所处的分布区域，分布区域依据本发明一方面的构建不同组合基因型SNP位点的分布区域的方法构建；基于处于分布区域中的第四区域或者闭合第四区域的SNP位点，确定该孕妇样本中的胎儿核酸含量。在本发明这一方面的方法中，待测孕妇样本为孕妇体液样本，例如，来自孕妇外周血、孕妇尿液等。

依据本发明的一方面，本发明提供一种确定孕妇样本中胎儿核酸含量的方法，该方法包括：获取测序结果，所述测序结果的获取包括对孕妇样本中的至少一部分核酸进行序列测定，测序结果由多个读段组成，孕妇样本包含母体核酸和胎儿核酸；将测序结果与参考序列比对，获得比对结果；基于比对结果，识别出SNP位点；基于比对结果，确定SNP位点所处的分布区域，分布区域依据本发明一方面的构建不同组合基因型SNP位点的分布区域的方法构建；基于处于分布区域中的第四区域或者闭合第四区域的SNP位点，确定该孕妇样本中的胎儿核酸含量；以及，当测序结果包含的数据量少于65X和/或确定出的胎儿核酸含量小于10％，利用偏差校正模型来校正胎儿核酸含量，获得校正的胎儿核酸含量。

依据本发明的还一方面，本发明提供一种确定孕妇样本中胎儿核酸含量的装置，其包括：数据输入单元，用于输入数据；数据输出单元，用于输出数据；存储单元，用于存储数据，其中包括可执行程序；处理器，与所述数据输入单元、数据输出单元和存储单元连接，用于执行可执行程序，执行该可执行程序包括完成上述确定孕妇样本中胎儿核酸含量的方法。

依据本发明的再一方面，提供一种计算机可读介质，用于存储供计算机执行的程序，执行程序包括完成上述任一确定孕妇样本中胎儿核酸含量的方法。本领域普通技术人员可以理解，在执行该程序时，通过指令相关硬件可完成上述确定孕妇样本中胎儿核酸含量的方法的全部或部分步骤。所称存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。

依据本发明装置和/或方法，能够获得不同组合基因型SNP位点的分布区域，使得能够区分开不同组合基因型的SNP位点，确定SNP的组合基因型，获取特定组合基因型的SNP位点以及利用混合核酸样本中特定组合基因型的SNP位点信息确定混合核酸样本中的不同来源核酸的含量，包括孕妇样本中的胎儿核酸含量，肿瘤循环血液样本中来自肿瘤细胞的核酸的含量。进一步的，依据本发明的偏差校正模型，能够校正由于在获取的数据量较小或者混合核酸样本中的目标来源核酸的浓度比较低，而划定的分布区域范围又相对严格，而引起的计算得的目标来源核酸的浓度的偏差，使确定的第二来源核酸含量。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1显示本发明的一个具体实施方式中标准正态分布的标准差和概率的比率关系。

图2显示本发明的一个具体实施方式中构建的分布区域的示意图。

图3显示本发明的一个具体实施方式中预测的胎儿核酸浓度和真实胎儿核酸浓度之间的关系，其中，图3a中的预测的胎儿核酸浓度未利用偏差校正模型校正，图3b中的预测的胎儿核酸浓度是利用偏差模型校正后的预测的胎儿核酸浓度。

图4显示本发明的一个具体实施方式中不同测序深度对确定胎儿核酸含量的影响。

图5显示本发明的一个具体实施方式中AAab SNP分布区域中的位点数对确定胎儿核酸含量的影响。

图6显示本发明的一个具体实施方式中利用Y染色体深度预测的男胎胎儿核酸浓度与利用本发明方法预测的男胎胎儿核酸浓度的差异。

具体实施方式

依据本发明的一种实施方式，提供一种构建不同组合基因型SNP位点分布区域的装置，所称的组合基因型为SNP位点在第一来源核酸中的基因型和在第二来源核酸中的基因型的组合，该装置包括：第一区域-第二区域构建单元，用于构建第一区域和第二区域，第一区域是第一组合基因型SNP位点的分布区域，第二区域是第二组合基因型SNP位点的分布区域，第一区域和第二区域是基于第一关系和第二关系的差异划分开的，第一关系为第一组合基因型SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，第二关系为第二组合基因型SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，第一组合基因型为ABaa和ABab，第二组合基因型为AAaa和AAab；第三区域-第四区域构建单元，用于从第二区域中构建第三区域和第四区域，第三区域是第二组合基因型SNP位点中的第一预定比例的AAaa SNP位点的分布区域，第四区域是第二组合基因型SNP位点中的AAab SNP位点的分布区域，第三区域和第四区域是基于第三关系和第四关系的差异划分开的，第三关系为第二组合基因型SNP位点中的第一预定比例的AAaa SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，第四关系为第二组合基因型SNP位点中的AAab SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系；其中，AA和AB分别表示纯合和杂合的来自第一来源核酸的SNP位点，aa和ab分别表示纯合和杂合的来自第二来源核酸的相同SNP位点，定义A或a表示SNP位点的最高碱基，B或b表示相同SNP位点的次高碱基。一般认为SNP为二态性，即为二等位基因，由两种碱基组成，分别为最高碱基和次高碱基，可将在同一序列测定数据中，一SNP位点中获得最多数据支持的碱基称为最高碱基，将获得数据支持第二多的称为次高碱基，例如，覆盖一SNP位点的测序获得的读段中，相应位置与该位点一碱基相同的，为支持该碱基的读段，最高碱基为覆盖其所在位点的读段中支持其的读段数目最多的碱基。这里，以A和B分别表示一SNP位点在一种来源核酸中的最高碱基和次高碱基，对应的，以a和b分别表示同一SNP位点在另一种来源核酸中的最高碱基和次高碱基。最高碱基的深度和次高碱基的深度，指在同一测定数据中，最高碱基和次高碱基各自得到的数据支持的量，例如，将测序获得的读段(reads)比对到参考序列上，比对上(覆盖)参考序列一SNP位点的读段的数目即为该位点的深度，也称为测序深度，比对上该位点的读段中相应位置与该位点的最高碱基一样的读段的数目为该最高碱基的深度，相应的，比对上该位点的读段中相应位置与该位点的次高碱基一样的读段的数目为该次高碱基的深度。将比对上(覆盖)该位点的读段中相应位置与该位点的某个碱基一样的读段称为支持该碱基的读段。利用该装置进行分布区域的构建，无需预先获取具体SNP位点数据，即分布区域的构建不依赖具体SNP位点数据信息，包括不依赖SNP位点的最高碱基和次高碱基深度。该装置基于同一SNP位点在两种来源核酸中的基因型形成的4种可能组合，假定第一来源核酸的含量大于第二来源核酸含量，以及若在同一序列测定结果中，4种组合的SNP位点的次高碱基深度和最高碱基深度各自满足的关系的差异来构建4种不同组合基因型SNP位点的分布区域。4种组合基因型如表1所示，需要说明的是，理论上，当一个位点在第一来源核酸和第二来源核酸中都是纯合的，该位点非SNP位点，但由于实际获取SNP位点的过程中存在随机错误使得产生组合基因型为AAaa的SNP位点，随机错误包括测序错误，根据之前的研究，由于测序错误产生的SNP位点服从二项分布，另外根据中心极限定理：当数目够大的时候二项分布可以看成是正态分布，这一实施方式将这些位点看成是正态分布。

表1

在本发明的一个具体实施方式中，提供一种方式可视化所说的分布区域，建立一个二维坐标系，y轴表示SNP位点的次高碱基的深度，x轴表示SNP位点的最高碱基的深度，第一关系可表示为x/2≥y≥x/3，第二关系可表示为0＜y＜x/3，第三关系可表示为0＜y＜(x+y)＊e+m＊δ，第四关系可表示为(x+y)＊e+m＊δ＜y＜3/x，其中，e为测序错误率，一般e≤1％，δ为标准差，δ＝((x+y)＊e)^0.5，m取决于所述第一预定比例，m为非负数，m＊δ和所述第一预定比例的关系为标准正态分布中的标准差和概率的比率关系。相应的，第一关系和第二关系的差异以及第三关系和第四关系的差异也同样可视化，显示为不同区域的分界线，第一关系和第二关系的差异可表示为y＝x/3，第三关系和第四关系的差异为y＝(x+y)＊e+m＊δ。标准正态分布的概率密度函数曲线呈钟形，本领域普通技术人员可以理解，所说的标准正态分布中的标准差和概率的比率关系如图1所示，如：正负一个标准差之间，包含总面积的68.26％；正负1.96个标准差之间，包含总面积的95％；正负2.58个标准差之间，包含总面积的99％；m即对应其中的标准差的个数，第一预定比例即对应其中的总面积的百分比。较佳的，第一预定比例不小于95％。在本发明的一个具体实施方式中，第一预定比例为99.9％，对应的m＝3。

根据本发明的一个具体实施方式，该装置还包括：闭合第四区域构建单元，用于从第四区域中构建闭合第四区域，闭合第四区域是第二组合基因型SNP位点中的第二预定比例的AAab SNP位点的分布区域，所述闭合第四区域是基于所述AAab SNP位点的次高碱基和最高碱基的深度都服从正态分布，以及设定所述第二预定比例，从所述第四区域中构建获得的。一般设定第二预定比例不小于95％。在一个y轴表示SNP位点的次高碱基的深度，x轴表示SNP位点的最高碱基的深度二维坐标系中，y＝x/3、y＝(x+y)＊e+m＊δ、y＝D₀-n＊δ-x和y＝D₀+n＊δ-x即构成所说的第四闭合区域，其中，e为测序错误率，一般e≤1％，δ为标准差，δ＝((x+y)＊e)^0.5，D₀为SNP位点的平均深度，m、n为非负数，取决于所述第一预定比例，m＊δ和所述第一预定比例的关系为标准正态分布中的标准差和概率的比率关系，n取决于所述第二预定比例，n＊δ和所述第二预定比例的关系为标准正态分布中的标准差和概率的比率关系。较佳的，第二预定比例不小于95％。在本发明的一个具体实施方式中，第一预定比例和第二预定比例均为99.9％，对应m＝n＝3。所称SNP位点的平均深度指SNP位点的深度的平均值，SNP位点的深度为该SNP位点获得的支持数据的量，例如，将测序获得的读段(reads)比对到参考序列上，比对上参考序列该SNP位点的读段的数目即为该位点的深度，也称为测序深度，即该位点被覆盖的次数，较佳的，D₀≥100X。

利用上述任一实施方式中的装置，依据不同组合基因型SNP位点的次高碱基深度和最高碱基深度各自满足的函数关系的差异，能够构建获得不同组合基因型SNP位点的分布区域，而划分确定出各个分布区域后，反过来能够依据待检测数据中SNP位点落入的分布区域，确定SNP位点的组合基因型，获取特定组合基因型的SNP位点以及利用混合核酸样本中特定组合基因型的SNP位点信息确定混合核酸样本中的不同来源核酸的含量，包括孕妇样本中的胎儿核酸含量。

依据本发明的一种实施方式，提供一种构建不同组合基因型SNP位点的分布区域的方法，所称的组合基因型为SNP位点在第一来源核酸中的基因型和在第二来源核酸中的基因型的组合，该方法包括：基于第一关系和第二关系的差异，构建第一区域和第二区域，第一区域是第一组合基因型SNP位点的分布区域，第二区域是第二组合基因型SNP位点的分布区域，第一关系为第一组合基因型SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，第二关系为第二组合基因型SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，第一组合基因型为ABaa 和ABab，第二组合基因型为AAaa和AAab；基于第三关系和第四关系的差异，从第二区域中构建第三区域和第四区域，第三区域是第二组合基因型SNP位点中的第一预定比例的AAaa SNP位点的分布区域，第四区域是第二组合基因型SNP位点中的AAab SNP位点的分布区域，第三关系为第二组合基因型SNP位点中的第一预定比例的AAaa SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，第四关系为第二组合基因型SNP位点中的AAab SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系；其中，AA和AB分别表示纯合和杂合的来自第一来源核酸的SNP位点，aa和ab分别表示纯合和杂合的来自第二来源核酸的相同SNP位点，以A或a表示SNP位点的最高碱基，B或b表示相同SNP位点的次高碱基。利用该方法进行分布区域的构建，无需预先获取具体SNP位点数据，即分布区域的构建不依赖具体SNP位点数据信息，包括不依赖SNP位点的最高碱基和次高碱基深度。该方法基于同一SNP位点在两种来源核酸中的基因型形成的4种可能组合，假定第一来源核酸的含量大于第二来源核酸含量，以及若在同一序列测定结果中，4种组合的SNP位点的次高碱基深度和最高碱基深度各自满足的关系的差异来构建4种不同组合基因型SNP位点的分布区域。前述对本发明任一实施方式中的构建不同组合基因型SNP位点的分布区域的装置的技术特征和优点的描述，也同样适用本发明这一实施方式中的方法。

例如，在本发明的一个具体实施方式中，提供一种方式可视化所说的分布区域，建立一个二维坐标系，y轴表示SNP位点的次高碱基的深度，x轴表示SNP位点的最高碱基的深度，第一关系可表示为x/2≥y≥x/3，第二关系可表示为0＜y＜x/3，第三关系可表示为0＜y＜(x+y)＊e+m＊δ，第四关系可表示为(x+y)＊e+m＊δ＜y＜3/x，其中，e为测序错误率，一般e≤1％，δ为标准差，δ＝((x+y)＊e)^0.5，m取决于所述第一预定比例，m为非负数，m＊δ和所述第一预定比例的关系为标准正态分布中的标准差和概率的比率关系。相应的，第一关系和第二关系的差异以及第三关系和第四关系的差异也同样可视化，显示为不同区域的分界线，第一关系和第二关系的差异可表示为y＝x/3，第三关系和第四关系的差异为y＝(x+y)＊e+m＊δ。标准正态分布的概率密度函数曲线呈钟形，本领域普通技术人员可以理解，所说的标准正态分布中的标准差和概率的比率关系如图1所示，图中σ指标准差，正负一个标准差之间，包含曲线围成的总面积的68.26％，正负1.96个标准差之间，包含总面积的95％，正负2.58个标准差之间，包含总面积的99％；m即对应其中的标准差的个数，第一预定比例即对应其中的总面积的百分比。较佳的，第一预定比例不小于95％。在本发明的一个具体实施方式中，第一预定比例为99.9％，对应的m＝3。

根据本发明的一个具体实施方式，该方法还包括：从第四区域中构建闭合第四区域，闭合第四区域是第二组合基因型SNP位点中的第二预定比例的AAab SNP位点的分布区域，所述闭合第四区域的构建包括，基于所述AAab SNP位点的次高碱基和最高碱基的深度都服从正态分布，以及设定所述第二预定比例。一般设定第二预定比例不小于95％。在一个y轴表示SNP位点的次高碱基的深度，x轴表示SNP位点的最高碱基的深度二维坐标系中，y＝x/3、y＝(x+y)＊e+m＊δ、y＝D₀-n＊δ-x和y＝D₀+n＊δ-x即构成所说的第四闭合区域，其中，e为测序错误率，一般e≤1％，δ为标准差，δ＝((x+y)＊e)^0.5，D₀为SNP位点的平均深度，m、n为非负数，取决于所述第一预定比例，m＊δ和所述第一预定比例的关系为标准正态分布中的标准差和概率的比率关系，n取决于所述第二预定比例，n＊δ和所述第二预定比例的关系为标准正态分布中的标准差和概率的比率关系。较佳的，第二预定比例不小于95％。在本发明的一个具体实施方式中，第一预定比例和第二预定比例均为99.9％，对应m＝n＝3。所称SNP位点的平均深度指SNP位点的深度的平均值，SNP位点的深度为该SNP位点获得的支持数据的量，例如，将测序获得的读段(reads)比对到参考序列上，比对上参考序列该SNP位点的读段的数目即为该位点的深度，也称为测序深度，即该位点被覆盖的次数，较佳的，D₀≥100X。

依据本发明的另一个实施方式，提供一种区分不同组合基因型SNP位点的方法，组合基因型为SNP位点在第一来源核酸中的基因型和在第二来源核酸中的基因型的组合，该方法包括：对混合核酸样本中的至少一部分核酸进行序列测定，获得测序数据，所述测序数据由多个读段组成，所述混合核酸样本包含所述第一来源核酸和所述第二来源核酸；将所述测序数据与参考序列比对，获得比对结果；基于所述比对结果，识别出SNP位点；确定所述SNP位点所处的分布区域，所述分布区域依据上述任一具体实施方式中的构建不同组合基因型SNP位点的分布区域的方法来构建；基于所述SNP位点所处的分布区域，确定所述SNP位点的组合基因型。所说的第一来源核酸和第二来源核酸，可以是来源自不同个体的核酸，也可以是同一个体不同组织或部位的核酸，例如来自肿瘤细胞和来自非肿瘤细胞的核酸。获得测序数据包括对混合核酸样本进行测序文库(library)制备，以及对文库进行上机测序。测序可利用现有测序平台进行，可依据所选择的测序平台进行相应的文库制备，可选用的测序平台包括但不限于CG(Complete Genomics)CGA、Illumina/Solexa、Life Technologies/Ion Torrent和Roche 454，依据所选测序平台进行单端或双末端测序文库的制备。比对可以利用SOAP(Short Oligonucleotide Analysis Package)，BWA等软件进行，本实施方式对此不作限制，比对过程中，根据比对参数的设置，例如设置测序数据中的每条读段最多允许有h个碱基错配(mismatch)，h优选为1或2，若一条reads中有超过h个碱基发生错配，则视为该条reads无法比对到参考序列。SNP位点的识别可利用SOAPsnp、GATK等软件依照软件默认参数设置进行。所说的参考序列是已知序列，可以是预先获得的目标个体所属生物类别中的任意的参考模板，例如，同一生物类别的已公开的基因组组装序列，若混合核酸样本为来自人类，其基因组参考序列(也称为参考基因组)可选择NCBI数据库提供的HG19。比对结果包含各条读段与参考序列的比对情况，包括读段是否能够比对上参考序列、读段比对上参考序列的位置、某一位点多少读段比对上、比对上某位点的读段的相应位置的碱基类型等。基于比对结果，识别出SNP 位点，基于SNP位点的最高碱基和次高碱基的深度满足的关系，判定该SNP位点落入哪个分布区域，由于各个分布区域与4种组合基因型是对应的，如分布区域中的第一区域是组合基因型ABaa和ABab SNP位点的分布区域，第三区域是第一预定比例的AAaa SNP位点的分布区域，第四区域或者闭合第四区域是AAab SNP位点的分布区域，通过判定SNP位点落入的分布区域，就能确定该SNP的组合基因型，即对该SNP进行分型。前述任一对本发明具体实施方式中的分布区域的优点和技术特征的描述，同样会使这一实施方式的方法带有同样的优点和技术特征，在此不再赘述。

进一步的，依据本发明的一个具体实施方式，依据落入第四区域的SNP位点的信息估算第二来源核酸在混合核酸中占的比例。由于落入第四区域或者落入闭合第四区域的SNP位点的组合基因型为AAab，次高碱基只来自第二来源核酸，利用次高碱基获得的读段支持数量在覆盖该位点的读段总数中占的比例，可估算出第二来源核酸的浓度，可表示为第二来源核酸浓度＝2＊次高碱基深度/(最高碱基深度+次高碱基深度)，公式中的次高碱基和最高碱基来自同一AAab SNP位点。在本发明的一个具体实施方式中，利用落入闭合第四区域每个SNP位点进行第二来源核酸浓度估算，获得一组第二来源核酸浓度数值，取数值中的中位数为第二来源核酸浓度。

胎儿浓度对于产前遗传检测，例如拷贝数变异、子痫、早产以及遗传病研究是一个重要的参数。依据本发明的又一个实施方式，提供一种确定孕妇样本中胎儿核酸含量的方法，该方法包括：获取测序结果，所述测序结果的获取包括对孕妇样本中的至少一部分核酸进行序列测定，测序结果由多个读段组成，孕妇样本包含母体核酸和胎儿核酸；将测序结果与参考序列比对，获得比对结果；基于比对结果，识别出SNP位点；基于比对结果，确定SNP位点所处的分布区域，分布区域依据前述任一具体实施方式中的构建不同组合基因型SNP位点的分布区域的方法构建获得；基于处于分布区域中的第四区域或者闭合第四区域的SNP位点，确定该孕妇样本中的胎儿核酸含量。在这一实施方式中，待测孕妇样本为孕妇体液样本，例如，来自孕妇外周血、孕妇尿液等。在孕妇体液的游离DNA中包含着母亲和胎儿的基因组信息，可以将其分为四类：母亲纯合胎儿也纯合(AAaa)，母亲纯合胎儿杂合(AAab)，母亲杂合但胎儿纯合(ABaa)，母亲杂合胎儿也杂合(ABab)。这一实施方式利用构建的分布区域把这四类区分开，再选取母亲纯合胎儿杂合(AAab)的SNP位点作为有效位点，用于计算胎儿浓度。前述任一具体实施方式中关于所构建的分布区域的优点和技术特征的描述，对这一实施方式同样适用，在此不再赘述。

在本发明的一个具体实施方式中，胎儿核酸含量为2＊y₄/(x₄+y₄)的中位数，y₄为处于第四区域或者闭合第四区域的每个SNP位点的次高碱基的深度，x₄为处于第四区域或者闭合第四区域的相应的每个SNP位点的最高碱基的深度，其中，碱基的深度为其获得的支持读段的数目。

在利用这一实施方式的方法确定胎儿核酸浓度时，获取的数据量较小或者孕妇样本中的胎儿核酸的浓度过低时，划定的分布区域会显得相对严格，易引起的计算得的胎儿核酸的浓度有偏差，较佳的，测序结果包含的数据量不小于65X，即测序深度不小于65X。在本发明的一个具体实施方式中，当测序结果包含的数据量少于65X和/或确定出的胎儿核酸含量小于10％，为更准确的确定胎儿核酸浓度，利用偏差校正模型来校正计算出的胎儿核酸含量，获得校正的胎儿核酸含量。所称的偏差校正模型能够校正由于数据量较小或者孕妇样本中的胎儿核酸的浓度过低、划定的分布区域相对严格，而引起的计算得的胎儿核酸浓度的偏差。偏差校正模型可以在待检孕妇样本的数据量不小于65X或者估算得的胎儿核酸浓度小于10％时建立，也可以预先建立，保存备用。

在本发明的一个具体实施方式中，当测序结果包含的数据量少于65X和/或确定出的胎儿核酸含量小于10％，为更准确的确定胎儿核酸浓度，在利用偏差校正模型进行校正之前，调整第一预定比例，增大第四区域或者闭合第四区域范围，使落入第四区域或者闭合第四区域的SNP位点更多、与理论上更接近，利于提高计算出的胎儿核酸浓度的准确性。调低第一预定比例，缩小第三区域范围则增大第四区域或者闭合第四区域的范围。

在本发明的一个具体实施方式中，偏差校正模型的建立包括：获取K个模拟位点，K＝K₁+K₂+K₃+K₄，K₁为组合基因型AAaa模拟位点的数目，K₂为组合基因型AAab的模拟位点的数目，K₃为组合基因型ABaa模拟位点的数目，K₄为组合基因型ABab模拟位点的数目，K₂/K≥0.5％，K₂≥35；设定不同标准胎儿核酸含量f，基于假设，利用组合基因型AAab的模拟位点，即处于第四区域或者闭合第四区域的模拟位点，计算相应的胎儿核酸含量f₀；对获得的多组(f，f₀)进行多项式回归，以建立所述偏差校正模型；所述假设包括，组合基因型AAaa模拟位点的最高碱基和次高碱基的深度分别服从N(D-e*D，(D-e*D))和N(e*D，e*D)，组合基因型AAab模拟位点的最高碱基和次高碱基的深度分别服从N(D*(1-f/2)，D*(1-f/2))和N(D*f/2，(D*f/2))，组合基因型ABaa模拟位点的最高碱基和次高碱基的深度分别服从N(D*(1/2-f/2)，D*(1/2-f/2))和N(D*(1/2+f/2)，D*(1/2+f/2))，组合基因型ABab模拟位点的最高碱基和次高碱基的深度分别服从N(D/2，D/2)和N其中，e为测序错误率，e＝K₁/K≤1％，D为模拟位点的平均测序深度，f为标准胎儿核酸含量，0.5％≤f≤25％。N(μ，σ^2)表示均值(期望)为μ、方差为σ^2的正态分布，N(μ，σ^2)也常表示成N(μ，σ)，该偏差校正模型为正态混合模型。基于上述假设，在一固定平均测序深度下，取一系列的f，能够对应获得一系列f₀，f₀可利用前述方式计算获得，对多组(f，f₀)进行方程拟合，能够得到适于这一平均测序深度下校正f₀的公式。

在本发明的一个具体实施方式中，提供适于校正不同测序深度下的计算得的胎儿核酸浓度的方程，该偏差校正模型包括：D＝50X时，f＝10.981f₀ ³-8.401f₀ ²+3.1292f₀-0.1883；D＝60X时，f＝14.449f₀ ³-9.757f₀ ²+3.2212f₀-0.1759；D＝70X时，f＝18.57f₀ ³-11.595f₀ ²+3.4261f₀-0.1745；D＝80X时，f＝18.693f₀ ³-11.293 f₀ ²+3.279f₀-0.1566；D＝90X时，f＝20.076f₀ ³-11.749f₀ ²+3.2816f₀-0.1494；D＝100X时，f＝19.126f₀ ³-11.025f₀ ²+3.098f₀-0.1337； D＝110X时，f＝19.81f₀ ³-11.159f₀ ²+3.0725f₀-0.1279；D＝120X时，f＝20.61f₀ ³-11.38f₀ ²+3.0554f₀-0.1226；D＝130X时，f＝19.808f₀ ³-10.82f₀ ²+2.9285f₀-0.1128；D＝140X时，f＝20.752f₀ ³-10.892f₀ ²+2.8731f₀-0.1061；D＝150X时，f＝16.71f₀ ³-9.1447f₀ ²+2.623f₀-0.0937；D＝160X时，f＝16.878f₀ ³-9.1543f₀ ²+2.6011f₀-0.0904；D＝170X时，f＝15.433f₀ ³-8.3874f₀ ²+2.4715f₀-0.0831；D＝180X时，f＝17f₀ ³-8.9749f₀ ²+2.5224f₀-0.0828；D＝190X时，f＝14.627f₀ ³-7.8187f₀ ²+2.3464f₀-0.0743；D＝200X时，f＝13.3f₀ ³-7.2048f₀ ²+2.2491f₀-0.0688。方程回归可以利用现有方法，在这一具体实施方式中，由于每组(f，f₀)之间表现出一个相对固定的差异，拟合曲线将计算值f₀校正得跟对应的理论值f一样，以得来上述方程，这些拟合的多项式方程都是显著的。由于任一方程先假定的测序深度(模拟位点的平均测序深度)都大于等于50X，在实际中，测序深度在假定测序深度的±5X的范围，用同一方程都能实现校正，例如，待检样本的测序数据量为55X，利用时，f＝10.981f₀ ³-8.401f₀ ²+3.1292f₀-0.1883(D＝50X)；或者f＝14.449f₀ ³-9.757f₀ ²+3.2212f₀-0.1759(D＝60X)都能实现对f₀的偏差校正。另一种实施方式，对于同样的待检样本的测序数据量为55X，经过前面的解释，本领域普通技术人员可以理解，也可以使D＝55X，获取多组(f，f₀)来拟合校正方程，以获得最适偏差校正方程。

本领域普通技术人员可以理解，上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。

依据本发明的再一实施方式，还提供一种确定孕妇样本中胎儿浓度的装置，包括：数据输入单元，用于输入数据；数据输出单元，用于输出数据；存储单元，用于存储数据，其中包括可执行的程序；处理器，与上述数据输入单元、数据输出单元及存储单元数据连接，用于执行存储单元中存储的可执行的程序，该程序的执行包括完成上述实施方式中各种方法的全部或部分步骤。

本发明的检测孕妇样本中胎儿核酸浓度的方法和装置，基于构建的不同组合基因型SNP位点的分布区域，和/或结合高斯分布(正态分布)混合模型，对SNP位点分类，能直接基于孕妇样本的大片段并行测序序列检测胎儿DNA浓度，免去了目前现有方法所需的实验分析确定特定类型SNP位点的过程，节省试验和分析费用。基于假设每一类SNP的深度都服从二项分布，而且在特定条件下都服从正态分布来构建本发明中的分布区域和/或偏差校正模型。利用本发明的确定孕妇样本中胎儿核酸含量的方法，只需65X数据就可以精确地检测低至2.5％的胎儿DNA浓度。

以下结合具体参数对依据本发明的装置/方法构建不同组合基因型SNP位点分布区域进行详细描述，结合具体核酸样本数据对依据本发明的方法确定SNP位点的组合基因型、区分不同组合基因型、确定孕妇样本中的胎儿核酸含量进行详细描述。本发明的描述中，″第一″、″第二″、″第三″、 ″第四″等为指代或描述方便，不能理解为有顺序关系或者有相对重要性指示，除非另有说明，″多个″、″多组″的含义是两个(组)或两个(组)以上。

除另有交待，以下实施例中涉及的未特别交待的试剂、软件及仪器，都是常规市售产品或者公开的。

实施例一

包含两种不同来源核酸的混合核酸样本，例如孕妇血浆样本。在孕妇的血浆的游离DNA中包含着母亲和胎儿的基因组信息，其中的SNP位点可以分为四类：母亲纯合胎儿也纯合(AAaa)；母亲纯合但胎儿杂合(AAab)；母亲杂合但胎儿纯合(ABaa)；母亲杂合胎儿也杂合(ABab)。以下通过各类位点的最高碱基深度和次高碱基深度满足的关系的差异，把这四类区分开，构建出各类SNP位点的分布区域。

分布区域的划分关键在于确定各类SNP位点的所说的差异，在以y表示次高碱基深度、x表示最高碱基深度的二维坐标系中，差异可表示为分界线，为此，需要确定至少2条曲线(分界线)才能划定出只属于一种类型SNP位点的分布区域。首先，将ABaa和ABab位点的分布区域划分出，之前尚无报道胎儿浓度超过50％，所以ABaa的次高碱基的深度的预期值在x/2到x/3之间，另外ABab的次高碱基的最大深度的预期值在x/2，所以可利用y＝x/3这条拟合线划分出ABaa和ABab这两类的SNP位点的分布区域。接下来是划分开AAaa和AAab类型的SNP位点。在理论上当母亲和胎儿都是纯合的情况下该位点不是SNP，但是由于测序错误和组装错误的存在产生了AAaa类型的SNP位点。根据之前的研究这些由于测序错误产生的SNP位点服从二项分布的，另外根据中心极限定理：数目够大的时候二项分布可以看成是正态分布，所以在此将这些位点看成是正态分布，而根据二项分布的性质：当位点数目大于20且各个之间的深度的差异具有显著性(p小于5％)时二项分布可以近似看成泊松分布。我们设定测序质量值为Q20(测序错误率低于1％)所以理论上这些SNP位点的P小于或者等于1％，符合二项分布近似当作泊松分布的要求，因此我们假设该正态分布的方差等于期望。将测序错误假设为1％，期望(均值)假设为每个位点的测序深度乘以1％即期望和方差都是(x_i+y_i)＊0.01，x_i和y_i分别表示SNP位点i的最高碱基深度和次高碱基深度。在正态分布中，99.9％的点会落在距均值三倍标准差以内，如图1所示。因此可用y＝(x_i+y_i)＊e+3＊δ即y＝(x_i+y_i)＊0.01+3＊((x_i+y_i)＊0.01)^0.5将AAab与AAaa区分开来。最后为AAab类型SNP位点分布区域划定左右边界以便排除其他不确定因素的影响。根据之前的研究，测序深度分布趋于泊松分布，按照泊松分布的原理：当λ＞5时泊松分布可以近似当作正态分布来考虑，泊松分布的方差和均值都为λ。当测序深度为200X、胎儿DNA浓度为5％的时候，AAab的次高碱基的深度为5，最高碱基深度为195，所以可以假设AAab的最高碱基和次高碱基也都服从正态分布，再根据之前提及的三倍标准差原理划定AAab的左右边界，划分的分布区域的整体结果如图2所示。图中，大写字母(A/B)代表来自母亲核酸的位点的碱基，小写字母(a/b)代表来自胎儿核酸的位点的碱基，A/a代表最高碱基，B/b代表同样位点的次高碱基，x轴代表最高碱基深度，y轴代表次高碱基深度。

实施例二

确定一个孕妇外周血样本中的胎儿核酸浓度，整体的操作流程包括：

1)从孕妇血浆中提取DNA，

2)对提取的DNA的至少一部分序列进行建库测序，例如利用芯片富集捕获基因组上的目标区域，然后建库测序，测序深度为100X，获得测序数据，

3)用软件SOAP2将测序数据比对到Hg19，

4)识别出SNP位点，如用SAMTOOLS软件生成含有SNP信息的文件，

5)依据落入实施例一划定出的AAab类型SNP位点的分布区域中的SNP位点(以下将AAab类型SNP位点的分布区域简称为AAab区域)，即选取母亲纯合但胎儿杂合(AAab)的SNP位点作为有效位点，计算预测胎儿核酸浓度。具体的，利用落在AAab SNP位点的分布区域内的每个SNP按照公式计算出每个位点对应的胎儿核酸浓度，最后取其中的中位数作为该样本的胎儿核酸浓度，y₄和x₄分别为落在AAab SNP位点的分布区域的一SNP位点的次高碱基深度和最高碱基深度。

实施例三

当待检测的孕妇样本的测序深度比较小(＜65X)或者胎儿浓度比较低(＜10％)的时候，划定的AAab与AAaa的界线会显得太过严格，而容易引起偏差。比如落到AAab区域的位点数太少无法估算或者由于取一组胎儿核酸浓度数值的中位数作为样本胎儿核酸浓度，当靠近x轴的AAab的SNP位点被去掉太多将较多的支持低胎儿浓度的SNP位点去掉导致结果偏大，如图2所示，所以当测序深度低于65X或者胎儿浓度低于10％时，我们调整AAab和AAaa的分界线且另外建立正态模型来修正胎儿核酸浓度值。第一步将AAab和AAaa的界线由原来的三倍标准差调为两倍标准差，从统计学的角度来讲正态分布中97.7％的点落在距离均值两倍标准差内。

根据实施例一的构建过程的描述，我们可以将各类SNP点看成是正态分布，因此可以基于以下假设建立混合正态模型来修正偏差：

1)产生10,000个模拟位点，符合报道的假定AAaa、AAab、ABaa和ABab位点在孕妇血浆中占的比例为7∶1∶1∶1。AAaa有纯合位点又有由于测序错误产生的杂合位点，根据之前报道的Hiseq2000的测序错误率设定测序错误率e为0.26％。

2)设定标准胎儿DNA浓度为0.5％到25％，间距0.5％依次取多个标准胎儿DNA浓度。

3)根据实施例一的构建过程的描述，可以将血浆中的SNP位点看成是方差等于均值的正态分布，可表示如下：

a)对于AAaa位点：

x_i～N(D-0.0026*D，(D-0.0026*D)^0.5)

y_i～N(0.0026*(D，0.0026*D)^0.5)

b)对于AAab位点：

x_i～N(D*(1-fe/2)，(D*(1-fe/2))^0.5)

y_i～N(D*fe/2，(D*fe/2)^0.5)

c)对于ABaa位点：

x_i～N(D*(1/2-fe/2)，(D*(1/2-fe/2))^0.5)

y_i～N(D*(1/2+fe/2)，(D*(1/2+fe/2))^0.5)

d)对于ABab位点：

x_i～N(D/2，(D/2)^0.5)

y_i～N(D/2，(D/2)^0.5)

根据上面假设的，用R语言产生模拟位点数据，调整实施例一的AAab区域的范围，依据落入调整后的AAab区域的模拟位点，依据实施例二的方法计算出预测的胎儿核酸浓度，可以得到一个测序深度下0.5～25％标准胎儿浓度和对应的预测的胎儿浓度两组数值，然后得到拟合方程。表2显示便于使用的产生出的不同深度下的拟合方程。当从孕妇血浆中得到一个计算的胎儿DNA浓度的时候，可先评估一下它的测序深度是否大于65X或者胎儿DNA浓度是否大于10％，如果其中任一是否定的或者两个都是否定的，可用拟合方程修正预测值，获得更加准确的结果。

表2

测序深度	公式
测序深度	公式	50X	f＝10.981f<sub>0</sub><sup>3</sup>-8.401f<sub>0</sub><sup>2</sup>+3.1292f<sub>0</sub>-0.1883
60X	f＝14.449f<sub>0</sub><sup>3</sup>-9.757f<sub>0</sub><sup>2</sup>+3.2212f<sub>0</sub>-0.1759	50X
60X		70X	f＝18.57f<sub>0</sub><sup>3</sup>-11.595f<sub>0</sub><sup>2</sup>+3.4261f<sub>0</sub>-0.1745
80X	f＝18.693f<sub>0</sub><sup>3</sup>-11.293 f<sub>0</sub><sup>2</sup>+3.279f<sub>0</sub>-0.1566	70X
80X		90X	f＝20.076f<sub>0</sub><sup>3</sup>-11.749f<sub>0</sub><sup>2</sup>+3.2816f<sub>0</sub>-0.1494
100X	f＝19.126f<sub>0</sub><sup>3</sup>-11.025f<sub>0</sub><sup>2</sup>+3.098f<sub>0</sub>-0.1337	90X
100X		110X	f＝19.81f<sub>0</sub><sup>3</sup>-11.159f<sub>0</sub><sup>2</sup>+3.0725f<sub>0</sub>-0.1279
120X	f＝20.61f<sub>0</sub><sup>3</sup>-11.38f<sub>0</sub><sup>2</sup>+3.0554f<sub>0</sub>-0.1226	110X
120X		130X	f＝19.808f<sub>0</sub><sup>3</sup>-10.82f<sub>0</sub><sup>2</sup>+2.9285f<sub>0</sub>-0.1128
140X	f＝20.752f<sub>0</sub><sup>3</sup>-10.892f<sub>0</sub><sup>2</sup>+2.8731f<sub>0</sub>-0.1061	130X

150X	f＝16.71f<sub>0</sub><sup>3</sup>-9.1447f<sub>0</sub><sup>2</sup>+2.623f<sub>0</sub>-0.0937
150X		160X	f＝16.878f<sub>0</sub><sup>3</sup>-9.1543f<sub>0</sub><sup>2</sup>+2.6011f<sub>0</sub>-0.0904
170X	f＝15.433f<sub>0</sub><sup>3</sup>-8.3874f<sub>0</sub><sup>2</sup>+2.4715f<sub>0</sub>-0.0831	160X
170X		180X	f＝17f<sub>0</sub><sup>3</sup>-8.9749f<sub>0</sub><sup>2</sup>+2.5224f<sub>0</sub>-0.0828
190X	f＝14.627f<sub>0</sub><sup>3</sup>-7.8187f<sub>0</sub><sup>2</sup>+2.3464f<sub>0</sub>-0.0743	180X
190X		200X	f＝13.3f<sub>0</sub><sup>3</sup>-7.2048f<sub>0</sub><sup>2</sup>+2.2491f<sub>0</sub>-0.0688

实施例四

实施例二的孕妇血浆样本，计算出的其中的胎儿核酸含量为5.2％，利用实施例三的偏差校正模型中的方程f＝19.126f₀ ³-11.025f₀ ²+3.098f₀-0.1337进行校正，获得校正后的胎儿核酸含量为2.6％。

实施例五

混合母亲和胎儿核酸的测序数据来模拟不同胎儿核酸含量的多个孕妇血浆样本，检验利用偏差校正模型校正计算出的胎儿核酸含量的准确度，测序深度(数据量)设定为150X。整体结果如图3所示，其中图3a为校正前的结果，图3b为校正后的结果，可看出，在真实胎儿核酸含量小于10％时，计算出的胎儿核酸含量与真实值有较明显偏离，如真实值大概在2％的，计算值为大于5％，经过校正，计算出的数值与真实值无明显偏离。说明在低胎儿核酸含量时，校正有利于获得准确的胎儿核酸浓度。

测序深度和AAab区域内SNP位点数目是影响计算出的核酸含量准确度的最主要因素，在此也检验分析下不同深度下的准确率。如图3所示，在胎儿核酸含量3％左右也能够准确的获得胎儿核酸浓度，且有相对较多的有效SNP位点。测试取不同深度40～200X准确率的变化，准确率的变化如图4所示，当测序深度为65X，绝对偏差e₁(e₁％＝|f-f0|)小于1％。

为了分析计算浓度所需的最少SNP位点数，本发明随机抽取SNP位点计算AAab区域内SNP所需的最少位点再推算出实际所需SNP位点数。如图5所示，不论是在4.8％、10％还是19.8％，当AAab区域内的SNP位点超过35个的时候计算值f₀与真实值f之间的相对误差e₂(e₂％＝小于10％。使相对误差不大于10％，AAab区域内的SNP位点至少为35个，及在孕妇血浆样本中AAab类型SNP位点占全部类型SNP位点不大于10％，计算得能够准确检测出不同胎儿核酸浓度所需的最少的全部类型SNP位点总数，如表3所示。

表3

实施例六

利用18个孕妇血浆样本来测试本发明确定孕妇样本胎儿核酸含量的方法的可行性，18个样本中有4个是同一个孕妇的不同孕期的血浆。结果如表4所示，其中的特异性＝落在AAab区域内的真实AAab位点数目/落在AAab区域内位点总数，灵敏度＝落在AAab区域内的真实AAab位点/AAab位点总数，其中的真实AAab位点数目和AAab位点总数可通过传统试验分型方法获得，从表4数据可以看出本发明方法准确可行。为了更进一步比较分析，该示例还用Y染色体深度计算这18份血浆样品中的9个男胎胎儿核酸浓度，且与用本发明方法计算得的男胎胎儿核酸浓度值进行比较，结果如图6所示，有较强的相关性(r＝0.94；p＜0.0001)。所说的利用Y染色体深度计算男胎核酸浓度是已知方法，可参考[Struble C A，Syngelaki A，Oliphant A，et al.Fetal fraction estimate in twin pregnancies using directed cell-free DNA analysis[J].Fetal diagnosis and therapy，2013，35(3)：161-165.]进行，包括获取样本中Y染色体在dbSNP数据库中的SNP位点的深度，过滤掉在女胎也有的位点的数据，取剩下的位点的深度的中位数乘以2(因Y染色体只有一条)再除以常染色体深度的中位数，得到利用Y染色体深度计算出来的胎儿核酸浓度。

表4

Claims

一种构建不同组合基因型SNP位点分布区域的装置，所述组合基因型为所述SNP位点在第一来源核酸中的基因型和在第二来源核酸中的基因型的组合，其特征在于，所述装置包括，

第一区域-第二区域构建单元，用于构建第一区域和第二区域，所述第一区域是第一组合基因型SNP位点的分布区域，所述第二区域是第二组合基因型SNP位点的分布区域，

所述第一区域和所述第二区域是基于第一关系和第二关系的差异划分开的，

所述第一关系为所述第一组合基因型SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，

所述第二关系为所述第二组合基因型SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，

所述第一组合基因型为ABaa和ABab，所述第二组合基因型为AAaa和AAab；

第三区域-第四区域构建单元，用于从所述第二区域中构建第三区域和第四区域，所述第三区域是所述第二组合基因型SNP位点中的第一预定比例的AAaa SNP位点的分布区域，所述第四区域是所述第二组合基因型SNP位点中的AAab SNP位点的分布区域，

所述第三区域和所述第四区域是基于第三关系和第四关系的差异划分开的，

所述第三关系为所述第二组合基因型SNP位点中的第一预定比例的AAaa SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，

所述第四关系为所述第二组合基因型SNP位点中的AAab SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系；其中，

AA和AB分别表示纯合和杂合的来自所述第一来源核酸的SNP位点，aa和ab分别表示纯合和杂合的来自所述第二来源核酸的相同SNP位点，

A或a表示所述SNP位点的最高碱基，B或b表示相同所述SNP位点的次高碱基。
权利要求1的装置，其特征在于，还包括，

闭合第四区域构建单元，用于从所述第四区域中构建闭合第四区域，所述闭合第四区域是所述第二组合基因型SNP位点中的第二预定比例的AAab SNP位点的分布区域，

所述闭合第四区域是基于所述AAab SNP位点的次高碱基和最高碱基的深度都服从正态分布，以及设定所述第二预定比例，从所述第四区域中构建获得的。
权利要求1或2的装置，其特征在于，所述第一预定比例不小于95％。
权利要求1的装置其特征在于所述第一关系为x/2≥y≥x/3所述第二关系为0＜y＜x/3，所述第三关系为0＜y＜(x+y)＊e+m＊δ，所述第四关系为(x+y)＊e+m＊δ＜y＜3/x，所述第一关系和第二关系的差异为y＝x/3，所述第三关系和第四关系的差异为y＝(x+y)＊e+m＊δ，其中，

y为SNP位点的次高碱基的深度，

x为SNP位点的最高碱基的深度，

e为测序错误率，

δ为标准差，δ＝((x+y)＊e)^0.5，

m取决于所述第一预定比例，m＊δ和所述第一预定比例的关系为标准正态分布中的标准差和概率的比率关系。
权利要求4的装置，其特征在于，e≤1％。
权利要求4的装置，其特征在于，当所述第一预定比例为99.9％时，m＝3。
权利要求2的装置，其特征在于，所述第二预定比例不小于95％。
权利要求2的装置，其特征在于，所述闭合第四区域为y＝x/3、y＝(x+y)＊e+m＊δ、y＝D0-n＊δ-x和y＝D₀+n＊δ-x形成的区域，其中，

y为SNP位点的次高碱基的深度，

x为SNP位点的最高碱基的深度，

e为测序错误率，e≤1％，

δ为标准差，δ＝((x+y)＊e)^0.5，

D₀为SNP位点的平均深度，

m取决于所述第一预定比例，m＊δ和所述第一预定比例的关系为标准正态分布中的标准差和概率的比率关系，

n取决于所述第二预定比例，n＊δ和所述第二预定比例的关系为标准正态分布中的标准差和概率的比率关系。
权利要求8的装置，其特征在于，当所述第一预定比例和所述第二预定比例均为99.9％时，m＝n＝3。
权利要求8的装置，其特征在于，D₀≥100X。
一种构建不同组合基因型SNP位点的分布区域的方法，所述组合基因型为所述SNP位点在第一来源核酸中的基因型和在第二来源核酸中的基因型的组合，其特征在于，所述方法包括，

基于第一关系和第二关系的差异，构建第一区域和第二区域，

所述第一区域是第一组合基因型SNP位点的分布区域，

所述第二区域是第二组合基因型SNP位点的分布区域，

所述第一关系为所述第一组合基因型SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，

所述第二关系为所述第二组合基因型SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，

所述第一组合基因型为ABaa和ABab，所述第二组合基因型为AAaa和AAab；基于第三关系和第四关系的差异，从所述第二区域中构建第三区域和第四区域，

所述第三区域是所述第二组合基因型SNP位点中的第一预定比例的AAaa SNP位点的分布区域，

所述第四区域是所述第二组合基因型SNP位点中的AAab SNP位点的分布区域，

所述第三关系为所述第二组合基因型SNP位点中的第一预定比例的AAaa SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系，

所述第四关系为所述第二组合基因型SNP位点中的AAab SNP位点的次高碱基的深度及其最高碱基的深度之间满足的关系；其中，

AA和AB分别表示纯合和杂合的来自所述第一来源核酸的SNP位点，aa和ab分别表示纯合和杂合的来自所述第二来源核酸的相同SNP位点，

A或a表示所述SNP位点的最高碱基，B或b表示相同SNP位点的次高碱基。
权利要求11的方法，其特征在于，还包括，

从所述第四区域中构建闭合第四区域，所述闭合第四区域是所述第二组合基因型SNP位点中的第二预定比例的AAab SNP位点的分布区域，其中包括，

基于所述AAab SNP位点的次高碱基和最高碱基的深度都服从正态分布，以及设定所述第二预定比例，从所述第四区域中构建获得的。
权利要求11或12的方法，其特征在于，所述第一预定比例不小于95％。
权利要求11的方法，其特征在于，所述第一关系为x/2≥y≥x/3，所述第二关系为0＜y＜x/3，所述第三关系为0＜y＜(x+y)＊e+m＊δ，所述第四关系为(x+y)＊e+m＊δ＜y＜3/x，所述第一关系和第二关系的差异为y＝x/3，所述第三关系和第四关系的差异为y＝(x+y)＊e+m＊δ，其中，

y为SNP位点的次高碱基的深度，

x为SNP位点的最高碱基的深度，

e为测序错误率，

δ为标准差，δ＝((x+y)＊e)^0.5，

m取决于所述第一预定比例，m＊δ和所述第一预定比例的关系为标准正态分布中的标准差和概率的比率关系。
权利要求14的方法，其特征在于，e≤1％。
权利要求14的方法，其特征在于，当所述第一预定比例为99.9％时，m＝3。
权利要求12的方法，其特征在于，所述第二预定比例不小于95％。
权利要求12的方法，其特征在于，所述闭合第四区域为y＝x/3、y＝(x+y)＊e+m＊δ、y＝D₀-n＊δ-x和y＝D₀+n＊δ-x形成的区域，其中，

y为SNP位点的次高碱基的深度，

x为SNP位点的最高碱基的深度，

e为测序错误率，e≤1％，

δ为标准差，δ＝((x+y)＊e)^0.5，

D₀为SNP位点的平均深度，

m取决于所述第一预定比例，m＊δ和所述第一预定比例的关系为标准正态分布中的标准差和概率的比率关系，

n取决于所述第二预定比例，n＊δ和所述第二预定比例的关系为标准正态分布中的标准差和概率的比率关系。
权利要求18的方法，其特征在于，当所述第一预定比例和所述第二预定比例均为99.9％时，m＝n＝3。
权利要求18的方法，其特征在于，D₀≥100X。
一种区分不同组合基因型SNP位点的方法，所述组合基因型为所述SNP位点在第一来源核酸中的基因型和在第二来源核酸中的基因型的组合，其特征在于，所述方法包括，

对混合核酸样本中的至少一部分核酸进行序列测定，获得测序数据，所述测序数据由多个读段组成，所述混合核酸样本包含所述第一来源核酸和所述第二来源核酸；

将所述测序数据与参考序列比对，获得比对结果；

基于所述比对结果，识别出SNP位点；

基于所述比对结果，确定所述SNP位点所处的分布区域，所述分布区域依据权利要求11-20任一方法构建；

基于所述SNP位点所处的分布区域，确定所述SNP位点的组合基因型。
一种确定孕妇样本中胎儿核酸含量的方法，其特征在于，包括，

获取测序结果，所述测序结果的获取包括对孕妇样本中的至少一部分核酸进行序列测定，所述测序结果由多个读段组成，所述孕妇样本包含母体核酸和胎儿核酸；

将所述测序结果与参考序列比对，获得比对结果；

基于所述比对结果，识别出SNP位点；

确定所述SNP位点所处的分布区域，所述分布区域依据权利要求11-20任一方法构建；

基于处于所述分布区域中的第四区域或者闭合第四区域的SNP位点，确定所述孕妇样本中的胎儿核酸含量。
权利要求22的方法，其特征在于，所述孕妇样本来自孕妇外周血和孕妇尿液的至少一种。
权利要求22的方法，其特征在于，所述测序结果包含的数据量为不小于65X。
权利要求22的方法，其特征在于，所述胎儿核酸含量为2＊y₄/(x₄+y₄)的中位数，

y₄为处于所述第四区域或者所述闭合第四区域的每个SNP位点的次高碱基的深度，

x₄为处于所述第四区域或者所述闭合第四区域的相应的每个SNP位点的最高碱基的深度，其中，

碱基的深度为其获得的支持读段的数目。
权利要求22-25任一方法，其特征在于，还包括，当测序结果包含的数据量少于65X和/或所述胎儿核酸含量小于10％，利用偏差校正模型来校正所述胎儿核酸含量，获得校正的胎儿核酸含量。
权利要求26的方法，其特征在于，当测序结果包含的数据量少于65X和/或所述胎儿核酸含量小于10％，在利用偏差校正模型进行校正之前，调整第一预定比例，以增大第四区域或者闭合第四区域范围。
权利要求26的方法，其特征在于，所述偏差校正模型的建立包括，

获取K个模拟位点，K＝K₁+K₂+K₃+K₄，K₁为组合基因型AAaa模拟位点的数目，K₂为组合基因型AAab的模拟位点的数目，K₃为组合基因型ABaa模拟位点的数目，K₄为组合基因型ABab模拟位点的数目，K₂/K≥0.5％，K₂≥35；

设定不同标准胎儿核酸含量f，基于假设，利用处于所述第四区域或者所述闭合第四区域的模拟位点计算相应的胎儿核酸含量f₀，

对获得的多组(f，f₀)进行多项式回归，以建立所述偏差校正模型；

所述假设包括，

组合基因型AAaa模拟位点的最高碱基和次高碱基的深度分别服从N(D-e*D，D-e*D和N(e*D，e*D)，

组合基因型AAab模拟位点的最高碱基和次高碱基的深度分别服从N(D*(1-f/2)，D*(1-f/2))和N(D*f/2，(D*f/2))，

组合基因型ABaa模拟位点的最高碱基和次高碱基的深度分别服从N(D*(1/2-f/2)，D*(1/2-f/2))和N(D*(1/2+f/2)，D*(1/2+f/2))，

组合基因型ABab模拟位点的最高碱基和次高碱基的深度分别服从N(D/2，D/2)和其中，

e为测序错误率，e＝K₁/K≤1％，

D为模拟位点的平均测序深度，

f为标准胎儿核酸含量，0.5％≤f≤25％。
权利要求28的方法，其特征在于，所述偏差校正模型包括，

D＝50X时，f＝10.981f₀ ³-8.401f₀ ²+3.1292f₀-0.1883，

D＝60X时，f＝14.449f₀ ³-9.757f₀ ²+3.2212f₀-0.1759，

D＝70X时，f＝18.57f₀ ³-11.595f₀ ²+3.4261f₀-0.1745，

D＝80X时，f＝18.693f₀ ³-11.293f₀ ²+3.279f₀-0.1566，

D＝90X时，f＝20.076f₀ ³-11.749f₀ ²+3.2816f₀-0.1494，

D＝100X时，f＝19.126f₀ ³-11.025f₀ ²+3.098f₀-0.1337，

D＝110X时，f＝19.81f₀ ³-11.159f₀ ²+3.0725f₀-0.1279，

D＝120X时，f＝20.61f₀ ³-11.38f₀ ²+3.0554f₀-0.1226，

D＝130X时，f＝19.808f₀ ³-10.82f₀ ²+2.9285f₀-0.1128，

D＝140X时，f＝20.752f₀ ³-10.892f₀ ²+2.8731f₀-0.1061，

D＝150X时，f＝16.71f₀ ³-9.1447f₀ ²+2.623f₀-0.0937，

D＝160X时，f＝16.878f₀ ³-9.1543f₀ ²+2.6011f₀-0.0904，

D＝170X时，f＝15.433f₀ ³-8.3874f₀ ²+2.4715f₀-0.0831，

D＝180X时，f＝17f₀ ³-8.9749f₀ ²+2.5224f₀-0.0828，

D＝190X时，f＝14.627f₀ ³-7.8187f₀ ²+2.3464f₀-0.0743，

D＝200X时，f＝13.3f₀ ³-7.2048f₀ ²+2.2491f₀-0.0688。
一种确定孕妇样本中胎儿核酸含量的装置，其特征在于，包括，

数据输入单元，用于输入数据；

数据输出单元，用于输出数据；

存储单元，用于存储数据，其中包括可执行程序；

处理器，与所述数据输入单元、数据输出单元和存储单元连接，用于执行所述可执行程序，所述可执行程序的执行包括完成权利要求22-29任一方法。
一种计算机可读介质，其特征在于，用于存储供计算机执行的程序，所述程序的执行包括完成权利要求22-29任一方法。