CN108256296B

CN108256296B - 数据处理装置

Info

Publication number: CN108256296B
Application number: CN201711499257.6A
Authority: CN
Inventors: 徐寒黎; 王伟伟; 张静波; 刘珂弟; 刘倩; 唐宇
Original assignee: Beijing Usci Biotechnology Co ltd
Current assignee: Beijing Usci Biotechnology Co ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2021-05-25
Anticipated expiration: 2037-12-29
Also published as: CN108256296A

Abstract

本发明公开了一种数据处理装置。其中，该装置用于：获取对多个孕妇DNA样本进行测序得到的测序数据，通过第一公式计算每个孕妇DNA样本中的胎儿浓度；再利用聚类算法将多个孕妇DNA样本的胎儿浓度h分为女胎样本和男胎样本；分别对女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型，得到女胎儿样本的比例h的概率分布模型f₀(h)、以及所有样本包括男胎样本和女胎样本的比例h的概率分布模型f₁(h)；根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。本发明解决了上述相关技术中产前检测存在一定的局限性的技术问题。

Description

数据处理装置

技术领域

本发明涉及生物医学技术领域，具体而言，涉及一种数据处理装置。

背景技术

染色体异常是导致出生缺陷的重要原因，在众多染色体异常疾病中，胎儿染色体非整倍数体病变是胎儿最常见的染色体畸形。产前诊断可以在怀孕早期或中期就对胎儿做出诊断，以便进行提前干预或治疗，是降低出生缺陷、提高出生人口素质的重要手段。目前染色体异常的产前诊断通常分为非侵入性和侵入性两种手段。其中，侵入性手段包括：绒毛活检术、羊膜穿刺术和经腹静脉穿刺术等。虽然结果较为准确，但是具有相当高的风险性，容易造成孕妇流产或宫内感染。产前筛查手段(外周血生化筛查和超声颈部透明带)虽然不使用侵入式方法，但是检测率和假阳率并不能达到期望的水平。无创产前检测(noninvasive prenatal testing，简称NIPT)是应用于孕期产检的一项技术，这项技术是基于孕妇外周血血浆中存在游离胎儿DNA，具有很高的检测准确性，同时也避免了侵入性检测所带来的流产和宫内感染风险。

传统的NIPT检测是利用假设检验Z-test检测染色体异常，首先需要抽取孕妇外周血，分离出血浆，提取出血浆游离DNA，构建二代测序文库，利用二代测序仪得到孕妇血浆游离DNA的序列信息，得到的测序数据通过基本的质控、和人类参考基因组比对、GC校正、计算Z-score等步骤来得到胎儿患病风险。然而，该方法具有一定的局限性，首先，未利用到胎儿浓度信息，胎儿游离DNA的相对含量将会影响Z-score的估计。另外，Z-score通常设定阈值为3，对于略大于3或略小于3的值是很难进行判定的，因为实验或者人为因素会造成一定的误差，直接判定会增加假阳性率和假阴性率。

针对上述相关技术中产前检测存在一定的局限性的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据处理装置，以至少解决上述相关技术中产前检测存在一定的局限性的技术问题。

根据本发明实施例的一个方面，提供了一种数据处理方法，该方法包括：获取对多个孕妇DNA样本进行测序得到的测序数据；根据所述多个孕妇DNA样本的所述测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的Unique Reads的百分比URratio、以及Y染色体的UR ratio；通过第一公式计算所述每个孕妇DNA样本中的胎儿浓度，其中，所述第一公式为：h＝2a/(1+a)，其中，a表示X染色体的含量与Y染色体的含量的比例，h表示所述胎儿浓度；利用聚类算法将所述多个孕妇DNA样本的胎儿浓度h分为女胎样本和男胎样本，其中，所述女胎样本的胎儿比例的期望值为0；分别对所述女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型，得到所述女胎儿样本的比例h的概率分布模型f₀(h)、以及所述所有样本包括男胎样本和女胎样本的比例h的概率分布模型f₁(h)；通过第二公式计算贝叶斯因子BF，其中，所述第二公式为：

p(D|H₀)＝∫_Rp(D|h)f₀(h)dh，p(D|H₁)＝∫_Rp(D|h)f₁(h)dh，其中，在零假设H₀条件下h～f₀(h)，在备择假设H₁条件下h～f₁(h)，D＝(x，s)，x为中心化后的染色体剂量，x作为比例h的样本估计，s为染色体剂量的样本间标准差；根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。

可选地，计算所述每个孕妇DNA样本的所述UR ratio、以及所述Y染色体的所述URratio包括：对所述测序数据去除接头和低质量reads，得到经过初步处理后的DNA序列；将所述DNA序列与人类基因组参考序列进行比对，根据比对结果统计每条染色体的唯一reads的条数；通过对所述每条染色体的唯一reads的总量进行优化及校正处理，得到所述每条染色体的含量。

可选地，对所述每条染色体的唯一reads的总量进行优化及校正处理，得到所述每条染色体的含量包括：通过预设窗口对所述每条染色体的reads进行分窗处理，得到多个区域；对所述多个区域进行如下筛选处理，得到筛选结果，其中，所述筛选结果包括以下至少之一：去除包含基因组串联重复及散在重复序列的第一区域，去除包含母体基因拷贝数变异CNV干扰的第二区域，去除包含人类种群干扰的第三区域；根据所述筛选结果，统计所述多个区域内唯一reads数目，及reads的GC含量，以对所述多个区域内的唯一reads数目进行校正操作，其中，所述校正操作包括：GC校正和染色体校正。

可选地，对所述多个区域内的所述唯一reads数目进行所述校正操作包括：通过平滑样条法对所述经过筛选之后的所述多个区域进行GC含量的校正，得到校正之后的所述多个区域的染色体含量；计算所述校正之后的所述多个区域的所述唯一reads的含量的均值和标准差，构建加权线性回归模型以校正由于不同染色体的基线不同所带来的偏差，以重新计算所述每条染色体的杂合比，其中，所述每条染色体的杂合比为所述每条染色体的唯一reads的含量。

可选地，在重新计算的所述每条染色体的唯一reads的含量之后，所述方法还包括：通过第三公式计算待检孕妇DNA的每条染色体的Z值，其中，所述第三公式为：Z_i＝(x_i-u_i)/σi，其中，Zi表示所述待检孕妇DNA的第i条染色体的Z值，x_i表示所述待检孕妇DNA的第i条染色体的唯一reads的比例，u_i表示所述待检孕妇DNA样本的第i条染色体的唯一reads的比例的平均值，σ_i表示所述待检孕妇DNA样本的第i条染色体的唯一reads的比例的标准误差。

可选地，在计算所述待检孕妇DNA的每条染色体的Z值之后，所述方法还包括：结合所述待检孕妇DNA的每条染色体的杂合比、Z值和贝叶斯因子是否在对应的阈值区间之内对所述待检孕妇DNA的常染色体是否发生异常进行综合判断，得到判断结果。

根据本发明实施例的另外一个方面，还提供了一种数据处理装置，包括：第一获取单元，用于获取对多个孕妇DNA样本进行测序得到的测序数据；第一确定单元，用于根据所述多个孕妇DNA样本的所述测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的Unique Reads的百分比UR ratio、以及Y染色体的UR ratio；第二确定单元，用于通过第一公式确定所述每个孕妇DNA样本中的胎儿浓度，其中，所述第一公式为：h＝2a/(1+a)，其中，a表示X染色体的含量与Y染色体的含量的比例，h表示所述胎儿浓度；分类单元，用于利用聚类算法将所述多个孕妇DNA样本的胎儿浓度h划分为女胎样本和男胎样本，其中，所述女胎样本的胎儿比例的期望值为0；拟合单元，用于分别对所述女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型，得到所述女胎儿样本的比例h的概率分布模型f₀(h)、以及所述所有样本包括男胎样本和女胎样本的比例h的概率分布模型f₁(h)；第三确定单元，用于通过第二公式计算贝叶斯因子BF，其中，所述第二公式为：

p(D|H₀)＝∫_Rp(D|h)f₀(h)dh，p(D|H₁)＝∫_Rp(D|h)f₁(h)dh，其中，在零假设H₀条件下h～f₀(h)，在备择假设H₁条件下h～f₁(h)，D＝(x，s)，x为中心化后的染色体剂量，x作为比例h的样本估计，s为染色体剂量的样本间标准差；分析单元，用于根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。

可选地，所述第一确定单元包括：获取子单元，用于对所述测序数据去除接头和低质量reads，得到经过初步处理后的DNA序列；比对子单元，用于将所述DNA序列与人类基因组参考序列进行比对，根据比对结果统计每条染色体的唯一reads的条数；处理子单元，用于通过对所述每条染色体的唯一reads的总量进行优化及校正处理，得到所述每条染色体的含量。

可选地，所述处理子单元包括：第一获取模块，用于通过预设窗口对所述每条染色体的reads进行分窗处理，得到多个区域；第二获取模块，用于对所述多个区域进行如下筛选处理，得到筛选结果，其中，所述筛选结果包括以下至少之一：去除包含基因组串联重复及散在重复序列的第一区域，去除包含母体基因拷贝数变异CNV干扰的第二区域，去除包含人类种群干扰的第三区域；校正模块，用于根据所述筛选结果，统计所述多个区域内唯一reads数目，及reads的GC含量，以对所述多个区域内的唯一reads数目进行校正操作，其中，所述校正操作包括：GC校正和染色体校正。

可选地，所述校正模块包括：获取子模块，用于通过平滑样条法对所述经过筛选之后的所述多个区域进行GC含量的校正，得到校正之后的所述多个区域的染色体含量；计算子模块，用于计算所述校正之后的所述多个区域的所述唯一reads的含量的均值和标准差，构建加权线性回归模型以校正由于不同染色体的基线不同所带来的偏差，以重新计算所述每条染色体的杂合比，其中，所述每条染色体的杂合比为所述每条染色体的唯一reads的含量。

可选地，所述装置还包括：第四确定单元，用于在重新计算的所述每条染色体的唯一reads的含量之后，通过第三公式计算待检孕妇DNA的每条染色体的Z值，其中，所述第三公式为：Z_i＝(x_i-u_i)/σ_i，其中，Z_i表示所述待检孕妇DNA的第i条染色体的Z值，x_i表示所述待检孕妇DNA的第i条染色体的唯一reads的比例，u_i表示所述待检孕妇DNA样本的第i条染色体的唯一reads的比例的平均值，σ_i表示所述待检孕妇DNA样本的第i条染色体的唯一reads的比例的标准误差。

可选地，所述装置还包括：第二获取单元，用于结合所述待检孕妇DNA的每条染色体的杂合比、Z值和贝叶斯因子是否在对应的阈值区间之内对所述待检孕妇DNA的常染色体是否发生异常进行综合判断，得到判断结果。

根据本发明实施例的另外一个方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述中任意一项所述的数据处理方法。

根据本发明实施例的另外一个方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述中任意一项所述的数据处理方法。

在本发明实施例中，可以获取对多个孕妇DNA样本进行测序得到的测序数据，根据测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的UniqueReads的百分比UR ratio、以及Y染色体的UR ratio，通过第一公式计算每个孕妇DNA样本中的胎儿浓度，其中，第一公式为：h＝2a/(1+a)，其中，a表示X染色体的含量与Y染色体的含量的比例，h表示胎儿浓度；再利用聚类算法将多个孕妇DNA样本的胎儿浓度h分为女胎样本和男胎样本，其中，女胎样本的胎儿比例的期望值为0；分别对女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型，得到女胎儿样本的比例h的概率分布模型f₀(h)、以及所有样本包括男胎样本和女胎样本的比例h的概率分布模型f₁(h)；根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。通过本发明实施例提供的数据处理方法可以有效评估胎儿浓度，建立判定模型，胎儿浓度低时能保证检测结果准确，同时利用胎儿浓度构建先验分布模型进行贝叶斯分析，计算贝叶斯因子，结合贝叶斯因子对检测结果进行准确判断，适用于母体异常的情况，能够有效提出母体异常的影响，进而解决了相关技术中产前检测存在一定的局限性的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的数据处理方法的流程图；以及

图2是根据本发明实施例的数据处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，下面对本发明实施例中的部分名词或术语进行详细说明：

常染色体：是对性别决定不起直接作用，除了性染色体外的所有染色体。

基因拷贝数变异(copy number variations，简称CNV)：用来表示肿瘤缺失或扩增。

根据本发明实施例，提供了一种数据处理方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的数据处理方法的流程图，如图1所示，该数据处理方法包括如下步骤：

步骤S102，获取对多个孕妇DNA样本进行测序得到的测序数据。

其中，选取一定数量孕周大于12周且核型分析无染色体异常的孕妇样品，男胎和女胎比例无统计学差异，并构建人类基因组参考数据流。

步骤S104，根据多个孕妇DNA样本的测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的Unique Reads的百分比UR ratio、以及Y染色体的URratio。

步骤S106，通过第一公式计算每个孕妇DNA样本中的胎儿浓度，其中，第一公式为：h＝2a/(1+a)，其中，a表示X染色体的含量与Y染色体的含量的比例，h表示胎儿浓度。

步骤S108，利用聚类算法将多个孕妇DNA样本的胎儿浓度h分为女胎样本和男胎样本，其中，女胎样本的胎儿比例的期望值为0。

步骤S110，分别对女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型，得到女胎儿样本的比例h的概率分布模型f₀(h)、以及所有样本包括男胎样本和女胎样本的比例h的概率分布模型f₁(h)。

步骤S112，通过第二公式计算贝叶斯因子BF，其中，第二公式为：

p(D|H₀)＝∫_Rp(D|h)f₀(h)dh，p(D|H₁)＝∫_Rp(D|h)f₁(h)dh，其中，在零假设H₀条件下h～f₀(h)，在备择假设H₁条件下h～f₁(h)，D＝(x，s)，x为中心化后的染色体剂量，x作为比例h的样本估计，s为染色体剂量的样本间标准差。把x当做胎儿比例h的一个样本估计，得到似然值

对h积分得到，

步骤S114，根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。

通过上述实施例，可以获取对多个孕妇DNA样本进行测序得到的测序数据，根据测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的Unique Reads的百分比UR ratio、以及Y染色体的UR ratio，通过第一公式计算每个孕妇DNA样本中的胎儿浓度，其中，第一公式为：h＝2a/(1+a)，其中，a表示X染色体的含量与Y染色体的含量的比例，h表示胎儿浓度；再利用聚类算法将多个孕妇DNA样本的胎儿浓度h分为女胎样本和男胎样本，其中，女胎样本的胎儿比例的期望值为0；分别对女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型，得到女胎儿样本的比例h的概率分布模型f₀(h)、以及所有样本包括男胎样本和女胎样本的比例h的概率分布模型f₁(h)；根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。相对于相关技术中在进行无创产前检测时未利用到胎儿浓度信息，胎儿游离DNA的相对含量会影响到Z-score的估计，并且Z-score通常设定阈值为3，对于略大于3或略小于3的值是很难进行判定的，直接判定会增加假阳性率和假阴性率，通过本发明实施例提供的数据处理方法可以有效评估胎儿浓度，建立判定模型，胎儿浓度低时能保证检测结果准确，同时利用胎儿浓度构建先验分布模型进行贝叶斯分析，计算贝叶斯因子，结合贝叶斯因子对检测结果进行准确判断，适用于母体异常的情况，能够有效提出母体异常的影响，进而解决了相关技术中产前检测存在一定的局限性的技术问题。

在本发明一个可选的实施例中，为了确保测序数据的质量，避免接头序列污染，计算每个孕妇DNA样本的UR ratio、以及Y染色体的UR ratio可以包括：对测序数据去除接头和低质量reads，得到经过初步处理后的DNA序列；将DNA序列与人类基因组参考序列进行比对，根据比对结果统计每条染色体的唯一reads的条数；通过对每条染色体的唯一reads的总量进行优化及校正处理，得到每条染色体的含量。具体地，对获取得到的测序数据进行去除接口以及低质量的reads，然后将经过处理的DNA序列比对到人类基因组参考序列上，根据比对的结果来统计样品DNA序列在每条染色体上的分布情况，统计每条染色体上的Unique Reads的条数。

在本发明一个可选的实施例中，由于无创产前检测样本测序覆盖率较低，因此，对每条染色体的唯一reads的总量进行优化及校正处理，得到每条染色体的含量可以包括：通过预设窗口对每条染色体的reads进行分窗处理，得到多个区域；对多个区域进行如下筛选处理，得到筛选结果，其中，筛选结果包括以下至少之一：去除包含基因组串联重复及散在重复序列的第一区域，去除包含母体基因拷贝数变异CNV干扰的第二区域，去除包含人类种群干扰的第三区域；根据筛选结果，统计多个区域内唯一reads数目，及reads的GC含量，以对多个区域内的唯一reads数目进行校正操作，其中，校正操作包括：GC校正和染色体校正。具体地，在进行后续分许之前，首先将整个染色体的reads分窗统计，通过设置不同宽度的窗，以及不同长度的重叠区域，对每个窗的reads含量进行稳定性分析，最终选择出最优的窗100kbp，重叠区域为50kbp。另外，为了避免一些重复序列的干扰，需要去除包含基因组串联重复以及散在重复序列的窗。再者，由于采集的样本都是中国孕妇人群，而参考基因组而参考基因组hg19是欧洲人，会存在一些种群水平上的假定CNV，此外母体自身存在的CNV也会对胎儿三体的检测带来干扰，因此可以通过构建隐马尔可夫模型来分别监测和提出包含上述基因组串联重复以及散在重复序列的窗。

出了上述三体信号以及上面提到的干扰因素之外，其他因素也会对UR ratio造成较大的影响，例如，样品上机批次以及测序的GC-bias等。因此，在本发明一个可选的实施例中，对多个区域内的唯一reads数目进行校正操作可以包括：通过平滑样条法对经过筛选之后的多个区域进行GC含量的校正，得到校正之后的多个区域的染色体含量；计算校正之后的多个区域的唯一reads的含量的均值和标准差，构建加权线性回归模型以校正由于不同染色体的基线不同所带来的偏差，以重新计算每条染色体的杂合比，其中，每条染色体的杂合比为每条染色体的唯一reads的含量。其中，可选的校正方式有三种校正算法，例如，局部多项式回归、权重校正、平滑样条法。通过比较之后，最终选择平滑样条法，平滑样条法可以更好的对GC进行校正，尽可能减少误差干扰，有效地判断UR ratio的值是否有统计学意义上的异常。

另外，不同染色体区域有不同的基线覆盖度，尽管GC校正减轻了极限差异，但是远不能消除极限之间的差异。通过计算全部正常对照样本GC校正后的窗含量的均值和标准差，构建加权线性回归模型，从而校正不同染色体基线带来的偏差，然后重新计算每条染色体的含量，及每条染色体的杂合比。因此，在重新计算的每条染色体的唯一reads的含量之后，上述数据处理方法还可以包括：通过第三公式计算待检孕妇DNA的每条染色体的Z值，其中，第三公式为：Z_i＝(x_i-u_i)/σi，其中，Zi表示待检孕妇DNA的第i条染色体的Z值，x_i表示待检孕妇DNA的第i条染色体的唯一reads的比例，u_i表示待检孕妇DNA样本的第i条染色体的唯一reads的比例的平均值，σ_i表示待检孕妇DNA样本的第i条染色体的唯一reads的比例的标准误差。

可选地，在计算待检孕妇DNA的每条染色体的Z值之后，上述数据处理方法还包括：结合待检孕妇DNA的每条染色体的杂合比、Z值和贝叶斯因子是否在对应的阈值区间之内对待检孕妇DNA的常染色体是否发生异常进行综合判断，得到判断结果。

在本发明一个可选的实施例中，由于每条染色体及每个年龄段的发病率不同，chr21的发病率最高，随着年龄增长，染色体的发病率明显上升，因此还需要对贝叶斯因子进行校正，具体地，可以通过第四公式对贝叶斯因子进行校正，其中，第四公式为：

其中，BF^*表示校正后的贝叶斯因子，

根据本发明实施例的另外一个方面，还提供了一种数据处理装置，图2是根据本发明实施例的数据处理装置的示意图，如图2所示，该数据处理装置包括：第一获取单元21，第一确定单元22，第二确定单元23，分类单元24，拟合单元25，第三确定单元26以及分析单元27。下面对该数据处理装置进行详细说明。

第一获取单元21，用于获取对多个孕妇DNA样本进行测序得到的测序数据。

第一确定单元22，用于根据多个孕妇DNA样本的测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的Unique Reads的百分比UR ratio、以及Y染色体的UR ratio。

第二确定单元23，用于通过第一公式确定每个孕妇DNA样本中的胎儿浓度，其中，第一公式为：h＝2a/(1+a)，其中，a表示X染色体的含量与Y染色体的含量的比例，h表示胎儿浓度。

分类单元24，用于利用聚类算法将多个孕妇DNA样本的胎儿浓度h划分为女胎样本和男胎样本，其中，女胎样本的胎儿比例的期望值为0。

拟合单元25，用于分别对女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型，得到女胎儿样本的比例h的概率分布模型f₀(h)、以及所有样本包括男胎样本和女胎样本的比例h的概率分布模型f₁(h)。

第三确定单元26，用于通过第二公式计算贝叶斯因子BF，其中，第二公式为：

p(D|H₀)＝∫_Rp(D|h)f₀(h)dh，p(D|H₁)＝∫_Rp(D|h)f₁(h)dh，其中，在零假设H₀条件下h～f₀(h)，在备择假设H₁条件下h～f₁(h)，D＝(x，s)，x为中心化后的染色体剂量，x作为比例h的样本估计，s为染色体剂量的样本间标准差。

分析单元27，用于根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。

在上述实施例中，利用第一获取单元，用于获取对多个孕妇DNA样本进行测序得到的测序数据；第一确定单元，用于根据多个孕妇DNA样本的测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的Unique Reads的百分比UR ratio、以及Y染色体的UR ratio；第二确定单元，用于通过第一公式确定每个孕妇DNA样本中的胎儿浓度，其中，第一公式为：h＝2a/(1+a)，其中，a表示X染色体的含量与Y染色体的含量的比例，h表示胎儿浓度；分类单元，用于利用聚类算法将多个孕妇DNA样本的胎儿浓度h划分为女胎样本和男胎样本，其中，女胎样本的胎儿比例的期望值为0；拟合单元，用于分别对女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型，得到女胎儿样本的比例h的概率分布模型f₀(h)、以及所有样本包括男胎样本和女胎样本的比例h的概率分布模型f₁(h)；第三确定单元，用于通过第二公式计算贝叶斯因子BF，其中，第二公式为：

p(D|H₀)＝∫_Rp(D|h)f₀(h)dh，p(D|H₁)＝∫_Rp(D|h)f₁(h)dh，其中，在零假设H₀条件下h～f₀(h)，在备择假设H₁条件下h～f₁(h)，D＝(x，s)，x为中心化后的染色体剂量，x作为比例h的样本估计，s为染色体剂量的样本间标准差；分析单元，用于根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。相对于相关技术中在进行无创产前检测时未利用到胎儿浓度信息，胎儿游离DNA的相对含量会影响到Z-score的估计，并且Z-score通常设定阈值为3，对于略大于3或略小于3的值是很难进行判定的，直接判定会增加假阳性率和假阴性率，通过本发明实施例提供的数据处理装置可以有效评估胎儿浓度，建立判定模型，胎儿浓度低时能保证检测结果准确，同时利用胎儿浓度构建先验分布模型进行贝叶斯分析，计算贝叶斯因子，结合贝叶斯因子对检测结果进行准确判断，适用于母体异常的情况，能够有效提出母体异常的影响，进而解决了相关技术中产前检测存在一定的局限性的技术问题。

在本发明一个可选的实时例中，第一确定单元包括：获取子单元，用于对测序数据去除接头和低质量reads，得到经过初步处理后的DNA序列；比对子单元，用于将DNA序列与人类基因组参考序列进行比对，根据比对结果统计每条染色体的唯一reads的条数；处理子单元，用于通过对每条染色体的唯一reads的总量进行优化及校正处理，得到每条染色体的含量。

在本发明一个可选的实时例中，可选地，处理子单元包括：第一获取模块，用于通过预设窗口对每条染色体的reads进行分窗处理，得到多个区域；第二获取模块，用于对多个区域进行如下筛选处理，得到筛选结果，其中，筛选结果包括以下至少之一：去除包含基因组串联重复及散在重复序列的第一区域，去除包含母体基因拷贝数变异CNV干扰的第二区域，去除包含人类种群干扰的第三区域；校正模块，用于根据筛选结果，统计多个区域内唯一reads数目，及reads的GC含量，以对多个区域内的唯一reads数目进行校正操作，其中，校正操作包括：GC校正和染色体校正。

在本发明一个可选的实时例中，校正模块包括：获取子模块，用于通过平滑样条法对经过筛选之后的多个区域进行GC含量的校正，得到校正之后的多个区域的染色体含量；计算子模块，用于计算校正之后的多个区域的唯一reads的含量的均值和标准差，构建加权线性回归模型以校正由于不同染色体的基线不同所带来的偏差，以重新计算每条染色体的杂合比，其中，每条染色体的杂合比为每条染色体的唯一reads的含量。

在本发明一个可选的实时例中，上述数据处理装置还包括：第四确定单元，用于在重新计算的每条染色体的唯一reads的含量之后，通过第三公式计算待检孕妇DNA的每条染色体的Z值，其中，第三公式为：Z_i＝(x_i-u_i)/σ_i，其中，Z_i表示待检孕妇DNA的第i条染色体的Z值，x_i表示待检孕妇DNA的第i条染色体的唯一reads的比例，u_i表示待检孕妇DNA样本的第i条染色体的唯一reads的比例的平均值，σ_i表示待检孕妇DNA样本的第i条染色体的唯一reads的比例的标准误差。

在本发明一个可选的实时例中，上述数据处理装置还包括：第二获取单元，用于结合待检孕妇DNA的每条染色体的杂合比、Z值和贝叶斯因子是否在对应的阈值区间之内对待检孕妇DNA的常染色体是否发生异常进行综合判断，得到判断结果。

上述的装置可以包括处理器和存储器，上述单元均可以作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

上述本申请实施例的顺序不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。

其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据处理装置，其特征在于，包括：

第一获取单元，用于获取对多个孕妇DNA样本进行测序得到的测序数据；

第一确定单元，用于根据所述多个孕妇DNA样本的所述测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的Unique Reads的百分比UR ratio、以及Y染色体的UR ratio；

第二确定单元，用于通过第一公式确定所述每个孕妇DNA样本中的胎儿浓度，其中，所述第一公式为：h＝2a/(1+a)，其中，a表示X染色体的含量与Y染色体的含量的比例，h表示所述胎儿浓度；

分类单元，用于利用聚类算法将所述多个孕妇DNA样本的胎儿浓度h划分为女胎样本和男胎样本，其中，所述女胎样本的胎儿比例的期望值为0；

拟合单元，用于分别对所述女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型，得到所述女胎儿样本的比例的概率分布模型f₀(h)、以及所述所有样本包括男胎样本和女胎样本的比例的概率分布模型f₁(h)；

第三确定单元，用于通过第二公式计算贝叶斯因子BF，其中，所述第二公式为：

p(D|H₀)＝∫_Rp(D|h)f₀(h)dh，

p(D|H₁)＝∫_Rp(D|h)f₁(h)dh，

其中，在零假设H₀条件下h～f₀(h)，在备择假设H₁条件下h～f₁(h)，D＝(x，s)，x为中心化后的染色体剂量，x作为比例h的样本估计，s为染色体剂量的样本间标准差；

分析单元，用于根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。

2.根据权利要求1所述的装置，其特征在于，所述第一确定单元包括：

获取子单元，用于对所述测序数据去除接头和低质量Unique reads，得到经过初步处理后的DNA序列；

比对子单元，用于将所述DNA序列与人类基因组参考序列进行比对，根据比对结果统计每条染色体的唯一Unique reads的条数；

处理子单元，用于通过对所述每条染色体的唯一Unique reads的总量进行优化及校正处理，得到所述每条染色体的含量。

3.根据权利要求2所述的装置，其特征在于，所述处理子单元包括：

第一获取模块，用于通过预设窗口对所述每条染色体的Unique reads进行分窗处理，得到多个区域；

第二获取模块，用于对所述多个区域进行如下筛选处理，得到筛选结果，其中，所述筛选结果包括以下至少之一：去除包含基因组串联重复及散在重复序列的第一区域，去除包含母体基因拷贝数变异CNV干扰的第二区域，去除包含人类种群干扰的第三区域；

校正模块，用于根据所述筛选结果，统计所述多个区域内唯一Unique reads数目，及Unique reads的GC含量，以对所述多个区域内的唯一Unique reads数目进行校正操作，其中，所述校正操作包括：GC校正和染色体校正。

4.根据权利要求3所述的装置，其特征在于，所述校正模块包括：

获取子模块，用于通过平滑样条法对所述经过筛选之后的所述多个区域进行GC含量的校正，得到校正之后的所述多个区域的染色体含量；

计算子模块，用于计算所述校正之后的所述多个区域的所述唯一reads的含量的均值和标准差，构建加权线性回归模型以校正由于不同染色体的基线不同所带来的偏差，以重新计算所述每条染色体的杂合比，其中，所述每条染色体的杂合比为所述每条染色体的唯一Unique reads的含量。

5.根据权利要求4所述的装置，其特征在于，所述装置还包括：

第四确定单元，用于在重新计算的所述每条染色体的唯一reads的含量之后，通过第三公式计算待检孕妇DNA的每条染色体的Z值，其中，所述第三公式为：Z_i＝(x_i-u_i)/σ_i，其中，Z_i表示所述待检孕妇DNA的第i条染色体的Z值，x_i表示所述待检孕妇DNA的第i条染色体的唯一Unique reads的比例，u_i表示所述待检孕妇DNA样本的第i条染色体的唯一Unique reads的比例的平均值，σ_i表示所述待检孕妇DNA样本的第i条染色体的唯一Unique reads的比例的标准误差。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于结合所述待检孕妇DNA的每条染色体的杂合比、Z值和贝叶斯因子是否在对应的阈值区间之内对所述待检孕妇DNA的常染色体是否发生异常进行综合判断，得到判断结果。

7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至6中任意一项所述的数据处理装置对应的功能。

8.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的数据处理装置对应的功能。