CN108256296B - 数据处理装置 - Google Patents

数据处理装置 Download PDF

Info

Publication number
CN108256296B
CN108256296B CN201711499257.6A CN201711499257A CN108256296B CN 108256296 B CN108256296 B CN 108256296B CN 201711499257 A CN201711499257 A CN 201711499257A CN 108256296 B CN108256296 B CN 108256296B
Authority
CN
China
Prior art keywords
chromosome
fetal
dna
sample
pregnant woman
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711499257.6A
Other languages
English (en)
Other versions
CN108256296A (zh
Inventor
徐寒黎
王伟伟
张静波
刘珂弟
刘倩
唐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Usci Biotechnology Co ltd
Original Assignee
Beijing Usci Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Usci Biotechnology Co ltd filed Critical Beijing Usci Biotechnology Co ltd
Priority to CN201711499257.6A priority Critical patent/CN108256296B/zh
Publication of CN108256296A publication Critical patent/CN108256296A/zh
Application granted granted Critical
Publication of CN108256296B publication Critical patent/CN108256296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Abstract

本发明公开了一种数据处理装置。其中,该装置用于:获取对多个孕妇DNA样本进行测序得到的测序数据,通过第一公式计算每个孕妇DNA样本中的胎儿浓度;再利用聚类算法将多个孕妇DNA样本的胎儿浓度h分为女胎样本和男胎样本;分别对女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型,得到女胎儿样本的比例h的概率分布模型f0(h)、以及所有样本包括男胎样本和女胎样本的比例h的概率分布模型f1(h);根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。本发明解决了上述相关技术中产前检测存在一定的局限性的技术问题。

Description

数据处理装置
技术领域
本发明涉及生物医学技术领域,具体而言,涉及一种数据处理装置。
背景技术
染色体异常是导致出生缺陷的重要原因,在众多染色体异常疾病中,胎儿染色体非整倍数体病变是胎儿最常见的染色体畸形。产前诊断可以在怀孕早期或中期就对胎儿做出诊断,以便进行提前干预或治疗,是降低出生缺陷、提高出生人口素质的重要手段。目前染色体异常的产前诊断通常分为非侵入性和侵入性两种手段。其中,侵入性手段包括:绒毛活检术、羊膜穿刺术和经腹静脉穿刺术等。虽然结果较为准确,但是具有相当高的风险性,容易造成孕妇流产或宫内感染。产前筛查手段(外周血生化筛查和超声颈部透明带)虽然不使用侵入式方法,但是检测率和假阳率并不能达到期望的水平。无创产前检测(noninvasive prenatal testing,简称NIPT)是应用于孕期产检的一项技术,这项技术是基于孕妇外周血血浆中存在游离胎儿DNA,具有很高的检测准确性,同时也避免了侵入性检测所带来的流产和宫内感染风险。
传统的NIPT检测是利用假设检验Z-test检测染色体异常,首先需要抽取孕妇外周血,分离出血浆,提取出血浆游离DNA,构建二代测序文库,利用二代测序仪得到孕妇血浆游离DNA的序列信息,得到的测序数据通过基本的质控、和人类参考基因组比对、GC校正、计算Z-score等步骤来得到胎儿患病风险。然而,该方法具有一定的局限性,首先,未利用到胎儿浓度信息,胎儿游离DNA的相对含量将会影响Z-score的估计。另外,Z-score通常设定阈值为3,对于略大于3或略小于3的值是很难进行判定的,因为实验或者人为因素会造成一定的误差,直接判定会增加假阳性率和假阴性率。
针对上述相关技术中产前检测存在一定的局限性的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理装置,以至少解决上述相关技术中产前检测存在一定的局限性的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,该方法包括:获取对多个孕妇DNA样本进行测序得到的测序数据;根据所述多个孕妇DNA样本的所述测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的Unique Reads的百分比URratio、以及Y染色体的UR ratio;通过第一公式计算所述每个孕妇DNA样本中的胎儿浓度,其中,所述第一公式为:h=2a/(1+a),其中,a表示X染色体的含量与Y染色体的含量的比例,h表示所述胎儿浓度;利用聚类算法将所述多个孕妇DNA样本的胎儿浓度h分为女胎样本和男胎样本,其中,所述女胎样本的胎儿比例的期望值为0;分别对所述女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型,得到所述女胎儿样本的比例h的概率分布模型f0(h)、以及所述所有样本包括男胎样本和女胎样本的比例h的概率分布模型f1(h);通过第二公式计算贝叶斯因子BF,其中,所述第二公式为:
Figure GDA0002707325670000021
p(D|H0)=∫Rp(D|h)f0(h)dh,p(D|H1)=∫Rp(D|h)f1(h)dh,其中,在零假设H0条件下h~f0(h),在备择假设H1条件下h~f1(h),D=(x,s),x为中心化后的染色体剂量,x作为比例h的样本估计,s为染色体剂量的样本间标准差;根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。
可选地,计算所述每个孕妇DNA样本的所述UR ratio、以及所述Y染色体的所述URratio包括:对所述测序数据去除接头和低质量reads,得到经过初步处理后的DNA序列;将所述DNA序列与人类基因组参考序列进行比对,根据比对结果统计每条染色体的唯一reads的条数;通过对所述每条染色体的唯一reads的总量进行优化及校正处理,得到所述每条染色体的含量。
可选地,对所述每条染色体的唯一reads的总量进行优化及校正处理,得到所述每条染色体的含量包括:通过预设窗口对所述每条染色体的reads进行分窗处理,得到多个区域;对所述多个区域进行如下筛选处理,得到筛选结果,其中,所述筛选结果包括以下至少之一:去除包含基因组串联重复及散在重复序列的第一区域,去除包含母体基因拷贝数变异CNV干扰的第二区域,去除包含人类种群干扰的第三区域;根据所述筛选结果,统计所述多个区域内唯一reads数目,及reads的GC含量,以对所述多个区域内的唯一reads数目进行校正操作,其中,所述校正操作包括:GC校正和染色体校正。
可选地,对所述多个区域内的所述唯一reads数目进行所述校正操作包括:通过平滑样条法对所述经过筛选之后的所述多个区域进行GC含量的校正,得到校正之后的所述多个区域的染色体含量;计算所述校正之后的所述多个区域的所述唯一reads的含量的均值和标准差,构建加权线性回归模型以校正由于不同染色体的基线不同所带来的偏差,以重新计算所述每条染色体的杂合比,其中,所述每条染色体的杂合比为所述每条染色体的唯一reads的含量。
可选地,在重新计算的所述每条染色体的唯一reads的含量之后,所述方法还包括:通过第三公式计算待检孕妇DNA的每条染色体的Z值,其中,所述第三公式为:Zi=(xi-ui)/σi,其中,Zi表示所述待检孕妇DNA的第i条染色体的Z值,xi表示所述待检孕妇DNA的第i条染色体的唯一reads的比例,ui表示所述待检孕妇DNA样本的第i条染色体的唯一reads的比例的平均值,σi表示所述待检孕妇DNA样本的第i条染色体的唯一reads的比例的标准误差。
可选地,在计算所述待检孕妇DNA的每条染色体的Z值之后,所述方法还包括:结合所述待检孕妇DNA的每条染色体的杂合比、Z值和贝叶斯因子是否在对应的阈值区间之内对所述待检孕妇DNA的常染色体是否发生异常进行综合判断,得到判断结果。
根据本发明实施例的另外一个方面,还提供了一种数据处理装置,包括:第一获取单元,用于获取对多个孕妇DNA样本进行测序得到的测序数据;第一确定单元,用于根据所述多个孕妇DNA样本的所述测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的Unique Reads的百分比UR ratio、以及Y染色体的UR ratio;第二确定单元,用于通过第一公式确定所述每个孕妇DNA样本中的胎儿浓度,其中,所述第一公式为:h=2a/(1+a),其中,a表示X染色体的含量与Y染色体的含量的比例,h表示所述胎儿浓度;分类单元,用于利用聚类算法将所述多个孕妇DNA样本的胎儿浓度h划分为女胎样本和男胎样本,其中,所述女胎样本的胎儿比例的期望值为0;拟合单元,用于分别对所述女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型,得到所述女胎儿样本的比例h的概率分布模型f0(h)、以及所述所有样本包括男胎样本和女胎样本的比例h的概率分布模型f1(h);第三确定单元,用于通过第二公式计算贝叶斯因子BF,其中,所述第二公式为:
Figure GDA0002707325670000031
p(D|H0)=∫Rp(D|h)f0(h)dh,p(D|H1)=∫Rp(D|h)f1(h)dh,其中,在零假设H0条件下h~f0(h),在备择假设H1条件下h~f1(h),D=(x,s),x为中心化后的染色体剂量,x作为比例h的样本估计,s为染色体剂量的样本间标准差;分析单元,用于根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。
可选地,所述第一确定单元包括:获取子单元,用于对所述测序数据去除接头和低质量reads,得到经过初步处理后的DNA序列;比对子单元,用于将所述DNA序列与人类基因组参考序列进行比对,根据比对结果统计每条染色体的唯一reads的条数;处理子单元,用于通过对所述每条染色体的唯一reads的总量进行优化及校正处理,得到所述每条染色体的含量。
可选地,所述处理子单元包括:第一获取模块,用于通过预设窗口对所述每条染色体的reads进行分窗处理,得到多个区域;第二获取模块,用于对所述多个区域进行如下筛选处理,得到筛选结果,其中,所述筛选结果包括以下至少之一:去除包含基因组串联重复及散在重复序列的第一区域,去除包含母体基因拷贝数变异CNV干扰的第二区域,去除包含人类种群干扰的第三区域;校正模块,用于根据所述筛选结果,统计所述多个区域内唯一reads数目,及reads的GC含量,以对所述多个区域内的唯一reads数目进行校正操作,其中,所述校正操作包括:GC校正和染色体校正。
可选地,所述校正模块包括:获取子模块,用于通过平滑样条法对所述经过筛选之后的所述多个区域进行GC含量的校正,得到校正之后的所述多个区域的染色体含量;计算子模块,用于计算所述校正之后的所述多个区域的所述唯一reads的含量的均值和标准差,构建加权线性回归模型以校正由于不同染色体的基线不同所带来的偏差,以重新计算所述每条染色体的杂合比,其中,所述每条染色体的杂合比为所述每条染色体的唯一reads的含量。
可选地,所述装置还包括:第四确定单元,用于在重新计算的所述每条染色体的唯一reads的含量之后,通过第三公式计算待检孕妇DNA的每条染色体的Z值,其中,所述第三公式为:Zi=(xi-ui)/σi,其中,Zi表示所述待检孕妇DNA的第i条染色体的Z值,xi表示所述待检孕妇DNA的第i条染色体的唯一reads的比例,ui表示所述待检孕妇DNA样本的第i条染色体的唯一reads的比例的平均值,σi表示所述待检孕妇DNA样本的第i条染色体的唯一reads的比例的标准误差。
可选地,所述装置还包括:第二获取单元,用于结合所述待检孕妇DNA的每条染色体的杂合比、Z值和贝叶斯因子是否在对应的阈值区间之内对所述待检孕妇DNA的常染色体是否发生异常进行综合判断,得到判断结果。
根据本发明实施例的另外一个方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述中任意一项所述的数据处理方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的数据处理方法。
在本发明实施例中,可以获取对多个孕妇DNA样本进行测序得到的测序数据,根据测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的UniqueReads的百分比UR ratio、以及Y染色体的UR ratio,通过第一公式计算每个孕妇DNA样本中的胎儿浓度,其中,第一公式为:h=2a/(1+a),其中,a表示X染色体的含量与Y染色体的含量的比例,h表示胎儿浓度;再利用聚类算法将多个孕妇DNA样本的胎儿浓度h分为女胎样本和男胎样本,其中,女胎样本的胎儿比例的期望值为0;分别对女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型,得到女胎儿样本的比例h的概率分布模型f0(h)、以及所有样本包括男胎样本和女胎样本的比例h的概率分布模型f1(h);根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。通过本发明实施例提供的数据处理方法可以有效评估胎儿浓度,建立判定模型,胎儿浓度低时能保证检测结果准确,同时利用胎儿浓度构建先验分布模型进行贝叶斯分析,计算贝叶斯因子,结合贝叶斯因子对检测结果进行准确判断,适用于母体异常的情况,能够有效提出母体异常的影响,进而解决了相关技术中产前检测存在一定的局限性的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数据处理方法的流程图;以及
图2是根据本发明实施例的数据处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,下面对本发明实施例中的部分名词或术语进行详细说明:
常染色体:是对性别决定不起直接作用,除了性染色体外的所有染色体。
基因拷贝数变异(copy number variations,简称CNV):用来表示肿瘤缺失或扩增。
根据本发明实施例,提供了一种数据处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的数据处理方法的流程图,如图1所示,该数据处理方法包括如下步骤:
步骤S102,获取对多个孕妇DNA样本进行测序得到的测序数据。
其中,选取一定数量孕周大于12周且核型分析无染色体异常的孕妇样品,男胎和女胎比例无统计学差异,并构建人类基因组参考数据流。
步骤S104,根据多个孕妇DNA样本的测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的Unique Reads的百分比UR ratio、以及Y染色体的URratio。
步骤S106,通过第一公式计算每个孕妇DNA样本中的胎儿浓度,其中,第一公式为:h=2a/(1+a),其中,a表示X染色体的含量与Y染色体的含量的比例,h表示胎儿浓度。
步骤S108,利用聚类算法将多个孕妇DNA样本的胎儿浓度h分为女胎样本和男胎样本,其中,女胎样本的胎儿比例的期望值为0。
步骤S110,分别对女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型,得到女胎儿样本的比例h的概率分布模型f0(h)、以及所有样本包括男胎样本和女胎样本的比例h的概率分布模型f1(h)。
步骤S112,通过第二公式计算贝叶斯因子BF,其中,第二公式为:
Figure GDA0002707325670000071
p(D|H0)=∫Rp(D|h)f0(h)dh,p(D|H1)=∫Rp(D|h)f1(h)dh,其中,在零假设H0条件下h~f0(h),在备择假设H1条件下h~f1(h),D=(x,s),x为中心化后的染色体剂量,x作为比例h的样本估计,s为染色体剂量的样本间标准差。把x当做胎儿比例h的一个样本估计,得到似然值
Figure GDA0002707325670000072
对h积分得到,
Figure GDA0002707325670000073
步骤S114,根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。
通过上述实施例,可以获取对多个孕妇DNA样本进行测序得到的测序数据,根据测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的Unique Reads的百分比UR ratio、以及Y染色体的UR ratio,通过第一公式计算每个孕妇DNA样本中的胎儿浓度,其中,第一公式为:h=2a/(1+a),其中,a表示X染色体的含量与Y染色体的含量的比例,h表示胎儿浓度;再利用聚类算法将多个孕妇DNA样本的胎儿浓度h分为女胎样本和男胎样本,其中,女胎样本的胎儿比例的期望值为0;分别对女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型,得到女胎儿样本的比例h的概率分布模型f0(h)、以及所有样本包括男胎样本和女胎样本的比例h的概率分布模型f1(h);根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。相对于相关技术中在进行无创产前检测时未利用到胎儿浓度信息,胎儿游离DNA的相对含量会影响到Z-score的估计,并且Z-score通常设定阈值为3,对于略大于3或略小于3的值是很难进行判定的,直接判定会增加假阳性率和假阴性率,通过本发明实施例提供的数据处理方法可以有效评估胎儿浓度,建立判定模型,胎儿浓度低时能保证检测结果准确,同时利用胎儿浓度构建先验分布模型进行贝叶斯分析,计算贝叶斯因子,结合贝叶斯因子对检测结果进行准确判断,适用于母体异常的情况,能够有效提出母体异常的影响,进而解决了相关技术中产前检测存在一定的局限性的技术问题。
在本发明一个可选的实施例中,为了确保测序数据的质量,避免接头序列污染,计算每个孕妇DNA样本的UR ratio、以及Y染色体的UR ratio可以包括:对测序数据去除接头和低质量reads,得到经过初步处理后的DNA序列;将DNA序列与人类基因组参考序列进行比对,根据比对结果统计每条染色体的唯一reads的条数;通过对每条染色体的唯一reads的总量进行优化及校正处理,得到每条染色体的含量。具体地,对获取得到的测序数据进行去除接口以及低质量的reads,然后将经过处理的DNA序列比对到人类基因组参考序列上,根据比对的结果来统计样品DNA序列在每条染色体上的分布情况,统计每条染色体上的Unique Reads的条数。
在本发明一个可选的实施例中,由于无创产前检测样本测序覆盖率较低,因此,对每条染色体的唯一reads的总量进行优化及校正处理,得到每条染色体的含量可以包括:通过预设窗口对每条染色体的reads进行分窗处理,得到多个区域;对多个区域进行如下筛选处理,得到筛选结果,其中,筛选结果包括以下至少之一:去除包含基因组串联重复及散在重复序列的第一区域,去除包含母体基因拷贝数变异CNV干扰的第二区域,去除包含人类种群干扰的第三区域;根据筛选结果,统计多个区域内唯一reads数目,及reads的GC含量,以对多个区域内的唯一reads数目进行校正操作,其中,校正操作包括:GC校正和染色体校正。具体地,在进行后续分许之前,首先将整个染色体的reads分窗统计,通过设置不同宽度的窗,以及不同长度的重叠区域,对每个窗的reads含量进行稳定性分析,最终选择出最优的窗100kbp,重叠区域为50kbp。另外,为了避免一些重复序列的干扰,需要去除包含基因组串联重复以及散在重复序列的窗。再者,由于采集的样本都是中国孕妇人群,而参考基因组而参考基因组hg19是欧洲人,会存在一些种群水平上的假定CNV,此外母体自身存在的CNV也会对胎儿三体的检测带来干扰,因此可以通过构建隐马尔可夫模型来分别监测和提出包含上述基因组串联重复以及散在重复序列的窗。
出了上述三体信号以及上面提到的干扰因素之外,其他因素也会对UR ratio造成较大的影响,例如,样品上机批次以及测序的GC-bias等。因此,在本发明一个可选的实施例中,对多个区域内的唯一reads数目进行校正操作可以包括:通过平滑样条法对经过筛选之后的多个区域进行GC含量的校正,得到校正之后的多个区域的染色体含量;计算校正之后的多个区域的唯一reads的含量的均值和标准差,构建加权线性回归模型以校正由于不同染色体的基线不同所带来的偏差,以重新计算每条染色体的杂合比,其中,每条染色体的杂合比为每条染色体的唯一reads的含量。其中,可选的校正方式有三种校正算法,例如,局部多项式回归、权重校正、平滑样条法。通过比较之后,最终选择平滑样条法,平滑样条法可以更好的对GC进行校正,尽可能减少误差干扰,有效地判断UR ratio的值是否有统计学意义上的异常。
另外,不同染色体区域有不同的基线覆盖度,尽管GC校正减轻了极限差异,但是远不能消除极限之间的差异。通过计算全部正常对照样本GC校正后的窗含量的均值和标准差,构建加权线性回归模型,从而校正不同染色体基线带来的偏差,然后重新计算每条染色体的含量,及每条染色体的杂合比。因此,在重新计算的每条染色体的唯一reads的含量之后,上述数据处理方法还可以包括:通过第三公式计算待检孕妇DNA的每条染色体的Z值,其中,第三公式为:Zi=(xi-ui)/σi,其中,Zi表示待检孕妇DNA的第i条染色体的Z值,xi表示待检孕妇DNA的第i条染色体的唯一reads的比例,ui表示待检孕妇DNA样本的第i条染色体的唯一reads的比例的平均值,σi表示待检孕妇DNA样本的第i条染色体的唯一reads的比例的标准误差。
可选地,在计算待检孕妇DNA的每条染色体的Z值之后,上述数据处理方法还包括:结合待检孕妇DNA的每条染色体的杂合比、Z值和贝叶斯因子是否在对应的阈值区间之内对待检孕妇DNA的常染色体是否发生异常进行综合判断,得到判断结果。
在本发明一个可选的实施例中,由于每条染色体及每个年龄段的发病率不同,chr21的发病率最高,随着年龄增长,染色体的发病率明显上升,因此还需要对贝叶斯因子进行校正,具体地,可以通过第四公式对贝叶斯因子进行校正,其中,第四公式为:
Figure GDA0002707325670000101
其中,BF*表示校正后的贝叶斯因子,
根据本发明实施例的另外一个方面,还提供了一种数据处理装置,图2是根据本发明实施例的数据处理装置的示意图,如图2所示,该数据处理装置包括:第一获取单元21,第一确定单元22,第二确定单元23,分类单元24,拟合单元25,第三确定单元26以及分析单元27。下面对该数据处理装置进行详细说明。
第一获取单元21,用于获取对多个孕妇DNA样本进行测序得到的测序数据。
第一确定单元22,用于根据多个孕妇DNA样本的测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的Unique Reads的百分比UR ratio、以及Y染色体的UR ratio。
第二确定单元23,用于通过第一公式确定每个孕妇DNA样本中的胎儿浓度,其中,第一公式为:h=2a/(1+a),其中,a表示X染色体的含量与Y染色体的含量的比例,h表示胎儿浓度。
分类单元24,用于利用聚类算法将多个孕妇DNA样本的胎儿浓度h划分为女胎样本和男胎样本,其中,女胎样本的胎儿比例的期望值为0。
拟合单元25,用于分别对女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型,得到女胎儿样本的比例h的概率分布模型f0(h)、以及所有样本包括男胎样本和女胎样本的比例h的概率分布模型f1(h)。
第三确定单元26,用于通过第二公式计算贝叶斯因子BF,其中,第二公式为:
Figure GDA0002707325670000102
p(D|H0)=∫Rp(D|h)f0(h)dh,p(D|H1)=∫Rp(D|h)f1(h)dh,其中,在零假设H0条件下h~f0(h),在备择假设H1条件下h~f1(h),D=(x,s),x为中心化后的染色体剂量,x作为比例h的样本估计,s为染色体剂量的样本间标准差。
分析单元27,用于根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。
在上述实施例中,利用第一获取单元,用于获取对多个孕妇DNA样本进行测序得到的测序数据;第一确定单元,用于根据多个孕妇DNA样本的测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的Unique Reads的百分比UR ratio、以及Y染色体的UR ratio;第二确定单元,用于通过第一公式确定每个孕妇DNA样本中的胎儿浓度,其中,第一公式为:h=2a/(1+a),其中,a表示X染色体的含量与Y染色体的含量的比例,h表示胎儿浓度;分类单元,用于利用聚类算法将多个孕妇DNA样本的胎儿浓度h划分为女胎样本和男胎样本,其中,女胎样本的胎儿比例的期望值为0;拟合单元,用于分别对女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型,得到女胎儿样本的比例h的概率分布模型f0(h)、以及所有样本包括男胎样本和女胎样本的比例h的概率分布模型f1(h);第三确定单元,用于通过第二公式计算贝叶斯因子BF,其中,第二公式为:
Figure GDA0002707325670000111
p(D|H0)=∫Rp(D|h)f0(h)dh,p(D|H1)=∫Rp(D|h)f1(h)dh,其中,在零假设H0条件下h~f0(h),在备择假设H1条件下h~f1(h),D=(x,s),x为中心化后的染色体剂量,x作为比例h的样本估计,s为染色体剂量的样本间标准差;分析单元,用于根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。相对于相关技术中在进行无创产前检测时未利用到胎儿浓度信息,胎儿游离DNA的相对含量会影响到Z-score的估计,并且Z-score通常设定阈值为3,对于略大于3或略小于3的值是很难进行判定的,直接判定会增加假阳性率和假阴性率,通过本发明实施例提供的数据处理装置可以有效评估胎儿浓度,建立判定模型,胎儿浓度低时能保证检测结果准确,同时利用胎儿浓度构建先验分布模型进行贝叶斯分析,计算贝叶斯因子,结合贝叶斯因子对检测结果进行准确判断,适用于母体异常的情况,能够有效提出母体异常的影响,进而解决了相关技术中产前检测存在一定的局限性的技术问题。
在本发明一个可选的实时例中,第一确定单元包括:获取子单元,用于对测序数据去除接头和低质量reads,得到经过初步处理后的DNA序列;比对子单元,用于将DNA序列与人类基因组参考序列进行比对,根据比对结果统计每条染色体的唯一reads的条数;处理子单元,用于通过对每条染色体的唯一reads的总量进行优化及校正处理,得到每条染色体的含量。
在本发明一个可选的实时例中,可选地,处理子单元包括:第一获取模块,用于通过预设窗口对每条染色体的reads进行分窗处理,得到多个区域;第二获取模块,用于对多个区域进行如下筛选处理,得到筛选结果,其中,筛选结果包括以下至少之一:去除包含基因组串联重复及散在重复序列的第一区域,去除包含母体基因拷贝数变异CNV干扰的第二区域,去除包含人类种群干扰的第三区域;校正模块,用于根据筛选结果,统计多个区域内唯一reads数目,及reads的GC含量,以对多个区域内的唯一reads数目进行校正操作,其中,校正操作包括:GC校正和染色体校正。
在本发明一个可选的实时例中,校正模块包括:获取子模块,用于通过平滑样条法对经过筛选之后的多个区域进行GC含量的校正,得到校正之后的多个区域的染色体含量;计算子模块,用于计算校正之后的多个区域的唯一reads的含量的均值和标准差,构建加权线性回归模型以校正由于不同染色体的基线不同所带来的偏差,以重新计算每条染色体的杂合比,其中,每条染色体的杂合比为每条染色体的唯一reads的含量。
在本发明一个可选的实时例中,上述数据处理装置还包括:第四确定单元,用于在重新计算的每条染色体的唯一reads的含量之后,通过第三公式计算待检孕妇DNA的每条染色体的Z值,其中,第三公式为:Zi=(xi-ui)/σi,其中,Zi表示待检孕妇DNA的第i条染色体的Z值,xi表示待检孕妇DNA的第i条染色体的唯一reads的比例,ui表示待检孕妇DNA样本的第i条染色体的唯一reads的比例的平均值,σi表示待检孕妇DNA样本的第i条染色体的唯一reads的比例的标准误差。
在本发明一个可选的实时例中,上述数据处理装置还包括:第二获取单元,用于结合待检孕妇DNA的每条染色体的杂合比、Z值和贝叶斯因子是否在对应的阈值区间之内对待检孕妇DNA的常染色体是否发生异常进行综合判断,得到判断结果。
根据本发明实施例的另外一个方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述中任意一项所述的数据处理方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的数据处理方法。
上述的装置可以包括处理器和存储器,上述单元均可以作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
上述本申请实施例的顺序不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。
其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (8)

1.一种数据处理装置,其特征在于,包括:
第一获取单元,用于获取对多个孕妇DNA样本进行测序得到的测序数据;
第一确定单元,用于根据所述多个孕妇DNA样本的所述测序数据分别计算每个孕妇DNA样本的X染色体的Unique Reads的总量占总的Unique Reads的百分比UR ratio、以及Y染色体的UR ratio;
第二确定单元,用于通过第一公式确定所述每个孕妇DNA样本中的胎儿浓度,其中,所述第一公式为:h=2a/(1+a),其中,a表示X染色体的含量与Y染色体的含量的比例,h表示所述胎儿浓度;
分类单元,用于利用聚类算法将所述多个孕妇DNA样本的胎儿浓度h划分为女胎样本和男胎样本,其中,所述女胎样本的胎儿比例的期望值为0;
拟合单元,用于分别对所述女胎样本的胎儿比例和所有样本包括男胎样本和女胎样本的胎儿比例进行拟合得到概率分布模型,得到所述女胎儿样本的比例的概率分布模型f0(h)、以及所述所有样本包括男胎样本和女胎样本的比例的概率分布模型f1(h);
第三确定单元,用于通过第二公式计算贝叶斯因子BF,其中,所述第二公式为:
Figure FDA0002707325660000011
p(D|H0)=∫Rp(D|h)f0(h)dh,
p(D|H1)=∫Rp(D|h)f1(h)dh,
其中,在零假设H0条件下h~f0(h),在备择假设H1条件下h~f1(h),D=(x,s),x为中心化后的染色体剂量,x作为比例h的样本估计,s为染色体剂量的样本间标准差;
分析单元,用于根据贝叶斯分布模型对待检孕妇DNA的常染色体进行贝叶斯分析。
2.根据权利要求1所述的装置,其特征在于,所述第一确定单元包括:
获取子单元,用于对所述测序数据去除接头和低质量Unique reads,得到经过初步处理后的DNA序列;
比对子单元,用于将所述DNA序列与人类基因组参考序列进行比对,根据比对结果统计每条染色体的唯一Unique reads的条数;
处理子单元,用于通过对所述每条染色体的唯一Unique reads的总量进行优化及校正处理,得到所述每条染色体的含量。
3.根据权利要求2所述的装置,其特征在于,所述处理子单元包括:
第一获取模块,用于通过预设窗口对所述每条染色体的Unique reads进行分窗处理,得到多个区域;
第二获取模块,用于对所述多个区域进行如下筛选处理,得到筛选结果,其中,所述筛选结果包括以下至少之一:去除包含基因组串联重复及散在重复序列的第一区域,去除包含母体基因拷贝数变异CNV干扰的第二区域,去除包含人类种群干扰的第三区域;
校正模块,用于根据所述筛选结果,统计所述多个区域内唯一Unique reads数目,及Unique reads的GC含量,以对所述多个区域内的唯一Unique reads数目进行校正操作,其中,所述校正操作包括:GC校正和染色体校正。
4.根据权利要求3所述的装置,其特征在于,所述校正模块包括:
获取子模块,用于通过平滑样条法对所述经过筛选之后的所述多个区域进行GC含量的校正,得到校正之后的所述多个区域的染色体含量;
计算子模块,用于计算所述校正之后的所述多个区域的所述唯一reads的含量的均值和标准差,构建加权线性回归模型以校正由于不同染色体的基线不同所带来的偏差,以重新计算所述每条染色体的杂合比,其中,所述每条染色体的杂合比为所述每条染色体的唯一Unique reads的含量。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
第四确定单元,用于在重新计算的所述每条染色体的唯一reads的含量之后,通过第三公式计算待检孕妇DNA的每条染色体的Z值,其中,所述第三公式为:Zi=(xi-ui)/σi,其中,Zi表示所述待检孕妇DNA的第i条染色体的Z值,xi表示所述待检孕妇DNA的第i条染色体的唯一Unique reads的比例,ui表示所述待检孕妇DNA样本的第i条染色体的唯一Unique reads的比例的平均值,σi表示所述待检孕妇DNA样本的第i条染色体的唯一Unique reads的比例的标准误差。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于结合所述待检孕妇DNA的每条染色体的杂合比、Z值和贝叶斯因子是否在对应的阈值区间之内对所述待检孕妇DNA的常染色体是否发生异常进行综合判断,得到判断结果。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至6中任意一项所述的数据处理装置对应的功能。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的数据处理装置对应的功能。
CN201711499257.6A 2017-12-29 2017-12-29 数据处理装置 Active CN108256296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711499257.6A CN108256296B (zh) 2017-12-29 2017-12-29 数据处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711499257.6A CN108256296B (zh) 2017-12-29 2017-12-29 数据处理装置

Publications (2)

Publication Number Publication Date
CN108256296A CN108256296A (zh) 2018-07-06
CN108256296B true CN108256296B (zh) 2021-05-25

Family

ID=62725754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711499257.6A Active CN108256296B (zh) 2017-12-29 2017-12-29 数据处理装置

Country Status (1)

Country Link
CN (1) CN108256296B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109712671B (zh) * 2018-12-20 2020-06-26 北京优迅医学检验实验室有限公司 基于ctDNA的基因检测装置、存储介质及计算机系统
CN109657731A (zh) * 2018-12-28 2019-04-19 长沙理工大学 一种微滴数字pcr仪抗干扰分类方法
CN110163122A (zh) * 2019-04-30 2019-08-23 中国科学院西安光学精密机械研究所 一种基于半监督字典学习的拥挤人群异常检测方法及系统
CN110993029B (zh) * 2019-12-26 2023-09-05 北京优迅医学检验实验室有限公司 一种检测染色体异常的方法及系统
CN112037846A (zh) * 2020-07-14 2020-12-04 广州市达瑞生物技术股份有限公司 一种cffDNA非整倍体检测方法、系统、储存介质以及检测设备
CN113012759B (zh) * 2020-12-09 2022-08-12 人和未来生物科技(长沙)有限公司 一种基于X染色体的男胎cffDNA含量计算方法
CN112522387B (zh) * 2020-12-10 2022-05-20 北京优迅医学检验实验室有限公司 一种无创产前检测染色体异常的装置
CN112712853B (zh) * 2020-12-31 2023-11-21 北京优迅医学检验实验室有限公司 一种无创产前检测装置
CN115064210B (zh) * 2022-07-27 2022-11-18 北京大学第三医院(北京大学第三临床医学院) 一种鉴定二倍体胚胎细胞中染色体交叉互换位置的方法及应用

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2604700A4 (en) * 2010-08-13 2013-10-30 Bgi Shenzhen Co Ltd METHOD FOR ANALYZING CHROMOSOMES OF A CELL
CN104169929A (zh) * 2013-09-10 2014-11-26 深圳华大基因科技有限公司 用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质
CN104789686A (zh) * 2015-05-06 2015-07-22 安诺优达基因科技(北京)有限公司 检测染色体非整倍性的试剂盒和装置
CN105189787A (zh) * 2013-05-09 2015-12-23 豪夫迈·罗氏有限公司 使用hla标志物测定母体血液中的胎儿dna的分数的方法
CN106096330A (zh) * 2016-05-31 2016-11-09 北京百迈客医学检验所有限公司 一种无创产前生物信息检测分析方法
WO2017023148A1 (ko) * 2015-08-06 2017-02-09 이원 다이애그노믹스 게놈센타(주) 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
CN107133495A (zh) * 2017-05-04 2017-09-05 北京医院 一种非整倍性生物信息的分析方法和分析系统
CN107133491A (zh) * 2017-03-08 2017-09-05 广州市达瑞生物技术股份有限公司 一种获取胎儿游离dna浓度的方法
AU2016293025A1 (en) * 2015-07-13 2017-11-02 Agilent Technologies Belgium Nv System and methodology for the analysis of genomic data obtained from a subject

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100112590A1 (en) * 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2604700A4 (en) * 2010-08-13 2013-10-30 Bgi Shenzhen Co Ltd METHOD FOR ANALYZING CHROMOSOMES OF A CELL
CN105189787A (zh) * 2013-05-09 2015-12-23 豪夫迈·罗氏有限公司 使用hla标志物测定母体血液中的胎儿dna的分数的方法
CN104169929A (zh) * 2013-09-10 2014-11-26 深圳华大基因科技有限公司 用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质
CN104789686A (zh) * 2015-05-06 2015-07-22 安诺优达基因科技(北京)有限公司 检测染色体非整倍性的试剂盒和装置
AU2016293025A1 (en) * 2015-07-13 2017-11-02 Agilent Technologies Belgium Nv System and methodology for the analysis of genomic data obtained from a subject
WO2017023148A1 (ko) * 2015-08-06 2017-02-09 이원 다이애그노믹스 게놈센타(주) 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
CN106096330A (zh) * 2016-05-31 2016-11-09 北京百迈客医学检验所有限公司 一种无创产前生物信息检测分析方法
CN107133491A (zh) * 2017-03-08 2017-09-05 广州市达瑞生物技术股份有限公司 一种获取胎儿游离dna浓度的方法
CN107133495A (zh) * 2017-05-04 2017-09-05 北京医院 一种非整倍性生物信息的分析方法和分析系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Localizing NIPT: Practices and meanings of non-invasive prenatal testing in China, Italy, Brazil and the UK;X.Zeng;《Ethics, Medicine and Public Health》;20160930;全文 *
基于高通量测序技术无创筛查双胎染色体非整倍体及胎儿游离DNA浓度分析;许旭平 等;《分子诊断与治疗杂志》;20161130;全文 *

Also Published As

Publication number Publication date
CN108256296A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN108256296B (zh) 数据处理装置
US11339426B2 (en) Method capable of differentiating fetal sex and fetal sex chromosome abnormality on various platforms
RU2699728C2 (ru) Способ и устройство для определения фракции внеклеточных нуклеиновых кислот в биологическом образце и их применение
JP5659319B2 (ja) 胎児の遺伝的異常の非侵襲的検出
CN112888459A (zh) 卷积神经网络系统及数据分类方法
IL249095B2 (en) Detection of subchromosomal aneuploidy in the fetus and variations in the number of copies
JP6623400B2 (ja) 染色体異数性を測定するためのキット、装置及び方法
CN106096330B (zh) 一种无创产前生物信息检测分析方法
CN105825076B (zh) 消除常染色体内和染色体间gc偏好的方法及检测系统
WO2018161245A1 (zh) 一种染色体变异的检测方法及装置
US20230368918A1 (en) Method of detecting fetal chromosomal aneuploidy
CN106537401A (zh) 使用母体血清dna预测胎儿单基因遗传变异的方法
EP3023504B1 (en) Method and device for detecting chromosomal aneuploidy
TWI767888B (zh) 藉由母體血漿dna之淺深度測序以準確定量胎兒dna含量
CN107622183B (zh) 一种基于多重指标的胎儿染色体倍性检测分析方法
CN116013419A (zh) 检测染色体拷贝数变异的方法
WO2021134513A1 (zh) 确定染色体非整倍性、构建分类模型的方法和装置
CN112712853B (zh) 一种无创产前检测装置
CN108229099B (zh) 数据处理方法、装置、存储介质及处理器
CN115244622A (zh) 使用甲基化测序数据调用变体的系统和方法
CN116356001B (zh) 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法
WO2020124625A1 (zh) 基于ctDNA的基因检测方法、装置、存储介质及计算机系统
WO2016176846A1 (zh) 检测染色体非整倍性的试剂盒、装置和方法
CN115223654A (zh) 检测胎儿染色体非整倍体异常的方法、装置及存储介质
CN110970089B (zh) 胎儿浓度计算的预处理方法、预处理装置及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Xu Hanli

Inventor after: Wang Weiwei

Inventor after: Zhang Jingbo

Inventor after: Liu Kedi

Inventor after: Liu Qian

Inventor after: Tang Yu

Inventor before: Xu Hanli

Inventor before: Guan Yongtao

Inventor before: Wang Weiwei

Inventor before: Zhang Jingbo

Inventor before: Liu Kedi

Inventor before: Liu Qian

Inventor before: Tang Yu

GR01 Patent grant
GR01 Patent grant