CN110428873B - 一种染色体倍数异常检测方法及检测系统 - Google Patents

一种染色体倍数异常检测方法及检测系统 Download PDF

Info

Publication number
CN110428873B
CN110428873B CN201910503326.9A CN201910503326A CN110428873B CN 110428873 B CN110428873 B CN 110428873B CN 201910503326 A CN201910503326 A CN 201910503326A CN 110428873 B CN110428873 B CN 110428873B
Authority
CN
China
Prior art keywords
sample
chromosome
value
type
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910503326.9A
Other languages
English (en)
Other versions
CN110428873A (zh
Inventor
张军英
蒋玉婷
袁细国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910503326.9A priority Critical patent/CN110428873B/zh
Publication of CN110428873A publication Critical patent/CN110428873A/zh
Application granted granted Critical
Publication of CN110428873B publication Critical patent/CN110428873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明属于医学染色体异常信息检测技术领域,公开了一种染色体倍数异常检测方法及检测系统,通过样本数据预处理后,得到样本的每条染色体reads值,使用t‑test对样本进行检验,并估计空假设下统计量Ratio的期望值与标准差;在得到标准差与期望值之后,计算出Ratio值:计算出Ratio值后,对于不同类型的染色体,使用不同的参照组计算不同的z值;计算不同的z值后,利用决策树分类算法对于性染色体染色体进行检测。本发明选择参照组时,对参照组的选取按照检测的对象分别设置;本发明前期对数据进行大量的去重等预处理手段,以及决策树算法与随机森林算法使得检测结果更加准确。

Description

一种染色体倍数异常检测方法及检测系统
技术领域
本发明属于医学染色体异常信息检测技术领域,尤其涉及一种染色体倍数异常检测方法及检测系统。
背景技术
90年代之前,检测唐氏综合征的主要方法是侵入式的手段,如脐带刺穿术是在超声引导下经母体腹壁穿刺采集胎儿血以获取胎儿的信息。侵入式的筛查优点是操作简便快捷。缺点是假阳性高,还有可能会有出血、胎儿心动过缓、胎死宫内、感染、胎盘早期剥离、胎儿血进入母体循环等并发症的出现,且出现并发征的概率达到1%左右。
90年代之后,最普遍的检测手段依赖于血清学筛和B超检查,主要是检测孕妇体内的一系列的激素情况,如人绒毛膜促性腺激素hcg等的含量。通过激素的含量与B超的检查来进行检测。优点是准确率高,缺点是假阳性率高,且是孕中晚期的主要方法。
90年代后期,母体外周血中的胎儿基因,人们就可以通过母体中胎儿基因的特性检测胎儿是否有21三体综合征等疾病。之后,各种各样的方法被用于检测胎儿的染色体倍数异常信息。自此,基于母体外周学中的胎儿游离DNA而产生的无创的检查手段显示了巨大的发展前景。2008年,这种方法首先实现了对 21三体综合征的检测,对21三体的检测灵敏度和特异度分别可达100%和99%。 2012年,对于18号和13号染色体来说,对GC含量进行校正之后,可以准确地检测到18三体和13三体。
2010年及以后,陆续又出现了几种其他的检测的方法,有基于单核苷酸多态性的倍数异常检测、基于猎枪式大规模并行测序法的倍数异常检测、基于靶向大规模并行测序法的倍数异常检测、基于DNA甲基化的倍数异常检测等等方法,各有各的优缺点,以下详细介绍其技术方案、技术缺陷及原因。
基于单核苷酸多态性的多倍体检测的方法依据于单核苷酸多态性SNP,通过检测样本中所有的SNPs,使用电泳法来检测SNP中的胎儿的比例,以此实现倍数异常检测。但由于甲基化的DNA实际上只能占人类全基因组的1%左右,数据量太小,需要进行DNA富集化、扩增等等手段来进行保真。此外,这种方法对母体SNP异常的检测结果,可能会有漏查和出错等问题。
基于猎枪式大规模并行测序法的多倍体检测方法依据于全基因的测序结果,将测序结果中的所有DNA片段都比对到染色体的唯一位置上。然后根据所有片段的比对结果是否过多或者过少来判断某条染色体是否有染色体倍数异常。这种方法就是人们使用最多的一种方法。
基于靶向大规模并行测序法的多倍体检测与基于猎枪式大规模并行测序法的多倍体检测方法不同的地方在于,先靶向的特定的目标染色体的核苷序列进行扩增,然后再进行比对片段的计数,最后根据计数的归一化数据来判断样本是否有染色体倍数异常。但因为靶向的选取了特定的基因序列,所以只能对这特定的某个染色体进行检查,只适合单一目标的检测。
基于DNA甲基化的多倍体检测的方法依据于样本DNA甲基化的水平高于或者低于样本的全基因组的基因表观遗传学的水平。甲基化是指从活性甲基化合物上将甲基催化转移到其他化合物的过程。可形成各种甲基化合物,或是对某些蛋白质或核酸等进行化学修饰形成甲基化产物。然后对不同甲基化水平的 DNA的特征进行分析,通过特异性的免疫机制实现倍数异常检测。这种方法因为需要某一染色体上的特异性DNA序列进行检测,虽然很有前景,但目前只在 21号染色体上有不错的结果,所以还不能大规模推广。
综上所述,现有技术存在的问题是:
(1)现有染色体检测技术中,对染色体单体或多体异常信息不能准确检测;
现有技术对性染色体检测也存在不准确的问题。
(2)部分多倍体检测方法太过于依赖对完全一致的序列的比对结果,无法定位的信息就被认为是无效信息。
(3)部分多倍体检测方法只在特定的目标染色体进行检测,没有包括性染色体异常的检测,检测范围太小。
(4)部分多倍体检测目前只在21号染色体有很好的结果。
解决上述技术问题的难度:
因为是通过采集孕妇的样本来进行测试,所以不可避免的在样本中包含有母体的基因序列,而且母体的基因占总样本的80%以上,噪声会很大,有效信息很难被提取出来。
人类的基因序列都是由ATCG碱基组成的,很难区分母体与婴儿的基因的差异,所以噪声很难去除,这只能在噪声中进行检测。
所有的样本在检测时都要与标准人基因组继续检测,因此所有的样本都会与Y染色体进行检测,有Y染色体的比对结果信息。
解决上述技术问题的意义:
对象是孕期的胎儿。目的是检测孕期的胎儿是否患有染色体异常疾病。方法是基于二代测序,使用统计检验理论和归一化方法等对测序的数据进行数据分析,检测胎儿是否有唐氏综合征等疾病。意义是能够在孕中期之前检测出胎儿的异常,实现优生优育。只有尽可能的分析出母婴数据上的差异,才能更准确的胎儿的基因进行检测。
发明内容
针对现有技术存在的问题,本发明提供了一种染色体倍数异常检测方法及检测系统。本发明选择参照组时,对参照组的选取按照检测的对象分别设置。在检测常染色体时,使用染色体倍数正常的样本作为参照组进行检测;在检测性染色体时,先通过性染色体含量判断出样本的性别,根据性别分别使用男女胎染色体倍数正常的样本作为参照组进行检测。本发明前期对数据进行大量的去重等预处理手段,以及决策树算法与随机森林算法使得检测结果更加准确。本发明操作简单,本发明只需要bam文件或fastq文件和参考序列即可完成检测,并且检测速度较快。
本发明是这样实现的,一种染色体倍数异常检测系统,所述染色体倍数异常检测系统包括:
预处理模块,用于样本数据预处理,得到样本的每条染色体reads值;
检验模块,用于使用t-test对样本进行检验,并估计空假设下统计量Ratio 的期望值与标准差;
计算模块,用于在得到标准差与期望值之后,计算出Ratio值:计算出Ratio 值后,对于不同类型的染色体,使用不同的参照组计算不同的z值;
检测模块,用于计算不同的z值后,利用决策树分类算法对于性染色体染色体进行检测。
所述预处理模块进一步包括:
转换单元,用于将bam文件转为fastq文件,得到未经比对过的原始测序文件;
比对单元,用于使用工具bwa对样本与基因组序列进行比对;
质量控制单元,用于进行质量控制;
排序单元,用于对质控后的文件进行排序;
删除单元,用于将重复的序列去掉;
文件设置单元,用于根据染色体大小建立窗口文件,文件的大小设置为 300kb;
统计单元,用于划分好区间之后,统计每个区间上唯一比对上的reads数;
差异值计算单元,用于计算样本的GC含量并且消除GC含量造成的差异值;
数据归一化处理单元,用于得到样本的每个区间比对上的reads数目之后,对数据进行归一化处理。
所述计算模块进一步包括:
X染色体的z值计算单元,用于根据女胎参照组计算出的X染色体的z值,记作z_fe_X;
Y染色体的z值计算单元,用于根据女胎参照组计算出的Y染色体的z值,记作z_fe_Y;
X染色体的z值计算单元,用于根据男胎参照组计算出的X染色体的z值,记作z_male_X;
Y染色体的z值计算单元,用于根据男胎参照组计算出的Y染色体的z值,记作z_male_Y。
进一步包括:
正常二倍体类型判断单元,若z值在-2到+2之间,样本的类型应该是正常二倍体类型;
多体类型判断单元,若z值在+3.3到正无穷之间,样本的类型应该是多体类型;
单体类型判断单元,若z值在-3.3到负无穷之间,样本的类型应该是单体类型。
所述检测模块进一步包括:
阴性样本判断单元,用于判断样本,样本以参照组计算出的Y染色体的z值z_fe_Y,取值是否在阴性样本的取值-2到+2之间范围内;
样本分类单元,用于对不同样本进行分类;
样本突变类型确定单元,用于通过对不同样本进行分类计算,得到样本的各个染色体的变异情况,分别以z_fe_X、z_fe_Y、z_male_X、z_male_Y作为判别条件,联合起来为4个决策树,组成随机森林算法,再使用简单投票原则,进行判定结果输出。
所述样本分类单元进一步包括:
样本取值范围确定单元,用于取样本为参照组的X染色体的z值z_fe_X,取值在哪种样本的取值范围内;
若z值在-2到+2,样本的类型为XX类型;
若z值在阳性样本的一部分取值范围内,即+3.3到正无穷,样本的类型是 XXX或XXXX类型;
若z值在阳性样本的另一部分取值-3.3到负无穷范围内,样本的类型应该是 XO类型;
若z值在阳性样本的一部分取值范围不在-2到+2之间、+3.3到正无穷之间、 -3.3到负无穷之间,样本的以参照组计算出的X染色体的z值在-2到-3.3之间或者+2到+3.3之间,为灰区样本。
所述样本分类单元进一步包括:
样本配别判断单元,用于对样本判断其类别是否为XY,XXY,XYY或者 XXYY类型;
样本取值判断单元,用于使用样本参照组的X染色体的z值z_male_X,判断取值是在哪种类样本的取值区间内。
若z值在-2到+2之间,样本的类型应该是X??类型;
若z值在阳性样本的一部分取值范围内,+3.3到正无穷之间,样本的类型是XX??类型;
若z值在阳性样本的一部分取值范围不在-2到+2之间、+3.3到正无穷之间,样本以男胎参照组计算出的X染色体的z值在-2到-3.3之间或者+2到+3.3之间,为灰区样本。
本发明的另一目的在于提供一种实施所述染色体倍数异常检测系统的染色体倍数异常检测方法,所述染色体倍数异常检测方法通过样本数据预处理后,得到样本的每条染色体reads值,使用t-test对样本进行检验,并估计空假设下统计量Ratio的期望值与标准差;在得到标准差与期望值之后,使用下列公式计算出Ratio值:
Figure BDA0002090960130000061
计算出Ratio值后,对于不同类型的染色体,使用不同的参照组计算不同的 z值;Z值的计算公式如下所示:
Figure BDA0002090960130000071
计算不同的z值后,利用决策树分类算法对于性染色体染色体进行检测。
本发明的另一目的在于提供一种应用所述染色体倍数异常检测系统的信息数据处理终端。
本发明对于每个样本,都会给出该样本是否有某条染色体单体或多体情况出现。比如,当输出结果是:001+21。这表示001号样本的21号染色体有多体异常,也就是对应有唐氏综合症。本发明选取了180例真实样本进行实验验证,所有样本均取材于西安中科茵康来医学检验中心,经过严格的取血、测序等流程获得bam文件,然后使用本发明进行检验,并将检验的结果与医学检验所提供的真实结果进行比对,并将比对结果绘制成表1和表2。
表1是对180例真实样本检测常染色体的结果统计。表中的左下方是样本的真实类别,右上方是样本的预测出来的类别。对常染色体的检测结果显示,最终的正确率约为93.8%。
表1常染色体异常检测结果统计表
Figure BDA0002090960130000072
表2性染色体异常检测结果统计表
Figure BDA0002090960130000073
Figure BDA0002090960130000081
表2是对180例真实样本检测性染色体的结果统计。表中的左下方是样本的真实类别,右上方是样本的预测出来的类别。对性染色体的检测结果显示,最终的正确率约为91.11%。
综上所述,本发明的优点及积极效果为:能够针对不同样本的胎儿性别,选择不同的参照组,对胎儿的染色体类型进行细致地划分样本是XO(X或Y染色体单体)、XYY(Y染色体多体)、XXY(X染色体多体)、XXYY(XY染色体多体)、 XY(没有多体)、XX(没有多体)哪种类型,增加了检测的准确率。
附图说明
图1是本发明实施例提供的染色体倍数异常检测方法流程图。
图2是本发明实施例提供的常染色体的分类决策树算法。
图3是本发明实施例提供的性染色体的分类决策树算法。
图4是本发明实施例提供的XO单体、XX二倍体、XXX三体或多体类型或者是灰区数据示意图。
图5是本发明实施例提供的对男胎样本进行分类示意图。
图6是本发明实施例提供的某阳性样本21号染色体以300kb为区间的染色体分段z值图。
图7是本发明实施例提供的某阳性样本X号染色体以5mb为区间的染色体分段z值图。
图8是本发明实施例提供的某阴性样本以女胎为参照组的X染色体的5mb 区间分段z值图。
图9是本发明实施例提供的某阴性样本以女胎为参照组的X染色体的300kb 区间分段z值图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明中,染色体倍数异常含义为:染色体多体或者单体异常,即染色体多或者少了一条或几条的变异。
现有染色体检测技术中,对染色体单体或多体异常信息不能准确检测;现有技术对性染色体检测也存在不准确的问题。
为解决上述问题,下面具体方案对本发明作详细描述。
如图1所示,本发明实施例提供的染色体倍数异常检测方法,包括:
步骤一,数据预处理:准备两个辅助文件:人类基因组文件、人类基因组染色体大小文件。
将bam文件转为fastq文件,得到未经比对过的原始测序文件。
使用的工具是bwa对样本与人类基因组序列进行比对。
进行质量控制。
对质控后的文件进行排序。
将重复的序列去掉。
根据染色体大小建立窗口文件,文件的大小设置为300kb。
划分好区间之后,统计每个区间上唯一比对上的reads数。
计算样本的GC含量并且消除GC含量造成的差异值。
得到样本的每个区间比对上的reads数目之后,对数据进行归一化处理。
步骤二,Ratio的计算:
对数据通过(1)处理完之后,样本的每条染色体会得到一个reads值。然后,使用t-test来对样本进行检验,并估计空假设下统计量Ratio的期望值与标准差。在得到标准差与期望值之后,使用下列公式计算出Ratio值:
Figure BDA0002090960130000101
人类有22对常染色体与1对性染色体。但在进行人类基因组测序时,结果不分男女都会有X与Y染色体的比对结果。所以每个样本,会计算出24个Ratio 值。
步骤三,z值的计算:
对于不同类型的染色体,使用不同的参照组计算不同的z值。Z值的计算公式如下所示:
Figure BDA0002090960130000102
计算常染色体时,对22条常染色体,计算该染色体在全参照组的z值。
计算性染色体时,计算下面4种z值。
1)根据女胎参照组计算出的X染色体的z值,记作z_fe_X。
2)根据女胎参照组计算出的Y染色体的z值,记作z_fe_Y。
3)根据男胎参照组计算出的X染色体的z值,记作z_male_X。
4)根据男胎参照组计算出的Y染色体的z值,记作z_male_Y。
步骤四,利用决策树分类算法对于性染色体染色体检测的步骤:
若z值在-2到+2之间,则证明该样本的类型应该是正常二倍体类型。
若z值在+3.3到正无穷之间,则在证明该样本的类型应该是多体类型。
若z值在-3.3到负无穷之间,则在证明该样本的类型应该是单体类型。
具体包括:
第一步:先判断样本是男胎女胎。
本发明的依据是样本以女胎参照组计算出的Y染色体的z值z_fe_Y,其取值是否在阴性样本的取值范围内,即-2到+2之间。若在,则证明该样本是女胎。因为其Y染色体的z值在正常女胎的Y染色体的正常范围内。若在阳性样本的一部分取值范围内,即大于+3.3,则证明该样本是女胎。两者都不是的话,则代表该样本以女胎参照组计算出的Y染色体的z值在-2到-3之间或者+2到+3之间,即是灰区样本。这样样本是男胎还是女胎就确定了。
之后,本发明就要根据男女胎来为其决策其类型。如果样本是女胎的话,本发明根据图4的决策树来判断其类别究竟是XO单体、XX二倍体、XXX三体或多体类型或者是灰区数据。
第二步:对女胎样本进行分类。
首先本发明取该女胎样本以女胎为参照组的X染色体的z值z_fe_X,看其取值在哪种样本的取值范围内。
若z值在-2到+2之间,则证明该样本的类型应该是XX类型,其X染色体的z值在正常女胎的X染色体的正常范围内。
若z值在阳性样本的一部分取值范围内,即+3.3到正无穷之间,则在证明该样本的类型应该是XXX或XXXX类型,因为其X染色体的z值比正常女胎的 X染色体的含量多了3.3个标准差以上。
若z值在阳性样本的另一部分取值范围内,即-3.3到负无穷之间,则在证明该样本的类型应该是XO类型。因为其X染色体的z值比正常女胎的X染色体的含量少了3.3个标准差以上。
三者都不是的话,则代表该样本的以女胎参照组计算出的X染色体的z值在 -2到-3.3之间或者+2到+3.3之间,即是灰区样本。
至此,若样本是女胎,则性染色体的检测就完成了。否则,本发明就要转到后面的第三步中根据男胎来分别为其决策其类型了。
第三步,对男胎样本进行分类。
如果样本是男胎的话,就要判断其类别是XY,XXY,XYY或者XXYY类型。根据图5来进行判定。
首先,使用该男胎样本以男胎为参照组的X染色体的z值z_male_X,判断其取值是在哪种类样本的取值区间内。
若z值在-2到+2之间,则证明该样本的类型应该是X??类型(??是Y染色体部分,这步只能确定X染色体是怎样的类型,因为其X染色体的z值在正常男胎的X染色体的正常范围内。
若z值在阳性样本的一部分取值范围内,即+3.3到正无穷之间,则证明该样本的类型应该是XX??类型,因为其X染色体的z值比正常男胎的X染色体的含多了3.3个标准差以上。
两者都不是的话,则代表该样本以男胎参照组计算出的X染色体的z值在 -2到-3.3之间或者+2到+3.3之间,即是灰区样本。确定好了男胎样本的X染色体的情况之后,还要对样本Y染色体做出判断。
对男胎X??类型的样本,判断其以男胎为参照组的Y染色体的z值 z_male_Y。看其取值是否在阴性样本的取值范围内,即-2到+2之间。如果在的话,则证明该样本的类型应该是XY类型。若在阳性样本的一部分取值范围内,即+3.3到正无穷之间,则证明该样本的类型应该是XYY类型,两者都不是的则为灰区样本。
对男胎XX??类型的样本,判断其以男胎为参照组的Y染色体的z值。看其取值是否在阴性样本的取值范围内,即-2到+2之间。如果在的话,则证明该样本的类型是XXY类型。若在阳性样本的一部分取值范围内,即+3.3到正无穷之间,则在证明该样本的类型应该是XXYY类型,两者都不是的则为灰区样本。
步骤五,确定样本突变类型:通过步骤四的计算,得到了样本的各个染色体的变异情况,更改判断男女胎的条件,分别可以z_fe_X、z_fe_Y、z_male_X、 z_male_Y作为判别男女胎的条件,后续判断男女胎类型的方法不变,联合起来就是4个决策树,组成随机森林算法,之后使用简单投票原则,就可以进行判定结果输出。
在本发明实施例步骤一中,本发明实施例提供的数据预处理阶段主要使用了以下两个方法:
局部加权回归(locally weighted scatterplot smoothing),简称lowess或者loess,是一种用于对样本数据进行平滑的方法。与线性回归不同的是,它本身属于非参数学习算法,这种回归方法的特点在于参数非固定不变,并且这种方法的参数不仅数目会随着给出的样本的训练集合规模的增大而线性增长,而且是随着预测点的不同而不同,每当需要预测时都会重新训练样本集。由于每次预测时都只看预测点附近的实例点,因此每一次预测都要重新运行一遍算法,得出一组参数值,因此其计算代价是比较高的。这种方法用于拟合平滑曲线,而且不需要事先假设曲线的形状或形式。。
零均值规范化,又称z-score、standardscore、z-value或者标准值,以下简称 z值。它是用于做数据规范化处理的一种方法。在统计学中,标准值是标准差数的表现形式,即将标准差用有符号分数表现出来。通过z值,本发明可以判断一个观察数据点的值是否高于或低于测量的平均值。然后,将在平均值以上的观察数据赋予它正的z值,而低于平均值的赋予它负的z值。它是通过观测点的数据减去测量数据的总体均值,然后除以总体标准差来计算的。这是一个单位的物理量。这一转换过程被称为标准化或者归一化。z-score最常用于将观察结果与理论数据进行比较。计算z值时必须要知道数据所属的样本总量的均值和标准差。计算样本的统计量是必须要有数据所属样本的样本均值和样本标准差的。
本发明实施例提供的染色体倍数异常检测系统包括:
预处理模块,用于样本数据预处理,得到样本的每条染色体reads值;
检验模块,用于使用t-test对样本进行检验,并估计空假设下统计量Ratio 的期望值与标准差;
计算模块,用于在得到标准差与期望值之后,计算出Ratio值:计算出Ratio 值后,对于不同类型的染色体,使用不同的参照组计算不同的z值;
检测模块,用于计算不同的z值后,利用决策树分类算法对于性染色体染色体进行检测。
所述预处理模块进一步包括:
转换单元,用于将bam文件转为fastq文件,得到未经比对过的原始测序文件;
比对单元,用于使用工具bwa对样本与基因组序列进行比对;
质量控制单元,用于进行质量控制;
排序单元,用于对质控后的文件进行排序;
删除单元,用于将重复的序列去掉;
文件设置单元,用于根据染色体大小建立窗口文件,文件的大小设置为 300kb;
统计单元,用于划分好区间之后,统计每个区间上唯一比对上的reads数;
差异值计算单元,用于计算样本的GC含量并且消除GC含量造成的差异值;
数据归一化处理单元,用于得到样本的每个区间比对上的reads数目之后,对数据进行归一化处理。
所述计算模块进一步包括:
X染色体的z值计算单元,用于根据女胎参照组计算出的X染色体的z值,记作z_fe_X;
Y染色体的z值计算单元,用于根据女胎参照组计算出的Y染色体的z值,记作z_fe_Y;
X染色体的z值计算单元,用于根据男胎参照组计算出的X染色体的z值,记作z_male_X;
Y染色体的z值计算单元,用于根据男胎参照组计算出的Y染色体的z值,记作z_male_Y。
进一步包括:
正常二倍体类型判断单元,若z值在-2到+2之间,样本的类型应该是正常二倍体类型;
多体类型判断单元,若z值在+3.3到正无穷之间,样本的类型应该是多体类型;
单体类型判断单元,若z值在-3.3到负无穷之间,样本的类型应该是单体类型。
所述检测模块进一步包括:
阴性样本判断单元,用于判断样本,样本以参照组计算出的Y染色体的z值 z_fe_Y,取值是否在阴性样本的取值-2到+2之间范围内;
样本分类单元,用于对不同样本进行分类;
样本突变类型确定单元,用于通过对不同样本进行分类计算,得到样本的各个染色体的变异情况,分别以z_fe_X、z_fe_Y、z_male_X、z_male_Y作为判别条件,联合起来为4个决策树,组成随机森林算法,再使用简单投票原则,进行判定结果输出。
所述样本分类单元进一步包括:
样本取值范围确定单元,用于取样本为参照组的X染色体的z值z_fe_X,取值在哪种样本的取值范围内;
若z值在-2到+2,样本的类型为XX类型;
若z值在阳性样本的一部分取值范围内,即+3.3到正无穷,样本的类型是 XXX或XXXX类型;
若z值在阳性样本的另一部分取值-3.3到负无穷范围内,样本的类型应该是 XO类型;
若z值在阳性样本的一部分取值范围不在-2到+2之间、+3.3到正无穷之间、 -3.3到负无穷之间,样本的以参照组计算出的X染色体的z值在-2到-3.3之间或者+2到+3.3之间,为灰区样本。
所述样本分类单元进一步包括:
样本配别判断单元,用于对样本判断其类别是否为XY,XXY,XYY或者 XXYY类型;
样本取值判断单元,用于使用样本参照组的X染色体的z值z_male_X,判断取值是在哪种类样本的取值区间内。
若z值在-2到+2之间,样本的类型应该是X??类型;
若z值在阳性样本的一部分取值范围内,+3.3到正无穷之间,样本的类型是XX??类型;
若z值在阳性样本的一部分取值范围不在-2到+2之间、+3.3到正无穷之间,样本以男胎参照组计算出的X染色体的z值在-2到-3.3之间或者+2到+3.3之间,为灰区样本。
下面结合效果对本发明作进一步描述。
本发明在技术上首先在男女样本中,选取不同的参照组,针对性别的不同有不同的处理。
本发明所使用的性染色体的分类决策树算法,和由之产生的随机森林决策方法,可以更准确地对性染色体的检测进行决策。
本发明对于每个样本,都会给出该样本是否有某条染色体单体或多体情况出现。比如,当输出结果是:001+21。这表示001号样本的21号染色体有多体异常,也就是对应有唐氏综合症。本发明选取了180例真实样本进行实验验证,所有样本均取材于西安中科茵康来医学检验中心,经过严格的取血、测序等流程获得bam文件,然后使用本发明进行检验,并将检验的结果与医学检验所提供的真实结果进行比对,并将比对结果绘制成表1和表2。
表1是对180例真实样本检测常染色体的结果统计。表中的左下方是样本的真实类别,右上方是样本的预测出来的类别。对常染色体的检测结果显示,最终的正确率约为93.8%。
表1常染色体异常检测结果统计表
Figure BDA0002090960130000161
Figure BDA0002090960130000171
为了验证常染色体检测结果的准确性。对每一例样本的每一条染色体,将其划分为很多个小的区间,并对每个区间都计算出其z值,如果该图中超过90%的点都与最终的检测结果一致,就可以保证检测结果的准确性。图6与图7是为了验证某个样本的某条常染色体的检测结果是否正确所绘制的区间分段的染色体z值图。
表2性染色体异常检测结果统计表
Figure BDA0002090960130000172
表2是对180例真实样本检测性染色体的结果统计。表中的左下方是样本的真实类别,右上方是样本的预测出来的类别。对性染色体的检测结果显示,最终的正确率约为91.11%。
为了验证检测结果的准确性。对每一例样本的X和Y染色体,将其划分为很多个小的区间,并对每个区间都计算出其z值,如果该图中超过90%的点都与最终的检测结果一致,就可以保证我们性染色体检测结果的准确性。图8与图9是为了验证某个样本的某条性染色体的检测结果是否正确所绘制的区间分段的染色体z值图。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种染色体倍数异常检测系统,其特征在于,所述染色体倍数异常检测系统包括:
预处理模块,用于样本数据预处理,得到样本的每条染色体reads值;
检验模块,用于使用t-test对样本进行检验,并估计空假设下统计量Ratio的期望值与标准差;
计算模块,用于在得到标准差与期望值之后,计算出Ratio值:计算出Ratio值后,对于不同类型的性染色体,即 X染色体和Y染色体,使用不同的参照组,即 男胎参照组和女胎参照组, 计算不同的z值;得到样本的每条染色体reads值,使用t-test对样本进行检验,并估计空假设下统计量Ratio的期望值与标准差;在得到标准差与期望值之后,使用下列公式计算出Ratio值:
Figure FDA0003004781380000011
其中目标染色体分别为X染色体和Y染色体;
计算出Ratio值后,对于不同类型的染色体,使用不同的参照组计算不同的z值;z值的计算公式如下所示:
Figure FDA0003004781380000012
计算不同的z值后,利用决策树分类算法对于性染色体进行检测;
所述计算模块进一步包括:
X染色体的z值计算单元,用于根据女胎参照组计算出的X染色体的z值,记作z_fe_X;
Y染色体的z值计算单元,用于根据女胎参照组计算出的Y染色体的z值,记作z_fe_Y;
X染色体的z值计算单元,用于根据男胎参照组计算出的X染色体的z值,记作z_male_X;
Y染色体的z值计算单元,用于根据男胎参照组计算出的Y染色体的z值,记作z_male_Y;
检测模块,用于计算这些z值后,利用决策树分类算法对于性染色体进行检测;检测模块包括样本分类单元,样本分类单元利用决策树分类算法对于性染色体染色体进行检测。
2.如权利要求1所述的染色体倍数异常检测系统,其特征在于,所述预处理模块进一步包括:
转换单元,用于将bam文件转为fastq文件,得到未经比对过的原始测序文件;
比对单元,用于使用工具bwa对样本与基因组序列进行比对;
质量控制单元,用于进行质量控制;
排序单元,用于对质控后的文件进行排序;
删除单元,用于将重复的序列去掉;
文件设置单元,用于根据染色体大小建立窗口文件,文件的大小设置为300kb;
统计单元,用于划分好区间之后,统计每个区间上唯一比对上的reads数;
差异值计算单元,用于计算样本的GC含量并且消除GC含量造成的差异值;
数据归一化处理单元,用于得到样本的每个区间比对上的reads数目之后,对数据进行归一化处理。
3.如权利要求2所述的染色体倍数异常检测系统,其特征在于,进一步包括:
正常二倍体类型判断单元,若z值在-2到+2之间,样本的类型应该是正常二倍体类型;
多体类型判断单元,若z值在+3.3到正无穷之间,样本的类型应该是多体类型;
单体类型判断单元,若z值在-3.3到负无穷之间,样本的类型应该是单体类型;
上述z值指z_fe_X、z_fe_Y、z_male_X、z_male_Y中的任意一个。
4.如权利要求1所述的染色体倍数异常检测系统,其特征在于,所述检测模块进一步包括:
样本突变类型确定单元,用于通过对不同样本进行分类计算,得到样本的各个染色体的变异情况,分别以z_fe_X、z_fe_Y、z_male_X、z_male_Y作为判别条件,联合起来为4个决策树,组成随机森林算法,再使用简单投票原则,进行判定结果输出。
5.如权利要求3所述的染色体倍数异常检测系统,其特征在于,所述样本分类单元进一步包括:
样本取值范围确定单元,用于对样本判断其类别是否为XX,XXX,XXXX或者XO类型;
在z_fe_Y在-2到+2之间时,
若z_fe_X在-2到+2,样本的类型为XX类型;
若z_fe_X在+3.3到正无穷,样本的类型是XXX或XXXX类型;
若z_fe_X在-3.3到负无穷范围内,样本的类型应该是XO类型;
若z_fe_X在-2到-3.3之间或者+2到+3.3之间,为灰区样本。
6.如权利要求4所述的染色体倍数异常检测系统,其特征在于,所述样本分类单元进一步包括:
样本配别判断单元,用于对样本判断其类别是否为XY,XXY,XYY或者XXYY类型;
在z_fe_Y不在-2到+2之间时,
若z_male_X在-2到+2之间,z_male_Y在3.3到正无穷之间,样本的类型应该是XYY类型;
若z_male_X和z_male_Y都在+3.3到正无穷之间,样本的类型是XXYY 类型;
若z_male_X在+3.3到正无穷之间,z_male_Y在-2到+2之间,样本的类型是XXY类型;
若z_male_X、z_male_Y都在-2到+2之间时,样本的类型是XY类型;
若z_male_X、z_male_Y都在-2到-3.3之间或者+2到+3.3之间,样本为灰区样本。
CN201910503326.9A 2019-06-11 2019-06-11 一种染色体倍数异常检测方法及检测系统 Active CN110428873B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910503326.9A CN110428873B (zh) 2019-06-11 2019-06-11 一种染色体倍数异常检测方法及检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910503326.9A CN110428873B (zh) 2019-06-11 2019-06-11 一种染色体倍数异常检测方法及检测系统

Publications (2)

Publication Number Publication Date
CN110428873A CN110428873A (zh) 2019-11-08
CN110428873B true CN110428873B (zh) 2021-07-23

Family

ID=68408592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910503326.9A Active CN110428873B (zh) 2019-06-11 2019-06-11 一种染色体倍数异常检测方法及检测系统

Country Status (1)

Country Link
CN (1) CN110428873B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103525939A (zh) * 2013-10-28 2014-01-22 广州爱健生物技术有限公司 无创检测胎儿染色体非整倍体的方法和系统
WO2015006932A1 (zh) * 2013-07-17 2015-01-22 深圳华大基因科技有限公司 一种染色体非整倍性检测方法及装置
CN105765076A (zh) * 2013-12-17 2016-07-13 深圳华大基因股份有限公司 一种染色体非整倍性检测方法及装置
CN108921282A (zh) * 2018-05-16 2018-11-30 深圳大学 一种深度神经网络模型的构建方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015006932A1 (zh) * 2013-07-17 2015-01-22 深圳华大基因科技有限公司 一种染色体非整倍性检测方法及装置
CN103525939A (zh) * 2013-10-28 2014-01-22 广州爱健生物技术有限公司 无创检测胎儿染色体非整倍体的方法和系统
CN105765076A (zh) * 2013-12-17 2016-07-13 深圳华大基因股份有限公司 一种染色体非整倍性检测方法及装置
CN108921282A (zh) * 2018-05-16 2018-11-30 深圳大学 一种深度神经网络模型的构建方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Universal Haplotype-Based Noninvasive Prenatal Testing for Single Gene Diseases;Winnie W I Hui 等;《Clinical Chemistry》;20171231;第62卷(第2期);第513-524页 *

Also Published As

Publication number Publication date
CN110428873A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN108573125B (zh) 一种基因组拷贝数变异的检测方法及包含该方法的装置
CN107949845B (zh) 能够在多个下一代测序平台上区分胎儿性别和胎儿性染色体异常的计算机系统
JP2015536639A5 (zh)
CN106096330B (zh) 一种无创产前生物信息检测分析方法
JP6623400B2 (ja) 染色体異数性を測定するためのキット、装置及び方法
CN103525939A (zh) 无创检测胎儿染色体非整倍体的方法和系统
JP2021501609A (ja) 非侵襲的出生前検査および癌検出のために核酸サイズ範囲を使用すること
CN112365927B (zh) Cnv检测装置
JP2018514234A5 (zh)
WO2019213811A1 (zh) 检测染色体非整倍性的方法、装置及系统
CN104951671A (zh) 基于单样本外周血检测胎儿染色体非整倍性的装置
KR101678962B1 (ko) 대규모 병렬형 게놈서열분석 방법을 이용한 비침습적 산전검사 장치 및 방법
CN108875307B (zh) 一种基于孕妇外周血中胎儿游离dna的亲子鉴定方法
WO2016045106A1 (zh) 单细胞染色体的cnv分析方法和检测装置
CN112712853B (zh) 一种无创产前检测装置
CN110428873B (zh) 一种染色体倍数异常检测方法及检测系统
KR20170140107A (ko) 다중 Z-score에 기반한 비침습적 산전 검사 방법 및 장치
CN108229099B (zh) 数据处理方法、装置、存储介质及处理器
WO2019213810A1 (zh) 检测染色体非整倍性的方法、装置及系统
CN109402247A (zh) 一种基于dna变异计数的胎儿染色体检测系统
KR20190114351A (ko) 비침습적 산전 검사에 의한 태아 염색체의 미세결실 또는 미세증폭의 확인 방법
WO2020155982A1 (zh) Shh型髓母细胞瘤甲基化位点的应用
CN114703263B (zh) 一种群组染色体拷贝数变异检测方法及装置
CN117524301B (zh) 一种拷贝数变异的检测方法、装置以及计算机可读介质
CN117594122B (zh) 一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant