CN111899790A - 测序数据的处理方法及装置 - Google Patents
测序数据的处理方法及装置 Download PDFInfo
- Publication number
- CN111899790A CN111899790A CN202010827426.XA CN202010827426A CN111899790A CN 111899790 A CN111899790 A CN 111899790A CN 202010827426 A CN202010827426 A CN 202010827426A CN 111899790 A CN111899790 A CN 111899790A
- Authority
- CN
- China
- Prior art keywords
- sequencing data
- site
- genome
- mutation
- locus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 158
- 238000003672 processing method Methods 0.000 title description 9
- 230000035772 mutation Effects 0.000 claims abstract description 156
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000012795 verification Methods 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims description 11
- 238000012217 deletion Methods 0.000 claims description 10
- 230000037430 deletion Effects 0.000 claims description 10
- 238000003780 insertion Methods 0.000 claims description 10
- 230000037431 insertion Effects 0.000 claims description 10
- 238000011144 upstream manufacturing Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000012216 screening Methods 0.000 abstract description 7
- 239000000523 sample Substances 0.000 description 23
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 108700028369 Alleles Proteins 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请公开了一种测序数据的处理方法及装置。该方法包括:获取待检测基因组的测序数据,并确定待检测基因组的测序数据中产生的至少一个位点,其中,至少一个位点包括突变位点和/或不突变位点;验证待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出位点的基因型可靠程度;基于位点的基因型可靠程度,对位点进行可信性标记。通过本申请,解决了相关技术中采用人工筛选的方式来验证二代测序产生的变异信息,导致验证效率低、时间周期长、成本高的技术问题。
Description
技术领域
本申请涉及基因测序技术领域,具体而言,涉及一种测序数据的处理方法及装置。
背景技术
随着二代测序的普及,产生了大量的人基因组数据,通过对基因组数据进行分析,从而推进了疾病研究的进展,解决了部分疑难杂症,造福了部分遗传病患者。而如何判别二代测序产生的变异信息的准确性,是获得准确可靠的基因分析成果的至关重要的一步。
需要说明的是,基因组数据分析会获得大量突变,以一个30测序数据的处理方法及装置的全基因组测序数据为例,其能检测得到300M-400M的突变,包括单核苷酸多态性突变(SNP),插入缺失突变(InDel)。科研工作者往往需要在检测的结果中,去获取与研究目标相关的突变,并进行验证,该过程涉及到判断位点的准确性,需要先确定可靠,再进行验证,SNP一般假阳性在10%左右,而InDel的假阳性能达到20%以上。位点较少的时候一般是先用IGV人工判断,而样本或者位点较多的时候,或者需要判断样本间的基因型关系是否真实的与研究目标相符的时候,使用IGV判断工作量巨大,甚至难以实现判断目标。如何解决二代测序位点的准确性验证的不便利性,包括人工验证,或者实验验证的不方便,周期长,成本高等问题,是亟待解决的问题。
针对相关技术中采用人工筛选的方式来验证二代测序产生的变异信息,导致验证效率低、时间周期长、成本高的技术问题,目前尚未提出有效的解决方案。
发明内容
本申请提供一种测序数据的处理方法及装置,以解决相关技术中采用人工筛选的方式来验证二代测序产生的变异信息,导致验证效率低、时间周期长、成本高的技术问题。
根据本申请的一个方面,提供了一种测序数据的处理方法。该方法包括:获取待检测基因组的测序数据,并确定待检测基因组的测序数据中产生的至少一个位点,其中,至少一个位点包括突变位点和/或不突变位点;验证待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出位点的基因型可靠程度;基于位点的基因型可靠程度,对位点进行可信性标记。
可选地,获取待检测基因组的测序数据,并确定待检测基因组的测序数据中产生的至少一个位点包括:获取参考基因组的测序数据,并基于参考基因组的测序数据的位点顺序转换待检测基因组的测序数据,得到目标形式的测序数据;获取至少一个待判读的目标位点的基因组位置信息,并基于目标位点的基因组位置信息在目标形式的测序数据中确定至少一个位点。
可选地,验证待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出位点的基因型可靠程度包括:在产生的点位为突变点位的情况下,判断突变点位是否满足第一预设条件,并在突变点位满足第一预设条件时,确定突变点位的基因型可靠程度为可信;在产生的点位为不突变点位的情况下,判断不突变点位是否满足第二预设条件,并在不突变点位满足第二预设条件时,确定不突变点位的基因型可靠程度为可信。
可选地,判断突变点位是否满足第一预设条件包括:判断突变位点的覆盖深度是否大于预设深度,判断突变位点是否存在链偏好性,并判断待检测基因组的测序数据中的突变的碱基是否不小于预设比例;在突变位点的覆盖深度大于预设深度,突变位点不存在链偏好性,且待检测基因组的测序数据中的突变的碱基不小于预设比例的情况下,确定突变位点满足第一预设条件。
可选地,判断不突变点位是否满足第二预设条件包括:判断不突变位点的覆盖深度是否大于预设深度,并判断待检测基因组的测序数据中的突变的碱基是否小于预设比例;对于不突变点位,在不突变位点的覆盖深度大于预设深度,且待检测基因组的测序数据中的突变的碱基小于预设比例的情况下,判断不突变位点的上下游的预设对碱基序列中是否存在可信的插入缺失突变位点;在不突变位点的上下游的预设对碱基序列中不存在可信的插入缺失突变位点的情况下,确定不突变位点的基因型可靠程度为可信。
可选地,基于位点的基因型可靠程度,对位点进行可信性标记包括:在待检测的基因组中的测序数据为单样本的情况下,如果单样本的位点的基因型可靠程度为可信,则标记位点为可信的位点。
可选地,基于位点的基因型可靠程度,对产生的位点进行可信性标记包括:在待检测基因组的测序数据为多样本的情况下,基于多样本之间的关系以及位点的基因型可靠程度对位点进行可信性标记。
可选地,基于多样本之间的关系以及位点的基因型可靠程度对位点进行可信性标记包括:在判定单样本中的位点的基因型可靠程度为可信的情况下判定结果,基于多样本之间的关系信息验证判定结果是否正确;在判定结果正确的情况下,则标记位点为可信。
根据本申请的另一方面,提供了一种测序数据的处理装置。该装置包括:获取单元,用于获取待检测基因组的测序数据,并确定待检测基因组的测序数据中产生的至少一个位点,其中,至少一个位点包括突变位点和/或不突变位点;验证单元,用于验证待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出位点的基因型可靠程度;标记单元,用于基于位点的基因型可靠程度,对位点进行可信性标记。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种测序数据的处理方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种测序数据的处理方法。
通过本申请,采用以下步骤:获取待检测基因组的测序数据,并确定待检测基因组的测序数据中产生的至少一个位点,其中,至少一个位点包括突变位点和/或不突变位点;验证待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出位点的基因型可靠程度;基于位点的基因型可靠程度,对位点进行可信性标记,解决了相关技术中采用人工筛选的方式来验证二代测序产生的变异信息,导致验证效率低、时间周期长、成本高的技术问题。进而达到了提高变异信息的验证效率和验证准确性的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的测序数据的处理方法的流程图;
图2是根据本申请实施例提供的另一种测序数据的处理方法的流程图;以及
图3是根据本申请实施例提供的测序数据的处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种测序数据的处理方法。
图1是根据本申请实施例的测序数据的处理方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取待检测基因组的测序数据,并确定待检测基因组的测序数据中产生的至少一个位点,其中,至少一个位点包括突变位点和/或不突变位点。
需要说明的是,待检测基因组的测序数据中存在多个位点,本申请实施例选择需要关注的位点,并从确定检测基因组的测序数据中确定该位点,并获取该位点的信息。
可选地,在本申请实施例提供的测序数据的处理方法中,获取待检测基因组的测序数据,并确定待检测基因组的测序数据中产生的至少一个位点包括:获取参考基因组的测序数据,并基于参考基因组的测序数据的位点顺序转换待检测基因组的测序数据,得到目标形式的测序数据;获取至少一个待判读的目标位点的基因组位置信息,并基于目标位点的基因组位置信息在目标形式的测序数据中确定至少一个位点。
具体地,可以通过以下方式确定待检测基因组的测序数据中产生的至少一个位点:
获取需要判读的样本文件,该文件可以为单样本文件也可以为多样本文件,该文件中包含待检测基因组的测序数据,在该文件为多样本文件时,文件中还可以包含样本的关系信息与患病信息。
获取参考基因组文件,并基于参考基因组文件确定需要判读的样本的的BAM文件。
获取含有需要判读的位点的文件,该文件包含需要判读的位点的基因组位置信息,通过该文件从BAM文件获取包含待判读位点信息的mpileup文件,mpileup文件为可以读取位点信息的文件格式。
步骤S102,验证待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出位点的基因型可靠程度。
具体地,由于mpileup文件为可读取的文件格式,可以基于mpileup文件进行位点准确性的判读及输出。
可选地,在本申请实施例提供的测序数据的处理方法中,验证待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出位点的基因型可靠程度包括:在产生的点位为突变点位的情况下,判断突变点位是否满足第一预设条件,并在突变点位满足第一预设条件时,确定突变点位的基因型可靠程度为可信;在产生的点位为不突变点位的情况下,判断不突变点位是否满足第二预设条件,并在不突变点位满足第二预设条件时,确定不突变点位的基因型可靠程度为可信。
具体地,本申请实施例通过确定判断位点可靠程度的综合标准,也即第一预设条件和第二预设条件,通过第一预设条件自动对需要进行可靠程度的突变位点进行判断,获得大量的突变位点的可靠性信息,以及相应的判断日志,通过第二预设条件自动对需要进行可靠程度的不突变位点进行判断,获得大量的不突变位点的可靠性信息,以及相应的判断日志,从而降低了准确性判定的成本,缩短了准确性判定的周期。
可选地,在本申请实施例提供的测序数据的处理方法中,判断突变点位是否满足第一预设条件包括:判断突变位点的覆盖深度是否大于预设深度,判断突变位点是否存在链偏好性,并判断待检测基因组的测序数据中的突变的碱基是否不小于预设比例;在突变位点的覆盖深度大于预设深度,突变位点不存在链偏好性,且待检测基因组的测序数据中的突变的碱基不小于预设比例的情况下,确定突变位点的信息满足第一预设条件。
具体地,第一预设条件包括可信的突变的点的要求:可信的突变的点的要求可以为:突变位点的覆盖深度至少为10,突变位点来源于测序DNA的正链的比例小于70%,且突变位点来源于测序DNA的负链的比例小于70%,且突变的碱基型所占待检测基因组的测序数据的比例至少为25%,此外,对于纯合突变(两个等位基因突变成相同的碱基型)或者复合杂合(两个等位基因突变成不同的碱基型)基因型,还要求突变的碱基基因型所占待检测基因组的测序数据的比例至少为80%。
需要说明的是,根据不同的应用场景,第一预设条件中的参数可以进行调节,以适用于更多不同的判读对象。
可选地,在本申请实施例提供的测序数据的处理方法中,判断不突变点位是否满足第二预设条件包括:判断不突变位点的覆盖深度是否大于预设深度,并判断待检测基因组的测序数据中的突变的碱基是否小于预设比例;对于不突变点位,在不突变位点的覆盖深度大于预设深度,且待检测基因组的测序数据中的突变的碱基小于预设比例的情况下,判断不突变位点的上下游的预设对碱基序列中是否存在可信的插入缺失突变位点;在不突变位点的上下游的预设对碱基序列中不存在可信的插入缺失突变位点的情况下,确定不突变位点的基因型可靠程度为可信。
具体地,可信的不突变的位点要求可以为:不突变位点的覆盖深度至少为10,且不突变的碱基型所占待检测基因组的测序数据的比例不得高于25%,说明该不突变的位点不是假阴性位点,这是因为可信的不突变的位点只有一种可信碱基型,不存在可信的突变碱基,但在测序存在部分的测序错误,或者基因组比对错误的情况下,即使没有突变也存在个别出错的碱基,表现出突变碱基的特点,因而,要求突变碱基的比例不高于25%。
需要说明的是,根据不同的应用场景,第二预设条件中的参数可以进行调节,以适用于更多不同的判读对象。
此外,对于特定类型的插入缺失突变(InDel突变),如果同组评估对象(可以是同一家系,也可以是一组患者)有人没有检出该突变,具体地,可以要求该个体的这个位点上下游3对碱基序列内不得有可信的InDel突变位点,才认为该不突变位点是可信的没有检出突变的位点。
例如,在同组评估对象是同一家系的情况下,同一个位点,孩子,母亲,父亲三个人的基因型,分别是杂合突变,不突变,不突变。此时检验这个位点在三个人中的基因型,是不是与初步判结果定的情况一致,即验证孩子是不是杂合突变,父母是不是不突变,当三个人的验证结果都与初步判定结果一致的时候,才认为这个点可信。需说明的是,一致也包括纯杂合信息一致,比如,如果孩子检出的是杂合,但是验证得到的突变比例大于75%,判定为纯合,会标记成低可信,并在日志中输出,也即,该突变点位不是一个可信的纯合突变,而是一个杂合突变。
步骤S103,基于位点的基因型可靠程度,对位点进行可信性标记。
具体地,对需要进行可靠程度的位点进行判断后,输出可信程度,并根据可信程度对位点进行可信性标记,还输出相应的判断日志,便于研究中后续快速筛选可信位点,以及查看不可信原因。
待检测的基因组中的测序数据可以为单样本的测序数据,也可以为多样本的测序数据,可选地,在本申请实施例提供的测序数据的处理方法中,基于位点的基因型可靠程度,对位点进行可信性标记包括:在待检测的基因组中的测序数据为单样本的情况下,如果单样本的位点的基因型可靠程度为可信,则标记位点为可信的位点。
具体地,本申请实施例根据位点比对情况进行突变的可信性标记时,在单样本输入的情况下,判断单样本位点突变可信,则标记为可信。
待检测的基因组中的测序数据可以为单样本的测序数据,也可以为多样本的测序数据,可选地,在本申请实施例提供的测序数据的处理方法中,基于位点的基因型可靠程度,对产生的位点进行可信性标记包括:在待检测基因组的测序数据为多样本的情况下,基于多样本之间的关系以及位点的基因型可靠程度对位点进行可信性标记。
需要说明的是,对于多样本的测序数据的时候,例如,样本中同时存在家系内不同成员的测序数据,患者与对照样本的测序数据时,需要考虑样本间的关系,标记为可信的原则为;每个位点判定的结论与原始位点检测结论均需要一致,才输出这个位点及样本间的关系为可信。
可选地,在本申请实施例提供的测序数据的处理方法中,基于多样本之间的关系以及位点的基因型可靠程度对位点进行可信性标记包括:在判定单样本中的位点的基因型可靠程度为可信的情况下,基于多样本之间的关系信息验证判定结果是否正确;在判定结果正确的情况下,则标记位点为可信。
具体地,原始位点检测结论即为根据第一预设条件或第二预设条件判断出的可信与否的结论,若原始位点检测结论为可信,根据样本间的关系判断原始位点检测结论是否合理,不合理则得出与不同的判断结论,说明判断每个位点判定的结论与原始位点检测结论不一致,合理则得出与相同的判断结论,说明判断每个位点判定的结论与原始位点检测结论一致,标记位点为可信。
此外,本申请实施例标记后还会显示可信信息,例如,H表示很可信,M表示可能可信,L表示可能为假阳性。对于不可信的突变标记,还会添加一列详细信息,例如突变的碱基序列所占的比例,位点的总深度以及突变类型为SNP还是InDel,全部信息能详细解释为什么会被判断为相应的等级。
需要说明的是,由于第一预设条件和第二预设条件中的参数时根据具体的场景进行确定的,可能存在需要判断的值正好处于阈值附近的情况,比如要求突变碱基序列的比例至少为25%,假如一个位点的突变碱基序列比例为24.8%,也还是有一定可能为真的突变,但是标记成不可信,因而提供详细的可信信息,从而便于用户结合样本信息,突变信息,基因信息以及可信信息等判断这个位点是否需要验证。
本申请实施例提供的测序数据的处理方法,通过获取待检测基因组的测序数据,并确定待检测基因组的测序数据中产生的至少一个位点,其中,至少一个位点包括突变位点和/或不突变位点;验证待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出位点的基因型可靠程度;基于位点的基因型可靠程度,对位点进行可信性标记,解决了相关技术中采用人工筛选的方式来验证二代测序产生的变异信息,导致验证效率低、时间周期长、成本高的技术问题。进而达到了提高变异信息的验证效率和验证准确性的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本申请实施例的另一种测序数据的处理方法的流程图。如图2所示,该方法包括:
具体地,获取样本信息文件,该文件中包含待测基因组的测序数据,在待测基因组的测序数据为多样本数据时,样本信息文件中还可能包含多样本之间的关系、患病对照信息。
获取位点信息文件,该文件中包含需要判读的位点的基因组位置信息。
获取参考基因组fasta文件,根据该文件以及基因组的测序数据,可以产生待判读的BAM文件,由于BAM文件不可读,可以将BAM文件转化为可读的pileup文件。
具体地,可以基于需要判读的位点的基因组位置信息,多样本关系信息及患病对照信息,从BAM序列文件获取包含这些位点信息的pileup文件,利用mpileup.py脚本,内置samtools mpileup命令,获取pileup文件直观展示该样本测序信息与参考基因组比对后的信息。
进一步的,统计pileup文件,获取真实对比情况下的总覆盖深度和支持突变碱基的深度等信息,例如设定的条件,对输入文件的每个位点,对应样本间关系,进行判断变异检出是否与pileup统计文件一致,并添加判断结果,以及判断日志。
通过本申请实施例,获取相应的文件以及判读条件,自动对需要进行可靠程度的位点进行判断,获得大量的位点的可靠性信息,降低了准确性判定的成本,缩短了准确性判定的周期。
本申请实施例还提供了一种测序数据的处理装置,需要说明的是,本申请实施例的测序数据的处理装置可以用于执行本申请实施例所提供的用于测序数据的处理方法。以下对本申请实施例提供的测序数据的处理装置进行介绍。
图3是根据本申请实施例的测序数据的处理装置的示意图。如图3所示,该装置包括:获取单元10、验证单元20和标记单元30。
具体地,获取单元10,用于获取待检测基因组的测序数据,并确定待检测基因组的测序数据中产生的至少一个位点,其中,至少一个位点包括突变位点和/或不突变位点。
验证单元20,用于验证待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出位点的基因型可靠程度。
标记单元30,用于基于位点的基因型可靠程度,对位点进行可信性标记。
本申请实施例提供的测序数据的处理装置,通过获取单元10获取待检测基因组的测序数据,并确定待检测基因组的测序数据中产生的至少一个位点,其中,至少一个位点包括突变位点和/或不突变位点;验证单元20验证待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出位点的基因型可靠程度;标记单元30基于位点的基因型可靠程度,对位点进行可信性标记,解决了相关技术中采用人工筛选的方式来验证二代测序产生的变异信息,导致验证效率低、时间周期长、成本高的技术问题,进而达到了提高变异信息的验证效率和验证准确性的效果。
可选地,在本申请实施例提供的测序数据的处理装置中,获取单元10包括:第一获取模块,用于获取参考基因组的测序数据,并基于参考基因组的测序数据的位点顺序转换待检测基因组的测序数据,得到目标形式的测序数据;
第二获取模块,用于获取至少一个待判读的目标位点的基因组位置信息,并基于目标位点的基因组位置信息在目标形式的测序数据中确定至少一个位点。
可选地,在本申请实施例提供的测序数据的处理装置中,验证单元20包括:第一判断模块,用于在产生的点位为突变点位的情况下,判断突变点位是否满足第一预设条件,并在突变点位满足第一预设条件时,确定突变点位的基因型可靠程度为可信;第二判断模块,用于在产生的点位为不突变点位的情况下,判断不突变点位是否满足第二预设条件,并在不突变点位满足第二预设条件时,确定不突变点位的基因型可靠程度为可信。
可选地,在本申请实施例提供的测序数据的处理装置中,第一判断模块包括:第一判断子模块,用于判断位点的覆盖深度是否大于预设深度,判断突变位点是否存在链偏好性,并判断待检测基因组的测序数据中的突变的碱基是否不小于预设比例;第一确定子模块,用于判在位点的覆盖深度大于预设深度,突变位点不存在链偏好性且待检测基因组的测序数据中的突变的碱基不小于预设比例的情况下,确定位点的信息满足第一预设条件。
可选地,在本申请实施例提供的测序数据的处理装置中,第二判断模块包括:第三判断子模块,用于判断不突变位点的覆盖深度是否大于预设深度,并判断待检测基因组的测序数据中的突变的碱基是否小于预设比例;第四判断子模块,用于不突变点位,在不突变位点的覆盖深度大于预设深度,且待检测基因组的测序数据中的突变的碱基小于预设比例的情况下,判断不突变位点的上下游的预设对碱基序列中是否存在可信的插入缺失突变位点;第一确定子模块,用于在不突变位点的上下游的预设对碱基序列中不存在可信的插入缺失突变位点的情况下,确定不突变位点的基因型可靠程度为可信。
可选地,在本申请实施例提供的测序数据的处理装置中,标记单元30包括:第一标记模块,用于在待检测的基因组中的测序数据为单样本的情况下,如果单样本的位点的基因型可靠程度为可信,则标记位点为可信的位点。
可选地,在本申请实施例提供的测序数据的处理装置中,标记单元30还包括:第二标记模块,用于在待检测基因组的测序数据为多样本的情况下,基于多样本之间的关系以及位点的基因型可靠程度对位点进行可信性标记。
可选地,在本申请实施例提供的测序数据的处理装置中,第二标记模块包括:第二确定子模块,用于在判定单样本中的位点的基因型可靠程度为可信的情况下,基于多样本之间的关系信息验证判定结果是否正确;标记子模块,用于在判定结果正确的情况下,则标记位点为可信。
所述测序数据的处理装置包括处理器和存储器,上述获取单元10、验证单元20和标记单元30等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决相关技术中采用人工筛选的方式来验证二代测序产生的变异信息,导致验证效率低、时间周期长、成本高的技术问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种测序数据的处理方法。
本申请实施例还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种测序数据的处理方法。本文中的电子装置可以是服务器、PC、PAD、手机等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (11)
1.一种测序数据的处理方法,其特征在于,包括:
获取待检测基因组的测序数据,并确定所述待检测基因组的测序数据中产生的至少一个位点,其中,所述至少一个位点包括突变位点和/或不突变位点;
验证所述待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出所述位点的基因型可靠程度;
基于所述位点的基因型可靠程度,对所述位点进行可信性标记。
2.根据权利要求1所述的方法,其特征在于,获取待检测基因组的测序数据,并确定所述待检测基因组的测序数据中产生的至少一个位点包括:
获取参考基因组的测序数据,并基于所述参考基因组的测序数据的位点顺序转换所述待检测基因组的测序数据,得到目标形式的测序数据;
获取至少一个待判读的目标位点的基因组位置信息,并基于所述目标位点的基因组位置信息在所述目标形式的测序数据中确定至少一个位点。
3.根据权利要求1所述的方法,其特征在于,验证所述待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出所述位点的基因型可靠程度包括:
在产生的点位为突变点位的情况下,判断所述突变点位是否满足第一预设条件,并在所述突变点位满足所述第一预设条件时,确定所述突变点位的基因型可靠程度为可信;
在产生的点位为不突变点位的情况下,判断所述不突变点位是否满足第二预设条件,并在所述不突变点位满足所述第二预设条件时,确定所述不突变点位的基因型可靠程度为可信。
4.根据权利要求3所述的方法,其特征在于,判断所述突变点位是否满足第一预设条件包括:
判断所述突变位点的覆盖深度是否大于预设深度,判断所述突变位点是否存在链偏好性,并判断所述待检测基因组的测序数据中的突变的碱基是否不小于预设比例;
在所述突变位点的覆盖深度大于所述预设深度,所述突变位点不存在链偏好性,且所述待检测基因组的测序数据中的突变的碱基不小于所述预设比例的情况下,确定所述突变位点满足所述第一预设条件。
5.根据权利要求3所述的方法,其特征在于,判断所述不突变点位是否满足第二预设条件包括:
判断所述不突变位点的覆盖深度是否大于预设深度,并判断所述待检测基因组的测序数据中的突变的碱基是否小于预设比例;
对于不突变点位,在所述不突变位点的覆盖深度大于所述预设深度,且所述待检测基因组的测序数据中的突变的碱基小于所述预设比例的情况下,判断所述不突变位点的上下游的预设对碱基序列中是否存在可信的插入缺失突变位点;
在所述不突变位点的上下游的所述预设对碱基序列中不存在可信的插入缺失突变位点的情况下,确定所述不突变位点的基因型可靠程度为可信。
6.根据权利要求3所述的方法,其特征在于,基于所述位点的基因型可靠程度,对所述位点进行可信性标记包括:在所述待检测的基因组中的测序数据为单样本的情况下,如果所述单样本的位点的基因型可靠程度为可信,则标记所述位点为可信的位点。
7.根据权利要求3所述的方法,其特征在于,基于所述位点的基因型可靠程度,对产生的位点进行可信性标记包括:在所述待检测基因组的测序数据为多样本的情况下,基于所述多样本之间的关系以及所述位点的基因型可靠程度对所述位点进行可信性标记。
8.根据权利要求7所述的方法,其特征在于,基于所述多样本之间的关系以及所述位点的基因型可靠程度对所述位点进行可信性标记包括:
在判定单样本中的所述位点的基因型可靠程度判定结果为可信的情况下,基于所述多样本之间的关系信息验证判定结果是否正确;
在所述判定结果正确的情况下,则标记所述位点为可信。
9.一种测序数据的处理装置,其特征在于,包括:
获取单元,用于获取待检测基因组的测序数据,并确定所述待检测基因组的测序数据中产生的至少一个位点,其中,所述至少一个位点包括突变位点和/或不突变位点;
验证单元,用于验证所述待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出所述位点的基因型可靠程度;
标记单元,用于基于所述位点的基因型可靠程度,对所述位点进行可信性标记。
10.一种非易失性存储介质,其特征在于,所非易失性存储介质包括存储的程序,其中,所述程序运行时控制所述非易失性存储介质所在的设备执行权利要求1至8中任意一项所述的测序数据的处理方法。
11.一种电子装置,其特征在于,包含处理器和存储器,所述存储器中存储有计算机可读指令,所述处理器用于运行所述计算机可读指令,其中,所述计算机可读指令运行时执行权利要求1至8中任意一项所述的测序数据的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010827426.XA CN111899790A (zh) | 2020-08-17 | 2020-08-17 | 测序数据的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010827426.XA CN111899790A (zh) | 2020-08-17 | 2020-08-17 | 测序数据的处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111899790A true CN111899790A (zh) | 2020-11-06 |
Family
ID=73230145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010827426.XA Pending CN111899790A (zh) | 2020-08-17 | 2020-08-17 | 测序数据的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111899790A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140206006A1 (en) * | 2011-08-25 | 2014-07-24 | Bgi Shenzhen | Single cell classification method, gene screening method and device thereof |
CN106407747A (zh) * | 2016-11-04 | 2017-02-15 | 成都鑫云解码科技有限公司 | 肿瘤对应的基因的突变位点的获取方法及装置 |
CN107292129A (zh) * | 2017-05-26 | 2017-10-24 | 中国科学院上海药物研究所 | 易感基因型检测方法 |
CN107491666A (zh) * | 2017-09-01 | 2017-12-19 | 深圳裕策生物科技有限公司 | 异常组织中单样本体细胞突变位点检测方法、装置和存储介质 |
CN108256291A (zh) * | 2016-12-28 | 2018-07-06 | 杭州米天基因科技有限公司 | 一种生成具有较高可信度基因突变检测结果的方法 |
CN109637581A (zh) * | 2018-12-10 | 2019-04-16 | 江苏医联生物科技有限公司 | 一种dna二代测序全流程质量分析方法 |
CN109979531A (zh) * | 2019-03-29 | 2019-07-05 | 北京市商汤科技开发有限公司 | 一种基因变异识别方法、装置和存储介质 |
CN111304308A (zh) * | 2020-03-02 | 2020-06-19 | 北京泛生子基因科技有限公司 | 一种审核高通量测序基因变异检测结果的方法 |
-
2020
- 2020-08-17 CN CN202010827426.XA patent/CN111899790A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140206006A1 (en) * | 2011-08-25 | 2014-07-24 | Bgi Shenzhen | Single cell classification method, gene screening method and device thereof |
CN106407747A (zh) * | 2016-11-04 | 2017-02-15 | 成都鑫云解码科技有限公司 | 肿瘤对应的基因的突变位点的获取方法及装置 |
CN108256291A (zh) * | 2016-12-28 | 2018-07-06 | 杭州米天基因科技有限公司 | 一种生成具有较高可信度基因突变检测结果的方法 |
CN107292129A (zh) * | 2017-05-26 | 2017-10-24 | 中国科学院上海药物研究所 | 易感基因型检测方法 |
CN107491666A (zh) * | 2017-09-01 | 2017-12-19 | 深圳裕策生物科技有限公司 | 异常组织中单样本体细胞突变位点检测方法、装置和存储介质 |
CN109637581A (zh) * | 2018-12-10 | 2019-04-16 | 江苏医联生物科技有限公司 | 一种dna二代测序全流程质量分析方法 |
CN109979531A (zh) * | 2019-03-29 | 2019-07-05 | 北京市商汤科技开发有限公司 | 一种基因变异识别方法、装置和存储介质 |
CN111304308A (zh) * | 2020-03-02 | 2020-06-19 | 北京泛生子基因科技有限公司 | 一种审核高通量测序基因变异检测结果的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ali et al. | Identifying clusters of high confidence homologies in multiple sequence alignments | |
Lee et al. | Genomic dark matter: the reliability of short read mapping illustrated by the genome mappability score | |
Aziz et al. | College of American Pathologists' laboratory standards for next-generation sequencing clinical tests | |
Kardos et al. | Inferring individual inbreeding and demographic history from segments of identity by descent in Ficedula flycatcher genome sequences | |
Guo et al. | Illumina human exome genotyping array clustering and quality control | |
Ding et al. | Feature-based classifiers for somatic mutation detection in tumour–normal paired sequencing data | |
Alkuraya | Discovery of rare homozygous mutations from studies of consanguineous pedigrees | |
Greenman et al. | PICNIC: an algorithm to predict absolute allelic copy number variation with microarray cancer data | |
Castellanos et al. | A comprehensive custom panel design for routine hereditary cancer testing: preserving control, improving diagnostics and revealing a complex variation landscape | |
Hahn et al. | A three-sample test for introgression | |
Cho et al. | High-resolution transcriptome analysis with long-read RNA sequencing | |
Kavak et al. | Discovery and genotyping of novel sequence insertions in many sequenced individuals | |
Numanagić et al. | Cypiripi: exact genotyping of CYP2D6 using high-throughput sequencing data | |
Futschik et al. | Multiscale DNA partitioning: statistical evidence for segments | |
Guzman et al. | CIPHER: a flexible and extensive workflow platform for integrative next-generation sequencing data analysis and genomic regulatory element prediction | |
Panchal et al. | Evaluating nested clade phylogeographic analysis under models of restricted gene flow | |
Lun et al. | From reads to regions: a Bioconductor workflow to detect differential binding in ChIP-seq data | |
Jin et al. | Quickly identifying identical and closely related subjects in large databases using genotype data | |
Hua et al. | SNiPer-HD: improved genotype calling accuracy by an expectation-maximization algorithm for high-density SNP arrays | |
CN113517022A (zh) | 基因检测方法、特征提取方法、装置、设备及系统 | |
Song et al. | SummaryAUC: a tool for evaluating the performance of polygenic risk prediction models in validation datasets with only summary level statistics | |
Li et al. | Identification of errors in draft genome assemblies at single-nucleotide resolution for quality assessment and improvement | |
Schikora-Tamarit et al. | PerSVade: personalized structural variant detection in any species of interest | |
Rajaby et al. | SurVIndel: improving CNV calling from high-throughput sequencing data through statistical testing | |
Lee et al. | Unique k-mer sequences for validating cancer-related substitution, insertion and deletion mutations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201106 |