CN111696622B - 一种校正和评估变异检测软件检测结果的方法 - Google Patents
一种校正和评估变异检测软件检测结果的方法 Download PDFInfo
- Publication number
- CN111696622B CN111696622B CN202010456693.0A CN202010456693A CN111696622B CN 111696622 B CN111696622 B CN 111696622B CN 202010456693 A CN202010456693 A CN 202010456693A CN 111696622 B CN111696622 B CN 111696622B
- Authority
- CN
- China
- Prior art keywords
- mutation
- detection
- result
- file
- software
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000035772 mutation Effects 0.000 title claims abstract description 218
- 238000001514 detection method Methods 0.000 title claims abstract description 117
- 238000000034 method Methods 0.000 title claims abstract description 38
- 108091033319 polynucleotide Proteins 0.000 claims abstract description 29
- 102000040430 polynucleotide Human genes 0.000 claims abstract description 29
- 239000002157 polynucleotide Substances 0.000 claims abstract description 29
- 238000012937 correction Methods 0.000 claims abstract description 19
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims abstract description 5
- 230000010354 integration Effects 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 27
- 108091035707 Consensus sequence Proteins 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 210000000349 chromosome Anatomy 0.000 claims description 18
- 238000012163 sequencing technique Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 11
- 230000035945 sensitivity Effects 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 9
- 238000003909 pattern recognition Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000012070 whole genome sequencing analysis Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 abstract 1
- 238000003379 elimination reaction Methods 0.000 abstract 1
- 210000001519 tissue Anatomy 0.000 description 11
- 206010028980 Neoplasm Diseases 0.000 description 10
- 241000532838 Platypus Species 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 6
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 206010064571 Gene mutation Diseases 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 230000037429 base substitution Effects 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 1
- 241000289371 Ornithorhynchus anatinus Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种校正和评估变异检测软件检测结果的方法,包括:输入检测文件,对所述检测文件中的多核苷酸变异进行识别和分割,对进行分割处理后所述检测文件中的变异结果进行去重和整合,获得校正检测结果,以参考软件的变异检测结果为金标准,对所述检测文件中的变异结果和/或所述校正检测结果进行一致性评估。本发明的校正和评估变异检测软件检测结果的方法,可基于任一变异检测软件的结果文件作为输入,对其检测结果进行校正和评估,能提高最终变异检出率。
Description
技术领域
本发明属于基因检测技术领域,特别涉及一种校正和评估变异检测软件检测结果的方法。
背景技术
基因具有多种突变类型,最常见的为单核苷酸突变(SNV),DNA片段插入(Insertion)和缺失(Deletion),但在变异过程中,还经常发生多核苷酸变异(MNV)。多核苷酸变异为一个区块内有多个SNP或Indel,如:’1,1289564,AGCT,CGCC’即在1号染色体上的1289564位置发生了序列AGCT(REF)突变为序列(ALT)CGCC,实际上就是该序列首末端发生了碱基替换又称SNP变异;又比如:‘2,56892445,TGGCTGCAA,CGGCGGCA’,即在该序列的首端和中发生了碱基替换,同时又在该序列的末端发生了缺失,等等。在实际研究中,多核苷酸变异需要分割出来,进行变异信息的重整理,否则会影响基因下游数据的分析结果准确性。
基因突变是导致癌症发生的重要原因,不同癌症类型都会有不同的基因突变类型特征,目前最常用于组织上SNV检测的软件是GATK-mutect2,该软件很好的对测序数据做严格质量校正,还能够利用经大量临床医学数据训练出可靠贝叶斯模型和马尔可夫模型来检测SNV变异,检测结果准确。
但GATK算法计算速度比较慢,且对于检测血液样本的变异检测,还存在一些缺陷,首先,是不够灵敏来检测血液中极低的突变率位点。第二,GATK使用的模型参数是利用组织数据训练的,并不适合于血液样本。
并且基于不同的基因突变类型分析需求,需要应用其它软件进行变异信息检测,如FreeBayes检测灵敏度高,如Platypus能实现快速变异检测等。但这些软件检测变异结果中常常发现存在大量多态性位点信息,未被过滤,且检测出来的变异信息假阳性较高,检测结果不准确,与mutect2软件分析结果难以进行一致性对比,无法确认检测结果。当以mutact2该类软件的检测结果作为检测标准时,缺少与该类参考软件分析结果进行一致性比较的方法。
发明内容
针对上述问题,本发明提供了一种校正和评估变异检测软件检测结果。
一种校正和评估变异检测软件检测结果的方法,包括:
输入检测文件,对所述检测文件中的多核苷酸变异进行识别和分割;
对进行分割处理后所述检测文件中的变异结果进行去重和整合,获得校正检测结果;
以参考软件的变异检测结果为金标准,对所述检测文件中的变异结果和/或所述校正检测结果进行一致性评估。
进一步地,所述检测文件为任一变异检测软件的结果文件,对所述结果文件进行校正和评估。
进一步地,所述对所述检测文件中的多核苷酸变异进行识别和分割包括以下步骤:
步骤(1):获取参考基因组和所述检测文件中变异读段的共有序列;
步骤(2):按照优先选取最长共有序列原则确定选取共有序列,对所述选取共有序列的两端进行分割,获得新的两个变异信息M和N;
步骤(3):通过递归算法对M和N再按照所述步骤(2)重复进行多核苷酸变异位点识别和分割;
步骤(4):分别计算M、N与参考序列共有序列的长度,得到变异信息M的片段长度P和变异信息N的片段长度Q,通过P和Q的长度值判断,继续进行多核苷酸变异位点识别和分割,直至两端共有序列变异位点识别和分割完成。
进一步地,所述获取参考基因组和所述检测文件中变异读段的共有序列包括:
若参考序列和变异位点的长度均大于2,则基于模式识别算法查找参考基因组和变异读段的共有序列;
若参考序列和变异位点的长度都为2且参考基因组与变异位点俩碱基均不相同,则将该多态性变异位点拆分为两个SNP;
若参考序列的长度≥2,变异位点长度>2,则基于模式识别算法查找参考基因组和变异读段的共有序列。
进一步地,所述对所述选取共有序列的两端进行分割是基于字符串分割技术对共有序列的两端进行分割。
进一步地,所述通过P和Q的长度值判断,继续进行多核苷酸变异位点识别和分割,包括:
若P>Q或P<Q时,先按照共有序列长度长的变异读段进行多核苷酸变异位点识别和分割;
当P=Q时,按照M和N在基因组上的坐标信息,从左往右的顺序依次重复所述步骤(1)~(4),直至将所有的多态性变异位点分割完毕。
进一步地,所述检测文件中的变异结果包括分割后和未分割的变异信息;
所述分割后和未分割的变异信息包括突变的染色体、突变位置以及参考碱基序列以及突变碱基序列;
所述对进行分割处理后所述检测文件中的变异结果进行整合为:将所述变异信息进行合并,按照变异信息中突变的染色体、突变位置以及参考序列相同的标准,将变异进行整合放到一行,作为一个位点的变异信息。
进一步地,所述对进行分割处理后所述检测文件中的变异结果进行去重,具体为:
对满足预设去重标准的变异结果,则采用随机算法保留一个变异信息,将去重后的变异结果作为所述校正检测结果;
所述预设去重标准为:以所述变异信息中的突变染色体、突变位置、参考序列以及发生变异序列是否相同作为变异结果是否重复的判断依据;若全部相同,则判断对比的变异信息重复,否则对比的变异信息不重复。
进一步地,所述一致性评估的标准为:突变的染色体是否相同、突变的坐标位置是否相同、突变的参考序列是否相同、突变的序列是否相同以及突变的频率差值是否在0.01范围内,若同时满足上述条件的判定为真阳性突变:
所述一致性评估的指标为灵敏度;
所述灵敏度计算通过:所述检测文件中的变异结果与所述参考软件过滤后的变异检测结果相比,所述检测文件中的变异数/参考软件中的变异检测总数;
和/或,
所述校正检测结果与所述参考软件过滤后的变异检测结果相比,所述校正检测结果变异数/参考软件中的变异检测总数。
一种校正和评估变异检测软件检测结果的方法的应用,所述校正和评估变异检测软件检测结果的方法,能够应用于全基因组测序、全外显子测序及其目标区域捕获测序数据的变异检测结果校正和评估。
本发明提供的校正和评估变异检测软件检测结果的方法,具有以下优势:
本方法适用于全基因组测序、全外显子测序及其目标区域捕获测序数据;
本方法可基于任一变异检测软件的结果文件作为输入,对其检测结果进行校正和评估,能提高最终变异检出率,校正前后灵敏度高达1%-1.5%;
并且,在识别多态性变异位点时,通过模式识别算法寻找共有序列,无需通过共有序列在自定义的距离内查找有无匹配的其它子共有序列,查找不受延伸窗口大小的限制;
适用于一切变异检测结果中含有多态性变异位点,且未进行处理的变异结果,保证检测结果的准确性;
在重复识别和分割多态性变异位点过程,本发明采用递归算法,既可以节省时间又可以节省开发所需内存。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明校正和评估变异检测软件检测结果的方法流程图;
图2示出了根据本发明实施例的基于Platypus变异检测软件的结果作为输入文件,对其检测结果进行校正和评估的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种校正和评估变异检测软件检测结果的方法,如图1所示,包括一以下步骤:
输入检测文件,对所述检测文件中的多核苷酸变异进行识别和分割;
对进行分割处理后所述检测文件中的变异结果进行去重和整合,获得校正检测结果;
以参考软件的变异检测结果为金标准,对检测文件中的变异结果和/或校正检测结果进行一致性评估。
本方法适用于全基因组测序、全外显子测序及其目标区域捕获测序数据。本方法可基于任一变异检测软件的结果文件作为输入,实现对其检测结果进行校正和评估。
在本方法中对所述检测文件中的对多核苷酸变异进行识别和分割包括:
(1)获取参考基因组和所述检测文件中变异读段的共有序列:
若参考序列和变异位点的长度均大于2,则基于模式识别算法查找参考基因组和变异读段的共有序列;
若参考序列和变异位点的长度都为2且参考基因组与变异位点俩碱基均不相同,则将该多态性变异位点拆分为两个SNP;
若参考序列的长度≥2,变异位点长度>2,则基于模式识别算法查找参考基因组和变异读段的共有序列。
(2)按照优先选取最长共有序列原则确定选取共有序列,对所述选取共有序列的两端进行分割,获得新的两个变异信息M和N;
(3)通过递归算法对M和N再按照上述步骤(2)重复进行多核苷酸变异位点识别和分割;
对选取共有序列的两端进行分割是基于字符串分割技术对共有序列的两端进行分割。
(4)分别计算M、N与参考序列共有序列的长度,得到变异信息M的片段长度P和变异信息N的片段长度Q,通过P和Q的长度值判断,继续进行多核苷酸变异位点识别和分割,直至两端共有序列变异位点识别和分割完成。
若P>Q或P<Q时,先按照共有序列长度长的变异读段进行多核苷酸变异位点识别和分割;
当P=Q时,按照M和N在基因组上的坐标信息,从左往右的顺序依次重复步骤(1)~(4),直至将所有的多态性变异位点分割完毕。
本方法中所述检测文件中的变异结果包括分割后和未分割的变异信息;
所述分割后和未分割的变异信息包括突变的染色体、突变位置、参考碱基序列以及突变碱基序列;
所述对进行分割处理后所述检测文件中的变异结果进行整合为:将所述变异信息进行合并,按照变异信息中突变的染色体、突变位置以及参考序列相同的标准,将变异进行整合放到一行,作为一个位点的变异信息。
所述对进行分割处理后所述检测文件中的变异结果进行去重,具体为:
对满足预设去重标准的变异结果,则采用随机算法保留一个变异信息,将去重后的变异结果作为所述校正检测结果;
所述预设去重标准为:以所述变异信息中的突变染色体、突变位置、参考序列以及发生变异序列是否相同作为变异结果是否重复的判断依据;若全部相同,则判断对比的变异信息重复,否则对比的变异信息不重复。
所述通过校正检测结果对所述检测结果进行一致性评估,包括:
所述一致性评估的标准为:突变的染色体是否相同、突变的坐标位置是否相同、突变的参考序列是否相同、突变的序列是否相同以及突变的频率差值是否在0.01范围内,若同时满足上述条件的判定为真阳性突变:
所述一致性评估的指标为灵敏度;
所述灵敏度计算通过:所述检测文件中的变异结果与参考软件过滤后的变异检测结果相比,所述检测文件中的变异数/参考软件中的变异检测总数;
和/或,
所述校正检测结果与参考软件过滤后的变异检测结果相比,所述校正检测结果变异数/参考软件中的变异检测总数。
实施例1
图2示出了基于Platypus变异检测软件的结果作为输入文件,对其检测结果进行校正和评估的流程图,具体包括以下内容:
选取三个不同肿瘤组织,每个肿瘤组织的对照组均为外周血白细胞(北京吉因加医学检验实验室提供)。
1、分别对肿瘤组织进行核酸提取,构建核酸文库,对进行目标捕获区域测序。
为保证变异检测的准确性,对肿瘤组织目标捕获区域的平均测序深度达到500x以上;对照组目标捕获区域平均测序深度为200X以上。
2、将检测的肿瘤组织和对照组测序数据分别与人参考基因组进行比对,得到比对结果文件。
采用BWA-MEM软件将所得检测组和对照组的测序数据与人参考基因组进行比对;
比对结果文件包括肿瘤组织比对结果和对照组比对结果。
3、将肿瘤组织比对结果和对照组比对结果,分别采用GATK-mutact2软件和Platypus变异检测软件进行变异检测分析,通过检测结果对比可知Platypus变异检测软件检测变异数目不准确,且存在大量多核苷酸变异位点。
对每组肿瘤组织的比对结果和对照组的比对结果分别进行GATK-mutact2软件和Platypus变异检测软件分析,对照组作为背景,查找肿瘤组织的变异,所得检测结果如表1所示:
表1三个样本应用Mutect2和Platyus软件检测数据
表2示出了Platyus软件与GATK-mutact2软件的消耗资源值,在检测过程中可知Platyus软件相较于GATK-mutact2软件能够在很短的时间内完成变异的检测。并且通过表1可知,无论是校正前还是校正后Platyus软件检测出SNP位点和indel位点发生变异的数目均远大于GATK-mutact2软件的检测结果,且Platyus软件检测结果中还存在大量多核苷酸变异位点。
表2两种软件资源消耗情况对比
软件 | 进程数 | 内存 | 耗时 |
Platyus | 6 | 0.5G | 20分钟 |
GATK-mutact2 | 6 | 10G | 700分钟 |
4、针对Platypus变异检测软件的变异检测结果,对其中的多核苷酸变异进行识别和分割。
对多核苷酸变异进行识别和分割需要进行以下步骤:
(1)获取人参考基因组和变异读段的共有序列。
共有序列的获取方法需要依据参考基因组的参考序列和变异位点的长度设置。
若参考序列和变异位点长度均大于2,则基于模式识别算法查找参考基因组和变异读段的共有序列;
若参考序列和变异位点长度都为2,且参考基因组与变异位点的俩碱基均不相同则将该多态性变异位点拆分为两个SNP位点,无需进行多核苷酸变异识别;
如果参考序列≥2,变异位点长度>2,则基于模式识别算法查找参考基因组和变异读段的共有序列。
(2)获取共有序列后,优先选取最长共有序列原则对选取共有序列的两端进行分割,获得新的两个变异信息M和N。
其中,对选取共有序列两端的分割基于字符串分割技术。
(3)通过递归算法对M和N再按照上述步骤(2)重复进行多核苷酸变异位点识别和分割。
(4)分别计算M、N与参考序列共有序列的长度,得到变异信息M的片段长度P和变异信息N的片段长度Q,若P>Q或P<Q时,先按照共有序列长度长的变异读段进行多核苷酸变异位点识别和分割,直至两端共有序列变异位点识别和分割完成;
当P=Q时,按照M和N在基因组上的坐标信息,从左往右的顺序依次重复步骤(1)~(4),直至将所有的多核苷酸变异位点分割完毕。
5、对变异检测结果进行整合与去重
分割后和未分割的变异信息包括突变的染色体、突变位置、参考碱基序列以及突变碱基序列;
对变异结果进行整合为:将所述变异信息进行合并,即按照变异信息中突变的染色体、突变位置以及参考序列相同的标准,将突变碱基序列的变异进行整合放到一行,作为一个位点的变异信息。
对整合后的变异信息进行去重,对满足预设去重标准的变异结果,则采用随机算法保留一个变异信息即可。
预设去重标准为:将变异信息中的突变染色体、突变位置、参考序列以及发生变异序列是否相同作为变异结果是否重复的判断依据,若染色体、变异位置、参考序列和发生变异序列全部信息均相同则说明对比的变异信息重复,仅保留一个变异信息即可。
经过上述的多态性变异位点校正,三个样本能够回收大量单碱基多态性位点和插入缺失变异,具体数值参见表3。
表3三个样本应用Platyus软件检测结果校正数据对比
(7)对变异检测结果进行一致性评估。
一致性评估包括:以GATK mutect2软件的变异检测结果为金标准,对同一样本的变异检测结果进行一致性评估。
具体评判的标准为:突变的染色体是否相同、突变的坐标位置是否相同、突变的参考序列是否相同、突变的序列是否相同以及突变的频率差值是否在0.01范围内,若同时满足上述条件的判定为真阳性突变。
具体评估的指标为:敏感度,即Platypus变异检测软件的变异检测结果经过校正后,与GATK mutect2软件过滤后的变异检测结果相比,检测出的相同变异数/GATKmutect2软件中的变异检测总数。
根据表1的分析结果可知,三个样本经多核苷酸变异位点校正前后,灵敏度提高了1%-1.5%。使用Platypus变异检测软件后,采用本发明的一致性评估方法,在缩短检测时间的基础上提高了Platypus变异检测软件的灵敏度。
本实施例中仅以GATK-mutect2检测软件作为参考软件,对Platypus软件的检测结果进行示例性说明,但参考软件和输入检测结果文件不限于此。
通过本发明的一致性评估方法能够提高现有变异信息检测软件与GATK-mutect2检测结果的一致性,能够保证现有变异信息检测软件快速、准确的获得检测结果,对检测样本种类没有要求,适用范围广。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种校正和评估变异检测软件检测结果的方法,其特征在于,包括:
输入检测文件,对所述检测文件中的多核苷酸变异进行识别和分割;
对进行分割处理后所述检测文件中的变异结果进行去重和整合,获得校正检测结果;
以参考软件的变异检测结果为金标准,对所述检测文件中的变异结果和/或所述校正检测结果进行一致性评估;
对所述检测文件中的多核苷酸变异进行识别和分割包括以下步骤:
步骤(1):获取参考基因组和所述检测文件中变异读段的共有序列;
步骤(2):按照优先选取最长共有序列原则确定选取共有序列,对所述选取共有序列的两端进行分割,获得新的两个变异信息M和N;
步骤(3):通过递归算法对M和N再按照所述步骤(2)重复进行多核苷酸变异位点识别和分割;
步骤(4):分别计算M、N与参考序列共有序列的长度,得到变异信息M的片段长度P和变异信息N的片段长度Q,通过P和Q的长度值判断,继续进行多核苷酸变异位点识别和分割,直至两端共有序列变异位点识别和分割完成。
2.根据权利要求1所述的一种校正和评估变异检测软件检测结果的方法,其特征在于,所述检测文件为任一变异检测软件的结果文件,对所述结果文件进行校正和评估。
3.根据权利要求1所述的一种校正和评估变异检测软件检测结果的方法,其特征在于,所述获取参考基因组和所述检测文件中变异读段的共有序列包括:
若参考序列和变异位点的长度均大于2,则基于模式识别算法查找参考基因组和变异读段的共有序列;
若参考序列和变异位点的长度都为2且参考基因组与变异位点俩碱基均不相同,则将多态性变异位点拆分为两个SNP;
若参考序列的长度≥2,变异位点长度>2,则基于模式识别算法查找参考基因组和变异读段的共有序列。
4.根据权利要求1所述的一种校正和评估变异检测软件检测结果的方法,其特征在于,所述对所述选取共有序列的两端进行分割是基于字符串分割技术对共有序列的两端进行分割。
5.根据权利要求1所述的一种校正和评估变异检测软件检测结果的方法,其特征在于,所述通过P和Q的长度值判断,继续进行多核苷酸变异位点识别和分割,包括:
若P>Q或P当P=Q时,按照M和N在基因组上的坐标信息,从左往右的顺序依次重复所述步骤(1)~(4),直至将所有的多态性变异位点分割完毕。
6.根据权利要求1所述的一种校正和评估变异检测软件检测结果的方法,其特征在于,所述检测文件中的变异结果包括分割后和未分割的变异信息;
所述分割后和未分割的变异信息包括突变的染色体、突变位置以及参考碱基序列以及突变碱基序列;
所述对进行分割处理后所述检测文件中的变异结果进行整合为:将所述变异信息进行合并,按照变异信息中突变的染色体、突变位置以及参考序列相同的标准,将变异进行整合放到一行,作为一个位点的变异信息。
7.根据权利要求6所述的一种校正和评估变异检测软件检测结果的方法,其特征在于,所述对进行分割处理后所述检测文件中的变异结果进行去重,具体为:
对满足预设去重标准的变异结果,则采用随机算法保留一个变异信息,将去重后的变异结果作为所述校正检测结果;
所述预设去重标准为:以所述变异信息中的突变染色体、突变位置、参考序列以及发生变异序列是否相同作为变异结果是否重复的判断依据;若全部相同,则判断对比的变异信息重复,否则对比的变异信息不重复。
8.根据权利要求1所述的一种校正和评估变异检测软件检测结果的方法,其特征在于,
所述一致性评估的标准为:突变的染色体是否相同、突变的坐标位置是否相同、突变的参考序列是否相同、突变的序列是否相同以及突变的频率差值是否在0.01范围内,若同时满足上述条件的判定为真阳性突变:
所述一致性评估的指标为灵敏度;
所述灵敏度计算通过:所述检测文件中的变异结果与所述参考软件过滤后的变异检测结果相比,所述检测文件中的变异数/参考软件中的变异检测总数;
和/或,
所述校正检测结果与所述参考软件过滤后的变异检测结果相比,所述校正检测结果变异数/参考软件中的变异检测总数。
9.一种校正和评估变异检测软件检测结果的方法的应用,其特征在于,所述权利要求1~8任一项的校正和评估变异检测软件检测结果的方法,能够应用于全基因组测序、全外显子测序及其目标区域捕获测序数据的变异检测结果校正和评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010456693.0A CN111696622B (zh) | 2020-05-26 | 2020-05-26 | 一种校正和评估变异检测软件检测结果的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010456693.0A CN111696622B (zh) | 2020-05-26 | 2020-05-26 | 一种校正和评估变异检测软件检测结果的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111696622A CN111696622A (zh) | 2020-09-22 |
CN111696622B true CN111696622B (zh) | 2023-11-21 |
Family
ID=72478364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010456693.0A Active CN111696622B (zh) | 2020-05-26 | 2020-05-26 | 一种校正和评估变异检测软件检测结果的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111696622B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724628B (zh) * | 2022-04-24 | 2022-11-08 | 华中农业大学 | 一种对多物种进行多核苷酸变异鉴定和注释的方法 |
CN114974416B (zh) * | 2022-07-15 | 2023-04-07 | 深圳雅济科技有限公司 | 一种检测相邻多核苷酸变异的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055926A (zh) * | 2016-05-13 | 2016-10-26 | 万康源(天津)基因科技有限公司 | 一种基因拷贝数变异分析系统 |
CN106055923A (zh) * | 2016-05-13 | 2016-10-26 | 万康源(天津)基因科技有限公司 | 一种基因拷贝数变异分析方法 |
CN109337957A (zh) * | 2018-12-25 | 2019-02-15 | 江苏医联生物科技有限公司 | 检测基因组多突变类型的方法 |
CN109658983A (zh) * | 2018-12-20 | 2019-04-19 | 深圳市海普洛斯生物科技有限公司 | 一种识别和消除核酸变异检测中假阳性的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140066317A1 (en) * | 2012-09-04 | 2014-03-06 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
-
2020
- 2020-05-26 CN CN202010456693.0A patent/CN111696622B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055926A (zh) * | 2016-05-13 | 2016-10-26 | 万康源(天津)基因科技有限公司 | 一种基因拷贝数变异分析系统 |
CN106055923A (zh) * | 2016-05-13 | 2016-10-26 | 万康源(天津)基因科技有限公司 | 一种基因拷贝数变异分析方法 |
CN109658983A (zh) * | 2018-12-20 | 2019-04-19 | 深圳市海普洛斯生物科技有限公司 | 一种识别和消除核酸变异检测中假阳性的方法和装置 |
CN109337957A (zh) * | 2018-12-25 | 2019-02-15 | 江苏医联生物科技有限公司 | 检测基因组多突变类型的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111696622A (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
CN107229841B (zh) | 一种基因变异评估方法及系统 | |
CN108256289B (zh) | 一种基于目标区域捕获测序基因组拷贝数变异的方法 | |
CN110268044B (zh) | 一种染色体变异的检测方法及装置 | |
CN108256292B (zh) | 一种拷贝数变异检测装置 | |
CN113035273B (zh) | 一种快速、超高灵敏度的dna融合基因检测方法 | |
CN111696622B (zh) | 一种校正和评估变异检测软件检测结果的方法 | |
WO2023115662A1 (zh) | 一种变体核酸的检测方法 | |
CN113674803A (zh) | 一种拷贝数变异的检测方法及其应用 | |
US20190287646A1 (en) | Identifying copy number aberrations | |
KR101936933B1 (ko) | 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스 | |
CN111326212A (zh) | 一种结构变异的检测方法 | |
CN111180013B (zh) | 检测血液病融合基因的装置 | |
CN113789371B (zh) | 一种基于批次矫正的拷贝数变异的检测方法 | |
CN112712853B (zh) | 一种无创产前检测装置 | |
CN111370065B (zh) | 一种检测rna跨样本交叉污染率的方法和装置 | |
CN117316271A (zh) | 基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统 | |
CN114242164B (zh) | 一种全基因组复制的分析方法、装置和存储介质 | |
CN112102944A (zh) | 一种基于ngs的脑肿瘤分子诊断的分析方法 | |
CN107885972A (zh) | 一种基于单端测序的融合基因检测方法及其应用 | |
CN115595370A (zh) | 一种用于非小细胞肺癌分型诊断的基因转录本标记物组合及分型诊断装置 | |
CN110819700A (zh) | 一种构建肺部小结节计算机辅助检测模型的方法 | |
Zachariasen et al. | Identification of representative species-specific genes for abundance measurements | |
CN116168761B (zh) | 核酸序列特征区域确定方法、装置、电子设备及存储介质 | |
CN112562787B (zh) | 一种基于ngs平台的基因大片段重排检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |