CN116994647A - 用于分析变异检测结果的模型的构建方法 - Google Patents
用于分析变异检测结果的模型的构建方法 Download PDFInfo
- Publication number
- CN116994647A CN116994647A CN202210443091.0A CN202210443091A CN116994647A CN 116994647 A CN116994647 A CN 116994647A CN 202210443091 A CN202210443091 A CN 202210443091A CN 116994647 A CN116994647 A CN 116994647A
- Authority
- CN
- China
- Prior art keywords
- data set
- positive
- value
- variation
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000035772 mutation Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 238000012163 sequencing technique Methods 0.000 claims abstract description 79
- 108700028369 Alleles Proteins 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 12
- 230000001717 pathogenic effect Effects 0.000 claims description 11
- 238000007637 random forest analysis Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 abstract description 19
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 238000012549 training Methods 0.000 description 6
- 230000007306 turnover Effects 0.000 description 5
- 238000001712 DNA sequencing Methods 0.000 description 2
- 208000026350 Inborn Genetic disease Diseases 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 208000016361 genetic disease Diseases 0.000 description 2
- 239000003112 inhibitor Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 238000007480 sanger sequencing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000003556 assay Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007918 pathogenicity Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6858—Allele-specific amplification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Zoology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Wood Science & Technology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提出了用于分析变异检测结果的模型的构建方法,所述方法包括:获取明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集;分别从所述阳性测序数据集和阴性测序数据集中提取变异位点的特征;利用上步得到的特征结果构建模型;其中,所述特征包括下列的至少之一:AD0值、AD1值、AF0值、AF1值、GT值、DP值、GQ值、MQ值和QUAL值。利用本发明的方法获得的模型可以准确地预测阳性变异数据是否为假阳性,还可以进一步获知变异位点的基因型,有助于更快和精准的定位到可能的变异,并减少正交实验的成本和周转时间。
Description
技术领域
本发明涉及生物领域。具体地,本发明涉及用于分析变异检测结果的模型的构建方法。
背景技术
临床下一代测序(cNGS)被广泛用于确定遗传疾病患者的分子诊断。然而,已知的NGS流程在测序、比对和变异调用步骤中都会存在随机和系统错误。因为报告的变异会影响患者护理与治疗,美国医学遗传学和基因组学学院(ACMG)和美国病理学家学院(CAP)建议对报告的变异进行正交确认,以降低错误的风险积极的结果。目前Sanger测序一直是遗传性疾病分子诊断的主要技术。但是如ClinVar和OMIM等公共数据库的增长所证明的那样,临床报告候选变体的总数正在稳步增加,它成倍的增加了测试的成本和周转时间,使得想要完全测得也变得越来越不切实际。因此,使用大量已知数据经过训练的机器学习模型,以识别cNGS数据中的假阳性变异,减少对正交测试的需求变得越来越迫切。
目前针对变异假阳性的研究存在如下问题:Sanger测序等正交实验会增加大量的成本和周转时间;现有模型所用的特征多为布尔标记值,与未更改的定量指标相比,这会导致信息丢失;现有模型训练集中的假阳性变异调用相对较少,可能导致某些假阳性捕获率(特别是SNV)的置信区间较宽;现有模型由于成本原因,使用临床数据不够,要么刻意复杂适用多种场景,但置信度不足,要么置信度足够,但过拟合风险较大,适用场景不足。
因此,目前用于预测变异假阳性的方法仍有待研究。
发明内容
本发明旨在至少在一定程度上解决现有技术中存在的技术问题至少之一。
为此,在本发明的一个方面,本发明提出了一种用于分析变异检测结果的模型的构建方法。根据本发明的实施例,所述方法包括:获取明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集;分别从所述阳性测序数据集和阴性测序数据集中提取变异位点的特征;利用上步得到的特征结果构建模型;其中,所述特征包括下列的至少之一:AD0值:变异位点基因型中第一个等位基因的深度;AD1值:变异位点基因型中第二个等位基因的深度;AF0值:变异位点基因型中第一个等位基因的频率;AF1值:变异位点基因型中第二个等位基因的频率;GT值:单个数值(具体可以为0、1、2、3);DP值:测序深度值;GQ值:变异位点基因型的质量值;MQ值:变异位点映射的质量;QUAL值:变异位点可能性的质量值。
变异检测分析软件中可以生成几十种特征参数,发明人对这些特征参数进行比较分析,筛选出一组特征参数,以这些特征参数作为属性对已明确为阳性变异位点和阴性变异位点的数据集构建机器学习模型,利用获得的模型可以准确地预测阳性变异数据是否为假阳性,还可以进一步获知变异位点的基因型,有助于更快和精准的定位到可能的变异,并减少正交实验的成本和周转时间。
在本发明的另一方面,本发明提出了一种分析变异检测结果的方法。根据本发明的实施例,所述方法包括:获取候选阳性变异数据集;利用前面所述用于分析变异检测结果的模型的构建方法获得的机器学习模型对所述候选阳性变异数据集进行分析,以便预测所述候选阳性变异数据集中的阳性变异数据是否为假阳性和/或变异位点的基因型。由此,利用本发明的方法可以准确地预测出阳性变异数据是否为假阳性,同时还可以确定变异的基因型,有助于更快和精准的定位到可能的变异,并减少正交实验的成本和周转时间。
在本发明的又一方面,本发明提出了一种用于分析变异检测结果的模型的构建装置。根据本发明的实施例,所述装置包括:获取模块,所述获取模块适于获取明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集;提取模块,所述提取模块适于分别从所述阳性测序数据集和阴性测序数据集中提取变异位点的特征;构建模块,所述构建模块适于利用所述提取模块获得的特征结果构建模型;其中,所述特征包括下列的至少之一:AD0值:变异位点基因型中第一个等位基因的深度;AD1值:变异位点基因型中第二个等位基因的深度;AF0值:变异位点基因型中第一个等位基因的频率;AF1值:变异位点基因型中第二个等位基因的频率;GT值:单个数值;DP值:测序深度值;GQ值:变异位点基因型的质量值;MQ值:变异位点映射的质量;QUAL值:变异位点可能性的质量值。由此,利用本发明的装置获得的模型可以准确地预测阳性变异数据是否为假阳性,同时还可以确定变异的基因型,有助于更快和精准的定位到可能的变异,并减少正交实验的成本和周转时间。
在本发明的又一方面,本发明提出了一种可执行的存储介质。根据本发明的实施例,所述存储介质存储有计算机程序指令,所述计算机程序指令在处理器上运行时,使所述处理器执行如前面所述分析变异检测结果的方法。由此,通过执行本发明的存储介质,可以准确地预测阳性变异数据是否为假阳性,同时还可以确定变异的基因型,有助于更快和精准的定位到可能的变异,并减少正交实验的成本和周转时间。
在本发明的又一方面,本发明提出了一种电子设备。根据本发明的实施例,所述电子设备包括:前面所述可执行的存储介质;所述处理器,用于执行所述计算机程序以实现前面所述分析变异检测结果的方法。由此,通过实施本发明的电子设备,可以准确地预测阳性变异数据是否为假阳性,同时还可以确定变异的基因型,有助于更快和精准的定位到可能的变异,并减少正交实验的成本和周转时间。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
具体实施方式
下面详细描述本发明的实施例。下面描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
用于分析变异检测结果的模型的构建方法
在本发明的一个方面,本发明提出了一种用于分析变异检测结果的模型的构建方法。根据本发明的实施例,所述方法包括:获取明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集;分别从所述阳性测序数据集和阴性测序数据集中提取变异位点的特征;利用上步得到的特征结果构建模型;其中,所述特征包括下列的至少之一:AD0值、AD1值、AF0值、AF1值、GT值、DP值、GQ值、MQ值和QUAL值。
发明人经过大量实验筛选出上述9种特征参数,其均为GATK软件中的特征参数,具体含义参见下表,以其作为特征属性对明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集进行机器学习,获得预测模型。由此,利用获得的模型可以准确地预测阳性变异数据中是否为假阳性,有助于更快和精准的定位到可能的变异,并减少正交实验的成本和周转时间。
表1特征含义
根据本发明的实施例,所述明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集是通过下列方法获得的:获取测序数据集;利用GATK软件对所述测序数据集与参考数据进行比对处理,获得候选阳性变异数据集;对所述候选阳性变异数据集进行分析处理,获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集。
首选获取临床基因测序数据,通过将测序数据与参考数据比对(例如包括比对、变异检测、注释和过滤等操作),并使用GATK识别变异,获得候选阳性变异数据,输出VCF文件。通过对候选阳性变异数据再次进行分析处理,明确获知数据是否为真阳性或假阳性。将数据分为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集。
根据本发明的实施例,所述参考序列选自人类基因组hg19。
根据本发明的实施例,所述分析处理包括:将所述候选阳性变异数据集进行标准临床解读,获取可能致病的变异数据集;对所述可能致病的变异数据集进行正交试验分析,获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集,其中,所述阳性测序数据集包括SNV变异类型数据集和INDEL变异类型数据集,所述SNV变异类型数据集和INDEL变异类型数据集分别包括纯合基因型数据集和杂合基因型数据集。
术语“标准临床解读”是指参考2015年版ACMG指南对临床变异的致病性进行解读。
通过将GATK识别分析获得的候选阳性变异数据进行标准临床解读,以获得可能致病的变异数据,再对这些数据经过正交试验验证变异的准确性,即可获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集。阳性测序数据集可以分为SNV变异类型和INDEL变异类型,两种变异类型还可以进一步准确获知变异的基因型,即为纯合(Hom)或杂合(Het)。
需要说明的是,本发明对于正交试验分析的方法不作严格限定,只要是能够获知可能致病的变异数据是真阳性变异还是假阳性即可,具体可以采用本领域常规技术操作,例如参考Sanger F.DNA sequencing with chain-terminating inhibitors.1977[J].Biotechnology(Reading,Mass.),24:104-108.。
根据本发明的实施例,所述模型选自随机森林分类模型,阈值为0.95±0.05。阈值的设定保证了足够的准确率,减少偶然性误差。采用可伸缩的阈值设定,在保证足够准确率的前提下,可在准确率和进行正交试验率中相互权衡。
根据本发明的具体实施例,分别将明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集分为训练集和测试集(3:1),并选择随机森林分类模型,经过5折交叉验证选择准确率最高的模型。
根据本发明的实施例,所述用于分析变异检测结果的模型的构建方法包括:
1、首先获取临床基因组数据通过人类参考基因组(hg19)比对,并使用GATK识别变异输出VCF文件;
2、经过标准临床解读获取可能致病的变异,再经过正交实验验证变异的准确性,并且提供准确的基因型Hom(纯和)、Het(杂合)、N(不存在变异);
3、然后将VCF文件转换为机器学习标签和特征,从中共计获取特征9个,具体参见表1:
4、根据变异类型的不同(SNV,INDEL),通过从VCF文件中提取出的特征分别构建两个不同的机器学习分类模型,经过网格搜索寻求最优参数。
5、基于上述方法将数据分为训练集和测试集(3:1),并选择随机森林分类模型,经过5折交叉验证选择准确率最高的模型。
分析变异检测结果的方法
在本发明的另一方面,本发明提出了一种分析变异检测结果的方法。根据本发明的实施例,所述方法包括:获取候选阳性变异数据集;利用前面所述用于分析变异检测结果的模型的构建方法获得的机器学习模型对所述候选阳性变异数据集进行分析,以便预测所述候选阳性变异数据集中的阳性变异数据是否为假阳性和/或变异位点的基因型。由此,利用本发明的方法获得的模型可以准确地预测候选阳性变异数据是否为假阳性,同时还可以确定变异的基因型,有助于更快和精准的定位到可能的变异,并减少正交实验的成本和周转时间。
根据本发明的实施例,所述候选阳性变异数据集是通过下列方式获得的:获取测序数据集;利用GATK软件对所述测序数据集与参考数据进行比对处理,获得所述候选阳性变异数据集。
根据本发明的实施例,所述模型选自随机森林分类模型,当所述候选阳性变异数据的置信度低于所述模型的阈值时,将所述候选阳性变异数据进行正交试验分析,以便预测所述候选阳性变异数据集中的阳性变异数据是否为假阳性。低于阈值的数据称为灰区数据,利用模型预测假阳性的准确率偏低,因此,需要再对这部分数据进行正交实验验证,从而准确地预测其假阳性。
本领域技术人员能够理解的是,前面针对用于分析变异检测结果的模型的构建方法所描述的特征和优点,同样适用于该分析变异检测结果的方法,在此不再赘述。
用于分析变异检测结果的模型的构建装置
在本发明的又一方面,本发明提出了一种用于分析变异检测结果的模型的构建装置。根据本发明的实施例,所述装置包括:获取模块,所述获取模块适于获取明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集;提取模块,所述提取模块适于分别从所述阳性测序数据集和阴性测序数据集中提取变异位点的特征;构建模块,所述构建模块适于利用所述提取模块获得的特征结果构建模型;其中,所述特征包括下列的至少之一:AD0值:变异位点基因型中第一个等位基因的深度;AD1值:变异位点基因型中第二个等位基因的深度;AF0值:变异位点基因型中第一个等位基因的频率;AF1值:变异位点基因型中第二个等位基因的频率;GT值:单个数值;DP值:测序深度值;GQ值:变异位点基因型的质量值;MQ值:变异位点映射的质量;QUAL值:变异位点可能性的质量值。由此,利用本发明的装置获得的模型可以准确地预测阳性变异数据是否为假阳性,同时还可以确定变异的基因型,有助于更快和精准的定位到可能的变异,并减少正交实验的成本和周转时间。
根据本发明的实施例,所述获取模块包括:获取测序数据集模块,所述获取测序数据集模块适于获取测序数据集;对比处理模块,所述对比处理模块适于利用GATK软件对所述测序数据集与参考数据进行比对处理,获得候选阳性变异数据集;分析处理模块,所述分析处理模块适于对所述候选阳性变异数据集进行分析处理,获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集。采用获取模块可以准确地确定测序数据集中的阳性变异位点数据和阴性变异位点数据,同时,还可以确定阳性变异位点的基因型。
根据本发明的实施例,所述分析处理模块包括:标准临床解读模块,所述标准临床解读模块适于将所述阳性变异数据进行标准临床解读,获取可能致病的变异数据;正交试验分析模块,所述正交试验分析子模块适于对所述可能致病的变异数据进行正交试验分析,获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集。
可执行的存储介质
在本发明的又一方面,本发明提出了一种可执行的存储介质。根据本发明的实施例,所述存储介质存储有计算机程序指令,所述计算机程序指令在处理器上运行时,使所述处理器执行如前面所述分析变异检测结果的方法。由此,通过执行本发明的存储介质,可以准确地预测阳性变异数据中是否为假阳性,同时还可以确定变异的基因型,有助于更快和精准的定位到可能的变异,并减少正交实验的成本和周转时间。
本领域技术人员能够理解的是,前面针对分析变异检测结果的方法所描述的特征和优点,同样适用于该可执行的存储介质,在此不再赘述。
电子设备
在本发明的又一方面,本发明提出了一种电子设备。根据本发明的实施例,所述电子设备包括:前面所述可执行的存储介质;所述处理器,用于执行所述计算机程序以实现前面所述分析变异检测结果的方法。由此,通过实施本发明的电子设备,可以准确地预测阳性变异数据中是否为假阳性,同时还可以确定变异的基因型,有助于更快和精准的定位到可能的变异,并减少正交实验的成本和周转时间。
本领域技术人员能够理解的是,前面针对分析变异检测结果的方法和可执行的存储介质所描述的特征和优点,同样适用于该电子设备,在此不再赘述。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
实施例1
1、获取临床5190名患者的WES数据,利用GATK软件对数据与人类基因组hg19进行比对、变异检测、注释和过滤,得到VCF文件;
2、VCF文件经过标准临床解读流程,分析得到可能致病的7375个变异;
3、对上述7375个变异数进行正交实验验证(具体可参考Sanger F.DNAsequencing with chain-terminating inhibitors.1977[J].Biotechnology(Reading,Mass.),24:104-108),确定这些变异包含5241个变异类型SNV和2134个变异类型INDEL。SNV中基因型Het为3226个,Hom为63个,阴性变异为1952个;Indel中基因型Het为1606个,Hom为138个,阴性变异为390个;
4、将上步数据分为训练集和测试集(3:1),训练集分别建立随机森林分类模型,对训练集中所有的特征作为候选特征,然后进行主成份分析,最终确定了表2中列出的9种特征。
表2不同变异类型SNV和INDEL建立随机森林分类模型中的特征重要性
特征 | SNV_MODEL | INDEL_MODEL |
AD0 | 0.0305 | 0.0389 |
AD1 | 0.0365 | 0.0606 |
AF0 | 0.3350 | 0.3135 |
AF1 | 0.2352 | 0.3027 |
GT | 0.0078 | 0.0289 |
DP | 0.0300 | 0.0174 |
GQ | 0.0787 | 0.0691 |
MQ | 0.0139 | 0.0141 |
QUAL | 0.2324 | 0.1548 |
SNV和INDEL模型的测试集准确率分别为94.8%与93.8%,其中不同基因型的准确率如表3。
表3不同变异类型SNV和INDEL建立随机森林分类模型中的不同基因型的准确率
基因型 | SNV_MODEL(%) | INDEL_MODEL(%) |
Het | 92.9 | 80.5 |
Hom | 100 | 92.1 |
N(阴性) | 96.3 | 97.2 |
考虑到临床数据需要的准确性,本方法对测试集通过划定不同的阈值(随机森林结果的置信度)得到不同准确性和正交实验比例(表4),其中的准确率是指判断正确的数量/满足阈值的总数,正交实验比例是指低于阈值的数量/总体测试样本数量。选择在满足足够准确率的情况下,选择尽可能小的正交实验比例的阈值作为目标阈值,最终确定阈值为0.95,并且处于一个可伸缩的范围±0.05。以上结果显示,本方法对噪音数据、数据冗余和低质量数据都有一定的容忍性,有很好的鲁棒性。
表4不同变异类型SNV和INDEL建立随机森林分类模型中的不同阈值与需要正交实验的比例
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种用于分析变异检测结果的模型的构建方法,其特征在于,包括:
获取明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集;
分别从所述阳性测序数据集和阴性测序数据集中提取变异位点的特征;
利用上步得到的特征结果构建模型;
其中,所述特征包括下列的至少之一:
AD0值:变异位点基因型中第一个等位基因的深度;
AD1值:变异位点基因型中第二个等位基因的深度;
AF0值:变异位点基因型中第一个等位基因的频率;
AF1值:变异位点基因型中第二个等位基因的频率;
GT值:单个数值;
DP值:测序深度值;
GQ值:变异位点基因型的质量值;
MQ值:变异位点映射的质量;
QUAL值:变异位点可能性的质量值。
2.根据权利要求1所述的方法,其特征在于,所述明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集是通过下列方法获得的:
获取测序数据集;
利用GATK软件对所述测序数据集与参考数据进行比对处理,获得候选阳性变异数据集;
对所述候选阳性变异数据集进行分析处理,获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集。
3.根据权利要求2所述的方法,其特征在于,所述参考序列选自人类基因组hg19;
任选地,所述分析处理包括:
将所述候选阳性变异数据集进行标准临床解读,获取可能致病的变异数据集;
对所述可能致病的变异数据集进行正交试验分析,获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集,其中,所述阳性测序数据集包括SNV变异类型数据集和INDEL变异类型数据集,所述SNV变异类型数据集和INDEL变异类型数据集分别包括纯合基因型数据集和杂合基因型数据集。
4.根据权利要求3所述的方法,其特征在于,所述模型选自随机森林分类模型,阈值为0.95±0.05。
5.一种分析变异检测结果的方法,其特征在于,包括:
获取候选阳性变异数据集;
利用权利要求1~4任一项所述用于分析变异检测结果的模型的构建方法获得的机器学习模型对所述候选阳性变异数据集进行分析,以便预测所述候选阳性变异数据集中的阳性变异数据是否为假阳性和/或变异位点的基因型。
6.根据权利要求5所述的方法,其特征在于,所述候选阳性变异数据集是通过下列方式获得的:
获取测序数据集;
利用GATK软件对所述测序数据集与参考数据进行比对处理,获得所述候选阳性变异数据集;
任选地,所述模型选自随机森林分类模型,当所述候选阳性变异数据的置信度低于所述模型的阈值时,将所述候选阳性变异数据进行正交试验分析,以便预测所述候选阳性变异数据集中的阳性变异数据是否为假阳性。
7.一种用于分析变异检测结果的模型的构建装置,其特征在于,包括:
获取模块,所述获取模块适于获取明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集;
提取模块,所述提取模块适于分别从所述阳性测序数据集和阴性测序数据集中提取变异位点的特征;
构建模块,所述构建模块适于利用所述提取模块获得的特征结果构建模型;
其中,所述特征包括下列的至少之一:
AD0值:变异位点基因型中第一个等位基因的深度;
AD1值:变异位点基因型中第二个等位基因的深度;
AF0值:变异位点基因型中第一个等位基因的频率;
AF1值:变异位点基因型中第二个等位基因的频率;
GT值:单个数值;
DP值:测序深度值;
GQ值:变异位点基因型的质量值;
MQ值:变异位点映射的质量;
QUAL值:变异位点可能性的质量值。
8.根据权利要求7所述的装置,其特征在于,所述获取模块包括:
获取测序数据集模块,所述获取测序数据集模块适于获取测序数据集;
对比处理模块,所述对比处理模块适于利用GATK软件对所述测序数据集与参考数据进行比对处理,获得候选阳性变异数据集;
分析处理模块,所述分析处理模块适于对所述候选阳性变异数据集进行分析处理,获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集;
任选地,所述分析处理模块包括:
标准临床解读模块,所述标准临床解读模块适于将所述阳性变异数据进行标准临床解读,获取可能致病的变异数据;
正交试验分析模块,所述正交试验分析子模块适于对所述可能致病的变异数据进行正交试验分析,获得明确为阳性变异位点的阳性测序数据集和阴性变异位点的阴性测序数据集。
9.一种可执行的存储介质,其特征在于,所述存储介质存储有计算机程序指令,所述计算机程序指令在处理器上运行时,使所述处理器执行如权利要求5或6所述分析变异检测结果的方法。
10.一种电子设备,其特征在于,包括:
权利要求9所述可执行的存储介质;
所述处理器,用于执行所述计算机程序以实现如权利要求5或6所述分析变异检测结果的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210443091.0A CN116994647A (zh) | 2022-04-25 | 2022-04-25 | 用于分析变异检测结果的模型的构建方法 |
AU2023261122A AU2023261122A1 (en) | 2022-04-25 | 2023-03-15 | Construction method for model for analyzing variation detection result |
PCT/CN2023/081719 WO2023207396A1 (zh) | 2022-04-25 | 2023-03-15 | 用于分析变异检测结果的模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210443091.0A CN116994647A (zh) | 2022-04-25 | 2022-04-25 | 用于分析变异检测结果的模型的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116994647A true CN116994647A (zh) | 2023-11-03 |
Family
ID=88517243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210443091.0A Pending CN116994647A (zh) | 2022-04-25 | 2022-04-25 | 用于分析变异检测结果的模型的构建方法 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN116994647A (zh) |
AU (1) | AU2023261122A1 (zh) |
WO (1) | WO2023207396A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711487B (zh) * | 2024-02-05 | 2024-05-17 | 广州嘉检医学检测有限公司 | 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018161245A1 (zh) * | 2017-03-07 | 2018-09-13 | 深圳华大基因研究院 | 一种染色体变异的检测方法及装置 |
CN108690871B (zh) * | 2018-03-29 | 2022-05-20 | 深圳裕策生物科技有限公司 | 基于二代测序的插入缺失突变检测方法、装置和存储介质 |
CN112111565A (zh) * | 2019-06-20 | 2020-12-22 | 上海其明信息技术有限公司 | 一种细胞游离dna测序数据的突变分析方法和装置 |
CN111304308A (zh) * | 2020-03-02 | 2020-06-19 | 北京泛生子基因科技有限公司 | 一种审核高通量测序基因变异检测结果的方法 |
-
2022
- 2022-04-25 CN CN202210443091.0A patent/CN116994647A/zh active Pending
-
2023
- 2023-03-15 WO PCT/CN2023/081719 patent/WO2023207396A1/zh active Application Filing
- 2023-03-15 AU AU2023261122A patent/AU2023261122A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2023207396A1 (zh) | 2023-11-02 |
AU2023261122A1 (en) | 2024-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10354747B1 (en) | Deep learning analysis pipeline for next generation sequencing | |
CN107229841B (zh) | 一种基因变异评估方法及系统 | |
CN111341383B (zh) | 一种检测拷贝数变异的方法、装置和存储介质 | |
CN110890137A (zh) | 一种化合物毒性预测模型建模方法、装置及其应用 | |
CN112634987B (zh) | 一种单样本肿瘤dna拷贝数变异检测的方法和装置 | |
US20220277811A1 (en) | Detecting False Positive Variant Calls In Next-Generation Sequencing | |
WO2024187890A1 (zh) | 基于snp数据的预测方法、装置、设备及存储介质 | |
JPWO2012091093A1 (ja) | 緑内障診断チップと変形プロテオミクスクラスター解析による緑内障統合的判定方法 | |
AU2020356582A1 (en) | Single cell RNA-seq data processing | |
CN112669903A (zh) | 基于Sanger测序的HLA分型方法及设备 | |
CN110246544B (zh) | 一种基于整合分析的生物标志物选择方法及系统 | |
KR20180060759A (ko) | 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스 | |
CN114613430A (zh) | 一种假阳性核苷酸变异位点的过滤方法及计算设备 | |
CN116864011A (zh) | 基于多组学数据的结直肠癌分子标志物识别方法及系统 | |
CN116994647A (zh) | 用于分析变异检测结果的模型的构建方法 | |
CN113744806B (zh) | 一种基于纳米孔测序仪的真菌测序数据鉴定方法 | |
CN111370065B (zh) | 一种检测rna跨样本交叉污染率的方法和装置 | |
CN114496089B (zh) | 一种病原微生物鉴定方法 | |
CN115831305A (zh) | 基于重症特征的疫情患者转阴天数分类预测方法及系统 | |
CN114566221A (zh) | 遗传病ngs数据自动化分析解读系统 | |
CN113862371A (zh) | 一种酒精相关性肝细胞癌疾病进展和预后风险的预测装置及其预测模型的训练方法 | |
CN113889189A (zh) | 以生父和母亲dna评估胎儿dna浓度的方法及应用 | |
CN114171116A (zh) | 孕妇游离及本身dna评估胎儿dna浓度的方法及应用 | |
CN115066503A (zh) | 使用批量测序数据指导单细胞测序数据的分析 | |
CN116646010B (zh) | 人源性病毒检测方法及装置、设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |