CN116312764A - 变异危害性分级装置、方法及其应用 - Google Patents

变异危害性分级装置、方法及其应用 Download PDF

Info

Publication number
CN116312764A
CN116312764A CN202211676355.3A CN202211676355A CN116312764A CN 116312764 A CN116312764 A CN 116312764A CN 202211676355 A CN202211676355 A CN 202211676355A CN 116312764 A CN116312764 A CN 116312764A
Authority
CN
China
Prior art keywords
feature set
variation
feature
hazard
evaluation result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211676355.3A
Other languages
English (en)
Inventor
刘云山
杜洋
王娟
李志民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Annoroad Gene Technology Beijing Co ltd
Original Assignee
Annoroad Gene Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Annoroad Gene Technology Beijing Co ltd filed Critical Annoroad Gene Technology Beijing Co ltd
Publication of CN116312764A publication Critical patent/CN116312764A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种变异危害性分级装置、方法以及应用,所述分级装置包括第一特征集和第二特征集获取单元、特征集链接单元、变异评价单元、危害分级单元和结果输出单元。所述分级装置是一种综合性评价工具,其比单一预测模型的适用范围更广,较之Exomiser使用了更为全面与合理的特征,并使用人工智能算法(随机森林/神经网络)进行建模,获得了较高的准确性和特异性。

Description

变异危害性分级装置、方法及其应用
技术领域
本发明涉及基因检测技术领域,尤其涉及一种变异危害性分级装置、方法以及应用。
背景技术
使用高通量测序技术进行人基因组的突变检测,是找到遗传病患者致病突变的重要手段。在获得大量变异数据后,找到其中的致病有害突变是检测技术的重点和难点。目前常用的方法有:
1.查询ClinVar、HGMD、OMIM等疾病或表型相关的数据库。
2.使用现有的突变有害程度预测工具,如ClinPred、REVEL、CADD等。
3.使用综合性有害变异注释工具如Exomiser等。
同时在本领域也有相关专家共识与指南,如ACMG指南。在对遗传病人进行高通量测序检测的过程中,比如外显子测序(WES),往往能检测出数万个变异位点,人工根据指南进行有害突变鉴定操作难度很大,费时费力。
鉴于背景所述人工鉴定有害变异的困难,出现了一些自动化进行变异有害程度打分的工具,目前大致有以下两种类型。
第一种是基于位置或蛋白功能变化来预测突变有害程度的模型,如CADD、REVEL、ClinPred等。然而随着临床变异数据库的不断增加,已有模型得到的预测数据集在数据库中的覆盖比例逐渐减少。单用某种预测工具得到的结果虽然特异性较高,但很多测序检出的变异往往无法得到打分结果,灵敏度较低。
另一种是综合性评价工具,典型如Exomiser考虑了突变类型、突变频率、基因关联的表型等特征,并参考了一些基因在小鼠等模式动物中的表型影响,来评价变异有害程度。这样使得能够进行打分评价的变异大大增多,灵敏性提高。然而Exomiser考虑的特征较少,重点也不够合理,一些模式动物数据在人类遗传病诊断上往往缺乏说服力,使得预测的准确性不高。
发明内容
鉴于上述问题,本发明提供了一种变异危害性分级装置、方法及其应用,所述的变异危害性分级装置是一种综合性评价工具,其比单一预测模型的适用范围更广,较之Exomiser使用了更为全面与合理的特征,并使用人工智能算法(随机森林/神经网络)进行建模,获得了较高的准确性和特异性。
本发明具体技术方案如下:
1.一种变异危害性分级装置,其包括:
第一特征集和第二特征集获取单元,其用于获取待测样本的第一特征集和第二特征集;
特征集链接单元,其用于对第一特征集中每个变异分别与三种类别以上变异相关特征集进行链接,以及对第二特征集中的每个特征与人类表型数据集进行链接;
变异评价单元,其基于第一特征集,对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价获得第一评价结果,以及基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果;
危害分级单元,用于对第一评价结果和第二评价结果进行链接,提取具有危害性的变异,并将所有具有危害性的变异进行危害度分级;以及
结果输出单元,其用于输出每个变异的危害分级结果。
2.根据项1所述的变异危害性分级装置,其中,任选地,
所述第一特征集为包括变异特征的序列特征集;
所述第二特征集为表型特征集;
所述变异相关特征集任选自临床数据特征集、人群频率特征集、蛋白改变危害程度特征集和变异有害性文献特征集。
3.根据项2所述的变异危害性分级装置,其中,任选地,
所述临床数据特征集为收录每个变异有无临床数据库的特征集;
所述人群频率特征集为收录每个变异在人群频率数据库中的最大人群频率的特征集;
所述蛋白改变危害程度特征集为收录每个变异在预测模型中的最大打分值的特征集;以及
所述变异有害性文献特征集为收录每个变异有害性记录的特征集。
4.根据项2或3所述的变异危害性分级装置,其中,任选地,
所述第一评价结果包括,
任选地,
基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分;
基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分;
基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分;
基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分;
所述第二评价结果为表型与变异相关度评分。
5.根据项1-4中任一项所述的变异危害性分级装置,其中,
所述第一评价结果包括对任一第一特征集的特征是否为具有危害性的判断;所述第二评价结果包括对任一第二特征集的特征是否为具有危害性的判断。
6.根据项5所述的变异危害性分级装置,其中,
在危害分级单元中,基于第一评价结果和第二评价结果对具有危害性的变异进行危害度评分。
7.根据项1-6中任一项所述的变异危害性分级装置,其中,所述变异评价单元和/或危害分级单元采用人工智能模型单元。
8.一种用于变异危害性分级的方法,其包括:
获取待测样本的第一特征集和第二特征集;
对第一特征集中每个变异分别与三种类别以上变异相关特征集进行链接,以及对第二特征集中的每个特征与人类表型数据集进行链接;
基于第一特征集对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价获得第一评价结果,以及基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果;
对第一评价结果和第二评价结果进行链接,提取具有危害性的变异,并将具有危害性的特征进行危害度分级;以及
输出危害分级结果。
9.根据项8所述的方法,其中,任选地,
所述第一特征集为包括变异特征的序列特征集;
所述第二特征集为表型特征集;
所述变异相关特征集任选自临床数据特征集、人群频率特征集、蛋白改变危害程度特征集和变异有害性文献特征集。
10.根据项9所述的方法,其中,任选地,
所述临床数据特征集为收录每个变异有无临床数据库的特征集;
所述人群频率特征集为收录每个变异在人群频率数据库中的最大人群频率的特征集;
所述蛋白改变危害程度特征集为收录每个变异在预测模型中的最大打分值的特征集;以及
所述变异有害性文献特征集为收录每个变异有害性记录的特征集。
11.根据项9或10所述的方法,其中,任选地,
所述第一评价结果包括,
任选地,
基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分;
基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分;
基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分;
基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分;
所述第二评价结果为表型与变异相关度评分。
12.根据项9-11中任一项所述的方法,其中,
所述第一评价结果包括对任一第一特征集的特征是否为具有危害性的判断;
所述第二评价结果包括对任一第二特征集的特征是否为具有危害性的判断。
13.根据项12所述的方法,其中,
基于第一评价结果和第二评价结果对具有危害性的变异进行危害度评分。
14.根据项8-13中任一项所述的方法,其中,
所述基于第一特征集对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价获得第一评价结果,以及基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果;和/或
对第一特评价结果和第二评价结果进行链接,提取具有危害性的变异,并将具有危害性的特征进行危害度分级的步骤采用建立人工智能模型的步骤。
15.一种变异危害性分级系统,其包括计算机设备,所述计算机设备被编程或配置以执行项8-14中任一项所述方法的步骤。
发明的效果
本发明所述的方法,其相比较于单一基于位置或蛋白功能变化来预测突变有害程度的模型,考虑了更多的评价维度,大大增加了可评价的基因突变类型;相较于已有的综合性评价工具,本发明采用了更为合理的评价维度,并使用人工智能获得更为可靠的评价模型,增加了变异危害性评价的灵敏度与特异性。
人工根据指南进行变异危害性判定十分费时费力,且由于人的主观差异,结果有很高的不确定性和不一致性,而使用人工智能模型可以极大提升效率和准确性。
附图说明
图1是本发明具体实施方式中的一种变异危害性分级装置的示意图。
图2是本发明具体实施方式中的一种使用变异危害性分级装置的流程图。
图3是本发明具体实施方式中的另一种变异危害性分级装置的示意图。
图4是本发明具体实施方式中的另一种使用变异危害性分级装置的流程图。
图5是本发明具体实施方式中的另一种使用变异危害性分级装置的流程图。
具体实施方式
下面结合附图所描述的实施方式对本发明做以详细说明,其中所有附图中相同的数字表示相同的特征。虽然附图中显示了本发明的具体实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
需要说明的是,在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解,技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异作为区分组件的方式,而是以组件在功能上的差异作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为开放式用语,故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式,然而所述描述乃以说明书的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
如本文所用,术语“第一特征集”指的是第一特征的集合。在本发明中,所述第一特征集指的是变异特征的集合。例如,所述第一特征集包括临床数据特征集、人群频率特征集、蛋白改变危害程度特征集和变异有害性文献特征集,例如,所述临床数据特征集指的是每个基因变异的临床数据收录特征的集合,例如是在ClinVar与HGMD数据库中记录的每个基因变异的致病等级;
所述人群频率特征集指的是人群频率特征的集合,例如是在gnomAD、ExAC、1000g、esp6500siv2这几个人群频率数据库中所记录的频率的最大值MaxMAF的集合,即最大人群频率特征的集合;
所述蛋白改变危害程度特征集指的是蛋白变化影响程度特征的集合,例如是使用dbNSFPv4数据库查询基因变异在几个性能较好的已有危害预测模型中的打分,从而获得ClinPred_pred、REVEL_score、VEST4_score、BayesDel_addAF_pred,选取其中的最大值作为蛋白变化影响程度特征值;
所述变异有害性文献特征集指的是基因变异有害性文献记录特征的集合,即以基因变异的HGVS为关键词在PubMed摘要中检索,PubMed_score为支持变异有害的文献数目减去支持变异有益的文献数。
如本文所用,术语“第二特征集”指的是第二特征的集合。在本发明中,所述第二特征集指的是表型的集合。
所述第二特征集指的是变异所在基因HPO与疾病表型HPO的匹配程度特征的集合。
如本文所用,术语“特征集链接”指的是将一种特征集的每个特征与另一种特征集的相关特征进行链接。在本发明中,所述特征集链接可以是例如,对第一特征集的每个变异与三种类别以上的变异相关特征集进行链接以及对第二特征集中每个特征与人类表型数据集进行链接。
如本文所用,术语“变异相关特征集”指的是与变异相关的特征的集合,在本发明中,所述变异相关特征集选自临床数据特征集、人群频率特征集、蛋白改变危害程度特征集和变异有害性文献特征集中的一种或两种以上。
如本文所用,术语“第一评价结果”指的是基于第一特征集与变异相关特征集进行链接后进行评价所得到的结果,在本发明中,所述第一评价结果指的是将第一特征集的每个变异分别与三种类别以上变异相关特征集(临床数据特征集、人群频率特征集、蛋白改变危害程度特征集和变异有害性文献特征集)进行链接后进行评价所得到的结果。
如本文所用,术语“第二评价结果”指的是基于第二特征集与人类表型数据集进行链接后进行评价所得到的结果。在本发明中,所述第二评价结果指的是对第二特征集中的每个特征与人类表型数据集进行链接后进行评价所得到的结果。
现有技术中的综合评价工具Exomiser,只考虑了最大人群频率、蛋白变化影响程度和基因与疾病表型匹配程度这三个特征。其中评价蛋白变化影响程度使用的是SIFT、PolyPhen-2和MutationTaster这三个工具;评估基因与疾病表型匹配程度使用了PHIVE算法。PHIVE算法通过跨物种比较增加了基因与表型的关联能力,但一定程度上缺乏解释性,难以作为临床诊断依据,基于此,如图1所示,本发明提供了一种变异危害性分级装置,其包括:
第一特征集和第二特征集获取单元,其用于获取待测样本的第一特征集和第二特征集;
特征集链接单元,其用于对第一特征集中每个变异分别与三种类别以上变异相关特征集进行链接,以及对第二特征集中的每个特征与人类表型数据集进行链接;
变异评价单元,其基于第一特征集,对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价获得第一评价结果,以及基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果;
危害分级单元,用于对第一评价结果和第二评价结果进行链接,提取具有危害性的变异,并将具有危害性的特征进行危害度分级;以及
结果输出单元,其用于输出变异危害分级结果。
所述人类表型数据集的特征包括表型相关变异。
所述用于对第一评价结果和第二评价结果进行链接是基于第一特征集和第二特征集相同的变异,对第一评价结果和第二评价结果进行链接;优选地,所述第一评价结果包括所述任一第一特征集的特征是否为具有危害性的特征;所述第二评价结果包括所述任一第二特征集的特征是否为具有危害性的特征。
所述分级是提取变异所在基因,输出基因危害分级结果,即基于危害度分级,按照排序好的结果,输出每个基因变异的分数。
图2使用危害性分级装置的一种流程图,即使用第一特征集和第二特征集获取单元获取待测样本的第一特征集和第二特征集,接着使用特征集链接单元,对第一特征集中每个变异分别与三种类别以上变异相关特征集进行链接,以及对第二特征集中的每个特征与人类表型数据集进行链接,然后使用变异评价单元并基于第一特征集,对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价获得第一评价结果,以及基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果,并使用危害分级单元对第一评价结果和第二评价结果进行链接,提取具有危害性的变异,并将所有具有危害性的变异进行危害度分级;以及使用结果输出单元输出每个变异的危害分级结果。
如图3所示,所述变异危害性分级装置,其包括:
第一特征集和第二特征集获取单元,其用于获取待测样本的第一特征集和第二特征集;
特征集链接单元,其用于对第一特征集中每个变异分别与三种类别以上变异相关特征集进行链接,以及对第二特征集中的每个特征与人类表型数据集进行链接;
变异评价单元,其基于第一特征集,对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价获得第一评价结果,以及基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果;
危害分级单元,用于对第一评价结果和第二评价结果进行链接,提取具有危害性的变异,并将所有具有危害性的变异进行危害度分级;以及
结果输出单元,其用于输出每个变异的危害分级结果;所述第一特征集为包括变异特征的序列特征集;
所述第二特征集为表型特征集;所述第二特征为表型特征。
所述变异相关特征集任选自临床数据特征集、人群频率特征集、蛋白改变危害程度特征集和变异有害性文献特征集,例如,所述变异相关特征集可以是选自如下特征集三个以上的组合:临床数据特征集、人群频率特征集和蛋白改变危害程度特征集或者所述变异相关特征集为人群频率特征集、蛋白改变危害程度特征集和变异有害性文献特征集或者所述变异相关特征集为临床数据特征集、人群频率特征集和变异有害性文献特征集或者所述变异相关特征集为临床数据特征集、蛋白改变危害程度特征集和变异有害性文献特征集或者所述变异相关特征集为临床数据特征集、人群频率特征集、蛋白改变危害程度特征集和变异有害性文献特征集。
优选地,所述临床数据特征集为收录每个变异有无临床数据库的特征集;
所述人群频率特征集为收录每个变异在人群频率数据库中的最大人群频率的特征集;
所述蛋白改变危害程度特征集为收录每个变异在预测模型中的最大打分值的特征集;以及
所述变异有害性文献特征集为收录每个变异有害性记录的特征集;
进一步优选地,所述第一评价结果包括:
基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分;
基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分;
基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分;
基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分;
所述第二评价结果为表型与变异相关度评分。
例如,所述第一评价结果包括基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分或者
所述第一评价结果包括基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分;或者
所述第一评价结果包括基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分;或者
所述第一评价结果包括基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分;或者
所述第一评价结果包括基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分以及基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分;或者
所述第一评价结果包括基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分以及基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分;或者
所述第一评价结果包括基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分以及基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分;或者
所述第一评价结果包括基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分以及基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分;或者
所述第一评价结果包括基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分以及基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分;或者
所述第一评价结果包括基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分以及基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分;或者
所述第一评价结果包括基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分,基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分以及基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分;或者
所述第一评价结果包括基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分,基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分以及基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分;或者
所述第一评价结果包括基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分,基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分以及基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分;或者
所述第一评价结果包括基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分,基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分,基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分以及基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分。
所述第一特征A类别评分,其指的是DB_score,其是第一特征集中的每个变异在ClinVar数据库和HGMD数据库中的临床意义的映射关系所对应的ClinVar_score值和HGMD_score值之和的平均值。
所述第一特征集可以采用VCF文件的形式。所述第二特征集为HPO疾病表型特征集。
VCF(Variant Call Format)文件是一种记录基因突变的文件格式;
HPO(Human Phenotype Ontology)是人类表型本体,是用来描述人类疾病相关表型的一系列标准化词汇和术语。
所述临床数据库指的是ClinVar数据库和HGMD数据库。
所述ClinVar指的是一个反应人类基因变异和表型关系的公共数据库。
所述HGMD指的是一个记录人类疾病相关基因变异和分类关系的数据库。
具体地,ClinVar_score值指的是在所述ClinVar数据库中的临床意义的映射关系所取得的值,其映射关系如表1所示。
表1ClinVar临床意义与ClinVar_score值的关系表
ClinVar临床意义 ClinVar_score取值
Pathogenic(致病) 3
Likely pathogenic(可能致病) 3
drug response(药物反应) 2
Association(有关联) 2
risk factor(风险因子) 2
Affects(有影响) 1
conflicting data from submitters(有矛盾) 1
Uncertain significance(不明确) 0
not provided(未提供) 0
Other(其它) 0
‘-’(未查到记录) 0
Protective(保护) -1
Likely benign(可能良性) -2
Benign(良性) -3
HGMD_score值指的是在HGMD数据库中的临床意义的映射关系所取得的值,其映射关系如表2所示。
表2HGMD临床意义与HGMD_score值的关系表
HGMD临床意义 HGMD_score取值
DM(致病) 3
DM?(疑似致病) 3
DFP(有功能支持的疾病相关) 2
DP(疾病相关) 2
FP(实验支持但疾病关系不明) 1
DB_score=(ClinVar_score+HGMD_score)/2即可得到每个变异有无临床数据库收录特征值。
采用该特征值,能够增加临床解释性。
所述第一特征B类别评分指的是AF_score,其是第一特征集中的每个变异在人群频率数据库中的最大人群频率值的映射关系所得到的最大人群频率。
所述人群频率数据库包含1000g2015aug_all数据库、1000g2015aug_eas数据库、esp6500siv2_all数据库、esp6500siv2_ea数据库、ExAC_ALL数据库、ExAC_EAS数据库、gnomAD211_exome_ALL数据库、gnomAD211_genome_ALL数据库、gnomAD211_exome_EAS数据库和gnomAD211_genoome_EAS数据库,基于上述数据库,分别查找每个基因变异在上述数据库中的人群频率值,未得到的记为0,选取其中的最大值记为AF_popmax。取阈值为0.02,根据映射关系得到特征值AF_score,其中映射关系的公式如下:
Figure BDA0004018378830000131
所述第一特征C类别评分指的是Protein_score,其是是对第一特征集中的每个变异在预测模型中进行打分后所得到的最大打分值。
查询每个变异在预测模型中的最大打分值的数据库为dbNSFPv4数据库,所述dbNSFPv4数据库指的是一个包含多种基因变异有害性模型的预测结果的数据集合。
在本发明中所使用的预测模型为ClinPred、REVEL、VEST4和BayesDel,其均是性能较好的已有危害预测模型。
其中,ClinPred预测模型指的是一个基于随机森林和梯度增强决策树模型的变异有害性分级工具。
REVEL预测模型指的是一个基于随机森林模型的变异有害性分级工具。
VEST4预测模型指的是一个基于随机森林模型的变异有害性分级工具。
BayesDel预测模型指的是一个基于朴素贝叶斯模型的变异有害性分级工具。
在预测模型进行打分后,获得ClinPred_pred、REVEL_score、VEST4_score、BayesDel_addAF_pred打分值,选取其中的最大值为Protein_score。
所述表型与变异相关度评分指的是HPO_score,其是基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果。
HPO_score通过下述方法得到:定义向量a=[a1,a2,...,an],n为HPO数据库中HPO条目个数。如果当前第一数据中的某个基因变异所在的基因与编号为i的HPO条目相关,则ai=1,其余为0。同样地定义向量b=[b1,b,...,bn],如果疾病表型与编号为i的HPO条目相关,则bi=1,其余为0。根据公式
Figure BDA0004018378830000141
得到特征值HPO_score。
所述第一特征D类别评分指的是PubMed score,其是收录在PubMed中记录的变异有害性特征,其是以每个变异的HGVS为关键词在PubMed摘要中检索,PubMed_score为支持变异有害的文献数目减去支持变异有益的文献数目。
采用该特征值,增加了临床解释性。
所述HGVS(Human Genome Variation Society)是人类基因组变异协会规则,是目前学术界所公认的突变命名规则。
所述PubMed指的是一个提供生物医学方面的论文摘要及摘要免费查找的数据库。
图4是使用危害性分级装置的一种流程图,即使用第一特征集和第二特征集获取单元获取待测样本的第一特征集和第二特征集,接着使用特征集链接单元,对第一特征集中每个变异分别与三种类别以上变异相关特征集进行链接,所述变异相关特征集包括任选自临床数据特征集、人群频率特征集、蛋白改变危害程度特征集和变异有害性文献特征集,以及对第二特征集中的每个特征与人类表型数据集进行链接,然后使用变异评价单元并基于第一特征集,对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价获得第一评价结果,以及基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果,并使用危害分级单元对第一评价结果和第二评价结果进行链接,提取具有危害性的变异,并将所有具有危害性的变异进行危害度分级;以及使用结果输出单元输出每个变异的危害分级结果。
在一些实施方式中,所述第一评价结果包括对任一第一特征集的特征是否为具有危害性的判断;所述第二评价结果包括对任一第二特征集的特征是否为具有危害性的判断。
在一些实施方式中,在危害分级单元中,基于第一评价结果和第二评价结果对具有危害性的变异进行危害度评分;
例如基于下述公式进行排序:
P_score=β1DB_score+β2Protein_score+β3AF_score+β4HPO_score
5PubMed_score
其中β12345=1
P_score表示危害程度,
β1、β2、β3、β4和β5表示各个变异与变异相关特征集的权重系数。
在一些实施方式中,所述变异评价单元和/或危害分级单元采用人工智能模型单元,例如,在图5中,在变异评价单元中,采用人工智能模型对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价以及对每个特征根据人类表型数据集的特征进行评价;在危害分级单元中采用人工智能对第一评价结果和第二评价结果进行链接。
在一些实施方式中,所述人工智能模型单元包括用于初步获取模型的建立数据集子单元以及用于验证所述模型的训练模型子单元。在一些实施方式中,所述人工智能模型为随机森林模型或神经网络模型。
在一些实施方式中,所述建立数据集子单元通过下述方法建立:
阳性集的基因变异通过满足下述的任一要求的基因变异产生:1)ClinVar数据集中星标为2星及以上的,临床意义为Pathogenic或Likely Pathogenic的基因变异。2)已经人工按ACMG指南判定为致病的变异,将这些变异的标签值定为1。
所述ACMG指南是指定的用于基因变异危害性分级的指南。
阴性集的基因变异是在人工按ACMG指南判定为非致病的变异中随机抽取的集合,将这些基因变异的标签值定为0。
在一些实施方式中,所述训练模型子单元通过下述方法训练:
按照阳性集:阴性集为1:4的比例混合,随机抽取其中的80%作为训练集,20%作为测试集,从而得到人工智能模型。
在一些实施方式中,所述结果输出单元用于将危害性最高的第一特征集中的变异结果输出,即将每个基因变异的危害性进行排序,从而将危害性最高的基因变异的P_score输出。
在一些实施方式中,所述变异危害性分级装置包括:
第一特征集和第二特征集获取单元,其用于获取待测样本的第一特征集和第二特征集;特征集链接单元,其用于对第一特征集中每个变异分别与三种类别以上变异相关特征集进行链接,以及对第二特征集中的每个特征与人类表型数据集进行链接;变异评价单元,其基于第一特征集,对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价获得第一评价结果,以及基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果;危害分级单元,用于对第一评价结果和第二评价结果进行链接,提取具有危害性的变异,并将所有具有危害性的变异进行危害度分级;以及结果输出单元,其用于输出每个变异的危害分级结果。在一些实施方式中,所述第一特征集为包括变异特征的序列特征集;所述第二特征集为表型特征集;所述变异相关特征集任选自临床数据特征集、人群频率特征集、蛋白改变危害程度特征集和变异有害性文献特征集。在一些实施方式中,所述临床数据特征集为收录每个变异有无临床数据库的特征集;所述人群频率特征集为收录每个变异在人群频率数据库中的最大人群频率的特征集;所述蛋白改变危害程度特征集为收录每个变异在预测模型中的最大打分值的特征集;以及所述变异有害性文献特征集为收录每个变异有害性记录的特征集。在一些实施方式中,基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分;基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分;基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分;基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分;所述第二评价结果为表型与变异相关度评分。在一些实施方式中,所述第一评价结果包括对任一第一特征集的特征是否为具有危害性的判断;所述第二评价结果包括对任一第二特征集的特征是否为具有危害性的判断。在一些实施方式中,在危害分级单元中,基于第一评价结果和第二评价结果对具有危害性的变异进行危害度评分。在一些实施方式中,所述变异评价单元和/或危害分级单元采用人工智能模型单元。
本发明所述的分级装置,其相比较于单一基于位置或蛋白功能变化来预测突变有害程度的模型,考虑了更多评价维度,大大增加了可评价的基因突变类型。
本发明提供了一种用于变异危害性分级的方法,其包括:
获取待测样本的第一特征集和第二特征集;
对第一特征集中每个变异分别与三种类别以上变异相关特征集进行链接,以及对第二特征集中的每个特征与人类表型数据集进行链接;
基于第一特征集,对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价获得第一评价结果,以及基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果;
对第一评价结果和第二评价结果进行链接,提取具有危害性的变异,并将所有具有危害性的变异进行危害度分级;以及
输出每个变异的危害分级结果。
在一些实施方式中,所述第一特征集为包括变异特征的序列特征集;
所述第二特征集为表型特征集;
所述变异相关特征集任选自临床数据特征集、人群频率特征集、蛋白改变危害程度特征集和变异有害性文献特征集。在一些实施方式中,所述临床数据特征集为收录每个变异有无临床数据库的特征集;
所述人群频率特征集为收录每个变异在人群频率数据库中的最大人群频率的特征集;
所述蛋白改变危害程度特征集为收录每个变异在预测模型中的最大打分值的特征集;以及
所述变异有害性文献特征集为收录每个变异有害性记录的特征集。在一些实施方式中,所述第一评价结果包括,
基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分;
基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分;
基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分;
基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分;
所述第二评价结果为表型与变异相关度评分。
所述第一特征A类别评分指的是DB_score,其是第一特征集中的每个变异在ClinVar数据库和HGMD数据库中的临床意义的映射关系所对应的ClinVar_score值和HGMD_score值之和的平均值。
DB score=(ClinVar_score+HGMD_score)/2,其中,ClinVar_score值指的是所述ClinVar数据库中的临床意义的映射关系所取得的值,其映射关系如表1所示;
HGMD_score值指的是HGMD数据库中的临床意义的映射关系所取得的值,其映射关系如表2所示;
所述第一特征B类别评分指的是AF score,其是第一特征集中的每个变异在人群频率数据库中的最大人群频率值的映射关系所得到的最大人群频率
所述AF score是根据映射关系的公式得到:
Figure BDA0004018378830000181
AF popmax是基因变异在人群频率数据库如1000g2015aug all、1000g2015augeas、esp6500siv2 all、esp6500siv2 ea、ExAC ALL、ExAC EAS、gnomAD211 exome ALL、gnomAD211 genome ALL、gnomAD211 exome EAS和gnomAD211 genoome EAS的最大人群频率值,并选取阈值为0.02;
所述第一特征C类别评分指的是Protein_score,其是对第一特征集中的每个变异在预测模型中进行打分后所得到的最大打分值。
Protein_score指的是使用dbNSFPv4数据库查询基因变异在预测模型如ClinPred、REVEL、VEST4和BayesDel的最大打分值。
所述表型与变异相关度评分指的是HPO score,其是基于第二特征集,对每个特征根据人类表型数据集的特征进行评价所获得的。
HPO score的公式为:
Figure BDA0004018378830000182
其中,定义向量a=[a1,a2,...,an],n为HPO数据库中HPO条目个数。如果当前基因变异所在的基因与编号为i的HPO条目相关,则ai=1,其余为0。同样地定义向量b=[b1,b,...,bn]如果疾病表型与编号为i的HPO条目相关,则bi=1,其余为0。
第一特征D类别评分指的是PubMed score,其是PubMed中记录的变异有害性特征,所述PubMed score为以每个变异的HGVS为关键词在PubMed摘要中检索的支持变异有害的文献数目减去支持变异有益的文献数目。
在一些实施方式中,所述第一评价结果包括对任一第一特征集的特征是否为具有危害性的判断;所述第二评价结果包括对任一第二特征集的特征是否为具有危害性的判断。在一些实施方式中,基于第一评价结果和第二评价结果对具有危害性的变异进行危害度评分;
例如基于下述公式进行排序:
P_score=β1DB_score+β2Protein_score+β3AF_score+β4HPO_score
5PubMed_score
其中β12345=1
P_score表示为基因变异有害程度,
β1、β2、β3、β4和β5表示各个变异与变异相关特征集的权重系数。
在一些实施方式中,基于第一特征集对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价获得第一评价结果,以及基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果;和/或对第一特评价结果和第二评价结果进行链接,提取具有危害性的变异,并将具有危害性的特征进行危害度分级的步骤采用建立人工智能模型的步骤。
所述人工模型的构建方法方法包括:
建立数据集以用于获取模型;
训练所述模型以用于验证所述模型。
在一些实施方式中,所述人工智能模型为随机森林模型或神经网络模型,优选的,第一特征集为VCF文件,第二特征集为HPO疾病表型数据。
优选的,所述方法还包括将危害性最高的变异结果输出。
本发明采用上述所述的方法,其基因变异特征值使用了ClinPred、REVEL、VEST4、BayesDel这几个性能更强的评价工具,效果优异;并且为了增加基因变异的临床解释性,加入了临床数据库注释特征值和文献记录特征值,并且采用不同的算法来评价基因与疾病表型程序,这使得评价效果较好。
本发明提供了一种变异危害性分级系统,其包括计算机设备,所述计算机设备被编程或配置以执行上述所述方法的步骤。
本发明提供了一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有被编程或配置以执行上述所述方法的计算机程序。
本发明提供了变异危害性分级系统,其包括计算机设备,所述计算机设备包含存储器,所述存储器上存储有被编程或配置以执行上述所述方法的计算机程序。
实施例
本发明对试验中所用到的材料以及试验方法进行一般性和/或具体的描述,在下面的实施例中,如果无其他特别的说明,%表示wt%,即重量百分数。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规试剂产品。
实施例1变异危害性分级方法
如图1-4所示,所述变异危害性分级方法包括下述:
A.获取待测样本的第一特征集和第二特征集,所述第一特征集为包括变异特征的序列特征集,所述第一特征集为VCF文件,所述第二特征集为表型特征集,所述第二特征集为HPO数据。
B.对第一特征集中每个变异分别与三种类别以上变异相关特征集进行链接,以及对第二特征集中的每个特征与人类表型数据集进行链接;
所述变异相关特征集任选自临床数据特征集、人群频率特征集、蛋白改变危害程度特征集和变异有害性文献特征集;
所述临床数据特征集为收录每个变异有无临床数据库的特征集;
所述人群频率特征集为收录每个变异在人群频率数据库中的最大人群频率的特征集;
所述蛋白改变危害程度特征集为收录每个变异在预测模型中的最大打分值的特征集;
所述变异有害性文献特征集为收录每个变异有害性记录的特征集;
C.基于第一特征集对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价获得第一评价结果,以及基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果;
所述第一评价结果包括:基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分,所述第一特征A类别评分为DB score,其是第一特征集中的每个变异在ClinVar数据库和HGMD数据库中的临床意义的映射关系所对应的ClinVar_score值和HGMD_score值之和的平均值,所述ClinVar_score值指的是在所述ClinVar数据库中的临床意义的映射关系所取得的值,其映射关系如表1所示,所述HGMD_score值指的是在HGMD数据库中的临床意义的映射关系所取得的值,其映射关系如表2所示;
基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分;所述第一特征B类别评分指的是AF_score,其是第一特征集中的每个变异在人群频率数据库中的最大人群频率值的映射关系所得到的最大人群频率;
基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分,所述第一特征C类别评分指的是Protein score,其是对第一特征集中的每个变异在预测模型中进行打分后所得到的最大打分值;和
基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分;所述第一特征D类别评分指的是PubMed score,其是收录在PubMed中记录的变异有害性特征,其是支持变异有害的文献数目减去支持变异有益的文献数目。
所述第一评价结果包括对任一第一特征集的特征是否为具有危害性的判断;
所述第二评价结果为表型与变异相关度评分,所述表型与变异相关度评分为HPO_score,其是基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果;
所述第二评价结果包括对任一第二特征集的特征是否为具有危害性的判断。
D.对第一特评价结果和第二评价结果进行链接,提取具有危害性的变异,并将具有危害性的特征进行危害度分级;
其是基于第一评价结果和第二评价结果对变异按照危害程度进行排序;并基于下述公式进行排序:
P_score=β1DB_score+β2Protein_score+β3AF_score+β4HPO_score
5PubMed_score
其中β12345=1
P_score表示为危害程度,
β1、β2、β3、β4和β5表示各个变异与变异相关特征集的权重系数。
E.输出危害分级结果。
实施例2变异危害性分级方法
如图5所示,变异危害性分级方法包括下述:
A.获取待测样本的第一特征集和第二特征集,所述第一特征集为包括变异特征的序列特征集,所述第一特征集为VCF文件,所述第二特征集为表型特征集,所述第二特征集为HPO数据;
B.对第一特征集中每个变异分别与三种类别以上变异相关特征集进行链接,以及对第二特征集中的每个特征与人类表型数据集进行链接,所述变异相关特征集任选自临床数据特征集、人群频率特征集、蛋白改变危害程度特征集和变异有害性文献特征集,所述临床数据特征集为收录每个变异有无临床数据库的特征集;所述第一评价结果包括,
基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分,所述第一特征A类别评分为DB score。
基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分,所述第一特征B类别评分为AF score。
基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分,所述第一特征C类别评分指的是Protein score。
基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分,所述第一特征D类别评分PubMed_score;
所述第二评价结果为表型与变异相关度评分,所述表型与变异相关度评分为HPO_score;
所述DB score是第一特征集中的每个变异在ClinVar数据库和HGMD数据库中的临床意义的映射关系所对应的ClinVar_score值和HGMD_score值之和的平均值,其具体操作如下:
查找每个变异在ClinVar数据和HGMD数据库中的临床意义,根据表1和表2中的映射关系得到对应的ClinVar score值与HGMD score值,根据公式DB score=(ClinVarscore+HGMD score)/2得到特征值DB score。
所述AF score是第一特征集中的每个变异在人群频率数据库中的最大人群频率值的映射关系所得到的最大人群频率,其操作方法如下:分别查找每个变异在人群频率数据库1000g2015aug all、1000g2015aug eas、esp6500siv2all、esp6500siv2 ea、ExAC ALL、ExAC EAS、gnomAD211 exome ALL、gnomAD211 genome ALL、gnomAD211 exome EAS、gnomAD211 genoome EAS中的人群频率值,未得到的记为0。选取其中的最大值记为AFpopmax,取阈值为0.02,根据映射关系
Figure BDA0004018378830000231
得到特征值AF score。
所述Protein_score是对第一特征集中的每个变异在预测模型中进行打分后所得到的最大打分值,其操作如下:使用dbNSFPv4数据库查询每个变异在几个性能较好的已有危害预测模型(ClinPred、REVEL、VEST4和BayesDel)中的打分,获得ClinPred pred、REVELscore、VEST4 score、BayesDel addAF pred,选取其中的最大值作为特征值Proteinscore。
所述HPO_score是基于基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果,其操作如下:定义向量a=[a1,a2,...,an],n为HPO数据库中HPO条目个数。如果当前变异所在的基因与编号为i的HPO条目相关,则ai=1,其余为0。同样地定义向量b=[b1,b,...,bn]如果疾病表型与编号为i的HPO条目相关,则bi=1,其余为0。根据公式
Figure BDA0004018378830000232
得到特征值HPO_score。
所述PubMed score为收录在PubMed中记录的变异有害性特征,其具体操作如下:以每个变异的HGVS为关键词在PubMed摘要中检索,PubMed score为支持变异有害的文献数目减去支持变异有益的文献数,如果链接没有完全链接,则继续进行特征集链接。
C.构建人工智能模型:(1)产生阳性集的变异和阴性集的变异的数据集:
阳性集的变异由满足下述两种要求中任一变异来产生:1)ClinVar数据集中星标为2星及以上的,临床意义为Pathogenic或Likely Pathogenic的变异。2)已经人工按ACMG指南判定为具有危害性的变异。将这些变异的标签值定为1。
阴性集的变异是在人工按ACMG指南判定为不具有危害性的变异中随机抽取的集合,将这些基因变异的标签值定为0。
(2)训练人工智能模型
按照阳性集:阴性集为1:4的比例混合,随机抽取其中的80%作为训练集,20%作为测试集,从而得到人工智能模型。
D.基于第一特征集,对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价获得第一评价结果,以及基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果,其通过下述方法得到第一评价结果和第二评价结果:将每个变异的特征集输入到已经建好的人工智能模型中,人工智能模型会对每个变异给出是否具有危害性的判断。
E.基于第一评价结果和第二评价结果进行链接,并将具有危害性的特征进行危害度分级,其是基于第一评价结果和第二评价结果对变异按照危害程度进行排序,并基于下述公式进行排序:
P_score=β1DB_score+β2Protein_score+β3AF_score+β4HPO_score
5PubMed_score
其中β12345=1
P_score表示危害程度,
β1、β2、β3、β4和β5表示各个变异与变异相关特征集的权重系数。
F.筛选出危害性的变异:根据变异有害程度筛选出危害性最高的变异,其是根据人为设定的阈值进行筛选,并将危害性最高的第一数据中的变异结果输出。
对比例1采用Exomiser进行分级的方法
Exomiser操作手册参见http://exomiser.github.io/Exomiser/manual/
其发表于Improved exome prioritization of disease genes through cross-species phenotype comparison.Genome research 2014;24;2;340-8构建模型方法:
选取了人工根据ACMG指南判定为致病/疑似致病等级的500个变异,以及在ClinVar数据库中随机选取了致病等级为Pathogenic的500个变异,共计1000个阳性集;
随机选取了人工根据ACMG指南判定不是致病或疑似致病的2000个变异,以及在ClinVar数据库中随机选取不是Pathogenic与Likely pathogenic的2000个变异,共计4000个阴性集;
使用scikit-learn(https://scikit-learn.org/stable/)工具集中的RandomForestClassifier工具构随机森林模型。
应用例1
病例A,临床表型为:4岁查血糖高,诊断为I型糖尿病,2年半前患儿有频繁低血糖发作,夜间为主,表现为面色苍白,肢体无力,进食后缓解。近期监测血糖明显升高。患儿弟弟有糖尿病,患儿父母健康。体格检查:神志清,消瘦,四肢活动自如,颜面皮肤发红,视力下降明显,体智力发育同正常同龄儿。
使用HPO描述为:HP:0000819(糖尿病)、HP:0100651(1型糖尿病)、HP:0001943(低血糖)、HP:0000572(视力下降)。基因检测得到变异86522个,其是根据人工查阅HPO数据库得到,其具体操作如下:。
基因检测流程:
1.对患者进行DNA提取,对其外显子部分进行捕获测序。
2.将测序得到的Fastq文件通过BWA(http://bio-bwa.sourceforge.net)软件比对到人参考基因组HG19(https://genome.ucsc.edu),使用GATK(https://gatk.broadinstitute.org)软件进行变异检测得到VCF文件。
3.使用Annovar(https://annovar.openbioinformatics.org)软件对VCF文件中的每个变异进行标注,得到第一特征集中的5个原始特征值。
4.根据患者病例,使用中文HPO搜索工具https://www.chinahpo.net/得到第二特征集二。
将HPO描述文件与变异文件按照实施例1和对比例1所述的方法进行检测,人群频率过滤设置为0.01,得到打分结果排名前五的基因变异分别如表3和表4所示所示,其中,公式如下
P_score=β1DB_score+β2Protein_score+β3AF_score+β4HPO_score+β5PubMed_score
其中,β1,β2,β3,β5是由上述随机森林模型得到的权重值,约等于0.2,0.15,0.05,0.1;β4人为规定为0.5
表3按照实施例2所述的方法得到的打分结果排名前五的基因变异
基因 变异 变异危害打分 表型关联打分 总得分
WFS1 Chr4:6302696C>T 0.913 0.707 0.810
WFS1 chr4:6302766T>TCATCTTCTCCTTCCC 0.604 0.707 0.655
EYS Chr6:64499037C>G 0.485 0.794 0.640
PDE6B Chr4:657979T>A 0.478 0.792 0.635
USH2A Chr1:216138781A>G 0.480 0.753 0.616
表4按照对比例1所述的方法得到的打分结果排名前五的基因变异
基因 变异 变异危害打分 表型关联打分 总得分
RP1L1 chr8:10467637T>C 0.873 0.829 0.967
RP1L1 chr8:10467589T>TCCT 0.850 0.829 0.967
PDE6B chr4:g.657979T>A 0.955 0.694 0.872
WFS1 Chr4:6302696C>T 1.000 0.631 0.782
WFS1 chr4:6302766T>TCATCTTCTCCTTCCC 0.850 0.631 0.782
而对于病例A,其经过人工判断判定为病例A致病变异的是WFS1上的两个变异,可以看到本发明在表型关联打分表现上要优于现有的Exomiser,总体评价效果上也较为优势。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (15)

1.一种变异危害性分级装置,其包括:
第一特征集和第二特征集获取单元,其用于获取待测样本的第一特征集和第二特征集;
特征集链接单元,其用于对第一特征集中每个变异分别与三种类别以上变异相关特征集进行链接,以及对第二特征集中的每个特征与人类表型数据集进行链接;
变异评价单元,其基于第一特征集,对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价获得第一评价结果,以及基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果;
危害分级单元,用于对第一评价结果和第二评价结果进行链接,提取具有危害性的变异,并将所有具有危害性的变异进行危害度分级;以及
结果输出单元,其用于输出每个变异的危害分级结果。
2.根据权利要求1所述的变异危害性分级装置,其中,任选地,
所述第一特征集为包括变异特征的序列特征集;
所述第二特征集为表型特征集;
所述变异相关特征集任选自临床数据特征集、人群频率特征集、蛋白改变危害程度特征集和变异有害性文献特征集。
3.根据权利要求2所述的变异危害性分级装置,其中,任选地,
所述临床数据特征集为收录每个变异有无临床数据库的特征集;
所述人群频率特征集为收录每个变异在人群频率数据库中的最大人群频率的特征集;
所述蛋白改变危害程度特征集为收录每个变异在预测模型中的最大打分值的特征集;以及
所述变异有害性文献特征集为收录每个变异有害性记录的特征集。
4.根据权利要求2或3所述的变异危害性分级装置,其中,任选地,
所述第一评价结果包括,
任选地,
基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分;
基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分;
基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分;
基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分;
所述第二评价结果为表型与变异相关度评分。
5.根据权利要求1-4中任一项所述的变异危害性分级装置,其中,
所述第一评价结果包括对任一第一特征集的特征是否为具有危害性的判断;所述第二评价结果包括对任一第二特征集的特征是否为具有危害性的判断。
6.根据权利要求5所述的变异危害性分级装置,其中,
在危害分级单元中,基于第一评价结果和第二评价结果对具有危害性的变异进行危害度评分。
7.根据权利要求1-6中任一项所述的变异危害性分级装置,其中,所述变异评价单元和/或危害分级单元采用人工智能模型单元。
8.一种用于变异危害性分级的方法,其包括:
获取待测样本的第一特征集和第二特征集;
对第一特征集中每个变异分别与三种类别以上变异相关特征集进行链接,以及对第二特征集中的每个特征与人类表型数据集进行链接;
基于第一特征集对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价获得第一评价结果,以及基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果;
对第一评价结果和第二评价结果进行链接,提取具有危害性的变异,并将具有危害性的特征进行危害度分级;以及
输出危害分级结果。
9.根据权利要求8所述的方法,其中,任选地,
所述第一特征集为包括变异特征的序列特征集;
所述第二特征集为表型特征集;
所述变异相关特征集任选自临床数据特征集、人群频率特征集、蛋白改变危害程度特征集和变异有害性文献特征集。
10.根据权利要求9所述的方法,其中,任选地,
所述临床数据特征集为收录每个变异有无临床数据库的特征集;
所述人群频率特征集为收录每个变异在人群频率数据库中的最大人群频率的特征集;
所述蛋白改变危害程度特征集为收录每个变异在预测模型中的最大打分值的特征集;以及
所述变异有害性文献特征集为收录每个变异有害性记录的特征集。
11.根据权利要求9或10所述的方法,其中,任选地,
所述第一评价结果包括,
任选地,
基于第一特征集,对每个变异根据临床数据特征集的特征在该类别内进行评价,获得第一特征A类别评分;
基于第一特征集,对每个变异根据人群频率特征集的特征在该类别内进行评价,获得第一特征B类别评分;
基于第一特征集,对每个变异根据蛋白改变危害程度特征集的特征在该类别内进行评价,获得第一特征C类别评分;
基于第一特征集,对每个变异根据变异有害性文献特征集的特征在该类别内进行评价,获得第一特征D类别评分;
所述第二评价结果为表型与变异相关度评分。
12.根据权利要求9-11中任一项所述的方法,其中,
所述第一评价结果包括对任一第一特征集的特征是否为具有危害性的判断;
所述第二评价结果包括对任一第二特征集的特征是否为具有危害性的判断。
13.根据权利要求12所述的方法,其中,
基于第一评价结果和第二评价结果对具有危害性的变异进行危害度评分。
14.根据权利要求8-13中任一项所述的方法,其中,
所述基于第一特征集对每个变异根据每个类别的变异相关特征集的特征在该类别内进行评价获得第一评价结果,以及基于第二特征集,对每个特征根据人类表型数据集的特征进行评价获得第二评价结果;和/或
对第一特评价结果和第二评价结果进行链接,提取具有危害性的变异,并将具有危害性的特征进行危害度分级的步骤采用建立人工智能模型的步骤。
15.一种变异危害性分级系统,其包括计算机设备,所述计算机设备被编程或配置以执行权利要求8-14中任一项所述方法的步骤。
CN202211676355.3A 2021-12-31 2022-12-26 变异危害性分级装置、方法及其应用 Pending CN116312764A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111677933 2021-12-31
CN2021116779330 2021-12-31

Publications (1)

Publication Number Publication Date
CN116312764A true CN116312764A (zh) 2023-06-23

Family

ID=86802074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211676355.3A Pending CN116312764A (zh) 2021-12-31 2022-12-26 变异危害性分级装置、方法及其应用

Country Status (1)

Country Link
CN (1) CN116312764A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953968A (zh) * 2024-03-27 2024-04-30 北京智因东方转化医学研究中心有限公司 遗传变异位点的危害性排序方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953968A (zh) * 2024-03-27 2024-04-30 北京智因东方转化医学研究中心有限公司 遗传变异位点的危害性排序方法及装置

Similar Documents

Publication Publication Date Title
Cheema et al. Computational approaches and software tools for genetic linkage map estimation in plants
Clare Machine learning and data mining for yeast functional genomics
KR20190077372A (ko) 준비된 유전자 라이브러리 및 네트워크 기반의 데이타 구조를 이용한 표현형/질환 특이적 유전자 등급화
Sharo et al. StrVCTVRE: A supervised learning method to predict the pathogenicity of human genome structural variants
CN110997936B (zh) 基于低深度基因组测序进行基因分型的方法、装置及其用途
CN113555062B (zh) 一种用于基因组碱基变异检测的数据分析系统及分析方法
US11887697B2 (en) Graphical user interface displaying relatedness based on shared DNA
WO2019181022A1 (ja) 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体
CN116312764A (zh) 变异危害性分级装置、方法及其应用
Balick et al. Overcoming constraints on the detection of recessive selection in human genes from population frequency data
KR20180069651A (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
CN117219166A (zh) 一种高度近视致病变异体的筛选方法、系统及设备
KR20190000341A (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
Chitode et al. A comparative study of microarray data analysis for cancer classification
Hayran et al. Content-based search on time-series microarray databases
Dhindsa et al. Genome-wide prediction of dominant and recessive neurodevelopmental disorder risk genes
Prathibha et al. Feature selection for mining SNP from Leukaemia cancer using Genetic Algorithm with BCO
Groth et al. Phenotype data: a neglected resource in biomedical research?
Zheng et al. Novel metrics for evaluating the functional coherence of protein groups via protein semantic network
Karim et al. A deep learning approach to genomics data for population scale clustering and ethnicity prediction
Emran et al. Measuring population-based completeness for single nucleotide polymorphism (SNP) databases
KR20190000340A (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
Saklatvala et al. Text‐mined phenotype annotation and vector‐based similarity to improve identification of similar phenotypes and causative genes in monogenic disease patients
CN117312893B (zh) 一种菌群匹配度的评估方法及相关装置
Davies Factors influencing genetic variation in wild mice

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination