CN111063392A - 基于神经网络的基因突变致病性检测方法、系统及介质 - Google Patents

基于神经网络的基因突变致病性检测方法、系统及介质 Download PDF

Info

Publication number
CN111063392A
CN111063392A CN201911303581.5A CN201911303581A CN111063392A CN 111063392 A CN111063392 A CN 111063392A CN 201911303581 A CN201911303581 A CN 201911303581A CN 111063392 A CN111063392 A CN 111063392A
Authority
CN
China
Prior art keywords
pathogenicity
neural network
gene
characteristic
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911303581.5A
Other languages
English (en)
Other versions
CN111063392B (zh
Inventor
蒋艳凰
赵强利
李�根
余硕军
雷鹏
张少伟
万斌
贺依依
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genetalks Bio Tech Changsha Co ltd
Original Assignee
Genetalks Bio Tech Changsha Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genetalks Bio Tech Changsha Co ltd filed Critical Genetalks Bio Tech Changsha Co ltd
Priority to CN201911303581.5A priority Critical patent/CN111063392B/zh
Publication of CN111063392A publication Critical patent/CN111063392A/zh
Application granted granted Critical
Publication of CN111063392B publication Critical patent/CN111063392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于神经网络的基因突变致病性检测方法、系统及介质,本发明方法包括输入待检测的基因检测VCF文件以及HPO表型;根据待检测的基因检测VCF文件以及HPO表型获取各个基因变异的特征值;对于每一种基因变异,将该基因变异的特征值输入训练好的神经网络模型得到该基因变异的致病性综合分析结果,神经网络模型被预先训练建立了各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系。本发明不仅克服了人工分析的主观性缺陷,而且能够综合考虑影响基因突变致病性的各种因素,使得综合分析的结果更为客观有效,大大提高了对基因突变致病性分析的准确性,提高了基因解读的效率。

Description

基于神经网络的基因突变致病性检测方法、系统及介质
技术领域
本发明涉及的基因检测基因解读技术,具体涉及一种基于神经网络的基因突变致病性检测方法、系统及介质。
背景技术
在基因检测中,如何从成千上万的基因突变中获得致病的基因突变,是基因解读的关键。传统的基因突变致病性分析的主要方法包括:(1)通过查找生物医学领域的专业数据库,看相应的基因或突变是否有致病的数据库记录,这些数据库包括OMIM、Orphanet、HGMD、Clinvar等;(2)通过蛋白质功能预测,判定该基因突变是否存在风险,常用的蛋白质功能预测软件如SIFT、PolyPhen2、MutationTaster、DANN、CADD等;(3)根据该基因突变在人群中出现的频率,判定基因突变的风险,常用的人群数据库包括GnomAD(GenomeAggregation Database),ExAC(the Exome Aggregation Consortium)和1KGP(1000Genomes Project)等;(4)其他解读结果:如ACMG(American College of MedicalGenetics and Genomics)突变解析、突变位点的保守性、突变是否在重复区域等等。因此,基因突变的分析结果涉及很多方面,结果数据繁多,单方面的分析结果都不能准确预测出基因突变的致病性强弱,专家需要综合分析这些项的结果,人工给出基因突变的致病性结果,这是一项十分耗时的工作。
如何从多方面的基因突变致病性分析结果得到一个致病性综合分析值,使得医生仅需关注致病性综合值较高的基因变异,大大减少医生所需关注的基因突变的数量,是基因解读需要解决的关键问题。目前这一领域最常用的方法是Exomiser,它将基因突变从突变、算法和基因三个层面进行打分,再使用逻辑回归的方式对三种打分进行组合,获得一个致病性综合性分析值。这一方法最大的缺陷是考虑的致病性影响因素较少,而且有些因素(如老鼠和斑马鱼数据)对人的遗传病影响不大,有些关键性因素未考虑进去,导致获得的致病性综合性分析值准确性不高。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于神经网络的基因突变致病性检测方法、系统及介质,与传统的人工解读和Exomiser基因突变致病性综合性分析方法相比,本发明通过神经网络模型对训练样本进行学习,获取基因突变的大量特征和致病性之间的内在关联,不仅克服了人的主观性缺陷,而且能够综合考虑影响基因突变致病性的各种因素,使得综合分析的结果更为客观有效,从而大大提高了对基因突变致病性分析的准确性,提高了基因解读的效率。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于神经网络的基因突变致病性检测方法,实施步骤包括:
1)输入待检测的基因检测VCF文件以及HPO表型;
2)根据待检测的基因检测VCF文件以及HPO表型获取各个基因变异的特征值;
3)对于每一种基因变异,将该基因变异的特征值输入训练好的神经网络模型得到该基因变异的致病性综合分析结果,所述神经网络模型被预先训练建立了各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系;
4)按照致病性综合分析结果从高到低进行排序,确定每个基因变异的致病性优先级,按优先级顺序输出每个基因变异及其致病性综合分析结果。
可选地,步骤2)中各个基因变异的特征值包括:用于变异有无Clinvar结果的特征;用于表示用户输入表型和当前变异基因对应表型的匹配度的特征GeneHPO;用于表示当前变异基因在OMIM数据库中是否有对应的疾病的特征InOmim;用于表示当前变异基因在OMIM疾病库中对应疾病的HPO和用户输入的HPO是否相匹配的特征OmimHPO;用于表示当前基因变异在多种人群数据库中出现的最大频率的特征MaxMAF;用于表示蛋白质功能预测软件SIFT的预测结果的特征SIFT;用于表示蛋白质功能预测软件PolyPhen2预测结果的特征PolyPhen2;用于表示蛋白质功能预测软件MutationTaster预测结果的特征MTaster;用于表示保守性预测软件GERP++_RS结果的特征EvoRate;用于表示当前基因变异是否位于蛋白质的功能区域的特征Domain;用于表示当前基因变异是否位于重复区域的特征RMSK;用于表示当前变异的接合性与相应基因对应疾病的遗传性是否一致的特征Inherit。
可选地,步骤3)中的神经网络模型为BP神经网络。
可选地,所述BP神经网络为包括输入层、中间层以及输出层的三层结构,其中输入层节点数目与样本的特征数目相同,中间层节点数目大于输入层节点数目,输出层仅有一个节点。
可选地,步骤3)之前还包括训练神经网络模型的步骤,详细步骤包括:
S1)产生训练样本:(1)获取若干基因检测VCF文件、每个基因检测VCF文件对应的HPO表型和已知的致病基因;(2)获取基因突变的特征值:根据每个基因检测VCF文件以及HPO表型获取各个基因突变的特征值;(3)确定致病基因突变样本:对于每个基因检测VCF文件中致病基因所对应的所有突变,计算它们的突变注释评分P_Score值,取突变注释评分P_Score值最大的突变为致病基因突变,该基因突变为一个训练样本,并令其致病性综合分析值为第一标签值;(4)确定非致病基因突变样本:对于每个基因检测VCF文件,随机选取指定数量个非致病基因突变作为训练样本,并令其致病性综合分析值为第二标签值;
S2)训练神经网络模型:利用训练样本集完成神经网络模型的训练,使得神经网络模型被建立各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系。
可选地,步骤S1)中突变注释评分P_Score的计算函数表达式如下:
P_Score=β1·Protein+β2·(1-10*seg(MaxMAF))+β3·Clinvar/3
上式中,β123分别为三个权重参数,Protein为蛋白质功能预测软件的最大预测值,seg(MaxMAF)为特征MaxMAF的转换结果,Clinvar为用于变异有无Clinvar结果的特征,蛋白质功能预测软件的最大预测值Protein取用于表示蛋白质功能预测软件SIFT的预测结果的特征SIFT、用于表示蛋白质功能预测软件PolyPhen2预测结果的特征PolyPhen2、用于表示蛋白质功能预测软件MutationTaster预测结果的特征MTaster三者中的最大值,特征MaxMAF的转换结果为在特征MaxMAF小于等于预设门槛值时取原值否则取预设门槛值。
此外,本发明还提供一种基于神经网络的基因突变致病性检测系统,包括:
输入程序单元,用于输入待检测的基因检测VCF文件以及HPO表型;
特征值提取程序单元,用于根据待检测的基因检测VCF文件以及HPO表型获取各个基因变异的特征值;
致病性综合分析程序单元,用于对于每一种基因变异,将该基因变异的特征值输入训练好的神经网络模型得到该基因变异的致病性综合分析结果,所述神经网络模型被预先训练建立了各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系。
此外,本发明还提供一种基于神经网络的基因突变致病性检测系统,包括计算机设备,该计算机设备被编程或配置以执行所述基于神经网络的基因突变致病性检测方法的步骤。
此外,本发明还提供一种基于神经网络的基因突变致病性检测系统,包括计算机设备,该计算机设备的存储器上存储有被编程或配置以执行所述基于神经网络的基因突变致病性检测方法的计算机程序。
此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行所述基于神经网络的基因突变致病性检测方法的计算机程序。
和现有技术相比,本发明具有下述优点:与传统的人工解读和Exomiser基因突变致病性综合性分析方法相比,本发明通过神经网络模型对训练样本进行学习,获取基因突变的大量特征和致病性之间的内在关联,不仅克服了人的主观性缺陷,而且能够综合考虑影响基因突变致病性的各种因素,使得综合分析的结果更为客观有效,从而大大提高了对基因突变致病性分析的准确性,提高了基因解读的效率。
附图说明
图1为本发明实施例方法的基本流程示意图。
具体实施方式
如图1所示,本实施例基于神经网络的基因突变致病性检测方法的实施步骤包括:
1)输入待检测的基因检测VCF文件以及HPO表型;
2)根据待检测的基因检测VCF文件以及HPO表型获取各个基因变异的特征值;
3)对于每一种基因变异,将该基因变异的特征值输入训练好的神经网络模型得到该基因变异的致病性综合分析结果,神经网络模型被预先训练建立了各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系;
4)按照致病性综合分析结果从高到低进行排序,确定每个基因变异的致病性优先级,按优先级顺序输出每个基因变异及其致病性综合分析结果。
本实施例基于神经网络的基因突变致病性检测方法提出利用神经网络的方法进行基因突变的致病性分析,本实施例基于神经网络的基因突变致病性检测方法利用各种基因突变的致病性分析结果,构建若干神经网络的输入特征,并利用已知致病基因的基因检测VCF文件和HPO表型信息产生训练样本集,用于训练神经网络模型,将这些特征与基因变异的致病性之间的关系用网络权重表示出来,从而能够根据基因变异的特征,预测出基因突变致病性的综合分析结果。
步骤2)中根据基因检测VCF文件以及对应的HPO表型为输入,获取各个基因变异的特征值,这些特征值可在现有的工具软件的结果上计算获得,例如可在人和未来生物科技有限公司的GTX.Digest软件(https://digest.gtxlab.com/)的注释结果的基础上计算获得。根据各种不同的致病性分析方法,本实施例步骤2)中各个基因变异的特征值包括:
1、用于该变异在Clinvar数据库(http://www.clinvar.com/)有无相应结果的特征;无为0,有按致病等级取值为1,2,3,取值的确定方法如表1所示。
表1:用于变异有无Clinvar结果的特征取值表。
Figure BDA0002322481080000041
Figure BDA0002322481080000051
2、用于表示用户输入表型和当前变异基因对应表型的匹配度的特征GeneHPO;GeneHPO的取值区间为[0,1]。特征GeneHPO的值按如下方式获取:令用户输入的HPO表型集合为IHPO;根据HPO数据集,检索与当前变异基因相关的HPO表型集合为GHPO,GeneHPO特征的取值按如下方式计算:
Figure BDA0002322481080000052
上式中,value(GeneHPO)表示特征GeneHPO的值,GHPO为HPO数据集中与当前变异基因相关的HPO表型集合,IHPO为用户输入的HPO表型集合,δ为参数,预设的一个很小的值,缺省为0.01,避免分母为零的情况,|A|表示集合A中元素的个数。
3、用于表示当前变异基因在OMIM数据库中是否有对应疾病的特征InOmim;该特征的值为布尔值,如果有则为取值1,否则取值为0;
4、用于表示当前变异基因在OMIM疾病库中对应疾病的HPO和用户输入的HPO是否相匹配的特征OmimHPO;该特征的值为布尔值,如果InOmim中的取值为1,则获取这些OMIM疾病对应的HPO集合,如果该集合与用户输入的HPO集合有交集,则取值为1,否则取值为0;
5、用于表示当前基因变异在多种人群数据库中出现的最大频率的特征MaxMAF;特征MaxMAF的取值区间为[0,1],本实施例中选取六个与东亚人群密切相关的人群数据库,分别为ExAC_ALL,gnomAD_exome_ALL,gnomAD_exome_EAS,1000g2015aug_eas,ExAC_EAS,esp6500siv2_all,MaxMAF的值为当前基因变异在这六个人群数据库中群体频率的最大值;
6、用于表示蛋白质功能预测软件SIFT预测结果的特征SIFT,取值规范到[0,1]区间,值越大表示变异的危害性越大;
7、用于表示蛋白质功能预测软件PolyPhen2预测结果的特征PolyPhen2,取值规范到[0,1]区间,值越大表示变异的危害性越大;
8、用于表示蛋白质功能预测软件MutationTaster预测结果的特征MTaster,取值规范到[0,1]区间,值越大表示变异的危害性越大;
9、用于表示保守性预测软件GERP++_RS结果的特征EvoRate;
10、用于表示当前基因变异是否位于蛋白质的功能区域的特征Domain;特征Domain的值为布尔值,如果是,则取值为1,否则取值为0;
11、用于表示表示当前基因变异是否位于重复区域的特征RMSK。特征RMSK的值为布尔值,如果是,则为1,否则取值为0。
12、用于表示当前变异的接合性与变异基因对应疾病的遗传性是否一致的特征Inherit,如果相一致,则取值为1,否则取值为0;
本实施例中,步骤4)按照致病性综合分析结果从高到低进行排序以确定每个基因变异的致病性优先级的步骤,使得结果更加直观。
本实施例中,步骤3)中的神经网络模型为BP神经网络(Back Propagation NeuralNetwork,简称BPNN),此外也可以根据需要采用其他各类公知的神经网络模型。
本实施例中,BP神经网络为包括输入层、中间层以及输出层的三层结构,其中输入层节点数目与样本的特征数目相同,中间层节点数目大于输入层节点数目(缺省值为输入层节点数目的两倍),输出层仅有一个节点。
本实施例中,步骤3)之前还包括训练神经网络模型的步骤,详细步骤包括:
S1)产生训练样本:(1)获取若干基因检测VCF文件、每个基因检测VCF文件对应的HPO表型和已知的致病基因;(2)获取基因突变的特征值:根据每个基因检测VCF文件以及HPO表型获取各个基因突变的特征值;(3)确定致病基因突变样本:对于每个基因检测VCF文件中致病基因所对应的所有突变,计算它们的突变注释评分P_Score值,取突变注释评分P_Score值最大的突变为致病基因突变,将该基因突变入选为一个训练样本,并令其致病性综合分析值为第一标签值(本实施例中取值为1)。(4)确定非致病基因突变样本:对于每个基因检测VCF文件,随机选取2(可根据需要指定)个非致病基因突变作为训练样本,并令其致病性综合分析值为第二标签值(本实施例中取值为0);
S2)训练神经网络模型:利用训练样本集完成神经网络模型的训练,使得神经网络模型被建立各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系。
本实施例中,步骤S1)中突变注释评分P_Score的计算函数表达式如下:
P_Score=β1·Protein+β2·(1-10*seg(MaxMAF))+β3·Clinvar/3
上式中,β123分别为三个权重参数,Protein为蛋白质功能预测软件的最大预测值,seg(MaxMAF)为特征MaxMAF的转换结果,Clinvar为用于变异有无Clinvar结果的特征,蛋白质功能预测软件的最大预测值Protein取用于表示蛋白质功能预测软件SIFT的预测结果的特征SIFT、用于表示蛋白质功能预测软件PolyPhen2预测结果的特征PolyPhen2、用于表示蛋白质功能预测软件MutationTaster预测结果的特征MTaster三者中的最大值,特征MaxMAF的转换结果为在特征MaxMAF小于等于预设门槛值时取原值否则取预设门槛值。
其中三个权重参数β123分之和为1,即:
β123=1
本实施例中,默认取β1=0.2,β2=0.4,β3=0.4。
蛋白质预测值Protein取SIFT,PolyPhen2,MTaster三个特征值中最大的一个,即:
Protein=max(SIFT,PolyPhen2,MTaster)
seg(Max MAF)表示对特征值Max MAF进行如下变换:
Figure BDA0002322481080000071
即在特征MaxMAF小于等于0.1时取原值,否则取预设门槛值0.1。
综上所述,本实施例提出了生成基因突变特征集的方法和产生训练样本集的方法,从而能够通过神经网络模型对训练样本集进行学习,获取特征和类别之间的内在关联,实现了利用神经网络进行基因突变致病性综合分析预测。该方法不仅克服了人工分析的主观性缺陷,而且能够综合考虑影响基因突变致病性的各种因素,使得综合分析的结果更为客观有效,大大提高了对基因突变致病性分析的准确性,提高了基因解读的效率。
此外,本实施例还提供一种基于神经网络的基因突变致病性检测系统,包括:
输入程序单元,用于输入待检测的基因检测VCF文件以及HPO表型;
特征值提取程序单元,用于根据待检测的基因检测VCF文件以及HPO表型获取各个基因变异的特征值;
致病性综合分析程序单元,用于对于每一种基因变异,将该基因变异的特征值输入训练好的神经网络模型得到该基因变异的致病性综合分析结果,神经网络模型被预先训练建立了各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系。
此外,本实施例还提供一种基于神经网络的基因突变致病性检测系统,包括计算机设备,该计算机设备被编程或配置以执行前述基于神经网络的基因突变致病性检测方法的步骤。
此外,本实施例还提供一种基于神经网络的基因突变致病性检测系统,包括计算机设备,该计算机设备的存储器上存储有被编程或配置以执行前述基于神经网络的基因突变致病性检测方法的计算机程序。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行前述基于神经网络的基因突变致病性检测方法的计算机程序。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于神经网络的基因突变致病性检测方法,其特征在于实施步骤包括:
1)输入待检测的基因检测VCF文件以及HPO表型;
2)根据待检测的基因检测VCF文件以及HPO表型获取各个基因变异的特征值;
3)对于每一种基因变异,将该基因变异的特征值输入训练好的神经网络模型得到该基因变异的致病性综合分析结果,所述神经网络模型被预先训练建立了各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系;
4)按照致病性综合分析结果从高到低进行排序,确定每个基因变异的致病性优先级,按优先级顺序输出每个基因变异及其致病性综合分析结果。
2.根据权利要求1所述的基于神经网络的基因突变致病性检测方法,其特征在于,步骤2)中各个基因变异的特征值包括:用于变异有无Clinvar结果的特征;用于表示用户输入表型和当前变异基因对应表型的匹配度的特征GeneHPO;用于表示当前变异基因在OMIM数据库中是否有对应疾病的特征InOmim;用于表示当前变异基因在OMIM疾病库中对应疾病的HPO和用户输入的HPO是否相匹配的特征OmimHPO;用于表示当前基因变异在多种人群数据库中出现的最大频率的特征MaxMAF;用于表示蛋白质功能预测软件SIFT的预测结果的特征SIFT;用于表示蛋白质功能预测软件PolyPhen2预测结果的特征PolyPhen2;用于表示蛋白质功能预测软件MutationTaster预测结果的特征MTaster;用于表示保守性预测软件GERP++_RS结果的特征EvoRate;用于表示当前基因变异是否位于蛋白质功能区域的特征Domain;用于表示当前基因变异是否位于重复区域的特征RMSK;用于表示当前变异的接合性与相应基因对应疾病的遗传性是否一致的特征Inherit。
3.根据权利要求1所述的基于神经网络的基因突变致病性检测方法,其特征在于,步骤3)中的神经网络模型为BP神经网络。
4.根据权利要求3所述的基于神经网络的基因突变致病性检测方法,其特征在于,所述BP神经网络为包括输入层、中间层以及输出层的三层结构,其中输入层节点数目与样本的特征数目相同,中间层节点数目大于输入层节点数目,输出层仅有一个节点。
5.根据权利要求2所述的基于神经网络的基因突变致病性检测方法,其特征在于,步骤3)之前还包括训练神经网络模型的步骤,详细步骤包括:
S1)产生训练样本:(1)获取若干基因检测VCF文件、每个基因检测VCF文件对应的HPO表型和已知的致病基因;(2)获取基因突变的特征值:根据每个基因检测VCF文件以及HPO表型获取各个基因突变的特征值;(3)确定致病基因突变样本:对于每个基因检测VCF文件中致病基因所对应的所有突变,计算它们的突变注释评分P_Score值,取突变注释评分P_Score值最大的突变为致病基因突变,该基因突变为一个训练样本,并令其致病性综合分析值为第一标签值;(4)确定非致病基因突变样本:对于每个基因检测VCF文件,随机选取指定数量个非致病基因突变作为训练样本,并令其致病性综合分析值为第二标签值;
S2)训练神经网络模型:利用训练样本集完成神经网络模型的训练,使得神经网络模型被建立各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系。
6.根据权利要求5所述的基于神经网络的基因突变致病性检测方法,其特征在于,步骤S1)中突变注释评分P_Score的计算函数表达式如下:
P_Score=β1·Protein+β2·(1-10*seg(MaxMAF))+β3·Clinvar/3
上式中,β123分别为三个权重参数,Protein为蛋白质功能预测软件的最大预测值,seg(MaxMAF)为特征MaxMAF的转换结果,Clinvar为用于变异有无Clinvar结果的特征,蛋白质功能预测软件的最大预测值Protein取用于表示蛋白质功能预测软件SIFT的预测结果的特征SIFT、用于表示蛋白质功能预测软件PolyPhen2预测结果的特征PolyPhen2、用于表示蛋白质功能预测软件MutationTaster预测结果的特征MTaster三者中的最大值,特征MaxMAF的转换结果为在特征MaxMAF小于等于预设门槛值时取原值否则取预设门槛值。
7.一种基于神经网络的基因突变致病性检测系统,其特征在于包括:
输入程序单元,用于输入待检测的基因检测VCF文件以及HPO表型;
特征值提取程序单元,用于根据待检测的基因检测VCF文件以及HPO表型获取各个基因变异的特征值;
致病性综合分析程序单元,用于对于每一种基因变异,将该基因变异的特征值输入训练好的神经网络模型得到该基因变异的致病性综合分析结果,所述神经网络模型被预先训练建立了各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系。
8.一种基于神经网络的基因突变致病性检测系统,包括计算机设备,其特征在于,该计算机设备被编程或配置以执行权利要求1~6中任意一项所述基于神经网络的基因突变致病性检测方法的步骤。
9.一种基于神经网络的基因突变致病性检测系统,包括计算机设备,其特征在于,该计算机设备的存储器上存储有被编程或配置以执行权利要求1~6中任意一项所述基于神经网络的基因突变致病性检测方法的计算机程序。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有被编程或配置以执行权利要求1~6中任意一项所述基于神经网络的基因突变致病性检测方法的计算机程序。
CN201911303581.5A 2019-12-17 2019-12-17 基于神经网络的基因突变致病性检测方法、系统及介质 Active CN111063392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911303581.5A CN111063392B (zh) 2019-12-17 2019-12-17 基于神经网络的基因突变致病性检测方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911303581.5A CN111063392B (zh) 2019-12-17 2019-12-17 基于神经网络的基因突变致病性检测方法、系统及介质

Publications (2)

Publication Number Publication Date
CN111063392A true CN111063392A (zh) 2020-04-24
CN111063392B CN111063392B (zh) 2021-09-24

Family

ID=70302048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911303581.5A Active CN111063392B (zh) 2019-12-17 2019-12-17 基于神经网络的基因突变致病性检测方法、系统及介质

Country Status (1)

Country Link
CN (1) CN111063392B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808662A (zh) * 2021-09-01 2021-12-17 基诺莱(重庆)生物技术有限公司 基于神经网络的基因变异位点可致病性的预测方法及系统
CN113838522A (zh) * 2021-09-14 2021-12-24 浙江赛微思生物科技有限公司 一种基因突变位点影响剪接可能性的评估处理方法
CN114300036A (zh) * 2021-12-29 2022-04-08 深圳华大基因股份有限公司 遗传变异致病性预测方法、装置、存储介质及计算机设备
CN114743603A (zh) * 2022-01-21 2022-07-12 中南大学湘雅医院 基因可靠性分析方法、装置、存储介质及服务器
WO2023087277A1 (zh) * 2021-11-19 2023-05-25 深圳华大基因股份有限公司 序列变异分析方法、系统以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110033837A1 (en) * 2007-11-16 2011-02-10 Paul-Ehrlich-Institut Bundesamt Fur Sera Und Impfstoffe Immortalized human cd4-positive cell and its use for determining the phenotype of a human immunodeficiency virus type 1
CN110211632A (zh) * 2019-05-06 2019-09-06 西安电子科技大学 一种基于神经网络的核苷酸单位点变异检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110033837A1 (en) * 2007-11-16 2011-02-10 Paul-Ehrlich-Institut Bundesamt Fur Sera Und Impfstoffe Immortalized human cd4-positive cell and its use for determining the phenotype of a human immunodeficiency virus type 1
CN110211632A (zh) * 2019-05-06 2019-09-06 西安电子科技大学 一种基于神经网络的核苷酸单位点变异检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟大川等: "中国汉族儿童散发性激素耐药型肾病综合征CD2AP基因突变分析", 《临床儿科杂志》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808662A (zh) * 2021-09-01 2021-12-17 基诺莱(重庆)生物技术有限公司 基于神经网络的基因变异位点可致病性的预测方法及系统
CN113838522A (zh) * 2021-09-14 2021-12-24 浙江赛微思生物科技有限公司 一种基因突变位点影响剪接可能性的评估处理方法
WO2023087277A1 (zh) * 2021-11-19 2023-05-25 深圳华大基因股份有限公司 序列变异分析方法、系统以及存储介质
CN114300036A (zh) * 2021-12-29 2022-04-08 深圳华大基因股份有限公司 遗传变异致病性预测方法、装置、存储介质及计算机设备
CN114743603A (zh) * 2022-01-21 2022-07-12 中南大学湘雅医院 基因可靠性分析方法、装置、存储介质及服务器
CN114743603B (zh) * 2022-01-21 2023-12-12 中南大学湘雅医院 基因可靠性分析方法、装置、存储介质及服务器

Also Published As

Publication number Publication date
CN111063392B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN111063392B (zh) 基于神经网络的基因突变致病性检测方法、系统及介质
Gurumoorthy et al. Efficient data representation by selecting prototypes with importance weights
Shu et al. Updating attribute reduction in incomplete decision systems with the variation of attribute set
TWI658420B (zh) 融合時間因素之協同過濾方法、裝置、伺服器及電腦可讀存儲介質
US11593665B2 (en) Systems and methods driven by link-specific numeric information for predicting associations based on predicate types
US8738534B2 (en) Method for providing with a score an object, and decision-support system
CN112487199B (zh) 一种基于用户购买行为的用户特征预测方法
US20210174906A1 (en) Systems And Methods For Prioritizing The Selection Of Targeted Genes Associated With Diseases For Drug Discovery Based On Human Data
CN108536784B (zh) 评论信息情感分析方法、装置、计算机存储介质和服务器
CN115280415A (zh) 致病性模型的应用和其训练
Yong et al. Discovery of small protein complexes from PPI networks with size-specific supervised weighting
Siddalingappa et al. Anomaly detection on medical images using autoencoder and convolutional neural network
CN112540973A (zh) 一种基于关联规则的网络可视化方法
WO2018036402A1 (zh) 模型中关键变量的探测方法及装置
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
CN117370674A (zh) 融合用户行为和知识图谱的多任务推荐算法
CN113192627A (zh) 一种基于病人与疾病二部图的再入院预测方法及系统
Angayarkanni Predictive analytics of chronic kidney disease using machine learning algorithm
CN113822390B (zh) 用户画像构建方法、装置、电子设备和存储介质
Saiyed et al. A survey on naive bayes based prediction of heart disease using risk factors
CN113808662A (zh) 基于神经网络的基因变异位点可致病性的预测方法及系统
Harnsomburana et al. Computable visually observed phenotype ontological framework for plants
Huang et al. A parameterless feature ranking algorithm based on MI
CN114036267A (zh) 对话方法及系统
KR20200067713A (ko) 오류 트리플 검출 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant