CN108108592A - 一种用于遗传变异致病性打分的机器学习模型的构建方法 - Google Patents

一种用于遗传变异致病性打分的机器学习模型的构建方法 Download PDF

Info

Publication number
CN108108592A
CN108108592A CN201711476028.2A CN201711476028A CN108108592A CN 108108592 A CN108108592 A CN 108108592A CN 201711476028 A CN201711476028 A CN 201711476028A CN 108108592 A CN108108592 A CN 108108592A
Authority
CN
China
Prior art keywords
variation
transcript
pathogenic
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711476028.2A
Other languages
English (en)
Other versions
CN108108592B (zh
Inventor
王玉梅
刘轩竹
王乐珩
李厦戎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Genedock Technology Co Ltd
Original Assignee
Beijing Genedock Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Genedock Technology Co Ltd filed Critical Beijing Genedock Technology Co Ltd
Priority to CN201711476028.2A priority Critical patent/CN108108592B/zh
Publication of CN108108592A publication Critical patent/CN108108592A/zh
Application granted granted Critical
Publication of CN108108592B publication Critical patent/CN108108592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种用于遗传变异致病性打分的机器学习模型的构建方法,包括:A、获取变异数据文件,并将所述文件进行注释;B、根据注释后的信息筛选出每条变异数据的单转录本;C、对筛选后的单转录本中的数据进行数据分类平衡调整;D、对调整后的数据进行初始特征值的筛选;E、筛选后特征值中的非数值特征进行独热编码量化;F、将独热编码量化后的特征值中的缺失值进行填补;G、将填补后的特征值输入到机器学习模型中进行训练,以获取所述致病性机器学习模型。由上,本发明的机器学习模型可以获取高精度、高召回率的打分结果。

Description

一种用于遗传变异致病性打分的机器学习模型的构建方法
技术领域
本发明涉及变异位点致病性打分领域,特别涉及一种用于遗传变异致病性打分的机器学习模型的构建方法。
背景技术
现有构建的变异致病性打分软件的方法,比如孟德尔临床适用的致病性得分系统(MCAP),在人类基因变异数据库(HGMD)数据集上,均只有约57%的数据能得到打分结果。由此可见,在遗传性疾病的变异位点致病性检测中,由于部分变异位点的特征信息的缺失,存在得不到致病性检测结果的现象。
因此,为克服现有的打分工具的致病性打分结果不完整、准确率低的缺陷,目前亟需一种用于遗传变异致病性打分的机器学习模型的构建方法,以构建可以获取高精度、高召回率的打分结果的机器学习模型。
发明内容
有鉴于此,本申请提出一种用于遗传变异致病性打分的机器学习模型的构建方法。通过本申请构建的机器学习模型可以获取高精度、高召回率的打分结果。
本申请提出一种用于遗传变异致病性打分的机器学习模型的构建方法,包括:
A、获取变异数据文件,并将所述文件进行注释;
B、根据注释后的信息筛选出每条变异数据的单转录本;
C、对筛选后的单转录本中的数据进行数据分类平衡调整;
D、对调整后的数据进行初始特征值的筛选;
E、将筛选后特征值中的非数值特征进行独热编码量化;
F、将独热编码量化后的特征值中的缺失值进行填补;
G、将填补后的特征值输入到机器学习模型中进行训练,以获取用于遗传变异致病性打分的机器学习模型。
由上,本申请对注释后的变异位点的缺少的特征数据进行缺失填充,就填充后的无缺失的数据进行训练;通过本申请构建的致病性机器学习模型可以获取高精度、高召回率的打分结果。
优选地,所述步骤B中的单转录本选取的优先级依次为:
选取多个转录本中包含有与某一单一遗传病相关的基因的转录本;
选择与数据库中权威转录本相匹配的转录本;
根据变异结果影响的序列本体论序列信息的优先级,选取对变异结果影响影响最大的转录本;
根据转录本正负链信息,选取其中的正链的转录本。
由上,有利于减少无效信息的干扰。
优选地,所述步骤C包括:
C1、根据筛选得到的单转录本中的注释信息,将其中的变异位点划分为致病位点和良性位点;
C2、按照一指定的致病位点/良性位点的比例,选取一定数量的良性位点,以使训练数据平衡。
由上,通常良性位点的数量要远大于致病位点的数量,为了保证之后的训练模型的效果,按照致病:良性=1:3的比例,从良性位点中抽样出需要的数量。
优选地,所述步骤D包括:
D1、根据所述数据中的不同的变异基因对应表达的蛋白功能,对所述变异基因与所述单一遗传病之间进行致病相关性分析,并获取相关性显著的基因;
D2、将相关性显著的基因、基因的位置及该基因对应的遗传模式作为初始特征值。
由上,本申请首次提出使用单一遗传病特有的基因遗传特征作为初始特征值,有利于提高该单一遗传病预测的效率和精度。
优选地,所述步骤D还包括:
获取各个变异位点对应的变异结果影响的序列本体论信息,将其作为初始特征值;
由上,例如,同义突变和错义突变对变异结果的影响不同,因此将这一特征也作为初始特征值考虑进去。
所述步骤D还包括:
获取各个变异位点所处的外显子的特征信息,将其作为初始特征值;
由上,由于不同部位的外显子的蛋白功能域不同,稳定性也不同,因此将这一特征也作为初始特征值考虑进去。
所述步骤D还包括:
获取各个变异位点附近的重复序列信息,将其作为初始特征值。
由上,当变异位点附近有重复序列信息,即,变异位点在重复区域内,变异影响可能会小,因此将这一特征也作为初始特征值考虑进去。
所述步骤D还包括:
获取各个变异位点在现有的文献及数据库中的特征信息,将其作为初始特征值。
由上,现有的文献及数据库,例如生物医学论文搜索引擎 (PubMed)收集了目前发表的文章,将目前的研究情况考虑进去。
优选地,所述步骤D还包括:
获取各个变异位点在各种人群中出现的频率信息。
由上,充分考虑各个数据库中各人种的人群变异频率,加入的人群变异数据库信息包括千人基因组(1000Genome)、国家心肺和血液研究所外显子组测序计划(ESP)、人类外显子组整合数据库(ExAc) 及人基因组集合数据库(gnomAD)数据库的各个人种的变异频率信息。
优选地,所述步骤D还包括:
获取各个变异位点的保守性相关的信息。
由上,获取如氨基酸保守性,蛋白结构稳定性,变异对剪切位点影响,基因进化速率等与变异位点保守性相关的信息。因为当变异在保守区域内或者在剪切位点上,对蛋白功能影响会比较大,致病的可能性比较大,所以综合考虑多种保守性及剪切位点。
综上所述,本申请对注释后的变异位点中缺少的特征数据的进行缺失填充,对填充后的无缺失的数据进行训练;且本申请针对性的提取与单一遗传病有关的多方面的有效地特征信息,本申请构建的用于遗传变异致病性打分的机器学习模型可以获取高精度、高召回率的打分结果。克服了现有技术中通常由于使用的数据不针对单一遗传疾病,且由于数据缺失造成的打分结果不完整、准确率低的缺陷。
附图说明
图1为本申请实施例提供的一种用于遗传变异致病性打分的机器学习模型的构建方法的流程图;
图2为本申请实施例提供的对所述用于遗传变异致病性打分的机器学习模型进行测试的流程图。
具体实施方式
下面将结合本申请实施例中的附图对本申请进行说明。
实施例一
如图1所示,本申请实施例提出一种用于遗传变异致病性打分的机器学习模型的构建方法,包括步骤:
S101,获取包含有一单一遗传病的变异信息的变异文件(来源于现有的数据库),随机选择其中的80%作为训练集(另20%作为测试集),并将所述训练集中的变异数据进行注释。
将变异数据通过变异影响预测(VEP)工具进行注释,得到变异注释文件。变异注释文件由头信息和变异位点信息组成,在头信息中,有注释各列的含义说明。
S102,根据注释后的信息进行单转录本的筛选;包括:
B1、选取多个转录本中包含有与所述单一遗传病相关的基因的转录本。例如,若该遗传病为遗传性耳聋,则与其相关的基因包括如人γ1肌动蛋白基因(ACTG1)、连接蛋白26基因(GJB2)等基因。因此,在选择转录本时,则优先选取多个转录本中包含有与所述遗传性耳聋相关的上述基因的转录本。
B2、选择与数据库中权威转录本相匹配的转录本;即,选择权威转录本;
B3、根据变异结果影响的序列本体论序列信息的优先级,选取对变异结果影响影响最大的转录本;变异的影响分类(按照变异结果影响的序列本体论(Sequence Ontology)序列信息的优先级转录本消除(transcript_ablation)>剪切受体变异(splice_acceptor_variant)> 剪切供体变异(splice_donor_variant)>……共34级):影响分类按照顺序,分别表示变异结果影响由高到低,找出影响最大的转录本。
B4、根据转录本正负链信息,选取其中的正链的转录本(根据经验正链较合适)。
由上,按照遗传性耳聋疾病特有特征从多转录本中筛选获得最合适的单转录本信息。后面步骤使用这个单一转录本的所有注释信息。有利于减少无效信息的干扰。
S103,对筛选后的单转录本中的数据进行数据分类平衡调整。包括:
C1、根据筛选得到的单转录本中的注释信息,将其中的变异位点划分为致病位点和良性位点;
C2、按照一指定的致病位点/良性位点的比例,选取一定数量的良性位点,以使训练数据平衡。
通常良性位点的数量要远大于致病位点的数量,因此,为了保证之后的训练模型的效果,按照致病:良性=1:3的比例,从良性位点中抽样出需要的数量。
S104,对调整后的数据进行初始特征值的筛选;包括:
D1、根据所述数据中的不同的变异基因对应表达的蛋白功能,对所述变异基因与所述单一遗传病之间进行致病相关性分析,并获取相关性显著的基因;
D2、将相关性显著的基因、基因的位置及该基因对应的遗传模式作为初始特征值。
由此,本申请首次提出使用单一遗传病特有的基因遗传特征作为初始特征值,包括:基因名称(不同基因对致病性的影响不同)、变异所在的位置(不同位置,对应蛋白的不用功能域,对致病性的影响不同)、遗传模式(包括常染色体显性、常染色体隐性、X染色体连锁、线粒体相关,不同的遗传模式下变异的影响也是不同)作为初始特征值,有利于提高该单一遗传病预测的效率和精度。例如,对于筛选遗传性耳聋,其主要的对应基因名称及基因内位置信息为ACTG1 基因的624位置,遗传性耳聋ACTG1基因为常染色体显性遗传(autosomal dominant,AD)。
其中,所述S104还包括:
获取各个变异位点对应的变异结果影响的序列本体论信息,将其作为初始特征值;其中,例如,同义突变和错义突变对变异结果的影响不同,因此将这一特征也作为初始特征值考虑进去。本申请首次提出使用变异位点的该特征,有利于使得构建的机器学习模型打分更加准确。
其中,所述S104还包括:
获取各个变异位点所处的外显子的特征信息,将其作为初始特征值。例如获取变异位点所处的的外显子的位置特征信息,如是处于外显子边缘或中间位置(如共5个外显子,处在第2个外显子上,为外显子中间位置),由于不同部位的外显子的蛋白功能域不同,稳定性也不同,因此将这一特征也作为初始特征值考虑进去。本申请首次提出使用变异位点的该特征,有利于使得构建的机器学习模型打分更加准确。
其中,所述S104还包括:
获取各个变异位点附近的重复序列信息,将其作为初始特征值。
由于当变异位点附近有重复序列信息,即,变异位点在重复区域内,变异影响可能会小,因此将这一特征也作为初始特征值考虑进去。本申请首次提出使用变异位点的该特征,有利于使得构建的机器学习模型打分更加准确。
其中,所述S104还包括:
获取各个变异位点在现有的文献及数据库中的特征信息,将其作为初始特征值。由上,现有的文献及数据库,例如生物医学论文搜索引擎(PubMed)收集了目前发表的文章,将目前的研究情况考虑进去。
其中,所述S104还包括:
获取各个变异位点在各种人群中出现的频率信息。充分考虑各个数据库中各人种的人群变异频率,加入的人群变异数据库信息包括千人基因组(1000Genome)、国家心肺和血液研究所外显子组测序计划(ESP)、人类外显子组整合数据库(ExAc)及人基因组集合数据库(gnomAD)数据库的各个人种的变异频率信息。
其中,所述S104还包括:
获取各个变异位点的保守性相关的信息。如氨基酸保守性,蛋白结构稳定性,变异对剪切位点影响,基因进化速率等。将这些特征值的数据提取出,按照位点进行保存:因为当变异在保守区域内或者在剪切位点上,对蛋白功能影响会比较大,致病的可能性比较大,所以综合考虑多种保守性及剪切位点。
S105,将筛选后特征值中的非数值特征进行独热编码量化。
为了充分利用非数值特征,按照变异结果(Consequence)列表、单一遗传病的基因名称和位置、遗传模式及外显子信息进行增维,如 35种Consequence结果,就增维为35个特征值,当结果中有这一特征值出现,则值取1否则取0。
S106,将独热编码量化后的特征值中的缺失值进行填补。
通过hot-deck算法程序将每个变异位点的前述步骤中的各项特征中的缺失的值进行填补,例如,对于某一变异位点,缺少其与氨基酸保守性有关的特征数据等,则通过hot-deck算法程序将其填补。
S107,将填补后的特征值输入到机器学习模型中进行训练,以获取所述针对单一遗传病的变异位点致病性打分的机器学习模型。本发明主要使用的机器学习模型包括:逻辑回归(LR)、支持向量机 (SVM)、随机森林(RandomForest)、梯度提升决策树(GBDT) 模型、神经网络模型。接收者操作特征曲线(ROC)显示,5种模型的结果均能达到0.9以上的曲线下面积(AUC)。模型训练完成获得 5种用于遗传变异致病性打分的机器学习模型。
实施例二
如图2所示,本申请该实施例还对上述的构建的用于遗传变异致病性打分的机器学习模型进行了测试,包括步骤:
S201,将S101中剩余的20%的变异数据文件作为测试集,并将所述测试集中的数据进行注释。
S202,根据注释后的信息筛选出每条变异数据的单转录本。
S203,进行初始特征值的筛选。
S204,将筛选后特征值中的非数值特征进行独热编码量化。
S205,将独热编码量化后的特征值中的缺失值进行填补。
其中S202、S203-S205的具体步骤分别与S102、S104-S106相似,在此不再赘述。
S206,将填补后的特征值输入到实施例一S107中获取的针对单一遗传病的变异位点致病性打分的机器学习模型中(可随意选择实施例一中获取的5种用于遗传变异致病性打分的机器学习模型进行打分),以获取预测打分结果。
本申请的有益效果是,不同于其他工具对某些数据得不到打分,由于做了特征填补工作,没有抛弃有缺失的数据,对于输入的待测数据,能得到100%的数据的预测打分。对比其他工具较低的准确率(以MCAP为例,32%),本发明能在保持召回率的优势下得到90%以上的精度。
综上所述,本申请对注释后的变异位点中缺少的特征数据的进行缺失填充,对填充后的无缺失的数据进行训练;且本申请针对性的提取与单一遗传病有关的多方面的有效地特征信息,本申请构建的用于遗传变异致病性打分的机器学习模型可以获取高精度、高召回率的打分结果。克服了现有技术中通常由于使用的数据不针对单一遗传疾病,且由于数据缺失造成的打分结果不完整、准确率低的缺陷。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种用于遗传变异致病性打分的机器学习模型的构建方法,其特征在于,包括:
A、获取变异数据文件,并将所述文件进行注释;
B、根据注释后的信息筛选出每条变异数据的单转录本;
C、对筛选后的单转录本中的数据进行数据分类平衡调整;
D、对调整后的数据进行初始特征值的筛选;
E、将筛选后特征值中的非数值特征进行独热编码量化;
F、将独热编码量化后的特征值中的缺失值进行填补;
G、将填补后的特征值输入到机器学习模型中进行训练,以获取用于遗传变异致病性打分的机器学习模型。
2.根据权利要求1所述的方法,其特征在于,所述步骤B中的单转录本选取的优先级依次为:
选取多个转录本中包含有与某一单一遗传病相关的基因的转录本;
选择与数据库中权威转录本相匹配的转录本;
根据变异结果影响的序列本体论序列信息的优先级,选取对变异结果影响影响最大的转录本;
根据转录本正负链信息,选取其中的正链的转录本。
3.根据权利要求2所述的方法,其特征在于,所述步骤C包括:
C1、根据所述单一遗传病相关的文献及数据库,将其中的变异位点划分为致病位点和良性位点;
C2、按照一指定的致病位点/良性位点的比例,选取一定数量的良性位点,以使训练数据平衡。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述步骤D包括:
D1、根据所述数据中的不同的变异基因对应表达的蛋白功能,对所述变异基因与所述单一遗传病之间进行致病相关性分析,并获取相关性显著的基因;
D2、将相关性显著的基因、基因的位置及该基因对应的遗传模式作为初始特征值。
5.根据权利要求4所述的方法,其特征在于,所述步骤D还包括至少以下其一:
获取各个变异位点对应的变异结果影响的序列本体论信息,将其作为初始特征值;
获取各个变异位点所处的外显子的特征信息,将其作为初始特征值;
获取各个变异位点附近的重复序列信息,将其作为初始特征值;
获取各个变异位点在现有的文献及数据库中的特征信息,将其作为初始特征值。
6.根据权利要求5所述的方法,其特征在于,所述步骤D还包括:
获取各个变异位点在各种人群中出现的频率信息。
7.根据权利要求6所述的方法,其特征在于,所述步骤D还包括:
获取各个变异位点的保守性相关的信息。
CN201711476028.2A 2017-12-29 2017-12-29 一种用于遗传变异致病性打分的机器学习模型的构建方法 Active CN108108592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711476028.2A CN108108592B (zh) 2017-12-29 2017-12-29 一种用于遗传变异致病性打分的机器学习模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711476028.2A CN108108592B (zh) 2017-12-29 2017-12-29 一种用于遗传变异致病性打分的机器学习模型的构建方法

Publications (2)

Publication Number Publication Date
CN108108592A true CN108108592A (zh) 2018-06-01
CN108108592B CN108108592B (zh) 2020-06-16

Family

ID=62214763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711476028.2A Active CN108108592B (zh) 2017-12-29 2017-12-29 一种用于遗传变异致病性打分的机器学习模型的构建方法

Country Status (1)

Country Link
CN (1) CN108108592B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036556A (zh) * 2018-08-29 2018-12-18 王雁 一种基于机器学习诊断圆锥角膜病例的方法
CN109616155A (zh) * 2018-11-19 2019-04-12 江苏科技大学 一种编码区域遗传变异致病性分类的数据处理系统与方法
CN109657731A (zh) * 2018-12-28 2019-04-19 长沙理工大学 一种微滴数字pcr仪抗干扰分类方法
CN110033860A (zh) * 2019-02-27 2019-07-19 杭州贝安云科技有限公司 一种基于机器学习的遗传代谢病检出率提升方法
CN111192625A (zh) * 2019-12-31 2020-05-22 中南大学湘雅医院 基于帕金森病基因组学关联模型的管理方法及装置
CN111816304A (zh) * 2020-07-22 2020-10-23 北京聚道科技有限公司 一种遗传性疾病辅助决策的建立方法和系统
CN112951324A (zh) * 2021-02-05 2021-06-11 广州医科大学 一种基于欠采样的致病同义突变预测方法
CN114496080A (zh) * 2022-01-17 2022-05-13 中国人民解放军总医院第一医学中心 耳聋致病性基因的筛查方法、装置、存储介质及服务器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7244432B2 (en) * 2004-12-08 2007-07-17 University Of Maryland Biotechnology Institute Infectious bursal disease virus (IBDV) variant from Georgia
CN103270176A (zh) * 2011-01-31 2013-08-28 索元生物医药(杭州)有限公司 发现药物基因组生物标志物的方法
CN105473741A (zh) * 2013-06-21 2016-04-06 塞昆纳姆股份有限公司 用于遗传变异的非侵入性评估的方法和过程
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统
CN106960122A (zh) * 2017-03-17 2017-07-18 晶能生物技术(上海)有限公司 基因突变引起的遗传疾病预测方法及装置
CN107341366A (zh) * 2017-07-19 2017-11-10 西安交通大学 一种利用机器学习预测复杂疾病易感位点的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7244432B2 (en) * 2004-12-08 2007-07-17 University Of Maryland Biotechnology Institute Infectious bursal disease virus (IBDV) variant from Georgia
CN103270176A (zh) * 2011-01-31 2013-08-28 索元生物医药(杭州)有限公司 发现药物基因组生物标志物的方法
CN105473741A (zh) * 2013-06-21 2016-04-06 塞昆纳姆股份有限公司 用于遗传变异的非侵入性评估的方法和过程
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统
CN106960122A (zh) * 2017-03-17 2017-07-18 晶能生物技术(上海)有限公司 基因突变引起的遗传疾病预测方法及装置
CN107341366A (zh) * 2017-07-19 2017-11-10 西安交通大学 一种利用机器学习预测复杂疾病易感位点的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
任永永 等: "基于第二代测序技术的人类基因组插入/缺失变异检测算法评估及检测平台搭建", 《中国优秀硕士学位论文全文数据库基础科学辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036556A (zh) * 2018-08-29 2018-12-18 王雁 一种基于机器学习诊断圆锥角膜病例的方法
CN109036556B (zh) * 2018-08-29 2021-06-04 王雁 一种基于机器学习诊断圆锥角膜病例的方法
CN109616155A (zh) * 2018-11-19 2019-04-12 江苏科技大学 一种编码区域遗传变异致病性分类的数据处理系统与方法
CN109616155B (zh) * 2018-11-19 2023-04-18 江苏科技大学 一种编码区域遗传变异致病性分类的数据处理系统与方法
CN109657731A (zh) * 2018-12-28 2019-04-19 长沙理工大学 一种微滴数字pcr仪抗干扰分类方法
CN110033860A (zh) * 2019-02-27 2019-07-19 杭州贝安云科技有限公司 一种基于机器学习的遗传代谢病检出率提升方法
CN111192625A (zh) * 2019-12-31 2020-05-22 中南大学湘雅医院 基于帕金森病基因组学关联模型的管理方法及装置
CN111816304A (zh) * 2020-07-22 2020-10-23 北京聚道科技有限公司 一种遗传性疾病辅助决策的建立方法和系统
CN112951324A (zh) * 2021-02-05 2021-06-11 广州医科大学 一种基于欠采样的致病同义突变预测方法
CN114496080A (zh) * 2022-01-17 2022-05-13 中国人民解放军总医院第一医学中心 耳聋致病性基因的筛查方法、装置、存储介质及服务器

Also Published As

Publication number Publication date
CN108108592B (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN108108592A (zh) 一种用于遗传变异致病性打分的机器学习模型的构建方法
Chethana et al. What are fungal species and how to delineate them?
Huang et al. Taxonomic classification of the reef coral families Merulinidae, Montastraeidae, and Diploastraeidae (Cnidaria: Anthozoa: Scleractinia)
Biot et al. Multiscale quantification of morphodynamics: MorphoLeaf software for 2D shape analysis
Dettman et al. Reproductive isolation and phylogenetic divergence in Neurospora: comparing methods of species recognition in a model eukaryote
Cardona et al. Identifying neuronal lineages of Drosophila by sequence analysis of axon tracts
Li et al. Russula chiui and R. pseudopectinatoides, two new species from southwestern China supported by morphological and molecular evidence
Mindell Phylogenetic consequences of symbioses: Eukarya and Eubacteria are not monophyletic taxa
CN106933983A (zh) 一种中医药知识图谱的构建方法
Jaklitsch et al. Teichospora and the Teichosporaceae
De Crop et al. Lactifluus piperatus (Russulales, Basidiomycota) and allied species in Western Europe and a preliminary overview of the group worldwide
CN108304864A (zh) 深度对抗度量学习方法及装置
Eberle et al. Sex-biased dispersal obscures species boundaries in integrative species delimitation approaches
Kuo et al. A taxonomic revision of the Kerivoula hardwickii complex (Chiroptera: Vespertilionidae) with the description of a new species
KR100966106B1 (ko) 특허 정보를 이용한 기술과 서비스의 평가 및 서비스중심의 기술 로드맵 작성 방법
CN108319984A (zh) 基于dna甲基化水平的木本植物叶片表型特征和光合特性预测模型的构建方法及预测方法
Zhang et al. Systematic significance of achene morphology in Soroseris, Syncalathium and Parasyncalathium (Asteraceae: Cichorieae)
CN109685140A (zh) 一种基于主成分分析的dbscan算法岸桥状态分类方法
JPWO2019181022A1 (ja) 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体
Lara et al. Let’s make Pulvigera great again: re-circumscription of a misunderstood group of Orthotrichaceae that diversified in North America
CN106294307B (zh) 语料筛选方法及装置
CN106651167A (zh) 一种生物信息工程师技能评级系统
Quezada-Euán et al. Identification of cryptic species and morphotypes in male Euglossa: morphometric analysis of forewings (Hymenoptera: Euglossini)
Pinto-Carrasco et al. Unravelling the phylogeny of the root-hemiparasitic genus Odontites (tribe Rhinantheae, Orobanchaceae)
Sansom et al. The histology and affinities of sinacanthid fishes: primitive gnathostomes from the Silurian of China

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant