CN113808662A - 基于神经网络的基因变异位点可致病性的预测方法及系统 - Google Patents
基于神经网络的基因变异位点可致病性的预测方法及系统 Download PDFInfo
- Publication number
- CN113808662A CN113808662A CN202111021209.2A CN202111021209A CN113808662A CN 113808662 A CN113808662 A CN 113808662A CN 202111021209 A CN202111021209 A CN 202111021209A CN 113808662 A CN113808662 A CN 113808662A
- Authority
- CN
- China
- Prior art keywords
- neural network
- genetic variation
- pathogenicity
- site
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007918 pathogenicity Effects 0.000 title claims abstract description 79
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 52
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 48
- 230000007614 genetic variation Effects 0.000 claims abstract description 137
- 238000003062 neural network model Methods 0.000 claims abstract description 61
- 230000001717 pathogenic effect Effects 0.000 claims abstract description 38
- 201000010099 disease Diseases 0.000 claims description 38
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 12
- 206010064571 Gene mutation Diseases 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 5
- 201000001119 neuropathy Diseases 0.000 claims 1
- 230000007823 neuropathy Effects 0.000 claims 1
- 208000033808 peripheral neuropathy Diseases 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000004364 calculation method Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000001712 DNA sequencing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 210000000349 chromosome Anatomy 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 208000022602 disease susceptibility Diseases 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Chemical & Material Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Analytical Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明实施例公开了一种基于神经网络的基因变异位点可致病性的预测方法及系统,该方法包括:接收用户输入的基因变异位点;获取所述基因变异位点的特征信息;将所述基因变异位点的特征信息、所述用户的身份信息输入到RBF神经网络模型中,得到所述基因变异位点的预测致病值;根据所述预测致病值确定所述基因变异位点的等级;根据所述基因变异位点的等级预测所述基因变异位点的可致病性。本发明基于神经网络技术,通过预先获取用户的基因变异位点的特征信息以及身份信息,然后将特征信息和身份信息输入到RBF神经网络中进行计算,得到该基因变异位点的致病值以预测该基因变异位点的致病性,极大地提高了基因变异位点的可致病性的预测的准确性。
Description
技术领域
本发明属于神经网络技术领域,具体涉及一种基于神经网络的基因变异位点可致病性的预测方法及系统。
背景技术
DNA测序技术在诊断、生物技术以及生物系统学中已经成为不可或缺的一环。DNA测序技术通过对用户基因进行测序以得到用户基因中所有基因变异位点,然后通过对基因变异位点进行可致病性评估,进而实现对用户进行疾病的提前预防并及时治疗。
现有技术中,在对用户的基因变异位点进行可致病性评估有两种主流方法,其中第一种方法是通过与Clin Var数据库进行直接对比,然后根据观察用户的身体状况和相应证据进行分析,以对该基因变异位点进行可致病性的评估预测;第二种方法是采用美国医学遗传学会提出的方法计算出一个致病性等级,通过致病性等级来对用户的基因变异位点进行可致病性的评估预测。虽然上述两种方法已经进行了广泛的使用,但是上述两种方法均有相应的不足,其中,第一种方法由于基因变异位点的可致病性是通过经验和实际案例得出,但是该方法对于一些实际案例统计较少或为零的基因变异位点的可致病性评估预测不可靠,进而对用户的基因变异位点进行可致病性的评估预测出现不准确的问题;第二种方法虽然将基因变异位点的42个真假值作为42个特征,但是每一种划分标准仅仅只是考虑了一部分特征之间的相互关联,忽略了某些特征之间更为全局的相互关联,例如,若采用F1到F42作为42个特征,则对无害的基因变异位点的判断只与F1到F42中5个特征相关,对致病的基因变异位点的判断只与F1到F42中17个特征相关,其余种类同理,由于对每个特征的测量相对独立,若只使用部分特征进行可致病性的判断则可能会忽略某些特征与致病性在统计上的相关性,而且该关联有可能是非线性的,进而对用户的基因变异位点进行可致病性的评估预测出现不准确的问题。
发明内容
针对上述技术问题,本发明实施例提供了一种基于神经网络的基因变异位点可致病性的预测方法及系统,旨在解决现有技术中对用户的基因变异位点进行可致病性的评估预测出现不准确的问题。
第一方面,本发明实施例提供了一种基于神经网络的基因变异位点可致病性的预测方法,其包括:
接收用户输入的基因变异位点;
获取所述基因变异位点的特征信息;
将所述基因变异位点的特征信息、所述用户的身份信息输入到预置的RBF神经网络模型中,得到所述基因变异位点的预测致病值;
根据所述预测致病值确定所述基因变异位点的等级以预测所述基因变异位点的可致病性。
第二方面,本发明实施例提供了一种基于神经网络的基因变异位点可致病性的预测系统,其包括:
接收模块,用于接收用户输入的基因变异位点;
第一获取模块,用于获取所述基因变异位点的特征信息;
第一输入模块,用于将所述基因变异位点的特征信息、所述用户的身份信息输入到预置的RBF神经网络模型中,得到所述基因变异位点的预测致病值;
预测模块,用于根据所述预测致病值确定所述基因变异位点的等级以预测所述基因变异位点的可致病性。
第三方面,本发明实施例又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于神经网络的基因变异位点可致病性的预测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于神经网络的基因变异位点可致病性的预测方法。
本发明基于神经网络技术,通过预先获取用户的基因变异位点的特征信息,然后采用RBF神经网络对基因变异位点的特征信息以及用户的身份信息进行预测以得到该基因变异位点的致病值,通过致病值来确定该基因变异位点的等级以预测该基因变异位点的致病性,极大地提高了基因变异位点的可致病性的预测的准确性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于神经网络的基因变异位点可致病性的预测方法的流程示意图;
图2为本发明实施例提供的基于神经网络的基因变异位点可致病性的预测方法的另一流程示意图;
图3为本发明实施例提供的基于神经网络的基因变异位点可致病性的预测方法的子流程示意图;
图4为本发明实施例提供的基于神经网络的基因变异位点可致病性的预测方法的另一流程示意图;
图5为本发明实施例提供的基于神经网络的基因变异位点可致病性的预测方法的另一子流程示意图;
图6为本发明实施例提供的基于神经网络的基因变异位点可致病性的预测系统的示意性框图;
图7为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的基于神经网络的基因变异位点可致病性的预测方法的流程示意图。本发明实施例的所述的基于神经网络的基因变异位点可致病性的预测方法应用于终端设备中,该方法通过安装于终端设备中的应用软件进行执行。其中,终端设备为具备接入互联网功能的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等设备。
如图1所示,该方法包括以下步骤S110-S140。
S110、接收用户输入的基因变异位点。
具体的,所述基因变异位点通过DNA测序技术对所述用户的基因进行基因检测得到,所述基因变异位点为所述用户的染色体上占有的特定位置的基因位点发生变异的位点。当用户需要对自身染色体上的基因变异位点进行可致病性预测时,只需将该基因变异位点输入至安装有执行所述的基于神经网络的可致病性的预测方法的终端设备中,便可实现对该基因变异位点的可致病性的预测。
在另一实施例中,如图2所示,步骤S110之前还包括步骤S210。
S210、根据预设的样本集对所述RBF神经网络模型进行训练,得到训练后的RBF神经网络模型。
在本实施例中,所述样本集为用于训练所述RBF神经网络模型的数据集。在采用所述样本集对所述RBF神经网络模型进行训练的过程中,所述样本集中每个样本均标注有可致病性的评估,每个样本对应一个用户且含有该用户的身份信息,同时还包含有一个基因变异位点及该基因变异位点的42个特征。在本实施例中,所述身份信息包括用户的年龄、体重、身高、性别以及过往疾病诊断等数据信息,每一个基因变异位点的多个样本均匹配有该样本的报告,通过该报告得到该样本对应的基因变异位点的可致病性的评估结果,然后通过该评估结果对该样本进行标注,并输入至所述RBF神经网络模型中,最后通过所述RBF神经网络模型的输出结果计算所述RBF神经网络模型的损失函数,进而对对所述RBF神经网络模型进行参数调整,直至所述RBF神经网络模型收敛。其中,需要说明的是,同一个基因变异位点可能在多个用户的基因组上同时存在,同一个基因变异位点对不同用户既可以产生致病性,也可以不产生致病性。
在另一实施例中,如图3所示,步骤S210包括子步骤S211、S212和S213。
S211、对预设的基因组变异数据库中基因变异位点的每个样本进行标注,得到标注后的样本。
在本实施例中,所述基因组变异数据库为ClinVar数据库,所述ClinVar数据库是NCBI主办的与疾病相关的人类基因组变异数据库,所述ClinVar数据库存储了人类变异位点和表型之间的关系,通过从ClinVar数据库中选取所有基因变异位点的样本集,每个基因变异位点选取多个样本并对样本集中每个样本预先进行可致病性的标注,然后采用ACMG方法对每个标注后的样本进行特征提取,便可得到该标注后的样本所对应的基因变异位点的特征信息,最后将所述特征信息输入至所述RBF神经网络模型进中并通过所述RBF神经网络模型的输出结果计算所述RBF神经网络模型的损失函数,进而对对所述RBF神经网络模型进行参数调整,直至所述RBF神经网络模型收敛。
S212、获取每个所述标注后的样本的基因变异位点的特征信息以及每个所述标注后的样本中用户的身份信息。
在本实施例中,通过使用美国医学遗传学会(American College of MedicalGenetics,ACMG)中提出的基因变异特征提取方法来对每个所述标注后的样本进行特征提取,以得到该样本中所述基因变异位点的特征信息,每个所述标注后的样本中用户的身份信息从该样本的报告中进行提取,然后将该特征信息以及该样本中用户的身份信息输入至所述RBF神经网络模型进中进行训练,便可得到训练后的RBF神经网络模型。
S213、将所述标注后的样本的基因变异位点的特征信息、所述标注后的样本的中用户的身份信息输入至所述RBF神经网络模型进中进行训练,得到训练后的RBF神经网络模型。
具体的,RBF神经网络是一种三层神经网络,其包括输入层、隐层、输出层。从输入空间到隐层空间的变换是非线性的,而从隐层空间到输出层空间变换是线性的。通过将所述特征信息、所述身份信息输入至所述RBF神经网络模型进中并通过所述RBF神经网络模型的输出结果计算所述RBF神经网络模型的损失函数,进而对所述RBF神经网络模型进行参数调整,直至所述RBF神经网络模型收敛,便可完成对所述RBF神经网络模型的训练。
在另一实施例中,如图4所示,步骤S211包括子步骤S2111、S2112。
S2111、从所述基因组变异数据库中提取每个所述样本的报告数据;
S2112、基于所述报告数据对每个所述样本进行标注,得到所述标注后的样本。
其中,所述报告数据既可以为对用户进行诊断时的临床数据,也可以为现有文献中统计记载的数据。在本实施例中,所述报告数据为临床数据,每个所述样本在所述基因组变异数据库中均存在相应的临床数据,通过从所述基因组变异数据库中提取每个所述样本的临床数据,然后根据每个所述样本的临床数据中得到的可致病性对该临床数据对应的文本进行标注,便可得到所述标注后的样本。其中,从临床数据中得到的可致病性包括:致病的,可能致病的,不确定,可能无害,无害五个等级,通过该五个等级对每个所述样本进行标注,可得到标注有该五个等级中任何一个等级标签的样本。
在另一实施例中,步骤S110之前还包括步骤:获取所述用户的身份信息并根据所述身份信息获取与所述身份信息相匹配的可致病性表。
具体的,所述用户的身份信息包括所述用户的年龄、体重、身高、性别以及过往疾病诊断等数据信息。所述可致病性表根据所述用户的身份信息生成,每一个基因变异位点包括至少一张可致病性表。由于同一个基因变异位点的可致病性在不同用户中不同,进而导致不同用户之间出现不同的可致病性的等级。例如,两个同一年龄的用户中的区别特征仅仅只是体重的差别,则体重较重的用户的可致病性的等级要高于体重轻的用户的可致病性的等级,因此,通过预先获取所述用户的身份信息,然后根据用户的身份信息获取与所述身份信息相匹配的可致病性表,然后根据该可致病性表来预测该用户的可致病性的等级,进而进一步提高用户的可致病性的预测结果。在本实施例中,预先构建用于对每一个基因变异位点中不同用户进行评估的评分模型,然后根据用户的身份信息对该评分模型进行训练,训练完成后,对用于对所述RBF神经网络模型进行训练的样本集中的用户进行评分,然后根据样本集中的用户的评分制定每个基因变异位点的多个类别的可致病性表。其中,每个类别的可致病性表均包括致病的、可能致病的、不确定、可能无害的以及无害的五个等级,每个类别的可致病性表中的五个等级仅仅只是所划分的致病值的范围不相同。例如,设定一个基因变异位点有两个类别的可致病性表(第一可致病性表和第二可致病性表),其中,用户的评分低于0.5时,采用第一可致病性表,用户评分高于0.5时,采用第二可致病性表,第一可致病性表中设定预测致病值在0.9-1之间为致病的,0.525-0.9之间为可能致病的,0.475-0.525之间为不确定,0.1-0.475之间为可能无害的,0-0.1之间为无害的;第二致病性表中设定预测致病值0.8-1之间为致病的,0.525-0.8之间为可能致病的,0.475-0.525之间为不确定,0.1-0.475之间为可能无害的,0-0.1之间为无害的。当用户需要进行基因变异位点的可致病性预测时,只需将该用户的身份信息输入至该评分模型中进行评分,然后根据评分便可获取对应类别的可致病性表。其中,所述评分模型为Logistic回归模型、支持向量机模型(SWM)中的任意一种。
S120、获取所述基因变异位点的特征信息。
具体的,终端设备在接收到所述用户输入的所述基因变异位点后,通过通过使用美国医学遗传学会(American College of Medical Genetics,ACMG)中提出的基因变异特征提取方法来对所述基因变异位点进行特征提取,便可得到所述基因变异位点的特征信息。
S130、将所述基因变异位点的特征信息、所述用户的身份信息输入到预置的RBF神经网络模型中,得到所述基因变异位点的预测致病值。
在本实施例中,RBF(Radial Basis Function)神经网络即为径向基函数神经网络,由于RBF神经网络可解决任意的非线性函数,可以处理系统内的难以解析的规律性,具有良好的泛化能力,并有很快的学习收敛速度,因此本实施例采用RBF神经网络替代BP神经网络,所述RBF神经网络模型由输入层、隐含层和输出层构成,其中,输入层到隐含层间并非通过权值和阈值进行连接,而是通过输入样本与隐含层点之间的距离(与中心点的距离)连接,输入层用于将所述基因变异位点的特征信息传递至隐含层,隐含层用于进行非线性运算进而将所述基因变异位点的特征信息进行高维映射至输出层,最后通过输出层进行线性运算,进而得到所述基因变异位点的预测致病值。
在另一实施例中,如图5所示,步骤S130包括子步骤S131、S132和S133。
S131、将所述基因变异位点的特征信息、所述用户的身份信息输入至所述RBF神经网络模型的输入层中,得到特征向量;
S132、将所述特征向量输入至所述RBF神经网络模型的隐含层中进行非非线性运算,得到输出向量;
S133、将所述输出向量输入至所述RBF神经网络模型的输出层中进行线性变换,得到所述预测致病值。
在本实施例中,所述RBF神经网络模型的输入层的节点数少于所述RBF神经网络模型的隐含层的节点数,所述RBF神经网络模型的输入层到隐含层之间通过输出层的每个节点与隐含层的每个节点之间的距离连接,所述基因变异位点的特征信息输入至所述RBF神经网络模型的输入层中进行向量化处理,便可得到所述基因变异位点的特征向量,然后根据所述基因变异位点的特征向量计算输出层的每个节点与隐含层的每个节点之间的距离并将计算得到的距离输入至所述隐含层中的径向基函数中进行非线性运算,得到所述隐含层中每个节点的数值,最后输入至输出层中进行线性运算,便可输出所述基因变异位点的预测致病值。
S140、根据所述预测致病值确定所述基因变异位点的等级以预测所述基因变异位点的可致病性。
具体的,预先获取与所述用户相配的可致病性表,然后根据所述预测致病值从该可致病性表中确定所述基因变异位点的等级,最后通过该等级对所述用户输入的基因变异位点的可致病性进行预测。在本实施例中,若所述预测致病值在0.9-1之间时,则所述基因变异位点的等级为致病的;若所述预测致病值在0.525-0.9之间,则所述基因变异位点的等级为可能致病的;若所述预测致病值在0.475-0.525之间,则所述基因变异位点的等级为不确定;若所述预测致病值在0.1-0.475之间,则所述基因变异位点的等级为可能无害的;若所述预测致病值在0-0.1之间,则所述基因变异位点的等级为无害的。
在本发明实施例所提供的基于神经网络的基因变异位点可致病性的预测方法中,接收用户输入的基因变异位点;获取所述基因变异位点的特征信息;将所述基因变异位点的特征信息、所述用户的身份信息输入到RBF神经网络模型中,得到所述基因变异位点的预测致病值;根据所述预测致病值确定所述基因变异位点的等级;根据所述基因变异位点的等级预测所述基因变异位点的可致病性。本发明基于神经网络技术,通过预先获取用户的基因变异位点的特征信息以及身份信息,然后将特征信息和身份信息输入到RBF神经网络中进行计算,得到该基因变异位点的致病值以预测该基因变异位点的致病性,极大地提高了基因变异位点的可致病性的预测的准确性。
本发明实施例还提供了一种基于神经网络的基因变异位点可致病性的预测系统100,该系统用于执行前述基于神经网络的基因变异位点可致病性的预测方法的任一实施例。
具体地,请参阅图6,图6是本发明实施例提供的基于神经网络的基因变异位点可致病性的预测系统100的示意性框图。
如图6所示,所述的基于神经网络的基因变异位点可致病性的预测系统100,该装置包括:接收模块110、第一获取模块120、第一输入模块130、预测模块140。
接收模块110,用于接收用户输入的基因变异位点。
在其他发明实施例中,所述的基于神经网络的基因变异位点可致病性的预测系统100还包括:第一训练模块。
第一训练模块,用于根据预设的样本集对所述RBF神经网络模型进行训练,得到训练后的RBF神经网络模型。
在其他发明实施例中,所述第一训练模块包括:第一标注模块、第二获取模块和第二训练模块。
第一标注模块,用于对预设的基因组变异数据库中基因变异位点的每个样本进行标注,得到标注后的样本;第二获取模块,用于获取每个所述标注后的样本的基因变异位点的特征信息以及每个所述标注后的样本中用户的身份信息;第二训练模块,用于将所述标注后的样本的基因变异位点的特征信息、所述标注后的样本中用户的身份信息输入至所述RBF神经网络模型进中进行训练,得到训练后的RBF神经网络模型。
在其他发明实施例中,所述第一标注模块包括:提取模块和第二标注模块。
提取模块,用于从所述基因组变异数据库中提取每个所述样本的报告数据;第二标注模块,用于基于所述报告数据对每个所述样本进行标注,得到所述标注后的样本。
在其他发明实施例中,所述的基于神经网络的可致病性的预测系统100还包括:第三获取模块。
第三获取模块,用于获取所述用户的身份信息并根据所述身份信息获取与所述身份信息相匹配的可致病性表。
第一获取模块120,用于获取所述基因变异位点的特征信息。
第一输入模块130,用于将所述基因变异位点的特征信息、所述用户的身份信息输入到预置的RBF神经网络模型中,得到所述基因变异位点的预测致病值。
在其他发明实施例中,所述第一输入模块130包括:第二输入模块、第三输入模块和第四输入模块。
第二输入模块,用于将所述基因变异位点的特征信息、所述用户的身份信息输入至所述RBF神经网络模型的输入层中,得到特征向量;第三输入模块,用于将所述特征向量输入至所述RBF神经网络模型的隐含层中进行非非线性运算,得到输出向量;第四输入模块,用于将所述输出向量输入至所述RBF神经网络模型的输出层中进行线性变换,得到所述预测致病值。
预测模块140,用于根据所述预测致病值确定所述基因变异位点的等级以预测所述基因变异位点的可致病性。
本发明实施例所提供的基于神经网络的基因变异位点可致病性的预测系统100用于执行上述接收用户输入的基因变异位点;获取所述基因变异位点的特征信息;将所述基因变异位点的特征信息、所述用户的身份信息输入到预置的RBF神经网络模型中,得到所述基因变异位点的预测致病值;根据所述预测致病值确定所述基因变异位点的等级以预测所述基因变异位点的可致病性。
请参阅图7,图7是本发明实施例提供的计算机设备的示意性框图。
参阅图7,该设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于神经网络的基因变异位点可致病性的预测方法。
该处理器502用于提供计算和控制能力,支撑整个设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于神经网络的基因变异位点可致病性的预测方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图7中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的设备500的限定,具体的设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:接收用户输入的基因变异位点;获取所述基因变异位点的特征信息;将所述基因变异位点的特征信息、所述用户的身份信息输入到预置的RBF神经网络模型中,得到所述基因变异位点的预测致病值;根据所述预测致病值确定所述基因变异位点的等级以预测所述基因变异位点的可致病性。
本领域技术人员可以理解,图7中示出的设备500的实施例并不构成对设备500具体构成的限定,在其他实施例中,设备500可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,设备500可以仅包括存储器及处理器502,在这样的实施例中,存储器及处理器502的结构及功能与图7所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器502、数字信号处理器502(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器502可以是微处理器502或者该处理器502也可以是任何常规的处理器502等。
在本发明的另一实施例中提供计算机存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序5032,其中计算机程序5032被处理器502执行时实现以下步骤:接收用户输入的基因变异位点;获取所述基因变异位点的特征信息;将所述基因变异位点的特征信息、所述用户的身份信息输入到预置的RBF神经网络模型中,得到所述基因变异位点的预测致病值;根据所述预测致病值确定所述基因变异位点的等级以预测所述基因变异位点的可致病性。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备500(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于神经网络的基因变异位点可致病性的预测方法,包括以下步骤:
接收用户输入的基因变异位点;
获取所述基因变异位点的特征信息;
将所述基因变异位点的特征信息、所述用户的身份信息输入到预置的RBF神经网络模型中,得到所述基因变异位点的预测致病值;
根据所述预测致病值确定所述基因变异位点的等级以预测所述基因变异位点的可致病性。
2.根据权利要求1所述的基于神经网络的基因变异位点可致病性的预测方法,其特征在于:所述接收用户输入的基因变异位点之前,还包括:
根据预设的样本集对所述RBF神经网络模型进行训练,得到训练后的RBF神经网络模型。
3.根据权利要求2所述的基于神经网络的基因变异位点可致病性的预测方法,其特征在于:所述根据预设的样本集对所述RBF神经网络模型进行训练,得到训练后的RBF神经网络模型,包括:
对预设的基因组变异数据库中基因变异位点的每个样本进行标注,得到标注后的样本;
获取每个所述标注后的样本的基因变异位点的特征信息以及每个所述标注后的样本中用户的身份信息;
将所述标注后的样本的基因变异位点的特征信息、所述标注后的样本中用户的身份信息输入至所述RBF神经网络模型进中进行训练,得到训练后的RBF神经网络模型。
4.根据权利要求3所述的基于神经网络的基因变异位点可致病性的预测方法,其特征在于:所述对预设的基因组变异数据库中基因变异位点的每个样本进行标注,得到标注后的样本,包括:
从所述基因组变异数据库中提取每个所述样本的报告数据;
基于所述报告数据对每个所述样本进行标注,得到所述标注后的样本。
5.根据权利要求1所述的基于神经网络的基因变异位点可致病性的预测方法,其特征在于:所述将所述基因变异位点的特征信息、所述用户的身份信息输入到预置的RBF神经网络模型中,得到所述基因变异位点的预测致病值,包括:
将所述基因变异位点的特征信息、所述用户的身份信息输入至所述RBF神经网络模型的输入层中,得到特征向量;
将所述特征向量输入至所述RBF神经网络模型的隐含层中进行非非线性运算,得到输出向量;
将所述输出向量输入至所述RBF神经网络模型的输出层中进行线性变换,得到所述预测致病值。
6.根据权利要求1所述的基于神经网络的基因变异位点可致病性的预测方法,其特征在于:所述接收用户输入的基因变异位点之前,还包括:
获取所述用户的身份信息并根据所述身份信息获取与所述身份信息相匹配的可致病性表。
7.根据权利要求6所述的基于神经网络的基因变异位点可致病性的预测方法,其特征在于:所述根据所述预测致病值确定所述基因变异位点的等级,包括:
根据所述预测致病值从所述致病等级表中确定所述基因变异位点的等级。
8.一种基于神经网络的基因变异位点可致病性的预测系统,其特征在于,包括:
接收模块,用于接收用户输入的基因变异位点;
第一获取模块,用于获取所述基因变异位点的特征信息;
第一输入模块,用于将所述基因变异位点的特征信息、所述用户的身份信息输入到预置的RBF神经网络模型中,得到所述基因变异位点的预测致病值;
预测模块,用于根据所述预测致病值确定所述基因变异位点的等级以预测所述基因变异位点的可致病性。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于神经网络的基因变异位点可致病性的预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于神经网络的基因变异位点可致病性的预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111021209.2A CN113808662A (zh) | 2021-09-01 | 2021-09-01 | 基于神经网络的基因变异位点可致病性的预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111021209.2A CN113808662A (zh) | 2021-09-01 | 2021-09-01 | 基于神经网络的基因变异位点可致病性的预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113808662A true CN113808662A (zh) | 2021-12-17 |
Family
ID=78894589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111021209.2A Pending CN113808662A (zh) | 2021-09-01 | 2021-09-01 | 基于神经网络的基因变异位点可致病性的预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113808662A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160314245A1 (en) * | 2014-06-17 | 2016-10-27 | Genepeeks, Inc. | Device, system and method for assessing risk of variant-specific gene dysfunction |
CN110379458A (zh) * | 2019-07-15 | 2019-10-25 | 中国人民解放军陆军军医大学第一附属医院 | 致病性变异位点判定方法、装置、计算机设备及存储介质 |
CN111063392A (zh) * | 2019-12-17 | 2020-04-24 | 人和未来生物科技(长沙)有限公司 | 基于神经网络的基因突变致病性检测方法、系统及介质 |
CN111429968A (zh) * | 2020-03-11 | 2020-07-17 | 至本医疗科技(上海)有限公司 | 用于预测肿瘤类型的方法、电子设备和计算机存储介质 |
CN112795635A (zh) * | 2020-12-31 | 2021-05-14 | 南昌瑞因康生物科技有限公司 | 一种马凡综合征及相关基因的检测方法、装置和存储介质 |
KR102279056B1 (ko) * | 2021-01-19 | 2021-07-19 | 주식회사 쓰리빌리언 | 지식전이를 이용한 유전자변이의 병원성 예측 시스템 |
CN114300036A (zh) * | 2021-12-29 | 2022-04-08 | 深圳华大基因股份有限公司 | 遗传变异致病性预测方法、装置、存储介质及计算机设备 |
-
2021
- 2021-09-01 CN CN202111021209.2A patent/CN113808662A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160314245A1 (en) * | 2014-06-17 | 2016-10-27 | Genepeeks, Inc. | Device, system and method for assessing risk of variant-specific gene dysfunction |
CN110379458A (zh) * | 2019-07-15 | 2019-10-25 | 中国人民解放军陆军军医大学第一附属医院 | 致病性变异位点判定方法、装置、计算机设备及存储介质 |
CN111063392A (zh) * | 2019-12-17 | 2020-04-24 | 人和未来生物科技(长沙)有限公司 | 基于神经网络的基因突变致病性检测方法、系统及介质 |
CN111429968A (zh) * | 2020-03-11 | 2020-07-17 | 至本医疗科技(上海)有限公司 | 用于预测肿瘤类型的方法、电子设备和计算机存储介质 |
CN112795635A (zh) * | 2020-12-31 | 2021-05-14 | 南昌瑞因康生物科技有限公司 | 一种马凡综合征及相关基因的检测方法、装置和存储介质 |
KR102279056B1 (ko) * | 2021-01-19 | 2021-07-19 | 주식회사 쓰리빌리언 | 지식전이를 이용한 유전자변이의 병원성 예측 시스템 |
CN114300036A (zh) * | 2021-12-29 | 2022-04-08 | 深圳华大基因股份有限公司 | 遗传变异致病性预测方法、装置、存储介质及计算机设备 |
Non-Patent Citations (4)
Title |
---|
JIMIN PEI等: "Mutation severity spectrumof rare alleles in the human genome is predictive of disease type", PLOS COMPUTATIONAL BIOLOGY, 15 May 2020 (2020-05-15), pages 1 - 31 * |
刘兆惠等: "高等级公路交通安全评价及事故预测", vol. 1, 31 July 2015, 电子科技大学出版社, pages: 121 * |
张文茜等: "基于BP神经网络和RBF神经网络预测老年痴呆症疾病进展的对比研究", 现代生物医学进展, vol. 17, no. 04, 28 February 2017 (2017-02-28) * |
王秋菊等: "遗传变异分类标准与指南", 中国科学:生命科学, no. 06, 20 June 2017 (2017-06-20), pages 76 - 96 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Azaiez et al. | Genomic landscape and mutational signatures of deafness-associated genes | |
US10733509B2 (en) | Predictive assignments that relate to genetic information and leverage machine learning models | |
WO2020181805A1 (zh) | 糖尿病的预测方法及装置、存储介质、计算机设备 | |
US20120310539A1 (en) | Predicting gene variant pathogenicity | |
WO2016201500A1 (en) | Method and system for monitoring stress conditions | |
US11699069B2 (en) | Predictive assignments that relate to genetic information and leverage machine learning models | |
Varewyck et al. | On shrinkage and model extrapolation in the evaluation of clinical center performance | |
AU2020409017B2 (en) | Linking individual datasets to a database | |
CN111063392B (zh) | 基于神经网络的基因突变致病性检测方法、系统及介质 | |
Kolukisa et al. | Ensemble feature selection and classification methods for machine learning-based coronary artery disease diagnosis | |
CN113272912A (zh) | 使用似然比范式的用于表型驱动临床基因组的方法和装置 | |
JP4318221B2 (ja) | 医療情報分析装置、方法及びプログラム | |
US20200058408A1 (en) | Systems, methods, and apparatus for linking family electronic medical records and prediction of medical conditions and health management | |
AU2020326389B2 (en) | Clustering of matched segments to determine linkage of dataset in a database | |
Alyousfi et al. | Gene-specific metrics to facilitate identification of disease genes for molecular diagnosis in patient genomes: a systematic review | |
CN113808662A (zh) | 基于神经网络的基因变异位点可致病性的预测方法及系统 | |
CN113270144B (zh) | 一种基于表型的基因优先级排序方法和电子设备 | |
Curbelo Montañez et al. | Evaluation of phenotype classification methods for obesity using direct to consumer genetic data | |
EP4141749A1 (en) | Adjustment program, adjustment method, and information processing device | |
US10438687B1 (en) | Dynamic evaluation of polygenic models based on genetic loci for which input is received | |
JP2022551325A (ja) | 診断ツール | |
Imperiale et al. | Risk stratification strategies for colorectal cancer screening: from logistic regression to artificial intelligence | |
JP5852902B2 (ja) | 遺伝子間相互作用解析システム、その方法及びプログラム | |
US11847127B2 (en) | Device and method for discovering causal patterns | |
Yen et al. | Colorectal Cancer Knowledge, Risk Perception, and Screening Inclination Among Previously Unscreened Adults: 293 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |