CN114841280A - 一种复杂疾病的预测分类方法、系统、介质、设备及终端 - Google Patents
一种复杂疾病的预测分类方法、系统、介质、设备及终端 Download PDFInfo
- Publication number
- CN114841280A CN114841280A CN202210550980.7A CN202210550980A CN114841280A CN 114841280 A CN114841280 A CN 114841280A CN 202210550980 A CN202210550980 A CN 202210550980A CN 114841280 A CN114841280 A CN 114841280A
- Authority
- CN
- China
- Prior art keywords
- model
- feature
- information
- layer
- disease
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 116
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000000306 recurrent effect Effects 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 15
- 238000012512 characterization method Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000000546 chi-square test Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 230000001965 increasing effect Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 230000010365 information processing Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000003860 storage Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 14
- 238000004458 analytical method Methods 0.000 abstract description 8
- 238000007619 statistical method Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 14
- 238000013135 deep learning Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 12
- 239000000523 sample Substances 0.000 description 12
- 230000008901 benefit Effects 0.000 description 11
- 230000002068 genetic effect Effects 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 7
- 208000026350 Inborn Genetic disease Diseases 0.000 description 6
- 238000013136 deep learning model Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 208000016361 genetic disease Diseases 0.000 description 6
- 230000036541 health Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 206010020772 Hypertension Diseases 0.000 description 5
- 208000010125 myocardial infarction Diseases 0.000 description 5
- 239000002773 nucleotide Substances 0.000 description 5
- 125000003729 nucleotide group Chemical group 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 239000013610 patient sample Substances 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 208000032928 Dyslipidaemia Diseases 0.000 description 2
- 208000017170 Lipid metabolism disease Diseases 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000035622 drinking Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- 208000019622 heart disease Diseases 0.000 description 2
- 230000001717 pathogenic effect Effects 0.000 description 2
- 102000054765 polymorphisms of proteins Human genes 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000000391 smoking effect Effects 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000014616 translation Effects 0.000 description 2
- 208000007848 Alcoholism Diseases 0.000 description 1
- 201000010374 Down Syndrome Diseases 0.000 description 1
- 208000004930 Fatty Liver Diseases 0.000 description 1
- 241000288105 Grus Species 0.000 description 1
- 206010019708 Hepatic steatosis Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 108700005078 Synthetic Genes Proteins 0.000 description 1
- 206010000891 acute myocardial infarction Diseases 0.000 description 1
- 201000007930 alcohol dependence Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 208000022602 disease susceptibility Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 208000010706 fatty liver disease Diseases 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005714 functional activity Effects 0.000 description 1
- 238000003205 genotyping method Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000035778 pathophysiological process Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 231100000240 steatosis hepatitis Toxicity 0.000 description 1
- 230000004960 subcellular localization Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Probability & Statistics with Applications (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Image Analysis (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明属于基因分析技术领域,公开了一种复杂疾病的预测分类方法、系统、介质、设备及终端,引入CNN的空间特征提取和特征增强模块;应用循环神经网络,从训练的模型中提取上下文信息;利用CNN模型和LSTM变体BiGRU模型预测复杂疾病。本发明提出了一种更有效的深度模型能在高维小样本的条件下来对复杂疾病样本进行分类。本发明提出基于BiGRU模型融入多表征特征增强的统计先验,使得模型更有效的应用在复杂疾病任务,先将SNP数据编码为数字形式,再使用所提出的基于多表征特征增强的BiGRU模型进行分类,该模型结合传统的统计方法的先验信息和神经网络的强表达,分类准确率达到81.52%,具有更好分类效果。
Description
技术领域
本发明属于基因关联分析技术领域,尤其涉及一种复杂疾病的预测分类方法、系统、介质、设备及终端。
背景技术
目前,基因中的单核苷酸多态性(Single Nucleotide Polymorphism,SNP)位点的识别与筛选已成为复杂疾病与基因关联分析研究中日益重要的课题。许多机器学习算法被用于解决该问题,但样本数量明显小于SNP的数量,且在复杂疾病分类领域,维度爆炸是巨大的挑战。一些传统的统计方法或者深度学习算法也被用于该问题解决,但是各自存在不足。
发掘SNP与疾病的关联有助于发现疾病的机制、诊断标志物和治疗靶点,这将进一步有利于新的治疗策略和药物的出现。相比遗传疾病来说,复杂疾病(比如心肌梗死)是多种病理生理过程的最终表现,涉及遗传风险因素、中间状态(如高血压、糖尿病和血脂异常)和生活方式因素(如吸烟和饮酒习惯)。最近,全基因组关联研究(GWASs)在描述复杂疾病(比如心肌梗死)易感基因/单核苷酸多态性(Single Nucleotide Polymorphisms,SNPs)方面做出了巨大的努力。然而,这些发现的重复性是有限的,因为单个SNP的效果可能取决于基因-基因相互作用或基因-环境相互作用。由于基因、环境因素和疾病之间存在复杂的非线性关联,理解常见疾病的遗传结构仍然是一个巨大的挑战。
许多机器学习算法用于识别重要的SNP并基于此做疾病分类,由此开发了许多模型来根据SNP数据对健康和患者样本进行分类。W Zhang等人使用Relief算法剔除无关SNPs,然后使用基于支持向量机的特征递归消减方法(Support Vector Machine basedRecursive Feature Extinction Method,SVM-RFE)筛选出与遗传疾病相关的关键SNPs,并进行健康和患病的分类。Anupama使用条件互信息来计算每个特征的相关性,并使用SVM-RFE对CMIM生成的SNP进行排序,并选择排名最高的SNP对健康和患病进行分类。N.Batnyam等人利用流行的特征选择算法来选择重要的SNP,包括Relief-F、基于距离判别的特征选择、基于R值的特征选择和基于特征清晰度的算法。然后,作者使用传统的分类器,如K-最近邻、人工基因制作和SVM对SNP数据进行分类,此外,利用特征融合方法通过组合特征来生成新特征,以提高分类精度。A.Butorh等人提出了一种基于混合关联规则挖掘和人工神经网络的新方法:他们应用关联规则挖掘来选择信息特征,并使用语法进化来优化关联规则挖掘;同时,利用人工神经网络对SNP数据进行分类,并利用遗传算法设置人工神经网络参数。另外,Uppu等人应用深度前馈神经网络基于模拟数据集中存在的SNP对健康和患者样本进行分类,但使用特征选择算法。Feng等人构建了两个分支的卷积神经网络(ConvolutionalNeural Network,CNN)模型的双流卷积神经网络架构用于对人类唐氏综合征预测模型。
同时,需要一个强大的模型来对疾病进行分类,然而,对于传统的机器学习算法来说,过于依赖所选特征。本发明专注于深度学习,这是表示学习过程的一个特定子领域,可以检测多个表示级别。深度学习研究始于2006年Geoff Hinton的小组,通过组合多个非线性映射来构建的,以获得更抽象的数据表示。在其他一些研究中,CNN已被用于类似的任务并取得了良好的效果。例如,Alipanahi和Zeng等人应用CNN来发现基因序列上的特定蛋白质结合位点;Jian Zhou等人使用三层CNN模型来预测突变后非编码元素的功能结果;DavidR Kelley等人通过应用类似的结构研究了DNA序列的功能活性。另一方面,基因组学数据通常是序列数据,循环模型已应用于许多场景。例如,Renzhi Cao等人建立了基于LSTM的神经机器翻译,通过将蛋白质序列理解为基因本体术语来实现将蛋白质功能预测转化为语言翻译的任务;Chin-Sheng Yu设计了一个卷积LSTM网络,通过序列等预测蛋白质的亚细胞定位;Akosua Busia提出的seq-to-seq RNN可以将可变长度的输入序列映射到另一个序列或固定大小的预测结果,这对一些基因组学研究也有很好的前景。
通过上述分析,现有技术存在的问题及缺陷为:现有的机器学习方法虽然在遗传疾病分类任务上获得相关成果,主要是因为遗传疾病的特点在于遗传因素,但复杂疾病的分类往往受到遗传因素和环境因素的共同影响,所涉及特征选择和分类的高效算法的改进既困难又复杂。一般来说,特征在机器学习中占据重要作用,但特征数量的增加,不一定能给模型带来性能上的提升,这种现象被称为Hughes效应。这通常是由于特征数量的增加会显著增大模型训练所需的样本规模,而充足的样本量往往很难获取;此时,其中的无关冗余特征反而会带来过拟合等风险。为了避免过多的特征带来的问题,需要进行特征选择,即对数据的特征进行筛选,选出重要特征、消除无用和冗余特征等。此外,样本(健康或患者)的数量明显小于SNP的数量,这意味着SNP数据是稀疏的、不均衡的。所以,现有机器学习方法不适用于复杂疾病的预测,需要新的建模工具来精确评估疾病易感基因/单核苷酸多态性与疾病的关系。
在本发明中,考虑到实际的SNP和SNPs复杂的相互作用,因此我们结合特征增强,即特征增强可以认为是对疾病的先验易感性,在实现对无用特征的过滤的基础上保留了潜在的位点;而且对于具有遗传风险的复杂疾病,一些位点往往与疾病有很强的相关性相关表型,这些基因座也需要考虑,但在某些模型中没有考虑,因此将它们纳入本发明的模型。所以本发明提出了一种针对多种表型的特征增强技术;同时,将SNP的序列特征和空间特征作为输入,将BiGRU与CNN模块一起构建复杂疾病预测的深度模型。
发明内容
针对现有技术存在的问题,本发明提供了一种复杂疾病的预测分类方法、系统、介质、设备及终端,尤其涉及一种面向SNP数据的多表征特征增强的BiGRU(BidirectionalGated Recurrent Units)模型的复杂疾病的预测分类方法、系统、介质、设备及终端。
本发明是这样实现的,一种复杂疾病的预测分类方法,应用于数据信息处理终端,所述复杂疾病的预测分类方法包括:
将基于BiGRU模型融入多表征特征增强的统计先验,将SNP数据编码为数字形式,使用基于多表征特征增强的BiGRU模型进行复杂疾病信息的预测及分类。
进一步,所述复杂疾病的预测分类方法包括以下步骤:
步骤一,引入CNN的空间特征提取和特征增强模块;
步骤二,应用循环神经网络,从训练的模型中提取上下文信息;
步骤三,利用CNN模型和LSTM变体BiGRU模型预测复杂疾病。
进一步,所述基于多表征特征增强的BiGRU模型包括输入层、特征增强层、双向门控循环单元网络层、卷积层以及损失函数与正则化。
进一步,所述输入层中,位点上的碱基由A、G、C、T四个字母表示,利用one-hot编码将字母形式转化成数值形式;采用具有生物学意义的数值编码,利用突变基因的个数表征位点的信息,将原始数据转化成数值编码的形式。
所述特征增强层包括:
采用卡方检验计算每个位点与疾病之间的相关系数wk,计算公式如下所示:
其中,k代表第k个位点,i代表患病与否,j代表位点的类别,Aij代表对应的统计计数,Eij为依据原假设得到的期望计数。
将计算卡方检验的相关系数作为初始权重,对输入进行加权计算:
x′k=ReLU(xk⊙wk+bk);
其中,权重wk与相应输入特征xk相对应元素进行元素相乘,对输入特征进行放缩。使用ReLu激活函数对特征集合进行截断,偏置bk为特征选择的阈值;神经网络在优化wk和bk的同时,wk被初始化为传统特征选择的评价值。
在特征增强的神经网络模型中引入额外的多表征特征增强层,计算公式为:
其中,diseasek是位点和疾病的直接关联系数,phenotypek是位点和聚类后第k个表型的关联系数,wk是系数加权后的结果。
使用K-Means++算法作为表型聚类的算法。
在模型建立时,在增强特征层通过不同的候选核心表征的组合的预测模型的评估结果确定核心表征,从而确定增强特征层的结构。
进一步,所述双向门控循环单元网络层包括:
使用双向GRU提取中文问题的上下文信息,模型使用特征增强后的输入向量作为Bi-GRU层的输入;Bi-GRU层有两部分,同时从正向和反向读取向量。GRU计算通过的向量,并输出一个固定维度的向量;GRU涉及四部分计算:
(1)复位门:GRU使用reset gate选择在前一时刻放弃的信息:
Rt=σ(WrSt+UrHt-1+Br);
其中,Wr和Ur是权重信息,Ht-1是前一时刻的输入,Br是偏差。
(2)更新门:GRU通过更新门选择并更新当前时刻的信息,计算公式为:
Zt=σ(WzSt+UzHt-1+Bz);
其中,Wz和Uz是权重信息,Ht-1是前一时刻的输入,Bz是偏差。
(3)GRU计算候选记忆内容,计算公式如下所示:
其中,W和U是权重信息,B是偏差。
(4)GRU计算上述结果的输出结果,计算公式如下所示:
Bi-GRU层学习每个位点的上下文信息以及语义特征。
进一步,使用卷积核提取位点序列中更深层次的关键特征,使用卷积核中提取更深层的信息,并使用最大池来提取关键特征。卷积层的计算步骤如下:
将特征增强层计算出来的中间语义信息作为卷积层的输入,如下式所示:
其中,Cij表示问题中第i个位点到第j个位点的拼接。
经过卷积层,计算公式如下所示:
Ti=f(W×Ci+m-1+b);
其中,f是双曲正切函数,W是权重信息,m是卷积核的宽度,b是偏差。
模型拼接卷积结果,通过最大化池提取关键特征;池化结果被拼接在一起,作为整个卷积层的输出。计算公式如下所示:
Tp=[T1,T2,…,Tn-1,Tn];
其中,n是卷积结果的数量,p是卷积核的数量。
所述损失函数与正则化包括:
损失函数的本质是描述预测值与标签值之间的距离和差异性大小的函数。采用交叉熵损失函数和L2正则化构造损失函数,如下式所示:
L2正则化中,对权重进行L2范数约束;增加dropout通过在每轮迭代训练中随机丢弃一定比例神经元之间的连接训练不同的网络。
本发明的另一目的在于提供一种应用所述的复杂疾病的预测分类方法的复杂疾病的预测分类系统,所述复杂疾病的预测分类系统包括:
特征引入模块,用于引入CNN的空间特征提取和特征增强模块;
信息提取模块,用于应用循环神经网络,从训练的模型中提取上下文信息;
疾病预测模块,用于利用基于多表征特征增强的BiGRU模型预测复杂疾病。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
提出基于BiGRU模型融入多表征特征增强的统计先验,将SNP数据编码为数字形式,使用基于多表征特征增强的BiGRU模型进行复杂疾病的预测分类。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
提出基于BiGRU模型融入多表征特征增强的统计先验,将SNP数据编码为数字形式,使用基于多表征特征增强的BiGRU模型进行复杂疾病的预测分类。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的复杂疾病的预测分类系统。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
本发明提出了一种更有效的深度模型能在高维小样本的条件下对复杂疾病样本进行分类。本发明提出基于BiGRU模型融入多表征特征增强的统计先验,使得模型更有效的应用在复杂疾病任务,首先将SNP数据编码为数字形式,接着使用所提出的基于多表征特征增强的BiGRU模型进行分类,该模型结合了传统的统计方法的先验信息和神经网络的强表达,具有更好分类效果。
本发明提出了一个CNN模型和LSTM变体BiGRU模型来预测复杂疾病,该模型不仅包含CNN的空间特征提取,而且本发明还应用了循环神经网络,从训练的模型中提取上下文信息;同时,加入了特征增强模块,使得深度学习在高维小样本上能够充分发挥其优势。与传统统计方法以及其他深度学习模型的比较结果表明,本发明提出的模型具有更准确与强大的分类复杂疾病能力。
人类基因组测序在医学上取得了巨大成功,并说明了基因型在复杂疾病中的重要性和有效性。本发明建立一个深度学习框架,有可能分析SNP数据。本发明提出了一种新的方法,用于将传统的方法来增强深度学习的学习过程。根据本发明提出的方法,由于在编码过程中考虑了将名义数据转换为数值数据,并在接下来的训练中保留了语义编码的原始特征用于BiGRU学习到更丰富的上下文信息。接下来,考虑到疾病与表型的关系,将与疾病关联的表型加入其中,使得BiGRU在学习的同时可以更加关注这些在先验上比较突出的位点。总之,将本发明所提出的方法应用于SNP数据集,其中使用准确性和F-measure来评估该方法的性能。结果表明,本发明所提出的方法已成功识别出复杂疾病中的重要SNP;EF-BiGRU能够根据重要的SNP对健康和患者样本进行高精度分类。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
为了评估,本发明将提出的方法应用于SNP数据集,它可以对健康和患者样本进行分类,分类准确率达到81.52%,明显优于已发表的其他算法,在复杂疾病分类上具有了一定优势。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
(1)本发明的技术方案转化后的预期收益和商业价值为:
本发明对复杂疾病分类的评估指标明显优于当前的一些方法,所以,可以为医护人员、患者及研究人员提供一个复杂疾病分类的指导,利于对疾病的预防与诊断。
(2)本发明的技术方案填补了国内外业内技术空白:
人类基因组测序在医学上取得了巨大的成功,并说明了基因型在复杂疾病中的重要性和有效性。
本发明提出了一种用传统方法增强深度学习学习过程的新方法。根据我们提出的方法,由于在编码过程和下一次训练中考虑将字母数据转换为数字数据,因此保留了语义编码的原始特征,以便BiGRU学习更丰富的上下文信息。接下来,考虑疾病和表征之间的关系,添加与疾病相关的表征,提出疾病的多表征增强模块,并给出了具体构建方法,由此构建SNP数据的空间特征;最后,将SNP的序列特征和空间特征作为输入,利用BiGRU与CNN进行分类。
(3)本发明的技术方案是否解决了人们一直渴望解决、但始终未能获得成功的技术难题:
SNP数据高维、不均衡、样本量少,为提高分析的准确性,人们一直在思考如何将基因的序列数据结合疾病的表型数据对SNP数据进行分析。基因的序列以及疾病表型数据表示不同,如何统一并有效表示是一个关键问题。本发明提出了多表征增强的SNP数据表示方法,可以对复杂疾病的表型数据进行表示与处理,构建SNP数据的疾病空间特征,并将SNP序列特征与空间特征融合在一起。此外,利用了BiGRU与CNN对疾病进行了分类。实验结果表明本发明所提出方法的准确率等评估指标明显优于其他方法,说明了本方法的可行性与有效性。
(4)本发明的技术方案是否克服了技术偏见:
本发明充分利用了数据表示技术,通过统一编码,保持了数据多语义特点;又通过加入疾病的表型数据,增强了SNP数据特征,以克服SNP数据多采用序列分析的不足。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的复杂疾病的预测分类方法流程图;
图2是本发明实施例提供的复杂疾病的预测分类系统结构框图;
图3是本发明实施例提供的多表征特征增强的BiGRU模型的复杂疾病分类示意图;
图中:1、特征引入模块;2、信息提取模块;3、疾病预测模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种复杂疾病的预测分类方法、系统、介质、设备及终端,下面结合附图对本发明作详细的描述。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
如图1所示,本发明实施例提供的复杂疾病的预测分类方法包括以下步骤:
S101,引入CNN的空间特征提取和特征增强模块;
S102,应用循环神经网络,从训练的模型中提取上下文信息;
S103,利用CNN模型和LSTM变体BiGRU模型预测复杂疾病。
如图2所示,本发明实施例提供的复杂疾病的预测分类系统包括:
特征引入模块1,用于引入CNN的空间特征提取和特征增强模块;
信息提取模块2,用于应用循环神经网络,从训练的模型中提取上下文信息;
疾病预测模块3,用于利用基于多表征特征增强的BiGRU模型预测疾病。作为优选实施例,本发明实施例提供的复杂疾病的预测分类方法具体包括:
1.基于多表征特征增强的网络模型
在本发明中,对于实际位点之间的复杂关联,导致一些在相关系数上不是很突出的点,却是因果的位点。所以删除过多或者随意的位点并不会对分类有很好的结果,因此本发明尝试采用特征增强的技术,该技术主要借鉴情感分析中利用表情符号、评价词特征对正负情感进行分类,而特征加强可以视为对疾病的先验易感程度,保留潜在位点的基础上能达到过滤无用特征,另外对于复杂疾病的遗传风险,一些位点往往和疾病的相关的表型具有很强的关联,从而间接影响着疾病,这些位点也是需要考虑的,但是在一些模型中并没有考虑这些,因此本发明将其融入本发明的模型,使其充分考虑这个因素。另外,本发明需要一个强有力的模型对疾病进行分类,然而,对于传统的机器学习算法,太过于依赖所选择的特征。本发明专注于深度学习,深度学习算法是表示学习过程的一个特定子领域,它检测多个表示级别。本发明提出的模型如图3所示。
1.1输入层
位点上的碱基由A、G、C、T四个字母表示,为了便于后续的分析,需要把字母形式转化成数值形式。常见的数值转化方法有很多,例如机器学习常用的one-hot编码等等。
one-hot编码又称为独热编码、一位有效编码,主要思想是采用m位状态寄存器来对m个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效。以rs3094315位点为例,设置3位状态的寄存器分别对应TT、TC、CC三种特征,当位点上的基因型为TT时,对应的one-hot编码为100,基因型为TC时,对应的one-hot编码为010,基因型为CC时,对应的one-hot编码为001。
基因型的生物学背景来看,SNP是由单个碱基变异引起的,同一位点上的基因型共有野生纯合型(没有突变碱基)、杂合型(有一个碱基发生突变)和突变纯合型(两个碱基都是突变型碱基)三种,以rs3094315位点为例,共有664个样本为野生纯合型TT,293个样本是杂合型TC,只有43个样本是突变纯合型CC。可以考虑用突变基因的个数来表征位点的信息,进而将原始数据转化成数值编码的形式,这样做有如下优势和合理性:
(1)将数据转化成0-1-2这种简单的数据形式,为后续的分析提供了极大的便利。
(2)突变基因的个数和基因型是一一对应的关系,可以等价地反映原始数据的信息,从而弥补了人为设置变量造成的信息损失。
(3)从生物学角度来看,采用用突变基因的个数来代替原有的编码形式,具有生物学背景上的理论基础和实际意义。
(4)从统计学角度来看,将位点碱基对编码转化为突变基因的个数,不改变特征之间距离及相似度的计算。
本发明采用的是具有生物学意义的数值编码,从表1能看到部分编码信息。
表1输入数据转换为数值编码方法示例
1.2特征增强层
特征在机器学习中占据重要作用,但特征数量的增加,往往不一定能给模型带来性能上的提升。通常是由于特征数量的增加会显著增大训练所需的样本规模,而充足的样本量往往很难获取。此时,其中的无关冗余特征反而会带来过拟合等风险。有学者实验比较神经网络特征选择与传统特征选择方法的能力,传统的特征选择方法,例如卡方检验、皮尔逊相关系数优于神经网络模型对特征重要性的判断。原因是当特征数量较多时,神经网络需要优化的参数量过多,其对特征分析和选择效果受限于样本量等因素。是否可以将传统特征选择方法对特征的评价结合入神经网络的训练过程中,来辅助神经网络进行特征选择,使其更快、更好地关注富有信息量的特征,避免被无关冗余特征所影响呢?为此,本发明提出了特征增强层。
本发明采用卡方检验来计算每个位点与疾病之间的相关系数wk,计算如公式(1)所示:
其中,k代表第k个位点,i代表患病与否,j代表位点的类别,Aij代表对应的统计计数,Eij为依据原假设得到的期望计数。
然后本发明将计算卡方检验的相关系数作为初始权重,对输入进行加权计算如公式(2)所示:
x′k=ReLU(xk⊙wk+bk) (2)
其中,权重wk与相应输入特征xk相对应元素进行元素相乘,起到对输入特征的放缩效果。使用ReLu激活函数,对特征集合进行截断,偏置bk为特征选择的阈值。神经网络在优化wk和bk的同时,起到了对输入特征自适应选择的效果。wk被初始化为传统特征选择的评价值。
特征选择层基于传统特征选择方法对特征项的评价值,对输入特征进行放缩,从而增强或者减弱某些特征对网络训练的影响,这使得网络在学习过程中更关注于有用信息。该方法等效于给神经网络添加关于特征的先验知识。
另一个问题在于,本发明研究的是复杂疾病的分类问题,对于复杂疾病来说,往往受到遗传因素和环境因素的共同影响。比如心肌梗死,涉及遗传风险因素、中间状态(如高血压、糖尿病和血脂异常)和生活方式因素(如吸烟和饮酒习惯)。因此单单在模型中考虑基因的因素是忽视了其他因素,而由于基因、环境因素和疾病之间存在复杂的非线性关联,理解常见疾病的遗传结构仍然是一个巨大的挑战。
上面提及了给神经网络添加特征先验信息可以使得模型在学习过程中去屏蔽一些无关、带有噪音的特征。而人体的许多遗传疾病和性状是有关联的,如高血压、心脏病、脂肪肝和酒精依赖等。科研人员往往把相关的性状或疾病放在一起研究,这样能提高发现致病位点或基因的能力。而本发明在根据这一特性,将多表征的先验信息引入到神经网络之中,使得模型不单单的考虑一种维度上的先验信息。比如急性心肌梗塞的发病机制可能和高血压、心脏病等多种疾病关联。那么在遗传上对高血压有致病性的位点就有可能会促进心梗的发生的可能。这些风险因素虽然不是直接作用于心肌梗塞,但是在医学上不可忽视任何可能对疾病产生影响的因素。
因此,本发明将这种思想引入本发明的模型,使得本发明的模型能够在不经关注对疾病有直接作用的位点,还能关注对疾病有间接作用的位点。因此本发明在特征增强的神经网络模型中引入额外的多表征特征增强层,计算如公式(3)所示:
其中,diseasek是位点和疾病的直接关联系数,phenotypek是位点和聚类后第k个表型的关联系数,wk是这些系数加权之后的结果。
由于表征之间存在关联性,表征之间的关联性不仅不能提高本发明的模型的效率,反而会降低。因此本发明这里使用K-Means++算法作为表型聚类的算法。
在模型建立时,在增强特征层通过不同的候选核心表征的组合的预测模型的评估结果确定核心表征,从而确定增强特征层的结构。
1.3双向门控循环单元网络层
在这一层中,本发明使用双向GRU来提取中文问题的上下文信息。如图3所示,本发明的模型使用特征增强之后的输入向量作为Bi-GRU层的输入。Bi-GRU层有两部分,同时从正向和反向读取向量。然后GRU计算通过的向量,并输出一个固定维度的向量。
在特征增强层(Feature augmentation Layer),diseasep是位点和疾病的直接关联系数,phenotype1p,…,phenotypekp是位点和使用K-Means++算法作为表型聚类后确定的k个表型的关联系数。
GRU涉及四部分计算:
首先是复位门,GRU使用reset gate来选择在前一时刻放弃哪些信息,计算如公式(4)所示:
Rt=σ(WrSt+UrHt-1+Br) (4)
其中,Wr和Ur是权重信息,Ht-1是前一时刻的输入,Br是偏差。
接下来是更新门,GRU通过更新门选择并更新当前时刻的哪些信息,计算如公式(5)所示:
Zt=σ(WzSt+UzHt-1+Bz) (5)
其中,Wz和Uz是权重信息,Ht-1是前一时刻的输入,Bz是偏差。
然后GRU计算候选记忆内容,这是计算当前时刻输出的一个重要步骤,计算如公式(6)所示:
其中,W和U是权重信息,B是偏差。
最后,GRU计算上述结果的输出结果,计算如公式(7)所示:
Bi-GRU层可以学习每个位点的上下文信息,以及语义特征。
1.4卷积层
在卷积层,本发明使用卷积核来提取位点序列中更深层次的关键特征,即使用卷积核中提取更深层的信息,并使用最大池来提取关键特征。卷积层的计算步骤如下。
将特征增强层计算出来的中间语义信息作为卷积层的输入,如公式(8)所示:
其中,Cij表示问题中第i个位点到第j个位点的拼接。
然后经过卷积层,计算如公式(9)所示:
Ti=f(W×Ci+m-1+b) (9)
其中,f是双曲正切函数,W是权重信息,m是卷积核的宽度,b是偏差。
接着,该模型拼接卷积结果,通过最大化池提取关键特征。最后,池化结果被拼接在一起,作为整个卷积层的输出。计算如公式(10)所示:
Tp=[T1,T2,…,Tn-1,Tn] (10)
其中,n是卷积结果的数量,p是卷积核的数量。
1.5损失函数与正则化
损失函数的本质是描述预测值与标签值之间的距离和差异性大小的函数。采用交叉熵损失函数和L2正则化来构造本发明的损失函数,如公式(12)所示:
L2正则化中,对权重进行了L2范数约束,抑制权重增长来降低网络的复杂性,以缓解过拟合问题。另外本发明的还增加了dropout通过在每轮迭代训练中随机丢弃一定比例神经元之间的连接来训练不同的网络,以此方法来缓解过拟合的目的,这在高维小样本的情况下是非常有必要的。
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用的应用实施例。
本方法中模型训练、测试以及实验都是基于以下环境:
(1)操作系统:Linux
(2)主机:Intel(R)Xeon(R)Gold 5218CPU Memory:16GB
(3)显卡:Tesla P100
(4)开发语言:Python
(5)深度学习框架:PyTorch
配置与环境相当就可以。
三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述,并进行实验分析。
1、数据集和评价指标
本发明数据选自NPMCM-b数据集。该数据集是典型的高维小样本数据,总共有1000个带有标签的样本数据,前500是标签为1的患病样本,后500个是标签为0的健康样本。样本原始数据包含了由A、G、C、T四个字母构成的9445个位点上的碱基对信息:每个位点上的碱基对都由两种碱基组合而成,如位点rs3094315上共有TT、TC、CC三种形式的碱基对。数据集的整体信息如表2所示。
表2 SNP数据集的信息
本发明使用精度,召回率和F1得分作为性能评估指标,公式如下:
其中,TP表示正确预测的样本数,FP表示其他分类被错误预测为该分类的样本数,TN是错误预测为其他分类的样本数。
2、实验环境和过程
实验环境如二所述。
实验过程如下:
1)预处理阶段,本发明首先将对数据进行预处理,将一些位点值都是相同值的位点进行清除,这些点不能对分类带来好处。
2)编码阶段,将基因的脱糖核苷酸类型编码为数值类型的。
3)构建深度学习模型,表3显示了每一层的详细深度神经网络结构和配置。
表3模型网络结构及参数
4)训练深度学习模型,构建工作完成后,本发明就可以开始训练神经网络。
5)优化模型在训练过程中,修改超参数以优化最终模型的性能。
6)模型评估阶段。当模型训练完成后,本发明使用训练好的模型来预测测试集。本发明使用精度、召回率和F1分数来评估预测结果。
3、实验结果
3.1学习模型对比实验结果
本发明进一步应用了三种不同的传统监督学习方法,使用了具有总共9445个SNP特征的基因分型阵列构建遗传病预测模型,本发明还进行了5次并行实验,并进一步将性能与本发明的EF-BiGRU模型进行了比较,如表4所示。
表4 EF-BiGRU与其他模型对比实验结果
在对比的机器学习算法中,Random-Forest-Relief、SVM-Relief是最具代表的模型。其中Wu等人提出基于Relief的SVM算法在所有的评估指标中都取得了最佳性能。尽管如此,传统的机器学习算法在性能指标上仍低于深度学习,SVM-Relief在平均准确率的指标上低于Bing Feng提出的单流CNN模型将近7.18%,达到了72.29%的准确率。虽然单流CNN利用深度学习算法在表达能力更强的优势在各项的指标达到了比机器学习更好的结果,但是容易出现的过拟合现象导致模型无法充分发挥优势,而本发明提出的特征增强的BiGRU在各项指标都要优于单流CNN的算法。在平均准确率上高于单流CNN模型9.23%,达到了81.52%的平均准确率。另外在精确率、召回率以及F1值上分别高出了7.24%、9.63%和12.2%。
3.2特征增强实验结果
本发明使用了与上述EF-BiGRU相同配置和数据集比较了三个主要深度学习模型与其融合了增强层的效果进行了5折交叉验证。他们之间的唯一差别在于在输入层之后是否加入了特征增强层,并且以位点的突变程度序列作为输入。本发明进一步比较和评估了加入前后的性能,如表5所示。
表5 5折交叉验证的不同模型预测结果
加入特征增强层相比未经过处理的模型准确率平均要高上5%左右。对于最简单的cnn模型,在加入了特征增强层也有了很大的提升,另外还比较了BilSTM和单流CNN模型,实验表明,尤其对于EF-BiGRU模型的提升是最显著的。总的来说,加入了特征增强模块对模型有很大的提升,关键在于特征增强所提供的先验信息使的模型对于一些干扰信息可以屏蔽,有效的在高维小样本上提高训练效果。
3.2多表征融合增强实验结果
本发明在上面的实验结果的基础上,将特征增强的方法扩展至多表征融合增强,除了和患病表征直接关联的位点之外,一些和表征关联的位点本发明也试图加入模型中。本发明通过实验多折交叉验证分析,在加入了多表征的融合增强之后,如表6所示。
表6 5折多表征融合增强实验结果
本发明的模型在性能上都有提升,基本提升在0.8左右的百分比。可以看到加入了多表征的模型在性能上是有一定的提升的。但是同样可以观测到当表型的数目增加所有的时候(表中+all),性能并没有了提升,本发明通过实验发现,表型之间存在一些依赖现象,这会导致发生冗余信息,因此为了避免这种情况的发生,本发明会对多表征进行k-means++算法获得k个聚类中心,并对同一类簇中和中心距离最近表征作为核心表征。选取核心表征作为本发明需要的表征,实验结果显示,加入核心表征phenotype1(表中+p1(pheno1))和phenotype2(表中+p2)的指标要比加入所有表征(表中+all)要略高。
综上所述,实验结果表明:本发明提出的基于BiGRU的深度学习模型在SNP数据上能有更好的分类效果;同时,本发明在这个模型的基础之上,融入了特征增强模块,加入该增强模块后的模型在各个指标都有进一步的提升;另外,由于这个先验信息的加入,以及模型的正则化技术,这种结合了传统的统计对一些与疾病关联很大的位点会优先考虑,过滤了大量无效信息,使得本模型相比其他模型不容易出现过拟合的情况。其次,本发明考虑复杂疾病的特性,增加了多表征的先验信息,与此同时的表征的相互关联,本发明采用了聚类之后的核心表征作为先验信息,实验表明并不是所有表征都需要,尽量采用相互独立的表征。总结来说,本发明的模型既考虑了高维小样本的情况尽量保证分类模型的准确率,又考虑了复杂疾病的特性,在复杂疾病分类的任务上取得一定优势。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种复杂疾病的预测分类方法,其特征在于,应用于数据信息处理终端,所述复杂疾病的预测分类方法包括:将BiGRU模型进行多表征特征增强,同时将SNP数据编码为数字形式,使用基于多表征特征增强的BiGRU模型进行复杂疾病信息的预测及分类。
2.如权利要求1所述的复杂疾病的预测分类方法,其特征在于,所述复杂疾病的预测分类方法包括以下步骤:
步骤一,引入CNN的空间特征提取和特征增强模块;
步骤二,应用循环神经网络,从训练的模型中提取上下文信息;
步骤三,利用CNN模型和LSTM变体BiGRU模型预测复杂疾病信息。
3.如权利要求1所述的复杂疾病的预测分类方法,其特征在于,所述基于多表征特征增强的BiGRU模型包括输入层、特征增强层、双向门控循环单元网络层、卷积层以及损失函数与正则化。
4.如权利要求3所述的复杂疾病的预测分类方法,其特征在于,所述输入层中,位点上的碱基由A、G、C、T四个字母表示,利用one-hot编码将字母形式转化成数值形式;采用具有生物学意义的数值编码,利用突变基因的个数表征位点的信息,将原始数据转化成数值编码的形式;
所述特征增强层包括:
采用卡方检验计算每个位点与疾病之间的相关系数wk,计算公式如下所示:
其中,k代表第k个位点,i代表患病与否,j代表位点的类别,Aij代表对应的统计计数,Eij为依据原假设得到的期望计数;
将计算卡方检验的相关系数作为初始权重,对输入进行加权计算:
x′k=ReLU(xk⊙wk+bk);
其中,权重wk与相应输入特征xk相对应元素进行元素相乘,对输入特征进行放缩;使用ReLu激活函数对特征集合进行截断,偏置bk为特征选择的阈值;神经网络在优化wk和bk的同时,wk被初始化为传统特征选择的评价值;
在特征增强的神经网络模型中引入额外的多表征特征增强层,计算公式为:
其中,diseasek是位点和疾病的直接关联系数,phenotypek是位点和聚类后第k个表型的关联系数,wk是系数加权后的结果;
使用K-Means++算法作为表型聚类的算法;
在模型建立时,在增强特征层通过不同的候选核心表征的组合的预测模型的评估结果确定核心表征,从而确定增强特征层的结构。
5.如权利要求3所述的复杂疾病的预测分类方法,其特征在于,所述双向门控循环单元网络层包括:
使用双向GRU提取中文问题的上下文信息,模型使用特征增强后的输入向量作为Bi-GRU层的输入;Bi-GRU层有两部分,同时从正向和反向读取向量;GRU计算通过的向量,并输出一个固定维度的向量;GRU涉及四部分计算:
(1)复位门:GRU使用reset gate选择在前一时刻放弃的信息:
Rt=σ(WrSt+UrHt-1+Br);
其中,Wr和Ur是权重信息,Ht-1是前一时刻的输入,Br是偏差;
(2)更新门:GRU通过更新门选择并更新当前时刻的信息,计算公式为:
Zt=σ(WzSt+UzHt-1+Bz);
其中,Wz和Uz是权重信息,Ht-1是前一时刻的输入,Bz是偏差;
(3)GRU计算候选记忆内容,计算公式如下所示:
其中,W和U是权重信息,B是偏差;
(4)GRU计算上述结果的输出结果,计算公式如下所示:
Bi-GRU层学习每个位点的上下文信息以及语义特征。
6.如权利要求3所述的复杂疾病的预测分类方法,其特征在于,使用卷积核提取位点序列中更深层次的关键特征,使用卷积核中提取更深层的信息,并使用最大池来提取关键特征;卷积层的计算步骤如下:
将特征增强层计算出来的中间语义信息作为卷积层的输入,如下式所示:
其中,Cij表示问题中第i个位点到第j个位点的拼接;
经过卷积层,计算公式如下所示:
Ti=f(W×Ci+m-1+b);
其中,f是双曲正切函数,W是权重信息,m是卷积核的宽度,b是偏差;
模型拼接卷积结果,通过最大化池提取关键特征;池化结果被拼接在一起,作为整个卷积层的输出;计算公式如下所示:
Tp=[T1,T2,…,Tn-1,Tn];
其中,n是卷积结果的数量,p是卷积核的数量;
所述损失函数与正则化包括:
损失函数的本质是描述预测值与标签值之间的距离和差异性大小的函数;采用交叉熵损失函数和L2正则化构造损失函数,如下式所示:
L2正则化中,对权重进行L2范数约束;增加dropout通过在每轮迭代训练中随机丢弃一定比例神经元之间的连接训练不同的网络。
7.一种应用如权利要求1~6任意一项所述的复杂疾病的预测分类方法的复杂疾病的预测分类系统,其特征在于,所述复杂疾病的预测分类系统包括:
特征引入模块,用于引入CNN的空间特征提取和特征增强模块;
信息提取模块,用于应用循环神经网络,从训练的模型中提取上下文信息;
疾病预测模块,用于利用基于多表征特征增强的BiGRU模型预测复杂疾病。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
提出基于BiGRU模型融入多表征特征增强的统计先验,将SNP数据编码为数字形式,使用基于多表征特征增强的BiGRU模型进行复杂疾病的预测分类。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
提出基于BiGRU模型融入多表征特征增强的统计先验,将SNP数据编码为数字形式,使用基于多表征特征增强的BiGRU模型进行复杂疾病的预测分类。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求7所述的复杂疾病的预测分类系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210550980.7A CN114841280B (zh) | 2022-05-20 | 2022-05-20 | 一种复杂疾病的预测分类方法、系统、介质、设备及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210550980.7A CN114841280B (zh) | 2022-05-20 | 2022-05-20 | 一种复杂疾病的预测分类方法、系统、介质、设备及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114841280A true CN114841280A (zh) | 2022-08-02 |
CN114841280B CN114841280B (zh) | 2023-02-14 |
Family
ID=82571001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210550980.7A Active CN114841280B (zh) | 2022-05-20 | 2022-05-20 | 一种复杂疾病的预测分类方法、系统、介质、设备及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114841280B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115579128A (zh) * | 2022-10-19 | 2023-01-06 | 内蒙古卫数数据科技有限公司 | 一种多模型特征增强疾病筛查系统 |
CN116052872A (zh) * | 2023-01-06 | 2023-05-02 | 南昌大学 | 一种基于面部表情的帕金森疾病智能数据评估方法和系统 |
CN116246705A (zh) * | 2023-05-10 | 2023-06-09 | 国家食品安全风险评估中心 | 全基因组测序数据的分析方法和装置 |
CN116525126A (zh) * | 2023-07-05 | 2023-08-01 | 之江实验室 | 基于目标与外源数据多重适配增强的疾病风险预测系统 |
CN116757341A (zh) * | 2023-08-23 | 2023-09-15 | 天津建城基业集团有限公司 | 基于神经网络的混凝土预应力空心桩干燥时间预测方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080286796A1 (en) * | 2007-05-03 | 2008-11-20 | Applera Corporation | Genetic polymorphisms associated with neurodegenerative diseases, methods of detection and uses thereof |
HUP1200622A2 (en) * | 2012-10-30 | 2014-05-28 | Budapesti Mueszaki Es Gazdasagtudomanyi Egyetem | Method and computer program product for genotype classification |
KR101864986B1 (ko) * | 2017-02-27 | 2018-06-05 | 한국과학기술원 | 유전체 정보 기반 질병 예측 방법 및 장치 |
CN108256293A (zh) * | 2018-02-09 | 2018-07-06 | 哈尔滨工业大学深圳研究生院 | 一种疾病关联基因组合的统计方法及系统 |
CN110870019A (zh) * | 2017-10-16 | 2020-03-06 | 因美纳有限公司 | 用于训练深层卷积神经网络集合的半监督学习 |
CN110934587A (zh) * | 2019-12-13 | 2020-03-31 | 深圳龙岗智能视听研究院 | 一种基于图卷积神经网络的阿尔兹海默症辅助诊断方法 |
WO2021076790A1 (en) * | 2019-10-16 | 2021-04-22 | NemaMetrix, Inc | Clinical variant classifier models, machine learning systems and methods of use |
CN113066586A (zh) * | 2021-04-01 | 2021-07-02 | 北京果壳生物科技有限公司 | 一种基于多基因风险打分构建疾病分类模型的方法 |
CN113593635A (zh) * | 2021-08-06 | 2021-11-02 | 上海市农业科学院 | 一种玉米表型预测方法及系统 |
CN114154557A (zh) * | 2021-11-08 | 2022-03-08 | 中央财经大学 | 癌症组织分类方法、装置、电子设备及存储介质 |
CN114373547A (zh) * | 2022-01-11 | 2022-04-19 | 平安科技(深圳)有限公司 | 疾病患病风险的预测方法及系统 |
-
2022
- 2022-05-20 CN CN202210550980.7A patent/CN114841280B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080286796A1 (en) * | 2007-05-03 | 2008-11-20 | Applera Corporation | Genetic polymorphisms associated with neurodegenerative diseases, methods of detection and uses thereof |
HUP1200622A2 (en) * | 2012-10-30 | 2014-05-28 | Budapesti Mueszaki Es Gazdasagtudomanyi Egyetem | Method and computer program product for genotype classification |
KR101864986B1 (ko) * | 2017-02-27 | 2018-06-05 | 한국과학기술원 | 유전체 정보 기반 질병 예측 방법 및 장치 |
CN110870019A (zh) * | 2017-10-16 | 2020-03-06 | 因美纳有限公司 | 用于训练深层卷积神经网络集合的半监督学习 |
CN108256293A (zh) * | 2018-02-09 | 2018-07-06 | 哈尔滨工业大学深圳研究生院 | 一种疾病关联基因组合的统计方法及系统 |
WO2021076790A1 (en) * | 2019-10-16 | 2021-04-22 | NemaMetrix, Inc | Clinical variant classifier models, machine learning systems and methods of use |
CN110934587A (zh) * | 2019-12-13 | 2020-03-31 | 深圳龙岗智能视听研究院 | 一种基于图卷积神经网络的阿尔兹海默症辅助诊断方法 |
CN113066586A (zh) * | 2021-04-01 | 2021-07-02 | 北京果壳生物科技有限公司 | 一种基于多基因风险打分构建疾病分类模型的方法 |
CN113593635A (zh) * | 2021-08-06 | 2021-11-02 | 上海市农业科学院 | 一种玉米表型预测方法及系统 |
CN114154557A (zh) * | 2021-11-08 | 2022-03-08 | 中央财经大学 | 癌症组织分类方法、装置、电子设备及存储介质 |
CN114373547A (zh) * | 2022-01-11 | 2022-04-19 | 平安科技(深圳)有限公司 | 疾病患病风险的预测方法及系统 |
Non-Patent Citations (9)
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115579128A (zh) * | 2022-10-19 | 2023-01-06 | 内蒙古卫数数据科技有限公司 | 一种多模型特征增强疾病筛查系统 |
CN115579128B (zh) * | 2022-10-19 | 2023-11-21 | 内蒙古卫数数据科技有限公司 | 一种多模型特征增强疾病筛查系统 |
CN116052872A (zh) * | 2023-01-06 | 2023-05-02 | 南昌大学 | 一种基于面部表情的帕金森疾病智能数据评估方法和系统 |
CN116052872B (zh) * | 2023-01-06 | 2023-10-13 | 南昌大学 | 一种基于面部表情的帕金森疾病智能数据评估方法和系统 |
CN116246705A (zh) * | 2023-05-10 | 2023-06-09 | 国家食品安全风险评估中心 | 全基因组测序数据的分析方法和装置 |
CN116525126A (zh) * | 2023-07-05 | 2023-08-01 | 之江实验室 | 基于目标与外源数据多重适配增强的疾病风险预测系统 |
CN116525126B (zh) * | 2023-07-05 | 2023-11-24 | 之江实验室 | 基于目标与外源数据多重适配增强的疾病风险预测系统 |
CN116757341A (zh) * | 2023-08-23 | 2023-09-15 | 天津建城基业集团有限公司 | 基于神经网络的混凝土预应力空心桩干燥时间预测方法 |
CN116757341B (zh) * | 2023-08-23 | 2023-10-31 | 天津建城基业集团有限公司 | 基于神经网络的混凝土预应力空心桩干燥时间预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114841280B (zh) | 2023-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114841280B (zh) | 一种复杂疾病的预测分类方法、系统、介质、设备及终端 | |
Dias et al. | Artificial intelligence in clinical and genomic diagnostics | |
Murdoch et al. | Interpretable machine learning: definitions, methods, and applications | |
CN109697285B (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
Yu et al. | Automatic ICD code assignment of Chinese clinical notes based on multilayer attention BiRNN | |
Jin et al. | Pico element detection in medical text via long short-term memory neural networks | |
Mejía-Guerra et al. | A k-mer grammar analysis to uncover maize regulatory architecture | |
US20230207054A1 (en) | Deep learning network for evolutionary conservation | |
CN108427865B (zh) | 一种预测LncRNA和环境因素关联关系的方法 | |
CN114743600A (zh) | 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法 | |
Polignano et al. | A study of Machine Learning models for Clinical Coding of Medical Reports at CodiEsp 2020. | |
Fang et al. | Bioformer: an efficient transformer language model for biomedical text mining | |
Chamlal et al. | A hybrid feature selection approach for microarray datasets using graph theoretic-based method | |
CN113764034B (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
CN115114445A (zh) | 细胞知识图谱构建方法、装置、计算设备及存储介质 | |
US20080147382A1 (en) | Method, system and software arrangement for reconstructing formal descriptive models of processes from functional/modal data using suitable ontology | |
Moon et al. | A literature embedding model for cardiovascular disease prediction using risk factors, symptoms, and genotype information | |
El-Attar et al. | Deep Learning Model to Detect Diabetes Mellitus Based on DNA Sequence. | |
US20230253122A1 (en) | Systems and methods for generating a genotypic causal model of a disease state | |
US20230307092A1 (en) | Identifying genome features in health and disease | |
Egger et al. | Deep Learning--A first Meta-Survey of selected Reviews across Scientific Disciplines and their Research Impact | |
Chen et al. | Imbalanced prediction of emergency department admission using natural language processing and deep neural network | |
WO2022212337A1 (en) | Graph database techniques for machine learning | |
Rahaie et al. | DeepGenePrior: A deep learning model for prioritizing genes affected by copy number variants | |
Uthayan | A novel microarray gene selection and classification using intelligent dynamic grey wolf optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |