CN115295156A - 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 - Google Patents
一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 Download PDFInfo
- Publication number
- CN115295156A CN115295156A CN202210131033.4A CN202210131033A CN115295156A CN 115295156 A CN115295156 A CN 115295156A CN 202210131033 A CN202210131033 A CN 202210131033A CN 115295156 A CN115295156 A CN 115295156A
- Authority
- CN
- China
- Prior art keywords
- mirna
- disease
- data
- gene
- graph convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 146
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 146
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000004927 fusion Effects 0.000 title claims abstract description 11
- 108091070501 miRNA Proteins 0.000 claims abstract description 79
- 239000002679 microRNA Substances 0.000 claims abstract description 61
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 14
- 230000004913 activation Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 abstract description 14
- 241000894007 species Species 0.000 description 10
- 208000005718 Stomach Neoplasms Diseases 0.000 description 9
- 206010017758 gastric cancer Diseases 0.000 description 9
- 201000011549 stomach cancer Diseases 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000002790 cross-validation Methods 0.000 description 7
- 230000001105 regulatory effect Effects 0.000 description 5
- 230000001537 neural effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000018737 Parkinson disease Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000005773 cancer-related death Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000001124 posttranscriptional effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Theoretical Computer Science (AREA)
- Primary Health Care (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种基于关系图卷积网络融合多源信息预测miRNA‑疾病的方法,属于系统生物学技术领域。本发明首先从数据库中获取miRNA‑疾病关联关系数据、疾病‑基因关联关系数据、miRNA‑基因关联关系数据、miRNA相似性数据、疾病相似性数据和基因相似性数据;再利用miRNA‑疾病关联关系数据,疾病‑基因关联关系数据,miRNA‑基因关联关系数据分别构建miRNA‑疾病关联关系网络,疾病‑基因关联关系网络,miRNA‑基因关联关系网络;然后利用miRNA相似性数据,疾病相似性数据,基因相似性数据,构建特征矩阵。将构建好的特征矩阵先进行非线性变化,再使用关系图卷积网络学习嵌入特征,重构出miRNA‑疾病关联矩阵;最后使用均方差损失函数来训练整个模型,最后输出结果。
Description
技术领域
本发明涉及一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,属于系统生物学技术领域。
背景技术
miRNA是一种内源性的单链非编码RNA分子,其长度在20-24个核苷酸之间,在多种生物过程中发挥着重要作用。它们在转录后水平上抑制靶mRNA的表达,并且在调节基因表达和复杂的基因调控网络中扮演着十分重要的角色。许多研究表明miRNA与人类疾病有关,这表明miRNA可能是各种疾病的潜在生物标志。研究还表明,许多miRNA与人类疾病,癌症,免疫相关疾病,帕金森氏病等有关。因此,检测miRNA与疾病之间的关联有助于疾病的诊断和治疗。由于利用生物实验来确定miRNA和疾病之间的关联既费时又昂贵,因此人们正在使用计算方法来确定miRNA和疾病之间的潜在关联。
例如2020年发表在《Systems biology》上的文章“Neural Inductive MatrixCompletion with Graph Convolutional Networks for miRNA-disease AssociationPrediction”。该文章提出了一种基于图卷积网络(NIMCGCN)的神经诱导矩阵补全预测miRNA-疾病相关联的新方法。NIMCGCN首先使用图卷积网络(GCN)去学习miRNA和疾病的潜在特征表示。然后,将学习到的特征输入到一种新的神经诱导矩阵补全(NIMC)模型中,生成关联矩阵。NIMCGCN的参数是基于已知的miRNA-疾病关联数据,以端到端方式学习的。
又如2019年发表在《Bioinformatics》上的文章“A learning-based frameworkfor miRNA-disease association prediction using neural networks”。该文章提出了一个新的基于学习的框架,MDA-CNN,来识别miRNA和疾病之间的关联。为了达到这个目标,MDA-CNN包含三个步骤。首先,构建包含一个miRNA层,疾病层,基因层的三层网络。应用一个回归模型来分别计算疾病-基因和miRNA-基因的关联评分。根据疾病层和基因层计算疾病-基因的关联评分。基于miRNA层和基因层计算miRNA-基因的关联评分。对于每种miRNA或疾病,根据其与基因的关联生成了一个表达其特征的载体。其次,给定一对miRNA和疾病,将其特征载体拼接通过基于自编码器的模型得到miRNA-疾病对的低维表达。最后,构建深度卷积神经网络(CNN)架构,根据最后一步得到的向量空间表示,预测miRNA与疾病之间的关联。
尽管上述方法对miRNA-疾病关联的研究是有效的,但目前的研究结果仍存在一定的局限性。一方面,miRNA通过调控其靶基因与许多人类疾病有关,表明基因在连接miRNA和疾病方面起着关键作用。另一方面基于相似性度量的方法的预测质量受到现有链接信息的严重限制。因此,这些方法在对新疾病或少有关联信息的疾病进行关联预测时表现不太好。此外,一些有用的信息,如疾病和miRNA的特征信息,不能被充分利用来提高这些方法的预测精度。
发明内容
本发明要解决的技术问题是提供一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,基于关系图卷积网络能有效提取miRNA、疾病和基因的深层次特征,能有效提高miRNA-疾病关联预测的准确性,从而解决现有技术中存在的预测准确率较低的技术问题。
本发明的技术方案是:一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,具体步骤为:
Step1:从数据库中获取miRNA-疾病关联关系数据、疾病-基因关联关系数据、miRNA-基因关联关系数据、miRNA相似性数据Um、疾病相似性数据Ud和基因相似性数据Ug。
所述Step1具体为:
从数据库中,获得与nm种miRNA相关联的nd种疾病的H条miRNA-疾病关联关系数据K={K1,K2,…,KH}、获得与nd种疾病相关联的ng种基因的M条疾病-基因关联关系数据L={L1,L2,…,LM}、获得与nm种miRNA相关联的ng种基因的J条miRNA-基因关联关系数据P={P1,P2,…,PJ}、miRNA相似性数据Um、疾病相似性数据Ud和基因相似性数据Ug。其中,nd,nm,ng分别表示疾病,miRNA,基因的数量。
miRNA-疾病关联关系数据中如果该miRNA和疾病有关联,就认为是正样本。否则就认为是负样本。
Step2:利用miRNA-疾病关联关系数据、疾病-基因关联关系数据、miRNA-基因关联关系数据分别构建miRNA-疾病关联关系网络Ymd、疾病-基因关联关系网络Ydg、miRNA-基因关联关系网络Ymg。
miRNA-疾病关联关系数据中如果该miRNA和疾病有关联,就将miRNA-疾病关联关系网络Ymd中相应的值设置为1,否则就为0。同理疾病-基因关联关系网络Ydg,miRNA-基因关联关系网络Ymg也进行相同的处理。
Step3:搭建包含顺次连接的非线性全连接层、关系图卷积模块、非线性全连接层的网络模型RGCNMDA。利用miRNA相似性数据Um、疾病相似性数据Ud和基因相似性数据Ug构建特征矩阵Fdmg。
将构建好的特征矩阵Fdmg,输入到非线性全连接层得到特征F′,然后,将特征F′输入到关系图卷积网络中,得到特征表示h3。
所述Step3具体为:
所述构建的特征矩阵Fdmg,具体为:
把构建好的特征矩阵Fdmg,输入到一层非线性全连接层,得到特征F′,激活函数是RELU,如下所示:
F′=RELU(WdmgFdmg+bdmg)
式中,Wdmg表示权重,bdmg是偏置。
然后,将得到的特征F′,输入到一层关系图卷积网络,再过一层RELU激活函数,再重复此操作,再过一层关系图卷积网络和一层RELU激活函数,得到特征表示h3。具体如下所示:
在Step3中使用关系图卷积网络能充分的利用基因,miRNA,疾病的特征信息,因为关系图卷积网络不仅能考虑到节点自身的特征属性,还能按照不同的边类型聚合其邻居的特征,因此能有效提取miRNA、疾病和基因的深层次特征,能有效提高miRNA-疾病关联预测的准确性,从而解决现有技术中存在的预测准确率较低的技术问题。
Step4:将Step3中得到的特征表示h3输入到非线性全连接层,进行非线性变换,得到非线性特征Q3(h3)。利用得到的miRNA的非线性特征Qm和疾病的非线性特征Qd,重构出miRNA-疾病关联矩阵Tmd。
所述Step4具体为:
将Step3中得到的特征表示h3进行一个非线性变换,将特征表示h3输入到非线性全连接层,得到嵌入特征Q3(h3),具体如下所示:
Ql(h3)=RELU(WlRELU(…RELU(W1h3+b1)…)+bl)
式中,W1,W2,W3,b1,b2,b3分别是所对应的权重,偏置。这里一共使用了三层非线性全连接层,l=3。
最后分别得到miRNA,疾病,基因的非线性嵌入特征。
(Qd,Qm,Qg)=Ql(h3)
利用得到的miRNA的非线性的特征Qm和疾病的非线性的特征Qd,重构出miRNA-疾病关联矩阵Tmd,具体如下所示:
Tmd=QmWdm(Qd)T
其中,Wdm表示权重,Qm,Qd分别表示miRNA的非线性的特征和疾病的非线性的特征。
Step5:使用损失函数来迭代训练整个网络模型RGCNMDA,最后输出结果。训练整个网络模型RGCNMDA时,由于样本中正样本的数量很少,引入对正样本和负样本进行适当的加权处理。根据不同的预测任务,会对进行不同的设置。在Step5的损失函数中,将正负样本的损失分开计算,然后利用进行适当的加权处理。
所述Step5中的损失函数,为均方差损失函数,具体如下所示:
其中,Pπ(.)是矩阵在集合π(训练集的正样本)上的投影,是矩阵在集合(训练集的负样本)上的投影, 分别表示该模型中的参数,是一个参数值,Tmd是Step4得到的重构miRNA-疾病关联矩阵,Ymd是Step2得到的miRNA-疾病关联关系网络。
本发明的有益效果是:本发明利用关系图卷积网络来聚合和学习miRNA和疾病的嵌入特征,在学习嵌入特征的时候,不仅聚合了邻居的特征信息,而且还充分的考虑到了不同类型的边的影响,能充分的利用疾病和miRNA的特征信息。因此能更好的捕获miRNA与疾病之间的复杂非线性关系。与现有的方法相比,本发明能有效的学习非线性特征,提高了预测精度。
附图说明
图1是本发明的步骤流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,具体步骤为:
Step1:从数据库中,获得与nm种miRNA相关联的nd种疾病的H条miRNA-疾病关联关系数据K={K1,K2,…,KH}、获得与nd种疾病相关联的ng种基因的M条疾病-基因关联关系数据L={L1,L2,…,LM}、获得与nm种miRNA相关联的ng种基因的J条miRNA-基因关联关系数据P={P1,P2,…,PJ}、miRNA相似性数据Um、疾病相似性数据Ud和基因相似性数据Ug。本实例中,nm=243,nd=204,ng=1789,H=3072,M=2639,J=2455,其中nd,nm,ng分别表示疾病,miRNA,基因的数量。
Step2:利用miRNA-疾病关联关系数据,疾病-基因关联关系数据,miRNA-基因关联关系数据分别构建miRNA-疾病关联关系网络Ymd,疾病-基因关联关系网络Ydg,miRNA-基因关联关系网络Ymg。
miRNA-疾病关联关系数据中如果该miRNA和疾病有关联,就将miRNA-疾病关联关系网络Ymd中相应的值设置为1,否则就为0。同理疾病-基因关联关系网络Ydg,miRNA-基因关联关系网络Ymg也进行相同的处理。
Step3:搭建包含顺次连接的非线性全连接层,关系图卷积模块,非线性全连接层的网络模型RGCNMDA。利用miRNA相似性数据Um和疾病相似性数据Ud,基因相似性数据Ug构建了一个特征矩阵Fdmg,具体为:
把构建好的特征矩阵Fdmg,输入到一层非线性全连接层,得到特征F′。激活函数是RELU,如下所示:
F′=RELU(WdmgFdmg+bdmg)
式中,Wdmg表示权重,bdmg是偏置。
然后,将得到的特征F′,输入到一层关系图卷积网络,再过一层RELU激活函数,再重复此操作,再过一层关系图卷积网络和一层RELU激活函数,得到特征表示(h3)。具体实现如下所示:
本实例中,一共采用了基因-疾病关联关系和基因-miRNA关联关系,两种链接类型。ci,r是标准化常数 表示在链接类型r中,节点i的邻居。Wr (l)表示在链接类型r中的权重参数,比如 表示保留来自节点本身信息的权重参数。表示非线性激活函数。将节点i在l层的特征表示作为下一层的输入,所以h(0) i=F′。在本实例中l=2,ck=256,R=2。
Step3中使用关系图卷积网络,能充分的利用基因,miRNA,疾病的特征信息,因为关系图卷积网络不仅能考虑到节点自身的特征属性,还能按照不同的边类型聚合其邻居的特征,因此能有效提取miRNA、疾病和基因的深层次特征,能有效提高miRNA-疾病关联预测的准确性,从而解决现有技术中存在的预测准确率较低的技术问题。具体实验结果如表1所示。
Step4:将Step3中得到的特征表示h3进行一个非线性变换,将特征表示h3输入到非线性全连接层,得到嵌入特征Q3(h3)。具体实现如下所示:
Ql(h3)=RELU(WlRELU(…RELU(W1h3+b1)…)+bl)
式中,W1,W2,W3,b1,b2,b3分别是所对应的权重,偏置。这里一共使用了三层非线性全连接层,l=3。
最后分别得到miRNA,疾病,基因的非线性嵌入特征。
(Qd,Qm,Qg)=Ql(h3)
利用得到的miRNA的非线性的特征Qm和疾病的非线性的特征Qd,重构出miRNA-疾病关联矩阵Tmd。具体实现如下所示:
Tmd=QmWdm(Qd)T
其中,Wdm表示权重,Qm,Qd分别表示miRNA的非线性的特征和疾病的非线性的特征。
Step5:使用损失函数来训练整个网络模型RGCNMDA,最后输出结果。由于样本中正样本的数量很少,引入对正样本和负样本进行适当的加权处理。当时,表示只使用正样本进行优化。当时,表示只使用负样本进行优化。将Step4所得到的重构miRNA-疾病关联矩阵Tmd和miRNA-疾病关联关系网络Ymd,使用均方差损失函数对网络模型RGCNMDA进行训练。具体为:
本实施例中以端到端的方式训练该模型,通过反向传播,学习模型参数。这种端到端训练策略更有可能找到针对问题的、有效的嵌入。
采用随机清零交叉验证,多列清零交叉验证来测试模型的性能。将本发明与现有方法的预测准确率,以十次五折交叉验证进行对比,评价指标采用了AUC,AUC被定义为ROC曲线下的面积,AUC的值越大,准确率越大。
随机清零交叉验证的具体做法,将所有已知的miRNA与疾病的关联随机分为五个不重叠的部分,一部分用于测试,其余用于训练。miRNA-疾病关联矩阵的列对应疾病,行对应miRNA,多列清零交叉验证的具体做法是将miRNA-疾病关联矩阵中,所有的列随机分为五个不重叠的部分,将其中的一份清零作为测试集,其余的列作为训练集。
将每个交叉验证重复十次,其结果如表1所示,表中的NIMCGCN是一种基于图卷积网络的神经诱导矩阵补全预测miRNA-疾病相关联的新方法。但是NIMCGCN方法没有利用基因的特征信息,miRNA通过调控其靶基因与许多人类疾病有关,表明基因在连接miRNA和疾病方面起着关键作用。表中的MDA-CNN是一种新的基于学习的框架,MDA-CNN,来识别miRNA和疾病之间的关联。MDA-CNN方法忽略了miRNA和疾病相似网络中的包含的丰富结构信息,以及没有考虑到本身节点的特征信息。而本发明能充分的利用基因,miRNA,疾病的特征信息,不仅能考虑到节点自身的特征属性,还能按照不同的边类型聚合其邻居的特征,因此能有效的提高了miRNA-疾病关联预测的精度。
表1的结果表明本发明在AUC这个指标上高于现有技术,证明本发明有效的提高了miRNA-疾病关联预测的精度。
实施例2:为了进一步测试本发明的有效性,利用RGCNMDA预测与胃癌相关的miRNA。dbDEMC数据库被用作基准数据集。在全世界与癌症相关的死亡中,胃癌居第三位。越来越多的证明表明,许多miRNA可以通过调控胃癌相关基因与胃癌发生相互作用。
在案列分析实验中,在实施例1的基础上进行分析。首先将胃癌与其相关的所有miRNA之间的关联从训练集中移除。然后,使用RGCNMDA预测胃癌与每个miRNA之间的关联。MiRNA的排名是基于它们与胃癌相关的预测概率,越靠前,预测概率值越大。表2展示了HMDD3.0数据集上RGCNMDA预测的前50个与胃癌相关的miRNA以及相应的证据。从中发现前25名的miRNA有23个被验证,前50名的miRNA中有45个被验证。
表1是与两种现有技术进行十次五折交叉验证,在随机清零交叉验证,多列清零交叉验证上的AUC值对比结果,表1的结果表明本发明在AUC这个指标上高于现有技术,证明本发明有效的提高了miRNA-疾病关联预测的精度。
方法 | 随机清零交叉验证 | 多列清零交叉验证 |
NIMCGCN | 0.8851 | 0.7668 |
MDACNN | 0.8936 | 0.7287 |
RGCNMDA | 0.9072 | 0.8381 |
表1
表2是HMDD3.0数据集上RGCNMDA预测的前50个与胃癌相关的miRNA以及相应的证据。从中发现前25名的miRNA有23个被验证,前50名的miRNA中有45个被验证。
表2
综上所述,在与其他预测方法比较之后,证明了基于关系图卷积网络融合多源信息预测miRNA-疾病方法的有效性。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (5)
1.一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,其特征在于:
Step1:从数据库中获取miRNA-疾病关联关系数据、疾病-基因关联关系数据、miRNA-基因关联关系数据、miRNA相似性数据Um、疾病相似性数据Ud和基因相似性数据Ug;
Step2:利用miRNA-疾病关联关系数据、疾病-基因关联关系数据、miRNA-基因关联关系数据分别构建miRNA-疾病关联关系网络Ymd、疾病-基因关联关系网络Ydg、miRNA-基因关联关系网络Ymg;
Step3:搭建包含顺次连接的非线性全连接层、关系图卷积模块、非线性全连接层的网络模型RGCNMDA;利用miRNA相似性数据Um、疾病相似性数据Ud和基因相似性数据Ug构建特征矩阵Fdmg;
将构建好的特征矩阵Fdmg,输入到非线性全连接层得到特征F′,然后,将特征F′输入到关系图卷积网络中,得到特征表示h3;
Step4:将Step3中得到的特征表示h3输入到非线性全连接层,进行非线性变换,得到非线性特征Q3(h3),利用得到的miRNA的非线性特征Qm和疾病的非线性特征Qd,重构出miRNA-疾病关联矩阵Tmd;
Step5:使用损失函数来迭代训练整个网络模型RGCNMDA,最后输出结果。
2.根据权利要求1所述的基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,其特征在于,所述Step1具体为:
从数据库中,获得与nm种miRNA相关联的nd种疾病的H条miRNA-疾病关联关系数据K={K1,K2,...,KH}、获得与nd种疾病相关联的ng种基因的M条疾病-基因关联关系数据L={L1,L2,...,LM}、获得与nm种miRNA相关联的ng种基因的J条miRNA-基因关联关系数据P={P1,P2,...,PJ}、miRNA相似性数据Um、疾病相似性数据Ud和基因相似性数据Ug,其中,nd,nm,ng分别表示疾病,miRNA,基因的数量;
miRNA-疾病关联关系数据中如果该miRNA和疾病有关联,就认为是正样本,否则就认为是负样本。
3.根据权利要求1所述的基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,其特征在于,所述Step3具体为:
所述构建的特征矩阵Fdmg,具体为:
把构建好的特征矩阵Fdmg,输入到一层非线性全连接层,得到特征F′,激活函数是RELU,如下所示:
F′=RELU(WdmgFdmg+bdmg)
式中,Wdmg表示权重,bdmg是偏置;
然后,将得到的特征F′,输入到一层关系图卷积网络,再过一层RELU激活函数,再重复此操作,再过一层关系图卷积网络和一层RELU激活函数,得到特征表示h3;具体如下所示:
4.根据权利要求1所述的基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,其特征在于,所述Step4具体为:
将Step3中得到的特征表示h3进行一个非线性变换,将特征表示h3输入到非线性全连接层,得到嵌入特征Q3(h3),具体如下所示:
Ql(h3)=RELU(WlRELU(...RELU(W1h3+b1)...)+bl)
式中,W1,W2,W3,b1,b2,b3分别是所对应的权重,偏置;
最后分别得到miRNA,疾病,基因的非线性嵌入特征;
(Qd,Qm,Qg)=Ql(h3)
利用得到的miRNA的非线性的特征Qm和疾病的非线性的特征Qd,重构出miRNA-疾病关联矩阵Tmd,具体如下所示:
Tmd=QmWdm(Qd)T
其中,Wdm表示权重,Qm,Qd分别表示miRNA的非线性的特征和疾病的非线性的特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210131033.4A CN115295156A (zh) | 2022-02-13 | 2022-02-13 | 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210131033.4A CN115295156A (zh) | 2022-02-13 | 2022-02-13 | 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115295156A true CN115295156A (zh) | 2022-11-04 |
Family
ID=83821014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210131033.4A Pending CN115295156A (zh) | 2022-02-13 | 2022-02-13 | 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115295156A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115798598A (zh) * | 2022-11-16 | 2023-03-14 | 大连海事大学 | 一种基于超图的miRNA-疾病关联预测模型及方法 |
-
2022
- 2022-02-13 CN CN202210131033.4A patent/CN115295156A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115798598A (zh) * | 2022-11-16 | 2023-03-14 | 大连海事大学 | 一种基于超图的miRNA-疾病关联预测模型及方法 |
CN115798598B (zh) * | 2022-11-16 | 2023-11-14 | 大连海事大学 | 一种基于超图的miRNA-疾病关联预测模型及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | LDGRNMF: LncRNA-disease associations prediction based on graph regularized non-negative matrix factorization | |
Fan et al. | lncRNA-MFDL: identification of human long non-coding RNAs by fusing multiple features and using deep learning | |
CN112232413B (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
Wen et al. | A classification model for lncRNA and mRNA based on k-mers and a convolutional neural network | |
Wang et al. | Weighted matrix factorization on multi-relational data for LncRNA-disease association prediction | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
CN107679367B (zh) | 一种基于网络节点关联度的共调控网络功能模块识别方法及系统 | |
CN112784913A (zh) | 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置 | |
CN113724790B (zh) | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 | |
CN115019891B (zh) | 一种基于半监督图神经网络的个体驱动基因预测方法 | |
CN114093422B (zh) | 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其系统 | |
CN105808976A (zh) | 一种基于推荐模型的miRNA靶基因预测方法 | |
CN112837747A (zh) | 基于注意力孪生网络的蛋白质结合位点预测方法 | |
CN113539372A (zh) | 一种LncRNA和疾病关联关系的高效预测方法 | |
CN110993113A (zh) | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 | |
CN114842927A (zh) | 一种知识图谱注意力网络的药物与通路的关联预测方法 | |
CN115295156A (zh) | 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 | |
Li et al. | Multi-view graph neural network with cascaded attention for lncRNA-miRNA interaction prediction | |
Ghari et al. | Generative flow networks assisted biological sequence editing | |
CN117012282A (zh) | 一种基于图注意力网络的rna-疾病相关性预测方法 | |
Jing et al. | Prediction of the transcription factor binding sites with meta-learning | |
CN114141306B (zh) | 基于基因相互作用模式优化图表示的远处转移识别方法 | |
CN116343927A (zh) | 基于增强的超图卷积自编码算法的miRNA-疾病关联预测方法 | |
CN113313167B (zh) | 一种基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法 | |
CN113223622B (zh) | 基于元路径的miRNA-疾病关联预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |