CN115295156A - 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 - Google Patents

一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 Download PDF

Info

Publication number
CN115295156A
CN115295156A CN202210131033.4A CN202210131033A CN115295156A CN 115295156 A CN115295156 A CN 115295156A CN 202210131033 A CN202210131033 A CN 202210131033A CN 115295156 A CN115295156 A CN 115295156A
Authority
CN
China
Prior art keywords
mirna
disease
data
gene
graph convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210131033.4A
Other languages
English (en)
Inventor
彭玮
车自成
戴伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210131033.4A priority Critical patent/CN115295156A/zh
Publication of CN115295156A publication Critical patent/CN115295156A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于关系图卷积网络融合多源信息预测miRNA‑疾病的方法,属于系统生物学技术领域。本发明首先从数据库中获取miRNA‑疾病关联关系数据、疾病‑基因关联关系数据、miRNA‑基因关联关系数据、miRNA相似性数据、疾病相似性数据和基因相似性数据;再利用miRNA‑疾病关联关系数据,疾病‑基因关联关系数据,miRNA‑基因关联关系数据分别构建miRNA‑疾病关联关系网络,疾病‑基因关联关系网络,miRNA‑基因关联关系网络;然后利用miRNA相似性数据,疾病相似性数据,基因相似性数据,构建特征矩阵。将构建好的特征矩阵先进行非线性变化,再使用关系图卷积网络学习嵌入特征,重构出miRNA‑疾病关联矩阵;最后使用均方差损失函数来训练整个模型,最后输出结果。

Description

一种基于关系图卷积网络融合多源信息预测miRNA-疾病的 方法
技术领域
本发明涉及一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,属于系统生物学技术领域。
背景技术
miRNA是一种内源性的单链非编码RNA分子,其长度在20-24个核苷酸之间,在多种生物过程中发挥着重要作用。它们在转录后水平上抑制靶mRNA的表达,并且在调节基因表达和复杂的基因调控网络中扮演着十分重要的角色。许多研究表明miRNA与人类疾病有关,这表明miRNA可能是各种疾病的潜在生物标志。研究还表明,许多miRNA与人类疾病,癌症,免疫相关疾病,帕金森氏病等有关。因此,检测miRNA与疾病之间的关联有助于疾病的诊断和治疗。由于利用生物实验来确定miRNA和疾病之间的关联既费时又昂贵,因此人们正在使用计算方法来确定miRNA和疾病之间的潜在关联。
例如2020年发表在《Systems biology》上的文章“Neural Inductive MatrixCompletion with Graph Convolutional Networks for miRNA-disease AssociationPrediction”。该文章提出了一种基于图卷积网络(NIMCGCN)的神经诱导矩阵补全预测miRNA-疾病相关联的新方法。NIMCGCN首先使用图卷积网络(GCN)去学习miRNA和疾病的潜在特征表示。然后,将学习到的特征输入到一种新的神经诱导矩阵补全(NIMC)模型中,生成关联矩阵。NIMCGCN的参数是基于已知的miRNA-疾病关联数据,以端到端方式学习的。
又如2019年发表在《Bioinformatics》上的文章“A learning-based frameworkfor miRNA-disease association prediction using neural networks”。该文章提出了一个新的基于学习的框架,MDA-CNN,来识别miRNA和疾病之间的关联。为了达到这个目标,MDA-CNN包含三个步骤。首先,构建包含一个miRNA层,疾病层,基因层的三层网络。应用一个回归模型来分别计算疾病-基因和miRNA-基因的关联评分。根据疾病层和基因层计算疾病-基因的关联评分。基于miRNA层和基因层计算miRNA-基因的关联评分。对于每种miRNA或疾病,根据其与基因的关联生成了一个表达其特征的载体。其次,给定一对miRNA和疾病,将其特征载体拼接通过基于自编码器的模型得到miRNA-疾病对的低维表达。最后,构建深度卷积神经网络(CNN)架构,根据最后一步得到的向量空间表示,预测miRNA与疾病之间的关联。
尽管上述方法对miRNA-疾病关联的研究是有效的,但目前的研究结果仍存在一定的局限性。一方面,miRNA通过调控其靶基因与许多人类疾病有关,表明基因在连接miRNA和疾病方面起着关键作用。另一方面基于相似性度量的方法的预测质量受到现有链接信息的严重限制。因此,这些方法在对新疾病或少有关联信息的疾病进行关联预测时表现不太好。此外,一些有用的信息,如疾病和miRNA的特征信息,不能被充分利用来提高这些方法的预测精度。
发明内容
本发明要解决的技术问题是提供一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,基于关系图卷积网络能有效提取miRNA、疾病和基因的深层次特征,能有效提高miRNA-疾病关联预测的准确性,从而解决现有技术中存在的预测准确率较低的技术问题。
本发明的技术方案是:一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,具体步骤为:
Step1:从数据库中获取miRNA-疾病关联关系数据、疾病-基因关联关系数据、miRNA-基因关联关系数据、miRNA相似性数据Um、疾病相似性数据Ud和基因相似性数据Ug
所述Step1具体为:
从数据库中,获得与nm种miRNA相关联的nd种疾病的H条miRNA-疾病关联关系数据K={K1,K2,…,KH}、获得与nd种疾病相关联的ng种基因的M条疾病-基因关联关系数据L={L1,L2,…,LM}、获得与nm种miRNA相关联的ng种基因的J条miRNA-基因关联关系数据P={P1,P2,…,PJ}、miRNA相似性数据Um、疾病相似性数据Ud和基因相似性数据Ug。其中,nd,nm,ng分别表示疾病,miRNA,基因的数量。
miRNA-疾病关联关系数据中如果该miRNA和疾病有关联,就认为是正样本。否则就认为是负样本。
Step2:利用miRNA-疾病关联关系数据、疾病-基因关联关系数据、miRNA-基因关联关系数据分别构建miRNA-疾病关联关系网络Ymd、疾病-基因关联关系网络Ydg、miRNA-基因关联关系网络Ymg
miRNA-疾病关联关系数据中如果该miRNA和疾病有关联,就将miRNA-疾病关联关系网络Ymd中相应的值设置为1,否则就为0。同理疾病-基因关联关系网络Ydg,miRNA-基因关联关系网络Ymg也进行相同的处理。
Step3:搭建包含顺次连接的非线性全连接层、关系图卷积模块、非线性全连接层的网络模型RGCNMDA。利用miRNA相似性数据Um、疾病相似性数据Ud和基因相似性数据Ug构建特征矩阵Fdmg
将构建好的特征矩阵Fdmg,输入到非线性全连接层得到特征F′,然后,将特征F′输入到关系图卷积网络中,得到特征表示h3
所述Step3具体为:
所述构建的特征矩阵Fdmg,具体为:
Figure BDA0003502636170000031
把构建好的特征矩阵Fdmg,输入到一层非线性全连接层,得到特征F′,激活函数是RELU,如下所示:
F′=RELU(WdmgFdmg+bdmg)
式中,Wdmg表示权重,bdmg是偏置。
然后,将得到的特征F′,输入到一层关系图卷积网络,再过一层RELU激活函数,再重复此操作,再过一层关系图卷积网络和一层RELU激活函数,得到特征表示h3。具体如下所示:
Figure BDA0003502636170000032
式中,h(l) i∈Rck表示节点i在第l层关系图卷积网络中的嵌入特征表示,ck是潜在特征的维度大小。
Figure BDA0003502636170000033
表示在第l层关系图卷积网络中,聚合的邻居信息的特征向量。R表示链接类型。
在Step3中使用关系图卷积网络能充分的利用基因,miRNA,疾病的特征信息,因为关系图卷积网络不仅能考虑到节点自身的特征属性,还能按照不同的边类型聚合其邻居的特征,因此能有效提取miRNA、疾病和基因的深层次特征,能有效提高miRNA-疾病关联预测的准确性,从而解决现有技术中存在的预测准确率较低的技术问题。
Step4:将Step3中得到的特征表示h3输入到非线性全连接层,进行非线性变换,得到非线性特征Q3(h3)。利用得到的miRNA的非线性特征Qm和疾病的非线性特征Qd,重构出miRNA-疾病关联矩阵Tmd
所述Step4具体为:
将Step3中得到的特征表示h3进行一个非线性变换,将特征表示h3输入到非线性全连接层,得到嵌入特征Q3(h3),具体如下所示:
Ql(h3)=RELU(WlRELU(…RELU(W1h3+b1)…)+bl)
式中,W1,W2,W3,b1,b2,b3分别是所对应的权重,偏置。这里一共使用了三层非线性全连接层,l=3。
最后分别得到miRNA,疾病,基因的非线性嵌入特征。
(Qd,Qm,Qg)=Ql(h3)
利用得到的miRNA的非线性的特征Qm和疾病的非线性的特征Qd,重构出miRNA-疾病关联矩阵Tmd,具体如下所示:
Tmd=QmWdm(Qd)T
其中,Wdm表示权重,Qm,Qd分别表示miRNA的非线性的特征和疾病的非线性的特征。
Step5:使用损失函数来迭代训练整个网络模型RGCNMDA,最后输出结果。训练整个网络模型RGCNMDA时,由于样本中正样本的数量很少,引入
Figure BDA0003502636170000047
对正样本和负样本进行适当的加权处理。根据不同的预测任务,会对
Figure BDA0003502636170000048
进行不同的设置。在Step5的损失函数中,将正负样本的损失分开计算,然后利用
Figure BDA0003502636170000049
进行适当的加权处理。
所述Step5中的损失函数,为均方差损失函数,具体如下所示:
Figure BDA0003502636170000041
其中,Pπ(.)是矩阵在集合π(训练集的正样本)上的投影,
Figure BDA0003502636170000042
是矩阵在集合
Figure BDA0003502636170000043
(训练集的负样本)上的投影,
Figure BDA0003502636170000044
Figure BDA0003502636170000045
分别表示该模型中的参数,
Figure BDA0003502636170000046
是一个参数值,Tmd是Step4得到的重构miRNA-疾病关联矩阵,Ymd是Step2得到的miRNA-疾病关联关系网络。
本发明的有益效果是:本发明利用关系图卷积网络来聚合和学习miRNA和疾病的嵌入特征,在学习嵌入特征的时候,不仅聚合了邻居的特征信息,而且还充分的考虑到了不同类型的边的影响,能充分的利用疾病和miRNA的特征信息。因此能更好的捕获miRNA与疾病之间的复杂非线性关系。与现有的方法相比,本发明能有效的学习非线性特征,提高了预测精度。
附图说明
图1是本发明的步骤流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,具体步骤为:
Step1:从数据库中,获得与nm种miRNA相关联的nd种疾病的H条miRNA-疾病关联关系数据K={K1,K2,…,KH}、获得与nd种疾病相关联的ng种基因的M条疾病-基因关联关系数据L={L1,L2,…,LM}、获得与nm种miRNA相关联的ng种基因的J条miRNA-基因关联关系数据P={P1,P2,…,PJ}、miRNA相似性数据Um、疾病相似性数据Ud和基因相似性数据Ug。本实例中,nm=243,nd=204,ng=1789,H=3072,M=2639,J=2455,其中nd,nm,ng分别表示疾病,miRNA,基因的数量。
Step2:利用miRNA-疾病关联关系数据,疾病-基因关联关系数据,miRNA-基因关联关系数据分别构建miRNA-疾病关联关系网络Ymd,疾病-基因关联关系网络Ydg,miRNA-基因关联关系网络Ymg
miRNA-疾病关联关系数据中如果该miRNA和疾病有关联,就将miRNA-疾病关联关系网络Ymd中相应的值设置为1,否则就为0。同理疾病-基因关联关系网络Ydg,miRNA-基因关联关系网络Ymg也进行相同的处理。
Step3:搭建包含顺次连接的非线性全连接层,关系图卷积模块,非线性全连接层的网络模型RGCNMDA。利用miRNA相似性数据Um和疾病相似性数据Ud,基因相似性数据Ug构建了一个特征矩阵Fdmg,具体为:
Figure BDA0003502636170000051
把构建好的特征矩阵Fdmg,输入到一层非线性全连接层,得到特征F′。激活函数是RELU,如下所示:
F′=RELU(WdmgFdmg+bdmg)
式中,Wdmg表示权重,bdmg是偏置。
然后,将得到的特征F′,输入到一层关系图卷积网络,再过一层RELU激活函数,再重复此操作,再过一层关系图卷积网络和一层RELU激活函数,得到特征表示(h3)。具体实现如下所示:
Figure BDA0003502636170000052
式中,h(l) i∈Rck表示节点i在第l层关系图卷积网络中的嵌入特征表示,ck是潜在特征的维度大小。
Figure BDA0003502636170000061
表示在第l层关系图卷积网络中,聚合的邻居信息的特征向量。R表示链接类型。
本实例中,一共采用了基因-疾病关联关系和基因-miRNA关联关系,两种链接类型。ci,r是标准化常数
Figure BDA0003502636170000062
Figure BDA0003502636170000063
表示在链接类型r中,节点i的邻居。Wr (l)表示在链接类型r中的权重参数,比如
Figure BDA0003502636170000064
Figure BDA0003502636170000065
表示保留来自节点本身信息的权重参数。
Figure BDA0003502636170000066
表示非线性激活函数。将节点i在l层的特征表示作为下一层的输入,所以h(0) i=F′。在本实例中l=2,ck=256,R=2。
Step3中使用关系图卷积网络,能充分的利用基因,miRNA,疾病的特征信息,因为关系图卷积网络不仅能考虑到节点自身的特征属性,还能按照不同的边类型聚合其邻居的特征,因此能有效提取miRNA、疾病和基因的深层次特征,能有效提高miRNA-疾病关联预测的准确性,从而解决现有技术中存在的预测准确率较低的技术问题。具体实验结果如表1所示。
Step4:将Step3中得到的特征表示h3进行一个非线性变换,将特征表示h3输入到非线性全连接层,得到嵌入特征Q3(h3)。具体实现如下所示:
Ql(h3)=RELU(WlRELU(…RELU(W1h3+b1)…)+bl)
式中,W1,W2,W3,b1,b2,b3分别是所对应的权重,偏置。这里一共使用了三层非线性全连接层,l=3。
最后分别得到miRNA,疾病,基因的非线性嵌入特征。
(Qd,Qm,Qg)=Ql(h3)
利用得到的miRNA的非线性的特征Qm和疾病的非线性的特征Qd,重构出miRNA-疾病关联矩阵Tmd。具体实现如下所示:
Tmd=QmWdm(Qd)T
其中,Wdm表示权重,Qm,Qd分别表示miRNA的非线性的特征和疾病的非线性的特征。
Step5:使用损失函数来训练整个网络模型RGCNMDA,最后输出结果。由于样本中正样本的数量很少,引入
Figure BDA0003502636170000067
对正样本和负样本进行适当的加权处理。当
Figure BDA0003502636170000068
时,表示只使用正样本进行优化。当
Figure BDA0003502636170000069
时,表示只使用负样本进行优化。将Step4所得到的重构miRNA-疾病关联矩阵Tmd和miRNA-疾病关联关系网络Ymd,使用均方差损失函数对网络模型RGCNMDA进行训练。具体为:
Figure BDA0003502636170000071
其中,Pπ(.)是矩阵在集合π(训练集的正样本)上的投影,
Figure BDA0003502636170000072
是矩阵在集合
Figure BDA0003502636170000073
(训练集的负样本)上的投影。
Figure BDA0003502636170000074
Figure BDA0003502636170000075
分别表示该模型中的参数。
本实施例中以端到端的方式训练该模型,通过反向传播,学习模型参数。这种端到端训练策略更有可能找到针对问题的、有效的嵌入。
采用随机清零交叉验证,多列清零交叉验证来测试模型的性能。将本发明与现有方法的预测准确率,以十次五折交叉验证进行对比,评价指标采用了AUC,AUC被定义为ROC曲线下的面积,AUC的值越大,准确率越大。
随机清零交叉验证的具体做法,将所有已知的miRNA与疾病的关联随机分为五个不重叠的部分,一部分用于测试,其余用于训练。miRNA-疾病关联矩阵的列对应疾病,行对应miRNA,多列清零交叉验证的具体做法是将miRNA-疾病关联矩阵中,所有的列随机分为五个不重叠的部分,将其中的一份清零作为测试集,其余的列作为训练集。
将每个交叉验证重复十次,其结果如表1所示,表中的NIMCGCN是一种基于图卷积网络的神经诱导矩阵补全预测miRNA-疾病相关联的新方法。但是NIMCGCN方法没有利用基因的特征信息,miRNA通过调控其靶基因与许多人类疾病有关,表明基因在连接miRNA和疾病方面起着关键作用。表中的MDA-CNN是一种新的基于学习的框架,MDA-CNN,来识别miRNA和疾病之间的关联。MDA-CNN方法忽略了miRNA和疾病相似网络中的包含的丰富结构信息,以及没有考虑到本身节点的特征信息。而本发明能充分的利用基因,miRNA,疾病的特征信息,不仅能考虑到节点自身的特征属性,还能按照不同的边类型聚合其邻居的特征,因此能有效的提高了miRNA-疾病关联预测的精度。
表1的结果表明本发明在AUC这个指标上高于现有技术,证明本发明有效的提高了miRNA-疾病关联预测的精度。
实施例2:为了进一步测试本发明的有效性,利用RGCNMDA预测与胃癌相关的miRNA。dbDEMC数据库被用作基准数据集。在全世界与癌症相关的死亡中,胃癌居第三位。越来越多的证明表明,许多miRNA可以通过调控胃癌相关基因与胃癌发生相互作用。
在案列分析实验中,在实施例1的基础上进行分析。首先将胃癌与其相关的所有miRNA之间的关联从训练集中移除。然后,使用RGCNMDA预测胃癌与每个miRNA之间的关联。MiRNA的排名是基于它们与胃癌相关的预测概率,越靠前,预测概率值越大。表2展示了HMDD3.0数据集上RGCNMDA预测的前50个与胃癌相关的miRNA以及相应的证据。从中发现前25名的miRNA有23个被验证,前50名的miRNA中有45个被验证。
表1是与两种现有技术进行十次五折交叉验证,在随机清零交叉验证,多列清零交叉验证上的AUC值对比结果,表1的结果表明本发明在AUC这个指标上高于现有技术,证明本发明有效的提高了miRNA-疾病关联预测的精度。
方法 随机清零交叉验证 多列清零交叉验证
NIMCGCN 0.8851 0.7668
MDACNN 0.8936 0.7287
RGCNMDA 0.9072 0.8381
表1
表2是HMDD3.0数据集上RGCNMDA预测的前50个与胃癌相关的miRNA以及相应的证据。从中发现前25名的miRNA有23个被验证,前50名的miRNA中有45个被验证。
Figure BDA0003502636170000081
Figure BDA0003502636170000091
表2
综上所述,在与其他预测方法比较之后,证明了基于关系图卷积网络融合多源信息预测miRNA-疾病方法的有效性。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,其特征在于:
Step1:从数据库中获取miRNA-疾病关联关系数据、疾病-基因关联关系数据、miRNA-基因关联关系数据、miRNA相似性数据Um、疾病相似性数据Ud和基因相似性数据Ug
Step2:利用miRNA-疾病关联关系数据、疾病-基因关联关系数据、miRNA-基因关联关系数据分别构建miRNA-疾病关联关系网络Ymd、疾病-基因关联关系网络Ydg、miRNA-基因关联关系网络Ymg
Step3:搭建包含顺次连接的非线性全连接层、关系图卷积模块、非线性全连接层的网络模型RGCNMDA;利用miRNA相似性数据Um、疾病相似性数据Ud和基因相似性数据Ug构建特征矩阵Fdmg
将构建好的特征矩阵Fdmg,输入到非线性全连接层得到特征F′,然后,将特征F′输入到关系图卷积网络中,得到特征表示h3
Step4:将Step3中得到的特征表示h3输入到非线性全连接层,进行非线性变换,得到非线性特征Q3(h3),利用得到的miRNA的非线性特征Qm和疾病的非线性特征Qd,重构出miRNA-疾病关联矩阵Tmd
Step5:使用损失函数来迭代训练整个网络模型RGCNMDA,最后输出结果。
2.根据权利要求1所述的基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,其特征在于,所述Step1具体为:
从数据库中,获得与nm种miRNA相关联的nd种疾病的H条miRNA-疾病关联关系数据K={K1,K2,...,KH}、获得与nd种疾病相关联的ng种基因的M条疾病-基因关联关系数据L={L1,L2,...,LM}、获得与nm种miRNA相关联的ng种基因的J条miRNA-基因关联关系数据P={P1,P2,...,PJ}、miRNA相似性数据Um、疾病相似性数据Ud和基因相似性数据Ug,其中,nd,nm,ng分别表示疾病,miRNA,基因的数量;
miRNA-疾病关联关系数据中如果该miRNA和疾病有关联,就认为是正样本,否则就认为是负样本。
3.根据权利要求1所述的基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,其特征在于,所述Step3具体为:
所述构建的特征矩阵Fdmg,具体为:
Figure FDA0003502636160000021
把构建好的特征矩阵Fdmg,输入到一层非线性全连接层,得到特征F′,激活函数是RELU,如下所示:
F′=RELU(WdmgFdmg+bdmg)
式中,Wdmg表示权重,bdmg是偏置;
然后,将得到的特征F′,输入到一层关系图卷积网络,再过一层RELU激活函数,再重复此操作,再过一层关系图卷积网络和一层RELU激活函数,得到特征表示h3;具体如下所示:
Figure FDA0003502636160000022
式中,h(l) i∈Rck表示节点i在第l层关系图卷积网络中的嵌入特征表示,ck是潜在特征的维度大小;
Figure FDA0003502636160000023
表示在第l层关系图卷积网络中,聚合的邻居信息的特征向量;R表示链接类型。
4.根据权利要求1所述的基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,其特征在于,所述Step4具体为:
将Step3中得到的特征表示h3进行一个非线性变换,将特征表示h3输入到非线性全连接层,得到嵌入特征Q3(h3),具体如下所示:
Ql(h3)=RELU(WlRELU(...RELU(W1h3+b1)...)+bl)
式中,W1,W2,W3,b1,b2,b3分别是所对应的权重,偏置;
最后分别得到miRNA,疾病,基因的非线性嵌入特征;
(Qd,Qm,Qg)=Ql(h3)
利用得到的miRNA的非线性的特征Qm和疾病的非线性的特征Qd,重构出miRNA-疾病关联矩阵Tmd,具体如下所示:
Tmd=QmWdm(Qd)T
其中,Wdm表示权重,Qm,Qd分别表示miRNA的非线性的特征和疾病的非线性的特征。
5.根据权利要求1所述的基于关系图卷积网络融合多源信息预测miRNA-疾病的方法,其特征在于:所述Step5中的损失函数,为均方差损失函数,具体如下所示:
Figure FDA0003502636160000031
其中,Pπ(.)是矩阵在集合π(训练集的正样本)上的投影,
Figure FDA0003502636160000035
是矩阵在集合
Figure FDA0003502636160000034
(训练集的负样本)上的投影,
Figure FDA0003502636160000032
Figure FDA0003502636160000036
分别表示该模型中的参数,
Figure FDA0003502636160000033
是一个参数值,Tmd是Step4得到的重构miRNA-疾病关联矩阵,Ymd是Step2得到的miRNA-疾病关联关系网络。
CN202210131033.4A 2022-02-13 2022-02-13 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 Pending CN115295156A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210131033.4A CN115295156A (zh) 2022-02-13 2022-02-13 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210131033.4A CN115295156A (zh) 2022-02-13 2022-02-13 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法

Publications (1)

Publication Number Publication Date
CN115295156A true CN115295156A (zh) 2022-11-04

Family

ID=83821014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210131033.4A Pending CN115295156A (zh) 2022-02-13 2022-02-13 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法

Country Status (1)

Country Link
CN (1) CN115295156A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798598A (zh) * 2022-11-16 2023-03-14 大连海事大学 一种基于超图的miRNA-疾病关联预测模型及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798598A (zh) * 2022-11-16 2023-03-14 大连海事大学 一种基于超图的miRNA-疾病关联预测模型及方法
CN115798598B (zh) * 2022-11-16 2023-11-14 大连海事大学 一种基于超图的miRNA-疾病关联预测模型及方法

Similar Documents

Publication Publication Date Title
Wang et al. LDGRNMF: LncRNA-disease associations prediction based on graph regularized non-negative matrix factorization
Fan et al. lncRNA-MFDL: identification of human long non-coding RNAs by fusing multiple features and using deep learning
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
Wen et al. A classification model for lncRNA and mRNA based on k-mers and a convolutional neural network
Wang et al. Weighted matrix factorization on multi-relational data for LncRNA-disease association prediction
CN112599187B (zh) 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
CN107679367B (zh) 一种基于网络节点关联度的共调控网络功能模块识别方法及系统
CN112784913A (zh) 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置
CN113724790B (zh) 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法
CN115019891B (zh) 一种基于半监督图神经网络的个体驱动基因预测方法
CN114093422B (zh) 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其系统
CN105808976A (zh) 一种基于推荐模型的miRNA靶基因预测方法
CN112837747A (zh) 基于注意力孪生网络的蛋白质结合位点预测方法
CN113539372A (zh) 一种LncRNA和疾病关联关系的高效预测方法
CN110993113A (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
CN114842927A (zh) 一种知识图谱注意力网络的药物与通路的关联预测方法
CN115295156A (zh) 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法
Li et al. Multi-view graph neural network with cascaded attention for lncRNA-miRNA interaction prediction
Ghari et al. Generative flow networks assisted biological sequence editing
CN117012282A (zh) 一种基于图注意力网络的rna-疾病相关性预测方法
Jing et al. Prediction of the transcription factor binding sites with meta-learning
CN114141306B (zh) 基于基因相互作用模式优化图表示的远处转移识别方法
CN116343927A (zh) 基于增强的超图卷积自编码算法的miRNA-疾病关联预测方法
CN113313167B (zh) 一种基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法
CN113223622B (zh) 基于元路径的miRNA-疾病关联预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination