CN112784913B - 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置 - Google Patents

一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置 Download PDF

Info

Publication number
CN112784913B
CN112784913B CN202110128089.XA CN202110128089A CN112784913B CN 112784913 B CN112784913 B CN 112784913B CN 202110128089 A CN202110128089 A CN 202110128089A CN 112784913 B CN112784913 B CN 112784913B
Authority
CN
China
Prior art keywords
disease
mirna
view
similarity
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110128089.XA
Other languages
English (en)
Other versions
CN112784913A (zh
Inventor
骆嘉伟
阳飞
蔡洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110128089.XA priority Critical patent/CN112784913B/zh
Publication of CN112784913A publication Critical patent/CN112784913A/zh
Application granted granted Critical
Publication of CN112784913B publication Critical patent/CN112784913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于图神经网络融合多视图信息的miRNA‑疾病关联预测方法及装置,该方法整合了miRNA‑疾病相关的多组学数据构建了多个视图,不仅考虑多个同质的相似性网络,还考虑了异质的二分网络,结合图神经网络与多视图学习提取各个视图上的节点特征,并通过判别器捕获全局特征与局部特征之间的依赖性,能更好的捕获miRNA与疾病之间的复杂非线性关系。

Description

一种基于图神经网络融合多视图信息的miRNA-疾病关联预测 方法及装置
技术领域
本发明涉及生物人工智能领域,特别涉及一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置。
背景技术
MicroRNA(miRNA)是一类重要的小型非编码RNA分子,通过降解mRNA或者抑制mRNA翻译来调节基因表达。越来越多的证据表明,miRNA在多种癌症相关通路中起着至关重要的作用。因此,识别miRNA-疾病关联可以为了解疾病潜在的致病机理提供新的方向。
利用生物实验鉴别miRNA-疾病关联通常具有较高的准确率,但需要耗费大量的资源和时间成本。近年来,随着人类基因组计划和高通量测序技术的出现及发展,各种生物组学数据呈指数增长,为利用计算方法识别miRNA-疾病关联提供了前所未有的机会,许多预测miRNA-疾病关联的计算方法被提出。然而,现有的技术只考虑了miRNA与疾病之间的片面信息,不能充分的利用多源多组学数据的信息互补。
大量的研究表明多组学数据为机器学习模型提供了同一样本的不同视图,并有望更好地表征生物过程。因此,有必要设计一种能充分利用多组学数据学习miRNA和疾病关系的方法。
发明内容
本发明的目的是提供一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置,旨在结合图神经网络与多视图学习,在一定程度上解决现有技术中的预测miRNA-疾病关联计算方法不能充分利用多组学数据的信息互补,难以捕获miRNA与疾病之间复杂的非线性关系以及预测准确度偏低的问题。
本发明提供的技术方案如下:
一方面,一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法,包括以下步骤:
步骤1:根据miRNA-疾病相关的多组学数据,构建miRNA-疾病关联矩阵,miRNA相似性网络视图、疾病相似性网络视图以及二分网络视图;
步骤2:构建基于图神经网络融合多视图信息的预测模型,包括多图卷积编码模块、二分图卷积编码模块、信息融合模块以及一致性判别器;
利用多图卷积编码模块对miRNA相似性网络视图、疾病相似性网络视图进行多图卷积操作,并对通过卷积操作得到的特征进行融合,得到相似性网络视图中节点的相似性局部特征;
利用二分图卷积编码模块,对二分网络视图进行二分图卷积操作,提取二分网络视图中节点的二分图局部特征;
信息融合模块,将各个视图上获得的miRNA节点和疾病节点的所有局部特征分别进行拼接与压缩,获得miRNA节点和疾病节点的全局特征及内积,得到miRNA节点和疾病节点之间的关联关系;
一致性判别器,用于获取多图卷积编码模块、二分图卷积编码模块得到的局部特征与信息融合模块获得的全局特征之间的一致性;
步骤3:利用已知的miRNA-疾病关联数据作为训练数据,以训练数据按照步骤1处理得到的相似性网络视图和二分网络视图数据作为输入数据,输入基于图神经网络融合多视图信息的预测模型获得miRNA节点和疾病节点之间的关联关系预测值,利用miRNA节点和疾病节点的关联关系已知值和预测值之差的F范数,与一致性判别器所产生的判别损失之和作为损失函数,对预测模型进行训练,当达到设定的训练次数或者损失函数达到设定阈值时,获得训练好的基于图神经网络融合多视图信息的预测模型;
步骤4:将待预测关联关系的miRNA-疾病的多组学数据输入基于图神经网络融合多视图信息的预测模型,对miRNA-疾病的关联关系进行预测。
进一步地,所述miRNA相似性视图包括miRNA功能相似性视图MS1、miRNA语义相似性视图MS2以及miRNA序列相似性视图MS3;
所述疾病相似性视图包括疾病语义相似性视图DS1、疾病表型相似性视图DS2、疾病症状相似性视图DS3;
所述二分网络视图包括miRNA-基因关联图、基因-基因关联图以及疾病-基因关联图。
进一步地,所述miRNA功能相似性视图MS1是根据miRNA-基因的关联图以及基因-基因关联图计算获得,以矩阵形式存储miRNA节点之间的相似性值,具体步骤如下:
首先,从HumanNet下载基因-基因关联数据,获得两个基因间的相互作用强度,通过下式归一化基因-基因关联:
其中,LLS(gi,gj)表示基因gi与基因gj的相互作用强度,LLSmin和LLSmax分别表示HumanNet中最大的LLS值与最小的LLS值;
其次,计算基因gi与基因gj的相似性S(gi,gj):
然后,计算基因与基因集合的相似性,令表示基因集合,基因gt与G的相似性S(gt,G):/>
最后,计算两个miRNAmi与mj的相似性:
其中,Gi与Gj分别表示mi与mj所对应的基因集合,|Gi|和|Gj|分别表示基因集合Gi与Gj中基因的个数。
进一步地,所述疾病语义相似性视图DS1是从MeSH数据库下载疾病的DAG图,对DAG图信息进行转化获得:
令DAGd=(d,Td,Ed)表示疾病d的DAG图,其中,Td表示疾病d及其祖先节点集合,Ed表示图中所有直接相连的有向边的集合,则DAGd中的某一疾病t对疾病d的语义贡献计算如下:
则疾病di与dj的语义相似性DS1(i,j)计算如下:
其中,与/>分别表示疾病t对疾病di与dj的语义贡献值,/>与/>分别表示疾病di与dj及其祖先节点的集合。
进一步地,所述miRNA语义相似性视图MS2是根据MiRGOFS方法计算获得;
所述miRNA序列相似性视图MS3是根据Needleman-Wunsch序列比对算法计算获得;
所述疾病表型相似性视图DS2是根据Hoehndorf的方法构建;
所述疾病症状相似性视图DS3是根据Zhou的方法构建。
进一步地,所述多图卷积编码模块对miRNA相似性网络视图、疾病相似性网络视图进行多图卷积操作,提取相似性网络视图中节点的局部特征,并利用权值共享多层感知机网络单元对每个节点在同类型相似性网络视图中的局部特征进行融合,得到相似性网络视图中节点的相似性局部特征;
所述多图卷积编码模块对miRNA相似性网络视图、疾病相似性网络视图进行多图卷积操作,按照如下公式进行:
其中,Xm和Xd分别表示miRNA节点和疾病节点的初始特征,初始为随机特征;
IN是一个单位矩阵,/> 和/>是一个可学习的权值矩阵,/>表示在第p个miRNA视图进行图卷积操作的第l层的输出特征,/>表示在第q个疾病视图进行图卷积操作的第l层的输出特征;
利用权值共享多层感知机网络单元对每个节点在同类型相似性网络视图中的局部特征进行融合,按以下公式进行:
其中,和fθ分别为miRNA节点权值共享多层感知机网络的全连接层和疾病节点权值共享多层感知机网络的全连接层,/>和/>分别表示融合了多个相似性视图信息的miRNA局部特征和疾病局部特征,/>为第p个miRNA相似性网络视图的节点特征,/>为第q个疾病相似性网络视图的节点特征。
进一步地,利用二分图卷积编码模块,对二分网络视图进行二分图卷积操作,提取二分网络视图中节点的二分图局部特征的过程如下:
首先,利用二分图注意卷积层将miRNA和疾病的信息同时传递给基因,信息传递的公式如下:
其中,表示将信息从miRNA节点传递到基因节点的传播规则,/>表示将信息从疾病节点传递到基因节点的传播规则,/>表示基因节点/>在二分图注意卷积层中第k层的特征,/>表示将/>相邻的miRNA节点的信息传递给/>表示将/>相邻的疾病节点的信息传递给/>
表示二分图,U,V分别表示miRNA和疾病两个领域的节点集合;
bga表示二分图注意卷积层,定义如下:
其中,为可学习的权值矩阵,/>表示节点ui与vj的初始特征,/>表示ui的邻居节点的集合,ρ()表示激活函数,||表示向量拼接,/>表示/>的转秩;
接着,利用GAT在基因-基因网络的边上传播节点特征以增强并建立miRNA-基因与疾病-基因之间的关系模型,传播规则定义如下:
最后,以基因节点作为桥梁,利用基因节点所捕获的信息更新miRNA和疾病的特征:
分别表示miRNA节点/>与疾病节点/>在二分图注意卷积层中第k层的特征;最后,利用所有的/>得到所有miRNA节点与疾病节点的二分图特征/>
进一步地,所述信息融合模块,将各个视图上获得的miRNA节点和疾病节点的所有局部特征分别进行拼接,并利用用于特征压缩的多层感知机网络对拼接后的特征进行压缩,获得miRNA节点和疾病节点的全局特征,按照如下公式进行:
其中,fψ()表示用于特征压缩的多层感知机网络单元中的两个多层感知机网络,Hm,Hd分别表示miRNA和疾病的全局特征。
进一步地,所述一致性判别器采用以下三种中的任意一种;
欧式距离判别器:
利用欧式距离来衡量全局特征与局部特征之间的一致性;
余弦相似性判别器:
考虑到余弦相似性的范围为[-1,1],将余弦相似性的范围调整为[0,1],全局特征与局部特征之间的余弦相似性应尽可能大。
交叉墒判别器:
其中,σ(·)表示softmax函数。
由于交叉墒是非对称的,我们将交叉墒调整为对称的方式,全局特征与局部特征的交叉墒应尽可能大。
另一方面,一种基于图神经网络融合多视图信息的miRNA-疾病关联预测装置,包括:
数据预处理模块:根据miRNA-疾病相关的多组学数据,构建miRNA-疾病关联矩阵,miRNA相似性网络视图、疾病相似性网络视图以及二分网络视图;
预测模型构建模块:构建多图卷积编码模块、二分图卷积编码模块、信息融合模块以及一致性判别器,且多图卷积编码模块、二分图卷积编码模块的输出均与信息融合模块和一致性判别器的输入相连,信息融合模块的输出还与一致性判别器的输入相连;
多图卷积编码模块对miRNA相似性网络视图、疾病相似性网络视图进行多图卷积操作,提取相似性网络视图中节点的局部特征,并利用权值共享多层感知机网络单元对每个节点在同类型相似性网络视图中的局部特征进行融合,得到相似性网络视图中节点的相似性局部特征;
二分图卷积编码模块,对二分网络视图进行二分图卷积操作,提取二分网络视图中节点的二分图局部特征;
信息融合模块,将各个视图上获得的miRNA节点和疾病节点的所有局部特征分别进行拼接,并利用用于特征压缩的多层感知机网络对拼接后的特征进行压缩,获得miRNA节点和疾病节点的全局特征,再利用miRNA节点和疾病节点的全局特征之间的内积,作为miRNA节点和疾病节点之间的关联关系;
一致性判别器,用于获取多图卷积编码模块、二分图卷积编码模块得到的局部特征与信息融合模块获得的全局特征之间的一致性;
训练模块:利用已知的miRNA-疾病关联数据作为训练数据,以训练数据按照步骤1处理得到的相似性网络视图和二分网络视图数据作为输入数据,输入基于图神经网络融合多视图信息的预测模型获得miRNA节点和疾病节点之间的关联关系预测值,利用miRNA节点和疾病节点的关联关系已知值和预测值之差的F范数,与一致性判别器所产生的判别损失之和作为损失函数,对预测模型进行训练,当达到设定的训练次数或者损失函数达到设定阈值时,获得训练好的基于图神经网络融合多视图信息的预测模型;
预测模块:将待预测关联关系的miRNA-疾病的多组学数据输入基于图神经网络融合多视图信息的预测模型,对miRNA-疾病的关联关系进行预测。
有益效果
本发明技术方案提供了一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置,该方法整合了miRNA-疾病相关的多组学数据构建了多个视图,不仅考虑多个同质的相似性网络,还考虑了异质的二分网络,结合图神经网络与多视图学习提取各个视图上的节点特征,并通过判别器捕获全局特征与局部特征之间的依赖性,能更好的捕获miRNA与疾病之间的复杂非线性关系。与现有技术相比,该方法有效的表征了miRNA与疾病之间复杂的非线性关系,提高了预测精度。
与现有的方法相比,该方法具有以下优势:
1、允许兼容多源多组学数据,可以同时处理同质性网络视图(如相似性网络视图)与异质性网络视图(如二分网络视图)。
2、结合了图神经网络与多视图学习的优势,可以充分捕获多视图之间的信息互补,更好的表征miRNA与疾病之间复杂的非线性关系,具有更高的预测精度。
附图说明
图1为本发明的模型框架示意图。
图2为本发明所述方案的预测模型结构内部执行示意图,其中,模块A为多图卷积编码模块,模块B为二分图卷积编码模块,模块C为信息融合模块,模块D为一致性判别器;
图3为本发明实施例的预测结果示意图。
具体实施方式
为了更加清晰的描述本发明的目的、技术以及特点,以下将结合附图与具体实施例对本发明做进一步详细说明。
本发明的具体实施例选取了公开的数据集作为样本,并采用十次五折交叉验证的方法对本发明的技术方案进行评估。
图1展示了模型的总体框架图,分为miRNA模块和疾病模块两个部分,两个模块的内部结构相同。miRNA模块输出miRNA的全局特征,疾病模块输出疾病的全局特征,所学得的miRNA特征和疾病特征通过矩阵相乘操作来重构关联矩阵。
一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法,包括以下步骤:
步骤1:从多源数据库中获取miRNA-疾病相关的多组学数据,根据HMDD数据构建miRNA-疾病关联矩阵Y,并将已知关联的按五折交叉验证的要求划分训练集,测试集。
根据miRNA-疾病相关的多组学数据,构建miRNA功能相似性视图、miRNA语义相似性视图、miRNA序列相似性视图、疾病语义相似性视图、疾病表型相似性视图、疾病症状相似性视图以及二分网络视图。
所述miRNA相似性视图包括miRNA功能相似性视图MS1、miRNA语义相似性视图MS2以及miRNA序列相似性视图MS3;
所述疾病相似性视图包括疾病语义相似性视图DS1、疾病表型相似性视图DS2、疾病症状相似性视图DS3;
所述二分网络视图包括miRNA-基因关联图、基因-基因关联图以及疾病-基因关联图。
所述miRNA功能相似性视图MS1是根据miRNA-基因的关联图以及基因-基因关联图计算获得,以矩阵形式存储miRNA节点之间的相似性值,具体步骤如下:
首先,从HumanNet下载基因-基因关联数据,获得两个基因间的相互作用强度,通过下式归一化基因-基因关联:
其中,LLS(gi,gj)表示基因gi与基因gj的相互作用强度,LLSmin和LLSmax分别表示HumanNet中最大的LLS值与最小的LLS值;
其次,计算基因gi与基因gj的相似性S(gi,gj):
然后,计算基因与基因集合的相似性,令表示基因集合,基因gt与G的相似性S(gt,G):/>
最后,计算两个miRNAmi与mj的相似性:
其中,Gi与Gj分别表示mi与mj所对应的基因集合,|Gi|和|Gj|分别表示基因集合Gi与Gj中基因的个数。
所述疾病语义相似性视图DS1是从MeSH数据库下载疾病的DAG图,对DAG图信息进行转化获得:
令DAGd=(d,Td,Ed)表示疾病d的DAG图,其中,Td表示疾病d及其祖先节点集合,Ed表示图中所有直接相连的有向边的集合,则DAGd中的某一疾病t对疾病d的语义贡献计算如下:
则疾病di与dj的语义相似性DS1(i,j)计算如下:
其中,与/>分别表示疾病t对疾病di与dj的语义贡献值,/>与/>分别表示疾病di与dj及其祖先节点的集合。
所述miRNA语义相似性视图MS2是根据MiRGOFS方法计算获得;
所述miRNA序列相似性视图MS3是根据Needleman-Wunsch序列比对算法计算获得;
所述疾病表型相似性视图DS2是根据Hoehndorf的方法构建;
所述疾病症状相似性视图DS3是根据Zhou的方法构建。
其中,所述Hoehndorf的方法参考文献:Hoehndorf,R.,Schofield,P.&Gkoutos,G.Analysis of the human diseasome using phenotype similarity between common,genetic and infectious diseases.Sci Rep5,10888(2015).https://doi.org/10.1038/srep10888。
所述Zhou的方法参考文献:Zhou,X.,Menche,J.,Barabási,AL.et al.Humansymptoms-disease network.Nat Commun 5,4212(2014).https://doi.org/10.1038/ncomms5212。
步骤2:构建基于图神经网络融合多视图信息的预测模型,包括多图卷积编码模块、二分图卷积编码模块、信息融合模块以及一致性判别器;
利用多图卷积编码模块对miRNA相似性网络视图、疾病相似性网络视图进行多图卷积操作,并对通过卷积操作得到的特征进行融合,得到相似性网络视图中节点的相似性局部特征;
利用二分图卷积编码模块,对二分网络视图进行二分图卷积操作,提取二分网络视图中节点的二分图局部特征;
信息融合模块,将各个视图上获得的miRNA节点和疾病节点的所有局部特征分别进行拼接与压缩,获得miRNA节点和疾病节点的全局特征及内积,得到miRNA节点和疾病节点之间的关联关系;
一致性判别器,用于获取多图卷积编码模块、二分图卷积编码模块得到的局部特征与信息融合模块获得的全局特征之间的一致性;
图2展示了模块的内部执行图,以miRNA节点处理为例,详细介绍具体的执行流程:
首先,通过多图卷积编码器学习多个miRNA相似性网络视图的节点特征,如图2模块A所示,先在各个视图上执行图卷积,再通过一个权重共享的多层感知机将所学得的特征投影到同一子空间,利用求和操作聚合各个视图的特征。
所述多图卷积编码模块对miRNA相似性网络视图、疾病相似性网络视图进行多图卷积操作,提取相似性网络视图中节点的局部特征,并利用权值共享多层感知机网络单元对每个节点在同类型相似性网络视图中的局部特征进行融合,得到相似性网络视图中节点的相似性局部特征;
所述多图卷积编码模块对miRNA相似性网络视图、疾病相似性网络视图进行多图卷积操作,按照如下公式进行:
其中,Xm和Xd分别表示miRNA节点和疾病节点的初始特征,初始为随机特征;
IN是一个单位矩阵,/> 和/>是一个可学习的权值矩阵,/>表示在第p个miRNA视图进行图卷积操作的第l层的输出特征,/>表示在第q个疾病视图进行图卷积操作的第l层的输出特征;
利用权值共享多层感知机网络单元对每个节点在同类型相似性网络视图中的局部特征进行融合,按以下公式进行:
其中,和fθ分别为miRNA节点权值共享多层感知机网络的全连接层和疾病节点权值共享多层感知机网络的全连接层,/>和/>分别表示融合了多个相似性视图信息的miRNA局部特征和疾病局部特征,/>为第p个miRNA相似性网络视图的节点特征,/>为第q个疾病相似性网络视图的节点特征。
然后,利用二分图卷积编码器学习miRNA-基因二分网络视图的节点特征,如图2模块B所示,利用二分图卷积提取二分网络视图的结构信息,再通过多层感知机将节点特征投影到低维空间。
利用二分图卷积编码模块,对二分网络视图进行二分图卷积操作,提取二分网络视图中节点的二分图局部特征的过程如下:
首先,利用二分图注意卷积层将miRNA和疾病的信息同时传递给基因,信息传递的公式如下:
其中,表示将信息从miRNA节点传递到基因节点的传播规则,/>表示将信息从疾病节点传递到基因节点的传播规则,/>表示基因节点/>在二分图注意卷积层中第k层的特征,/>表示将/>相邻的miRNA节点的信息传递给/>表示将/>相邻的疾病节点的信息传递给/>
BG(U,V,ε)表示二分图,U,V分别表示miRNA和疾病两个领域的节点集合;
bga表示二分图注意卷积层,定义如下:
其中,为可学习的权值矩阵,/>表示节点ui与vj的初始特征,/>表示ui的邻居节点的集合,ρ()表示激活函数,||表示向量拼接,/>表示/>的转秩;
接着,利用GAT在基因-基因网络的边上传播节点特征以增强并建立miRNA-基因与疾病-基因之间的关系模型,传播规则定义如下:
最后,以基因节点作为桥梁,利用基因节点所捕获的信息更新miRNA和疾病的特征:
分别表示miRNA节点/>与疾病节点/>在二分图注意卷积层中第k层的特征;最后,利用所有的/>得到所有miRNA节点与疾病节点的二分图特征/>
其次,信息融合模块将两种特征进行拼接,并通过一个多层感知机降维,生成全局的miRNA特征,作为miRNA模块的输出,如图2模块C所示。同时,全局特征也将输入到一致性判别器。
所述信息融合模块,将各个视图上获得的miRNA节点和疾病节点的所有局部特征分别进行拼接,并利用用于特征压缩的多层感知机网络对拼接后的特征进行压缩,获得miRNA节点和疾病节点的全局特征,按照如下公式进行:
其中,fψ()表示用于特征压缩的多层感知机网络单元中的两个多层感知机网络,Hm,Hd分别表示miRNA和疾病的全局特征。
最后,判别器接收多图卷积编码器和二分卷积编码器生成的局部特征,以及信息融合模块生成的全局特征作为其输入,产生一个判别器损失并整合进最终损失函数,约束模型的训练,如图2模块D所示。
所述一致性判别器采用以下三种中的任意一种;
欧式距离判别器:
利用欧式距离来衡量全局特征与局部特征之间的一致性;
余弦相似性判别器:
考虑到余弦相似性的范围为[-1,1],将余弦相似性的范围调整为[0,1],全局特征与局部特征之间的余弦相似性应尽可能大。
交叉墒判别器:
其中,σ(·)表示softmax函数。
由于交叉墒是非对称的,我们将交叉墒调整为对称的方式,全局特征与局部特征的交叉墒应尽可能大。
本实施例选择了余弦相似性判别器。
步骤3:利用已知的miRNA-疾病关联数据作为训练数据,以训练数据按照步骤1处理得到的相似性网络视图和二分网络视图数据作为输入数据,输入基于图神经网络融合多视图信息的预测模型获得miRNA节点和疾病节点之间的关联关系预测值,利用miRNA节点和疾病节点的关联关系已知值和预测值之差的F范数,与一致性判别器所产生的判别损失之和作为损失函数,对预测模型进行训练,当达到设定的训练次数或者损失函数达到设定阈值时,获得训练好的基于图神经网络融合多视图信息的预测模型;
步骤4:将待预测关联关系的miRNA-疾病的多组学数据输入基于图神经网络融合多视图信息的预测模型,对miRNA-疾病的关联关系进行预测。
结果评估:
将利用本发明所述方案的预测模型预测得到的关联矩阵与真实关联标签对比,计算真正率(TPR)与假正率(FPR),绘制ROC曲线计算AUC值(ROC曲线下的面积,面积越大,模型的性能越好),并与现有的方法对比。如图3所示,本发明对比了3种方法,包括NIMCGCN、GRGMF、MDASKF。预测结果表明,本发明所提出的方法其AUC值显著优于对比方法,可以有效提高miRNA-疾病关联预测的性能,具备较高的实用性。
一种基于图神经网络融合多视图信息的miRNA-疾病关联预测装置,包括:
数据预处理模块:根据miRNA-疾病相关的多组学数据,构建miRNA-疾病关联矩阵,miRNA相似性网络视图、疾病相似性网络视图以及二分网络视图;
预测模型构建模块:构建多图卷积编码模块、二分图卷积编码模块、信息融合模块以及一致性判别器,且多图卷积编码模块、二分图卷积编码模块的输出均与信息融合模块和一致性判别器的输入相连,信息融合模块的输出还与一致性判别器的输入相连;
多图卷积编码模块对miRNA相似性网络视图、疾病相似性网络视图进行多图卷积操作,提取相似性网络视图中节点的局部特征,并利用权值共享多层感知机网络单元对每个节点在同类型相似性网络视图中的局部特征进行融合,得到相似性网络视图中节点的相似性局部特征;
二分图卷积编码模块,对二分网络视图进行二分图卷积操作,提取二分网络视图中节点的二分图局部特征;
信息融合模块,将各个视图上获得的miRNA节点和疾病节点的所有局部特征分别进行拼接,并利用用于特征压缩的多层感知机网络对拼接后的特征进行压缩,获得miRNA节点和疾病节点的全局特征,再利用miRNA节点和疾病节点的全局特征之间的内积,作为miRNA节点和疾病节点之间的关联关系;
一致性判别器,用于获取多图卷积编码模块、二分图卷积编码模块得到的局部特征与信息融合模块获得的全局特征之间的一致性;
训练模块:利用已知的miRNA-疾病关联数据作为训练数据,以训练数据按照步骤1处理得到的相似性网络视图和二分网络视图数据作为输入数据,输入基于图神经网络融合多视图信息的预测模型获得miRNA节点和疾病节点之间的关联关系预测值,利用miRNA节点和疾病节点的关联关系已知值和预测值之差的F范数,与一致性判别器所产生的判别损失之和作为损失函数,对预测模型进行训练,当达到设定的训练次数或者损失函数达到设定阈值时,获得训练好的基于图神经网络融合多视图信息的预测模型;
预测模块:将待预测关联关系的miRNA-疾病的多组学数据输入基于图神经网络融合多视图信息的预测模型,对miRNA-疾病的关联关系进行预测。
应当理解,本发明各个实施例中的功能单元模块可以集中在一个处理单元中,也可以是各个单元模块单独物理存在,也可以是两个或两个以上的单元模块集成在一个单元模块中,可以采用硬件或软件的形式来实现。
需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改还是替换,同样属于本发明的保护范围。

Claims (10)

1.一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法,其特征在于,包括以下步骤:
步骤1:根据miRNA-疾病相关的多组学数据,构建miRNA-疾病关联矩阵,miRNA相似性网络视图、疾病相似性网络视图以及二分网络视图;
步骤2:构建基于图神经网络融合多视图信息的预测模型,包括多图卷积编码模块、二分图卷积编码模块、信息融合模块以及一致性判别器;
利用多图卷积编码模块对miRNA相似性网络视图、疾病相似性网络视图进行多图卷积操作,并对通过卷积操作得到的特征进行融合,得到相似性网络视图中节点的相似性局部特征;
利用二分图卷积编码模块,对二分网络视图进行二分图卷积操作,提取二分网络视图中节点的二分图局部特征;
信息融合模块,将各个视图上获得的miRNA节点和疾病节点的所有局部特征分别进行拼接与压缩,获得miRNA节点和疾病节点的全局特征及内积,得到miRNA节点和疾病节点之间的关联关系;
一致性判别器,用于获取多图卷积编码模块、二分图卷积编码模块得到的局部特征与信息融合模块获得的全局特征之间的一致性;
步骤3:利用已知的miRNA-疾病关联数据作为训练数据,以训练数据按照步骤1处理得到的相似性网络视图和二分网络视图数据作为输入数据,输入基于图神经网络融合多视图信息的预测模型获得miRNA节点和疾病节点之间的关联关系预测值,利用miRNA节点和疾病节点的关联关系已知值和预测值之差的F范数,与一致性判别器所产生的判别损失之和作为损失函数,对预测模型进行训练,当达到设定的训练次数或者损失函数达到设定阈值时,获得训练好的基于图神经网络融合多视图信息的预测模型;
步骤4:将待预测关联关系的miRNA-疾病的多组学数据输入基于图神经网络融合多视图信息的预测模型,对miRNA-疾病的关联关系进行预测。
2.根据权利要求1所述的方法,其特征在于,所述miRNA相似性网络视图包括miRNA功能相似性视图MS1、miRNA语义相似性视图MS2以及miRNA序列相似性视图MS3;
所述疾病相似性视图包括疾病语义相似性视图DS1、疾病表型相似性视图DS2、疾病症状相似性视图DS3;
所述二分网络视图包括miRNA-基因关联图、基因-基因关联图以及疾病-基因关联图。
3.根据权利要求2所述的方法,其特征在于,所述miRNA功能相似性视图MS1是根据miRNA-基因的关联图以及基因-基因关联图计算获得,以矩阵形式存储miRNA节点之间的相似性值,具体步骤如下:
首先,从HumanNet下载基因-基因关联数据,获得两个基因间的相互作用强度,通过下式归一化基因-基因关联:
其中,LLS(gi,gj)表示基因gi与基因gj的相互作用强度,LLSmin和LLSmax分别表示HumanNet中最大的LLS值与最小的LLS值;
其次,计算基因gi与基因gj的相似性S(gi,gj):
然后,计算基因与基因集合的相似性,令表示基因集合,基因gt与G的相似性S(gt,G):/>
最后,计算两个miRNAmi与mj的相似性:
其中,Gi与Gj分别表示mi与mj所对应的基因集合,|Gi|和|Gj|分别表示基因集合Gi与Gj中基因的个数。
4.根据权利要求2所述的方法,其特征在于,所述疾病语义相似性视图DS1是从MeSH数据库下载疾病的DAG图,对DAG图信息进行转化获得:
令DAGd=(d,Td,Ed)表示疾病d的DAG图,其中,Td表示疾病d及其祖先节点集合,Ed表示图中所有直接相连的有向边的集合,则DAGd中的某一疾病t对疾病d的语义贡献计算如下:
则疾病di与dj的语义相似性DS1(i,j)计算如下:
其中,与/>分别表示疾病t对疾病di与dj的语义贡献值,/>与/>分别表示疾病di与dj及其祖先节点的集合。
5.根据权利要求2所述的方法,其特征在于,所述miRNA语义相似性视图MS2是根据MiRGOFS方法计算获得;
所述miRNA序列相似性视图MS3是根据Needleman-Wunsch序列比对算法计算获得;
所述疾病表型相似性视图DS2是根据Hoehndorf的方法构建;
所述疾病症状相似性视图DS3是根据Zhou的方法构建。
6.根据权利要求1所述的方法,其特征在于,所述多图卷积编码模块对miRNA相似性网络视图、疾病相似性网络视图进行多图卷积操作,提取相似性网络视图中节点的局部特征,并利用权值共享多层感知机网络单元对每个节点在同类型相似性网络视图中的局部特征进行融合,得到相似性网络视图中节点的相似性局部特征;
所述多图卷积编码模块对miRNA相似性网络视图、疾病相似性网络视图进行多图卷积操作,按照如下公式进行:
其中,Xm和Xd分别表示miRNA节点和疾病节点的初始特征,初始为随机特征;
IN是一个单位矩阵,/> 和/>是一个可学习的权值矩阵,/>表示在第p个miRNA视图进行图卷积操作的第l层的输出特征,/>表示在第q个疾病视图进行图卷积操作的第l层的输出特征;
利用权值共享多层感知机网络单元对每个节点在同类型相似性网络视图中的局部特征进行融合,按以下公式进行:
其中,和fθ分别为miRNA节点权值共享多层感知机网络的全连接层和疾病节点权值共享多层感知机网络的全连接层,/>和/>分别表示融合了多个相似性视图信息的miRNA局部特征和疾病局部特征,/>为第p个miRNA相似性网络视图的节点特征,/>为第q个疾病相似性网络视图的节点特征。
7.根据权利要求1所述的方法,其特征在于,利用二分图卷积编码模块,对二分网络视图进行二分图卷积操作,提取二分网络视图中节点的二分图局部特征的过程如下:
首先,利用二分图注意卷积层将miRNA和疾病的信息同时传递给基因,信息传递的公式如下:
其中,表示将信息从miRNA节点传递到基因节点的传播规则,/>表示将信息从疾病节点传递到基因节点的传播规则,/>表示基因节点/>在二分图注意卷积层中第k层的特征,/>表示将/>相邻的miRNA节点的信息传递给/> 表示将相邻的疾病节点的信息传递给/>
BG(U,V,ε)表示二分图,U,V分别表示miRNA和疾病两个领域的节点集合;
bga表示二分图注意卷积层,定义如下:
其中,为可学习的权值矩阵,/>表示节点ui与vj的初始特征,/>表示ui的邻居节点的集合,ρ()表示激活函数,||表示向量拼接,/>表示/>的转秩;
接着,利用GAT在基因-基因网络的边上传播节点特征以增强并建立miRNA-基因与疾病-基因之间的关系模型,传播规则定义如下:
最后,以基因节点作为桥梁,利用基因节点所捕获的信息更新miRNA和疾病的特征:
分别表示miRNA节点/>与疾病节点/>在二分图注意卷积层中第k层的特征;
最后,利用所有的得到所有miRNA节点与疾病节点的二分图特征/>
8.根据权利要求1所述的方法,其特征在于,所述信息融合模块,将各个视图上获得的miRNA节点和疾病节点的所有局部特征分别进行拼接,并利用用于特征压缩的多层感知机网络对拼接后的特征进行压缩,获得miRNA节点和疾病节点的全局特征,按照如下公式进行:
其中,fψ()表示用于特征压缩的多层感知机网络单元中的两个多层感知机网络,Hm,Hd分别表示miRNA和疾病的全局特征。
9.根据权利要求1所述的方法,其特征在于,所述一致性判别器采用以下三种中的任意一种;
欧式距离判别器:
余弦相似性判别器:
交叉墒判别器:
其中,σ(·)表示softmax函数。
10.一种基于图神经网络融合多视图信息的miRNA-疾病关联预测装置,其特征在于,包括:
数据预处理模块:根据miRNA-疾病相关的多组学数据,构建miRNA-疾病关联矩阵,miRNA相似性网络视图、疾病相似性网络视图以及二分网络视图;
预测模型构建模块:构建多图卷积编码模块、二分图卷积编码模块、信息融合模块以及一致性判别器,且多图卷积编码模块、二分图卷积编码模块的输出均与信息融合模块和一致性判别器的输入相连,信息融合模块的输出还与一致性判别器的输入相连;
多图卷积编码模块对miRNA相似性网络视图、疾病相似性网络视图进行多图卷积操作,提取相似性网络视图中节点的局部特征,并利用权值共享多层感知机网络单元对每个节点在同类型相似性网络视图中的局部特征进行融合,得到相似性网络视图中节点的相似性局部特征;
二分图卷积编码模块,对二分网络视图进行二分图卷积操作,提取二分网络视图中节点的二分图局部特征;
信息融合模块,将各个视图上获得的miRNA节点和疾病节点的所有局部特征分别进行拼接,并利用用于特征压缩的多层感知机网络对拼接后的特征进行压缩,获得miRNA节点和疾病节点的全局特征,再利用miRNA节点和疾病节点的全局特征之间的内积,作为miRNA节点和疾病节点之间的关联关系;
一致性判别器,用于获取多图卷积编码模块、二分图卷积编码模块得到的局部特征与信息融合模块获得的全局特征之间的一致性;
训练模块:利用已知的miRNA-疾病关联数据作为训练数据,以训练数据按照步骤1处理得到的相似性网络视图和二分网络视图数据作为输入数据,输入基于图神经网络融合多视图信息的预测模型获得miRNA节点和疾病节点之间的关联关系预测值,利用miRNA节点和疾病节点的关联关系已知值和预测值之差的F范数,与一致性判别器所产生的判别损失之和作为损失函数,对预测模型进行训练,当达到设定的训练次数或者损失函数达到设定阈值时,获得训练好的基于图神经网络融合多视图信息的预测模型;
预测模块:将待预测关联关系的RNAmiRNA-疾病的多组学数据输入基于图神经网络融合多视图信息的预测模型,对miRNA-疾病的关联关系进行预测。
CN202110128089.XA 2021-01-29 2021-01-29 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置 Active CN112784913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110128089.XA CN112784913B (zh) 2021-01-29 2021-01-29 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110128089.XA CN112784913B (zh) 2021-01-29 2021-01-29 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置

Publications (2)

Publication Number Publication Date
CN112784913A CN112784913A (zh) 2021-05-11
CN112784913B true CN112784913B (zh) 2023-07-25

Family

ID=75759881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110128089.XA Active CN112784913B (zh) 2021-01-29 2021-01-29 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置

Country Status (1)

Country Link
CN (1) CN112784913B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409892B (zh) * 2021-05-13 2023-04-25 西安电子科技大学 基于图神经网络的miRNA-疾病关联关系预测方法
CN113223622B (zh) * 2021-05-14 2023-07-28 西安电子科技大学 基于元路径的miRNA-疾病关联预测方法
CN113838527B (zh) * 2021-09-26 2023-09-01 平安科技(深圳)有限公司 一种靶基因预测模型的生成方法及装置、存储介质
CN114168804B (zh) * 2021-12-17 2022-06-10 中国科学院自动化研究所 一种基于异质子图神经网络的相似信息检索方法和系统
CN114510966B (zh) * 2022-01-14 2023-04-28 电子科技大学 一种基于图神经网络的端到端大脑因果网络构建方法
CN115798598B (zh) * 2022-11-16 2023-11-14 大连海事大学 一种基于超图的miRNA-疾病关联预测模型及方法
WO2024113215A1 (en) * 2022-11-30 2024-06-06 Boe Technology Group Co., Ltd. Computer-implemented method, apparatus, computer-program product
CN115906946B (zh) * 2022-12-11 2024-04-12 山西大学 一种多视图双曲-双曲图表示学习方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506608A (zh) * 2017-09-29 2017-12-22 杭州电子科技大学 一种改进的基于协同过滤的miRNA‑疾病关联预测方法
CN109935332A (zh) * 2019-03-01 2019-06-25 桂林电子科技大学 一种基于双随机游走模型的miRNA-疾病关联预测方法
CN111681705A (zh) * 2020-05-21 2020-09-18 中国科学院深圳先进技术研究院 一种miRNA-疾病关联预测方法、系统、终端以及存储介质
CN112183837A (zh) * 2020-09-22 2021-01-05 曲阜师范大学 一种基于自编码模型的miRNA与疾病关联关系预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635917B (zh) * 2018-10-17 2020-08-25 北京大学 一种多智能体合作决策及训练方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506608A (zh) * 2017-09-29 2017-12-22 杭州电子科技大学 一种改进的基于协同过滤的miRNA‑疾病关联预测方法
CN109935332A (zh) * 2019-03-01 2019-06-25 桂林电子科技大学 一种基于双随机游走模型的miRNA-疾病关联预测方法
CN111681705A (zh) * 2020-05-21 2020-09-18 中国科学院深圳先进技术研究院 一种miRNA-疾病关联预测方法、系统、终端以及存储介质
CN112183837A (zh) * 2020-09-22 2021-01-05 曲阜师范大学 一种基于自编码模型的miRNA与疾病关联关系预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的miRNA与疾病相关性预测算法;王磊;徐涛;宋传东;王海峰;尤著宏;宋克俭;闫欣;;电子学报(第05期);全文 *

Also Published As

Publication number Publication date
CN112784913A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112784913B (zh) 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置
CN113657349B (zh) 一种基于多尺度时空图卷积神经网络的人体行为识别方法
CN112087447A (zh) 面向稀有攻击的网络入侵检测方法
CN113486987A (zh) 基于特征解耦的多源域适应方法
CN115798598B (zh) 一种基于超图的miRNA-疾病关联预测模型及方法
CN107609589A (zh) 一种复杂行为序列数据的特征学习方法
Liang et al. Incomplete multiview clustering with cross-view feature transformation
CN112786160A (zh) 基于图神经网络的多图片输入的多标签胃镜图片分类方法
CN116206327A (zh) 一种基于在线知识蒸馏的图像分类方法
Xu et al. Graphical modeling for multi-source domain adaptation
Zhao et al. Block-wise constrained sparse graph for face image representation
CN116798652A (zh) 一种基于多任务学习的抗癌药物反应预测方法
CN117036760A (zh) 一种基于图对比学习的多视图聚类模型实现方法
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
Xu et al. Cow face recognition for a small sample based on Siamese DB Capsule Network
He et al. Direct interaction network and differential network inference from compositional data via lasso penalized D-trace loss
Manivannan et al. Pelican Optimization with Majority Voting Ensemble Model for Tuberculosis Detection and Classification on Chest X-Ray Images.
Rao et al. Classification of land cover usage from satellite images using deep learning algorithms
Yang et al. iCausalOSR: invertible Causal Disentanglement for Open-set Recognition
CN114330650A (zh) 基于进化元学习模型训练的小样本特征分析方法及装置
Cudic et al. Prediction of sorghum bicolor genotype from in-situ images using autoencoder-identified SNPs
CN114548197A (zh) 一种基于自律学习sdl模型的聚类方法
Cruz et al. Detection of pre-micrornas with convolutional neural networks
CN116192650B (zh) 一种基于子图特征的链路预测方法
Wu et al. Nonnegative matrix factorization: When data is not nonnegative

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant