CN114093425A - 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法 - Google Patents

一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法 Download PDF

Info

Publication number
CN114093425A
CN114093425A CN202111429635.XA CN202111429635A CN114093425A CN 114093425 A CN114093425 A CN 114093425A CN 202111429635 A CN202111429635 A CN 202111429635A CN 114093425 A CN114093425 A CN 114093425A
Authority
CN
China
Prior art keywords
lncrna
disease
similarity
diseases
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111429635.XA
Other languages
English (en)
Inventor
王树林
邹航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202111429635.XA priority Critical patent/CN114093425A/zh
Publication of CN114093425A publication Critical patent/CN114093425A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物信息学中的数据挖掘领域,具体涉及一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法。其发明内容主要包括:(1)收集相关数据;(2)计算疾病的语义相似性,疾病的靶标相似性、lncRNA的序列相似性、lncRNA的功能相似性(3)利用DDSsem、LLSfun、LDA、LMA、DMA构造异构网络net1;利用DDStar、LLSseq、LDA、LMA、DMS构造异构网络net2。(4)构造带有注意力机制的神经网络模型,编码器部分通过GCN提取网络中拓扑结构特征,使用注意力机制融合节点间、图间、层间的特征。(5)构建BP神经网络并训练。(6)利用训练好的BP神经网络做预测;(7)进行实验验证预测模型的性能。

Description

一种融合异构网络与图神经网络的lncRNA与疾病关联预测 方法
技术领域
本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于融合多维数据的异构图与图深度学习的lncRNA与疾病关联预测方法。
背景技术
随着人类基因组计划的完成,生命科学的研究进入到功能基因组时代,其任务是进行基因组功能注释,掌握基因产物在生命活动中的作用,建立基因与疾病的关系。长久以来,非编码RNA被视为专录的噪声,不具备任何生物学噪声。然而越来越多的研究表明,非编码RNA在许多生物过程中发挥着重要的作用,其功能几乎涉及到生物体生理及其病理的全部生物学过程。lncRNA就在多种疾病中的转移和发展中发挥着重要的作用,因此深入研究和挖掘lncRNA与疾病的关联,对于研究疾病的发病机理与疾病的预防与治疗有重要的作用。但是由于生物实验周期长,成本高昂。使用生物信息学手段预测与特定疾病有关联的lncRNA是很有必要的。计算方法不仅可以为后续生物实验验证提供可靠的候选lncRNA,同时也可以降低研究时间和成本。但是由于lncRNA与疾病作用机制复杂,而且疾病发病机理通常与各种生物过程相关,因此准确预测lncRNA与疾病关系仍然面临着巨大的挑战。
目前有很多基于生物信息学的lncRNA与疾病关联预测方法被提出来,这些方法大概被分为以下几类:基于传统机器学习的方法、基于矩阵分解的方法、基于生物网络的方法和基于深度学习的方法。Chen等人首次基于相似的疾病倾向与功能相似的lncRNA相关联这一基本假设,提出了LRLSLDA(Laplacian Regularized Least Squares for LncRNA–Disease Association)计算模型,将拉普拉斯正则化最小二乘法应用于lncRNA与疾病关联预测,该模型是一种半监督学习的lncRNA疾病关联预测模型。Lan提出了一种基于支持向量机的方法(LDAP),这种方法创新点在于融合了多种lncRNA与疾病的相似性测量方法来计算相似性矩阵。此外,还有一些研究人员将矩阵分解的方法用于lncRNA疾病的关联预测。Fu等人提出了一种融合6种相关数据来源(lncRNA、miRNA、基因、基因本体(GO)、疾病本体(DO)、和药物数据)中的11种数据(九个种间的数据和两种种内数据)的方法,该方法利用数据融合的矩阵分解预测lncRNA与疾病关联的方法(MFLDA)。Yu等人对MFLDA做了改进,在模型中的种间数据模块中加入了不同的权重,提出了WMFLDA。基于网络的方法预测疾病相关的lncRNA最近受到很多研究人员的关注,这类方法主要基于一个普遍的生物学假设:“功能相似的lncRNA更倾向于关联功能相似的疾病,反之亦然”。研究人员往往利用与疾病和lncRNA相关的的多种生物数据来构建异构网络实现多种数据的融合,之后利用基于网络的学习算法如随机游走或者各种传播算法探索网络结构进而预测lncRNA与疾病的潜在关联。Chen等人提出基于随机游走算法的IRWRLDA模型,该模型使用疾病lncRNA关联矩阵,疾病的语义相似性矩阵,lncRNA的功能相似性矩阵,表达谱相似性矩阵,高斯核相似性矩阵计算随机游走的初始概率向量,然后在lncRNA-疾病的关联矩阵上进行游走。该模型能够解决孤立lncRNA和孤立疾病的问题。
以上的研究表明,基于融合各种与lncRNA和疾病相关的生物数据构建异构生物网络的计算方法,往往能有很好的表现。深度融合异构网络的关联信息对于提高预测性能有着重要的作用。近年来,基于图深度学习的生物网络信息挖掘方法在关联预测比如miRNA-疾病、药物-靶标等领域取得了显著的成果。Xuan提出了一种基于卷积神经网络进行关联预测的方法,该方法首先基于lncRNA的相似性矩,disease的关联矩阵,疾病的相似性矩阵获得疾病与lncRNA的特征向量,把特征向量拼接之后输入宽卷积神经网络中预测关联。为了很好的获得网络中的拓扑信息,该方法还使用了信息传播的思想,计算了lncRNA与疾病的二阶相似性矩阵与关联矩阵。Sheng提出了一种基于卷积自编码器与变分自编码器的lncRNA-疾病关联预测模型。该模型编码器包含3种部分,基于随机游走与自编码器的节点对的拓扑结构编码,基于变分自编码器的节点对特征分布编码,基于卷积自编码器的节点对特征表示编码。利用注意力机制融合三种节点对特征进而预测关联。
目前计算方法来识别疾病相关的lncRNA引起了很多学者的关注,研究人员开发了很多相关的计算模型,积累了大量的数据,但是目前依然面临着很多的挑战。
发明内容
本发明提出了一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法(MNGCNLDA),主要包括以下步骤:
1.收集相关数据
首先收集已知的lncRNA-疾病关联数据、lncRNA序列数据、疾病语义性数据、miRNA-疾病关联数据、miRNA-lncRNA关联数据、基因的相似性数据、疾病-基因关联数据。
具体来说,从Lnc2Cancer、LncRNADisease、GenRIF、HMDD(v2.0)、starBase(v2.0)收集了lncRNA、疾病与miRNA之间的关联信息。排除一些稀疏的数据行之后,整理之后得到240个lncRNA、495个miRNA和412个疾病之间的关联信息,其中有2697个lncRNA疾病关联对、13562个miRNA疾病关联对和1002个lncRNAmiRNA关联对;然后从DisGeNET收集了412个疾病的疾病基因关联数据,从HumanNet(v2.0)收集了相关基因的关联性数据,用于计算疾病之间的靶标相似性;此外基于人类疾病分类数据库(Disease Ontology 2015update),计算疾病的与语义相似性信息;最后从NCBI的核酸数据库中(https://www.ncbi.nlm.nih.gov/nuccore)收集240个lncRNA的基因序列用于计算lncRNA之间的序列相似性。
2.计算疾病与lncRNA相似性
利用已经收集到的数据计算疾病的语义相似性、疾病的靶标基因相似性、lncRNA的序列相似性、lncRNA的功能相似性。
1)疾病语义相似性
DO(Disease Ontology)数据库使用‘IS_A’关联表示两种疾病之间的关联,依据疾病之间的语义关联,可以使用一个有向无环图(DAG)来表示一个疾病及相关疾病的关联关系。疾病D对应的有向无环图使用DAG(D)表示,DAG(D)中疾病d对疾病D的语义贡献值为:
Figure BDA0003379763180000031
其中Δ表示语义贡献值的衰减系数,默认被设置为0.5。疾病D的语义值为:
Figure BDA0003379763180000032
则疾病d(i)与疾病d(j)之间的语义相似性计算为:
Figure BDA0003379763180000033
本发明中使用DincRNA在线工具包获取412个疾病之间的语义相似性矩阵DDSsem
2)疾病的靶标基因相似性
首先获取了412个疾病的相关基因,从HumanNet(v2.0)中获取了与之关联的基因之间的相似性数据。则疾病di与疾病dj之间的靶标基因相似性值为:
Figure BDA0003379763180000034
其中GSi与GSj分别表示与疾病di与dj相关的基因集合,S(g,GSi)表示基因g与基因集GSi之间的相似性,其计算方式为:
Figure BDA0003379763180000035
其中GS={gs1,gs2,…,gsk},S(g,gsi)表示基因g与基因gsi之间的相似性,其计算方法为:
Figure BDA0003379763180000036
对得到的靶标基因相似性数据进行离差标准化计算,得到疾病的基于靶标基因的相似性矩阵DDStar
3)lncRNA之间的功能相似性
基于与相似疾病关联的两个lncRNA可能具有相似的功能这一基本假设,lncRNA之间的功能相似性计算方法为:
Figure BDA0003379763180000041
其中LS(l(a),l(b))表示l(a),l(b)之间的功能相似性值,DG(a)为与l(a)关联的疾病,DG(a)={d(a1),d(a2),…,d(am)},DG(b)为与l(b)关联的疾病,DG(b)={d(b1),d(b2),…,d(bn)},其中DS(d(ai),d(bj))为疾病d(ai),d(bj)的语义相似性值。计算得到lncRNA的功能相似性矩阵LLSfun
4)lncRNA之间的序列相似性
基于lncRNA的基因序列计算lncRNA之间的序列相似性。基于Needleman-Wunsch序列比对算法计算两个lncRNA基因序列之间的匹配得分,其中算法设置匹配得分为5,不匹配罚分为-1,空格罚分为-2。得到lncRNA之间的序列匹配得分矩阵M之后,对矩阵进行离差标准化,具体计算方法为:
Figure BDA0003379763180000042
Figure BDA0003379763180000043
最终的得到lncRNA之间的序列相似性矩阵LLSseq
3.构造关联矩阵
利用疾病语义相似性矩阵DDSsem、lncRNA功能相似性矩阵LLSfun、lncRNA-疾病关联矩阵LDA、lncRNA-miRNA关联矩阵LMA、疾病-miRNA关联矩阵DMA构造异构网络net1,其邻接矩阵为:
Figure BDA0003379763180000044
同理,利用疾病靶标基因相似性矩阵DDStar、lncRNA序列相似性矩阵LLSseq、lncRNA-疾病关联矩阵LDA、lncRNA-miRNA关联矩阵LMA、疾病-miRNA关联矩阵DMS构造异构网络net2,其邻接矩阵为:
Figure BDA0003379763180000051
4.融合注意力机制的神经网络模型构建
模型的整体结构使用编解码模型,编码器部分通过图卷积神经网络(GCN)提取网络拓扑结构特征获得lncRNA与疾病的特征向量,解码器部分使用得到的特征向量重构关联矩阵。为了能够有效融合不同网络、不同节点、不同网络层之间获取到的特征,使用注意力机制融合节点间、异构图之间、layer之间的特征向量。
1)利用GCN、GAT提取异构图中拓扑特征
图卷积神经网络(GCN)能够通过融合每个节点之间邻居的信息有效的提取图的拓扑结构信息,从而获取节点特征向量。本模型种首先使用GCN提取网络拓扑特征,具体做法如下:
对图的关联矩阵A进行对称归一化计算:
Figure BDA0003379763180000052
其中D为对角矩阵,
Figure BDA0003379763180000053
则GCN的输出特征矩阵可以表示为:
Figure BDA0003379763180000054
其中
Figure BDA0003379763180000055
表示net1对应的节点特征表示矩阵,
Figure BDA0003379763180000056
为初始输入特征表示矩阵。
Figure BDA0003379763180000057
Figure BDA0003379763180000058
为GCN中的训练参数矩阵和偏置矩阵。本发明使用的初始输入特征矩阵X:
Figure BDA0003379763180000059
考虑到不同的邻居节点可能对于节点的特征学习有不同的重要性,使用图注意力网络(GAT)融合邻居节点的特征从而学习节点的特征表示。对于一个节点i,GAT首先学习邻居节点的重要性权重,节点j对于节点i的注意力权重值计算方式为:
Figure BDA00033797631800000510
其中Wgat和b表示GAT中的参数矩阵与偏置矩阵,bi和bj表示上一层网络节点i与节点j的输出特征。接下来GAT对节点i与所有邻居节点的注意权值做归一化操作:
Figure BDA0003379763180000061
其中
Figure BDA0003379763180000062
表示节点i的邻居节点集。最终节点i的特征向量
Figure BDA0003379763180000063
计算如下:
Figure BDA0003379763180000064
同样的,在net2中也进行相同如上相同的特征提取方法计算节点在net2中的特征向量。同时为了提取net1与net2中深层次的结构信息,分别在net1与net2中进行了两次GCN、GAT运算,分别得到的输出特征矩阵为
Figure BDA0003379763180000065
2)异构图间的特征向量融合
本发明使用了疾病与lncRNA的两种相似性数据,构建了两种相似性网络。为了有效地融合不同图之间的信息并且消除其中的噪声数据,考虑使用图间的注意力机制融合GCN与GAT提取net1和net2的不同的输出特征矩阵,计算方法如下:
首先计算两种特征之间的注意力权重并进行归一化:
Figure BDA0003379763180000066
Figure BDA0003379763180000067
其中xi表示节点的初始出入特征向量,
Figure BDA0003379763180000068
表示节点在不同异构图提取到的不同特征向量,wz等为参数矩阵。最终融合后的特征向量为:
Figure BDA0003379763180000069
最终
Figure BDA00033797631800000610
Figure BDA00033797631800000611
融合后的特征矩阵为Ylayer1
Figure BDA00033797631800000612
Figure BDA00033797631800000613
融合后的特征矩阵为Ylayer2
Figure BDA00033797631800000614
Figure BDA00033797631800000615
融合后的特征矩阵为Ylayer3
Figure BDA00033797631800000616
Figure BDA00033797631800000617
融合后的特征矩阵为Ylayer4。由于不同层得到的特征向量表示了不同层次的特征向量,将每层网络特征矩阵拼接得到编码器的最终输出特征向量:
Y=[Ylayer1||Ylayer2||Ylayer3||Ylayer4] (18)
3)双线性解码器进行关联预测
Figure BDA00033797631800000618
其中Yl和Yd表示lncRNA与疾病的输出特征向量,A′为lncRNA与疾病关联预测值。损失函数为:
Figure BDA0003379763180000071
Figure BDA0003379763180000072
lreg=‖Wencoder2+‖Bencoder2+‖Wencoder2 (22)
ltotal=lrec+areglreg (23)
其中lrec表示预测误差值损失,为了平衡正负样本不均衡问题,αpos与αneg分别表示正样本和负样本的误差的权重值;为了防止过拟合,lreg作为正则化项被添加到最终的损失函数中,其中αreg为正则化项的权重。
本发明提供一种基于融合注意力机制的图神经网络和多种生物数据异构图的lncRNA与疾病关联预测方法。对比现有的技术,本发明结合了lncRNA序列数据、疾病的靶标基因相似性数据、lncRNA的功能相似性数据、疾病的语义相似性数据,并且将miRNA这一在疾病产生和发展产生重要影响的数据引入到异构网络中,提高了lncRNA与疾病关联预测的准确性。此外在具体的网络模型中的编码器部分,充分发挥了注意力机制的优势,在节点间、异构图之间、层次之间都使用注意力机制,提升了端到端模型的预测性能。
附图说明
为了更清楚地说明本说明书中一个或多个实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1:融合异构网络与图神经网络的lncRNA与疾病关联预测方法的流程示意图
图2:不同数据源的异构生物信息网络示意图
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实验,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
1.数据集概述
本发明中共整理得到240个lncRNA,495个miRNA和412个疾病之间的关联信息与相似性信息。具体为:从LncRNADisease收集到了2697个lncRNA疾病关联对数据;从HMDD(V2.0)收集到13562个miRNA疾病关联对信息;从starBase(V2.0)收集到1002个lncRNA-miRNA关联对信息(Guangyuan,Fu,et al."Matrix Factorization Based Data Fusionfor the Prediction of lncRNA-disease Associations."Bioinformatics 9:9.)。对于疾病相似性数据,本文从DisGeNET收集了412个疾病与18126个基因之间的关联数据,从HumanNet(v2.0)收集相关基因的关联性数据,得到412个疾病之间的基于基因靶标的相似性;此外本方法使用人类疾病分类数据库(Disease Ontology 2015update),计算疾病之间的语义相似性数据;对于lncRNA的相似性数据,本方法从NCBI的核酸数据库中(https://www.ncbi.nlm.nih.gov/nuccore)收集240个lncRNA的基因序列,计算了lncRNA之间的序列相似性;同时本方法基于疾病的语义相似性矩阵和lncRNA疾病关联矩阵计算了lncRNA的功能相似性。
2.实验环境及参数设置
硬件环境主要是一台PC主机。其中,PC主机的CPU为Intel(R)Core(TM)i5-4460CPU@3.20GHz 3.20GHz,内存为16GB RAM,64位操作系统。软件以Windows 10为平台,在Pycharm环境下用Python语言实现,python版本为3.7.0,Tensorflow版本为1.14.0。
本方法中模型为一个四层网络的双列模型,其中输入特征维度为652,每一层的输出特征维度为64,所有的GAT层计算注意力权重值的隐藏单元维度为8,图间特征向量加权融合部分计算注意力权重的隐藏单元维度为同样设置为8,解码器隐藏单元维度为256。每层之间的激活函数为ReLU激活函数,计算注意力权重部分的激活函数为tanh激活函数。训练中epoches被设置为1000,学习率被设置为0.001,正则化项权重值被设置为1e-4,损失函数为交叉熵损失函数。模型中两个网络模型参数设置相同,具体参数设置如表1所示。
表1:模型结构参数与训练参数表
Figure BDA0003379763180000091
3.评价指标
本发明中涉及的lncRNA与疾病关联预测问题是一个二分类问题,准确率、精确率、召回率、AUC与AUPR等指标是评价一个二分类问题的重要指标。这些指标的计算方式如下:
表2:二分类混淆矩阵
Figure BDA0003379763180000092
准确率:用来衡量所有正样本和负样本中被正确分类的样本数量所占的比重,计算公式如下:
Figure BDA0003379763180000093
精确率:用来衡量预测结果中显示为正样本的数目中真正正样本所占的比重,计算公式如下:
Figure BDA0003379763180000101
召回率:用来衡量被正确分类的正样本的数量占实际总样本数量的比重,计算公式如下:
Figure BDA0003379763180000102
AUC:全称为Area under curve,即ROC曲线下的面积,ROC曲线能够反映分类的能力,它的横坐标是falsepositive rate(FPR),纵坐标是truepositive rate(TPR),AUC值越接近于1,模型结果越好。
AUPR:全称为Area under Precision/Recall curve,即PR曲线下的面积,PR曲线的横坐标是召回率,纵坐标是精确率。PR曲线容易受到样本分布(训练样本中的正负样本比值)影响,因此AUPR可以用来衡量对非平衡数据集的预测性能。同样的,AUPR值越接近于1表示模型的性能越好。
4.实验结果评估
本节将本方法(MNGCNLDA)与MFLDA(Fu GY et al.Matrix factorization-baseddata fusion for the prediction of lncRNA–disease associations.)、SIMCLDA(Lu CQet al.Prediction of lncRNA–disease associations based on inductive matrixcompletion.Bioinformatics.)、GAMCLDA(Wu X et.al.Inferring lncRNA-diseaseassociations based on graph autoencoder matrix completion.)、GCNLDA(GraphConvolutional Network and Convolutional Neural Network Based Method forPredicting lncRNA-Disease Associations)方法进行了对比。其中,MFLDA和SIMCLDA基于矩阵分解来进行关联预测,GAMCLDA和GCNLDA基于图深度学习进行关联预测。
表3:MNGCNLDA模型与MFLDA、SIMCLDA、GAMCLDA、GCNLDA模型性能对比
Figure BDA0003379763180000103
对比实验中,选择与MFLDA,SIMCLDA这两种与基于矩阵分解的方法和GAMCLDA、GCNLDA这两种基于图深度学习的方法对比,显示出本模型的较好的性能。实验显示本文模型(MNGCNLDA)在AUC和AUPR上都相对于其他方法有优势。
对比其他方法,本发明方法具有以下的优势,首先融合了疾病语义相似性数据,疾病靶标基因数据,lncRNA的序列数据以及功能现实性数据,其次引用了miRNA这一对与疾病和lncRNA有生物联系的数据,此外引入了多种注意力机制去融合在不同生物网络中提取到的不同特征。从以上实验可以发现本方法有着不错的性能表现。
本领域技术人员可以理解,本发明的保护范围不局限于所述的具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征进行等同的更改或替换,需要注意的是,更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (5)

1.一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法,其特征在于,实施步骤为:
(1)收集相关数据;
(2)利用已经收集到的数据计算疾病的语义相似性,疾病的靶标相似性、lncRNA的序列相似性、lncRNA的功能相似性。
(3)基于疾病与lncRNA的不同相似性信息以及lncRNA、疾病与miRNA的关联关系构建网络。
(4)构造带有注意力机制的神经网络模型,进行lncRNA与疾病的关联预测。
2.根据权利要求1所述的一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法,其特征在于,对数据集进行收集和预处理,具体包括:从Lnc2Cancer、LncRNADisease、GenRIF、HMDD(v2.0)、starBase(v2.0)收集了lncRNA、疾病与miRNA之间的关联信息。排除一些稀疏的数据行之后,整理得到240个lncRNA,495个miRNA和412个疾病之间的关联信息;从DisGeNET收集了412个疾病的疾病基因关联数据,从HumanNet(v2.0)收集相关基因的关联性数据;收集疾病的与语义相似性信息;从NCBI的核酸数据库收集240个lncRNA的基因序列数据。
3.根据权利要求1所述的一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法,其特征在于,计算各种相似性矩阵:利用已经收集到的数据计算疾病的语义相似性矩阵DDSsem,疾病的靶标基因相似性矩阵DDStar,lncRNA的序列相似性矩阵LLSseg、lncRNA的功能相似性LLSfun
4.根据权利要求1所述的一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法,其特征在于,基于疾病与lncRNA的不同相似性信息以及lncRNA、疾病与miRNA的关联关系构建网络,具体包括:利用DDSsem、LLSfun、LDA、LMA、DMA构造异构网络net1;利用DDStar、LLSseq、LDA、LMA、DMS构造异构网络net2
5.根据权利要求1所述的一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法,其特征在于,构造带有注意力机制的神经网络模型,进行lncRNA与疾病的关联预测。具体包括:使用的是编解码模型,编码器部分通过GCN提取网络中拓扑结构特征获得lncRNA与疾病的特征向量,解码器部分使用双线性解码器来重构关联矩阵。为了能够有效的融合不同网络、不同节点、不同网络层之间获取到的特征,使用注意力机制融合节点间、异构图之间、layer之间的特征。
CN202111429635.XA 2021-11-29 2021-11-29 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法 Pending CN114093425A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111429635.XA CN114093425A (zh) 2021-11-29 2021-11-29 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111429635.XA CN114093425A (zh) 2021-11-29 2021-11-29 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法

Publications (1)

Publication Number Publication Date
CN114093425A true CN114093425A (zh) 2022-02-25

Family

ID=80305351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111429635.XA Pending CN114093425A (zh) 2021-11-29 2021-11-29 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法

Country Status (1)

Country Link
CN (1) CN114093425A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114582508A (zh) * 2022-03-04 2022-06-03 安徽大学 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法
CN114613437A (zh) * 2022-03-08 2022-06-10 电子科技大学 一种基于异构图的miRNA与疾病关联预测方法及系统
CN115101120A (zh) * 2022-06-27 2022-09-23 山东大学 基于数据融合的玉米可变剪接异构体功能预测系统
CN115798598A (zh) * 2022-11-16 2023-03-14 大连海事大学 一种基于超图的miRNA-疾病关联预测模型及方法
CN116052774A (zh) * 2022-07-04 2023-05-02 湖南中医药大学 基于深度学习的关键miRNA识别方法及系统
CN116705148A (zh) * 2023-07-24 2023-09-05 中国人民解放军总医院 基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统
CN117393143A (zh) * 2023-10-11 2024-01-12 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于图表示学习的环状rna-疾病关联预测方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114582508A (zh) * 2022-03-04 2022-06-03 安徽大学 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法
CN114582508B (zh) * 2022-03-04 2024-03-15 安徽大学 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法
CN114613437A (zh) * 2022-03-08 2022-06-10 电子科技大学 一种基于异构图的miRNA与疾病关联预测方法及系统
CN114613437B (zh) * 2022-03-08 2023-05-26 电子科技大学 一种基于异构图的miRNA与疾病关联预测方法及系统
CN115101120A (zh) * 2022-06-27 2022-09-23 山东大学 基于数据融合的玉米可变剪接异构体功能预测系统
CN115101120B (zh) * 2022-06-27 2024-04-16 山东大学 基于数据融合的玉米可变剪接异构体功能预测系统
CN116052774B (zh) * 2022-07-04 2023-11-28 湖南中医药大学 基于深度学习的关键miRNA识别方法及系统
CN116052774A (zh) * 2022-07-04 2023-05-02 湖南中医药大学 基于深度学习的关键miRNA识别方法及系统
CN115798598A (zh) * 2022-11-16 2023-03-14 大连海事大学 一种基于超图的miRNA-疾病关联预测模型及方法
CN115798598B (zh) * 2022-11-16 2023-11-14 大连海事大学 一种基于超图的miRNA-疾病关联预测模型及方法
CN116705148B (zh) * 2023-07-24 2023-10-27 中国人民解放军总医院 基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统
CN116705148A (zh) * 2023-07-24 2023-09-05 中国人民解放军总医院 基于拉普拉斯最小二乘法的抗病毒药物筛选方法及系统
CN117393143A (zh) * 2023-10-11 2024-01-12 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于图表示学习的环状rna-疾病关联预测方法

Similar Documents

Publication Publication Date Title
CN114093425A (zh) 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法
CN108231201B (zh) 一种疾病数据分析处理模型的构建方法、系统及应用方法
Maraziotis A semi-supervised fuzzy clustering algorithm applied to gene expression data
CN109034960B (zh) 一种基于用户节点嵌入的多属性推断的方法
CN112487193B (zh) 一种基于自编码器的零样本图片分类方法
CN111768027A (zh) 基于强化学习的再犯罪风险预测方法、介质和计算设备
CN110175689A (zh) 一种概率预测的方法、模型训练的方法及装置
CN112215259B (zh) 基因选择方法和装置
CN112992267A (zh) 一种单细胞的转录因子调控网络预测方法及装置
Dong et al. EPMDA: edge perturbation based method for miRNA-disease association prediction
CN115641956A (zh) 一种面向疾病预测的表型分析方法
CN110874392B (zh) 基于深度双向注意力机制的文本网络信息融合嵌入方法
Xia et al. Descriptor selection improvements for quantitative structure-activity relationships
CN116580848A (zh) 一种基于多头注意力机制的分析癌症多组学数据方法
CN113517030B (zh) 基于病毒传播网络的基因序列表示学习方法
Li et al. Integrating sample similarities into latent class analysis: a tree‐structured shrinkage approach
CN116543832A (zh) 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用
CN114547312B (zh) 基于常识知识图谱的情感分析方法、装置以及设备
CN113192562B (zh) 融合多尺度模块结构信息的致病基因识别方法及系统
CN112151184B (zh) 基于网络表示学习的计算疾病相似度系统
CN113223655B (zh) 基于变分自编码器的药物-疾病关联预测方法
CN115661498A (zh) 一种自优化单细胞聚类方法
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
Kermani et al. Integrating graph structure information and node attributes to predict protein-protein interactions
Liu et al. A novel model-based on FCM–LM algorithm for prediction of protein folding rate

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination