CN114093425A

CN114093425A - 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法

Info

Publication number: CN114093425A
Application number: CN202111429635.XA
Authority: CN
Inventors: 王树林; 邹航
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-02-25

Abstract

本发明涉及生物信息学中的数据挖掘领域，具体涉及一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法。其发明内容主要包括：(1)收集相关数据；(2)计算疾病的语义相似性，疾病的靶标相似性、lncRNA的序列相似性、lncRNA的功能相似性(3)利用DDS_sem、LLS_fun、LDA、LMA、DMA构造异构网络net₁；利用DDS_tar、LLS_seq、LDA、LMA、DMS构造异构网络net₂。(4)构造带有注意力机制的神经网络模型，编码器部分通过GCN提取网络中拓扑结构特征，使用注意力机制融合节点间、图间、层间的特征。(5)构建BP神经网络并训练。(6)利用训练好的BP神经网络做预测；(7)进行实验验证预测模型的性能。

Description

一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法

技术领域

本发明涉及生物信息学中的数据挖掘领域，具体涉及一种基于融合多维数据的异构图与图深度学习的lncRNA与疾病关联预测方法。

背景技术

随着人类基因组计划的完成，生命科学的研究进入到功能基因组时代，其任务是进行基因组功能注释，掌握基因产物在生命活动中的作用，建立基因与疾病的关系。长久以来，非编码RNA被视为专录的噪声，不具备任何生物学噪声。然而越来越多的研究表明，非编码RNA在许多生物过程中发挥着重要的作用，其功能几乎涉及到生物体生理及其病理的全部生物学过程。lncRNA就在多种疾病中的转移和发展中发挥着重要的作用，因此深入研究和挖掘lncRNA与疾病的关联，对于研究疾病的发病机理与疾病的预防与治疗有重要的作用。但是由于生物实验周期长，成本高昂。使用生物信息学手段预测与特定疾病有关联的lncRNA是很有必要的。计算方法不仅可以为后续生物实验验证提供可靠的候选lncRNA，同时也可以降低研究时间和成本。但是由于lncRNA与疾病作用机制复杂，而且疾病发病机理通常与各种生物过程相关，因此准确预测lncRNA与疾病关系仍然面临着巨大的挑战。

目前有很多基于生物信息学的lncRNA与疾病关联预测方法被提出来，这些方法大概被分为以下几类：基于传统机器学习的方法、基于矩阵分解的方法、基于生物网络的方法和基于深度学习的方法。Chen等人首次基于相似的疾病倾向与功能相似的lncRNA相关联这一基本假设，提出了LRLSLDA(Laplacian Regularized Least Squares for LncRNA–Disease Association)计算模型,将拉普拉斯正则化最小二乘法应用于lncRNA与疾病关联预测，该模型是一种半监督学习的lncRNA疾病关联预测模型。Lan提出了一种基于支持向量机的方法(LDAP)，这种方法创新点在于融合了多种lncRNA与疾病的相似性测量方法来计算相似性矩阵。此外，还有一些研究人员将矩阵分解的方法用于lncRNA疾病的关联预测。Fu等人提出了一种融合6种相关数据来源(lncRNA、miRNA、基因、基因本体(GO)、疾病本体(DO)、和药物数据)中的11种数据(九个种间的数据和两种种内数据)的方法，该方法利用数据融合的矩阵分解预测lncRNA与疾病关联的方法(MFLDA)。Yu等人对MFLDA做了改进，在模型中的种间数据模块中加入了不同的权重，提出了WMFLDA。基于网络的方法预测疾病相关的lncRNA最近受到很多研究人员的关注，这类方法主要基于一个普遍的生物学假设：“功能相似的lncRNA更倾向于关联功能相似的疾病，反之亦然”。研究人员往往利用与疾病和lncRNA相关的的多种生物数据来构建异构网络实现多种数据的融合，之后利用基于网络的学习算法如随机游走或者各种传播算法探索网络结构进而预测lncRNA与疾病的潜在关联。Chen等人提出基于随机游走算法的IRWRLDA模型，该模型使用疾病lncRNA关联矩阵，疾病的语义相似性矩阵，lncRNA的功能相似性矩阵，表达谱相似性矩阵，高斯核相似性矩阵计算随机游走的初始概率向量，然后在lncRNA-疾病的关联矩阵上进行游走。该模型能够解决孤立lncRNA和孤立疾病的问题。

以上的研究表明，基于融合各种与lncRNA和疾病相关的生物数据构建异构生物网络的计算方法，往往能有很好的表现。深度融合异构网络的关联信息对于提高预测性能有着重要的作用。近年来，基于图深度学习的生物网络信息挖掘方法在关联预测比如miRNA-疾病、药物-靶标等领域取得了显著的成果。Xuan提出了一种基于卷积神经网络进行关联预测的方法，该方法首先基于lncRNA的相似性矩，disease的关联矩阵，疾病的相似性矩阵获得疾病与lncRNA的特征向量，把特征向量拼接之后输入宽卷积神经网络中预测关联。为了很好的获得网络中的拓扑信息，该方法还使用了信息传播的思想，计算了lncRNA与疾病的二阶相似性矩阵与关联矩阵。Sheng提出了一种基于卷积自编码器与变分自编码器的lncRNA-疾病关联预测模型。该模型编码器包含3种部分，基于随机游走与自编码器的节点对的拓扑结构编码，基于变分自编码器的节点对特征分布编码，基于卷积自编码器的节点对特征表示编码。利用注意力机制融合三种节点对特征进而预测关联。

目前计算方法来识别疾病相关的lncRNA引起了很多学者的关注，研究人员开发了很多相关的计算模型，积累了大量的数据，但是目前依然面临着很多的挑战。

发明内容

本发明提出了一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法(MNGCNLDA)，主要包括以下步骤：

1.收集相关数据

首先收集已知的lncRNA-疾病关联数据、lncRNA序列数据、疾病语义性数据、miRNA-疾病关联数据、miRNA-lncRNA关联数据、基因的相似性数据、疾病-基因关联数据。

具体来说，从Lnc2Cancer、LncRNADisease、GenRIF、HMDD(v2.0)、starBase(v2.0)收集了lncRNA、疾病与miRNA之间的关联信息。排除一些稀疏的数据行之后，整理之后得到240个lncRNA、495个miRNA和412个疾病之间的关联信息，其中有2697个lncRNA疾病关联对、13562个miRNA疾病关联对和1002个lncRNAmiRNA关联对；然后从DisGeNET收集了412个疾病的疾病基因关联数据，从HumanNet(v2.0)收集了相关基因的关联性数据，用于计算疾病之间的靶标相似性；此外基于人类疾病分类数据库(Disease Ontology 2015update)，计算疾病的与语义相似性信息；最后从NCBI的核酸数据库中(https://www.ncbi.nlm.nih.gov/nuccore)收集240个lncRNA的基因序列用于计算lncRNA之间的序列相似性。

2.计算疾病与lncRNA相似性

利用已经收集到的数据计算疾病的语义相似性、疾病的靶标基因相似性、lncRNA的序列相似性、lncRNA的功能相似性。

1)疾病语义相似性

DO(Disease Ontology)数据库使用‘IS_A’关联表示两种疾病之间的关联，依据疾病之间的语义关联，可以使用一个有向无环图(DAG)来表示一个疾病及相关疾病的关联关系。疾病D对应的有向无环图使用DAG(D)表示，DAG(D)中疾病d对疾病D的语义贡献值为：

其中Δ表示语义贡献值的衰减系数，默认被设置为0.5。疾病D的语义值为：

则疾病d(i)与疾病d(j)之间的语义相似性计算为:

本发明中使用DincRNA在线工具包获取412个疾病之间的语义相似性矩阵DDS_sem。

2)疾病的靶标基因相似性

首先获取了412个疾病的相关基因，从HumanNet(v2.0)中获取了与之关联的基因之间的相似性数据。则疾病d_i与疾病d_j之间的靶标基因相似性值为：

其中GS_i与GS_j分别表示与疾病d_i与d_j相关的基因集合，S(g,GS_i)表示基因g与基因集GS_i之间的相似性，其计算方式为：

其中GS＝{g_s1,g_s2,…,g_sk}，S(g,g_si)表示基因g与基因g_si之间的相似性，其计算方法为：

对得到的靶标基因相似性数据进行离差标准化计算，得到疾病的基于靶标基因的相似性矩阵DDS_tar。

3)lncRNA之间的功能相似性

基于与相似疾病关联的两个lncRNA可能具有相似的功能这一基本假设，lncRNA之间的功能相似性计算方法为：

其中LS(l(a),l(b))表示l(a),l(b)之间的功能相似性值，DG(a)为与l(a)关联的疾病，DG(a)＝{d(a1),d(a2),…,d(am)}，DG(b)为与l(b)关联的疾病，DG(b)＝{d(b1),d(b2),…,d(bn)}，其中DS(d(ai),d(bj))为疾病d(ai),d(bj)的语义相似性值。计算得到lncRNA的功能相似性矩阵LLS_fun。

4)lncRNA之间的序列相似性

基于lncRNA的基因序列计算lncRNA之间的序列相似性。基于Needleman-Wunsch序列比对算法计算两个lncRNA基因序列之间的匹配得分，其中算法设置匹配得分为5，不匹配罚分为-1，空格罚分为-2。得到lncRNA之间的序列匹配得分矩阵M之后，对矩阵进行离差标准化，具体计算方法为：

最终的得到lncRNA之间的序列相似性矩阵LLS_seq。

3.构造关联矩阵

利用疾病语义相似性矩阵DDS_sem、lncRNA功能相似性矩阵LLS_fun、lncRNA-疾病关联矩阵LDA、lncRNA-miRNA关联矩阵LMA、疾病-miRNA关联矩阵DMA构造异构网络net₁，其邻接矩阵为：

同理，利用疾病靶标基因相似性矩阵DDS_tar、lncRNA序列相似性矩阵LLS_seq、lncRNA-疾病关联矩阵LDA、lncRNA-miRNA关联矩阵LMA、疾病-miRNA关联矩阵DMS构造异构网络net₂，其邻接矩阵为：

4.融合注意力机制的神经网络模型构建

模型的整体结构使用编解码模型，编码器部分通过图卷积神经网络(GCN)提取网络拓扑结构特征获得lncRNA与疾病的特征向量，解码器部分使用得到的特征向量重构关联矩阵。为了能够有效融合不同网络、不同节点、不同网络层之间获取到的特征，使用注意力机制融合节点间、异构图之间、layer之间的特征向量。

1)利用GCN、GAT提取异构图中拓扑特征

图卷积神经网络(GCN)能够通过融合每个节点之间邻居的信息有效的提取图的拓扑结构信息，从而获取节点特征向量。本模型种首先使用GCN提取网络拓扑特征，具体做法如下：

对图的关联矩阵A进行对称归一化计算：

其中D为对角矩阵，

则GCN的输出特征矩阵可以表示为：

其中

表示net1对应的节点特征表示矩阵，

为初始输入特征表示矩阵。

和

为GCN中的训练参数矩阵和偏置矩阵。本发明使用的初始输入特征矩阵X:

考虑到不同的邻居节点可能对于节点的特征学习有不同的重要性，使用图注意力网络(GAT)融合邻居节点的特征从而学习节点的特征表示。对于一个节点i，GAT首先学习邻居节点的重要性权重，节点j对于节点i的注意力权重值计算方式为：

其中W_gat和b表示GAT中的参数矩阵与偏置矩阵，b_i和b_j表示上一层网络节点i与节点j的输出特征。接下来GAT对节点i与所有邻居节点的注意权值做归一化操作：

其中

表示节点i的邻居节点集。最终节点i的特征向量

计算如下：

同样的，在net2中也进行相同如上相同的特征提取方法计算节点在net2中的特征向量。同时为了提取net1与net2中深层次的结构信息，分别在net1与net2中进行了两次GCN、GAT运算，分别得到的输出特征矩阵为

2)异构图间的特征向量融合

本发明使用了疾病与lncRNA的两种相似性数据，构建了两种相似性网络。为了有效地融合不同图之间的信息并且消除其中的噪声数据，考虑使用图间的注意力机制融合GCN与GAT提取net1和net2的不同的输出特征矩阵，计算方法如下：

首先计算两种特征之间的注意力权重并进行归一化：

其中x_i表示节点的初始出入特征向量，

表示节点在不同异构图提取到的不同特征向量，w_z等为参数矩阵。最终融合后的特征向量为：

最终

与

融合后的特征矩阵为Y_layer1，

与

融合后的特征矩阵为Y_layer2，

与

融合后的特征矩阵为Y_layer3，

与

融合后的特征矩阵为Y_layer4。由于不同层得到的特征向量表示了不同层次的特征向量，将每层网络特征矩阵拼接得到编码器的最终输出特征向量：

Y＝[Y_layer1||Y_layer2||Y_layer3||Y_layer4] (18)

3)双线性解码器进行关联预测

其中Y_l和Y_d表示lncRNA与疾病的输出特征向量，A′为lncRNA与疾病关联预测值。损失函数为：

l_reg＝‖W_encoder‖²+‖B_encoder‖²+‖W_encoder‖² (22)

l_total＝l_rec+a_regl_reg (23)

其中l_rec表示预测误差值损失，为了平衡正负样本不均衡问题，α_pos与α_neg分别表示正样本和负样本的误差的权重值；为了防止过拟合，l_reg作为正则化项被添加到最终的损失函数中，其中α_reg为正则化项的权重。

本发明提供一种基于融合注意力机制的图神经网络和多种生物数据异构图的lncRNA与疾病关联预测方法。对比现有的技术，本发明结合了lncRNA序列数据、疾病的靶标基因相似性数据、lncRNA的功能相似性数据、疾病的语义相似性数据，并且将miRNA这一在疾病产生和发展产生重要影响的数据引入到异构网络中，提高了lncRNA与疾病关联预测的准确性。此外在具体的网络模型中的编码器部分，充分发挥了注意力机制的优势，在节点间、异构图之间、层次之间都使用注意力机制，提升了端到端模型的预测性能。

附图说明

为了更清楚地说明本说明书中一个或多个实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1：融合异构网络与图神经网络的lncRNA与疾病关联预测方法的流程示意图

图2：不同数据源的异构生物信息网络示意图

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实验，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

1.数据集概述

本发明中共整理得到240个lncRNA，495个miRNA和412个疾病之间的关联信息与相似性信息。具体为：从LncRNADisease收集到了2697个lncRNA疾病关联对数据；从HMDD(V2.0)收集到13562个miRNA疾病关联对信息；从starBase(V2.0)收集到1002个lncRNA-miRNA关联对信息(Guangyuan,Fu,et al."Matrix Factorization Based Data Fusionfor the Prediction of lncRNA-disease Associations."Bioinformatics 9:9.)。对于疾病相似性数据，本文从DisGeNET收集了412个疾病与18126个基因之间的关联数据，从HumanNet(v2.0)收集相关基因的关联性数据，得到412个疾病之间的基于基因靶标的相似性；此外本方法使用人类疾病分类数据库(Disease Ontology 2015update)，计算疾病之间的语义相似性数据；对于lncRNA的相似性数据，本方法从NCBI的核酸数据库中(https://www.ncbi.nlm.nih.gov/nuccore)收集240个lncRNA的基因序列，计算了lncRNA之间的序列相似性；同时本方法基于疾病的语义相似性矩阵和lncRNA疾病关联矩阵计算了lncRNA的功能相似性。

2.实验环境及参数设置

硬件环境主要是一台PC主机。其中，PC主机的CPU为Intel(R)Core(TM)i5-4460CPU@3.20GHz 3.20GHz，内存为16GB RAM，64位操作系统。软件以Windows 10为平台，在Pycharm环境下用Python语言实现，python版本为3.7.0，Tensorflow版本为1.14.0。

本方法中模型为一个四层网络的双列模型，其中输入特征维度为652，每一层的输出特征维度为64，所有的GAT层计算注意力权重值的隐藏单元维度为8，图间特征向量加权融合部分计算注意力权重的隐藏单元维度为同样设置为8，解码器隐藏单元维度为256。每层之间的激活函数为ReLU激活函数，计算注意力权重部分的激活函数为tanh激活函数。训练中epoches被设置为1000，学习率被设置为0.001，正则化项权重值被设置为1e-4，损失函数为交叉熵损失函数。模型中两个网络模型参数设置相同，具体参数设置如表1所示。

表1：模型结构参数与训练参数表

3.评价指标

本发明中涉及的lncRNA与疾病关联预测问题是一个二分类问题，准确率、精确率、召回率、AUC与AUPR等指标是评价一个二分类问题的重要指标。这些指标的计算方式如下：

表2：二分类混淆矩阵

准确率：用来衡量所有正样本和负样本中被正确分类的样本数量所占的比重，计算公式如下：

精确率：用来衡量预测结果中显示为正样本的数目中真正正样本所占的比重，计算公式如下：

召回率：用来衡量被正确分类的正样本的数量占实际总样本数量的比重，计算公式如下：

AUC：全称为Area under curve,即ROC曲线下的面积，ROC曲线能够反映分类的能力，它的横坐标是falsepositive rate(FPR)，纵坐标是truepositive rate(TPR)，AUC值越接近于1，模型结果越好。

AUPR:全称为Area under Precision/Recall curve，即PR曲线下的面积，PR曲线的横坐标是召回率，纵坐标是精确率。PR曲线容易受到样本分布(训练样本中的正负样本比值)影响，因此AUPR可以用来衡量对非平衡数据集的预测性能。同样的，AUPR值越接近于1表示模型的性能越好。

4.实验结果评估

本节将本方法(MNGCNLDA)与MFLDA(Fu GY et al.Matrix factorization-baseddata fusion for the prediction of lncRNA–disease associations.)、SIMCLDA(Lu CQet al.Prediction of lncRNA–disease associations based on inductive matrixcompletion.Bioinformatics.)、GAMCLDA(Wu X et.al.Inferring lncRNA-diseaseassociations based on graph autoencoder matrix completion.)、GCNLDA(GraphConvolutional Network and Convolutional Neural Network Based Method forPredicting lncRNA-Disease Associations)方法进行了对比。其中，MFLDA和SIMCLDA基于矩阵分解来进行关联预测，GAMCLDA和GCNLDA基于图深度学习进行关联预测。

表3：MNGCNLDA模型与MFLDA、SIMCLDA、GAMCLDA、GCNLDA模型性能对比

对比实验中，选择与MFLDA，SIMCLDA这两种与基于矩阵分解的方法和GAMCLDA、GCNLDA这两种基于图深度学习的方法对比，显示出本模型的较好的性能。实验显示本文模型(MNGCNLDA)在AUC和AUPR上都相对于其他方法有优势。

对比其他方法，本发明方法具有以下的优势，首先融合了疾病语义相似性数据，疾病靶标基因数据，lncRNA的序列数据以及功能现实性数据，其次引用了miRNA这一对与疾病和lncRNA有生物联系的数据，此外引入了多种注意力机制去融合在不同生物网络中提取到的不同特征。从以上实验可以发现本方法有着不错的性能表现。

本领域技术人员可以理解，本发明的保护范围不局限于所述的具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征进行等同的更改或替换，需要注意的是，更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法，其特征在于，实施步骤为：

(1)收集相关数据；

(2)利用已经收集到的数据计算疾病的语义相似性，疾病的靶标相似性、lncRNA的序列相似性、lncRNA的功能相似性。

(3)基于疾病与lncRNA的不同相似性信息以及lncRNA、疾病与miRNA的关联关系构建网络。

(4)构造带有注意力机制的神经网络模型，进行lncRNA与疾病的关联预测。

2.根据权利要求1所述的一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法，其特征在于，对数据集进行收集和预处理，具体包括：从Lnc2Cancer、LncRNADisease、GenRIF、HMDD(v2.0)、starBase(v2.0)收集了lncRNA、疾病与miRNA之间的关联信息。排除一些稀疏的数据行之后，整理得到240个lncRNA，495个miRNA和412个疾病之间的关联信息；从DisGeNET收集了412个疾病的疾病基因关联数据，从HumanNet(v2.0)收集相关基因的关联性数据；收集疾病的与语义相似性信息；从NCBI的核酸数据库收集240个lncRNA的基因序列数据。

3.根据权利要求1所述的一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法，其特征在于，计算各种相似性矩阵：利用已经收集到的数据计算疾病的语义相似性矩阵DDS_sem，疾病的靶标基因相似性矩阵DDS_tar，lncRNA的序列相似性矩阵LLS_seg、lncRNA的功能相似性LLS_fun。

4.根据权利要求1所述的一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法，其特征在于，基于疾病与lncRNA的不同相似性信息以及lncRNA、疾病与miRNA的关联关系构建网络，具体包括：利用DDS_sem、LLS_fun、LDA、LMA、DMA构造异构网络net₁；利用DDS_tar、LLS_seq、LDA、LMA、DMS构造异构网络net₂。

5.根据权利要求1所述的一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法，其特征在于，构造带有注意力机制的神经网络模型，进行lncRNA与疾病的关联预测。具体包括：使用的是编解码模型，编码器部分通过GCN提取网络中拓扑结构特征获得lncRNA与疾病的特征向量，解码器部分使用双线性解码器来重构关联矩阵。为了能够有效的融合不同网络、不同节点、不同网络层之间获取到的特征，使用注意力机制融合节点间、异构图之间、layer之间的特征。