CN115295156A

CN115295156A - 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法

Info

Publication number: CN115295156A
Application number: CN202210131033.4A
Authority: CN
Inventors: 彭玮; 车自成; 戴伟
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-02-13
Filing date: 2022-02-13
Publication date: 2022-11-04

Abstract

本发明涉及一种基于关系图卷积网络融合多源信息预测miRNA‑疾病的方法，属于系统生物学技术领域。本发明首先从数据库中获取miRNA‑疾病关联关系数据、疾病‑基因关联关系数据、miRNA‑基因关联关系数据、miRNA相似性数据、疾病相似性数据和基因相似性数据；再利用miRNA‑疾病关联关系数据，疾病‑基因关联关系数据，miRNA‑基因关联关系数据分别构建miRNA‑疾病关联关系网络，疾病‑基因关联关系网络，miRNA‑基因关联关系网络；然后利用miRNA相似性数据，疾病相似性数据，基因相似性数据，构建特征矩阵。将构建好的特征矩阵先进行非线性变化，再使用关系图卷积网络学习嵌入特征，重构出miRNA‑疾病关联矩阵；最后使用均方差损失函数来训练整个模型，最后输出结果。

Description

一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法

技术领域

本发明涉及一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法，属于系统生物学技术领域。

背景技术

miRNA是一种内源性的单链非编码RNA分子，其长度在20-24个核苷酸之间，在多种生物过程中发挥着重要作用。它们在转录后水平上抑制靶mRNA的表达，并且在调节基因表达和复杂的基因调控网络中扮演着十分重要的角色。许多研究表明miRNA与人类疾病有关，这表明miRNA可能是各种疾病的潜在生物标志。研究还表明，许多miRNA与人类疾病，癌症，免疫相关疾病，帕金森氏病等有关。因此，检测miRNA与疾病之间的关联有助于疾病的诊断和治疗。由于利用生物实验来确定miRNA和疾病之间的关联既费时又昂贵，因此人们正在使用计算方法来确定miRNA和疾病之间的潜在关联。

例如2020年发表在《Systems biology》上的文章“Neural Inductive MatrixCompletion with Graph Convolutional Networks for miRNA-disease AssociationPrediction”。该文章提出了一种基于图卷积网络(NIMCGCN)的神经诱导矩阵补全预测miRNA-疾病相关联的新方法。NIMCGCN首先使用图卷积网络(GCN)去学习miRNA和疾病的潜在特征表示。然后，将学习到的特征输入到一种新的神经诱导矩阵补全(NIMC)模型中，生成关联矩阵。NIMCGCN的参数是基于已知的miRNA-疾病关联数据，以端到端方式学习的。

又如2019年发表在《Bioinformatics》上的文章“A learning-based frameworkfor miRNA-disease association prediction using neural networks”。该文章提出了一个新的基于学习的框架，MDA-CNN，来识别miRNA和疾病之间的关联。为了达到这个目标，MDA-CNN包含三个步骤。首先，构建包含一个miRNA层，疾病层，基因层的三层网络。应用一个回归模型来分别计算疾病-基因和miRNA-基因的关联评分。根据疾病层和基因层计算疾病-基因的关联评分。基于miRNA层和基因层计算miRNA-基因的关联评分。对于每种miRNA或疾病，根据其与基因的关联生成了一个表达其特征的载体。其次，给定一对miRNA和疾病，将其特征载体拼接通过基于自编码器的模型得到miRNA-疾病对的低维表达。最后，构建深度卷积神经网络(CNN)架构，根据最后一步得到的向量空间表示，预测miRNA与疾病之间的关联。

尽管上述方法对miRNA-疾病关联的研究是有效的，但目前的研究结果仍存在一定的局限性。一方面，miRNA通过调控其靶基因与许多人类疾病有关，表明基因在连接miRNA和疾病方面起着关键作用。另一方面基于相似性度量的方法的预测质量受到现有链接信息的严重限制。因此，这些方法在对新疾病或少有关联信息的疾病进行关联预测时表现不太好。此外，一些有用的信息，如疾病和miRNA的特征信息，不能被充分利用来提高这些方法的预测精度。

发明内容

本发明要解决的技术问题是提供一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法，基于关系图卷积网络能有效提取miRNA、疾病和基因的深层次特征，能有效提高miRNA-疾病关联预测的准确性，从而解决现有技术中存在的预测准确率较低的技术问题。

本发明的技术方案是：一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法，具体步骤为：

Step1：从数据库中获取miRNA-疾病关联关系数据、疾病-基因关联关系数据、miRNA-基因关联关系数据、miRNA相似性数据U_m、疾病相似性数据U_d和基因相似性数据U_g。

所述Step1具体为：

从数据库中，获得与n_m种miRNA相关联的n_d种疾病的H条miRNA-疾病关联关系数据K＝{K₁,K₂,…,K_H}、获得与n_d种疾病相关联的n_g种基因的M条疾病-基因关联关系数据L＝{L₁,L₂,…,L_M}、获得与n_m种miRNA相关联的n_g种基因的J条miRNA-基因关联关系数据P＝{P₁,P₂,…,P_J}、miRNA相似性数据U_m、疾病相似性数据U_d和基因相似性数据U_g。其中，n_d,n_m,n_g分别表示疾病，miRNA，基因的数量。

miRNA-疾病关联关系数据中如果该miRNA和疾病有关联，就认为是正样本。否则就认为是负样本。

Step2：利用miRNA-疾病关联关系数据、疾病-基因关联关系数据、miRNA-基因关联关系数据分别构建miRNA-疾病关联关系网络Y_md、疾病-基因关联关系网络Y_dg、miRNA-基因关联关系网络Y_mg。

miRNA-疾病关联关系数据中如果该miRNA和疾病有关联，就将miRNA-疾病关联关系网络Y_md中相应的值设置为1，否则就为0。同理疾病-基因关联关系网络Y_dg，miRNA-基因关联关系网络Y_mg也进行相同的处理。

Step3：搭建包含顺次连接的非线性全连接层、关系图卷积模块、非线性全连接层的网络模型RGCNMDA。利用miRNA相似性数据U_m、疾病相似性数据U_d和基因相似性数据U_g构建特征矩阵F_dmg。

将构建好的特征矩阵F_dmg，输入到非线性全连接层得到特征F′，然后，将特征F′输入到关系图卷积网络中，得到特征表示h³。

所述Step3具体为：

所述构建的特征矩阵F_dmg，具体为：

把构建好的特征矩阵F_dmg，输入到一层非线性全连接层，得到特征F′，激活函数是RELU，如下所示：

F′＝RELU(W_dmgF_dmg+b_dmg)

式中，W_dmg表示权重，b_dmg是偏置。

然后，将得到的特征F′，输入到一层关系图卷积网络，再过一层RELU激活函数，再重复此操作，再过一层关系图卷积网络和一层RELU激活函数，得到特征表示h³。具体如下所示：

式中，h^(l) _i∈R^ck表示节点i在第l层关系图卷积网络中的嵌入特征表示，ck是潜在特征的维度大小。

表示在第l层关系图卷积网络中，聚合的邻居信息的特征向量。R表示链接类型。

在Step3中使用关系图卷积网络能充分的利用基因，miRNA，疾病的特征信息，因为关系图卷积网络不仅能考虑到节点自身的特征属性，还能按照不同的边类型聚合其邻居的特征，因此能有效提取miRNA、疾病和基因的深层次特征，能有效提高miRNA-疾病关联预测的准确性，从而解决现有技术中存在的预测准确率较低的技术问题。

Step4：将Step3中得到的特征表示h³输入到非线性全连接层，进行非线性变换，得到非线性特征Q³(h³)。利用得到的miRNA的非线性特征Q_m和疾病的非线性特征Q_d，重构出miRNA-疾病关联矩阵T_md。

所述Step4具体为：

将Step3中得到的特征表示h³进行一个非线性变换，将特征表示h³输入到非线性全连接层，得到嵌入特征Q³(h³)，具体如下所示：

Q^l(h³)＝RELU(W^lRELU(…RELU(W¹h³+b¹)…)+b^l)

式中，W¹,W²,W³,b¹,b²,b³分别是所对应的权重，偏置。这里一共使用了三层非线性全连接层，l＝3。

最后分别得到miRNA，疾病，基因的非线性嵌入特征。

(Q_d,Q_m,Q_g)＝Q^l(h³)

利用得到的miRNA的非线性的特征Q_m和疾病的非线性的特征Q_d，重构出miRNA-疾病关联矩阵T_md，具体如下所示：

T_md＝Q_mW_dm(Q_d)^T

其中，W_dm表示权重，Q_m，Q_d分别表示miRNA的非线性的特征和疾病的非线性的特征。

Step5：使用损失函数来迭代训练整个网络模型RGCNMDA，最后输出结果。训练整个网络模型RGCNMDA时，由于样本中正样本的数量很少，引入

对正样本和负样本进行适当的加权处理。根据不同的预测任务，会对

进行不同的设置。在Step5的损失函数中，将正负样本的损失分开计算，然后利用

进行适当的加权处理。

所述Step5中的损失函数，为均方差损失函数，具体如下所示：

其中，P_π(.)是矩阵在集合π(训练集的正样本)上的投影，

是矩阵在集合

(训练集的负样本)上的投影，

分别表示该模型中的参数，

是一个参数值，T_md是Step4得到的重构miRNA-疾病关联矩阵，Y_md是Step2得到的miRNA-疾病关联关系网络。

本发明的有益效果是：本发明利用关系图卷积网络来聚合和学习miRNA和疾病的嵌入特征，在学习嵌入特征的时候，不仅聚合了邻居的特征信息，而且还充分的考虑到了不同类型的边的影响，能充分的利用疾病和miRNA的特征信息。因此能更好的捕获miRNA与疾病之间的复杂非线性关系。与现有的方法相比，本发明能有效的学习非线性特征，提高了预测精度。

附图说明

图1是本发明的步骤流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1所示，一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法，具体步骤为：

Step1：从数据库中，获得与n_m种miRNA相关联的n_d种疾病的H条miRNA-疾病关联关系数据K＝{K₁,K₂,…,K_H}、获得与n_d种疾病相关联的n_g种基因的M条疾病-基因关联关系数据L＝{L₁,L₂,…,L_M}、获得与n_m种miRNA相关联的n_g种基因的J条miRNA-基因关联关系数据P＝{P₁,P₂,…,P_J}、miRNA相似性数据U_m、疾病相似性数据U_d和基因相似性数据U_g。本实例中，n_m＝243，n_d＝204，n_g＝1789，H＝3072，M＝2639，J＝2455，其中n_d,n_m,n_g分别表示疾病，miRNA,基因的数量。

Step2：利用miRNA-疾病关联关系数据，疾病-基因关联关系数据，miRNA-基因关联关系数据分别构建miRNA-疾病关联关系网络Y_md，疾病-基因关联关系网络Y_dg，miRNA-基因关联关系网络Y_mg。

Step3：搭建包含顺次连接的非线性全连接层，关系图卷积模块，非线性全连接层的网络模型RGCNMDA。利用miRNA相似性数据U_m和疾病相似性数据U_d，基因相似性数据U_g构建了一个特征矩阵F_dmg，具体为：

把构建好的特征矩阵F_dmg，输入到一层非线性全连接层，得到特征F′。激活函数是RELU，如下所示：

F′＝RELU(W_dmgF_dmg+b_dmg)

式中，W_dmg表示权重，b_dmg是偏置。

然后，将得到的特征F′，输入到一层关系图卷积网络，再过一层RELU激活函数，再重复此操作，再过一层关系图卷积网络和一层RELU激活函数，得到特征表示(h³)。具体实现如下所示：

本实例中，一共采用了基因-疾病关联关系和基因-miRNA关联关系，两种链接类型。c_i,r是标准化常数

表示在链接类型r中，节点i的邻居。W_r ^(l)表示在链接类型r中的权重参数，比如

表示保留来自节点本身信息的权重参数。

表示非线性激活函数。将节点i在l层的特征表示作为下一层的输入，所以h⁽⁰⁾ _i＝F′。在本实例中l＝2，ck＝256，R＝2。

Step3中使用关系图卷积网络，能充分的利用基因，miRNA，疾病的特征信息，因为关系图卷积网络不仅能考虑到节点自身的特征属性，还能按照不同的边类型聚合其邻居的特征，因此能有效提取miRNA、疾病和基因的深层次特征，能有效提高miRNA-疾病关联预测的准确性，从而解决现有技术中存在的预测准确率较低的技术问题。具体实验结果如表1所示。

Step4：将Step3中得到的特征表示h³进行一个非线性变换，将特征表示h³输入到非线性全连接层，得到嵌入特征Q³(h³)。具体实现如下所示：

Q^l(h³)＝RELU(W^lRELU(…RELU(W¹h³+b¹)…)+b^l)

最后分别得到miRNA，疾病，基因的非线性嵌入特征。

(Q_d,Q_m,Q_g)＝Q^l(h³)

利用得到的miRNA的非线性的特征Q_m和疾病的非线性的特征Q_d，重构出miRNA-疾病关联矩阵T_md。具体实现如下所示：

T_md＝Q_mW_dm(Q_d)^T

Step5：使用损失函数来训练整个网络模型RGCNMDA，最后输出结果。由于样本中正样本的数量很少，引入

对正样本和负样本进行适当的加权处理。当

时，表示只使用正样本进行优化。当

时，表示只使用负样本进行优化。将Step4所得到的重构miRNA-疾病关联矩阵T_md和miRNA-疾病关联关系网络Y_md，使用均方差损失函数对网络模型RGCNMDA进行训练。具体为：

其中，P_π(.)是矩阵在集合π(训练集的正样本)上的投影，

是矩阵在集合

(训练集的负样本)上的投影。

分别表示该模型中的参数。

本实施例中以端到端的方式训练该模型，通过反向传播，学习模型参数。这种端到端训练策略更有可能找到针对问题的、有效的嵌入。

采用随机清零交叉验证，多列清零交叉验证来测试模型的性能。将本发明与现有方法的预测准确率，以十次五折交叉验证进行对比，评价指标采用了AUC，AUC被定义为ROC曲线下的面积，AUC的值越大，准确率越大。

随机清零交叉验证的具体做法，将所有已知的miRNA与疾病的关联随机分为五个不重叠的部分，一部分用于测试，其余用于训练。miRNA-疾病关联矩阵的列对应疾病，行对应miRNA，多列清零交叉验证的具体做法是将miRNA-疾病关联矩阵中，所有的列随机分为五个不重叠的部分，将其中的一份清零作为测试集，其余的列作为训练集。

将每个交叉验证重复十次，其结果如表1所示，表中的NIMCGCN是一种基于图卷积网络的神经诱导矩阵补全预测miRNA-疾病相关联的新方法。但是NIMCGCN方法没有利用基因的特征信息，miRNA通过调控其靶基因与许多人类疾病有关，表明基因在连接miRNA和疾病方面起着关键作用。表中的MDA-CNN是一种新的基于学习的框架，MDA-CNN，来识别miRNA和疾病之间的关联。MDA-CNN方法忽略了miRNA和疾病相似网络中的包含的丰富结构信息，以及没有考虑到本身节点的特征信息。而本发明能充分的利用基因，miRNA,疾病的特征信息，不仅能考虑到节点自身的特征属性，还能按照不同的边类型聚合其邻居的特征，因此能有效的提高了miRNA-疾病关联预测的精度。

表1的结果表明本发明在AUC这个指标上高于现有技术，证明本发明有效的提高了miRNA-疾病关联预测的精度。

实施例2：为了进一步测试本发明的有效性，利用RGCNMDA预测与胃癌相关的miRNA。dbDEMC数据库被用作基准数据集。在全世界与癌症相关的死亡中，胃癌居第三位。越来越多的证明表明，许多miRNA可以通过调控胃癌相关基因与胃癌发生相互作用。

在案列分析实验中，在实施例1的基础上进行分析。首先将胃癌与其相关的所有miRNA之间的关联从训练集中移除。然后，使用RGCNMDA预测胃癌与每个miRNA之间的关联。MiRNA的排名是基于它们与胃癌相关的预测概率，越靠前，预测概率值越大。表2展示了HMDD3.0数据集上RGCNMDA预测的前50个与胃癌相关的miRNA以及相应的证据。从中发现前25名的miRNA有23个被验证，前50名的miRNA中有45个被验证。

表1是与两种现有技术进行十次五折交叉验证，在随机清零交叉验证，多列清零交叉验证上的AUC值对比结果，表1的结果表明本发明在AUC这个指标上高于现有技术，证明本发明有效的提高了miRNA-疾病关联预测的精度。

方法	随机清零交叉验证	多列清零交叉验证
			NIMCGCN	0.8851	0.7668
MDACNN	0.8936	0.7287
			RGCNMDA	0.9072	0.8381

表1

表2是HMDD3.0数据集上RGCNMDA预测的前50个与胃癌相关的miRNA以及相应的证据。从中发现前25名的miRNA有23个被验证，前50名的miRNA中有45个被验证。

表2

综上所述，在与其他预测方法比较之后，证明了基于关系图卷积网络融合多源信息预测miRNA-疾病方法的有效性。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法，其特征在于：

Step1：从数据库中获取miRNA-疾病关联关系数据、疾病-基因关联关系数据、miRNA-基因关联关系数据、miRNA相似性数据U_m、疾病相似性数据U_d和基因相似性数据U_g；

Step2：利用miRNA-疾病关联关系数据、疾病-基因关联关系数据、miRNA-基因关联关系数据分别构建miRNA-疾病关联关系网络Y_md、疾病-基因关联关系网络Y_dg、miRNA-基因关联关系网络Y_mg；

Step3：搭建包含顺次连接的非线性全连接层、关系图卷积模块、非线性全连接层的网络模型RGCNMDA；利用miRNA相似性数据U_m、疾病相似性数据U_d和基因相似性数据U_g构建特征矩阵F_dmg；

将构建好的特征矩阵F_dmg，输入到非线性全连接层得到特征F′，然后，将特征F′输入到关系图卷积网络中，得到特征表示h³；

Step4：将Step3中得到的特征表示h³输入到非线性全连接层，进行非线性变换，得到非线性特征Q³(h³)，利用得到的miRNA的非线性特征Q_m和疾病的非线性特征Q_d，重构出miRNA-疾病关联矩阵T_md；

Step5：使用损失函数来迭代训练整个网络模型RGCNMDA，最后输出结果。

2.根据权利要求1所述的基于关系图卷积网络融合多源信息预测miRNA-疾病的方法，其特征在于，所述Step1具体为：

从数据库中，获得与n_m种miRNA相关联的n_d种疾病的H条miRNA-疾病关联关系数据K＝{K₁，K₂，...，K_H}、获得与n_d种疾病相关联的n_g种基因的M条疾病-基因关联关系数据L＝{L₁，L₂，...，L_M}、获得与n_m种miRNA相关联的n_g种基因的J条miRNA-基因关联关系数据P＝{P₁，P₂，...，P_J}、miRNA相似性数据U_m、疾病相似性数据U_d和基因相似性数据U_g，其中，n_d，n_m，n_g分别表示疾病，miRNA，基因的数量；

miRNA-疾病关联关系数据中如果该miRNA和疾病有关联，就认为是正样本，否则就认为是负样本。

3.根据权利要求1所述的基于关系图卷积网络融合多源信息预测miRNA-疾病的方法，其特征在于，所述Step3具体为：

所述构建的特征矩阵F_dmg，具体为：