CN113223622A

CN113223622A - 基于元路径的miRNA-疾病关联预测方法

Info

Publication number: CN113223622A
Application number: CN202110524970.1A
Authority: CN
Inventors: 鱼亮; 郑宇佳
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-08-06
Anticipated expiration: 2041-05-14
Also published as: CN113223622B

Abstract

本发明提出了一种基于元路径的miRNA‑疾病关联预测方法，解决现有技术中存在的预测精度较低和预测范围较窄的技术问题，实现步骤为：(1)获取正样本集和负样本集；(2)构建miRNA‑疾病‑基因关联网络；(3)获取元路径集合；(4)获取每种元路径的元路径实例集合；(5)构建基于元路径的图神经网络模型；(6)对基于元路径的图神经网络进行迭代训练；(7)获取miRNA和疾病的预测结果。本发明提高了miRNA‑疾病关联的预测精度和广度，可为miRNA和疾病的生物实验提供最可能相关的miRNA‑疾病关联对。

Description

基于元路径的miRNA-疾病关联预测方法

技术领域

本发明属于生物信息技术领域，涉及一种miRNA-疾病关联预测方法，具体涉及一种基于元路径的miRNA-疾病关联预测方法。

背景技术

miRNA是一类由内源基因编码的非编码单链RNA分子，其长度约为22个核苷酸，主要通过序列特异性碱基配对与靶mRNA结合，并参与转录后基因表达调控。miRNA可以影响各种生物过程，包括细胞增殖、发育、分化、细胞凋亡、代谢、衰老、信号转导、病毒感染等。随着科学技术的发展，研究人员建立了许多用于存储miRNA信息的数据库，为使用计算方法来预测miRNA与疾病的关联提供了数据支持。计算模型能够在短时间内获得最可能相关的miRNA-疾病对，为生物学实验提供指导。

例如，2017年You等人在《Plos Computational Biology》中发表的名称为“PBMDA:A novel and effective path-based computational model for miRNA-diseaseassociation prediction”的论文，公开了一种基于路径的miRNA-疾病关联预测方法，该方法提出miRNA与疾病之间的路径越多，它们之间关联的可能性就越大，且它们之间所有路径的累积贡献都可以整合为最终分数的假设，使用特定的深度优先搜索算法遍历图中的所有长度不超过3的无环路径，通过miRNA与疾病之间路径的个数和长度来评估两者之间的关联概率。

又如，申请公布号为CN 109935332 A，名称为“一种基于双随机游走模型的miRNA-疾病关联预测方法”的专利申请，公开了一种基于双随机游走模型的miRNA-疾病关联预测方法，该方法首先构建关于miRNA-疾病关联的邻接矩阵，然后使用邻接矩阵构建miRNA和疾病的高斯相互作用属性核相似性矩阵、miRNA功能相似性矩阵以及疾病语义相似性矩阵，接下来使用相似网络融合算法整合疾病和miRNA的相似性，最后依据双随机游走模型来预测miRNA-疾病关联关系。

然而，上述算法仅通过路径的长度、个数和节点间的相似性来评估miRNA与疾病的关联概率，无法捕获到路径中节点的特征信息，限制了预测精度的提升，且不适用于预测新疾病，即没有已知关联miRNA的疾病，与miRNA的关联，导致预测范围受限。

发明内容

本发明的目的在于克服上述现有技术的不足，提出一种基于元路径的miRNA-疾病关联预测方法，旨在解决现有技术中存在的预测精度较低和预测范围较窄的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取正样本集Ω和负样本集Ω^-：

(1a)从数据库中获取与N种疾病d＝{d₁,d₂,...,d_n,...,d_N}关联的M种miRNAr＝{r₁,r₂,...,r_m,...,r_M}的S条miRNA-疾病关联数据A＝{A₁,A₂,...,A_s,…,A_S}，每种疾病d_n至少与一种miRNA关联，且每种miRNA r_m至少与一种疾病关联，其中，N≥300，d_n表示第n种疾病，M≥400，r_m表示第m种miRNA，S≥5000，A_s表示第s条miRNA-疾病关联数据，1≤m≤M，1≤n≤N；

(1b)将从miRNA-疾病关联数据A中的S条miRNA-疾病关联数据作为正样本集Ω，同时从d与r之间且不包括A的所有miRNA-疾病关联数据中随机抽取S条不重复的关联数据A′＝{A′₁,A′₂,…,A′_s,…,A′_S}，并将A′中的S条miRNA-疾病关联数据作为负样本集Ω^-；

(2)构建miRNA-疾病-基因关联网络G：

(2a)从数据库中获取与M种miRNA r＝{r₁,r₂,…,r_m,…,r_M}相关的O条miRNA-miRNA关联数据B＝{B₁,B₂,…,B_o,…,B_O}，其中，O≥5000，B_o表示第o条miRNA-miRNA关联数据；

(2b)从数据库中获取与N种疾病d＝{d₁,d₂,…,d_n,…,d_N}关联的K种基因g＝{g₁,g₂,…,g_k,...,g_K}的H条疾病-基因关联数据Y＝{Y₁,Y₂,...,Y_h,...,Y_H}，每种基因g_k至少与一种疾病关联，且每种疾病d_n至少与一种基因关联，其中，K≥400，g_k表示第k种基因，H≥1000，Y_h表示第h条疾病-基因关联数据，1≤k≤K；

(2c)以M种miRNA r＝{r₁,r₂,...,r_m,...,r_M}、N种疾病d＝{d₁,d₂,...,d_n,...,d_N}和K种基因g＝{g₁,g₂,...,g_k,...,g_K}为节点，以正样本集Ω包含的S条正样本、miRNA-miRNA关联数据B包含的O条miRNA-miRNA关联数据和疾病-基因关联数据Y包含的H条疾病-基因关联数据为边，构建miRNA-疾病-基因关联网络G＝(note,edge)，其中，note表示节点集合，note＝{r₁,r₂,...,r_m,...,r_M,d₁,d₂,...,d_n,...,d_N,g₁,g₂,...,g_k,...,g_K}，edge表示由S条正样本、O条miRNA-miRNA关联数据以及H条疾病-基因关联数据组成的边集；

(3)获取元路径集合P：

在miRNA-疾病-基因关联网络G的网络模式T＝(nt,et)上定义I条元路径，得到元路径集合P＝{P₁,P₂,...,P_i,...,P_I}，其中，I≥3，nt表示节点类型集合，nt＝{r,d,g}，et表示边类型集合，et＝{(r,r),(r,d),(d,g)}，P_i表示第i条元路径，其形式为

表示元路径P_i的第len_i个节点的节点类型，

表示元路径P_i的第len_i个节点和第len_i+1个节点之间的关系类型，

LEN_i表示元路径P_i的路径长度，LEN_i≥2；

(4)获取每种元路径P_i的元路径实例集合

以

类型的任一节点v₁为起始节点，在miRNA-疾病-基因关联网络G中寻找与v₁相连的

类型的节点v₂，再寻找与v₂相连的

类型的节点v₃，依此类推，最后寻找与

类型的节点

相连的

类型的节点

得到元路径P_i的Q_i条元路径实例集合

其中，

表示元路径P_i的第q_i条元路径实例，

(5)构建基于元路径的图神经网络模型C：

(5a)构建基于元路径的图神经网络模型C的结构：

构建包括顺次连接的节点特征降维模块、基于一种元路径的特征学习模块、基于多种元路径的特征学习模块和节点特征输出模块的图神经网络模型C；其中，节点特征降维模块包括三个并行的全连接层；基于一种元路径的特征学习模块包括池化层和多个并行的多头注意力层；基于多种元路径的特征学习模块包括两个并行的全连接层；节点特征输出模块包括两个并行的全连接层，模型C的权值参数为θ_C；

(5b)定义基于元路径的图神经网络模型C的损失函数L：

其中，

表示miRNAr_m的特征向量，

表示疾病d_n的特征向量，∑表示求和符号，σ表示激活函数，T表示转置；

(6)对基于元路径的图神经网络C进行迭代训练：

(6a)对每种miRNAr_m、每种疾病d_n和每种基因g_k分别进行one-hot编码，得到miRNAr_m的基特征

d_n的基特征

和g_k的基特征

(6b)初始化迭代次数为j，最大迭代次数为J，J≥100，第j次迭代模型C的权值参数为

并令j＝0，

(6c)将每种miRNAr_m的基特征

作为模型C的节点特征降维模块中第一全连接层的输入进行线性变换，将每种疾病d_n的基特征

作为模型C的节点特征降维模块中第二全连接层的输入进行线性变换，将每种基因g_k的基特征

作为模型C的节点特征降维模块中第三全连接层的输入进行线性变换，得到miRNAr_m的隐藏特征向量

d_n的隐藏特征向量

和g_k的隐藏特征向量

(6d)将miRNAr_m的隐藏特征向量

d_n的隐藏特征向量

和g_k的隐藏特征向量

以及每种元路径P_i的元路径实例集合

作为模型C的基于一种元路径的特征学习模块的输入，池化层对每条元路径实例上所有节点的隐藏特征向量进行最大池化，得到每种元路径P_i的向量集合

将

中起始节点相同的元路径实例在向量集合

中对应的向量作为一个多头注意力层的输入进行加权求和，得到每种miRNAr_m的特征向量集合

和每种疾病d_n的特征向量集合

(6e)基于多种元路径的特征学习模块中的第一全连接层对

中的向量进行加权求和，得到miRNAr_m的特征向量

节点特征输出模块中第一全连接层对

进行线性变换，得到miRNAr_m的输出特征向量

同时基于多种元路径的特征学习模块中的第二全连接层对

中的向量进行加权求和，得到d_n的特征向量

节点特征输出模块中第二全连接层对

进行线性变换，得到d_n的输出特征向量

(6f)采用损失函数L，并通过

和

计算模型C的损失值L_j，然后采用反向传播方法，并通过L_j计算C的参数梯度，最后采用梯度下降算法通过C的参数梯度对C的权值参数

进行更新；

(6g)判断j≥J是否成立，若是，得到训练好的miRNA-疾病关联预测模型C′，否则，令j＝j+1，并执行步骤(6c)；

(7)获取miRNA和疾病的预测结果：

采用激活函数σ，并通过训练好的miRNA-疾病关联预测模型C′输出的miRNAr_m的特征向量

和d_n的特征向量

计算miRNAr_m与疾病d_n的关联概率

本发明与现有技术相比，具有以下优点：

1.本发明所构建的基于元路径的miRNA-疾病关联预测模型包括顺次连接的节点特征降维模块、基于一种元路径的特征学习模块、基于多种元路径的特征学习模块和节点特征输出模块，在对该模型进行迭代训练以及获取miRNA和疾病特征向量的过程中，基于一种元路径的特征学习模块通过融合元路径实例上所有节点的特征信息来更新起始节点的特征向量，不仅可以提取miRNA和疾病节点本身的特征信息，还能有效捕获元路径上中间节点携带的信息，基于多种元路径的特征学习模块通过融合节点在多种元路径上获取的特征信息，有助于更好地提取网络中的结构特征，与现有技术相比，提高了miRNA-疾病关联的预测精度。

2.本发明所构建的miRNA-疾病关联预测模型通过在关联网络中引入疾病和基因的关联关系，不仅丰富了关联网络包含的生物信息，还增加了关联网络中的节点种类，使得可选的元路径种类增多，有助于预测新疾病与miRNA的关联，与现有技术相比，扩大了miRNA-疾病关联预测的预测范围。

附图说明

图1是本发明的实现流程图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述，需要说明的是，本发明不属于专利法第25条规定的不授予专利权的客体，同时也符合专利法第二条第二款的规定：

参照图1，本实例包括如下步骤：

步骤1，获取正样本集Ω和负样本集Ω^-：

步骤1a)从HMDD v2.0数据库中获取与N种疾病d＝{d₁,d₂,...,d_n,...,d_N}关联的M种miRNA r＝{r₁,r₂,...,r_m,...,r_M}的S条miRNA-疾病关联数据A＝{A₁,A₂,...,A_s,...,A_S}，每种疾病d_n至少与一种miRNA关联，且每种miRNAr_m至少与一种疾病关联，其中，N＝383，d_n表示第n种疾病，M＝495，r_m表示第m种miRNA，S＝5430，A_s表示第s条miRNA-疾病关联数据，1≤m≤M，1≤n≤N；

步骤1b)将从miRNA-疾病关联数据A中的S条miRNA-疾病关联数据作为正样本集Ω，同时从d与r之间且不包括A的所有miRNA-疾病关联数据中随机抽取S条不重复的关联数据A′＝{A′₁,A′₂,...,A′_s,...,A′_S}，并将A′中的S条miRNA-疾病关联数据作为负样本集Ω^-。

步骤2，构建miRNA-疾病-基因关联网络G：

步骤2a)从MISIM数据库中获取与M种miRNAr＝{r₁,r₂,...,r_m,...,r_M}相关的O条miRNA-miRNA关联数据B＝{B₁,B₂,...,B_o,...,B_O}，其中，O＝10049，B_o表示第o条miRNA-miRNA关联数据；

所述的从MISIM数据库中获取的miRNA-miRNA关联数据，去掉相似性小于等于0.5的miRNA-miRNA关联，仅保留相似性大于0.5的miRNA-miRNA关联数据；

步骤2b)从DisGeNET数据库中获取与N种疾病d＝{d₁,d₂,...,d_n,...,d_N}关联的K种基因g＝{g₁,g₂,...,g_k,...,g_K}的H条疾病-基因关联数据Y＝{Y₁,Y₂,...,Y_h,...,Y_H}，每种基因g_k至少与一种疾病关联，且每种疾病d_n至少与一种基因关联，其中，K＝3790，g_k表示第k种基因，H＝5937，Y_h表示第h条疾病-基因关联数据，1≤k≤K；

所述的从DisGeNET数据库中获取的疾病-基因关联数据，仅保留疾病-基因相关性得分大于0.1且疾病-基因关联证据指数大于0.5的疾病-基因关联数据；

步骤2c)以M种miRNA r＝{r₁,r₂,...,r_m,...,r_M}、N种疾病d＝{d₁,d₂,...,d_n,...,d_N}和K种基因g＝{g₁,g₂,...,g_k,...,g_K}为节点，以正样本集Ω包含的S条正样本、miRNA-miRNA关联数据B包含的O条miRNA-miRNA关联数据和疾病-基因关联数据Y包含的H条疾病-基因关联数据为边，构建miRNA-疾病-基因关联网络G＝(note,edge)，其中，note表示节点集合，note＝{r₁,r₂,...,r_m,...,r_M,d₁,d₂,...,d_n,...,d_N,g₁,g₂,...,g_k,...,g_K}，edge表示由S条正样本、O条miRNA-miRNA关联数据以及H条疾病-基因关联数据组成的边集。

步骤3，获取元路径集合P：

步骤3a)在miRNA-疾病-基因关联网络G的网络模式T＝(nt,et)上定义I条元路径，得到元路径集合P＝{P₁,P₂,…,P_i,...,P_I}，其中，I≥3，nt表示节点类型集合，nt＝{r,d,g}，et表示边类型集合，et＝{(r,r),(r,d),(d,g)}，P_i表示第i条元路径，其形式为

表示元路径P_i的第len_i个节点的节点类型，

LEN_i表示元路径P_i的路径长度，LEN_i≥2；

所述的元路径P_i的形式可缩写为

元路径P_i实质上描述的是节点类型

和节点类型

之间的一个组合关系

表示的是关系之间的组合操作，如果两个节点类型

和

之间存在某条路径

服从于元路径P_i，那么该路径p′上的所有节点所属的类型必须存在于集合nt中，且路径中的每一个连边的类型与元路径nt中对应的

相同，路径p′表示元路径P_i的一条元路径实例；

所述的在miRNA-疾病-基因关联网络G的网络模式T＝(nt,et)上定义I条元路径，需满足元路径对称，且仅以miRNAr或疾病d为起始节点。

步骤4，获取每种元路径P_i的元路径实例集合

步骤4a)以

类型的节点v₂，再寻找与v₂相连的

类型的节点v₃，依此类推，最后寻找与

类型的节点

相连的

类型的节点

得到元路径P_i的Q_i条元路径实例集合

其中，

表示元路径P_i的第q_i条元路径实例，

所述的元路径P_i的元路径实例

表示miRNA-疾病-基因关联网络G中遵循元路径P_i定义模式的节点序列；

所述的获取每种元路径P_i的元路径实例集合

时，若有多条元路径实例的起始节点和终止节点相同，则仅保留其中的任意一条元路径实例。

步骤5，构建基于元路径的图神经网络模型C：

步骤5a)构建基于元路径的图神经网络模型C的结构：

所述的节点特征降维模块中的第一全连接层的输入输出维度分别为495和32，第二全连接层的输入输出维度分别为383和32，第三全连接层的输入输出维度分别为3790和32；基于一种元路径的特征学习模块中，元路径P_i的元路径实例集合中起始节点相同的元路径实例对应的向量作为一个多头注意力层的输入，输出一个256维的向量，多头注意力层的数量等于每种元路径P_i的元路径实例中起始节点种数的总和；基于多种元路径的特征学习模块中的第一全连接层的输入输出维度分别为256和32，第二全连接层的输入输出维度分别为256和32；节点特征输出模块中的第一全连接层的输入输出维度分别为256和64，第二全连接层的输入输出维度分别为256和64；

本发明所构建的基于元路径的miRNA-疾病关联预测模型包括顺次连接的节点特征降维模块、基于一种元路径的特征学习模块、基于多种元路径的特征学习模块和节点特征输出模块，在对该模型进行迭代训练以及获取miRNA和疾病特征向量的过程中，基于一种元路径的特征学习模块通过融合元路径实例上所有节点的特征信息来更新起始节点的特征向量，不仅可以提取miRNA和疾病节点本身的特征信息，还能有效捕获元路径上中间节点携带的信息，基于多种元路径的特征学习模块通过融合节点在多种元路径上获取的特征信息，有助于更好地提取网络中的结构特征；

步骤5b)定义基于元路径的图神经网络模型C的损失函数L：

其中，

表示miRNAr_m的特征向量，

所述的σ表示Sigmoid激活函数。

步骤6，对基于元路径的图神经网络C进行迭代训练：

步骤6a)对每种miRNAr_m、每种疾病d_n和每种基因g_k分别进行one-hot编码，得到miRNAr_m的基特征

d_n的基特征

和g_k的基特征

所述的进行one-hot编码即为分别构建三个单位矩阵E₄₉₅、E₃₈₃和E₃₇₉₀，其中，E₄₉₅的第m行表示第m个miRNAr_m的基特征

E₃₈₃的第n行表示第n个疾病d_n的基特征

E₃₇₉₀的第k行表示第k个基因g_k的基特征

步骤6b)初始化迭代次数为j，最大迭代次数为J，J≥100，第j次迭代模型C的权值参数为

并令j＝0，

步骤6c)将每种miRNAr_m的基特征

d_n的隐藏特征向量

和g_k的隐藏特征向量

所述的第一全连接层将基特征

第二全连接层将基特征

第三全连接层将基特征

分别映射到z维向量空间中，得到miRNAr_m的隐藏特征向量

疾病d_n的隐藏特征向量

和基因g_k的隐藏特征向量

其中，

表示第一全连接层的参数权重矩阵，

表示第二全连接层的参数权重矩阵，

表示第三全连接层的参数权重矩阵，当min({M,N,K})≤500时z＝32，当min({M,N,K})＞500时z＝64；

步骤6d)将miRNAr_m的隐藏特征向量

d_n的隐藏特征向量

和g_k的隐藏特征向量

以及每种元路径P_i的元路径实例集合

将

中起始节点相同的元路径实例在向量集合

和每种疾病d_n的特征向量集合

所述的池化层对每种元路径P_i的元路径实例集合

中的每条元路径实例

中所有节点的隐藏特征向量进行最大池化，得到P_i的向量集合

其中，

表示

的起始节点v₁通过

获得的向量信息，

表示

在第μ维的数值，节点t表示元路径实例

上的任意一种节点，h′_t,μ表示节点t的隐藏特征向量h′_t在第μ维的数值，μ＝1,2,...,z，

表示每条元路径实例

中所有节点的集合；

所述的多头注意力层对

中起始节点相同的元路径实例在向量集合

中对应的向量进行加权求和，得到每种miRNAr_m的特征向量集合

和每种疾病d_n的特征向量集合

其中，

表示

的起始节点v₁的隐藏特征，

表示

在向量集合

中对应的向量

||表示向量的拼接，

表示

第f次随机初始化的值，LeakyReLU表示激活函数，

表示元路径实例

对起始节点v₁的第f个重要性，exp表示以e为底的指数函数，

表示

中以v₁为起始节点的元路径实例的终止节点

的集合，

表示

中以v₁为起始节点、u为终止节点的元路径实例

对起始节点v₁的第f个重要性，

表示

对起始节点v₁的第f个归一化重要性，

表示元路径实例

对起始节点v₁的第f个归一化重要性，

表示元路径实例

在向量集合

中对应的向量，F＝8，当v₁表示r_m时，

表示r_m的特征向量集合

中的一个元素，当v₁表示d_n时，

表示d_n的特征向量集合

中的一个元素；

所述的一个多头注意力层可以得到

或

中的一个元素，每种miRNAr_m的特征向量集合

中元素的个数等于元路径实例集合中包含以miRNAr_m为起始节点的元路径实例的元路径的种数，每种疾病d_n的特征向量集合

中元素的个数等于元路径实例集合中包含以疾病d_n为起始节点的元路径实例的元路径的种数；

步骤6e)基于多种元路径的特征学习模块中的第一全连接层对

中的向量进行加权求和，得到miRNAr_m的特征向量

节点特征输出模块中第一全连接层对

进行线性变换，得到miRNAr_m的输出特征向量

同时基于多种元路径的特征学习模块中的第二全连接层对

中的向量进行加权求和，得到d_n的特征向量

节点特征输出模块中第二全连接层对

进行线性变换，得到d_n的输出特征向量

所述的基于多种元路径的特征学习模块中的第一全连接层对

中的向量进行加权求和、基于多种元路径的特征学习模块中的第二全连接层对

中的向量进行加权求和，得到miRNAr_m的特征向量

d_n的特征向量

其中，W′_r和b_r表示基于多种元路径的特征学习模块中的第一全连接层的可学习参数，

表示miRNA r_m基于元路径P_ir获得的特征向量，x_ir表示元路径P_ir的初始特征向量，a_r表示miRNAr的参数化注意力向量，e_ir表示元路径P_ir的权重，β_ir表示元路径P_ir的归一化权重，Ψ_r＝{P_ir}P_ir∈P∩P_ir的起始节点类型为r}，W′_d和b_d表示基于多种元路径的特征学习模块中的第二全连接层的可学习参数，

表示疾病d_n基于元路径P_id获得的特征向量，x_id表示元路径P_id的初始特征向量，a_d表示疾病d的参数化注意力向量，e_id表示元路径P_id的权重，β_id表示元路径P_id的归一化权重，Ψ_d＝{P_id}P_id∈P∩P_id的起始节点类型为d}；

所述的节点特征输出模块中的第一全连接层将特征向量

第二全连接层将特征向量

分别映射到z′维向量空间中，并采用激活函数σ，通过

映射后的向量

计算miRNAr_m的输出特征向量

通过

映射后的向量

计算疾病d_n的输出特征向量

其中，

表示miRNAr的参数权重矩阵，

表示疾病d的参数权重矩阵，当z＝32时z′＝64，当z＝64时z′＝128；

步骤6f)采用损失函数L，并通过

和

进行更新；L_j的计算公式以及

的更新公式为：

其中，

表示C更新后的权值参数，

表示C更新前的权值参数，α_C表示C的学习步长，

表示C的权值参数梯度；

步骤6g)判断j≥J是否成立，若是，得到训练好的miRNA-疾病关联预测模型C′，否则，令j＝j+1，并执行步骤(6c)；

步骤7，获取miRNA和疾病的预测结果：

步骤7a)采用激活函数σ，并通过训练好的miRNA-疾病关联预测模型C′输出的miRNAr_m的特征向量

和d_n的特征向量

计算miRNAr_m与疾病d_n的关联概率

以下通过仿真实验对本发明的技术效果作进一步说明：

1.仿真条件和内容：

仿真实验在Intel(R)Core(TM)i5-7300HQ CPU、主频2.50GHz，内存8G，Pycharm平台上的Python3.6.5结合PyTorch1.2.0进行。

仿真1，对本发明的预测精度进行仿真，并结合对比文件中所给出的预测精度进行对比，其结果如表1所示，表1中的现有技术1为You等人2017年在《Plos ComputationalBiology》上发表的论文“PBMDA:A novel and effective path-based computationalmodel for miRNA-disease association prediction”提出的一种基于路径的miRNA-疾病关联预测方法，现有技术2为申请公布号为CN 109935332 A，名称为“一种基于双随机游走模型的miRNA-疾病关联预测方法”的专利申请提出的一种基于双随机游走模型的miRNA-疾病关联预测方法；

仿真2，对本发明的预测范围进行仿真，删除训练数据中乳腺肿瘤与miRNA的关联关系数据，将乳腺肿瘤作为一种新疾病，使用dbDEMC2.0、HMDD v3.2和miR2Disease三个数据库中提供的miRNA-疾病关联关系验证模型对乳腺肿瘤的预测结果。

2.仿真结果分析：

表征miRNA-疾病关联预测精度采用的评价指标为AUC。AUC(Area under curve)是ROC曲线(receiver operating characteristic curve)下的面积，ROC曲线的横坐标是假正类率FPR(False Positive Rate)，纵坐标是真正类率TPR(True Positive Rate)，FPR＝FP/(TN+FP)，TPR＝TP/(TP+FN)，其中，FP表示实际是负例但模型错误预测为正例的样本数，TN表示实际是负例且模型正确预测为负例的样本数，TP表示实际是正例且模型正确预测为正例的样本数，FN表示实际是正例但模型错误预测为负例的样本数。

本发明与两种现有技术的AUC值的对比结果如表1所示。

表1

方法	AUC
		现有技术1	0.9172
现有技术2	0.9209
		本发明	0.9214

结合表1可以看出，本发明的AUC值高于现有技术，证明本发明方法有效的提高了miRNA-疾病关联预测的精度。

本发明预测出的与新疾病乳腺肿瘤相关的前50个miRNA的验证结果如表2所示。

表2

结合表2可以看出，本发明预测的与乳腺肿瘤相关的排名前50个miRNA在三个数据库中全部得到验证，这表明预测结果较为可靠，通过预测结果说明了本发明的预测范围广度以及预测精度。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于元路径的miRNA-疾病关联预测方法，其特征在于，包括如下步骤：

(1)获取正样本集Ω和负样本集Ω^-：

(1a)从数据库中获取与N种疾病d＝{d₁,d₂,...,d_n,...,d_N}关联的M种miRNAr＝{r₁,r₂,...,r_m,...,r_M}的S条miRNA-疾病关联数据A＝{A₁,A₂,...,A_s,...,A_S}，每种疾病d_n至少与一种miRNA关联，且每种miRNA r_m至少与一种疾病关联，其中，N≥300，d_n表示第n种疾病，M≥400，r_m表示第m种miRNA，S≥5000，A_s表示第s条miRNA-疾病关联数据，1≤m≤M，1≤n≤N；

(1b)将从miRNA-疾病关联数据A中的S条miRNA-疾病关联数据作为正样本集Ω，同时从d与r之间且不包括A的所有miRNA-疾病关联数据中随机抽取S条不重复的关联数据A′＝{A′₁,A′₂,...,A′_s,...,A′_S}，并将A′中的S条miRNA-疾病关联数据作为负样本集Ω^-；

(2)构建miRNA-疾病-基因关联网络G：

(2a)从数据库中获取与M种miRNAr＝{r₁,r₂,...,r_m,...,r_M}相关的O条miRNA-miRNA关联数据B＝{B₁,B₂,...,B_o,...,B_O}，其中，O≥5000，B_o表示第o条miRNA-miRNA关联数据；

(2b)从数据库中获取与N种疾病d＝{d₁,d₂,…,d_n,...,d_N}关联的K种基因g＝{g₁,g₂,...,g_k,...,g_K}的H条疾病-基因关联数据Y＝{Y₁,Y₂,...,Y_h,...,Y_H}，每种基因g_k至少与一种疾病关联，且每种疾病d_n至少与一种基因关联，其中，K≥400，g_k表示第k种基因，H≥1000，Y_h表示第h条疾病-基因关联数据，1≤k≤K；

(2c)以M种miRNAr＝{r₁,r₂,…,r_m,…,r_M}、N种疾病d＝{d₁,d₂,...,d_n,...,d_N}和K种基因g＝{g₁,g₂,...,g_k,…,g_K}为节点，以正样本集Ω包含的S条正样本、miRNA-miRNA关联数据B包含的O条miRNA-miRNA关联数据和疾病-基因关联数据Y包含的H条疾病-基因关联数据为边，构建miRNA-疾病-基因关联网络G＝(note,edge)，其中，note表示节点集合，note＝{r₁,r₂,…,r_m,…,r_M,d₁,d₂,…,d_n,…,d_N,g₁,g₂,…,g_k,…,g_K}，edge表示由S条正样本、O条miRNA-miRNA关联数据以及H条疾病-基因关联数据组成的边集；

(3)获取元路径集合P：

在miRNA-疾病-基因关联网络G的网络模式T＝(nt,et)上定义I条元路径，得到元路径集合P＝{P₁,P₂,...,P_i,…,P_I}，其中，I≥3，nt表示节点类型集合，nt＝{r,d,g}，et表示边类型集合，et＝{(r,r),(r,d),(d,g)}，P_i表示第i条元路径，其形式为

表示元路径P_i的第len_i个节点的节点类型，

LEN_i表示元路径P_i的路径长度，LEN_i≥2；

(4)获取每种元路径P_i的元路径实例集合

以

类型的节点v₂，再寻找与v₂相连的

类型的节点v₃，依此类推，最后寻找与

类型的节点

相连的

类型的节点

得到元路径P_i的Q_i条元路径实例集合

其中，

表示元路径P_i的第q_i条元路径实例，

(5)构建基于元路径的图神经网络模型C：

(5a)构建基于元路径的图神经网络模型C的结构：

(5b)定义基于元路径的图神经网络模型C的损失函数L：

其中，

表示miRNAr_m的特征向量，

(6)对基于元路径的图神经网络C进行迭代训练：

d_n的基特征

和g_k的基特征

并令j＝0，

(6c)将每种miRNAr_m的基特征

d_n的隐藏特征向量

和g_k的隐藏特征向量

(6d)将miRNAr_m的隐藏特征向量

d_n的隐藏特征向量

和g_k的隐藏特征向量

以及每种元路径P_i的元路径实例集合

将

中起始节点相同的元路径实例在向量集合

和每种疾病d_n的特征向量集合

(6e)基于多种元路径的特征学习模块中的第一全连接层对

中的向量进行加权求和，得到miRNAr_m的特征向量

节点特征输出模块中第一全连接层对

进行线性变换，得到miRNAr_m的输出特征向量

同时基于多种元路径的特征学习模块中的第二全连接层对

中的向量进行加权求和，得到d_n的特征向量

节点特征输出模块中第二全连接层对

进行线性变换，得到d_n的输出特征向量

(6f)采用损失函数L，并通过

和

进行更新；

(7)获取miRNA和疾病的预测结果：

和d_n的特征向量

计算miRNAr_m与疾病d_n的关联概率

2.根据权利要求1所述的基于元路径的miRNA-疾病关联预测方法，其特征在于，步骤(6c)中所述的将每种miRNAr_m的基特征

作为模型C的节点特征降维模块中第二全连接层的输入进行线性变换，以及将每种基因g_k的基特征

作为模型C的节点特征降维模块中第三全连接层的输入进行线性变换，实现步骤为：

第一全连接层将基特征

第二全连接层将基特征

第三全连接层将基特征

分别映射到z维向量空间中，得到miRNAr_m的隐藏特征向量

疾病d_n的隐藏特征向量

和基因g_k的隐藏特征向量

其中，

表示第一全连接层的参数权重矩阵，

表示第二全连接层的参数权重矩阵，

表示第三全连接层的参数权重矩阵，当min({M,N,K})≤500时z＝32，当min({M,N,K})＞500时z＝64。

3.根据权利要求1所述的基于元路径的miRNA-疾病关联预测方法，其特征在于，步骤(6d)中所述的每种元路径P_i的向量集合

每种miRNAr_m的特征向量集合

和每种疾病d_n的特征向量集合

其获取方式为：

(6d1)池化层对每种元路径P_i的元路径实例集合

中的每条元路径实例

其中，

表示

的起始节点v₁通过

获得的向量信息，

表示

在第μ维的数值，节点t表示元路径实例

表示每条元路径实例

中所有节点的集合；

(6d2)多头注意力层对

中起始节点相同的元路径实例在向量集合

和每种疾病d_n的特征向量集合

其中，

表示

的起始节点v₁的隐藏特征，

表示

在向量集合

中对应的向量

||表示向量的拼接，

表示

第f次随机初始化的值，LeakyReLU表示激活函数，

表示元路径实例

对起始节点v₁的第f个重要性，exp表示以e为底的指数函数，

表示

中以v₁为起始节点的元路径实例的终止节点

的集合，

表示

中以v₁为起始节点、u为终止节点的元路径实例

对起始节点v₁的第f个重要性，

表示

对起始节点v₁的第f个归一化重要性，

表示元路径实例

对起始节点v₁的第f个归一化重要性，

表示元路径实例

在向量集合

中对应的向量，F＝8，当v₁表示r_m时，

表示r_m的特征向量集合

中的一个元素，当v₁表示d_n时，

表示d_n的特征向量集合

中的一个元素。

4.根据权利要求1所述的基于元路径的miRNA-疾病关联预测方法，其特征在于，步骤(6e)中所述的miRNAr_m的输出特征向量

疾病d_n的输出特征向量

其获取的实现步骤为：

(6e1)基于多种元路径的特征学习模块中的第一全连接层对

中的向量进行加权求和，得到miRNAr_m的特征向量

d_n的特征向量

其中，W_r′和b_r表示基于多种元路径的特征学习模块中的第一全连接层的可学习参数，

表示miRNA r_m基于元路径P_ir获得的特征向量，x_ir表示元路径P_ir的初始特征向量，a_r表示miRNAr的参数化注意力向量，e_ir表示元路径P_ir的权重，β_ir表示元路径P_ir的归一化权重，Ψ_r＝{P_ir|P_ir∈P∩P_ir的起始节点类型为r}，W′_d和b_d表示基于多种元路径的特征学习模块中的第二全连接层的可学习参数，