CN109256215A

CN109256215A - 一种基于自回避随机游走的疾病关联miRNA预测方法及系统

Info

Publication number: CN109256215A
Application number: CN201811026206.6A
Authority: CN
Inventors: 李光辉; 胡鑫; 姜楠; 张跃进; 宋凯; 万涛; 周天清
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2018-09-04
Filing date: 2018-09-04
Publication date: 2019-01-22
Anticipated expiration: 2038-09-04
Also published as: CN109256215B

Abstract

本发明公开了一种基于自回避随机游走的疾病关联miRNA预测方法及系统，该方法利用自回避随机游走遍历疾病‑miRNA二分图，使用自回避随机游走的两个属性(两个节点之间的转移概率与平均步长)之比来度量节点间的关联度，实现疾病与miRNA之间的关联预测；该方法既能用于非加权miRNA‑疾病二分图，也能用于加权miRNA‑疾病二分图。该方法只需根据已知的miRNA‑疾病关联信息就能够较准确地预测疾病关联的miRNAs，并且可以一次预测出大量的致病miRNAs，解决了生物实验方法成本昂贵和耗时等问题。

Description

一种基于自回避随机游走的疾病关联miRNA预测方法及系统

技术领域

本发明属于系统生物学领域，特别涉及一种基于自回避随机游走的疾病关联miRNA预测方法及系统。

背景技术

MicroRNAs(miRNAs)是一类长度约为19-24个核苷酸的非编码RNA,通过与mRNA3'-UTR互补结合，导致靶mRNA降解或翻译抑制，从而在转录后水平上调控基因表达。近年来，研究表明正是由于miRNA的功能失调导致其所调控的基因表达量异常，进而导致疾病的发生和发展，这在实性肿瘤中表现的尤为明显。所以，有效地识别miRNAs与疾病的关联关系对于研究疾病的产生机制，同时为预防和治疗复杂疾病提供新的生物靶标，具有非常重要的理论意义和迫切的现实意义。

目前有两类方法可以用来识别与疾病相关的miRNA：基于生物实验的方法及基于计算的预测方法。尽管采用微阵列和PCR等实验方法具有较高的准确率，然而这些实验方法通常需要大量的资源和时间成本且难以大规模的进行操作。随着可利用的异构生物数据集的不断增长，基于计算的预测方法受到广泛关注。基于计算的预测方法一个基本假设就是功能相似的miRNAs倾向于与表型相似的疾病相关联。2010年，Jiang等人构建了功能相关miRNA网络、人类疾病表型网络以及表型-miRNA网络，最后采用累计超几何分布方法在所构建的网络上来预测疾病关联miRNAs。2013年，Xuan等人提出一种基于权重最相似k邻居的方法HDMP。由于上述方法仅考虑了局部的miRNA和疾病关联信息，该类方法性能较低。Chen等人通过将重启随机游走方法应用到所构建的miRNA相似性网络，提出了一种基于全局网络的预测方法RWRMDA。随后，Shi等人提出了一种改进的随机游走方法来预测疾病相关的miRNAs，该方法将已知的致病基因及miRNA的靶基因映射到蛋白质相互作用网络上，并通过基因功能富集分析来确定调控该基因的miRNA与疾病的相关性。类似地，Xuan等人基于随机游走提出了一种新的预测方法MIDP，该方法对于特定疾病所标记的miRNAs和未标记的miRNAs赋予不同的转移矩阵，从而利用了顶点的先验信息进行预测，取得了较好的结果。此外，Chen等人提出了一种基于半监督全局化方法RLSMDA，在没有负样本的情况下将miRNA功能相似信息、疾病语义相似性以及实验验证的miRNA-疾病关联信息融合于一起进行预测。

然而，以上方法的预测准确度还有待提高，而且大部分方法依赖于异构的多源数据。另一方面，已知的实验验证的miRNA-疾病关联网络提供了重要的先验信息，并且能够直接有助于新miRNA-疾病关系的预测。因此，有必要设计一种基于网络拓扑相似性的miRNA-疾病关联预测方法。

发明内容

本发明所要解决的技术问题是提出一种基于自回避随机游走的疾病关联miRNA预测方法，该基于自回避随机游走的疾病关联miRNA预测方法只需根据已知的实验验证的miRNA-疾病关联信息就能够较准确地预测新的miRNA-疾病关联，并且可以一次预测出大量的致病miRNAs，解决了生物实验方法成本昂贵和耗时等问题。

一种基于自回避随机游走的疾病关联miRNA预测方法，包括以下步骤：

步骤1)构建miRNA-疾病二分图；

依据miRNA与疾病之间关联信息，建立miRNA-疾病二分图G＝<M,D,E>；其中，miRNA-疾病关联信息指生物实验验证的miRNA-疾病关联对，作为边集E；顶点集M＝{m₁,m₂,…,m_p}表示所有的miRNAs集合，顶点集D＝{d₁,d₂,…,d_q}表示所有的疾病集合，p和q分别为miRNA和疾病的总数；

步骤2)在miRNA-疾病二分图上以待查询疾病节点作为出发节点，按照边集中的连线进行N_i次自回避随机游走，经过所述二分图中的疾病节点或miRNA节点，记录待查询疾病节点在N_i次游走过程中到各miRNA m_j的平均步长l_i,j和次数n_i,j；

其中，表示从待查询疾病d_i出发的第k次游走，代表第k次游走从待查询疾病d_i出发到达miRNA m_j节点所需要的步长数，N_i的取值为整数，且大于p+q；

所述自回避随机游走是指在每一步游走过程中，游走区域内的每个节点最多只能被访问一次；

步骤3)计算待查询疾病与各候选miRNA之间的关联得分；

所述候选miRNA是指在所述miRNA-疾病二分图中与待查询疾病节点不存在连接关系的miRNA节点；

步骤4)对待查询疾病d_i与所有候选miRNA的关联得分进行从大到小排序，选取排名前50的miRNA作为与待查询疾病的关联miRNA。

巧妙的利用自回避随机游走有效地探索二分图中节点间的接近度，从而获得疾病与miRNA之间关联程度。

进一步地，如果所有的N_i次游走中都没有一次游走能够到达miRNA m_j节点，则f_i,j＝0。

进一步地，所述N_i的取值大于或等于10000。

为了保证转移概率和平均步长的稳定性，必须满足miRNA-疾病二分图中的顶点数要远小于自回避随机游走的总次数，为此设置N_i的值大于或等于10000。

一种基于自回避随机游走的疾病关联miRNA预测系统，包括：

miRNA-疾病二分图构建单元，用于依据miRNA与疾病之间关联信息，建立miRNA-疾病二分图G＝<M,D,E>；

其中，miRNA-疾病关联信息指生物实验验证的miRNA-疾病关联对，作为边集E；顶点集M＝{m₁,m₂,…,m_p}表示所有的miRNAs集合，顶点集D＝{d₁,d₂,…,d_q}表示所有的疾病集合；

miRNA-疾病二分图随机游走单元，用于在miRNA-疾病二分图上以待查询疾病节点作为出发节点，按照边集中的连线进行N_i次自回避随机游走，经过所述二分图中的疾病节点或miRNA节点，记录待查询疾病节点在N_i次游走过程中到各miRNA m_j的平均步长l_i,j和次数n_i,j；

疾病与候选miRNA的关联得分计算单元，用于按照上述的方法计算待查询疾病与各候选miRNA之间的关联得分；

疾病的关联miRNA预测单元，用于对待查询疾病d_i与所有候选miRNA的关联得分进行从大到小排序，选取排名前50的miRNA作为与待查询疾病的关联miRNA的预测结果。

有益效果

本发明提供了一种基于自回避随机游走的疾病关联miRNA预测方法及系统，该方法利用自回避随机游走遍历疾病-miRNA二分图，使用自回避随机游走的两个属性(两个节点之间的转移概率与平均步长)之比来度量节点间的关联度，实现疾病与miRNA之间的关联预测；该方法既能用于非加权miRNA-疾病二分图，也能用于加权miRNA-疾病二分图。该方法只需根据已知的miRNA-疾病关联信息就能够较准确地预测疾病关联的miRNAs，并且可以一次预测出大量的致病miRNAs，解决了生物实验方法成本昂贵和耗时等问题。

本发明使用自回避随机游走的两个属性(两个节点之间的转移概率与平均步长)之比来度量节点间的关联度，最终预测出与查询疾病相关的miRNAs，为生物学家和医学家进一步研究提供有价值的参考信息，为临床诊断和药物研发提供一定的依据。

实验证明，SAWMDA相比于其他方法具有更高的AUC和AUPR值，并且对乳腺癌和肺癌两种常见疾病预测得到的前50个miRNAs中，分别有98％和98％的潜在候选获得了文献和数据库的支持，进一步表明了该方法的有效性。

附图说明

图1是本发明所述方法的流程示意图；

图2是miRNA-疾病二分图实例。

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明：

实施例1：

本发明将查询疾病与候选miRNA的关联度定义为查询疾病到候选miRNA的平均步长的倒数与查询疾病到候选miRNA的转移概率的乘积，其表达形式如下：

其中，p_i,j为待查询疾病d_i到miRNA m_j转移概率，l_i,j为待查询疾病d_i到miRNA m_j平均步长。

一种基于自回避随机游走的疾病关联miRNA预测方法的整个流程如图1所示。首先输入一组miRNA-疾病关联信息，该方法包括以下几个子过程：

1)建立miRNA-疾病二分图：输入一组miRNA-疾病关联信息，建立miRNA-疾病二分图G＝<M,D,E>(如图2所示)；

其中，miRNA-疾病关联信息指生物实验验证的miRNA-疾病关联对，作为边集E；顶点集M＝{m₁,m₂,…,m_p}表示所有的miRNAs集合，顶点集D＝{d₁,d₂,…,d_q}表示所有的疾病集合，p和q分别为miRNA和疾病的总数；

2)粒子从待查询疾病节点d_i出发，在miRNA-疾病二分图上进行N_i次自回避随机游走；其中，自回避随机游走是指在每一步游走过程中，不再选择那些已经到达过的节点，即游走区域内的每个节点最多只能被访问一次；

3)计算待查询疾病d_i到每一个miRNA m_j(j＝1,2,…,p)的转移概率，

4)计算待查询疾病d_i到每一个miRNA m_j(j＝1,2,…,p)的平均步长，

5)计算待查询疾病d_i与每一个miRNA m_j(j＝1,2,…,p)的关联得分，

6)对待查询疾病d_i与所有候选miRNAs的关联得分进行从大到小排序，排名越靠前，关联性越大；所述的候选miRNAs即二分图G中与该查询疾病d_i没有边相连的miRNA节点。

一种基于自回避随机游走的疾病关联miRNA预测系统，包括：

其中，miRNA-疾病关联信息指生物实验验证的miRNA-疾病关联对，作为边集E；顶点集M＝{m1,m2,…,mp}表示所有的miRNAs集合，顶点集D＝{d1,d2,…,dq}表示所有的疾病集合；

miRNA-疾病二分图随机游走单元，用于在miRNA-疾病二分图上以待查询疾病节点作为出发节点，按照边集中的连线进行N_i次自回避随机游走，经过所述二分图中的疾病节点或miRNA节点，记录待查询疾病节点在N_i次游走过程中到各miRNA mj的平均步长li,j和次数ni,j；

疾病的关联miRNA预测单元，用于对待查询疾病di与所有候选miRNA的关联得分进行从大到小排序，选取排名前50的miRNA作为与待查询疾病的关联miRNA的预测结果。

基于自回避随机游走的疾病关联miRNA预测方法有效性验证

为了验证本发明所述方法的有效性，将该方法应用于人类miRNA-疾病关联数据库HMDD，目前HMDD v2.0版本数据库共收录了5224个经由生物实验验证的miRNA-疾病关联，其中包括了495个miRNA，330个疾病。为了保证转移概率和平均步长的稳定性，必须满足miRNA-疾病二分图中的顶点数要远小于自回避随机游走的总次数，为此我们设置N_i的值为10000。将本发明所述方法(SAWMDA)与RLSMDA、MIDP和RWRMDA等3个流行的方法在AUC和AUPR值等方面进行了比较。此外，在本实例中，还分析了对乳腺癌和肺癌分别预测得到的前50个miRNAs在相关文献的支持结果。

1.方法SAWMDA与其他方法在AUC和AUPR值比较

AUC和AUPR值是用来评估疾病关联miRNA预测方法的两个最重要的全局评价指标。AUC值即为ROC曲线下的面积，ROC曲线的横坐标为假阳性率(False Positive Rate,FPR)，纵坐标为真阳性率(True Positive Rate,TPR)；AUPR值即为精确度-召回率(Precision-Recall)曲线下的面积；AUC和AUPR值越大，方法预测效果越好。

采用5折交叉验证法验证结果，HMDD数据库中所有已知的miRNA-疾病关联数据集被随机划分为5个子集，其中4份作为训练集，而另外一份作为测试集中的正样本，轮流5次，其余未知的miRNA-疾病对作为测试集中的负样本。输入查询疾病，每种预测方法都会计算得到查询疾病与测试集中的每个miRNA的关联得分，然后将所有的miRNA依据该分值从大到小排序。正样本的排名越靠前，说明方法越有效。如果测试集中的一个标记miRNA节点得分高于阈值θ，那么该节点被认为是成功预测的正样本；如果测试集中的一个未标记miRNA节点得分低于阈值θ，那么该节点被认为是成功预测的负样本。通过改变阈值θ的取值，就可以计算方法的真阳性率(TPR)，假阳性率(FPR)，精确度(Precision)和召回率(Recall)，四个指标的计算公式如下：

TPR＝TP/(TP+FN)

FPR＝FP/(TN+FP)

Pr ecision＝TP/(TP+FP)

Re call＝TP/(TP+FN)

其中TP(true positive,真阳性)和TN(true negative,真阴性)分别表示正样本和负样本被正确识别的数量，FP(false positive,假阳性)和FN(false negative,假阴性)分别表示正样本和负样本被错误识别的数量。

考虑到当前HMDD v2.0版本数据库中大部分疾病仅关联了很少的miRNAs，为了充分评估预测方法的性能，测试那些至少关联80个miRNA的15种疾病，表1比较了4种方法在15种疾病上的AUC和AUPR值。从表1可以很明显地看出，方法SAWMDA在大部分疾病上能取得更高的AUC和AUPR值，方法SAWMDA对于这15种疾病预测取得的AUC和AUPR均值分别为0.8421和0.3695，明显优于其他方法，特别是在AUPR值方面。可见，方法SAWMDA预测效果更好。

表1方法SAWMDA和其他方法对15种常见疾病的AUC和AUPR值的比较

2.预测新miRNA-疾病关联关系

为了验证方法SAWMDA对新关联的预测能力，使用HMDD数据库中所有已知的miRNA-疾病关联数据作为训练集，采用SAWMDA方法对不同疾病的新关联进行预测，预测出的新miRNA-疾病关联通过3个数据库dbDEMC2.0，PhenomiR2.0和miRCancer以及相关实验文献进行验证。我们选择乳腺癌(Breast Neoplasms)和肺癌(Lung Neoplasms)这两种常见疾病作为实例研究。

表2方法SAWMDA预测得到的前50个与乳腺癌相关miRNA

表3方法SAWMDA预测得到的前50个与肺癌相关miRNA

方法SAWMDA预测得到的前50个与乳腺癌相关的miRNA如表2所示。从表中可以看出，有47个潜在相关miRNA能够直接通过数据库被证实与乳腺癌有关，另外hsa-mir-378a和hsa-mir-542能够得到PubMed上的文献支持，只有hsa-mir-371a暂未获得相关文献或数据库的证明。

方法SAWMDA预测得到的前50个与肺癌相关的miRNA如表3所示。从表中可以看出，有48个潜在相关miRNA能够直接通过数据库被证实与肺癌有关，另外hsa-mir-378a能够得到PubMed上的文献支持，只有hsa-mir-663a暂未获得相关文献或数据库的证明。以上结果表明，本发明所提方法的预测结果具有较高的可信度和实用价值。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于自回避随机游走的疾病关联miRNA预测方法，其特征在于，包括以下步骤：

步骤1)构建miRNA-疾病二分图；

步骤3)计算待查询疾病与各候选miRNA之间的关联得分；

2.根据权利要求1所述的方法，其特征在于，如果所有的N_i次游走中都没有一次游走能够到达miRNA m_j节点，则f_i,j＝0。

3.根据权利要求1或2所述的方法，其特征在于，所述N_i的取值大于或等于10000。

4.一种基于自回避随机游走的疾病关联miRNA预测系统，其特征在于，包括：

疾病与候选miRNA的关联得分计算单元，用于按照权利要求1-3任一项所述的方法计算待查询疾病与各候选miRNA之间的关联得分；