CN105653846B

CN105653846B - 基于集成的相似性度量和双向随机游走的药物重定位方法

Info

Publication number: CN105653846B
Application number: CN201510991455.9A
Authority: CN
Inventors: 罗慧敏; 夏红; 王建新; 罗军伟
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2018-08-31
Anticipated expiration: 2035-12-25
Also published as: CN105653846A

Abstract

本发明公开了一种基于集成的相似性度量和双向随机游走的药物重定位方法，集成相似性度量方法在计算药物相似性、疾病相似性时，除了分别利用药物特性信息与疾病特性信息，还充分考虑了当前数据集中已知药物‑疾病关联信息对相似性度量的作用，使得所计算的相似性值能够更好的反映药物间的相似度和疾病间的相似度。在此基础上，构建了药物‑疾病异构网络，基于该异构网络，采用双向随机游走算法为所有的药物预测候选疾病。本发明简单有效，通过与其他方法比较，及在多个数据集上测试表明，该发明在药物重定位方面具有较好的预测性能。

Description

基于集成的相似性度量和双向随机游走的药物重定位方法

技术领域

本发明属于生物信息学领域，涉及一种基于集成的相似性度量和双向随机游走的药物重定位方法，用于预测已知药物的新适应症。

背景技术

在过去的几十年中，尽管在基因组学与生命科学技术领域已经取得了较大的进展，但是创新药物的研发依然周期较长、耗资巨大，而且存在较高的风险和较低的成功率。如今在药物研发方面的投入不断增长，但是实际产出却停滞不前，因此如何有效提高药物研发的效率是制药企业所面临的挑战性问题。针对这个问题，药物重定位(Drugrepositioning or Drug repurposing)技术，即挖掘已有药物的新适应症，正在成为药物研发的重要策略。

与传统的创新药物研发过程不同的是，药物重定位是基于已有药物适应症的重新开发，不仅可以节省大量前期研发的投入(如药靶发现、化合物筛选、安全性测试等)，从而将药物研发的周期从10～17年缩短到2～12年，并且能显著降低药物研发的风险和费用。因此药物重定位越来越受到各国政府部门、制药企业、学术机构等各方面的关注。例如，美国国家推进转化科学中心(National Center for Advancing Translational Sciences，NCATS)和英国医学研究委员会(Medical Research Council，MRC)近期发起大规模的药物重定位项目，鼓励并加强各机构交叉合作，发现以前中断开发的化合物的潜在新疗效。另外，美国食品和药物管理局(U.S.Food and Drug Administration，FDA)也开始致力于利用生物信息学方法挖掘罕见疾病的潜在治疗药物，并建立FDA的罕见疾病重定位数据库，便于识别已上市药物化合物的新的潜在适应症。根据咨询公司BioVista统计，世界前20大制药企业的利润已有至少30％来自于药物重定位。

迄今为止，已存在多种成功重定位的药物，比如，度洛西汀(Duloxetine)原本用于治疗抑郁症，然而在临床前研究中发现Duloxetine可以用于压力性尿失禁(stressurinary incontinence，SUI)。药物重定位不仅能拓展现有药物的适应范围，而且能使得一些撤市药物得以重新利用。例如，沙利度胺(thalidomide)最早作为镇静剂和止痛剂用于治疗孕妇的妊娠反应，而后由于其严重的致畸副作用被禁用。1998年FDA重新批准该药物用于治疗麻风病并发症结节性红斑。不仅如此，它还被用于治疗口腔和生殖器官溃疡、血管炎、风湿性关节炎以及移植以后的慢性排异反应等疾病。在这些重定向药物中，有的是在临床用药或实验研究时偶然发现、并经进一步研究确定的；有些则是基于新思路研究或通过其他途径发现的。伴随着药物相关数据的积累，以及各种药物信息学数据库的快速发展，通过计算方法发现药物的新适应症，即基于计算方法的药物重定位，成为近年来计算生物学和系统生物学研究的热点。药物重定位作为一种国际上被广泛采用的研发战略，具有更高的投入产出效率。如何设计有效的药物重定位计算方法已经越来越引起人们的关注。

目前的药物重定位计算分析方法主要分为三大类：

(1)基于机器学习的方法

由于药物重定位的数据种类越来越多，基于机器学习模型可以利用这些数据，研究药物-疾病关联预测方法。

近年来，已经出现了多种集成多特征的机器学习方法。Napolitano等提出基于最新的机器学习算法的药物重定位方法，以药物为中心，借助药物相关特征(比如，药物化学结构相似性、药物分子靶标相似性和药物基因表达相似性)，来预测药物治疗类。他们把这些特征融合为一个药物相似性矩阵，这个矩阵作为SVM分类的核函数。除了药物相关特征，Gottlieb同时集成了不同的疾病相关特征(比如，表型和遗传特征)。基于不同的药物、疾病相关特征，计算药物-药物相似性与疾病-疾病相似性，根据所有的相似性构建分类特征，然后用逻辑回归分类器来预测新的药物适应症。

另外，还有一些药物重定位方法利用机器学习协同过滤技术来预测未知的药物-疾病关联。例如，Zhang等人提出了一个预测新的药物-疾病关联的统一计算框架，该框架集成了多方面的药物相似性和疾病相似性。简单来说，集成基因组(比如，药物靶标蛋白、疾病基因)、表型组(比如，疾病表型、药物副作用)和化学结构(比如，药物化学结构)数据来得到药物相似性矩阵和疾病相似性矩阵。基于这些信息，作者把药物-疾病网络分析转化为非线性约束最优化问题。实验结果证明该计算框架可以作为药物重定位的有效工具，能有效识别已知药物的新适应症。

(2)基于网络的方法

基于网络的分析是计算药物重定位的另一个广泛应用的策略。随着高通量技术和生物信息方法的快速发展，积累了一些描述生物系统分子关联的生物信息，可以构建成不同的生物信息网络。研究表明药物-靶标网络、药物-药物网络、疾病-疾病网络、蛋白质交互网络、转录网络和传导网络在识别治疗靶标或药物靶标特性方面的作用，这为药物发现和药物重定位提供了新的发展机遇。

Chiang等人提出了新的基于guilt-by-association的药物重定位方法，该方法所基于的假设是：如果两个疾病共享相似的治疗，那么用于治疗其中一种疾病的药物也可能治疗另一种疾病。Li等人开发了一个药物-靶标二分图方法，通过药物之间的相似性识别已有药物的新适应症。在二分图模型中，药物相似性的计算集成了药物化学结构相似性、共享的靶标和他们之间的关联。Wu等人采取了通过在药物-疾病异构网上进行聚类的方法进行药物重定位，识别紧密连接的药物模块和疾病模块，这些模块被用于抽取可能存在关联的药物-疾病对。在异构网络中，将具有共享疾病/靶标和富集特征(生物过程、pathway和表型)的两个结点(一个药物或一个疾病)连接起来，并且连接边的权值设置为一个Jaccard分数。Wang等人提出了一个基于异构网络模型的计算框架完成药物重定位，该异构网络中包括药物、疾病和靶标信息。潜在的疾病-药物关联预测，是通过在异构图上进行迭代计算疾病-药物的关联强度。

(3)基于文献挖掘的方法

文献或数据库提供大量的药物和疾病相关的生物医学和制药信息，这些信息能通过文献挖掘技术自动挖掘和检索。因此，可以通过文献挖掘方法检测已知药物的新适应症。该类方法重要的基础在于生物本体，使得对从不同来源得到的生物信息进行比较和分析成为可能。

Andronis总结了药物重定位的文献挖掘方法、本体资源和可视化方法。另外，语义技术的发展也加速了不同数据源的集成和药物新适应症的发现。比如，Zhu等人利用药物基因组学数据，应用信息与语义Web技术解决药物重定位问题。基于PharmGKB数据库识别FDA批准的治疗乳腺癌的药物关联数据，这些信息建模为药物基因组学数据谱，这些谱数据被转换为支持自动语义推断的语义Web标记。Chen等人利用语义方法集成和注释药物-靶标关联的相关数据，构建异构网络。然后开发了一个统计模型(SLAP)来评价药物-靶标关联，并预测潜在的关联。

综上所述，对于基于机器学习与基于网络的药物重定位方法，大多基于药物相似性和疾病相似性进行预测，因此相似性计算方法对于预测结果有着重要作用。然而，目前的相似性计算大多是基于某种已知的生物特征信息，或基于多种相似性进行加权融合，未对已知的不同类数据间的关联信息进行充分利用，因此具有较大的局限性。

因此，有必要设计一种基于集成的相似性度量和双向随机游走的药物重定位方法。

发明内容

本发明所要解决的技术问题是提供一种基于集成的相似性度量和双向随机游走的药物重定位方法，该基于集成的相似性度量和双向随机游走的药物重定位方法易于实施，在药物重定位方面具有优良的预测性能。

发明的技术解决方案如下：

一种基于集成的相似性度量和双向随机游走的药物重定位方法，包括以下步骤：

步骤1：基于相似性计算创建相似性矩阵；

计算药物相似性以及疾病相似性，从而创建药物相似性矩阵和疾病相似性矩阵；也可以说成：整合所有的药物相似性形成矩阵，即形成药物相似性矩阵。整合所有的疾病相似性形成矩阵，即形成疾病相似性矩阵；

步骤2：基于相似性矩阵以及药物-疾病关联特性以构建药物-疾病异构网络；

步骤3：在药物-疾病异构网络上基于双向随机游走算法进行药物重定位。

步骤1中，药物相似性的计算方法如下：

1)采用分子指纹比较计算药物的化合物相似性；具体来说，首先获取所有药物分子的SMILES编码的化学结构；然后利用CDK(Chemical development kit)计算每个药物的分子指纹；最后用杰卡德系数来度量分子指纹的相似程度，作为药物的化学结构相似性。

2)对化合物相似性进行调整：

(a)把0到1之间区间平均分为N个区间，统计药物对相似性值在各区间范围内的药物对个数，N为大于5的整数；并计算各区间范围内的存在共享疾病的药物对比例；

(b)然后利用Fisher-Yates乱序算法打乱所有药物对的相似性值(即对于所有药物对的相似性值，进行随机的重新排列)，得到随机的药物相似性，再次统计相似性值在各区间范围内的存在共享疾病的药物对比例；可以得到两个阈值LSim和HSim【比较步骤(a)与该步骤的结果，发现在相似性值小于某个值的药物对中，共享疾病的药物对比例小于随机情况下的比例，这个值定义为阈值LSim；在相似性值大于某个值的药物对中，共享疾病的药物对比例高于(或显著高于)随机情况下的比例，这个值定义为阈值HSim】；对于相似性值小于LSim的药物对共享疾病的概率很小，相似性值大于HSim的药物对共享疾病的概率很大；

(c)根据(b)中得到的阈值，调整相似性值，对于相似性值小于LSim的药物对，降低其相似性值；对于相似性值大于HSim的药物对，提高其相似性值；采用以下公式调整相似性值；

x表示要调整的化学结构相似性值，c、d参数是逻辑函数的可调参数；【x表示要调整的药物对化学结构相似性值，L(x)表示调整之后的相似性值】

C和d的确定方法：设置L(0)＝0.0001，通过计算出参数d的值为log(9999)，log以e为底数；设置L(Lsim)＝0.01，并基于d值，通过计算出参数c的值。所述的步骤1还包括步骤d：基于药物-疾病关联信息修正药物对的相似性值：

首先基于所有药物之间的共享关联，创建药物共享网络，SR＝{r₁，r₂，…，r_m}表示m个药物结点，用药物之间共享疾病数表示药物节点之间的边权值；然后用ClusterOne聚类算法对该药物共享网络进行聚类，得到多个药物模块，在同一个模块内的药物直接共享或间接共享疾病；

采用在原药物对的相似性值的基础上乘以系数i+QC对相似性值进行修正；

V表示一个模块内的节点集合，w_in(V)表示模块内所有边权值和，w_bound(V)表示该模块的所有节点与该模块外的节点连接的边权值和，p|V|表示惩罚项【目的是建模数据的不确定性，对于V中的每个结点，假设该节点还存在到该模块外的边权值p，p值默认为2】。

N为10。

所述的步骤2中；

在药物共享网络中，顶点集合R＝{r₁，r₂，…，r_m}表示m种药物，当药物i与药物j之间的相似性大于0时，顶点r_i和顶点r_j之间有边相连接，药物i和药物j之间的相似性值即为该条边的权值；构建疾病网络，在疾病网络中，顶点集合D＝{d₁，d₂，…，d_n}表示n种药物，当疾病i与疾病j之间的相似性大于0时，顶点d_i和顶点d_j之间有边相连接，疾病i和疾病j之间的相似性值即为该条边的权值；

将药物-疾病的关联用一个二分图G(V，E)表征，其中V(G)＝{R，D}， E(G)＝{e_ij，药物r_i与疾病d_j之间的边}；【如果药物r_i与疾病d_j之间存在已知关联，则r_i与d_j间的边e_ij的权重设置为1，否则设置为0；】基于药物共享网络、疾病网络和二分图G构建药物-疾病异构网络；该网络包括药物网络、疾病网络和药物-疾病关联图，其中药物网络、疾病网络通过药物-疾病关联图连接。

在药物网络上游走：

left_RD_t＝α×MR×RD_t-1+(1-α)×A (3)

在疾病网络上游走：

right_RD_t＝α×RD_t-1×MD+(1-α)×A (4)

其中，MR(m×m)，MD(n×n)，A(m×n)分别表示药物网络邻接矩阵、疾病网络邻接矩阵和药物-疾病关联矩阵，m和n表示药物数和疾病数，left_RDt表示t时刻在药物网络上游走所预测到的新的药物-疾病关联，right_RDt表示t时刻在疾病网络上游走所预测到的药物-疾病关联，left_RDt(i，j)和right_RDt(i，j)表示药物i与疾病j存在关联的概率；

在药物网络和疾病网络上迭代执行若干步随机游走，在整个迭代过程的每步中，RDt是t时刻left_RDt和right_RDt的平均输出；对于关联矩阵RDt中的某个元素RDt(i，j)，表示药物i与疾病j之间的关联值，该值越大，表示药物i与疾病j间存在关联的概率越大。通过交叉验证实验确定在两个网络上游走的最优步数；

α为权重系数，α的取值范围为0到1。【优选值为0.3】【参数α的取值范围为0到1，能控制矩阵A中已知的关联信息对整个迭代过程调控的权重。而且它也能抑制过长的游走路径(起惩罚作用)。通过交叉验证实验结果发现，该参数对算法结果影响很小，选取该参数值为0.3】

本发明的基于集成相似性度量及双向随机游走的药物重定位方法(MBiRW)，核心步骤如下：

1)利用已知的药物特性信息、疾病特性信息及药物-疾病关联信息，计算药物相似性和疾病相似性，得到药物相似性矩阵和疾病相似性矩阵；

2)构建药物-疾病异构网络，该网络包括药物网络、疾病网络和药物-疾病关联图，其中药物网络、疾病网络通过药物-疾病关联图连接；

3)基于药物-疾病异构网络，采用双向随机游走算法，预测潜在的、新的药物-疾病关联；

所述步骤1)中，计算药物相似性和疾病相似性的过程如下：首先，基于药物的化学结构信息计算药物化学结构相似性，基于疾病表型信息计算疾病表型相似性；然后，计算分析药物间的化学结构相似性与药物间是否存在共享疾病的相关性、疾病间表型相似性与疾病间是否存在共享药物的相关性，根据计算分析结果，调整药物化学结构相似性和疾病表型相似性，得到新的药物相似性和疾病相似性；最后，根据药物间的共享疾病信息、疾病间的共享药物信息，分别对药物和疾病进行聚类，识别药物模块和疾病模块，提高属于同一模块的药物间相似性和疾病间相似性。

计算分析药物间的化学结构相似性与药物间是否存在共享疾病的相关性，过程如下：统计不同相似性范围内的药物对个数，计算各范围内存在共享疾病的药物对比例，从而计算药物间的化学结构相似性与药物间是否存在共享疾病的相关性；根据统计分析结果，采用逻辑函数调整药物的化学结构相似性，得到新的药物相似性。对于疾病表型相似性做类似的统计分析和调整，从而得到新的疾病相似性。识别药物模块和疾病模块，并提高属于同一模块的药物间相似性和疾病间相似性，过程如下：基于所有药物之间的共享疾病，创建药物共享网络，该网络包含所有的药物结点，用药物之间的共享疾病数表示药物节点间的边权值；基于所有疾病之间的共享药物，创建疾病共享网络，该网络包含所有的疾病结点，用疾病之间的共享药物数表示疾病节点间的边权值；然后用ClusterOne聚类算法对药物共享网络、疾病共享网络进行聚类，得到多个紧密连接的药物模块、疾病模块，提高属于同一模块的药物间相似性和疾病间相似性；

所述步骤2)中，构建药物-疾病异构网络的过程如下：基于步骤1)中所创建的药物相似性矩阵和疾病相似性矩阵，构建药物网络和疾病网络；然后，根据已知的药物-疾病关联信息，创建药物-疾病关联矩阵，构建药物-疾病关联二分图；最后，由药物-疾病关联图连接药物网络和疾病网络，构成药物-疾病异构网络。

所述步骤3)中，预测潜在的、新的药物-疾病关联的过程如下：基于所构建的药物-疾病异构网络，采用双向随机游走算法(Bi-random walk，BiRW)，分别在药物网络和疾病网络上游走不同的步数，得到新的药物-疾病关联矩阵，该矩阵中每个元素对应药物i与疾病j之间的关联值，关联值越大表明药物i与疾病j之间存在关联的可能性越大。

有益效果：

本发明是一种基于集成相似性度量和双向随机游走的药物重定位方法，该方法的实施基于相似的药物更易于关联相似的疾病、相似的疾病更易于关联相似的药物的假设。首先提出新的相似性度量方法，在计算药物相似性、疾病相似性时，除了分别利用药物特性信息与疾病特性信息，还充分考虑了当前数据集中已知药物-疾病关联信息对相似性度量的作用，使得所计算的相似性值能够更好的反映药物间的相似度和疾病间的相似度。在此基础上，构建了药物-疾病异构网络，基于该异构网络，采用双向随机游走算法，迭代地在药物-疾病网络上执行随机游走，预测潜在的、新的药物-疾病关联。

本发明充分利用已知生物信息，改进药物与疾病的相似性度量，并考虑到不同网络拓扑结构的差异采用双向随机游走算法，从而提高预测性能。本发明简单有效，通过与其他方法比较，及在多个数据集上测试表明，该发明在药物重定位方面具有较好的预测性能。该药物重定位方法能有效地挖掘已知药物的新的潜在适应症，从而为药物药用学的研究和发展提供科学的参考和指引，有利于医药业的总体发展，经济效益和社会意义巨大。

附图说明

图1本发明MBiRW流程图；

图2(A)药物相似性与存在共享疾病的相关性分析图。

图2(B)疾病相似性与存在共享药物的相关性分析图。

图3为在已知数据集上的十倍交叉验证结果图，(A)不同方法预测结果对应的ROC曲线。(B)不同的Top阈值下正确检索到的关联数。

图4为在已知数据集上的De novo预测图。(A)不同方法预测结果对应的ROC曲线。(B)不同的Top阈值下正确检索到的关联数。；

图5为在DNdatasets数据集上的十倍交叉验证结果图。(A)不同方法预测结果对应的ROC曲线。(B)不同的Top阈值下正确检索到的关联数

图6为在DNdatasets数据集上的De novo预测结果图。(A)不同方法预测结果对应的ROC曲线。(B)不同的Top阈值下正确检索到的关联数。

图7为在Cdatasets数据集上的十倍交叉验证结果图。(A)不同方法预测结果对应的ROC曲线。(B)不同的Top阈值下正确检索到的关联数。

图8为在Cdatasets数据集上的De novo预测结果图。(A)不同方法预测结果对应的ROC曲线。(B)不同的Top阈值下正确检索到的关联数。

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明：

实施例1：

如图1所示，本发明具体实现过程如下：

一、药物相似性和疾病相似性计算

本方法所应用的数据集包括药物集合、疾病集合与已知的药物-疾病关联。

1.药物相似性计算

(1)基于药物化合物分子的化学结构，计算药物之间的化学结构相似性，也称为分子相似性，是指两个分子或者化合物在结构上的相似程度，而结构相似的化合物一般在化学反应上的效果类似，以及在生物活性上面也会有同样的作用。

在计算化合物相似性的过程中，使用的是分子指纹(molecular fingerprint)进行比较。计算过程如下：首先获取所有药物分子的SMILES编码的化学结构；然后利用CDK(Chemistry development kit，化学开发工具包)计算每个药物的分子指纹；最后用杰卡德系数(Tanimoto coefficient)来度量分子指纹的相似程度，作为药物的化学结构相似性。

(2)分析药物相似性

基于以前的研究发现，较小的相似性值对于关联预测提供的信息有限。因此该发明首先分析两个药物间的化学结构相似性与这两个药物间是否存在共享疾病的相关性；然后根据相关性分析结果，调整药物化学结构相似性。

药物间的化学结构相似性与药物间是否存在共享疾病的相关性计算过程如下：把0到1之间区间平均分为10个区间，统计药物对相似性值在各区间范围内的药物对个数，并计算各区间范围内的存在共享疾病的药物对比例，结果显示具有较小相似性的药物对共享疾病的可能性很低，而具有较大相似性的药物对显著共享疾病；然后利用Fisher-Yates乱序算法打乱所有药物对的相似性，得到随机的药物相似性，再次统计相似性值在各区间范围内的存在共享疾病的药物对比例，这一步骤重复10次，对这10次结果取平均值，可以得到在打乱药物相似性值的情况下，得到各相似性值区间范围内的存在共享疾病的药物对比例；根据实际相似性和随机相似性统计结果，比较两种结果中各相似性值范围内的存在共享疾病的药物对比例，对于实际相似性统计结果比随机相似性统计结果低的相似性区间范围内的相似性值，可以通过由公式(1)表示的逻辑函数来调整，进一步弱化该范围内的相似性值，同时对于实际相似性统计结果显著高于随机相似性统计结果的区间范围内的相似性值，该函数可以增强该范围内的相似性值。

其中，x表示要调整的化学结构相似性值，c、d参数是逻辑函数的可调参数，这些参数可以控制x调整的范围。

(3)基于已知的药物-疾病关联信息，聚类药物和疾病

假设两个药物间如果存在直接或间接共享的疾病，则这两个药物更相似。比如，有三个药物r₁、r₂和r₃，如果r₁能治疗疾病d₁，r₂能治疗疾病d₁和d₃，r₃能治疗d₂和d₃，虽然r₁与r₃没有共享疾病，但是r₁与r₂共享疾病d₁，r₂与r₃共享疾病d₃，也就是r₁与r₃之间存在间接共享，因此增大r₁与r₃之间的相似性值。

首先基于所有药物之间的共享关联，创建药物共享网络，SR＝{r₁，r₂，…，r_m}表示m个药物结点，用药物之间共享疾病数表示药物节点之间的边权值；然后用ClusterOne聚类算法对该药物共享网络进行聚类，得到多个紧密连接的药物模块，在同一个模块内的药物直接共享或间接共享疾病；ClusterOne用公式(2)表示的函数计算所识别的每个药物模块的内聚性：

V表示一个模块内的顶点集合，Win(V)表示模块内所有边权值和，Wbound(V)表示该模块的所有节点与该模块外的结点连接的边权值和，P|V|表示惩罚项，每个模块质量用这个内聚性值来表示；在同一个模块内的药物可能更相似，所以进一步增大属于同一模块的药物间的相似性值，假设模块的质量为QC＝f(V)，则该调整过程的实现通过在以前的相似性值基础上乘以大于1的系数(i+QC)。

经过上述的药物相似性度量，包括药物化学结构相似性计算及结合已知药物-疾病关联信息对化合结构相似性值的调整，可以得到更准确的药物相似性，提高预测准确性。

2.疾病相似性计算

首先基于疾病的表型信息计算疾病间的相似性。数据集中的疾病是从OMIM数据库获取的，疾病相似性是通过由van Driel等人设计开发的工具MinMiner计算得到的，该工具通过识别疾病描述中出现的MeSH术语，实现对疾病表型相似性计算。

类似于药物化学结构相似性处理过程，基于上述得到的疾病表型相似性，计算分析两个疾病之间表型相似性与这两个疾病间是否存在共享药物的相关性，根据相关性分析结果，对疾病表型相似性值做调整，得到新的疾病相似性；然后基于已知的药物-疾病关联，创建疾病共享网络，用ClusterOne对疾病进行聚类，根据聚类结果调整疾病相似性。

二、构建药物-疾病异构网络

通过上述的相似性度量方法，计算出药物相似性、疾病相似性，创建药物相似性矩阵和疾病相似性矩阵。基于这两个相似性矩阵，构建药物网络和疾病网络。

在药物网络中，顶点集合R＝{r₁，r₂，…，r_m}表示m种药物，当药物i与药物j之间的相似性大于0时，顶点r_i和顶点r_j之间有边相连接，药物i和药物j之间的相似性值即为该条边的权值；在疾病网络中，顶点集合D＝{d₁，d₂，…，d_n}表示n种药物，当疾病i与疾病j之间的相似性大于0时，顶点d_i和顶点d_j之间有边相连接，疾病i和疾病j之间的相似性值即为该条边的权值。

另外，药物-疾病关联可以建模为一个二分图G(V，E)，其中V(G)＝{R，D}，E(G)＝{e_ij，r_i与d_j之间的边}，如果药物r_i与疾病d_j之间存在已知关联，则r_i与d_j间的边权重设置为1，否则设置为0。

最后构建药物-疾病异构网络，该网络包括药物网络、疾病网络和药物-疾病关联图，其中药物网络、疾病网络通过药物-疾病关联图连接。

三、实现基于双向随机游走的药物重定位

随机游走算法是一种排序算法。该算法模拟从给定的种子节点开始向其邻居任意游走的过程。最终网络中的所有节点依照到达该节点的概率大小进行排序。本发明基于药物-疾病异构网络，采用双向随机游走算法，为所有的药物预测新的潜在适应症。该算法考虑到药物网络和疾病网络在拓扑结构上的差异，可以控制在药物网络和疾病网络上游走的步数，从而达到最优的预测性能。这个过程形式化描述如下：

在药物网络上游走：

left_RD_t＝α×MR×RD_t-1+(1-α)×A (3)

在疾病网络上游走：

right_RD_t＝α×RD_t-1×MD+(1-α)×A (4)

其中，MR(m×m)，MD(n×n)，A(m×n)分别表示药物网络邻接矩阵、疾病网络邻接矩阵和药物-疾病关联矩阵，m和n表示药物数和疾病数，left_RDt表示t时刻在药物网络上游走所预测到的新的药物-疾病关联，right_RDt表示t时刻在疾病网络上游走所预测到的药物-疾病关联，left_RDt(i，j)和right_RDt(i，j)表示药物i与疾病j存在关联的概率。在整个迭代过程的每步中，RDt是t时刻left_RDt和right_RDt的平均输出，RDt(i，j)的值越大，表示药物i与疾病j之间存在关联的概率越大。

四、实验验证

1.评价指标

为了验证本方法的有效性，本方法采用十倍交叉验证及De novo预测，测试MBiRW方法的预测性能。

(1)十倍交叉验证

数据集中所有未知的药物-疾病关联，作为候选药物-疾病关联。把数据集中已知的药物-疾病关联随机分成十份，轮流将其中九份作为训练数据集，剩余的一份作为测试数据集，进行实验。需要重点提到的是，在每次交叉验证过程中，测试数据的关联信息会被删除，重新分析不同的相似性值对预测的影响，并且重新对药物和疾病聚类。在训练数据集上完成预测之后，对于测试数据集中的每条药物-疾病关联，按照预测结果与该药物的候选药物-疾病关联一起按降序排序。对特定的阈值，如果测试集中的关联大于这个阈值，这个关联被认为是一个true positive(TP)；如果小于这个阈值，则是一个false negative(FN)。另外，如果候选药物-疾病关联大于这个阈值，这个关联被认为是一个false positive(FP)；如果小于这个阈值，则是一个true negative(TN)。True-positive rate(TPR)衡量的是已知关联中能够与被预测出来的关联匹配的比率；False-positive rate(FPR)衡量的是未知关联中能够与被预测为关联匹配的比率。TPR和FPR的计算公式如下：

通过变换不同的阈值，可以计算不同的TPR和FPR。根据计算出的不同阈值下的TPR和FPR值，可以得到ROC曲线，计算该曲线下方的面积可以得到AUC值，AUC值被用来表示全局预测性能。

除了AUC值，算法预测结果中，排在前面的关联在实际应用中也很重要。因此，我们还用预测排在前面的关联来评价方法。比如，排在前10的预测结果中，被正确预测到的测试集中的关联数。一般，排在预测结果靠前部分的已知关联越多，该预测方法越具有实用性。

(2)De novo预测

当前，在药物数据库中存在很多失败药物，这些药物没有已知的适应症，但是可能被重定位。我们的发明能够为没有已知疾病关联的药物预测新的潜在适应症。

因此，我们进一步完成de novo预测测试。在de novo测试中，对每个药物，把它的所有的已知关联作为测试集，其他药物的所有已知关联作为训练集，通过十倍交叉验证评价算法的性能。

2.与其它方法的比较

为了评价MBiRW的有效性，MBiRW与其他三种方法进行比较(NBI、HGBI和DrugNet)。NBI是基于二部图上的两步扩散模型的网络推断算法；HGBI是基于关联推定(guilt-by-association)的图推断算法，并实现了在异构图上的信息流方法；DrugNet是能完成药物-疾病和疾病-药物排序，基于网络的药物重定位算法。

(1)分析药物相似性和疾病相似性

数据集中包括593种药物、313种疾病和1933已知药物-疾病关联，根据相似性度量方法中分析相似性的方法，分别完成药物间的化学结构相似性与药物间是否存在共享疾病的相关性、疾病间表型相似性与疾病间是否存在共享药物的相关性分析，分析结果如图2所示。

从分析结果可以看到，对于药物，相似性值在0.4以下的药物之间共享疾病的概率很低，而相似性值在0.7以上的药物间共享疾病的概率很高，所以采用前面定义的逻辑函数对药物相似性值做相应的调整。对于疾病，相似性值在0.3以下的疾病之间共享药物的概率很低，而相似性值在0.6以上的疾病间共享药物的概率很高，同样采用逻辑函数对疾病相似性值做相应的调整。

(2)十倍交叉验证分析

在每次交叉验证中，在删除测试关联信息的情况下，重新分析相似性，并重新对药物、疾病进行聚类。十倍交叉验证结果如图3所示，从结果可以看出，MBiRW方法的AUC值为0.918，明显高于其它三种比较的方法。另外，从预测的Top-ranked结果来看，1933条已知关联中，有593条关联被排在预测结果中的第一位，而其他方法预测的结果明显比MBiRW少很多。而Top-ranked结果在实际应用中特别重要，所以MBiRW优于其他方法。通过显著优于其他方法的AUC值与Top-ranked结果来看，采用集成的相似性度量方法和双向随机游走算法，能显著提高药物-疾病预测性能。

(3)De novo预测测试

MBiRW方法能为没有已知适应症的药物预测新的潜在适应症。为了证明MBiRW方法为新药物预测候选适应症的有效性，我们进行了De novo测试。在所用的数据集中，每个药物至少关联一个已知疾病。所以，对每个药物进行De novo测试，把该药物的所有已知关联作为测试集，而其他所有药物的已知关联作为训练集，进行十倍交叉验证，最后按照得到的AUC值和Top-ranked结果来评价De novo预测性能。最终的预测结果如图4所示，MBiRW结果明显优于其他方法，说明采用集成的相似性度量方法和双向随机游走算法，能显著提高Denovo预测性能。

(4)实例分析

前面已经通过十倍交叉验证和De novo测试说明了本发明在预测药物-疾病方面的有效性，我们将该发明应用到未知药物-疾病关系的预测中。在预测过程中，用已知的1933条关联作为训练集，MBiRW在该数据集上进行预测，按照预测结果对未知的药物-疾病关联排序。得分越高的越有可能形成药物-疾病关联。此处主要关注排序靠前的预测结果，比如验证每个药物的排名前5位的候选疾病关联。该数据集包含的药物-疾病关联数据是2011年之前收集的，而2011年之后增加了很多新验证的药物-疾病关联信息，因此选取预测结果中排名靠前的候选药物-疾病关联，在公开数据库KEGG、DrugBank和CTD中进行验证。

本方法选取了5种药物Desmopressin(DB00035)、Betaxolol(DB00195)、Propafenone(DB01182)、Levobunolol(DB01210)和Levodopa(DB01235)，进行实例分析。这5种药物的预测Top-5 ranked关联在公共数据库中得到验证的结果如下表1所示。比如，Amantadine(DB00915)在已知的数据集中所关联的疾病为震颤性麻痹、多发性硬化症等。预计结果中排在前5的疾病中，前4种疾病涉及痴呆、帕金森病、阿尔茨海默病，这些疾病与Amantadine的关联在已知数据库中得到验证。Flecainide(DB01195)在已知的数据集中关联的已知疾病是房颤。预计结果中排在前5的疾病中，前4种疾病包含房颤、心动失常、WPW综合症、高血压，这些与Flecainide的关联在已知数据库中得到验证。案例分析结果表明MBiRW方法预测的结果将对生物学实验具有一定的指导作用。

表1.案例分析结果

(5)在其他数据集上的验证

在评价药物重定位方法方面，尽管采用了一些通用的评价机制(比如，敏感性、特异性和ROC曲线)，但是缺乏结构化的标准数据集，以前的研究基本上只在自己的数据集上做评价。而本方法除了在自己的数据集上做评价之外，还在另外两个数据集上评价预测性能。其中一个数据集是从文献中得到，包含了1490种药物和4516种疾病；另外一个数据集是融合自己的数据集与新数据集得到的，包含了409种疾病和663种药物。

在这两个数据集上，通过十倍交叉验证和De novo药物-疾病预测测试，完成与其他三种方法的比较。相关的实验结果如图5-图8所示，从AUC值、Top-ranked指标，可以看到MBiRW方法的结果优于其他三种方法，进一步说明了MBiRW在预测新的、潜在的药物-疾病关联方面的有效性。

Claims

1.一种基于集成的相似性度量和双向随机游走的药物重定位方法，其特征在于，包括以下步骤：

步骤1：基于相似性计算创建相似性矩阵；

计算药物相似性以及疾病相似性，从而创建药物相似性矩阵和疾病相似性矩阵；

步骤3：在药物-疾病异构网络上基于双向随机游走算法进行药物重定位；

所述步骤1中，药物相似性的计算方法如下：

1)采用分子指纹比较计算药物的化合物相似性；

2)对化合物相似性进行调整：

(b)然后利用Fisher-Yates乱序算法打乱所有药物对的相似性值，得到随机的药物相似性，再次统计相似性值在各区间范围内的存在共享疾病的药物对比例；比较步骤(a)与该步骤的结果，发现在相似性值小于某个值的药物对中，共享疾病的药物对比例小于随机情况下的比例，将这个值定义为阈值LSim；在相似性值大于某个值的药物对中，共享疾病的药物对比例高于随机情况下的比例，将这个值定义为阈值HSim；

(c)根据(b)中得到的阈值，采用以下公式调整相似性值；

x表示要调整的化学结构相似性值，c、d参数是逻辑函数的可调参数；c、d参数的设置方法为：

设置L(0)＝0.0001，通过计算出参数d的值为log(9999)，log以e为底数；设置L(Lsim)＝0.01,并基于d值，通过计算出参数c的值；

(d)基于药物-疾病关联信息修正药物对的相似性值：

首先基于所有药物之间的共享关联，创建药物共享网络，SR＝{r₁,r₂,…,r_m}表示m个药物结点，用药物之间共享疾病数表示药物节点之间的边权值；然后用ClusterOne聚类算法对该药物共享网络进行聚类，得到多个药物模块，在同一个模块内的药物直接共享或间接共享疾病；

采用在原药物对的相似性值的基础上乘以系数1+QC对相似性值进行修正；

其中，f(V)表示模块的内聚性，V表示一个模块内的节点集合，w_in(V)表示模块内所有边权值和，w_bound(V)表示该模块的所有节点与该模块外的节点连接的边权值和，p|V|表示惩罚项；

所述步骤1中，疾病相似性的计算方法如下：

首先，基于疾病表型信息计算疾病表型相似性；然后，计算分析疾病间表型相似性与疾病间是否存在共享药物的相关性，根据计算分析结果，调整药物化学结构相似性和疾病表型相似性，得到新的药物相似性和疾病相似性；最后，根据疾病间的共享药物信息，对疾病进行聚类，识别疾病模块，提高属于同一模块的疾病间相似性。

2.根据权利要求1所述的基于集成的相似性度量和双向随机游走的药物重定位方法，其特征在于，N为10。

3.根据权利要求1所述的基于集成的相似性度量和双向随机游走的药物重定位方法，其特征在于，所述的步骤2中；

构建药物网络，在药物网络中，顶点集合R＝{r₁,r₂,…,r_m}表示m种药物，当药物i与药物j之间的相似性大于0时，顶点r_i和顶点r_j之间有边相连接，药物i和药物j之间的相似性值即为该条边的权值；构建疾病网络，在疾病网络中，顶点集合D＝{d₁,d₂,…,d_n}表示n种药物，当疾病i与疾病j之间的相似性大于0时，顶点d_i和顶点d_j之间有边相连接，疾病i和疾病j之间的相似性值即为该条边的权值；

将药物-疾病的关联用一个二分图G(V,E)表征，其中V(G)＝{R,D},E(G)＝{e_ij,药物r_i与疾病d_j之间的边}；

基于药物网络、疾病网络和二分图G构建药物-疾病异构网络；该网络包括药物网络、疾病网络和药物-疾病关联图，其中药物网络、疾病网络通过药物-疾病关联图连接。

4.根据权利要求1-3任一项所述的基于集成的相似性度量和双向随机游走的药物重定位方法，其特征在于，

在药物网络上游走：

left_RD_t＝α×MR×RD_t-1+(1-α)×A (3)

在疾病网络上游走：

right_RD_t＝α×RD_t-1×MD+(1-α)×A (4)

其中，MR(m×m)，MD(n×n)，A(m×n)分别表示药物网络邻接矩阵、疾病网络邻接矩阵和药物-疾病关联矩阵，m和n表示药物数和疾病数，left_RDt表示t时刻在药物网络上游走所预测到的新的药物-疾病关联，right_RDt表示t时刻在疾病网络上游走所预测到的药物-疾病关联，left_RDt(i,j)和right_RDt(i,j)表示药物i与疾病j存在关联的概率；

在药物网络和疾病网络上迭代执行若干步随机游走，在整个迭代过程的每步中，RDt是t时刻left_RDt和right_RDt的平均输出；对于关联矩阵RDt中的某个元素RDt(i,j)，表示药物i与疾病j之间的关联值，该值越大，表示药物i与疾病j间存在关联的概率越大，通过交叉验证实验确定在两个网络上游走的最优步数；

α为权重系数，α的取值范围为0到1。

5.根据权利要求4所述的基于集成的相似性度量和双向随机游走的药物重定位方法，其特征在于，α的取值为0.3。