CN107545151A

CN107545151A - 一种基于低秩矩阵填充的药物重定位方法

Info

Publication number: CN107545151A
Application number: CN201710779874.5A
Authority: CN
Inventors: 王建新; 罗慧敏; 李敏; 刘锦; 卢诚谦
Original assignee: Central South University
Current assignee: SHENZHEN ZAOZHIDAO TECHNOLOGY Co.,Ltd.
Priority date: 2017-09-01
Filing date: 2017-09-01
Publication date: 2018-01-05
Anticipated expiration: 2037-09-01
Also published as: CN107545151B

Abstract

本发明公开了一种基于低秩矩阵填充的药物重定位方法。本发明首先通过集成药物和疾病相关数据，构建了药物‑疾病异构网络，矩阵中的元素包括药物对、疾病对、已知药物‑疾病对和未知药物‑疾病对。然后利用快速矩阵填充算法填充该矩阵，为未知药物‑疾病对赋予预测值，根据所填充的预测值，为所有的药物预测新适应症。本发明简单有效，通过与其他方法比较，及在多个数据集上测试表明，该发明在药物重定位方面具有较好的预测性能。

Description

一种基于低秩矩阵填充的药物重定位方法

技术领域

本发明涉及生物信息学领域，涉及利用计算方法预测已知药物的新适应症。

背景技术

新药研发是一个周期很长且耗资巨大的过程，统计表明，一个新药从研发到上市，平均需要10～15年的时间，花费超过8亿美元。近年来，药物研发的投入越来越高，全球新药研发的费用在2015年达到1410亿美元，预计2020年达到1600亿美元。然而，相对于巨大的研发投资，新药的批准率却没有得到特别显著的提升。根据美国FDA药物评估和研究中心的统计数字，1999年至2004年，美国FDA平均每年批准新药的数量为26种，2005年至2011年间平均每年的批准数量仅为19种，2012年至2016年平均每年批准的新药数量为34种。

药物重定位是一种解决新药开发高投入低成功率困境的有效方法之一，目前已成功定位的药物已超过百余种。早期的药物重定位主要来自于临床或实验中的意外发现，如万艾可、达泊西汀、度洛西汀等药物。随着高通量技术的发展，科学家逐渐利用各种先进技术和策略，在已存在的药物和被放弃使用的化合物中筛选新的药物和治疗目标，这种方法称之为基于高通量筛选的方法。英国学者AlanD研究提示，一个实验室采用传统的方法，借助20余种药物作用靶位，1年内能筛选75000个样品。然而，高通量筛选技术需购买专门的仪器设备，开发和购买特定的试剂盒，并需投入大量专业技术人员。另外，由于疾病种类和已知药物的数量繁多，完全通过实验筛选已知药物的新用途成本依然很高。

当前，多种类型的数据源(例如基因组学、药物基因组学、临床数据、化学药剂等)都是公开可用的，这为药物重定位的研究和发展提供了良好的机遇。近年来，药物重定位在药物研究中的作用日益凸显，吸引了许多科研机构和学者对此开展了许多研究工作，一些基于机器学习、网络分析以及基于文本挖掘的药物重定位方法不断被提出。例如，Gottlieb等人开发了PREDICT重定位方法，PREDICT首先采用多种药物和疾病相关数据分别计算药物-药物相似性和疾病-疾病相似性。然后根据这些相似性矩阵，计算药物-疾病相似性。最后，根据已知药物-疾病关联，PREDICT训练Logistic分类器，预测药物的新适应症。Napolitano等采用核方法整合了药物化学结构相似性、蛋白质-蛋白质相互作用数据、药物作用的基因表达谱数据，然后训练了一个支持向量机对药物进行分类以预测药物新的适应症。然而这些方法需要集成多种信息来计算药物或疾病的相似性。

随着高通量生物数据的不断积累，基于网络的药物重定位方法近年来备受关注。Wang等人集成了疾病、药物和靶标三种生物信息构建了异构网络模型，提出了一种计算重定位框架TL_HGBI。Martinez等人提出了一种基于网络的候选药物预测方法，DrugNet，该方法同时集成了疾病、药物和靶标网络。这两种方法的实验结果证实集成多源生物信息可以提高药物重定位的预测效果。Luo等人提出了一种基于集成的相似性度量和双向随机游走的药物重定位方法。在计算药物相似性、疾病相似性时，除了分别利用药物特性信息与疾病特性信息，还充分考虑了当前数据集中已知药物-疾病关联信息对相似性度量的作用，使得所计算的相似性值能更好的反映药物间的相似度和疾病间的相似度。在此基础上，构建了药物-疾病异构网络，基于该异构网络，采用双向随机游走算法为所有的药物预测候选疾病。这些研究表明，应用随机游走算法和集成多源生物数据能够获得较好的预测效果，但是其预测准确性还可以进一步提升。

另外，一些研究已经将矩阵分解应用到药物重定位中。例如，Dai等人提出了一个矩阵分解模型，集成基因交互网络的拓扑信息识别新的药物适应症。Yang等人构建了一个drug-target-pathway的级联网络，计算药物-疾病之间的关联分数。通过学习一个基于已知药物-疾病关联的概率矩阵分解模型PMF对药物-疾病关联进行分类。计算得到的关联分数和关联类型被进一步用于预测新的药物-疾病关联。然而，这些基于矩阵分解的计算方法无法适用于药物-靶标以及疾病-基因关联数据不可用的情况。因此，有必要设计一种新的基于矩阵分解模型的药物重定位方法，有效准确地预测药物的新适应症。

发明内容

本发明所解决的技术问题是，针对现有技术的不足，提出了一种基于低秩矩阵填充的药物重定位方法(DRRS)，通过充分利用已知的药物、疾病信息，采用低秩矩阵填充算法，能有效地挖掘已知药物的新适应症。

本发明的技术方案为：

一种基于低秩矩阵填充的药物重定位方法，包括以下步骤：

1)利用已知的疾病数据、药物数据和疾病-药物关联数据，构建疾病-药物异构网络；

2)基于所构建的药物-疾病异构网络，设计药物重定位推荐方法：

分析填充矩阵的秩r在矩阵填充中的关键作用，基于验证的方法确定填充矩阵的最优秩；基于所选定的最优秩，采用集成快速矩阵分解算法的奇异值阈值算法(SVT)实现药物-疾病异构网络的邻接矩阵的填充；

3)采用所设计的药物重定位推荐方法，预测潜在的、新的药物-疾病关联：

从填充的矩阵中抽取药物-疾病网络所对应的邻接矩阵，该矩阵中的每个元素对应一对药物-疾病的关联值，关联值越大，表明这对药物与疾病之间存在关联的可能性越大；最后对于特定药物，根据所填充的关联值排序候选疾病，从而完成新的药物-疾病关联的识别。

进一步地，所述步骤1)中，构建药物-疾病异构网络的过程如下：

基于已知的药物数据和疾病数据，计算得到药物相似性矩阵和疾病相似性矩阵，构建药物网络和疾病网络；然后，根据已知的药物-疾病关联数据，创建药物-疾病关联矩阵，构建药物-疾病网络；最后，由药物-疾病关联网络连接药物网络和疾病网络，构成药物-疾病异构网络。

进一步地，所述步骤2)中，定义药物-疾病异构网络的邻接矩阵A如下：

在邻接矩阵A中，子矩阵A_RR和A_DD分别是药物网络和疾病网络的邻接矩阵，即药物相似性矩阵和疾病相似性矩阵；子矩阵A_RD是药物-疾病网络的邻接矩阵，也就是药物-疾病关联矩阵，表示A_RD的转置；矩阵A每个元素是对应一对节点的关联值，其中未知元素对应不存在已知关联的药物-疾病节点对，矩阵A中的未知元素也就是需要预测的未知的药物-疾病关联，只存在子矩阵A_RD和中，A_RD和中未知元素的值为0，已知元素的值为1；未知的药物-疾病关联的预测问题即为填充矩阵A中的未知元素的问题；

记A中所有已知元素在A中的索引值集合为Ω，A_RR中所有元素在A中的索引值集合为Ω_RR，A_DD中所有元素在A中的索引值集合为Ω_DD，A_RD中值为1的所有元素在A中的索引值集合为Ω_RD，中值为1的所有元素在A中的索引值集合为Ω_DR；

邻接矩阵A的填充包括以下步骤：

第一阶段：确定最优秩，包括以下步骤：

第一步：随机从集合Ω_RD中选择10％的元素作为验证集令

则有其中A′_RD和均为m×n的矩阵，若中索引值所指示的元素在A_RD中的位置为(i,j)，则中位置(i,j)处的元素的值为1，而中其它位置处的元素的值为0；若Ω′_RD中索引值所指示的元素在A_RD中的位置为(p,q)，则A′_RD中位置(p,q)处的元素的值为1，而A′_RD中的其它位置处的元素的值为0。

第二步：创建矩阵A^v及元素索引值集合Ω^v；

Ω^v＝Ω_RR∪Ω_DD∪Ω′_RD∪Ω′_DR，Ω^v表示A^v中所有已知元素在A^v中的索引值；

第三步：为奇异值阈值τ和迭代步长δ赋值：

其中||·||_F表示弗罗贝尼乌斯范数，m,n分别是药物数和疾病数；

第四步：初始化最优秩bestr＝0，最优性能指标maxauc＝0；

第五步：基于A^v，Ω^v，τ和δ，采用快速矩阵填充算法SVT-R⁴SVD执行SVT迭代；在完成第i次迭代时，得到秩为r^*的矩阵基于验证集计算本次迭代得到的矩阵Y⁽ⁱ⁾的性能指标auc值和残差序列(即验证集中各个索引值所指示的元素的初始值与填充值之差构成的序列)；如果auc>maxauc，则令maxauc＝auc,bestr＝r^*，否则bestr和maxauc的值保持不变；当满足迭代终止条件，即达到最大迭代次数或者残差序列中的最大残差值小于设定阈值时，迭代结束，得到最优秩bestr。

第二阶段：根据所确定的最优秩bestr，完成矩阵填充，具体包括以下步骤：

基于A，Ω，τ和δ，采用快速矩阵填充算法SVT-R⁴SVD执行SVT迭代；在完成第i次迭代时，得到秩为r^*的矩阵判断r^*<bestr是否成立，如果成立，则继续下一步迭代；如果不成立，则结束整个迭代过程，返回该步迭代得到的矩阵作为邻接矩阵A的填充矩阵。

有益效果：

本发明实施是基于相似的药物更易于关联相似的疾病的假设，首先利用已知的疾病数据、药物数据和疾病-药物关联数据，构建疾病-药物异构网络；然后基于所构建的药物-疾病异构网络，集成确定最优秩的方法和快速矩阵填充算法，设计药物重定位推荐方法；最后采用所提出的药物重定位推荐方法，预测潜在的、新的药物-疾病关联在进行矩阵填充过程中，采用集成快速矩阵分解算法的奇异值阈值算法，以提高推荐系统中的操作效率，提高推荐系统的可扩展性；自动选择矩阵填充的最优秩，完成未知药物-疾病对的关联值填充，为每个药物预测新适应症。另外，本发明从理论上分析基于矩阵填充模型的预测方法在药物重定位中的优越性。该药物重定位推荐系统易于实施，具有良好的预测性能。通过在多个数据集上的测试结果表明，该方法在药物重定位方面具有较好的预测性能。

附图说明

图1为药物-疾病异构网络及其邻接矩阵；图1(a)位药物-疾病异构网络，图1(b)位药物-疾病异构网络的邻接矩阵；

图2为在标准数据集上的十倍交叉验证结果；图2(a)为不同方法预测结果对应的ROC曲线，图2(b)不同方法预测结果对应的PR曲线；

图3为十倍交叉验证中一次预测中，测试关联根据DRRS预测得到的分数排序。其中，131条测试关联(圆点表示)排在前10；39条测试关联(方形表示)排在前10-50；24条测试关联(加号表示)排在50之后。

图4在数据集Cdatasets上的十倍交叉验证结果；图4(a)为不同方法预测结果对应的ROC曲线，图4(b)为不同方法预测结果对应的PR曲线；

图5在数据集DNdatasets上的十倍交叉验证结果，图5(a)为不同方法预测结果对应的ROC曲线，图5(b)为不同方法预测结果对应的PR曲线。

具体实施方式

本发明的具体实现过程如下：

在所采用的标准数据集中，包含了药物集合、疾病集合与已知的药物-疾病关联，这些数据是从Gottlieb等人所收集的数据集中获取的。其中药物之间的相似性是基于药物分子的SMILES化学结构信息计算得到的；疾病相似性是基于疾病的表型信息计算得到的。

一、构建药物-疾病异构网络

首先，基于药物之间的相似性、疾病之间的相似性和已知的药物-疾病关联，分别构建药物网络、疾病网络和药物-疾病网络。在药物网络中，药物节点集合R＝{r₁,r₂,…,r_m}表示m种药物，两个药物节点之间的边的权值等于这两个药物之间的化学结构相似性；在疾病网络中，疾病节点集合D＝{d₁,d₂,…,d_n}表示n种药物，两个疾病节点之间的边的权值等于这两个疾病之间的表型相似性；药物-疾病网络可以建模为一个二分图G_rd(R,D,E)，其中,E(G)＝{e_ij}表示药物与疾病之间的边的集合，e_ij表示药物r_i与疾病d_j之间的边，r_i∈R，d_j∈D。如果药物节点r_i与疾病节点d_j之间存在已知关联，则r_i与d_j之间的边e_ij的权值设置为1，否则设置为0。

然后，通过药物-疾病网络连接药物网络和疾病网络，构成药物-疾病异构网络，如图1所示；定义该异构网络的邻接矩阵A如下：

在邻接矩阵A中，对角线上的子矩阵A_RR和A_DD分别是药物网络和疾病网络的邻接矩阵，这两个矩阵都是稠密矩阵；非对角线上的子矩阵A_RD是药物-疾病网络的邻接矩阵，也就是药物-疾病关联矩阵，表示A_RD的转置。因为在每个生物网络中，节点之间的连接都是双向的，且边的权值都是正值，所以异构网络的邻接矩阵A是对称和半正定的。因此，A的特征值是实数和正值，并且等于奇异值。另外，A的左奇异值向量等于右奇异值向量，且等于A的奇异值向量。矩阵A每个元素是对应一对节点的关联值，其中未知元素对应不存在已知关联的药物-疾病节点对(即药物-疾病网络中边的权值为0的药物-疾病节点对)，矩阵A中的未知元素也就是需要预测的未知的药物-疾病关联，只存在于非对角线上的子矩阵A_RD和中。未知的药物-疾病关联的预测问题可以转换为填充矩阵A中的未知元素的问题。

二、实现基于低秩矩阵填充的药物重定位

基于相似的药物更易于治疗相似的疾病，决定药物-疾病关联的隐含因素是高度相关的，也就导致高度相关的数据矩阵。本发明所设计的药物-疾病推荐系统模型是基于构建一个秩为r的矩阵A^*，从而近似(m+n)×(m+n)的邻接矩阵A，这里r<<m+n，即r远小于m+n。用Ω表示所有已知元素在A中的索引值(位置)，也就是Ω中包含A_RR和A_DD中的所有元素的索引值，以及A_RD和中所有已知元素的索引值；A^*的构建需要平衡两个潜在的目标：

(1)最小化r，r＝rank(A^*)；

(2)最小化||P_Ω(A)-P_Ω(A^*)||，P_Ω(A)和P_Ω(A^*)分别是A和A^*在Ω上的正交投影，即

然而，秩的最小化问题求解是NP-hard问题，对于包含大量药物和疾病的预测问题也是不可能实现的。因此，采用秩最小化的松弛形式：最小化A^*的奇异值之和，也就是A^*的核范式。这样，将矩阵填充问题转化为为凸优化问题：

最小化

其中，||·||_F表示弗罗贝尼乌斯范数，||·||_*表示核范式，τ是奇异值阈值。本发明中，设置参数设置τ的取值较大，从而减少最小化优化目标中的影响。已有文献证明在特定条件下，优化核范式得到的解决方案等同于通过最小化秩得到的解决方案。最后，通过优化核范式实现的矩阵填充问题可以用奇异值阈值算法(SVT)来解决。

设置初始SVT重新形式化Uzawa算法或者线性化Bregman迭代，产生一系列矩阵(X⁽ⁱ⁺¹⁾,Y⁽ⁱ⁺¹⁾)：

其中，δ是迭代步长，被设置为SVT中的D_τ(·)是基于阈值的操作函数：

其中，Y⁽ⁱ⁾是第i步迭代生成的矩阵，是Y⁽ⁱ⁾的第j个奇异值，u_j和v_j分别是对应的左奇异向量和右奇异向量；

SVT通过两种方式设置迭代的结束条件，一种是设置迭代的最大次数，比如最大迭代次数设置为500；另一种是判断迭代过程中的残差序列的收敛，比如残差序列中的最大残差值小于某个较小的阈值(比如0.005)。这两种条件中的任一条件满足，则停止迭代。当迭代结束时，根据最后一次迭代中的D_τ操作，得到大于τ的r个奇异值及对应的左奇异向量U和右奇异向量V，其中U和是(m+n)×r的矩阵，V是r×(m+n)的矩阵；然后构建对角线元素为r个奇异值的对角矩阵∑，该矩阵是r×r的矩阵；最后计算得到A的近似矩阵A^*＝UΣV。

在矩阵填充过程中，每步迭代中，都需要估计Y⁽ⁱ⁾的奇异值以计算D_τ(·)。可以通过全奇异值分解(SVD)计算Y⁽ⁱ⁾的奇异值，然后选择大于τ的奇异值以及对应的奇异向量，其中大于τ的奇异值的个数对应矩阵Y⁽ⁱ⁾的秩。然而，全奇异值分解(SVD)的计算比较费时耗内存。其实，在SVT每步迭代中，D_τ(·)只考虑比τ大的奇异值。因此，可以采用快速SVD算法近似所需要的奇异值，从而提高矩阵填充算法的计算效率。快速SVD算法中，R³SVD(rank-revealing randomized SVD algorithm)算法通过投影Y⁽ⁱ⁾到高斯矩阵并采用幂迭代，快速完成SVT迭代。R³SVD基于正交高斯投影构建低秩QB分解，然后得到低秩SVD。R⁴SVD扩充R³SVD算法，通过利用前一步迭代中得到的奇异向量，提高SVT的计算效率。利用R⁴SVD(recyclingrank revealing randomized singular value decomposition)实现快速矩阵分解的SVT算法，称为SVT-R⁴SVD算法(SVT-R⁴SVD算法为现有技术，参见Yaohang Li,Wenjian Yu:AFast Implementation of Singular Value Thresholding Algorithm using RecyclingRank Revealing Randomized Singular Value Decomposition.CoRR abs/1704.05528(2017))，本发明利用该算法完成矩阵填充操作。对于需要填充的矩阵A，Ω表示所有已知元素在A中的索引值(位置)，τ是奇异值阈值，δ是迭代步长；A，Ω，τ和δ作为快速矩阵填充算法SVT-R⁴SVD的输入参数，则得到秩为r的近似矩阵A^*。

三、矩阵填充

本发明所设计的矩阵填充包含两个阶段。

第一个阶段：确定能产生最优预测性能的填充矩阵的秩r。填充矩阵的秩r是矩阵填充中的关键参数，低估的r值会降低预测的准确性，而高估的r值会导致过拟合。然而，在进行矩阵填充操作之前，合适的r值预先是不知道的。本发明利用基于验证的方法决定合适的r值。首先，随机选择已知药物-疾病关联中的10％的关联作为验证集。然后，调用快速矩阵填充算法SVT-R⁴SVD填充矩阵，迭代执行矩阵分解操作，随着r值的增加，观察性能指标auc值的变化。迭代结束，对应最优，即最大的auc值的r值，被选作为最优秩bestr，进而作为第二阶段的目标秩。

第二阶段，基于所有的已知的药物-疾病关联数据、药物相似性和疾病的相似性，以及第一阶段所确定的最优秩bestr，调用快速矩阵填充算法SVT-R⁴SVD，迭代执行矩阵分解操作，直到秩r达到目标秩bestr。结束填充操作之后，从填充的矩阵中抽取子矩阵该矩阵中包含所有药物-疾病对的关联值。对于给定药物，根据预测得到的关联值，排序所有候选疾病，完成潜在药物-疾病关联的识别。

本发明的矩阵填充算法实现描述如下：

输入：药物相似性矩阵A_RR和所有元素索引值集合Ω_RR，Ω_RR为A_RR中所有元素在A中的索引值集合；

疾病相似性矩阵A_DD和所有元素索引值集合Ω_DD，Ω_DD为A_DD中所有元素在A中的索引值集合；

药物-疾病关联矩阵A_RD和所有元素索引值集合Ω_RD，Ω_RD为A_RD中值为1的所有元素在A中的索引值集合；

输出：填充的药物-疾病关联矩阵

/*第一阶段：确定最优秩；*/

第一步：随机从集合Ω_RD中选择10％的元素作为验证集

因此有其中A′_RD和均为m×n的矩阵，若中索引值所指示的元素在A_RD中的位置为(i,j)，则中位置(i,j)处的元素的值为1，而中其它位置处的元素的值为0；若Ω′_RD中索引值所指示的元素在A_RD中的位置为(p,q)，则A′_RD中位置(p,q)处的元素的值为1，而A′_RD中的其它位置处的元素的值为0。

第二步：创建矩阵A^v及元素索引值集合Ω^v；

第三步：为参数τ,δ赋值，其中m,n分别是药物数和疾病数；

第四步：初始化最优秩bestr＝0，最优性能指标maxauc＝0；

第五步：基于A^v，Ω^v，τ和δ，采用快速矩阵填充算法SVT-R⁴SVD执行SVT迭代；在完成第i次迭代时，得到秩为r^*的矩阵基于验证集计算本次迭代得到的矩阵Y⁽ⁱ⁾的性能指标auc值；如果auc>maxauc，则令maxauc＝auc,bestr＝r^*，否则bestr和maxauc的值保持不变；当满足SVT-R⁴SVD算法内部设置的迭代终止条件(达到最大迭代次数，或者残差序列中的最大残差值小于设定阈值)时，迭代结束，得到最优秩bestr。

/*第二阶段：根据所确定的最优秩bestr，完成矩阵填充；*/

第一步：创建矩阵A及元素位置集合Ω；

Ω＝Ω_RR∪Ω_DD∪Ω_RD∪Ω_DR；

第二步：为参数τ,δ赋值，其中m,n分别是药物数和疾病数；

第三步：基于A，Ω，τ和δ，采用快速矩阵填充算法SVT-R⁴SVD执行SVT迭代；在完成第i次迭代时，得到秩为r^*的矩阵判断r^*<bestr是否成立，如果成立，则继续下一步迭代；如果不成立，则结束整个迭代过程，返回该步迭代得到的矩阵

第四步：返回第三步得到的矩阵Y⁽ⁱ⁾中的算法结束。

四、与随机游走算法的比较

随机游走模型已经被广泛应用于生物网络的关联预测，它模拟随机游走者从种子节点开始出发，然后随机选择转移到它们的某个邻居节点，迭代地在网络中进行游走的过程。在网络中所有节点的概率达到稳定状态之后，可以根据候选节点的概率分数大小进行排序，从而完成候选关联的推荐。随机游走可以表示为：

p_i＝(1-γ)P^Tp_i-1+γp₀ (5)

其中，γ表示重启概率；P是转移矩阵；p₀是初始概率向量；p_i是在迭代到第i步时的概率向量。多次迭代之后，当概率向量趋于稳定时，可以认为游走达到稳定状态P，而P也被看作是从异构网络的关联矩阵得到的转移矩阵。

随机游走模型的数学基础是幂迭代，也就是，在初始向量上应用高阶转移矩阵P。很明显，转移矩阵的主特征值λ₁等于1，而其余的特征值都小于1。在幂迭代过程中，高阶转移矩阵使得主特征值依然等于1，而其他的特征值趋于0。最终，稳定状态P等同于转移矩阵的主特征向量。更准确地说，随机游走模型可以被看作是秩为1的矩阵填充，而未知关联的预测是求解主特征向量。相反，矩阵填充模型考虑到所有具有较大值的特征值。因此，从理论上分析，相比于随机游走，本发明矩阵填充模型预测的准确性更高，但是需要更多的计算时间，而在药物重定位中，预测准确性是最重要的目标，因此，本发明的矩阵填充方法在预测方面具有优越性。

五、实验验证

1.评价指标

为了验证本发明在预测新的药物-疾病关联方面的准确性，十倍交叉验证被用来评价DRRS方法的预测性能。

标准数据集中包含1933条已知的药物-疾病关联，其他的未知关联作为候选关联。已知的药物-疾病关联随机分成十份，轮流将其中九份作为训练数据集，剩余的一份作为测试数据集，进行预测。对于给定的药物，它所涉及的关联可以分为三组：在训练集中的关联；在测试集中的关联；候选关联。在训练数据集上完成预测之后，对于测试数据集中的每条药物-疾病关联，按照得到的预测值与该药物的候选关联一起按降序排序。对特定的阈值，可以基于排序结果，计算真阳性TP(true positive)、假阴性FN(false negative)、假阳性FP(false positive)和真阴性TN(true negative)。通过变换阈值，可以计算真阳性率TPR(true positive rate)、假阳性率FPR(false positive rate)和精确率Precision，从而生成相应的ROC(Receiver Operating Characteristic)曲线和PR(Precision-Recall)曲线。其中，FPR衡量的是被预测为正类的负样本占所有负样本的比例；TPR衡量的是被预测为正类的正样本占所有正样本的比例；Precision衡量的是被预测为正类的样本中，正样本所占的比例。根据所计算出的TPR和FPR值，可以生成ROC曲线，通过计算该曲线下方的面积得到AUC值，AUC值被用来作为预测性能评价指标。除了AUC值，算法预测结果中，预测出的排在前面的关联在实际应用中也很重要。因此，最大的Precision值也可以作为评价指标。

另外，利用所有已知关联作为训练集的预测实验结果，也被用来评价DRRS的性能。完成预测之后，每条未知药物-疾病关联被赋予一个预测分数；然后，选择几个药物作为例子，通过查询公开数据库，分析所预测的排在前面的新适应症。

2.与其它方法的比较

为了评价DRRS在药物重定位方面的有效性，我们选择三种预测方法进行比较(MBiRW、DrugNet和HGBI)。MBiRW利用全面的相似性计算和随机游走算法，识别给定药物的新适应症；DrugNet是通用的基于网络的药物重定位算法，通过在网络间扩散信息完成药物-疾病和疾病-药物排序。HGBI基于guilt-by-association规则，实现在异构图上的信息流方法，推断新的关联。

(1)十倍交叉验证分析

所有方法的预测通过十倍交叉实验来评测，结果如图2所示，从结果可以看出，DRRS性能优于其他方法，DRRS的AUC值为0.927，而其他三种方法MBiRW、HGBI和DrugNet的AUC值分别为0.917、0.829和0.779。另外，从预测的PR曲线结果来看，DRRS得到的最高precision值为0.35，也就是十倍交叉验证中，有35％的已知药物-疾病关联排在第一位。

十倍交叉验证中，已知的药物-疾病关联随机分成十份，轮流将其中九份作为训练数据集，剩余的一份作为测试数据集进行预测。十倍交叉验证的每次预测，测试集的预测结果被用来评价预测方法。比如，在一次预测中，测试集包含194条关联；完成预测后，对于每个药物，它的测试关联和候选关联按照降序排列，结果如图3所示，其中，有67.5％的测试关联排在前10中，说明DRRS在药物-疾病预测中有较好的性能。

(2)预测新药物-疾病关联

前面已经通过十倍交叉验证证明了本发明在预测药物-疾病方面的有效性，我们将该发明应用到未知药物-疾病关系的预测中。在预测过程中，用标准集中的所有已知关联作为训练集，DRRS在该训练集上预测所有药物和所有疾病之间的关联。DRRS为所有未知关联赋予填充分数，得分越高的越有可能形成药物-疾病关联。对于给定药物，所有的候选疾病根据它们的预测分数进行排序。我们主要关注排序靠前的预测结果，比如验证每个药物的排名前5位的候选疾病关联。

本发明选取了4个药物Zoledronic acid(DB00399)、Betaxolol(DB00195)、Risperidone(DB00734)、Prednisolone(DB00860)和Levodopa(DB01235)，通过查询两个公共数据库：KEGG和CTD，验证这些药物的排在前5位的候选适应症的准确性。

这4个药物的预测Top-5ranked关联在公共数据库中的验证结果如表1-4所示。比如，Zoledronic acid被预测的排在前5的疾病中，有4个疾病与该药物之间的关联已在相关数据库中得到验证。案例分析结果表明DRRS方法预测的结果将对生物学实验具有一定的指导作用。

表1：为药物Zoledronic acid预测的排在前5位的新适应症。

表2：为药物Risperidone预测的排在前5位的新适应症。

表3：为药物Prednisolone预测的排在前5位的新适应症。

表4：为药物Levodopa预测的排在前5位的新适应症。

(3)在其他数据集上的验证

通过在其它两个数据集上的预测结果，进一步验证DRRS的鲁棒性。在评价药物重定位方法方面，我们除了采用一些通用的评价机制(比如，AUC值、Precision值等)验证方法的准确性之外，还在另外两个从文献中得到数据集上预测以进一步证实本发明的有效性。

在这两个数据集上，通过十倍交叉验证测试，完成与其他三种方法的比较。相关的实验结果如图4和图5所示，从所得到的AUC值和最大Precision值可以看出DRRS方法的结果优于其他三种方法，进一步说明了DRRS在预测新的、潜在的药物-疾病关联方面的有效性。

Claims

1.一种基于低秩矩阵填充的药物重定位方法，其特征在于，包括以下步骤：

2)基于验证的方法确定填充矩阵的最优秩；基于所选定的最优秩，采用奇异值阈值算法实现药物-疾病异构网络的邻接矩阵的填充；

3)基于填充的矩阵，预测潜在的、新的药物-疾病关联：

从填充的矩阵中抽取药物-疾病网络所对应的邻接矩阵，该矩阵中的每个元素对应一对药物-疾病的关联值，关联值越大，表明这对药物与疾病之间存在关联的可能性越大；对于特定药物，根据所填充的关联值排序候选疾病，从而完成新的药物-疾病关联的识别。

2.根据权利要求1所述的基于低秩矩阵填充的药物重定位方法，所述步骤1)中，构建药物-疾病异构网络的过程如下：

3.根据权利要求1所述的基于低秩矩阵填充的药物重定位方法，所述步骤2)中，定义药物-疾病异构网络的邻接矩阵A如下：

邻接矩阵A的填充包括以下步骤：

第一阶段：确定最优秩，包括以下步骤：

第一步：随机从集合Ω_RD中选择10％的元素作为验证集令

则有其中A′_RD和均为m×n的矩阵，若中索引值所指示的元素在A_RD中的位置为(i,j)，则中位置(i,j)处的元素的值为1，而中其它位置处的元素的值为0；若Ω′_RD中索引值所指示的元素在A_RD中的位置为(p,q)，则A′_RD中位置(p,q)处的元素的值为1，而A′_RD中的其它位置处的元素的值为0；

第二步：创建矩阵A^v及元素索引值集合Ω^v；

第三步：为奇异值阈值τ和迭代步长δ赋值：

第四步：初始化最优秩bestr＝0，最优性能指标maxauc＝0；

第五步：基于A^v，Ω^v，τ和δ，采用快速矩阵填充算法SVT-R⁴SVD执行SVT迭代；在完成第i次迭代时，得到秩为r^*的矩阵基于验证集计算本次迭代得到的矩阵Y⁽ⁱ⁾的性能指标auc值和残差序列；如果auc>maxauc，则令maxauc＝auc,bestr＝r^*，否则bestr和maxauc的值保持不变；当满足迭代终止条件，即达到最大迭代次数或者残差序列中的最大残差值小于设定阈值时，迭代结束，得到最优秩bestr；

基于A，Ω，τ和δ，采用快速矩阵填充算法SVT-R⁴SVD执行SVT迭代；在完成第i次迭代时，得到秩为r^*的矩阵判断r^*<bestr是否成立，如果成立，则继续下一步迭代；如果不成立，则结束整个迭代过程，返回该步迭代得到的矩阵作为药物-疾病异构网络的邻接矩阵A的填充矩阵。