CN108647484A

CN108647484A - 一种基于多元信息集成和最小二乘法的药物关系预测方法

Info

Publication number: CN108647484A
Application number: CN201810472698.5A
Authority: CN
Inventors: 王建新; 严承; 李敏; 张雅妍; 王劭恺
Original assignee: Central South University
Current assignee: SHENZHEN ZAOZHIDAO TECHNOLOGY Co.,Ltd.
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2018-10-12
Anticipated expiration: 2038-05-17
Also published as: CN108647484B

Abstract

本发明公开了一种基于多元信息集成和最小二乘法的药物关系预测方法，包括步骤1：获取待研究的药物集合的药物关系矩阵；步骤2：计算每个药物与其余药物的高斯核相似性；步骤3：根据药物集合中所有药物的特征信息采用余弦角相似性方法计算每个药物与其余药物的特征相似性；特征信息包括化学信息、生物信息以及表征信息；步骤4：计算每两个药物之间的高斯核相似性和特征相似性的均值得到每两个药物之间的药物相似性，并基于每两个药物之间的药物相似性构成出药物集合的药物相似性矩阵；步骤5：基于药物相似性矩阵以及药物关系矩阵采用最小二乘法进行药物对的关联关系分数计算得到药物关系预测矩阵。

Description

一种基于多元信息集成和最小二乘法的药物关系预测方法

技术领域

本发明属于系统生物学领域，具体涉及一种基于多元信息集成和最小二乘法的药物关系预测方法。

背景技术

药物-药物关系(DDIs)被定义为在多种药物同时治疗一个病人的过程中，一种药物的效果被另一种药物所影响，即药物之间的关系。从目前临床的诊断情况来看，DDIs有着积极的作用提高治疗效果和病人的生活质量，但是其不利的效果也会导致药物退市甚至病人死亡等严重的后果。随着医疗技术的发展，目前采用多种药物同时治疗的方式非常普遍，特别是治疗癌症之类的复杂疾病。所以，现在越来越多的研究表明DDIs中的不良反应随着多种药物复合治疗已经变成了沉重的经济负担和严重的疾病治疗包袱。因此，现在对DDIs的发现已经变得非常紧迫和重要。

目前从生物医学实验上来说，DDIs的确认包括体外和体内两种测试方法。但是由于其固有的耗时和费力的缺点，使得其严重影响药物的开发过程。目前通过大量研究人员的努力，药物类基础信息数据库得到了飞速发展。比如，在PubChem数据库中提供了药物的PubChem化学子结构信息。DrugBank数据库从大量的文献和报到中收集到了药物的靶标(target)、转运(transporter)、酶(enzymes)和DDIs等信息。此外，药物的代谢(pathway)信息在KEGG数据库中得到了提供。SIDER数据库中提供了药物的适应症(indication)和副作用(side effect)信息。OFFSIDES提供了药物的隔离副作用信息(off side effect)。此外，TWOSIDES数据库目前提供了包括645种药物及其之间63473条关系的信息。

以上药物相关的数据库的建立为通过计算模型对DDIs进行关系预测提供了重要的基础。此外，通过计算方法能够对DDIs进行合理的预测和克服传统的生物医学实验的不足。目前已知出现了大量的通过药物化学结构进行DDIs预测的方法，其不但利用了已知2D结构，也使用了3D结构进行进一步的补充。药物靶标关系作为药物功能的基本信息，也在预测DDIs的过程得到来了相关的应用。并且，有的方法在药物靶标关系的基础上进一步集成蛋白质网络(protein-protein interaction network)信息，也取得了不错的预测效果。此外，基于邻居推荐和随机游走的预测方法也通过药物化学、生物和表征信息在DDIs预测中得到了应用。此外，在基于各种药物信息的邻居推荐、随机游走等模型上的集成方法也得到了发展，包括权重集成、基于L1范式正则化和L2范式正则化的分类集成方法，其DDI预测效率得到了进一步的提高。然而，上述当前DDIs在计算方面的研究，对药物化学、生物、表征和已知的关系的利用都是只利用了其中的部分信息来进行预测或者先通过各个部分的信息进行预测后再对各类预测结果进行集成，没有在预测之前将其作为一个整体进行利用，进而影响预测效果。同样，对已知的DDIs的利用上，也需要更好的融合方式来进行利用。

因此，由于传统生物医学实验的成本和效率的缺点，以及当前计算模型在药物化学、生物和表征方面的信息合理利用不足的问题，当前对药物-药物关联关系还有待进一步发展。目前随着多种药物同时治疗某种疾病的情况越来越多，以及患者同时患有多种疾病的情况也需要多种药物同时共同治疗，都对DDIs的辨认提出了更高的要求。同时，新的药物的DDIs预测也是药物开发过程中的一个重要主题。所以，为了给后续的药物开发过程提供重要指导和研究基础，迫切需要提出一种更有效的方法来预测DDIs。

发明内容

本发明的目的是提供一种基于多元信息集成和最小二乘法的药物关系预测方法能够克服当前计算模型中在药物化学、生物和表征方面的信息合理利用不足以及对已知的DDIs融合不够的问题，进而提高预测效果。

一种基于多元信息集成和最小二乘法的药物关系预测方法，包括如下步骤：

步骤1：获取待研究的药物集合的药物关系矩阵；

所述药物关系矩阵为N*N矩阵，每一行或每一列的元素构成一个药物的关系向量，所述关系向量表示药物与所述药物集合中其余药物的关系，其中，第i个药物d_i关系向量yd_i如下所示：

yd_i＝{y_i1,y_i2,...,y_ij,...,y_iN},1≤j≤N

i＝j,y_ij＝0

式中，y_ij为第i个药物d_i与第j个药物d_j的关系值，N为所述药物集合中药物的种类数量且N为正整数；

步骤2：基于所述药物集合的药物关系矩阵计算所述药物集合中每个药物与其余每个药物的高斯核相似性；

步骤3：根据所述药物集合中所有药物的特征信息采用余弦角相似性方法计算所述药物集合中每个药物与其余每个药物的特征相似性；

其中，依据所述药物集合中所有药物的特征信息构建每个药物的特征向量，再依据每个药物的特征向量计算出每个药物与其余每个药物的特征相似性；

所述特征向量的维度为其余药物的所有特征信息的维度值之和，每个药物d_i的特征向量中每个元素对应一个特征，特征向量的元素值依据药物是否包含对应特征或者与对应特征是否存在药物关联关系而定；

所述特征信息包括化学信息、生物信息以及表征信息，所述化学信息为化学子结构，所述生物信息包括靶标、转运、酶、代谢中的任意一类或多类特征，所述表征信息包括适应症、副作用、隔离副作用信息中的任意一类或多类特征；

步骤4：计算每两个药物之间的高斯核相似性和特征相似性的均值得到每两个药物之间的药物相似性，并基于每两个药物之间的药物相似性构成出所述药物集合的药物相似性矩阵；

步骤5：基于所述药物集合的药物相似性矩阵以及药物关系矩阵采用最小二乘法进行药物对的关联关系分数计算得到药物关系预测矩阵；

其中，药物关系预测矩阵的计算公式如下：

式中，为所述药物集合的药物关系预测矩阵，为矩阵Y_p的转置矩阵，S_d为所述药物集合的药物相似性矩阵，Y^T为所述药物集合的药物关系矩阵Y的转置矩阵，σ为正则化参数，I为单位矩阵。

本发明利用药物化学、生物和表征信息通过余弦夹角相似性计算方式得到药物的特征相似性，该方法相对之前的单个信息处理预测后再合成的方法更合理的融合了多种已知的药物特征信息，且在预测过程中使得各种特征信息同时作为一个整体来考虑；然后对药物高斯核相似性和表征相似性通过均值的方式得到最终的药物相似性，更好的融合利用了已知的药物-药物关系信息和药物特征信息，根据药物的相似性采取最小二乘法方法对药物对的关联关系分数进行计算，进而可以根据关联关系分数得出药物之间的关联关系排名、紧密程度，能够有效的对药物之间的关联关系进行预测，并能够为后续的验证药物-药物关系的生物医学实验提供基本的指导作用和加快药物开发流程，节省其人力物力成本。

进一步优选，步骤1的执行过程如下：

首先，基于预存的药物-药物关系数据库识别所述药物集合中是否存在与其余药物没有任何关系信息的新药物；

若存在，基于结点的网络扩散法预测每个新药物与所述药物集合中其余药物之间的关系，再基于预存的药物-药物关系数据库、新药物与其余药物之间的关系构建所述药物集合的药物关系矩阵；

若不存在，则基于预存的药物-药物关系数据库构建所述药物集合的药物关系矩阵。

所谓没有任何关系信息的新药物是指在预存的药物-药物关系数据库中，新药物与其他药物没有DDIs关系。本发明对全新的药物的DDIs预测问题给予充分的关注，并基于结点的网络扩散法给新药物与其余药物的关系进行预测，所选用的基于结点的网络扩散方法中的网络相较于基于相似性的网络更稀疏，特别是在一个药物可能只关联很少数量的靶标，且与其共享这个靶标的药物数量众多的情况下时，结点的网络扩散方法比传统的相似性的网络更稀疏，引入的噪声更少，提高预测结果的可靠性。

进一步优选，所述基于结点的网络扩散法预测每个新药物与所述药物集合中其余药物之间的关系的执行过程如下：

S1：获取所述药物集合的药物关系初始矩阵Y'、药物靶标关系矩阵M_dt、药物适应症关系矩阵M_dc；

其中，所述药物关系初始矩阵Y'是基于预存的药物-药物关系数据库构建的N*N矩阵，每一行或每一列的元素构成一个药物的关系初始向量，所述关系初始向量表示药物与所述药物集合中其余药物的初始关系，其中，第i个药物d_i的关系初始向量yd_i'如下所示：

yd_i'＝{y′_i1,y′_i2,...,y′_ij,...,y′_iN},1≤j≤N

i＝j,y′_ij＝0

式中，y′_ij为第i个药物d_i与第j个药物d_j的关系初始值；

所述药物靶标关系矩阵M_dt是基于靶标集合T构建的N*N_i矩阵，N_t为靶标集合T中靶标种类数量，所述药物靶标关系矩阵M_dt的元素表示所述药物集合中药物与所述靶标集合T中靶标的关系；

所述药物适应症关系矩阵M_dc是基于适应症集合C构建的N*N_c矩阵，N_c为所述适应症集合C中适应症种类数量，所述药物适应症关系矩阵M_dc的元素表示所述药物集合中药物与所述适应症集合C中适应症的关系；

S2：将所述药物关系初始矩阵Y'、药物靶标关系矩阵M_dt、药物适应症关系矩阵M_dc进行集成得到邻接矩阵A；

S3：对所述邻接矩阵A进行归一化处理得到转换矩阵W；

其中，转换矩阵W中第i行第j列元素A(i,j)的计算公式如下：

式中，A(i,l)为所述邻接矩阵A中第i行第l列的元素；

S4：对所述转换矩阵W采用基于结点的网络扩散方法得到结果矩阵R；

R＝A*W^k

式中，k网络扩散的次数，k为偶数；

S5：基于结果矩阵R获取每个新药物的关系向量；

其中，新药物d_i的关系向量yd_i如下所示：

式中，R'(i,1:N)为矩阵R(i,1:N)放大后的矩阵，R(i,1:N)为结果矩阵R中第i行前N列元素构成的矩阵，α为放大系数；

S6：基于每个新药物的关系向量将所述药物关系初始矩阵Y'中新药物的对应元素进行替换得到所述药物关系矩阵；

其中，将所述药物关系初始矩阵Y'中每个新药物d_i对应元素的替换过程如下：

Y'(i,1:N)＝R'(i,1:N)

Y'(1:N,i)＝R'(i,1:N)^T

式中，Y'(i,1:N)和Y'(1:N,i)分别为所述药物关系初始矩阵Y'中新药物d_i对应的前N列矩阵、前N行矩阵，R'(i,1:N)^T为矩阵R'(i,1:N)的转置矩阵。

本发明中基于结点的网络扩散法给新药物与其余药物的关系进行预测的过程，本方法主要增加了靶标、适应症信息的网络结点以及药物与他们之间的关联关系边，并且这些边都是通过生物医学实验验证的有效边，且相对比传统的相似性计算药物相似性是大大减少了网络中总的边的数量，该方法相对传统的相似性计算方法更加有效的利用了药物靶标和药物适应症信息，避免了传统方法因其相似性边过多而引入噪声的缺陷进而弱化了真正的关联关系分数，特别是针对那种一个靶标或者适应症信息被多个药物共享的情况，其计算的药物相似性边数量是巨大，此时传统的相似性计算相较于本发明基于结点的网络扩散法的可靠性低，采用本发明所述方法可以得到了更合理新药物与其余药物关系的预测值。

进一步优选，所述药物关系初始矩阵Y'中两个药物之间存在药物关联关系时，所述两个药物的关系初始值为1，否则为0；

所述药物靶标关系矩阵M_dt中一个药物与一个靶标存在药物关联关系时，所述药物靶标关系矩阵M_dt中对应元素为1，否则为0；

所述药物适应症关系矩阵M_dc中一个药物与一个适应症存在药物关联关系时，所述药物适应症关系矩阵M_dc中对应元素为1，否则为0。

进步优选，所述一网络扩散的次数k为2，所述放大系数α为0.5。

进一步优选，两个药物之间的高斯核相似性的计算公式如下：

G_d(d_i,d_j)＝exp(-γ_d||yd_i-yd_j||²).

式中，G_d(d_i,d_j)为第i个药物d_i和第j个药物d_j的高斯核相似性，N为药物的种类数量，γ_d为控制核宽度的调节参数，调节参数γ_d的计算公式如下：

式中，γ'_d为经验系数。

进一步优选，所述经验系数γ'_d为1。

进一步优选，两个药物之间的特征相似性的计算公式如下：

式中，Sim_d(d_i,d_j)为第i个药物d_i和第j个药物d_j的特征相似性，d_i(l)和d_j(l)分别对应药物d_i和药物d_j的特征向量中第l个的元素，M为特征向量的维度；

其中，每个药物的特征向量中的元素表示所述药物与元素对应的特征是否存在药物关联关系或者所述药物是否包含元素对应的特征信息。

进一步优选，药物与元素对应的特征存在药物关联关系或者药物包含元素对应的特征信息时，所述药物的特征向量中所述元素为1，否则为0。

进一步优选，所述生物信息包括靶标、转运、酶、代谢，所述表征信息包括适应症、副作用、隔离副作用信息。

有益效果

与现有技术相比，本发明的优点有：

1、本发明充分利用药物关系矩阵，即药物-药物关系信息，并据此计算出药物之间的高斯核相似性。同时还利用药物化学、生物和表征信息通过余弦夹角相似性计算方式得到药物的特征相似性，然后对药物高斯核相似性和表征相似性通过均值的方式得到最终的药物相似性，更好的融合了药物-药物关系信息和药物特征信息，再根据药物的相似性采取最小二乘法方法对药物对的关联关系分数进行计算，能够有效的对药物之间的关联关系进行预测。本发明通过5倍交叉、10倍交叉验证表明，本发明能够有效的对药物之间的关联关系进行预测。并能够为后续的验证药物-药物关系的生物医学实验提供基本的指导作用和加快药物开发流程，节省其人力物力成本。

2、本发明在计算药物特征相似性的过程中，对已知的药物特征信息采取全张量表示的方法来计算其余弦夹角相似性，该方法合理的融合了药物的特征信息，相比药物单个特征信息计算了更加有效的相似性，并使得各种特征信息作为一个整体在预测过程中得到了同时考虑。

3、面对全新的药物没有已知的药物关系时，本发明通过利用药物靶标和药物适应症信息的网络结点扩散方法对其药物关系进行了预测，该方法增加了靶标、适应症信息的网络结点以及药物与他们之间的关联关系边，并且这些边都是通过生物医学实验验证的有效边，相较于计算药物相似性是大大减少了网络中总的边的数量。该方法相对传统的相似性计算方法更加有效的利用了药物靶标和药物适应症信息，避免了传统方法因其相似性边过多而引入噪声的缺陷进而弱化了真正的关联靶标分数，特别是针对那种一个靶标或者适应症信息被多个药物共享的情况，其计算的药物相似性边数量巨大，从而得到了更合理的预测值。

附图说明

图1是本发明提供的一种基于多元信息集成和最小二乘法的药物关系预测方法的流程图。

具体实施方式

下面将结合实施例对本发明做进一步的说明。

本发明所利用的已知的药物-药物关系数据来自于TOWSIDES数据库。药物化学信息来自于PubChem数据库。药物靶标、药物转运和酶的生物信息来自于DrugBank数据库。药物代谢信息来自于KEGG数据库。药物表征信息包括药物适应症、药物副作用和药物隔离副作用信息，其中药物适应症、药物副作用来自于SIDER数据库，后一个药物隔离副作用信息来自于OFFSIDES数据库。通过对从TOWSIDES数据库获取到的药物集合到其余数据库中获取的数据中进行映射处理，最终得到一个包括548种药物和48584条药物-药物关系的基准数据集。

实施例1:

本发明实施例首先查找当前待研究的药物集合中是否存在不和任何其余药物存在关系信息的新药物，如果存在的话，利用已知的药物-药物关系，药物靶标关系和药物适应症关系信息通过基于结点的网络扩散方法对新药物的药物-药物关系进行合理的预测。并对预测结果依据数据特点进行了放大化处理；然后依据药物集合中药物-药物关系计算出药物的高斯核相似性；接下来将药物的化学、生物和表征信息集成到一个张量中，采用余弦夹角的计算方式得到药物的特征相似性；并将药物的特征相似性和高斯核相似性通过均值的方式进行集成；基于相似性的候选药物也作用于相似性的其余药物的特点，采用最小二乘法对药物对的关联关系分数进行计算。具体的执行过程如下：

步骤1：获取待研究的药物集合的药物关系矩阵Y。

其过程为：首先，基于预存的药物-药物关系数据库识别所述药物集合中是否存在与其余药物没有任何关系信息的新药物；

若存在，基于结点的网络扩散法预测每个新药物与所述药物集合中其余药物之间的关系，再基于预存的药物-药物关系数据库、新药物与其余药物之间的关系构建所述药物集合的药物关系矩阵；若不存在，则基于预存的药物-药物关系数据库构建所述药物集合的药物关系矩阵。

其中，对新药物与所述药物集合中其余药物之间的关系的预测过程如下：

S1：获取所述药物集合的药物关系初始矩阵Y'、药物靶标关系矩阵M_dt、药物适应症关系矩阵M_dc。

1、先定义D＝{d₁,d₂,···,d_N}为待研究的药物集合，N为药物集合的种类数量。药物关系初始矩阵Y'中每一行和每一列的元素构成一个药物的关系初始向量，第i个药物d_i的关系初始向量yd_i'如下所示：

yd_i'＝{y′_i1,y′_i2,...,y′_ij,...,y′_iN},1≤j≤N

i＝j,y_ij＝0

式中，y′_ij为第i个药物d_i与第j个药物d_j的关系初始值。如果药物d_i、d_j之间存在已知的药物关联关系，则y′_ij为1，否则y′_ij为0。如果药物d_i是全新的药物，则其关系初始向量yd′_i＝{y′_i1,y′_i2,...,y′_ij,...,y′_iN}中的元素全为0。

2、定义靶标集合其中，为靶标集合中第N_t个靶标，药物靶标关系矩阵M_dt中药物d_i和靶标t_j对应的元素为第i行第j列元素M_dt(i,j)，若药物d_i和靶标t_j存在药物关联关系，则M_dt(i,j)为1，否则为0。

3、定义适应症集合其中，为适应症集合中第N_c个适应症，药物适应症关系矩阵M_dc中药物d_i和适应症C_j存在药物关联关系时，则M_dc(i,j)为1，否则为0。

所谓药物关联关系为药物与特征或其他药物之间存在联系。

故邻接矩阵A为(N+N_t+N_c)*(N+N_t+N_c)的矩阵。

S3：对所述邻接矩阵A进行归一化处理得到转换矩阵W。

其中，转换矩阵W中第i行第j列元素A(i,j)的计算公式如下：

式中，A(i,l)为所述邻接矩阵A中第i行第l列的元素。

S4：对所述转换矩阵W采用基于结点的网络扩散处理得到结果矩阵R。

R＝A*W^k

其中，k网络扩散的次数，在基于结点的网络扩散中，k必须为偶数，根据实际的验证测试结果我们设置其值为2。

S5：基于结果矩阵R获取每个新药物的关系向量。

其中，新药物d_i的关系向量yd_i如下所示：

其中扩散结果矩阵R中提取的前N行和N列矩阵R(1:N,1:N)为扩散方式得到的药物-药物关系矩阵，对于新药物d_i，则第i行中的前N列R(i,1:N)为此新药物d_i的药物-药物关系预测值。但是，通过网络扩散的值相对于原有的已知药物关系初始矩阵Y'中的值来说(已知关系值为1)，都比较小，因此通过一个放大处理方式来得到一个相对更合理的预测值。

因此，R'(i,1:N)为矩阵R(i,1:N)放大后的矩阵，R(i,1:N)为结果矩阵R中第i行前N列元素构成的矩阵，α为放大系数，α为d_i与其余药物的关系值中的最大值应该放大到的具体值，其具体值通过验证方式设置，本实施例中设为0.5。新药物d_i的关系初始向量yd_i'＝{y′_i1,y′_i2,...,y′_ij,...,y′_iN}中的元素全为0，通过上述计算得到新药物d_i的关系向量yd_i＝{y_i1,y_i2,...,y_ij,...,y_iN}中的元素与关系初始向量中的元素的值不同，因此需要将新药物d_i的原关系初始向量进行替换。

S6：基于每个新药物的关系向量将所述药物关系初始矩阵Y'中新药物对应元素进行替换得到所述药物关系矩阵；

Y'(i,1:N)＝R'(i,1:N)

Y'(1:N,i)＝R'(i,1:N)^T

式中，Y'(i,1:N)和Y'(1:N,i)分别为所述药物关系初始矩阵Y'中新药物d_i对应的前N列矩阵、前N行矩阵，R'(i,1:N)^T为矩阵R'(i,1:N)的转置矩阵。具体是将药物关系初始矩阵Y'中新药物对应的元素进行替换得到药物关系矩阵Y，药物关系矩阵Y中每一行或每一列的元素构成一个药物的关系向量，其中，第i个药物d_i与所述药物集合中所有药物的关系向量yd_i＝{y_i1,y_i2,...,y_ij,...,y_iN}。其中，如果药物d_i为新药物，则关系向量yd_i＝{y_i1,y_i2,...,y_ij,...,y_iN}为基于结点的网络扩散预测而来，如果药物d_i不是新药物，则关系向量yd_i＝{y_i1,y_i2,...,y_ij,...,y_iN}为药物d_i在药物关系初始矩阵Y'中的关系初始向量yd_i'＝{y′_i1,y′_i2,...,y′_ij,...,y′_iN}。

在全新的药物DB00945(阿司匹林)验证测试中，经过预测处理后其与药物DB00443(倍他米松)的关联关系分数最高，而从实际的生物医学实验验证结果来看也是存在关系的，故上述预测处理结果能够为后续的预测进一步提高其预测效率。

步骤2：基于所述药物集合的药物关系矩阵计算所述药物集合中每个药物与其余药物的高斯核相似性。

第i个药物d_i和第j个药物d_j的高斯核相似性计算公式如下：

G_d(d_i,d_j)＝exp(-γ_d||yd_i-yd_j||²)

式中，G_d(d_i,d_j)为第i个药物d_i和第j个药物d_j的高斯核相似性，N为药物的种类数量，γ_d为控制核宽度的调节参数，γ'_d为经验系数，本实施例中选γ'_d为1。

依据上述计算公式，药物DB00526(奥沙利铂(抗肿瘤药))和DB00458(丙咪嗪)的高斯核相似性值为0.5347。

步骤3：根据所述药物集合中所有药物的特征信息采用余弦角相似性方法计算所述药物集合中每个药物与其余药物的特征相似性。

本实施例中，特征信息包括化学信息、生物信息以及表征信息，其中，所述化学信息为化学子结构(化学子结构)，所述生物信息包括靶标(target)、转运(transport)、酶(enzyme)、代谢(pathway)，所述表征信息包括适应症(indication)、副作用(sideeffect)、隔离副作用信息(off side effect)。

首先，将药物的这8种信息集成到一个高维的向量空间，其维度为所有信息的维度值之和。每个药物的特征信息向量中的值对应于此药物是否具体该特征信息或者与该特征存在关联关系，比如药物d_i与靶标t_j存在关联关系则值为1，否则值为0，同样的，药物d_i包含化学子结构C_k，则其值为1，否则为0。对药物之间的特征相似性计算采用余弦夹角相似性计算方式进行计算，针对药物d_i和d_j的计算过程如下：

其中，d_i(l)和d_j(l)分别对应药物d_i和d_j的特征向量中的元素，另外参数M为整个向量的维度值。计算后的药物特征相似性值为0到1之间。

式中，S_d为药物相似性矩阵，G_d为由所述药物集合中每两个药物之间的高斯核相似性构成的药物高斯核相似性矩阵，Sim_d为所述药物集合中每两个药物之间的特征相似性构成的特征相似性矩阵。

步骤5：基于所述药物集合的药物相似性矩阵以及药物关系矩阵采用最小二乘法进行药物对的关联关系分数计算得到药物关系预测矩阵。

其中，药物关系预测矩阵的计算公式如下：

在对已知药物集合中的新的药物-药物关系进行预测后，药物DB00213(泮托拉唑)和DB00333(美沙酮)的预测关联关系分数为0.6055。

为了验证本发明的有效性，我们参考其他算法的验证标准，采用了三种验证方式：(1)5倍交叉验证；(2)10倍交叉验证；(3)de novo药物验证。在五倍交叉验证中，将已知的药物-药物关系随机分成5份，依次轮流选择1份为测试集，剩下的4份为训练集，其测试验证次数为10次。同样在10倍交叉验证测试中，对已知的药物-药物关系随机分成10份，依次轮询1份为测试集，剩下的9份为训练集，验证次数也为10次。在de novo药物验证测试中，依次将每一个药物的已知关系为测试集，剩下的其余药物的关系为训练集，其余药物依次执行一次。AUC(the areas under ROC curves：ROC曲线面积)值作为其评价和与其他方法比较的指标。

表1描述了本发明DDIRLS和其他方法在5倍交叉验证上的性能比较结果。从图中可以看出本发明DDIRLS的AUC值为0.9691，是高于其他4个方法的AUC值：WAE(Weight averageensemble method:权重集成方法)的AUC值0.9502，L1E(Classifier ensemble methd(L1):L1范式集成方法)的AUC值0.9570，L2E(Classifier ensemble methd(L2):L2范式集成方法)的AUC值0.9561和LP(Lable Poropagation:标签传递)的AUC值0.9374。

表1：本发明DDIRLS和其余方法在5倍交叉验证上的性能比较表

序号	方法	AUC
			1	WAE	0.9502
2	L1E	0.9570
			3	L2E	0.9561
4	LP	0.9502
			5	DDIRLS	0.9691

表2给出了本发明DDIRLS和其他方法在10倍交叉验证上的预测性能。同样依照AUC值，本发明DDIRLS的预测性能也由于其他方法，其AUC值到了0.9745，其他方法为：WAE的AUC值为0.9530，L1E的AUC值为0.9599，L2E的AUC值为0.9594和LP的AUC值为0.9378。并且相对5倍交叉验证的结果，本发明DDIRLS方法在10倍交叉验证上的优势更高。

表2：本发明DDIRLS和其他方法在10倍交叉验证上的性能比较表

序号	方法	AUC
			1	WAE	0.9530
2	L1E	0.9599
			3	L2E	0.9594
4	LP	0.9378
			5	DDIRLS	0.9745

表3描述的是本发明和其他方法在全新的药物验证上的性能比较。由于L1E和L2E在预测全新的药物方面的限制，我们只比较了WAE和LP方法。同样本发明的预测性能也是最优，其AUC值达到了0.9292，而另外两个方法的AUC值为：WAEAUC值为0.9073，LPAUC值为0.8997。

表3：：本发明DDIRLS和其他方法在全新的药物验证上的性能比较表

通过上述应用案例的表现，本发明能够较准确的预测新的药物-药物关系，能够减少后续生物实验中的候选药物范围，对其提供基本的指导作用，并进一步提高药物开发流程和疾病治疗效率。

需要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。

Claims

1.一种基于多元信息集成和最小二乘法的药物关系预测方法，其特征在于：包括如下步骤：

步骤1：获取待研究的药物集合的药物关系矩阵；

yd_i＝{y_i1,y_i2,...,y_ij,...,y_iN},1≤j≤N

i＝j,y_ij＝0

所述特征向量的维度为所有药物的所有特征信息的维度值之和，每个药物d_i的特征向量中每个元素对应一个特征，特征向量的元素值依据药物是否包含对应特征或者与对应特征是否存在药物关联关系而定；

其中，药物关系预测矩阵的计算公式如下：

2.根据权利要求1所述的方法，其特征在于：步骤1的执行过程如下：

3.根据权利要求2所述的方法，其特征在于：所述基于结点的网络扩散法预测每个新药物与所述药物集合中其余药物之间的关系的执行过程如下：

yd_i'＝{y′_i1,y′_i2,...,y′_ij,...,y′_iN},1≤j≤N

i＝j,y′_ij＝0

式中，y′_ij为第i个药物d_i与第j个药物d_j的关系初始值；

S3：对所述邻接矩阵A进行归一化处理得到转换矩阵W；

其中，转换矩阵W中第i行第j列元素A(i,j)的计算公式如下：

式中，A(i,l)为所述邻接矩阵A中第i行第l列的元素；

R＝A*W^k

式中，k网络扩散的次数，k为偶数；

S5：基于结果矩阵R获取每个新药物的关系向量；

其中，新药物d_i的关系向量yd_i如下所示：

Y'(i,1:N)＝R'(i,1:N)

Y'(1:N,i)＝R'(i,1:N)^T

4.根据权利要求3所述的方法，其特征在于：所述药物关系初始矩阵Y'中两个药物之间存在药物关联关系时，所述两个药物的关系初始值为1，否则为0；

5.根据权利要求3所述的方法，其特征在于：所述网络扩散的次数k为2，所述放大系数α为0.5。

6.根据权利要求1所述的方法，其特征在于：两个药物之间的高斯核相似性的计算公式如下：

G_d(d_i,d_j)＝exp(-γ_d||yd_i-yd_j||²).

式中，γ'_d为经验系数。

7.根据权利要求6所述的方法，其特征在于：所述经验系数γ'_d为1。

8.根据权利要求1所述的方法，其特征在于：两个药物之间的特征相似性的计算公式如下：

9.根据权利要求8所述的方法，其特征在于：药物与元素对应的特征存在药物关联关系或者药物包含元素对应的特征信息时，所述药物的特征向量中所述元素为1，否则为0。

10.根据权利要求1所述的方法，其特征在于：所述生物信息包括靶标、转运、酶、代谢，所述表征信息包括适应症、副作用、隔离副作用信息。