CN112071439A

CN112071439A - 药物副作用关系预测方法、系统、计算机设备和存储介质

Info

Publication number: CN112071439A
Application number: CN202010837504.4A
Authority: CN
Inventors: 曹东升; 印明柱; 陈翔; 杨素青
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-12-11
Anticipated expiration: 2040-08-19
Also published as: CN112071439B

Abstract

本申请涉及一种药物副作用关系预测方法、系统、计算机设备和存储介质。该方法包括：获取待测关系对，待测关系对包含一待测药物和一目标副作用；基于待测药物和已知药物的药物信息、以及已知药物副作用关系，确定各种药物维度下待测关系对的第一关联得分；基于目标副作用和已知副作用的副作用信息、以及已知药物副作用关系，确定各种副作用维度下待测关系对的第二关联得分；基于待测药物、已知药物、目标副作用和已知副作用的网络连接信息、以及已知药物副作用关系，确定各种网络连接维度下待测关系对的第三关联得分；根据第一关联得分、第二关联得分以及第三关联得分，预测待测药物与目标副作用是否具有潜在关联。采用本方法能够提高预测准确性。

Description

药物副作用关系预测方法、系统、计算机设备和存储介质

技术领域

本申请涉及生物医药技术领域，特别是涉及一种药物副作用关系预测方法、系统、计算机设备和存储介质。

背景技术

临床上药物的正确使用本质上是实现药物期望益处和药物潜在风险间的一个有效的平衡。药物潜在的风险主要是指药物引起的不良反应，或叫做副作用。世界卫生组织对药物副作用给出了明确的定义：药品在预防、诊断或调节生理功能的正常用法用量下，出现的有害的和意料之外的反应。

药物副作用的评估在制药工业和公共卫生健康领域是一个特别值得关注的问题。在制药工业中，药物副作用是药物研发过程中最容易引起失败的重要因素之一，也是药物批准上市后又退出市场的主要原因。大部分研究中的先导化合物在临床试验中的失败要归因于这些分子的毒副作用。据统计，由于毒副作用研究失败的药物占所有研究药物的30％左右，并且最近几年有增长的趋势。药物副作用也是病人不连续服用一种药物或者换用其它同类型药物的最重要的因素。在医疗卫生行业，大约有200多万的病人每年由于严重的副作用而住院，其中约有10万左右的病人会在住院过程中病亡。由于严重的副作用而住院的人数大约已经占到了总住院人数的6％-7％，其中0.1％-0.3％的病人会伴有非常严重的副作用。据统计，严重副作用已经成为每年病人死亡的第四至六位主要因素。药物副作用的评估一直以来都是临床医生和药物学家的难点问题。在药物研发阶段，完全地评估和鉴别一个药物的副作用可能需要花费许多年的努力，是几乎不可能完成的事情。在临床实践中，只有等病人服用药物出现不适后才能发现某种副作用，这已经对病人造成了巨大的伤害。因此有必要发展有效的方法能够准确地、快速地对药物潜在的副作用进行鉴别和评估。

生命科学和各种组学技术的发展积累了大量生物医药相关数据，建立了许多免费的公共资源数据库，这些数据库几乎囊括了分子水平、基因水平、蛋白水平、代谢水平以及显型水平等多方面药物特征信息。借助于这些爆炸式增长的生物医药数据，生命科学家通过数据分析研究药物行为可以获得一些基础的发现。鉴于药物副作用在制药和医疗卫生行业的重要性，多个相关于副作用的数据资源已经发表和公开，例如SIDER数据库，OFFSIDES数据库。此外，还有一些并未公开的副作用数据资源，诸如加拿大的CVAR数据库，Lexicomp公司的私有副作用数据库等。这些数据资源为药物副作用预测算法的发展提供了可靠的数据保障。

目前已发展的方法中，主要是基于各种药物相关谱来鉴别潜在的副作用，该方法运用了不同的药物属性方面的信息进行建模。然而，目前的方法存在预测结果不够准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高预测准确性的药物副作用关系预测方法、系统、计算机设备和存储介质。

一种药物副作用关系预测方法，所述方法包括：

获取待测关系对，所述待测关系对包含一待测药物和一目标副作用；

基于所述待测药物和已知药物的药物信息、以及已知药物副作用关系，确定各种药物维度下所述待测关系对的第一关联得分；

基于所述目标副作用和已知副作用的副作用信息、以及所述已知药物副作用关系，确定各种副作用维度下所述待测关系对的第二关联得分；

基于所述待测药物、所述已知药物、所述目标副作用和所述已知副作用的网络连接信息、以及所述已知药物副作用关系，确定各种网络连接维度下所述待测关系对的第三关联得分；

根据所述第一关联得分、所述第二关联得分以及所述第三关联得分，预测所述待测药物与所述目标副作用是否具有潜在关联。

一种药物副作用关系预测系统，所述系统包括：

获取模块，用于获取待测关系对，所述待测关系对包含一待测药物和一目标副作用；

第一确定模块，用于基于所述待测药物和已知药物的药物信息、以及已知药物副作用关系，确定各种药物维度下所述待测关系对的第一关联得分；

第二确定模块，用于基于所述目标副作用和已知副作用的副作用信息、以及所述已知药物副作用关系，确定各种副作用维度下所述待测关系对的第二关联得分；

第三确定模块，用于基于所述待测药物、所述已知药物、所述目标副作用和所述已知副作用的网络连接信息、以及所述已知药物副作用关系，确定各种网络连接维度下所述待测关系对的第三关联得分；

预测模块，用于根据所述第一关联得分、所述第二关联得分以及所述第三关联得分，预测所述待测药物与所述目标副作用是否具有潜在关联。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述药物副作用关系预测方法、系统、计算机设备和存储介质，从系统生物学研究思路出发，根据药物信息、副作用信息以及网络连接信息，获得各种不同维度下待测关系对中的待测药物和目标副作用的关联得分，然后通过融合各种不同维度下的关联得分，预测待测药物与目标副作用是否有关联。从而，在药物副作用关系的预测过程中，同时考虑了多种因素的影响以及它们之间的相互作用，可以提高预测准确性。

附图说明

图1为一个实施例中药物副作用关系预测方法的流程示意图；

图2为一个实施例中步骤S104的流程示意图；

图3为一个实施例中步骤S106的流程示意图；

图4为一个实施例中步骤S108的流程示意图；

图5为一个实施例中构建多水平数据融合模型预测药物副作用关系的流程示意图；

图6为一个实施例中药物副作用关系预测系统的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种药物副作用关系预测方法，包括以下步骤S102至步骤S110。

S102，获取待测关系对，待测关系对包含一待测药物和一目标副作用。

待测关系对可以是还未报道或者还未通过临床试验确认的药物-副作用关系对，可以理解为潜在的药物-副作用关系对。其中，待测药物可以是已有药物也可以是新药物，目标副作用具体是已有副作用。

S104，基于待测药物和已知药物的药物信息、以及已知药物副作用关系，确定各种药物维度下待测关系对的第一关联得分。

可以预先建立一个存储数据库，该存储数据库中存储了相应数量的已知药物和已知副作用，并且存储了这些已知药物和已知副作用之间存在的已知药物副作用关系。

药物维度表示通过药物信息表征的维度，具体可以包括但不限于药物分子结构、药物分类学、药物-靶点/信号通路/疾病间的关系等维度。第一关联得分可以理解为药物维度下待测药物和目标副作用有关联的概率，需要说明的是，每种药物维度对应一个第一关联得分，即第一关联得分可以有多个，分别对应不同的药物维度。

S106，基于目标副作用和已知副作用的副作用信息、以及已知药物副作用关系，确定各种副作用维度下待测关系对的第二关联得分。

副作用维度表示通过副作用信息表征的维度，具体可以包括但不限于副作用词汇、引用副作用的蛋白质、副作用共存等维度。第二关联得分可以理解为副作用维度下待测药物和目标副作用有关联的概率，需要说明的是，每种副作用维度对应一个第二关联得分，即第二关联得分可以有多个，分别对应不同的副作用维度。

S108，基于待测药物、已知药物、目标副作用和已知副作用的网络连接信息、以及已知药物副作用关系，确定各种网络连接维度下待测关系对的第三关联得分。

网络连接维度表示通过药物-副作用网络中的节点间连接信息表征的维度，具体可以包括但不限于网络近邻、网络路径、偏好连接等维度。第三关联得分可以理解为网络连接维度下待测药物和目标副作用有关联的概率，需要说明的是，每种网络连接维度对应一个第三关联得分，即第三关联得分可以有多个，分别对应不同的网络连接维度。

S110，根据第一关联得分、第二关联得分以及第三关联得分，预测待测药物与目标副作用是否具有潜在关联。

具体可以通过整合第一关联得分、第二关联得分以及第三关联得分，获得待测药物与目标副作用具有关联的预测概率，若预测概率大于或等于阈值，可认为待测药物与目标副作用具有潜在关联，若预测概率小于阈值，可认为待测药物与目标副作用不具有潜在关联。

上述药物副作用关系预测方法中，从系统生物学研究思路出发，根据药物信息、副作用信息以及网络连接信息，获得各种不同维度下待测关系对中的待测药物和目标副作用的关联得分，然后通过融合各种不同维度下的关联得分，预测待测药物与目标副作用是否有关联。从而，在药物副作用关系的预测过程中，同时考虑了多种因素的影响以及它们之间的相互作用，可以提高预测准确性。

在一个实施例中，如图2所示，基于待测药物和已知药物的药物信息、以及已知药物副作用关系，确定各种药物维度下待测关系对的第一关联得分的步骤，具体可以包括以下步骤S1042至步骤S1046。

S1042，基于待测药物和已知药物的药物信息，从已知药物中确定各种药物维度下待测药物的相似药物。

具体可以从待测药物和已知药物的药物信息中，获得待测药物和已知药物在各种药物维度下的特征信息，然后根据待测药物与各已知药物在各种药物维度下的特征信息的相似性，从已知药物中选取与待测药物在各种药物维度下相似的药物，作为各种药物维度下待测药物的相似药物。

S1044，基于已知药物副作用关系，从各种药物维度下待测药物的相似药物中，分别选取与目标副作用有关联的相似药物，作为各种药物维度下待测药物的关联药物。

对于任一相似药物，若该相似药物与目标副作用的关系对存在于已知药物副作用关系中，认为该相似药物与目标副作用有关联，继而将该相似药物作为关联药物。举例来说，若某一药物维度下待测药物的相似药物有10个，其中与目标副作用有关联的相似药物有3个，则这3个相似药物为该药物维度下待测药物的关联药物。

S1046，根据待测药物与各种药物维度下的关联药物的相似性，确定各种药物维度下待测关系对的第一关联得分。

具体而言，对于任一药物维度，若该药物维度下待测药物的关联药物有N个，可以计算该药物维度下待测药物分别与该N个关联药物的相似性值，将计算得到的N个相似性值的平均值作为该药物维度下待测关系对的第一关联得分。

在一个实施例中，药物信息包括拓展连接性指纹，药物维度包括化学结构维度，基于待测药物与各已知药物的拓展连接性指纹的相似性，选取相似性靠前的相应数量的已知药物，作为化学结构维度下待测药物的相似药物。

具体地，可以先从DrugBank数据库中获取药物的SMILES结构式，SMILES结构式是用ASCII字符串明确描述分子结构的规范，然后可以利用RDkit软件根据SMILES结构式计算药物的拓展连接性指纹(ECFP)，用来表征药物的结构信息，ECFP中的原子环境直径设置为4，即ECFP4指纹。

假设已知药物的数量为X，通过计算待测药物与各已知药物的ECFP4指纹的Tanimoto相似性，可以获得X个相似性值，可以理解，相似性值越大表示相似度越高。将X个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知药物，作为该化学结构维度下待测药物的相似药物。

在一个实施例中，药物信息包括ATC数据，药物维度包括ATC维度，基于待测药物与各已知药物的ATC数据的相似性，选取相似性靠前的相应数量的已知药物，作为ATC维度下待测药物的相似药物。

具体地，可以从DrugBank和STITCH数据库中获取药物的ATC(药物解剖、治疗和化学的分类系统)数据，ATC数据包括以下信息：药物起作用的器官、药物的疗效以及药物的化学表征。

假设已知药物的数量为X，利用Resnik的语义相似性算法计算待测药物与各已知药物的ATC数据的相似性，可以获得X个相似性值，将X个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知药物，作为该ATC维度下待测药物的相似药物。

在一个实施例中，药物信息包括靶点序列，药物维度包括靶点序列维度，基于待测药物与各已知药物的靶点序列的相似性，选取相似性靠前的相应数量的已知药物，作为靶点序列维度下待测药物的相似药物。

具体地，可以从DrugBank、MATADOR和KEGG DRUG数据库中获取药物的靶点信息，从Uniprot数据库中获取靶点蛋白序列。

假设已知药物的数量为X，利用Smith-Waterman局部序列比对算法计算待测药物与各已知药物的靶点蛋白序列的相似性，可以获得X个相似性值，将X个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知药物，作为该靶点序列维度下待测药物的相似药物。

在一个实施例中，药物信息包括靶点蛋白，药物维度包括靶点蛋白维度，基于待测药物与各已知药物的靶点蛋白的相似性，选取相似性靠前的相应数量的已知药物，作为靶点蛋白维度下待测药物的相似药物。

具体地，可以从BioGRID数据库中获取人类蛋白质-蛋白质相互作用(PPI)数据，通过在PPI网络上使用最短路径算法可以计算两药物靶点间的距离，该距离可用于描述两药物靶点蛋白的相似性。具体计算公式可以如下：S(p₁,p₂)＝Ae^-D(p1,p2)，其中，S(p₁,p₂)表示两药物靶点蛋白的相似性，D(p₁,p₂)表示两药物靶点蛋白在PPI网络中的最短路径距离，A设置为0.9e，可以理解，距离越小时相似性值越大。

假设已知药物的数量为X，利用上述计算待测药物与各已知药物的靶点蛋白的相似性，可以获得X个相似性值，将X个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知药物，作为该靶点蛋白维度下待测药物的相似药物。

在一个实施例中，药物信息包括靶点基因本体信息，药物维度包括靶点基因本体维度，基于待测药物与各已知药物的靶点基因本体信息的相似性，选取相似性靠前的相应数量的已知药物，作为靶点基因本体维度下待测药物的相似药物。

具体地，可以从UniProt数据库中获取药物的靶点基因本体(GO)信息，基因本体信息包括生物过程、细胞成分和分子功能信息。

假设已知药物的数量为X，利用GOSemSim软件计算待测药物与各已知药物的靶点基因本体的语义相似性，可以获得X个相似性值，将X个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知药物，作为该靶点基因本体维度下待测药物的相似药物。

在一个实施例中，药物信息包括所治疗的疾病信息，药物维度包括疾病维度，基于待测药物与各已知药物所治疗的疾病信息的相似性，选取相似性靠前的相应数量的已知药物，作为疾病维度下待测药物的相似药物。

具体地，可以从CTD数据库中获取药物所治疗的疾病信息，每种疾病识别代码可以从人类孟德尔在线遗传(OMIM)数据库中获得。疾病间的关系可以通过人类表型本体论(HPO)来刻画。

假设已知药物的数量为X，利用Resnik的语义相似性算法计算待测药物与各已知药物的疾病信息的相似性，可以获得X个相似性值，将X个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知药物，作为该疾病维度下待测药物的相似药物。

在一个实施例中，药物信息包括与药物作用模式相关的通路，药物维度包括通路维度，基于待测药物与各已知药物的与药物作用模式相关的通路的相似性，选取相似性靠前的相应数量的已知药物，作为通路维度下待测药物的相似药物。

具体地，可以从CTD数据库中获取药物的通路知识，为了定义通路术语的相似性，先获取每种药物相关通路家族的列表，然后计算通路组之间的Jaccard评分，用于表征对应的两药物之间的相似度。

假设已知药物的数量为X，利用Jaccard评分获得待测药物与各已知药物的与药物作用模式相关的通路的相似性，可以获得X个相似性值，将X个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知药物，作为该通路维度下待测药物的相似药物。

在一个实施例中，药物信息包括基因表达响应数据，药物维度包括基因表达谱维度，基于待测药物与各已知药物的基因表达响应数据的相似性，选取相似性靠前的相应数量的已知药物，作为基因表达谱维度下待测药物的相似药物。

具体地，可以从CMap数据库中获取药物的基因表达响应数据，利用Pacini开发的DvD软件计算得到500个表达差异最显著的基因(250个上调的基因和250个下调的基因)，组成基因表达谱。

假设已知药物的数量为X，通过计算待测药物与各已知药物的表达差异基因的Tanimoto相似性，可以获得X个相似性值，将X个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知药物，作为该基因表达谱维度下待测药物的相似药物。

在一个实施例中，如图3所示，基于目标副作用和已知副作用的副作用信息、以及已知药物副作用关系，确定各种副作用维度下待测关系对的第二关联得分的步骤，具体可以包括以下步骤S1062至步骤S1066。

S1062，基于目标副作用和已知副作用的副作用信息，从已知副作用中确定各种副作用维度下目标副作用的相似副作用。

具体可以从目标副作用和已知副作用的副作用信息中，获得目标副作用和已知副作用在各种副作用维度下的特征信息，然后根据目标副作用与各已知副作用在各种副作用维度下的特征信息的相似性，从已知副作用中选取与目标副作用在各种副作用维度下相似的副作用，作为各种副作用维度下目标副作用的相似副作用。

S1064，基于已知药物副作用关系，从各种副作用维度下目标副作用的相似副作用中，分别选取与待测药物有关联的相似副作用，作为各种副作用维度下目标副作用的关联副作用。

对于任一相似副作用，若该相似副作用与待测药物的关系对存在于已知药物副作用关系中，认为该相似副作用与待测药物有关联，继而将该相似副作用作为关联副作用。举例来说，若某一副作用维度下目标副作用的相似副作用有10个，其中与待测药物有关联的相似副作用有3个，则这3个相似副作用为该副作用维度下目标副作用的关联副作用。

S1066，根据目标副作用与各种副作用维度下的关联副作用的相似性，确定各种副作用维度下待测关系对的第二关联得分。

具体而言，对于任一副作用维度，若该副作用维度下目标副作用的关联副作用有N个，可以计算该副作用维度下目标副作用分别与该N个关联副作用的相似性值，将计算得到的N个相似性值的平均值作为该副作用维度下待测关系对的第二关联得分。

在一个实施例中，副作用信息包括UMLS数据，副作用维度包括UMLS维度，基于目标副作用与各已知副作用的UMLS数据的相似性，选取相似性靠前的相应数量的已知副作用，作为UMLS维度下目标副作用的相似副作用。

具体地，可以从一体化医学语言系统(UMLS)数据库中三个与副作用相关的子数据库：副作用词库编码标志(COSTART)、世界卫生组织的药物副作用术语集(WHOART)和MedDRA数据库中获取副作用的UMLS数据。

假设已知副作用的数量为Y，通过计算目标副作用与各已知副作用的UMLS数据的语义相似性，可以获得Y个相似性值，将Y个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知副作用，作为该UMLS维度下目标副作用的相似副作用。

在一个实施例中，副作用信息包括MedDRA首选项，副作用维度包括MedDRA维度，基于目标副作用与各已知副作用的MedDRA首选项的相似性，选取相似性靠前的相应数量的已知副作用，作为MedDRA维度下目标副作用的相似副作用。

具体地，可以将副作用词汇映射到MedDRA的首选项水平上，然后基于MedDRA首选项间的关系计算副作用间的相似性。

假设已知副作用的数量为Y，利用Resnik的语义相似性算法计算目标副作用与各已知副作用的MedDRA首选项的语义相似性，可以获得Y个相似性值，将Y个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知副作用，作为该MedDRA维度下目标副作用的相似副作用。

在一个实施例中，副作用信息包括引起副作用的蛋白质，副作用维度包括引起副作用的蛋白质维度，基于目标副作用与各已知副作用的引起副作用的蛋白质的相似性，选取相似性靠前的相应数量的已知副作用，作为引起副作用的蛋白质维度下目标副作用的相似副作用。

具体地，可以获取目标副作用与各已知副作用的引起药物副作用的蛋白质，然后基于Tanimoto相似性计算两副作用的引起药物副作用的蛋白质的相似性。

假设已知副作用的数量为Y，利用Tanimoto相似性计算目标副作用与各已知副作用的引起药物副作用的蛋白质的语义相似性，可以获得Y个相似性值，将Y个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知副作用，作为该引起药物副作用的蛋白质维度下目标副作用的相似副作用。

在一个实施例中，副作用信息包括共存副作用，副作用维度包括共存维度，基于目标副作用与各已知副作用的共存副作用的相似性，选取相似性靠前的相应数量的已知副作用，作为共存维度下目标副作用的相似副作用。

具体地，在药物治疗中可能存在一些副作用共存，例如，90％的引起恶心的药物也会导致呕吐。基于共存副作用的相似性可以反映该情况，对于每个副作用，可以表示为一个向量，向量中每个元素表示与该副作用同时出现在同一药品中的其他副作用的比例，然后利用两个向量之间的余弦值表示两个向量的相似性。

假设已知副作用的数量为Y，利用向量间的余弦值计算目标副作用与各已知副作用的共存副作用的相似性，可以获得Y个相似性值，将Y个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知副作用，作为该共存维度下目标副作用的相似副作用。

在一个实施例中，如图4所示，基于待测药物、已知药物、目标副作用和已知副作用的网络连接信息、以及已知药物副作用关系，确定各种网络连接维度下待测关系对的第三关联得分的步骤，具体可以包括以下步骤S1082至步骤S1086。

S1082，基于待测药物、已知药物、目标副作用和已知副作用的网络连接信息，确定各种网络连接维度下待测药物的相似药物和目标副作用的相似副作用，以及待测药物与目标副作用的偏好连接信息。

具体可以从待测药物、已知药物、目标副作用和已知副作用的网络连接信息中，获得待测药物、已知药物、目标副作用和已知副作用在各种网络连接维度下的特征信息，根据待测药物与各已知药物在各种网络连接维度下的特征信息的相似性，从已知药物中选取与待测药物在各种网络连接维度下相似的药物，作为各种网络连接维度下待测药物的相似药物。根据目标副作用与各已知副作用在各种网络连接维度下的特征信息的相似性，从已知副作用中选取与目标副作用在各种网络连接维度下相似的副作用，作为各种网络连接维度下目标副作用的相似副作用。

S1084，基于已知药物副作用关系，从各种网络连接维度下待测药物的相似药物中，分别选取与目标副作用有关联的相似药物，作为各种网络连接维度下待测药物的关联药物，从各种网络连接维度下目标副作用的相似副作用中，分别选取与待测药物有关联的相似副作用，作为各种网络连接维度下目标副作用的关联副作用。

举例来说，若某一网络连接维度下待测药物的相似药物有10个，其中与目标副作用有关联的相似药物有3个，则这3个相似药物为该网络连接维度下待测药物的关联药物。若某一网络连接维度下目标副作用的相似副作用有10个，其中与待测药物有关联的相似副作用有3个，则这3个相似副作用为该网络连接维度下目标副作用的关联副作用。

S1086，根据待测药物与各种网络连接维度下的关联药物的相似性、目标副作用与各种网络连接维度下的关联副作用的相似性、以及偏好连接信息，确定各种网络连接特征维度下待测关系对的第三关联得分。

在一个实施例中，网络连接信息包括网络邻接数据，网络连接维度包括网络近邻维度。基于待测药物和各已知药物的网络邻接数据的相似性，选取相似性靠前的相应数量的已知药物，作为网络近邻维度下待测药物的相似药物。基于目标副作用和各已知副作用的网络邻接数据的相似性，选取相似性靠前的相应数量的已知副作用，作为网络近邻维度下目标副作用的相似副作用。

药物的网络邻接数据具体可以是药物在药物-副作用网络中的近邻(副作用)，副作用的网络邻接数据具体可以是副作用在药物-副作用网络中的近邻(药物)。在药物-副作用网络中，如果两个药物有相似的近邻(副作用)，则可以认为两个药物相似，如果两个副作用有相似的近邻(药物)，则可以认为两个副作用相似。从而，药物间的相似性可以通过计算药物节点的邻接列表的Tanimoto相似性来获得，副作用间的相似性可以通过计算副作用节点的邻接列表的Tanimoto相似性来获得。

假设已知药物的数量为X，利用Tanimoto相似性算法计算待测药物与各已知药物的网络邻接数据的相似性，可以获得X个相似性值，将X个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知药物，作为该网络近邻维度下待测药物的相似药物。

假设已知副作用的数量为Y，利用Tanimoto相似性算法计算目标副作用与各已知副作用的网络邻接数据的相似性，可以获得Y个相似性值，将Y个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知副作用，作为该网络邻接维度下目标副作用的相似副作用。

在一个实施例中，网络连接信息包括网络邻接数据，网络连接维度还包括SimRank维度。基于待测药物和各已知药物的网络邻接数据的相似性，选取相似性靠前的相应数量的已知药物，作为网络SimRank维度下待测药物的相似药物。基于目标副作用和各已知副作用的网络邻接数据的相似性，选取相似性靠前的相应数量的已知副作用，作为网络SimRank维度下目标副作用的相似副作用。

可以利用SimRank算法计算药物-副作用网络中节点间基于结构内容的相似性，对于由药物和副作用构成的二部图网络，具体可以利用下列公式(1)来计算药物-药物或者副作用-副作用间的相似性：

其中，a、b同为药物节点或者同为副作用节点，N(a)和N(b)分别为节点a和节点b在药物-副作用网络中的近邻，C设置为0.8。

假设已知药物的数量为X，利用上述公式(1)计算待测药物与各已知药物的网络邻接数据的相似性，可以获得X个相似性值，将X个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知药物，作为该SimRank维度下待测药物的相似药物。

假设已知副作用的数量为Y，利用上述公式(1)计算目标副作用与各已知副作用的网络邻接数据的相似性，可以获得Y个相似性值，将Y个相似性值由大到小进行排序，选取序号靠前的n个相似性值对应的已知副作用，作为该SimRank维度下目标副作用的相似副作用。

在一个实施例中，网络连接信息包括网络路径长度，网络连接维度包括网络路径维度。基于待测药物和各已知药物的网络路径长度，选取网络路径长度较短的相应数量的已知药物，作为网络路径维度下待测药物的相似药物。基于目标副作用和各已知副作用的网络路径长度，选取网络路径长度较短的相应数量的已知副作用，作为网络路径维度下目标副作用的相似副作用。

在药物-副作用网络中，药物和副作用间的路径距离能够影响到这个药物和这个副作用间链接的形成，利用Katz指标来反映网络中路径的信息。Katz指标对存在于药物-副作用关系对间的所有网络路径进行了求和，计算公式(2)如下：

其中，x、y同为药物节点或者同为副作用节点，

为从节点x到节点y间的所有路径长度为l的路径集合，β设置为0.0001。

假设已知药物的数量为X，利用上述公式(2)计算待测药物与各已知药物的网络路径长度，可以获得X个网络路径长度，将X个网络路径长度由短到长进行排序，选取序号靠前的n个网络路径长度对应的已知药物，作为该网络路径维度下待测药物的相似药物。

假设已知副作用的数量为Y，利用上述公式(2)计算目标副作用与各已知副作用的网络路径长度，可以获得Y个网络路径长度，将Y个网络路径长度由短到长进行排序，选取序号靠前的n个相似性值对应的已知副作用，作为该网络连接维度下目标副作用的相似副作用。

在一个实施例中，网络连接信息包括节点度，基于待测药物和目标副作用的节点度乘积，作为待测药物与目标副作用的偏好连接信息。

偏好连接信息具体可以指偏好连接得分，偏好连接得分基于“富人变得会更富”的假设而发展，在药物-副作用网络中，一个由节点1和节点2形成的链接的概率正比于节点1和节点2的节点度的乘积，因此采用药物和副作用节点度的乘积来作为这个关系对的偏好连接得分。

前述实施例中，对8种药物-药物相似性度量特征：药物化学结构、药物ATC、药物靶点序列、药物靶点蛋白、药物靶点基因本体、药物所治疗的疾病、与药物作用模式相关的通路、药物基因表达谱，4种副作用-副作用相似性度量特征：副作用UMLS、副作用MedDRA、引起副作用的蛋白质、共存副作用，7种药物-副作用网络连接相似性度量特征：药物网络近邻、副作用网络近邻、药物网络连接、副作用网络连接、偏好连接，共19种相似性度量特征进行了说明。

基于各种相似性测量，根据协同过滤推荐系统生成不同尺度下的分类特征，独立地评估每个证据的预测性能。使用协同过滤推荐系统来生成分类特征的基本思想是：如果一个药物与一个副作用有关系，那么相似于该药物的其它药物也很可能和这个副作用有关系；同样的，如果一个副作用与一个药物有关系，那么相似于该副作用的其它副作用也很可能和这个药物有关系。

具体而言，对于一个药物-副作用关系对(d_i-a_j)，药物d_i和副作用a_j间的关系可由以下公式(3)确定：

其中，Score(d_i-a_j)表示关系对(d_i-a_j)的关联得分，s(d_i,d_m)表示药物d_i与d_m间的相似性值，N(i)表示最相似于药物d_i的k个药物的集合。如果药物d_m和副作用a_j有关系，t_m,j＝1，否则t_m,j＝0。此公式同样适用于副作用。上述19种相似性度量特征中，除了偏好连接得分，其它18种相似性中的每种相似性都可以基于此公式生成一个关联得分，总共获得19种分类特征。

在一个实施例中，如图5所示，提供一种构建多水平数据融合模型预测药物副作用关系的流程示意图。通过多水平的药物信息、副作用信息、网络连接信息获得待测关系对的多个相似性度量特征，基于相似性度量特征的相似性获得多个关联得分(即分类特征)，将多个关联得分输入到分类模型中，分类模型输出用来判断待测药物与目标副作用是否具有潜在关联的预测概率。

以下对模型的构建过程进行说明。在一个实施例中，从公共网络资源上和湘雅医院药剂科收集与本研究相关的各种药物和副作用数据，标准的药物-副作用相互作用数据来源于SIDER数据库，SIDER数据库包括880个药物，1382个副作用以及它们之间的61102个药物-副作用相互关系。SIDER数据库中的副作用词汇首先被映射到调控活性分类学医学辞典(MedDRA)上，大约1％的副作用词汇不能在MedDRA首选项中找到，排除这些副作用及其对应的关系。有些药物和副作用在SIDER数据库中变化很大，例如有些副作用几乎出现在所有药物中，而另一些则牵连着很少药物，过滤掉那些多于药物-副作用关系中5％的和少于2个关系的药物和副作用。最后的药物-副作用网络包括746个药物，817个副作用(ADR，adversedrug reaction)和它们之间的24803个关系对。

基于上述数据(746个药物、817个副作用、24803个药物-副作用关系对)构建用于建模的正样本集和负样本集。将上述24803个药物-副作用关系对作为正样本集，负样本集通过以下步骤生成：拆分正样本集中的24803个药物-副作用关系对成为746个药物和817个副作用，随机地组合746个药物和817个副作用形成24803个新的药物-副作用关系对，作为负样本集。需要说明的是，新生成的药物-副作用关系对不在正样本集中，可以生成10个类似负样本集用以检查模型稳定性。

对于样本集中的任一药物-副作用关系对，都可以采用前述实施例方法计算获得19个分类特征，整合多尺度特征信息发展多尺度证据融合随机森林模型，基于构建的训练集采用机器学习算法进行建模研究。模型的性能评估指标采用ROC曲线，性能评估包括内部交互检验和外部独立测试集验证。对于模型的内部验证，采取三种方式分别进行性能评估，三种方式都是基于交叉验证的方法。交叉验证指在给定的建模样本中，拿出大部分样本进行建模型，留小部分样本用刚建立的模型进行预测，并求这小部分样本的预测性能。这个过程一直进行，直到所有的样本都被预测了一次而且仅被预测一次。把每个样本的预测结果进行合并，该预测性能即为模型的交叉验证性能。三种方法选择保留的对象不同：(1)药物-副作用相互作用关系对，即作为验证的每个样本为单独的药物-副作用相互作用关系对；(2)药物分子，即作为验证的每个样本为每个药物；(3)副作用，即作为验证的每个样本为每个副作用。独立测试集来源于两方面：(1)2012年版本SIDER数据库中新增加的药物-副作用关系对；(2)OFFSIDES数据库中存在的药物-副作用关系对。

实际用于分析和评估的药物及其副作用，来自于湘雅医院附三医院药剂科提供的一些潜在的副作用进行预测和评估，期望帮助药剂科对一些怀疑的药物副作用进行监控，对临床医生的一些疑问给予方法学上的分析和证实。需要说明的是，模型在应用时，可以用于预测746个药物样本与817个副作用样本之间的未被确认的关联，也可以用于预测746个药物样本之外的新药物与817个副作用样本之间的关联。

在实验应用上，采用随机森林(Random forest)算法来证明其实用性。该实验采用前文所述的药物-药物相似性度量特征、副作用-副作用相似性度量特征以及药物-副作用网络连接相似性度量特征，使用协同过滤算法为每个相似性度量生成一个分类特征，每个分类特征都代表了一种证据，使得能够推断出新的药物副作用关联。具体构建了20个分类特征，包括8个与药物相关的特征，5个与副作用相关的特征，7个与网络相关的特征。8个与药物相关的特征分别对应：化学结构(ECFP)、ATC、靶点序列(ProSeq)、靶点蛋白(PPI)、靶点基因本体(ProGO)、疾病(Disease)、通路(Pathway)、基因表达谱(CMap)，5个与副作用相关的特征分别对应：UMLSLin、UMLSJCN、MedDRA、副作用共存(Coexist)、引起副作用的蛋白质(APro)，7个与网络相关的特征分别对应：药物网络近邻(DNN)、副作用网络近邻(ANN)、药物SimRank(DSimRank)、副作用SimRank(ASimRank)、药物网络路径(DKatz)、副作用网络路径(AKatz)、偏好链接(PAS)。

系统层面的知识，如分子、细胞、个体和网络层面，代表了产生一般假设的多种证据特征。先通过十折交叉验证法分别检查每个特征对分类性能的贡献。十折交叉验证是常用的测试方法，将数据集分成十份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验，每次试验都会得出相应的预测结果，10次的合并结果用于对算法精度的估计。性能评估的指标是ROC(接收者操作特征)曲线下面积AUC，根据随机森林模型的预测结果，把阈值从0变到最大，随着阈值的增大，预测正样例数越来越少，每次计算出TPR(真实值是正例，且预测为正例的比例)和FPR(真实值为负例，而预测为正例的比例)，分别以它们为横、纵坐标作图，就得到了ROC曲线，ROC曲线下面积即为AUC值。结果表明，每个证据特征都有适度的预测能力，接收工作特征曲线下的面积(AUC)的范围为0.57-0.88。基于ANN和DNN的预测能力最佳(ANN：0.88，DNN：0.87)，其次是AKatz和DKatz(AKatz：0.82，DKatz：0.78)，考虑了药物-副作用网络中的路径长度。基于节点属性的特征中，药物相关特征和副作用相关特征中具有最佳预测能力的分别为ATC和Coexist，其AUC分别为0.77和0.84。

然后对多证据特征的组合是否提高了预测精度进行研究，使用10倍交叉验证训练包含所有20个特征的随机森(RF)分类器，生长了1000棵分类树来构建RF分类器。为避免简单的预测案例，保留了与90％的药物或副作用有关的关联，而不是90％的药物-副作用关联，剩下的10％作为验证集，用于验证模型的性能。基于药物的模型的AUC为0.976±0.01，基于副作用的模型的AUC为0.976±0.01，RF模型正确地分类了91.6％的相关性，敏感性为93.4％，特异性为89.8％。由此可见，没有单一特征可以得到这样高的AUC(单一特征可以得到的最高AUC为0.88，从特征组合中去除每个特征对整体AUC有边际影响(<0.03)，不同数据源在预测中相互补充。由于各特征的覆盖不完全，不同特征之间的重叠较低，因此与单一特征相比，通过整合这些特征，可以提高药物-副作用相互作用的覆盖范围，同时这也证明了多尺度系统药理学模型具有良好的药物-副作用关系预测性能。

为了预测新的药物-副作用关系对，系统地扫描了整个药物-副作用关联，根据预测概率，发现药物-副作用相关性显著富集，这些研究性能是基于模型预测阈值0.5完成的。为了进一步评估药物-副作用关系，使用替代的评分阈值以获得可能性更高，假阳性率尽量低的预测药物-副作用关系对。以错误发现率(false discovery rate，FDR)为代价来预测一个高可能性的药物-副作用对子集，从P-R(precision-recall)曲线估算FDR。精确率(precision)表示预测为正例的样本中，有多少比例是预测对的，召回率(recall)表示真实为正例的样本中，有多少比例被预测对了。设置预测的FDR约为1％(即精度约为99.0％)，由P-R曲线得出，RF预测概率阈值为0.95，在此可以获得30％的召回率。换句话说，在这个截止点(RF>0.95)，捕获了训练集中30％的药物-副作用关系。基于这个阈值，预测总筛查集中的药物-副作用关系为18,629个，剔除训练集中出现的药物-副作用关系后，预测出来的新的药物-副作用关联为2,536个，其中约2510个是真正的药物-副作用关联，这些关联占所有关联的0.41％。进一步分析发现，有373对药物-副作用的预测概率在0.99以上，说明潜在的药物-副作用候选对较多，可能性较高。

此外，在2536个预测关联中，有70.5％在两个数据库(DER和OFFSIDES)中成功验证。该针对性调查显示，预测关联在SIDER数据库中获得了11.24％的通过率，有63.52％之前在OFFSIDES数据库中被报道为潜在的关联，两个数据库共证实了73种药物的108种相关性，预测概率在0.95到1.00之间，一定程度地证实了模型的预测能力。

对预测的新的药物-副作用关联进行分析，下表1列出了24个预测的与6种药物相关的药物-副作用关联及相应的评分。

表1

例如，对于具有镇痛解热特性的典型非甾体抗炎药布洛芬Ibuprofen，AUC为0.966±0.016，预测精度为0.946±0.024，预测了30个新的药物-副作用关联，其中有15、2和6个分别被OFFSIDES、SIDER和这个两个数据库证实了，此外有6个还未被确认，这意味着它们可能是新的潜在的关联。再例如，对于合成激素戈舍瑞林Goserelin，AUC为0.966±0.016，预测精度为0.896±0.025，预测了15个新的药物-副作用关联，所有关联都被证实，其中5个同时被两个数据库确认。总之，前述实施例模型预测的药物-副作用关联与报道的药物-副作用关联有70.5％的重叠，表明本方法可以有效地预测新的潜在的药物-副作用关联，为药物临床试验带来新的启发。

大规模的药物-副作用关系的预测并非一件容易的事情，其主要原因是药物副作用的发生牵连着非常复杂的作用机制，涉及到多种影响因素以及多种因素间的相互作用。单纯用还原论法来研究药物副作用问题，找出单个影响副作用的因素不可能实现大规模的药物副作用的评估，如此构建的预测模型是有偏的，有比较窄的模型应用域，因此不可能进行药物副作用的大规模的预测分析。本发明从不同的水平和尺度上了解更多的副作用影响因素，并将其整合在一起构建系统的模型，即用系统生物学的方法论来进行研究，基于系统生物学思想进行药物副作用研究的基本原理是：药物副作用是一个复杂的药物作用机制系统，包括不同的影响因素以及它们之间的相互作用，从而真正实现大规模药物副作用的预测。本发明的研究成果将会使药物副作用的预测评估朝着更加准确、快速的方向发展，从而更好地服务药物研发和临床医学研究，促进系统生物学在生物科学各领域的更深刻的应用，提出的一系列方法也将为实现药物副作用数据的准确评估以及其它类似数据类型的研究奠定坚实的基础。

应该理解的是，虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种药物副作用关系预测系统600，包括：获取模块610、第一确定模块620、第二确定模块630、第三确定模块640和预测模块640，其中：

获取模块610，用于获取待测关系对，待测关系对包含一待测药物和一目标副作用。

第一确定模块620，用于基于待测药物和已知药物的药物信息、以及已知药物副作用关系，确定各种药物维度下待测关系对的第一关联得分。

第二确定模块630，用于基于目标副作用和已知副作用的副作用信息、以及已知药物副作用关系，确定各种副作用维度下待测关系对的第二关联得分。

第三确定模块640，用于基于待测药物、已知药物、目标副作用和已知副作用的网络连接信息、以及已知药物副作用关系，确定各种网络连接维度下待测关系对的第三关联得分。

预测模块650，用于根据第一关联得分、第二关联得分以及第三关联得分，预测待测药物与目标副作用是否具有潜在关联。

在一个实施例中，第一确定模块620包括：相似药物确定单元、关联药物确定单元和第一打分单元。相似药物确定单元，用于基于待测药物和已知药物的药物信息，从已知药物中确定各种药物维度下待测药物的相似药物。关联药物确定单元，用于基于已知药物副作用关系，从各种药物维度下待测药物的相似药物中，分别选取与目标副作用有关联的相似药物，作为各种药物维度下待测药物的关联药物。第一打分单元，用于根据待测药物与各种药物维度下的关联药物的相似性，确定各种药物维度下待测关系对的第一关联得分。

在一个实施例中，第二确定模块630包括：相似副作用确定单元、关联副作用确定单元和第二打分单元。相似副作用确定单元，用于基于目标副作用和已知副作用的副作用信息，从已知副作用中确定各种副作用维度下目标副作用的相似副作用。关联副作用确定单元，用于基于已知药物副作用关系，从各种副作用维度下目标副作用的相似副作用中，分别选取与待测药物有关联的相似副作用，作为各种副作用维度下目标副作用的关联副作用。第二打分单元，用于根据目标副作用与各种副作用维度下的关联副作用的相似性，确定各种副作用维度下待测关系对的第二关联得分。

在一个实施例中，第三确定模块640包括：相似信息确定单元、关联信息确定单元和第三打分单元。相似信息确定单元，用于基于待测药物、已知药物、目标副作用和已知副作用的网络连接信息，确定各种网络连接维度下待测药物的相似药物和目标副作用的相似副作用，以及待测药物与目标副作用的偏好连接信息。关联信息确定单元，用于基于已知药物副作用关系，从各种网络连接维度下待测药物的相似药物中，分别选取与目标副作用有关联的相似药物，作为各种网络连接维度下待测药物的关联药物，从各种网络连接维度下目标副作用的相似副作用中，分别选取与待测药物有关联的相似副作用，作为各种网络连接维度下目标副作用的关联副作用。第三打分单元，用于根据待测药物与各种网络连接维度下的关联药物的相似性、目标副作用与各种网络连接维度下的关联副作用的相似性、以及偏好连接信息，确定各种网络连接特征维度下待测关系对的第三关联得分

在一个实施例中，相似药物确定单元具体用于：基于待测药物与各已知药物的拓展连接性指纹的相似性，选取相似性靠前的相应数量的已知药物，作为化学结构维度下待测药物的相似药物。

在一个实施例中，相似药物确定单元具体用于：基于待测药物与各已知药物的ATC数据的相似性，选取相似性靠前的相应数量的已知药物，作为ATC维度下待测药物的相似药物。

在一个实施例中，相似药物确定单元具体用于：基于待测药物与各已知药物的靶点序列的相似性，选取相似性靠前的相应数量的已知药物，作为靶点序列维度下待测药物的相似药物。

在一个实施例中，相似药物确定单元具体用于：基于待测药物与各已知药物的靶点蛋白的相似性，选取相似性靠前的相应数量的已知药物，作为靶点蛋白维度下待测药物的相似药物。

在一个实施例中，相似药物确定单元具体用于：基于待测药物与各已知药物的靶点基因本体信息的相似性，选取相似性靠前的相应数量的已知药物，作为靶点基因本体维度下待测药物的相似药物。

在一个实施例中，相似药物确定单元具体用于：基于待测药物与各已知药物所治疗的疾病信息的相似性，选取相似性靠前的相应数量的已知药物，作为疾病维度下待测药物的相似药物。

在一个实施例中，相似药物确定单元具体用于：基于待测药物与各已知药物的与药物作用模式相关的通路的相似性，选取相似性靠前的相应数量的已知药物，作为通路维度下待测药物的相似药物。

在一个实施例中，相似药物确定单元具体用于：基于待测药物与各已知药物的基因表达响应数据的相似性，选取相似性靠前的相应数量的已知药物，作为基因表达谱维度下待测药物的相似药物。

在一个实施例中，相似副作用确定单元具体用于：基于目标副作用与各已知副作用的UMLS数据的相似性，选取相似性靠前的相应数量的已知副作用，作为UMLS维度下目标副作用的相似副作用。

在一个实施例中，相似副作用确定单元具体用于：基于目标副作用与各已知副作用的MedDRA首选项的相似性，选取相似性靠前的相应数量的已知副作用，作为MedDRA维度下目标副作用的相似副作用。

在一个实施例中，相似副作用确定单元具体用于：基于目标副作用与各已知副作用的引起副作用的蛋白质的相似性，选取相似性靠前的相应数量的已知副作用，作为引起副作用的蛋白质维度下目标副作用的相似副作用。

在一个实施例中，相似副作用确定单元具体用于：基于目标副作用与各已知副作用的共存副作用的相似性，选取相似性靠前的相应数量的已知副作用，作为共存维度下目标副作用的相似副作用。

在一个实施例中，相似信息确定单元具体用于：基于待测药物和各已知药物的网络邻接数据的相似性，选取相似性靠前的相应数量的已知药物，作为网络近邻维度下待测药物的相似药物。

在一个实施例中，相似信息确定单元具体用于：基于目标副作用和各已知副作用的网络邻接数据的相似性，选取相似性靠前的相应数量的已知副作用，作为网络近邻维度下目标副作用的相似副作用。

在一个实施例中，相似信息确定单元具体用于：基于待测药物和各已知药物的网络路径长度，选取网络路径长度较短的相应数量的已知药物，作为网络路径维度下待测药物的相似药物。

在一个实施例中，相似信息确定单元具体用于：基于目标副作用和各已知副作用的网络路径长度，选取网络路径长度较短的相应数量的已知副作用，作为网络路径维度下目标副作用的相似副作用。

在一个实施例中，相似信息确定单元具体用于：基于待测药物与目标副作用的节点度乘积，作为待测药物与目标副作用的偏好连接信息。

关于药物副作用关系预测系统的具体限定可以参见上文中对于药物副作用关系预测方法的限定，在此不再赘述。上述药物副作用关系预测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种药物副作用关系预测方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要理解的是，上述实施例中的术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种药物副作用关系预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，基于所述待测药物和已知药物的药物信息、以及已知药物副作用关系，确定各种药物维度下所述待测关系对的第一关联得分，包括：

基于所述待测药物和已知药物的药物信息，从所述已知药物中确定各种药物维度下所述待测药物的相似药物；

基于所述已知药物副作用关系，从各种药物维度下所述待测药物的相似药物中，分别选取与所述目标副作用有关联的相似药物，作为各种药物维度下所述待测药物的关联药物；

根据所述待测药物与各种药物维度下的关联药物的相似性，确定各种药物维度下所述待测关系对的第一关联得分。

3.根据权利要求1所述的方法，其特征在于，基于所述目标副作用和已知副作用的副作用信息、以及所述已知药物副作用关系，确定各种副作用维度下所述待测关系对的第二关联得分，包括：

基于所述目标副作用和所述已知副作用的副作用信息，从所述已知副作用中确定各种副作用维度下所述目标副作用的相似副作用；

基于所述已知药物副作用关系，从各种副作用维度下所述目标副作用的相似副作用中，分别选取与所述待测药物有关联的相似副作用，作为各种副作用维度下所述目标副作用的关联副作用；

根据所述目标副作用与各种副作用维度下的关联副作用的相似性，确定各种副作用维度下所述待测关系对的第二关联得分。

4.根据权利要求1所述的方法，其特征在于，基于所述待测药物、所述已知药物、所述目标副作用和所述已知副作用的网络连接信息、以及所述已知药物副作用关系，确定各种网络连接维度下所述待测关系对的第三关联得分，包括：

基于所述待测药物、所述已知药物、所述目标副作用和所述已知副作用的网络连接信息，确定各种网络连接维度下所述待测药物的相似药物和所述目标副作用的相似副作用，以及所述待测药物与所述目标副作用的偏好连接信息；

基于所述已知药物副作用关系，从各种网络连接维度下所述待测药物的相似药物中，分别选取与所述目标副作用有关联的相似药物，作为各种网络连接维度下所述待测药物的关联药物，从各种网络连接维度下所述目标副作用的相似副作用中，分别选取与所述待测药物有关联的相似副作用，作为各种网络连接维度下所述目标副作用的关联副作用；

根据所述待测药物与各种网络连接维度下的关联药物的相似性、所述目标副作用与各种网络连接维度下的关联副作用的相似性、以及所述偏好连接信息，确定各种网络连接特征维度下所述待测关系对的第三关联得分。

5.根据权利要求2所述的方法，其特征在于，基于所述待测药物和已知药物的药物信息，从所述已知药物中确定各种药物维度下所述待测药物的相似药物，包括下述各项中的至少一项：

第一项：

基于所述待测药物与各已知药物的拓展连接性指纹的相似性，选取相似性靠前的相应数量的已知药物，作为化学结构维度下所述待测药物的相似药物；所述药物信息包括所述拓展连接性指纹，所述药物维度包括所述化学结构维度；

第二项：

基于所述待测药物与各已知药物的ATC数据的相似性，选取相似性靠前的相应数量的已知药物，作为ATC维度下所述待测药物的相似药物；所述药物信息包括所述ATC数据，所述药物维度包括所述ATC维度；

第三项：

基于所述待测药物与各已知药物的靶点序列的相似性，选取相似性靠前的相应数量的已知药物，作为靶点序列维度下所述待测药物的相似药物；所述药物信息包括所述靶点序列，所述药物维度包括所述靶点序列维度；

第四项：

基于所述待测药物与各已知药物的靶点蛋白的相似性，选取相似性靠前的相应数量的已知药物，作为靶点蛋白维度下所述待测药物的相似药物；所述药物信息包括所述靶点蛋白，所述药物维度包括所述靶点蛋白维度；

第五项：

基于所述待测药物与各已知药物的靶点基因本体信息的相似性，选取相似性靠前的相应数量的已知药物，作为靶点基因本体维度下所述待测药物的相似药物；所述药物信息包括所述靶点基因本体信息，所述药物维度包括所述靶点基因本体维度；

第六项：

基于所述待测药物与各已知药物所治疗的疾病信息的相似性，选取相似性靠前的相应数量的已知药物，作为疾病维度下所述待测药物的相似药物；所述药物信息包括所述所治疗的疾病信息，所述药物维度包括所述疾病维度；

第七项：

基于所述待测药物与各已知药物的与药物作用模式相关的通路的相似性，选取相似性靠前的相应数量的已知药物，作为通路维度下所述待测药物的相似药物；所述药物信息包括所述与药物作用模式相关的通路，所述药物维度包括所述通路维度；

第八项：

基于所述待测药物与各已知药物的基因表达响应数据的相似性，选取相似性靠前的相应数量的已知药物，作为基因表达谱维度下所述待测药物的相似药物；所述药物信息包括所述基因表达响应数据，所述药物维度包括所述基因表达谱维度。

6.根据权利要求3所述的方法，其特征在于，基于所述目标副作用和所述已知副作用的副作用信息，从所述已知副作用中确定各种副作用维度下所述目标副作用的相似副作用，包括下述各项中的至少一项：

第一项：

基于所述目标副作用与各已知副作用的UMLS数据的相似性，选取相似性靠前的相应数量的已知副作用，作为UMLS维度下所述目标副作用的相似副作用；所述副作用信息包括所述UMLS数据，所述副作用维度包括所述ULMS维度；

第二项：

基于所述目标副作用与各已知副作用的MedDRA首选项的相似性，选取相似性靠前的相应数量的已知副作用，作为MedDRA维度下所述目标副作用的相似副作用；所述副作用信息包括所述MedDRA首选项，所述副作用维度包括所述MedDRA维度；

第三项：

基于所述目标副作用与各已知副作用的引起副作用的蛋白质的相似性，选取相似性靠前的相应数量的已知副作用，作为引起副作用的蛋白质维度下所述目标副作用的相似副作用；所述副作用信息包括所述引起副作用的蛋白质，所述副作用维度包括所述引起副作用的蛋白质维度；

第四项：

基于所述目标副作用与各已知副作用的共存副作用的相似性，选取相似性靠前的相应数量的已知副作用，作为共存维度下所述目标副作用的相似副作用；所述副作用信息包括所述共存副作用，所述副作用维度包括所述共存维度。

7.根据权利要求4所述的方法，其特征在于，基于所述待测药物、所述已知药物、所述目标副作用和所述已知副作用的网络连接信息，确定各种网络连接维度下所述待测药物的相似药物和所述目标副作用的相似副作用，以及所述待测药物与所述目标副作用的偏好连接信息，包括下述各项中的至少一项：

第一项：

基于所述待测药物和各所述已知药物的网络邻接数据的相似性，选取相似性靠前的相应数量的已知药物，作为网络近邻维度下所述待测药物的相似药物；所述网络连接信息包括所述网络邻接数据，所述网络连接维度包括所述网络近邻维度；

第二项：

基于所述目标副作用和各所述已知副作用的网络邻接数据的相似性，选取相似性靠前的相应数量的已知副作用，作为网络近邻维度下所述目标副作用的相似副作用；所述网络连接信息包括所述网络邻接数据，所述网络连接维度包括所述网络近邻维度；

第三项：

基于所述待测药物和各所述已知药物的网络路径长度，选取网络路径长度较短的相应数量的已知药物，作为网络路径维度下所述待测药物的相似药物；所述网络连接信息包括所述网络路径长度，所述网络连接维度包括所述网络路径维度；

第四项：

基于所述目标副作用和各所述已知副作用的网络路径长度，选取网络路径长度较短的相应数量的已知副作用，作为网络路径维度下所述目标副作用的相似副作用；所述网络连接信息包括所述网络路径长度，所述网络连接维度包括所述网络路径维度；

第五项：

基于所述待测药物与所述目标副作用的节点度乘积，作为所述待测药物与所述目标副作用的偏好连接信息；所述网络连接信息包括所述节点度。

8.一种药物副作用关系预测系统，其特征在于，所述系统包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。