CN110246550B - 基于药物相似性网络数据的药物组合预测方法 - Google Patents

基于药物相似性网络数据的药物组合预测方法 Download PDF

Info

Publication number
CN110246550B
CN110246550B CN201910507279.5A CN201910507279A CN110246550B CN 110246550 B CN110246550 B CN 110246550B CN 201910507279 A CN201910507279 A CN 201910507279A CN 110246550 B CN110246550 B CN 110246550B
Authority
CN
China
Prior art keywords
drug
network
similarity
combination
weight distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910507279.5A
Other languages
English (en)
Other versions
CN110246550A (zh
Inventor
鱼亮
夏明飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910507279.5A priority Critical patent/CN110246550B/zh
Publication of CN110246550A publication Critical patent/CN110246550A/zh
Application granted granted Critical
Publication of CN110246550B publication Critical patent/CN110246550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Physics & Mathematics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于药物相似性网络的药物组合预测算法,主要解决现有技术对药物组合预测结果不准确的问题。其方案是:从药物数据库中下载数据,构建药物的相似性网络;从药物组合数据库中下载数据;基于药物组合数据和药物相似性网络,得到网络的重要性分数;使用有偏随机游走算法,得到多个网络的随机游走路径的总集合,并对随机游走路径的总集合进行训练,得到药物节点特征向量;使用随机森林模型训练药物组合数据和药物节点特征向量,得到药物组合预测模型;将药物对数据输入到药物组合预测模型,得到药物对得分,将得分大于0.5的药物对视为协同药物组合。本发明提高了药物组合预测准确率,可用于预测协同的药物组合候选。

Description

基于药物相似性网络数据的药物组合预测方法
技术领域
本发明属于生物信息学技术领域,特别涉及一种药物组合预测方法,可用于为药物组合实验提供候选的药物组合参考。
背景技术
药物组合治疗是指疾病患者使用两种或者两种以上的药物同时进行治疗。根据药物组合治疗的效果可以将药物组合治疗的关系分为三类:第一类,同时使用两种药物在很少的剂量时可以达到单种药物高剂量时的效果,这样的药物组合关系称之为协同。第二类,两种药物同时服用导致了很强的副作用或者得到的治疗效果少于服用单种药物,这样的药物组合关系称之为拮抗。第三类,两种药物共同服用和单独服用两种药物效果相近,称之为累加。药物组合预测主要研究目标是找到潜在的协同的药物组合。
药物组合是治疗复杂疾病的重要手段。复杂疾病的致病机理复杂,通常同时由多条疾病通路所引起。如果只使用一种药物进行治疗,只能阻断部分的疾病通路,剩余的疾病通路仍然可能导致疾病,但是协同的药物组合可以同时影响多条疾病通路,从而达到更好的复杂疾病治疗效果。
药物组合的效果需要生物实验的方式进行验证。由于药物数众多,其组合方式多样,通过生物实验方法找寻协同的药物组合需要花费的时间和金钱巨大,并且对于药物协同的机理目前仍然不清楚。因此迫切需要一种计算的方法来找到潜在的协同药物组合,有助于减少药物组合实验的范围。
根据不同的理论假设与数据,目前药物组合预测方法主要分为以下四大类:
一.基于基因表达数据的药物组合预测方法。
随着测序技术的发展,大大加快了探索人类基因组秘密的速度。测序产生的基因表达数据的增加,使得从基因组学数据层面研究药物组合成为了可能。此类方法的主要流程是:首先对来自DREAM数据库中14种药物作用于癌症细胞系的基因表达值数据进行处理,得到药物作用的癌症细胞系每个基因的差异表达值,设定阈值t,大于阈值t的基因得分为1,小于阈值的基因得分为-1,药物组合的每一个基因得分等于两个药物的该基因的得分乘积,两个药物的组合分数等于所有的基因得分之和。得分越大,则认为这两个药物形成的药物组合治疗效果越可能协同。此类方法的优点是从基因层面进行药物组合研究,缺点是没有考虑到生物分子之间的相互作用关系等,结果的准确率有待提升。
二.基于蛋白质相互作用网络的药物组合预测方法。
药物分子作用于蛋白质上才能发挥其治疗效果,蛋白质相互作用网络体现了蛋白质之间的相互关系。使用蛋白质相互作用网络来预测药物组合的关系,不仅考虑了药物的靶标信息,还考虑了蛋白质分子之间的关系。此类方法的主要流程是:首先从DrugBank数据库中下载得到药物与靶标关系的数据,从HURM数据库下载蛋白质相互作用关系数据,然后将每个药物对应的靶标数据投射到蛋白质相互作用网络,再计算两个药物的靶标在蛋白质网络上的最短距离,作为两个药物的组合分数,距离越小,则两个药物越有可能是协同的药物组合。此类方法的优点是从药物靶标和蛋白质层面进行药物组合,比较直观,缺点是没有考虑到药物的其他相关信息,比如药物的化学结构信息和副作用数据等。
三.基于生物通路的药物组合预测方法。
疾病的产生与生物通路高度相关,生物通路是基因的集合。通过影响生物通路中的基因可以调控疾病通路。已有研究表明协同的药物组合通常影响功能相近的生物通路。该类方法的一般流程是:首先从DrugBank数据库下载药物以及其靶标的数据,从KEGG数据库下载生物通路数据,使用Davaid工具将药物靶标和生物通路进行富集分析,两个药物富集到的生物通路功能越相近,其更有可能是协同的药物组合。此类方法的优点是考虑了生物通路数据和药物靶标数据,缺点是目前生物通路数据不完善,得到的结果准确率低。
四.基于药物相似性的药物组合预测方法
药物的相似性数据可以体现两个药物之间的相似程度。通过两个药物的相似性关系可以刻画两个药物之间的关系。已有研究表明协同的药物组合通常两个药物更加相似。该类方法的一般流程是:首先从药物相关的数据库下载药物的多组学数据,然后基于这些数据构建有权的药物相似性网络,再将两个药物的相似性权值作为药物组合的特征,利用已知的药物组合数据和药物组合特征训练模型进行预测。该类方法很好的利用了药物的多组学数据,但是其构建的药物组合特征没有体现药物相似性网络拓扑信息,并且构建的药物组合特征维度固定,得到的结果准确率低。
发明内容
本发明的目的在于克服上述基于药物相似性的药物组合预测方法的不足,提出一种基于药物相似性网络数据的药物组合预测方法,通过构建包含药物相似性网络拓扑信息的药物组合特征和不固定药物组合特征维度,提高预测结果准确率。
本发明的技术思路是:通过使用药物的多组学数据构建多个药物相似性网络,利用一部分已知的药物组合数据对多个药物相似性网络进行每个网络重要性评估,然后采用有偏随机游走算法对网络进行采样得到随机游走路径,使用Skip-Gram方法和随机游走路径得到药物节点特征向量,使用所有已知的药物组合数据和药物节点特征向量训练随机森林分类模型,并利用该模型预测其他的药物组合得分,其技术方案包括如下步骤:
(1)下载药物的数据,构建药物相似性网络:
(1a)从与药物化学结构相关的任意一个数据库下载n个药物的数据CHn,构建药物化学结构相似性网络
Figure BDA0002092242280000031
(1b)从与药物副作用相关的任意一个数据库下载n个药物和这n个药物所对应的m个副作用的药物副作用数据,得到药物与副作用矩阵
Figure BDA0002092242280000032
构建药物副作用相似性网络
Figure BDA0002092242280000033
(1c)从与药物分类相关的任意一个数据库下载n个药物和这n个药物所对应的k个药物分类的药物分类数据,得到药物与药物分类矩阵
Figure BDA0002092242280000034
构建药物分类相似性网络
Figure BDA0002092242280000035
(1d)从与药物靶标相关的任意一个数据库下载n个药物的数据TAn,构建药物靶标距离相似性网络
Figure BDA0002092242280000036
(1e)从与药物文本挖掘相关的任意一个数据库下载n个药物的药物文本挖掘相似性网络
Figure BDA0002092242280000037
(2)从与药物组合相关的任意一个数据库中下载q个药物组合数据Gq
(3)评估每个药物相似性网络重要性,得到网络重要性分数:
(3a)随机选取20%的药物组合数据Gq为网络重要性评估数据G′;
(3b)分别从(1)构建的5个相似性网络中随机选取100000次网络中边的权值,分别得到药物化学结构相似性网络
Figure BDA0002092242280000038
的随机权值分布Dch、药物副作用相似性网络
Figure BDA0002092242280000039
的随机权值分布Dse、药物分类相似性网络
Figure BDA00020922422800000310
的随机权值分布Dca、药物靶标距离相似性网络
Figure BDA0002092242280000041
的随机权值分布Dta和药物文本挖掘相似性网络
Figure BDA0002092242280000042
的随机权值分布Dtm
(3c)分别将网络重要性评估数据G′投射到(1)构建的5个相似性网络中,得到
Figure BDA0002092242280000043
对应的药物组合权值分布Dch′、
Figure BDA0002092242280000044
对应的药物组合权值分布Dse′、
Figure BDA0002092242280000045
对应的药物组合权值分布Dca′、
Figure BDA0002092242280000046
对应的药物组合权值分布Dta′和
Figure BDA0002092242280000047
对应的药物组合权值分布Dtm′;
(3d)分别基于多个网络对应的随机权值分布和药物组合权值分布,使用秩和检验方法,计算得到
Figure BDA0002092242280000048
网络的显著性分数Pch
Figure BDA0002092242280000049
网络的显著性分数Pse
Figure BDA00020922422800000410
网络的显著性分数Pca
Figure BDA00020922422800000420
网络的显著性分数Pta
Figure BDA00020922422800000412
网络的显著性分数Ptm
(3e)基于(1)构建的5个相似性网络
Figure BDA00020922422800000413
Figure BDA00020922422800000414
以及这五个网络所对应的显著性分数Pch、Pse、Pca、Pta和Ptm,分别得到药物化学结构相似性网络
Figure BDA00020922422800000415
的重要性分数Lch、药物副作用相似性网络
Figure BDA00020922422800000416
的重要性分数Lse、药物分类相似性网络
Figure BDA00020922422800000417
的重要性分数Lca、药物靶标距离相似性网络
Figure BDA00020922422800000418
的重要性分数Lta和药物文本挖掘相似性网络
Figure BDA00020922422800000421
的重要性分数Ltm
(4)基于多个药物相似性网络和其对应的重要性分数,使用有偏随机游走算法得到多个网络的随机游走路径总集合PT:
PT=PTch+PTse+PTca+PTta+PTtm
其中,PTch是药物化学结构相似性网络的随机游走路径集合,PTse是药物副作用相似性网络的随机游走路径集合,PTca是药物分类相似性网络的随机游走路径集合,PTta是药物靶标距离相似性网络的随机游走路径集合,PTtm是药物文本挖掘相似性网络的随机游走路径集合;
(5)利用多个网络的随机游走路径总集合PT,使用Skip-Gram方法,得到n个药物特征向量Vn
(6)基于药物特征向量Vn和药物组合数据Gq,对随机森林分类模型进行训练,得到药物组合预测模型;
(7)将n个药物两两进行组合,得到n2个药物对,将药物特征向量Vn和n2个药物对,输入到药物组合预测模型中,得到每对药物的分数输出,对于药物对的分数大于0.5的组合,则为协同药物组合,可以使用,否则,该药物对属于拮抗或累加的药物组合,不能使用。
本发明与现有技术相比,具有以下优点:
1、本发明通过评估了每个药物相似性网络重要性,得到网络重要性分数,相较于目前方法中同等的对待每个药物相似性网络,不仅有效的提高了药物组合准确率,而且表征了不同药物相似性网络对药物组合的不同重要性。
2、本发明基于得到的网络重要性分数,使用有偏随机游走在多个网络上进行随机游走,得到多个网络的随机游走路径集合,再训练Skip-Gram模型得到药物的节点特征向量,相较于目前方法中药物组合特征维度固定以及药物组合特征不同体现网络拓扑结构,不仅可以控制药物组合特征维度,而且构建的特征体现了网络的拓扑结构属性。
附图说明
图1是本发明的实现总流程图;
图2是本发明实施例的药物组合结果准确率曲线仿真图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
参照图1、本实例的实现步骤如下:
步骤1,下载药物的数据,构建五个药物相似性网络。
1a)以DrugBank数据库为例,建药物化学结构相似性网络Nch
1a1)从DrugBank数据库下载1284个药物的化学结构数据CH1284
1a2)基于药物的化学结构数据CH1284,使用PaDEL-Descriptor软件,得到药物的化学结构特征集合
Figure BDA0002092242280000051
集合有1284个药物化学结构特征;
1a3)基于药物化学结构特征集合
Figure BDA0002092242280000052
得到药物化学结构相似性网络Nch,该网络中的任意一个元素计算方式如下:
Figure BDA0002092242280000053
其中,Fi ch代表第i个药物的化学结构特征,
Figure BDA0002092242280000061
代表第j个药物的化学结构特征,i=1,2,3,...,1284,j=1,2,3,...,1284;
1b)以SIDER数据库为例,建药物副作用相似性网络Nse
1b1)从SIDER数据库下载1284个药物和这1284个药物所对应的5745个副作用的药物副作用数据,得到药物与副作用矩阵Mse,矩阵Mse有1284行和5745列,其中行表示药物,列表示副作用;
1b2)将药物副作用矩阵Mse的每一行作为一个药物的副作用特征,得到药物的副作用特征集合:
Figure BDA0002092242280000062
1b3)基于药物副作用特征集合
Figure BDA0002092242280000063
得到药物副作用相似性网络Nse,该网络中的任意一个元素计算方式如下:
Figure BDA0002092242280000064
其中,Fi se代表第i个药物的副作用特征,
Figure BDA0002092242280000065
代表第j个药物的副作用特征,i=1,2,3,...,1284,j=1,2,3,...,1284;
1c)以DrugBank数据库为例,建药物分类相似性网络Nca
1c1)从DrugBank数据库下载1284个药物和这1284个药物所对应的2697个药物分类数据,得到药物与药物分类矩阵Mca,矩阵Mca有1284行和2697列,其中行表示药物,列表示药物分类;
1c2)将药物分类矩阵Mca的每一行作为一个药物的分类特征,得到药物的分类特征集合:
Figure BDA0002092242280000066
1c3)基于药物分类特征集合
Figure BDA0002092242280000067
得到药物分类相似性网络Nca,该网络中的任意一个元素计算方式如下:
Figure BDA0002092242280000068
其中,Fi ca代表第i个药物的分类特征,
Figure BDA0002092242280000071
代表第j个药物的分类特征,i=1,2,3,...,1284,j=1,2,3,...,1284;
1d)以DrugBank数据库为例,建药物靶标距离相似性网络Nta
1d1)从DrugBank数据库下载1284个药物的数据TA;
1d2)从HPRD数据库下载11117个蛋白质之间的关系,得到蛋白质相互作用矩阵Mta,矩阵Mta有11117行,11117列,行表示蛋白质,列也表示蛋白质;
1d3)将1284个药物的靶标数据TA映射到蛋白质相互作用矩阵Mta,得到药物的靶标基因集合:[U1,U2,U3,...,U1284];
1d4)基于药物的靶标基因集合[U1,U2,U3,...,U1284],得到药物靶标距离相似性网络Nta,该网络中的任意一个元素计算方式:
Figure BDA0002092242280000072
其中,Ui代表第i个药物的靶标基因集合,Uj代表第j个药物的靶标基因集合,i=1,2,3,...,1284,j=1,2,3,...,1284,gi和gj分别表示两个靶标基因,dis(g1,g2)表示最短距离算法计算两个基因gi和gj在蛋白质相互作用网络上的距离;
1e)从STITCH数据库下载1284个药物的药物文本挖掘相似性网络Ntm
步骤2,下载药物组合数据。
本步骤以DCDB和FDA数据库为例,从DCDB数据库中下载241个药物组合数据,从FDA数据库下载275个药物组合数据,共计516个不同的药物组合数据,记为G。
步骤3,评估每个药物相似性网络重要性,得到网络重要性分数。
3a)从药物组合数据G中随机选取20%的数据最为网络重要性评估数据G′,本实例取G′有103个药物组合;
3b)分别从步骤1构建的5个相似性网络中随机选取100000次网络中边的权值,分别得到药物化学结构相似性网络Nch的随机权值分布Dch、药物副作用相似性网络Nse的随机权值分布Dse、药物分类相似性网络Nca的随机权值分布Dca、药物靶标距离相似性网络Nta的随机权值分布Dta和药物文本挖掘相似性网络Ntm的随机权值分布Dtm
3c)分别将网络重要性评估数据G′投射到步骤1构建的5个相似性网络中,得到Nch对应的药物组合权值分布Dch′、Nse对应的药物组合权值分布Dse′、Nca对应的药物组合权值分布Dca′、Nta对应的药物组合权值分布Dta′和Ntm对应的药物组合权值分布Dtm′,每一个药物组合权值分布都包含103个数值;
3d)分别基于多个网络对应的随机权值分布和药物组合权值分布,计算Nch网络的显著性分数Pch、Nse网络的显著性分数Pse、Nca网络的显著性分数Pca、Nta网络的显著性分数Pta和Ntm网络的显著性分数Ptm,计算公式如下:
Pch=ranksum(Dch,Dch′)
Pse=ranksum(Dse,Dse′)
Pca=ranksum(Dca,Dca′)
Pta=ranksum(Dta,Dta′)
Ptm=ranksum(Dtm,Dtm′)
其中,ranksum是秩和检验方法,Dch是Nch的随机权值分布,Dch′是Nch的药物组合权值分布,Dse是Nse的随机权值分布,Dse′是Nse的药物组合权值分布,Dca是Nca的随机权值分布,Dca′是Nca的药物组合权值分布,Dta是Nta的随机权值分布,Dta′是Nta的药物组合权值分布,Dtm是Ntm的随机权值分布,Dtm′是Ntm的药物组合权值分布,本实例中,Pch取5、Pse取8、Pca取10、Pta取12和Ptm取15;
3e)基于步骤1构建的5个相似性网络Nch、Nse、Nca、Nta和Ntm以及这五个网络所对应的显著性分数Pch、Pse、Pca、Pta和Ptm,按照网络的显著性越大,其重要性分数越小的规则进行,分别得到药物化学结构相似性网络Nch的重要性分数Lch、药物副作用相似性网络Nse的重要性分数Lse、药物分类相似性网络Nca的重要性分数Lca、药物靶标距离相似性网络Nta的重要性分数Lta和药物文本挖掘相似性网络Ntm的重要性分数Ltm,且需要满足如下条件:
Figure BDA0002092242280000091
步骤4,基于多个药物相似性网络和其对应的重要性分数,得到多个网络的随机游走路径总集合PT。
4a)通过如下公式获得各网络的随机游走路径集:
Figure BDA0002092242280000092
Figure BDA0002092242280000093
Figure BDA0002092242280000094
Figure BDA0002092242280000095
Figure BDA0002092242280000096
其中,i表示网络中第i个药物节点,brw是有偏随机游走算法,Lch是药物化学结构相似性网络Nch的重要性分数,Lse是药物副作用相似性网络Nse的重要性分数,Lca是药物分类相似性网络Nca的重要性分数,Lta是药物靶标距离相似性网络Nta的重要性分,Ltm是药物文本挖掘相似性网络Ntm的重要性分数,PTch是药物化学结构相似性网络的随机游走路径集合,PTse是药物副作用相似性网络的随机游走路径集合,PTca是药物分类相似性网络的随机游走路径集合,PTta是药物靶标距离相似性网络的随机游走路径集合,PTtm是药物文本挖掘相似性网络的随机游走路径集合;本实例中随机游走路径长度都是80;
4b)根据4a)中得到的各个网络的随机游走路径集合,得到多个网络的随机游走路径总集合PT:
PT=PTch+PTse+PTca+PTta+PTtm
步骤5,利用多个网络的随机游走路径总集合PT,得到1284个药物特征向量V1284
5a)对多个网络的随机游走路径总集合PT中每一条随机游走路径,使用滑动窗口在随机游走路径上移动,滑动窗口内部任意两个节点形成药物节点分类正样本,本实例使用的滑动窗口,窗口大小为4;
5b)统计多个网络的随机游走路径总集合PT中每一个节点出现频率,得到1284个药物节点的频率P1284
5c)从1284个药物节点中选择两个药物节点,按照节点被选择概率等于节点频率P1284的规则,得到药物节点分类负样本;
5d)设Skip-Gram模型的输入层和输出层均有1284个神经元,且只有一个隐藏层,该隐藏层有5个神经元;
5e)使用药物节点分类负样本和正样本对Skip-Gram模型进行训练,得到输入层到隐藏层参数矩阵为W1284×5,参数矩阵W1284×5有1284行和5列,该参数矩阵W1284×5的第i行为第i个药物的特征向量Vi,i=1,2,3,...,1284。
步骤6,基于药物特征向量V1284和药物组合数据G,得到药物组合预测模型。
6a)将516个药物组合数据G视为药物组合正样本
Figure BDA0002092242280000101
6b)将1284个药物两两进行组合,得到1648656个药物对,随机从中选择1032个药物对作为药物组合负样本
Figure BDA0002092242280000102
6c)基于药物特征向量V1284和药物组合正样本GT以及药物组合负样本GF,得到药物组合正样本特征
Figure BDA0002092242280000103
和药物组合负样本特征
Figure BDA0002092242280000104
Figure BDA0002092242280000105
Figure BDA0002092242280000106
其中,i表示1284个药物中的第i个药物,j表示1284个药物中的第j个药物,Vi表示第i个药物的特征向量,Vj表示第j个药物的特征向量,
Figure BDA0002092242280000107
表示第a个药物组合正样本的特征,
Figure BDA0002092242280000111
表示第b个药物组合负样本的特征;
6d)使用药物组合正样本特征
Figure BDA0002092242280000112
和药物组合负样本特征
Figure BDA0002092242280000113
对带有100棵分类回归树的随机森林分类模型进行训练,得到药物组合预测模型DCM:
Figure BDA0002092242280000114
其中,
Figure BDA0002092242280000115
是药物组合正样本特征,
Figure BDA0002092242280000116
是药物组合负样本特征,RF是随机森林分类模型。
步骤7,将1284个药物两两进行组合,得到1648656个药物对,将药物特征向量Vn和1648656个药物对,输入到药物组合预测模型中,得到每对药物的分数输出,对于药物对的分数大于0.5的组合,则为协同药物组合,可以使用,否则,该药物对属于拮抗或累加的药物组合,不能使用。
以下结合仿真实验,对本发明的技术效果作进一步说明:
1.仿真条件
仿真实验在Intel(R)Core(TM)i7-8700k CPU、主频3.70GHz,内存48G,Ubuntu平台上的Python 3.6.5上进行。
2.仿真内容:
仿真1,为了证明本发明中步骤3评估网络重要性分数,提高准确率,在构建的药物组合正样本和负样本上,使用随机森林模型,并采用5倍交叉验证,其结果如图2所示,其中,equal曲线表示每一个网络给与相同的重要性分数,且该分数等于10,not_equal曲线表示按照本实例计算的网络重要性分数,ROC是接受者操作特性曲线。
从图2可见,本发明使用网络重要性分数可以有效提高准确率。
仿真2,对药物组合排名前6的预测结果进行分析验证,结果如表1所示。
表1
药物ID 药物ID 药物组合得分排名 PMID
DB00515 DB01229 1 12376205
DB00232 DB00999 2
DB00790 DB00999 3 9048272
DB00530 DB01101 4 23393373
DB00530 DB01229 5 20332457
DB00999 DB04861 6 20556921
表1中,PMID是指在PubMed数据库中的文章索引。
表1中的是仿真实验预测结果排名前6的药物组合,其中有5个药物组合已经被文献所报道,这些文献已经在临床实验中验证了这两种药物组合治疗效果是协同的,说明了本发明的预测结果准确。

Claims (10)

1.一种基于药物相似性网络数据的药物组合预测方法,其特征在于,包括如下:
(1)下载药物的数据,构建药物相似性网络:
(1a)从与药物化学结构相关的任意一个数据库下载n个药物的数据CHn,构建药物化学结构相似性网络
Figure FDA0002092242270000011
(1b)从与药物副作用相关的任意一个数据库下载n个药物和这n个药物所对应的m个副作用的药物副作用数据,得到药物与副作用矩阵
Figure FDA0002092242270000012
构建药物副作用相似性网络
Figure FDA0002092242270000013
(1c)从与药物分类相关的任意一个数据库下载n个药物和这n个药物所对应的k个药物分类的药物分类数据,得到药物与药物分类矩阵
Figure FDA0002092242270000014
构建药物分类相似性网络
Figure FDA0002092242270000015
(1d)从与药物靶标相关的任意一个数据库下载n个药物的数据TAn,构建药物靶标距离相似性网络
Figure FDA0002092242270000016
(1e)从与药物文本挖掘相关的任意一个数据库下载n个药物的药物文本挖掘相似性网络
Figure FDA0002092242270000017
(2)从与药物组合相关的数据库中下载q个药物组合数据Gq
(3)评估每个药物相似性网络重要性,得到网络重要性分数:
(3a)从药物组合数据G中随机选取20%的数据Gq为网络重要性评估数据G′;
(3b)分别从(1)构建的5个相似性网络中随机选取100000次网络中边的权值,分别得到药物化学结构相似性网络
Figure FDA0002092242270000018
的随机权值分布Dch、药物副作用相似性网络
Figure FDA0002092242270000019
的随机权值分布Dse、药物分类相似性网络
Figure FDA00020922422700000110
的随机权值分布Dca、药物靶标距离相似性网络
Figure FDA00020922422700000111
的随机权值分布Dta和药物文本挖掘相似性网络
Figure FDA00020922422700000112
的随机权值分布Dtm
(3c)分别将网络重要性评估数据G′投射到(1)构建的5个相似性网络中,得到
Figure FDA00020922422700000113
对应的药物组合权值分布Dch′、
Figure FDA00020922422700000114
对应的药物组合权值分布Dse′、
Figure FDA00020922422700000115
对应的药物组合权值分布Dca′、
Figure FDA00020922422700000116
对应的药物组合权值分布Dta′和
Figure FDA00020922422700000117
对应的药物组合权值分布Dtm′;
(3d)分别基于多个网络对应的随机权值分布和药物组合权值分布,使用秩和检验方法,计算得到
Figure FDA0002092242270000021
网络的显著性分数Pch
Figure FDA0002092242270000022
网络的显著性分数Pse
Figure FDA0002092242270000023
网络的显著性分数Pca
Figure FDA0002092242270000024
网络的显著性分数Pta
Figure FDA0002092242270000025
网络的显著性分数Ptm
(3e)基于(1)构建的5个相似性网络
Figure FDA0002092242270000026
Figure FDA0002092242270000027
以及这五个网络所对应的显著性分数Pch、Pse、Pca、Pta和Ptm,分别得到药物化学结构相似性网络
Figure FDA0002092242270000028
的重要性分数Lch、药物副作用相似性网络
Figure FDA0002092242270000029
的重要性分数Lse、药物分类相似性网络
Figure FDA00020922422700000210
的重要性分数Lca、药物靶标距离相似性网络
Figure FDA00020922422700000211
的重要性分数Lta和药物文本挖掘相似性网络
Figure FDA00020922422700000212
的重要性分数Ltm
(4)基于多个药物相似性网络和其对应的重要性分数,使用有偏随机游走算法得到多个网络的随机游走路径总集合PT:
PT=PTch+PTse+PTca+PTta+PTtm
其中,PTch是药物化学结构相似性网络的随机游走路径集合,PTse是药物副作用相似性网络的随机游走路径集合,PTca是药物分类相似性网络的随机游走路径集合,PTta是药物靶标距离相似性网络的随机游走路径集合,PTtm是药物文本挖掘相似性网络的随机游走路径集合;
(5)利用多个网络的随机游走路径总集合PT,使用Skip-Gram方法,得到n个药物特征向量Vn
(6)基于药物特征向量Vn和药物组合数据Gq,对随机森林分类模型进行训练,得到药物组合预测模型;
(7)将n个药物两两进行组合,得到n2个药物对,将药物特征向量Vn和n2个药物对,输入到药物组合预测模型中,得到每对药物的分数输出,设定阈值R,对于药物对的分数大于R的组合,则为协同药物组合,可以使用,否则,该药物对属于拮抗或累加的药物组合,不能使用。
2.根据权利要求1所述的方法,其特征在于,步骤(1a)中构建药物化学结构相似性网络
Figure FDA0002092242270000031
实现如下:
(1a1)将n个药物的化学结构数据CHn,使用PaDEL-Descriptor软件,得到药物的化学结构特征集合:
Figure FDA0002092242270000032
(1a2)基于药物化学结构特征集合
Figure FDA0002092242270000033
得到药物化学结构相似性网络
Figure FDA0002092242270000034
该网络中的任意一个元素计算方式如下:
Figure FDA0002092242270000035
其中,Fi ch代表第i个药物的化学结构特征,
Figure FDA0002092242270000036
代表第j个药物的化学结构特征,i=1,2,3,...,n,j=1,2,3,...,n。
3.根据权利要求1所述的方法,其特征在于,步骤(1b)中构建药物副作用相似性网络
Figure FDA0002092242270000037
实现如下:
(1b1)将药物副作用矩阵
Figure FDA0002092242270000038
的每一行作为一个药物的副作用特征,得到药物的副作用特征集合:
Figure FDA0002092242270000039
(1b2)基于药物副作用特征集合
Figure FDA00020922422700000310
得到药物副作用相似性网络
Figure FDA00020922422700000311
该网络中的任意一个元素计算方式如下:
Figure FDA00020922422700000312
其中,Fi se代表第i个药物的副作用特征,
Figure FDA00020922422700000313
代表第j个药物的副作用特征,i=1,2,3,...,n,j=1,2,3,...,n。
4.根据权利要求1所述的方法,其特征在于,步骤(1c)中构建药物分类相似性网络
Figure FDA00020922422700000314
实现如下:
(1c1)将药物分类矩阵
Figure FDA00020922422700000315
的每一行作为一个药物的分类特征,得到药物的分类特征集合:
Figure FDA0002092242270000041
(1c2)基于药物分类特征集合
Figure FDA0002092242270000042
得到药物分类相似性网络
Figure FDA0002092242270000043
该网络中的任意一个元素计算方式如下:
Figure FDA0002092242270000044
其中,Fi ca代表第i个药物的分类特征,
Figure FDA0002092242270000045
代表第j个药物的分类特征,i=1,2,3,...,n,j=1,2,3,...,n。
5.根据权利要求1所述的方法,其特征在于,步骤(1d)中构建药物靶标距离相似性网络
Figure FDA0002092242270000046
实现如下:
(1d1)从与蛋白质相互作用相关的任意一个数据库下载p个蛋白质之间的关系,得到蛋白质相互作用矩阵
Figure FDA0002092242270000047
(1d2)将n个药物的靶标数据TAn映射到蛋白质相互作用矩阵
Figure FDA0002092242270000048
得到药物的靶标基因集合:[U1,U2,U3,...,Un];
(1d3)基于药物的靶标基因集合[U1,U2,U3,...,Un],得到药物靶标距离相似性网络
Figure FDA0002092242270000049
该网络中的任意一个元素计算方式:
Figure FDA00020922422700000410
其中,Ui代表第i个药物的靶标基因集合,Uj代表第j个药物的靶标基因集合,i=1,2,3,...,n,j=1,2,3,...,n,gi和gj分别表示两个靶标基因,dis(g1,g2)表示最短距离算法计算两个基因gi和gj在蛋白质相互作用网络上的距离。
6.根据权利要求1所述的方法,其特征在于,所述(3d)的计算公式如下:
Pch=ranksum(Dch,Dch′)
Pse=ranksum(Dse,Dse′)
Pca=ranksum(Dca,Dca′)
Pta=ranksum(Dta,Dta′)
Ptm=ranksum(Dtm,Dtm′)
其中,ranksum是秩和检验方法,Dch
Figure FDA0002092242270000051
的随机权值分布,Dch′是
Figure FDA0002092242270000052
的药物组合权值分布,Dse
Figure FDA0002092242270000053
的随机权值分布,Dse′是
Figure FDA0002092242270000054
的药物组合权值分布,Dca
Figure FDA0002092242270000055
的随机权值分布,Dca′是
Figure FDA0002092242270000056
的药物组合权值分布,Dta
Figure FDA0002092242270000057
的随机权值分布,Dta′是
Figure FDA0002092242270000058
的药物组合权值分布,Dtm
Figure FDA0002092242270000059
的随机权值分布,Dtm′是
Figure FDA00020922422700000510
的药物组合权值分布。
7.根据权利要求1所述的方法,其特征在于,所述步骤(3e)的获得各网络重要性分数,按照网络的显著性越大,其重要性分数越小的规则进行,且需要满足如下条件:
Figure FDA00020922422700000511
其中,Lch是药物化学结构相似性网络
Figure FDA00020922422700000512
的重要性分数,Lse是药物副作用相似性网络
Figure FDA00020922422700000513
的重要性分数,Lca是药物分类相似性网络
Figure FDA00020922422700000514
的重要性分数、Lta是药物靶标距离相似性网络
Figure FDA00020922422700000515
的重要性分数,Ltm是药物文本挖掘相似性网络
Figure FDA00020922422700000516
的重要性分数。
8.根据权利要求1所述的方法,其特征在于,步骤(4)中获得各网络的随机游走路径集合,通过如下公式进行:
Figure FDA00020922422700000517
Figure FDA00020922422700000518
Figure FDA00020922422700000519
Figure FDA00020922422700000520
Figure FDA0002092242270000061
其中,i表示网络中第i个药物节点,brw是有偏随机游走算法,Lch是药物化学结构相似性网络
Figure FDA0002092242270000062
的重要性分数,Lse是药物副作用相似性网络
Figure FDA0002092242270000063
的重要性分数,Lca是药物分类相似性网络
Figure FDA0002092242270000064
的重要性分数、Lta是药物靶标距离相似性网络
Figure FDA0002092242270000065
的重要性分数,Ltm是药物文本挖掘相似性网络
Figure FDA0002092242270000066
的重要性分数。
9.根据权利要求1所述的方法,其特征在于,步骤(5)中使用Skip-Gram方法,获得n个药物的特征向量Vn,实现过程如下:
(5a)对多个网络的随机游走路径总集合PT中每一条随机游走路径,使用滑动窗口在随机游走路径上移动,滑动窗口内部任意两个节点形成药物节点分类正样本;
(5b)统计多个网络的随机游走路径总集合PT中每一个节点出现频率,得到n个药物节点的频率Pn
(5c)从n个药物节点中选择两个药物节点,得到药物节点分类负样本,节点选择概率等于该节点频率Pn
(5d)设Skip-Gram模型的输入层和输出层均有n个神经元,且只有一个隐藏层,隐藏层有l个神经元;
(5e)使用药物节点分类负样本和正样本对Skip-Gram模型进行训练,得到输入层到隐藏层参数矩阵为Wn×l,该参数矩阵Wn×l的第i行为第i个药物的特征向量Vi,i=1,2,3,...,n。
10.根据权利要求1所述的方法,其特征在于,步骤(6)中得到药物组合预测模型,实现过程如下:
(6a)将q个药物组合数据Gq视为药物组合正样本
Figure FDA0002092242270000067
(6b)将n个药物两两进行组合,得到n2个药物对,随机从中选择e个药物对作为药物组合负样本
Figure FDA0002092242270000068
e的计算公式如下:
e=2×q
其中,q是药物组合数据Gq的数据个数;
(6c)基于药物特征向量Vn和药物组合正样本
Figure FDA0002092242270000071
以及药物组合负样本
Figure FDA0002092242270000072
得到药物组合正样本特征
Figure FDA0002092242270000073
和药物组合负样本特征
Figure FDA0002092242270000074
Figure FDA0002092242270000075
Figure FDA0002092242270000076
其中,i表示n个药物中的第i个药物,j表示n个药物中的第j个药物,Vi表示第i个药物的特征向量,Vj表示第j个药物的特征向量,
Figure FDA0002092242270000077
表示第a个药物组合正样本的特征,
Figure FDA0002092242270000078
表示第b个药物组合负样本的特征;
(6d)使用药物组合正样本特征
Figure FDA0002092242270000079
和药物组合负样本特征
Figure FDA00020922422700000710
对带有100棵分类回归树的随机森林分类模型进行训练,得到药物组合预测模型DCM:
Figure FDA00020922422700000711
其中,
Figure FDA00020922422700000712
是药物组合正样本特征,
Figure FDA00020922422700000713
是药物组合负样本特征,RF是随机森林分类模型。
CN201910507279.5A 2019-06-12 2019-06-12 基于药物相似性网络数据的药物组合预测方法 Active CN110246550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910507279.5A CN110246550B (zh) 2019-06-12 2019-06-12 基于药物相似性网络数据的药物组合预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910507279.5A CN110246550B (zh) 2019-06-12 2019-06-12 基于药物相似性网络数据的药物组合预测方法

Publications (2)

Publication Number Publication Date
CN110246550A CN110246550A (zh) 2019-09-17
CN110246550B true CN110246550B (zh) 2022-12-06

Family

ID=67886865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910507279.5A Active CN110246550B (zh) 2019-06-12 2019-06-12 基于药物相似性网络数据的药物组合预测方法

Country Status (1)

Country Link
CN (1) CN110246550B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111477344B (zh) * 2020-04-10 2023-06-09 电子科技大学 一种基于自加权多核学习的药物副作用识别方法
CN111816259B (zh) * 2020-07-07 2024-02-09 西安电子科技大学 基于网络表示学习的不完整多组学数据集成方法
CN112270950B (zh) * 2020-11-04 2023-06-23 中山大学 一种基于网络增强和图正则的融合网络药物靶标关系预测方法
CN112927766B (zh) * 2021-03-29 2022-11-01 天士力国际基因网络药物创新中心有限公司 一种疾病组合药物筛选的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8538916B1 (en) * 2010-04-09 2013-09-17 Google Inc. Extracting instance attributes from text
CN108520166A (zh) * 2018-03-26 2018-09-11 中山大学 一种基于多重相似性网络游走的药物靶标预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270254A1 (en) * 2016-03-18 2017-09-21 Northeastern University Methods and systems for quantifying closeness of two sets of nodes in a network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8538916B1 (en) * 2010-04-09 2013-09-17 Google Inc. Extracting instance attributes from text
CN108520166A (zh) * 2018-03-26 2018-09-11 中山大学 一种基于多重相似性网络游走的药物靶标预测方法

Also Published As

Publication number Publication date
CN110246550A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN110246550B (zh) 基于药物相似性网络数据的药物组合预测方法
CN105653846B (zh) 基于集成的相似性度量和双向随机游走的药物重定位方法
Bertsimas et al. An analytics approach to designing combination chemotherapy regimens for cancer
Peng et al. Predicting drug response based on multi-omics fusion and graph convolution
Gligorijević et al. Patient-specific data fusion for cancer stratification and personalised treatment
CN105138862B (zh) 一种协同抗癌症药物组合预测方法及药物组合物
Yu et al. Prediction of drug response in multilayer networks based on fusion of multiomics data
US20140067813A1 (en) Parallelization of synthetic events with genetic surprisal data representing a genetic sequence of an organism
CN109411033B (zh) 一种基于复杂网络的药物疗效筛选方法
CN108877953A (zh) 一种基于多相似性网络的药物敏感性预测方法
CN112863693B (zh) 基于多通道图卷积网络的药物靶标相互作用预测方法
CN111613297B (zh) 基于网络药理学的中药作用机制模型的建立方法、系统及装置
CN106815486A (zh) 一种个性化用药的系统药理学方法
Zhang et al. Predicting essential genes and synthetic lethality via influence propagation in signaling pathways of cancer cell fates
EP2369493A1 (en) Gene network-based method for confirming drug action
CN109712685B (zh) 一种基于多目标进化算法的药方药剂构建方法及系统
CN115691751A (zh) 一种基于诊疗经验和智能学习的中药组方筛选方法及系统
Li et al. A stability-driven protocol for drug response interpretable prediction (staDRIP)
Xu et al. AutoOmics: New multimodal approach for multi-omics research
Numcharoenpinij et al. Predicting synergistic drug interaction with dnn and gat
CN115376658A (zh) 一种基于深度神经网络的融合表型和分子信息的中药处方人工智能评价方法
Wang et al. Network propagation reveals novel features predicting drug response of Cancer cell lines
Nguyen Horizontal and vertical integration of bio-molecular data
Dutta et al. A multi-objective based PSO approach for inferring pathway activity utilizing protein interactions
Altaf-Ul-Amin Drug Repurposing for Inflammatory Bowel Disease Based On Relations Among Drugs, Diseases and Genes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant