CN107731309B

CN107731309B - 一种药物活性的预测方法及其应用

Info

Publication number: CN107731309B
Application number: CN201710769899.7A
Authority: CN
Inventors: 张红雨; 全源; 朱丽达; 李姜; 柳叶茂; 杨庆勇; 黄清
Original assignee: Wuhan Baiyao Association Science And Technology Co Ltd; Huazhong Agricultural University
Current assignee: Wuhan Baiyao Association Science And Technology Co Ltd; Huazhong Agricultural University
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2020-01-21
Anticipated expiration: 2037-08-31
Also published as: CN107731309A

Abstract

本发明公开了一种药物活性的预测方法及其应用。本发明所述药物活性的预测方法包括以下步骤：1)通过查询药物靶标互作关系数据库信息，收集人类上市或者在研药物的靶标及其治疗活性信息；2)查找多个致病基因数据库，收集疾病关联基因，根据疾病关联基因的对应药物的有活性率，给予不同数据库来源的疾病关联基因不同的赋分；3)构建药物靶标与疾病关联基因的特征属性；4)构建机器学习预测模型；5)对模型预测效果进行评估；6)预测针对特定疾病有活性的药物。本发明提供的药物活性的预测方法能够作为药物发现领域的GPS，高效识别疾病关联基因，为活性药物的预测研发提供有效指导，并为未来药物发现领域提供全新的方法和思路。

Description

一种药物活性的预测方法及其应用

技术领域

本发明属于生物医药技术领域，尤其涉及一种药物活性的预测方法及其应用。

背景技术

药物研究与开发是一项周期长、耗资大、风险高、竞争激烈、利润高的系统工程。据统计，一个新药从概念产生、实验室先导化合物的确定、优化、临床试验到最终上市，需要花费10-15年时间，研发费用高达8亿美元以上(DiMasi,J.A.,Hansen,R.W.,and Grabowski,H.G.(2003).The price of innovation:new estimates of drug developmentcosts.J.Health Econ.22:151-185.)，并且这个费用仍在逐年增长，根据塔夫茨药物研发中心(Tufts Center for the Study of Drug Development，CSDD)2014年的报告，这个数字现在已经增长到了25.58亿美元(http://csdd.tufts.edu/news/complete_story/pr_tufts_csdd_2014_cost_study)。然而，如此巨大的投资并没有获得预期的回报。1996年FDA批准上市的新分子药物为53个，2007年的这一数值仅为15，创历史新低(Hughes,B.(2008).2007FDA drug approvals:a year of flux.Nat.Rev.Drug Discov.7:107-109；Editorial.(2008).Raising the game.Nat.Biotech.26:137.)。在针对神经性疾病等复杂疾病的新药研发方面，所遇到的困难比过去更大、失败率更高(白东鲁；沈竞康.(2014).新药研发案例研究:明星药物如何从实验室走向市场.北京:化学工业出版社.)。可以说药物设计和开发面临着前所未有的“高投入、低产出”的艰难境地。

从化学角度来看，药物发挥治疗作用是通过抑制或激活疾病相关的一个或多个靶基因/蛋白来实现的。因此，基因-疾病相关信息对于药物发现是至关重要的。在生命科学中，重点揭示基因-疾病联系的遗传学，为制药工业做出了巨大贡献(kada,Y.,et al.(2014).Genetics of rheumatoid arthritis contributes to biology and drugdiscovery.Nature.506:376-381.)。2015年，Matthew等人在遗传学研究领域顶级杂志《Nature Genetics》中指出遗传致病基因研究有利于提高药物研发效率，作者将临床前(Preclinical)、1～3期临床(Phase I～III)和批准的(Approved)药物信息，与基因的风险性疾病相关信息(复杂疾病相关变异数据库GWASdb和孟德尔遗传病相关的数据库OMIM)相互比较，结果发现药物靶标与待治疗疾病之间有遗传证据支持的比例从2.0％上升到8.2％(Matthew,N.(2015).The support of human genetic evidence for approved drugindi cations.Nat Genet.47(8):856-860.)。因此，我们可以充分利用化学结合遗传学方法，挖掘药物靶标基因与遗传疾病的关联信息，从而提高药物研发的成功率。

然而，以前几乎所有的研究都认为疾病的发生是由于某个单一基因位点的变化，近些年人们才逐渐认识到大多数疾病是由多种致病基因引起的(Hopkins,A.L.(2008).Network pharmacology:the next paradigm in,drug discovery.Nat.Chem.Biol.4:682-690.)，而当前已被证实的疾病与单基因变异之间的联系还不足以指导新药研发。鉴于此，我们推测，针对特定疾病相关的多个基因进行遗传信息分析，比针对单个致病基因的研究能够更有效地识别潜在药物，指导活性药物研究开发。基于这一猜想，我们开发了一种针对多基因的新方法来预测药物活性。

发明内容

本发明的目的在于克服现有药物筛选技术的缺陷而提供一种药物活性的预测方法及其应用，本发明的药物活性的预测方法能够针对特定疾病的多个疾病关联基因进行药物开发，具有成本低、效率高、结果精准等优点。

本发明采用的技术方案为：

一种药物活性的预测方法，包括以下步骤：

(1)通过查询药物靶标互作关系数据库信息，收集人类上市或者在研药物的靶标及其治疗活性信息；

(2)查找多个致病基因数据库，收集疾病关联基因，根据疾病关联基因的对应药物的有活性率，给予不同数据库来源的疾病关联基因不同的赋分，来自不同数据库的同一疾病关联基因的得分相加即为该疾病关联基因的疾病相关性得分；

(3)基于步骤(1)中药物靶标及其活性信息和步骤(2)中疾病关联基因的得分构建药物靶标与疾病关联基因的特征属性，所述特征属性包括药物靶标内疾病关联基因总分、药物靶标内疾病关联基因平均分、疾病强相关基因数量以及疾病强相关基因占药物靶标总数的比例；

(4)构建机器学习预测模型；

(5)对步骤(4)中的模型预测效果进行评估；

(6)预测针对特定疾病有活性的药物。

本技术方案中根据疾病关联基因的对应药物的有活性率，给予不同数据库来源的疾病关联基因不同的赋分，能够高效识别与特定疾病有强相关性的多个致病基因，得分越高，则认为该致病基因与对应疾病的相关性越强，能够针对特定疾病的多个疾病关联致病基因进行活性药物开发，从而提高药物开发成功率，具有成本低、效率高、结果精准等优点。

作为本发明所述药物活性的预测方法的优选实施方式，所述赋分是指根据统计不同来源数据库疾病关联基因的对应药物的有活性率，对相关数据库进行排序，根据排序结果分别给予不同数据库来源的疾病关联基因不同的赋分，并将来源于多个数据库的同一疾病关联基因的赋分进行累加，即：

其中，Druggability score是指来源于多个数据库的同一疾病关联基因的得分，scoreij是指疾病关联基因i在第j个数据库中的得分；i＝1,2,...,m；j＝1,2,...,k，m是指疾病关联基因的数量，k是指数据库的数量；得分越高，则认为该致病基因与对应疾病的相关性越强。

本技术方案中对疾病关联基因进行赋分的方法，能够高效识别与特定疾病有强相关性的多个致病基因，并针对特定疾病的基于多个疾病关联致病基因进行活性药物开发，从而提高药物开发成功率。

作为本发明所述药物活性的预测方法的优选实施方式，所述人类上市或者在研药物的靶标信息是从DGIdb、DrugBank和TTD数据库中获得；所述上市或者在研药物的治疗活性信息是从DrugBank、TTD和ClinicalTrials数据库中获得。

作为本发明所述药物活性的预测方法的优选实施方式，所述步骤(2)中的致病基因数据库包含GAD、OMIM、Clinvar、Orphanet、DisGeNET、INTREPID、GWASdb和HGMD。

作为本发明所述药物活性的预测方法的优选实施方式，所述评估模型预测效果的评价指标包括AUC、ACC、MCC、模型的精度、灵敏度和特异性。AUC，表示ROC(ReceiveOperating Characteristic)曲线下面积(Area under curve of roc)；ACC即准确率(Accuracy)，表示被预测的数据样本中，预测正确的比例；模型的精度(Precision)，也称准确率，表示被预测为阳性的数据样本中，真正阳性的比例；召回率(Recall)，也称灵敏度(Sensitivity)，表示在真实的阳性样本中能正确预测为阳性的比例；特异性(Specificity)，表示正确识别负样本的比例；Matthews相关系数(MCC)，即Phi相关系数。

部分指标计算公式如下：

其中，TP(True positive)指正确预测的正样本数量，TN(True negative)指正确预测的负样本的数量，FP(False positive)指错误预测为正样本数量，FN(Falsenegative)指错误预测为负样本的数量。

作为本发明所述药物活性的预测方法的优选实施方式，所述步骤(4)中，选择支持向量机、朴素贝叶斯和逻辑回归三种算法作为机器预测算法构建机器学习预测模型。

作为本发明所述药物活性的预测方法的优选实施方式，所述机器学习预测模型的构建是以每个药物的特征属性为输入向量，以药物的活性为输出向量。

上述技术方案通过构建机器学习预测模型，能够将药物分为“有活性”和“无活性”。

作为本发明所述药物活性的预测方法的优选实施方式，所述步骤(4)中，筛选三种算法中的任意两种算法的结果预测出对某一疾病具有活性的药物。

本发明还提供了所述的药物活性的预测方法在药物筛选、重定位、组合用药和新药设计中应用。

相对于现有技术，本发明的有益效果为：

本发明提出一种药物活性的预测方法，尤其是对疾病关联基因进行赋分的方法，能够高效识别与特定疾病有强相关性的多个致病基因，并针对特定疾病的基于多个疾病关联致病基因进行活性药物开发，从而提高药物开发成功率，为新药的预测研发提供有效指导，具有成本低、效率高、结果精准等优点，该方法在药物的筛选、重定位、组合用药和新药设计等领域具有广阔的应用前景，能够为未来药物发现领域提供全新的方法和思路。

附图说明

图1为本发明药物活性的预测方法的流程图；

图2为本发明药物活性的预测方法中获取药物活性和靶标信息的数据处理流程图；

图3为构建药物活性预测模型流程图及模型评估结果。

具体实施方式

为更好地说明本发明的目的、技术方案和优点，下面将结合附图和具体实施例对本发明进一步说明。本领域技术人员应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

为了更好地理解本发明，下面提供相关的解释和说明：

活性药物：能够治疗疾病的药物，即该药物对该疾病有活性；

疾病关联基因：与特定疾病发病相关的基因；

有活性率：药物真正具有治疗活性的概率

DGIdb：药物靶标数据库；

OMIM：疾病相关基因数据库；

DisGeNET：疾病相关基因数据库；

GAD：遗传相关数据库；

Clinvar：遗传变异数据库；

GWASdb：全基因关联分析数据库；

HGMD：人类基因突变数据库；

INTREPID：疾病相关基因数据库；

Orphanet：稀有疾病相关数据库；

DrugBank：药物靶标数据库；

TTD：药物靶标数据库；

ClinicalTrials：美国临床试验数据库；

SVM：Support Vector Machine，支持向量机算法；

NB：

Bayes，朴素贝叶斯算法；

LR：Logistic Regression，逻辑回归算法。

实施例中，所使用的实验方法如无特殊说明，均为常规方法，所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1

使用本发明方法预测具有治疗躁郁症活性的药物

图1为本发明药物活性的预测方法的流程图。由图1可知，本发明药物活性的预测方法包括以下步骤：

一、收集人类上市或者在研药物的靶标和药物活性信息

查找药物靶标数据库DGIdb，TTD和DrugBank，收集药物-靶标相关信息。上市或者在研药物活性相关信息是从DrugBank、TTD和ClinicalTrials三个数据库中获得。图2为本发明药物活性的预测方法中获取药物活性以及靶标信息的数据处理流程图，其中，MetaMap，UMLS::Interface和UMLS::Similarity均为疾病描述的标准化过程。由图2可知，一共收集到5,451个药物数以及和这些药物相应的70,369对药物-疾病对(包含了662种疾病)和15213药物-靶标对信息(涉及2353药物靶标基因)。

二、收集疾病关联基因，根据数据库来源给疾病关联基因赋分

从致病基因数据库GAD，OMIM，Clinvar，Orphanet，DisGeNET，INTREPID，GWASdb和HGMD(如表1所示)中收集疾病关联基因，并且剔除无法map到Entrez ID的基因。通过该过程，总共收集到19,283个疾病关联基因作为我们现在研究的对象。

表1八个数据库基本信息

根据统计不同来源数据库疾病关联基因的对应药物的有活性率，对相关数据库进行排序，根据排序结果分别给予不同来源的疾病关联基因高低不同的赋分，对于来自对应药物的有活性率最高的Clinvar数据库的疾病关联基因赋八分，依此类推，对于来自对应药物的有活性率最低的DisGeNET数据的疾病关联基因库赋一分。将来自不同数据库的同一疾病关联基因的得分相加即为该疾病关联基因的疾病相关性得分。如果一个疾病关联基因来源于多个数据库，那么该赋分将进行累加，即：

其中scoreij是指疾病关联基因i在第j个数据库中的得分；i＝1,2,...,m；j＝1,2,...,k，m是指疾病关联基因的数量，k是指数据库的数量。得分越高，那么本方法认为该疾病关联基因与对应疾病的相关性越强。

此外，根据Makino等的工作,我们从人类基因组中鉴别到的7295个ohnolog基因作为与疾病强关联的基因。

三、构建药物靶标与疾病关联基因的特征属性

根据一、二步的结果，构建药物靶标与疾病关联基因的特征属性：参数1，药物靶标内疾病关联基因总分；参数2，药物靶标内疾病关联基因平均分；参数3，疾病强相关基因(ohnolog基因)数量；参数4，疾病强相关基因占药物靶标总数的比例。四个参数的构建全部使用Python计算处理。最后添加一个参数“label”作为我们的标签数据，根据一步中上市或者在研药物的活性相关信息，药物对疾病有活性标记为1，没有活性就标记为0。自此，本方法获得了包含5,451个药物、662种疾病的70,369对药物-疾病的四个特征属性。

四、构建机器学习预测模型

我们的机器学习目标是将药物分为有活性和无活性，因此我们的研究问题是分类问题。本发明选择支持向量机方法(Support vector machine，SVM)，朴素贝叶斯法(

Bayes,NB)和逻辑回归法(Logistic Regression,LR)作为机器预测算法。

支持向量机算法(Support vector machine，SVM)

支持向量机算法可以作为分类和回归问题的第一选择，因为它的目标是创建一个平面边界，使得任意一边的数据都可以被划分的相当均匀的。支持向量机方法首先要构建了一个超平面，使得高维特征空间内两个类的边缘间隔最大化，然后定义扩展到非线性可分的问题上，将数据映射到一个高维空间，使得数据能够更容易的被线性边界分离开来。支持向量机方法根据数据元素选用不同的核函数，我们的数据有4个参数，所以我们的数据是线性不可分的，所以我们径向核函数使用如下方程:

C表示惩罚参数，(xi,yi)分别表示第i个样本的特征和标签，K(xi,xy)表示核函数。在我们的问题中，选用了线性核函数，K(xi,xj)＝xi^Txj，即向量xi与xj的内积。惩罚参数选用的是C＝1。

朴素贝叶斯算法(

Bayes,NB)

朴素贝叶斯算法是一种根据概念原则记性分类的算法，根据事情之间发生概率的条件，即在A时间发生的概率下B事件发生的概率来判断预测结果。由于NB方法从数据的先验概率出发，根据训练参数进行预测，简单高效，可以对药物活性预测模型给出较好的学习结果。

逻辑回归算法(Logistic Regression，LR)

逻辑回归算法用于计算数据元素之间的关系，其特点是利用回归方程的特点，反应不同数据元素对于结果的影响程度，从而建立回归方程用于预测结果，因此可以对我们的药物预测产生良好的预测效果。

同时为了充分利用我们所有数据信息的问题，我们使用了k折交叉验证的方式，即将数据平均随机分成k份，用其中的k-1份用作训练集，另外一份用作测试集，重复多次这样的操作，这样我们可以很好地充份运用数据集中的每一份数据，取平均值作为我们的参考标准。本发明中我们使用10折重复10次的交叉验证的方法。

机器学习建模使用R作为编程语言，版本号为R version 3.3.2(2016-10-31)，三种机器学习算法我们使用R中的“caret”(版本6.0-73)，“e1071”(版本1.6-8)，“klaR”(版本0.6-12)和”pROC”(版本1.9.1)三个数据包来进行机器学习建模。

我们的数据根据之前划分0，1值，将数据分为正样本和负样本，其中1代表正样本，0代表负样本。经过数据清洗，我们数据样本包含1,448个正样本和11,583个负样本，正负样本比例为1:8。同时为了验证我们模型的稳定性，我们将数据进行正负样本1:1,1:3和1:5三种随机抽样(其中负样本为随机抽样)，分别建立三种不同模型来评估模型性能的高低，我们将抽取的数据按照9:1的比例随机分配，9份作为训练集，1分作为测试集。

五、评估模型预测效果

模型评估我们常用评价指标中AUC表示ROC(Receive OperatingCharacteristic)曲线下面积(Area under curve of roc)；ACC表示准确率(Accuracy)，表示被预测的数据样本中，预测正确的比例；Precision为模型的精度，也称准确率，表示被预测为阳性的数据样本中，真正阳性的比例；Recall称为召回率，也称灵敏度(Sensitivity)，表示在真实的阳性样本中能正确预测为阳性的比例；Specificity为特异性，表示正确识别负样本的比例。部分指标计算公式如下：

表2正负样本1:1的评估结果

表3正负样本1:3的评估结果

表4正负样本1:5的评估结果

表2为正负样本比例1:1的评估结果，表3为正负样本比例1:3的评估结果表4为正负样本比例1:5的评估结果。从表2、表3和表4结果中可看出，三种常见的机器学习分类模型(SVM，NB和LR)的整体预测准确率ACC超过77％，具有良好的预测效果，为下一步预测具有治疗躁郁症活性的药物提供了模型基础。

六、预测具有治疗躁郁症活性的药物

图3为构建药物活性预测模型流程图及模型评估结果。把5,451个药物对应不同疾病的四个特征值输入到活性预测模型中(包含SVM，NB和LR三种算法)，进行活性预测。对于每个药物，只要三种算法中的其中任意两个算法的结果预测出抗躁郁症活性，我们就认为该药具有治疗躁郁症的潜在活性。结果显示5,451个药物中有120个药物预测出抗躁郁症活性。通过查询DrugBank、TTD和ClinicalTrials药物活性数据库，120个潜在药物中有50(42％)个药物在临床上有抗躁郁症活性，而在背景数据库中抗躁郁症药物的比例是251/5451(4.6％)，所以本模型预测药物的有效率显著高于背景数据库(超几何检验显著，P值＝1.3e-36)，并且其中的40(33％)个药物已经获批准上市。

实施例2

使用本发明方法预测具有治疗抑郁症活性的药物

本实施例步骤一至步骤五同实施例1，其他步骤如下：

六、预测具有治疗抑郁症活性的药物

把5,451个药物对应不同疾病的四个特征值输入到活性预测模型中(包含SVM，NB，LR三种算法)，进行活性预测。对于每个药物，只要三种算法中的其中任意两个算法的结果预测出抗抑郁症活性，我们就认为该药具有治疗抑郁症的潜在活性。结果显示5,451个药物中有182个药物预测出抗抑郁症活性。通过查询DrugBank、TTD和ClinicalTrials药物活性数据库，182个潜在药物中有68(37％)个药物在临床上有抗抑郁症活性，而在背景数据库中抗抑郁症药物的比例是283/5451(5.2％)，所以本模型预测药物的有效率显著高于背景数据库(超几何检验显著，P值＝1.1e-42)，并且其中的50(27％)个药物已经获批准上市。

实施例3

使用本发明方法预测具有治疗精神分裂活性的药物

本实施例步骤一至步骤五同实施例1，其他步骤如下：

六、预测具有治疗精神分裂活性的药物

把5,451个药物对应不同疾病的四个特征值输入到活性预测模型中(包含SVM，NB，LR三种算法)，进行活性预测。对于每个药物，只要三种算法中的其中任意两个算法的结果预测出抗精神分裂活性，我们就认为该药具有治疗精神分裂的潜在活性。结果显示5,451个药物中有161个药物预测出抗精神分裂活性。通过查询DrugBank、TTD和ClinicalTrials药物活性数据库，161个潜在药物中有78(48％)个药物在临床上有抗精神分裂活性，而在背景数据库中抗精神分裂药物的比例是274/5451(5.0％)，所以本模型预测药物的有效率显著高于背景数据库(超几何检验显著，P值＝3.6e-61)，并且其中的43(27％)个药物已经获批准上市。

最后所应当说明的是，以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种非治疗目的的药物活性的预测方法，其特征在于，包括以下步骤：

(2)查找多个致病基因数据库，收集疾病关联基因，根据疾病关联基因的对应药物的有活性率，给予不同数据库来源的疾病关联基因不同的赋分，来自不同数据库的同一疾病关联基因的得分相加即为该疾病关联基因的疾病相关性得分，其中，所述致病基因数据库包含GAD、OMIM、Clinvar、Orphanet、DisGeNET、INTREPID、GWASdb和HGMD；

其中，所述赋分是指根据统计不同来源数据库疾病关联基因的对应药物的有活性率，对致病基因数据库进行排序，根据排序结果分别给予不同数据库来源的疾病关联基因不同的赋分，任一数据库来源的疾病关联基因的赋分与该数据库的排序位次一致，数据库疾病关联基因的对应药物的有活性率越高，则该数据库来源的疾病关联基因的赋分越高，并将来源于多个数据库的同一疾病关联基因的赋分进行累加；

(4)构建机器学习预测模型；

(5)对步骤(4)中的模型预测效果进行评估；

(6)预测针对特定疾病有活性的药物。

2.根据权利要求1所述的药物活性的预测方法，其特征在于，所述人类上市或者在研药物的靶标信息是从DGIdb、DrugBank和TTD数据库中获得；所述上市或者在研药物的治疗活性信息是从DrugBank、TTD和ClinicalTrials数据库中获得。

3.根据权利要求1所述的药物活性的预测方法，其特征在于，所述评估模型预测效果的评价指标包括AUC、ACC、模型的精度、灵敏度和特异性。

4.根据权利要求1所述的药物活性的预测方法，其特征在于，所述步骤(4)中，选择支持向量机、朴素贝叶斯和逻辑回归三种算法作为机器预测算法构建机器学习预测模型。

5.根据权利要求4所述的药物活性的预测方法，其特征在于，所述机器学习预测模型的构建是以每个药物的特征属性为输入向量，以药物的活性为输出向量。

6.根据权利要求5所述的药物活性的预测方法，其特征在于，所述步骤(4)中，筛选三种算法中的任意两种算法的结果预测出对某一疾病具有活性的药物。

7.权利要求1～6中任一项所述的药物活性的预测方法在药物筛选、重定位、组合用药和新药设计中的应用。