CN107731309B - 一种药物活性的预测方法及其应用 - Google Patents

一种药物活性的预测方法及其应用 Download PDF

Info

Publication number
CN107731309B
CN107731309B CN201710769899.7A CN201710769899A CN107731309B CN 107731309 B CN107731309 B CN 107731309B CN 201710769899 A CN201710769899 A CN 201710769899A CN 107731309 B CN107731309 B CN 107731309B
Authority
CN
China
Prior art keywords
disease
drug
activity
database
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710769899.7A
Other languages
English (en)
Other versions
CN107731309A (zh
Inventor
张红雨
全源
朱丽达
李姜
柳叶茂
杨庆勇
黄清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Baiyao Association Science And Technology Co Ltd
Huazhong Agricultural University
Original Assignee
Wuhan Baiyao Association Science And Technology Co Ltd
Huazhong Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Baiyao Association Science And Technology Co Ltd, Huazhong Agricultural University filed Critical Wuhan Baiyao Association Science And Technology Co Ltd
Priority to CN201710769899.7A priority Critical patent/CN107731309B/zh
Publication of CN107731309A publication Critical patent/CN107731309A/zh
Application granted granted Critical
Publication of CN107731309B publication Critical patent/CN107731309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种药物活性的预测方法及其应用。本发明所述药物活性的预测方法包括以下步骤:1)通过查询药物靶标互作关系数据库信息,收集人类上市或者在研药物的靶标及其治疗活性信息;2)查找多个致病基因数据库,收集疾病关联基因,根据疾病关联基因的对应药物的有活性率,给予不同数据库来源的疾病关联基因不同的赋分;3)构建药物靶标与疾病关联基因的特征属性;4)构建机器学习预测模型;5)对模型预测效果进行评估;6)预测针对特定疾病有活性的药物。本发明提供的药物活性的预测方法能够作为药物发现领域的GPS,高效识别疾病关联基因,为活性药物的预测研发提供有效指导,并为未来药物发现领域提供全新的方法和思路。

Description

一种药物活性的预测方法及其应用
技术领域
本发明属于生物医药技术领域,尤其涉及一种药物活性的预测方法及其应用。
背景技术
药物研究与开发是一项周期长、耗资大、风险高、竞争激烈、利润高的系统工程。据统计,一个新药从概念产生、实验室先导化合物的确定、优化、临床试验到最终上市,需要花费10-15年时间,研发费用高达8亿美元以上(DiMasi,J.A.,Hansen,R.W.,and Grabowski,H.G.(2003).The price of innovation:new estimates of drug developmentcosts.J.Health Econ.22:151-185.),并且这个费用仍在逐年增长,根据塔夫茨药物研发中心(Tufts Center for the Study of Drug Development,CSDD)2014年的报告,这个数字现在已经增长到了25.58亿美元(http://csdd.tufts.edu/news/complete_story/pr_tufts_csdd_2014_cost_study)。然而,如此巨大的投资并没有获得预期的回报。1996年FDA批准上市的新分子药物为53个,2007年的这一数值仅为15,创历史新低(Hughes,B.(2008).2007FDA drug approvals:a year of flux.Nat.Rev.Drug Discov.7:107-109;Editorial.(2008).Raising the game.Nat.Biotech.26:137.)。在针对神经性疾病等复杂疾病的新药研发方面,所遇到的困难比过去更大、失败率更高(白东鲁;沈竞康.(2014).新药研发案例研究:明星药物如何从实验室走向市场.北京:化学工业出版社.)。可以说药物设计和开发面临着前所未有的“高投入、低产出”的艰难境地。
从化学角度来看,药物发挥治疗作用是通过抑制或激活疾病相关的一个或多个靶基因/蛋白来实现的。因此,基因-疾病相关信息对于药物发现是至关重要的。在生命科学中,重点揭示基因-疾病联系的遗传学,为制药工业做出了巨大贡献(kada,Y.,et al.(2014).Genetics of rheumatoid arthritis contributes to biology and drugdiscovery.Nature.506:376-381.)。2015年,Matthew等人在遗传学研究领域顶级杂志《Nature Genetics》中指出遗传致病基因研究有利于提高药物研发效率,作者将临床前(Preclinical)、1~3期临床(Phase I~III)和批准的(Approved)药物信息,与基因的风险性疾病相关信息(复杂疾病相关变异数据库GWASdb和孟德尔遗传病相关的数据库OMIM)相互比较,结果发现药物靶标与待治疗疾病之间有遗传证据支持的比例从2.0%上升到8.2%(Matthew,N.(2015).The support of human genetic evidence for approved drugindi cations.Nat Genet.47(8):856-860.)。因此,我们可以充分利用化学结合遗传学方法,挖掘药物靶标基因与遗传疾病的关联信息,从而提高药物研发的成功率。
然而,以前几乎所有的研究都认为疾病的发生是由于某个单一基因位点的变化,近些年人们才逐渐认识到大多数疾病是由多种致病基因引起的(Hopkins,A.L.(2008).Network pharmacology:the next paradigm in,drug discovery.Nat.Chem.Biol.4:682-690.),而当前已被证实的疾病与单基因变异之间的联系还不足以指导新药研发。鉴于此,我们推测,针对特定疾病相关的多个基因进行遗传信息分析,比针对单个致病基因的研究能够更有效地识别潜在药物,指导活性药物研究开发。基于这一猜想,我们开发了一种针对多基因的新方法来预测药物活性。
发明内容
本发明的目的在于克服现有药物筛选技术的缺陷而提供一种药物活性的预测方法及其应用,本发明的药物活性的预测方法能够针对特定疾病的多个疾病关联基因进行药物开发,具有成本低、效率高、结果精准等优点。
本发明采用的技术方案为:
一种药物活性的预测方法,包括以下步骤:
(1)通过查询药物靶标互作关系数据库信息,收集人类上市或者在研药物的靶标及其治疗活性信息;
(2)查找多个致病基因数据库,收集疾病关联基因,根据疾病关联基因的对应药物的有活性率,给予不同数据库来源的疾病关联基因不同的赋分,来自不同数据库的同一疾病关联基因的得分相加即为该疾病关联基因的疾病相关性得分;
(3)基于步骤(1)中药物靶标及其活性信息和步骤(2)中疾病关联基因的得分构建药物靶标与疾病关联基因的特征属性,所述特征属性包括药物靶标内疾病关联基因总分、药物靶标内疾病关联基因平均分、疾病强相关基因数量以及疾病强相关基因占药物靶标总数的比例;
(4)构建机器学习预测模型;
(5)对步骤(4)中的模型预测效果进行评估;
(6)预测针对特定疾病有活性的药物。
本技术方案中根据疾病关联基因的对应药物的有活性率,给予不同数据库来源的疾病关联基因不同的赋分,能够高效识别与特定疾病有强相关性的多个致病基因,得分越高,则认为该致病基因与对应疾病的相关性越强,能够针对特定疾病的多个疾病关联致病基因进行活性药物开发,从而提高药物开发成功率,具有成本低、效率高、结果精准等优点。
作为本发明所述药物活性的预测方法的优选实施方式,所述赋分是指根据统计不同来源数据库疾病关联基因的对应药物的有活性率,对相关数据库进行排序,根据排序结果分别给予不同数据库来源的疾病关联基因不同的赋分,并将来源于多个数据库的同一疾病关联基因的赋分进行累加,即:
Figure BDA0001394840270000031
其中,Druggability score是指来源于多个数据库的同一疾病关联基因的得分,scoreij是指疾病关联基因i在第j个数据库中的得分;i=1,2,...,m;j=1,2,...,k,m是指疾病关联基因的数量,k是指数据库的数量;得分越高,则认为该致病基因与对应疾病的相关性越强。
本技术方案中对疾病关联基因进行赋分的方法,能够高效识别与特定疾病有强相关性的多个致病基因,并针对特定疾病的基于多个疾病关联致病基因进行活性药物开发,从而提高药物开发成功率。
作为本发明所述药物活性的预测方法的优选实施方式,所述人类上市或者在研药物的靶标信息是从DGIdb、DrugBank和TTD数据库中获得;所述上市或者在研药物的治疗活性信息是从DrugBank、TTD和ClinicalTrials数据库中获得。
作为本发明所述药物活性的预测方法的优选实施方式,所述步骤(2)中的致病基因数据库包含GAD、OMIM、Clinvar、Orphanet、DisGeNET、INTREPID、GWASdb和HGMD。
作为本发明所述药物活性的预测方法的优选实施方式,所述评估模型预测效果的评价指标包括AUC、ACC、MCC、模型的精度、灵敏度和特异性。AUC,表示ROC(ReceiveOperating Characteristic)曲线下面积(Area under curve of roc);ACC即准确率(Accuracy),表示被预测的数据样本中,预测正确的比例;模型的精度(Precision),也称准确率,表示被预测为阳性的数据样本中,真正阳性的比例;召回率(Recall),也称灵敏度(Sensitivity),表示在真实的阳性样本中能正确预测为阳性的比例;特异性(Specificity),表示正确识别负样本的比例;Matthews相关系数(MCC),即Phi相关系数。
部分指标计算公式如下:
Figure BDA0001394840270000041
Figure BDA0001394840270000042
Figure BDA0001394840270000043
Figure BDA0001394840270000044
Figure BDA0001394840270000045
其中,TP(True positive)指正确预测的正样本数量,TN(True negative)指正确预测的负样本的数量,FP(False positive)指错误预测为正样本数量,FN(Falsenegative)指错误预测为负样本的数量。
作为本发明所述药物活性的预测方法的优选实施方式,所述步骤(4)中,选择支持向量机、朴素贝叶斯和逻辑回归三种算法作为机器预测算法构建机器学习预测模型。
作为本发明所述药物活性的预测方法的优选实施方式,所述机器学习预测模型的构建是以每个药物的特征属性为输入向量,以药物的活性为输出向量。
上述技术方案通过构建机器学习预测模型,能够将药物分为“有活性”和“无活性”。
作为本发明所述药物活性的预测方法的优选实施方式,所述步骤(4)中,筛选三种算法中的任意两种算法的结果预测出对某一疾病具有活性的药物。
本发明还提供了所述的药物活性的预测方法在药物筛选、重定位、组合用药和新药设计中应用。
相对于现有技术,本发明的有益效果为:
本发明提出一种药物活性的预测方法,尤其是对疾病关联基因进行赋分的方法,能够高效识别与特定疾病有强相关性的多个致病基因,并针对特定疾病的基于多个疾病关联致病基因进行活性药物开发,从而提高药物开发成功率,为新药的预测研发提供有效指导,具有成本低、效率高、结果精准等优点,该方法在药物的筛选、重定位、组合用药和新药设计等领域具有广阔的应用前景,能够为未来药物发现领域提供全新的方法和思路。
附图说明
图1为本发明药物活性的预测方法的流程图;
图2为本发明药物活性的预测方法中获取药物活性和靶标信息的数据处理流程图;
图3为构建药物活性预测模型流程图及模型评估结果。
具体实施方式
为更好地说明本发明的目的、技术方案和优点,下面将结合附图和具体实施例对本发明进一步说明。本领域技术人员应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
为了更好地理解本发明,下面提供相关的解释和说明:
活性药物:能够治疗疾病的药物,即该药物对该疾病有活性;
疾病关联基因:与特定疾病发病相关的基因;
有活性率:药物真正具有治疗活性的概率
DGIdb:药物靶标数据库;
OMIM:疾病相关基因数据库;
DisGeNET:疾病相关基因数据库;
GAD:遗传相关数据库;
Clinvar:遗传变异数据库;
GWASdb:全基因关联分析数据库;
HGMD:人类基因突变数据库;
INTREPID:疾病相关基因数据库;
Orphanet:稀有疾病相关数据库;
DrugBank:药物靶标数据库;
TTD:药物靶标数据库;
ClinicalTrials:美国临床试验数据库;
SVM:Support Vector Machine,支持向量机算法;
NB:
Figure BDA0001394840270000061
Bayes,朴素贝叶斯算法;
LR:Logistic Regression,逻辑回归算法。
实施例中,所使用的实验方法如无特殊说明,均为常规方法,所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
实施例1
使用本发明方法预测具有治疗躁郁症活性的药物
图1为本发明药物活性的预测方法的流程图。由图1可知,本发明药物活性的预测方法包括以下步骤:
一、收集人类上市或者在研药物的靶标和药物活性信息
查找药物靶标数据库DGIdb,TTD和DrugBank,收集药物-靶标相关信息。上市或者在研药物活性相关信息是从DrugBank、TTD和ClinicalTrials三个数据库中获得。图2为本发明药物活性的预测方法中获取药物活性以及靶标信息的数据处理流程图,其中,MetaMap,UMLS::Interface和UMLS::Similarity均为疾病描述的标准化过程。由图2可知,一共收集到5,451个药物数以及和这些药物相应的70,369对药物-疾病对(包含了662种疾病)和15213药物-靶标对信息(涉及2353药物靶标基因)。
二、收集疾病关联基因,根据数据库来源给疾病关联基因赋分
从致病基因数据库GAD,OMIM,Clinvar,Orphanet,DisGeNET,INTREPID,GWASdb和HGMD(如表1所示)中收集疾病关联基因,并且剔除无法map到Entrez ID的基因。通过该过程,总共收集到19,283个疾病关联基因作为我们现在研究的对象。
表1八个数据库基本信息
Figure BDA0001394840270000071
根据统计不同来源数据库疾病关联基因的对应药物的有活性率,对相关数据库进行排序,根据排序结果分别给予不同来源的疾病关联基因高低不同的赋分,对于来自对应药物的有活性率最高的Clinvar数据库的疾病关联基因赋八分,依此类推,对于来自对应药物的有活性率最低的DisGeNET数据的疾病关联基因库赋一分。将来自不同数据库的同一疾病关联基因的得分相加即为该疾病关联基因的疾病相关性得分。如果一个疾病关联基因来源于多个数据库,那么该赋分将进行累加,即:
Figure BDA0001394840270000081
其中scoreij是指疾病关联基因i在第j个数据库中的得分;i=1,2,...,m;j=1,2,...,k,m是指疾病关联基因的数量,k是指数据库的数量。得分越高,那么本方法认为该疾病关联基因与对应疾病的相关性越强。
此外,根据Makino等的工作,我们从人类基因组中鉴别到的7295个ohnolog基因作为与疾病强关联的基因。
三、构建药物靶标与疾病关联基因的特征属性
根据一、二步的结果,构建药物靶标与疾病关联基因的特征属性:参数1,药物靶标内疾病关联基因总分;参数2,药物靶标内疾病关联基因平均分;参数3,疾病强相关基因(ohnolog基因)数量;参数4,疾病强相关基因占药物靶标总数的比例。四个参数的构建全部使用Python计算处理。最后添加一个参数“label”作为我们的标签数据,根据一步中上市或者在研药物的活性相关信息,药物对疾病有活性标记为1,没有活性就标记为0。自此,本方法获得了包含5,451个药物、662种疾病的70,369对药物-疾病的四个特征属性。
四、构建机器学习预测模型
我们的机器学习目标是将药物分为有活性和无活性,因此我们的研究问题是分类问题。本发明选择支持向量机方法(Support vector machine,SVM),朴素贝叶斯法(
Figure BDA0001394840270000082
Bayes,NB)和逻辑回归法(Logistic Regression,LR)作为机器预测算法。
支持向量机算法(Support vector machine,SVM)
支持向量机算法可以作为分类和回归问题的第一选择,因为它的目标是创建一个平面边界,使得任意一边的数据都可以被划分的相当均匀的。支持向量机方法首先要构建了一个超平面,使得高维特征空间内两个类的边缘间隔最大化,然后定义扩展到非线性可分的问题上,将数据映射到一个高维空间,使得数据能够更容易的被线性边界分离开来。支持向量机方法根据数据元素选用不同的核函数,我们的数据有4个参数,所以我们的数据是线性不可分的,所以我们径向核函数使用如下方程:
Figure BDA0001394840270000091
Figure BDA0001394840270000092
C表示惩罚参数,(xi,yi)分别表示第i个样本的特征和标签,K(xi,xy)表示核函数。在我们的问题中,选用了线性核函数,K(xi,xj)=xi^Txj,即向量xi与xj的内积。惩罚参数选用的是C=1。
朴素贝叶斯算法(
Figure BDA0001394840270000093
Bayes,NB)
朴素贝叶斯算法是一种根据概念原则记性分类的算法,根据事情之间发生概率的条件,即在A时间发生的概率下B事件发生的概率来判断预测结果。由于NB方法从数据的先验概率出发,根据训练参数进行预测,简单高效,可以对药物活性预测模型给出较好的学习结果。
逻辑回归算法(Logistic Regression,LR)
逻辑回归算法用于计算数据元素之间的关系,其特点是利用回归方程的特点,反应不同数据元素对于结果的影响程度,从而建立回归方程用于预测结果,因此可以对我们的药物预测产生良好的预测效果。
同时为了充分利用我们所有数据信息的问题,我们使用了k折交叉验证的方式,即将数据平均随机分成k份,用其中的k-1份用作训练集,另外一份用作测试集,重复多次这样的操作,这样我们可以很好地充份运用数据集中的每一份数据,取平均值作为我们的参考标准。本发明中我们使用10折重复10次的交叉验证的方法。
机器学习建模使用R作为编程语言,版本号为R version 3.3.2(2016-10-31),三种机器学习算法我们使用R中的“caret”(版本6.0-73),“e1071”(版本1.6-8),“klaR”(版本0.6-12)和”pROC”(版本1.9.1)三个数据包来进行机器学习建模。
我们的数据根据之前划分0,1值,将数据分为正样本和负样本,其中1代表正样本,0代表负样本。经过数据清洗,我们数据样本包含1,448个正样本和11,583个负样本,正负样本比例为1:8。同时为了验证我们模型的稳定性,我们将数据进行正负样本1:1,1:3和1:5三种随机抽样(其中负样本为随机抽样),分别建立三种不同模型来评估模型性能的高低,我们将抽取的数据按照9:1的比例随机分配,9份作为训练集,1分作为测试集。
五、评估模型预测效果
模型评估我们常用评价指标中AUC表示ROC(Receive OperatingCharacteristic)曲线下面积(Area under curve of roc);ACC表示准确率(Accuracy),表示被预测的数据样本中,预测正确的比例;Precision为模型的精度,也称准确率,表示被预测为阳性的数据样本中,真正阳性的比例;Recall称为召回率,也称灵敏度(Sensitivity),表示在真实的阳性样本中能正确预测为阳性的比例;Specificity为特异性,表示正确识别负样本的比例。部分指标计算公式如下:
Figure BDA0001394840270000101
Figure BDA0001394840270000102
Figure BDA0001394840270000103
Figure BDA0001394840270000104
其中,TP(True positive)指正确预测的正样本数量,TN(True negative)指正确预测的负样本的数量,FP(False positive)指错误预测为正样本数量,FN(Falsenegative)指错误预测为负样本的数量。
表2正负样本1:1的评估结果
Figure BDA0001394840270000106
表3正负样本1:3的评估结果
Figure BDA0001394840270000111
表4正负样本1:5的评估结果
Figure BDA0001394840270000112
表2为正负样本比例1:1的评估结果,表3为正负样本比例1:3的评估结果表4为正负样本比例1:5的评估结果。从表2、表3和表4结果中可看出,三种常见的机器学习分类模型(SVM,NB和LR)的整体预测准确率ACC超过77%,具有良好的预测效果,为下一步预测具有治疗躁郁症活性的药物提供了模型基础。
六、预测具有治疗躁郁症活性的药物
图3为构建药物活性预测模型流程图及模型评估结果。把5,451个药物对应不同疾病的四个特征值输入到活性预测模型中(包含SVM,NB和LR三种算法),进行活性预测。对于每个药物,只要三种算法中的其中任意两个算法的结果预测出抗躁郁症活性,我们就认为该药具有治疗躁郁症的潜在活性。结果显示5,451个药物中有120个药物预测出抗躁郁症活性。通过查询DrugBank、TTD和ClinicalTrials药物活性数据库,120个潜在药物中有50(42%)个药物在临床上有抗躁郁症活性,而在背景数据库中抗躁郁症药物的比例是251/5451(4.6%),所以本模型预测药物的有效率显著高于背景数据库(超几何检验显著,P值=1.3e-36),并且其中的40(33%)个药物已经获批准上市。
实施例2
使用本发明方法预测具有治疗抑郁症活性的药物
本实施例步骤一至步骤五同实施例1,其他步骤如下:
六、预测具有治疗抑郁症活性的药物
把5,451个药物对应不同疾病的四个特征值输入到活性预测模型中(包含SVM,NB,LR三种算法),进行活性预测。对于每个药物,只要三种算法中的其中任意两个算法的结果预测出抗抑郁症活性,我们就认为该药具有治疗抑郁症的潜在活性。结果显示5,451个药物中有182个药物预测出抗抑郁症活性。通过查询DrugBank、TTD和ClinicalTrials药物活性数据库,182个潜在药物中有68(37%)个药物在临床上有抗抑郁症活性,而在背景数据库中抗抑郁症药物的比例是283/5451(5.2%),所以本模型预测药物的有效率显著高于背景数据库(超几何检验显著,P值=1.1e-42),并且其中的50(27%)个药物已经获批准上市。
实施例3
使用本发明方法预测具有治疗精神分裂活性的药物
本实施例步骤一至步骤五同实施例1,其他步骤如下:
六、预测具有治疗精神分裂活性的药物
把5,451个药物对应不同疾病的四个特征值输入到活性预测模型中(包含SVM,NB,LR三种算法),进行活性预测。对于每个药物,只要三种算法中的其中任意两个算法的结果预测出抗精神分裂活性,我们就认为该药具有治疗精神分裂的潜在活性。结果显示5,451个药物中有161个药物预测出抗精神分裂活性。通过查询DrugBank、TTD和ClinicalTrials药物活性数据库,161个潜在药物中有78(48%)个药物在临床上有抗精神分裂活性,而在背景数据库中抗精神分裂药物的比例是274/5451(5.0%),所以本模型预测药物的有效率显著高于背景数据库(超几何检验显著,P值=3.6e-61),并且其中的43(27%)个药物已经获批准上市。
最后所应当说明的是,以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (7)

1.一种非治疗目的的药物活性的预测方法,其特征在于,包括以下步骤:
(1)通过查询药物靶标互作关系数据库信息,收集人类上市或者在研药物的靶标及其治疗活性信息;
(2)查找多个致病基因数据库,收集疾病关联基因,根据疾病关联基因的对应药物的有活性率,给予不同数据库来源的疾病关联基因不同的赋分,来自不同数据库的同一疾病关联基因的得分相加即为该疾病关联基因的疾病相关性得分,其中,所述致病基因数据库包含GAD、OMIM、Clinvar、Orphanet、DisGeNET、INTREPID、GWASdb和HGMD;
其中,所述赋分是指根据统计不同来源数据库疾病关联基因的对应药物的有活性率,对致病基因数据库进行排序,根据排序结果分别给予不同数据库来源的疾病关联基因不同的赋分,任一数据库来源的疾病关联基因的赋分与该数据库的排序位次一致,数据库疾病关联基因的对应药物的有活性率越高,则该数据库来源的疾病关联基因的赋分越高,并将来源于多个数据库的同一疾病关联基因的赋分进行累加;
(3)基于步骤(1)中药物靶标及其活性信息和步骤(2)中疾病关联基因的得分构建药物靶标与疾病关联基因的特征属性,所述特征属性包括药物靶标内疾病关联基因总分、药物靶标内疾病关联基因平均分、疾病强相关基因数量以及疾病强相关基因占药物靶标总数的比例;
(4)构建机器学习预测模型;
(5)对步骤(4)中的模型预测效果进行评估;
(6)预测针对特定疾病有活性的药物。
2.根据权利要求1所述的药物活性的预测方法,其特征在于,所述人类上市或者在研药物的靶标信息是从DGIdb、DrugBank和TTD数据库中获得;所述上市或者在研药物的治疗活性信息是从DrugBank、TTD和ClinicalTrials数据库中获得。
3.根据权利要求1所述的药物活性的预测方法,其特征在于,所述评估模型预测效果的评价指标包括AUC、ACC、模型的精度、灵敏度和特异性。
4.根据权利要求1所述的药物活性的预测方法,其特征在于,所述步骤(4)中,选择支持向量机、朴素贝叶斯和逻辑回归三种算法作为机器预测算法构建机器学习预测模型。
5.根据权利要求4所述的药物活性的预测方法,其特征在于,所述机器学习预测模型的构建是以每个药物的特征属性为输入向量,以药物的活性为输出向量。
6.根据权利要求5所述的药物活性的预测方法,其特征在于,所述步骤(4)中,筛选三种算法中的任意两种算法的结果预测出对某一疾病具有活性的药物。
7.权利要求1~6中任一项所述的药物活性的预测方法在药物筛选、重定位、组合用药和新药设计中的应用。
CN201710769899.7A 2017-08-31 2017-08-31 一种药物活性的预测方法及其应用 Active CN107731309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710769899.7A CN107731309B (zh) 2017-08-31 2017-08-31 一种药物活性的预测方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710769899.7A CN107731309B (zh) 2017-08-31 2017-08-31 一种药物活性的预测方法及其应用

Publications (2)

Publication Number Publication Date
CN107731309A CN107731309A (zh) 2018-02-23
CN107731309B true CN107731309B (zh) 2020-01-21

Family

ID=61204802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710769899.7A Active CN107731309B (zh) 2017-08-31 2017-08-31 一种药物活性的预测方法及其应用

Country Status (1)

Country Link
CN (1) CN107731309B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509765A (zh) * 2018-03-26 2018-09-07 中山大学 一种基于fm-n-dnn的药物靶标相互作用预测方法
CN109273098B (zh) * 2018-10-23 2024-05-14 平安科技(深圳)有限公司 一种基于智能决策的药品疗效预测方法和装置
CN109658984B (zh) * 2018-12-18 2021-12-03 北京深度制耀科技有限公司 一种信息推荐和信息推荐模型训练方法、相关装置
CN109767836A (zh) * 2018-12-29 2019-05-17 上海亲看慧智能科技有限公司 一种医学诊断人工智能系统、装置及其自我学习方法
CN109935341B (zh) * 2019-04-09 2021-04-13 北京深度制耀科技有限公司 一种药物新适应症的预测方法及装置
CN111951886A (zh) * 2019-05-17 2020-11-17 天津科技大学 一种基于贝叶斯归纳型矩阵补全的药物重定位预测方法
CN111081321B (zh) * 2019-12-18 2023-10-31 江南大学 一种cns药物关键特征识别方法
CN113066525B (zh) * 2021-03-30 2023-06-23 中山大学 一种基于集成学习与混合神经网络的多靶标药物筛选方法
CN113345535A (zh) * 2021-06-04 2021-09-03 南开大学 保持药物化学性质与功能一致性的药物靶标预测方法及系统
CN115083519A (zh) * 2022-05-18 2022-09-20 北京大学第三医院(北京大学第三临床医学院) 一种基于多来源基因数据库的基因相关特征融合预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160206A (zh) * 2015-10-08 2015-12-16 中国科学院数学与系统科学研究院 一种预测药物的蛋白质相互作用靶点的方法和系统
CN105740626A (zh) * 2016-02-01 2016-07-06 华中农业大学 一种基于机器学习的药物活性预测方法
CN106055921A (zh) * 2016-05-27 2016-10-26 华中农业大学 基于基因表达和药物靶标的药物活性预测与筛选方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110201529A1 (en) * 2010-02-12 2011-08-18 Liang-Tsung Huang System for analyzing and screening disease related genes using microarray database
KR101776094B1 (ko) * 2015-02-10 2017-09-07 가천대학교 산학협력단 네트워크 기반의 약제 효능 평가 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160206A (zh) * 2015-10-08 2015-12-16 中国科学院数学与系统科学研究院 一种预测药物的蛋白质相互作用靶点的方法和系统
CN105740626A (zh) * 2016-02-01 2016-07-06 华中农业大学 一种基于机器学习的药物活性预测方法
CN106055921A (zh) * 2016-05-27 2016-10-26 华中农业大学 基于基因表达和药物靶标的药物活性预测与筛选方法

Also Published As

Publication number Publication date
CN107731309A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN107731309B (zh) 一种药物活性的预测方法及其应用
Singh et al. Feature selection of gene expression data for cancer classification: a review
Vitsios et al. Mantis-ml: disease-agnostic gene prioritization from high-throughput genomic screens by stochastic semi-supervised learning
Meng et al. Gene selection integrated with biological knowledge for plant stress response using neighborhood system and rough set theory
WO2022046753A1 (en) Artificial intelligence engine for generating candidate drugs using experimental validation and peptide drug optimization
Quan et al. Systems chemical genetics-based drug discovery: prioritizing agents targeting multiple/reliable disease-associated genes as drug candidates
Arowolo et al. A genetic algorithm approach for predicting ribonucleic acid sequencing data classification using KNN and decision tree
CN109155150B (zh) 从基因型测定表型
Pavel et al. The potential of a data centred approach & knowledge graph data representation in chemical safety and drug design
Ray et al. Genetic algorithm for assigning weights to gene expressions using functional annotations
Carreiro et al. Prognostic prediction through biclustering-based classification of clinical gene expression time series
Pérez-Castillo et al. Toward the computer-aided discovery of FabH inhibitors. Do predictive QSAR models ensure high quality virtual screening performance?
Le et al. An ensemble learning-based method for prediction of novel disease-microRNA associations
Bhadra et al. Unsupervised feature selection using an integrated strategy of hierarchical clustering with singular value decomposition: an integrative biomarker discovery method with application to acute myeloid leukemia
Liu et al. Computational intelligence and bioinformatics
Husna et al. The drug design for diabetes mellitus type II using rotation forest ensemble classifier
Ward et al. Benchmarking deep graph generative models for optimizing new drug molecules for covid-19
Garzon et al. Deep structure of DNA for genomic analysis
Tardu et al. Milp-hyperbox classification for structure-based drug design in the discovery of small molecule inhibitors of Sirtuin6
Ye Survey of in-silico prediction of anticancer peptides
Wang et al. PAMPred: A hierarchical evolutionary ensemble framework for identifying plant antimicrobial peptides
Sarkar Improving predictive modeling in high dimensional, heterogeneous and sparse health care data
Simon et al. A machine learning based study for the prediction of drug-target interaction using protein and drug molecule descriptors
Kaur et al. Prediction of peptide hormones using an ensemble of machine learning and similarity‐based methods
Su et al. Structured output prediction of anti-cancer drug activity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant