CN105740626A - 一种基于机器学习的药物活性预测方法 - Google Patents

一种基于机器学习的药物活性预测方法 Download PDF

Info

Publication number
CN105740626A
CN105740626A CN201610067573.5A CN201610067573A CN105740626A CN 105740626 A CN105740626 A CN 105740626A CN 201610067573 A CN201610067573 A CN 201610067573A CN 105740626 A CN105740626 A CN 105740626A
Authority
CN
China
Prior art keywords
sample
medicine
hereditary
model
drug
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610067573.5A
Other languages
English (en)
Other versions
CN105740626B (zh
Inventor
张红雨
朱丽达
罗志辉
全源
朱强
杨庆勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Agricultural University
Original Assignee
Huazhong Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Agricultural University filed Critical Huazhong Agricultural University
Priority to CN201610067573.5A priority Critical patent/CN105740626B/zh
Publication of CN105740626A publication Critical patent/CN105740626A/zh
Application granted granted Critical
Publication of CN105740626B publication Critical patent/CN105740626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Abstract

本发明公开了一种基于机器学习的药物活性预测方法,包括以下步骤:(1)获取样本药物对应的药物靶标;(2)获取遗传性疾病对应的相关基因信息;(3)从步骤(1)得到的药物靶标中筛选出与遗传性疾病关联的靶标基因;(4)获取每个样本药物的特征属性,所述特征属性为样本药物对应的药物靶标与遗传性疾病关联的靶标基因的相关关系;以每个样本药物的特征属性为输入向量,以样本药物的活性为输出,建立模型;(5)获取待测药物的特征属性,带入步骤(4)中的模型,即可预测待测药物的活性。本发明的药物筛选方法成本低、效率高,该方法在药物的重定位和结构优化、设计领域具有广阔的应用前景。

Description

一种基于机器学习的药物活性预测方法
技术领域
本发明属于生物医药技术领域,尤其涉及一种基于机器学习的药物活性预测方法。
背景技术
药物研究与开发是一项周期长、耗资大、风险高、竞争激烈、利润高的系统工程。据统计,一个新药从概念产生、实验室先导化合物的确定、优化、临床试验到最终上市,需要花费10-15年时间,研发费用高达8亿美元以上(DiMasi,J.A.,Hansen,R.W.,andGrabowski,H.G.(2003).Thepriceofinnovation:newestimatesofdrugdevelopmentcosts.J.HealthEcon.22:151-185.),并且这个费用仍在逐年增长,根据塔夫茨药物研发中心(TuftsCenterfortheStudyofDrugDevelopment,CSDD)2014年的报告,这个数字现在已经增长到了25.58亿美元(http://csdd.tufts.edu/news/complete_story/pr_tufts_csdd_2014_cost_study)。然而,如此巨大的投资并没有获得预期的回报。1996年FDA批准上市的新分子药物为53个,2007年的这一数值仅为15,创历史新低(Hughes,B.(2008).2007FDAdrugapprovals:ayearofflux.Nat.Rev.DrugDiscov.7:107–109;Editorial.(2008).Raisingthegame.Nat.Biotech.26:137.)。在针对精神分裂等遗传性复杂疾病的新药研发方面,所遇到的困难比过去更大、失败率更高(王真真;张有志,李云峰.(2013).抗精神分裂症药物的研究进展.军事医学37(8):628-640.)。可以说药物设计和开发面临着前所未有的“高投入、低产出”的艰难境地。
随着强调整体联系和动态过程并整合现代生物学、化学、药理学和计算机信息学最新成果的新兴学科的兴起,如系统生物学(Ideker,T.,Galitski,T.,Hood,L.(2001).Anewapproachtodecodinglife:systemsbiology.Annu.Rev.GenomicsHum.Genet.2:343–372.)、蛋白质组学(Aebersold,R.andMann,M.(2003).MassSpectrometry–basedproteomics.Nature422:198–207.)、代谢组学(Rochfort,S.(2005).Metabolomicsreviewed:anew“omics”platformtechnologyforsystemsbiologyandimplicationsfornaturalproductsresearch.J.Nat.Prod.68:1813–1820.)、化学生物学(周兴旺.(2003).化学生物学新前沿——化学蛋白质组学.化学进展15:518–522.)、生物信息学(计算机生物学)(8–522.)等,科学家开始从新的视角看待药物研发。2015年,Matthew等人在遗传学研究领域顶级杂志《NatureGenetics》中指出遗传致病基因研究有利于提高药物研发效率,作者将临床前(Preclinical)、1~3期临床(PhaseI~III)和批准的(Approved)药物信息,与基因的风险性疾病相关信息(复杂疾病相关变异数据库GWASdb和孟德尔遗传病相关的数据库OMIM)相互比较,结果发现药物靶标与待治疗疾病之间有遗传证据支持的比例从2.0%上升到8.2%。上述研究结果表明,我们可以充分利用药物靶标基因与遗传疾病的关联信息,从而提高药物研发的成功率(Matthew,N.(2015).Thesupportofhumangeneticevidenceforapproveddrugindications.NatGenet.47(8):856-60.)。
发明内容
本发明的目的在于克服现有药物筛选技术的缺陷而提供一种基于机器学习的药物活性预测方法,本发明的药物预测方法可用于药物筛选且具有成本低、效率高的优点,该方法在药物的重定位和结构优化、设计领域具有广阔的应用前景。
本发明采用的技术方案为:一种基于机器学习的药物活性预测方法,包括以下步骤:
(1)根据药物靶标数据库中的信息,获取样本药物对应的药物靶标;
(2)根据遗传病相关数据库中的信息,获取遗传性疾病对应的相关基因信息;
(3)根据步骤(2)中获取的遗传性疾病对应的相关基因信息从步骤(1)得到的药物靶标中筛选出与遗传性疾病关联的靶标基因;
(4)获取每个样本药物的特征属性,所述特征属性为样本药物对应的药物靶标与遗传性疾病关联的靶标基因的相关关系;
以每个样本药物的特征属性为输入向量,以样本药物的活性为输出,建立模型;
(5)根据步骤(1)、(2)和(3)获取待测药物的特征属性,带入步骤(4)中的模型,即可预测待测药物的活性。
在上述技术方案中,所述步骤(1)中,药物靶标含所有类型的靶标,不限基因,蛋白,核糖。这些药物靶标可以分为三类:1与遗传性疾病强关联靶标;2与遗传性疾病相关靶标;3与遗传性疾病无关靶标。
优选地,所述与遗传性疾病关联的靶标基因包括遗传性疾病强相关基因和遗传性疾病相关基因;所述特征属性是指药物对应的药物靶标中遗传性疾病强相关基因的个数、遗传性疾病强相关基因占该药物对应的药物靶标总数的比例、遗传性疾病相关基因的个数以及遗传性疾病相关基因占该药物对应的药物靶标总数的比例。
优选地,所述步骤(1)中的药物靶标数据库为DGIdb数据库。
优选地,所述步骤(2)中的遗传病相关数据库包含SZGene、PDGene、GAD、DiseaseInt、GWASdb和OMIM。
优选地,所述步骤(4)中,通过支持向量机方法、朴素贝叶斯法或逻辑回归法建立模型。
更优选地,通过支持向量机方法建立模型,所述支持向量机方法为C-分类机方法,所述模型为:
max α ( Σ i = 1 n α i - 1 2 Σ i = 1 n Σ j = 1 n α i α j y i y j K ( x i , x j ) )
s . t . 0 ≤ α i ≤ C , Σ i = 1 n α i y i = 0
其中C表示惩罚参数,其值为1;(xi,yi)分别表示第i个样品的特征和标签,K(xi,xj)表示核函数,所述核函数为线性核函数,即
更优选地,所述步骤(3)中,通过逻辑回归法建立模型,所述模型为:
l n p 1 - p = β 0 + Σ j = 1 k β j X j
其中p=P{Y=1|X1,X2,…,Xk},1-p=P{Y=0|X1,X2,…,Xk},表示p的逻辑变换。这里的模型指的是逻辑回归法的建模原理。
优选地,所述样本药物包括作为正样本的样本药物和作为负样本的样本药物,所述正样本与待测药物的治疗疾病相同,所述负样本与待测药物的治疗疾病不同,所述样本药物均为活性药物。
更优选地,所述正样本和负样本的数量相同。
相对于现有技术,本发明的有益效果为:
本发明提出通过分析药物靶标与遗传性疾病相关基因的联系,采用机器学习方法对药物活性进行预测,能够有效地提高药物研发的效率;
本发明的药物预测方法可用于药物筛选且具有成本低、效率高的优点,该方法在药物的重定位和结构优化、设计领域具有广阔的应用前景。
附图说明
图1为本发明基于机器学习的药物活性预测方法的一个实施例的流程图;
图2为本发明基于机器学习的药物活性预测方法的一个实施例的流程示意图。
具体实施方式
为更好的说明本发明的目的、技术方案和优点,下面将结合具体实施例对本发明作进一步说明。
为了更好地理解本发明,下面提供相关的解释和说明:
DGIdb表示药物靶标数据库;
PPI:蛋白质相互作用网络;
活性药物:能够治疗疾病的药物,即该药物对该疾病有活性。
疾病强关联基因:用meta分析得到的遗传性疾病强关联基因,也称为遗传性疾病强相关基因;
疾病关联基因:遗传性疾病关联基因,也称为遗传性疾病相关基因;
OMIM:疾病相关基因数据库;
DiseaseInt:疾病相关基因数据库;
GAD:遗传相关数据库;
GWASdb:全基因关联分析数据库;
SVM:SupportVectorMachine,支持向量机方法;
NB:Bayes,朴素贝叶斯方法;
LR:LogisticRegression,逻辑回归模型。
图1为本发明基于机器学习的药物活性预测方法的一个实施例的流程图,本发明基于机器学习的药物活性预测方法,包括以下步骤:
S1、根据药物靶标数据库中的信息,获取样本药物对应的药物靶标;
其中,药物靶标数据库为DGIdb数据库;所述样本药物包括作为正样本的样本药物和作为负样本的样本药物,所述正样本为与待测药物的治疗疾病相同的活性药物,所述负样本为与待测药物的治疗疾病不同的活性药物;所述正样本药物和负样本药物的数量相同;且优选地,正样本药物选取为根据DGIdb数据库获取的所有能够治疗目标疾病的活性药物,这里的目标疾病即待测药物的治疗疾病;在这些作为样本数据的样本药物中,选择部分(如样本药物的三分之二)作为训练样本,用于建立预测模型;剩余部分(如样本药物的三分之一)作为预测样本,用于对所建模型进行评价和验证;
S2、根据遗传病相关数据库中的信息,获取遗传性疾病对应的相关基因信息;
为了获取更为准确、全面的信息,所述遗传学数据库优选为SZGene、PDGene、GAD、DiseaseInt、GWASdb和OMIM;遗传性疾病关联的基因是分别从这些遗传学数据库中获取网站数据,然后根据疾病和基因的关联分析而得来的。
S3、根据S2中获取的遗传性疾病对应的相关基因信息从步骤S1得到的药物靶标中筛选出与遗传性疾病关联的靶标基因;
所述根据S2中获取的遗传性疾病对应的相关基因包括遗传性疾病强相关基因和遗传性疾病相关基因;其中遗传性疾病强相关基因是由SZGene和PDGene数据库提供的。所述遗传性疾病关联的靶标基因包括药物靶标中的遗传性疾病强相关基因和遗传性疾病相关基因。
遗传性疾病对应的相关基因通过如下方式获取:首先,从GWASdb(http://jjwanglab.org/gwasdb)和NHGRIGWASCatalog(http://www.genome.gov/GWAStudies/)中收集与疾病相关是所有GWAS位点;通过HapMap(http://hapmap.ncbi.nlm.nih.gov/)数据库中的连锁不平衡信息找到与这些GWAS位点遗传强相关的LD(linkagedisequilibrium)位点(r2≥0.5);汇总这些突变位点,一方面通过物理上,如突变位点的上下游5kb覆盖了某个基因的编码区,从而定位到遗传性疾病对应的相关基因,另一方面从表达调控上的关联,如expressionquantitativetraitloci(eQTL)和DNaseI–hypersensitivesite(DHS)peak中提供的表达调控基因对中找到遗传性疾病对应的相关基因。其中eQTL信息来自eQTLresourcesfromtheGilad/Pritchardgroup(http://eqtl.uchicago.edu/Home.html)和RegulomeDB(http://www.regulomedb.org/)数据库。最后,利用GAD、DiseaseInt和OMIM等遗传学数据库中提供的信息,根据获取的遗传性疾病对应的相关基因和遗传性疾病强相关基因,即可获取遗传性疾病相关基因。
S4、获取每个样本药物的特征属性,所述特征属性为样本药物对应的药物靶标与遗传性疾病关联的靶标基因的相关关系;
以每个样本药物的特征属性为输入向量,以样本药物的活性为输出,建立模型。优选地,其中药物活性用0/1表示:0代表没活性,1代表有活性;即0代表该药不能治病,1代表该药能够治疗该疾病。
所述特征属性是指药物对应的药物靶标中遗传性疾病强相关基因的个数、遗传性疾病强相关基因占该药物对应的药物靶标总数的比例、遗传性疾病相关基因的个数以及遗传性疾病相关基因占该药物对应的药物靶标总数的比例;
所述模型可通过支持向量机方法、朴素贝叶斯法或逻辑回归法建立;
以支持向量机方法为例,采用C-分类机(C-SVM),即下述最优化问题:
max α ( Σ i = 1 n α i - 1 2 Σ i = 1 n Σ j = 1 n α i α j y i y j K ( x i , x j ) )
s . t . 0 ≤ α i ≤ C , Σ i = 1 n α i y i = 0
其中C表示惩罚参数,(xi,yi)分别表示第i个样品的特征和标签,K(xi,xj)表示核函数;
决定支持向量机建模性能的相关参数主要包括:核函数、核函数的参数、惩罚系数C及不敏感损失函数中的ε;核函数选用线性核函数,即向量xi与xj的内积,因为它具有较高的学习效率和学习速率;其他参数通过“格点搜索”方法确定;参数搜索范围如下:惩罚系数C:0-1024;ε:0-1024;搜索方法为“留一法”(或3,5,10折)交叉检验的最小均方根误差;“留一法”(或3,5,10折)交叉检验是指从建模样本中每次剔除总样本的1个样本做测试集,用其余的样本做训练集建模,来预测测试集,这样循环总样本数,即可得到一个交叉验证后的预测值评价模型性能的好坏;通过多次重复抽样得到正负样本为1:1的建模样本,应用支持向量机原理,建立相应的预测模型,确定最终预测模型。
S5、根据步骤S1、S2和S3获取待测药物的特征属性,带入步骤S4中的模型,即可预测待测药物的活性。
实施例1
使用本发明的方法对治疗精神分裂的药物活性进行预测
一、收集人类成功上市或者在研药物及其靶标
查找药物靶标数据库(包含DGIdb:http://dgidb.genome.wustl.edu/),得到一批有药物对应的成药靶标。本实验以DGIdb为出发点,找到有明确药物作用活性(药物对应治疗疾病)的靶标共2,271个,以及与上述靶标对应的3,678个药物。
二、查找精神分裂症遗传信息相关基因
精神分裂症遗传信息相关基因由两部分信息组合构成。第一部分是通过SZGene(http://www.szgene.org/)数据库查找到精神分裂相关基因共940个,第二部分是通过GWASdb(http://jjwanglab.org/gwasdb)、GAD(http://geneticassociationdb.nih.gov/)、DiseaseInt(http://www.yulab.org/DiseaseInt/)和OMIM(http://www.omim.org),中与精神分裂相关的基因合并得到1894个。综合这几部分基因后,其中包含遗传性疾病强相关基因(即图2中的疾病强关联基因)43个;其余遗传性疾病相关基因(即图2中的疾病关联基因)共2243个。在图2中,由于遗传性疾病相关基因的相关成因较复杂,有可能是突变后的蛋白产物,有时候是基因本身,但是数据库中仅仅注释的是关键基因,所以标注的药物靶标中被注释的也只有基因。
三、药物靶标与疾病关联的基因的特征属性
上述药物活性预测方法中,特征属性包括:药物对应靶标中遗传性疾病强相关基因的个数,药物靶标中遗传性疾病强相关基因的个数占该药物对应靶标总数的比例,药物靶标中遗传性疾病相关基因的个数,药物靶标中遗传性疾病相关基因的个数占该药物对应靶标总数的比例。
四、建立预测模型
药物靶标的遗传性特征属性分别作为特征向量。
在DGIdb中查找已证实具有治疗精神分裂的活性的药物(通过TTD(http://bidd.nus.edu.sg/group/ttd/ttd.asp);Drugbank(http://www.drugbank.ca/);ClinicalTrails(http://www.clinicaltrials.gov)对药物的活性进行注释)有253个,作为正样本。在所有活性的药物中,其余3,425个非治疗精神分裂的活性的药物为负样本。
支持向量机方法(SupportVectorMachine,SVM)建立的机器学习模型可以处理非线性的小样本数据。它针对线性可分的情况进行分析,对于线性不可分的情况,它使用核技巧(kerneltrick)将低维空间中线性不可分样本转化为高维特征空间中使其线性可分。由于它的分类间隔面仅依赖于部分的支持向量(supportvector),复杂程度根据向量决定,所以应用SVM方法建立的模型具有较好的泛化和推广能力,可以对药物活性预测模型给出较好的学习结果。
本文所采用的是支持向量机中的C-分类机(C-SVM),即下述最优化问题:
max α ( Σ i = 1 n α i - 1 2 Σ i = 1 n Σ j = 1 n α i α j y i y j K ( x i , x j ) )
s . t . 0 ≤ α i ≤ C , Σ i = 1 n α i y i = 0
其中C表示惩罚参数,(xi,yi)分别表示第i个样品的特征和标签,K(xi,xj)表示核函数。
在我们的问题中,选用了线性核函数,即向量xi与xj的内积。惩罚参数选用的是C=1。
朴素贝叶斯(Bayes,NB)法是基于贝叶斯定理与特征条件独立假设的分类方法。由于NB方法从数据的先验概率出发,根据训练参数进行预测,简单高效。应用NB方法建立的模型具有较好的推广能力,可以对药物活性预测模型给出较好的学习结果。
逻辑回归(LogisticRegression,LR)模型是通过分类标签的后验概率的逻辑变换与其特征之间的回归建立的一种分类方法,其特点的是利用回归方程的优点,能够反映特征的重要性,而且有显著的方程表达式。LR模型能较好应用于药物活性预测。
LR模型即是如下的回归模型
l n p 1 - p = β 0 + Σ j = 1 k β j X j
其中p=P{Y=1|X1,X2,…,Xk},1-p=P{Y=0|X1,X2,…,Xk},表示p的逻辑(logit)变换。本质上是p的逻辑变换与特征X之间线性方程。
为了评价模型的预测能力,我们选用k折交叉验证(k-foldcrossvalidation)及留一法(Leaveoneout,LOO)进行模型预测能力的评估。
k折交叉验证是把样本随机分成k组近似相等容量的样本,保留其中一组当作测试样本,其余k-1组样本当作训练样本。交叉验证重复k次,每组样本都验证一次,平均k次的验证结果作为评价指标。而留一法是每次留下一个样本做测试,其余样本训练,重复进行,每个样本都测试一次,最后平均这些验证的结果作为评价指标。
为了能让正负样本均衡及评估模型的预测能力,我们采取了如下策略:先从负样本中随机抽取253个负样本,与253个正样本组成一个数据集,然后基于此数据分别采用SVM、NB及LR模型进行3折、5折、10折及留一法交叉验证,得到评价模型的指标;再重复上述步骤1,000次,用这些指标的平均值来评估模型的预测效果。
五、评估预测效果
我们利用三种模型建立预测模型,分别采取3折、5折、10折和留一法(LOO)的交叉验证,重复1,000次的结果进行评估(结果详见表1)。
表1三种分类器分别在3折、5折、10折和留一法交叉验证重复1,000次的平均值
其中AUC表示ROC(ReceiveOperatingCharacteristic)曲线下面积(Areaundercurveofroc);ACC表示准确率(Accuracy),表示被预测的样品中,预测正确的比例;Precision为模型的精度,也称命中率,表示被预测为阳性的样品中,真正阳性的比例;Recall称为召回率,也称灵敏度(Sensitivity),表示在真实的阳性样本中能正确预测为阳性的比例;Specificity为特异性,表示正确识别负样本的比例。
从结果(表1)中可看出,三种常见的机器学习分类模型(SVM,NB,LR)的整体预测准确率ACC超过76%,能正确识别负样本的比例特异性超过88%,其中朴素贝叶斯方法的特异性超过90%,而能正确识别正样本的比例仅有61%,这可能是由于靶标基因与疾病的关联信息还不完全;另外从整体上看这三种模型具有良好的预测效果,其中AUC超过0.8;三种模型的精度(Precision)表明在预测为有活性的药物中有超过80%以上的药物具有活性。
从上述分析可知,通过利用常用的机器学习模型进行进一步验证我们选择的特征能够很好地反映药物是否具有活性,说明本发明提出的筛选药物方法的可行性。
最后所应当说明的是,以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
实施例2
使用本发明的方法对治疗帕金斯综合症的药物活性进行预测
一、收集人类成功上市或者在研药物及其靶标
查找药物靶标数据库(包含DGIdb:http://dgidb.genome.wustl.edu/),得到一批有药物对应的成药靶标。本实验以DGIdb为出发点,找到有明确药物作用活性(药物对应治疗疾病)的靶标共2,348个,以及与上述靶标对应的3,678个药物。
二、查找帕金斯综合症遗传信息相关基因
帕金斯综合症遗传信息相关基因由两部分信息组合构成。第一部分是通过PDGene(http://www.pdgene.org/)数据库查找到帕金斯综合症相关基因共87个,第二部分是通过GWASdb(http://jjwanglab.org/gwasdb)、GAD(http://geneticassociationdb.nih.gov/)、DiseaseInt(http://www.yulab.org/DiseaseInt/)和OMIM(http://www.omim.org),中与帕金斯综合症相关的基因合并得到1084个。综合这几部分基因后,其中包含遗传性疾病强相关基因(即图2中的疾病强关联基因)31个;其余遗传性疾病相关基因(即图2中的疾病关联基因)共1339个。
三、药物靶标与疾病关联的基因的特征属性
上述药物活性预测方法中,特征属性包括:药物对应靶标中遗传性疾病强相关基因的个数,药物靶标中遗传性疾病强相关基因的个数占该药物对应靶标总数的比例,药物靶标中遗传性疾病相关基因的个数,药物靶标中遗传性疾病相关基因的个数占该药物对应靶标总数的比例。
四、建立预测模型
药物靶标的遗传性特征属性分别作为特征向量。
在DGIdb中查找已证实具有治疗帕金斯综合症的活性的药物(通过TTD(http://bidd.nus.edu.sg/group/ttd/ttd.asp);Drugbank(http://www.drugbank.ca/);ClinicalTrails(http://www.clinicaltrials.gov)对药物的活性进行注释)有143个,作为正样本。在所有活性的药物中,其余3,535个非治疗帕金斯综合症的活性的药物为负样本。
支持向量机方法(SupportVectorMachine,SVM)建立的机器学习模型可以处理非线性的小样本数据。它针对线性可分的情况进行分析,对于线性不可分的情况,它使用核技巧(kerneltrick)将低维空间中线性不可分样本转化为高维特征空间中使其线性可分。由于它的分类间隔面仅依赖于部分的支持向量(supportvector),复杂程度根据向量决定,所以应用SVM方法建立的模型具有较好的泛化和推广能力,可以对药物活性预测模型给出较好的学习结果。
本文所采用的是支持向量机中的C-分类机(C-SVM),即下述最优化问题:
max α ( Σ i = 1 n α i - 1 2 Σ i = 1 n Σ j = 1 n α i α j y i y j K ( x i , x j ) )
s . t . 0 ≤ α i ≤ C , Σ i = 1 n α i y i = 0
其中C表示惩罚参数,(xi,yi)分别表示第i个样品的特征和标签,K(xi,xj)表示核函数。
在我们的问题中,选用了线性核函数,即向量xi与xj的内积。惩罚参数选用的是C=1。
朴素贝叶斯(Bayes,NB)法是基于贝叶斯定理与特征条件独立假设的分类方法。由于NB方法从数据的先验概率出发,根据训练参数进行预测,简单高效。应用NB方法建立的模型具有较好的推广能力,可以对药物活性预测模型给出较好的学习结果。
逻辑回归(LogisticRegression,LR)模型是通过分类标签的后验概率的逻辑变换与其特征之间的回归建立的一种分类方法,其特点的是利用回归方程的优点,能够反映特征的重要性,而且有显著的方程表达式。LR模型能较好应用于药物活性预测。
LR模型即是如下的回归模型
l n p 1 - p = β 0 + Σ j = 1 k β j X j
其中p=P{Y=1|X1,X2,…,Xk},1-p=P{Y=0|X1,X2,…,Xk},表示p的逻辑(logit)变换。本质上是p的逻辑变换与特征X之间线性方程。
为了评价模型的预测能力,我们选用k折交叉验证(k-foldcrossvalidation)及留一法(Leaveoneout,LOO)进行模型预测能力的评估。
k折交叉验证是把样本随机分成k组近似相等容量的样本,保留其中一组当作测试样本,其余k-1组样本当作训练样本。交叉验证重复k次,每组样本都验证一次,平均k次的验证结果作为评价指标。而留一法是每次留下一个样本做测试,其余样本训练,重复进行,每个样本都测试一次,最后平均这些验证的结果作为评价指标。
为了能让正负样本均衡及评估模型的预测能力,我们采取了如下策略:先从负样本中随机抽取143个负样本,与143个正样本组成一个数据集,然后基于此数据分别采用SVM、NB及LR模型进行3折、5折、10折及留一法交叉验证,得到评价模型的指标;再重复上述步骤1,000次,用这些指标的平均值来评估模型的预测效果。
五、评估预测效果
我们利用三种模型建立预测模型,分别采取3折、5折、10折和留一法(LOO)的交叉验证,重复1,000次的结果进行评估(结果详见表2)。
表2三种分类器分别在3折、5折、10折和留一法交叉验证重复1,000次的平均值
其中AUC表示ROC(ReceiveOperatingCharacteristic)曲线下面积(Areaundercurveofroc);ACC表示准确率(Accuracy),表示被预测的样品中,预测正确的比例;Precision为模型的精度,也称命中率,表示被预测为阳性的样品中,真正阳性的比例;Recall称为召回率,也称灵敏度(Sensitivity),表示在真实的阳性样本中能正确预测为阳性的比例;Specificity为特异性,表示正确识别负样本的比例。
从结果(表2)中可看出,三种常见的机器学习分类模型(SVM,NB,LR)的整体预测准确率ACC分别超过68.6%、58.2%和68.1%;能正确识别负样本的比例特异性超过72%,其中朴素贝叶斯方法的特异性超过97%。如表2所示,三种预测模型的精度(Precision)均超过70%,表明在本发明中预测为有活性的药物中有超过70%以上的药物具有活性,这个结果进一步说明本发明提出的药物活性预测方法具有良好的预测效果。
从上述分析可知,通过利用常用的机器学习模型进行进一步验证我们选择的特征能够很好地反映药物是否具有活性,说明本发明提出的筛选药物方法的可行性。
最后所应当说明的是,以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (9)

1.一种基于机器学习的药物活性预测方法,其特征在于,包括以下步骤:
(1)根据药物靶标数据库中的信息,获取样本药物对应的药物靶标;
(2)根据遗传病相关数据库中的信息,获取遗传性疾病对应的相关基因信息;
(3)根据步骤(2)中获取的遗传性疾病对应的相关基因信息从步骤(1)得到的药物靶标中筛选出与遗传性疾病关联的靶标基因;
(4)获取每个样本药物的特征属性,所述特征属性为样本药物对应的药物靶标与遗传性疾病关联的靶标基因的相关关系;
以每个样本药物的特征属性为输入向量,以样本药物的活性为输出,建立模型;
(5)根据步骤(1)、(2)和(3)获取待测药物的特征属性,带入步骤(4)中的模型,即可预测待测药物的活性。
2.根据权利要求1所述的基于机器学习的药物活性预测方法,其特征在于,所述与遗传性疾病关联的靶标基因包括遗传性疾病强相关基因和遗传性疾病相关基因;所述特征属性是指药物对应的药物靶标中遗传性疾病强相关基因的个数、遗传性疾病强相关基因占该药物对应的药物靶标总数的比例、遗传性疾病相关基因的个数以及遗传性疾病相关基因占该药物对应的药物靶标总数的比例。
3.根据权利要求1所述的基于机器学习的药物活性预测方法,其特征在于,所述步骤(1)中的药物靶标数据库为DGIdb数据库。
4.根据权利要求1所述的基于机器学习的药物活性预测方法,其特征在于,所述步骤(2)中的遗传病相关数据库包含SZGene、PDGene、GAD、DiseaseInt、GWASdb和OMIM。
5.根据权利要求1所述的基于机器学习的药物活性预测方法,其特征在于,所述步骤(4)中,通过支持向量机方法、朴素贝叶斯法或逻辑回归法建立模型。
6.根据权利要求1所述的基于机器学习的药物活性预测方法,其特征在于,通过支持向量机方法建立模型,所述支持向量机方法为C-分类机方法,所述模型为:
max α ( Σ i = 1 n α i - 1 2 Σ i = 1 n Σ j = 1 n α i α j y i y j K ( x i , x j ) )
s . t .0 ≤ α i ≤ C , Σ i = 1 n α i y i = 0
其中C表示惩罚参数,其值为1;(xi,yi)分别表示第i个样品的特征和标签,K(xi,xj)表示核函数,所述核函数为线性核函数,即
7.根据权利要求1所述的基于机器学习的药物活性预测方法,其特征在于,所述步骤(4)中,通过逻辑回归法建立模型,所述模型为:
ln p 1 - p = β 0 + Σ j = 1 k β j X j
其中p=P{Y=1|X1,X2,…,Xk},1-p=P{Y=0|X1,X2,…,Xk},表示p的逻辑变换。
8.根据权利要求1~7中任一项所述的基于机器学习的药物活性预测方法,其特征在于,所述样本药物包括作为正样本的样本药物和作为负样本的样本药物,所述正样本与待测药物的治疗疾病相同,所述负样本与待测药物的治疗疾病不同,所述样本药物均为活性药物。
9.根据权利要求8所述的基于机器学习的药物活性预测方法,其特征在于,所述正样本和负样本的数量相同。
CN201610067573.5A 2016-02-01 2016-02-01 一种基于机器学习的药物活性预测方法 Active CN105740626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610067573.5A CN105740626B (zh) 2016-02-01 2016-02-01 一种基于机器学习的药物活性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610067573.5A CN105740626B (zh) 2016-02-01 2016-02-01 一种基于机器学习的药物活性预测方法

Publications (2)

Publication Number Publication Date
CN105740626A true CN105740626A (zh) 2016-07-06
CN105740626B CN105740626B (zh) 2017-04-12

Family

ID=56247330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610067573.5A Active CN105740626B (zh) 2016-02-01 2016-02-01 一种基于机器学习的药物活性预测方法

Country Status (1)

Country Link
CN (1) CN105740626B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292130A (zh) * 2017-06-09 2017-10-24 西安电子科技大学 基于基因突变与基因表达的药物重定位方法
CN107391927A (zh) * 2017-07-20 2017-11-24 京东方科技集团股份有限公司 一种预测药物和疾病对应关系的方法和电子设备
CN107451423A (zh) * 2017-09-29 2017-12-08 武汉百药联科科技有限公司 一种基于热扩散网络的药物发现方法及其应用
CN107731309A (zh) * 2017-08-31 2018-02-23 武汉百药联科科技有限公司 一种药物活性的预测方法及其应用
CN108334887A (zh) * 2017-01-19 2018-07-27 腾讯科技(深圳)有限公司 一种用户选取方法和装置
CN109411033A (zh) * 2018-11-05 2019-03-01 杭州师范大学 一种基于复杂网络的药物疗效筛选方法
CN109935341A (zh) * 2019-04-09 2019-06-25 北京深度制耀科技有限公司 一种药物新适应症的预测方法及装置
CN111081321A (zh) * 2019-12-18 2020-04-28 江南大学 一种cns药物关键特征识别方法
CN111081016A (zh) * 2019-12-18 2020-04-28 北京航空航天大学 一种基于复杂网络理论的城市交通异常识别方法
CN111191014A (zh) * 2019-12-26 2020-05-22 上海科技发展有限公司 药品重定位方法、系统、终端以及介质
CN111209131A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司广州航天软件分公司 一种基于机器学习确定异构系统的故障的方法和系统
CN112086145A (zh) * 2020-09-02 2020-12-15 腾讯科技(深圳)有限公司 一种化合物活性预测方法、装置、电子设备和存储介质
CN111209131B (zh) * 2019-12-30 2024-05-14 航天信息股份有限公司广州航天软件分公司 一种基于机器学习确定异构系统的故障的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001035316A2 (en) * 1999-11-10 2001-05-17 Structural Bioinformatics, Inc. Computationally derived protein structures in pharmacogenomics
CN102289606A (zh) * 2011-07-05 2011-12-21 中国航天员科研训练中心 药物的筛选方法以及药物组合设计方法
CN104036155A (zh) * 2014-05-30 2014-09-10 四川大学 抗菌肽抗菌活性预测方法及抗菌肽
CN104965998A (zh) * 2015-05-29 2015-10-07 华中农业大学 多靶标药物和/或药物组合的筛选方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001035316A2 (en) * 1999-11-10 2001-05-17 Structural Bioinformatics, Inc. Computationally derived protein structures in pharmacogenomics
CN102289606A (zh) * 2011-07-05 2011-12-21 中国航天员科研训练中心 药物的筛选方法以及药物组合设计方法
CN104036155A (zh) * 2014-05-30 2014-09-10 四川大学 抗菌肽抗菌活性预测方法及抗菌肽
CN104965998A (zh) * 2015-05-29 2015-10-07 华中农业大学 多靶标药物和/或药物组合的筛选方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334887A (zh) * 2017-01-19 2018-07-27 腾讯科技(深圳)有限公司 一种用户选取方法和装置
CN107292130A (zh) * 2017-06-09 2017-10-24 西安电子科技大学 基于基因突变与基因表达的药物重定位方法
CN107391927B (zh) * 2017-07-20 2021-01-22 京东方科技集团股份有限公司 一种预测药物和疾病对应关系的方法和电子设备
CN107391927A (zh) * 2017-07-20 2017-11-24 京东方科技集团股份有限公司 一种预测药物和疾病对应关系的方法和电子设备
CN107731309A (zh) * 2017-08-31 2018-02-23 武汉百药联科科技有限公司 一种药物活性的预测方法及其应用
CN107731309B (zh) * 2017-08-31 2020-01-21 武汉百药联科科技有限公司 一种药物活性的预测方法及其应用
CN107451423A (zh) * 2017-09-29 2017-12-08 武汉百药联科科技有限公司 一种基于热扩散网络的药物发现方法及其应用
CN109411033A (zh) * 2018-11-05 2019-03-01 杭州师范大学 一种基于复杂网络的药物疗效筛选方法
CN109411033B (zh) * 2018-11-05 2021-08-31 杭州师范大学 一种基于复杂网络的药物疗效筛选方法
CN109935341A (zh) * 2019-04-09 2019-06-25 北京深度制耀科技有限公司 一种药物新适应症的预测方法及装置
CN111081321A (zh) * 2019-12-18 2020-04-28 江南大学 一种cns药物关键特征识别方法
CN111081016B (zh) * 2019-12-18 2021-07-06 北京航空航天大学 一种基于复杂网络理论的城市交通异常识别方法
CN111081016A (zh) * 2019-12-18 2020-04-28 北京航空航天大学 一种基于复杂网络理论的城市交通异常识别方法
CN111081321B (zh) * 2019-12-18 2023-10-31 江南大学 一种cns药物关键特征识别方法
CN111191014A (zh) * 2019-12-26 2020-05-22 上海科技发展有限公司 药品重定位方法、系统、终端以及介质
CN111209131A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司广州航天软件分公司 一种基于机器学习确定异构系统的故障的方法和系统
CN111209131B (zh) * 2019-12-30 2024-05-14 航天信息股份有限公司广州航天软件分公司 一种基于机器学习确定异构系统的故障的方法和系统
CN112086145A (zh) * 2020-09-02 2020-12-15 腾讯科技(深圳)有限公司 一种化合物活性预测方法、装置、电子设备和存储介质
CN112086145B (zh) * 2020-09-02 2024-04-16 腾讯科技(深圳)有限公司 一种化合物活性预测方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN105740626B (zh) 2017-04-12

Similar Documents

Publication Publication Date Title
CN105740626A (zh) 一种基于机器学习的药物活性预测方法
US20210383890A1 (en) Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
AU2022268283B2 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
Caudai et al. AI applications in functional genomics
Knight et al. PyCogent: a toolkit for making sense from sequence
McIntosh et al. High confidence rule mining for microarray analysis
JP2009520278A (ja) 科学情報知識管理のためのシステムおよび方法
Lin et al. Clustering methods in protein-protein interaction network
CN107731309A (zh) 一种药物活性的预测方法及其应用
Wang et al. A brief review of machine learning methods for RNA methylation sites prediction
Tian et al. An improved method for functional similarity analysis of genes based on gene ontology
CN114649097A (zh) 一种基于图神经网络及组学信息的药物功效预测方法
KR20220069943A (ko) 단일 세포 rna-seq 데이터 처리
Conard et al. A spectrum of explainable and interpretable machine learning approaches for genomic studies
Shi et al. An application based on bioinformatics and machine learning for risk prediction of sepsis at first clinical presentation using transcriptomic data
Spencer et al. Explainable ai: Mining of genotype data identifies complex disease pathways—autism case studies
Ezzat Challenges and solutions in drug-target interaction prediction
Oğul Content‐Based Retrieval of Microarray Experiments
Francis et al. Ensemble approach for predicting genetic disease through case-control study
Li et al. Information recognition of pathogenic modules in gene statistics of big data
Sha et al. Splice site recognition-deciphering Exon-Intron transitions for genetic insights using Enhanced integrated Block-Level gated LSTM model
Sharma et al. Towards a systematic characterization of protein complex function: a natural language processing and machine-learning framework
Reimand Gene ontology mining tool GOSt
KR20220111847A (ko) 복합 생체 표지 네트워크 기반 질병 위험도 진단 방법
Thannickal et al. Classification of interstitial pneumonias: what do gene expression profiles tell us?

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant