CN108509761A

CN108509761A - 一种基于梯度提升决策树和特征选择的药物靶标预测方法

Info

Publication number: CN108509761A
Application number: CN201810252375.5A
Authority: CN
Inventors: 陈纪云; 常会友
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2018-09-07

Abstract

本发明采用更适合稠密型数据集的梯度提升决策树模型来预测药物靶标的相互作用，并且采用删除无用特征、保留id、添加两倍负样本的特征选择办法优化预测效果。实验结果显示，梯度提升决策树模型得到的预测效果明显优于其他机器模型。

Description

一种基于梯度提升决策树和特征选择的药物靶标预测方法

技术领域

本发明涉及生物信息学技术领域，更具体地，涉及一种基于梯度提升决策树和特征选择的药物靶标预测方法。

背景技术

传统的药物靶标预测方法分为两类：对接仿真技术和基于计算机的方法。对接仿真技术利用目标已知的3D结构来预测DTI，它具有更高的精确度，但是也存在着巨大的成本和时间耗费。由此逐渐引入基于计算机的方法。

基于计算机的方法也可分为两类，基于相似度的方法和基于特征的方法。相似的药物总会和相似的蛋白质发生作用。所以基于相似度的方法基于这个设想，建立一个药物-药物相似矩阵，靶标-靶标相似矩阵，根据相似矩阵预测新药物靶标是否会发生作用。而基于特征的方法则是利用药物、靶标的描述符建立一个特征向量矩阵，充分利用药物靶标信息，给新的药物靶标对评分，预测其是否相互作用。基于相似度的方法计算复杂，而且没有充分利用已知药物靶标关系的特点。基于特征的方法利用了药物靶标信息并表现出高性能。

药物靶标数据集有个特点，维度高而样本小，经过一些特征补充和处理后，甚至会有样本维度大于样本数量的情况。另外，所有的官方药物靶标数据集都不提供正样本。在这种情况下，主流的复杂机器学习方法并不适用。

发明内容

本发明提出了一种基于梯度提升决策树和特征选择的药物靶标预测方法，旨在解决药物靶标预测不准确、预测难的问题。

为实现以上发明目的，采用的技术方案是：

一种基于梯度提升决策树和特征选择的药物靶标预测方法，包括以下步骤：

S1.从标准药物靶标数据库DrugBank下载药物靶标相互作用数据集，然后利用开源python库PyDPI根据数据集的药物id和靶标id分别抓取药物描述符和靶标描述符；得到一个正样本数据集；

S2.对正样本数据集中无用的数据特征进行删除；保留药物id和靶标id作为数据集的两个特征，使用LabelEncoder把字符串类型的id转化为数字编号；

S3.随机选择没有相互作用的药物靶标对作为负样本数据集；正样本数据集、负样本数据集组合成样本数据集；

S4.载入梯度提升决策树模型；

S5.将样本数据集划分为训练集和测试集，然后利用训练集中的样本数据对梯度提升决策树模型进行训练，利用测试集对梯度提升决策树模型测试其预测的AUC和准确率；

S6.基于梯度提升决策树模型预测的AUC和准确率对梯度提升决策树模型的参数进行调整；

S7.重复步骤S5的训练测试过程及步骤S6的参数调整过程，直至梯度提升决策树模型预测的AUC和准确率符合要求；

S8.利用梯度提升决策树模型进行药物靶标的预测。

优选地，所述步骤S2删除无用的数据特征的具体过程如下：

1)删除无用靶实体；

2)删除无用列。

优选地，所述步骤S3中，正样本数据集、负样本数据集的数量比例为1：2。

优选地，所述步骤S6采用XGBOOST算法进行参数的调整，每次调整只调整一组参数，而固定其他参数，直至得到预测效果最好的一组参数。

与现有技术相比，本发明的有益效果是：

对比目前已使用的机器学习办法，本发明采用更适合稠密型数据集的梯度提升决策树模型来预测药物靶标的相互作用，并且采用删除无用特征、保留id、添加两倍负样本的特征选择办法优化预测效果。实验结果显示，梯度提升决策树模型得到的预测效果明显优于其他机器模型。

附图说明

图1为方法的流程示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1所示，本发明提供的基于梯度提升决策树和特征选择的药物靶标预测方法包括有以下步骤：

一、准备原始数据集

1)从标准药物靶标数据库DrugBank下载药物靶标相互作用数据集，本实施例只研究其中的人类蛋白质(靶标)。其中一共有12319对，其中包括4950个药物和2313种靶标。

2)根据药物id和靶标id抓取药物和靶标的描述符。本实施例这里采用PyDPI，共获取到药物描述符609个，靶标描述符1819个。

二、特征选择

1)删除无用靶实体。仔细观察数据集，发现其中有少数实体存在非常多的空值，本实施例中，删除了5条这样的数据。

2)删除无用列，经过图像化每个特征的密度分布图，发现有些特征在整个数据集只有一个取值，这些特征显然对预测效果没有价值，所以找出这样的290维特征并删除。

3)处理id。在做特征补充的时候，发现药物和靶标的id对于提升预测效果有帮助，所以使用LabelEncoder把字符串类型的id转换为数字编号，然后作为特征保留在数据集里。

4)增加负样本。由于数据集只有正样本而没有负样本，因此本实施例随机选择没有相互作用的药物靶标对作为负样本。由于样本数量太少而特征维度太大，于是本发明通过提升负样本的比例的方法来增加数据集体量。通过实验，本发明发现正负样本比例为1:2时有助于提高预测效果。

三、载入模型

对数据集进行特征处理之后，把数据集分成两份，1/5的测试集和4/5的训练集,其中测试集用于模型建立成功后测试其预测的AUC和准确率，训练集放到梯度提升决策树模型(GBDT)进行训练。

四、调整参数

本发明使用了比较广泛使用的GBDT库XGBOOST，需要调整的参数比较多，本实施例每次只调整一种参数，而固定其他参数，直至得到预测效果最好的一组参数。我们依次调整了max_depth和min_child_weight,gamma,subsample和colsample bytree,eta,lambd,seed，boost_round。

五、五折交叉验证

最后采用五折交叉验证方法重复实验，检验模型的鲁棒性。

实施例2

本实施例对实施例1的方法进行了具体的仿真实验，实验结果显示，GBDT模型得到的预测效果明显优于其他机器模型，可以参考下表。

方法	AUC	准确率
			Naive Bayes	0.54285	0.445622
Neural Net	0.55611	0.544142
			SVM	0.56119	0.597514
Logistic Regression	0.62449	0.619996
			Nearest Neighbors	0.71011	0.663864
Random Forest	0.87473	0.817584
			Our approach	0.91095	0.871931

另外，经过特征选择的预测效果优于未经过特征选择的效果，AUC和准确了分别提升了1.4％和4.5％。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于梯度提升决策树和特征选择的药物靶标预测方法，其特征在于：包括以下步骤：

S4.载入梯度提升决策树模型；

S8.利用梯度提升决策树模型进行药物靶标的预测。

2.根据权利要求1所述的基于梯度提升决策树和特征选择的药物靶标预测方法，其特征在于：所述步骤S2删除无用的数据特征的具体过程如下：

1）删除无用靶实体；

2）删除无用列。

3.根据权利要求1所述的基于梯度提升决策树和特征选择的药物靶标预测方法，其特征在于：所述步骤S3中，正样本数据集、负样本数据集的数量比例为1：2。

4.根据权利要求1所述的基于梯度提升决策树和特征选择的药物靶标预测方法，其特征在于：所述步骤S6采用XGBOOST算法进行参数的调整，每次调整只调整一种参数，而固定其他参数，直至得到预测效果最好的一组参数。