CN103116713A

CN103116713A - 基于随机森林的化合物和蛋白质相互作用预测方法

Info

Publication number: CN103116713A
Application number: CN201310059088XA
Authority: CN
Inventors: 黄剑平; 范骁辉
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-02-25
Filing date: 2013-02-25
Publication date: 2013-05-22
Anticipated expiration: 2033-02-25
Also published as: CN103116713B

Abstract

本发明公开了一种基于随机森林的化合物和蛋白质相互作用预测方法，包括：收集与药物化合物存在相互作用的靶点蛋白质信息，构建靶点库；收集用于构建训练集的药物化合物、以及药物化合物与靶点蛋白质之间的相互作用关系信息，构建化合物库；根据化合物库和靶点库的信息构建训练集；基于所述的训练集，使用改进随机森林算法进行训练，建立预测模型；收集用于预测的化合物，连同步骤（A）中得到的靶点蛋白质信息构建测试集；基于所述预测模型对所述测试集进行预测；（H）根据所述预测结果判断待预测的化合物和靶点蛋白质之间是否存在相互作用。本发明可以提高化合物和蛋白质相互作用的预测准确率。

Description

基于随机森林的化合物和蛋白质相互作用预测方法

技术领域

本发明涉及计算机辅助药物设计领域，特别涉及一种基于随机森林算法、用于预测化合物和蛋白质之间相互作用的方法。

背景技术

近十多年以来，在全世界范围内，虽然药物研发的投入越来越大，但是其产出—FDA批准上市的药物数量却呈现逐年下降的趋势（C.R.Chong&D.J.Sullivan,Nature,2007.448:p.645-646.）。越来越多的学者认为，传统的“单药物，单靶点”药物研发模式是导致这种结果的主要原因。

传统的药物研发的目标主要在于发现针对单一靶点、具有高选择性和高安全性的药物。但是，人们逐渐发现，药物和靶点之间的关系是多对多的关系，即一个药物往往会作用于多个不同的靶点，而一个靶点也往往会与多种不同的药物产生相互作用（A.L.Hopkins,Nature chemical biology,2008.4(11):p.682-690.）。例如，在通过FDA审批的新化合物实体（NCE）中，有超过80%与已知的靶点产生了相互作用（M.A.Yildirim,et al.,Nature biotechnology200725(10):p1119-1126）。因此，著名的诺贝尔奖获得者James Black说，最有效的发现新药的方法是从老的药物出发去寻找（C.R.Chong&D.J.Sullivan,Nature,2007.448:p.645-646.）。

化合物和蛋白质相互作用预测是发现已知药物的新用途—即老药新用的主要研究方法之一。事实上，从已知的化合物和蛋白质相互作用中发现新的化合物和蛋白质相互作用关系，不仅有可能发现老药的新用途，还可用于发现全新的药物和全新的靶点。所以，化合物和蛋白质相互作用预测是近年来较为热门的一个研究命题。但是，目前化合物和蛋白质相互作用预测所面临的主要问题是预测准确率低、特别是假阳性高（H.Yu et al.,PloS one,2012.7(5):p.e37608.）。为此，研究发现预测准确率更高的化合物和蛋白质相互作用预测新方法具有重大意义。

发明内容

本发明的目的是针对目前现有化合物和蛋白质相互作用方法的预测准确率低的特点，提出一种基于随机森林算法、可用于发现化合物和蛋白质相互作用的方法，以更加有效地提高化合物和蛋白质之间相互作用预测的准确率。

一种基于随机森林的化合物和蛋白质相互作用预测方法，包括：

（A）收集与药物化合物存在相互作用的靶点蛋白质信息，构建靶点库；

（B）收集用于构建训练集的药物化合物、以及药物化合物与靶点蛋白质之间的相互作用关系信息，构建化合物库；

（C）根据所述化合物库和所述靶点库的信息构建训练集；

（D）改进随机森林算法，使得随机森林算法的最终预测结果是通过随机森林中多个子树的预测结果相加然后取平均值获得到，其值在0和1之间分布；

（E）基于所述的训练集，使用所述的改进随机森林算法进行训练，建立预测模型；

（F）收集用于预测的化合物，连同步骤（A）中得到的靶点蛋白质信息构建测试集；

（G）基于所述预测模型对所述测试集进行预测；

（H）根据所述预测结果判断待预测的化合物和靶点蛋白质之间是否存在相互作用。

所述步骤（A）中收集与药物化合物存在相互作用的靶点蛋白质信息时，首先收集与药物化合物存在相互作用的靶点蛋白质的序列信息，然后通过PseAAC（伪氨基酸组成，Pseudo Amino Acid Composition，见文献HB Shen&KC ChouAnalytical Biochemistry2008373(2)p386–388）工具计算得到每个靶点蛋白质的特征描述符。

所述步骤（B）中收集用于构建训练集的药物化合物时：需要收集药物化合物的分子结构信息，然后通过Dragon软件计算药物化合物的分子描述符，同时剔除掉那些含有无效值、零值比例大于设定比例及标准差小于设定值的分子描述符。

所述步骤（C）中，所述训练集的每一个样本都由一个药物化合物和一个靶点蛋白质配对组成，其中独立变量为药物化合物的分子描述符和靶点蛋白质的特征描述符，而因变量为药物化合物和靶点蛋白质之间的相互作用关系，具体步骤如下：

（1）因变量的取值判断如下：如果一个药物化合物和一个靶点蛋白质之间存在着已知的相互作用关系，那么对应的因变量值为阳性；如果一个药物化合物和一个靶点蛋白质之间未发现存在相互作用关系，对应的因变量值为阴性；

（2）使用所有存在相互作用关系的药物化合物和靶点蛋白质构成阳性样本，而阴性样本则从未发现存在相互作用关系的药物化合物和靶点蛋白质比对中随机产生，并使阳性样本和阴性样本的数据比例保持为1:1。最后，训练集的总样本数等于所选定化合物与蛋白质的相互作用关系的数量乘以2。

所述步骤（D）中，对所述随机森林算法，优先选用Java版本的Weka软件包（M.Hall et al.，A CM SIGKDD Explorations Newsletter2009.11(1):p.10-18.）中所带的随机森林算法，并对该算法进行改进。缺省的随机森林算法是根据多个不同的子树（tree）的预测结果进行投票（voting）来产生最终的结果，因此结果只有两种形式（阳性和阴性、或1和0）。改进后的随机森林算法中：随机森林算法的最终预测结果是通过随机森林中多个子树的预测结果相加然后取平均值获得到，其值在0和1之间分布。

所述步骤（E）中，为提高预测精度，对所述随机森林算法的参数进行设置，其中子树数量设置为大于1000个。

所述步骤（F）中，对于所收集的用于预测的化合物，需要获得相应的分子结构，并根据该分子结构信息，选择使用Dragon软件计算用于预测的化合物的分子描述符，且只留下那些与步骤（B）中相一致的分子描述符，其余全部剔除，然后把每一个用于预测的化合物与靶点库中的所有靶点蛋白质进行整合构建测试集。

所述步骤（H）中，用于预测的化合物和靶点蛋白质相互作用的预测结果值分布在0和1之间，通过把结果值与设置的阈值相比较，如果结果值大于阈值，那么表示这一对用于预测的化合物和靶点蛋白质产生相互作用。

本发明的有益效果体现在：

（1）随机森林算法是一种分类算法，其预测结果通常只分为两类（如0和1，或是和否），而本发明利用随机森林是由一系列子树构成的特点改进了该算法，使其预测结果可以以概率的形式给出，这样更利于我们准确判断其结果的可靠性。

（2）本发明预测的结果还可以根据概率大小进行排序，通过设置阈值，让我们优先选择排列靠前的潜在化合物和蛋白质相互作用关系进行验证。

附图说明

图1为本发明的基于随机森林的化合物和蛋白质相互作用预测方法的结构示意图。

具体实施方式

为使本发明的目的、实施方案和优点更加清楚明白，这里结合具体实施例子作进一步的详细说明，如图1所示：

（A）、收集已知的与药物化合物存在相互作用的靶点蛋白质信息以构建靶点库。

从DrugBank3.0数据库（C.Knoxet al.，Nucleic Acids Research,201139(suppl 1)，p.D1035-D1041）中下载获得4177个已知的可以与药物产生相互作用的靶点蛋白质及其序列等信息，并根据靶点蛋白质序列信息，选择通过PseAAC（伪氨基酸组成，Pseudo Amino Acid Composition，见文献HB Shen&KC Chou,Analytical Biochemistry,2008,373(2),p.386-388）工具计算得到所有靶点蛋白质的特征描述符，其中特征描述符的个数为30个。

（B）、收集用于构建训练集的药物化合物（即同步骤（A）中的药物化合物）、以及药物化合物与靶点蛋白质之间的相互作用关系信息以构建化合物库。

从DrugBank数据库下载5170个实验类（Experimental）药物对应的化合物信息，包括SDF格式的分子结构，并根据分子结构信息，选择使用Dragon软件计算2D分子描述符，然后对得到的每一个分子描述符进行如下判断，若满足如下条件之一则剔除该分子描述符：（i）该分子描述符中含有无效值；（ii）该分子描述符中零值比例大于设定比例（例如>90%）；（iii）该分子描述符的标准差小于设定标准差（例如<0.5）。最后剩下368个分子描述符。

从DrugBank数据库下载所有实验类药物与蛋白质的相互作用关系信息。

（C）、根据化合物库和靶点库信息构建训练集。

训练集的每一个样本都由一个化合物和一个蛋白质配对信息组成，其中独立变量由通过Dragon软件计算获得的368个分子描述符和通过PseAAC计算获得的30个蛋白质特征描述符组成，而因变量为化合物和蛋白质之间的相互作用关系，具体步骤如下：

（1）因变量的取值判断如下：如果一个药物化合物和一靶点蛋白质之间存在着已知的相互作用关系，那么对应的因变量值为阳性（positive或1）；如果一个药物化合物和一个靶点蛋白质之间未发现存在相互作用关系，对应的因变量值为阴性（negative或0）；

（2）使用所有存在相互作用关系的化合物和蛋白质构成阳性样本，而阴性样本则从未发现存在相互作用关系的药物化合物和靶点蛋白质比对中随机产生，并使阳性样本和阴性样本的数据比例保持为1:1。最后，训练集的总样本数等于所选定药物化合物与靶点蛋白质的相互作用关系的数量乘以2。

（D）改进随机森林算法，使之能够以概率的形式给出药物化合物和靶点蛋白质相互作用关系的预测结果。

随机森林（Random Forests）算法（L.Breiman,Machine learning,2001.45(1):p.5-32.）是一种非常著名的机器学习方法，由于能够建立预测准确率非常高的分类器而被广泛应用于机器学习领域。但是，其缺点是只能够进行两分类预测，即预测结果只有两种（阳性和阴性、或1和0）。

这里以Java版本的Weka软件包（M.Hall et al.，ACM SIGKDD Explorations Newsletter,2009.11(1):p.10-18.）中提供的随机森林算法作为基础，并做了进一步改进。现有的随机森林算法在预测部分，缺省的随机森林算法是根据多个不同的子树（tree）的预测结果进行投票（voting）来产生最终的结果，结果也只有两种形式（阳性和阴性、或1和0）；即：如果有超过半数的子树的预测结果认为药物化合物和靶点蛋白质之间不存在相互作用，那么最后随机森林的预测结果即认为彼此不存在相互作用（阴性或0）；相反，如果有超过半数的子树的预测结果认为药物化合物和靶点蛋白质之间存在相互作用，那么最后随机森林的预测结果即认为彼此存在相互作用（阳性或1）。

而改进的随机森林算法的最终预测结果是通过随机森林中多个子树的预测结果相加然后取平均值获得到，其值在0和1之间分布。

（E）基于所述的训练集，使用改进随机森林算法进行训练，建立预测模型。

设置随机森林算法的参数，把其中子树的数量设置为2000个，然后使用改进的随机森林算法对训练集进行训练，获得预测模型。

（F）收集用于预测的化合物（为实验类药物），并据此构建测试集。

为进一步证实本发明方法的准确性，我们从DrugBank数据库下载1401个通过美国FDA审批的已认证类（Approved）药物所对应的化合物信息作为预测的化合物，包括SDF格式的分子结构，并根据分子结构信息，选择使用Dragon软件计算2D分子描述符，只留下那些与步骤（B）中相一致的分子描述符，其余全部剔除。

与步骤（C）中构建训练集相类似，把每一个用于预测的化合物与所有靶点库中的蛋白质进行组合，其中每一个测试样本分别由通过Dragon软件计算获得的368个分子描述符和通过PseAAC计算获得的30个靶点蛋白质特征描述符组成，最后得到的测试集的样本数为：

用于预测的化合物数×靶点蛋白质数=1401×4177=5851977（个）。

（G）基于预测模型对测试集进行预测。

使用步骤（E）中所建立的预测模型对步骤（F）中所获得的测试集进行预测，并记录所有5851977个用于预测的化合物和靶点蛋白质相互作用的预测结果。

（H）根据所述预测结果判断用于预测的化合物和靶点蛋白质之间是否存在相互作用。

用于预测的化合物和靶点蛋白质相互作用的预测结果值分布在0和1之间，通过把结果值与设置的阈值（如0.5）相比较来判断是否产生相互作用，如果结果值大于阈值，那么即表示这一对用于预测的化合物和靶点蛋白质是产生相互作用。

基于本发明的例子，在步骤（G）所获得的5851977个用于预测的化合物和靶点蛋白质相互作用的预测结果中，如果以0.5作为阈值，即若预测结果值<0.5即判为不存在相互作用，而若预测结果值>0.5即判为存在相互作用，那么最后的预测准确率为95.7%；与此类似，如果把阈值分别设置为0.6和0.7，那么其最后的预测准确率分别提高到98.6%和98.5%。显然，随着阈值的增加，准确率会进一步提高。这意味着，预测结果值越接近1或0，那么其被正确预测的概率越大。

（I）预测准确率比较分析。

基于本发明的结果准确率高于同类文献所报道的准确率。例如：①同样使用drugbank数据库建立模型对化合物和蛋白质相互作用进行预测的文献（H.Yu etal.,PloS one,2012.7(5):p.e37608.）所获得的准确率（约66%~83%）；②基于KEGG数据库建立模型对化合物和蛋白质相互作用进行预测的文献（Z.He et al.，PloS one,2010.5(3):p.e9603.）所获得的准确率（约78%~86%）。

Claims

1.一种基于随机森林的化合物和蛋白质相互作用预测方法，其特征在于，包括：

（C）根据所述化合物库和所述靶点库的信息构建训练集；

（G）基于所述预测模型对所述测试集进行预测；

2.根据权利要求1所述的基于随机森林的化合物和蛋白质相互作用预测方法，其特征在于，所述步骤（A）中收集已知的与药物化合物存在相互作用的靶点蛋白质信息时，首先收集与药物化合物存在相互作用的靶点蛋白质的序列信息，然后通过PseAAC工具计算得到每个靶点蛋白质的特征描述符。

3.根据权利要求2所述的基于随机森林的化合物和蛋白质相互作用预测方法，其特征在于，所述步骤（B）中收集用于构建训练集的药物化合物时：需要收集药物化合物的分子结构信息，然后通过Dragon软件计算药物化合物的分子描述符，同时剔除掉那些含有无效值、零值比例大于设定比例、及标准差小于设定值的分子描述符。

4.根据权利要求3所述的基于随机森林的化合物和蛋白质相互作用预测方法，其特征在于，所述步骤（C）中，所述训练集的每一个样本都由一个药物化合物和一个靶点蛋白质配对组成，其中独立变量为药物化合物的分子描述符和靶点蛋白质的特征描述符，而因变量为药物化合物和靶点蛋白质之间的相互作用关系，具体步骤如下：

（1）如果一个药物化合物和一个靶点蛋白质之间存在着已知的相互作用关系，那么对应的因变量值为阳性；如果一个药物化合物和一个靶点蛋白质之间未发现存在相互作用关系，对应的因变量值为阴性；

（2）使用所有存在相互作用关系的药物化合物和靶点蛋白质构成阳性样本，而阴性样本则从未发现存在相互作用关系的药物化合物和靶点蛋白质比对中随机产生，并使阳性样本和阴性样本的数据比例保持为1:1。

5.根据权利要求3所述的基于随机森林的化合物和蛋白质相互作用预测方法，其特征在于，所述步骤（E）中，对所述随机森林算法的参数进行设置，其中子树数量设置为大于1000个。

6.根据权利要求3所述的基于随机森林的化合物和蛋白质相互作用预测方法，其特征在于，所述步骤（F）中，对于所收集的用于预测的化合物，需要获得相应的分子结构，并根据该分子结构信息，选择使用Dragon软件计算用于预测的化合物的分子描述符，且只留下那些与步骤（B）中相一致的分子描述符，其余全部剔除，然后把每一个用于预测的化合物与靶点库中的所有靶点蛋白质进行整合构建测试集。

7.根据权利要求3所述的基于随机森林的化合物和蛋白质相互作用预测方法，其特征在于，所述步骤（H）中，用于预测的化合物和靶点蛋白质相互作用的预测结果值分布在0和1之间，通过把结果值与设置的阈值相比较，如果结果值大于阈值，那么表示这一对用于预测的化合物和靶点蛋白质产生相互作用。