基于后处理学习的G蛋白偶联受体-药物交互作用预测方法
技术领域
本发明涉及生物信息学G蛋白偶联受体-药物相互作用领域,具体而言涉及一种基于后处理学习的G蛋白偶联受体-药物交互作用预测方法。
背景技术
G蛋白偶联受体(G Protein-Coupled Receptors,GPCRs),是一大类膜蛋白受体的统称。这类受体的共同点是其立体结构中都有七个跨膜α螺旋,且其肽链的C端和连接第5和第6个跨膜螺旋的胞内环上都有G蛋白偶联受体(鸟苷酸结合蛋白)的结合位点。目前为止,研究显示G蛋白偶联受体只见于真核生物之中,而且参与了很多细胞信号转导过程。在这些过程中,G蛋白偶联受体能结合细胞周围环境中的化学物质并激活细胞内的一系列信号通路,最终引起细胞状态的改变。已知的与G蛋白偶联受体结合的配体包括气味,费洛蒙,激素,神经递质,趋化因子等等。其中G蛋白偶联受体-药物之间的相互作用研究是药理学中重要的研究内容,具有很重要的生物学意义。然而通过生物实验的方法来确定G蛋白偶联受体-药物之间的相互作用需要耗费大量的时间和资金,并且效率较低。随着测序技术的飞速发展和人类结构基因组的推进,蛋白质组学中已经累积了大量未进行与药物交互作用验证的G蛋白偶联受体序列。因此应用生物信息学的相关知识,研发能够直接从G蛋白偶联受体序列出发进行G蛋白偶联受体-药物交互作用快速且准确的智能预测的方法有着迫切需求,且对于发现和认识G蛋白偶联受体结构和药理功能有着重要的意义。
目前,针对G蛋白偶联受体-药物交互作用预测问题的模型还很欠缺且预测精度不足。查阅文献可以发现,用来专门预测G蛋白偶联受体-药物交互作用的预测模型只有iGPCR-Drug(X.Xiao,J.L.Min,P.Wang et al.,“iGPCR-Drug:A Web Server for Predicting Interactionbetween GPCRs and Drugs in Cellular Networking,”PLoS One,vol.8,no.8,Aug27,2013.)。iGPCR-Drug预测模型使用了G蛋白偶联受体序列的PseAAC信息特征与傅里叶变换后的药物分子结构的指纹信息特征,然后将上述两个特征输入到模糊K近邻算法,最终生成预测G蛋白偶联受体-药物交互作用的模型,取得了一定的精度。
然而,上面所述的预测模型没有使用G蛋白偶联受体的进化信息特征,并且没有充分考虑G蛋白偶联受体-药物交互作用预测问题中所包含的潜在的药物与药物之间的关联信息,从而导致的模型可解释性较差的问题有待克服;且可以发现预测精度距离实际应用还有较大差距,迫切需要进一步提高。
发明内容
为了解决上述G蛋白偶联受体-药物交互作用预测问题中潜在的药物与药物之间的关联信息缺失而导致预测精度距离实际应用差距较大且可解释性较差的缺点,本发明的目的在于提出一种具有药物与药物之间的关联信息、预测精度高的基于后处理学习的G蛋白偶联受体-药物交互作用预测方法。
本发明的上述目的通过独立权利要求的技术特征实现,从属权利要求以另选或有利的方式发展独立权利要求的技术特征。
为达成上述目的,本发明所采用的技术方案如下:
一种基于后处理学习的G蛋白偶联受体-药物交互作用预测方法,包括以下步骤:
步骤1:基于训练数据集合中所有具有交互作用的G蛋白偶联受体-药物(即:正样本)信息,构造一个描述不同药物之间可绑定同一个G蛋白偶联受体的概率的药物关联矩阵(DAM);
步骤2:基于输入的G蛋白偶联受体序列信息与药物分子结构信息,进行多视角特征抽取与特征组合,即分别使用PSI-BLAST与PsePSSM算法抽取G蛋白偶联受体序列的进化信息视角特征,使用OpenBabel与Wavelet工具从药物分子结构信息中解析出药物指纹信息视角特征,然后利用特征串行组合方式将蛋白质序列中的每个氨基酸残基进行多视角特征表示;
步骤3:根据步骤2的方法将训练数据集合中所有G蛋白偶联受体-药物信息进行多视角特征表示,形成训练样本集合,然后使用随机森林算法(Random Forest,RF)将训练样本集合训练成一个G蛋白偶联受体-药物交互作用RF预测模型;
步骤4:对于每对待预测交互作用的G蛋白偶联受体-药物信息,通过步骤2得到此G蛋白偶联受体-药物的多视角特征表示,形成待预测样本集合,然后使用步骤3中的G蛋白偶联受体-药物交互作用RF预测模型进行存在交互作用的概率预测,最终输出预测概率;以及
步骤5:对于步骤4中待预测的G蛋白偶联受体-药物信息,根据步骤4中的输出概率进行后处理学习,最终直接得出该G蛋白偶联受体-药物信息是否存在交互作用的判断。
进一步的实施例中,所述步骤1中,所述药物关联矩阵(DAM)的生成包括以下步骤:
对于训练集合中所有的G蛋白偶联受体-药物信息数据,首先将具有交互作用的G蛋白偶联受体-药物信息数据提取出来,再在提取出来的数据集合上统计两两不同的药物之间的关联度,统计方法是:对于任意两个不同的药物,只要有一个G蛋白偶联受体同时与这两个药物具有交互作用,那么这两个药物的关联度就加一,如果这样的G蛋白偶联受体有N个,那么这两个不同的药物的关联度就为N,最终获得训练集合上的药物关联矩阵(DAM)。
进一步的实施例中,所述步骤2中,使用所述进行多视角特征的抽取与串行组合包括以下步骤:
A.从进化信息视角抽取G蛋白偶联受体的特征
对于一个含有l个氨基酸残基的G蛋白偶联受体序列P,首先通过PSI-BLAST算法计算获取其位置特异性得分矩阵(Position Specific Scoring Matrix,PSSM),该PSSM矩阵是一个l行20列的矩阵,从而将G蛋白偶联受体一级结构信息转换为矩阵形式,表达如下:
其中:A、R、...、V表示20种常见氨基酸残基,oi,j表示蛋白质第i个氨基酸残基在进化过程中突变成20种常见氨基酸残基中的第j种氨基酸残基的可能性;
然后对进行归一化处理,使用sigmoid函数(如公式(2))对中的每一个值进行逐行标准化处理:
标准化后的PSSM,表达如下:
再次,对于标准化后的PSSM,使用PsePSSM算法将不等长的PSSM矩阵转化为能够表达G蛋白偶联受体进化信息的等长特征向量,具体方法如下:
(a)对Ppssm的每一列求均值,得到一个20维的特征向量:
CPSSM=(p1,p2,…,pj,…,p20) (4)
其中
(b)在Ppssm深入挖掘G蛋白偶联受体进化信息中不同层次的序列排序信息λg,表达如下:
其中1≤j≤20,1≤k≤K;K表示可以挖掘序列排序信息的最大层次,至此可以获得K个不同层次的序列排序信息;
(c)最后将CPSSM与K个不同层次的序列排序信息串行组合起来,得到G蛋白偶联受体的PsePSSM特征信息:
PsePSSMK=(CPSSM,λ1,λ2,,λK)T (6)
B.从药物结构信息视角抽取药物分子结构的指纹信息
对于给出的药物,可以根据药物ID从KEGG数据库(http://www.kegg.jp/kegg/)获得含有对应分子结构信息的MOL文件,然后通过OpenBabel工具(http://openbabel.org/)将MOL文件转换成FP2指纹格式的信息,其中FP2指纹格式是一个256位的16进制字符串;然后,使用Matlab软件中的Wavelet工具对药物的指纹信息进行去噪,其中Wavelet工具选择的是Haar小波;最终得到一个可以描述药物分子结构的128维的药物指纹特征向量(fingerprint);
C.最后将上述步骤得到的特征向量PsePSSMK和特征向量fingerprint串行组合起来,至此可得到G蛋白偶联受体-药物信息的特征向量,其维数为(20+K×20)+128。
如前述步骤3,对于训练数据集合中所有具有交互作用的G蛋白偶联受体-药物信息均采用前述方法进行多视角特征表示,生成所有G蛋白偶联受体-药物信息的特征向量,从而生成训练样本集合。
进一步的实施例中,所述步骤5中,前述后处理学习的具体实现包括以下步骤:
A.判断待预测交互作用的G蛋白偶联受体-药物信息中的药物ID在DAM中存不存在,若存在,则进行步骤B;若不存在,直接根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,则认为该G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;
B.将待预测的G蛋白偶联受体-药物信息中的G蛋白偶联受体与DAM中所有药物进行组合,根据步骤2抽取其多视角特征后,分别输入到步骤3得到的RF预测模型得到输出概率,将输出概率大于等于0.5所对应的药物信息保留到药物集合SDrug,再根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,进行步骤C;如果输出概率小于0.5,进行步骤D;
C.如果步骤B中的药物集合SDrug为空集合,直接根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,则认为该G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;若步骤B中的药物集合SDrug不为空集合,根据下列公式计算待预测G蛋白偶联受体-药物信息中的药物和药物集合SDrug中所有药物的得分:
如果待预测G蛋白偶联受体-药物信息中的药物按照上述公式计算的得分大于则认为待预测的G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;
D.如果步骤B中的药物集合SDrug为空集合,直接根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,则认为该G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;若步骤B中的药物集合SDrug不为空集合,根据下列公式计算待预测G蛋白偶联受体-药物信息中药物(drugpredict)的得分:
如果Score≥0.5×|SDrug|,则认为待预测的G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用。
由以上本发明的技术方案可知,本发明的有益效果在于:
1、提高模型的预测精度:使用了更有效的G蛋白偶联受体进化信息,且将药物分子结构的指纹信息通过Wavelet工具进行噪音去除,使得样本空间得以很好的表示,同时使用随机森林算法,可以构建很多更合理、更紧密的决策树,提高预测速度与精度;
2、提升模型的可解释性:使用了后处理学习方法后,深层次挖掘出了G蛋白偶联受体-药物相互作用的预测问题中的药物与药物之间的关系,使得预测得到的结果更具有公平性与合理性,提升了模型的可解释性。
附图说明
图1为本发明一实施方式基于后处理学习的G蛋白偶联受体-药物交互作用预测方法的原理示意图。
图2为药物关联矩阵DAM的灰度图表示。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
如图1所示,根据本发明的较优实施例,一种基于后处理学习的G蛋白偶联受体-药物交互作用预测方法,其实现包括以下步骤:
步骤1:基于训练数据集合中所有具有交互作用的G蛋白偶联受体-药物(即:正样本)信息,构造一个描述不同药物之间可绑定同一个G蛋白偶联受体的概率的药物关联矩阵(DAM);
步骤2:基于输入的G蛋白偶联受体序列信息与药物分子结构信息,进行多视角特征抽取与特征组合,即分别使用PSI-BLAST与PsePSSM算法抽取G蛋白偶联受体序列的进化信息视角特征,使用OpenBabel与Wavelet工具从药物分子结构信息中解析出药物指纹信息视角特征,然后利用特征串行组合方式将蛋白质序列中的每个氨基酸残基进行多视角特征表示;
步骤3:根据步骤2的方法将训练数据集合中所有G蛋白偶联受体-药物信息进行多视角特征表示,形成训练样本集合,然后使用随机森林算法(Random Forest,RF)将训练样本集合训练成一个G蛋白偶联受体-药物交互作用RF预测模型;
步骤4:对于每对待预测交互作用的G蛋白偶联受体-药物信息,通过步骤2得到此G蛋白偶联受体-药物的多视角特征表示,形成待预测样本集合,然后使用步骤3中的G蛋白偶联受体-药物交互作用RF预测模型进行存在交互作用的概率预测,最终输出预测概率;以及
步骤5:对于步骤4中待预测的G蛋白偶联受体-药物信息,根据步骤4中的输出概率和步骤1中的药物关联矩阵(DAM)进行后处理学习,最终直接得出该G蛋白偶联受体-药物信息是否存在交互作用的判断。
采用前述实施例的预测方法,可使得建立的RF预测模型挖掘原始数据中更深层次的有效信息辅助决策,使得预测模型不仅包含G蛋白偶联受体与药物之间的关联信息,还包含了药物与药物之间的关联信息,不仅增强模型的可解释性,而且提高模型的预测精度。
作为可选的方式,在所述的步骤1中,按照下述方式实现药物关联矩阵(DAM)的生成:
对于训练集合中所有的G蛋白偶联受体-药物信息数据,首先将具有交互作用的G蛋白偶联受体-药物信息数据提取出来,再在提取出来的数据集合上统计两两不同的药物之间的关联度,统计方法是:对于任意两个不同的药物,只要有一个G蛋白偶联受体同时与这两个药物具有交互作用,则将该两个药物的关联度就加一,如果这样的G蛋白偶联受体有N个,那么该两个不同的药物的关联度就为N;
依照如上方式最终获得训练集合上的药物关联矩阵(DAM),该药物关联矩阵可描述两个不同的药物分子与同一个G蛋白偶联受体有交互作用的概率。如图2所示,该药物关联矩阵(DAM)可用灰度图表示。
结合图1所示,本实施例中,基于输入的G蛋白偶联受体序列信息与药物分子结构信息,药物分子结构信息可从KEGG数据库(KEGG数据库是一个整合了基因组、化学和系统功能信息的数据库)下载,按照下述步骤进行多视角特征的抽取与串行组合:
A.从进化信息视角抽取G蛋白偶联受体的特征
对于一个含有l个氨基酸残基的G蛋白偶联受体序列P,首先通过PSI-BLAST算法计算获取其位置特异性得分矩阵(Position Specific Scoring Matrix,PSSM),该PSSM矩阵是一个l行20列的矩阵,从而将G蛋白偶联受体一级结构信息转换为矩阵形式,表达如下:
其中:A、R、...、V表示20种常见氨基酸残基,oi,j表示蛋白质第i个氨基酸残基在进化过程中突变成20种常见氨基酸残基中的第j种氨基酸残基的可能性;
然后对进行归一化处理,使用sigmoid函数(如公式(2))对中的每一个值进行逐行标准化处理:
标准化后的PSSM,表达如下:
再次,对于标准化后的PSSM,使用PsePSSM算法将不等长的PSSM矩阵转化为能够表达G蛋白偶联受体进化信息的等长特征向量,具体方法如下:
(1)对Ppssm的每一列求均值,得到一个20维的特征向量:
CPSSM=(p1,p2,…,pj,…,p20) (4)
其中
(2)在Ppssm深入挖掘G蛋白偶联受体进化信息中不同层次的序列排序信息λg(这里的g表示抽取g层的序列排序信息),表达如下:
其中1≤j≤20,1≤k≤K;K表示可以挖掘序列排序信息的最大层次,至此可以获得K个不同层次的序列排序信息;
(3)最后将CPSSM与K个不同层次的序列排序信息串行组合起来,得到G蛋白偶联受体的PsePSSM特征信息:
PsePSSMK=(CPSSM,λ1,λ2,,λK)T (6)
B.从药物结构信息视角抽取药物分子结构的指纹信息
对于给出的药物,可以根据药物ID从KEGG数据库(http://www.kegg.jp/kegg/)获得含有对应分子结构信息的MOL文件,然后通过OpenBabel工具(http://openbabel.org/)将MOL文件转换成FP2(FP2为OpenBabel的一个参数设置)指纹格式的信息,其中FP2指纹格式是一个256位的16进制字符串;然后,使用Matlab软件中的Wavelet工具对药物的指纹信息进行去噪,其中Wavelet工具选择的是Haar小波(wavelet中的一种);最终得到一个可以描述药物分子结构的128维的药物指纹特征向量(fingerprint);
C.最后将上述步骤得到的特征向量PsePSSMK和特征向量fingerprint串行组合起来,至此可得到G蛋白偶联受体-药物信息的特征向量,其维数为(20+K×20)+128。
本实施例中,分别对训练数据集合与待预测数据集合,重复上述A、B、C步骤,生成所有G蛋白偶联受体-药物信息的特征向量,即可生成训练样本集合与待预测样本集合。
结合图1所示,在前述步骤3中,根据生成的训练样本集合中正负样本分布情况,使用随机森林(Random Forest,RF)分类算法训练一个RF预测模型。
如前所述,训练数据集合中所有具有交互作用的G蛋白偶联受体-药物构成正样本,其他(即不具有交互作用的G蛋白偶联受体-药物)为负样本集。
结合图1,在所述步骤4中,对于待预测样本集合中每对待预测交互作用的G蛋白偶联受体-药物信息的多视角特征,使用步骤3中训练得到的RF预测模型预测待预测交互作用的G蛋白偶联受体-药物信息是否具有交互作用,并输出具有交互作用的概率
结合图1所示,本实施例中,前述步骤5,对于步骤4中待预测的G蛋白偶联受体-药物信息,根据步骤4中的输出概率和步骤1中的药物关联矩阵(DAM)进行后处理学习,最终直接给出该G蛋白偶联受体-药物信息是否存在交互作用的判断,具体实现包括以下步骤:
A.判断待预测交互作用的G蛋白偶联受体-药物信息中的药物ID在DAM中存不存在,若存在,则进行步骤B;若不存在,直接根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,则认为该G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;
B.将待预测的G蛋白偶联受体-药物信息中的G蛋白偶联受体与DAM中所有药物进行组合,根据步骤2抽取其多视角特征后,分别输入到步骤3得到的RF预测模型得到输出概率,将输出概率大于等于0.5所对应的药物信息保留到药物集合SDrug,再根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,进行步骤C;如果输出概率小于0.5,进行步骤D;
C.如果步骤B中的药物集合SDrug为空集合,直接根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,则认为该G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;若步骤B中的药物集合SDrug不为空集合,根据下列公式计算待预测G蛋白偶联受体-药物信息中的药物和药物集合SDrug中所有药物的得分:
如果待预测G蛋白偶联受体-药物信息中的药物按照上述公式计算的得分大于则认为待预测的G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;
D.如果步骤B中的药物集合SDrug为空集合,直接根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,则认为该G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;若步骤B中的药物集合SDrug不为空集合,根据下列公式计算待预测G蛋白偶联受体-药物信息中药物(drugpredict)的得分:
如果Score≥0.5×|SDrug|,则认为待预测的G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用。
综上所述,本发明提出的预测方法,与现有技术相比,基于后处理学习的方法使得模型可以挖掘原始数据中更深层次的有效信息辅助决策,使得预测模型不仅包含G蛋白偶联受体与药物之间的关联信息,还包含了药物与药物之间的关联信息,不仅使得模型的可解释性增强,而且提高了模型的预测精度。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。