CN104239751A - 基于后处理学习的g蛋白偶联受体-药物交互作用预测方法 - Google Patents

基于后处理学习的g蛋白偶联受体-药物交互作用预测方法 Download PDF

Info

Publication number
CN104239751A
CN104239751A CN201410453917.7A CN201410453917A CN104239751A CN 104239751 A CN104239751 A CN 104239751A CN 201410453917 A CN201410453917 A CN 201410453917A CN 104239751 A CN104239751 A CN 104239751A
Authority
CN
China
Prior art keywords
coupled receptor
drug
protein coupled
information
medicine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410453917.7A
Other languages
English (en)
Other versions
CN104239751B (zh
Inventor
胡俊
於东军
李阳
沈红斌
杨静宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201410453917.7A priority Critical patent/CN104239751B/zh
Publication of CN104239751A publication Critical patent/CN104239751A/zh
Application granted granted Critical
Publication of CN104239751B publication Critical patent/CN104239751B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Peptides Or Proteins (AREA)

Abstract

本发明提供一种基于后处理学习的G蛋白偶联受体-药物交互作用预测方法,包括:基于训练数据集合中所有具有交互作用的G蛋白偶联受体-药物信息,构造药物关联矩阵DAM;将训练数据集合中所有G蛋白偶联受体-药物信息进行多视角特征表示,形成训练样本集合,然后使用随机森林算法将训练样本集合训练成G蛋白偶联受体-药物交互作用RF预测模型;对于每对待预测交互作用的G蛋白偶联受体-药物信息进行多视角特征表示,形成待预测样本集合;然后利用RF预测模型进行存在交互作用的概率预测,最终输出预测概率;最后根据输出概率进行后处理学习,最终直接得出该G蛋白偶联受体-药物信息是否存在交互作用的判断。

Description

基于后处理学习的G蛋白偶联受体-药物交互作用预测方法
技术领域
本发明涉及生物信息学G蛋白偶联受体-药物相互作用领域,具体而言涉及一种基于后处理学习的G蛋白偶联受体-药物交互作用预测方法。
背景技术
G蛋白偶联受体(G Protein-Coupled Receptors,GPCRs),是一大类膜蛋白受体的统称。这类受体的共同点是其立体结构中都有七个跨膜α螺旋,且其肽链的C端和连接第5和第6个跨膜螺旋的胞内环上都有G蛋白偶联受体(鸟苷酸结合蛋白)的结合位点。目前为止,研究显示G蛋白偶联受体只见于真核生物之中,而且参与了很多细胞信号转导过程。在这些过程中,G蛋白偶联受体能结合细胞周围环境中的化学物质并激活细胞内的一系列信号通路,最终引起细胞状态的改变。已知的与G蛋白偶联受体结合的配体包括气味,费洛蒙,激素,神经递质,趋化因子等等。其中G蛋白偶联受体-药物之间的相互作用研究是药理学中重要的研究内容,具有很重要的生物学意义。然而通过生物实验的方法来确定G蛋白偶联受体-药物之间的相互作用需要耗费大量的时间和资金,并且效率较低。随着测序技术的飞速发展和人类结构基因组的推进,蛋白质组学中已经累积了大量未进行与药物交互作用验证的G蛋白偶联受体序列。因此应用生物信息学的相关知识,研发能够直接从G蛋白偶联受体序列出发进行G蛋白偶联受体-药物交互作用快速且准确的智能预测的方法有着迫切需求,且对于发现和认识G蛋白偶联受体结构和药理功能有着重要的意义。
目前,针对G蛋白偶联受体-药物交互作用预测问题的模型还很欠缺且预测精度不足。查阅文献可以发现,用来专门预测G蛋白偶联受体-药物交互作用的预测模型只有iGPCR-Drug(X.Xiao,J.L.Min,P.Wang et al.,“iGPCR-Drug:A Web Server for Predicting Interactionbetween GPCRs and Drugs in Cellular Networking,”PLoS One,vol.8,no.8,Aug27,2013.)。iGPCR-Drug预测模型使用了G蛋白偶联受体序列的PseAAC信息特征与傅里叶变换后的药物分子结构的指纹信息特征,然后将上述两个特征输入到模糊K近邻算法,最终生成预测G蛋白偶联受体-药物交互作用的模型,取得了一定的精度。
然而,上面所述的预测模型没有使用G蛋白偶联受体的进化信息特征,并且没有充分考虑G蛋白偶联受体-药物交互作用预测问题中所包含的潜在的药物与药物之间的关联信息,从而导致的模型可解释性较差的问题有待克服;且可以发现预测精度距离实际应用还有较大差距,迫切需要进一步提高。
发明内容
为了解决上述G蛋白偶联受体-药物交互作用预测问题中潜在的药物与药物之间的关联信息缺失而导致预测精度距离实际应用差距较大且可解释性较差的缺点,本发明的目的在于提出一种具有药物与药物之间的关联信息、预测精度高的基于后处理学习的G蛋白偶联受体-药物交互作用预测方法。
本发明的上述目的通过独立权利要求的技术特征实现,从属权利要求以另选或有利的方式发展独立权利要求的技术特征。
为达成上述目的,本发明所采用的技术方案如下:
一种基于后处理学习的G蛋白偶联受体-药物交互作用预测方法,包括以下步骤:
步骤1:基于训练数据集合中所有具有交互作用的G蛋白偶联受体-药物(即:正样本)信息,构造一个描述不同药物之间可绑定同一个G蛋白偶联受体的概率的药物关联矩阵(DAM);
步骤2:基于输入的G蛋白偶联受体序列信息与药物分子结构信息,进行多视角特征抽取与特征组合,即分别使用PSI-BLAST与PsePSSM算法抽取G蛋白偶联受体序列的进化信息视角特征,使用OpenBabel与Wavelet工具从药物分子结构信息中解析出药物指纹信息视角特征,然后利用特征串行组合方式将蛋白质序列中的每个氨基酸残基进行多视角特征表示;
步骤3:根据步骤2的方法将训练数据集合中所有G蛋白偶联受体-药物信息进行多视角特征表示,形成训练样本集合,然后使用随机森林算法(Random Forest,RF)将训练样本集合训练成一个G蛋白偶联受体-药物交互作用RF预测模型;
步骤4:对于每对待预测交互作用的G蛋白偶联受体-药物信息,通过步骤2得到此G蛋白偶联受体-药物的多视角特征表示,形成待预测样本集合,然后使用步骤3中的G蛋白偶联受体-药物交互作用RF预测模型进行存在交互作用的概率预测,最终输出预测概率;以及
步骤5:对于步骤4中待预测的G蛋白偶联受体-药物信息,根据步骤4中的输出概率进行后处理学习,最终直接得出该G蛋白偶联受体-药物信息是否存在交互作用的判断。
进一步的实施例中,所述步骤1中,所述药物关联矩阵(DAM)的生成包括以下步骤:
对于训练集合中所有的G蛋白偶联受体-药物信息数据,首先将具有交互作用的G蛋白偶联受体-药物信息数据提取出来,再在提取出来的数据集合上统计两两不同的药物之间的关联度,统计方法是:对于任意两个不同的药物,只要有一个G蛋白偶联受体同时与这两个药物具有交互作用,那么这两个药物的关联度就加一,如果这样的G蛋白偶联受体有N个,那么这两个不同的药物的关联度就为N,最终获得训练集合上的药物关联矩阵(DAM)。
进一步的实施例中,所述步骤2中,使用所述进行多视角特征的抽取与串行组合包括以下步骤:
A.从进化信息视角抽取G蛋白偶联受体的特征
对于一个含有l个氨基酸残基的G蛋白偶联受体序列P,首先通过PSI-BLAST算法计算获取其位置特异性得分矩阵(Position Specific Scoring Matrix,PSSM),该PSSM矩阵是一个l行20列的矩阵,从而将G蛋白偶联受体一级结构信息转换为矩阵形式,表达如下:
其中:A、R、...、V表示20种常见氨基酸残基,oi,j表示蛋白质第i个氨基酸残基在进化过程中突变成20种常见氨基酸残基中的第j种氨基酸残基的可能性;
然后对进行归一化处理,使用sigmoid函数(如公式(2))对中的每一个值进行逐行标准化处理:
f ( x ) = 1 1 + exp ( - x ) - - - ( 2 )
标准化后的PSSM,表达如下:
再次,对于标准化后的PSSM,使用PsePSSM算法将不等长的PSSM矩阵转化为能够表达G蛋白偶联受体进化信息的等长特征向量,具体方法如下:
(a)对Ppssm的每一列求均值,得到一个20维的特征向量:
CPSSM=(p1,p2,…,pj,…,p20)    (4)
其中 p j = ( Σ t = 1 l p t , j ) / l ;
(b)在Ppssm深入挖掘G蛋白偶联受体进化信息中不同层次的序列排序信息λg,表达如下:
λ k = ( λ 1 k , λ 2 k , · · · , λ j k , · · · , λ 20 k ) - - - ( 5 )
其中1≤j≤20,1≤k≤K;K表示可以挖掘序列排序信息的最大层次,至此可以获得K个不同层次的序列排序信息;
(c)最后将CPSSM与K个不同层次的序列排序信息串行组合起来,得到G蛋白偶联受体的PsePSSM特征信息:
PsePSSMK=(CPSSM12,,λK)T    (6)
B.从药物结构信息视角抽取药物分子结构的指纹信息
对于给出的药物,可以根据药物ID从KEGG数据库(http://www.kegg.jp/kegg/)获得含有对应分子结构信息的MOL文件,然后通过OpenBabel工具(http://openbabel.org/)将MOL文件转换成FP2指纹格式的信息,其中FP2指纹格式是一个256位的16进制字符串;然后,使用Matlab软件中的Wavelet工具对药物的指纹信息进行去噪,其中Wavelet工具选择的是Haar小波;最终得到一个可以描述药物分子结构的128维的药物指纹特征向量(fingerprint);
C.最后将上述步骤得到的特征向量PsePSSMK和特征向量fingerprint串行组合起来,至此可得到G蛋白偶联受体-药物信息的特征向量,其维数为(20+K×20)+128。
如前述步骤3,对于训练数据集合中所有具有交互作用的G蛋白偶联受体-药物信息均采用前述方法进行多视角特征表示,生成所有G蛋白偶联受体-药物信息的特征向量,从而生成训练样本集合。
进一步的实施例中,所述步骤5中,前述后处理学习的具体实现包括以下步骤:
A.判断待预测交互作用的G蛋白偶联受体-药物信息中的药物ID在DAM中存不存在,若存在,则进行步骤B;若不存在,直接根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,则认为该G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;
B.将待预测的G蛋白偶联受体-药物信息中的G蛋白偶联受体与DAM中所有药物进行组合,根据步骤2抽取其多视角特征后,分别输入到步骤3得到的RF预测模型得到输出概率,将输出概率大于等于0.5所对应的药物信息保留到药物集合SDrug,再根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,进行步骤C;如果输出概率小于0.5,进行步骤D;
C.如果步骤B中的药物集合SDrug为空集合,直接根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,则认为该G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;若步骤B中的药物集合SDrug不为空集合,根据下列公式计算待预测G蛋白偶联受体-药物信息中的药物和药物集合SDrug中所有药物的得分:
Score dru g i = Σ drug x ∈ S Drug DAM ( drug i , drug x ) - - - ( 7 )
如果待预测G蛋白偶联受体-药物信息中的药物按照上述公式计算的得分大于则认为待预测的G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;
D.如果步骤B中的药物集合SDrug为空集合,直接根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,则认为该G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;若步骤B中的药物集合SDrug不为空集合,根据下列公式计算待预测G蛋白偶联受体-药物信息中药物(drugpredict)的得分:
Score = Σ dru g x ∈ S Drug | DAM ( drug predict , drug x ) | 0 - - - ( 8 )
如果Score≥0.5×|SDrug|,则认为待预测的G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用。
由以上本发明的技术方案可知,本发明的有益效果在于:
1、提高模型的预测精度:使用了更有效的G蛋白偶联受体进化信息,且将药物分子结构的指纹信息通过Wavelet工具进行噪音去除,使得样本空间得以很好的表示,同时使用随机森林算法,可以构建很多更合理、更紧密的决策树,提高预测速度与精度;
2、提升模型的可解释性:使用了后处理学习方法后,深层次挖掘出了G蛋白偶联受体-药物相互作用的预测问题中的药物与药物之间的关系,使得预测得到的结果更具有公平性与合理性,提升了模型的可解释性。
附图说明
图1为本发明一实施方式基于后处理学习的G蛋白偶联受体-药物交互作用预测方法的原理示意图。
图2为药物关联矩阵DAM的灰度图表示。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
如图1所示,根据本发明的较优实施例,一种基于后处理学习的G蛋白偶联受体-药物交互作用预测方法,其实现包括以下步骤:
步骤1:基于训练数据集合中所有具有交互作用的G蛋白偶联受体-药物(即:正样本)信息,构造一个描述不同药物之间可绑定同一个G蛋白偶联受体的概率的药物关联矩阵(DAM);
步骤2:基于输入的G蛋白偶联受体序列信息与药物分子结构信息,进行多视角特征抽取与特征组合,即分别使用PSI-BLAST与PsePSSM算法抽取G蛋白偶联受体序列的进化信息视角特征,使用OpenBabel与Wavelet工具从药物分子结构信息中解析出药物指纹信息视角特征,然后利用特征串行组合方式将蛋白质序列中的每个氨基酸残基进行多视角特征表示;
步骤3:根据步骤2的方法将训练数据集合中所有G蛋白偶联受体-药物信息进行多视角特征表示,形成训练样本集合,然后使用随机森林算法(Random Forest,RF)将训练样本集合训练成一个G蛋白偶联受体-药物交互作用RF预测模型;
步骤4:对于每对待预测交互作用的G蛋白偶联受体-药物信息,通过步骤2得到此G蛋白偶联受体-药物的多视角特征表示,形成待预测样本集合,然后使用步骤3中的G蛋白偶联受体-药物交互作用RF预测模型进行存在交互作用的概率预测,最终输出预测概率;以及
步骤5:对于步骤4中待预测的G蛋白偶联受体-药物信息,根据步骤4中的输出概率和步骤1中的药物关联矩阵(DAM)进行后处理学习,最终直接得出该G蛋白偶联受体-药物信息是否存在交互作用的判断。
采用前述实施例的预测方法,可使得建立的RF预测模型挖掘原始数据中更深层次的有效信息辅助决策,使得预测模型不仅包含G蛋白偶联受体与药物之间的关联信息,还包含了药物与药物之间的关联信息,不仅增强模型的可解释性,而且提高模型的预测精度。
作为可选的方式,在所述的步骤1中,按照下述方式实现药物关联矩阵(DAM)的生成:
对于训练集合中所有的G蛋白偶联受体-药物信息数据,首先将具有交互作用的G蛋白偶联受体-药物信息数据提取出来,再在提取出来的数据集合上统计两两不同的药物之间的关联度,统计方法是:对于任意两个不同的药物,只要有一个G蛋白偶联受体同时与这两个药物具有交互作用,则将该两个药物的关联度就加一,如果这样的G蛋白偶联受体有N个,那么该两个不同的药物的关联度就为N;
依照如上方式最终获得训练集合上的药物关联矩阵(DAM),该药物关联矩阵可描述两个不同的药物分子与同一个G蛋白偶联受体有交互作用的概率。如图2所示,该药物关联矩阵(DAM)可用灰度图表示。
结合图1所示,本实施例中,基于输入的G蛋白偶联受体序列信息与药物分子结构信息,药物分子结构信息可从KEGG数据库(KEGG数据库是一个整合了基因组、化学和系统功能信息的数据库)下载,按照下述步骤进行多视角特征的抽取与串行组合:
A.从进化信息视角抽取G蛋白偶联受体的特征
对于一个含有l个氨基酸残基的G蛋白偶联受体序列P,首先通过PSI-BLAST算法计算获取其位置特异性得分矩阵(Position Specific Scoring Matrix,PSSM),该PSSM矩阵是一个l行20列的矩阵,从而将G蛋白偶联受体一级结构信息转换为矩阵形式,表达如下:
其中:A、R、...、V表示20种常见氨基酸残基,oi,j表示蛋白质第i个氨基酸残基在进化过程中突变成20种常见氨基酸残基中的第j种氨基酸残基的可能性;
然后对进行归一化处理,使用sigmoid函数(如公式(2))对中的每一个值进行逐行标准化处理:
f ( x ) = 1 1 + exp ( - x ) - - - ( 2 )
标准化后的PSSM,表达如下:
再次,对于标准化后的PSSM,使用PsePSSM算法将不等长的PSSM矩阵转化为能够表达G蛋白偶联受体进化信息的等长特征向量,具体方法如下:
(1)对Ppssm的每一列求均值,得到一个20维的特征向量:
CPSSM=(p1,p2,…,pj,…,p20)    (4)
其中 p j = ( Σ t = 1 l p t , j ) / l ;
(2)在Ppssm深入挖掘G蛋白偶联受体进化信息中不同层次的序列排序信息λg(这里的g表示抽取g层的序列排序信息),表达如下:
λ k = ( λ 1 k , λ 2 k , · · · , λ j k , · · · , λ 20 k ) - - - ( 5 )
其中1≤j≤20,1≤k≤K;K表示可以挖掘序列排序信息的最大层次,至此可以获得K个不同层次的序列排序信息;
(3)最后将CPSSM与K个不同层次的序列排序信息串行组合起来,得到G蛋白偶联受体的PsePSSM特征信息:
PsePSSMK=(CPSSM12,,λK)T    (6)
B.从药物结构信息视角抽取药物分子结构的指纹信息
对于给出的药物,可以根据药物ID从KEGG数据库(http://www.kegg.jp/kegg/)获得含有对应分子结构信息的MOL文件,然后通过OpenBabel工具(http://openbabel.org/)将MOL文件转换成FP2(FP2为OpenBabel的一个参数设置)指纹格式的信息,其中FP2指纹格式是一个256位的16进制字符串;然后,使用Matlab软件中的Wavelet工具对药物的指纹信息进行去噪,其中Wavelet工具选择的是Haar小波(wavelet中的一种);最终得到一个可以描述药物分子结构的128维的药物指纹特征向量(fingerprint);
C.最后将上述步骤得到的特征向量PsePSSMK和特征向量fingerprint串行组合起来,至此可得到G蛋白偶联受体-药物信息的特征向量,其维数为(20+K×20)+128。
本实施例中,分别对训练数据集合与待预测数据集合,重复上述A、B、C步骤,生成所有G蛋白偶联受体-药物信息的特征向量,即可生成训练样本集合与待预测样本集合。
结合图1所示,在前述步骤3中,根据生成的训练样本集合中正负样本分布情况,使用随机森林(Random Forest,RF)分类算法训练一个RF预测模型。
如前所述,训练数据集合中所有具有交互作用的G蛋白偶联受体-药物构成正样本,其他(即不具有交互作用的G蛋白偶联受体-药物)为负样本集。
结合图1,在所述步骤4中,对于待预测样本集合中每对待预测交互作用的G蛋白偶联受体-药物信息的多视角特征,使用步骤3中训练得到的RF预测模型预测待预测交互作用的G蛋白偶联受体-药物信息是否具有交互作用,并输出具有交互作用的概率
结合图1所示,本实施例中,前述步骤5,对于步骤4中待预测的G蛋白偶联受体-药物信息,根据步骤4中的输出概率和步骤1中的药物关联矩阵(DAM)进行后处理学习,最终直接给出该G蛋白偶联受体-药物信息是否存在交互作用的判断,具体实现包括以下步骤:
A.判断待预测交互作用的G蛋白偶联受体-药物信息中的药物ID在DAM中存不存在,若存在,则进行步骤B;若不存在,直接根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,则认为该G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;
B.将待预测的G蛋白偶联受体-药物信息中的G蛋白偶联受体与DAM中所有药物进行组合,根据步骤2抽取其多视角特征后,分别输入到步骤3得到的RF预测模型得到输出概率,将输出概率大于等于0.5所对应的药物信息保留到药物集合SDrug,再根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,进行步骤C;如果输出概率小于0.5,进行步骤D;
C.如果步骤B中的药物集合SDrug为空集合,直接根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,则认为该G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;若步骤B中的药物集合SDrug不为空集合,根据下列公式计算待预测G蛋白偶联受体-药物信息中的药物和药物集合SDrug中所有药物的得分:
Score dru g i = Σ drug x ∈ S Drug DAM ( drug i , drug x ) - - - ( 7 )
如果待预测G蛋白偶联受体-药物信息中的药物按照上述公式计算的得分大于则认为待预测的G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;
D.如果步骤B中的药物集合SDrug为空集合,直接根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,则认为该G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;若步骤B中的药物集合SDrug不为空集合,根据下列公式计算待预测G蛋白偶联受体-药物信息中药物(drugpredict)的得分:
Score = Σ dru g x ∈ S Drug | DAM ( drug predict , drug x ) | 0 - - - ( 8 )
如果Score≥0.5×|SDrug|,则认为待预测的G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用。
综上所述,本发明提出的预测方法,与现有技术相比,基于后处理学习的方法使得模型可以挖掘原始数据中更深层次的有效信息辅助决策,使得预测模型不仅包含G蛋白偶联受体与药物之间的关联信息,还包含了药物与药物之间的关联信息,不仅使得模型的可解释性增强,而且提高了模型的预测精度。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (5)

1.一种基于后处理学习的G蛋白偶联受体-药物交互作用预测方法,其特征在于,包括以下步骤:
步骤1:基于训练数据集合中所有具有交互作用的G蛋白偶联受体-药物信息,构造一个描述不同药物之间可绑定同一个G蛋白偶联受体的概率的药物关联矩阵DAM;
步骤2:基于输入的G蛋白偶联受体序列信息与药物分子结构信息,进行多视角特征抽取与特征组合,即分别使用PSI-BLAST与PsePSSM算法抽取G蛋白偶联受体序列的进化信息视角特征,使用OpenBabel与Wavelet工具从药物分子结构信息中解析出药物指纹信息视角特征,然后利用特征串行组合方式将蛋白质序列中的每个氨基酸残基进行多视角特征表示;
步骤3:根据步骤2的方法将训练数据集合中所有G蛋白偶联受体-药物信息进行多视角特征表示,形成训练样本集合,其中,所有具有交互作用的G蛋白偶联受体-药物为正样本集,其他为负样本集;然后使用随机森林算法(Random Forest)将训练样本集合训练成一个G蛋白偶联受体-药物交互作用RF预测模型;
步骤4:对于每对待预测交互作用的G蛋白偶联受体-药物信息,通过步骤2得到此G蛋白偶联受体-药物的多视角特征表示,形成待预测样本集合;然后使用步骤3中的G蛋白偶联受体-药物交互作用RF预测模型进行存在交互作用的概率预测,最终输出预测概率;以及
步骤5:对于步骤4中待预测的G蛋白偶联受体-药物信息,根据步骤4中的输出概率进行后处理学习,最终直接得出该G蛋白偶联受体-药物信息是否存在交互作用的判断。
2.根据权利要求1所述的基于后处理学习的G蛋白偶联受体-药物交互作用预测方法,其特征在于,所述步骤1中,
对于训练集合中所有的G蛋白偶联受体-药物信息数据,首先将具有交互作用的G蛋白偶联受体-药物信息数据提取出来,再在提取出来的数据集合上统计两两不同的药物之间的关联度,统计方法是:对于任意两个不同的药物,只要有一个G蛋白偶联受体同时与这两个药物具有交互作用,则将该两个药物的关联度就加一,如果这样的G蛋白偶联受体有N个,那么该两个不同的药物的关联度就为N;
依照如上方式最终获得训练集合上的药物关联矩阵DAM。
3.根据权利要求1所述的基于后处理学习的G蛋白偶联受体-药物交互作用预测方法,其特征在于,基于输入的G蛋白偶联受体序列信息与药物分子结构信息,按照下述步骤进行多视角特征的抽取与串行组合:
A.从进化信息视角抽取G蛋白偶联受体的特征
对于一个含有l个氨基酸残基的G蛋白偶联受体序列P,首先通过PSI-BLAST算法计算获取其位置特异性得分矩阵PSSM,该PSSM矩阵是一个l行20列的矩阵,从而将G蛋白偶联受体一级结构信息转换为矩阵形式,表达如下:
其中:A、R、...、V表示20种常见氨基酸残基,oi,j表示蛋白质第i个氨基酸残基在进化过程中突变成20种常见氨基酸残基中的第j种氨基酸残基的可能性;
然后对进行归一化处理,使用下式的sigmoid函数对中的每一个值进行逐行标准化处理:
f ( x ) = 1 1 + exp ( - x ) - - - ( 2 )
标准化后的PSSM,表达如下:
再次,对于标准化后的PSSM矩阵,使用PsePSSM算法将不等长的PSSM矩阵转化为能够表达G蛋白偶联受体进化信息的等长特征向量,具体方法如下:
(1)对Ppssm的每一列求均值,得到一个20维的特征向量:
CPSSM=(p1,p2,…,pj,…,p20)    (4)
其中 p j = ( Σ t = 1 l p t , j ) / l ;
(2)在Ppssm深入挖掘G蛋白偶联受体进化信息中不同层次的序列排序信息λg,这里的g表示抽取g层的序列排序信息,表达如下:
λ k = ( λ 1 k , λ 2 k , · · · , λ j k , · · · , λ 20 k ) - - - ( 5 )
其中1≤j≤20,1≤k≤K;K表示可以挖掘序列排序信息的最大层次,至此可获得K个不同层次的序列排序信息;
(3)最后将CPSSM与K个不同层次的序列排序信息串行组合起来,得到G蛋白偶联受体的PsePSSM特征向量PsePSSMK
PsePSSMK=(CPSSM12,,λK)T    (6)
B.从药物结构信息视角抽取药物分子结构的指纹信息
对于给出的药物,根据药物ID从KEGG数据库获得含有对应分子结构信息的MOL文件,然后通过OpenBabel工具将MOL文件转换成FP2指纹格式的信息,其中FP2指纹格式是一个256位的16进制字符串;然后,使用Wavelet工具对药物的指纹信息进行去噪,其中Wavelet工具选择Haar小波;最终得到一个描述药物分子结构的128维的药物指纹特征向量fingerprint;
C.最后将上述步骤得到的特征向量PsePSSMK和特征向量fingerprint串行组合起来,至此可得到G蛋白偶联受体-药物信息的特征向量,其维数为(20+K×20)+128。
4.根据权利要求1所述的基于后处理学习的G蛋白偶联受体-药物交互作用预测方法,其特征在于,在所述步骤4中,对于待预测样本集合中每对待预测交互作用的G蛋白偶联受体-药物信息的多视角特征,使用步骤3中训练得到的RF预测模型预测待预测交互作用的G蛋白偶联受体-药物信息是否具有交互作用,并输出具有交互作用的概率。
5.根据权利要求1所述的基于后处理学习的G蛋白偶联受体-药物交互作用预测方法,其特征在于,
对于步骤4中待预测的G蛋白偶联受体-药物信息,根据步骤4中的输出概率和步骤1中的药物关联矩阵DAM进行后处理学习,最终直接给出该G蛋白偶联受体-药物信息是否存在交互作用的判断,具体实现包括以下步骤:
A.判断待预测交互作用的G蛋白偶联受体-药物信息中的药物ID在药物关联矩阵DAM中存不存在,若存在,则进行步骤B;若不存在,直接根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,则认为该G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;
B.将待预测的G蛋白偶联受体-药物信息中的G蛋白偶联受体与药物关联矩阵DAM中所有药物进行组合,根据步骤2抽取其多视角特征后,分别输入到步骤3得到的RF预测模型得到输出概率,将输出概率大于等于0.5所对应的药物信息保留到药物集合SDrug,再根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,进行步骤C;如果输出概率小于0.5,进行步骤D;
C.如果步骤B中的药物集合SDrug为空集合,直接根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,则认为该G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;若步骤B中的药物集合SDrug不为空集合,根据下列公式计算待预测G蛋白偶联受体-药物信息中的药物和药物集合SDrug中所有药物的得分:
Score dru g i = Σ drug x ∈ S Drug DAM ( drug i , drug x ) - - - ( 7 )
如果待预测G蛋白偶联受体-药物信息中的药物按照上述公式计算的得分大于则认为待预测的G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;
D.如果步骤B中的药物集合SDrug为空集合,直接根据步骤4中的输出概率做出如下判断:如果输出概率大于等于0.5,则认为该G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用;若步骤B中的药物集合SDrug不为空集合,根据下列公式计算待预测G蛋白偶联受体-药物信息中药物(drugpredict)的得分:
Score = Σ dru g x ∈ S Drug | DAM ( drug predict , drug x ) | 0 - - - ( 8 )
如果Score≥0.5×|SDrug|,则认为待预测的G蛋白偶联受体-药物信息存在交互作用,否则认为该G蛋白偶联受体-药物信息不存在交互作用。
CN201410453917.7A 2014-09-05 2014-09-05 基于后处理学习的g蛋白偶联受体‑药物交互作用预测方法 Expired - Fee Related CN104239751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410453917.7A CN104239751B (zh) 2014-09-05 2014-09-05 基于后处理学习的g蛋白偶联受体‑药物交互作用预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410453917.7A CN104239751B (zh) 2014-09-05 2014-09-05 基于后处理学习的g蛋白偶联受体‑药物交互作用预测方法

Publications (2)

Publication Number Publication Date
CN104239751A true CN104239751A (zh) 2014-12-24
CN104239751B CN104239751B (zh) 2017-11-14

Family

ID=52227799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410453917.7A Expired - Fee Related CN104239751B (zh) 2014-09-05 2014-09-05 基于后处理学习的g蛋白偶联受体‑药物交互作用预测方法

Country Status (1)

Country Link
CN (1) CN104239751B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636635A (zh) * 2015-01-29 2015-05-20 南京理工大学 基于两层svm学习机制的蛋白质结晶预测方法
CN105160206A (zh) * 2015-10-08 2015-12-16 中国科学院数学与系统科学研究院 一种预测药物的蛋白质相互作用靶点的方法和系统
CN106709277A (zh) * 2016-11-21 2017-05-24 南京邮电大学 基于文本挖掘的g蛋白偶联受体药物靶标分子的向量生成方法
CN106909807A (zh) * 2017-02-14 2017-06-30 同济大学 一种基于多元数据预测药物靶向蛋白互作的预测方法
CN107679362A (zh) * 2017-09-19 2018-02-09 广东药科大学 化合物‑蛋白质相互作用亲和力识别方法、系统和装置
CN112435720A (zh) * 2020-12-04 2021-03-02 上海蠡图信息科技有限公司 一种基于自注意力机制与多药物特征组合的预测方法
CN114913914A (zh) * 2022-05-19 2022-08-16 北京晶泰科技有限公司 Gpcr的热稳定性突变预测模型的构建方法、预测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060008831A1 (en) * 2004-07-09 2006-01-12 Sreekumar Kodangattil R Methods and systems for predicting protein-ligand coupling specificities
CN102089445A (zh) * 2008-05-13 2011-06-08 阿伯丁大学理事会 G蛋白偶联受体相关物质和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060008831A1 (en) * 2004-07-09 2006-01-12 Sreekumar Kodangattil R Methods and systems for predicting protein-ligand coupling specificities
CN102089445A (zh) * 2008-05-13 2011-06-08 阿伯丁大学理事会 G蛋白偶联受体相关物质和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHISONG HE等: "Predicting Drug-Target Interaction Networks Based on Functional Groups and Biological Features", 《 PLOS ONE》 *
姜云璐等: "G蛋白偶联受体与G蛋白相互作用的最新研究进展", 《生命科学》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636635A (zh) * 2015-01-29 2015-05-20 南京理工大学 基于两层svm学习机制的蛋白质结晶预测方法
CN104636635B (zh) * 2015-01-29 2018-06-12 南京理工大学 基于两层svm学习机制的蛋白质结晶预测方法
CN105160206A (zh) * 2015-10-08 2015-12-16 中国科学院数学与系统科学研究院 一种预测药物的蛋白质相互作用靶点的方法和系统
CN106709277A (zh) * 2016-11-21 2017-05-24 南京邮电大学 基于文本挖掘的g蛋白偶联受体药物靶标分子的向量生成方法
CN106909807A (zh) * 2017-02-14 2017-06-30 同济大学 一种基于多元数据预测药物靶向蛋白互作的预测方法
CN106909807B (zh) * 2017-02-14 2019-02-01 同济大学 一种基于多元数据预测药物靶向蛋白互作的预测方法
CN107679362A (zh) * 2017-09-19 2018-02-09 广东药科大学 化合物‑蛋白质相互作用亲和力识别方法、系统和装置
CN107679362B (zh) * 2017-09-19 2020-12-08 广东药科大学 化合物-蛋白质相互作用亲和力识别方法、系统和装置
CN112435720A (zh) * 2020-12-04 2021-03-02 上海蠡图信息科技有限公司 一种基于自注意力机制与多药物特征组合的预测方法
CN114913914A (zh) * 2022-05-19 2022-08-16 北京晶泰科技有限公司 Gpcr的热稳定性突变预测模型的构建方法、预测方法及装置

Also Published As

Publication number Publication date
CN104239751B (zh) 2017-11-14

Similar Documents

Publication Publication Date Title
CN104239751A (zh) 基于后处理学习的g蛋白偶联受体-药物交互作用预测方法
Rodrigues et al. Big data and machine learning for materials science
Zheng et al. An optimal BP neural network track prediction method based on a GA–ACO hybrid algorithm
Tang et al. Deep learning for predicting toxicity of chemicals: a mini review
CN113327644B (zh) 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
JP2024500400A (ja) 異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法
Peters Recent advances in transition path sampling: accurate reaction coordinates, likelihood maximisation and diffusive barrier-crossing dynamics
Su et al. Predicting drug-induced hepatotoxicity based on biological feature maps and diverse classification strategies
Wekesa et al. A hybrid prediction method for plant lncRNA-protein interaction
Salah et al. T-patterns revisited: mining for temporal patterns in sensor data
Ye et al. Molecular substructure graph attention network for molecular property identification in drug discovery
Zhang et al. Prediction of the RBP binding sites on lncRNAs using the high-order nucleotide encoding convolutional neural network
Nahata et al. On the use of phylogeographic inference to infer the dispersal history of rabies virus: a review study
Brush et al. Activity recognition research: The good, the bad, and the future
Shen et al. Integrating phylogeographic analysis and geospatial methods to infer historical dispersal routes and glacial refugia of Liriodendron chinense
Larson et al. Deep learning classification of cheatgrass invasion in the western United States using biophysical and remote sensing data
Khalitov et al. ChordMixer: A scalable neural attention model for sequences with different lengths
Yin et al. Improving the prediction of DNA-protein binding by integrating multi-scale dense convolutional network with fault-tolerant coding
Nalepa et al. Semantic data mining in ubiquitous sensing: A survey
Wang et al. DeepNeuropePred: A robust and universal tool to predict cleavage sites from neuropeptide precursors by protein language model
Halder et al. A grid search-based multilayer dynamic ensemble system to identify dna n4—methylcytosine using deep learning approach
Berlotti et al. Proposal of a machine learning approach for traffic flow prediction
Putnins et al. From data to QSP models: a pipeline for using Boolean networks for hypothesis inference and dynamic model building
Liu et al. An ant colony optimization based algorithm for identifying gene regulatory elements
CN116978464A (zh) 数据处理方法、装置、设备以及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yu Dongjun

Inventor after: Hu Jun

Inventor after: Chen Jie

Inventor after: Li Yang

Inventor after: Shen Hongbin

Inventor after: Yang Jingyu

Inventor before: Hu Jun

Inventor before: Yu Dongjun

Inventor before: Li Yang

Inventor before: Shen Hongbin

Inventor before: Yang Jingyu

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171114