CN106909807A

CN106909807A - 一种基于多元数据预测药物靶向蛋白互作的预测方法

Info

Publication number: CN106909807A
Application number: CN201710078030.8A
Authority: CN
Inventors: 赵兴明; 周凌云
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2017-02-14
Filing date: 2017-02-14
Publication date: 2017-06-30
Anticipated expiration: 2037-02-14
Also published as: CN106909807B

Abstract

一种基于多元数据预测药物靶向蛋白互作(Protein‑Protein Interaction，PPI)的预测方法。本方法以药物是否靶向蛋白互作为研究对象，开发了一种利用蛋白质的结构、功能和氨基酸序列等十一类特征预测药物靶向蛋白互作的集成分类器算法，该预测方法可应用于对蛋白之间是否存在相互作用以及药物与蛋白质的互作靶点是否发生在蛋白结合界面(PPI interface)上进行预测。

Description

一种基于多元数据预测药物靶向蛋白互作的预测方法

技术领域

本发明涉及一种在机器学习与生物信息学知识背景下，预测药物靶向蛋白互作的预测方法，尤其是涉及一种基于多元数据预测药物靶向蛋白互作的预测方法。

背景技术

蛋白互作(Protein Protein Interaction，PPI)在生命活动中起着核心作用，研究证明蛋白互作是有药物靶向的，研究蛋白互作为药物靶点发现和药物设计提供了重要的理论基础。例如细胞内的细胞凋亡抑制剂XIAP的数量一旦多于正常值，细胞就不会正常的凋亡，继而会引起肿瘤和癌症。而XIAP是与一种激活细胞内的凋亡酶caspase-9互作才能抑制细胞凋亡，因此，抑制XIAP和caspase的互作可以达到治疗肿瘤和癌症的目的。

目前预测药物靶向蛋白互作的算法主要有以下三种：

1.基于蛋白质结构进行预测的算法，如Bock J R,Gough D A.(2001)Predictingprotein--protein interactions from primary structure.Bioinformatics,17(5):455-60.等，这一类方法主要利用蛋白质化合物的结构特征，如溶剂可及面积、氨基酸之间距离、残疾深度等，结合机器学习和统计学方法进行预测。

2.基于蛋白质序列进行预测的算法，如Chen XW,Jeong JC.(2009)Sequence-based prediction of protein interaction sites with an integrativemethod.Bioinformatics,25:585–91等，这类方法根据蛋白互作界面的氨基酸序列信息提取特征，对结合位点进行预测。

3.基于机器学习的多种特征的集成分类器进行预测的算法，如Deng,L.,Guan,J.,Dong,Q.et al.(2009)Prediction of protein-protein interaction sites using anensemble method.Bioinformatics,10:426等，这类方法结合自助重采样技术，基于融合分类器策略，克服不平衡问题，有效的利用理化性质、进化保守性评分、序列熵、位置特异性评分矩阵、溶剂可及面积特征等特征，进行特征组合，可以改善预测性能。

上述这些方法存在如下缺点，一是数据种类较少，即只考虑利用一种或两种数据进行拟合，预测效果不够精确。二是利用的特征数目有限，预测精度不够。二是在计算过程中，结合机器学习的预测方法没有采取有效的特征选择，导致样本包含大量冗余信息，不能取得准确的预测效果。

发明内容

为了克服现有预测药物靶向蛋白互作预测方法的缺陷，得到更为准确的预测效果，本发明提供一种基于蛋白多元数据，包括蛋白互作面和药物-蛋白互作位点等信息，预测药物靶向蛋白互作的预测方法。该预测方法可为将来设计靶向蛋白互作的新型药物提供指导。

本发明需要保护的技术方案概括为：

提取蛋白互作数据库、蛋白互作面数据库、药物-蛋白互作位点数据库、蛋白-配体复合物数据库和蛋白-蛋白复合物数据库，进而整理成正负样本，基于SVM和贪婪算法进行特征选择，最终构建集成分类器来预测药物靶向蛋白互作。

基于以上的方法原理，本发明方法步骤如下：

步骤1.输入一个药物和两个蛋白。

步骤2.判断步骤1所提供的药物和两个蛋白是否存在相互作用。具体内容为，通过整理蛋白互作数据库(为现有技术)包含的所有非冗余蛋白互作，提取蛋白互作数据库，从而对两个蛋白之间是否存在蛋白互作进行预测。如果“是”，则执行步骤3，否则确定为两个蛋白不存在相互作用。

步骤3.判断药物靶点是否位于蛋白互作面。具体内容为，通过提取PDB数据库(为现有技术)中蛋白互作面数据，整理出蛋白互作面数据库。通过提取蛋白互作、蛋白结构等数据库中药物-蛋白互作位点数据，整理出药物-蛋白互作位点数据库。从而对蛋白药物靶点是否位于蛋白互作面上进行预测。如果“是”，则执行步骤6，否则执行步骤4。

步骤4.判断药物和蛋白互作复合物是否相关。具体内容为，以蛋白结构数据库(为现有技术)为基础，整理出非冗余蛋白-配体复合物数据库，从而对药物和蛋白互作的复合物是否相关进行预测。如果“是”，则执行步骤6，否则执行步骤5。

步骤5.判断药物-蛋白复合物和蛋白-蛋白复合物是否相关。具体内容为，以蛋白互作、蛋白结构、配体靶向等数据库(为现有技术)为基础，整理出蛋白-蛋白复合物数据库，从而对药物-蛋白复合物和蛋白-蛋白复合物是否相关进行预测。如果“是”，则执行步骤6，否则退出。

步骤6.形成正负样本。具体内容为，根据步骤3-5中整理出的结果数据，确定正负样本，其中没有药物靶向的蛋白互作与药物对为负样本，有药物靶向的蛋白互作与靶向蛋白互作的药物对为正样本。

步骤7.基于SVM和贪婪算法的特征选择。具体内容为，对步骤6中样本，提取蛋白结构、功能和序列等十一类特征即：氨基酸频率(Amino acid frequency)、组合氨基酸频率、氨基酸理化性质、蛋白质结构信息、氨基酸残基温度、互作蛋白比率、互作蛋白和药物比率、互作蛋白和药物靶蛋白比率、可靶向的互作蛋白、基于ppi的蛋白互作的可药性、以及基于pathway的蛋白互作的可药性，基于SVM(为现有技术)和十折交叉验证方法(为现有技术)，结合贪婪算法(为现有技术)对每一类特征进行特征选择。

步骤8.集成分类器构建。具体内容为，基于步骤7中每一类特征的特征选择结果和子模型，应用多数表决(majority voting)结合策略，构建集成分类器。(为本发明的创新点)

步骤9.预测药物靶向蛋白互作。具体内容为，根据步骤8构建的集成分类器进行相应预测，预测药物是否靶向蛋白互作。如果“是”，则确定为药物靶向蛋白互作，否则确定为药物未靶向蛋白互作。

本发明的有益效果是，提供了一种高准确率的基于多元数据预测药物靶向蛋白互作的预测方法，不仅结合了蛋白质相关的多元数据，而且考虑了蛋白互作面的信息，从而提高了预测模型的鲁棒性和准确性。同时对两个蛋白质是否有相互作用，药物靶向蛋白互作是否位于在对应蛋白互作面上给予预测。

附图说明

图1为本发明流程示意图

图2为实施例步骤6流程示意图

图3是本发明的5个实例预测结果

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图和实施例，对本发明进行详细的说明。

附图1是本发明的实施流程，如图所示，本发明结合蛋白相关多元数据对药物靶向蛋白互作进行预测。同时对蛋白间是否存在相互作用，药物靶向蛋白互作及药物靶向是否位于对应蛋白互作面上给予预测。

具体的实施步骤包含：

步骤1，整理蛋白互作数据库包含的所有非冗余蛋白互作共233461对，可用来预测蛋白之间是否存在蛋白互作。

步骤2，结合蛋白结构数据库提供的44747条蛋白互作面数据和3797条药物-蛋白互作数据，求出蛋白互作面和药物-蛋白互作位点有交集的数据，可预测蛋白互作药物靶点是否位于蛋白互作面上。

步骤3，结合蛋白结构和配体靶向数据库中提供的蛋白-配体复合物信息，整理出10656条蛋白-配体复合物信息，可预测药物和蛋白互作复合物的关系复合物。

步骤4，结合蛋白互作、蛋白结构、配体靶向数据库中提供的蛋白-蛋白复合物信息，整理出11001条蛋白-蛋白复合物信息，应用实施步骤3中数据库，整理出10656条蛋白-配体复合物信息，可预测蛋白-配体复合物和蛋白-蛋白复合物的关系。

步骤5，应用实施步骤1-4中靶向蛋白互作的药物与有药物靶向的蛋白互作作为正样本，没有药物靶向的蛋白互作与药物作为负样本。由此共得到8265个正样本和8265个负样本。

步骤6，根据实施步骤5中的样本，按如下步骤执行：

步骤6.1提取十一个特征

1)对蛋白互作对的两个蛋白序列，提取氨基酸，统计氨基酸频率，得共20*2＝40个特征，每个特征即为相应氨基酸频率。

2)对蛋白互作对的两个蛋白序列，提取氨基酸对，统计氨基酸对频率，得共20²*2＝800个特征，每个特征即为相应氨基酸对频率。

3)基于20种氨基酸，提取每种氨基酸的10种理化性质即number of atoms(Na),number of electrostatic charge(Nec),number of potential hydrogen bonds(Nphb),hydrophobicity(Hdrpo),hydrophilicity(Hdrpi),propensity(Prop),isoelectricpoint(Isoep),mass(Mass),expected number of contacts withinsphere(Enc),electron-ion interaction potential(Eiip)。提取每个样本的蛋白互作面相应理化属性值构建特征向量，得共10*2＝20个特征。

4)基于每个样本PDB文件，利用PSAIA(Protein Structure And InteractionAnalyser)软件计算蛋白互作面序列的49×2＝98个单体及化合物状态的蛋白结构特征。其中相对信息(Relative change)利用公式(1)进行计算。

5)对每一个样本，从相应PDB文件中提取蛋白互作面序列中每一个氨基酸温度信息，共1*2＝2个特征。

6)基于样本中涉及到的两个蛋白质，利用公式(2)求出互作蛋白比

其中N(P_i)表示取与蛋白质P_i有相互作用关系的蛋白质集合。

7)基于样本中涉及到的两个蛋白质，利用公式(3)求出互作蛋白和药物比

其中表示取能与蛋白质P_i相互作用关系的药物集合。

8)基于样本中涉及到的两个蛋白质，利用公式(4)求出互作蛋白和药物靶蛋白比

其中表示取能与蛋白质P_i相互作用关系的所有药物的靶蛋白集合。

9)对每一个药物和蛋白互作样本，根据蛋白互作数据库，计算所有样本中的药物与该蛋白互作中的蛋白是否靶向，用1表示有靶向，0表示无靶向，称之为可靶向的互作蛋白特征，得共两倍所有样本中的药物个数个特征。

10)对每一个药物和蛋白互作样本，根据蛋白互作数据库，计算该样本中的药物的所有靶蛋白与该蛋白互作中的蛋白是否有相互作用，用1表示有相互作用，0表示无相互作用，称之为基于ppi的蛋白互作的可药性，得共两倍所有样本中的药物的靶蛋白个数个特征。

11)对每一个药物和蛋白互作样本，根据蛋白互作数据库，计算该样本中的药物的所有靶蛋白与该蛋白互作中的蛋白是否在同一个pathway，用1表示有相互作用，0表示无相互作用，称之为基于pathway的蛋白互作的可药性，得共两倍所有样本中的药物的靶蛋白个数个特征。

步骤6.2特征选择

基于实施步骤6.1中得出的样本和特征，以SVM和贪婪算法思想为基础进行特征选择，过程如下：

(1)首先对所有的特征利用公式(5)进行归一化。

其中，表示第j类的第i个特征，表示这个特征在所有样本上面的平均值，表示这个特征的标准差。

(2)将三个一维特征互作蛋白比、互作蛋白和药物比和互作蛋白和药物靶蛋白比放入另外八类特征中，即对另八类特征分别追加组合的三维特征。

(3)对这八类特征用Signal-to-Noise Ratio(SNR)来确定每一类的初始特征，如公式(6)

其中，和分别表示第j类的第i个特征的正样本和负样本的均值，同理，和分别表示第j类的第i个特征的正样本和负样本的标准差，选取SNR_ji值最大的特征作为第j类的初始特征。

(4)以SVM算法为基础结合贪婪算法思想，在确定每一类特征初始特征基础上，结合十折交叉验证，依次遍历剩余特征，与初始特征构成二维特征向量，计算平均F1值，并提取当平均F1达到最大值时的特征组合。重复上述过程依次加入特征，直至测试集上平均F1不再增大。至此，对这一类特征来说，特征选择完成，得到最优的特征组合、由这些特征训练的SVM模型与最优F1。F1值计算如公式(7)所示。

其中TP、FP、TN、FN分别表示真阳、假阳、真阴、假阴的样本数量。

步骤7，基于实施步骤6中得到的八类特征的特征选择结果、最大F1值F1_k，k∈{1，2，3，4，5，6，7，8}和SVM模型svm_k，k∈{1，2，3，4，5，6，7，8}，采用多数表决结合策略，构建集成分类器如公式(8)所示，预测药物靶向蛋白互作。

其中F1_k表示八类特征中每一类特征的最优F1值，svm_k表示的是实施步骤6中得到的每一类特征的SVM模型，表示的是PPI_j基于药物作用在第k类特征上取得的特征。因采用多数表决策略，所以门限值设为0.6，即r(Drug，PPI_j)大于等于0.6，则Drug破坏了PPI_j。

Claims

1.一种基于多元数据预测药物靶向蛋白互作的预测方法，其特征是，提取蛋白互作数据库、蛋白互作面数据库、药物-蛋白互作位点数据库、蛋白-配体复合物数据库和蛋白-蛋白复合物数据库，进而整理成正负样本，基于SVM和贪婪算法进行特征选择，最终构建集成分类器来预测药物靶向蛋白互作。

2.如权利要求1所述的方法，其特征是，包括如下步骤：

步骤1.输入一个药物和两个蛋白。