CN103617203B

CN103617203B - 基于查询驱动的蛋白质-配体绑定位点预测方法

Info

Publication number: CN103617203B
Application number: CN201310573950.9A
Authority: CN
Inventors: 於东军; 胡俊; 於铉; 何雪; 李阳; 沈红斌; 唐振民; 杨静宇
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2013-11-15
Filing date: 2013-11-15
Publication date: 2016-09-21
Anticipated expiration: 2033-11-15
Also published as: CN103617203A

Abstract

本发明提供一种基于查询驱动的蛋白质‑配体绑定位点预测方法，包括：步骤1、对于一条给定的查询输入，从可用数据库中查找出具有高同源性的蛋白质序列，构成基于查询驱动的训练数据集；步骤2、得到的训练数据集，所有的绑定残基提取为正样本集，所有的非绑定残基提取为负样本集；步骤3、从进化信息和二级结构视角抽取每个样本的特征向量，得到正负样本的特征向量集；步骤4、使用标准支持向量机算法，训练得到针对查询输入q的SVM预测模型；步骤5、对于查询输入，使用同样的特征抽取方法抽取每个残基的特征向量，输入SVM预测模型，再利用阈值分割方法预测。利用本发明可提高预测精度并防止在固定训练数据集上可能出现的过优化和过拟合的问题。

Description

基于查询驱动的蛋白质-配体绑定位点预测方法

技术领域

本发明涉及生物信息学蛋白质-配体相互作用领域，具体而言涉及一种基于查询驱动的动态蛋白质-配体绑定位点预测方法。

背景技术

蛋白质-配体之间的相互作用在生命活动中普遍存在并且不可或缺。通过生物实验的方法来确定蛋白质和配体之间的绑定位点耗时费力。随着测序技术的飞速发展和人类结构基因组的推进，已经累积了大量未进行绑定位点标定的蛋白质序列。因此，研发能够直接从蛋白质序列出发进行蛋白质-配体绑定位点预测的智能方法有着迫切需求。近年来，已经出现了多个基于序列的蛋白质-配体绑定位点预测方法，例如:(1)Chen,K.,Mizianty,M.J.and Kurgan,L.(2011)ATPsite:sequence-based prediction of ATP-binding residues,Proteome Science,9Suppl 1,S4；(2)Chen,K.,Mizianty,M.J.and Kurgan,L.(2012)Prediction and analysis of nucleotide-binding residues using sequence and sequence-derived structural descriptors,Bioinformatics,28,331-341；(3)Yu,D.J.,et al.(2013)TargetATPsite:A template-free method for ATP-binding sites prediction with residue evolution image sparse representation and classifier ensemble,Journal of computational chemistry,34,974-985等等。然而，现有的方法都是基于静态模型方法的：在一个固定的数据集上，训练出一个预测模型；对于待预测绑定位点的蛋白质序列均使用该预测模型进行预测。

基于静态模型框架的计算模型不可避免地会存在以下几个方面的问题：

(1)可扩展性低(Low scalability)

静态模型方法通常在一个固定的数据集上训练得到预测模型，当有新的标定数据可用时，需要利用原有的数据及新的数据来重新训练。由于新的可用数据是持续出现的，因此，重新训练的过程亦需要不断重复，效率较低。换句话说，静态模型方法的可可扩展性低。

(2)过拟合/过优化(Over-fitting/Over-optimization)

通常，研究人员提出一种新的计算模型后需要和其他已有的方法进行比较，以验证所提方法的有效性。这种对比往往基于某个(些)固定的标准测试数据集。为了追求正面的比较结果，有意识或是无意识地，研究人员所提出的方法可能会被过拟合到测试数据集或是在测试数据集上进行过优化。

(3)低可用性(Low applicability)

当数据集非常大的时候，训练一个全局的静态模型很可能是不现实的，或是出于对于内存过多的要求，或是出于优化时间太长的原因。

静态模型方法的上述不足，激发了研究人员研发新的策略来解决上述问题。人们希望在一个中小规模的数据集上训练得到一个初始的预测模型，然后，该模型可以利用新的可用数据来进行增量式增强。基础上述考虑，已经出现了很多增量式学习算法(He,H.B.,et al.(2011)Incremental Learning from Stream Data,IEEE Transactions on Neural Networks,22,1901-1914.Wang,Z.L.,et al.(2012)An Incremental Learning Method Based on Probabilistic Neural Networks and Adjustable Fuzzy Clustering for Human Activity Recognition by Using Wearable Sensors,IEEE Transactions on information technology,16,691-699)，并成功应用到多个生物计算领域。增量式学习算法可以部分解决传统的静态方法所面临的一些问题。

增量式学习模型可以随着新数据的出现而不断进化提高其性能。然而，一个不足之处在于：和静态模型一样，对于任意查询(待预测)数据，仍旧使用统一的模型来进行预测，而没有考虑查询数据的特异性。换句话说，增量式模型并未考虑查询数据的特性。我们相信，对于一个给定的查询数据，从训练数据集挑选出一部分来构建训练模型，要比使用统一的全局静态模型要优。

发明内容

针对现有技术存在的缺陷或不足，本发明旨在提供一种基于查询驱动的动态蛋白质-配体绑定位点预测方法，解决现有技术中蛋白质-配体绑定位点预测方法存在的扩展性低、过拟合/过优化以及可用性低的问题。

为达成上述目的，本发明所采用的技术方案如下：

一种基于查询驱动的动态蛋白质-配体绑定位点预测方法，包括以下步骤：

步骤1、对于一条给定的查询输入q、即待预测/待查询的蛋白质序列，从蛋白质-配体数据库D中查询与该查询输入q具有高同源性的蛋白质序列，构成一基于查询驱动的训练数据集D_q-specific；

步骤2、基于步骤1得到的训练数据集D_q-specific，提取D_q-specific中所有绑定残基组成正样本集，提取D_q-specific中所有非绑定残基组成负样本集；

步骤3、为每个样本从进化信息视角和二级结构视角抽取特征，从而得到正样本的特征向量集以及负样本的特征向量集；

步骤4、依据正负样本的特征向量集，使用标准支持向量机算法，训练得到针对查询输入q的SVM预测模型；以及

步骤5、对于查询输入q，使用与前述步骤3同样的特征抽取方法抽取每个残基的特征向量，然后依次将每个残基的特征向量输入所述SVM预测模型，所述SVM预测模型输出每个残基相应的绑定概率，最后利用阈值分割方法进行分割：概率大于或是等于阈值的残基被预测为绑定残基，概率小于阈值的残基被预测为非绑定残基。

由以上本发明的技术方案可知，本发明提供的预测方法与现有基于序列的蛋白质-配体绑定位点预测技术相比，其显著优点在于：（1）动态得到基于查询驱动的训练数据集，在此基础上构建的预测模型更具有针对性，提高了预测精度；（2）本预测方法可以有效地防止在固定训练数据集上可能出现的过优化和过拟合等问题；（3）本预测方法可以有效地利用新数据：在新数据可用时，直接添加到基础数据集内。新数据是否被用于预测，取决于查询序列。

以下将结合附图以举例方式对本发明的实施方式进行详细描述。

附图说明

图1为基于查询驱动的蛋白质-配体绑定位点预测方法的一个示例性实现示意图。

图2为第k个残基的PSSM特征向量的示意图。

图3为第k个残基的PSS特征向量的示意图。

具体实施方式

如图1所示，根据本发明的较优实施例，基于查询驱动的蛋白质-配体绑定位点预测方法，用于对一待预测/待查询的蛋白质序列（以下称为给定的查询输入q）进行预测，其分为两个阶段，即动态模型构造阶段以及预测阶段，下面结合图1所示，详细说明上述两个阶段的实现。

（1）动态模型构造阶段

第一步、使用PSI-BLAST工具软件从可用数据集D、即图1中的蛋白质-配体数据库中查找与给定的查询输入q（即图1中的查询序列）具有较高同源性的蛋白质序列，构成一个基于查询驱动的并且规模较小的训练数据集D_q-specific，如此动态地得到一个基于查询驱动的训练数据集，表示为：

D_q-specific←PSI-BLAST(q,D)。

如图1所示，蛋白质-配体数据库还支持新可用数据的增量式输入，以更新该数据库，从而可以有效地利用新数据：在新数据可用时，直接添加到可用数据集中。新数据是否被用于预测，取决于查询序列，即查询输入q。

进行本步操作时，得到的训练数据集D_q-specific的规模大小取决于PSI-BLAST工具软件的运行参数E-value，D_q-specific规模与所述运行参数E-value的取值大小成正比：E-value取值大，得到的D_q-specific规模大；反过来，E-value取值小，得到的D_q-specific规模小。

本实施例中，通过多次测试后，E-value取值0.002是一个较优的经验参数。

显然，所得到的训练数据集D_q-specific是一个查询驱动的训练数据集。较之于原始训练数据集，此数据集规模较小，并且由和查询输入序列同源的序列组成，因而更为致密。

第二步、基于第一步得到的训练数据集D_q-specific，提取D_q-specific中所有绑定残基组成正样本集，提取D_q-specific中的所有非绑定残基组成负样本集。

第三步、为每个样本从进化信息视角（Position-Specific Scoring Matrix Feature）和二级结构视角（Protein Secondary Structure Feature）抽取特征，从而得到正样本的特征向量集以及负样本的特征向量集。

本实施例中，对于训练数据集D_q-specific中任一条给定的蛋白质序列P，本步骤的特征抽取实现方法如下：

1）从进化信息视角抽取每个样本中蛋白质序列的特征

首先，使用PSI-BLAST工具软件获取该序列的位置特异性得分矩阵PSSM，表示为如下式所示：

P_{pssm}^{original} = {(\begin{matrix} o_{1,1} & o_{1,2} & \cdot \cdot \cdot & o_{1,20} \\ o_{2,1} & o_{2,2} & \cdot \cdot \cdot & o_{2,20} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ o_{k, 1} & o_{k, 2} & \cdot \cdot \cdot & o_{k, 20} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ o_{L, 1} & o_{L, 2} & \cdot \cdot \cdot & o_{L, 20} \end{matrix})}_{L \times 20}

然后，对进行归一化处理，用u_k和σ_k分别表示第k行中的20个得分的平均值和标准差，如下式所示：

u_{k} = \frac{1}{20} Σ_{t = 1}^{20} o_{k, t};

σ_{k} = \sqrt{\frac{1}{20} Σ_{t = 1}^{20} {(o_{k, t} - u_{k})}^{2}};

归一化后PSSM为P_pssm=(p_k,j)_L _× ₂₀，其中p_k,j通过下式获得：

p_{k, j} = \frac{o_{k, j} - u_{k}}{σ_{k}};

则，长度为L的蛋白质序列P经规范化后的位置特异性得分矩阵PSSM可表示为：

P_{pssm} = {(\begin{matrix} p_{1,1} & p_{1,2} & \cdot \cdot \cdot & p_{1,20} \\ p_{2,1} & p_{2,2} & \cdot \cdot \cdot & p_{2,20} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ p_{k, 1} & p_{k, 2} & \cdot \cdot \cdot & p_{k, 20} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ p_{L, 1} & p_{L, 2} & \cdot \cdot \cdot & p_{L, 20} \end{matrix})}_{L \times 20};

再次，对于蛋白质序列P中的第k个残基，以PSSM中的第k行为中心，使用一个宽度为W的窗口，该窗口内的所有元素构成一个维数为20·W的向量F_pssm。F_pssm称为第k个残基的PSSM特征向量，如图2所示。

2）从二级结构视角抽取蛋白质序列的特征

与上述从进化视角抽取特征向量类似地，本步骤中使用PSIPRED工具软件，生成对应的蛋白质序列P的二级结构矩阵，该矩阵大小为L×3，表示的是蛋白质序列P的二级结构信息。

类似地，同样使用一个宽度为W的窗口，该窗口内的所有元素构成一个维数为3·W的向量F_pss。F_pss称为第k个残基的PSS特征向量，如图3所示。

3）再将向量F_pssm和向量F_pss组合起来，得到第k个残基的最终的特征向量F，其维数为3·W+20·W。

重复上述1）、2）、3）操作，查询训练数据集D_q-specific中所有残基的特征向量F，组成训练向量集F_q-specific，表示为：

F_q-specific←FeatureExtraction(D_q-specific)。

第四步、使用标准的支持向量机（SVM）算法，在训练向量集F_q-specific上训练得到针对查询序列q的SVM预测模型。显然，该SVM预测模型是基于查询驱动的，并且，对于不同的查询输入，得到的预测模型是不同的。

本步骤中，依据第三步得到训练向量集F_q-specific，来初始化并优化一个SVM 预测模型：

InitialSVM←IntializeSVM(F_q-specific)

(DModel,P_DModel)←OptimizeModel(InitialSVM,F_q-specific)

这里，DModel是得到的基于查询驱动的动态预测模型，P_DModel则是该模型的优化参数。

（2）预测阶段

首先，对于给定的查询输入q，使用与前述第三步同样的特征抽取方法，为该查询序列中的每个残基抽取维数为3·W+k·W的特征向量；

然后，依次将每个残基的特征向量输入前述预测模型，预测模型输出该残基相应的绑定概率；

最后，使用一个阈值T作为判断基准，所有绑定概率大于等于T的残基预测为绑定残基；其他残基即概率小于阈值T的残基则预测为非绑定残基，如图1所示。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于查询驱动的蛋白质-配体绑定位点预测方法，其特征在于，包括以下步骤：

步骤5、对于查询输入q，使用与前述步骤3同样的特征抽取方法抽取每个残基的特征向量，然后依次将每个残基的特征向量输入所述SVM预测模型，所述SVM预测模型输出每个残基相应的绑定概率，最后利用阈值分割方法进行分割：概率大于或是等于阈值的残基被预测为绑定残基，概率小于阈值的残基被预测为非绑定残基；

其中，所述步骤1中，对于所述给定的查询输入q，使用PSI-BLAST工具软件从蛋白质-配体数据库D中查找与该查询输入q具有高同源性的蛋白质序列，构成所述基于查询驱动的训练数据集D_q-specific，该训练数据集D_q-specific的规模大小取决于PSI-BLAST工具软件的运行参数E-value，D_q-specific规模与所述运行参数E-value的取值大小成正比；且所述运行参数E-value取值为0.002；

所述蛋白质-配体数据库D支持新可用数据的增量式输入，以更新蛋白质-配体数据库D，该新可用数据是否被用于预测，取决于查询序列、即查询输入q；

所述步骤3的为每个样本从进化信息视角和二级结构视角抽取特征，并且其特征在于，对于训练数据集D_q-specific中任一条给定的蛋白质序列P，特征抽取的具体步骤如下：

1)从进化信息视角抽取每个样本中蛋白质序列的特征

首先，使用PSI-BLAST工具软件获取该序列的位置特异性得分矩阵PSSM，表示为表达如下：

P_{p s s m}^{o r i g i n a l} = {(\begin{matrix} o_{1, 1} & o_{1, 2} & ... & o_{1, 20} \\ o_{2, 1} & o_{2, 2} & ... & o_{2, 20} \\ \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} \\ o_{k, 1} & o_{k, 2} & ... & o_{k, 20} \\ \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} \\ o_{L, 1} & o_{L, 2} & ... & o_{L, 20} \end{matrix})}_{L \times 20};

然后，对进行归一化处理，用u_k和σ_k分别表示第k行中的20个得分的平均值和标准差，表达如下：

u_{k} = \frac{1}{20} Σ_{t = 1}^{20} o_{k, t};

σ_{k} = \sqrt{\frac{1}{20} Σ_{t = 1}^{20} {(o_{k, t} - u_{k})}^{2}};

归一化后PSSM为P_pssm＝(p_k,j)_L×20，其中p_k,j通过下式获得：

p_{k, j} = \frac{o_{k, j} - u_{k}}{σ_{k}};

P_{p s s m} = {(\begin{matrix} p_{1, 1} & p_{1, 2} & ... & p_{1, 20} \\ p_{2, 1} & p_{2, 2} & ... & p_{2, 20} \\ \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} \\ p_{k, 1} & p_{k, 2} & ... & p_{k, 20} \\ \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} \\ p_{L, 1} & p_{L, 2} & ... & p_{L, 20} \end{matrix})}_{L \times 20};

再次，对于蛋白质序列P中的第k个残基，以PSSM中的第k行为中心，使用一个宽度为W的窗口，该窗口内的所有元素构成一个维数为20·W的向量F_pssm，F_pssm称为第k个残基的PSSM特征向量；

2)从二级结构视角抽取蛋白质序列的特征

首先，使用PSIPRED工具软件，生成蛋白质序列P的二级结构矩阵，该矩阵大小为L×3，表示的是蛋白质序列P的二级结构信息；

其次，使用上述同样的宽度为W的窗口，该窗口内的所有元素构成一个维数为3·W的向量F_pss，F_pss称为第k个残基的PSS特征向量；

3)再将向量F_pssm和向量F_pss组合起来，至此可得到第k个残基的最终的特征向量F，其维数为3·W+20·W；

重复上述1)、2)、3)操作，查询训练数据集D_q-specific中所有残基的特征向量，组成训练向量集F_q-specific，表示为：

F_q-specific←FeatureExtraction(D_q-specific)。

2.根据权利要求1所述的基于查询驱动的蛋白质-配体绑定位点预测方法，其特征在于，所述步骤4中，使用标准的支持向量机算法，依据所述训练向量集F_q-specific来初始化并优化一针对查询序列q的SVM预测模型，表示为：

InitialSVM←IntializeSVM(F_q-specific)；

(DModel,P_DModel)←OptimizeModel(InitialSVM,F_q-specific)；

其中，DModel是得到的基于查询驱动的动态预测模型，P_DModel则是该模型的优化参数。

3.根据权利要求2所述的基于查询驱动的蛋白质-配体绑定位点预测方法，其特征在于，所述步骤5中的具体实现如下：

首先，使用与前述步骤3同样的特征抽取方法，对所述查询输入q、即待预测/待查询的蛋白质序列中每个残基抽取维数为3·W+20·W的特征向量；

然后，依次将每个残基的特征向量输入所述SVM预测模型，SVM预测模型输出残基相应的绑定概率；

最后，使用阈值T作为判断基准，所有绑定概率大于等于T的残基预测为绑定残基，小于阈值的残基被预测为非绑定残基。