CN108830043A

CN108830043A - 基于结构网络模型的蛋白质功能位点预测方法

Info

Publication number: CN108830043A
Application number: CN201810643576.8A
Authority: CN
Inventors: 严文颖; 沈百荣; 杨洋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2018-11-16
Anticipated expiration: 2038-06-21
Also published as: CN108830043B

Abstract

本发明涉及一种基于结构网络模型的蛋白质功能位点预测方法，包括：预测蛋白质结合位点；输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质；基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node‑weighted Protein Structure Network，NPSN)；定义并计算点加权的蛋白质结构网络的参数；基于以上网络参数，利用随机森林模型预测蛋白质中的别构残基的概率。整合残基物理化学性质、序列信息、蛋白质结构特征、动态特征，节省时间，适用于大规模的、批量蛋白质功能位点预测，并提高预测的准确性。

Description

基于结构网络模型的蛋白质功能位点预测方法

技术领域

本发明涉及蛋白质，特别是涉及基于结构网络模型的蛋白质功能位点预测方法。

背景技术

蛋白质是生命活动的物质基础，几乎与所有的生命活动紧密联系在一起。在各种生命过程中蛋白质发挥着多种多样的功能，如信号传导、存储和运输、机械支撑、跨膜运输、神经信号的产生和传递等。蛋白质一般是通过和其它分子，如DNA、RNA、配体或其它蛋白质等的相互作用来实现自己的功能，但并不是蛋白质中所有的残基都直接参与了蛋白质功能的执行。直接参与了蛋白质功能的残基被称为功能性残基，它们对蛋白质的功能通常起了关键的作用。

别构残基是指蛋白质中上与正构位点在位置上有一定距离的结合位点，在别构调控中起着重要的作用。别构调控是生物体系中广泛存在的功能调节方式。蛋白质别构残基的预测是掌握蛋白质功能和生物过程的基础，同时也是生物医学数据分析技术领域的热点。

目前现有的蛋白质别构位点的计算预测方法主要可以分为两类：基于序列的方法和基于结构的方法。其中，基于蛋白质结构网络的方法也是基于蛋白质三维结构的。

传统技术存在以下技术问题：

1)基于序列的方法往往对序列保守性要求较高，对于序列相似度较低的情况下则计算结果并不准确；

2)基于结构的方法如基于分子模拟的方法，计算复杂度较高，耗时较长，较难进行批量的蛋白质功能位点的预测；而基于模板的方法对于没有相似结构的蛋白质预测结果差；

3)基于蛋白质结构网络的方法忽略了残基本身的性质，忽略了残基的异质性并且视为均一的、无差别的节点；

4)泛化性差，目前方法往往是针对一种类型的蛋白质功能残基的预测，可扩展性差。

发明内容

基于此，有必要针对上述技术问题，提供一种基于结构网络模型的蛋白质功能位点预测方法，整合残基物理化学性质、序列信息、蛋白质结构特征、动态特征，节省时间，适用于大规模的、批量蛋白质功能位点预测，并提高预测的准确性。

一种基于结构网络模型的蛋白质功能位点预测方法，包括：

预测蛋白质结合位点；

输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质；

基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weightedProtein Structure Network，NPSN)；

定义并计算点加权的蛋白质结构网络的参数；

基于以上网络参数，利用随机森林模型预测蛋白质中的别构残基的概率。

在另外的一个实施例中，步骤“预测蛋白质结合位点；”中，利用CAVITY软件预测蛋白质结合位点。

在另外的一个实施例中，步骤“输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质；”中，具体的参数包括：保守分数、质量、疏水性、极性、相对溶剂可及表面积和柔性；其中，以上所有残基的性质都进行蛋白质内归一化。

在另外的一个实施例中，步骤“基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weightedProtein Structure Network，NPSN)；”具体包括：

据残基间环境依赖接触能确定网络中的边：NPSN的邻接矩阵中的元素AM_ij定义为：

其中e_ij表示残基i和残基j之间的环境依赖接触能，其定义为

e_ij＝-ln(N_ijN₀₀C_i0C_j0/N_i0N_j0C_ijC₀₀)

其中，N_ij、N_i0、N_j0和N₀₀表示结构中的接触数目，C_ij、C_i0，、C_j0和C₀₀为对应参考状态下的参数；

据残基的特性定义网络中节点的权重：NPSN中节点(残基)i的权重w_i定义为：

w_i＝j_i，m_i，h_i，p_i，1-s_i，or f_i

其中j_i、m_i，、h_i、p_i、s_i和f_i代表归一化后的JSD保守性分数、质量、疏水性、极性SA和柔性；

这样，每个蛋白质将构建6个分别基于残基不同特性的NPSN。

在另外的一个实施例中，步骤“定义并计算点加权的蛋白质结构网络的参数；”具体包括：

若NPSN中有n个节点(残基)，残基i具有w_i为权重的加权网络参数为：

加权度

其中，为残基i的权重；

加权介数

其中，是节点i与节点j之间并且通过节点v的最短路径的条数；节点i与节点j之间的最短路径的条数；

加权中心度

其中，d_ij是网络中节点i和j之间的距离；

综上，每个蛋白质在基于6种残基的性质构建了6个NPSN，而对于每个NPSN中的残基都有3个加权参数，因此每个残基共有18个网络参数。

在另外的一个实施例中，步骤“基于以上网络参数，利用随机森林模型预

测蛋白质中的别构残基的概率。”具体包括：

1、随机选取18个网络参数中m个参数(m＝3,4,5,…,18)以进行随机森林树的构建；

2、对数据集随机分成十组，每次选择其中的一组为测试集，剩余九组为训练集；

3、对训练集进行欠抽样以构建新的训练集，然后对此新的训练集的残基的m个参数构建随机森林树；

4、对2和3步骤重复100次，并以这100次预测的平均预测效果作为最终m个参数的预测效果；

5、预测效果评价指标：敏感性(Sensitivity，SEN)、特异性(Specificity，SPE)、精确度(Accuracy，ACC)、F1值、Matthews相关系数(Matthews correlation coefficient，MCC)

通过遍历这18个网络参数遍历，最终得到13个参数K^1-s、B^1-s、C^1-s、K^m、C^m、K^h、B^h、C^h、K^p、B^p、C^p、B^f和K^j构建的模型具有最优的效果。

在另外的一个实施例中，按照步骤“预测蛋白质结合位点；输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质；基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weightedProteinStructureNetwork，NPSN)；定义并计算点加权的蛋白质结构网络的参数；”类似的方法构建预测催化残基的方法，具体的得到14个参数B^1-s、C^1-s、K^m、C^m、K^h、B^h、C^h、K^p、B^p、C^p、K^f、B^f、C^f构和C^j构建随机森林模型。

上述基于结构网络模型的蛋白质功能位点预测方法，整合残基物理化学性质、序列信息、蛋白质结构特征、动态特征，节省时间，适用于大规模的、批量蛋白质功能位点预测，并提高预测的准确性。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

附图说明

图1为本申请实施例提供的一种基于结构网络模型的蛋白质功能位点预测方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参阅图1，一种基于结构网络模型的蛋白质功能位点预测方法，包括：

预测蛋白质结合位点；

定义并计算点加权的蛋白质结构网络的参数；

其中e_ij表示残基i和残基j之间的环境依赖接触能，其定义为

e_ij＝-ln(N_ijN₀₀C_i0C_j0/N_i0N_j0C_ijC₀₀)

其中，N_ij、N_i0、N_j0和N₀₀表示结构中的接触数目，C_ij、C_i0,、C_j0和C₀₀为对应参考状态下的参数；

w_i＝j_i，m_i，h_i，p_i，1-s_i，or f_i

其中j_i、m_i,、h_i、p_i、s_i和f_i代表归一化后的JSD保守性分数、质量、疏水性、极性SA和柔性；

这样，每个蛋白质将构建6个分别基于残基不同特性的NPSN。

加权度

其中，为残基i的权重；

加权介数

加权中心度

其中，d_ij是网络中节点i和j之间的距离；

测蛋白质中的别构残基的概率。”具体包括：

上述基于结构网络模型的蛋白质功能位点预测方法，整合残基物理化学性质、序列信息、蛋白质结构特征、动态特征，节省时间，适用于大规模的、批量蛋白质功能位点预测，并提高预测的准确性。更具体地，比传统的蛋白质网络模型提供了更多的信息(整合了残基的物理化学性质、序列信息、蛋白质结构及动态特征等；整合了残基的能量关系；)；考虑了蛋白质结构网络中，节点(残基)的异质性；不依赖于模板，限制少；不仅可以提供位点水平的预测还可以提供残基水平的预测；可移植性强，可通过选择合适的残基特征作为网络节点的权重，应用于不同类型的蛋白质功能位点的预测中；耗时少，构建简单，可以应用了高通量的蛋白质数据集中。

步骤1.利用CAVITY软件预测蛋白质结合位点。CAVITY是基于几何的方法模拟微观动力学过程。

步骤2.从演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质，具体的参数如下：

1)保守分数(Jensen-Shannon Divergence,JSD)：用BLAST方法寻找该蛋白质序列的同源序列，然后构造PSSM矩阵，计算残基的保守性分数；

2)质量(Mass)：提取自AAindex数据库；

3)疏水性(Hydrophobic)：提取自AAindex数据库；

4)极性(Polar)：提取自AAindex数据库；

5)相对溶剂可及表面积(Solvent accessibility，SA)：利用DSSP算法计算残基的相对溶剂可及表面积；

6)柔性(Flexibility)：柔性可以反应残基的构象变化，通过DynaMine方法计算。

以上所有残基的性质都进行蛋白质内归一化。

步骤3.基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weighted Protein Structure Network，NPSN)。

1)据残基间环境依赖接触能确定网络中的边：NPSN的邻接矩阵中的元素AM_ij定义为：

其中e_ij表示残基i和残基j之间的环境依赖接触能，其定义为

e_ij＝-ln(N_ijN₀₀C_i0C_j0/N_i0N_j0C_ijC₀₀)

其中，N_ij、N_i0、N_j0和N₀₀表示结构中的接触数目，C_ij、C_i0，、C_j0和C₀₀为对应参考状态下的参数。

2)据残基的特性定义网络中节点的权重：NPSN中节点(残基)i的权重w_i定义为：

w_i＝j_i，m_i，h_i，p_i，1-s_i，or f_i

其中j_i、m_i，、h_i、p_i、s_i和f_i代表归一化后的JSD保守性分数、质量、疏水性、极性SA和柔性。

这样，每个蛋白质将构建6个分别基于残基不同特性的NPSN。

步骤4.定义并计算点加权的蛋白质结构网络的参数

1)加权度

其中，为残基i的权重。

2)加权介数

其中，是节点i与节点j之间并且通过节点v的最短路径的条数；节点i与节点j之间的最短路径的条数。

3)加权中心度

其中，d_ij是网络中节点i和j之间的距离。

步骤5.基于以上网络参数，利用随机森林模型预测蛋白质中的别构残基的概率。

1)随机选取18个网络参数中m个参数(m＝3,4,5,…,18)以进行随机森林树的构建；

2)对数据集随机分成十组，每次选择其中的一组为测试集，剩余九组为训练集；

3)对训练集进行欠抽样以构建新的训练集，然后对此新的训练集的残基的m个参数构建随机森林树；

4)对2)-3)步骤重复100次，并以这100次预测的平均预测效果作为最终m个参数的预测效果。

5)预测效果评价指标：敏感性(Sensitivity，SEN)、特异性(Specificity，SPE)、精确度(Accuracy，ACC)、F1值、Matthews相关系数(Matthews correlation coefficient，MCC)

我们通过遍历这18个网络参数遍历，最终得到13个参数K^1-s、B^1-s、C^1-s、K^m、C^m、K^h、B^h、C^h、K^p、B^p、C^p、B^f和K^j构建的模型具有最优的效果。

由于目前没有直接预测别构残基的模型，为了便于比较。我们与别构位点预测的方法进行了比较。步骤1中预测到的结合位点中包含至少一个别构残基的位点为别构位点，我们的模型成功预测了82个蛋白质中63个蛋白质中的别构位点，优于另外两种基于支持向量机算法的别构位点预测方法Allosite(41/82)和AlloPred(23/82)。

步骤6.方法移植于催化残基的预测

按照上述步骤1-5类似的方法，我们构建了预测催化残基的方法，具体的得到14个参数B^1-s、C^1-s、K^m、C^m、K^h、B^h、C^h、K^p、B^p、C^p、K^f、B^f、C^f构和C^j构建随机森林模型。可见我们的方法以最少的参数得到了较好的预测效果且算法简单。

表1 NPSN预测结果比较

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于结构网络模型的蛋白质功能位点预测方法，其特征在于，包括：

预测所述蛋白质结合位点；

基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weighted Protein Structure Network，NPSN)；

定义并计算点加权的蛋白质结构网络的参数；

2.根据权利要求1所述的基于结构网络模型的蛋白质功能位点预测方法，其特征在于，步骤“预测蛋白质结合位点；”中，利用CAVITY软件预测蛋白质结合位点。

3.根据权利要求1所述的基于结构网络模型的蛋白质功能位点预测方法，其特征在于，步骤“输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质；”中，具体的参数包括：保守分数、质量、疏水性、极性、相对溶剂可及表面积和柔性；其中，以上所有残基的性质都进行蛋白质内归一化。

4.根据权利要求1所述的基于结构网络模型的蛋白质功能位点预测方法，其特征在于，步骤“基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weighted Protein Structure Network，NPSN)；”具体包括：

其中e_ij表示残基i和残基j之间的环境依赖接触能，其定义为

e_ij＝-ln(N_ijN₀₀C_i0C_j0/N_i0N_j0C_ijC₀₀)

w_i＝j_i，m_i，h_i，p_i，1-s_i，or f_i

其中j_i、m_i,、h_i、p_i、s_i和f_i代表归一化后的JSD(Jensen-Shannon Divergence)保守性分数、质量、疏水性、极性SA和柔性；

这样，每个蛋白质将构建6个分别基于残基不同特性的NPSN。

5.根据权利要求1所述的基于结构网络模型的蛋白质功能位点预测方法，其特征在于，步骤“定义并计算点加权的蛋白质结构网络的参数；”具体包括：

加权度

其中，为残基i的权重；

加权介数

加权中心度

其中，dij是网络中节点i和j之间的距离；

6.根据权利要求1所述的基于结构网络模型的蛋白质功能位点预测方法，其特征在于，步骤“基于以上网络参数，利用随机森林模型预测蛋白质中的别构残基的概率。”具体包括：

7.根据权利要求1所述的基于结构网络模型的蛋白质功能位点预测方法，其特征在于，按照步骤“预测蛋白质结合位点；输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质；基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weighted Protein Structure Network，NPSN)；定义并计算点加权的蛋白质结构网络的参数；”类似的方法构建预测催化残基的方法，具体的得到14个参数B^1-s、C^1-s、K^m、C^m、K^h、B^h、C^h、K^p、B^p、C^p、K^f、B^f、C^f构和C^j构建随机森林模型。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到7任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到7任一项所述方法的步骤。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到7任一项所述的方法。