CN106503487A

CN106503487A - 一种统计分析蛋白质肽键的顺式和反式结构的方法

Info

Publication number: CN106503487A
Application number: CN201610934882.8A
Authority: CN
Inventors: 何建锋
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2016-11-01
Filing date: 2016-11-01
Publication date: 2017-03-15
Anticipated expiration: 2036-11-01
Also published as: CN106503487B

Abstract

一种统计分析蛋白质肽键的顺式和反式结构的方法，属于蛋白质结构分析、结构预测和顺式与反式构型异构研究领域。主要特点为：采用蛋白质肽平面碳、氮、氧原子建立坐标标架，计算待考察原子在单位球面上中的经纬度角，并将所有待考察原子投影到这个单位球面上，得到待考察原子的三维统计分布图；这是一种直观地、可视化的蛋白质结构分析方法，能有效地展现肽键的顺式和反式结构中的差异，揭示肽键的顺式和反式结构中原子的分布特征。比现有的基于结构化学的方法更新颖；可分析任意侧链原子的结构特性；能够直观地能够展现蛋白质中某种原子或某类原子的几何结构特性；对蛋白质结构预测、结构优化、结构约束、顺式和反式结构异构化分析具有重要意义。

Description

一种统计分析蛋白质肽键的顺式和反式结构的方法

技术领域

本发明涉及一种蛋白质分子三维空间结构特性的分析方法，尤其涉及一种统计分析蛋白质肽键的顺式和反式结构的方法，属于蛋白质结构分析、结构预测和顺式与反式构型异构研究领域。

背景技术

在蛋白质中，肽键是氨基酸链接的基本方式。由于酰胺氮和羧基氧之间的共振相互作用，肽键具有部分双键性质，不能自由转动，参与肽键的六个原子(C^α ₁、C^α ₂、C、H、O、N)趋于共面。因而，蛋白质的肽基团仅有顺式和反式两种平面构型。顺式构型中，C^α _i-N_i-C_i+1-C^α _i+1原子形成的二面角约为0度；反式构型中，C^α _i-N_i-C_i+1-C^α _i+1原子的二面角约为180度。由于空间位阻作用，顺式构型的能量高于反式构型。顺式与反式构型间转换能垒约20kcal/mol，它们异构化较困难。数据显示，自然折叠的蛋白质中，绝大多数肽基团为反式构型。通过量子化学计算和小分子有机物实验研究估计，反式与顺式构型间能量差约为2.5kcal/mol。通过对蛋白质数据银行(PDB)中晶体数据统计表明，肽键中顺式构型的比率约0.3％。其中，由脯氨酸参与组成的肽键，顺式构型出现的几率较大。

研究表明，顺式和反式构型的形成、肽键顺式与反式异构化在蛋白质折叠、生物学功能实现等方面具有非常重要的作用。然而，我们对蛋白质肽键的反式与顺式构型分析方法有限，对它们的形成、几何特性和功能等了解还较少，需要更多、更有效的分析手段和方法。目前，对顺式和反式构型的研究通常采用传统的结构化学方法，主要关注肽基团原子形成的键长、键角和扭转角，结构分析没有精度到原子尺度。例如，C^α _i-N_i-C_i+1-C^α _i+1原子二面角的分析法、以C_i-C^α _i键扭转角和C^α _i-N_i键扭转角为坐标的拉氏图法。

发明内容

本发明的目的是针对目前还没有精细到原子尺度统计分析蛋白质中肽键结构的技术现状，提出了一种统计分析蛋白质肽键的顺式和反式结构的方法。

本发明所提方法的主要特点为：采用蛋白质肽平面碳、氮、氧原子建立坐标标架，计算待考察原子在单位球面上中的经纬度角，并将所有待考察原子投影到这个单位球面上，得到待考察原子的三维统计分布图；这是一种直观地、可视化的蛋白质结构分析方法，能有效地展现肽键的顺式和反式结构中的差异，揭示肽键的顺式和反式结构中原子的分布特征。

为实现上述目的，一种统计分析蛋白质肽键的顺式和反式结构的方法，步骤如下：

步骤(1)：获取蛋白质实验结构，建立蛋白质结构数据库；

获取蛋白质实验结构的优选方案之一是从蛋白质数据银行(PDB，http://www.rcsb.org)中下载；具体的，可从此蛋白质数据银行下载X-Ray晶体衍射的蛋白质实验结构，可选择分辨率优于1.0埃的蛋白质实验结构进行高精度的统计分析；

步骤(2)：建立碳氮氧坐标标架，即CNO坐标标架，具体为：

从步骤(1)建立的蛋白质结构数据库的蛋白质实验结构中提取每个氨基酸残基上的主链碳、氮、氧原子坐标，以主链碳原子为坐标原点，引入单位切向矢量、单位副法向矢量和单位法向矢量，构成右手正交的碳氮氧坐标标架，称为CNO坐标标架，它与笛卡尔坐标系类似；

其中，主链碳、氮、氧原子记为C、N、O，它们从蛋白质的氮末端到碳末端根据氨基酸残基顺序编号，编号记为i，i＝1,2,3,…,M，M是一个蛋白质中氨基酸残基总数；第i个氨基酸残基上的主链碳、氮、氧原子记为C_i、N_i、O_i；它们的坐标记为r_Ci、r_Ni、r_Oi；第i+1个氨基酸残基上的主链碳、氮、氧原子记为C_i+1、N_i+1、O_i+1；它们的坐标记为r_Ci+1、r_Ni+1、r_Oi+1；

其中，单位切向矢量记为u_i，单位副法向矢量记为w_i，单位法向矢量记为v_i；

其中，采用i个肽平面上主链C_i、N_i+1、O_i原子建立的碳氮氧坐标标架记为第i个CNO标架；

其中，第i个肽平面指由第i和(i+1)个氨基酸残基形成平面；

其中，单位切向矢量、单位副法向矢量、单位法向矢量表述为如下公式(1)：

其中，

步骤(3)：确定待考察原子在CNO坐标标架中的坐标，具体为：

从步骤(1)建立的蛋白质结构数据库的蛋白质实验结构中，提取待考察的中心碳原子、主链碳原子、主链氮原子、主链氧原子、侧链碳原子的坐标；在蛋白质实验结构中，采用的是实验室坐标系；根据这个坐标系下待考察原子坐标，计算待考察原子在CNO坐标标架中的坐标；

其中，中心碳原子、主链碳原子、主链氮原子、主链氧原子、侧链碳原子采用与步骤(2)一致的编号；

其中，中心碳原子记为C^α，第i和(i+1)个氨基酸残基上的中心碳原子记为C^α _i、C^α _i+1；

其中，沿着侧链第1个碳原子记为C^β，第(i+1)个氨基酸残基的侧链第1个碳原子记为C^β _i+1；

其中，计算C^α _i+1、C_i+1、O_i+1、C^β _i+1原子在CNO坐标标架中的坐标表述为如下公式(2)：

其中，为C^α _i+1、C_i+1、O_i+1、C^β _i+1原子在CNO坐标标架中的坐标；

其中，公式(2)中的坐标都可以分解为三个分量形式，表述为如下公式(3)：

其中，符号A表示C^α _i+1、C_i+1、O_i+1、C^β _i+1原子中的任意一个；

其中，x′_A、y′_A、z′_A表示A原子在CNO坐标标架中u_i、w_i、v_i方向上的分量；

步骤(4)：根据CNO坐标标架建立单位球面，计算待考察原子在单位球面中的经纬度角，具体为：

根据步骤(2)中建立的CNO坐标标架，建立单位球面；由球坐标和步骤(3)中CNO坐标标架的坐标转换关系，计算考察原子在单位球面中的经纬度角；

其中，待考察原子在单位球面中的经纬度角记为

其中，单位球面建立方法为：球面半径为1，第i个单位球面的球心在主链碳原子C_i上；步骤(2)中CNO坐标标架的单位切向矢量u_i的顶点位于单位球面的北极，单位球面北极处的纬度为0度；过CNO坐标标架的单位切向矢量u_i和单位法向矢量v_i的大半圆的经度为0度；

其中，球坐标与CNO坐标标架的坐标转换关系表述为如下公式(4)：

步骤(5)：将步骤(1)蛋白质结构数据库的蛋白质实验结构中所有顺式和反式结构的待考察原子投影到单位球面上，得到顺式和反式结构中待考察原子的分布，具体为：

步骤(5).1：采用肽平面原子形成的二面角，判断肽平面的顺式和反式结构，由步骤(1)蛋白质结构数据库，得到顺式结构肽平面数据组、反式结构肽平面数据组；

其中，顺式和反式结构辨别方法为：C^α _i-N_i-C_i+1-C^α _i+1原子形成的二面角在[-90°,90°]范围是顺式结构，C^α _i-N_i-C_i+1-C^α _i+1原子的二面角在[90°,-90°]范围是反式结构；

步骤(5).2：根据顺式结构中，后一个氨基酸残基是否为脯氨酸，将由步骤(5).1的顺式结构肽平面数据组分成含脯氨酸顺式结构肽平面数据组和不含脯氨酸顺式结构肽平面数据组；

其中，含脯氨酸顺式结构肽平面数据组和不含脯氨酸顺式结构肽平面数据组分别记为cis-proline和cis-nonproline；

步骤(5).3：根据反式结构肽平面数据组，计算所有待考察原子的经纬度角，由经纬度角确定单位球面上待考察原子的投影点，得到反式结构中待考察原子的统计分布；

步骤(5).4：根据含脯氨酸顺式结构肽平面数据组，计算所有待考察原子的经纬度角，由经纬度角确定单位球面上待考察原子的投影点，得到所有cis-proline中待考察原子的统计分布；

步骤(5).5：根据不含脯氨酸顺式结构肽平面数据组，计算所有待考察原子的经纬度角，由经纬度角确定单位球面上待考察原子的投影点，得到所有cis-nonproline中待考察原子的统计分布；

其中，步骤(5).3-5中单位球面上投影点的经纬度角与步骤(4)的经纬度角表述一致；

至此，从步骤(1)到步骤(5)，完成了一种统计分析蛋白质肽键的顺式和反式结构的方法。

有益效果

一种统计分析蛋白质肽键的顺式和反式结构的方法，与现有的蛋白质结构分析方法相比，具有如下有益效果：

(1)本发明采用CNO坐标标架和单位球面研究蛋白质结构特性，包含顺式和反式构型的特性，比现有的基于结构化学的方法更新颖；

(2)本发明所提方法既可以分析主链原子的结构特性，又可以分析任意侧链原子的结构特性；

(3)本发明所提方法能够肽平面上观察顺式和反式结构中原子的分布特性，这是一个新角度；

(4)如果设想观察者站在球心，他所看到的球面上原子分布就像夜空中的繁星一样，因而，本发明的另一个明显优势是“所见即所得”，能够直观地提供蛋白质几何结构信息；

(5)拉氏图是蛋白质结构研究中应用最广泛的方法，它通过肽平面的扭转反映蛋白质结构分布特性；与之相比，本发明所提方法在原子尺度上揭示蛋白质结构信息，能够展现蛋白质中某种原子或某类原子的几何结构特性；

(6)本发明所提方法对蛋白质结构预测、蛋白质结构优化、蛋白质结构约束、顺式和反式结构异构化分析等具有基础和应用意义。

附图说明

图1为一种统计分析蛋白质肽键的顺式和反式结构的方法流程图；

图2为一种统计分析蛋白质肽键的顺式和反式结构的方法在具体实施时针对高精度统计分析蛋白质肽键的顺式和反式结构中的中心碳原子几何特征的流程示意图；

图3为第i个肽平面CNO坐标标架上观察到的C^α _i+1原子分布图；

图4为第i个肽平面CNO坐标标架上观察到的C^β _i+1原子分布图；

图5为第i个肽平面CNO坐标标架上观察到的C_i+1原子分布图。

具体实施方式

下面结合附图和实施例对本发明的方法作进一步说明。

实施例1

本实施例详细阐述了本发明“一种统计分析蛋白质肽键的顺式和反式结构的方法”在具体实施时针对高精度统计分析蛋白质肽键的顺式和反式结构中的中心碳原子几何特征的流程。

图1为一种统计分析蛋白质肽键的顺式和反式结构的方法的流程图。从图中可以看出，本方法包含步骤有：步骤(1)：获取蛋白质实验结构，建立蛋白质结构数据库；步骤(2)：建立碳氮氧坐标标架；步骤(3)：确定待考察原子在CNO坐标标架中的坐标；步骤(4)：计算待考察原子在单位球面中的经纬度角；步骤(5)：将步骤(1)蛋白质结构数据库的蛋白质实验结构中所有顺式和反式结构的待考察原子投影到单位球面上，得到顺式和反式结构中待考察原子的分布；

图2为本实施例的流程图，从图中可以看出，高精度统计分析蛋白质肽键的顺式和反式结构中的中心碳原子几何特征包含如下步骤：

步骤(一)：从蛋白质数据银行中下载分辨率优于1.0埃的晶体衍射蛋白质实验结构，建立高分辨率蛋白质结构数据库；

步骤(二)：基于氨基酸残基上的C、N、O原子坐标，建立右手正交的CNO坐标标架，具体为：

从步骤(一)高分辨率蛋白质结构数据库中的蛋白质实验结构，提取任一蛋白质中第i个氨基酸残基上的C_i、O_i原子和第(i+1)个氨基酸残基上的N_i+1原子坐标r_Ci、r_Oi、r_Ni+1，采用发明内容步骤(2)中公式(1)引入单位切向矢量u_i、单位副法向矢量w_i、单位法向矢量v_i，建立第i个右手正交的CNO标架；

步骤(三)：计算中心碳原子C^α _i+1在CNO坐标标架中的坐标，具体为：

从步骤(一)高分辨率的蛋白质结构数据库中的蛋白质实验结构，提取任一蛋白质中第(i+1)个氨基酸残基上中心碳原子C^α _i+1的坐标r_C ^α _i+1，采用发明内容步骤(3)中的公式(2)或(3)，计算C^α _i+1原子在CNO坐标标架中的坐标

步骤(四)：计算中心碳原子C^α _i+1在单位球面中的经纬度，具体为：

由步骤(二)构建的CNO坐标标架，采用发明内容步骤(4)的方法，构建单位球面，采用发明内容步骤(4)的公式(4)，计算中心碳原子C^α _i+1在单位球面中的经纬度角

步骤(五)：将步骤(一)高分辨率的蛋白质结构数据库的蛋白质实验结构中所有顺式和反式结构的中心碳原子C^α _i+1投影到单位球面上，得到顺式和反式结构中心碳原子C^α _i+1的分布，具体为：

步骤(五).1：采用肽平面C^α _i-N_i-C_i+1-C^α _i+1原子形成的二面角，根据发明内容步骤(5).1的方法判断肽平面的顺式和反式结构，将步骤(一)高分辨率的的蛋白质结构数据库分为顺式结构肽平面数据组、反式结构肽平面数据组；

步骤(五).2：根据发明内容步骤(5).2的方法，将步骤(五).1的顺式结构肽平面数据组分成含脯氨酸顺式结构肽平面数据组cis-proline和不含脯氨酸顺式结构肽平面数据组cis-nonproline；

步骤(五).3：由反式结构肽平面数据组，利用步骤(二)-(四)，计算所有中心碳原子C^α _i+1的经纬度由值画出单位球面上C^α _i+1原子的投影点，得到反式结构中C^α _i+1原子的统计分布；

步骤(五).4：根据顺式结构肽平面数据组，利用步骤(二)-(四)，计算所有C^α _i+1原子的经纬度，确定单位球面上C^α _i+1原子的投影点，得到所有顺式结构中C^α _i+1原子的统计分布；

步骤(五).5：根据不含脯氨酸顺式结构肽平面数据组cis-nonproline，利用步骤(二)-(四)，计算所有C^α _i+1原子的经纬度，确定单位球面上C^α _i+1原子的投影点，得到所有cis-nonproline中C^α _i+1原子的统计分布；

图3是高分辨率的蛋白质结构数据库的蛋白质实验结构中所有顺式和反式结构的中心碳原子C^α _i+1在单位球面上分布图；图中，符号u_i、w_i、v_i标示了CNO坐标标架轴，trans、cis、cis-nonproline表示反式结构、顺式结构、不含脯氨酸顺式结构的C^α _i+1原子分布；图3显示，反式结构中C^α _i+1原子局域分布在经纬度(0°,90°)周围区域，顺式结构中C^α _i+1原子局域分布在经纬度(0°,-30°)区域，而不含脯氨酸顺式结构相对于一般的顺式结构而言，分布较为分散；

至此，从步骤(一)到步骤(五)，完成了高精度统计分析蛋白质肽键的顺式和反式结构中的中心碳原子几何特征的方法。

实施例2

本实施例按照本发明“一种统计分析蛋白质肽键的顺式和反式结构的方法”的步骤和实施例1所述流程，阐述统计分析侧链C^β _i+1原子在蛋白质肽键的顺式和反式结构中分布特性及其结果。

高精度统计分析侧链C^β _i+1原子在蛋白质肽键的顺式和反式结构中的分布特性，步骤A、B与实施例1步骤(一)、(二)相同；步骤C、D、E与实施例1步骤(三)、(四)、(五)的区别是本实施例计算侧链C^β _i+1原子的坐标、经纬度和画侧链C^β _i+1原子在单位球面分布，其步骤(五)中加入二级结构α-helix、α-left-handed-helix、β-strand判定，其方法采用STRIDE算法确定；

图4是高分辨率蛋白质结构数据库的蛋白质实验结构中所有顺式和反式结构的侧链C^β _i+1原子在单位球面上分布图；图中，符号u_i、w_i、v_i标示CNO坐标标架轴，trans、cis、cis-nonproline指出了反式结构、顺式结构、不含脯氨酸顺式结构的C^β _i+1原子分布，α-helix、α_L-helix、β-strand表示螺旋、左手螺旋、片层对应的C^β _i+1原子分布位置；图4显示，反式结构trans中C^β _i+1原子局域分布两个分离的区域，α_L-helix中反式结构C^β _i+1原子主要分布在经纬度(70°,80°)区域，α-helix和β-strand中反式结构C^β _i+1原子主要集中在经度(-90°,30°)与纬度(80°,120°)区域；顺式结构中C^β _i+1原子局域分布在经纬度(30°,140°)区域，不含脯氨酸顺式结构C^β _i+1原子分布较为分散；

实施例3

本实施例按照本发明步骤和实施例1所述流程，具体阐述统计分析主链C_i+1原子在蛋白质肽键的顺式和反式结构的分布特性，结果如图5。

图5是高分辨率蛋白质结构数据库的蛋白质实验结构中所有顺式和反式结构的主链C_i+1原子在单位球面上分布图；图中，符号u_i、w_i、v_i标示CNO坐标标架轴，trans、cis、cis-nonproline指出了反式结构、顺式结构、不含脯氨酸顺式结构的主链C_i+1原子分布，α-helix、α_L-helix、β-strand表示螺旋、左手螺旋、片层对应的主链C_i+1原子分布位置；图5显示，反式结构trans中主链C_i+1原子主要收敛到两个分离的聚集区，α-helix中反式结构主链C_i+1原子主要分布在经纬度(50°,70°)区域，β-strand中反式结构主链C_i+1原子主要分布在经纬度(40°,100°)区域；顺式结构中主链C_i+1原子局域分布在经纬度(-50°,160°)区域，不含脯氨酸顺式结构主链C_i+1原子分布较为分散；

以上所述为本发明的几个典型实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种统计分析蛋白质肽键的顺式和反式结构的方法，主要特点为：采用蛋白质肽平面碳、氮、氧原子建立坐标标架，计算待考察原子在单位球面上中的经纬度角，并将所有待考察原子投影到这个单位球面上，得到待考察原子的三维统计分布图；这是一种直观地、可视化的蛋白质结构分析方法，能有效地展现肽键的顺式和反式结构中的差异，揭示肽键的顺式和反式结构中原子的分布特征，其特征在于：包括如下步骤：

步骤(1)：获取蛋白质实验结构，建立蛋白质结构数据库；

步骤(2)：建立碳氮氧坐标标架，即CNO坐标标架；

步骤(3)：确定待考察原子在CNO坐标标架中的坐标；

步骤(4)：根据CNO坐标标架建立单位球面，计算待考察原子在单位球面中的经纬度角；

步骤(5)：将步骤(1)建立的蛋白质结构数据库的蛋白质实验结构中所有顺式和反式结构的待考察原子投影到单位球面上，得到顺式和反式结构中待考察原子的分布；

2.根据权利要求1所述的一种统计分析蛋白质肽键的顺式和反式结构的方法，其特征在于：步骤(1)中，获取蛋白质实验结构的优选方案之一是从蛋白质数据银行(PDB，http://www.rcsb.org)中下载；具体的，可从此蛋白质数据银行下载X-Ray晶体衍射的蛋白质实验结构，可选择分辨率优于1.0埃的蛋白质实验结构。

3.根据权利要求1所述的一种统计分析蛋白质肽键的顺式和反式结构的方法，其特征在于：步骤(2)，具体为：

其中，第i个肽平面指由第i和(i+1)个氨基酸残基形成平面；

其中，

4.根据权利要求1所述的一种统计分析蛋白质肽键的顺式和反式结构的方法，其特征在于：步骤(3)，具体为：

r_{C_{i + 1}^{α}}^{'} = r_{C_{i + 1}^{α}} - r_{C_{i}}, r_{C_{i + 1}}^{'} = r_{C_{i + 1}} - r_{C_{i}}, r_{O_{i + 1}}^{'} = r_{O_{i + 1}} - r_{C_{i}}, r_{C_{i + 1}^{β}}^{'} = r_{C_{i + 1}^{β}} - r_{C_{i}} - - - (2)

x_{A}^{'} = x_{A} - x_{C_{i}}, y_{A}^{'} = y_{A} - y_{C_{i}}, z_{A}^{'} = z_{A} - z_{C_{i}} - - - (3)

其中，x′_A、y′_A、z′_A表示A原子在CNO坐标标架中u_i、w_i、v_i方向上的分量。

5.根据权利要求1所述的一种统计分析蛋白质肽键的顺式和反式结构的方法，其特征在于：步骤(4)，具体为：

其中，待考察原子在单位球面中的经纬度角记为

6.根据权利要求1所述的一种统计分析蛋白质肽键的顺式和反式结构的方法，其特征在于：步骤(5)，具体为：

其中，步骤(5).3-5中单位球面上投影点的经纬度角与步骤(4)的经纬度角表述一致。