CN111161792A

CN111161792A - 一种基于蛋白质空间结构的二硫键预测方法

Info

Publication number: CN111161792A
Application number: CN201911310982.3A
Authority: CN
Inventors: 李炜
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-05-15

Abstract

本发明提供一种基于蛋白质空间结构的二硫键预测方法，包括如下步骤：（1）输入待进行二硫键预测的蛋白质序列信息，使用SWISS‑MODEL服务器获取目的蛋白质的结构信息；（2）把所有与目的蛋白相关的结构列出，选择与其序列类似度最高的蛋白结构作为目的蛋白结构；（3）围绕目的蛋白结构，列出所有半胱氨酸的硫原子的空间位置坐标；（4）根据距离临界值判断标准预测某一对半胱氨酸侧链硫原子之间是否形成二硫键，并把目的蛋白结构中所有形成二硫键的半胱氨酸对列出，包括其侧链硫原子间距。本发明直接从二硫键的化学定义出发，提供一种基于蛋白质空间结构的二硫键预测方法，其准确性与测定蛋白质空间结构的实验方法的准确性完全一致。

Description

一种基于蛋白质空间结构的二硫键预测方法

技术领域

本发明涉及生物信息学、结构生物学与计算机应用领域，具体涉及一种基于蛋白质空间结构的二硫键预测方法。

背景技术

二硫键是在相同或不同蛋白质多肽链上的两个半胱氨酸残基之间形成的稳定共价键，对蛋白质的正确折叠和结构稳定性起重要作用。因此，精确地预测蛋白质结构中的二硫键，有助于深入研究蛋白质结构及分子动力学属性、揭示其构象关系、注释蛋白质功能，具有重要的生物学意义。文献查询表明：一系列用于预测蛋白质二硫键的方法已被提出，如：

1、DISULFIND: a disulfide bonding state and cysteine connectivityprediction server （一个二硫键连接状态和半胱氨酸连接预测服务器），于2006年出版于Nucleic Acid Research.

2、Disulfide Connectivity Prediction Based on Modelled Protein 3DStructural Information and Random Forest Regression （基于蛋白三维结构建模与随机森林回归的二硫键连接预测），于2015年出版于IEEE/ACM计算生物学和生物信息学会刊。

3、Accurate disulfide-bonding network predictions improve ab initiostructure prediction of cysteine-rich proteins （精确预测二硫键用于提升富含半胱氨酸蛋白结构的从头预测精度），于2015年出版于Bioinformatics（生物信息学）杂志。

4、pSSbond-PseAAC: Prediction of disulfide bonding sites byintegration of PseAAC and statistical moments （pSSbond- PseAAC:利用PseAAC:和统计矩的方法预测二硫键合位点），于2019年出版于理论生物学杂志。

除此以外，最近我们国家也有新的专利申请（申请号：201910311799.9），提出一种基于多序列联配信息的蛋白质二硫键预测方法，这个方法提供一种计算代价低、预测精度高的基于多序列联配信息的蛋白质二硫键预测方法。

尽管如此，目前的二硫键预测方法存在的缺陷包括：

1、从蛋白质序列出发预测蛋白质结构内的二硫键。从进化的角度看，结构比序列更加保守。从描述的维度看，蛋白质结构是三维的，而蛋白质序列是一维的，显然前者更接近客观真实。其次，即使预测出了二硫键，也只能从一维、或者二维的层面描述蛋白质结构内部的二硫键形成的模式图，而不是把二硫键本身映射（如摘要附图所示）到蛋白质空间结构本身，因此，无法直观、客观地表征二硫键对于蛋白质结构本身的稳定性及其及分子动力学属性（如摘要附图所示）。

2、从蛋白质三维结构建模出发预测蛋白质结构内的二硫键。和实验测定蛋白质三维结构比，由于蛋白质三维结构建模本身具有先天的缺陷，属于分子结构模拟研究，因此，从蛋白质三维结构建模出发预测蛋白质结构内的二硫键的准确性不可避免的要劣于从实验测定的蛋白质三维结构预测蛋白质结构内的二硫键的准确性。

综上所述，目前已有的蛋白质二硫键预测方法在预测准确度、表征维度两个方面的不足，有待进一步改进。因此，本发明从高准确度、高维度表征两个方面出发，提出一种基于蛋白质空间结构的二硫键预测方法。

发明内容

本发明要解决的技术问题是一种基于蛋白质空间结构的二硫键预测方法，计算代价低，可以高通量地鉴定出蛋白质内部的二硫键等，并且其准确性与目前世界公认的蛋白质三维结构测定方法（X-射线衍射、核磁共振（包括液态与固态）与冷冻电镜技术）的准确性完全一致。

本发明提供一种基于蛋白质空间结构的二硫键预测方法，包括如下步骤：

（1）输入待进行二硫键预测的蛋白质序列信息，使用SWISS-MODEL服务器获取目的蛋白质的结构信息；

（2）把所有与目的蛋白相关的结构列出，选择与其序列类似度最高的蛋白结构作为目的蛋白结构；

（3）围绕目的蛋白结构，列出所有半胱氨酸的硫原子的空间位置坐标；

（4）根据距离临界值判断标准预测某一对半胱氨酸侧链硫原子之间是否形成二硫键，并把目的蛋白结构中所有形成二硫键的半胱氨酸对列出，包括其侧链硫原子间距。

其中，步骤（3）中，半胱氨酸1侧链硫原子A的坐标为[x₁, y₁, z₁]，半胱氨酸2侧链硫原子B的坐标为[x₂, y₂, z₂]，根据这些坐标计算出所有AB的原子对之间的空间距离d(A,B)，具体公式如下：

。

本发明的技术方案的有益效果如下：

上述方案中，计算代价低，可以自动化的批量鉴定出蛋白质内部的二硫键、氢键、盐桥等等，并且其准确性与测定蛋白质空间结构的方法的准确性一致。

附图说明

图1为本发明的工作流程图；

图2为本发明实施例一中使用SWISS-MODEL服务器获取目的蛋白质的结构信息的示意图；

图3为本发明实施例一中通过SWISS-MODEL同源模拟服务器获取的蛋白质结构信息的结果图；

图4为本发明实施例一中选择与其序列类似度最高的蛋白结构作为目的蛋白结构的结果图；

图5为本发明实施例一中PDB数据库的唯一标识码2js9，从PDB数据库中查询的结果图；

图6为本发明实施例一中所有相关的原子对之间的空间距离示意图；

图7为本发明实施例一中Caenopore-5的液态核磁共振测定的三维结构图；

图8为本发明实施例一中对所有与Caenopore-5有关的或者同源的蛋白质结构进行批量二硫键预测的结果图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

在自然界，存在多种多样的物种，包括动物、植物、微生物，甚至病毒，同时，同一物种的蛋白质组成也具有非常丰富的多样性，甚至一个基因本身也会由于信使RNA剪接方式的不同而存在多种剪接体（也即是多种蛋白质产物），因此，目前为止，PDB（https://www.rcsb.org/）数据库虽然已经存放了15万个生物大分子结构，但是其尚未覆盖自然界所有的蛋白质结构。不过，这并不妨碍本发明提出一种基于蛋白质空间结构的二硫键预测方法。需要特别注意的是，下文所有关于具体方法步骤的描述均包含一个关键假设：目的蛋白质的结构已经通过实验技术（X-射线衍射、核磁共振（包括液态与固态）与冷冻电镜技术）测定，并且已经存放在PDB（https://www.rcsb.org/）数据库。

如图1所示，本发明提供了一种基于蛋白质空间结构的二硫键预测方法，包括如下步骤：

（2）把所有与目的蛋白相关的结构列出，选择与其序列类似度（也即是序列同源度，下文会详细描述）最高的蛋白结构作为目的蛋白结构；

（3）围绕目的蛋白结构，列出所有半胱氨酸的硫原子的空间位置坐标。比如，半胱氨酸1侧链硫原子A的坐标为[x₁, y₁, z₁] （单位为Å），半胱氨酸2侧链硫原子B的坐标为[x₂, y₂,z₂] （单位为Å），根据这些坐标计算出所有AB的原子对之间的空间距离d(A, B) （单位为Å），具体公式如下：

。

（4）根据距离临界值判断标准（2.3 Å）预测某一对半胱氨酸侧链硫原子之间是否形成二硫键，并把目的蛋白结构中所有形成二硫键的半胱氨酸对列出，包括其侧链硫原子间距（单位为Å）。

实施例1

本实施例以Caenopore-5为例提供一种分离自秀丽线虫肠道的抗菌蛋白Caenopore-5进行详细描述，Caenopore-5的氨基酸序列如下：

MSGSHHHHHHSSGIEGRGRSALSCQMCELVVKKYEGSADKDANVIKKDFDAECKKLFHTIPFGTRECDHYVNS KVDPIIHELEGGTAPKDVCTKLNECP

一种分离自秀丽线虫肠道的抗菌蛋白Caenopore-5的具体方法步骤如下：

（1）输入待进行二硫键预测的蛋白质序列信息，使用SWISS-MODEL服务器获取目的蛋白质的结构信息，如图2所示；

通过SWISS-MODEL同源模拟服务器获取的蛋白质结构信息的结果如图3所示。

（2）把所有与目的蛋白相关的蛋白质结构按照序列类似程度（Identity）列出，选择与其序列类似度最高的蛋白结构作为目的蛋白结构；从图4可见，与Caenopore-5的氨基酸序列类似度最高的是由2js9（PDB数据库的唯一标识码）代表的蛋白质结构，其类似度为100%，并且其排位第一。

（3）PDB数据库的唯一标识码2js9，从PDB数据库中查询结果如图5所示。

查询得知，PDB数据库的唯一标识码2js9对应的就是Caenopore-5的液态核磁共振测定的三维结构，因此，把这个三维结构对应的.pdb文件下载到本地电脑。

（4）由于Caenopore-5是液态核磁共振结构，其结构文件（2js9.pdb）内部包含15个结构模型，如图5所示：NUMMDL=15，也即是number of models = 15。通过一个开放源代码的Python脚本，把Caenopore-5是液态核磁共振结构分解成15个独立的结构文件（2js9.pdb）。围绕这15个独立的Caenopore-5结构文件，列出所有半胱氨酸的原子空间位置坐标，并且计算出所有相关的原子对之间的空间距离，如图6所示。

根据距离临界值判断标准（2.3 Å）预测某一对半胱氨酸侧链的硫原子之间是否形成二硫键，并且把目的蛋白结构中的所有形成二硫键的半胱氨酸对列出，如表一和图7所示：

表一

Figure DEST_PATH_21019DEST_PATH_IMAGE003

。

上表中，距离代表某一对半胱氨酸侧链的硫原子之间的空间距离，CYS_A_6代表Caenopore-5结构中A链的第6号半胱氨酸残基。

如图7所示：Caenopore-5的液态核磁共振测定的三维结构，包括5个α螺旋，分别用1（N端）、2、3、4、5（C端）标示，还包括3个二硫键，与上表互相对应，图中，C35代表CYS35，以此类推。

综上所述，本发明的优点在于：

1、从三维结构的角度预测二硫键，与从序列出发相比，更客观、真实，可以映射到三维结构上，可以更直观地表征二硫键对稳定蛋白质结构的功能。

2、从实验测定的蛋白质结构出发，与结构建模相比，更准确，其准确性与世界公认的蛋白质结构测定方法的准确性完全一致。

3、本发明的计算代价低，所需时间短，可以跨平台实现。

4、如图8所示，本发明提供的方法可以实现高通量的二硫键预测，比如对所有与Caenopore-5有关的或者同源的蛋白质结构进行批量二硫键预测，从进化的角度进一步分析相关蛋白质结构的保守性。

本发明提供的一种基于蛋白质空间结构的二硫键预测方法，首先，根据输入的待进行二硫键预测的蛋白质序列信息，通过SWISS-MODEL蛋白质结构同源模拟服务器（https://swissmodel.expasy.org/）搜索与目的蛋白质序列类似度最高的蛋白质空间结构；然后，根据这一蛋白质结构的唯一识别码，将这一蛋白质结构文件（.pdb格式）从PDB（https://www.rcsb.org/）数据库中下载到本地电脑；其次，从结构文件中，抽取所有半胱氨酸残基的硫原子的三维坐标（x, y, z）；最后，计算出任意一对半胱氨酸残基的硫原子之间的空间距离，根据研究人员普遍采用的距离临界值判断标准（2.3 Å），来预测某一对半胱氨酸之间是否形成二硫键，并且把目的蛋白结构中的所有形成二硫键的半胱氨酸残基对相关信息（包括硫原子间距（Å））一一列出。

本发明直接从二硫键的化学定义出发，提供一种基于蛋白质空间结构的二硫键预测方法，其准确性与测定蛋白质空间结构的方法的准确性一致，包括X-射线衍射、核磁共振（包括液态与固态）与冷冻电镜技术，而这三大技术是世界公认的用于测定生物大分子空间结构的三大主流生物物理实验技术。以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

序列表

<110> 南通大学

<120> 一种基于蛋白质空间结构的二硫键预测方法

<141> 2019-12-18

<160> 1

<170> SIPOSequenceListing 1.0

<210> 1

<211> 99

<212> PRT

<213> Caenopore-5

<400> 1

Met Ser Gly Ser His His His His His His Ser Ser Gly Ile Glu Gly

1 5 10 15

Arg Gly Arg Ser Ala Leu Ser Cys Gln Met Cys Glu Leu Val Val Lys

20 25 30

Lys Tyr Glu Gly Ser Ala Asp Lys Asp Ala Asn Val Ile Lys Lys Asp

35 40 45

Phe Asp Ala Glu Cys Lys Lys Leu Phe His Thr Ile Pro Phe Gly Thr

50 55 60

Arg Glu Cys Asp His Tyr Val Asn Ser Lys Val Asp Pro Ile Ile His

65 70 75 80

Glu Leu Glu Gly Gly Thr Ala Pro Lys Asp Val Cys Thr Lys Leu Asn

85 90 95

Glu Cys Pro

Claims

1.一种基于蛋白质空间结构的二硫键预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于蛋白质空间结构的二硫键预测方法，其特征在于，步骤（3）中，半胱氨酸1侧链硫原子A的坐标为[x₁, y₁, z₁]，半胱氨酸2侧链硫原子B的坐标为[x₂, y₂, z₂]，根据上述坐标计算出所有AB的原子对之间的空间距离d(A, B)，具体公式如下：

。