CN101294970B

CN101294970B - 蛋白质三维结构的预测方法

Info

Publication number: CN101294970B
Application number: CN2007100987155A
Authority: CN
Inventors: 唐鹤云; 张正国; 杨啸林; 郭亚峰
Original assignee: Institute of Basic Medical Sciences of CAMS and PUMC
Current assignee: Institute of Basic Medical Sciences of CAMS and PUMC
Priority date: 2007-04-25
Filing date: 2007-04-25
Publication date: 2012-12-05
Anticipated expiration: 2027-04-25
Also published as: CN101294970A

Abstract

本发明提供了一种预测蛋白质三维结构的方法。该方法通过1)将要预测三维结构的目标蛋白质序列中的一个氨基酸(例如第一个)设定预测坐标值，2)以1)中的下一个氨基酸(例如第二个)为中央氨基酸在目标序列中分割一个九肽片段，3)在九肽片段数据库中搜索与步骤2)的序列最佳匹配的九肽片段，4)根据搜索出的最佳匹配片段的中央氨基酸的相对坐标计算目标九肽片段中央氨基酸的坐标，将其装配到目标蛋白上，5)以目标序列的下一个氨基酸(例如第三个)作为下一个中央氨基酸重复进行上述的分割、搜索、装配步骤，直至最后一个氨基酸装配结束。该方法获得的目标蛋白质序列结构具有较好的精度，解决了侧链安置问题，运算量小，计算速度快。

Description

蛋白质三维结构的预测方法

技术领域

本发明属于蛋白质三维结构预测方法的从头预测(Ab Initio)领域，尤其是一种基于多肽片段中央氨基酸装配的蛋白质结构预测方法。

背景技术

随着人类基因组计划的完成，我们进入了蛋白质组时代。蛋白质组计划的主要任务是了解每个蛋白质，这包括每个蛋白质的序列、结构和功能。对于任何一个蛋白质来讲，序列决定其结构，而正是这种独特的结构赋予其独特的功能。所以说，获得蛋白质的三维结构对于了解其功能具有重要意义。目前，可以通过一些实验方法(X线晶体衍射、核磁共振等)来获取一个蛋白质的空间结构。但是，这些实验方法都有着各自的局限性，而且进度远远低于蛋白质序列的测定。所以，科学界发展了一些通过蛋白质序列来预测其结构的方法。当前预测蛋白质结构的方法主要可以分为三大类，即同源建模、折叠识别、从头预测。

目前，在众多的蛋白质结构预测方法中，同源建模是最成功的一种。它是基于蛋白质在逐渐的进化过程中(氨基酸的替换、插入、或删除)三维结构和功能高度保守。许多结构和功能相似的蛋白质之间，通常它们的序列也非常相似。也就是说，高度的序列相似意味着高度的结构相似性。同源建模试图通过目标蛋白和已知结构蛋白之间的序列比较来确定目标蛋白的三维结构。同源建模的精度受目标蛋白和模板之间序列相似性的制约。如果这两个蛋白间序列相似性不低于50％，那么建模得到的结构和真实结构之间的RMSD(均方根差，用于衡量两个结构之间的相似程度，数值越小表示相似程度越高)值通常会小于1。当序列间的相似性在20％～30％之间时，95％的情况是结构不一致，即使在结构数据库里能找到模板，模型骨架的RMSD也不会低于2。

折叠识别也叫穿线法，它是基于不同的蛋白折叠数量是有限的这样一个假设。这种方法是在一个唯一的或者是有代表性的结构库中搜索相似的结构。它的过程和同源建模有点类似，都需要搜寻合适的模板。不同的是折叠鉴定这一步骤。首先需要定义一个结构库。结构库可以是包含整个蛋白、结构域、甚至保守的结构片段。用一个能量方程(一般认为能量越低，结构越稳定)来衡量目标蛋白和库中每一个结构的适合程度，从而找出最可能的模板。因为整个库中的每个折叠都需要和目标蛋白进行比对，折叠识别方法需要大量的计算资源，这使它的应用受到限制。另外一个主要的瓶颈是用来评估比对质量的能量方程。因为计算效率的原因，这些方程作了大量的简化。用一个简单的方程来找寻所有正确的折叠是不太可能的。然而，现在的能量方程可以把大量可能的折叠减少到有限的几个。和同源建模类似，序列相似性达到同一个蛋白家族水平，折叠识别产生的模型的RMSD值在1到3之间；到超蛋白家族的水平时，RMSD值在3到6之间。

同源建模和折叠识别共同的限制是都需要合适的模板。当没有合适的模板可以使用时，Ab Initio方法可以仅仅从序列信息预测蛋白结构。这种方法通过反复模拟蛋白可能的构象变化并计算每种情况相应的能量，找出一个能量最低方案。现在，Ab Initio方法可以预测RMSD值在6以内的较大的蛋白。自CASP4(Critical Assignment of StructurePrediction，评测各种蛋白质结构预测方法)以来，ROSETTA从众多的Ab Initio方法中脱颖而出，成为最成功的Ab Initio方法。它是基于不同的蛋白质中氨基酸组成一致的局部小片段的结构有相似这样一个发现。整个蛋白可以分割成一系列的小片段，而这些片段或者是与其相似的结构都可以在已知结构的蛋白中找到。能量方程采用的结构—序列贝叶斯概率公式。而对于非局部的相互作用，可以结合能量方程来计算。但是，对于ROSETTA来讲，各片段之间的如何连接是一个重大的问题。

所有的上述方法都存在一些共同的问题，就算运算量巨大，通常需要大量的计算资源，普通PC无法运行；同时在大多数情况下，搜索到的结构模板或片段与目标序列的氨基酸组成仅仅是相似，而不是完全一致的，不同的氨基酸其侧链不同，那么在将结构模板上的氨基酸替换为目标序列的氨基酸时，侧链安置是一个很难解决的问题。

发明内容

为了克服现有技术中存在的蛋白质结构预测精度不高，氨基酸侧链难以安置，以及运算量巨大的缺陷，本发明的目的在于提供一种运算速度快，精度高的蛋白质三维结构的预测方法。该方法是基于九肽片段的第五个氨基酸(下文称为中央氨基酸)装配的蛋白质结构预测方法。

本发明提供了一种预测蛋白质三维结构的方法。其包括如下步骤：1)以目标序列的第一个氨基酸作为预测的起点设定其坐标值，2)分割目标序列，以该序列的第二个氨基酸为一个九肽片段的中央氨基酸，即第五个氨基酸，在序列中截取九肽长度的片段，不足的部分用空格补齐，3)搜索与步骤2)中所截得的片段最佳匹配的九肽片段，4)根据搜索出的最佳匹配片段的中央氨基酸的相对坐标计算目标九肽片段中央氨基酸的坐标，将其装配到目标蛋白上，5)装配完成上述第二个氨基酸之后，沿目标序列移至第三个氨基酸，并以第三个氨基酸作为下一个中央氨基酸重复进行上述步骤2)至步骤4)的截取、搜索、装配步骤，直至最后一个氨基酸装配结束(参见图1)。

本发明的一个具体实施方案中，作为预测起点的第一个氨基酸的坐标值，可以在满足相应氨基酸各原子间相互位置关系的基础上，根据用户需要而设定。

在本发明另一个实施方案中，搜索步骤中可以根据用户需要选择各种序列比对矩阵。

本发明的再一个实施方案中，在对目标蛋白的三维结构进行预测之前，首先根据目前可得到的所有九肽片段及其中央氨基酸的坐标，建立数据库和索引。蛋白三维结构预测方法的搜索步骤可以在该数据库中进行。

本发明的一个实施方案中，关于九肽片段及其中央氨基酸的坐标数据库的索引是根据数据库中所有片段的中间三个氨基酸而建立的。

本发明提供的蛋白质三维结构预测方法可以从蛋白质的N端或C端开始进行预测。

本发明的另一个相关实施方案中，目标序列的第二个氨基酸为一个大于九肽片段的奇数肽片段的中央氨基酸，在序列中截取大于九肽片段的奇数肽长度的片段，不足的部分用空格补齐，

本发明的再一个相关实施方案中，在对目标蛋白的三维结构进行预测之前，首先根据目前可得到的所有大于九肽片段的奇数肽及其中央氨基酸的坐标，建立数据库和索引，所述的搜索步骤在该数据库中进行。

在本发明提供的方法中，申请人只搜索数据库中与目标序列完全一致的序列进行比对，因此从数据库中检索到的最佳结果及其相应的数据是与目标序列完全一致的，从而使得目标序列中被装配上去的中央氨基酸与数据库中的结果是完全一致的，保证了蛋白质结构预测结果的精度，避免了使用现有技术进行比对而出现的相似性比对结果的情况。同时，也解决了在蛋白质结构预测中氨基酸侧链难以安置的问题。

本申请的有益效果在于：运算量较小，计算速度快，所需计算资源少，在普通PC上就可以运行；同时由于搜索的模板或片段与目标序列完全一致，因此装配上去的氨基酸和目标氨基酸完全一致，很好地解决了侧链安置问题，从而使得获得的目标蛋白质序列的结构具有更好的精度。

附图说明

图1预测目标序列的流程图，

图2坐标转换示意图，

图3目标序列预测结果的三维图像，

图4目标序列预测所得的结构骨架图。

以下将结合附图和实施例对本发明进行详细说明，其中实施例仅仅是说明而非限定的作用，本领域技术人员完全可以在以下披露的具体实施方案的技术上作出改变，但是，不超过本发明权利要求的范围或者本发明精神之内所作出的改进都会落入本发明的保护范围。

具体实施方式

申请人通过实验研究发现，对于一个氨基酸序列确定的九肽而言，其中相对于第四个氨基酸的第五个氨基酸的空间位置基本是固定的(从N端到C端)，而且对于大于九肽的奇数肽(含有大于九的奇数个氨基酸的肽)，其中央氨基酸相对于前一个氨基酸的空间位置随着肽链长度的增加而更加固定。鉴于所述发现，申请人建立了一种新的蛋白质结构预测方法。

本发明采取的预测方法的一个优选的技术方案如下(以九肽片段为例，该方法同样适用于大于九肽的奇数肽，在此不再赘述)：

1.建立九肽片段及其中央氨基酸的坐标的数据库：首先，从PDB(protein data bank)下载所有已知的蛋白质结构数据；然后从下载得到的结构数据中抽取出所有的九肽片段以及中央氨基酸的坐标，建立数据库。由于这些九肽片段来自于不同蛋白、不同位置，所以需要对中央氨基酸的坐标进行统一化。选取中央氨基酸前一个残基的C_αiC_i、O_i作为参考，进行坐标转换。坐标转换的具体方法是(如图1)：

1)以参考残基的C_αi-1原子为原点；

2)以C_αi-1到C_i-1为X轴；

3)使参考残基的O_i-1原子在XY平面上。从而完成对中央氨基酸的坐标的转换。

2.建立索引：为了加快对片段库的搜索速度，对每个片段的中间三个氨基酸建立了索引，这样可以在搜索时显著减少序列比对次数，从而提高了计算速度。因为坐标转换的参考点是前一个残基，经过转换的中央氨基酸坐标还能反映中央氨基酸和它的前一个氨基酸的相互位置关系。

3.基于上述九肽片段库，建立一种蛋白质三维结构预测的方法，包括采用以下步骤：分割目标序列、搜索最佳匹配九肽片段、装配中央氨基酸。首先在预测前，设定第一个氨基酸的坐标值，这是因为第一个氨基酸是起点，也是基点，它的坐标可以根据用户需要设定，只要满足相应氨基酸各原子间相互位置关系即可；然后以序列第二个氨基酸为一个九肽片段的中央(即第五个氨基酸)，在序列中截取九肽长的片段，不足用空格补齐；然后在九肽片段库中搜索与截得的片段最匹配的片段，因为库中的片段都是以中间的三个氨基酸建立索引的，所以搜索时只比对中间三个氨基酸和目标片段一致的那些片段，搜索中可以根据用户需要选择各种序列比对矩阵；接着，把搜索到的最佳匹配片段中央氨基酸装配到目标蛋白结构上，因为库中存储的是中央氨基酸与前一个残基的相对坐标，现根据截取得到九肽片段中央氨基酸的前一个残基坐标，即可计算出目标中央氨基酸的坐标，完成装配。装配完成后，沿序列下移一个，重复截取、搜索、装配，直至最后一个氨基酸装配结束(预测流程图参见附图1)。

由于九肽中氨基酸的相对位置关系取决于阅读氨基酸的方向，因此同一个氨基酸在从N端向C端的阅读过程中和从C端向N端的阅读过程中，其所处的位置可能是不一致的。例如对于九肽“GLFDFLKRK”，天冬氨酸“D”在从N端向C端的阅读过程中，其是第四个氨基酸，而从C端向N端的阅读过程中，则其为第六个氨基酸。但是申请人发现，无论从N端向C端的方向，还是从C端向N端的方向，处于第六位的氨基酸相对于第五位的氨基酸的空间结构是基本确定不变的。所以，相对于九肽的中央氨基酸而言，其左右两侧的氨基酸的空间位置基本上都是固定的。因此本申请公开的预测蛋白质结构的方法不仅适用于蛋白质从N端向C端的结构预测，也适用于从C端向N端的结构预测。

实施例

以一个小蛋白片段为例，介绍具体的实施方式。假设要预测片段“SGLFDFLKRKEVKE”的三维结构。

首先，假定起始氨基酸“S”的三维坐标，可以把它设成(一般可采用晶体结构中随意一个残基的骨架原子坐标)：

N＝(41.272，7.927，-56.483)；

Cα＝(40.571，9.126，-55.942)；

C＝(41.440，10.386，-55.943)；

O＝(41.256，11.281，-55.115)；

设置起始氨基酸坐标时，各原子的相对位置要符合氨基酸内在的规律。

然后，以第二个氨基酸“G”为中心，在序列中截取九个氨基酸长的片段，不足的用空格补齐，就得到“---SGLFDF”(“-”表示空格)。

接着在由PDB生成的九肽片段库中搜索与“---SGLFDF”相似程度最高的片段，也就是最佳匹配片段。在搜索过程中，采用片段间残基两两比对的策略，不实行空位和插入。

然后把搜索到的最佳匹配片段的中央氨基酸坐标装配上去。因为片段库中存储的是中央氨基酸相对于它前一个残基的坐标，在装配时，应该根据当前中央氨基酸的前一个残基(第一个氨基酸)，把最佳匹配片段的中央氨基酸坐标进行转换，装配中转换坐标的过程就是建库时坐标转换的逆过程。坐标转换完成后，这第二个氨基酸就装配上去了。

第二个残基装配完成后，中心氨基酸延序列方向下移一个，即第三个，那么截取到的九肽片段就是“--SGLFDFL”，搜索和装配的过程和前面介绍的一样。装配完成后，继续截取、搜索、装配。如此往复，直至最后一个残基装配完成(结果见图2，3)。以下各截取得到的九肽片段依次是：“-SGLFDFLK”，“SGLFDFLKR”，“GLFDFLKRK”，“LFDFLKRKE”，“FDFLKRKEV”，“DFLKRKEVK”，“FLKRKEVKE”，“LKRKEVKE-”，“KRKEVKE--”，“RKEVKE---”，“KEVKE----”。

以上介绍的是沿序列前进方向，本方法同样适用沿序列后退，具体实施方式和前进是一致的，只不过方向不同，在这里不再赘述。

预测结果评价：为了评价这种方法预测结果的精度以及运行效率，采用CASP6的目标蛋白作为样本进行了预测，结果见表1。

表1.CASP6目标蛋白预测结果

CASP6编号	长度	RMSD值	时间(秒)
				T0199	337	0.072	204
T0200	254	0.001	147

T0201	93	0.019	61
				T0202	248	0	152
T0203	381	1.352	195
				T0205	129	11.536	77
T0206	219	4.775	116
				T0208	356	0.011	194
T0209	238	27.289	129
				T0210	159	4.497	87
T0211	143	0.628	75
				T0212	125	0.669	72
T0213	102	4.139	53
				T0214	109	10.753	70
T0215	75	1.919	39
				T0216	434	0.371	268
T0221	84	2.532	47
				T0222	372	9.967	208
T0223	205	20.887	108
				T0224	86	3.093	56
T0226	289	0.542	196
				T0227	120	0.342	75
T0228	428	15.895	233
				T0229	137	0.833	68
T0230	103	3.544	60
				T0231	141	5.440	77
T0233	361	5.462	240
				T0234	164	2.935	92
T0235	498	26.203	269
				T0237	444	3.246	220
T0238	250	5.385	139
				T0239	97	25.686	45
T0240	89	10.874	51
				T0242	115	2.163	67
T0246	353	25.766	224
				T0247	363	33.314	204
T0248	293	0.104	171
				T0249	208	0	128
T0250	233	19.944	130
				T0251	101	0.013	48
T0252	309	0.268	179
				T0262	255	0.297	153
T0263	100	2.026	61
				T0264	293	16.169	190

T0266	151	0.001	103
				T0267	174	1.205	110
T0268	284	0.196	199
				T0271	160	0.013	107
T0272	210	0.008	141
				T0273	186	0.001	113
T0274	158	10.722	94
				T0275	136	0.284	96
T0276	183	0.217	112
				T0279	260	0.001	201
T0280	207	27.960	140
				T0281	69	1.763	39
T0282	331	0.001	170

采用国际上通用的RMSD值来衡量预测结果与真实结构之间的相似程度，RMSD值越小，说明两者之间的相似程度越高。计算RMSD值的软件很多，它们计算得到的结果是一致的。采用的效率较高的FAST来计算本实验所得结果和真实结构之间的相似程度。在表中可以看到，总共59个目标蛋白中，RMSD值小于1的共有26个，占44％；小于5的有41个，占69％。

这种方法的另外一个突出的特点是计算时间短。目前，其他各种方法需要大量的计算资源，一般都是在服务器上进行计算。本实施例是在一台普通Dell PC(2.4G，256M内存，共享显存)上进行的。在表中可以看到，计算时间的秒数要显著小于片断残基数。这说明，每装配一个残基所需要的时间均小于1秒。运算时间短，所需计算资源少，能在PC上运行，正是这种方法最大的优点。

Claims

1.一种预测蛋白质三维结构的方法，其包括如下步骤：

1)以目标序列的第一个氨基酸作为预测的起点设定其坐标值，

2)分割目标序列，以该序列的第二个氨基酸为一个九肽片段的中央氨基酸，即第五个氨基酸，在序列中截取九肽长度的片段，不足的部分用空格补齐，

3)在含有九肽片段及其中央氨基酸坐标的九肽数据库中搜索与步骤2)中所截得的片段最佳匹配的九肽片段，

4)根据搜索出的最佳匹配片段的中央氨基酸的相对坐标计算目标九肽片段中央氨基酸的坐标，将其装配到目标蛋白上，

5)装配完成上述第二个氨基酸之后，沿目标序列移至第三个氨基酸，并以第三个氨基酸作为下一个中央氨基酸重复进行上述步骤2)至步骤4)的截取、搜索、装配步骤，直至最后一个氨基酸装配结束。

2.根据权利要求1所述的方法，其中作为预测起点的第一个氨基酸的坐标值，在满足相应氨基酸各原子间相互位置关系的基础上，根据用户需要而设定。

3.根据权利要求1或2所述的方法，其中搜索步骤中根据用户需要选择各种序列比对矩阵。

4.根据权利要求1所述的方法，其中在对目标蛋白的三维结构进行预测之前，首先根据目前可得到的所有九肽片段及其中央氨基酸的坐标，建立数据库和索引，所述的搜索步骤在该数据库中进行。

5.根据权利要求1所述的方法，其中九肽片段及其中央氨基酸的坐标数据库的索引是根据数据库中所有片段的中间三个氨基酸而建立的。

6.根据权利要求1所述的方法，其中对蛋白质结构的预测从蛋白质的N端开始。

7.根据权利要求1所述的方法，其中对蛋白质结构的预测从蛋白质的C端开始。