CN110010199B

CN110010199B - 一种分析识别蛋白质特异性药物结合口袋的方法

Info

Publication number: CN110010199B
Application number: CN201910236488.0A
Authority: CN
Inventors: 赵蕴杰; 王慧雯; 贾亚; 曾辰
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2021-01-01
Anticipated expiration: 2039-03-27
Also published as: CN110010199A

Abstract

本发明公开了一种分析识别蛋白质特异性药物结合口袋的方法，属于特异性药物研发领域。本发明方法第一步建立所研究的一类蛋白的非冗余结构数据库；第二步根据蛋白结构，识别非冗余结构数据库中所有蛋白的结合口袋；第三步通过LD和SD对所有结合口袋进行重合性分析，找出在组水平上的保守性结合口袋；再对所有组的组保守性结合口袋进行重合性分析，从而找出在组水平上保守但在所研究的一类蛋白水平上表现特异性的结合口袋；第四步分析计算蛋白质分子网络中的接近中心性来进一步判断第三步中识别的特异性结合口袋成为药物结合靶点的潜在性。本发明方法解决了目前无法有效预测特异性靶向药物结合位点的问题，对特异性靶向新药的开发有重要的作用。

Description

一种分析识别蛋白质特异性药物结合口袋的方法

技术领域

本发明属于特异性药物研发领域，特别涉及一种分析识别蛋白质特异性药物结合口袋的方法。

背景技术

蛋白是组成人体一切细胞、组织的重要成分，是生命活动的主要承担者。蛋白活性的失调会引发很多疾病，例如蛋白激酶活性的失调会引发癌症、牛皮癣和慢性神经退行性等疾病。因此需要针对这些蛋白，设计药物以恢复蛋白的活性，从而达到治疗的效果。药物设计有两个至关重要的问题，第一是药效问题，第二个是副作用问题。

现有的大多数药物都结合蛋白的保守性结合位点，即保守性结合口袋，例如现有的大多数激酶蛋白药物，都是结合保守的ATP口袋，通过抑制ATP的结合来降低激酶的活性。但是，保守性结合口袋的序列和结构特征在一类蛋白中十分保守，靶向保守性结合口袋的药物会同时抑制多个蛋白的生物学活性，有较多的副作用。因此，如何分析识别蛋白质特异性药物结合口袋，为蛋白质药物设计提供特异性信息，降低药物的副作用是近年来药物设计研究的瓶颈问题。

近几年，随着蛋白结构的增多，给系统分析蛋白特异性药物结合口袋提供了机会。因此，亟需一种分析识别蛋白质特异性药物结合口袋的新方法。

发明内容

针对现有技术存在的问题，本发明提供了一种分析识别蛋白质特异性药物结合口袋的方法，对帮助药物设计并降低药物副作用有重要意义。

为解决上述问题，本发明采用如下技术方案：

一种分析识别蛋白质特异性药物结合口袋的方法，包括如下步骤：

(1)构建一类蛋白的非冗余结构数据库

该步骤根据所研究的一类蛋白的UniProt ID，在PDB(Protein Data Bank)结构数据库中获得其X衍射晶体结构。在PDB结构数据库中，如果一个蛋白有多个X衍射晶体结构，则选择分辨率最高(即分辨率值最小)的X衍射晶体结构，从而使每个蛋白只有一个X衍射晶体结构。然后去除分辨率低的蛋白X衍射晶体结构，得到一类蛋白的非冗余结构数据库。

(2)识别蛋白结合口袋

该步骤主要为识别蛋白的结合口袋。首先，用多序列比对方法(MAFFT)将非冗余结构数据库中的蛋白根据序列同源性分组(如果已有研究将这类蛋白分组，可不用再分组)，在每组蛋白中随机选取一个蛋白的X衍射晶体结构作为模板。随后将每组蛋白中的其他蛋白结构与模板蛋白结构进行结构比对(例如可以用软件PyMOL中的方法进行结构比对)并重新保存每个蛋白结构的坐标。然后优化所有蛋白的晶体结构，即将蛋白所有的重原子补齐。最后识别所有蛋白的结合口袋，建立结合口袋数据库，记录结合口袋的位置和结构信息。

(3)分析识别特异性结合口袋

该步骤主要根据结合口袋的位置特征和形状特征，对结合口袋进行分类，识别特异性结合口袋。

在分析结合口袋的位置特征时，本发明认为相似的口袋其位置必须相近，用位置距离(Location Distance,LD)量化口袋位置的相似性，公式如下：

其中x₁、y₁、z₁和x₂、y₂、z₂分别是两个口袋的几何中心坐标；当两个口袋的LD小于某个截断值，则两个口袋位置相近。

在计算结合口袋的结构特征时，本发明认为相似的口袋应具有相似的形状，用形状距离(Shape Distance,SD)量化口袋形状的相似性，公式如下：

其中V₁、S₁、D₁和V₂、S₂、D₂分别是两个口袋的体积、表面积和深度；当两个口袋的SD小于某个截断值，则两个口袋形状相似。

本发明中，对于一组蛋白，如果其中某些蛋白都有一个口袋与模板蛋白的一个口袋的位置相近且形状相似，则称这类口袋为重合口袋。如果某一类重合口袋的个数大于这组蛋白个数的80％，则认为这个口袋在这组蛋白中是保守的，并称这类结合口袋为组保守性结合口袋。然后利用LD和SD分析所有蛋白组的组保守性结合口袋的重合性，如果有一个蛋白组的组保守性结合口袋都与其他蛋白组的一个组保守性结合口袋重合，则认为在所研究的一类蛋白中，这个组保守性结合口袋是保守的，简称为保守性结合口袋。否则，认为在所研究的一类蛋白中，这个组保守性结合口袋是特异性的，简称为特异性结合口袋。

优选地，步骤(1)中，去除分辨率低的蛋白X衍射晶体结构为去除分辨率值大于

的蛋白X衍射晶体结构。

优选地，步骤(2)中，使用SWISS-MODEL工具优化所有蛋白的晶体结构；使用DoGSiteScorer识别所有蛋白的结合口袋。

优选地，步骤(3)中，结合口袋的位置特征和形状特征的聚类截断参数分别为

和2.5。

进一步优选地，所述的分析识别蛋白质特异性药物结合口袋的方法还包括下述步骤：量化特异性结合口袋成为药物结合口袋的潜在性：

该步骤首先将给定的蛋白分子结构转化为蛋白质分子网络模型。网络模型中的节点为蛋白质分子结构中的残基。如果序列上两个非连续的残基重原子之间的最短距离小于特定截断值，则形成网络模型的边，所述的特定截断值优选的

然后计算蛋白质分子网络中的网络性质，主要为计算接近中心性：

接近中心性(Closeness Centrality)反映了在网络中某一节点与其他节点之间的接近程度，可以从整体结构层次判断特异性口袋的变构机制，公式为：

其中C(x)节点x的接近中心性(Closeness Centrality)值，n是网络中节点的个数，式中∑d(x,y)是节点x和任何其他节点y之间的最短路径之和。其中，网络之间的最短路径可以用Floyd-Warshall算法计算。根据接近中心性公式可知，一个节点与其他节点的最短路径之和越小，则这个节点的接近中心性越大，这表明蛋白质网络的接近中心性反映了在网络中某一节点与其他节点之间的接近程度，即在整体网络(整个蛋白结构)层次量化了这个节点(残基)对网络的形成(蛋白结构的稳定性)、网络中信息的传递(变构)的重要性。接近中心性大的节点，即与其他节点的最短路径之和小的节点，可以看成网络形成的关键节点、网络中信息传递的枢纽，因此残基的接近中心性越大，表明这个残基对蛋白结构的稳定、变构越重要。定义结合口袋的接近中心性为结合口袋中所有残基接近中心性的平均值，因此通过计算结合口袋的接近中心性大小可以从整体结构层次判断特异性口袋的变构性。结合口袋的接近中心性越大，说明药物靶向这个结合口袋后，引起蛋白质变构性越大，从而使蛋白的功能和活性发生越显著的变化，即这个结合口袋是潜在药物结合口袋的潜在性(可能性)越大。

与现有技术相比，本发明方法解决了目前无法有效预测特异性靶向药物结合位点的瓶颈问题。另外，本发明中使用的网络模型方法可以有效揭示特异性靶向药物结合口袋的作用机理，有利于加快特异性药物的研发。

附图说明

图1是本发明实施例中涉及的人类激酶蛋白分组图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明的各个特性所涉及到的特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种分析识别蛋白特异性靶向药物结合口袋的方法，具体包括以下步骤：

(1)构建一类蛋白的非冗余结构数据库

该步骤根据所研究的一类蛋白(比如人类蛋白激酶)的UniProt ID，在PDB(Protein Data Bank)结构数据库中获得其X衍射晶体结构。在PDB结构数据库中，如果一个蛋白有多个X衍射晶体结构，则选择分辨率最高(即分辨率值最小)的X衍射晶体结构，从而使每个蛋白只有一个X衍射晶体结构。然后去除分辨率低于

(即分辨率值大于

)的蛋白X衍射晶体结构，得到一类蛋白的非冗余结构数据库。

(2)识别蛋白结合口袋

该步骤主要为识别蛋白的结合口袋。首先，用多序列比对方法(MAFFT)将非冗余结构数据库中的蛋白根据序列同源性分组(如果已有研究将这类蛋白分组，可不用再分组)，在每组蛋白中随机选取一个蛋白的X衍射晶体结构作为模板。随后将每组蛋白中的其他蛋白结构与模板蛋白结构进行结构比对(例如可以用软件PyMOL中的方法进行结构比对)并重新保存每个蛋白结构的坐标。然后使用SWISS-MODEL工具优化所有蛋白的晶体结构，即将蛋白所有的重原子补齐。最后使用DoGSiteScorer方法识别所有蛋白的结合口袋，建立结合口袋数据库，记录结合口袋的位置和结构信息。

(3)分析识别特异性结合口袋

该步骤主要根据结合口袋的位置和形状特征，对结合口袋进行分类，识别特异性结合口袋。

其中x₁、y₁、z₁和x₂、y₂、z₂分别是两个口袋的几何中心坐标。经过大量的测试后，结果表明两个口袋的LD小于

则两个口袋位置相近，因此本发明使用的LD截断参数为

在计算结合口袋的结构特征时，本发明认为相似的口袋应具有相似的形状。用形状距离(Shape Distance,SD)量化口袋形状的相似性，公式如下：

其中V₁、S₁、D₁和V₂、S₂、D₂分别是两个口袋的体积、表面积和深度。经过大量的测试后，结果表明两个口袋的SD小于2.5，则两个口袋的形状相似，因此本发明使用的SD的截断参数为2.5。

本发明中，对于一组蛋白，如果其中某些蛋白都有一个口袋与模板蛋白的一个口袋的位置相近(LD小于

)且形状相似(SD小于2.5)，则称这类口袋为重合口袋。如果某一类重合口袋的个数大于这组蛋白个数的80％，则认为这类口袋在这组蛋白中是保守的，并称这类结合口袋为组保守性结合口袋。然后利用LD和SD(截断还是分别为

和2.5)分析所有蛋白组的组保守性结合口袋的重合性，如果有一个蛋白组的组保守性结合口袋都与其他蛋白组的一个组保守性结合口袋重合，则认为在所研究的一类蛋白中，这个组保守性结合口袋是保守的，简称保守性结合口袋。否则，认为在所研究的一类蛋白中，这个组保守性结合口袋是特异性的，简称特异性结合口袋。

(4)量化特异性结合口袋成为药物结合口袋的潜在性

该步骤首先将给定的蛋白的分子结构转化为蛋白质分子网络模型。网络模型中的节点为蛋白质分子结构中的残基。如果序列上两个非连续的残基重原子之间的最短距离小于特定截断值(截断值为

)，则形成网络模型的边。

接近中心性(Closeness Centrality)反映了在网络中某一节点与其他节点之间的接近程度，可以从整体结构层次判断特异性口袋的变构机制，具体公式为：

其中C(x)节点x的接近中心性(Closeness Centrality)值，n是网络中节点的个数，式中∑d(x,y)是节点x和任何其他节点y之间的最短路径之和。其中，网络之间的最短路径可以用Floyd-Warshall算法计算。根据接近中心性公式可知，一个节点与其他节点的最短路径之和越小，则这个节点的接近中心性越大，这表明蛋白质网络的接近中心性反映了在网络中某一节点与其他节点之间的接近程度，即在整体网络(整个蛋白结构)层次量化了这个节点(残基)对网络的形成(蛋白结构的稳定性)、网络中信息的传递(变构)的重要性。接近中心性大的节点，即与其他节点的最短路径之和小的节点，可以看成网络形成的关键节点、网络中信息传递的枢纽，因此残基的接近中心性越大，表明这个残基对蛋白结构的稳定、变构越重要。

定义结合口袋的接近中心性为结合口袋中所有残基接近中心性的平均值，因此通过计算结合口袋的接近中心性大小可以从整体结构层次判断特异性结合口袋的变构性。结合口袋的接近中心性越大，说明药物靶向这个结合口袋后，引起蛋白质变构性越大，从而使蛋白的功能和活性发生越显著的变化，即这个结合口袋是潜在药物结合口袋的潜在性(可能性)越大。

本发明第一步建立所研究的一类蛋白的非冗余结构数据库。第二步根据蛋白结构，识别非冗余结构数据库中所有蛋白的结合口袋。第三步通过LD和SD对所有结合口袋进行重合性分析，找出在组水平上的保守性结合口袋，即组保守性结合口袋。再对所有组的组保守性结合口袋进行重合性分析，从而找出在组水平上保守，但在所研究的一类蛋白水平上表现特异性的结合口袋。第四步分析计算蛋白质分子网络中的接近中心性网络性质来进一步判断第三步中识别的特异性结合口袋成为药物结合靶点的潜在性即可能性。

以下为实施例：

实施例1：分析识别人类蛋白激酶的特异性药物结合口袋

(1)构建非冗余人类蛋白激酶家族结构数据库

首先简单介绍人类蛋白激酶(图1)，人类蛋白激酶共有518个，分为典型激酶和非典型激酶两大类，其中典型激酶有478个，非典型激酶有40个(典型激酶是人类激酶组中具有序列相似性的478个激酶，非典型激酶与典型激酶的序列没有相似性，但已知或预测出其有酶活动，而且预测出与典型激酶具有相似的结构折叠)。典型激酶可根据序列同源性分为8组，具体为AGC、CAMK、CK1、CMGC、RGC、STE、TK和TKL，且剩余83个其它蛋白激酶。由于RGC的激酶没有晶体结构，本实施例只研究了剩余7组激酶。

该步骤根据518个蛋白激酶的UniProt ID，在PDB(Protein Data Bank)结构数据库中获得其X衍射晶体结构。在PDB结构数据库中，如果一个激酶蛋白有多个X衍射晶体结构，则选择分辨率最高(即分辨率值最小)的X衍射晶体结构，从而使每个蛋白激酶只有一个X衍射晶体结构。然后去除分辨率低于

(分辨率值大于

)的蛋白X衍射晶体结构。构建的非冗余人类蛋白激酶家族结构数据库共有168个蛋白激酶(图1红点)。

表1.168个蛋白激酶的信息(包括名称、所属的激酶组、UniProt ID、PDB ID、在PDB文件中所在的链、序列长度和PDB结构的分辨率)

(2)识别蛋白激酶结合口袋

该步骤主要为识别168个蛋白激酶的结合口袋。首先，在每组蛋白激酶中随机选取一个X衍射晶体结构作为模板(每组的模板激酶信息如表2)。随后用软件PyMOL中的方法对蛋白激酶家族结构进行结构比对并保存每个激酶结构的坐标。然后使用SWISS-MODEL工具优化所有激酶的晶体结构，即将蛋白激酶所有的重原子补齐。最后使用DoGSiteScorer方法识别所有蛋白激酶的结合口袋，建立结合口袋数据库，记录口袋的位置和结构信息。例如表3为CLK1激酶的所有口袋信息，X、Y、Z、体积、表面积和深度，分别表示口袋中心坐标的X坐标、Y坐标、Z坐标、口袋的体积、表面积和深度。

表2.每组模板激酶的名字和PDB ID信息

组	模板激酶	PDB ID
			CMGC	CLK1	1Z57
AGC	AKT1	4GV1
			TKL	PIPK2	5J7B
TK	JAK1	3EYG
			CAMK	CAMK1α	4FG8
STE	MST3	3A7I
			CK1	CK1α	5FQD

表3.CLK1激酶(PDB ID:1Z57)的所有口袋信息

(3)分析识别特异性结合口袋

在分析结合口袋的位置特征时，本发明认为相似的口袋其位置必须相近，并用位置距离(Location Distance,LD)量化口袋位置的相似性，具体公式如下

其中x₁、y₁、z₁和x₂、y₂、z₂分别是两个口袋的几何中心坐标。经过大量测试，结果表明两个口袋的LD小于

则两个口袋的位置相近，因此使用的LD的截断参数为

其中V₁、S₁、D₁和V₂、S₂、D₂分别是两个口袋的体积、表面积和深度。经过大量测试，大量的测试后，结果表明两个口袋的SD小于2.5，则两个口袋的形状相似，因此使用的SD的截断参数为2.5。

对于一组激酶，如果其中某些激酶都有一个口袋与模板激酶的一个口袋的位置相近(LD小于

)且形状相似(SD小于2.5)，则称这类口袋为重合口袋。如果某一类重合口袋的个数大于这组蛋白激酶个数的80％，则认为这类口袋在这组蛋白激酶中是保守的，并称这类结合口袋为组保守性结合口袋。结果显示，CMGC、AGC、TKL、TK、CAMK、STE和CK1中分别有6、6、4、6、4、3和7个组保守性结合口袋，具体的重合口袋信息见表4。

表4.每组模板激酶的组保守性口袋及其保守性得分。

然后利用LD和SD(截断还是分别为

和2.5)分析所有蛋白激酶的组保守性结合口袋的重合性，如果某组蛋白激酶的组保守性结合口袋与其他组蛋白激酶的组保守性结合口袋都不重合，则认为这个组保守性结合口袋只在本蛋白激酶组中是保守的，在所研究的一类蛋白激酶中是特异性的，简称特异性结合口袋。如果两组蛋白激酶有一对组保守性结合口袋重合，且其他组的组保守性结合口袋与这对组保守性口袋都不重合，则认为这个组保守性结合口袋在两组蛋白激酶中是保守的，在所研究的一类蛋白激酶中是特异性的，简称特异性结合口袋。依次类推，只有一个蛋白激酶组的组保守性结合口袋都与其他蛋白激酶组的一个组保守性结合口袋重合，则认为在所研究的一类蛋白中，这个组保守性结合口袋是保守的，简称保守性结合口袋。

进一步测试了上述36个组保守性结合口袋在整个蛋白激酶中的重合性，即将7个蛋白激酶组的36个重合口袋利用LD和SD进行聚类(截断分别为

和2.5)。结果表明(表5)，每个蛋白激酶组中的ATP结合口袋(即P0口袋)，在7组蛋白激酶中都是组保守性结合口袋，所以ATP结合口袋在整个人类激酶层次是保守性结合口袋。现有的研究表明，ATP结合口袋在整个人类激酶组中是高度保守的，这与本实施例的分析结论是一致的。测试结果显示组保守性结合口袋CMGC_P2、TKL_P1、TK_P8、CK1_P2重合，表明这4个组保守性结合口袋为同一个结合口袋，且这个结合口袋仅在CMGC、TKL、TK、CK1组是保守的，在整个人类激酶蛋白层次是特异性的，标记为特异性结合口袋1。如表5所示，依次类推，得到14个特异性结合口袋。这些特异性结合口袋仅在一组或几组激酶蛋白中是保守的，在整个人类激酶层次是特异性的。

表5.14个在整个人类激酶组中表现为特异性的结合口袋信息

这些特异性结合口袋的氨基酸残基信息如下：

特异性结合口袋1：CLK1激酶(PDB ID:1Z57)

HIS336，SER337，THR338，LEU339，ARG343，ARG346，GLU349，VAL250，ILE351，ALA353，LEU354，GLY355，TRP356，ASP383，SER384，HIS387，ARG407，LYS408，TYR411；

特异性结合口袋2：CLK1激酶(PDB ID:1Z57)

TYR249，ILE250，PHE257，PRO291，GLU292，THR342，HIS344，TYR345，GLU371，TYR372，GLY375，PHE376，THR377；

特异性结合口袋3：CLK1激酶(PDB ID:1Z57)

ASN277，HIS280，SER281，GLN358，PRO359，VAL362，PRO462，ALA463，ARG465，ILE466，THR467，LEU468，ARG469；

特异性结合口袋4：CLK1激酶(PDB ID:1Z57)

SER205，THR287，GLY327，SER328，ALA329，THR330，GLU334，HIS335，HIS336，SER337，VAL340，TRP356；

特异性结合口袋5：CLK1激酶(PDB ID:1Z57)

GLU349，LEU354，GLY355，TRP356，SER357，PRO359，CYS360，HIS401，MET402，LYS405，ASP461，PRO462；

特异性结合口袋6：JAK1激酶(PDB ID:3EYG)

HIS885，HIS1001，ARG1002，ASP1003，ASN1008，ASP1021，PHE1022，GLY1023，LEU1024，THR1025；

特异性结合口袋7：JAK1激酶(PDB ID:3EYG)

HIS1072，THR1076，SER1082，LEU1087，PRO1115，CYS1116，PRO1117；

特异性结合口袋8：JAK1激酶(PDB ID:3EYG)

LEU929，LEU932，TYR933，HIS934，GLU935，ILE937，VAL938，LYS939，TYR940，GLU957，LYS1018；

特异性结合口袋9：CK1α激酶(PDB ID:5FQD)

GLU42，GLN68，GLY69，GLY70，VAL71，GLY72，TLE73，PRO74，HIS75，ARG77，ASP91，LEU92，LEU93，GLY94，GLY145，ILE146，ARG148，HIS149，LYS152，PHE154；

特异性结合口袋10：CK1α激酶(PDB ID:5FQD)

GLY94，PRO95，LEU100，MET144，GLY145，CYS150，ASN151，TYR294，PHE296，TRP298，THR299，LYS302；

特异性结合口袋11：CK1α激酶(PDB ID:5FQD)

SER61，TYR64，LYS65，GLN68，PRO74，HIS75，ILE76，TRP78，TYR79，LEU88；

特异性结合口袋12：CAMK1α激酶(PDB ID:4FG8)

ILE51，LEU56，LYS59，MET63，GLU64，GLU66，ILE67，LEU70，ILE84，LEU91，LEU93，GLY164，LEU165，SER166，LYS167，GLU169；

特异性结合口袋13：CAMK1α激酶(PDB ID:4FG8)

LEU212，CYS213，TYR215，PRO240，TYR241，TRP242，ASP243，ASP244，ILE245，ILE286，SER289，VAL290，GLN293；

特异性结合口袋14：RIPK2激酶(PDB ID:5J7B)

TRP220，LYS226，GLN227，PRO228，PHE229，GLU230，ASP231，VAL232，ARG247，PRO248，VAL249，SER254。

现有研究发现有些疾病仅仅是由于一组或几组激酶的活性失调引起的，例如有种大脑疾病是由于CMGC和TK组的激酶活性失调引起的，子宫内膜异位症仅仅是由于TKL组的激酶失活引起的。因此针对这14个特异性口袋设计出的药物会特异性的靶向一组或几组蛋白，与靶向ATP结合口袋的药物相比，这些药物会有效的降低药物的副作用。

接下来对所有结合口袋进行保守性分析，从而比较在整个人类激酶组表现保守性的ATP口袋、在整个人类激酶组表现一定特异性的组保守性结合口袋的保守性差异。

首先用MAFFT方法对168个激酶序列进行多序列比对。然后利用得到的多序列比对结果，通过ConSurf工具得到每组蛋白激酶的模板激酶中所有残基的保守性得分。保守性得分的大小为1-9的正整数，残基保守性得分越大，说明这个残基在168个激酶中的保守性越强。然后计算结合口袋的保守性情况(结合口袋的保守性得分等于结合口袋中所有残基的保守性得分的平均值)。结果表明(表4)，7个模板蛋白激酶的ATP结合口袋的平均保守性得分为7.34±0.16，而另外29个在整个人类激酶组表现一定特异性的组保守性结合口袋的平均保守性得分为5.79±1.24，因为较低的保守性得分表明结合口袋的选择特异性较高，所以29个组保守性结合口袋比ATP结合口袋更具特异性。

(4)量化特异性结合口袋成为药物结合口袋的潜在性

该步骤首先将给定的蛋白激酶的分子结构转化为蛋白质分子网络模型。网络模型中的节点为蛋白质分子结构中的残基。如果序列上两个非连续的残基重原子之间的最短距离小于特定截断值(截断值为

)，则形成网络模型的边。

其中，C(x)节点x的接近中心性(Closeness Centrality)值，n是网络中节点的个数，式中∑d(x,y)是节点x和任何其他节点y之间的最短路径之和。其中，网络之间的最短路径用Floyd-Warshall算法计算。根据接近中心性公式可知，一个节点与其他节点的最短路径之和越小，则这个节点的接近中心性越大，这表明蛋白质网络的接近中心性反映了在网络中某一节点与其他节点之间的接近程度。接近中心性大的节点，即与其他节点的最短路径之和小的节点，可以看成网络中信息传递的枢纽，因此残基的接近中心性越大，表明残基对网络的形成、网络中信息的传递越重要。

定义结合口袋的接近中心性为结合口袋中所有残基接近中心性的平均值，因此通过计算结合口袋的接近中心性大小可以从整体结构层次量化特异性结合口袋的变构可能性，即量化口袋成为药物口袋的潜在性(口袋接近中心性越大，表明口袋成为药物口袋的潜在性越大)。结果表明(表6)，7个蛋白激酶ATP结合口袋的接近中心性平均值为0.37，29个重合结合口袋平均值为0.35，其它结合口袋平均值为0.33，说明接近中心性可识别潜在的药物结合口袋。已有的实验表明CMGC组中，非ATP组保守性结合口袋p2中已设计出特异性小分子(PDB ID:3O2M)，此小分子(46A)与此组保守性结合口袋的结合强度为Kd＝16000nM(Kd为量化小分子与蛋白质结合强度的量，Kd越小，表明结合强度越大)。另外，TK组中的非ATP组保守性结合口袋p2中也已设计出特异性小分子(PDB ID:4M12)，此小分子(1YZ)与此组保守性结合口袋的结合强度为Kd＝900nM。结果表明，本发明方法能有效识别蛋白质特异性药物结合口袋，并得到了实验的验证。

表6.各组蛋白激酶中保守性结合口袋、特异性结合口袋和其他结合口袋的接近中心性值

本发明的保护范围不限于上述的实施例，显然，本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的范围和精神。倘若这些改动和变形属于本发明权利要求及其等同技术的范围，则本发明的意图也包含这些改动和变形在内。

Claims

1.一种分析识别蛋白质特异性药物结合口袋的方法，其特征在于：包括如下步骤：

(1)构建一类蛋白的非冗余结构数据库

根据所研究的一类蛋白的UniProt ID，在PDB结构数据库中获得其X衍射晶体结构；在PDB结构数据库中，如果一个蛋白有多个X衍射晶体结构，则选择分辨率最高的X衍射晶体结构，从而使每个蛋白只有一个X衍射晶体结构；然后去除分辨率低的蛋白X衍射晶体结构，得到一类蛋白的非冗余结构数据库；

(2)识别蛋白结合口袋

首先，用多序列比对方法将非冗余结构数据库中的蛋白根据序列同源性分组，在每组蛋白中随机选取一个蛋白的X衍射晶体结构作为模板；随后将每组蛋白中的其他蛋白结构与模板蛋白结构进行结构比对并重新保存每个蛋白结构的坐标；然后优化所有蛋白的晶体结构；最后识别所有蛋白的结合口袋，建立结合口袋数据库，记录结合口袋的位置和形状信息；

(3)分析识别特异性结合口袋

根据结合口袋的位置特征和形状特征，对结合口袋进行分类，识别特异性结合口袋；

用位置距离LD量化口袋位置的相似性，公式如下：

其中x₁、y₁、z₁和x₂、y₂、z₂分别是两个口袋的几何中心坐标；当两个口袋的LD小于某个截断值，则两个口袋位置相近；

用形状距离SD量化口袋形状的相似性，公式如下：

其中V₁、S₁、D₁和V₂、S₂、D₂分别是两个口袋的体积、表面积和深度；当两个口袋的SD小于某个截断值，则两个口袋形状相似；

对于一组蛋白，如果其中某些蛋白都有一个口袋与模板蛋白的一个口袋的位置相近且形状相似，则称这类口袋为重合口袋；如果某一类重合口袋的个数大于这组蛋白个数的80％，则认为这个口袋在这组蛋白中是保守的，并称这类结合口袋为组保守性结合口袋；然后利用LD和SD分析所有蛋白组的组保守性结合口袋的重合性，如果有一个蛋白组的组保守性结合口袋都与其他蛋白组的一个组保守性结合口袋重合，则认为在所研究的一类蛋白中，这个组保守性结合口袋是保守的，简称为保守性结合口袋；否则，认为在所研究的一类蛋白中，这个组保守性结合口袋是特异性的，简称为特异性结合口袋。

2.根据权利要求1所述的分析识别蛋白质特异性药物结合口袋的方法，其特征在于：步骤(1)中，去除分辨率低的蛋白X衍射晶体结构为去除分辨率值大于

的蛋白X衍射晶体结构。

3.根据权利要求1所述的分析识别蛋白质特异性药物结合口袋的方法，其特征在于：步骤(2)中，使用SWISS-MODEL工具优化所有蛋白的晶体结构。

4.根据权利要求1所述的分析识别蛋白质特异性药物结合口袋的方法，其特征在于：步骤(2)中，使用DoGSiteScorer识别所有蛋白的结合口袋。

5.根据权利要求1所述的分析识别蛋白质特异性药物结合口袋的方法，其特征在于：步骤(3)中，结合口袋的位置特征和形状特征的聚类截断参数分别为

和2.5。

6.根据权利要求1-5任一项所述的分析识别蛋白质特异性药物结合口袋的方法，其特征在于：包括量化特异性结合口袋成为药物结合口袋的潜在性步骤：

首先将给定的蛋白分子结构转化为蛋白质分子网络模型；网络模型中的节点为蛋白质分子结构中的残基；如果序列上两个非连续的残基重原子之间的最短距离小于

则形成网络模型的边；

然后计算蛋白质分子网络的接近中心性，公式为：

其中C(x)节点x的接近中心性值，n是网络中节点的个数，式中∑d(x，y)是节点x和任何其他节点y之间的最短路径之和；

结合口袋的接近中心性为结合口袋中所有残基接近中心性的平均值，结合口袋的接近中心性越大，其为潜在药物结合口袋的潜在性越大。

7.根据权利要求6所述的分析识别蛋白质特异性药物结合口袋的方法，其特征在于：计算接近中心性中，网络之间的最短路径用Floyd-Warshall算法计算。