CN112116020B

CN112116020B - 一种蛋白质口袋的联配评估方法及系统

Info

Publication number: CN112116020B
Application number: CN202011031146.4A
Authority: CN
Inventors: 祝小雷; 程寅初; 王红; 赵世豪; 刘宇峰
Original assignee: Anhui Agricultural University AHAU
Current assignee: Anhui Agricultural University AHAU
Priority date: 2020-08-18
Filing date: 2020-09-27
Publication date: 2023-11-03
Anticipated expiration: 2040-09-27
Also published as: CN112116020A

Abstract

本发明公开了一种蛋白质口袋的联配评估方法及系统，属于生物信息技术领域，包括以下步骤：S1：确定口袋表面；S2：口袋表面小片化；S3：计算相似性；S4：识别小片间对应关系；S5：联配两个口袋；S6：对联配进行评估。本发明将蛋白质口袋(结合位点)表面分成不同的小片，并通过一种表面描述子(三维Zernike描述子)和其他特征来描述小片，可以获得更快的联配速度，使用小片可以减少对蛋白构象的敏感度，有效提高了联配的精度，值得被推广使用。

Description

一种蛋白质口袋的联配评估方法及系统

技术领域

本发明涉及生物信息技术领域，具体涉及一种蛋白质口袋的联配评估方法及系统。

背景技术

蛋白质与小分子配体的相互作用存在于各种生物过程中，包括酶催化、转运和信号传导途径，在这些生物过程中分子间的相互作用是生物功能的核心，或者说分子间的相互作用调节着生物过程。在任何这些情况下，与配体的相互作用都是蛋白质生物学功能的一个特征性事件，而了解蛋白质结合配体的类型和姿势是理解该功能分子机制的重要线索。开发药物分子是蛋白质-配体相互作用的直接应用。在蛋白质工程中，设计一种结合特定配体并催化酶促反应的酶是重要目标之一。

过去，大量与配体结合的蛋白质结构已经被测定出来，这些蛋白结构存储在PDB(蛋白质结构数据库)中，通过与这些蛋白质的结构比较，可以计算预测查询蛋白的结合配体。如果查询蛋白的结合位点未知，则可以通过鉴定蛋白表面的几何空腔来预测。配体结合口袋是受体的配体结合区域中的氨基酸残基所形成的一种凹陷结构。其形状与配体的互补性越大，则受体与配体的亲和力也就越大。已经开发了各种方法来比较口袋并测量它们之间的相似性。这些方法中使用的算法包括识别最大公共子图和几何哈希。这些算法适用于结合位点是用一组原子或残基位置来表示的情况。此外，结合一组残基的打分，研究人员开发了机器学习模型来比对蛋白质模型的口袋。此外，结合位点可以用分子表面来表示，分子表面可以用数学矩来简洁地描述，比如球谐函数、二维伪Zernike描述子和三维Zernike描述子(3DZD)都是数学矩。基于矩的描述子能够快速进行口袋间的比较，也能容忍结合部位形状和特性的微小差异。

为了预测查询蛋白的结合配体，原理上来说，可以通过计算查询蛋白口袋与结构数据库中已知配体结合口袋的相似性，根据相似性打分来预测可能的结合配体。这种策略与直接比较查询结合口袋与数据库中配体分子的相似性(即虚拟筛选)相同。由于配体的得分是相对于其他配体的，因此即使该方法通过找到一个相似的已知结合配体的口袋来识别查询结合位点的正确配体，也不能保证该方法是否能够联配两个结合位点，识别相应的局部区域并推断配体的结合姿势。事实上，如果柔性配体以不同构象与口袋结合，则两个结合口袋的联配通常非常困难。

前人已经发展了一些方法能够进行蛋白口袋的联配，Bourne组发展的SOIPPA方法是一种不依赖氨基酸序列的轮廓对轮廓(profile-profile)口袋联配方法，它用一种粗粒的(coarse-grained)表达来描述蛋白质的结构，只考虑残基的Cα原子。这种方法把几何信息、进化信息和物理信息整合到一个统一的框架，然后用极值分布模型来评价联配的显著性。SiteEngine是另一种基于联配的蛋白质口袋比较方法，这种方法将具有物理化学性质的表面三角形转换成离散的重要化学表面点，这些表面点构成了低分辨率的分子表面。在假定没有序列和折叠相似性的条件下，SiteEngine给出一种分级的打分策略来匹配蛋白的全局、局域、和全局-局域表面。ProBiS也是一种考虑到表面物理化学性质的蛋白质口袋比较方法。这种方法利用快速的最大团簇算法(maximum clique algorithm)来比较蛋白表面。GLoSA也是一种基于团簇的算法。除此之外，Skolnick组发展的Apoc方法也是一种基于联配的不依赖于残基顺序的蛋白质口袋比较方法，类似于全局蛋白结构比较的TM-align方法，在Apoc方法中，他们引入了一种打分函数PS-score(Pocket Similarity Score)来衡量两个口袋之间的相似性，这一打分函数考虑了匹配口袋残基的骨架几何、侧链方向和化学相似性，并且建立了一个基于极值分布的统计模型来评价PS-score的显著性。

上述多种能够对蛋白口袋进行联配的方法在实际使用过程中，存在一定的不足：一、联配的准确度尚有不足；二、非常耗时，因为这些方法在寻找最终联配的过程中要不断的调整优化，不断的进行联配，因此非常耗时；三、对于蛋白构象非常敏感，因为这些方法是基于原子或者是基于重要化学表面点等，因此会对蛋白构象变化非常敏感。为解决上述问题，提出一种新的蛋白质口袋的联配评估方法及系统。

发明内容

本发明所要解决的技术问题在于：如何解决现有蛋白口袋联配方法在使用中存在的联配准确度不足、耗时大等问题，提供了一种蛋白质口袋的联配评估方法。

如图1所示，本发明是通过以下技术方案解决上述技术问题的，本发明包括以下步骤：

S1：确定口袋表面

对两种蛋白质的表面进行识别，确定口袋表面；

S2：口袋表面小片化

将需要联配的两个口袋的表面分成不同的局部重叠的小片；

S3：计算相似性

利用三维Zernike描述子(3DZD)描述小片的表面物理化学特征；根据目标小片中心与其他小片中心之间的测地线距离，用邻域小片数的直方图描述小片的近似位置(APP)；并计算每对小片中心的相对测地线距离(GRPD)；根据这几种特征计算两口袋中小片间的相似性。

S4：识别小片间对应关系

利用步骤S3中的相似性计算结果，再根据拍卖算法对两个口袋中小片之间对应关系进行识别；

S5：联配两个口袋

基于对应小片中心坐标，获得旋转矩阵和平移矩阵，然后根据旋转矩阵和平移矩阵将两个口袋叠合，根据叠合后残基的距离，确定两个口袋中残基的对应关系；

S6：对联配进行评估

建立支持向量分类模型，根据步骤S4中获得的相似性得分来评估两个口袋联配的匹配度。

更进一步的，在所述步骤S3中，小片的表面物理化学特征包括形状、疏水性、静电势和凸凹度。

更进一步的，在所述步骤S3中，利用三维3DZD描述小片的表面物理化学特征的过程如下：

S31：获得蛋白质表面形状的三维网格表示后，如果格点与蛋白表面原子重叠，则将其赋值为1，否则为0，为表示小片表面的物理化学性质，计算相应的值并将其映射到网格上，此时网格上点的值即相应的物理化学性质的值，物理化学性质的值所映射的三维网格为三维函数，使用Zernike-Canterakis基组，将三维函数级数展开：

其中：

式中序参数n＝15，对应72个不变量；为基函数，R_nl和/>分别是径向函数和球谐函数；

S32：计算3DZD，F_nl作为向量Ω_nl的范数，F_nl如下：

向量F_nl的欧式距离用于评估两个3DZD之间的相似性，两个小片的距离即pd3DZD，是两小片表面物理化学特征的3DZD距离的加权平均值，四种物理化学特征的权重分别为0.1793，0.0724,0.0707和0.6776。

更进一步的，在所述步骤S3中，两个小片的位置相似性(APPS)通过其直方图的L2范数进行量化。

更进一步的，在所述步骤S3中，给定优化过程中两个口袋的临时小片对应关系，新小片对的GRPD是每个新小片与每个口袋中现有小片之间测地线距离的平均差：

其中，分别表示口袋A和口袋B中的一对小片中心,m^A，B是口袋A和口袋B之间相应小片的临时列表，|m^A，B|是相应小片的数量，G2是两个小片中心之间的测地线距离。

更进一步的，在所述步骤S4中，对两个口袋中小片之间对应关系进行识别的过程如下：

S41：将pd3DZD和APPS这两项结合起来，再加上一个权重因子w₁：

MScore(A，B，m^A，B)＝w₁pd3DZD(A，B，m^A，B)+(1.0-w₁)APPS(A，B，m^A，B)

其中，MScore(匹配分数)表示口袋A和口袋B中相应小片的相似性；

S42：将MScore与GRPD通过参数w₂线性组合起来以获得总得分(TScore)：

TScore(A，B，m^A，B)＝w₂*MScore(A，B，m^A，B)+(1.0-w₂)*GRPD(A，B，m^A，B)；

S43：得到用作目标优化得分的平均TScore(avgTScore)：

其中，avgTScore用于评估两个口袋之间的最终相似性；

S44：使用拍卖算法来优化两口袋之间的相似性打分avgTScore。

更进一步的，参数w₁,w₂值分别为0.4和0.8。

更进一步的，在所述步骤S5中，残基的对应关系根据叠合后两个口袋中残基的Cα原子之间的距离确定。

更进一步的，根据两个口袋中残基的对应关系计算如下得分项：

其中，TC是Tanimoto系数，N是最终匹配的小片对的数量，N_A和N_B分别是两个口袋A和B的小片数量；

其中，avg_pd3DZD是所有匹配小片对的pd3DZD的平均值，N是所有匹配小片对的数量，i是第i个匹配的小片对；

其中N为最终匹配的小片对的数量，m^A，B为所有匹配的小片对的索引。为匹配小片对i和j中来自A口袋的小片，/>为匹配小片对i和j中来自B口袋的小片。G2表示两小片的测地距离，E2表示两小片中心欧氏距离。

其中，avgMSCORE是所有匹配的小片对的MSCORE的平均值；

根据上述得分项，得出了以下一些新得分项：

TCavg_pd3DZD＝avg_pd3DZD/TC，

TCavgGRPD＝avgGRPD/TC，

TCavgERPD＝avgERPD/TC，

TCavgMSCORE＝avgMSCORE/TC，

TCavgSCORE＝(0.8*avgMSCORE+0.2*avgGRPD)/TC，

RTavg_pd3DZD＝avg_pd3DZD/(N_A/N)，

RTavgGRPD＝avgGRPD/(N_A/N)，

RTavgERPD＝avgERPD/(N_A/N)，

RTavgMSCORE＝avgMSCORE/(N_A/N)，

RTavgSCORE＝(0.8*avgMSCORE+0.2*avgGRPD)/(N_A/N)，

此外，还计算匹配小片对的RMSD(均方根偏差)，RMSD和TC的组合为另一个新得分项：

TC_RMSD＝RMSD/TC。

本发明还提供了一种蛋白质口袋的联配评估系统，包括：

表面确定模块，用于对两种蛋白质的表面进行识别，确定口袋表面；

小片化模块，用于将需要联配的两个口袋的表面分成不同的局部重叠的小片；

相似性计算模块，用于利用3DZD描述小片的表面物理化学特征；根据目标小片中心与其他小片中心之间的测地线距离，用邻域小片数的直方图描述小片的APP；并计算每对小片中心的GRPD；基于这些特征计算两口袋中小片的相似性。

对应关系识别模块，基于小片间的相似性利用拍卖算法对两个口袋中小片之间对应关系进行识别；

联配模块，用于基于对应小片中心坐标，获得旋转矩阵和平移矩阵，然后根据旋转矩阵和平移矩阵将两个口袋叠合，根据叠合后残基的距离，确定两个口袋中残基的对应关系；

评估模块，用于建立支持向量分类模型，根据相似性得分来评估两个口袋联配的匹配度；

控制处理模块，用于向各模块发出指令，完成相关动作；

所述表面确定模块、小片化模块、相似性计算模块、对应关系识别模块、联配模块、评估模块均与控制处理模块电连接。

本发明相比现有技术具有以下优点：该蛋白质口袋的联配评估方法及系统，将蛋白质口袋(结合位点)表面分成不同的小片，并通过一种表面描述子(三维Zernike描述子)和其他特征来描述小片，可以获得更快的联配速度，使用小片可以减少对蛋白构象的敏感度，有效提高了联配的精度，值得被推广使用。

附图说明

图1是本发明的总体流程示意图；

图2是本发明实施例中联配评估方法的实施流程示意图；

图3是本发明实施例中根据相应的口袋联配生成的所有配体的RMSD和nRMSD的分布图；

图4是本发明实施例中所有口袋对中配体RMSD分布图，并与其它两种方法GloSA和Apoc的比较。

图5是本发明实施例中所有结合单个配体的口袋对中配体RMSD分布图，并与其它两种方法GloSA和Apoc的比较。

图6是本发明实施例中蛋白整体TMscore>0.3的口袋对中配体RMSD分布图，并与其它两种方法GloSA和Apoc的比较。

图7是本发明实施例中蛋白整体TMscore>0.4的口袋对中配体RMSD分布图，并与其它两种方法GloSA和Apoc的比较。

图8是本发明实施例中蛋白整体TMscore>0.5的口袋对中配体RMSD分布图，并与其它两种方法GloSA和Apoc的比较。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种技术方案：一种蛋白质口袋的联配评估方法，其主要过程为：将蛋白质结合位点(口袋)分成不同的小片，用三维Zernike描述子描述小片的表面特征，用小片周围的小片分布描述小片在口袋中的相对位置，再通过拍卖算法识别两个口袋中小片的对应关系，然后根据小片对应关系对两个口袋进行联配。为了评估两个口袋联配的好坏，基于两个口袋的不同分数开发了两个模型。在与89种不同配体结合的口袋上测试了本方法，结果证明本方法优于其他两种基于局部结构的方法，特别是对于那些比较难以准确联配的情况。

下面对收集数据集与本方法(基于PatchAlign的方法)进行详细说明：

搜集数据集

此工作中使用的数据集大致上与之前工作的PatchSurfer2.0中使用的数据集相似。唯一的区别是在本实施例中引入了配体的柔性,从而去除几个柔性非常大的配体和相应的口袋。该数据集包括89个配体的结合口袋，这些结合口袋在PDB中具有5个以上的结合口袋结构。详见表1，表1中分别列出了89个配体。

蛋白质-配体复合物在蛋白质小分子数据库(PSMDB)中从以下列表获得：http://compbio.cs.toronto.edu/PSMDB/downloads/CPLX_25_0.85_7HA.list。基于PSMDB，从PDB中共获得了5438个蛋白质-配体复合物。首先，处理这些复合物的配体。如果多个配体位于同一个口袋中，且它们的距离小于(埃)，则它们被视为一个配体(联合配体)。含有少于7个原子的小的配体(联合配体)被丢弃。配体与蛋白质共价结合的配体-蛋白质对也使用的临界距离来移除。如果多个(联合的)配体存在于一个蛋白质口袋中，并且它们的距离小于/>则将它们视为一组。如果成组的配体不与蛋白质结合，也就是说，如果它们的重原子与蛋白质的任何重原子的距离都不小于/>则将其移除。其次，使用两个标准从同源多聚体的口袋中去除多余的口袋：同一PDB文件中的同源多聚体口袋被移除，如果蛋白质具有全局相似的结构(RMSD(均方根偏差)小于/>)，并且口袋共享其80％以上的残基，则仅保留其中一个口袋。组成结合口袋的残基被定义为配体和蛋白质的重原子之间的距离小于/>的残基。通过该过程，在6547个口袋中鉴定出2444种不同的配体类型。第三，去除那些少于5个相应口袋的配体类型，通过该步骤仅有117种配体类型被保留。最后，去除28种柔性非常大的配体类型，基于可旋转单键数与重原子数之比来判断配体的柔性。选择0.5作为截留比，由此去除了柔性非常大的配体，例如12P，B3P，PG5，BTB等。该步骤总共保留了89个配体的1547个结合口袋。

基于PatchAlign的方法

PatchAlign的流程图如图2所示。

首先，通过APBS程序识别出两种蛋白质的表面，根据结合配体或其他口袋检测方法确定口袋表面。将需要联配的两个蛋白质口袋的表面分成不同的局部重叠的小片；其次，利用三维Zernike描述子(3DZD)描述小片的表面物理化学特征，例如形状、静电势、疏水性和凸凹度，根据目标小片中心与其他小片中心之间的测地线距离，用邻域小片数的直方图描述小片的近似位置，并计算每对小片中心的相对位置差；第三，基于上述三项相似性，采用改进的拍卖算法识别出两个口袋中小片之间对应关系；第四，利用Kabsch算法，基于对应小片中心坐标，获得了旋转矩阵和平移矩阵，然后根据这些矩阵将两个口袋叠合，根据叠合后残基的距离，确定了两个口袋中残基的对应关系；第五，建立两个SVC(支持向量分类)模型，根据步骤三中获得的相似性得分来评估两个口袋联配的好坏。SVC模型根据步骤三中得到的相似性得分预测两个口袋联配的好坏。

以下分别介绍在PatchAlign中用到的算法：

1、三维Zernike描述子(3DZD)

为了表示口袋小片的表面三维特征，引入了Zernike-Canterakis基组。三维物体可以用三维Zernike描述子(3DZD)简洁地表示，并具有旋转不变性。通过APBS程序获得了蛋白质表面形状的三维网格表示，如果格点与蛋白表面原子重叠，则将其赋值为1，否则为0。为了表示小片表面的理化性质，计算了相应的值并将其映射到网格上，这时网格上点的值就可能不是1，而是相应的物理化学性质的值。物理化学性质的值所映射的三维网格被认为是三维函数。使用Zernike-Canterakis基组，将三维函数级数展开：

其中：

在PatchAlign中，使用序参数n＝15，对应72个不变量。是基函数，R_nl和分别是径向函数和球谐函数。然后，计算3DZD，F_nl作为向量Ω_nl的范数。范数使得描述子旋转不变性：

向量F_nl的欧式距离被用来评估两个3DZD之间的相似性。两个小片的距离，即pd3DZD，是PatchAlign中使用的四个物理化学特征的3DZD距离的加权平均值。权重取自先前的工作。四种物理化学特征分别为表面形状、表面残基疏水性、表面静电势和表面凹凸性，他们的权重分别为0.1793，0.0724,0.0707和0.6776。

2、近似的小片位置相似性(APPS)

近似的小片位置(APP)是用小片中心与口袋中其他小片中心之间测地线距离的直方图来描述。测地线距离是沿表面测量的距离，根据表面上个格点使用dijkstra算法得到小片中心间的测地线距离。为了获得直方图，将测地线距离以间隔分为40个集合。用APP来描述小片在口袋中的大致位置。为了获得这个直方图，我们根据测地距离将小片中心邻近区域分割成40个区域，第一个区域距离小片中心的距离为0到/>第二个区域距离小片中心的距离为/>到/>第三个区域距离小片中心的距离为/>到/>依此类推。我们统计这些区域中小片中心的个数获得一个向量。两个小片的APPS通过计算这两个向量的欧几里得距离得到。APPS作为一个新术语已经在PatchSurfer2.0中引入，并为改进最初的PatchSurfer做出了重大贡献。

3、测地线相对位置差(GRPD)

APP描述了小片在口袋中的大致位置，GRPD描述了小片之间的相对位置。

给定优化过程中两个口袋的临时小片对应关系，新小片对的GRPD是每个新小片与每个口袋中现有小片之间测地线距离的平均差：

分别表示口袋A和口袋B中的一对小片中心。在算法过程中，它们可能是一个新的对应小片对。m^A，B是口袋A和口袋B之间相应小片的临时列表，|m^A，B|是相应小片的数量。|m^A，B|最多是口袋A或B的大小(即口袋中的小片数量)中的一个，以较小者为准。口袋A中的小片k对应于口袋B中的小片表示为/>G2是两个小片中心之间的测地线距离。

4、目标优化得分

为了确定两个口袋中的小片对应关系，将上述三项的组合得分定义为目标优化得分。使用拍卖算法(如下所示)来寻找最佳的小片对应，其给出了最小的组合得分。

首先，将pd3DZD和APPS这两项结合起来，再加上一个权重因子w₁：

MScore(A，B，m^A，B)＝w₁pd3DZD(A，B，m^A，B)+(1.0-w₁)APPS(A，B，m^A，B) (5)

MScore(匹配分数)表示口袋A和口袋B中相应小片的相似性。

然后，将MScore与GRPD通过参数w₂线性组合起来以获得总得分(TScore)：

TScore(A，B，m^A，B)＝w₂*MScore(A，B，m^A，B)+(1.0-w₂)*GRPD(A，B，mA，B) (6)

最后，得到用作目标优化得分的平均TScore(avgTScore)。

avgTScore用于评估两个口袋之间的最终相似性。在等式中，第一项n_A/|m^A，B|用于当匹配对m^A，B的数目小于查询口袋中的小片数目时的惩罚。

在PatchAlign中，参数w₁,w₂值分别为0.4和0.8。

5、识别小片对应关系的拍卖算法

拍卖算法的原始形式是一种迭代方法，可以找到最优价格，并可以在二部图中使净利润最大化分配。在PatchAlign中，两个口袋中的小片可以看作是一个二部图。改进的拍卖算法试图找到两个口袋中小片间的匹配，以优化上述目标得分。

6、Kabsch算法

该算法用于计算拍卖算法确定的两个口袋的对应小片中心之间的最优旋转和平移矩阵。它包括三个步骤：平移、协方差矩阵的计算和最优旋转矩阵的计算。使用GSL(GNU科学图书馆：https://www.GNU.org/software/GSL/)中的算法函数来获得平移和旋转矩阵。

7、两个口袋的残基对应

根据获得的旋转和平移矩阵，将两个口袋联配。残基对应关系是根据两个口袋中残基的Cα原子之间的距离确定的。

8、基于口袋联配方式计算的其他得分

除了上面提到的得分项外，许多其他得分都是根据最后的小片对应关系计算得到。这些得分项描述如下。

这些得分包括：

其中TC是Tanimoto系数，N是最终匹配的小片对的数量，N_A和N_B分别是两个口袋A和B的小片数量。

上面已经描述了每个匹配的小片对的得分，例如pd3DZD，APPS，GRPD，MSCORE和TSCORE。还计算了ERPD，即匹配的小片对的欧式相对位置差。根据这些得分，生成了以下得分：

其中avg_pd3DZD是所有匹配小片对的pd3DZD的平均值。N是所有匹配小片对的数量。i是第i个匹配的小片对。

同样的，计算avgMSCORE

其中avgMSCORE是所有匹配的小片对的MSCORE的平均值。同样地，计算avgGRPD和avgERPD。

根据这四个得分，得出了以下一些新分数：

TCavg_pd3DZD＝avg_pd3DZD/TC (11)

TCavgGRPD＝avgGRPD/TC (12)

TCavgERPD＝avgERPD/TC (13)

TCavgMSCORE＝avgMSCORE/TC (14)

TCavgSCORE＝(0.8*avgMSCORE+0.2*avgGRPD)/TC (15)

RTavg_pd3DZD＝avg_pd3DZD/(N_A/N) (16)

RTavgGRPD＝avgGRPD/(N_A/N) (17)

RTavgMSCORE＝avgMSCORE/(N_A/N) (18)

RTavgMSCORE＝avgMSCORE/(N_A/N) (19)

RTavgSCORE＝(0.8*avgMSCORE+0.2*avgGRPD)/(N_A/N) (20)

此外，还计算了匹配小片对的RMSD(均方根偏差)。RMSD和TC的组合被认为是另一个得分：

TC_RMSD＝RMSD/TC (21)

9、优化小片对应

除了上述过程识别的小片对应关系外，在本实施例中还尝试了通过“删除迭代添加”过程优化小片对应关系。首先根据原过程识别出的小片对位置，删除部分匹配的小片，然后在其他匹配的小片对联配的基础上，根据两个小片的位置迭代添加新的小片对。然而，结果表明，这个优化过程并没有产生更好的小片对应关系(因此数据未显示)。

10、基于结合配体RMSD的口袋联配评估

两个口袋联配后，必须判断两个口袋联配的优劣。像那些用于蛋白质-蛋白质联配的方法一样，某些原子(例如Cα原子或主链原子)的RMSD通常用于评价两种蛋白质的结构是否相似。对于口袋联配，如果两个口袋结合相同的配体，可以计算配体的RMSD，并使用配体之间的RMSD来评估比对是否良好。在这项工作中，计算了那些结合同一配体的口袋对中配体的RMSD。

为了进一步评估PatchAlign方法的性能，基于在不同口袋中结合的相同类型配体的RMSD，将其与APoc方法和GLoSA方法进行了性能比较。Apoc方法是一种使用PSscore来测量口袋相似性、使用迭代动态编程过程以获得两个蛋白质口袋之间最佳的序列次序无关的比对方法。该方法包括三个阶段。前两个阶段进行次序相关的比对。在前两个阶段的基础上，第三阶段进行了次序无关的比对。GLoSA方法是一种使用原子坐标和最大公共子图搜索进行结构联配的方法。残基保守性和几何性质被认为是决定生成图顶点的一个因素。

11、基于SVC模型的口袋联配评估

更一般的，需要使用特定的打分来评估任何类型的口袋对之间的联配情况。在本实施例中尝试了使用前面提到的分数来评价联配情况；但是，结果发现这些分数都不能很好地区分好的联配和坏的联配。因此，使用支持向量分类(SVC)建立了两个分类模型，根据上述得分判断两个口袋联配的优劣。为了建立和测试SVC模型，生成了训练数据集和测试数据集。

首先对结合相同配体的口袋进行联配，这些口袋的联配理论上应该是很好的联配。但是有些结合同一配体的口袋对联配之后的RMSD比较大，这些被认为是不好的联配。此外，89个配体根据SIMCOMP相似性评分临界值0.5为基准进行聚类分组，将来自并不同组的口袋进行联配。SIMCOMP是一种衡量两个小分子配体之间结构相似性的方法，具体参考文献(Hattori M,Okuno Y,Goto S,Kanehisa M:Development of a chemical structurecomparison method for integrated analysis of chemical and genomic informationin the metabolic pathways.Journal of the American Chemical Society 2003,125(39):11853-11865)。这些联配的口袋对被认为是不好的联配。SVC模型旨在区分不良的联配口袋对和良好的联配口袋对。

11.1、SVC的训练数据集

如上所述，对于结合同一配体的口袋对，基于联配矩阵计算配体的RMSD。具体来说，在使用Kabsch算法联配两个口袋时，可以获得旋转平移矩阵，根据该旋转平移矩阵就可以将两个配体也联配起来，从而可以计算出RMSD。由于与不同口袋结合的同一类型配体的构象不同，因此即使仅基于配体结构进行联配的RMSD(在此称为refRMSD)也不为零。不同口袋中结合的相同类型配体之间的refRMSD有所不同，通过两个口袋中结合配体的refRMSD值归一化口袋联配方法生成的RMSD值。归一化的RMSD在下文中称为nRMSD。如图3所示，显示了根据相应的口袋联配生成的所有配体的RMSD和nRMSD的分布。nRMSD值更集中在较小的值上，这可能更准确地反映联配情况。16.0的峰值是因为所有nRMSD大于15.0的示例都被一起计算。使用nRMSD临界值2.0为基准来选择好的口袋联配作为阳性联配示例(7878个示例)。然后将跨不同配体组的所有口袋联配作为阴性联配示例(97567个示例)。此外，还选择了那些结合相同配体但nRMSD大于5.0的口袋对作为阴性联配示例(10736个示例)。基于此训练数据集，建立了两个模型，一个基于7878个阳性联配示例和97567个阴性联配示例，这些示例是跨不同配体组结合配体的口袋对。另一个基于7878个阳性联配示例和10736个阴性联配示例，这些示例是结合相同种类配体的口袋对。

11.2、SVC的独立测试数据集

除了训练数据集，还收集了另外三个数据集来测试上述模型。如果结合配体的nRMSD在2.0到3.0之间，选择这些联配的口袋对作为数据集TEST2_3。类似地，如果结合配体的nRMSD在3.0到4.0之间，选择那些联配的口袋对作为数据集TEST3_4。此外，如果结合配体的nRMSD在4.0到5.0之间，选择这些联配的口袋对作为数据集TEST4_5。数据集TEST2_3、TEST3_4和TEST4_5分别包含8429、6663和4881个示例。这些数据集中的示例不被视为阳性或阴性联配示例，但是TEST2_3的nRMSD值与训练数据集中的阳性联配示例很接近，在本实施例中希望模型可以预测出比TEST3_4和TEST4_5更多的阳性联配示例。

11.3、SVC模型的训练方法

第一个模型的数据集是不平衡的(7878/97567)，因此使用欠采样和投票策略来建立第一个模型。

首先，将训练数据集分成六部分，然后留下一部分作为测试数据集。其次，使用其他五个部分来构建12个不同的模型。对于12个模型中的任何一个，所有的阳性联配示例和随机选择的十二分之一的阴性联配示例被用来建立模型。在建立这12个模型时，使用LIBSVM程序中的网格搜索方法来确定两个参数gamma和c。gamma和c是径向基核函数的两个参数，gamma表示核函数的宽度，决定了高维特征空间的分布，c是一个惩罚因子，表示损失与正则化项之间的比例。此网格搜索基于5倍交叉验证。第三，基于12个模型的预测结果将投票决定一个示例是否被预测为阳性或阴性。为了减少数据集划分过程中的偏差影响，重复了上述过程6次。

第二个模型的数据集接近平衡(7878/10736)。还使用LIBSVM程序训练了第二个SVC模型，并选择了径向基函数(RBF)核函数。为了构建模型，首先从策略上选择了数据集的1/6示例作为测试数据集。其余示例用于进行5倍交叉验证并训练模型。重复了5次5倍交叉验证，为SVC模型选择最佳参数以避免偏差。

11.4、SVC模型的评估标准

由于训练数据集不平衡，只使用敏感性、特异性和强度(敏感性和特异性的平均值)来评估SVC模型。敏感性是指仅阳性联配示例的准确性，特异性是指仅阴性联配示例的准确性。强度是敏感性和特异性的算术平均值，是对所有示例的综合评估。对于独立的测试数据集，分析了预测阳性联配示例和预测阴性联配示例的比率。

以下对本实施例的评估结果进行详细说明：

1、结合相同配体的口袋性能评估

如图4所示，为所有配体的整体联配性能图。总体而言，基于PatchAlign方法的口袋联配的配体RMSD分布,在左右有一个峰值。图4显示了结合相同配体的所有口袋对的配体RMSD分布，基于APoc方法获得的RMSD分布在/>处也有一个峰值，通过GLoSA方法获得的RMSD分布在/>处有一个峰值。由PatchAlign得到的分布比其他两种方法更集中。图5显示了那些口袋里只有一个配体的口袋对的配体RMSD分布。在上述文中“搜索数据集”部分，已经提到如果同一口袋中的多个配体之间的距离小于某个临界值，则这些配体将被联合或分组，因此在某些情况下，一个口袋中有多个配体。除了图5要求的只有一个配体的条件外，在图6、7、8中，还检查了RMSD分布是否随蛋白质全局结构相似性而改变。图6、7、8分别为这些口袋对的配体RMSD分布，它们对应的蛋白质全局TMscores分别小于0.5、0.4、0.3，TMscore越小意味着联配的难度越高。虽然在不同条件下总体分布相似，但当TMscores变小时，APoc方法和GLoSA方法中的RMSDs小于/>的比率变小，但对于PatchAlign方法则不会发生这种情况，因为PatchAlign方法只取决于局部结构相似性，而非全局结构相似性。

表1如下所示，表示PatchAlign方法和APoc方法之间的比较。对每个配体，通过PatchAlign方法和APoc方法对结合口袋进行联配，然后根据相应的矩阵联配相应的结合配体。计算了有多少基于PatchAlign方法的配体RMSD小于APoc，反之亦然。总的来说，对于89个配体中的61个，PatchAlign方法的性能优于APoc方法，对于89个配体中的25个，APoc方法的性能优于PatchAlign方法。当只考虑其全局蛋白的TMscore小于0.3的口袋对时，这两个数字变为对于PatchAlign方法的68个和对于Apoc方法的10个。

表1、PatchAlign方法与APoc方法对89种不同配体结合口袋的联配结果比较表

/>

说明：^a表示基于PatchAlign方法的配体的RMSD小于基于APoc方法的RMSD的口袋对的数量，反之亦然。

^b表示与第2列相同，但仅考虑相应全局结构之间TMscore小于0.3的口袋对。

2、任意口袋对的性能评估——SVC模型

表2显示了通过网格搜索选定的c和gamma参数。基于这些参数，建立了不同的模型。

表2、通过重复6轮的12个模型网格搜索选择的模型参数

表3显示了相应测试数据集中不同模型的敏感性、特异性和强度。结果表明，各模型的最大灵敏度为85.76％，最小灵敏度为80.96％。所有模型的最大特异度为88.11％，最小特异度为86.11％。最大强度为86.59％，最小强度为84.23％。

表3、不同模型在不同回合中的测试数据集预测结果

/>

表中：sen：敏感性；spe：特异性；str：强度。其中，正黑体是灵敏度、特异性和强度的最大值：斜黑体是灵敏度、特异性和强度的最小值。

如表4所示，计算了使用不同临界值时的强度。还计算了不同回合强度的平均值和标准差。当使用临界值9时，得到了最大平均强度(85.59％)，标准差均不超过强度的1％。所以在不同的回合中强度是稳定的。

表4、在测试集上不同回合投票预测的结果

/>

注：ave表示6轮建模的模型的预测参数的平均值，std表示相应的标准差。

然后在三个独立的测试数据集TEST2_3、TEST3_4和TEST4_5上测试了不同回合的投票模型。表5显示了数据集TEST2_3、TEST3_4和TEST4_5的预测结果。正如所预期的，TEST2_3的预测阳性联配示例的比率高于TEST3_4，但是，TEST4_5的预测阳性联配示例的比率与TEST2_3相似，这超出了的预期。可能的原因是该模型的训练数据集中的阴性联配示例与TEST4_5中的示例之间存在差异。阴性联配示例是联配的口袋对，其配体来自不同的配体组，不同配体组中配体之间的大小和物理化学性质不同。然而，TEST4_5中的示例是具有相同配体的联配口袋对，它们具有更高的nRMSD，这可能是由于配体的构象差异或联配方法的缺点。据此，认为用于此模型的阴性联配示例与TEST4_5中的示例不在同一高维空间中。

表5、独立测试数据集Test2_3，Test3_4和Test4_5的预测结果

表6显示了建立第二个SVC模型的结果。其最后一列显示了基于不同参数重复5次交叉验证的平均强度。根据5轮交叉验证的平均强度，我们选择了c＝20.0和gamma＝0.4作为参数组合，建立最终模型。根据最终模型，对测试数据集进行了预测。测试数据集的灵敏度，特异性和强度分别为0.6073、0.6825、0.6449，与交叉验证强度具有良好的对应性。这意味着模型具有良好的泛化能力。最终模型也在三个独立的测试数据集TEST2_3，TEST3_4和TEST4_5上进行了测试。

表6、基于不同参数进行5倍交叉验证评估交叉验证结果

需要说明的是，此表只列出了9个显示最高平均强度的参数组合。

如表7所示，测试数据集TEST2_3具有比TEST3_4和TEST4_5更高的预测阳性联配示例的比率。对于TEST3_4和TEST4_5，预测阳性联配示例的比率相似。与投票模型的预测结果相比，基于该模型的阳性比率较低。TEST3_4和TEST4_5的阳性比率相似，这与与投票模型的预测结果不同，投票模型的预测结果中TEST2_3和TEST4_5的阳性比率相似。所以我们认为这两种模型可以互补。如果两个模型中的一个预测一个示例为阳性，则该示例被确定为阳性，否则该示例被确定为阴性(在两个模型中，只要其中一个预测一个示例为阳性，那么这两个模型的综合预测结果就是阳性。比方说A模型预测例子1为阳性，B模型预测例子1为阳性，那么这两个模型的综合预测结果就是阳性；如果A模型预测例子1为阳性，B模型预测例子1为阴性，那么这两个模型的综合预测结果还是阳性；如果A模型预测例子1为阴性，B模型预测例子1为阳性，那么这两个模型的综合预测结果还是阳性；只有当A,B都预测1为阴性时，两个模型的综合预测结果才是阴性)。

表7、第二个SVC模型下的独立测试数据集TEST2_3，TEST3_4和TEST4_5的预测结果

综上所述，上述实施例中的蛋白质口袋的联配评估方法，将蛋白质口袋(结合位点)表面分成不同的小片，并通过一种表面描述子(三维Zernike描述子)和其他特征来描述小片，可以获得更快的联配速度，使用小片可以减少对蛋白构象的敏感度，有效提高了联配的精度，值得被推广使用。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种蛋白质口袋的联配评估方法，其特征在于，包括以下步骤：

S1：确定口袋表面

对两个蛋白质的表面进行识别，确定口袋表面；

S2：口袋表面小片化

将需要联配的两个口袋的表面分成不同的局部重叠的小片；

S3：计算相似性

利用三维Zernike描述子描述小片的表面物理化学特征；根据目标小片中心与其他小片中心之间的测地线距离，用邻域小片数的直方图描述小片在口袋中的近似位置；并计算每对小片中心的相对测地线距离；根据这几种特征计算小片之间的相似性；

S4：识别小片间对应关系

利用步骤S3中的相似性计算结果，再使用拍卖算法对两个口袋中小片之间对应关系进行识别并且给出两个口袋整体的各种相似性打分；

S5：联配两个口袋

基于对应小片中心坐标，获得旋转矩阵和平移矩阵，再根据旋转矩阵和平移矩阵将两个口袋叠合，根据叠合后残基的距离，确定两个口袋中残基的对应关系；

S6：对联配进行评估

2.根据权利要求1所述的一种蛋白质口袋的联配评估方法，其特征在于：在所述步骤S3中，小片的表面物理化学特征包括形状、疏水性、静电势和凸凹度。

3.根据权利要求2所述的一种蛋白质口袋的联配评估方法，其特征在于：在所述步骤S3中，利用三维Zernike描述子描述小片的表面物理化学特征的过程如下：

其中：

S32：计算3DZD，F_nl作为向量Ω_nl的范数，F_nl如下：

向量F_nl的欧式距离用于评估两个3DZD之间的相似性，两个小片的表面相似性即pd3DZD，是小片表面物理化学特征的3DZD相似性的加权平均值，四种物理化学特征的权重分别为0.1793，0.0724,0.0707和0.6776。

4.根据权利要求3所述的一种蛋白质口袋的联配评估方法，其特征在于：在所述步骤S3中，两个小片的位置相似性通过其直方图的L2范数进行量化。

5.根据权利要求4所述的一种蛋白质口袋的联配评估方法，其特征在于：在所述步骤S3中，给定优化过程中两个口袋的临时小片对应关系，新小片对的GRPD是每个新小片与每个口袋中现有小片之间测地线距离的平均差：

其中，分别表示口袋A和口袋B中的一对小片中心,m^A,B是口袋A和口袋B之间相应小片的临时列表，|m^A,B|是相应小片的数量，G2是两个小片中心之间的测地线距离。

6.根据权利要求5所述的一种蛋白质口袋的联配评估方法，其特征在于：在所述步骤S4中，对两个口袋中小片之间对应关系进行识别的过程如下：

S41：将pd3DZD和APPS这两项结合起来，再加一个权重因子w₁：

MScore(A,B,m^A,B)＝w₁pd3DZD(A,B,m^A,B)+(1.0-w₁)APPS(A,B,m^A,B)

TScore(A,B,m^A,B)＝w₂*MScore(A,B,m^A,B)+(1.0-w₂)*GRPD(A,B,m^A,B)；

S43：得到用作目标优化得分的平均TScore(avgTScore)：

其中，avgTScore用于评估两个口袋之间的最终相似性；

S44:使用拍卖算法来优化两口袋之间的相似性打分avgTScore。

7.根据权利要求6所述的一种蛋白质口袋的联配评估方法，其特征在于：参数w₁,w₂值分别为0.4和0.8。

8.根据权利要求7所述的一种蛋白质口袋的联配评估方法，其特征在于：在所述步骤S5中，残基的对应关系根据两个口袋中残基的Cα原子之间的距离确定。

9.根据权利要求8所述的一种蛋白质口袋的联配评估方法，其特征在于：根据两个口袋中残基的对应关系计算如下得分项：

其中N为最终匹配的小片对的数量，m^A,B为所有匹配的小片对的索引，为匹配小片对i和j中来自A口袋的小片，/>为匹配小片对i和j中来自B口袋的小片，G2表示两小片的测地距离，E2表示两小片中心欧氏距离；

其中，avgMSCORE是所有匹配的小片对的MSCORE的平均值；

根据上述得分项，计算得出以下十一个新得分项：

TCavg_pd3DZD＝avg_pd3DZD/TC，

TCavgGRPD＝avgGRPD/TC，

TCavgERPD＝avgERPD/TC，

TCavgMSCORE＝avgMSCORE/TC，

TCavgSCORE＝(0.8*avgMSCORE+0.2*avgGRPD)/TC，

RTavg_pd3DZD＝avg_pd3DZD/(N_A/N)，

RTavgGRPD＝avgGRPD/(N_A/N)，

RTavgERPD＝avgERPD/(N_A/N)，

RTavgMSCORE＝avgMSCORE/(N_A/N)，

RTavgSCORE＝(0.8*avgMSCORE+0.2*avgGRPD)/(N_A/N)，

TC_RMSD＝RMSD/TC，

其中，RMSD为匹配小片对的均方根偏差。

10.一种蛋白质口袋的联配评估系统，其特征在于，利用如权利要求1～9任一项所述的联配评估方法进行对蛋白质口袋的联配评估工作，包括：

相似性计算模块，用于利用3DZD描述小片的表面物理化学特征；根据目标小片中心与其他小片中心之间的测地线距离，用邻域小片数的直方图描述小片的APP；并计算每对小片中心的GRPD；

对应关系识别模块，用于利用小片相似性计算结果，再使用拍卖算法对两个口袋中小片之间的对应关系进行识别；

控制处理模块，用于向各模块发出指令，完成相关动作；