CN114512180B

CN114512180B - 基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法及装置

Info

Publication number: CN114512180B
Application number: CN202210138581.XA
Authority: CN
Inventors: 杨霖; 侯成宇; 廖晨辰; 赫晓东
Original assignee: Harbin Institute of Technology
Current assignee: Shenzhen Guanzhan Biotechnology Co.,Ltd.
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2023-07-21
Anticipated expiration: 2042-02-15
Also published as: CN114512180A; US20230260592A1; EP4227945A1

Abstract

基于蛋白质表面低熵水合层识别的蛋白质‑蛋白质对接方法及装置，涉及蛋白质‑蛋白质对接结构的预测方法及装置。为了解决目前的蛋白质结构预测方法存在蛋白质对接位点预测不准确的问题。本发明将蛋白质表面疏水基团和含少量氧原子、氮原子的疏水基团以及蛋白质表面形成分子内氢键的某些亲水基团识别为低熵区域。在计算机程序里根据蛋白质表面低熵水合层理论改变蛋白质某些氮、氧亲水原子为疏水碳原子，然后将蛋白质表面切割为多个平面，在每个平面内选出处于疏水连通区域的原子，分别计算每个疏水连通区域表面原子的面积和形状，选出疏水连通面积最大的平面，将该连通区域作为可能的对接位置，对蛋白质‑蛋白质对接位点进行预测。

Description

基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法及装置

技术领域

本发明涉及一种蛋白质-蛋白质对接结构的预测方法及装置。

技术背景

蛋白质及其产物是地球生命的基础，几乎所有已知的生物化学反应和生命现象都是由蛋白质参与完成的。地球生物中存在有数万亿种不同的蛋白质，每种蛋白质的生物学功能和活性都是通过其特有的三维形状表达的。蛋白质形成天然三维结构的过程被称为蛋白质折叠现象，蛋白质折叠的机理和规律是分子生物学、生物物理学和生物化学的基础。蛋白质的折叠过程被认为主要由以下的多种物理力所引导：(i)氢键的形成、(ii)范德华力、(iii) 静电力、(iv)疏水作用、(v)熵和(vi)温度。蛋白质折叠实现了多肽链的功能化，对蛋白质折叠的解释和预测对于生物学、病理学、遗传学和药物学等学科具有着非常重要的意义。

多肽链折叠之后形成了蛋白质三级结构，它作为亚基组装成四级结构的过程的本质与蛋白质对接的本质应是相同的。在四级结构中，各亚基间的结合力主要是疏水作用，其次还有氢键和极少量的离子键。亚基结构之间的氢键连接通常发生在亚基表面的亲水基团之间，这些氢键的形成也需要亚基结构表面的亲水侧链摆脱环境水分子的氢键链接。残基侧链的亲水性通常只是侧链顶部的C-O或N-H基团表达的，根据焓值计算，发生在亚基间的侧链上的C-O基团和侧链上N-H基团间的氢键键合将同样导致系统的焓值增加，所以亚基结构表面的亲水基团无法自发摆脱表面水分子的氢键链接，因此亚基间形成氢键同样是需要熵焓补偿的。作为亚基的三级结构表面通常遍布局部的疏水区域，在蛋白质四级结构形成的过程中，亚基间在对接面处发生的局部疏水塌缩可以提供熵焓补偿的来源，并促使亚基间形成氢键链接，从而形成精确的四级结构。因此亚基组装成四级结构的过程是疏水作用和熵焓补偿机制所驱动的。

必须指出的是，蛋白质表面的水合层的厚度约1nm-2nm，实验发现水合层中的水分子与自由水分子的动力学行为明显不同。Dongping Zhong在PNAS发表的实验数据显示蛋白质表面水合层中的水分子的移动速度只有自由水分子速度的百分之一，水合层中的水分子的熵更低。蛋白质分子间发生的长程疏水作用和由此导致的熵增应该是蛋白质-蛋白质对接的核心驱动力。由于水合层的存在，蛋白质分子间发生氢键、静电等作用等会导致系统的焓值增加，所以蛋白质-蛋白质对接过程是熵焓补偿驱动的。

蛋白质间相互作用与识别的机制是生物学、病理学、遗传学和药物学等学科中重要的问题，蛋白质-蛋白质相互作用的位点代表了重要的病毒感染机制和免疫机制。以当下全球大流行的新冠病毒为例，其根源就在于新冠病毒的刺突S蛋白和人体ACE2蛋白之间的特异与高亲和的结合能力，也就是说病毒传染机制研究的核心问题就是“蛋白质-蛋白质对接问题”。

在疫情发生初期，实验手段往往只能快速破译病毒的基因序列信息，而基因序列信息不能被用来直接破译病毒传染力水平、疫苗突破性感染发生概率等要信息，其主要原因是缺乏有效方法预测病毒和受体结合状态的分子结构和结合能。因此用计算的方法来预测蛋白质- 蛋白质对接复合结构是该领域技术发展的必然趋势。然而目前流行的蛋白质-蛋白质对接计算方法是用天然构象挑选的打分函数的来辅助预测蛋白质复合物的结构，基于“熵焓补偿”的蛋白质-蛋白质对接物理机制来破解这个重要的科学问题的相关研究仍相对较少。

鉴于以上研究背景，本专利提出了基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法，不同于传统依据非共价相互作用(静电作用、范德华力、氢键作用和离子键等) 的蛋白质-蛋白质对接预测算法，本研究基于识别蛋白质表面水合层的低熵区域来发现蛋白质间疏水作用的匹配关系，继而实现精确预测蛋白质-蛋白质的对接结构。该新型方法阐明了蛋白质间识别和对接的本质驱动因素，解析蛋白质之间相互作用的原理，对理解蛋白质功能和治疗蛋白质疾病有重要的意义。该方法可以在缺乏临床数据的条件下，提供多项重要的病毒传染机制信息，为精准、有效的国防防疫措施的决策提供科学数据支撑，提高军民对病毒防疫和治疗的快速响应能力。同时，该方法可用于预测蛋白质与药物分子作用位点，有效评价并筛选出接近于真实状态下的作用位点，避免盲目、低效、低质量的药物研发过程，缩短药物分子研发时间，节省大量人力物力。

发明内容

本发明为了解决当前蛋白质对接位点不准确的问题，提出了一种全新的蛋白质表面水合层中低熵区域的识别方法，将蛋白质表面被疏水基团包围的某些亲水基团的水合层识别为低熵区域，这是表面张力和限域作用的结果。这种全新的蛋白质复合物结构的预测方法，可以实现蛋白质-蛋白质对接复合结构的快速、精确预测。

基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法，包括以下步骤：

步骤一、将蛋白质表面的重原子进行拓片处理，重原子包括碳原子、氮原子、氧原子、硫原子，通过计算该蛋白质中所有重原子的平均空间坐标，将获得平均空间坐标作为投影中心，以正十二面体的20个顶点将蛋白质原子划分为20个区域；

步骤二、针对每一拓片区域内的蛋白质，以投影中心到正十二面体顶点为z轴，根据 z轴上从投影中心到蛋白质原子中最大z值距离确定蛋白质表面原子；

步骤三、遍历表面原子，根据蛋白质表面氨基酸和表面原子改变原子的疏水亲水性：

情况一：如果蛋白质表面氨基酸是亮氨酸Leu、酪氨酸Tyr、色氨酸Trp、异亮氨酸Ile、甲硫氨酸Met、苯丙氨酸Phe、精氨酸Arg或赖氨酸Lys时，且它们主链上的羰基氧原子或酰胺基团氮原子原子暴露在蛋白质表面时，将主链上的羰基氧原子或酰胺基团氮原子更改为疏水性原子，意味着亮氨酸、酪氨酸、色氨酸、异亮氨酸、甲硫氨酸、苯丙氨酸、精氨酸或赖氨酸主链氧、氮亲水性原子变为疏水性原子；

情况二：如果蛋白质表面氨基酸是属于色氨酸Trp、酪氨酸Tyr、赖氨酸Lys、甲硫氨酸Met，它们残基支链的氧、氮原子属性更改为疏水性原子，意味着色氨酸Trp、酪氨酸 Tyr、赖氨酸Lys、甲硫氨酸Met支链顶头亲水性氧、氮原子变为疏水性原子；

情况三：如果蛋白质表面氧原子、氮原子之间形成氢键，不论在蛋白质二级结构中的“α-螺旋”和“β片层”中，或者在其他位置，则将形成氢键的氧原子、氮原子更改为疏水性原子；

步骤四、在步骤三对蛋白质20个区域改变原子的疏水亲水性之后，对20个区域的每一个区域蛋白质表面原子以最小二乘法重新拟合出一个平面，作为之后候选的蛋白质对接平面；计算20个区域中每个蛋白质对接平面的中心坐标位置(xi,yi)与平面上所有原子的平均距离di，其中i为该拓片区域的序号；

在拟合出20个平面后，对比得到的平面，排除重复的平面；所述排除重复平面的过程中，如果两个拟合平面对应从空间原点到各自平面垂直向量的夹角小于等于10°作为同一个平面；

将剩下的拟合平面记为表面平面，针对每个表面平面，选出处于疏水连通区域的中心原子，并标记疏水连通区域内的原子；

步骤五、分别计算每个疏水连通区域表面疏水原子的疏水面积；

步骤六、选出蛋白质中疏水面积最大的前三个疏水连通区域作为可能的对接位置，对两个要对接的蛋白质进行对接。

进一步地，所述步骤一的过程包括以下步骤：

首先，读取蛋白质PDB结构文件中的数据信息，获取每一个蛋白质表面重原子的三维空间坐标；

然后，以正十二面体的20个顶点将蛋白质原子划分为20个区域：正十二面体有20个顶点，以蛋白质所有原子的平均空间坐标为空间原点，从空间原点指向每个原子的向量与指向顶点向量的角度小于41°则将原子划分至该空间区域，正十二面体的20个顶点将蛋白质原子划分为20个区域，划分出的一个蛋白质表面的区域范围即一个拓片区域范围。

进一步地，步骤二所述根据z轴上从投影中心到蛋白质原子中最大z值距离确定蛋白质表面原子的过程如下：

选取z轴上从投影中心到蛋白质原子中最大z值距离的30％靠外侧的原子作为蛋白质表面原子，即选取与投影中心距离大于70％×d_表的原子作为蛋白质表面原子，d_表为z轴上从投影中心到蛋白质表面原子最大z坐标的距离。

进一步地，步骤四所述将剩下的拟合平面记为表面平面，针对每个表面平面，选出处于疏水连通区域的中心原子的具体过程包括以下步骤：

通过坐标变换将原子坐标变换到以表面平面作为xy平面的三维空间中；将原子坐标取xy坐标，以氧、氮原子为中心、5埃米为半径的圆中，若不存在其他氧、氮原子，则在后续寻找边界时，不将此原子作为边界；否则在xy平面中，以氧、氮原子作为边界，将以对应氧、氮原子为中心、3埃米为半径的圆中的碳、硫原子赋值为1，之后将存在赋值的碳、硫原子为中心，若以存在赋值的碳、硫原子为中心、3埃米为半径的圆中存在未赋值碳、硫原子，则再将此未赋值碳、硫原子为中心、3埃米为半径的圆中已赋值的原子的数值和加起来作为该未赋值碳、硫原子的值，此时只是对未赋值碳、硫原子的值进行计算，记为未赋值碳、硫原子的拟赋值，但先不对其进行赋值；当全部原子进行一轮寻找完后，将未赋值碳、硫原子的拟赋值给对应未赋值的碳、硫原子，再开始新一轮赋值，直到所有碳、硫原子完成赋值；

针对每个碳、硫原子，在以碳、硫原子为中心、3埃米为半径的圆内，若碳、硫原子的数值大于等于周围原子的原子，将此碳、硫原子作为对应疏水连通区域的中心原子。

进一步地，步骤四所述标记疏水连通区域内的原子的具体过程包括以下步骤：

以疏水连通区域的中心原子为中心、10°为步长将中心原子四周进行区域划分，选出每个10°对应的扇形区域中数值大于等于3的原子，当首次出现数值小于3的原子则选出与其最近的数值3的原子到中心的距离为截断距离，选出在此截断距离中的原子作为该疏水连通区域内的原子。

进一步地，步骤五所述分别计算每个疏水连通区域表面原子的疏水面积的具体过程包括以下步骤：

步骤5.1、针对每个疏水连通区域蛋白质表面重原子，以作用半径1.8埃米球体对表面重原子进行显示，针对每个表面重原子，以每个表面重原子为中心，在投影方向做半球面，半球面即半球壳；

步骤5.2：将疏水连通区域平面以0.1埃米为间隔建立二维网格，在每一块网格中记录对应蛋白质表面的高度信息与重原子类型；

步骤5.3：选取1.8埃米半径作为重原子的作用半径建立表面，会出现空洞、表面不连续的情况，两个重原子的半球壳都没有交点，且两个原子之间的距离小于6埃米，如图3所示，将一个重原子半球壳上和投影方向夹角为45°范围与另一个重原子半球壳上和投影方向夹角为45°范围距离最近的连线作为插值区域，连线与两个重原子半球壳上和投影方向夹角为45°范围的交点为插值的端点，通过插值得两个重原子半球壳之间空洞的平面，将通过插值得两个重原子半球壳之间空洞的平面简记为插值平面，如图4所示；

在空洞处选取重原子表面与投影方向成45°处作为表面连接点进行三次样条插值，得到空洞处的重原子类型和插值三维高度，进而确定二维网格中的每个网格对应的空间面积，进而确定疏水连通区域的面积。

进一步地，步骤六所述选出蛋白质中面积前三的疏水连通区域作为可能的对接位置，对两个要对接的蛋白质进行对接的过程包括以下步骤：

将两个要对接的蛋白质的疏水连通区域分别记为疏水连通区域A和疏水连通区域B，根据两疏水连通区域中对应的平均距离值较大值d＝max(di,dj)确定疏水连通区域A或疏水连通区域B上的搜索范围；

将疏水连通区域A固定，并以疏水连通区域A中心坐标为疏水连通区域面原点建立2d ×2d、间隔为3埃米的二维网格，将疏水连通区域A的2d×2d对应的搜索范围区域边界记为x_max、y_max；将疏水连通区域B的中心坐标依次位于二维网格的网格点中，并以5°为间隔旋转计算在每个网格点位置下，两疏水连通区域的对接情况；对接情况计算具体为：

针对于疏水连通区域A和疏水连通区域B，将各自拟合平面的法向量并作为各自的拟合平面z轴，将两疏水连通区域在拟合平面z轴上靠近，把疏水连通区域B放置于疏水连通区域A上方，逐渐减小疏水连通区域B的高度，即疏水连通区域B逐渐靠近疏水连通区域A；两个疏水连通区域平面逐渐靠近，就是逐渐把两个疏水连通区域的z轴重合，不过 A疏水连通区域z轴朝上的话，B疏水连通区域z轴就朝下，类似给B疏水连通区域做了一次坐标变换，变换完之后，就都在一个坐标系中了；

根据疏水连通区域B逐渐靠近疏水连通区域A的过程使疏水连通区域A和疏水连通区域B上的原子的最近距离为1埃米，将此位置记为空间对接位置；以在该空间对接位置下，找出疏水连通区域A、疏水连通区域B的原子坐标的最小x、y轴坐标，记为x_min、y_min，从而方便后面建立网格计算对接；

得到(x_min,y_min)坐标后，将疏水连通区域A、B中的原子压至x-y平面，在x-y平面中分别计算疏水连通区域A、B中距离(x_min,y_min)坐标距离最近的原子，将两原子分别记为原子a和原子b，将原子a和原子b在空间对接位置下表示的各自空间坐标对应的z 轴高度值取平均值作为对接平面z值，进而确定空间三维坐标(x_min，y_min，z)；用坐标 (x_min，y_min，z)分别计算距离原子a、原子b在空间对接位置下的真实距离，若两段距离中存在有一段距离超过6埃米，则认定疏水连通区域A和疏水连通区域B在该位置不存在对接表面，否则认为该坐标下存在两个蛋白质之间的对接表面；

如果当前空间对接位置不存在对接表面，则将疏水连通区域B在疏水连通区域A的二维网格上进行移动，x、y移动步长为0.1埃米，即：y一次增加0.1，则x从x_min到x_max；然后y再增加0.1，x再次从x_min到x_max，这样循环往复，y的变化范围是y_min到y_max，直到遍历完所有坐标；

当存在两个蛋白质之间的对接表面，记录空间对接位置下对接表面所属类型；

当存在两个蛋白质之间的对接表面时，确定当前空间对接位置下疏水连通区域A、B 对接界面处的对接类型，同时将对接平面z值调整为距离原子a、原子b相等距离时对应的z轴高度值；

对接类型包括碳原子-碳原子面，碳原子-氧、氮原子面，氧、氮原子-氧、氮原子面三种，根据对接类型计算得到疏水连通区域A、B对接界面处不同对接类型的面积值。

进一步地，在所述步骤六中，如果有多个对接位置则选出完整对接面积最大结果作为对接位置并计算两个蛋白质整体在此位置的完整对接面积。

基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接装置，所述装置包括有存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法。

进一步地，所述装置还包括有处理器，所述处理器加载并执行存储器中存储的至少一条指令，以实现如所述的基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法。

有益效果：

本发明基于低熵水合层机制对蛋白质对接位点进行预测，蛋白质对接处低熵区域面积最大化和形状匹配是确定蛋白质-蛋白质相互作用位点的最有效手段，是当前蛋白质对接理论的最新成果。基于低熵水合层机制可以精确预测蛋白质-蛋白质的对接界面和位点，这是全新的蛋白质-蛋白质对接的理论，可以实现蛋白质-蛋白质对接结构的快速、精确预测。同时，该方法可用于预测蛋白质与药物分子作用位点，有效评价并筛选出接近于真实状态下的作用位点。

附图说明

图1为原子表面的半球壳投影方向(正视图)示意图；

图2为半球壳上和投影方向夹角为45°的连接点在三维空间(俯视图)示意图；

图3为两个没有连接的原子表面之间的插值示意图；

图4为插值平面的高度信息示意图；

图5为本发明的蛋白质表面对接位置的低熵水合层效果图。

具体实施方式

本发明所述的基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法，属于一种新型蛋白质对接位点的预测方法。本发明所述的一种基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法遵循以下准则：

1、如果蛋白质表面氨基酸是亮氨酸Leu、酪氨酸Tyr、色氨酸Trp、异亮氨酸Ile、甲硫氨酸Met、苯丙氨酸Phe、精氨酸Arg或赖氨酸Lys时，且它们主链上的羰基氧原子或酰胺氮原子暴露在蛋白质表面时，将主链上的羰基氧原子或酰胺基团氮原子更改为疏水性原子，意味着亮氨酸Leu、酪氨酸Tyr、色氨酸Trp、异亮氨酸Ile、甲硫氨酸Met、苯丙氨酸Phe、精氨酸Arg或赖氨酸Lys主链氧、氮亲水性原子变为疏水性原子；

2、如果蛋白质表面氨基酸是属于色氨酸Trp、酪氨酸Tyr、赖氨酸Lys、甲硫氨酸Met，它们残基支链的氧、氮原子属性更改为疏水碳原子，意味着色氨酸Trp、酪氨酸Tyr、赖氨酸Lys、甲硫氨酸Met支链顶头亲水性氧、氮原子变为疏水性原子；

3、如果蛋白质表面氧原子、氮原子之间形成氢键，不论在蛋白质二级结构中的“α-螺旋”和“β片层”中，或者在其他位置，则将形成氢键的氧原子、氮原子更改为疏水性原子。

在不显示氢原子的情况下，通过上述原则获得蛋白质表面低熵水合层区域的分布，通过计算机程序确定低熵水合层区域的面积和形状，获得较大面积的低熵水合层样本。通过比较两个蛋白质的低熵水合层的面积和形状匹配，将这些样本重叠比较，使用搜索算法获得两个蛋白质的低熵水合层图形轮廓最接近的两个样本。将两个蛋白质的按照已获得的轮廓线位置进行对接，验证两蛋白质的对界面空间轮廓是否匹配，如果匹配，就可以获得蛋白质的对接位置模型。

下面结合具体实施方式对本发明进行说明。

具体实施方式一：

本实施方式为基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法，包括以下步骤：

步骤一、将蛋白质表面的重原子进行拓片处理，重原子包括碳原子、氮原子、氧原子、硫原子，通过计算该蛋白质中所有重原子的平均空间坐标，并将获得平均空间坐标作为投影中心，按照拓片区域的方向将蛋白质分解为20块；

首先，读取蛋白质PDB结构文件中的数据信息，获取每一个蛋白质重原子的三维空间坐标；

然后，以正十二面体的20个顶点将蛋白质原子划分为20个区域：正十二面体有20个顶点，以蛋白质所有原子的平均空间坐标为空间原点，即投影中心，从空间原点指向每个原子的向量与指向顶点向量的角度小于41°(两顶点向量夹角)则将原子划分至该空间区域，正十二面体的20个顶点可以将蛋白质原子划分为20个区域，划分出的一个蛋白质表面的区域范围即一个拓片区域范围；

步骤二、针对每一拓片区域内的蛋白质，从投影中心向拓片区域进行投影，以投影中心到正十二面体顶点为z轴，将该区域内蛋白质所有原子的z坐标投影到z轴上；选取z 轴上从投影中心到蛋白质原子中最大z值距离的30％靠外侧的原子作为蛋白质表面原子，即选取与投影中心距离大于70％×d_表的原子作为蛋白质表面原子，d_表为z轴上从投影中心到蛋白质表面原子最大z坐标的距离。针对不同的蛋白质，投影中心到顶点的距离不一样的，程序会根据实际情况自动计算。

情况一：如果蛋白质表面氨基酸是亮氨酸Leu、酪氨酸Tyr、色氨酸Trp、异亮氨酸Ile、甲硫氨酸Met、苯丙氨酸Phe、精氨酸Arg或赖氨酸Lys时，且它们主链上的羰基氧原子或酰胺氢原子暴露在蛋白质表面时，将主链上的羰基氧原子或酰胺氢原子更改为疏水性原子，意味着亮氨酸、酪氨酸、色氨酸、异亮氨酸、甲硫氨酸、苯丙氨酸、精氨酸或赖氨酸主链氧、氮亲水性原子变为疏水性原子；

步骤四、在步骤三对蛋白质20个区域改变原子的疏水亲水性之后，对20个区域的每一个区域蛋白质表面原子以最小二乘法重新拟合出一个平面，作为之后候选的蛋白质对接平面；计算20个区域中每个蛋白质对接平面的中心坐标位置(xi,yi)与其平面上所有原子的平均距离di，其中i为该拓片区域的序号；

将剩下的拟合平面记为表面平面，针对每个表面平面，选出处于疏水连通区域的中心原子，并标记疏水连通区域内的原子，具体过程包括以下步骤：

通过坐标变换将原子坐标变换到以表面平面作为xy平面的三维空间中；将原子坐标取 xy坐标(相当于压缩到xy平面)，以氧、氮原子为中心、5埃米为半径的圆中，若不存在其他氧、氮原子，则在后续寻找边界时，不将此原子作为边界；否则在xy平面(二维平面)中，以氧、氮原子作为边界，将以对应氧、氮原子为中心、3埃米为半径的圆中的碳、硫原子赋值为1，之后将存在赋值的碳、硫原子为中心，若以存在赋值的碳、硫原子为中心、 3埃米为半径的圆中存在未赋值碳、硫原子，则再将此未赋值碳、硫原子为中心、3埃米为半径的圆中已赋值的原子的数值和加起来作为该未赋值碳、硫原子的值，此时只是对未赋值碳、硫原子的值进行计算，记为未赋值碳、硫原子的拟赋值，但先不对其进行赋值；当全部原子进行一轮寻找完后，将未赋值碳、硫原子的拟赋值给对应未赋值的碳、硫原子，再开始新一轮赋值，直到所有碳、硫原子完成赋值；

针对每个碳、硫原子，在以碳、硫原子为中心、3埃米为半径的圆内，若碳硫、原子的数值大于等于周围原子的数值，将此碳、硫原子作为对应疏水连通区域的中心原子；

以中心原子为中心、10°为步长将中心原子四周进行区域划分，选出每个10°对应的扇形区域中数值大于等于3的原子，当首次出现数值小于3的原子(由于中心原子作为划分区域的中心，所以从中心到每个扇形的开口的方向上，原子的数值是从大到小的)则选出与其最近的数值3的原子到中心的距离为截断距离，选出在此截断距离中的原子作为该疏水连通区域内的原子。

步骤五、分别计算每个疏水连通区域表面疏水原子的疏水面积：

步骤5.1、针对每个疏水连通区域蛋白质表面重原子，以作用半径1.8埃米球体对表面重原子进行显示，针对每个表面重原子，以每个表面重原子为中心，在投影方向做半球面，半球面即半球壳，如图1和图2所示；

步骤5.2、将疏水连通区域平面以0.1埃米为间隔建立二维网格，在每一块网格中记录对应蛋白质表面的高度信息与重原子类型；

步骤5.3、选取1.8埃米半径作为重原子的作用半径建立表面，会出现空洞、表面不连续的情况，两个重原子的半球壳都没有交点，且两个原子之间的距离小于6埃米，如图3所示，将一个重原子半球壳上和投影方向夹角为45°范围与另一个重原子半球壳上和投影方向夹角为45°范围距离最近的连线作为插值区域，连线与两个重原子半球壳上和投影方向夹角为45°范围的交点为插值的端点，通过插值得两个重原子半球壳之间空洞的平面，将通过插值得两个重原子半球壳之间空洞的平面简记为插值平面，如图4所示；

在空洞处选取重原子表面与投影方向成45°处作为表面连接点进行三次样条插值，得到空洞处的重原子类型和插值三维高度，进而确定二维网格中的每个网格对应的空间面积，进而确定疏水连通区域的面积(空间面积)；

若插值平面两侧的重原子类型相同，则这个插值平面的疏水/亲水类型与两侧相同，若插值平面两侧的重原子类型不同，则以中间为界划分为两侧疏水/亲水类型不同；

步骤六、选出蛋白质中疏水面积最大的前三个疏水连通区域作为可能的对接位置，对两个要对接的蛋白质进行对接：

得到(x_min,y_min)坐标后，将疏水连通区域A、B中的原子压至x-y平面，在x-y平面中分别计算疏水连通区域A、B中距离(x_min,y_min)坐标距离最近的原子，将两原子分别记为原子a和原子b，将原子a和原子b在空间对接位置下表示的各自空间坐标对应的z 轴高度值取平均值作为对接平面z值，进而确定空间三维坐标(x_min，y_min，z)；用坐标 (x_min，y_min，z)分别计算距离原子a、原子b在空间对接位置下的真实距离，若两段距离中存在有一段距离超过6埃米，则认定疏水连通区域A和疏水连通区域B在该位置不存在对接表面(仅是当前位置不存在，但是寻找过程中一定是存在对接表面的)，否则认为该坐标下存在两个蛋白质之间的对接表面；

当存在两个蛋白质之间的对接表面，记录空间对接位置下对接表面所属类型(碳原子- 碳原子面积，碳原子-氧、氮原子面积，氧、氮原子-氧、氮原子面积)，

对接类型包括碳原子-碳原子面，碳原子-氧、氮原子面，氧、氮原子-氧、氮原子面三种，根据对接类型计算得到疏水连通区域A、B对接界面处不同对接类型的面积值；

若有多个对接位置则选出完整对接面积最大结果作为对接位置并计算两个蛋白质整体在此位置的完整对接面积。

实施例：

本发明基于相关研究提出了低熵水合层匹配机制进行蛋白质对接位点的识别，该机制揭示了基于疏水相互作用的蛋白质对接力学机制，经实验发现新冠病毒刺突S蛋白和血管紧张素转化酶ACE2蛋白之间的疏水作用结合力远大于同源的SARS病毒刺突S蛋白和ACE2蛋白之间的疏水作用结合力，本发明的低熵水合层匹配机制和《科学》杂志发表的一项实验结果一致并合理解释了该实验。该研究表明新冠病毒具有超强传染力的原因是其刺突蛋白质表面最大低熵水合层区域和受体蛋白质表面的最大低熵水合层区域具有高度吻合的匹配度，这导致新冠病毒表达出了超常的受体结合能力，也就是超强的传染力。本发明的相关研究表明包括新冠病毒在内的蛋白质对接过程都是由疏水作用力主导的，并通过最大低熵水合层间的相互吸引促成了蛋白质间的氢键连接和生化反应。

对于蛋白质-蛋白质结构之间的对接，可以通过蛋白质结构表面低熵水合层区域的分布来获取最佳的结合部位。通过分析上百种蛋白质之间对接位置的低熵水合层区域三维图像，将其与计算机程序识别出来的整个蛋白质表面的几个最大低熵水合层区域进行比对，可以发现计算机程序识别出来的几个低熵水合层三维面积中，能找到一个与实际对接位置处低熵水合层完美匹配的投影面积，也就是说本发明成功的预测出了亚基结构间的疏水对接位点，且完全符合最大低熵水合层匹配机制主导蛋白质结构间对接形成蛋白质-蛋白质相互作用的理论。程序验证的结果显示基于低熵水合层匹配机制可以精确的预测蛋白质-蛋白质结构间的对接位置(见说明书附图)，这证明了由疏水作用主导的低熵水合层匹配机制驱动了蛋白质-蛋白质对接结构的形成。

以蛋白质-蛋白质对接2SIC为例阐述基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法，对接效果如图5所示，中间图表示蛋白质-蛋白质对接，青色为低熵水合层对接面，上边两图表示根据蛋白质低熵水合层识别的变色准则对2SIC进行人工操作变色处理的氨基酸，下边两个图表示经过蛋白质低熵水合层识别的变色准则进行处理后，青色为两个蛋白质对接的低熵水合层表面。

具体实施方式二：

本实施方式为基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接装置，所述装置包括有存储器，还可以包括处理器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现所述的基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法。

当所述装置仅包括有存储器时，所述装置可以为存储器本身。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法，其特征在于，包括以下步骤：

步骤二、针对每一拓片区域内的蛋白质，以投影中心到正十二面体顶点为z轴，根据z轴上从投影中心到蛋白质原子中最大z值距离确定蛋白质表面原子；

情况二：如果蛋白质表面氨基酸是属于色氨酸Trp、酪氨酸Tyr、赖氨酸Lys、甲硫氨酸Met，它们残基支链的氧、氮原子属性更改为疏水性原子，意味着色氨酸Trp、酪氨酸Tyr、赖氨酸Lys、甲硫氨酸Met支链顶头亲水性氧、氮原子变为疏水性原子；

2.根据权利要求1所述的基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法，其特征在于，所述步骤一的过程包括以下步骤：

然后，以正十二面体的20个顶点将蛋白质原子划分为20个区域：正十二面体有20个顶点，以蛋白质所有原子的平均空间坐标为空间原点，从空间原点指向每个原子的向量与指向顶点向量的角度小于41°则将原子划分至对应区域，正十二面体的20个顶点将蛋白质原子划分为20个区域，划分出的一个蛋白质表面的区域范围即一个拓片区域范围。

3.根据权利要求2所述的基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法，其特征在于，步骤二所述根据z轴上从投影中心到蛋白质原子中最大z值距离确定蛋白质表面原子的过程如下：

4.根据权利要求1、2或3所述的基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法，其特征在于，步骤四所述将剩下的拟合平面记为表面平面，针对每个表面平面，选出处于疏水连通区域的中心原子的具体过程包括以下步骤：

通过坐标变换将原子坐标变换到以表面平面作为xy平面的三维空间中；将原子坐标取xy坐标，以氧、氮原子为中心、5埃米为半径的圆中，若不存在其他氧、氮原子，则在后续寻找边界时，不将此原子作为边界；否则在xy平面中，以氧、氮原子作为边界，将以对应氧、氮原子为中心、3埃米为半径的圆中的碳、硫原子赋值为1，之后将存在赋值的碳、硫原子为中心，若以存在赋值的碳、硫原子为中心、3埃米为半径的圆中存在未赋值碳、硫原子，则再将此未赋值碳、硫原子为中心、3埃米为半径的圆中已赋值的原子的数值和作为该未赋值碳、硫原子的值，此时只是对未赋值碳、硫原子的值进行计算，记为未赋值碳、硫原子的拟赋值，但先不对其进行赋值；当全部原子进行一轮寻找完后，将未赋值碳、硫原子的拟赋值给对应未赋值的碳、硫原子，再开始新一轮赋值，直到所有碳、硫原子完成赋值；

5.根据权利要求4所述的基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法，其特征在于，步骤四所述标记疏水连通区域内的原子的具体过程包括以下步骤：

6.根据权利要求5所述的基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法，其特征在于，步骤五所述分别计算每个疏水连通区域表面原子的疏水面积的具体过程包括以下步骤：

步骤5.3：选取1.8埃米半径作为重原子的作用半径建立表面，会出现空洞、表面不连续的情况，两个重原子的半球壳都没有交点，且两个原子之间的距离小于6埃米，将一个重原子半球壳上和投影方向夹角为45°范围与另一个重原子半球壳上和投影方向夹角为45°范围距离最近的连线作为插值区域，连线与两个重原子半球壳上和投影方向夹角为45°范围的交点为插值的端点，通过插值得两个重原子半球壳之间空洞的平面，将通过插值得两个重原子半球壳之间空洞的平面简记为插值平面；

7.根据权利要求6所述的基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法，其特征在于，步骤六所述选出蛋白质中面积前三的疏水连通区域作为可能的对接位置，对两个要对接的蛋白质进行对接的过程包括以下步骤：

将疏水连通区域A固定，并以疏水连通区域A中心坐标为疏水连通区域面原点建立2d×2d、间隔为3埃米的二维网格，将疏水连通区域A的2d×2d对应的搜索范围区域边界记为x_max、y_max；将疏水连通区域B的中心坐标依次位于二维网格的网格点中，并以5°为间隔旋转计算在每个网格点位置下，两疏水连通区域的对接情况；对接情况计算具体为：

针对于疏水连通区域A和疏水连通区域B，将各自拟合平面的法向量并作为各自的拟合平面z轴，将两疏水连通区域在拟合平面z轴上靠近，把疏水连通区域B放置于疏水连通区域A上方，逐渐减小疏水连通区域B的高度，即疏水连通区域B逐渐靠近疏水连通区域A；两个疏水连通区域平面逐渐靠近，就是逐渐把两个疏水连通区域的z轴重合，不过A疏水连通区域z轴朝上的话，B疏水连通区域z轴就朝下，类似给B疏水连通区域做了一次坐标变换，变换完之后，就都在一个坐标系中了；

得到(x_min,y_min)坐标后，将疏水连通区域A、B中的原子压至x-y平面，在x-y平面中分别计算疏水连通区域A、B中距离(x_min,y_min)坐标距离最近的原子，将两原子分别记为原子a和原子b，将原子a和原子b在空间对接位置下表示的各自空间坐标对应的z轴高度值取平均值作为对接平面z值，进而确定空间三维坐标(x_min，y_min，z)；用坐标(x_min，y_min，z)分别计算距离原子a、原子b在空间对接位置下的真实距离，若两段距离中存在有一段距离超过6埃米，则认定疏水连通区域A和疏水连通区域B在该位置不存在对接表面，否则认为该坐标下存在两个蛋白质之间的对接表面；

当存在两个蛋白质之间的对接表面时，确定当前空间对接位置下疏水连通区域A、B对接界面处的对接类型，同时将对接平面z值调整为距离原子a、原子b相等距离时对应的z轴高度值；

8.根据权利要求7所述的基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法，其特征在于，在所述步骤六中，如果有多个对接位置则选出完整对接面积最大结果作为对接位置并计算两个蛋白质整体在此位置的完整对接面积。

9.基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接装置，其特征在于，所述装置包括有存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法。