CN112382336B

CN112382336B - 一种小蛋白骨架设计方法及其应用

Info

Publication number: CN112382336B
Application number: CN202011382858.0A
Authority: CN
Inventors: 王天元; 吴炜坤; 赖力鹏; 温书豪; 马健
Original assignee: Beijing Jingtai Technology Co ltd
Current assignee: Beijing Jingtai Technology Co ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2023-09-01
Anticipated expiration: 2040-12-01
Also published as: CN112382336A

Abstract

本发明提供一种小蛋白骨架的设计方法及其应用，包括以下步骤，S1：创建专用的结构片段数据库；S2:生成小蛋白骨架数据库；S3:对小蛋白骨架进行氨基酸序列优化和设计；S4:采用与稳定性相关的指标对结构进行评价和过滤，不满足标准的结构将被移除过滤，最终形成计算预测上能够稳定折叠的小蛋白。本方法与现有方法最大的不同在于，文献报道设计的拓扑结构为HLHLHLHLH，而本发明设计的是更小的拓扑结构为HLHLH的蛋白，并且本发明根据HLHLH拓扑结构的专门定义了更加严格的过滤标准，改进了SEWING的采样方法，因此设计出来的蛋白稳定性和序列可设计性应当更高，并且计算过程中优质骨架生成的效率更高。

Description

一种小蛋白骨架设计方法及其应用

技术领域

本发明属于生物技术领域，具体涉及一种小蛋白骨架计算设计方法及其应用。

背景技术

目前，使用晶体结构的蛋白质片段或晶体结构的二级结构单元进行随机组装，生成有特定折叠模式的蛋白质结构以及序列。现有的骨架生成方法效率较低，得到的蛋白质结构模型质量参差不齐，需要大量的人工检查和参数评定，对数据库进行过滤，费时费力，人为视觉检查标准无法统一。并且在设计靶向结合的小蛋白时，经常匹配不到合适的小蛋白骨架模板，因此增加可用的小蛋白骨架数据是必要的。

发明内容

因此，本发明提供一种改进的小蛋白骨架设计方法，可以组装生成大量能够稳定折叠的蛋白作为靶向结合小蛋白的结构模板，该设计方法可克服当前的模板数量不足的问题，并使用提出的新的过滤标准实现自动化过滤，得到较高质量、稳定性数据较好的蛋白质骨架模型。

具体技术方案为：

一种小蛋白骨架的设计方法，包括以下步骤：

步骤(1)，创建新的蛋白质数据库，从PDB数据库中将解析精度在以下，小于30％序列相似的非冗余数据提取作为数据的输入集，将每段螺旋长度为5-25个氨基酸长度的HLH片段进行分离，制备成新的数据库，以此将螺旋结构的大小控制在30-90个氨基酸区间。

步骤(2)，生成小蛋白骨架数据库，采用改进的SEWING方法，通过图路径与蒙特卡洛的搜索方法，不断地将步骤(1)新建的蛋白质数据库中的HLH片段进行随机组装，得到大量的粗粒化骨架模型，并使用新制定的结构特征指标对骨架模型进行初次过滤，形成小蛋白骨架数据库；

所述的改进的SEWING方法具体为：通过图路径与蒙特卡洛的搜索方法，将每个HLH片段作为图路径搜索中的一个节点，将能够与该HLH结构吻合匹配的片段作为邻近的节点，然后随机地从一个节点进行出发，随机地选择相邻的节点进行结构组装。在迭代50,000-100,000步蒙特卡洛模拟退火搜索的过程中，每步迁移到一个节点时，以0.05％-0.5％、80.0％-94.5％的概率进行删除或替换上一步成功添加的HLH片段结构，或以5％-20％的概率将当前节点的HLH片段结构到已有的结构当中去。以上每步迭代搜索进行删除、替换或新增的操作生成的新结构构象，需要使用SEWING自带的简化能量打分模型进行能量评估，使用metropolis标准判定是否接纳此新的结构状态。此外，如果新添加或替换的片段与其他的区域存在骨架冲撞，那么这个构象将被抛弃。

所述结构特征指标包括：第一，通过统计每段螺旋上氨基酸Cα原子与其他螺旋上每一个氨基酸的Cα原子之间的距离，当这个距离时，骨架的可设计性较低，大概率会引入丙氨酸，过多的丙氨酸不利于蛋白质的折叠，因此该改进操作可提高骨架氨基酸的可设计性；第二，在生成过程中，要求位于N段和C段的螺旋结构长度不得低于7个氨基酸，该改进有助于形成更加稳定的二级结构螺旋；第三，通过统计每段螺旋结构的几何中心与蛋白结构的质量中心结构的距离，该距离/>该标准的设定有助于筛选出那些螺旋结构之间存在紧密堆积的模型。

步骤(3)，对小蛋白骨架进行氨基酸序列优化和设计，使用Rosetta FastDesignMover对小蛋白骨架数据库中的小蛋白的氨基酸序列和侧链原子进行设计和能量优化，然后多次设计迭代形成新的蛋白序列结构。

所述小蛋白的氨基酸序列和侧链原子进行设计和能量优化的过程包括：限定小蛋白的外层氨基酸类型为极性氨基酸，边界和内核层氨基酸类型为疏水氨基酸，对处于内核、边界以及表面的氨基酸分别指定允许的序列空间。

所述设计迭代次数为3-5次为佳，也可以根据实际的项目要求设置迭代次数。

步骤(4)，使用稳定性指标对生成的序列结构进行过滤，为评价设计小蛋白的稳定性，采用多项与稳定性相关的指标对结构进行评价和过滤，不满足标准的结构将被移除过滤，最终形成能够稳定折叠的小蛋白。

所述稳定性指标包括：螺旋中心距离、螺旋二级结构间的堆积质量、每段螺旋的长度、螺旋堆积之间的二面角、蛋白疏水内核氨基酸数量、丙氨酸数量、蛋白中的空腔体积、包埋的疏水氨基酸的溶剂可及表面积、不饱和氢键数量、蛋白质局部序列与二级结构匹配度、蛋白表面疏水氨基酸的溶剂可及表面积大小与比例、蛋白疏水内核原子平均密度。

优选地，稳定性指标具体为：

1.每段螺旋与其他螺旋的螺旋几何中心距离设定为

2.螺旋二级结构间的堆积质量系数应分布在0.5以上；

3.每段螺旋的长度大于7-15个氨基酸长度；

4.两股螺旋之间的堆积二面角优选分布在-50°至150°范围；

5.丙氨酸数量不应大于总氨基酸数量的5％-20％；

6.蛋白中的空腔体积应小于

7.包埋的疏水氨基酸的溶剂可及表面积优选大于

8.不饱和氢键数量应小于10；

9.蛋白质局部序列与二级结构匹配度应大于0.6；

10.蛋白表面疏水氨基酸的溶剂可及表面积大小与比例优选小于20％；

11.蛋白疏水内核原子平均密度应大于5个单位。

本发明中所采用的所有程序均参考“rosettacommons”网站中的软件命名。

本发明提供的蛋白骨架的设计方法，带来了如下效果：

1.本方法与现有方法最大的不同在于，文献报道设计的拓扑结构为HLHLHLHLH，而本发明设计的是更小的蛋白质HLHLH，并且本发明根据HLHLH拓扑结构的特定专门定义了更加严格的过滤标准，改进了SEWING的采样方法，因此设计出来的蛋白稳定性、和序列可设计性应当更高，并且计算过程中优质骨架数据生成的效率更高。

2.通过与DavidBaker实验筛选的HLHLH拓扑结构的蛋白进行对比分析，我们的方法带来了如下改进：

结构多样性：通过结构的聚类分析，使用改进后的SEWING方法生成的数据库中PDB结构可以聚类为7个簇，而现有已发布的David Baker实验室的螺旋结构数据库仅有2个簇。并且新方法设计的小蛋白序列长度分布范围为25-90个氨基酸，而David Baker实验室的小蛋白序列长度分布恒定在43。

结构稳定性：通过对蛋白质的回旋半径(Rg)、氨基酸堆积质量(PackStat)、二级结构形状互补性、包埋非极性表面积、带电量、蛋白质内部空间体积、局部序列与局部二级结构的吻合度，Ramachandran二面角分布、蛋白表面暴露的疏水残基溶剂可及表面积进行比较，新方法生成的数据库指标与经过实验验证的高稳定性螺旋数据库中数据分布具有高度相似性，侧面印证新方法可以生成更多稳定且具有多样性的小蛋白结构。

附图说明

图1是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库丙氨酸数量(个)的统计分布图。

图2是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库净电荷的统计分布图。

图3是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库序列长度(个)的统计分布图。

图4是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库蛋白内核原子密度(个)的统计分布图。

图5是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库蛋白氨基酸堆叠质量评分的统计分布图。

图6是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库蛋白氨基酸构象平均单体能量(Rosetta Energy Unit)的统计分布图。

图7是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库二级结构形状互补系数的统计分布图。

图8是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库内部空腔体积的统计分布图。

图9是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库二级结构螺旋长度的统计分布图。

图10是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库包埋的非极性氨基酸可及溶剂表面积的统计分布图。

图11是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库包埋的回旋半径的统计分布图。

图12是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库疏水核心暴露的溶剂可及表面积的统计分布图。

图13是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库二级结构的序列与结构匹配度(％)的统计分布图。

具体实施方式

实施例1使用改进的方法设计小蛋白骨架与其氨基酸序列

1)准备小蛋白专用的HLH片段数据库

为提高SEWING计算方法的HLH片段组装效率，将原有方法中的数据库信息做出了调整，原有数据库使用HLH片段中每段螺旋的长度为5-40个氨基酸，该长度不适合设计小蛋白骨架。改进的方法为从PDB数据库中将解析精度在以下，30％序列相似的非冗余数据提取作为数据的输入集，将每段螺旋长度为5-25个氨基酸长度的HLH片段进行分离，制备成新的数据库，以此将螺旋结构的大小控制在30-90个氨基酸的范围内。

2)使用改进的SEWING方法生成小蛋白骨架

SEWING生成方法中组装HLH片段结构是在粗粒化原子模型结构下进行，蛋白质中的氨基酸侧链被粗粒化的球型模型所替代。为了提高骨架的生成效率，新增了三个结构特征的评价指标的改进，第一，通过统计每段螺旋上氨基酸Cα原子与其他螺旋上每一个氨基酸的Cα原子之间的距离，当这个距离小于时，骨架的可设计性较低，大概率会引入丙氨酸，过多的丙氨酸不利于蛋白质的折叠，因此该改进操作可提高骨架氨基酸的可设计性；第二，在生成过程中，要求位于N段和C段的螺旋结构长度不得低于7个氨基酸，该改进有助于形成更加稳定的二级结构螺旋；第三，通过统计每段螺旋结构的几何中心与蛋白结构的质量中心结构的距离，该距离不得大于/>该标准的设定有助于筛选出那些螺旋结构之间存在紧密堆积的模型。

3)对小蛋白骨架进行氨基酸序列优化和设计

由于移植后的模型存在大量原子重叠等不合理的坐标，后续使用RosettaFastDesign Mover程序对小蛋白的氨基酸序列和侧链原子进行设计和能量优化，此过程中限定小蛋白的外层氨基酸类型为极性氨基酸，边界和内核层氨基酸类型为疏水氨基酸。设计迭代次数为3-5次为佳。

4)使用稳定性指标对生成的序列与结构进行过滤

为评价设计小蛋白的稳定性，采用多项与稳定性相关的指标对结构进行评价和过滤。使用到的标准如下所述：

1.每段螺旋与其他螺旋的螺旋几何中心距离设定不得超过

2.螺旋二级结构间的堆积质量系数应分布在0.5以上；

3.每段螺旋的长度应大于7-15个氨基酸长度；

4.两股螺旋之间的堆积二面角优选分布在-50°至150°范围；

5.丙氨酸数量不应大于总氨基酸数量的5％-20％；

6.蛋白中的空腔体积应小于

7.包埋的疏水氨基酸的溶剂可及表面积优选大于

8.不饱和氢键数量应小于10；

9.蛋白质局部序列与二级结构匹配度应大于0.6；

11.蛋白疏水内核原子平均密度应大于5个单位。

实施例2使用稳定的小蛋白骨架结构设计靶向结合的药物

1)从晶体结构中分离关键相互作用的结构基序片段。

步骤1.1：在PDB数据库中对靶点蛋白进行结构搜索，如果存在高精度的晶体结构时，下载其PDB文件，并除去水分子、离子、底物等无关的分子信息，使用Rosetta Relax程序的默认参数对蛋白质结构进行优化。

步骤1.2：使用Rosetta ddG Mover程序对晶体复合物结构进行结合自由能变的进行计算扫描相互作用界面上的所有残基位点，将自由能贡献大于0.5个REU能量单位的氨基酸设置为热点残基。并将连接这些热点残基的连续二级结构以及靶点的结构一并分离出来，并保存为新的PDB结构。

2)基于结合热点基序结构相似性匹配小蛋白骨架。

步骤2.1：将所有含有螺旋长度大于热点基序结构长度的小蛋白数据库建立子数据库。

步骤2.2：使用Rosetta MotifGraft Mover程序将结合热点结构基序的原子与步骤2.1中得到的小蛋白骨架进行叠合，得到结合状态的小蛋白模型。

3)对小蛋白骨架进行氨基酸序列优化和设计

步骤3.1：由于移植后的模型存在大量原子重叠等不合理的坐标，后续使用Rosetta FastDesign Mover程序对小蛋白的氨基酸序列和侧链原子进行设计和能量优化。

步骤3.2：使用多种过滤指标，如相互作用界面疏水空洞体积、蛋白相互作用结合能、相互作用界面形状互补系数等对设计的复合物结构进行评价。

步骤3.3：选出能够稳定结合的小蛋白结构和序列信息，并进行湿实验的表达纯化，验证设计的小蛋白靶向结合能力、蛋白结构稳定性以及结构解析。

如图1至13所示：图1是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库丙氨酸数量(个)的统计分布，统计蛋白质结构模型中，氨基酸类型为丙氨酸的总数量。图2是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库净电荷的统计分布，统计蛋白质结构模型中，带正电氨基酸(赖氨酸、精氨酸、组氨酸)与带负电氨基酸(天冬氨酸、谷氨酸)总电荷数。图3是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库序列长度(个)的统计分布，统计蛋白质结构模型中，序列长度的总氨基酸数目。图4是BakerLab稳定螺旋库与改进型SEWING算法生成的螺旋库蛋白内核原子密度(个)的统计分布，统计蛋白质结构模型中，属于内核氨基酸C_β原子附近范围内所有原子的数量。图5是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库蛋白氨基酸堆叠质量评分的统计分布，统计蛋白质结构模型中，氨基酸侧链堆积间紧密程度，使用Rosetta内置的PackStat Filter计算所得。堆叠质量大于0.6代表有较好的堆积质量。图6是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库蛋白氨基酸构象平均单体能量(Rosetta Energy Unit)的统计分布，统计蛋白质结构模型中，计算结构的Rosetta能量总和除以总氨基酸数量，得到氨基酸构象平均单体能量，描述蛋白质折叠态的稳定性。图7是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库二级结构形状互补系数的统计分布，统计蛋白质结构模型中，二级结构之间的形状互补程度，使用Rosetta SSShapeComplementarityFilter进行计算。图8是BakerLab稳定螺旋库与改进型SEWING算法生成的螺旋库内部空腔体积/>的统计分布，统计蛋白质结构模型中，蛋白质内部的空腔体积大小。图9是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库二级结构螺旋长度的统计分布，统计蛋白质结构模型中，每段二级结构螺旋长度的分布情况。图10是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库包埋的非极性氨基酸可及溶剂表面积/>的统计分布，统计蛋白质结构模型中，处于蛋白质内核区域的所有非极性氨基酸的可及溶剂表面积的总面积。图11是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库包埋的回旋半径/>的统计分布，统计蛋白质结构模型中，蛋白质回旋半径的大小。图12是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库疏水核心暴露的溶剂可及表面积/>的统计分布，统计蛋白质结构模型中，疏水核心暴露的溶剂可及表面积的总面积大小。图13是Baker Lab稳定螺旋库与改进型SEWING算法生成的螺旋库二级结构的序列与结构匹配度(％)的统计分布，统计蛋白质结构模型中，使用PSIPRED预测的二级结构与DSSP预测的二级结构的错配率大小。

根据图1至图13可知，本发明生成的结构模型与经过实验验证的螺旋库的性质分布类似，因此，本发明中的生成库的稳定性也是较好的。

Claims

1.一种小蛋白骨架的设计方法，包括以下步骤：

S1：创建新的结构片段数据库，从PDB数据库中将解析精度在以下，小于30％序列相似的非冗余数据提取作为数据的输入集，将每段螺旋长度为5-25个氨基酸长度的HLH片段进行分离，制备成新的数据库，以此将螺旋结构的大小控制在30-90个氨基酸区间；

S2：生成小蛋白骨架数据库，采用改进的SEWING方法，通过图路径与蒙特卡洛的搜索方法，不断地将S1新建的蛋白质数据库中的HLH片段进行随机组装，得到大量的粗粒化骨架模型，并使用新制定的结构特征指标对骨架模型进行初次过滤，形成小蛋白骨架数据库；

S3：对小蛋白骨架进行氨基酸序列优化和设计，使用Rosetta FastDesign Mover对小蛋白骨架数据库中的小蛋白的氨基酸序列和侧链原子进行设计和能量优化，然后多次设计迭代形成新的蛋白序列结构；

S4：采用与稳定性相关的指标对结构进行评价和过滤，不满足标准的结构将被移除过滤，最终形成计算预测上能够稳定折叠的小蛋白：

所述S2中，所述的改进的SEWING方法为：

S21：通过图路径与蒙特卡洛的搜索方法，将每个HLH片段作为图路径搜索中的一个节点，将能够与该HLH结构吻合匹配的片段作为邻近的节点；

S22：随机地从一个节点进行出发，随机地选择相邻的节点进行结构组装，当满足新制定的结构特征指标时，保留此结构模型用于进一步的氨基酸设计；

所述S2中，所述的结构特征指标包括：(1)：每段螺旋上氨基酸Cα原子与其他螺旋上每一个氨基酸的Cα原子之间的距离为(2)：在生成过程中，要求位于N段和C段的螺旋结构长度不得低于7个氨基酸；(3)：通过统计每段螺旋结构的几何中心与蛋白结构的质量中心结构的距离，该距离不得大于/>

2.如权利要求1所述的设计方法，其特征在于，所述S21中，在迭代50，000-100，000步蒙特卡洛模拟退火搜索的过程中，每步迁移到一个节点时，以0.05％-0.5％、80.0％-94.5％的概率进行删除或替换上一步成功添加的HLH片段结构，或以5％-20％的概率将当前节点的HLH片段结构添加到已有的结构当中去。

3.如权利要求1所述的设计方法，其特征在于，所述S3中，所述小蛋白的氨基酸序列和侧链原子进行设计和能量优化的过程包括如下至少一项：①限定小蛋白的外层氨基酸类型为极性氨基酸，②边界和内核层氨基酸类型为疏水氨基酸，③对处于内核、边界以及表面的氨基酸分别指定允许的序列空间。

4.如权利要求1所述的设计方法，其特征在于，所述S4中，所述与稳定性相关的指标包括至少如下其中一项：①每段螺旋与其他螺旋的螺旋几何中心距离设定为②螺旋二级结构间的堆积质量系数应分布在0.5以上；③每段螺旋的长度大于7-15个氨基酸长度；④两股螺旋之间的堆积二面角分布在-50°至150°；⑤丙氨酸数量不大于总氨基酸数量的10％-20％；⑥蛋白中的空腔体积应小于/>⑦包埋的疏水氨基酸的溶剂可及表面积大于/>⑧不饱和氢键数量小于10；⑨蛋白质局部序列与二级结构匹配度大于0.6；⑩蛋白表面疏水氨基酸的溶剂及表面积大小与比例小于20％；/>蛋白疏水内核原子平均密度大于5个单位。

5.一种采用如权利要求1所述的小蛋白骨架设计方法所设计的靶向结合的药物，其特征在于，包括如下几个步骤：

1)准备小蛋白专用的HLH片段数据库；

2)使用改进的SEWING方法生成小蛋白骨架；

3)对小蛋白骨架进行氨基酸序列优化和设计；

4)使用稳定性指标对生成的序列与结构进行过滤。

6.一种采用如权利要求1所述的小蛋白骨架设计方法所设计的靶向结合的药物，其特征在于，包括如下几个步骤：

步骤A：从晶体结构中分离关键相互作用的结构基序片段；

步骤B：基于结合热点基序结构相似性匹配小蛋白骨架；

步骤C：对小蛋白骨架进行氨基酸序列优化和设计。