CN117577224A

CN117577224A - 一种基于模板的蛋白质小分子复合物建模方法及其应用

Info

Publication number: CN117577224A
Application number: CN202311627394.9A
Authority: CN
Inventors: 彭向达; 王志豪; 郑良振; 周凡
Original assignee: Shanghai Zhiyu Biotechnology Co ltd
Current assignee: Shanghai Zhiyu Biotechnology Co ltd
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-02-20
Anticipated expiration: 2043-11-30
Also published as: CN117577224B

Abstract

本发明提供了一种基于模板的蛋白质小分子复合物建模方法及其应用，本发明所述方法基于分子力场来执行小分子柔性对齐算法，分子力场中的相互作用参数可以提供对小分子基本几何构型，如键长、键角、键级，和元素性质，如电荷、原子半径等基本信息，在上述信息基础上进一步构建了惩罚和奖励机制，来迫使目标小分子在遵循上述力场规则的前提下尽可能与目标分子之间形成最大的空间和化学相似性。本发明的方法可以帮助在小分子药物开发过程中更准确的确定小分子在蛋白质口袋中的位置，可进一步帮助基于分子动力学模拟的自由能微扰计算或MMPBSA计算过程。

Description

一种基于模板的蛋白质小分子复合物建模方法及其应用

技术领域

本发明属于医药技术领域，具体涉及一种基于模板的蛋白质小分子复合物建模方法及其应用。

背景技术

在虚拟筛选或者计算辅助药物发现场景中，合理评估蛋白质-小分子的复合物结构是准确评估其亲和力的基础。业界较为普遍的做法是使用分子对接(Docking)算法对受体(蛋白质)与配体(小分子)的结合模式进行。分子对接主要考虑受体与配体结合的空间结构和能量的相互匹配程度。结构匹配是分子间发生相互作用的基础，而能量匹配是分子间保持稳定结合的基础。

除了分子对接，人们还可以使用基于模板的柔性对齐方法来获取受体和配体的结合构象。具体而言，如果待研究的配体蛋白的晶体结构中存在共晶小分子，则可以此(结合构象和化学信息)为模板来构建目标小分子在蛋白质结合口袋中的可能位置。在具体使用场景下，这些方法的主要步骤是首先把目标小分子和参考小分子进行逐原子对匹配，建立原子级别的对应关系，然后构建某种评价方法(如相互作用能)，通过对目标小分子的原子坐标进行平移或对空间构象进行旋转以实现能量最小化，最后把能量最低的构象输出，从而完成分子对齐过程。

如果目标小分子和参考小分子有一定程度的相似性，柔性对齐方法可给出较高质量的计算结果。目前，业界中使用的方法的第一步通常是把目标小分子和参考小分子进行原子级别的匹配，找到每个原子的等效原子，因此小分子的相似程度越高，柔性对齐的计算结果越好。然而，在真实的应用场景中，参考小分子和目标小分子的相似性往往是有限的，因此条件苛刻的原子对等效匹配变得尤为困难，一旦算法无法给出正确的原子对映射匹配，势必会影响后续的对齐过程，造成计算精度的大幅度下降。此外，市面上的柔性对齐算法数量有限，且存在着精度不高、成功率不高、无法区分分子手性等诸多问题。因此，提供一种新型方法解决或改善上述问题，在虚拟筛选或者计算辅助药物发现中具有重要的应用价值。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种基于模板的蛋白质小分子复合物建模方法及其应用。所述算法基于原子的化学信息和拓扑信息找到相似的原子对，从而避免了条件严格的等效原子对匹配，在参考小分子和目标小分子相似性偏低时仍能具有较高的对齐成功率。

为达到此发明目的，本发明采用以下技术方案：

第一方面，本发明提供一种基于模板的蛋白质小分子复合物建模方法，所述建模方法包括：

(1)读取目标小分子和参考小分子的坐标文件，生成相应的分子力场信息并对原子信息进行解析；

(2)平移目标小分子，使目标小分子的几何中心与参考小分子的几何中心重合；

(3)基于参考小分子的空间构象，在参考小分子的原子周围构建均匀分布的虚拟格点；以虚拟格点为中心，对平移后的目标小分子施加排斥力势；

(4)根据原子的元素类型、电荷数值、成键数目和成环类型，进行相似性打分，筛选出参考小分子和目标小分子中的相似原子对；

(5)对于相似性得分大于0的参考小分子-目标小分子原子对，通过增加吸引力势进行额外的奖励，且相似性越高，吸引力越强；

(6)在三维空间中对目标小分子整体进行旋转采样，同时对目标小分子中的可旋转键进行旋转采样，以生成多个不同姿势的采样构象；

(7)计算获得的采样构象的总能量，将能量打分值在能量标准范围内的目标小分子采样构象输出，作为待选目标小分子空间构象集合；否则，重复步骤(6)，增加采样密度，生成更多采样构象；

(8)进行分子动力学模拟，利用OpenMM程序包进行能量最小化过程；从待选目标小分子空间构象集合中筛选能量打分值最低的目标小分子空间构象作为柔性对齐结果。

小分子柔性对齐是计算机辅助药物发现中基于配体和基于结构的方法的关键组成部分。它用于将具有3D坐标的小分子与模板对齐并计算一组对齐。每个对齐都有一个分数，所述分数量化了对齐的质量，包括内部应变和分子特征的重叠。本发明的核心点在于基于分子力场来执行小分子柔性对齐算法。分子力场中的相互作用参数可以提供对小分子基本几何构型(如键长、键角、键级)和元素性质(如电荷、原子半径)等基本信息。在此基础上，本发明进一步构建了惩罚和奖励机制，来迫使目标小分子在遵循上述力场规则的前提下尽可能与目标分子之间形成最大的空间和化学相似性。

本发明的方法的流程如图1所示，本发明的特点在于：(1)不需要预先给定模板分子和目标分子之间的原子映射关系；(2)对齐过程综合考虑了几何和化学的相似性；(3)对齐的精度是目前文献报道中的最高的；(5)过程中会自动添加缺失的氢原子并生成分子力场；(6)可以帮助在小分子药物开发过程中更准确的确定小分子在蛋白质口袋中的位置，可进一步帮助基于分子动力学模拟的自由能微扰计算或MMPBSA计算过程。

优选地，步骤(1)中，所述分子力场信息由acpype程序包计算得到。

优选地，步骤(1)中，所述分子力场信息的生成步骤为：利用OpenBabel程序包处理目标小分子和参考小分子的坐标文件，算法基于读取的原子信息自行判断是否需要添加缺失的氢原子；氢原子添加完毕后，算法自动调用acpype程序包自动生成小分子的分子力场信息。

优选地，步骤(1)中，生成的力场信息包括：约束分子内部的键长、键角、二面角及电荷相互作用，上述力场信息使参考小分子在模拟中能维持合理的基本结构。

优选地，步骤(1)中，所述解析的内容包括：对每个原子进行元素类型识别，统计成键数量，判断成环类型，找出分子内部的可旋转键。

优选地，步骤(3)中，所述排斥力势函数的计算公式如下所示：

其中，s_r＝20，c_r＝0.3nm为常数，r_qg为目标小分子中的原子到虚拟格点的距离。

优选地，步骤(5)中，所述参考小分子-目标小分子原子对的相似性得分采用如下步骤计算得到：分别为每个指标构建原子对矩阵，若原子对的元素类型、成键数目、成环类型一致，则相应矩阵元被赋值为1，否则为0，若原子对的电荷数值越接近，则电荷矩阵的矩阵元数值越接近1；把四个指标按照如下方式相加，得到原子对的相似性得分：

a_qt＝a_type+a_charge+min(2，2×a_ring+a_bond)

其中，环类型得分是成键数目得分的两倍，并限制二者之和的最大值为2。

优选地，步骤(5)中，所述吸引力势函数的计算公式如下所示：

其中，s_a＝30，c_a＝0.1nm为常数，r_qt为相似原子对的距离。

优选地，步骤(7)中，所述采样构象的总能量的计算步骤包括：将获得的采样构象作为初始结构输入OpenMM软件包，计算每个采样构象的总能量，所述总能量包括力场势能和额外添加的吸引势能、排斥势能，能量均设置为无量纲量。

优选地，步骤(7)中，所述能量标准范围为能量打分值小于10000。

第二方面，本发明提供第一方面所述的基于模板的蛋白质小分子复合物建模方法在筛选药物中的应用。

第三方面，本发明提供一种基于模板的蛋白质小分子复合物建模系统，所述建模系统包括：

获取模块，用于读取目标小分子和参考小分子的坐标文件，生成相应的分子力场信息并对原子信息进行解析；

初步比对模块，用于平移目标小分子，使目标小分子的几何中心与参考小分子的几何中心重合；

空间格点构建模块，用于构建空间格点，基于参考小分子的空间构象，在参考小分子的原子周围构建均匀分布的虚拟格点；以虚拟格点为中心，对平移后的目标小分子施加排斥力势；

原子对构建模块，用于根据原子的元素类型、电荷数值、成键数目和成环类型，进行相似性打分，筛选出参考小分子和目标小分子中的相似原子对；

相似性计算模块，用于计算参考小分子-目标小分子原子对的相似性，对于相似性得分大于0的参考小分子-目标小分子原子对，通过增加吸引力势进行额外的奖励，且相似性越高，吸引力越强；

旋转采样模块，用于在三维空间中对目标小分子整体进行旋转采样，同时对目标小分子中的可旋转键进行旋转采样，以生成多个不同姿势的采样构象；

总能量计算模块，用于计算获得的采样构象的总能量，将能量打分值在能量标准范围内的目标小分子采样构象输出，作为待选目标小分子空间构象集合；否则，重复步骤(5)，增加采样密度，生成更多采样构象；

分子动力学模拟模块，用于进行分子动力学模拟，利用OpenMM程序包进行能量最小化过程；从待选目标小分子空间构象集合中筛选能量打分值最低的目标小分子空间构象作为柔性对齐结果。

优选地，所述获取模块中，所述分子力场信息由acpype程序包计算得到。

优选地，所述获取模块中，所述分子力场信息的生成步骤为：利用OpenBabel程序包处理目标小分子和参考小分子的坐标文件，算法基于读取的原子信息自行判断是否需要添加缺失的氢原子；氢原子添加完毕后，算法会自动调用acpype程序包自动生成小分子的分子力场信息。

优选地，所述获取模块中，生成的力场信息包括：约束分子内部的键长、键角、二面角及电荷相互作用，上述力场信息使参考小分子在模拟中能维持合理的基本结构。

优选地，所述获取模块中，所述解析的内容包括：对每个原子进行元素类型识别，统计成键数量，判断成环类型，找出分子内部的可旋转键。

优选地，所述空间格点构建模块中，所述排斥力势函数的计算公式如下所示。

优选地，所述相似性计算模块中，所述参考小分子-目标小分子原子对的相似性得分采用如下步骤计算得到：分别为每个指标构建原子对矩阵，若原子对的元素类型、成键数目、成环类型一致，则相应矩阵元被赋值为1，否则为0，若原子对的电荷数值越接近，则电荷矩阵的矩阵元数值越接近1；把四个指标按照如下方式相加，得到原子对的相似性得分：

a_qt＝a_type+a_charge+min(2,2×a_ring+a_bond)

优选地，所述相似性计算模块中，所述吸引力势函数的计算公式如下所示：

其中，s_a＝30，c_a＝0.1nm为常数，r_qt为相似原子对的距离。

优选地，所述总能量计算模块中，所述采样构象的总能量的计算步骤包括：将获得的采样构象作为初始结构输入OpenMM软件包，计算每个采样构象的总能量，所述总能量包括力场势能和额外添加的吸引势能、排斥势能，能量均设置为无量纲量。

优选地，所述总能量计算模块中，所述能量标准范围为能量打分值小于10000。

第四方面，本发明提供一种计算机可读存储介质，所述存储介质上存储有计算机程序，其中，所述计算机程序被处理器执行时实现根据第一方面所述的基于模板的蛋白质小分子复合物建模方法的步骤。

第五方面，本发明提供一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的基于模板的蛋白质小分子复合物建模方法的步骤。

相对于现有技术，本发明具有以下有益效果：

本发明提出了一种基于模板的小分子柔性对齐算法，所述算法基于原子的化学信息和拓扑信息找到相似的原子对，从而避免了条件严格的等效原子对匹配，在参考小分子和目标小分子相似性偏低时仍能具有较高的对齐成功率。

附图说明

图1是基于模板的蛋白质小分子复合物建模系统的流程图。

图2是不同对齐方法的自对齐性能对比。

图3是不同对齐方法的交叉对齐性能对比。

图4是柔性对齐算法效果示意。

具体实施方式

下面通过具体实施方式来进一步说明本发明的技术方案。本领域技术人员应该明了，所述实施例仅仅是帮助理解本发明，不应视为对本发明的具体限制。

实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件，或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可通过正规渠道商购获得的常规产品。

实施例1

本实施例提供一种基于模板的蛋白质小分子复合物建模方法，所述建模方法包括：

(1)利用OpenBabel程序包处理目标小分子和参考小分子的坐标文件，算法基于读取的原子信息自行判断是否需要添加缺失的氢原子；氢原子添加完毕后，算法自动调用acpype程序包自动生成小分子的分子力场信息。生成的力场信息包括：约束分子内部的键长、键角、二面角及电荷相互作用，上述力场信息使参考小分子在模拟中能维持合理的基本结构。对原子信息进行解析，具体为：对每个原子进行元素类型识别，统计成键数量，判断成环类型，找出分子内部的可旋转键。

(2)平移目标小分子，使其几何中心与参考小分子的几何中心重合。

(3)基于参考小分子的空间构象，在参考小分子的原子周围构建均匀分布的虚拟格点；以虚拟格点为中心，对平移后的目标小分子施加排斥力势。

所述排斥力势函数的计算公式如下所示：

其中，s_r＝20，s_r＝0.3nm为常数，r_qg为目标小分子中的原子到虚拟格点的距离。

(4)根据原子的元素类型、电荷数值、成键数目和成环类型，进行相似性打分，筛选出参考小分子和目标小分子中的相似原子对。

(5)对于相似性得分大于0的参考小分子-目标小分子原子对，通过增加吸引力势进行额外的奖励，且相似性越高，吸引力越强；所述参考小分子-目标小分子原子对的相似性得分采用如下步骤计算得到：分别为每个指标构建原子对矩阵，若原子对的元素类型、成键数目、成环类型一致，则相应矩阵元被赋值为1，否则为0，若原子对的电荷数值越接近，则电荷矩阵的矩阵元数值越接近1；把四个指标按照如下方式相加，得到原子对的相似性得分：

a_qt＝a_type+a_charge+min(2,2×a_ring+a_bond)

所述吸引力势函数的计算公式如下所示：

其中，s_a＝30，c_a＝0.1nm为常数，r_qt为相似原子对的距离。

(7)计算获得的采样构象的总能量，计算步骤包括：将获得的采样构象作为初始结构输入OpenMM软件包，计算每个采样构象的总能量，所述总能量包括力场势能和额外添加的吸引势能、排斥势能，能量均设置为无量纲量。

将能量打分值小于10000的目标小分子采样构象输出，作为待选目标小分子空间构象集合；否则，重复步骤(6)，增加采样密度，生成更多采样构象。

实施例2

本实施例基于实施例1中的方法，利用PDBbind2018中的refined set数据集和原子数大于30小于100的Large molecule数据集进行自对齐测试，利用交叉对接的数据集3DDisco进行交叉对齐测试。

本实施例中的自对齐指的是把小分子的晶体结构进行随机初始化，生成一些初始结构，然后以自身的晶体结构为参考小分子，以随机生成的结构为目标小分子，进行小分子对齐。

本实施例中的交叉对齐指的是以与某个蛋白质口袋结合的小分子的晶体结构a作为参考小分子，以与该口袋结合的另一个小分子b的随机初始结构b’作为目标小分子，进行小分子对齐。

对齐结果的评价标准是计算经过对齐之后的目标小分子构象与其晶体结构的均方根偏差(RMSD)，其数值越小则认为两个结构越接近，对齐的效果越好。市面上通常以作为对齐成功的标准。

图2为不同对齐方法的自对齐性能对比，图2展示了不同在两个数据集中自对齐的结果比较。其中FitDock、LS-align、LIGSIFT为其他竞品方法。LIGSIFT因为只具有刚性对齐功能，不能进行柔性对齐，所以效果最差。其他两种竞品均采用了精细的等效原子匹配。这里本发明的方法与FitDock方法结果表现出色，在PDBbind 2018refined set数据集上几乎能把所有目标小分子优化到但是当原子数目变多，分子结构变复杂时，因为本发明的方法不需要进行原子匹配，所以优化成功率最高。

图3为不同对齐方法的交叉对齐性能对比，在交叉对齐测试中，本发明的方法具有明显的优势。上述自对齐的测试中，参考小分子和目标小分子的原子信息完全一致，因此基于多层分级原子对等效匹配的FitDock方法性能较好，但在模板对齐中，参考小分子和目标小分子的相似程度有限，严格的匹配搜索不利于找到相似的原子对，也就无法实现高精度的对齐效果。这里本发明进一步分析了相似程度与对齐成功率的关系。可以看出，当相似性小于0.6时，本发明的方法成功率始终最高。而在真实的应用场景中，往往很难找到高相似性的分子作为模板分子，因此本发明提出的方法更加具有实际意义。

图4为柔性对齐算法效果示意，在算法的优化下，目标小分子与参考小分子中相似性较高的部分可以实现较好的重叠，与其晶体结构计算所得的RMSD为说明我们的方法能较好的完成分子对齐过程。

综上，本发明提供了一种基于模板的蛋白质小分子复合物建模方法，所述方法基于原子的化学信息和拓扑信息找到相似的原子对，从而避免了条件严格的等效原子对匹配，在参考小分子和目标小分子相似性偏低时仍能具有较高的对齐成功率，在真实的应用场景中更加具有实际意义。

申请人声明，以上所述仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，所属技术领域的技术人员应该明了，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，均落在本发明的保护范围和公开范围之内。

Claims

1.一种基于模板的蛋白质小分子复合物建模方法，其特征在于，所述建模方法包括：

2.根据权利要求1所述的基于模板的蛋白质小分子复合物建模方法，其特征在于，步骤(1)中，所述分子力场信息由acpype程序包计算得到；

优选地，步骤(1)中，所述分子力场信息的生成步骤为：利用OpenBabel程序包处理目标小分子和参考小分子的坐标文件，算法基于读取的原子信息自行判断是否需要添加缺失的氢原子；氢原子添加完毕后，算法自动调用acpype程序包自动生成小分子的分子力场信息；

优选地，步骤(1)中，生成的力场信息包括：约束分子内部的键长、键角、二面角及电荷相互作用，上述力场信息使参考小分子在模拟中能维持合理的基本结构；

3.根据权利要求1或2所述的基于模板的蛋白质小分子复合物建模方法，其特征在于，步骤(3)中，所述排斥力势函数的计算公式如下所示：

4.根据权利要求1-3中任一项所述的基于模板的蛋白质小分子复合物建模方法，其特征在于，步骤(5)中，所述参考小分子-目标小分子原子对的相似性得分采用如下步骤计算得到：分别为每个指标构建原子对矩阵，若原子对的元素类型、成键数目、成环类型一致，则相应矩阵元被赋值为1，否则为0，若原子对的电荷数值越接近，则电荷矩阵的矩阵元数值越接近1；把四个指标按照如下方式相加，得到原子对的相似性得分：

a_qt＝a_type+a_charge+min(2，2×a_ringa_bond)

其中，环类型得分是成键数目得分的两倍，并限制二者之和的最大值为2；

其中，s_a＝30，c_a＝0.1nm为常数，r_qt为相似原子对的距离。

5.根据权利要求1-4中任一项所述的基于模板的蛋白质小分子复合物建模方法，其特征在于，步骤(7)中，所述采样构象的总能量的计算步骤包括：将获得的采样构象作为初始结构输入OpenMM软件包，计算每个采样构象的总能量，所述总能量包括力场势能和额外添加的吸引势能、排斥势能，能量均设置为无量纲量；

6.权利要求1-5中任一项所述的基于模板的蛋白质小分子复合物建模方法在筛选药物中的应用。

7.一种基于模板的蛋白质小分子复合物建模系统，其特征在于，所述建模系统包括：

总能量计算模块，用于计算获得的采样构象的总能量，将能量打分值在能量标准范围内的目标小分子采样构象输出，作为待选目标小分子空间构象集合；否则，重复步骤(6)，增加采样密度，生成更多采样构象；

8.根据权利要求7所述的基于模板的蛋白质小分子复合物建模系统，其特征在于，所述获取模块中，所述分子力场信息由acpype程序包计算得到；

优选地，所述获取模块中，所述分子力场信息的生成步骤为：利用OpenBabel程序包处理目标小分子和参考小分子的坐标文件，算法基于读取的原子信息自行判断是否需要添加缺失的氢原子；氢原子添加完毕后，算法会自动调用acpype程序包自动生成小分子的分子力场信息；

优选地，所述获取模块中，生成的力场信息包括：约束分子内部的键长、键角、二面角及电荷相互作用，上述力场信息使参考小分子在模拟中能维持合理的基本结构；

优选地，所述获取模块中，所述解析的内容包括：对每个原子进行元素类型识别，统计成键数量，判断成环类型，找出分子内部的可旋转键；

优选地，所述空间格点构建模块中，所述排斥力势函数的计算公式如下所示：

其中，s_r＝20，c_r＝0.3nm为常数，r_qg为目标小分子中的原子到虚拟格点的距离；

a_qt＝a_type+a_charge+min(2,2×a_ring+a_bond)

其中，s_a＝30，c_a＝0.1nm为常数，r_qt为相似原子对的距离；

优选地，所述总能量计算模块中，所述采样构象的总能量的计算步骤包括：将获得的采样构象作为初始结构输入OpenMM软件包，计算每个采样构象的总能量，所述总能量包括力场势能和额外添加的吸引势能、排斥势能，能量均设置为无量纲量；

9.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，其中，所述计算机程序被处理器执行时实现根据权利要求1-5中任一项所述的基于模板的蛋白质小分子复合物建模方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-5中任一项所述的基于模板的蛋白质小分子复合物建模方法的步骤。