CN117577224A - 一种基于模板的蛋白质小分子复合物建模方法及其应用 - Google Patents
一种基于模板的蛋白质小分子复合物建模方法及其应用 Download PDFInfo
- Publication number
- CN117577224A CN117577224A CN202311627394.9A CN202311627394A CN117577224A CN 117577224 A CN117577224 A CN 117577224A CN 202311627394 A CN202311627394 A CN 202311627394A CN 117577224 A CN117577224 A CN 117577224A
- Authority
- CN
- China
- Prior art keywords
- small molecule
- energy
- target small
- sampling
- small molecules
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 29
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 29
- -1 small molecule compound Chemical class 0.000 title abstract description 5
- 150000003384 small molecules Chemical class 0.000 claims abstract description 173
- 238000004364 calculation method Methods 0.000 claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 14
- 230000003993 interaction Effects 0.000 claims abstract description 9
- 238000000329 molecular dynamics simulation Methods 0.000 claims abstract description 9
- 125000004429 atom Chemical group 0.000 claims description 60
- 238000005070 sampling Methods 0.000 claims description 50
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000005381 potential energy Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 125000004435 hydrogen atom Chemical group [H]* 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 230000036544 posture Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000004088 simulation Methods 0.000 claims description 5
- 229940079593 drug Drugs 0.000 claims description 3
- 239000003814 drug Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 abstract description 7
- 238000011161 development Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 229940126586 small molecule drug Drugs 0.000 abstract description 2
- 239000013078 crystal Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 239000003446 ligand Substances 0.000 description 5
- 238000003032 molecular docking Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000007876 drug discovery Methods 0.000 description 3
- 102000005962 receptors Human genes 0.000 description 3
- 108020003175 receptors Proteins 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003041 virtual screening Methods 0.000 description 2
- 241001050985 Disco Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000005496 eutectics Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007363 ring formation reaction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
Abstract
本发明提供了一种基于模板的蛋白质小分子复合物建模方法及其应用,本发明所述方法基于分子力场来执行小分子柔性对齐算法,分子力场中的相互作用参数可以提供对小分子基本几何构型,如键长、键角、键级,和元素性质,如电荷、原子半径等基本信息,在上述信息基础上进一步构建了惩罚和奖励机制,来迫使目标小分子在遵循上述力场规则的前提下尽可能与目标分子之间形成最大的空间和化学相似性。本发明的方法可以帮助在小分子药物开发过程中更准确的确定小分子在蛋白质口袋中的位置,可进一步帮助基于分子动力学模拟的自由能微扰计算或MMPBSA计算过程。
Description
技术领域
本发明属于医药技术领域,具体涉及一种基于模板的蛋白质小分子复合物建模方法及其应用。
背景技术
在虚拟筛选或者计算辅助药物发现场景中,合理评估蛋白质-小分子的复合物结构是准确评估其亲和力的基础。业界较为普遍的做法是使用分子对接(Docking)算法对受体(蛋白质)与配体(小分子)的结合模式进行。分子对接主要考虑受体与配体结合的空间结构和能量的相互匹配程度。结构匹配是分子间发生相互作用的基础,而能量匹配是分子间保持稳定结合的基础。
除了分子对接,人们还可以使用基于模板的柔性对齐方法来获取受体和配体的结合构象。具体而言,如果待研究的配体蛋白的晶体结构中存在共晶小分子,则可以此(结合构象和化学信息)为模板来构建目标小分子在蛋白质结合口袋中的可能位置。在具体使用场景下,这些方法的主要步骤是首先把目标小分子和参考小分子进行逐原子对匹配,建立原子级别的对应关系,然后构建某种评价方法(如相互作用能),通过对目标小分子的原子坐标进行平移或对空间构象进行旋转以实现能量最小化,最后把能量最低的构象输出,从而完成分子对齐过程。
如果目标小分子和参考小分子有一定程度的相似性,柔性对齐方法可给出较高质量的计算结果。目前,业界中使用的方法的第一步通常是把目标小分子和参考小分子进行原子级别的匹配,找到每个原子的等效原子,因此小分子的相似程度越高,柔性对齐的计算结果越好。然而,在真实的应用场景中,参考小分子和目标小分子的相似性往往是有限的,因此条件苛刻的原子对等效匹配变得尤为困难,一旦算法无法给出正确的原子对映射匹配,势必会影响后续的对齐过程,造成计算精度的大幅度下降。此外,市面上的柔性对齐算法数量有限,且存在着精度不高、成功率不高、无法区分分子手性等诸多问题。因此,提供一种新型方法解决或改善上述问题,在虚拟筛选或者计算辅助药物发现中具有重要的应用价值。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于模板的蛋白质小分子复合物建模方法及其应用。所述算法基于原子的化学信息和拓扑信息找到相似的原子对,从而避免了条件严格的等效原子对匹配,在参考小分子和目标小分子相似性偏低时仍能具有较高的对齐成功率。
为达到此发明目的,本发明采用以下技术方案:
第一方面,本发明提供一种基于模板的蛋白质小分子复合物建模方法,所述建模方法包括:
(1)读取目标小分子和参考小分子的坐标文件,生成相应的分子力场信息并对原子信息进行解析;
(2)平移目标小分子,使目标小分子的几何中心与参考小分子的几何中心重合;
(3)基于参考小分子的空间构象,在参考小分子的原子周围构建均匀分布的虚拟格点;以虚拟格点为中心,对平移后的目标小分子施加排斥力势;
(4)根据原子的元素类型、电荷数值、成键数目和成环类型,进行相似性打分,筛选出参考小分子和目标小分子中的相似原子对;
(5)对于相似性得分大于0的参考小分子-目标小分子原子对,通过增加吸引力势进行额外的奖励,且相似性越高,吸引力越强;
(6)在三维空间中对目标小分子整体进行旋转采样,同时对目标小分子中的可旋转键进行旋转采样,以生成多个不同姿势的采样构象;
(7)计算获得的采样构象的总能量,将能量打分值在能量标准范围内的目标小分子采样构象输出,作为待选目标小分子空间构象集合;否则,重复步骤(6),增加采样密度,生成更多采样构象;
(8)进行分子动力学模拟,利用OpenMM程序包进行能量最小化过程;从待选目标小分子空间构象集合中筛选能量打分值最低的目标小分子空间构象作为柔性对齐结果。
小分子柔性对齐是计算机辅助药物发现中基于配体和基于结构的方法的关键组成部分。它用于将具有3D坐标的小分子与模板对齐并计算一组对齐。每个对齐都有一个分数,所述分数量化了对齐的质量,包括内部应变和分子特征的重叠。本发明的核心点在于基于分子力场来执行小分子柔性对齐算法。分子力场中的相互作用参数可以提供对小分子基本几何构型(如键长、键角、键级)和元素性质(如电荷、原子半径)等基本信息。在此基础上,本发明进一步构建了惩罚和奖励机制,来迫使目标小分子在遵循上述力场规则的前提下尽可能与目标分子之间形成最大的空间和化学相似性。
本发明的方法的流程如图1所示,本发明的特点在于:(1)不需要预先给定模板分子和目标分子之间的原子映射关系;(2)对齐过程综合考虑了几何和化学的相似性;(3)对齐的精度是目前文献报道中的最高的;(5)过程中会自动添加缺失的氢原子并生成分子力场;(6)可以帮助在小分子药物开发过程中更准确的确定小分子在蛋白质口袋中的位置,可进一步帮助基于分子动力学模拟的自由能微扰计算或MMPBSA计算过程。
优选地,步骤(1)中,所述分子力场信息由acpype程序包计算得到。
优选地,步骤(1)中,所述分子力场信息的生成步骤为:利用OpenBabel程序包处理目标小分子和参考小分子的坐标文件,算法基于读取的原子信息自行判断是否需要添加缺失的氢原子;氢原子添加完毕后,算法自动调用acpype程序包自动生成小分子的分子力场信息。
优选地,步骤(1)中,生成的力场信息包括:约束分子内部的键长、键角、二面角及电荷相互作用,上述力场信息使参考小分子在模拟中能维持合理的基本结构。
优选地,步骤(1)中,所述解析的内容包括:对每个原子进行元素类型识别,统计成键数量,判断成环类型,找出分子内部的可旋转键。
优选地,步骤(3)中,所述排斥力势函数的计算公式如下所示:
其中,sr=20,cr=0.3nm为常数,rqg为目标小分子中的原子到虚拟格点的距离。
优选地,步骤(5)中,所述参考小分子-目标小分子原子对的相似性得分采用如下步骤计算得到:分别为每个指标构建原子对矩阵,若原子对的元素类型、成键数目、成环类型一致,则相应矩阵元被赋值为1,否则为0,若原子对的电荷数值越接近,则电荷矩阵的矩阵元数值越接近1;把四个指标按照如下方式相加,得到原子对的相似性得分:
aqt=atype+acharge+min(2,2×aring+abond)
其中,环类型得分是成键数目得分的两倍,并限制二者之和的最大值为2。
优选地,步骤(5)中,所述吸引力势函数的计算公式如下所示:
其中,sa=30,ca=0.1nm为常数,rqt为相似原子对的距离。
优选地,步骤(7)中,所述采样构象的总能量的计算步骤包括:将获得的采样构象作为初始结构输入OpenMM软件包,计算每个采样构象的总能量,所述总能量包括力场势能和额外添加的吸引势能、排斥势能,能量均设置为无量纲量。
优选地,步骤(7)中,所述能量标准范围为能量打分值小于10000。
第二方面,本发明提供第一方面所述的基于模板的蛋白质小分子复合物建模方法在筛选药物中的应用。
第三方面,本发明提供一种基于模板的蛋白质小分子复合物建模系统,所述建模系统包括:
获取模块,用于读取目标小分子和参考小分子的坐标文件,生成相应的分子力场信息并对原子信息进行解析;
初步比对模块,用于平移目标小分子,使目标小分子的几何中心与参考小分子的几何中心重合;
空间格点构建模块,用于构建空间格点,基于参考小分子的空间构象,在参考小分子的原子周围构建均匀分布的虚拟格点;以虚拟格点为中心,对平移后的目标小分子施加排斥力势;
原子对构建模块,用于根据原子的元素类型、电荷数值、成键数目和成环类型,进行相似性打分,筛选出参考小分子和目标小分子中的相似原子对;
相似性计算模块,用于计算参考小分子-目标小分子原子对的相似性,对于相似性得分大于0的参考小分子-目标小分子原子对,通过增加吸引力势进行额外的奖励,且相似性越高,吸引力越强;
旋转采样模块,用于在三维空间中对目标小分子整体进行旋转采样,同时对目标小分子中的可旋转键进行旋转采样,以生成多个不同姿势的采样构象;
总能量计算模块,用于计算获得的采样构象的总能量,将能量打分值在能量标准范围内的目标小分子采样构象输出,作为待选目标小分子空间构象集合;否则,重复步骤(5),增加采样密度,生成更多采样构象;
分子动力学模拟模块,用于进行分子动力学模拟,利用OpenMM程序包进行能量最小化过程;从待选目标小分子空间构象集合中筛选能量打分值最低的目标小分子空间构象作为柔性对齐结果。
优选地,所述获取模块中,所述分子力场信息由acpype程序包计算得到。
优选地,所述获取模块中,所述分子力场信息的生成步骤为:利用OpenBabel程序包处理目标小分子和参考小分子的坐标文件,算法基于读取的原子信息自行判断是否需要添加缺失的氢原子;氢原子添加完毕后,算法会自动调用acpype程序包自动生成小分子的分子力场信息。
优选地,所述获取模块中,生成的力场信息包括:约束分子内部的键长、键角、二面角及电荷相互作用,上述力场信息使参考小分子在模拟中能维持合理的基本结构。
优选地,所述获取模块中,所述解析的内容包括:对每个原子进行元素类型识别,统计成键数量,判断成环类型,找出分子内部的可旋转键。
优选地,所述空间格点构建模块中,所述排斥力势函数的计算公式如下所示。
其中,sr=20,cr=0.3nm为常数,rqg为目标小分子中的原子到虚拟格点的距离。
优选地,所述相似性计算模块中,所述参考小分子-目标小分子原子对的相似性得分采用如下步骤计算得到:分别为每个指标构建原子对矩阵,若原子对的元素类型、成键数目、成环类型一致,则相应矩阵元被赋值为1,否则为0,若原子对的电荷数值越接近,则电荷矩阵的矩阵元数值越接近1;把四个指标按照如下方式相加,得到原子对的相似性得分:
aqt=atype+acharge+min(2,2×aring+abond)
其中,环类型得分是成键数目得分的两倍,并限制二者之和的最大值为2。
优选地,所述相似性计算模块中,所述吸引力势函数的计算公式如下所示:
其中,sa=30,ca=0.1nm为常数,rqt为相似原子对的距离。
优选地,所述总能量计算模块中,所述采样构象的总能量的计算步骤包括:将获得的采样构象作为初始结构输入OpenMM软件包,计算每个采样构象的总能量,所述总能量包括力场势能和额外添加的吸引势能、排斥势能,能量均设置为无量纲量。
优选地,所述总能量计算模块中,所述能量标准范围为能量打分值小于10000。
第四方面,本发明提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,其中,所述计算机程序被处理器执行时实现根据第一方面所述的基于模板的蛋白质小分子复合物建模方法的步骤。
第五方面,本发明提供一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的基于模板的蛋白质小分子复合物建模方法的步骤。
相对于现有技术,本发明具有以下有益效果:
本发明提出了一种基于模板的小分子柔性对齐算法,所述算法基于原子的化学信息和拓扑信息找到相似的原子对,从而避免了条件严格的等效原子对匹配,在参考小分子和目标小分子相似性偏低时仍能具有较高的对齐成功率。
附图说明
图1是基于模板的蛋白质小分子复合物建模系统的流程图。
图2是不同对齐方法的自对齐性能对比。
图3是不同对齐方法的交叉对齐性能对比。
图4是柔性对齐算法效果示意。
具体实施方式
下面通过具体实施方式来进一步说明本发明的技术方案。本领域技术人员应该明了,所述实施例仅仅是帮助理解本发明,不应视为对本发明的具体限制。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。
实施例1
本实施例提供一种基于模板的蛋白质小分子复合物建模方法,所述建模方法包括:
(1)利用OpenBabel程序包处理目标小分子和参考小分子的坐标文件,算法基于读取的原子信息自行判断是否需要添加缺失的氢原子;氢原子添加完毕后,算法自动调用acpype程序包自动生成小分子的分子力场信息。生成的力场信息包括:约束分子内部的键长、键角、二面角及电荷相互作用,上述力场信息使参考小分子在模拟中能维持合理的基本结构。对原子信息进行解析,具体为:对每个原子进行元素类型识别,统计成键数量,判断成环类型,找出分子内部的可旋转键。
(2)平移目标小分子,使其几何中心与参考小分子的几何中心重合。
(3)基于参考小分子的空间构象,在参考小分子的原子周围构建均匀分布的虚拟格点;以虚拟格点为中心,对平移后的目标小分子施加排斥力势。
所述排斥力势函数的计算公式如下所示:
其中,sr=20,sr=0.3nm为常数,rqg为目标小分子中的原子到虚拟格点的距离。
(4)根据原子的元素类型、电荷数值、成键数目和成环类型,进行相似性打分,筛选出参考小分子和目标小分子中的相似原子对。
(5)对于相似性得分大于0的参考小分子-目标小分子原子对,通过增加吸引力势进行额外的奖励,且相似性越高,吸引力越强;所述参考小分子-目标小分子原子对的相似性得分采用如下步骤计算得到:分别为每个指标构建原子对矩阵,若原子对的元素类型、成键数目、成环类型一致,则相应矩阵元被赋值为1,否则为0,若原子对的电荷数值越接近,则电荷矩阵的矩阵元数值越接近1;把四个指标按照如下方式相加,得到原子对的相似性得分:
aqt=atype+acharge+min(2,2×aring+abond)
其中,环类型得分是成键数目得分的两倍,并限制二者之和的最大值为2。
所述吸引力势函数的计算公式如下所示:
其中,sa=30,ca=0.1nm为常数,rqt为相似原子对的距离。
(6)在三维空间中对目标小分子整体进行旋转采样,同时对目标小分子中的可旋转键进行旋转采样,以生成多个不同姿势的采样构象;
(7)计算获得的采样构象的总能量,计算步骤包括:将获得的采样构象作为初始结构输入OpenMM软件包,计算每个采样构象的总能量,所述总能量包括力场势能和额外添加的吸引势能、排斥势能,能量均设置为无量纲量。
将能量打分值小于10000的目标小分子采样构象输出,作为待选目标小分子空间构象集合;否则,重复步骤(6),增加采样密度,生成更多采样构象。
(8)进行分子动力学模拟,利用OpenMM程序包进行能量最小化过程;从待选目标小分子空间构象集合中筛选能量打分值最低的目标小分子空间构象作为柔性对齐结果。
实施例2
本实施例基于实施例1中的方法,利用PDBbind2018中的refined set数据集和原子数大于30小于100的Large molecule数据集进行自对齐测试,利用交叉对接的数据集3DDisco进行交叉对齐测试。
本实施例中的自对齐指的是把小分子的晶体结构进行随机初始化,生成一些初始结构,然后以自身的晶体结构为参考小分子,以随机生成的结构为目标小分子,进行小分子对齐。
本实施例中的交叉对齐指的是以与某个蛋白质口袋结合的小分子的晶体结构a作为参考小分子,以与该口袋结合的另一个小分子b的随机初始结构b’作为目标小分子,进行小分子对齐。
对齐结果的评价标准是计算经过对齐之后的目标小分子构象与其晶体结构的均方根偏差(RMSD),其数值越小则认为两个结构越接近,对齐的效果越好。市面上通常以作为对齐成功的标准。
图2为不同对齐方法的自对齐性能对比,图2展示了不同在两个数据集中自对齐的结果比较。其中FitDock、LS-align、LIGSIFT为其他竞品方法。LIGSIFT因为只具有刚性对齐功能,不能进行柔性对齐,所以效果最差。其他两种竞品均采用了精细的等效原子匹配。这里本发明的方法与FitDock方法结果表现出色,在PDBbind 2018refined set数据集上几乎能把所有目标小分子优化到 但是当原子数目变多,分子结构变复杂时,因为本发明的方法不需要进行原子匹配,所以优化成功率最高。
图3为不同对齐方法的交叉对齐性能对比,在交叉对齐测试中,本发明的方法具有明显的优势。上述自对齐的测试中,参考小分子和目标小分子的原子信息完全一致,因此基于多层分级原子对等效匹配的FitDock方法性能较好,但在模板对齐中,参考小分子和目标小分子的相似程度有限,严格的匹配搜索不利于找到相似的原子对,也就无法实现高精度的对齐效果。这里本发明进一步分析了相似程度与对齐成功率的关系。可以看出,当相似性小于0.6时,本发明的方法成功率始终最高。而在真实的应用场景中,往往很难找到高相似性的分子作为模板分子,因此本发明提出的方法更加具有实际意义。
图4为柔性对齐算法效果示意,在算法的优化下,目标小分子与参考小分子中相似性较高的部分可以实现较好的重叠,与其晶体结构计算所得的RMSD为说明我们的方法能较好的完成分子对齐过程。
综上,本发明提供了一种基于模板的蛋白质小分子复合物建模方法,所述方法基于原子的化学信息和拓扑信息找到相似的原子对,从而避免了条件严格的等效原子对匹配,在参考小分子和目标小分子相似性偏低时仍能具有较高的对齐成功率,在真实的应用场景中更加具有实际意义。
申请人声明,以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,所属技术领域的技术人员应该明了,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,均落在本发明的保护范围和公开范围之内。
Claims (10)
1.一种基于模板的蛋白质小分子复合物建模方法,其特征在于,所述建模方法包括:
(1)读取目标小分子和参考小分子的坐标文件,生成相应的分子力场信息并对原子信息进行解析;
(2)平移目标小分子,使目标小分子的几何中心与参考小分子的几何中心重合;
(3)基于参考小分子的空间构象,在参考小分子的原子周围构建均匀分布的虚拟格点;以虚拟格点为中心,对平移后的目标小分子施加排斥力势;
(4)根据原子的元素类型、电荷数值、成键数目和成环类型,进行相似性打分,筛选出参考小分子和目标小分子中的相似原子对;
(5)对于相似性得分大于0的参考小分子-目标小分子原子对,通过增加吸引力势进行额外的奖励,且相似性越高,吸引力越强;
(6)在三维空间中对目标小分子整体进行旋转采样,同时对目标小分子中的可旋转键进行旋转采样,以生成多个不同姿势的采样构象;
(7)计算获得的采样构象的总能量,将能量打分值在能量标准范围内的目标小分子采样构象输出,作为待选目标小分子空间构象集合;否则,重复步骤(6),增加采样密度,生成更多采样构象;
(8)进行分子动力学模拟,利用OpenMM程序包进行能量最小化过程;从待选目标小分子空间构象集合中筛选能量打分值最低的目标小分子空间构象作为柔性对齐结果。
2.根据权利要求1所述的基于模板的蛋白质小分子复合物建模方法,其特征在于,步骤(1)中,所述分子力场信息由acpype程序包计算得到;
优选地,步骤(1)中,所述分子力场信息的生成步骤为:利用OpenBabel程序包处理目标小分子和参考小分子的坐标文件,算法基于读取的原子信息自行判断是否需要添加缺失的氢原子;氢原子添加完毕后,算法自动调用acpype程序包自动生成小分子的分子力场信息;
优选地,步骤(1)中,生成的力场信息包括:约束分子内部的键长、键角、二面角及电荷相互作用,上述力场信息使参考小分子在模拟中能维持合理的基本结构;
优选地,步骤(1)中,所述解析的内容包括:对每个原子进行元素类型识别,统计成键数量,判断成环类型,找出分子内部的可旋转键。
3.根据权利要求1或2所述的基于模板的蛋白质小分子复合物建模方法,其特征在于,步骤(3)中,所述排斥力势函数的计算公式如下所示:
其中,sr=20,cr=0.3nm为常数,rqg为目标小分子中的原子到虚拟格点的距离。
4.根据权利要求1-3中任一项所述的基于模板的蛋白质小分子复合物建模方法,其特征在于,步骤(5)中,所述参考小分子-目标小分子原子对的相似性得分采用如下步骤计算得到:分别为每个指标构建原子对矩阵,若原子对的元素类型、成键数目、成环类型一致,则相应矩阵元被赋值为1,否则为0,若原子对的电荷数值越接近,则电荷矩阵的矩阵元数值越接近1;把四个指标按照如下方式相加,得到原子对的相似性得分:
aqt=atype+acharge+min(2,2×aringabond)
其中,环类型得分是成键数目得分的两倍,并限制二者之和的最大值为2;
优选地,步骤(5)中,所述吸引力势函数的计算公式如下所示:
其中,sa=30,ca=0.1nm为常数,rqt为相似原子对的距离。
5.根据权利要求1-4中任一项所述的基于模板的蛋白质小分子复合物建模方法,其特征在于,步骤(7)中,所述采样构象的总能量的计算步骤包括:将获得的采样构象作为初始结构输入OpenMM软件包,计算每个采样构象的总能量,所述总能量包括力场势能和额外添加的吸引势能、排斥势能,能量均设置为无量纲量;
优选地,步骤(7)中,所述能量标准范围为能量打分值小于10000。
6.权利要求1-5中任一项所述的基于模板的蛋白质小分子复合物建模方法在筛选药物中的应用。
7.一种基于模板的蛋白质小分子复合物建模系统,其特征在于,所述建模系统包括:
获取模块,用于读取目标小分子和参考小分子的坐标文件,生成相应的分子力场信息并对原子信息进行解析;
初步比对模块,用于平移目标小分子,使目标小分子的几何中心与参考小分子的几何中心重合;
空间格点构建模块,用于构建空间格点,基于参考小分子的空间构象,在参考小分子的原子周围构建均匀分布的虚拟格点;以虚拟格点为中心,对平移后的目标小分子施加排斥力势;
原子对构建模块,用于根据原子的元素类型、电荷数值、成键数目和成环类型,进行相似性打分,筛选出参考小分子和目标小分子中的相似原子对;
相似性计算模块,用于计算参考小分子-目标小分子原子对的相似性,对于相似性得分大于0的参考小分子-目标小分子原子对,通过增加吸引力势进行额外的奖励,且相似性越高,吸引力越强;
旋转采样模块,用于在三维空间中对目标小分子整体进行旋转采样,同时对目标小分子中的可旋转键进行旋转采样,以生成多个不同姿势的采样构象;
总能量计算模块,用于计算获得的采样构象的总能量,将能量打分值在能量标准范围内的目标小分子采样构象输出,作为待选目标小分子空间构象集合;否则,重复步骤(6),增加采样密度,生成更多采样构象;
分子动力学模拟模块,用于进行分子动力学模拟,利用OpenMM程序包进行能量最小化过程;从待选目标小分子空间构象集合中筛选能量打分值最低的目标小分子空间构象作为柔性对齐结果。
8.根据权利要求7所述的基于模板的蛋白质小分子复合物建模系统,其特征在于,所述获取模块中,所述分子力场信息由acpype程序包计算得到;
优选地,所述获取模块中,所述分子力场信息的生成步骤为:利用OpenBabel程序包处理目标小分子和参考小分子的坐标文件,算法基于读取的原子信息自行判断是否需要添加缺失的氢原子;氢原子添加完毕后,算法会自动调用acpype程序包自动生成小分子的分子力场信息;
优选地,所述获取模块中,生成的力场信息包括:约束分子内部的键长、键角、二面角及电荷相互作用,上述力场信息使参考小分子在模拟中能维持合理的基本结构;
优选地,所述获取模块中,所述解析的内容包括:对每个原子进行元素类型识别,统计成键数量,判断成环类型,找出分子内部的可旋转键;
优选地,所述空间格点构建模块中,所述排斥力势函数的计算公式如下所示:
其中,sr=20,cr=0.3nm为常数,rqg为目标小分子中的原子到虚拟格点的距离;
优选地,所述相似性计算模块中,所述参考小分子-目标小分子原子对的相似性得分采用如下步骤计算得到:分别为每个指标构建原子对矩阵,若原子对的元素类型、成键数目、成环类型一致,则相应矩阵元被赋值为1,否则为0,若原子对的电荷数值越接近,则电荷矩阵的矩阵元数值越接近1;把四个指标按照如下方式相加,得到原子对的相似性得分:
aqt=atype+acharge+min(2,2×aring+abond)
其中,环类型得分是成键数目得分的两倍,并限制二者之和的最大值为2;
优选地,所述相似性计算模块中,所述吸引力势函数的计算公式如下所示:
其中,sa=30,ca=0.1nm为常数,rqt为相似原子对的距离;
优选地,所述总能量计算模块中,所述采样构象的总能量的计算步骤包括:将获得的采样构象作为初始结构输入OpenMM软件包,计算每个采样构象的总能量,所述总能量包括力场势能和额外添加的吸引势能、排斥势能,能量均设置为无量纲量;
优选地,所述总能量计算模块中,所述能量标准范围为能量打分值小于10000。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,其中,所述计算机程序被处理器执行时实现根据权利要求1-5中任一项所述的基于模板的蛋白质小分子复合物建模方法的步骤。
10.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-5中任一项所述的基于模板的蛋白质小分子复合物建模方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311627394.9A CN117577224B (zh) | 2023-11-30 | 2023-11-30 | 一种基于模板的蛋白质小分子复合物建模方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311627394.9A CN117577224B (zh) | 2023-11-30 | 2023-11-30 | 一种基于模板的蛋白质小分子复合物建模方法及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117577224A true CN117577224A (zh) | 2024-02-20 |
CN117577224B CN117577224B (zh) | 2024-06-11 |
Family
ID=89891609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311627394.9A Active CN117577224B (zh) | 2023-11-30 | 2023-11-30 | 一种基于模板的蛋白质小分子复合物建模方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117577224B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150025871A1 (en) * | 2013-07-22 | 2015-01-22 | Richard D. Cramer | Method for Aligning Molecules in Three Dimensions Based Upon Their Correspondence To An Exemplary Template Molecule for Use In Performing 3D QSAR Analyses |
CN109994158A (zh) * | 2019-03-21 | 2019-07-09 | 东北大学 | 一种基于强化学习构建分子反应力场的系统及方法 |
US20200286594A1 (en) * | 2013-12-23 | 2020-09-10 | Schrödinger, Llc | Rational drug design with computational free energy difference calculation using a modified bond stretch potential |
CN114822717A (zh) * | 2021-01-28 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的药物分子处理方法、装置、设备及存储介质 |
CN116343949A (zh) * | 2023-04-07 | 2023-06-27 | 北京深势科技有限公司 | 蛋白配体结合亲和力预测方法、装置、系统及存储介质 |
CN116884505A (zh) * | 2023-07-19 | 2023-10-13 | 西湖实验室(生命科学和生物医学浙江省实验室) | 基于局部模板相似性的蛋白质-小分子复合物对接方法 |
-
2023
- 2023-11-30 CN CN202311627394.9A patent/CN117577224B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150025871A1 (en) * | 2013-07-22 | 2015-01-22 | Richard D. Cramer | Method for Aligning Molecules in Three Dimensions Based Upon Their Correspondence To An Exemplary Template Molecule for Use In Performing 3D QSAR Analyses |
US20200286594A1 (en) * | 2013-12-23 | 2020-09-10 | Schrödinger, Llc | Rational drug design with computational free energy difference calculation using a modified bond stretch potential |
CN109994158A (zh) * | 2019-03-21 | 2019-07-09 | 东北大学 | 一种基于强化学习构建分子反应力场的系统及方法 |
CN114822717A (zh) * | 2021-01-28 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的药物分子处理方法、装置、设备及存储介质 |
CN116343949A (zh) * | 2023-04-07 | 2023-06-27 | 北京深势科技有限公司 | 蛋白配体结合亲和力预测方法、装置、系统及存储介质 |
CN116884505A (zh) * | 2023-07-19 | 2023-10-13 | 西湖实验室(生命科学和生物医学浙江省实验室) | 基于局部模板相似性的蛋白质-小分子复合物对接方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117577224B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kozlovskii et al. | Spatiotemporal identification of druggable binding sites using deep learning | |
Sael et al. | Fast protein tertiary structure retrieval based on global surface shape similarity | |
Le Guilloux et al. | Fpocket: an open source platform for ligand pocket detection | |
JP7565279B2 (ja) | 合成データを使用して薬物結合を予測するための方法およびシステム | |
WO2023134063A1 (zh) | 基于对比学习的药物分子性质预测方法、装置及设备 | |
Shen et al. | When homologous sequences meet structural decoys: Accurate contact prediction by tFold in CASP14—(tFold for CASP14 contact prediction) | |
US20160070854A1 (en) | Aligning and clustering sequence patterns to reveal classificatory functionality of sequences | |
Harris et al. | Benchmarking Generated Poses: How Rational is Structure-based Drug Design with Generative Models? | |
WO2023226351A1 (zh) | 一种基于药效团模型的小分子生成方法、设备及介质 | |
CN111340100B (zh) | Bim模型的相似度计算方法 | |
CN116978483A (zh) | 基于图神经网络和三维编码器的分子性质预测方法、系统 | |
Liu et al. | IDSS: deformation invariant signatures for molecular shape comparison | |
Guterres et al. | CHARMM-GUI LBS finder & refiner for ligand binding site prediction and refinement | |
CN117577224B (zh) | 一种基于模板的蛋白质小分子复合物建模方法及其应用 | |
Zhang et al. | Equipocket: an e (3)-equivariant geometric graph neural network for ligand binding site prediction | |
Sulimov et al. | Parallel supercomputer docking program of the new generation: Finding low energy minima spectrum | |
Gagliardi et al. | SiteFerret: beyond simple pocket identification in proteins | |
Fischer et al. | 3-d docking of protein molecules | |
Zhang et al. | Identification of key features of CNS drugs based on SVM and Greedy Algorithm | |
WO2023240720A1 (zh) | 药物筛选模型构建方法及装置、筛选方法、设备和介质 | |
Tuvi-Arad et al. | Improved algorithms for quantifying the near symmetry of proteins: complete side chains analysis | |
Wang et al. | A study of 3D model similarity based on surface bipartite graph matching | |
Yue et al. | A systematic review on the state-of-the-art strategies for protein representation | |
Hu et al. | Interpretable prediction of protein-ligand interaction by convolutional neural network | |
Chikhi et al. | Protein binding ligand prediction using moments-based methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |