CN117037946A

CN117037946A - 基于蛋白质结合口袋的优化化合物结构的方法

Info

Publication number: CN117037946A
Application number: CN202211422347.6A
Authority: CN
Inventors: 管佳明; 蒲中机; 李亚麟; 吕川
Original assignee: Shanghai Micro Era Digital Technology Co ltd
Current assignee: Shanghai Micro Era Digital Technology Co ltd
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-11-10
Anticipated expiration: 2042-11-14
Also published as: CN117037946B

Abstract

本发明涉及一种化合物结构的优化方法。基于蛋白质结合口袋的优化化合物结构的方法，包括下列步骤：步骤一，利用深度学习模型Poket2Mol，根据结合口袋生成配体分子；步骤二，利用量化方法优化步骤一生成的配体分子的几何构型；步骤三，分子对接，得到配体起始姿势，并构建配体‑蛋白复合物。步骤四，FEP方法精确计算配体‑蛋白结合能，进行配体基团修饰并评估。结合能降低超过1kcal/mol，则在新分子上继续修饰，再进入二、三、四循环；结合能降低少于1kcal/mol，则在原分子上重新修饰，再进入二、三、四循环；直至评估得到的亲和力达到设计要求。本发明将深度学习模型和自由能计算结合起来，能给出指导性的评估和意见，有效提高下游细胞实验的成功率。

Description

基于蛋白质结合口袋的优化化合物结构的方法

技术领域

本发明涉及药物分子结构的设计，尤其涉及一种化合物结构的优化方法。

背景技术

在自然状态下，分子可以存在多个可能的构型，每个构型对应一个能量值，但实际情况下分子主要以能量最低的构型存在。分子的构型决定了其性质，而只有能量最低的构型的性质才能代表研究体系的性质。在实际的实验过程中，可能有很多原因使我们很难观测到分子的稳定构型，如存在寿命很短的中间体、过渡态、混合物难以分离、或者不稳定容易分解等因素，这时就可以借助计算的方法来帮忙预测。

计算方法常常要求算一个结构的键长、键角等参数。由于我们不清楚真实的键参数或结构，我们无法保证所建立或下载的粗糙模型有最低的能量，因此需要将初始构型优化到一个能量的极小点上。只有找到合理的能够代表所研究体系的构型，才能保证其后所得的研究结果有意义，也即几何构型优化是对分子性质的研究的起点。

所谓的构型优化就是找体系的最小点。我们知道分子势能面上每一个点对应一个具有该点对应能量的结构。能量最低的点叫全局最小点，而势能面某一区域上能量最小的点叫做局域最小点，一般对应着可能存在的异构体。优化的目的就是找到势能面上的最小点，因为这个点所对应的构型能量最低，是最稳定的。所有成功的优化都会找到一个静态点，即该点对应的能量的一阶导为零，虽然有时找到的静态点并不是想要的静态点。

构型优化的计算方法主要有半经验(Semi-empirical)法，Hartree-Fock(HF)方法和密度泛函理论(Density Functional Theory)。计算精度也是依次提高。其中半经验法是求解HF方程时采用各种近似，或者直接使用拟合的经验参数来近似求解自洽场分子轨道方程；HF近似是指N电子体系的波函数可以通过N个单电子的自旋轨道(Spin Orbital)构成的Slater行列式近似表达。DFT与HF方法的区别在于前者优化电荷密度，而后者优化波函数。DFT方法就是通过构造电荷密度的泛函来模拟电子相关的一种近似方法，将电子能量分成动能、电子-核吸引能和库伦排斥能以及交换-相关项，并分别计算几部分的能量。总结来说，对于几百或几千个原子体系可用半经验法，HF方法目前较少被采用，而DFT是最常用的速度和精度均较高的方法。

蛋白质结合口袋的概念及生物学意义：

蛋白质结合口袋(protein binding pockets)是指蛋白质表面或内部具有适合与配体结合的空腔。结合口袋周围的氨基酸残基决定了它的形状，位置，物化特性以及功能。结合位点外的残基也可以对结合口袋的性质产生长程影响。具有相似功能的空腔在蛋白质家族中通常是保守的。例如，酶活性位点通常是凹面，其以合适的构型呈现氨基酸残基，以便更好地结合低分子量的配体化合物；另一方面，大分子结合口袋位于蛋白质表面，通常较浅。

结合口袋的动力学对蛋白质的特异性相互作用至关重要。蛋白质结构的柔性(flexibility)与运动(mobility)允许结合口袋的打开、关闭和适应，从而调节配体的结合过程和发挥特定的蛋白质功能。蛋白质结构的柔性对口袋的影响可分为五种不同类型，具体分类如图1所示：

图1中：五个不同类别的结合口袋动力学的卡通表示：子口袋(subpocket)、相邻口袋(adjacent pocket)、呼吸运动(breathing motion)、通道/隧道(channel/tunnel)、变构口袋(allosteric pocket)。粉红色区域表示相对于参考结构的口袋变化(显示在中心)；浅灰色虚线显示口袋形状。如图所示，子口袋是指在原有口袋内部的位置再产生一个体积较小的口袋；邻近口袋则是指在已有口袋的附近表面，出现的新的结合口袋；口袋呼吸可能是由侧链波动或主链间振动运动引起的现象。表现为初始口袋的扩大或收缩，大致保留初始口袋的形状；通道/隧道将蛋白质内部的口袋与溶剂连接起来。通道/隧道可以永久或短暂地存在，以运输化合物进出结合位点；变构是指原始结合位点的形状受到分子在不同位置结合的影响。蛋白质的灵活性对结合口袋的影响可以是口袋内部一个小的变化，或者是影响一个已经存在的结合口袋，再到形成一个全新的结合口袋。

就当前基于蛋白质结合口袋优化化合物结构的方法存在问题是：在分子水平上，一个小分子只有通过与特定的蛋白质口袋结合才能抑制或激活特定的生物功能。所以忽略靶蛋白口袋的设计出来的药物，大概率会降低下游细胞实验的成功率。

发明内容

本发明旨在解决现有技术的缺陷，提供一种基于蛋白质结合口袋的优化化合物结构的方法。本发明将深度学习模型和自由能计算结合起来，不仅能给出指导性的评估和意见，而且可以有效提高下游细胞实验的成功率。

本发明基于蛋白质结合口袋的优化化合物结构的方法，包括下列步骤：

步骤一，利用深度学习模型Poket2Mol，根据结合口袋生成配体分子；

步骤二，利用量化方法，在ωB97X-D/6-31G*理论水平下优化步骤一生成的配体分子的几何构型；

步骤三，分子对接，得到配体起始姿势，并构建配体-蛋白复合物；

步骤四，FEP方法精确计算配体-蛋白结合能，进行配体基团修饰并评估。计算步骤二优化后的配体分子的几何构型的自由结合能，与设置的阈值(如1kcal/mol)进行比较。结合能降低超过阈值，则在新分子上继续修饰，再进入二、三、四循环；结合能降低不超过阈值，则在原分子上重新修饰，再进入二、三、四循环；评估该配体分子和蛋白质结合口袋的亲和力；重复步骤一二三，直至评估得到的亲和力达到设计要求。

所述的基于蛋白质结合口袋的优化化合物结构的方法，所述步骤一中所述的深度学习模型Pocket2Mol，它构建了一个图神经网络模型对三维蛋白质结合口袋的化学和几何特征进行采样和建模，并生成与结合口袋具有更好亲和力和化学性质的分子，这些分子包含真实和准确的结构。

所述的一种基于量子计算的结合能综合计算方法，所述步骤四包括，以精确度最高的自由能微扰，准确的自由能计算评估结合口袋每个位置的取代，量化结合口袋内新产生的接触的影响。

关于结合口袋的识别，实验方法如果得到带配体的蛋白质结构，其配体的位置可用来定义结合口袋，而计算方法识别蛋白质口袋主要基于几何特征与生化物理特征的结构分析。此外，实验可能无法获得所有可能影响化合物选择性的构象，而计算方法可以填补这些空白。对上述五类口袋动力学，分子动力学模拟都适用，可以对口袋动力学进行充分的采样。

在分子水平上，一个小分子只有通过与特定的蛋白质口袋结合才能抑制或激活特定的生物功能。而基于结合口袋的药物设计，主要可分为基于深度学习的方法，与基于自由能的方法。本发明将两者结合，有效提高下游细胞实验的成功率。

附图说明

图1是背景技术所述蛋白质口袋类型示意图。

图2是本发明的示意图。

具体实施方式

下面，结合实施例对本发明做进一步的说明，

参见图2，本发明在分子水平上，一个小分子只有通过与特定的蛋白质口袋结合才能抑制或激活特定的生物功能。所以忽略靶蛋白口袋的设计出来的药物，大概率会降低下游细胞实验的成功率。而基于结合口袋的药物设计，主要可分为基于深度学习的方法，与基于自由能的方法。

基于深度学习的方法主要是考虑三维结合口袋的几何信息，构建深度学习模型，生成相应的与口袋结合的分子。这类方法中具有代表性的工作是Pocket2Mol，它构建了一个图神经网络模型对三维蛋白质结合口袋的化学和几何特征进行采样和建模，并能生成与结合口袋具有更好亲和力和化学性质的分子，这些分子也包含真实和准确的结构。

基于自由能的方法，以精确度最高的自由能微扰(Free Energy Perturbation，FEP)为代表。准确的自由能计算可以评估结合口袋某个位置的取代，可以量化结合口袋内新产生的接触的影响。通过这种方式，可以在小分子的筛选和设计上给出指导性的评估和意见。

【实施例1】

失眠症是一种让患者无法入睡或长时间保持睡眠状态的疾病，是当今社会普遍存在的问题，但有关失眠症药物治疗的研究相对有限。失眠症的影响是巨大的，因为它会导致生活质量下降、生产力下降以及交通和工作相关的高风险安全事故，并且失眠是一种代价高昂的疾病。

治疗失眠的常用处方药物是正向调节GABA_A受体的药物，包括二氮类和非苯二氮/>类睡眠药物。非苯二氮/>类睡眠药物由于副作用较轻，它们的药理学特征被认为更好，其中zolpidem是目前一种非苯二氮/>类睡眠药物的市场领导者。尽管有各种改善睡眠的药物可供使用，但由于对针对GABA信号通路的治疗的整体安全性和有效性仍然存在担忧，失眠的患病率并没有显著下降。此外，最近被批准用于治疗失眠症的两种新的非GABA相关睡眠药物：褪黑激素(MT)受体MT1/MT2的激动剂Ramelteon和组胺H1的受体拮抗剂doxepin，它们的有效性仍然存在疑问，因为有限的报告表明它们优于其他睡眠药物。失眠患者的医疗需求需要开发具有新作用机制的睡眠药物。

为此，食欲素(Orexin)受体的拮抗可能是一条有希望的途径，Orexin受体是G蛋白偶联受体，有两种亚型：OX1R和OX2R。近期研究表明，OX1R和OX2R在整个中枢神经系统中表达并参与调节睡眠/觉醒周期。一系列含有环丙烷核心结构的新型化合物被确定为有希望的口服活性食欲素受体拮抗剂，例如OX1R_1，OX1R_1对人OX1R表现出纳摩尔亲和力。我们通过氟扫描的方式将氟原子添加到苯环的2-、3-和4-位(化合物OX1R_2、OX1R_3、OX1R_4)，并计算了对应化合物与OX1R蛋白的结合能，以寻找具有改善的化学和药理学特征的OX1R受体拮抗剂以用于治疗失眠症。

本方法计算结果与实验一致。实验数据显示OX1R_1、OX1R_2、OX1R_3和OX1R_4的K_i值分别为137nM、81nM、6nM和39nM，计算的结果显示OX1R_1～OX1R_2的ΔΔG是-0.29kcal/mol，OX1R_1～OX1R_3的ΔΔG是-1.03kcal/mol，OX1R_1～OX1R_4的ΔΔG是-0.55kcal/mol，OX1R_2～OX1R_3的ΔΔG是-0.27kcal/mol，OX1R_3～OX1R_4的ΔΔG是0.49kcal/mol。结果显示氟扫描正确地将位置3-识别为最有利于增加体外亲和力，这与实验结果完全一致。更重要的是，化合物OX1R_3在临床前睡眠模型中显示出显着改善的功效，并被选为临床候选者。

【实施例2】

细胞周期蛋白依赖性激酶8(Cyclin Dependent Kinase8，CDK8)是细胞周期的调控因子，最早在酿酒酵母菌中提纯中介复合物的过程中发生。CDK8作为中介体复合物的主要功能亚单位之一，在细胞周期的转录过程中起到双重作用，既可以激活转录，也可以抑制转录，而细胞周期调控失调是肿瘤形成的重要机制。此外CDK8的活性可以诱导细胞核内外Wnt/β-catenin高表达，从而诱导癌变的发生。目前已有证据表明CDK8的活性与结肠癌、乳腺癌、皮肤癌和胃癌等癌症的发生、发展和预后有关。

针对CDK8可能在结肠直肠癌的发展中充当一个致癌基因的作用，CDK8_1是在高通量筛选中发现的CDK8抑制剂，但还需要通过基于结构的设计进一步优化。我们进行了氮扫描，涉及的位点是3-甲基吲唑环的4-、6-和7-号位(化合物CDK8_2、CDK8_3和CDK8_4)，并依次计算了相应的结合能数据，主要目标是提高抑制剂化合物的微粒体稳定性、激酶选择性和口服生物利用度，但同时保持对CDK8的抑制活性。

本方法计算结果与实验一致。实验数据显示CDK8_1、CDK8_2、CDK8_3和CDK8_4的IC₅₀值分别为1.4nM、1.3nM、11nM和2.6nM，我们计算的结果显示CDK8_2～CDK8_1的ΔΔG是0.8kcal/mol，CDK8_2～CDK8_3的ΔΔG是2.3kcal/mol，CDK8_2～CDK8_4的ΔΔG是1.97kcal/mol，CDK8_3～CDK8_1的ΔΔG是-1.49kcal/mol，CDK8_4～CDK8_1的ΔΔG是-1.16kcal/mol，以及CDK8_4～CDK8_3的ΔΔG是0.32kcal/mol。计算的ΔΔG与实验值变化趋势完全一致，总体来说是将氮原子置于吲唑环不同的位置并没有带来明显的活性提高。但最终，在7-号位引入氮原子的化合物CDK8_4显示出合理活性的同时，还显著提高了微粒体稳定性和激酶选择性，被选为临床候选药物。

【实施例3】

过氧化物酶体增殖物激活受体(Peroxisome Proliferator-ActivatedReceptor，PPAR)是调节目标基因表达的核内受体转录因子超家族成员。根据结构的不同，PPAR可分为α、β和γ三种类型，其中PPARγ主要表达于脂肪组织及免疫系统，与脂肪细胞分化、机体免疫及胰岛素抵抗关系密切，是胰岛素增敏剂噻唑烷二酮类药物(troglitazone，TZDs)作用的靶分子，成为近年来研究热点。

尽管PPARγ激动剂表现出强大的临床药理疗效，但其不良反应，如体重增加、外周水肿、肝脏毒性、骨折、致癌性和心血管风险，限制了它们的使用。PPARγ_1是一种新型的PPARγ调节剂，具有强大的降低血浆葡萄糖作用以及可减少体内与PPARγ相关的不良反应。但它会引起肝毒性，肝毒性被认为是药物发现中最常见但最严重的副作用之一，许多药物因其肝毒性作用已被撤出。肝毒性可通过降低亲脂性来避免。所以我们通过甲基扫描的方式，对同一吡啶环的3-、4-、5-和6-(化合物PPARγ_2、PPARγ_3、PPARγ_4和PPARγ_5)位置进行甲基取代，并依次计算了相应的结合能数据，希望提高PPARγ激动剂治疗高血糖症的可能性。

本方法计算结果与实验一致。实验数据显示PPARγ_1、PPARγ_2、PPARγ_3、PPARγ_4和PPARγ_5的EC50值分别为1100nM、1900nM、130nM、460nM和350nM，本方法计算的结果显示PPARγ_1～PPARγ_2的ΔΔG是-0.6kcal/mol，PPARγ_1～PPARγ_3的ΔΔG是-0.8kcal/mol，PPARγ_1～PPARγ_4的ΔΔG是-0.42kcal/mol，PPARγ_1～PPARγ_5的ΔΔG是-0.05kcal/mol，PPARγ_2～PPARγ_5的ΔΔG是-0.54kcal/mol，PPARγ_3～PPARγ_5的ΔΔG是0.76kcal/mol，以及PPARγ_4～PPARγ_5的ΔΔG是0.35kcal/mol。甲基扫描的结果与实验保持一致。通过添加甲基基团增加的亲脂性，或者至少是由于膜通透性的部分提高，实现了化合物活性的提高。计算结果显示特别是4-号位甲基取代使活性提高了近10倍，从而指导进一步优化以将PPARγ_3鉴定为临床候选物。尽管活性提高的影响被认为是通过增加膜通透性间接实现的，但计算表明结合自由能也有所增加。与实验一致，预计4-位甲基取代的化合物具有最强的亲和力。

Claims

1.基于蛋白质结合口袋的优化化合物结构的方法，其特征在于，包括下列步骤：

步骤四，FEP方法精确计算配体-蛋白结合能，进行配体基团修饰并评估。计算步骤二优化后的配体分子的几何构型的结合能，与设置的阈值(如1kcal/mol)进行比较；结合能降低超过阈值，则在新分子上继续修饰，再进入二、三、四循环；结合能降低不超过阈值，则在原分子上重新修饰，再进入二、三、四循环；直至评估得到的亲和力达到设计要求。

2.根据权利要求1所述的基于蛋白质结合口袋的优化化合物结构的方法，其特征在于，所述步骤一中所述的深度学习模型Pocket2Mol，它构建了一个图神经网络模型对三维蛋白质结合口袋的化学和几何特征进行采样和建模，并生成与结合口袋具有更好亲和力和化学性质的分子，这些分子包含真实和准确的结构。

3.根据权利要求1所述的一种基于量子计算的结合能综合计算方法，其特征在于，所述步骤四包括，以精确度最高的自由能微扰方法，准确的计算评估配体每个位置取代后结合自由能的变化，量化结合口袋内新的基团修饰的影响。