CN116631495A

CN116631495A - 激动剂分子对gpcr激活能力的预测方法及其系统

Info

Publication number: CN116631495A
Application number: CN202310921393.9A
Authority: CN
Inventors: 竺立哲; 题如涓
Original assignee: Futian Biomedical Innovation And R & D Center Of Chinese University Of Hong Kong Shenzhen; Chinese University of Hong Kong Shenzhen
Current assignee: Futian Biomedical Innovation And R & D Center Of Chinese University Of Hong Kong Shenzhen; Chinese University of Hong Kong Shenzhen
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-08-22
Anticipated expiration: 2043-07-26
Also published as: CN116631495B

Abstract

本发明提出了一种激动剂分子对GPCR激活能力的预测方法及其系统，方法包括：利用全局分子对接盲猜配体分别与激活态受体结构、非激活态受体结构结合而成的复合物结构；基于增强采样算法提取可使非激活态复合物结构激活为激活态复合物结构的初始路径；运用自动路径优化算法寻找距离初始路径最近的最小自由能路径；使用伞形采样计算沿最小自由能路径的自由能分布曲线，确定能垒高度以及激活前后自由能差，以此判断该配体结构对GPCR的激活能力。本发明的方案在假设配体结构未知的前提下，于预测全流程中未输入信息，预测的通用性强，高效揭示候选激动剂对GPCR的激活机制及激活能力。

Description

激动剂分子对GPCR激活能力的预测方法及其系统

技术领域

本发明涉及生物分子系统计算模拟研究领域，特别涉及一种激动剂分子对GPCR激活能力的预测方法及其系统。

背景技术

G蛋白偶联受体（G Protein-Coupled Receptor，GPCR）是人类基因组编码中最大的膜蛋白超家族（含800个成员）。作为分布最为广泛的细胞膜内受体, GPCR可由气味、费洛蒙、激素、神经递质、趋化因子等诸多配体激活，而后通过复杂的信号转导和调控机制，对人体生理代谢的几乎各个方面产生重要影响，在心血管疾病、神经系统疾病、炎症、代谢性疾病、癌症等多种疾病中都扮演了重要角色。在全球已获批准的药物中，有超过30%以GPCR相关信号通路蛋白为作用靶点。

GPCR由7个跨膜α螺旋（TM1-7）、3段胞外环（ECL）和3段胞内环（ICL）组成，如图1所示。当其胞外端（通常由胞外环和跨膜区的胞外端共同组成）与配体结合后，GPCR会发生构象变化，进入激活状态。随之，其胞内端与下游G蛋白的结合强度发生变化，并诱使G蛋白表现出鸟苷酸交换因子的特性。该特性使得原本与G蛋白结合的二磷酸鸟苷（GDP）易于被三磷酸鸟苷（GTP）所交换，从而进一步促使G蛋白的α亚基与β、γ亚基分离，并各自激活更下游的信号通路。信号通路如腺苷酸环化酶Adenylyl Cyclase和钾离子通道GIRK等，如图2所示。

关于GPCR的研究始终是学术界及医药企业的研究热点。其中，结构生物学家经近20年奋斗，已大致勾勒出GPCR激活过程中的几个关键状态，成功解析了多种GPCR激活和非激活态的高分辨结构。众多的已知结构大大推进了靶向GPCR药物的设计研发。通过对比已解析的A类GPCR（如Rhodopsin, β2AR）的非激活态和激活态结构，人们已总结出GPCR激活前后的主要区别。尽管GPCR配体的种类千差万别，但这些变化被普遍视为GPCR激活的共同特征。

不同激动剂对相应GPCR激活的过程存在大量的细节差异，而正是这些细节差异决定了GPCR激动剂对GPCR的特异性（选择性）激活。对于靶向GPCR的药物设计而言，配体特异性是绕不开的核心问题。配体特异性直接关系到其是否能激活某一目标GPCR，同时无法激活其他GPCR亚型，与其活性及毒性等问题息息相关。而配体特异性往往植根于其与GPCR相互作用时的结构及动力学细节。事实上，不同配体间的细微差异，就可导致其激活同一GPCR家族中的不同亚型。

要达成对GPCR激动的理性设计，就需要人们能够预测配体对某一GPCR的特异性激活能力，同时拥有能获得配体与GPCR结合及激活GPCR全过程具体机制详尽认知的手段。只有具备对激活过程的机制理解，才能获得对激动剂分子结构进行优化改进的必要信息。

然而，目前的技术难以满足这一需求。功能实验仅能用于断定是否激活。结构生物学尽管能提供原子层面的细节，但仅能揭示过程中的少数状态，无法指明激活发生的难易程度及其机制根源。通过对蛋白口袋周边位点进行逐一突变来寻找与配体相互作用的关键蛋白残基虽行之有效，却过于昂贵、繁琐。

同时，能够预测当代计算机辅助药物设计（CADD）的主要技术，如分子对接(docking)、自由能微扰(Free Energy Perturbation)等，都着重于配体结合强度的计算，并不涉及配体结合目标受体之后受体的激活过程。

因此，研发可高效揭示候选激动剂对GPCR的激活机制及激活能力的算法工具不仅是研究配体激活特异性的内在需求，也是CADD向深度发展的必经步骤。现有技术中尚不存在可快速并准确预测任一配体对任一给定GPCR激活能力的算法框架，以至GPCR高特异性激动剂的理性设计举步维艰。

发明内容

有鉴于此，本发明提出了一种激动剂分子对GPCR激活能力的预测方法及其系统，具体方案如下：

一种激动剂分子对GPCR激活能力的预测方法，包括：

由激动剂获取初始的配体结构，获取给定GPCR的非激活态受体结构和激活态受体结构，判断该配体结构与GPCR结合的复合物结构是否已知；

若未知，则利用全局分子对接技术，盲猜该配体结构分别与激活态受体结构、非激活态受体结构结合而成的激活态复合物结构、非激活态复合物结构，并进行局部结构优化；

基于预设增强采样算法提取可使非激活态复合物结构激活为激活态复合物结构的路径，得到激活过程的初始路径；

运用预设自动路径优化算法寻找距离所述初始路径最近的最小自由能路径；

使用伞形采样计算沿最小自由能路径的自由能分布曲线，通过所述自由能分布曲线确定能垒高度以及激活前后自由能差，以此判断该配体结构对GPCR的激活能力。

在一个具体实施例中，运用最小自由能路径的部分结构信息完成对配体结构的优化改造，以调高或调低激动剂分子激活给定GPCR的能力。

在一个具体实施例中，预设自动路径优化算法包括：基于旅行商问题的自动化路径搜索方法、有限温度弦方法、快速断层扫描法以及过渡路径采样法。

在一个具体实施例中，预设增强采样算法包括粗粒化模型、高温模拟算法、拉伸动力学算法、靶向动力学算法、数据驱动的路径算法。

在一个具体实施例中，采用基于旅行商问题的自动化路径搜索方法具体包括：

通过复合物结构的全部重原子定义任意两结构间的RMSD进而计算PCV，通过PCV将高维空间投影到一个基于当前初始路径所构建的临时坐标系上；

通过正交方向采样快速寻找初始路径附近的最小自由能路径片段；

设立与已知路径节点距离为零的虚拟节点，并对含虚拟节点在内的所有最小自由能路径片段上的路径节点进行旅行商求解，移除虚拟节点后完成排序得到新的初始路径；

修正新的初始路径的空间分辨率，完成一轮迭代；

当得到的初始路径变化幅度低于预设幅度时，停止迭代，将该初始路径作为最小自由能路径。

在一个具体实施例中，针对盲猜得到的激活态复合物、非激活态复合物分子对接结构，用短时长的分子动力学模拟进行局部结构优化，得到准确的两状态复合物结构模型。

在一个具体实施例中，对非激活态复合物结构的全部重原子施加外力，将非激活态复合物结构拉至激活态复合物结构模型，生成激活过程的初始路径。

在一个具体实施例中，通过已知结构、同源建模或者AlphaFold获得给定GPCR的非激活态受体结构和激活态受体结构。

在一个具体实施例中，若当前的配体结构对GPCR的激活能力不符合预期，则基于最小自由能路径的过渡态及中间亚稳态的完成结构对该配体结构进行优化改造，得到新的配体结构，重新预测新的配体结构对GPCR的激活能力。

一种激动剂分子对GPCR激活能力的预测系统，包括如下模块：

准备模块，用于由激动剂获取初始的配体结构，获取给定GPCR的非激活态受体结构和激活态受体结构，并判断该配体结构与GPCR结合的复合物结构是否已知；

盲猜模块，用于在复合物结构未知的情况下，利用全局分子对接技术，盲猜该配体结构分别与激活态受体结构、非激活态受体结构结合而成的激活态复合物结构、非激活态复合物结构，并进行局部结构优化；

初始路径模块，用于基于预设增强采样算法提取可使所述非激活态复合物结构激活为激活态复合物结构的路径，得到激活过程的初始路径；

自由能路径模块，用于运用预设自动路径优化算法寻找距离所述初始路径最近的最小自由能路径；

激活能力预测模块，用于使用伞形采样计算沿最小自由能路径的自由能分布曲线，通过所述自由能分布曲线确定能垒高度以及激活前后自由能差，以此判断该配体结构对GPCR的激活能力。

有益效果：本发明提供了一种激动剂分子对GPCR激活能力的预测方法及其系统，在假设配体结构未知的前提下，于预测全流程中未输入信息，预测的通用性强，高效揭示候选激动剂对GPCR的激活机制及激活能力。盲猜配体与GPCR激活态、非激活态结合的复合物结构，在初始路径的生成、路径优化、自由能曲线计算时均使用复合物结构的全部重原子作为输入，避免外部选择对预测结果的干扰。所得MFEP由一系列复合物的完整结构组成，足以提供详尽的机制信息、为激动剂分子的优化改进提供指导性信息、完成其理性设计迭代。

附图说明

图1为GPCR的结构域构成示意图；

图2为GPCR信号传导过程示意图；

图3为本发明的预测方法流程示意图；

图4为本发明的沿最小自由能路径的自由能面结果示意图；

图5为本发明的沿路径三个关键状态的比较示意图；

图6为本发明的预测系统模块示意图。

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

附图标记：1-准备模块；2-盲猜模块；3-初始路径模块；4-自由能路径模块；5-激活能力预测模块；6-配体结构修改模块。

具体实施方式

在下文中，将更全面地描述本发明公开的各种实施例。本发明公开可具有各种实施例，并且可在其中做出调整和改变。然而，应理解：不存在将本发明公开的各种实施例限于在此公开的特定实施例的意图，而是应将本发明公开理解为涵盖落入本发明公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。

全原子分子动力学 (MD)模拟是一种基于牛顿动力学来研究生物分子微观性质的计算模拟研究方法，其目标为模拟生物分子在热扰动下随时间变化的结构涨落行为。经多年发展，MD模拟已成为研究复杂生物大分子的标准工具之一，在GPCR激活的机制研究中的运用也已普及。但以常规MD模拟为主要手段预测候选激动剂分子对GPCR的激活能力仍面临诸多困难。

在普通的高性能计算设备（如GPU集群和超算中心CPU资源）上运行MD，模拟的总长度通常只能达到纳秒至微秒级别，而GPCR激活的过程却可能需翻越较高的能垒，发生在几百微秒乃至更长的时间尺度，且在预测候选激动剂分子的激活能力时，该能垒的高度事先未知。

要完成激动剂的理性设计，则须假设激动剂分子结构及其与GPCR结合位置均为未知。同时，所得MFEP须由一系列复合物的完整结构组成，否则MFEP不足以提供详尽的机制信息、为激动剂分子的优化改进提供指导性信息、完成其理性设计迭代。由于配体结构未知，复合物的激活态结构也为未知。尽管复合物非激活可经分子对接（Docking）猜测，激活态结构通常须基于某一序列相似度较高GPCR的已知激活态结构为模板，从非激活态结构模型出发，经tMD施加外力而生成。此过程中外力施加至哪些原子未知。

在本发明公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本发明公开的各种实施例。如在此所使用，单数形式意在也包括复数形式，除非上下文清楚地另有指示。除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明公开的各种实施例中被清楚地限定。

实施例1

本发明实施例1公开了一种激动剂分子对GPCR激活能力的预测方法，在预测全流程中都未输入信息，预测的通用性强，高效揭示候选激动剂对GPCR的激活机制及激活能力。预测方法流程图如说明书附图3所示，具体方案如下：

一种激动剂分子对GPCR激活能力的预测方法，包括如下步骤：

101、由激动剂获取初始的配体结构，获取给定GPCR的非激活态受体结构和激活态受体结构，判断该配体结构与GPCR结合的复合物结构是否已知；

102、若未知，则利用全局分子对接技术，盲猜该配体结构分别与激活态受体结构、非激活态受体结构结合而成的激活态复合物结构、非激活态复合物结构，并进行局部结构优化；

103、基于预设增强采样算法提取可使非激活态复合物结构激活为激活态复合物结构的路径，得到激活过程的初始路径；

104、运用预设自动路径优化算法寻找距离初始路径最近的最小自由能路径；

105、使用伞形采样计算沿最小自由能路径的自由能分布曲线，通过自由能分布曲线确定能垒高度以及激活前后自由能差，以此判断该配体结构对GPCR的激活能力。

在一个优选实施例中，判断配体结构对给定GPCR的激活能力之后，还可包括如下步骤：

106、运用最小自由能路径的部分结构信息完成对配体结构的优化改造，以调高或调低激动剂分子激活给定GPCR的能力。

本实施例的预测方法为了提高对配体结构的通用性，在所有步骤中都未输入信息，全局盲猜分子对接，并且在初始路径的生成、路径优化、自由能曲线计算时均使用复合物结构的全部重原子作为输入，尽可能的减少外部因素的影响。

本实施例是预测激动剂对给定GPCR的激活能力，将激动剂分子作为配体，GPCR作为受体。受体在激活态和非激活时的结构，可通过已知结构、同源建模或者AlphaFold获得。

其中，激动剂分子的结构是可以是已知的，也可以是未知的（如随意给定一种激活剂）。当配体结构未知（激活剂分子的结构未知）时，配体与受体结合而成的复合物的激活态结构也为未知。尽管复合物非激活态结构可经分子对接猜测，但激活态结构通常须基于某一序列相似度较高GPCR的已知激活态结构为模板，从非激活态结构模型出发，经tMD施加外力而生成。在此过程中，外力施加至哪些原子是未知的，也就导致无法进行后续预测。

因此，步骤101中除了获取受体在激活态和非激活态下的结构，还要判定配体与受体结合而成的复合物结构是否已知。例如，可利用冷冻电镜和晶体结构等结构生物学研究方法，获取配体与受体结合而成的复合物。在复合物结构已知的情况下，无需利用全局分子对接技术进行盲猜，直接得到激活态复合物结构和非激活态复合物结构。

冷冻电镜（Cryoelectron Microscopy，简称Cryo-EM）是一种使用电子显微镜来观察冷冻固定样品的方法。冷冻电镜的优点是可以直接观察液体或半液体状态的样品，例如生物大分子和细胞膜等。相比于其他结构生物学方法，冷冻电镜可以更方便地获得高分辨率的结构。

X射线晶体学（X-ray crystallography）是一种通过X射线照射晶体样品来测定分子结构的方法。该方法需要将分子在晶体中排列，以便X射线能够穿过晶体并产生可分析的衍射图案。X射线晶体学的优点是可以获得高分辨率的结构，可以达到1Å甚至更高。

而在实际应用中，配体与受体结合出的复合物结构未知的情况是更为普遍的。本实施例的方案针对配体结构未知的情况，采用全局分子对接技术进行盲猜，不增加任何涉及外部影响的输入。分子对接技术通过受体的特征以及受体和配体之间的相互作用方式来进行理论模拟，研究分子间(如配体和受体)相互作用,并预测其结合模式和亲合力。

盲猜配体结构分别与激活态受体结构、非激活态受体结构结合而成的激活态复合物结构、非激活态复合物结构。针对盲猜出的激活态复合物结构、非激活态复合物结构，从中择优用短时长的分子动力学模拟进行局部结构优化，提高模拟的精度和可靠性。短时长的分子动力学模拟是一种计算生物物理学方法，用于研究生物大分子的结构和动力学性质，通过计算机模拟来模拟生物大分子的运动，从而获得关于生物大分子在短时间范围内的结构和动力学信息。在局部结构优化中，短时长通常指使用较小的时间步长来提高模拟的精度和可靠性。这可以帮助避免因较长时间步长引起的振动或抖动而产生的误差，使优化更加精准。因此，建议在进行分子动力学模拟中进行局部结构优化时，使用较短的时间步长以提高模拟的精度和可靠性。

本实施例的方案是预设增强采样算法生成初始路径。初始路径即为非激活态复合物结构激活为激活态复合物结构的路径。生成初始路径更好地理解分子的结构和反应机制，同时也可以提高我们后续模拟效率和准确度。增强采样算法是一种用于提高分子动力学模拟中采样的效率的算法。预设增强采样算法包括粗粒化模型、高温模拟算法、拉伸动力学Steered MD算法、靶向动力学Targeted MD算法、数据驱动的路径算法。

粗粒化模型：一种将生物大分子结构简化的方法，通过将原分子中的原子或小分子整合为较大的组分，从而减少计算量并加速采样效率。

高温模拟：该算法通过增加温度来加速分子运动，从而增加采样效率。实现高温模拟需要设置模拟的温度、时间步长、力常数等参数。

拉伸动力学（Steered MD）：该算法通过对分子上的某个原子施加外力来控制其运动，从而加速采样效率。实现Steered MD需要设置施加外力的方向、力常数、时间步长等参数。

靶向动力学（Targeted MD）：已某个结构为目标，从另一个结构出发，对分子上的某些原子施加外力来驱动其向目标结构快速靠近，从而加速采样。实现Steered MD需要设置对分子中的哪些原子施加外力、施加外力的力常数、时间步长等参数。

数据驱动的路径算法：该算法基于已知的实验数据或计算结果，使用机器学习算法来预测可能的反应路径。实现数据驱动的路径算法需要准备用于训练的数据集、选择合适的机器学习模型、调整模型超参数等。

得到初始路径之后，需要寻找最小自由能路径。本实施例的最小自由能路径是基于高维度空间，由一系列完整的复合物结构组成，并非现有路径算法中的低维度结构。现有算法依赖于对激活过程机制的事先猜测，所得路径定义在事先选择的低维度坐标空间。而GPCR与配体的复合物恰恰复杂度较高，选择错误概率大，导致其总体效率低下。定义在低维空间的MFEP也无法为下一步改进配体结构提供启示。

优选地，用复合物全部重原子定义任意两结构间的RMSD（Root Mean SquareDistance）距离，进而计算路径集体变量Path-Collective-Variable（PCV），运用自动化路径优化算法，从初始路径出发，快速寻找最近的最小自由能路径MFEP。相当于使用复合物全部重原子定义PCV，运用相关优化算法可一次性获得激活过程的高维度最小自由能路径，大大减小计算量，为后续多轮迭代计算提供基础。

RMSD（Root Mean Square Deviation），均方根偏差，是衡量两个结构之间原子或原子集合偏离的一种常用方法。

Path-Collective-Variable（PCV）定义如下：

s

其中d _x,i是原高维空间中的任一构象与高维度路径（含N个高维节点构想）上第i个节点之间的RMSD距离，λ是一个常数，由路径上相邻节点构象间RMSD的平均值决定。。通过PCV，可将原高维空间投影到一个基于本轮当前路径的临时坐标系上。

其中，自动路径优化算法包括：基于旅行商问题的自动化路径搜索方法、字符串法、快速投影法以及过渡态路径采样法。这些算法的具体实现方式和应用场景有所不同，但它们的目的都是通过优化或采样方法找到一条最小自由能路径，即连接起始态和目标态的路径，使能量或自由能最小化。

基于旅行商问题的自动化路径搜索方法（Travelling-salesman basedAutomated Path Searching），通过多次迭代逐步逼近最小自由能路径。有限温度弦方法（Finite Temperature String Method），将结构变化路径表示为低维度空间下的一系列原子坐标的序列，通过最小自由能原理进行优化，从而找到该低维空间内的最小自由能路径。快速断层扫描法（Fast Tomographic Method），通过对初始路径进行迭代更新，逐步逼近真实路径，适用于研究小分子与大分子间的相互作用。过渡路径采样法（Transition PathSampling）通过蒙特卡罗方法生成一系列过渡态轨迹，然后构建最小自由能路径，适用于较大的分子体系。

最后，再次使用复合物全部重原子定义RMSD及PCV，使用伞形采样（UmbrellaSampling）计算沿MFEP（PCV-s分量）的自由能分布曲线，通过激活前后自由能差及激活能垒高度判断配体对受体的激活能力。伞形采样所得的自由能曲线可确定能垒高度、以及激活前后的自由能差，此为预测配体对GPCR激活能力的关键信息，可与GPCR的功能实验（测量下游G蛋白从GPCR上解离过程的生物发光共振能量转移BRET实验）结果相互印证。

其中，可使用元动力学MetaDynamics计算自由能曲线。元动力学MetaDynamics是一种计算自由能曲线的方法，它使用一种叫做“演化动力学”的策略来计算自由能，通常用于计算蛋白质或其他生物分子的自由能，以了解它们在生物环境中的行为。在元动力学MetaDynamics中，系统会受到一个微小的力，然后通过计算系统的演化行为来计算自由能。这种方法通常涉及多个时间尺度的模拟，从微观到宏观的模拟，以及多个自由度的系统。元动力学MetaDynamics可以与其他方法结合使用，例如分子对接、分子动力学模拟、蒙特卡罗模拟等，以获得更准确的自由能曲线。这种方法可以提供有关药物设计、蛋白质工程、生物物理学等领域的信息，并有助于理解生物分子的结构和功能。

高维度最小自由能路径，由一系列完整的复合物结构组成，其中过渡态及中间亚稳态的完成结构可为修改配体结构以调高或调低其激活给定GPCR的能力提供思路。若当前的配体结构对GPCR的激活能力不符合预期，则基于最小自由能路径的过渡态及中间亚稳态的完成结构对该配体结构进行优化改造，得到新的配体结构，重新预测新的配体结构对GPCR的激活能力。由于本实施例所需的计算量较低，集合消费级GPU服务器，使得对配体分子的多轮迭代计算和理性设计成为可能，具有突破性意义。

本实施例提供了一种激动剂分子对GPCR激活能力的预测方法，在假设配体结构未知的前提下，于预测全流程中未输入信息，预测的通用性强，能高效揭示候选激动剂对GPCR的激活机制及激活能力。盲猜配体与GPCR激活态、非激活态结合的复合物结构，在初始路径的生成、路径优化、自由能曲线计算时均使用复合物结构的全部重原子作为输入，避免外部选择对预测结果的干扰。所得MFEP由一系列复合物的完整结构组成，足以提供详尽的机制信息、为激动剂分子的优化改进提供指导性信息、完成其理性设计迭代。

实施例2

本发明实施例2公开了实施例1的一种优选方案。方案如下：

一种激动剂分子对GPCR激活能力的预测方法，包括如下步骤：

201、利用AlphaFold或同源建模得到给定GPCR的非激活态及激活态的受体结构，然后使用全局分子对接，盲猜配体结合到受体两个状态的复合物结构模型，从中择优用短时长的分子动力学模拟进行局部结构优化；

202、对复合物全部重原子施加外力，将非激活态复合物结构拉至激活态复合物结构模型，生成激活过程的初始路径；

203、用复合物全部重原子定义任意两结构间的RMSD（Root Mean SquareDistance）距离，进而计算路径集体变量Path-Collective-Variable（PCV），运用基于旅行商问题的自动化路径优化算法TAPS，从初始路径出发，快速寻找最近的最小自由能路径MFEP；

204、再次使用复合物全部重原子定义RMSD及PCV，使用伞形采样（UmbrellaSampling）计算沿MFEP（PCV-s分量）的自由能分布曲线，通过激活前后自由能差及激活能垒高度判断配体对受体的激活能力；

205、运用MFEP上过渡态及中间态的结构信息完成对配体化学结构的优化改造，回到201，进行新配体结构的激活能力的预测。

基于旅行商问题的自动化路径优化算法(Travelling-salesman basedAutomated Path Searching, TAPS)，通过正交方向采样快速寻找初始路径附近的最小自由能路径片段，而后运用旅行商求解器对新得到的节点重排顺序并修正新路径空间分辨率，如此迭代多轮直至路径不再大幅变动;在短肽体系中TAPS的搜索效率至少8倍于其他方法。其中，旅行商重排流程：设立与已知节点距离为零的虚拟节点，并对含虚拟节点在内的所有节点进行旅行商求解，移除虚拟节点后完成排序。

本实施例的方案采用非局部采样，在所有与当前路径正交的方向上快速搜索其附近的MFEP片段，加快了优化过程。在String Method事先猜对了静态坐标空间的前提下，TAPS在短肽体系中的计算效率达到其8倍。同时，由于正交方向上非局部采样所得到的新路径节点未必遵循上一轮中的排列顺序，本实施例引入了旅行商算法来对新的路径节点重新排序。由于TAPS中并未引入静态坐标系，而是在每轮迭代中，通过定义两两构象间距离（Root-Mean-Square-Distance, RMSD）的计算方式（选择哪些原子对齐结构，以及哪些原子计算RMSD），进而计算路径变量(Path Collective Variable, PCV)。其定义如下：

s

其中d _x,i是原高维空间中的任一构象与高维度路径（含N个高维节点构想）上第i个节点之间的RMSD距离，λ是一个常数，由路径上相邻节点构象间RMSD的平均值决定。。

通过PCV，可将原高维空间投影到一个基于本轮当前路径的临时坐标系上，从而绕过了静态坐标系的选择这一难题，大幅提高了路径优化的自动化程度及整体效率，以低成本成功解析多个复杂体系的功能性构象变化机制。不同于把事先对所研究过程机制的猜测作为输入的其他方法，本实施例基于路径变量，无需预先定义具物理意义的坐标空间而直接获得高维度最小自由能路径，将采样过程和机理解释最大限度地剥离，大幅提升了算法的自动化程度。

采用本实施例的方案已在8卡消费级GPU（英伟达RTX2080Ti）服务器上，经12天计算，获得鞘氨醇-1-磷酸（S1P）激活受体S1PR1的最小自由能路径。配体S1P激活S1PR的最小自由能路径如附图4和图5所示。图4为沿所得最小自由能路径的自由能面（伞形采样）。图5为沿路径三个关键状态（非激活态、过渡态、活化前中间态）的结构在结合口袋、受体中部及胞内G蛋白结合区域的比较，与S1P相互作用及体现受体激活过程主要变化的关键残基均已在非激活态中标出。

实施例3

本实施例提供了一种激动剂分子对GPCR激活能力的预测系统。在实施例1的基础上，将实施例1的方法系统化，具体结构如说明书附图6所示，具体方案如下：

准备模块1，用于由激动剂获取初始的配体结构，获取给定GPCR的非激活态受体结构和激活态受体结构，并判断该配体结构与GPCR结合的复合物结构是否已知；

盲猜模块2，用于在符合结构未知的情况下，利用全局分子对接技术，盲猜该配体结构分别与激活态受体结构、非激活态受体结构结合而成的激活态复合物结构、非激活态复合物结构，并进行局部结构优化；

初始路径模块3，用于基于预设增强采样算法提取可使非激活态复合物结构激活为激活态复合物结构的路径，得到激活过程的初始路径；

自由能路径模块4，用于运用预设自动路径优化算法寻找距离初始路径最近的最小自由能路径；

激活能力预测模块5，用于使用伞形采样计算沿最小自由能路径的自由能分布曲线，通过自由能分布曲线确定能垒高度以及激活前后自由能差，以此判断该配体结构对GPCR的激活能力。

配体结构修改模块6，用于运用最小自由能路径的部分结构信息完成对配体结构的优化改造，以调高或调低激动剂分子激活给定GPCR的能力。

本实施例提供了一种激动剂分子对GPCR激活能力的预测系统，将实施例1的方法系统化，使其更具实用性。

本发明提供了一种激动剂分子对GPCR激活能力的预测方法及其系统，在假设配体结构未知的前提下，于预测全流程中未输入信息，预测的通用性强，高效揭示候选激动剂对GPCR的激活机制及激活能力。盲猜配体与GPCR激活态、非激活态结合的复合物结构，在初始路径的生成、路径优化、自由能曲线计算时均使用复合物结构的全部重原子作为输入，避免外部选择对预测结果的干扰。所得MFEP由一系列复合物的完整结构组成，足以提供详尽的机制信息、为激动剂分子的优化改进提供指导性信息、完成其理性设计迭代。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。上述本发明序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种激动剂分子对GPCR激活能力的预测方法，其特征在于，包括：

2.根据权利要求1所述的预测方法，其特征在于，运用最小自由能路径的部分结构信息完成对配体结构的优化改造，以调高或调低激动剂分子激活给定GPCR的能力。

3.根据权利要求1所述的预测方法，其特征在于，预设自动路径优化算法包括：基于旅行商问题的自动化路径搜索方法、有限温度弦方法、快速断层扫描法以及过渡路径采样法。

4.根据权利要求1所述的预测方法，其特征在于，预设增强采样算法包括粗粒化模型、高温模拟算法、拉伸动力学算法、靶向动力学算法、数据驱动的路径算法。

5.根据权利要求3所述的预测方法，其特征在于，采用基于旅行商问题的自动化路径搜索方法具体包括：

修正新的初始路径的空间分辨率，完成一轮迭代；

6.根据权利要求1所述的预测方法，其特征在于，针对盲猜得到的激活态复合物、非激活态复合物分子对接结构，用短时长的分子动力学模拟进行局部结构优化，得到准确的两状态复合物结构模型。

7.根据权利要求1所述的预测方法，其特征在于，对非激活态复合物结构的全部重原子施加外力，将非激活态复合物结构拉至激活态复合物结构模型，生成激活过程的初始路径。

8.根据权利要求1所述的预测方法，其特征在于，通过已知结构、同源建模或者AlphaFold获得给定GPCR的非激活态受体结构和激活态受体结构。

9.根据权利要求2所述的预测方法，其特征在于，若当前的配体结构对GPCR的激活能力不符合预期，则基于最小自由能路径的过渡态及中间亚稳态的完成结构对该配体结构进行优化改造，得到新的配体结构，重新预测新的配体结构对GPCR的激活能力。

10.一种激动剂分子对GPCR激活能力的预测系统，其特征在于，包括如下模块：

自由能路径模块，运用预设自动路径优化算法寻找距离所述初始路径最近的最小自由能路径；