CN115831261A

CN115831261A - 基于多任务预训练逆强化学习的三维空间分子生成方法和装置

Info

Publication number: CN115831261A
Application number: CN202211426292.6A
Authority: CN
Inventors: 张强; 宫志晨; 韩玉强; 陈华钧
Original assignee: ZJU Hangzhou Global Scientific and Technological Innovation Center
Current assignee: ZJU Hangzhou Global Scientific and Technological Innovation Center
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-03-21

Abstract

本发明公开了一种基于多任务预训练逆强化学习的三维空间分子生成方法和装置，采用最小张成树算法依据化学分子构建真实分子生成序列；采用策略网络依据当前分子中间产物生成添加原子动作，以构建预测分子生成序列；以真实分子生成序列和基于策略网络生成的预测分子生成序列同时输入预训练的Transformer模型，基于Transformer模型的回归预测来构建奖励函数，通过奖励函数来训练策略网络，提高策略网络的预测鲁棒性，另外，在构建奖励函数时使真实样本的奖励值最大化且预测样本的奖励值最小化，优化时，智能体采取和专家行为类似的动作，缓解了奖励稀疏的问题，同时提升了参数优化效率。

Description

基于多任务预训练逆强化学习的三维空间分子生成方法和装置

技术领域

本发明属于化学药物分子生成领域，具体涉及基于多任务预训练逆强化学习的三维空间分子生成方法和装置。

背景技术

相比于药物分子的一维SMILEs字符串表示和二维空间的图表示，三维空间表示提供了丰富的结构信息，目前已有越来越多的研究利用深度学习方法挖掘三维空间分子的结构特征，以生成具有特定性质的分子，加速药物研发，例如专利文献CN110459275A公开的一种基于强化学习的图模型药物生成方法、装置和介质，再例如专利文献CN112331277A公开的一种基于强化学习的路径可控的药物分子生成方法。基于强化学习的方法生成灵活，可以有效探索训练数据之外的化学分子空间。然而，强化学习智能体的性能表现依赖于合适的奖励函数。

已有奖励函数设计方法依赖于分子性质预测器或分子动力学模拟，而性质预测器通常在人工标注的完整分子数据集上训练，在分子生成的中间产物表示上存在泛化性能差的问题，而分子动力学模拟虽然可以提供中间奖励，但是物理模拟运行速度慢，限制了强化学习算法的采样效率。也有一些方法只对最后的生成物检测是否满足生成要求，中间过程没有奖励值，算法可能难以从稀疏奖励中发现有价值信息，过多探索无关化学空间，导致收敛效率低。

逆强化学习中常用的对抗逆强化学习(AIRL)通常采用二分类的GAN作为奖励函数，容易对专家行为和学徒行为的局部噪声差异过拟合。

发明内容

鉴于上述，本发明的目的是提供一种基于多任务预训练逆强化学习的三维空间分子生成和装置，以提升三维空间分子的生成效率和准确性。

为实现上述发明目的，本发明实施例提供了一种基于多任务预训练逆强化学习的三维空间分子生成方法，包括以下步骤：

采用最小张成树算法依据化学分子构建真实分子生成序列；

采用策略网络依据当前分子中间产物生成添加原子动作，以构建预测分子生成序列；

分别从真实分子序列和预测分子生成序列中采样分子中间产物-添加原子动作对作为真实样本和预测样本，并对真实样本和预测样本进行向量编码得到向量表示；

将真实样本的向量表示和预测样本的向量表示分别添加任务提示符后作为预训练数据输入至预训练Transformer模型，得到真实样本和预测样本分别对应的解码数据；

依据真实样本和预测样本以及两者对应的解码数据计算回归误差，并依据回归误差构建奖励函数；

依据奖励函数的期望值通过使真实样本的奖励值最大化且预测样本的奖励值最小化来优化Transformer模型，利用奖励函数优化策略网络的参数，优化结束后，参数优化的策略网络作为分子生成模型；

利用分子生成模型生成三维空间分子。

优选地，采用最小张成树算法依据化学分子构建真实分子生成序列，包括：

从化学分子中随机选择碳原子或氮原子作为初始原子，依据最小张成树算法得到该化学分子图的原子遍历顺序，并构造一条由按照时间步排序的分子中间产物-添加原子动作对组成的真实分子生成序列，分子中间产物-添加原子动作对表示为(s,a)，其中，s为当前分子中间产物，a为当前时间步应该采取的添加原子动作，形式为

P为当前分子中间产物s中的一个原子，Q为将要加入s的原子，d为P和Q之间的键长，键类型通过键长确定，

为当s中原子数量大于等于2时，新加入的边与分子中已有边的夹角，

为当s中原子数量大于等于3时，新加入的边构成的面PQN₁与s中面PN₁N₂的夹角，其中，N₁、N₂分别是原子P的最近邻原子与次最近邻原子。

优选地，所述采用策略网络依据当前分子中间产物图生成添加原子动作，以构建预测分子生成序列，包括：

所述策略网络包含六个子网络，这六个子网络依据输入的当前分子中间产物s，分别输出

组成添加原子动作

为当s中原子数量大于等于3时，新加入的边构成的面PQN₁与s中面PN₁N₂的夹角，其中，N₁、N₂分别是原子P的最近邻原子与次最近邻原子，T表示添加原子动作是否终止；

当前分子中间产物s和添加原子动作a组成当前时间步的分子中间产物-添加原子动作(s,a)，将按照添加原子动作a在当前分子中间产物s中添加原子Q，得到下一步作为输入的分子中间产物，每个时间步的分子中间产物-添加原子动作按照时间步排序组成一条预测分子生成序列。

优选地，所述对真实样本和预测样本进行向量编码得到向量表示，包括：

真实样本和预测样本采用相同的编码方式，当真实样本和预测样本表示为分子中间产物-添加原子动作(s,a)时，首先，分子中间产物s中每个原子节点按照原子加入分子中间产物时对应的

的向量构造该原子节点的向量表示，得到分子中间产物的初始向量表示，然后利用可插拔的图编码模型基于初始向量表示进行编码得到分子中间产物的向量表示；

针对添加原子动作a，a中的

通过球面傅里叶贝塞尔基函数转换为向量表示，a中的P和Q采用one-hot编码，其中P的one-hot向量长度为s中的原子数，Q的one-hot向量长度为允许的原子类型数，

的向量拼接作为a的向量表示；

拼接分子中间产物s的向量表示和添加原子动作a的向量表示作为分子中间产物-添加原子动作(s,a)的向量表示。

优选地，按照以下公式将a中的

通过球面傅里叶贝塞尔基函数转换为向量表示

其中，c为截断距离，z_ln为l阶贝塞尔函数的n次跟，

为l阶m度球谐函数，l∈{0,…,N_SHBF},n∈{1,…,N_SRBF},m∈{-l,…,l}，N_SHBF，N_SRBF分别为预先设置的球谐函数和球面贝塞尔函数的最高阶数。

优选地，当采用可插拔的图编码模型对分子中间产物进行向量编码时，优化过程中，依据奖励函数的期望值通过使真实样本的奖励值最大化且预测样本的奖励值最小化来优化图编码模型的参数。

优选地，构建的奖励函数表示为：

δ＝||Dec(s_k,a_k)-[s_k,a_k]||₂

优化Transformer模型参数的目标函数为：

其中，

表示从策略网络π_θ生成的预测分子生成序列中提取的测试样本的奖励值期望，

表示从真实分子生成序列D_E中提取的真实样本的奖励值期望，w表示优化的参数，r_w(s,a)表示对分子中间产物-添加原子动作对的奖励值，δ表示Transformer模型的预测误差，[s_k,a_k]表示k阶滑动窗口的预测标签，具体为分子中间产物-添加原子动作对的向量表示，Dec(s_k,a_k)表示Transformer模型输出的解码数据，||·||₂表示L2损失函数。

优选地，所述策略网络的每个子网络采用MLP，图编码模型采用schnet，优化时，采用k阶滑动窗口的对分子中间产物-添加原子动作对作为输入，进行Transformer模型的解码数据预测。

优选地，当应用于下游其他小分子生成任务时，利用小分子对分子生成模型进行微调，在微调时，固定Transformer模型和图编码模型的参数，只利用构建的奖励函数对分子生成模型再优化，直到收敛，再优化后的分子生成模型用于其他小分子的生成。

为实现上述发明目的，实施例还提供了一种基于多任务预训练逆强化学习的三维空间分子生成装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时实现上述基于多任务预训练逆强化学习的三维空间分子生成方法。

与现有技术相比，本发明具有的有益效果至少包括：

以真实分子生成序列和基于策略网络生成的预测分子生成序列同时输入预训练的Transformer模型，基于Transformer模型的回归预测来构建奖励函数，通过奖励函数来训练策略网络，提高策略网络的预测鲁棒性，另外，在构建奖励函数时使真实样本的奖励值最大化且预测样本的奖励值最小化，优化时，智能体采取和专家行为类似的动作，缓解了奖励稀疏的问题，同时提升了参数优化效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于多任务预训练逆强化学习的三维空间分子生成方法的流程图；

图2是实施例提供的基于多任务预训练逆强化学习的三维空间分子生成方法的整体框架；

图3是实施例提供的分子生成序列构造流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1是实施例提供的基于多任务预训练逆强化学习的三维空间分子生成方法的流程图。图2是实施例提供的基于多任务预训练逆强化学习的三维空间分子生成方法的整体框架。如图1和图2所示，实施例提供的基于多任务预训练逆强化学习的三维空间分子生成方法，包括以下步骤：

步骤1，采用最小张成树算法依据化学分子构建真实分子生成序列。

实施例中，以化学分子为基础，通过最小张成树算法构建真实分子生成序列，该真实分子生成序列用于指导构建策略网络的奖励函数。

具体地，从化学分子中随机选择碳原子或氮原子作为初始原子，通过多次随机选择初始原子，为每个化学分子构造多条真实分子生成序列。以初始原子为起始，依据最小张成树算法得到该化学分子图的原子遍历顺序，并构造一条由按照时间步排序的分子中间产物-添加原子动作对组成的真实分子生成序列，分子中间产物-添加原子动作对表示为(s,a)，描述了新加入原子在三维空间的位置信息。其中，s为当前分子中间产物，a为当前时间步应该采取的添加原子动作，形式为

为当s中原子数量大于等于3时，新加入的边构成的面PQN₁与s中面PN₁N₂的夹角，其中，N₁、N₂分别是原子P的最近邻原子与次最近邻原子，如图3所示。

步骤2，采用策略网络依据当前分子中间产物生成添加原子动作，以构建预测分子生成序列。

实施例中，所述策略网络包含六个子网络，分别表示为

以及

子网络可以采用单隐层MLP，依据输入的当前分子中间产物s，分别输出

T表示添加原子动作否终止(Termial)。具体地，策略网络先判断是否终止并输出预测分子，若不终止，则继续执行添加原子动作。其中，子网络

对当前分子中间产物s中每个原子进行打分，在在超过阈值的节点中随机选择一个作为输出。

组成添加原子动作

步骤3，分别从真实分子序列和预测分子生成序列中采样分子中间产物-添加原子动作对作为真实样本和预测样本，并对真实样本和预测样本进行向量编码得到向量表示。

实施例中，真实样本和预测样本采用相同的编码方式，当真实样本和预测样本表示为分子中间产物-添加原子动作(s,a)时，首先，分子中间产物s中每个原子节点按照原子加入分子中间产物时对应的

的向量构造该原子节点的向量表示，得到分子中间产物的初始向量表示，然后利用可插拔的图编码模型基于初始向量表示进行编码得到分子中间产物的向量表示。其中，图编码模型可以采用schnet、spherenet等一些三维分子图编码模型、MLP，VAE等通用表示模型。

针对添加原子动作a，a中的

的向量拼接作为a的向量表示；

具体地，按照以下公式将a中的

通过球面傅里叶贝塞尔基函数转换为向量表示

其中，c为截断距离，z_ln为l阶贝塞尔函数的n次跟，

步骤4，将真实样本的向量表示和预测样本的向量表示分别添加任务提示符后作为预训练数据输入至Transformer模型，得到真实样本和预测样本分别对应的解码数据。

实施例中，采用多任务数据集共同训练，不同任务之间通过任务提示符区分以提高Transformer模型泛化能力。具体将任务提示符与状态动作对的向量表示进行拼接，拼接后向量作为预训练的Transformer模型作为输入。

步骤5，依据真实样本和预测样本以及两者对应的解码数据计算回归误差，并依据回归误差构建奖励函数。

实施例中，构建的奖励函数表示为：

δ＝||Dec(s_k,a_k)-[s_k,a_k]||₂

其中，w表示优化的策略网络参数，r_w(s,a)表示对分子中间产物-添加原子动作对的奖励值，δ表示Transformer模型的预测误差，[s_k,a_k]表示k阶滑动窗口的预测标签，具体为分子中间产物-添加原子动作对作的向量表示，Dec(s_k,a_k)表示Transformer模型输出的解码数据，||·||₂表示L2损失函数。

步骤6，利用奖励函数优化策略网络的参数，依据奖励函数的期望值通过使真实样本的奖励值最大化且预测样本的奖励值最小化来优化Transformer模型和图编码模型，优化结束后，参数优化的策略网络作为分子生成模型。

实施例中，依据奖励函数的期望值通过使真实样本的奖励值最大化且预测样本的奖励值最小化来优化Transformer模型和图编码模型，具体优化目标为：

表示从真实分子生成序列D_E中提取的真实样本的奖励值期望。

实施例中，还依据奖励函数优化策略网络的参数，优化目标为最大化分子生成序列的累计奖励值：

其中，T为预测序列的长度，当原子数达到设置的最大数量或者策略网络主动终止生成时，预测分子生成完毕并输出。

具体优化时，从预测分子生成序列中采样一个批次(s,a)，从真实分子生成序列中采样一个批次(s,a)，将两批数据结合为一个批次，采用k阶滑动窗口进行单时间步(s,a)的预测，通过差异化真实样本和预测样本的预测误差来优化Transformer模型的以及图编码模型的参数。之后，通过累积奖励函数来优化策略网络。

实施例中，优化策略网络的算法，具体可以采用强化学习策略优化算法。该强化学习策略优化算法包括PPO，PRTO，DDPG等。优化结束后，以参数优化的策略网络作为分子生成模型。

步骤7，利用分子生成模型生成三维空间分子。

实施例中，利用分子生成模型生成三维空间分子时，以单个原子作为当前分子中间产物，并利用分子生成模型依据当前分子中间产物生成添加原子动作，依据添加原子动作构建下一步的分子中间产物，然后再利用分子生成模型依据下一步的分子中间产物生成下两步的分子中间产物，依此类推，来不断更新分子中间产物，以构建三维空间分子。

实施例中，当需要应用到下游其他小分子生成任务时，利用小分子对分子生成模型进行微调，在微调时，固定Transformer模型和图编码模型的参数，只利用构建的奖励函数对分子生成模型再优化，直到收敛，得到适用于特定任务的策略网络，再优化后的策略网络作为分子生成模型用于其他小分子的生成。以生成满足特定性质的新分子。

基于同样的发明构思，实施例还提供了一种基于多任务预训练逆强化学习的三维空间分子生成装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，处理器执行计算机程序时实现上述步骤1-步骤7的步骤。

具体应用时，计算机存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现基于多任务预训练逆强化学习的三维空间分子生成装置。

上述实施例提供的三维空间分子生成方法和装置，基于逆强化学习构造分子中间产物的奖励函数，缓解生成学习奖励稀疏的问题，同时建立分子生成行为与待优化分子性质之间的联系。

上述实施例提供的三维空间分子生成方法和装置是目前率先使用预训练Transformer模型的预测结果来构建对抗逆强化学习行为判别的奖励函数。不同于现有的可能会过拟合单步动作中局部差异的二分类器奖励函数，基于序列建模的行为判别方式能有效判别序列的全局动态行为，避免过拟合。

上述实施例提供的三维空间分子生成方法和装置中，构建多任务预训练的Transformer模型，通过多个数据集上的分子生成任务获得分子生成的共享知识，实现知识迁移，以便更好地学习三维空间分子图包含的结构知识和领域知识。

不同于现有的难以泛化到分子生成中间产物的基于完整分子的性质预测器和运行代价高的物理模拟器奖励函数，上述实施例提供的三维空间分子生成方法和装置中，提出使用分子生成行为的奖励函数，将真实分子的生成步骤序列作为专家指导，以学习更具有指导性的中间奖励，提高学习效率。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多任务预训练逆强化学习的三维空间分子生成方法，其特征在于，包括以下步骤：

采用最小张成树算法依据化学分子构建真实分子生成序列；

将真实样本的向量表示和预测样本的向量表示分别添加任务提示符后作为预训练数据输入至Transformer模型，得到真实样本和预测样本分别对应的解码数据；

利用分子生成模型生成三维空间分子。

2.根据权利要求1所述的基于多任务预训练逆强化学习的三维空间分子生成方法，其特征在于，采用最小张成树算法依据化学分子构建真实分子生成序列，包括：

3.根据权利要求1所述的基于多任务预训练逆强化学习的三维空间分子生成方法，其特征在于，所述采用策略网络依据当前分子中间产物图生成添加原子动作，以构建预测分子生成序列，包括：

所述策略网络包含六个子网络，这六个子网络依据输入的当前分子中间产物s，分别输出P,Q,d,

T，组成添加原子动作

4.根据权利要求2或3所述的基于多任务预训练逆强化学习的三维空间分子生成方法，其特征在于，所述对真实样本和预测样本进行向量编码得到向量表示，包括：

真实样本和预测样本采用相同的编码方式，当真实样本和预测样本表示为分子中间产物-添加原子动作(s,a)时，首先，分子中间产物s中每个原子节点按照原子加入分子中间产物时对应的d,

针对添加原子动作a，a中的d,

通过球面傅里叶贝塞尔基函数转换为向量表示，a中的P和Q采用one-hot编码，其中P的one-hot向量长度为s中的原子数，Q的one-hot向量长度为允许的原子类型数，P,Q,d,

的向量拼接作为a的向量表示；

5.根据权利要求4所述的基于多任务预训练逆强化学习的三维空间分子生成方法，其特征在于，按照以下公式将a中的d,

通过球面傅里叶贝塞尔基函数转换为向量表示

其中，c为截断距离，z_ln为l阶贝塞尔函数的n次跟，

6.根据权利要求4所述的基于多任务预训练逆强化学习的三维空间分子生成方法，其特征在于，当采用可插拔的图编码模型对分子中间产物进行向量编码时，优化过程中，依据奖励函数的期望值通过使真实样本的奖励值最大化且预测样本的奖励值最小化来优化图编码模型的参数。

7.根据权利要求1所述的基于多任务预训练逆强化学习的三维空间分子生成方法，其特征在于，构建的奖励函数表示为：

δ＝||Dec(s_k,a_k)-[s_k,a_k]||₂

优化Transformer模型参数的目标函数为：

其中，

表示从真实分子生成序列D_E中提取的真实样本的奖励值期望，w表示优化的参数，r_w(s,a)表示对分子中间产物-添加原子动作对的奖励值，δ表示Transformer模型的预测误差，[s_k,a_k]表示k阶滑动窗口的预测标签，具体为分子中间产物-添加原子动作对的向量表示，Dec(s_k,a_k)表示Transformer模型输出的解码数据，||·||₂表示2损失函数。

8.根据权利要求4所述的基于多任务预训练逆强化学习的三维空间分子生成方法，其特征在于，所述策略网络的每个子网络采用MLP，图编码模型采用schnet，优化时，采用k阶滑动窗口的对分子中间产物-添加原子动作对作为输入，进行Transformer模型的解码数据预测。

9.根据权利要求4所述的基于多任务预训练逆强化学习的三维空间分子生成方法，其特征在于，当应用于下游其他小分子生成任务时，利用小分子对分子生成模型进行微调，在微调时，固定Transformer模型和图编码模型的参数，只利用构建的奖励函数对分子生成模型再优化，直到收敛，再优化后的分子生成模型用于其他小分子的生成。

10.一种基于多任务预训练逆强化学习的三维空间分子生成装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-9任一项所述的基于多任务预训练逆强化学习的三维空间分子生成方法。