CN115831261A - 基于多任务预训练逆强化学习的三维空间分子生成方法和装置 - Google Patents

基于多任务预训练逆强化学习的三维空间分子生成方法和装置 Download PDF

Info

Publication number
CN115831261A
CN115831261A CN202211426292.6A CN202211426292A CN115831261A CN 115831261 A CN115831261 A CN 115831261A CN 202211426292 A CN202211426292 A CN 202211426292A CN 115831261 A CN115831261 A CN 115831261A
Authority
CN
China
Prior art keywords
atom
molecular
molecule
sample
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211426292.6A
Other languages
English (en)
Inventor
张强
宫志晨
韩玉强
陈华钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZJU Hangzhou Global Scientific and Technological Innovation Center
Original Assignee
ZJU Hangzhou Global Scientific and Technological Innovation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZJU Hangzhou Global Scientific and Technological Innovation Center filed Critical ZJU Hangzhou Global Scientific and Technological Innovation Center
Priority to CN202211426292.6A priority Critical patent/CN115831261A/zh
Publication of CN115831261A publication Critical patent/CN115831261A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多任务预训练逆强化学习的三维空间分子生成方法和装置,采用最小张成树算法依据化学分子构建真实分子生成序列;采用策略网络依据当前分子中间产物生成添加原子动作,以构建预测分子生成序列;以真实分子生成序列和基于策略网络生成的预测分子生成序列同时输入预训练的Transformer模型,基于Transformer模型的回归预测来构建奖励函数,通过奖励函数来训练策略网络,提高策略网络的预测鲁棒性,另外,在构建奖励函数时使真实样本的奖励值最大化且预测样本的奖励值最小化,优化时,智能体采取和专家行为类似的动作,缓解了奖励稀疏的问题,同时提升了参数优化效率。

Description

基于多任务预训练逆强化学习的三维空间分子生成方法和 装置
技术领域
本发明属于化学药物分子生成领域,具体涉及基于多任务预训练逆强化学习的三维空间分子生成方法和装置。
背景技术
相比于药物分子的一维SMILEs字符串表示和二维空间的图表示,三维空间表示提供了丰富的结构信息,目前已有越来越多的研究利用深度学习方法挖掘三维空间分子的结构特征,以生成具有特定性质的分子,加速药物研发,例如专利文献CN110459275A公开的一种基于强化学习的图模型药物生成方法、装置和介质,再例如专利文献CN112331277A公开的一种基于强化学习的路径可控的药物分子生成方法。基于强化学习的方法生成灵活,可以有效探索训练数据之外的化学分子空间。然而,强化学习智能体的性能表现依赖于合适的奖励函数。
已有奖励函数设计方法依赖于分子性质预测器或分子动力学模拟,而性质预测器通常在人工标注的完整分子数据集上训练,在分子生成的中间产物表示上存在泛化性能差的问题,而分子动力学模拟虽然可以提供中间奖励,但是物理模拟运行速度慢,限制了强化学习算法的采样效率。也有一些方法只对最后的生成物检测是否满足生成要求,中间过程没有奖励值,算法可能难以从稀疏奖励中发现有价值信息,过多探索无关化学空间,导致收敛效率低。
逆强化学习中常用的对抗逆强化学习(AIRL)通常采用二分类的GAN作为奖励函数,容易对专家行为和学徒行为的局部噪声差异过拟合。
发明内容
鉴于上述,本发明的目的是提供一种基于多任务预训练逆强化学习的三维空间分子生成和装置,以提升三维空间分子的生成效率和准确性。
为实现上述发明目的,本发明实施例提供了一种基于多任务预训练逆强化学习的三维空间分子生成方法,包括以下步骤:
采用最小张成树算法依据化学分子构建真实分子生成序列;
采用策略网络依据当前分子中间产物生成添加原子动作,以构建预测分子生成序列;
分别从真实分子序列和预测分子生成序列中采样分子中间产物-添加原子动作对作为真实样本和预测样本,并对真实样本和预测样本进行向量编码得到向量表示;
将真实样本的向量表示和预测样本的向量表示分别添加任务提示符后作为预训练数据输入至预训练Transformer模型,得到真实样本和预测样本分别对应的解码数据;
依据真实样本和预测样本以及两者对应的解码数据计算回归误差,并依据回归误差构建奖励函数;
依据奖励函数的期望值通过使真实样本的奖励值最大化且预测样本的奖励值最小化来优化Transformer模型,利用奖励函数优化策略网络的参数,优化结束后,参数优化的策略网络作为分子生成模型;
利用分子生成模型生成三维空间分子。
优选地,采用最小张成树算法依据化学分子构建真实分子生成序列,包括:
从化学分子中随机选择碳原子或氮原子作为初始原子,依据最小张成树算法得到该化学分子图的原子遍历顺序,并构造一条由按照时间步排序的分子中间产物-添加原子动作对组成的真实分子生成序列,分子中间产物-添加原子动作对表示为(s,a),其中,s为当前分子中间产物,a为当前时间步应该采取的添加原子动作,形式为
Figure BDA0003942418810000031
P为当前分子中间产物s中的一个原子,Q为将要加入s的原子,d为P和Q之间的键长,键类型通过键长确定,
Figure BDA0003942418810000036
为当s中原子数量大于等于2时,新加入的边与分子中已有边的夹角,
Figure BDA0003942418810000032
为当s中原子数量大于等于3时,新加入的边构成的面PQN1与s中面PN1N2的夹角,其中,N1、N2分别是原子P的最近邻原子与次最近邻原子。
优选地,所述采用策略网络依据当前分子中间产物图生成添加原子动作,以构建预测分子生成序列,包括:
所述策略网络包含六个子网络,这六个子网络依据输入的当前分子中间产物s,分别输出
Figure BDA0003942418810000033
组成添加原子动作
Figure BDA0003942418810000034
P为当前分子中间产物s中的一个原子,Q为将要加入s的原子,d为P和Q之间的键长,键类型通过键长确定,
Figure BDA0003942418810000037
为当s中原子数量大于等于2时,新加入的边与分子中已有边的夹角,
Figure BDA0003942418810000035
为当s中原子数量大于等于3时,新加入的边构成的面PQN1与s中面PN1N2的夹角,其中,N1、N2分别是原子P的最近邻原子与次最近邻原子,T表示添加原子动作是否终止;
当前分子中间产物s和添加原子动作a组成当前时间步的分子中间产物-添加原子动作(s,a),将按照添加原子动作a在当前分子中间产物s中添加原子Q,得到下一步作为输入的分子中间产物,每个时间步的分子中间产物-添加原子动作按照时间步排序组成一条预测分子生成序列。
优选地,所述对真实样本和预测样本进行向量编码得到向量表示,包括:
真实样本和预测样本采用相同的编码方式,当真实样本和预测样本表示为分子中间产物-添加原子动作(s,a)时,首先,分子中间产物s中每个原子节点按照原子加入分子中间产物时对应的
Figure BDA0003942418810000041
的向量构造该原子节点的向量表示,得到分子中间产物的初始向量表示,然后利用可插拔的图编码模型基于初始向量表示进行编码得到分子中间产物的向量表示;
针对添加原子动作a,a中的
Figure BDA0003942418810000042
通过球面傅里叶贝塞尔基函数转换为向量表示,a中的P和Q采用one-hot编码,其中P的one-hot向量长度为s中的原子数,Q的one-hot向量长度为允许的原子类型数,
Figure BDA0003942418810000043
的向量拼接作为a的向量表示;
拼接分子中间产物s的向量表示和添加原子动作a的向量表示作为分子中间产物-添加原子动作(s,a)的向量表示。
优选地,按照以下公式将a中的
Figure BDA0003942418810000044
通过球面傅里叶贝塞尔基函数转换为向量表示
Figure BDA0003942418810000045
Figure BDA0003942418810000046
其中,c为截断距离,zln为l阶贝塞尔函数的n次跟,
Figure BDA0003942418810000047
为l阶m度球谐函数,l∈{0,…,NSHBF},n∈{1,…,NSRBF},m∈{-l,…,l},NSHBF,NSRBF分别为预先设置的球谐函数和球面贝塞尔函数的最高阶数。
优选地,当采用可插拔的图编码模型对分子中间产物进行向量编码时,优化过程中,依据奖励函数的期望值通过使真实样本的奖励值最大化且预测样本的奖励值最小化来优化图编码模型的参数。
优选地,构建的奖励函数表示为:
Figure BDA0003942418810000051
δ=||Dec(sk,ak)-[sk,ak]||2
优化Transformer模型参数的目标函数为:
Figure BDA0003942418810000052
其中,
Figure BDA0003942418810000053
表示从策略网络πθ生成的预测分子生成序列中提取的测试样本的奖励值期望,
Figure BDA0003942418810000054
表示从真实分子生成序列DE中提取的真实样本的奖励值期望,w表示优化的参数,rw(s,a)表示对分子中间产物-添加原子动作对的奖励值,δ表示Transformer模型的预测误差,[sk,ak]表示k阶滑动窗口的预测标签,具体为分子中间产物-添加原子动作对的向量表示,Dec(sk,ak)表示Transformer模型输出的解码数据,||·||2表示L2损失函数。
优选地,所述策略网络的每个子网络采用MLP,图编码模型采用schnet,优化时,采用k阶滑动窗口的对分子中间产物-添加原子动作对作为输入,进行Transformer模型的解码数据预测。
优选地,当应用于下游其他小分子生成任务时,利用小分子对分子生成模型进行微调,在微调时,固定Transformer模型和图编码模型的参数,只利用构建的奖励函数对分子生成模型再优化,直到收敛,再优化后的分子生成模型用于其他小分子的生成。
为实现上述发明目的,实施例还提供了一种基于多任务预训练逆强化学习的三维空间分子生成装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述处理器执行所述计算机程序时实现上述基于多任务预训练逆强化学习的三维空间分子生成方法。
与现有技术相比,本发明具有的有益效果至少包括:
以真实分子生成序列和基于策略网络生成的预测分子生成序列同时输入预训练的Transformer模型,基于Transformer模型的回归预测来构建奖励函数,通过奖励函数来训练策略网络,提高策略网络的预测鲁棒性,另外,在构建奖励函数时使真实样本的奖励值最大化且预测样本的奖励值最小化,优化时,智能体采取和专家行为类似的动作,缓解了奖励稀疏的问题,同时提升了参数优化效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于多任务预训练逆强化学习的三维空间分子生成方法的流程图;
图2是实施例提供的基于多任务预训练逆强化学习的三维空间分子生成方法的整体框架;
图3是实施例提供的分子生成序列构造流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1是实施例提供的基于多任务预训练逆强化学习的三维空间分子生成方法的流程图。图2是实施例提供的基于多任务预训练逆强化学习的三维空间分子生成方法的整体框架。如图1和图2所示,实施例提供的基于多任务预训练逆强化学习的三维空间分子生成方法,包括以下步骤:
步骤1,采用最小张成树算法依据化学分子构建真实分子生成序列。
实施例中,以化学分子为基础,通过最小张成树算法构建真实分子生成序列,该真实分子生成序列用于指导构建策略网络的奖励函数。
具体地,从化学分子中随机选择碳原子或氮原子作为初始原子,通过多次随机选择初始原子,为每个化学分子构造多条真实分子生成序列。以初始原子为起始,依据最小张成树算法得到该化学分子图的原子遍历顺序,并构造一条由按照时间步排序的分子中间产物-添加原子动作对组成的真实分子生成序列,分子中间产物-添加原子动作对表示为(s,a),描述了新加入原子在三维空间的位置信息。其中,s为当前分子中间产物,a为当前时间步应该采取的添加原子动作,形式为
Figure BDA0003942418810000071
P为当前分子中间产物s中的一个原子,Q为将要加入s的原子,d为P和Q之间的键长,键类型通过键长确定,
Figure BDA0003942418810000079
为当s中原子数量大于等于2时,新加入的边与分子中已有边的夹角,
Figure BDA0003942418810000072
为当s中原子数量大于等于3时,新加入的边构成的面PQN1与s中面PN1N2的夹角,其中,N1、N2分别是原子P的最近邻原子与次最近邻原子,如图3所示。
步骤2,采用策略网络依据当前分子中间产物生成添加原子动作,以构建预测分子生成序列。
实施例中,所述策略网络包含六个子网络,分别表示为
Figure BDA0003942418810000073
Figure BDA0003942418810000074
以及
Figure BDA0003942418810000075
子网络可以采用单隐层MLP,依据输入的当前分子中间产物s,分别输出
Figure BDA0003942418810000076
T表示添加原子动作否终止(Termial)。具体地,策略网络先判断是否终止并输出预测分子,若不终止,则继续执行添加原子动作。其中,子网络
Figure BDA0003942418810000077
对当前分子中间产物s中每个原子进行打分,在在超过阈值的节点中随机选择一个作为输出。
Figure BDA0003942418810000078
组成添加原子动作
Figure BDA0003942418810000081
P为当前分子中间产物s中的一个原子,Q为将要加入s的原子,d为P和Q之间的键长,键类型通过键长确定,
Figure BDA0003942418810000087
为当s中原子数量大于等于2时,新加入的边与分子中已有边的夹角,
Figure BDA0003942418810000082
为当s中原子数量大于等于3时,新加入的边构成的面PQN1与s中面PN1N2的夹角,其中,N1、N2分别是原子P的最近邻原子与次最近邻原子。
当前分子中间产物s和添加原子动作a组成当前时间步的分子中间产物-添加原子动作(s,a),将按照添加原子动作a在当前分子中间产物s中添加原子Q,得到下一步作为输入的分子中间产物,每个时间步的分子中间产物-添加原子动作按照时间步排序组成一条预测分子生成序列。
步骤3,分别从真实分子序列和预测分子生成序列中采样分子中间产物-添加原子动作对作为真实样本和预测样本,并对真实样本和预测样本进行向量编码得到向量表示。
实施例中,真实样本和预测样本采用相同的编码方式,当真实样本和预测样本表示为分子中间产物-添加原子动作(s,a)时,首先,分子中间产物s中每个原子节点按照原子加入分子中间产物时对应的
Figure BDA0003942418810000083
的向量构造该原子节点的向量表示,得到分子中间产物的初始向量表示,然后利用可插拔的图编码模型基于初始向量表示进行编码得到分子中间产物的向量表示。其中,图编码模型可以采用schnet、spherenet等一些三维分子图编码模型、MLP,VAE等通用表示模型。
针对添加原子动作a,a中的
Figure BDA0003942418810000084
通过球面傅里叶贝塞尔基函数转换为向量表示,a中的P和Q采用one-hot编码,其中P的one-hot向量长度为s中的原子数,Q的one-hot向量长度为允许的原子类型数,
Figure BDA0003942418810000085
的向量拼接作为a的向量表示;
具体地,按照以下公式将a中的
Figure BDA0003942418810000086
通过球面傅里叶贝塞尔基函数转换为向量表示
Figure BDA0003942418810000091
Figure BDA0003942418810000092
其中,c为截断距离,zln为l阶贝塞尔函数的n次跟,
Figure BDA0003942418810000093
为l阶m度球谐函数,l∈{0,…,NSHBF},n∈{1,…,NSRBF},m∈{-l,…,l},NSHBF,NSRBF分别为预先设置的球谐函数和球面贝塞尔函数的最高阶数。
拼接分子中间产物s的向量表示和添加原子动作a的向量表示作为分子中间产物-添加原子动作(s,a)的向量表示。
步骤4,将真实样本的向量表示和预测样本的向量表示分别添加任务提示符后作为预训练数据输入至Transformer模型,得到真实样本和预测样本分别对应的解码数据。
实施例中,采用多任务数据集共同训练,不同任务之间通过任务提示符区分以提高Transformer模型泛化能力。具体将任务提示符与状态动作对的向量表示进行拼接,拼接后向量作为预训练的Transformer模型作为输入。
步骤5,依据真实样本和预测样本以及两者对应的解码数据计算回归误差,并依据回归误差构建奖励函数。
实施例中,构建的奖励函数表示为:
Figure BDA0003942418810000094
δ=||Dec(sk,ak)-[sk,ak]||2
其中,w表示优化的策略网络参数,rw(s,a)表示对分子中间产物-添加原子动作对的奖励值,δ表示Transformer模型的预测误差,[sk,ak]表示k阶滑动窗口的预测标签,具体为分子中间产物-添加原子动作对作的向量表示,Dec(sk,ak)表示Transformer模型输出的解码数据,||·||2表示L2损失函数。
步骤6,利用奖励函数优化策略网络的参数,依据奖励函数的期望值通过使真实样本的奖励值最大化且预测样本的奖励值最小化来优化Transformer模型和图编码模型,优化结束后,参数优化的策略网络作为分子生成模型。
实施例中,依据奖励函数的期望值通过使真实样本的奖励值最大化且预测样本的奖励值最小化来优化Transformer模型和图编码模型,具体优化目标为:
Figure BDA0003942418810000101
Figure BDA0003942418810000102
表示从策略网络πθ生成的预测分子生成序列中提取的测试样本的奖励值期望,
Figure BDA0003942418810000103
表示从真实分子生成序列DE中提取的真实样本的奖励值期望。
实施例中,还依据奖励函数优化策略网络的参数,优化目标为最大化分子生成序列的累计奖励值:
Figure BDA0003942418810000104
其中,T为预测序列的长度,当原子数达到设置的最大数量或者策略网络主动终止生成时,预测分子生成完毕并输出。
具体优化时,从预测分子生成序列中采样一个批次(s,a),从真实分子生成序列中采样一个批次(s,a),将两批数据结合为一个批次,采用k阶滑动窗口进行单时间步(s,a)的预测,通过差异化真实样本和预测样本的预测误差来优化Transformer模型的以及图编码模型的参数。之后,通过累积奖励函数来优化策略网络。
实施例中,优化策略网络的算法,具体可以采用强化学习策略优化算法。该强化学习策略优化算法包括PPO,PRTO,DDPG等。优化结束后,以参数优化的策略网络作为分子生成模型。
步骤7,利用分子生成模型生成三维空间分子。
实施例中,利用分子生成模型生成三维空间分子时,以单个原子作为当前分子中间产物,并利用分子生成模型依据当前分子中间产物生成添加原子动作,依据添加原子动作构建下一步的分子中间产物,然后再利用分子生成模型依据下一步的分子中间产物生成下两步的分子中间产物,依此类推,来不断更新分子中间产物,以构建三维空间分子。
实施例中,当需要应用到下游其他小分子生成任务时,利用小分子对分子生成模型进行微调,在微调时,固定Transformer模型和图编码模型的参数,只利用构建的奖励函数对分子生成模型再优化,直到收敛,得到适用于特定任务的策略网络,再优化后的策略网络作为分子生成模型用于其他小分子的生成。以生成满足特定性质的新分子。
基于同样的发明构思,实施例还提供了一种基于多任务预训练逆强化学习的三维空间分子生成装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,处理器执行计算机程序时实现上述步骤1-步骤7的步骤。
具体应用时,计算机存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现基于多任务预训练逆强化学习的三维空间分子生成装置。
上述实施例提供的三维空间分子生成方法和装置,基于逆强化学习构造分子中间产物的奖励函数,缓解生成学习奖励稀疏的问题,同时建立分子生成行为与待优化分子性质之间的联系。
上述实施例提供的三维空间分子生成方法和装置是目前率先使用预训练Transformer模型的预测结果来构建对抗逆强化学习行为判别的奖励函数。不同于现有的可能会过拟合单步动作中局部差异的二分类器奖励函数,基于序列建模的行为判别方式能有效判别序列的全局动态行为,避免过拟合。
上述实施例提供的三维空间分子生成方法和装置中,构建多任务预训练的Transformer模型,通过多个数据集上的分子生成任务获得分子生成的共享知识,实现知识迁移,以便更好地学习三维空间分子图包含的结构知识和领域知识。
不同于现有的难以泛化到分子生成中间产物的基于完整分子的性质预测器和运行代价高的物理模拟器奖励函数,上述实施例提供的三维空间分子生成方法和装置中,提出使用分子生成行为的奖励函数,将真实分子的生成步骤序列作为专家指导,以学习更具有指导性的中间奖励,提高学习效率。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多任务预训练逆强化学习的三维空间分子生成方法,其特征在于,包括以下步骤:
采用最小张成树算法依据化学分子构建真实分子生成序列;
采用策略网络依据当前分子中间产物生成添加原子动作,以构建预测分子生成序列;
分别从真实分子序列和预测分子生成序列中采样分子中间产物-添加原子动作对作为真实样本和预测样本,并对真实样本和预测样本进行向量编码得到向量表示;
将真实样本的向量表示和预测样本的向量表示分别添加任务提示符后作为预训练数据输入至Transformer模型,得到真实样本和预测样本分别对应的解码数据;
依据真实样本和预测样本以及两者对应的解码数据计算回归误差,并依据回归误差构建奖励函数;
依据奖励函数的期望值通过使真实样本的奖励值最大化且预测样本的奖励值最小化来优化Transformer模型,利用奖励函数优化策略网络的参数,优化结束后,参数优化的策略网络作为分子生成模型;
利用分子生成模型生成三维空间分子。
2.根据权利要求1所述的基于多任务预训练逆强化学习的三维空间分子生成方法,其特征在于,采用最小张成树算法依据化学分子构建真实分子生成序列,包括:
从化学分子中随机选择碳原子或氮原子作为初始原子,依据最小张成树算法得到该化学分子图的原子遍历顺序,并构造一条由按照时间步排序的分子中间产物-添加原子动作对组成的真实分子生成序列,分子中间产物-添加原子动作对表示为(s,a),其中,s为当前分子中间产物,a为当前时间步应该采取的添加原子动作,形式为
Figure FDA0003942418800000021
P为当前分子中间产物s中的一个原子,Q为将要加入s的原子,d为P和Q之间的键长,键类型通过键长确定,
Figure FDA0003942418800000022
为当s中原子数量大于等于2时,新加入的边与分子中已有边的夹角,
Figure FDA0003942418800000023
为当s中原子数量大于等于3时,新加入的边构成的面PQN1与s中面PN1N2的夹角,其中,N1、N2分别是原子P的最近邻原子与次最近邻原子。
3.根据权利要求1所述的基于多任务预训练逆强化学习的三维空间分子生成方法,其特征在于,所述采用策略网络依据当前分子中间产物图生成添加原子动作,以构建预测分子生成序列,包括:
所述策略网络包含六个子网络,这六个子网络依据输入的当前分子中间产物s,分别输出P,Q,d,
Figure FDA0003942418800000024
T,组成添加原子动作
Figure FDA0003942418800000025
P为当前分子中间产物s中的一个原子,Q为将要加入s的原子,d为P和Q之间的键长,键类型通过键长确定,
Figure FDA0003942418800000026
为当s中原子数量大于等于2时,新加入的边与分子中已有边的夹角,
Figure FDA0003942418800000027
为当s中原子数量大于等于3时,新加入的边构成的面PQN1与s中面PN1N2的夹角,其中,N1、N2分别是原子P的最近邻原子与次最近邻原子,T表示添加原子动作是否终止;
当前分子中间产物s和添加原子动作a组成当前时间步的分子中间产物-添加原子动作(s,a),将按照添加原子动作a在当前分子中间产物s中添加原子Q,得到下一步作为输入的分子中间产物,每个时间步的分子中间产物-添加原子动作按照时间步排序组成一条预测分子生成序列。
4.根据权利要求2或3所述的基于多任务预训练逆强化学习的三维空间分子生成方法,其特征在于,所述对真实样本和预测样本进行向量编码得到向量表示,包括:
真实样本和预测样本采用相同的编码方式,当真实样本和预测样本表示为分子中间产物-添加原子动作(s,a)时,首先,分子中间产物s中每个原子节点按照原子加入分子中间产物时对应的d,
Figure FDA0003942418800000031
的向量构造该原子节点的向量表示,得到分子中间产物的初始向量表示,然后利用可插拔的图编码模型基于初始向量表示进行编码得到分子中间产物的向量表示;
针对添加原子动作a,a中的d,
Figure FDA0003942418800000032
通过球面傅里叶贝塞尔基函数转换为向量表示,a中的P和Q采用one-hot编码,其中P的one-hot向量长度为s中的原子数,Q的one-hot向量长度为允许的原子类型数,P,Q,d,
Figure FDA0003942418800000033
的向量拼接作为a的向量表示;
拼接分子中间产物s的向量表示和添加原子动作a的向量表示作为分子中间产物-添加原子动作(s,a)的向量表示。
5.根据权利要求4所述的基于多任务预训练逆强化学习的三维空间分子生成方法,其特征在于,按照以下公式将a中的d,
Figure FDA0003942418800000034
通过球面傅里叶贝塞尔基函数转换为向量表示
Figure FDA0003942418800000035
Figure FDA0003942418800000036
其中,c为截断距离,zln为l阶贝塞尔函数的n次跟,
Figure FDA0003942418800000037
为l阶m度球谐函数,l∈{0,…,NSHBF},n∈{1,…,NSRBF},m∈{-l,…,l},NSHBF,NSRBF分别为预先设置的球谐函数和球面贝塞尔函数的最高阶数。
6.根据权利要求4所述的基于多任务预训练逆强化学习的三维空间分子生成方法,其特征在于,当采用可插拔的图编码模型对分子中间产物进行向量编码时,优化过程中,依据奖励函数的期望值通过使真实样本的奖励值最大化且预测样本的奖励值最小化来优化图编码模型的参数。
7.根据权利要求1所述的基于多任务预训练逆强化学习的三维空间分子生成方法,其特征在于,构建的奖励函数表示为:
Figure FDA0003942418800000041
δ=||Dec(sk,ak)-[sk,ak]||2
优化Transformer模型参数的目标函数为:
Figure FDA0003942418800000042
其中,
Figure FDA0003942418800000043
表示从策略网络πθ生成的预测分子生成序列中提取的测试样本的奖励值期望,
Figure FDA0003942418800000044
表示从真实分子生成序列DE中提取的真实样本的奖励值期望,w表示优化的参数,rw(s,a)表示对分子中间产物-添加原子动作对的奖励值,δ表示Transformer模型的预测误差,[sk,ak]表示k阶滑动窗口的预测标签,具体为分子中间产物-添加原子动作对的向量表示,Dec(sk,ak)表示Transformer模型输出的解码数据,||·||2表示2损失函数。
8.根据权利要求4所述的基于多任务预训练逆强化学习的三维空间分子生成方法,其特征在于,所述策略网络的每个子网络采用MLP,图编码模型采用schnet,优化时,采用k阶滑动窗口的对分子中间产物-添加原子动作对作为输入,进行Transformer模型的解码数据预测。
9.根据权利要求4所述的基于多任务预训练逆强化学习的三维空间分子生成方法,其特征在于,当应用于下游其他小分子生成任务时,利用小分子对分子生成模型进行微调,在微调时,固定Transformer模型和图编码模型的参数,只利用构建的奖励函数对分子生成模型再优化,直到收敛,再优化后的分子生成模型用于其他小分子的生成。
10.一种基于多任务预训练逆强化学习的三维空间分子生成装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-9任一项所述的基于多任务预训练逆强化学习的三维空间分子生成方法。
CN202211426292.6A 2022-11-14 2022-11-14 基于多任务预训练逆强化学习的三维空间分子生成方法和装置 Pending CN115831261A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211426292.6A CN115831261A (zh) 2022-11-14 2022-11-14 基于多任务预训练逆强化学习的三维空间分子生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211426292.6A CN115831261A (zh) 2022-11-14 2022-11-14 基于多任务预训练逆强化学习的三维空间分子生成方法和装置

Publications (1)

Publication Number Publication Date
CN115831261A true CN115831261A (zh) 2023-03-21

Family

ID=85528170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211426292.6A Pending CN115831261A (zh) 2022-11-14 2022-11-14 基于多任务预训练逆强化学习的三维空间分子生成方法和装置

Country Status (1)

Country Link
CN (1) CN115831261A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117114078A (zh) * 2023-10-23 2023-11-24 中国科学技术大学 提升连续控制机器人训练效率的方法、设备及存储介质
CN117524353A (zh) * 2023-11-23 2024-02-06 大连理工大学 一种基于多维度分子信息的分子大模型、构建方法及应用
CN117594157A (zh) * 2024-01-19 2024-02-23 烟台国工智能科技有限公司 基于强化学习的单一体系的分子生成方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117114078A (zh) * 2023-10-23 2023-11-24 中国科学技术大学 提升连续控制机器人训练效率的方法、设备及存储介质
CN117114078B (zh) * 2023-10-23 2024-02-23 中国科学技术大学 提升连续控制机器人训练效率的方法、设备及存储介质
CN117524353A (zh) * 2023-11-23 2024-02-06 大连理工大学 一种基于多维度分子信息的分子大模型、构建方法及应用
CN117524353B (zh) * 2023-11-23 2024-05-10 大连理工大学 一种基于多维度分子信息的分子大模型、构建方法及应用
CN117594157A (zh) * 2024-01-19 2024-02-23 烟台国工智能科技有限公司 基于强化学习的单一体系的分子生成方法及装置
CN117594157B (zh) * 2024-01-19 2024-04-09 烟台国工智能科技有限公司 基于强化学习的单一体系的分子生成方法及装置

Similar Documents

Publication Publication Date Title
CN115831261A (zh) 基于多任务预训练逆强化学习的三维空间分子生成方法和装置
Zhang et al. D-vae: A variational autoencoder for directed acyclic graphs
CN111406267B (zh) 使用性能预测神经网络的神经架构搜索
CN110970099A (zh) 一种基于正则化变分自动编码器的药物分子生成方法
CN111508568A (zh) 分子生成方法、装置及计算机可读存储介质和终端设备
WO2024032096A1 (zh) 反应物分子的预测方法、训练方法、装置以及电子设备
Dolgikh Spontaneous concept learning with deep autoencoder
EP3903239A1 (en) Identifying neural networks that generate disentangled representations
Singh et al. Edge proposal sets for link prediction
CN115244546A (zh) 确定性解码器变分自动编码器
Boinee et al. Meta random forests
KR20230141683A (ko) Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램
CN116306793A (zh) 一种基于对比孪生网络的具有目标任务指向性的自监督学习方法
CN113177393B (zh) 改进针对网页结构理解的预训练语言模型的方法和装置
Tibaldi et al. Bayesian optimization for QAOA
CN113887471A (zh) 基于特征解耦和交叉对比的视频时序定位方法
CN116779061A (zh) 交互式药物分子设计方法、装置、电子设备及介质
Kocacoban et al. Fast online learning in the presence of latent variables
Vemgal et al. An empirical study of the effectiveness of using a replay buffer on mode discovery in gflownets
CN112419098B (zh) 基于安全信息熵的电网安全稳定仿真样本筛选扩充方法
Struski et al. Feature-Based Interpolation and Geodesics in the Latent Spaces of Generative Models
CN114091429A (zh) 基于异构图神经网络的文本摘要生成方法及系统
Solomonoff Algorithmic probability–its discovery–its properties and application to strong AI
Pathak et al. Scalable deep document/sequence reasoning with cognitive toolkit
LIPTÁK et al. Constructing unrooted phylogenetic trees with reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination