CN114627981A

CN114627981A - 化合物分子结构的生成方法及装置、非易失性存储介质

Info

Publication number: CN114627981A
Application number: CN202011467155.8A
Authority: CN
Inventors: 张奇; 孙晋权; 王宇
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2022-06-14
Also published as: US20220198330A1

Abstract

本申请公开了一种化合物分子结构的生成方法及装置、非易失性存储介质。其中，该方法包括：基于第一回报和第二回报训练目标智能体，其中，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；通过上述目标智能体生成目标化合物分子结构。本申请解决了现有技术中存在智能体生成序列过程和预训练过程不吻合，以及无法生成满足预期的小分子化合物结构的技术问题。

Description

化合物分子结构的生成方法及装置、非易失性存储介质

技术领域

本申请涉及分子结构生成技术领域，具体而言，涉及一种化合物分子结构的生成方法及装置、非易失性存储介质。

背景技术

REINVENT方法(一种小分子化合物生成方法)首次提出利用强化学习方法训练SMILES(简化分子线性输入规范)生成智能体，将生成序列在预训练模型上对数似然作为回报，使智能体能够生成和训练集同分布的SMILES序列。由于REINVENT方法存在生成小分子序列多样性不足的问题，DrugEx方法(另一种小分子化合物生成方法)对智能体的训练过程进行了改进，在训练过程中对探索和利用进行权衡。

但是，上述现有的小分子序列生成方法仍然存在以下问题：1.小分子化合物结构生成智能体生成序列过程和预训练过程不吻合，导致曝光误差；2.SMILE序列生成过程不可控，不能生成具有特定性质的小分子化合物。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种化合物分子结构的生成方法及装置、非易失性存储介质，以至少解决现有技术中存在智能体生成序列过程和预训练过程不吻合，以及无法生成满足预期的小分子化合物结构的技术问题。

根据本申请实施例的一个方面，提供了一种化合物分子结构的生成方法，包括：基于第一回报和第二回报训练目标智能体，其中，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；通过上述目标智能体生成目标化合物分子结构。

根据本申请实施例的另一方面，还提供了一种化合物分子结构的生成方法，包括：向服务端发起请求消息，其中，上述请求消息用于请求上述服务端上的目标智能体生成目标化合物分子结构，上述目标智能体基于第一回报和第二回报训练得到，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；接收上述服务端返回的与上述请求消息对应的响应消息，其中，上述响应消息中携带的信息包括：上述目标化合物分子结构。

根据本申请实施例的另一方面，还提供了一种化合物分子结构的生成方法，包括：接收来自于客户端的请求消息，其中，上述请求消息用于请求服务端本地的目标智能体生成目标化合物分子结构，上述目标智能体基于第一回报和第二回报训练得到，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；响应于上述请求消息，向上述客户端返回响应消息，其中，上述响应消息中携带的信息包括：上述目标化合物分子结构。

根据本申请实施例的另一方面，还提供了一种化合物分子结构的生成装置，包括：训练模块，用于基于第一回报和第二回报训练目标智能体，其中，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；生成模块，用于通过上述目标智能体生成目标化合物分子结构。

根据本申请实施例的另一方面，还提供了一种非易失性存储介质，上述非易失性存储介质包括存储的程序，其中，在上述程序运行时控制上述非易失性存储介质所在设备执行任意一项上述的化合物分子结构的生成方法。

根据本申请实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：基于第一回报和第二回报训练目标智能体，其中，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；通过上述目标智能体生成目标化合物分子结构。

在本申请实施例中，通过基于第一回报和第二回报训练目标智能体，其中，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；通过上述目标智能体生成目标化合物分子结构。

由于在预训练过程采用计划采样的方法，基于第一回报和第二回报训练目标智能体，使得基于目标智能体生成小分子化合物结构的过程和预训练过程更加吻合。由于该第一回报为通过目标神经网络模型的模型似然确定的回报，上述第二回报为按照目标需求自定义的回报，使得生成的小分子化合物结构能够满足用户对生成小分子化合物结构的特定期望，实现小分子化合物结构生成过程的部分可控；并且，还可以实现使得目标智能体在模拟已有分布的同时能够“自有发挥”，生成更多新颖的小分子化合物结构。

由此，通过本申请实施例达到了使得基于目标智能体生成小分子化合物结构的过程和预训练过程更加吻合，以及生成满足预期的小分子化合物结构的目的，从而实现了提升小分子化合物结构的生成效率和可控性的技术效果，进而解决了现有技术中存在智能体生成序列过程和预训练过程不吻合，以及无法生成满足预期的小分子化合物结构的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现化合物分子结构的生成方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种化合物分子结构的生成方法的流程图；

图3是根据本申请实施例的另一种化合物分子结构的生成方法的流程图；

图4是根据本申请实施例的另一种化合物分子结构的生成方法的流程图；

图5是根据本申请实施例的一种化合物分子结构的生成装置的结构示意图；

图6是根据本申请实施例的另一种化合物分子结构的生成装置的结构示意图；

图7是根据本申请实施例的另一种化合物分子结构的生成装置的结构示意图；

图8是根据本申请实施例的一种电子设备的结构示意图；

图9是根据本申请实施例的另一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

药物小分子结构设计：是指生成具有全新母核骨架、初步生物活性的化合物，作为药物小分子的核心结构。

智能体：属于人工智能领域范畴，是指驻留在某一环境下，能够持续自主的发挥作用，具备驻留性、反应性、社会性、主动性等特征的计算机实体，可以看作是能够通过传感器感知其环境，并执行作用于该环境的行动，即可以是硬件(如机器人)也可以是软件。

计划采样：是指通过设立一个概率值，用于决定解码时每一步的输入。

强化学习：用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

实施例1

根据本申请实施例，提供了一种化合物分子结构的生成方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现化合物分子结构的生成方法的计算机终端(或移动设备)的硬件结构框图，如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的化合物分子结构的生成方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的化合物分子结构的生成方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的一种化合物分子结构的生成方法。图2是根据本申请实施例的一种化合物分子结构的生成方法的流程图，如图2所示，上述化合物分子结构的生成方法，包括：

步骤S202，基于第一回报和第二回报训练目标智能体，其中，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；

步骤S204，通过上述目标智能体生成目标化合物分子结构。

可选的，本申请实施例所提供的化合物分子结构的生成方法，可以理解为一种可定制的基于计划采样的小分子药物结构的生成方法，相比较现有技术中存在的生成方法，本申请实施例通过在预训练过程中引入计划采用，即基于第一回报和第二回报训练目标智能体，使得基于目标智能体生成小分子化合物结构的过程和预训练过程更加吻合，避免出现曝光误差exposure bias的问题。

需要说明的是，通过本申请实施例所提供的化合物分子结构的生成方法，在实际应用场景下的输入是已有小分子化合物分子结构集合，输出是具有用户期望物理化学性质的新颖的小分子化合物结构，可以实现为用户提供小分子药物设计服务，即定制生成具有用户期望的特征或者性质的新颖分子结构。

在一种可选的实施例中，基于上述第一回报和上述第二回报训练上述目标智能体包括：

步骤S302，获取初始智能体；

步骤S304，将上述初始智能体生成的小分子化合物结构序列在上述目标神经网络模型上的模型似然确定为上述第一回报，以及将按照上述目标需求设置的分子结构限定条件确定为上述第二回报；

步骤S306，对上述第一回报和上述第二回报进行汇总处理，得到处理结果；

步骤S308，基于上述处理结果，利用策略梯度算法将上述初始智能体更新为上述目标智能体。

可选的，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报。

可选的，上述小分子化合物结构序列可以是由多个原子字符组成的序列，小分子化合物序列中的氢原子一般是省略的，还有少量字符表示化学键，以及少量括号字符表示分支。

可选的，上述初始智能实体为用于生成分子化合物结构的初始计算机实体，例如，智能机器、智能软件等，上述目标智能实体为通过对初始智能实体进行计划采样和更新处理之后，得到的目标计算机实体，例如，目标智能机器、目标智能软件等。

作为一种可选的实施例，可以通过定义初始智能体生成的小分子化合物结构(SMILE)序列在上述目标神经网络模型上的模型似然作为第一回报R1：

生成过程的动作序列A＝a₁，a₂，...，a_T即为生成的小分子化合物SMILES表示，s_t为预训练神经网络模型当前的细胞状态。

在本申请实施例中，通过采用计划采样的方式，确定上述第一回报R1，使得初始智能体生成的SMILE序列更够在预训练网络上似然更高，即和已有的小分子化合物结构(SMILE)序列集合的分布更加吻合；同时由于预训练过程采用计划采样的方法，使得目标智能体在模拟已有分布的同时能够“自有发挥”，生成更多新颖的小分子化合物结构。

作为一种可选的实施例，可以根据具体的目标需求设置的分子结构限定条件对生成SMILE序列定义第二回报R2，例如，如果期望生成的小分子化合物结构中不包含Cl原子，则通过如下方式定义第二回报R2：

当R₂(A)＝1，则期望生成的小分子化合物结构中不包含C1原子，且分子结构是有效的；

当R₂(A)＝0，则期望生成的小分子化合物结构是有效的；

当R₂(A)＝-1，则期望生成的小分子化合物结构中不包含C1原子。

在本申请实施例中，通过按照目标需求设置的分子结构限定条件确定为第二回报，即定制化确定第二回报，可以实现小分子结构生成过程的部分可控，能够达到生成条件小分子化合物结构的目的。

在确定第一回报和第二回报之后，通过对上述第一回报和上述第二回报进行汇总处理，得到处理结果；基于上述处理结果，利用策略梯度算法将上述初始智能体更新为上述目标智能体。

可选的，上述策略梯度算法可以为蒙特卡洛的策略梯度方法，在本申请实施例中，可以通过利用策略梯度算法训练小分子化合物结构生成目标智能体。

在一种可选的实施例中，上述目标神经网络模型为循环神经网络模型，上述方法还包括：

步骤S402，通过上述循环神经网络模型中至少一步的当前单元状态确定当前步对应的小分子化合物结构字符；

步骤S404，将上述循环神经网络模型中至少一步对应的小分子化合物结构字符组合成上述小分子化合物结构序列。

在本申请实施例中，上述目标神经网络模型为循环神经网络RNN模型，将RNN模型作为部分可观测的马尔可夫决策过程，在该过程中，RNN模型根据每一步的当前单元状态确定当前步对应的动作，即小分子化合物结构(SMILES)字符，再通过将上述循环神经网络模型中至少一步对应的小分子化合物结构字符组合成上述小分子化合物结构序列，例如，每一步对应的小分子化合物结构字符a₁、a₂……a_T组合成上述小分子化合物结构序列A，即小分子化合物结构序列A＝a₁、a₂……a_T。

在一种可选的实施例中，上述方法还包括：

步骤S502，获取小分子化合物结构序列集合；

步骤S504，获取上述至少一个小分子化合物结构序列中每个小分子化合物结构序列对应的字典；

步骤S506，为每个小分子化合物结构序列添加第一标识符和第二标识符，以及为每个小分子化合物结构序列对应的字典添加上述第一标识符和上述第二标识符。

在本申请实施例中，上述小分子化合物结构序列集合包括：至少一个小分子化合物结构序列。

可选的，由于上述第一标识符用于指示起始位置，上述第二标识符用于指示结束位置，则该第一标识符可以用GO标识符表示，该第二标识符可以用END标识符表示。

在一种可选的实施例中，上述方法还包括：

步骤S602，基于上述小分子化合物结构序列集合对初始神经网络模型进行预训练，得到上述目标神经网络模型。

通过获取小分子化合物结构序列集合，并预处理小分子化合物序列集合，获取每个小分子化合物结构序列对应的字典，在每个小分子化合物结构序列的起始位置添加GO标识符，以及在每个小分子化合物结构序列的结束位置加上END标识符，便于之后利用小分子化合物结构序列集合预训练RNN模型，以及指导RNN模型起始位置和结束位置生成目标化合物分子结构，并且在字典中加入GO标识符和END标识符。

其中，上述预处理是为了获取字典，也同时为了在小分子化合物结构序列的首尾添加标识符，本申请实施例中通过借鉴词向量的思想，该字典用于确定一个嵌入矩阵(embedding matrix)，嵌入矩阵可以在RNN模型中的每一步输入，将每个小分子字符转化为实值向量。

需要说明的是，上述嵌入矩阵是一个二维矩阵，一维是字典的大小，另一维是嵌入向量的长度，可以在每一步的输入时，将当前步的原子字符(例如，化学元素)查该嵌入矩阵得到一个一维的向量，相当于是将每个原子字符通过查询嵌入矩阵转化为一个向量表示，作为RNN模型的输入参数。

在一种可选的实施例中，基于上述小分子化合物结构序列集合对上述初始神经网络模型进行预训练，得到上述目标神经网络模型包括：

步骤S702，从上述小分子化合物结构序列集合中选取待训练小分子化合物结构序列；

步骤S704，利用上述待训练小分子化合物结构序列对应的字典，将上述待训练小分子化合物结构序列中的与上述初始神经网络模型中每一步对应的字符转化为向量表示；

步骤S706，将上述第一标识符设置为上述初始神经网络模型的输入参数，在上述初始神经网络模型中按步生成小分子化合物结构序列；

步骤S708，统计上述初始神经网络模型中每一步对应的损失值，得到统计结果；

步骤S710，基于上述统计结果，利用基于时间的反向传播算法将上述初始神经网络模型更新为上述目标神经网络模型。

在本申请实施例中，可以通过如下可选的实现步骤，基于上述小分子化合物结构序列集合对上述初始神经网络模型进行预训练，得到上述目标神经网络模型：

首先，从上述小分子化合物结构序列集合中选取待训练小分子化合物结构序列；并利用上述待训练小分子化合物结构序列对应的字典，将上述待训练小分子化合物结构序列中的与上述初始神经网络模型中每一步对应的字符转化为向量表示。

其次，采用“GO标识符”作为RNN模型的输入参数，开始在初始神经网络模型中按步生成小分子化合物结构序列。

再次，通过统计上述初始神经网络模型中每一步对应的损失值log_loss，通过求和计算得到统计结果；基于上述统计结果，利用基于时间的反向传播算法(back-propagation through time)将上述初始神经网络模型更新为上述目标神经网络模型。

在一种可选的实施例中，上述方法还包括：

步骤S802，基于第一数量和第二数量计算上述初始神经网络模型中每一步对应的采样概率；

步骤S804，利用上述初始神经网络模型中每一步对应的采样概率进行贝努利试验，得到每一步对应的计算结果；

步骤S806，当上述计算结果为第一数值时，将上述待训练小分子化合物结构序列中与上一步对应字符转化的向量表示设置为当前步的输入参数；当上述计算结果为第二数值时，将上一步的输出参数设置为当前步的输入参数。

在本申请实施例中，上述第一数量为预训练过程中在上述小分子化合物结构序列集合上迭代的当前次数epoch_num，上述第二数量为预训练过程中在上述小分子化合物结构序列集合上迭代的总体次数total_epoch。

可选的，上述采样概率可以为伯努利采样的参数p_ber。在本申请实施例中，可以根据第一数量epoch_num和第二数量total_epoch计算按照如下的计算公式，计算上述初始神经网络模型中每一步对应的采样概率。

其中，上述epoch_num表示在小分子库集合上迭代的当前次数，total_epoch表示需要在小分子库集合上迭代的总次数。

在得到初始神经网络模型中每一步对应的采样概率之后，利用上述初始神经网络模型中每一步对应的采样概率作为贝努利分布的试验参数，进行贝努利试验，得到每一步对应的计算结果；若计算结果为1时则将待训练小分子化合物结构序列中与上一步对应字符转化的向量，即真实的向量值(ground truth input)作为当前步的输入参数，当结果为0时，将上一步的输出参数设置为当前步的输入参数。

在本申请实施例中，采用上述计算方式进行采样计算保证了在训练过程的初始阶段，RNN模型的每一步的输入参数更倾向于选择上一步的输出参数作为当前步的输入参数，保证输入参数在刚开始训练时，能够更快的收敛。在训练过程即将结束时，能够探索更多的可能性。

根据本申请实施例，提供了如图3所示的另一种化合物分子结构的生成方法。图3是根据本申请实施例的另一种化合物分子结构的生成方法的流程图，如图3所示，上述化合物分子结构的生成方法，包括：

步骤S902，向服务端发起请求消息，其中，上述请求消息用于请求上述服务端上的目标智能体生成目标化合物分子结构，上述目标智能体基于第一回报和第二回报训练得到，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；

步骤S904，接收上述服务端返回的与上述请求消息对应的响应消息，其中，上述响应消息中携带的信息包括：上述目标化合物分子结构。

在本申请实施例中，通过客户端向服务端发起请求消息，其中，上述请求消息用于请求上述服务端上的目标智能体生成目标化合物分子结构，上述目标智能体基于第一回报和第二回报训练得到，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；接收上述服务端返回的与上述请求消息对应的响应消息，其中，上述响应消息中携带的信息包括：上述目标化合物分子结构。

需要说明的是，上述步骤S902至步骤S904的执行主体为SaaS客户端。通过本申请实施例所提供的化合物分子结构的生成方法，在实际应用场景下的输入是已有小分子化合物分子结构集合，输出是具有用户期望物理化学性质的新颖的小分子化合物结构，可以实现为用户提供小分子药物设计服务，即定制生成具有用户期望的特征或者性质的新颖分子结构。

根据本申请实施例，提供了如图4所示的另一种化合物分子结构的生成方法。图4是根据本申请实施例的另一种化合物分子结构的生成方法的流程图，如图4所示，上述化合物分子结构的生成方法，包括：

步骤S1002，接收来自于客户端的请求消息，其中，上述请求消息用于请求服务端本地的目标智能体生成目标化合物分子结构，上述目标智能体基于第一回报和第二回报训练得到，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；

步骤S1004，响应于上述请求消息，向上述客户端返回响应消息，其中，上述响应消息中携带的信息包括：上述目标化合物分子结构。

在本申请实施例中，通过服务端接收来自于客户端的请求消息，其中，上述请求消息用于请求服务端本地的目标智能体生成目标化合物分子结构，上述目标智能体基于第一回报和第二回报训练得到，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；响应于上述请求消息，向上述客户端返回响应消息，其中，上述响应消息中携带的信息包括：上述目标化合物分子结构。

需要说明的是，上述步骤S1002至步骤S1004的执行主体为SaaS服务端。通过本申请实施例所提供的化合物分子结构的生成方法，在实际应用场景下的输入是已有小分子化合物分子结构集合，输出是具有用户期望物理化学性质的新颖的小分子化合物结构，可以实现为用户提供小分子药物设计服务，即定制生成具有用户期望的特征或者性质的新颖分子结构。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个非易失性存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例上述的方法。

实施例2

根据本申请实施例，还提供了一种用于实施上述化合物分子结构的生成方法的装置实施例，图5是根据本申请实施例的一种化合物分子结构的生成装置的结构示意图，如图5所示，该装置包括：训练模块500和生成模块502，其中：

训练模块500，用于基于第一回报和第二回报训练目标智能体，其中，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；生成模块502，用于通过上述目标智能体生成目标化合物分子结构。

此处需要说明的是，上述训练模块500和生成模块502对应于实施例1中的步骤S202至步骤S204，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

根据本申请实施例，还提供了另一种用于实施上述化合物分子结构的生成方法的装置实施例，图6是根据本申请实施例的另一种化合物分子结构的生成装置的结构示意图，如图6所示，该装置包括：请求模块600和第一接收模块602，其中：

请求模块600，用于向服务端发起请求消息，其中，上述请求消息用于请求上述服务端上的目标智能体生成目标化合物分子结构，上述目标智能体基于第一回报和第二回报训练得到，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；第一接收模块602，用于接收上述服务端返回的与上述请求消息对应的响应消息，其中，上述响应消息中携带的信息包括：上述目标化合物分子结构。

此处需要说明的是，上述请求模块600和第一接收模块602对应于实施例1中的步骤S902至步骤S904，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

根据本申请实施例，还提供了另一种用于实施上述化合物分子结构的生成方法的装置实施例，图7是根据本申请实施例的另一种化合物分子结构的生成装置的结构示意图，如图7所示，该装置包括：第二接收模块700和响应模块702，其中：

第二接收模块700，用于接收来自于客户端的请求消息，其中，上述请求消息用于请求服务端本地的目标智能体生成目标化合物分子结构，上述目标智能体基于第一回报和第二回报训练得到，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；响应模块702，用于响应于上述请求消息，向上述客户端返回响应消息，其中，上述响应消息中携带的信息包括：上述目标化合物分子结构。

此处需要说明的是，上述第二接收模块700和响应模块702对应于实施例1中的步骤S1002至步骤S1004，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例3

根据本申请实施例，还提供了一种电子设备的实施例，该电子设备可以是计算设备群中的任意一个计算设备。图8是根据本申请实施例的一种电子设备的结构示意图，如图8所示，该电子设备包括：处理器800和存储器802，其中：

处理器800；以及存储器802，与上述处理器800连接，用于为上述处理器提供处理以下处理步骤的指令：基于第一回报和第二回报训练目标智能体，其中，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；通过上述目标智能体生成目标化合物分子结构。

实施例4

根据本申请的实施例，还提供了一种计算机终端的实施例，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行化合物分子结构的生成方法中以下步骤的程序代码：基于第一回报和第二回报训练目标智能体，其中，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；通过上述目标智能体生成目标化合物分子结构。

可选地，图9是根据本申请实施例的另一种计算机终端的结构框图，如图9所示，该计算机终端可以包括：一个或多个(图中仅示出一个)处理器902、存储器904、以及外设接口906。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的化合物分子结构的生成方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的化合物分子结构的生成方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：基于第一回报和第二回报训练目标智能体，其中，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；通过上述目标智能体生成目标化合物分子结构。

可选的，上述处理器还可以执行如下步骤的程序代码：获取初始智能体；将上述初始智能体生成的小分子化合物结构序列在上述目标神经网络模型上的模型似然确定为上述第一回报，以及将按照上述目标需求设置的分子结构限定条件确定为上述第二回报；对上述第一回报和上述第二回报进行汇总处理，得到处理结果；基于上述处理结果，利用策略梯度算法将上述初始智能体更新为上述目标智能体。

可选的，上述处理器还可以执行如下步骤的程序代码：通过上述循环神经网络模型中至少一步的当前单元状态确定当前步对应的小分子化合物结构字符；将上述循环神经网络模型中至少一步对应的小分子化合物结构字符组合成上述小分子化合物结构序列。

可选的，上述处理器还可以执行如下步骤的程序代码：获取小分子化合物结构序列集合，其中，上述小分子化合物结构序列集合包括：至少一个小分子化合物结构序列；获取上述至少一个小分子化合物结构序列中每个小分子化合物结构序列对应的字典；为每个小分子化合物结构序列添加第一标识符和第二标识符，以及为每个小分子化合物结构序列对应的字典添加上述第一标识符和上述第二标识符，其中，上述第一标识符用于指示起始位置，上述第二标识符用于指示结束位置。

可选的，上述处理器还可以执行如下步骤的程序代码：基于上述小分子化合物结构序列集合对初始神经网络模型进行预训练，得到上述目标神经网络模型。

可选的，上述处理器还可以执行如下步骤的程序代码：从上述小分子化合物结构序列集合中选取待训练小分子化合物结构序列；利用上述待训练小分子化合物结构序列对应的字典，将上述待训练小分子化合物结构序列中的与上述初始神经网络模型中每一步对应的字符转化为向量表示；将上述第一标识符设置为上述初始神经网络模型的输入参数，在上述初始神经网络模型中按步生成小分子化合物结构序列；统计上述初始神经网络模型中每一步对应的损失值，得到统计结果；基于上述统计结果，利用基于时间的反向传播算法将上述初始神经网络模型更新为上述目标神经网络模型。

可选的，上述处理器还可以执行如下步骤的程序代码：基于第一数量和第二数量计算上述初始神经网络模型中每一步对应的采样概率，其中，上述第一数量为预训练过程中在上述小分子化合物结构序列集合上迭代的当前次数，上述第二数量为预训练过程中在上述小分子化合物结构序列集合上迭代的总体次数；利用上述初始神经网络模型中每一步对应的采样概率进行贝努利试验，得到每一步对应的计算结果；当上述计算结果为第一数值时，将上述待训练小分子化合物结构序列中与上一步对应字符转化的向量表示设置为当前步的输入参数；当上述计算结果为第二数值时，将上一步的输出参数设置为当前步的输入参数。

可选的，上述处理器还可以执行如下步骤的程序代码：向服务端发起请求消息，其中，上述请求消息用于请求上述服务端上的目标智能体生成目标化合物分子结构，上述目标智能体基于第一回报和第二回报训练得到，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；接收上述服务端返回的与上述请求消息对应的响应消息，其中，上述响应消息中携带的信息包括：上述目标化合物分子结构。

可选的，上述处理器还可以执行如下步骤的程序代码：接收来自于客户端的请求消息，其中，上述请求消息用于请求服务端本地的目标智能体生成目标化合物分子结构，上述目标智能体基于第一回报和第二回报训练得到，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；响应于上述请求消息，向上述客户端返回响应消息，其中，上述响应消息中携带的信息包括：上述目标化合物分子结构。

采用本申请实施例，提供了一种化合物分子结构的生成方案。通过基于第一回报和第二回报训练目标智能体，其中，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；通过上述目标智能体生成目标化合物分子结构。

本领域普通技术人员可以理解，图9所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读非易失性存储介质中，非易失性存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

实施例5

根据本申请的实施例，还提供了一种非易失性存储介质的实施例。可选地，在本实施例中，上述非易失性存储介质可以用于保存上述实施例1所提供的化合物分子结构的生成方法所执行的程序代码。

可选地，在本实施例中，上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：基于第一回报和第二回报训练目标智能体，其中，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；通过上述目标智能体生成目标化合物分子结构。

可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：获取初始智能体；将上述初始智能体生成的小分子化合物结构序列在上述目标神经网络模型上的模型似然确定为上述第一回报，以及将按照上述目标需求设置的分子结构限定条件确定为上述第二回报；对上述第一回报和上述第二回报进行汇总处理，得到处理结果；基于上述处理结果，利用策略梯度算法将上述初始智能体更新为上述目标智能体。

可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：通过上述循环神经网络模型中至少一步的当前单元状态确定当前步对应的小分子化合物结构字符；将上述循环神经网络模型中至少一步对应的小分子化合物结构字符组合成上述小分子化合物结构序列。

可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：获取小分子化合物结构序列集合，其中，上述小分子化合物结构序列集合包括：至少一个小分子化合物结构序列；获取上述至少一个小分子化合物结构序列中每个小分子化合物结构序列对应的字典；为每个小分子化合物结构序列添加第一标识符和第二标识符，以及为每个小分子化合物结构序列对应的字典添加上述第一标识符和上述第二标识符，其中，上述第一标识符用于指示起始位置，上述第二标识符用于指示结束位置。

可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：基于上述小分子化合物结构序列集合对初始神经网络模型进行预训练，得到上述目标神经网络模型。

可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：从上述小分子化合物结构序列集合中选取待训练小分子化合物结构序列；利用上述待训练小分子化合物结构序列对应的字典，将上述待训练小分子化合物结构序列中的与上述初始神经网络模型中每一步对应的字符转化为向量表示；将上述第一标识符设置为上述初始神经网络模型的输入参数，在上述初始神经网络模型中按步生成小分子化合物结构序列；统计上述初始神经网络模型中每一步对应的损失值，得到统计结果；基于上述统计结果，利用基于时间的反向传播算法将上述初始神经网络模型更新为上述目标神经网络模型。

可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：基于第一数量和第二数量计算上述初始神经网络模型中每一步对应的采样概率，其中，上述第一数量为预训练过程中在上述小分子化合物结构序列集合上迭代的当前次数，上述第二数量为预训练过程中在上述小分子化合物结构序列集合上迭代的总体次数；利用上述初始神经网络模型中每一步对应的采样概率进行贝努利试验，得到每一步对应的计算结果；当上述计算结果为第一数值时，将上述待训练小分子化合物结构序列中与上一步对应字符转化的向量表示设置为当前步的输入参数；当上述计算结果为第二数值时，将上一步的输出参数设置为当前步的输入参数。

可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：向服务端发起请求消息，其中，上述请求消息用于请求上述服务端上的目标智能体生成目标化合物分子结构，上述目标智能体基于第一回报和第二回报训练得到，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；接收上述服务端返回的与上述请求消息对应的响应消息，其中，上述响应消息中携带的信息包括：上述目标化合物分子结构。

可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：接收来自于客户端的请求消息，其中，上述请求消息用于请求服务端本地的目标智能体生成目标化合物分子结构，上述目标智能体基于第一回报和第二回报训练得到，上述第一回报是通过目标神经网络模型的模型似然确定的回报，上述第二回报是按照目标需求自定义的回报，上述目标智能体用于确定分子化合物结构；响应于上述请求消息，向上述客户端返回响应消息，其中，上述响应消息中携带的信息包括：上述目标化合物分子结构。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取非易失性存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个非易失性存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的非易失性存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种化合物分子结构的生成方法，其特征在于，包括：

基于第一回报和第二回报训练目标智能体，其中，所述第一回报是通过目标神经网络模型的模型似然确定的回报，所述第二回报是按照目标需求自定义的回报，所述目标智能体用于确定分子化合物结构；

通过所述目标智能体生成目标化合物分子结构。

2.根据权利要求1所述的生成方法，其特征在于，基于所述第一回报和所述第二回报训练所述目标智能体包括：

获取初始智能体；

将所述初始智能体生成的小分子化合物结构序列在所述目标神经网络模型上的模型似然确定为所述第一回报，以及将按照所述目标需求设置的分子结构限定条件确定为所述第二回报；

对所述第一回报和所述第二回报进行汇总处理，得到处理结果；

基于所述处理结果，利用策略梯度算法将所述初始智能体更新为所述目标智能体。

3.根据权利要求2所述的生成方法，其特征在于，所述目标神经网络模型为循环神经网络模型，所述方法还包括：

通过所述循环神经网络模型中至少一步的当前单元状态确定当前步对应的小分子化合物结构字符；

将所述循环神经网络模型中至少一步对应的小分子化合物结构字符组合成所述小分子化合物结构序列。

4.根据权利要求1所述的生成方法，其特征在于，所述方法还包括：

获取小分子化合物结构序列集合，其中，所述小分子化合物结构序列集合包括：至少一个小分子化合物结构序列；

获取所述至少一个小分子化合物结构序列中每个小分子化合物结构序列对应的字典；

为每个小分子化合物结构序列添加第一标识符和第二标识符，以及为每个小分子化合物结构序列对应的字典添加所述第一标识符和所述第二标识符，其中，所述第一标识符用于指示起始位置，所述第二标识符用于指示结束位置。

5.根据权利要求4所述的生成方法，其特征在于，所述方法还包括：

基于所述小分子化合物结构序列集合对初始神经网络模型进行预训练，得到所述目标神经网络模型。

6.根据权利要求5所述的生成方法，其特征在于，基于所述小分子化合物结构序列集合对所述初始神经网络模型进行预训练，得到所述目标神经网络模型包括：

从所述小分子化合物结构序列集合中选取待训练小分子化合物结构序列；

利用所述待训练小分子化合物结构序列对应的字典，将所述待训练小分子化合物结构序列中的与所述初始神经网络模型中每一步对应的字符转化为向量表示；

将所述第一标识符设置为所述初始神经网络模型的输入参数，在所述初始神经网络模型中按步生成小分子化合物结构序列；

统计所述初始神经网络模型中每一步对应的损失值，得到统计结果；

基于所述统计结果，利用基于时间的反向传播算法将所述初始神经网络模型更新为所述目标神经网络模型。

7.根据权利要求6所述的生成方法，其特征在于，所述方法还包括：

基于第一数量和第二数量计算所述初始神经网络模型中每一步对应的采样概率，其中，所述第一数量为预训练过程中在所述小分子化合物结构序列集合上迭代的当前次数，所述第二数量为预训练过程中在所述小分子化合物结构序列集合上迭代的总体次数；

利用所述初始神经网络模型中每一步对应的采样概率进行贝努利试验，得到每一步对应的计算结果；

当所述计算结果为第一数值时，将所述待训练小分子化合物结构序列中与上一步对应字符转化的向量表示设置为当前步的输入参数；当所述计算结果为第二数值时，将上一步的输出参数设置为当前步的输入参数。

8.一种化合物分子结构的生成方法，其特征在于，包括：

向服务端发起请求消息，其中，所述请求消息用于请求所述服务端上的目标智能体生成目标化合物分子结构，所述目标智能体基于第一回报和第二回报训练得到，所述第一回报是通过目标神经网络模型的模型似然确定的回报，所述第二回报是按照目标需求自定义的回报，所述目标智能体用于确定分子化合物结构；

接收所述服务端返回的与所述请求消息对应的响应消息，其中，所述响应消息中携带的信息包括：所述目标化合物分子结构。

9.一种化合物分子结构的生成方法，其特征在于，包括：

接收来自于客户端的请求消息，其中，所述请求消息用于请求服务端本地的目标智能体生成目标化合物分子结构，所述目标智能体基于第一回报和第二回报训练得到，所述第一回报是通过目标神经网络模型的模型似然确定的回报，所述第二回报是按照目标需求自定义的回报，所述目标智能体用于确定分子化合物结构；

响应于所述请求消息，向所述客户端返回响应消息，其中，所述响应消息中携带的信息包括：所述目标化合物分子结构。

10.一种化合物分子结构的生成装置，其特征在于，包括：

训练模块，用于基于第一回报和第二回报训练目标智能体，其中，所述第一回报是通过目标神经网络模型的模型似然确定的回报，所述第二回报是按照目标需求自定义的回报，所述目标智能体用于确定分子化合物结构；

生成模块，用于通过所述目标智能体生成目标化合物分子结构。

11.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至9中任意一项所述的化合物分子结构的生成方法。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

通过所述目标智能体生成目标化合物分子结构。