CN114898822A

CN114898822A - 基于价值学习的多目标属性分子生成方法及系统

Info

Publication number: CN114898822A
Application number: CN202210830677.2A
Authority: CN
Inventors: 柳彦宏; 戴开洋; 却立勇
Original assignee: Yantai Guogong Intelligent Technology Co ltd
Current assignee: Yantai Guogong Intelligent Technology Co ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-08-12

Abstract

本发明公开了基于价值学习的多目标属性分子生成方法及系统，属于分子生成技术领域，要解决的技术问题为如何生成结构相似并同时满足多种目标属性的有效分子。包括如下步骤：自定义马尔可夫决策过程；构建DQN网络模型；对于马尔可夫决策过程每一步分子生成过程，通过当前步数对应的训练后DQN模型对当前状态生成的分子进行评估，并基于评估得到的分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略，直至马尔可夫决策过程总步数执行完毕；当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。

Description

基于价值学习的多目标属性分子生成方法及系统

技术领域

本发明涉及分子生成技术领域，具体地说是基于价值学习的多目标属性分子生成方法及系统。

背景技术

目前基于深度强化学习算法的分子生成技术大部分是基于分子数据集训练分子生成模型从头设计分子，一方面这种方式导致搜索空间受限，预训练模型生成的分子结构往往局限于训练数据集，且预训练模型生成的分子难以保证均为有效分子，另一方面这种分子生成技术无法大量生成与期望分子结构相似的分子。

如何生成结构相似并同时满足多种目标属性的有效分子，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供基于价值学习的多目标属性分子生成方法及系统，来解决如何生成结构相似并同时满足多种目标属性的有效分子的技术问题。

第一方面，本发明的一种基于价值学习的多目标属性分子生成方法，用于生成具有多个目标属性的分子、且所述分子每个目标属性的属性值均处于目标属性值范围内，包括如下步骤：

自定义马尔可夫决策过程，包括定义状态空间、动作空间、状态转移概率函数以及奖励函数，所述状态空间中每个状态s为（m,t）元组，其中m为生成的分子官能团，t为当前的步数，总步数为T，所述动作空间中定义有用于生成分子的多种动作，所述状态转移概率表示在当前状态下采取特定动作后转移至下一个状态的概率，所述奖励函数用于对生成的分子进行奖励、得到奖励结果；

构建DQN网络模型，所述DQN网络模型用于以分子为输入、预测并输出分子Q值，所述分子Q值用于评估分子；

对于马尔可夫决策过程每一步分子生成过程，通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值，并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略，直至马尔可夫决策过程总步数执行完毕；

所述当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。

作为优选，所述动作空间定义有四种动作，分别为添加原子、添加化学键、删除化学键以及不做改变；

所述添加原子包括如下步骤：从原子集合中抽取一个原子，在原分子任意位置与该原子按所有价态允许的键序连接；

所述添加化学键在两个自由价原子之间进行，如果两个原子之间没有化学键，那么添加化学键动作可以是增加一个单键、双键或三键；

所述删除化学键动作即降低当前化学键的键级。

作为优选，对于马尔可夫决策过程的每一步分子生成过程，执行如下操作：

通过动作空间中定义的多种动作生成多个分子官能团；

通过ReplaceSubstructs函数将每个分子官能团和目标近似分子结构在预定处结合为一个完整的分子，得到与所述多个分子官能团一一对应的多个完整的分子；

对于当前状态生成的多个完整的分子，结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估，得到每个分子对应的分子Q值；

对于多个分子对应的分子Q值，基于epsilon贪婪策略选择分子Q值，将所述选择的分子Q值对应的分子官能团作为马尔可夫决策过程下一个状态对应的分子官能团，直至马尔可夫决策过程总步数执行完毕；

通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估，包括如下步骤：

对于所述分子，将其转换为fingerprint向量；

将所述分子对应的fingerprint向量以及对应的episode剩余步数作为输入数据，将所述输入数据输入当前步数对应的训练后DQN网络模型，得到对应的分子Q值；

基于epsilon贪婪策略选择分子Q值作为马尔可夫决策过程下一个状态对应的分子Q值；

对于所述马尔可夫决策过程下一个状态对应的分子Q值对应的分子，通过奖励函数进行奖励，得到奖励结果；

对于时间步t的分子，对应的奖励结果计算公式为

；

为折扣因子，T为最大时间步，

为多目标属性综合奖励：

为多目标属性的权重向量，

为多目标属性的奖励向量；

所述分子的每个目标属性对应有一个分子属性回归预测模型，所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出，通过分子属性回归预测模型对生成的分子进行分子属性预测，判定所述分子的目标属性是否满足期望的目标值范围。

作为优选，所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层，所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数；所述全连接隐藏层配置有ReLU激活函数；

结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估，包括如下步骤：

通过随机化值函数将训练后DQN模型输出层的H维作为H相互独立的H个输出头，所述H输出头共享所述训练后DQN模型的网络参数；

对于每个分子，从H个输出头中随机选择一个输出头用于评估分子的分子Q值。

所述DQN网络模型的损失函数为：

其中，

表示DQN网络模型，

表示网络参数，

表示TD目标，

表示Huber loss；

以历史步数生成的分子以及对应的奖励结果为训练数据、对DQN网络模型进行正向传播计算，计算分子的分子Q值；

在计算分子的分子Q值时，通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头，所述H输出头共享所述DQN模型的网络参数，从H个输出头中选择一个输出头计算分子的分子Q值；

所述H个输出头均以预设概率值被选中使用，对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值；通过梯度下降方法更新DQN网络模型的参数。

第二方面，本发明的一种基于价值学习的多目标属性分子生成系统，用于执行如第一方面任一项所述的基于价值学习的多目标属性分子生成方法，以生成具有多个目标属性的分子、且所述分子每个目标属性的属性值均处于目标属性值范围内，所述系统包括：

马尔可夫决策过程配置模块，所述马尔可夫决策过程配置模块用于自定义马尔可夫决策过程，包括定义状态空间、动作空间、状态转移概率函数以及奖励函数，所述状态空间中每个状态s为（m,t）元组，其中m为生成的分子官能团，t为当前的步数，总步数为T，所述动作空间中定义有用于生成分子的多种动作，所述状态转移概率表示在当前状态下采取特定动作后转移至下一个状态的概率，所述奖励函数用于对生成的分子进行奖励、得到奖励结果；

DQN网络模型构建模块，所述DQN网络模型构建模块用于构建DQN网络模型，所述DQN网络模型用于以分子为输入、预测并输出分子Q值，所述分子Q值用于评估分子；

评估训练模块，所述评估训练模块用于对于马尔可夫决策过程每一步分子生成过程，通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值，并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略，直至马尔可夫决策过程总步数执行完毕；

所述删除化学键动作即降低当前化学键的键级。

作为优选，对于马尔可夫决策过程每一步分子生成过程，所述评估训练模块用于执行如下操作：

通过动作空间中定义的多种动作生成多个分子官能团；

所述评估训练模块用于通过如下步骤基于当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估：

对于所述分子，将其转换为fingerprint向量；

对于时间步t的分子，对应的奖励结果计算公式为

；

为折扣因子，T为最大时间步，

为多目标属性综合奖励：

为多目标属性的权重向量，

为多目标属性的奖励向量；

所述分子的每个目标属性对应有一个分子属性回归预测模型，所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出，所述评估训练模块用于通过分子属性回归预测模型对生成的分子进行分子属性预测，判定所述分子的目标属性是否满足期望的目标值范围。

所述评估训练模块用于通过如下步骤结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估：

所述DQN网络模型的损失函数为：

其中，

表示DQN网络模型，

表示网络参数，

表示TD目标，

表示Huber loss；

在计算分子的分子Q值时，通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头，所述H输出头共享所述DQN模型的网络参数；

所述H个输出头均以预设概率值被选中使用，对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值；

通过梯度下降方法更新DQN网络模型的参数。

本发明的基于价值学习的多目标属性分子生成方法及系统具有以下优点：

1、对于马尔可夫决策过程每一步生成分子过程，通过训练后的DQN网络模型对生成的分子进行评估，为马尔可夫决策过程下一步动作提供决策，该训练后的DQN网络模型是通过结合了随机化值函数的epsilon贪婪策略进行训练得到的，有助于强化学习系统进行更高效的分子生成的动作探索，学到生成分子的最优策略，从而使生成的分子的目标属性值更符合期望；

2、马尔可夫决策过程中，状态空间定义每个状态包括分子官能团，将分子官能团与目标分子近似结构结合为完整分子，上述过程生成的分子其分子结构均与期望分子结构近似，增加了生成分子的合理性和可靠性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1一种基于价值学习的多目标属性分子生成方法的流程框图；

图2为实施例1一种基于价值学习的多目标属性分子生成方法中DQN网络模型结构示意图；

图3为实施例1一种基于价值学习的多目标属性分子生成方法中马尔可夫决策过程生成分子的具体实例图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供基于价值学习的多目标属性分子生成方法及系统，用于解决如何生成结构相似并同时满足多种目标属性的有效分子的技术问题。

实施例1：

本发明一种基于价值学习的多目标属性分子生成方法，如图1所示，包括如下步骤：

S100、自定义马尔可夫决策过程，包括定义状态空间、动作空间、状态转移概率函数以及奖励函数，所述状态空间中每个状态s为（m,t）元组，其中m为生成的分子官能团，t为当前的步数，总步数为T，所述动作空间中定义有用于生成分子的多种动作，所述状态转移概率表示在当前状态下采取特定动作后转移至下一个状态的概率，所述奖励函数用于对生成的分子进行奖励、得到奖励结果；

S200、构建DQN网络模型，所述DQN网络模型用于以分子为输入、预测并输出分子Q值，所述分子Q值用于评估分子；

S300、对于马尔可夫决策过程每一步分子生成过程，通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值，并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略，直至马尔可夫决策过程总步数执行完毕；

当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。

本实施例中，步骤S100中定义的状态空间S是分子在生成过程中可能处于的状态，初始状态下m为空，t=0，当限定最大时间步数为T时，终点状态集合为

。

定义的动作空间A中动作a有四种：添加原子、添加化学键、删除化学键、不做改变。具体地，添加原子动作分两步完成：第一步为从原子集合中抽取一个原子，第二步为在原分子任意位置与该原子按所有价态允许的键序连接。添加化学键在两个自由价原子之间进行，如果两个原子之间没有化学键，那么添加化学键动作可以是增加一个单键、双键或三键。删除化学键动作即降低当前化学键的键级。

对于定义的状态转移概率{Psa}，状态转移概率指定为1，表示在当前状态下采取特定动作后转移至下一个状态的状态转移为确定性的。

奖励函数R对分子进行评估，本实施例中，将马尔可夫过程中每一步分子生成过程生成的分子官能团与目标分子近似结构结合为一个完整分子，通过奖励函数对该完整分子进行评估。

步骤S200构建DQN网络模型，该模型结构如图2所示，包括一个输入层、四个全连接隐藏层和一个输出层，输入层含2049个神经元（包含2048维的fingerprint向量及1维的episode剩余步数），四个全连接隐藏层的神经元个数分别为1024、512、128、32，ReLU作为激活函数；输出层含12个神经元，输出层的12个神经元每次只随机选择其中一个神经元来输出值。

该DQN网络模型输入层为fingerprint向量及1维的episode剩余步数，因此在通过DQN网络模型对完整分子进行评估时，将该完整分子转换为fingerprint向量。

本实施例在训练DQN模型时，首先构建DQN网络模型的损失函数，其表示为：

其中，

表示DQN网络模型，

表示网络参数，

表示TD目标，

表示Huber loss；

然后，以历史步数生成的分子以及对应的奖励结果为训练数据、对DQN网络模型进行正向传播计算，输入分子的分子Q值；在计算分子的分子Q值时，通过随机化值函数将训练后DQN模型输出层的H维作为H相互独立的H个输出头，所述H输出头共享所述训练后DQN模型的网络参数，在计算分子的分子Q值时，通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头，所述H输出头共享所述DQN模型的网络参数。

由于H个输出头均以预设概率值被选中使用，本实施例中对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值。本实施例通过梯度下降方法更新DQN网络模型的参数。

DQN网络模型训练过程的初始阶段，在通过马尔可夫决策过程生成分子过程中，对于第一步生成的分子，通过初始化后的DQN网络模型对该分子进行决策，得到分子Q值，基于当前步数对应的分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供决策，根据马尔可夫决策过程执行下一步分子生成，依次执行上述过程，当马尔可夫决策过程执行预定步数，得到预定数量的分子以及对应的奖励结果时，将所述历史步数的分子以及奖励结果作为训练数据，对DQN网络模型进行训练，得到训练后DQN网络模型；

后续阶段，通过马尔可夫决策过程生成分子过程中，对于当前步生成的分子，通过上述训练后的DQN网络模型对该分子进行决策，得到分子Q值，基于当前步对应的分子Q值为马尔可夫决策过程下一步生成过程的动作提供决策，根据马尔可夫决策过程执行下一步分子生成，依次执行上述过程，当马尔可夫决策过程执行预定步数，得到预定数量的分子以及对应的奖励结果时，将所述历史步数的分子以及奖励结果作为训练数据，对训练后的DQN网络模型再次进行训练，得到训练后DQN网络模型，基于后续阶段的操作，对DQN网络模型进行多次训练。

本实施例，对于马尔可夫决策过程的每一步分子生成过程，执行如下操作：

（1）通过动作空间中定义的多种动作生成多个分子官能团；

（2）通过ReplaceSubstructs函数将每个分子官能团和目标近似分子结构在预定处结合为一个完整的分子，得到与所述多个分子官能团一一对应的多个完整的分子；

（3）对于当前状态生成的多个完整的分子，结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估，得到每个分子对应的分子Q值；

（4）对于多个分子对应的分子Q值，基于epsilon贪婪策略选择分子Q值，将所述选择的分子Q值对应的分子官能团作为马尔可夫决策过程当前状态生成的分子官能团，直至马尔可夫决策过程总步数执行完毕。

步骤（3）通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估，包括如下步骤：

（3-1）对于所述分子，将其转换为fingerprint向量；

（3-2）将所述分子对应的fingerprint向量以及对应的episode剩余步数作为输入数据，将所述输入数据输入当前步数对应的训练后DQN网络模型，得到对应的分子Q值；

（3-3）基于epsilon贪婪策略选择分子Q值作为马尔可夫决策过程下一个状态对应的分子Q值；

（3-4）对于所述马尔可夫决策过程下一个状态对应的分子Q值对应的分子，通过奖励函数进行奖励，得到奖励结果。

对于时间步t的分子，对应的奖励结果计算公式为

；

为折扣因子，T为最大时间步，

为多目标属性综合奖励：

为多目标属性的权重向量，

为多目标属性的奖励向量。

本实施例中，分子的每个目标属性对应有一个分子属性回归预测模型，所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出，通过分子属性回归预测模型对生成的分子进行分子属性预测，判定所述分子的目标属性是否满足期望的目标值范围。

对于上述马尔可夫决策过程生成分子过程，以一个具体实例进行如下说明：假如原子集合中只有一个碳原子可供添加，对于第一步只能选择添加碳原子这个动作，接下来在该碳原子基础上经过添加碳原子及不做改变两个动作得到一个乙烷和一个碳原子两个分子官能团（此时添加化学键与删除化学键动作还不能起作用），将这两个分子官能团分别与目标近似分子结构在预定处结合为一个完整分子得到两个分子，使用训练后DQN模型对所述两个分子进行评估后使用epsilon贪婪策略选择一个分子，其对应分子官能团作为第一步得到的分子官能团。假设第二步得到的分子官能团是乙烷，经过添加碳原子、添加化学键及不做改变三个动作分别得到丙烷、乙烯、乙炔、乙烷四个分子官能团（此时删除化学键动作还不能起作用），将这四个分子官能团分别与目标近似分子结构在预定处结合为一个完整分子得到四个分子，使用训练后DQN模型对所述四个分子进行评估后使用epsilon贪婪策略选择一个分子，其对应官能团作为第三步得到的分子官能团。依次类推，直到达到预定的生成分子的总步数为止。这个过程的示意图如图3所示。

本实施例的方法，自定义分子生成的马尔可夫决策过程，以该马尔可夫决策过程生成的分子为输入，训练DQN网络模型并通过训练后DQN网络模型输出的分子Q值为马尔可夫过程下一步动作提供决策，在生成有效分子的同时满足生成多目标属性的分子的要求。

实施例2：

本发明一种基于价值学习的多目标属性分子生成系统，包括马尔可夫决策过程配置模块、DQN网络模型构建模块以及评估训练模块，该系统执行实施例1公开的方法，生成与目标分子结构近似的分子，该分子具有多个目标属性的分子、且所述分子每个目标属性的属性值均处于目标属性值范围内。

马尔可夫决策过程配置模块用于自定义马尔可夫决策过程，包括定义状态空间、动作空间、状态转移概率函数以及奖励函数，所述状态空间中每个状态s为（m,t）元组，其中m为生成的分子官能团，t为当前的步数，总步数为T，所述动作空间中定义有用于生成分子的多种动作，所述状态转移概率为1、表示在当前状态下采取特定动作后转移至下一个状态的概率，所述奖励函数用于对生成的分子进行奖励、得到奖励结果。

定义的状态空间S是分子在生成过程中可能处于的状态，初始状态下m为空，t=0，当限定最大时间步数为T时，终点状态集合为

。

DQN网络模型构建模块用于构建DQN网络模型， DQN网络模型用于以分子为输入、预测并输出分子Q值，分子Q值用于评估分子。

作为DQN网络模型的具体实施，该模型包括一个输入层、四个全连接隐藏层和一个输出层，输入层含2049个神经元（包含2048维的fingerprint向量及1维的episode剩余步数），四个全连接隐藏层的神经元个数分别为1024、512、128、32，ReLU作为激活函数；输出层含12个神经元，输出层的12个神经元每次只随机选择其中一个神经元来输出值。

评估训练模块用于对于马尔可夫决策过程每一步分子生成过程，通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值，并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略，直至马尔可夫决策过程总步数执行完毕。

其中，当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。

在训练DQN模型时，评估训练模块首先构建DQN网络模型的损失函数，其表示为：

其中，

表示DQN网络模型，

表示网络参数，

表示TD目标，

表示Huber loss；

然后，评估训练模块用于执行如下操作：以历史步数生成的分子以及对应的奖励结果为训练数据、对DQN网络模型进行正向传播计算，输入分子的分子Q值；在计算分子的分子Q值时，通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头，所述H输出头共享所述DQN模型的网络参数；所述H个输出头均以预设的概率值被选中使用，对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值；通过梯度下降方法更新DQN网络模型的参数。

本实施例，对于马尔可夫决策过程的每一步分子生成过程，评估训练模块用于执行如下操作：

（1）通过动作空间中定义的多种动作生成多个分子官能团；

评估训练模块用于通过如下步骤基于当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估：

（1）对于所述分子，将其转换为fingerprint向量；

（2）将所述分子对应的fingerprint向量以及对应的episode剩余步数作为输入数据，将所述输入数据输入当前步数对应的训练后DQN网络模型，得到对应的分子Q值；

（3）基于epsilon贪婪策略选择分子Q值作为马尔可夫决策过程下一个状态对应的分子Q值；

（4）对于所述马尔可夫决策过程下一个状态对应的分子Q值对应的分子，通过奖励函数进行奖励，得到奖励结果。

对于时间步t的分子，对应的奖励结果计算公式为

；

为折扣因子，T为最大时间步，

为多目标属性综合奖励：

为多目标属性的权重向量，

为多目标属性的奖励向量。

本实施例中，分子的每个目标属性对应有一个分子属性回归预测模型，所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出，评估训练模块用于通过分子属性回归预测模型对生成的分子进行分子属性预测，判定所述分子的目标属性是否满足期望的目标值范围。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.一种基于价值学习的多目标属性分子生成方法，其特征在于，用于生成具有多个目标属性的分子、且所述分子每个目标属性的属性值均处于目标属性值范围内，包括如下步骤：

2.根据权利要求1所述的基于价值学习的多目标属性分子生成方法，其特征在于，所述动作空间定义有四种动作，分别为添加原子、添加化学键、删除化学键以及不做改变；

所述删除化学键动作即降低当前化学键的键级。

3.根据权利要求1所述的基于价值学习的多目标属性分子生成方法，其特征在于，对于马尔可夫决策过程的每一步分子生成过程，执行如下操作：

通过动作空间中定义的多种动作生成多个分子官能团；

对于所述分子，将其转换为fingerprint向量；

对于时间步t的分子，对应的奖励结果计算公式为

；

为折扣因子，T 为最大时间步，

为多目标属性综合奖励：

为多目标属性的权重向量，

为多目标属性的奖励向量；

4.根据权利要求1-3任一项所述的基于价值学习的多目标属性分子生成方法，其特征在于，所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层，所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数；所述全连接隐藏层配置有ReLU激活函数；

5.根据权利要求1-3任一项所述的基于价值学习的多目标属性分子生成方法，其特征在于，所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层，所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数；所述全连接隐藏层配置有ReLU激活函数；

所述DQN网络模型的损失函数为：

其中，

表示DQN网络模型，

表示网络参数，

表示TD目标，

表示Huber loss；

所述H个输出头均预设概率值被选中使用，对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值；

通过梯度下降方法更新DQN网络模型的参数。

6.一种基于价值学习的多目标属性分子生成系统，其特征在于，用于执行如权利要求1-5任一项所述的基于价值学习的多目标属性分子生成方法，以生成具有多个目标属性的分子、且所述分子每个目标属性的属性值均处于目标属性值范围内，所述系统包括：

7.根据权利要求6所述的基于价值学习的多目标属性分子生成系统，其特征在于，所述动作空间定义有四种动作，分别为添加原子、添加化学键、删除化学键以及不做改变；

所述删除化学键动作即降低当前化学键的键级。

8.根据权利要求6所述的基于价值学习的多目标属性分子生成系统，其特征在于，对于马尔可夫决策过程每一步分子生成过程，所述评估训练模块用于执行如下操作：

通过动作空间中定义的多种动作生成多个分子官能团；

对于所述分子，将其转换为fingerprint向量；

对于时间步t的分子，对应的奖励结果计算公式为

；

为折扣因子，T 为最大时间步，

为多目标属性综合奖励：

为多目标属性的权重向量，

为多目标属性的奖励向量；

9.根据权利要求6-8任一项所述的基于价值学习的多目标属性分子生成系统，其特征在于，所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层，所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数；所述全连接隐藏层配置有ReLU激活函数；

10.根据权利要求6-8任一项所述的基于价值学习的多目标属性分子生成系统，其特征在于，所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层，所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数；所述全连接隐藏层配置有ReLU激活函数；

所述DQN网络模型的损失函数为：

其中，

表示DQN网络模型，

表示网络参数，

表示TD目标，

表示Huber loss；

所述H个输出头均预设概率值被选中使用，对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值；通过梯度下降方法更新DQN网络模型的参数。