CN114898822A - 基于价值学习的多目标属性分子生成方法及系统 - Google Patents

基于价值学习的多目标属性分子生成方法及系统 Download PDF

Info

Publication number
CN114898822A
CN114898822A CN202210830677.2A CN202210830677A CN114898822A CN 114898822 A CN114898822 A CN 114898822A CN 202210830677 A CN202210830677 A CN 202210830677A CN 114898822 A CN114898822 A CN 114898822A
Authority
CN
China
Prior art keywords
molecule
value
molecular
dqn
step number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210830677.2A
Other languages
English (en)
Inventor
柳彦宏
戴开洋
却立勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai Guogong Intelligent Technology Co ltd
Original Assignee
Yantai Guogong Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai Guogong Intelligent Technology Co ltd filed Critical Yantai Guogong Intelligent Technology Co ltd
Priority to CN202210830677.2A priority Critical patent/CN114898822A/zh
Publication of CN114898822A publication Critical patent/CN114898822A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于价值学习的多目标属性分子生成方法及系统,属于分子生成技术领域,要解决的技术问题为如何生成结构相似并同时满足多种目标属性的有效分子。包括如下步骤:自定义马尔可夫决策过程;构建DQN网络模型;对于马尔可夫决策过程每一步分子生成过程,通过当前步数对应的训练后DQN模型对当前状态生成的分子进行评估,并基于评估得到的分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略,直至马尔可夫决策过程总步数执行完毕;当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。

Description

基于价值学习的多目标属性分子生成方法及系统
技术领域
本发明涉及分子生成技术领域,具体地说是基于价值学习的多目标属性分子生成方法及系统。
背景技术
目前基于深度强化学习算法的分子生成技术大部分是基于分子数据集训练分子生成模型从头设计分子,一方面这种方式导致搜索空间受限,预训练模型生成的分子结构往往局限于训练数据集,且预训练模型生成的分子难以保证均为有效分子,另一方面这种分子生成技术无法大量生成与期望分子结构相似的分子。
如何生成结构相似并同时满足多种目标属性的有效分子,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供基于价值学习的多目标属性分子生成方法及系统,来解决如何生成结构相似并同时满足多种目标属性的有效分子的技术问题。
第一方面,本发明的一种基于价值学习的多目标属性分子生成方法,用于生成具有多个目标属性的分子、且所述分子每个目标属性的属性值均处于目标属性值范围内,包括如下步骤:
自定义马尔可夫决策过程,包括定义状态空间、动作空间、状态转移概率函数以及奖励函数,所述状态空间中每个状态s为(m,t)元组,其中m为生成的分子官能团,t为当前的步数,总步数为T,所述动作空间中定义有用于生成分子的多种动作,所述状态转移概率表示在当前状态下采取特定动作后转移至下一个状态的概率,所述奖励函数用于对生成的分子进行奖励、得到奖励结果;
构建DQN网络模型,所述DQN网络模型用于以分子为输入、预测并输出分子Q值,所述分子Q值用于评估分子;
对于马尔可夫决策过程每一步分子生成过程,通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值,并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略,直至马尔可夫决策过程总步数执行完毕;
所述当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。
作为优选,所述动作空间定义有四种动作,分别为添加原子、添加化学键、删除化学键以及不做改变;
所述添加原子包括如下步骤:从原子集合中抽取一个原子,在原分子任意位置与该原子按所有价态允许的键序连接;
所述添加化学键在两个自由价原子之间进行,如果两个原子之间没有化学键,那么添加化学键动作可以是增加一个单键、双键或三键;
所述删除化学键动作即降低当前化学键的键级。
作为优选,对于马尔可夫决策过程的每一步分子生成过程,执行如下操作:
通过动作空间中定义的多种动作生成多个分子官能团;
通过ReplaceSubstructs函数将每个分子官能团和目标近似分子结构在预定处结合为一个完整的分子,得到与所述多个分子官能团一一对应的多个完整的分子;
对于当前状态生成的多个完整的分子,结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,得到每个分子对应的分子Q值;
对于多个分子对应的分子Q值,基于epsilon贪婪策略选择分子Q值,将所述选择的分子Q值对应的分子官能团作为马尔可夫决策过程下一个状态对应的分子官能团,直至马尔可夫决策过程总步数执行完毕;
通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,包括如下步骤:
对于所述分子,将其转换为fingerprint向量;
将所述分子对应的fingerprint向量以及对应的episode剩余步数作为输入数据,将所述输入数据输入当前步数对应的训练后DQN网络模型,得到对应的分子Q值;
基于epsilon贪婪策略选择分子Q值作为马尔可夫决策过程下一个状态对应的分子Q值;
对于所述马尔可夫决策过程下一个状态对应的分子Q值对应的分子,通过奖励函数进行奖励,得到奖励结果;
对于时间步t的分子,对应的奖励结果计算公式为
Figure 514537DEST_PATH_IMAGE002
Figure 133737DEST_PATH_IMAGE004
为折扣因子,T为最大时间步,
Figure 666350DEST_PATH_IMAGE006
为多目标属性综合奖励:
Figure 396409DEST_PATH_IMAGE008
Figure 583064DEST_PATH_IMAGE010
为多目标属性的权重向量,
Figure 107586DEST_PATH_IMAGE012
为多目标属性的奖励向量;
所述分子的每个目标属性对应有一个分子属性回归预测模型,所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出,通过分子属性回归预测模型对生成的分子进行分子属性预测,判定所述分子的目标属性是否满足期望的目标值范围。
作为优选,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,包括如下步骤:
通过随机化值函数将训练后DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述训练后DQN模型的网络参数;
对于每个分子,从H个输出头中随机选择一个输出头用于评估分子的分子Q值。
作为优选,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
所述DQN网络模型的损失函数为:
Figure 127495DEST_PATH_IMAGE014
其中,
Figure 395665DEST_PATH_IMAGE016
表示DQN网络模型,
Figure 184629DEST_PATH_IMAGE018
表示网络参数,
Figure 896365DEST_PATH_IMAGE020
表示TD目标,
Figure 137990DEST_PATH_IMAGE022
表示Huber loss;
Figure 944272DEST_PATH_IMAGE024
以历史步数生成的分子以及对应的奖励结果为训练数据、对DQN网络模型进行正向传播计算,计算分子的分子Q值;
在计算分子的分子Q值时,通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述DQN模型的网络参数,从H个输出头中选择一个输出头计算分子的分子Q值;
所述H个输出头均以预设概率值被选中使用,对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值;通过梯度下降方法更新DQN网络模型的参数。
第二方面,本发明的一种基于价值学习的多目标属性分子生成系统,用于执行如第一方面任一项所述的基于价值学习的多目标属性分子生成方法,以生成具有多个目标属性的分子、且所述分子每个目标属性的属性值均处于目标属性值范围内,所述系统包括:
马尔可夫决策过程配置模块,所述马尔可夫决策过程配置模块用于自定义马尔可夫决策过程,包括定义状态空间、动作空间、状态转移概率函数以及奖励函数,所述状态空间中每个状态s为(m,t)元组,其中m为生成的分子官能团,t为当前的步数,总步数为T,所述动作空间中定义有用于生成分子的多种动作,所述状态转移概率表示在当前状态下采取特定动作后转移至下一个状态的概率,所述奖励函数用于对生成的分子进行奖励、得到奖励结果;
DQN网络模型构建模块,所述DQN网络模型构建模块用于构建DQN网络模型,所述DQN网络模型用于以分子为输入、预测并输出分子Q值,所述分子Q值用于评估分子;
评估训练模块,所述评估训练模块用于对于马尔可夫决策过程每一步分子生成过程,通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值,并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略,直至马尔可夫决策过程总步数执行完毕;
所述当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。
作为优选,所述动作空间定义有四种动作,分别为添加原子、添加化学键、删除化学键以及不做改变;
所述添加原子包括如下步骤:从原子集合中抽取一个原子,在原分子任意位置与该原子按所有价态允许的键序连接;
所述添加化学键在两个自由价原子之间进行,如果两个原子之间没有化学键,那么添加化学键动作可以是增加一个单键、双键或三键;
所述删除化学键动作即降低当前化学键的键级。
作为优选,对于马尔可夫决策过程每一步分子生成过程,所述评估训练模块用于执行如下操作:
通过动作空间中定义的多种动作生成多个分子官能团;
通过ReplaceSubstructs函数将每个分子官能团和目标近似分子结构在预定处结合为一个完整的分子,得到与所述多个分子官能团一一对应的多个完整的分子;
对于当前状态生成的多个完整的分子,结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,得到每个分子对应的分子Q值;
对于多个分子对应的分子Q值,基于epsilon贪婪策略选择分子Q值,将所述选择的分子Q值对应的分子官能团作为马尔可夫决策过程下一个状态对应的分子官能团,直至马尔可夫决策过程总步数执行完毕;
所述评估训练模块用于通过如下步骤基于当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估:
对于所述分子,将其转换为fingerprint向量;
将所述分子对应的fingerprint向量以及对应的episode剩余步数作为输入数据,将所述输入数据输入当前步数对应的训练后DQN网络模型,得到对应的分子Q值;
基于epsilon贪婪策略选择分子Q值作为马尔可夫决策过程下一个状态对应的分子Q值;
对于所述马尔可夫决策过程下一个状态对应的分子Q值对应的分子,通过奖励函数进行奖励,得到奖励结果;
对于时间步t的分子,对应的奖励结果计算公式为
Figure 118901DEST_PATH_IMAGE002
Figure 985226DEST_PATH_IMAGE004
为折扣因子,T为最大时间步,
Figure 979727DEST_PATH_IMAGE006
为多目标属性综合奖励:
Figure 573388DEST_PATH_IMAGE008
Figure 602524DEST_PATH_IMAGE010
为多目标属性的权重向量,
Figure 374171DEST_PATH_IMAGE012
为多目标属性的奖励向量;
所述分子的每个目标属性对应有一个分子属性回归预测模型,所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出,所述评估训练模块用于通过分子属性回归预测模型对生成的分子进行分子属性预测,判定所述分子的目标属性是否满足期望的目标值范围。
作为优选,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
所述评估训练模块用于通过如下步骤结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估:
通过随机化值函数将训练后DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述训练后DQN模型的网络参数;
对于每个分子,从H个输出头中随机选择一个输出头用于评估分子的分子Q值。
作为优选,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
所述DQN网络模型的损失函数为:
Figure 855968DEST_PATH_IMAGE014
其中,
Figure 269632DEST_PATH_IMAGE016
表示DQN网络模型,
Figure 904007DEST_PATH_IMAGE018
表示网络参数,
Figure 112134DEST_PATH_IMAGE020
表示TD目标,
Figure 815648DEST_PATH_IMAGE022
表示Huber loss;
Figure 767423DEST_PATH_IMAGE024
以历史步数生成的分子以及对应的奖励结果为训练数据、对DQN网络模型进行正向传播计算,计算分子的分子Q值;
在计算分子的分子Q值时,通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述DQN模型的网络参数;
所述H个输出头均以预设概率值被选中使用,对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值;
通过梯度下降方法更新DQN网络模型的参数。
本发明的基于价值学习的多目标属性分子生成方法及系统具有以下优点:
1、对于马尔可夫决策过程每一步生成分子过程,通过训练后的DQN网络模型对生成的分子进行评估,为马尔可夫决策过程下一步动作提供决策,该训练后的DQN网络模型是通过结合了随机化值函数的epsilon贪婪策略进行训练得到的,有助于强化学习系统进行更高效的分子生成的动作探索,学到生成分子的最优策略,从而使生成的分子的目标属性值更符合期望;
2、马尔可夫决策过程中,状态空间定义每个状态包括分子官能团,将分子官能团与目标分子近似结构结合为完整分子,上述过程生成的分子其分子结构均与期望分子结构近似,增加了生成分子的合理性和可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1一种基于价值学习的多目标属性分子生成方法的流程框图;
图2为实施例1一种基于价值学习的多目标属性分子生成方法中DQN网络模型结构示意图;
图3为实施例1一种基于价值学习的多目标属性分子生成方法中马尔可夫决策过程生成分子的具体实例图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供基于价值学习的多目标属性分子生成方法及系统,用于解决如何生成结构相似并同时满足多种目标属性的有效分子的技术问题。
实施例1:
本发明一种基于价值学习的多目标属性分子生成方法,如图1所示,包括如下步骤:
S100、自定义马尔可夫决策过程,包括定义状态空间、动作空间、状态转移概率函数以及奖励函数,所述状态空间中每个状态s为(m,t)元组,其中m为生成的分子官能团,t为当前的步数,总步数为T,所述动作空间中定义有用于生成分子的多种动作,所述状态转移概率表示在当前状态下采取特定动作后转移至下一个状态的概率,所述奖励函数用于对生成的分子进行奖励、得到奖励结果;
S200、构建DQN网络模型,所述DQN网络模型用于以分子为输入、预测并输出分子Q值,所述分子Q值用于评估分子;
S300、对于马尔可夫决策过程每一步分子生成过程,通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值,并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略,直至马尔可夫决策过程总步数执行完毕;
当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。
本实施例中,步骤S100中定义的状态空间S是分子在生成过程中可能处于的状态,初始状态下m为空,t=0,当限定最大时间步数为T时,终点状态集合为
Figure DEST_PATH_IMAGE025
定义的动作空间A中动作a有四种:添加原子、添加化学键、删除化学键、不做改变。具体地,添加原子动作分两步完成:第一步为从原子集合中抽取一个原子,第二步为在原分子任意位置与该原子按所有价态允许的键序连接。添加化学键在两个自由价原子之间进行,如果两个原子之间没有化学键,那么添加化学键动作可以是增加一个单键、双键或三键。删除化学键动作即降低当前化学键的键级。
对于定义的状态转移概率{Psa},状态转移概率指定为1,表示在当前状态下采取特定动作后转移至下一个状态的状态转移为确定性的。
奖励函数R对分子进行评估,本实施例中,将马尔可夫过程中每一步分子生成过程生成的分子官能团与目标分子近似结构结合为一个完整分子,通过奖励函数对该完整分子进行评估。
步骤S200构建DQN网络模型,该模型结构如图2所示,包括一个输入层、四个全连接隐藏层和一个输出层,输入层含2049个神经元(包含2048维的fingerprint向量及1维的episode剩余步数),四个全连接隐藏层的神经元个数分别为1024、512、128、32,ReLU作为激活函数;输出层含12个神经元,输出层的12个神经元每次只随机选择其中一个神经元来输出值。
该DQN网络模型输入层为fingerprint向量及1维的episode剩余步数,因此在通过DQN网络模型对完整分子进行评估时,将该完整分子转换为fingerprint向量。
本实施例在训练DQN模型时,首先构建DQN网络模型的损失函数,其表示为:
Figure 36731DEST_PATH_IMAGE014
其中,
Figure 402377DEST_PATH_IMAGE016
表示DQN网络模型,
Figure 858767DEST_PATH_IMAGE018
表示网络参数,
Figure 348654DEST_PATH_IMAGE020
表示TD目标,
Figure 941309DEST_PATH_IMAGE022
表示Huber loss;
Figure 756818DEST_PATH_IMAGE024
然后,以历史步数生成的分子以及对应的奖励结果为训练数据、对DQN网络模型进行正向传播计算,输入分子的分子Q值;在计算分子的分子Q值时,通过随机化值函数将训练后DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述训练后DQN模型的网络参数,在计算分子的分子Q值时,通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述DQN模型的网络参数。
由于H个输出头均以预设概率值被选中使用,本实施例中对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值。本实施例通过梯度下降方法更新DQN网络模型的参数。
DQN网络模型训练过程的初始阶段,在通过马尔可夫决策过程生成分子过程中,对于第一步生成的分子,通过初始化后的DQN网络模型对该分子进行决策,得到分子Q值,基于当前步数对应的分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供决策,根据马尔可夫决策过程执行下一步分子生成,依次执行上述过程,当马尔可夫决策过程执行预定步数,得到预定数量的分子以及对应的奖励结果时,将所述历史步数的分子以及奖励结果作为训练数据,对DQN网络模型进行训练,得到训练后DQN网络模型;
后续阶段,通过马尔可夫决策过程生成分子过程中,对于当前步生成的分子,通过上述训练后的DQN网络模型对该分子进行决策,得到分子Q值,基于当前步对应的分子Q值为马尔可夫决策过程下一步生成过程的动作提供决策,根据马尔可夫决策过程执行下一步分子生成,依次执行上述过程,当马尔可夫决策过程执行预定步数,得到预定数量的分子以及对应的奖励结果时,将所述历史步数的分子以及奖励结果作为训练数据,对训练后的DQN网络模型再次进行训练,得到训练后DQN网络模型,基于后续阶段的操作,对DQN网络模型进行多次训练。
本实施例,对于马尔可夫决策过程的每一步分子生成过程,执行如下操作:
(1)通过动作空间中定义的多种动作生成多个分子官能团;
(2)通过ReplaceSubstructs函数将每个分子官能团和目标近似分子结构在预定处结合为一个完整的分子,得到与所述多个分子官能团一一对应的多个完整的分子;
(3)对于当前状态生成的多个完整的分子,结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,得到每个分子对应的分子Q值;
(4)对于多个分子对应的分子Q值,基于epsilon贪婪策略选择分子Q值,将所述选择的分子Q值对应的分子官能团作为马尔可夫决策过程当前状态生成的分子官能团,直至马尔可夫决策过程总步数执行完毕。
步骤(3)通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,包括如下步骤:
(3-1)对于所述分子,将其转换为fingerprint向量;
(3-2)将所述分子对应的fingerprint向量以及对应的episode剩余步数作为输入数据,将所述输入数据输入当前步数对应的训练后DQN网络模型,得到对应的分子Q值;
(3-3)基于epsilon贪婪策略选择分子Q值作为马尔可夫决策过程下一个状态对应的分子Q值;
(3-4)对于所述马尔可夫决策过程下一个状态对应的分子Q值对应的分子,通过奖励函数进行奖励,得到奖励结果。
对于时间步t的分子,对应的奖励结果计算公式为
Figure 434924DEST_PATH_IMAGE002
Figure 479235DEST_PATH_IMAGE004
为折扣因子,T为最大时间步,
Figure 926397DEST_PATH_IMAGE006
为多目标属性综合奖励:
Figure 912807DEST_PATH_IMAGE008
Figure 78209DEST_PATH_IMAGE010
为多目标属性的权重向量,
Figure 175478DEST_PATH_IMAGE012
为多目标属性的奖励向量。
本实施例中,分子的每个目标属性对应有一个分子属性回归预测模型,所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出,通过分子属性回归预测模型对生成的分子进行分子属性预测,判定所述分子的目标属性是否满足期望的目标值范围。
对于上述马尔可夫决策过程生成分子过程,以一个具体实例进行如下说明:假如原子集合中只有一个碳原子可供添加,对于第一步只能选择添加碳原子这个动作,接下来在该碳原子基础上经过添加碳原子及不做改变两个动作得到一个乙烷和一个碳原子两个分子官能团(此时添加化学键与删除化学键动作还不能起作用),将这两个分子官能团分别与目标近似分子结构在预定处结合为一个完整分子得到两个分子,使用训练后DQN模型对所述两个分子进行评估后使用epsilon贪婪策略选择一个分子,其对应分子官能团作为第一步得到的分子官能团。假设第二步得到的分子官能团是乙烷,经过添加碳原子、添加化学键及不做改变三个动作分别得到丙烷、乙烯、乙炔、乙烷四个分子官能团(此时删除化学键动作还不能起作用),将这四个分子官能团分别与目标近似分子结构在预定处结合为一个完整分子得到四个分子,使用训练后DQN模型对所述四个分子进行评估后使用epsilon贪婪策略选择一个分子,其对应官能团作为第三步得到的分子官能团。依次类推,直到达到预定的生成分子的总步数为止。这个过程的示意图如图3所示。
本实施例的方法,自定义分子生成的马尔可夫决策过程,以该马尔可夫决策过程生成的分子为输入,训练DQN网络模型并通过训练后DQN网络模型输出的分子Q值为马尔可夫过程下一步动作提供决策,在生成有效分子的同时满足生成多目标属性的分子的要求。
实施例2:
本发明一种基于价值学习的多目标属性分子生成系统,包括马尔可夫决策过程配置模块、DQN网络模型构建模块以及评估训练模块,该系统执行实施例1公开的方法,生成与目标分子结构近似的分子,该分子具有多个目标属性的分子、且所述分子每个目标属性的属性值均处于目标属性值范围内。
马尔可夫决策过程配置模块用于自定义马尔可夫决策过程,包括定义状态空间、动作空间、状态转移概率函数以及奖励函数,所述状态空间中每个状态s为(m,t)元组,其中m为生成的分子官能团,t为当前的步数,总步数为T,所述动作空间中定义有用于生成分子的多种动作,所述状态转移概率为1、表示在当前状态下采取特定动作后转移至下一个状态的概率,所述奖励函数用于对生成的分子进行奖励、得到奖励结果。
定义的状态空间S是分子在生成过程中可能处于的状态,初始状态下m为空,t=0,当限定最大时间步数为T时,终点状态集合为
Figure DEST_PATH_IMAGE027
定义的动作空间A中动作a有四种:添加原子、添加化学键、删除化学键、不做改变。具体地,添加原子动作分两步完成:第一步为从原子集合中抽取一个原子,第二步为在原分子任意位置与该原子按所有价态允许的键序连接。添加化学键在两个自由价原子之间进行,如果两个原子之间没有化学键,那么添加化学键动作可以是增加一个单键、双键或三键。删除化学键动作即降低当前化学键的键级。
对于定义的状态转移概率{Psa},状态转移概率指定为1,表示在当前状态下采取特定动作后转移至下一个状态的状态转移为确定性的。
奖励函数R对分子进行评估,本实施例中,将马尔可夫过程中每一步分子生成过程生成的分子官能团与目标分子近似结构结合为一个完整分子,通过奖励函数对该完整分子进行评估。
DQN网络模型构建模块用于构建DQN网络模型, DQN网络模型用于以分子为输入、预测并输出分子Q值,分子Q值用于评估分子。
作为DQN网络模型的具体实施,该模型包括一个输入层、四个全连接隐藏层和一个输出层,输入层含2049个神经元(包含2048维的fingerprint向量及1维的episode剩余步数),四个全连接隐藏层的神经元个数分别为1024、512、128、32,ReLU作为激活函数;输出层含12个神经元,输出层的12个神经元每次只随机选择其中一个神经元来输出值。
该DQN网络模型输入层为fingerprint向量及1维的episode剩余步数,因此在通过DQN网络模型对完整分子进行评估时,将该完整分子转换为fingerprint向量。
评估训练模块用于对于马尔可夫决策过程每一步分子生成过程,通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值,并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略,直至马尔可夫决策过程总步数执行完毕。
其中,当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。
在训练DQN模型时,评估训练模块首先构建DQN网络模型的损失函数,其表示为:
Figure 257573DEST_PATH_IMAGE014
其中,
Figure 149305DEST_PATH_IMAGE016
表示DQN网络模型,
Figure 67583DEST_PATH_IMAGE018
表示网络参数,
Figure 437384DEST_PATH_IMAGE020
表示TD目标,
Figure 875450DEST_PATH_IMAGE022
表示Huber loss;
Figure 938084DEST_PATH_IMAGE024
然后,评估训练模块用于执行如下操作:以历史步数生成的分子以及对应的奖励结果为训练数据、对DQN网络模型进行正向传播计算,输入分子的分子Q值;在计算分子的分子Q值时,通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述DQN模型的网络参数;所述H个输出头均以预设的概率值被选中使用,对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值;通过梯度下降方法更新DQN网络模型的参数。
DQN网络模型训练过程的初始阶段,在通过马尔可夫决策过程生成分子过程中,对于第一步生成的分子,通过初始化后的DQN网络模型对该分子进行决策,得到分子Q值,基于当前步数对应的分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供决策,根据马尔可夫决策过程执行下一步分子生成,依次执行上述过程,当马尔可夫决策过程执行预定步数,得到预定数量的分子以及对应的奖励结果时,将所述历史步数的分子以及奖励结果作为训练数据,对DQN网络模型进行训练,得到训练后DQN网络模型;
后续阶段,通过马尔可夫决策过程生成分子过程中,对于当前步生成的分子,通过上述训练后的DQN网络模型对该分子进行决策,得到分子Q值,基于当前步对应的分子Q值为马尔可夫决策过程下一步生成过程的动作提供决策,根据马尔可夫决策过程执行下一步分子生成,依次执行上述过程,当马尔可夫决策过程执行预定步数,得到预定数量的分子以及对应的奖励结果时,将所述历史步数的分子以及奖励结果作为训练数据,对训练后的DQN网络模型再次进行训练,得到训练后DQN网络模型,基于后续阶段的操作,对DQN网络模型进行多次训练。
本实施例,对于马尔可夫决策过程的每一步分子生成过程,评估训练模块用于执行如下操作:
(1)通过动作空间中定义的多种动作生成多个分子官能团;
(2)通过ReplaceSubstructs函数将每个分子官能团和目标近似分子结构在预定处结合为一个完整的分子,得到与所述多个分子官能团一一对应的多个完整的分子;
(3)对于当前状态生成的多个完整的分子,结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,得到每个分子对应的分子Q值;
(4)对于多个分子对应的分子Q值,基于epsilon贪婪策略选择分子Q值,将所述选择的分子Q值对应的分子官能团作为马尔可夫决策过程当前状态生成的分子官能团,直至马尔可夫决策过程总步数执行完毕。
评估训练模块用于通过如下步骤基于当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估:
(1)对于所述分子,将其转换为fingerprint向量;
(2)将所述分子对应的fingerprint向量以及对应的episode剩余步数作为输入数据,将所述输入数据输入当前步数对应的训练后DQN网络模型,得到对应的分子Q值;
(3)基于epsilon贪婪策略选择分子Q值作为马尔可夫决策过程下一个状态对应的分子Q值;
(4)对于所述马尔可夫决策过程下一个状态对应的分子Q值对应的分子,通过奖励函数进行奖励,得到奖励结果。
对于时间步t的分子,对应的奖励结果计算公式为
Figure 78078DEST_PATH_IMAGE002
Figure 517150DEST_PATH_IMAGE004
为折扣因子,T为最大时间步,
Figure 793410DEST_PATH_IMAGE006
为多目标属性综合奖励:
Figure 292525DEST_PATH_IMAGE008
Figure 160294DEST_PATH_IMAGE010
为多目标属性的权重向量,
Figure 871898DEST_PATH_IMAGE012
为多目标属性的奖励向量。
本实施例中,分子的每个目标属性对应有一个分子属性回归预测模型,所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出,评估训练模块用于通过分子属性回归预测模型对生成的分子进行分子属性预测,判定所述分子的目标属性是否满足期望的目标值范围。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

Claims (10)

1.一种基于价值学习的多目标属性分子生成方法,其特征在于,用于生成具有多个目标属性的分子、且所述分子每个目标属性的属性值均处于目标属性值范围内,包括如下步骤:
自定义马尔可夫决策过程,包括定义状态空间、动作空间、状态转移概率函数以及奖励函数,所述状态空间中每个状态s为(m,t)元组,其中m为生成的分子官能团,t为当前的步数,总步数为T,所述动作空间中定义有用于生成分子的多种动作,所述状态转移概率表示在当前状态下采取特定动作后转移至下一个状态的概率,所述奖励函数用于对生成的分子进行奖励、得到奖励结果;
构建DQN网络模型,所述DQN网络模型用于以分子为输入、预测并输出分子Q值,所述分子Q值用于评估分子;
对于马尔可夫决策过程每一步分子生成过程,通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值,并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略,直至马尔可夫决策过程总步数执行完毕;
所述当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。
2.根据权利要求1所述的基于价值学习的多目标属性分子生成方法,其特征在于,所述动作空间定义有四种动作,分别为添加原子、添加化学键、删除化学键以及不做改变;
所述添加原子包括如下步骤:从原子集合中抽取一个原子,在原分子任意位置与该原子按所有价态允许的键序连接;
所述添加化学键在两个自由价原子之间进行,如果两个原子之间没有化学键,那么添加化学键动作可以是增加一个单键、双键或三键;
所述删除化学键动作即降低当前化学键的键级。
3.根据权利要求1所述的基于价值学习的多目标属性分子生成方法,其特征在于,对于马尔可夫决策过程的每一步分子生成过程,执行如下操作:
通过动作空间中定义的多种动作生成多个分子官能团;
通过ReplaceSubstructs函数将每个分子官能团和目标近似分子结构在预定处结合为一个完整的分子,得到与所述多个分子官能团一一对应的多个完整的分子;
对于当前状态生成的多个完整的分子,结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,得到每个分子对应的分子Q值;
对于多个分子对应的分子Q值,基于epsilon贪婪策略选择分子Q值,将所述选择的分子Q值对应的分子官能团作为马尔可夫决策过程下一个状态对应的分子官能团,直至马尔可夫决策过程总步数执行完毕;
通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,包括如下步骤:
对于所述分子,将其转换为fingerprint向量;
将所述分子对应的fingerprint向量以及对应的episode剩余步数作为输入数据,将所述输入数据输入当前步数对应的训练后DQN网络模型,得到对应的分子Q值;
基于epsilon贪婪策略选择分子Q值作为马尔可夫决策过程下一个状态对应的分子Q值;
对于所述马尔可夫决策过程下一个状态对应的分子Q值对应的分子,通过奖励函数进行奖励,得到奖励结果;
对于时间步t的分子,对应的奖励结果计算公式为
Figure 744534DEST_PATH_IMAGE001
Figure 864936DEST_PATH_IMAGE002
为折扣因子,T 为最大时间步,
Figure 490346DEST_PATH_IMAGE003
为多目标属性综合奖励:
Figure 151135DEST_PATH_IMAGE004
Figure 434349DEST_PATH_IMAGE005
为多目标属性的权重向量,
Figure 584707DEST_PATH_IMAGE006
为多目标属性的奖励向量;
所述分子的每个目标属性对应有一个分子属性回归预测模型,所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出,通过分子属性回归预测模型对生成的分子进行分子属性预测,判定所述分子的目标属性是否满足期望的目标值范围。
4.根据权利要求1-3任一项所述的基于价值学习的多目标属性分子生成方法,其特征在于,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,包括如下步骤:
通过随机化值函数将训练后DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述训练后DQN模型的网络参数;
对于每个分子,从H个输出头中随机选择一个输出头用于评估分子的分子Q值。
5.根据权利要求1-3任一项所述的基于价值学习的多目标属性分子生成方法,其特征在于,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
所述DQN网络模型的损失函数为:
Figure 117320DEST_PATH_IMAGE007
其中,
Figure 785061DEST_PATH_IMAGE008
表示DQN网络模型,
Figure 532569DEST_PATH_IMAGE009
表示网络参数,
Figure 791512DEST_PATH_IMAGE010
表示TD目标,
Figure 14683DEST_PATH_IMAGE011
表示Huber loss;
Figure 345170DEST_PATH_IMAGE012
以历史步数生成的分子以及对应的奖励结果为训练数据、对DQN网络模型进行正向传播计算,计算分子的分子Q值;
在计算分子的分子Q值时,通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述DQN模型的网络参数;
所述H个输出头均预设概率值被选中使用,对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值;
通过梯度下降方法更新DQN网络模型的参数。
6.一种基于价值学习的多目标属性分子生成系统,其特征在于,用于执行如权利要求1-5任一项所述的基于价值学习的多目标属性分子生成方法,以生成具有多个目标属性的分子、且所述分子每个目标属性的属性值均处于目标属性值范围内,所述系统包括:
马尔可夫决策过程配置模块,所述马尔可夫决策过程配置模块用于自定义马尔可夫决策过程,包括定义状态空间、动作空间、状态转移概率函数以及奖励函数,所述状态空间中每个状态s为(m,t)元组,其中m为生成的分子官能团,t为当前的步数,总步数为T,所述动作空间中定义有用于生成分子的多种动作,所述状态转移概率表示在当前状态下采取特定动作后转移至下一个状态的概率,所述奖励函数用于对生成的分子进行奖励、得到奖励结果;
DQN网络模型构建模块,所述DQN网络模型构建模块用于构建DQN网络模型,所述DQN网络模型用于以分子为输入、预测并输出分子Q值,所述分子Q值用于评估分子;
评估训练模块,所述评估训练模块用于对于马尔可夫决策过程每一步分子生成过程,通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值,并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略,直至马尔可夫决策过程总步数执行完毕;
所述当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。
7.根据权利要求6所述的基于价值学习的多目标属性分子生成系统,其特征在于,所述动作空间定义有四种动作,分别为添加原子、添加化学键、删除化学键以及不做改变;
所述添加原子包括如下步骤:从原子集合中抽取一个原子,在原分子任意位置与该原子按所有价态允许的键序连接;
所述添加化学键在两个自由价原子之间进行,如果两个原子之间没有化学键,那么添加化学键动作可以是增加一个单键、双键或三键;
所述删除化学键动作即降低当前化学键的键级。
8.根据权利要求6所述的基于价值学习的多目标属性分子生成系统,其特征在于,对于马尔可夫决策过程每一步分子生成过程,所述评估训练模块用于执行如下操作:
通过动作空间中定义的多种动作生成多个分子官能团;
通过ReplaceSubstructs函数将每个分子官能团和目标近似分子结构在预定处结合为一个完整的分子,得到与所述多个分子官能团一一对应的多个完整的分子;
对于当前状态生成的多个完整的分子,结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,得到每个分子对应的分子Q值;
对于多个分子对应的分子Q值,基于epsilon贪婪策略选择分子Q值,将所述选择的分子Q值对应的分子官能团作为马尔可夫决策过程下一个状态对应的分子官能团,直至马尔可夫决策过程总步数执行完毕;
所述评估训练模块用于通过如下步骤基于当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估:
对于所述分子,将其转换为fingerprint向量;
将所述分子对应的fingerprint向量以及对应的episode剩余步数作为输入数据,将所述输入数据输入当前步数对应的训练后DQN网络模型,得到对应的分子Q值;
基于epsilon贪婪策略选择分子Q值作为马尔可夫决策过程下一个状态对应的分子Q值;
对于所述马尔可夫决策过程下一个状态对应的分子Q值对应的分子,通过奖励函数进行奖励,得到奖励结果;
对于时间步t的分子,对应的奖励结果计算公式为
Figure 71817DEST_PATH_IMAGE001
Figure 344405DEST_PATH_IMAGE002
为折扣因子,T 为最大时间步,
Figure 851609DEST_PATH_IMAGE003
为多目标属性综合奖励:
Figure 329995DEST_PATH_IMAGE004
Figure 239045DEST_PATH_IMAGE005
为多目标属性的权重向量,
Figure 167687DEST_PATH_IMAGE006
为多目标属性的奖励向量;
所述分子的每个目标属性对应有一个分子属性回归预测模型,所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出,所述评估训练模块用于通过分子属性回归预测模型对生成的分子进行分子属性预测,判定所述分子的目标属性是否满足期望的目标值范围。
9.根据权利要求6-8任一项所述的基于价值学习的多目标属性分子生成系统,其特征在于,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
所述评估训练模块用于通过如下步骤结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估:
通过随机化值函数将训练后DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述训练后DQN模型的网络参数;
对于每个分子,从H个输出头中随机选择一个输出头用于评估分子的分子Q值。
10.根据权利要求6-8任一项所述的基于价值学习的多目标属性分子生成系统,其特征在于,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
所述DQN网络模型的损失函数为:
Figure 99871DEST_PATH_IMAGE007
其中,
Figure 522893DEST_PATH_IMAGE008
表示DQN网络模型,
Figure 286450DEST_PATH_IMAGE009
表示网络参数,
Figure 261359DEST_PATH_IMAGE010
表示TD目标,
Figure 805473DEST_PATH_IMAGE011
表示Huber loss;
Figure 953557DEST_PATH_IMAGE012
以历史步数生成的分子以及对应的奖励结果为训练数据、对DQN网络模型进行正向传播计算,计算分子的分子Q值;
在计算分子的分子Q值时,通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述DQN模型的网络参数;
所述H个输出头均预设概率值被选中使用,对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值;通过梯度下降方法更新DQN网络模型的参数。
CN202210830677.2A 2022-07-15 2022-07-15 基于价值学习的多目标属性分子生成方法及系统 Pending CN114898822A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210830677.2A CN114898822A (zh) 2022-07-15 2022-07-15 基于价值学习的多目标属性分子生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210830677.2A CN114898822A (zh) 2022-07-15 2022-07-15 基于价值学习的多目标属性分子生成方法及系统

Publications (1)

Publication Number Publication Date
CN114898822A true CN114898822A (zh) 2022-08-12

Family

ID=82729823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210830677.2A Pending CN114898822A (zh) 2022-07-15 2022-07-15 基于价值学习的多目标属性分子生成方法及系统

Country Status (1)

Country Link
CN (1) CN114898822A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN112820361A (zh) * 2019-11-15 2021-05-18 北京大学 一种基于对抗模仿学习的药物分子生成方法
CN114527642A (zh) * 2022-03-03 2022-05-24 东北大学 一种基于深度强化学习的agv自动调整pid参数的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112820361A (zh) * 2019-11-15 2021-05-18 北京大学 一种基于对抗模仿学习的药物分子生成方法
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN114527642A (zh) * 2022-03-03 2022-05-24 东北大学 一种基于深度强化学习的agv自动调整pid参数的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHENPENG ZHOU 等: "Optimization of Molecules via Deep Reinforcement Learning", 《SCIENTIFIC REPORTS》 *

Similar Documents

Publication Publication Date Title
CN110991056B (zh) 一种基于遗传变邻域算法的飞机装配线作业调度方法
CN111191934B (zh) 一种基于强化学习策略的多目标云工作流调度方法
CN109271320B (zh) 一种上位多目标测试用例优先级排序方法
CN105005823B (zh) 一种基于遗传算法的船舶分支管路路径规划方法
CN104616062A (zh) 一种基于多目标遗传规划的非线性系统辨识方法
CN116048958B (zh) 医疗机器人控制软件测试数据的生成方法、注入方法
CN115793657B (zh) 基于时态逻辑控制策略的配送机器人路径规划方法
CN105512755A (zh) 一种基于分解的多目标分布估计优化方法
WO2018167885A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
de Campos et al. Learning bayesian networks by ant colony optimisation: searching in two different spaces
CN114898822A (zh) 基于价值学习的多目标属性分子生成方法及系统
CN109740221B (zh) 一种基于搜索树的智能工业设计算法
CN114925190B (zh) 一种基于规则推理与gru神经网络推理的混合推理方法
CN102063640A (zh) 基于效用差分网络的机器人行为学习模型
Cotta et al. Evolutionary design of fuzzy logic controllers
CN113220437B (zh) 一种工作流多目标调度方法及装置
Sagawa et al. Learning variable importance to guide recombination
Campos et al. Learning Bayesian networks by ant colony optimisation: searching in two different spaces
Wang et al. Learning to Branch in Combinatorial Optimization with Graph Pointer Networks
Chen et al. Discrete Salp Swarm Algorithm for symmetric traveling salesman problem
CN114691518B (zh) 一种基于深度强化学习的efsm输入序列生成方法
Yavuz et al. A hybrid meta-heuristic for the batching problem in just-in-time flow shops
JP2002251598A (ja) 最適解探索装置、制御対象の制御装置及び最適解探索プログラム
de Mingo López et al. Swarm Intelligence Models: Ant Colony Systems Applied to BNF Grammars Rule Derivation
Sanko et al. Differential evolutionary approach guided by the Functional Constraint Network to solve program synthesis problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220812

RJ01 Rejection of invention patent application after publication