CN114898822A - 基于价值学习的多目标属性分子生成方法及系统 - Google Patents
基于价值学习的多目标属性分子生成方法及系统 Download PDFInfo
- Publication number
- CN114898822A CN114898822A CN202210830677.2A CN202210830677A CN114898822A CN 114898822 A CN114898822 A CN 114898822A CN 202210830677 A CN202210830677 A CN 202210830677A CN 114898822 A CN114898822 A CN 114898822A
- Authority
- CN
- China
- Prior art keywords
- molecule
- value
- molecular
- dqn
- step number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 158
- 230000008569 process Effects 0.000 claims abstract description 128
- 230000006870 function Effects 0.000 claims abstract description 79
- 230000009471 action Effects 0.000 claims abstract description 76
- 238000011156 evaluation Methods 0.000 claims abstract description 18
- 125000000524 functional group Chemical group 0.000 claims description 49
- 239000013598 vector Substances 0.000 claims description 44
- 239000000126 substance Substances 0.000 claims description 41
- 230000007704 transition Effects 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000013215 result calculation Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 125000004429 atom Chemical group 0.000 description 29
- 210000002569 neuron Anatomy 0.000 description 9
- 125000004432 carbon atom Chemical group C* 0.000 description 7
- 229910052799 carbon Inorganic materials 0.000 description 6
- OTMSDBZUPAUEDD-UHFFFAOYSA-N Ethane Chemical compound CC OTMSDBZUPAUEDD-UHFFFAOYSA-N 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- ATUOYWHBWRKTHZ-UHFFFAOYSA-N Propane Chemical compound CCC ATUOYWHBWRKTHZ-UHFFFAOYSA-N 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- VGGSQFUCUMXWEO-UHFFFAOYSA-N Ethene Chemical compound C=C VGGSQFUCUMXWEO-UHFFFAOYSA-N 0.000 description 1
- 239000005977 Ethylene Substances 0.000 description 1
- HSFWRNGVRCDJHI-UHFFFAOYSA-N alpha-acetylene Natural products C#C HSFWRNGVRCDJHI-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000002534 ethynyl group Chemical group [H]C#C* 0.000 description 1
- 239000001294 propane Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于价值学习的多目标属性分子生成方法及系统,属于分子生成技术领域,要解决的技术问题为如何生成结构相似并同时满足多种目标属性的有效分子。包括如下步骤:自定义马尔可夫决策过程;构建DQN网络模型;对于马尔可夫决策过程每一步分子生成过程,通过当前步数对应的训练后DQN模型对当前状态生成的分子进行评估,并基于评估得到的分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略,直至马尔可夫决策过程总步数执行完毕;当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。
Description
技术领域
本发明涉及分子生成技术领域,具体地说是基于价值学习的多目标属性分子生成方法及系统。
背景技术
目前基于深度强化学习算法的分子生成技术大部分是基于分子数据集训练分子生成模型从头设计分子,一方面这种方式导致搜索空间受限,预训练模型生成的分子结构往往局限于训练数据集,且预训练模型生成的分子难以保证均为有效分子,另一方面这种分子生成技术无法大量生成与期望分子结构相似的分子。
如何生成结构相似并同时满足多种目标属性的有效分子,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供基于价值学习的多目标属性分子生成方法及系统,来解决如何生成结构相似并同时满足多种目标属性的有效分子的技术问题。
第一方面,本发明的一种基于价值学习的多目标属性分子生成方法,用于生成具有多个目标属性的分子、且所述分子每个目标属性的属性值均处于目标属性值范围内,包括如下步骤:
自定义马尔可夫决策过程,包括定义状态空间、动作空间、状态转移概率函数以及奖励函数,所述状态空间中每个状态s为(m,t)元组,其中m为生成的分子官能团,t为当前的步数,总步数为T,所述动作空间中定义有用于生成分子的多种动作,所述状态转移概率表示在当前状态下采取特定动作后转移至下一个状态的概率,所述奖励函数用于对生成的分子进行奖励、得到奖励结果;
构建DQN网络模型,所述DQN网络模型用于以分子为输入、预测并输出分子Q值,所述分子Q值用于评估分子;
对于马尔可夫决策过程每一步分子生成过程,通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值,并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略,直至马尔可夫决策过程总步数执行完毕;
所述当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。
作为优选,所述动作空间定义有四种动作,分别为添加原子、添加化学键、删除化学键以及不做改变;
所述添加原子包括如下步骤:从原子集合中抽取一个原子,在原分子任意位置与该原子按所有价态允许的键序连接;
所述添加化学键在两个自由价原子之间进行,如果两个原子之间没有化学键,那么添加化学键动作可以是增加一个单键、双键或三键;
所述删除化学键动作即降低当前化学键的键级。
作为优选,对于马尔可夫决策过程的每一步分子生成过程,执行如下操作:
通过动作空间中定义的多种动作生成多个分子官能团;
通过ReplaceSubstructs函数将每个分子官能团和目标近似分子结构在预定处结合为一个完整的分子,得到与所述多个分子官能团一一对应的多个完整的分子;
对于当前状态生成的多个完整的分子,结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,得到每个分子对应的分子Q值;
对于多个分子对应的分子Q值,基于epsilon贪婪策略选择分子Q值,将所述选择的分子Q值对应的分子官能团作为马尔可夫决策过程下一个状态对应的分子官能团,直至马尔可夫决策过程总步数执行完毕;
通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,包括如下步骤:
对于所述分子,将其转换为fingerprint向量;
将所述分子对应的fingerprint向量以及对应的episode剩余步数作为输入数据,将所述输入数据输入当前步数对应的训练后DQN网络模型,得到对应的分子Q值;
基于epsilon贪婪策略选择分子Q值作为马尔可夫决策过程下一个状态对应的分子Q值;
对于所述马尔可夫决策过程下一个状态对应的分子Q值对应的分子,通过奖励函数进行奖励,得到奖励结果;
所述分子的每个目标属性对应有一个分子属性回归预测模型,所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出,通过分子属性回归预测模型对生成的分子进行分子属性预测,判定所述分子的目标属性是否满足期望的目标值范围。
作为优选,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,包括如下步骤:
通过随机化值函数将训练后DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述训练后DQN模型的网络参数;
对于每个分子,从H个输出头中随机选择一个输出头用于评估分子的分子Q值。
作为优选,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
所述DQN网络模型的损失函数为:
以历史步数生成的分子以及对应的奖励结果为训练数据、对DQN网络模型进行正向传播计算,计算分子的分子Q值;
在计算分子的分子Q值时,通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述DQN模型的网络参数,从H个输出头中选择一个输出头计算分子的分子Q值;
所述H个输出头均以预设概率值被选中使用,对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值;通过梯度下降方法更新DQN网络模型的参数。
第二方面,本发明的一种基于价值学习的多目标属性分子生成系统,用于执行如第一方面任一项所述的基于价值学习的多目标属性分子生成方法,以生成具有多个目标属性的分子、且所述分子每个目标属性的属性值均处于目标属性值范围内,所述系统包括:
马尔可夫决策过程配置模块,所述马尔可夫决策过程配置模块用于自定义马尔可夫决策过程,包括定义状态空间、动作空间、状态转移概率函数以及奖励函数,所述状态空间中每个状态s为(m,t)元组,其中m为生成的分子官能团,t为当前的步数,总步数为T,所述动作空间中定义有用于生成分子的多种动作,所述状态转移概率表示在当前状态下采取特定动作后转移至下一个状态的概率,所述奖励函数用于对生成的分子进行奖励、得到奖励结果;
DQN网络模型构建模块,所述DQN网络模型构建模块用于构建DQN网络模型,所述DQN网络模型用于以分子为输入、预测并输出分子Q值,所述分子Q值用于评估分子;
评估训练模块,所述评估训练模块用于对于马尔可夫决策过程每一步分子生成过程,通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值,并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略,直至马尔可夫决策过程总步数执行完毕;
所述当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。
作为优选,所述动作空间定义有四种动作,分别为添加原子、添加化学键、删除化学键以及不做改变;
所述添加原子包括如下步骤:从原子集合中抽取一个原子,在原分子任意位置与该原子按所有价态允许的键序连接;
所述添加化学键在两个自由价原子之间进行,如果两个原子之间没有化学键,那么添加化学键动作可以是增加一个单键、双键或三键;
所述删除化学键动作即降低当前化学键的键级。
作为优选,对于马尔可夫决策过程每一步分子生成过程,所述评估训练模块用于执行如下操作:
通过动作空间中定义的多种动作生成多个分子官能团;
通过ReplaceSubstructs函数将每个分子官能团和目标近似分子结构在预定处结合为一个完整的分子,得到与所述多个分子官能团一一对应的多个完整的分子;
对于当前状态生成的多个完整的分子,结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,得到每个分子对应的分子Q值;
对于多个分子对应的分子Q值,基于epsilon贪婪策略选择分子Q值,将所述选择的分子Q值对应的分子官能团作为马尔可夫决策过程下一个状态对应的分子官能团,直至马尔可夫决策过程总步数执行完毕;
所述评估训练模块用于通过如下步骤基于当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估:
对于所述分子,将其转换为fingerprint向量;
将所述分子对应的fingerprint向量以及对应的episode剩余步数作为输入数据,将所述输入数据输入当前步数对应的训练后DQN网络模型,得到对应的分子Q值;
基于epsilon贪婪策略选择分子Q值作为马尔可夫决策过程下一个状态对应的分子Q值;
对于所述马尔可夫决策过程下一个状态对应的分子Q值对应的分子,通过奖励函数进行奖励,得到奖励结果;
所述分子的每个目标属性对应有一个分子属性回归预测模型,所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出,所述评估训练模块用于通过分子属性回归预测模型对生成的分子进行分子属性预测,判定所述分子的目标属性是否满足期望的目标值范围。
作为优选,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
所述评估训练模块用于通过如下步骤结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估:
通过随机化值函数将训练后DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述训练后DQN模型的网络参数;
对于每个分子,从H个输出头中随机选择一个输出头用于评估分子的分子Q值。
作为优选,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
所述DQN网络模型的损失函数为:
以历史步数生成的分子以及对应的奖励结果为训练数据、对DQN网络模型进行正向传播计算,计算分子的分子Q值;
在计算分子的分子Q值时,通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述DQN模型的网络参数;
所述H个输出头均以预设概率值被选中使用,对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值;
通过梯度下降方法更新DQN网络模型的参数。
本发明的基于价值学习的多目标属性分子生成方法及系统具有以下优点:
1、对于马尔可夫决策过程每一步生成分子过程,通过训练后的DQN网络模型对生成的分子进行评估,为马尔可夫决策过程下一步动作提供决策,该训练后的DQN网络模型是通过结合了随机化值函数的epsilon贪婪策略进行训练得到的,有助于强化学习系统进行更高效的分子生成的动作探索,学到生成分子的最优策略,从而使生成的分子的目标属性值更符合期望;
2、马尔可夫决策过程中,状态空间定义每个状态包括分子官能团,将分子官能团与目标分子近似结构结合为完整分子,上述过程生成的分子其分子结构均与期望分子结构近似,增加了生成分子的合理性和可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1一种基于价值学习的多目标属性分子生成方法的流程框图;
图2为实施例1一种基于价值学习的多目标属性分子生成方法中DQN网络模型结构示意图;
图3为实施例1一种基于价值学习的多目标属性分子生成方法中马尔可夫决策过程生成分子的具体实例图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供基于价值学习的多目标属性分子生成方法及系统,用于解决如何生成结构相似并同时满足多种目标属性的有效分子的技术问题。
实施例1:
本发明一种基于价值学习的多目标属性分子生成方法,如图1所示,包括如下步骤:
S100、自定义马尔可夫决策过程,包括定义状态空间、动作空间、状态转移概率函数以及奖励函数,所述状态空间中每个状态s为(m,t)元组,其中m为生成的分子官能团,t为当前的步数,总步数为T,所述动作空间中定义有用于生成分子的多种动作,所述状态转移概率表示在当前状态下采取特定动作后转移至下一个状态的概率,所述奖励函数用于对生成的分子进行奖励、得到奖励结果;
S200、构建DQN网络模型,所述DQN网络模型用于以分子为输入、预测并输出分子Q值,所述分子Q值用于评估分子;
S300、对于马尔可夫决策过程每一步分子生成过程,通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值,并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略,直至马尔可夫决策过程总步数执行完毕;
当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。
定义的动作空间A中动作a有四种:添加原子、添加化学键、删除化学键、不做改变。具体地,添加原子动作分两步完成:第一步为从原子集合中抽取一个原子,第二步为在原分子任意位置与该原子按所有价态允许的键序连接。添加化学键在两个自由价原子之间进行,如果两个原子之间没有化学键,那么添加化学键动作可以是增加一个单键、双键或三键。删除化学键动作即降低当前化学键的键级。
对于定义的状态转移概率{Psa},状态转移概率指定为1,表示在当前状态下采取特定动作后转移至下一个状态的状态转移为确定性的。
奖励函数R对分子进行评估,本实施例中,将马尔可夫过程中每一步分子生成过程生成的分子官能团与目标分子近似结构结合为一个完整分子,通过奖励函数对该完整分子进行评估。
步骤S200构建DQN网络模型,该模型结构如图2所示,包括一个输入层、四个全连接隐藏层和一个输出层,输入层含2049个神经元(包含2048维的fingerprint向量及1维的episode剩余步数),四个全连接隐藏层的神经元个数分别为1024、512、128、32,ReLU作为激活函数;输出层含12个神经元,输出层的12个神经元每次只随机选择其中一个神经元来输出值。
该DQN网络模型输入层为fingerprint向量及1维的episode剩余步数,因此在通过DQN网络模型对完整分子进行评估时,将该完整分子转换为fingerprint向量。
本实施例在训练DQN模型时,首先构建DQN网络模型的损失函数,其表示为:
然后,以历史步数生成的分子以及对应的奖励结果为训练数据、对DQN网络模型进行正向传播计算,输入分子的分子Q值;在计算分子的分子Q值时,通过随机化值函数将训练后DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述训练后DQN模型的网络参数,在计算分子的分子Q值时,通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述DQN模型的网络参数。
由于H个输出头均以预设概率值被选中使用,本实施例中对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值。本实施例通过梯度下降方法更新DQN网络模型的参数。
DQN网络模型训练过程的初始阶段,在通过马尔可夫决策过程生成分子过程中,对于第一步生成的分子,通过初始化后的DQN网络模型对该分子进行决策,得到分子Q值,基于当前步数对应的分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供决策,根据马尔可夫决策过程执行下一步分子生成,依次执行上述过程,当马尔可夫决策过程执行预定步数,得到预定数量的分子以及对应的奖励结果时,将所述历史步数的分子以及奖励结果作为训练数据,对DQN网络模型进行训练,得到训练后DQN网络模型;
后续阶段,通过马尔可夫决策过程生成分子过程中,对于当前步生成的分子,通过上述训练后的DQN网络模型对该分子进行决策,得到分子Q值,基于当前步对应的分子Q值为马尔可夫决策过程下一步生成过程的动作提供决策,根据马尔可夫决策过程执行下一步分子生成,依次执行上述过程,当马尔可夫决策过程执行预定步数,得到预定数量的分子以及对应的奖励结果时,将所述历史步数的分子以及奖励结果作为训练数据,对训练后的DQN网络模型再次进行训练,得到训练后DQN网络模型,基于后续阶段的操作,对DQN网络模型进行多次训练。
本实施例,对于马尔可夫决策过程的每一步分子生成过程,执行如下操作:
(1)通过动作空间中定义的多种动作生成多个分子官能团;
(2)通过ReplaceSubstructs函数将每个分子官能团和目标近似分子结构在预定处结合为一个完整的分子,得到与所述多个分子官能团一一对应的多个完整的分子;
(3)对于当前状态生成的多个完整的分子,结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,得到每个分子对应的分子Q值;
(4)对于多个分子对应的分子Q值,基于epsilon贪婪策略选择分子Q值,将所述选择的分子Q值对应的分子官能团作为马尔可夫决策过程当前状态生成的分子官能团,直至马尔可夫决策过程总步数执行完毕。
步骤(3)通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,包括如下步骤:
(3-1)对于所述分子,将其转换为fingerprint向量;
(3-2)将所述分子对应的fingerprint向量以及对应的episode剩余步数作为输入数据,将所述输入数据输入当前步数对应的训练后DQN网络模型,得到对应的分子Q值;
(3-3)基于epsilon贪婪策略选择分子Q值作为马尔可夫决策过程下一个状态对应的分子Q值;
(3-4)对于所述马尔可夫决策过程下一个状态对应的分子Q值对应的分子,通过奖励函数进行奖励,得到奖励结果。
本实施例中,分子的每个目标属性对应有一个分子属性回归预测模型,所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出,通过分子属性回归预测模型对生成的分子进行分子属性预测,判定所述分子的目标属性是否满足期望的目标值范围。
对于上述马尔可夫决策过程生成分子过程,以一个具体实例进行如下说明:假如原子集合中只有一个碳原子可供添加,对于第一步只能选择添加碳原子这个动作,接下来在该碳原子基础上经过添加碳原子及不做改变两个动作得到一个乙烷和一个碳原子两个分子官能团(此时添加化学键与删除化学键动作还不能起作用),将这两个分子官能团分别与目标近似分子结构在预定处结合为一个完整分子得到两个分子,使用训练后DQN模型对所述两个分子进行评估后使用epsilon贪婪策略选择一个分子,其对应分子官能团作为第一步得到的分子官能团。假设第二步得到的分子官能团是乙烷,经过添加碳原子、添加化学键及不做改变三个动作分别得到丙烷、乙烯、乙炔、乙烷四个分子官能团(此时删除化学键动作还不能起作用),将这四个分子官能团分别与目标近似分子结构在预定处结合为一个完整分子得到四个分子,使用训练后DQN模型对所述四个分子进行评估后使用epsilon贪婪策略选择一个分子,其对应官能团作为第三步得到的分子官能团。依次类推,直到达到预定的生成分子的总步数为止。这个过程的示意图如图3所示。
本实施例的方法,自定义分子生成的马尔可夫决策过程,以该马尔可夫决策过程生成的分子为输入,训练DQN网络模型并通过训练后DQN网络模型输出的分子Q值为马尔可夫过程下一步动作提供决策,在生成有效分子的同时满足生成多目标属性的分子的要求。
实施例2:
本发明一种基于价值学习的多目标属性分子生成系统,包括马尔可夫决策过程配置模块、DQN网络模型构建模块以及评估训练模块,该系统执行实施例1公开的方法,生成与目标分子结构近似的分子,该分子具有多个目标属性的分子、且所述分子每个目标属性的属性值均处于目标属性值范围内。
马尔可夫决策过程配置模块用于自定义马尔可夫决策过程,包括定义状态空间、动作空间、状态转移概率函数以及奖励函数,所述状态空间中每个状态s为(m,t)元组,其中m为生成的分子官能团,t为当前的步数,总步数为T,所述动作空间中定义有用于生成分子的多种动作,所述状态转移概率为1、表示在当前状态下采取特定动作后转移至下一个状态的概率,所述奖励函数用于对生成的分子进行奖励、得到奖励结果。
定义的动作空间A中动作a有四种:添加原子、添加化学键、删除化学键、不做改变。具体地,添加原子动作分两步完成:第一步为从原子集合中抽取一个原子,第二步为在原分子任意位置与该原子按所有价态允许的键序连接。添加化学键在两个自由价原子之间进行,如果两个原子之间没有化学键,那么添加化学键动作可以是增加一个单键、双键或三键。删除化学键动作即降低当前化学键的键级。
对于定义的状态转移概率{Psa},状态转移概率指定为1,表示在当前状态下采取特定动作后转移至下一个状态的状态转移为确定性的。
奖励函数R对分子进行评估,本实施例中,将马尔可夫过程中每一步分子生成过程生成的分子官能团与目标分子近似结构结合为一个完整分子,通过奖励函数对该完整分子进行评估。
DQN网络模型构建模块用于构建DQN网络模型, DQN网络模型用于以分子为输入、预测并输出分子Q值,分子Q值用于评估分子。
作为DQN网络模型的具体实施,该模型包括一个输入层、四个全连接隐藏层和一个输出层,输入层含2049个神经元(包含2048维的fingerprint向量及1维的episode剩余步数),四个全连接隐藏层的神经元个数分别为1024、512、128、32,ReLU作为激活函数;输出层含12个神经元,输出层的12个神经元每次只随机选择其中一个神经元来输出值。
该DQN网络模型输入层为fingerprint向量及1维的episode剩余步数,因此在通过DQN网络模型对完整分子进行评估时,将该完整分子转换为fingerprint向量。
评估训练模块用于对于马尔可夫决策过程每一步分子生成过程,通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值,并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略,直至马尔可夫决策过程总步数执行完毕。
其中,当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。
在训练DQN模型时,评估训练模块首先构建DQN网络模型的损失函数,其表示为:
然后,评估训练模块用于执行如下操作:以历史步数生成的分子以及对应的奖励结果为训练数据、对DQN网络模型进行正向传播计算,输入分子的分子Q值;在计算分子的分子Q值时,通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述DQN模型的网络参数;所述H个输出头均以预设的概率值被选中使用,对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值;通过梯度下降方法更新DQN网络模型的参数。
DQN网络模型训练过程的初始阶段,在通过马尔可夫决策过程生成分子过程中,对于第一步生成的分子,通过初始化后的DQN网络模型对该分子进行决策,得到分子Q值,基于当前步数对应的分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供决策,根据马尔可夫决策过程执行下一步分子生成,依次执行上述过程,当马尔可夫决策过程执行预定步数,得到预定数量的分子以及对应的奖励结果时,将所述历史步数的分子以及奖励结果作为训练数据,对DQN网络模型进行训练,得到训练后DQN网络模型;
后续阶段,通过马尔可夫决策过程生成分子过程中,对于当前步生成的分子,通过上述训练后的DQN网络模型对该分子进行决策,得到分子Q值,基于当前步对应的分子Q值为马尔可夫决策过程下一步生成过程的动作提供决策,根据马尔可夫决策过程执行下一步分子生成,依次执行上述过程,当马尔可夫决策过程执行预定步数,得到预定数量的分子以及对应的奖励结果时,将所述历史步数的分子以及奖励结果作为训练数据,对训练后的DQN网络模型再次进行训练,得到训练后DQN网络模型,基于后续阶段的操作,对DQN网络模型进行多次训练。
本实施例,对于马尔可夫决策过程的每一步分子生成过程,评估训练模块用于执行如下操作:
(1)通过动作空间中定义的多种动作生成多个分子官能团;
(2)通过ReplaceSubstructs函数将每个分子官能团和目标近似分子结构在预定处结合为一个完整的分子,得到与所述多个分子官能团一一对应的多个完整的分子;
(3)对于当前状态生成的多个完整的分子,结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,得到每个分子对应的分子Q值;
(4)对于多个分子对应的分子Q值,基于epsilon贪婪策略选择分子Q值,将所述选择的分子Q值对应的分子官能团作为马尔可夫决策过程当前状态生成的分子官能团,直至马尔可夫决策过程总步数执行完毕。
评估训练模块用于通过如下步骤基于当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估:
(1)对于所述分子,将其转换为fingerprint向量;
(2)将所述分子对应的fingerprint向量以及对应的episode剩余步数作为输入数据,将所述输入数据输入当前步数对应的训练后DQN网络模型,得到对应的分子Q值;
(3)基于epsilon贪婪策略选择分子Q值作为马尔可夫决策过程下一个状态对应的分子Q值;
(4)对于所述马尔可夫决策过程下一个状态对应的分子Q值对应的分子,通过奖励函数进行奖励,得到奖励结果。
本实施例中,分子的每个目标属性对应有一个分子属性回归预测模型,所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出,评估训练模块用于通过分子属性回归预测模型对生成的分子进行分子属性预测,判定所述分子的目标属性是否满足期望的目标值范围。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
Claims (10)
1.一种基于价值学习的多目标属性分子生成方法,其特征在于,用于生成具有多个目标属性的分子、且所述分子每个目标属性的属性值均处于目标属性值范围内,包括如下步骤:
自定义马尔可夫决策过程,包括定义状态空间、动作空间、状态转移概率函数以及奖励函数,所述状态空间中每个状态s为(m,t)元组,其中m为生成的分子官能团,t为当前的步数,总步数为T,所述动作空间中定义有用于生成分子的多种动作,所述状态转移概率表示在当前状态下采取特定动作后转移至下一个状态的概率,所述奖励函数用于对生成的分子进行奖励、得到奖励结果;
构建DQN网络模型,所述DQN网络模型用于以分子为输入、预测并输出分子Q值,所述分子Q值用于评估分子;
对于马尔可夫决策过程每一步分子生成过程,通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值,并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略,直至马尔可夫决策过程总步数执行完毕;
所述当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。
2.根据权利要求1所述的基于价值学习的多目标属性分子生成方法,其特征在于,所述动作空间定义有四种动作,分别为添加原子、添加化学键、删除化学键以及不做改变;
所述添加原子包括如下步骤:从原子集合中抽取一个原子,在原分子任意位置与该原子按所有价态允许的键序连接;
所述添加化学键在两个自由价原子之间进行,如果两个原子之间没有化学键,那么添加化学键动作可以是增加一个单键、双键或三键;
所述删除化学键动作即降低当前化学键的键级。
3.根据权利要求1所述的基于价值学习的多目标属性分子生成方法,其特征在于,对于马尔可夫决策过程的每一步分子生成过程,执行如下操作:
通过动作空间中定义的多种动作生成多个分子官能团;
通过ReplaceSubstructs函数将每个分子官能团和目标近似分子结构在预定处结合为一个完整的分子,得到与所述多个分子官能团一一对应的多个完整的分子;
对于当前状态生成的多个完整的分子,结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,得到每个分子对应的分子Q值;
对于多个分子对应的分子Q值,基于epsilon贪婪策略选择分子Q值,将所述选择的分子Q值对应的分子官能团作为马尔可夫决策过程下一个状态对应的分子官能团,直至马尔可夫决策过程总步数执行完毕;
通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,包括如下步骤:
对于所述分子,将其转换为fingerprint向量;
将所述分子对应的fingerprint向量以及对应的episode剩余步数作为输入数据,将所述输入数据输入当前步数对应的训练后DQN网络模型,得到对应的分子Q值;
基于epsilon贪婪策略选择分子Q值作为马尔可夫决策过程下一个状态对应的分子Q值;
对于所述马尔可夫决策过程下一个状态对应的分子Q值对应的分子,通过奖励函数进行奖励,得到奖励结果;
所述分子的每个目标属性对应有一个分子属性回归预测模型,所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出,通过分子属性回归预测模型对生成的分子进行分子属性预测,判定所述分子的目标属性是否满足期望的目标值范围。
4.根据权利要求1-3任一项所述的基于价值学习的多目标属性分子生成方法,其特征在于,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,包括如下步骤:
通过随机化值函数将训练后DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述训练后DQN模型的网络参数;
对于每个分子,从H个输出头中随机选择一个输出头用于评估分子的分子Q值。
5.根据权利要求1-3任一项所述的基于价值学习的多目标属性分子生成方法,其特征在于,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
所述DQN网络模型的损失函数为:
以历史步数生成的分子以及对应的奖励结果为训练数据、对DQN网络模型进行正向传播计算,计算分子的分子Q值;
在计算分子的分子Q值时,通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述DQN模型的网络参数;
所述H个输出头均预设概率值被选中使用,对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值;
通过梯度下降方法更新DQN网络模型的参数。
6.一种基于价值学习的多目标属性分子生成系统,其特征在于,用于执行如权利要求1-5任一项所述的基于价值学习的多目标属性分子生成方法,以生成具有多个目标属性的分子、且所述分子每个目标属性的属性值均处于目标属性值范围内,所述系统包括:
马尔可夫决策过程配置模块,所述马尔可夫决策过程配置模块用于自定义马尔可夫决策过程,包括定义状态空间、动作空间、状态转移概率函数以及奖励函数,所述状态空间中每个状态s为(m,t)元组,其中m为生成的分子官能团,t为当前的步数,总步数为T,所述动作空间中定义有用于生成分子的多种动作,所述状态转移概率表示在当前状态下采取特定动作后转移至下一个状态的概率,所述奖励函数用于对生成的分子进行奖励、得到奖励结果;
DQN网络模型构建模块,所述DQN网络模型构建模块用于构建DQN网络模型,所述DQN网络模型用于以分子为输入、预测并输出分子Q值,所述分子Q值用于评估分子;
评估训练模块,所述评估训练模块用于对于马尔可夫决策过程每一步分子生成过程,通过当前步数对应的训练后DQN网络模型对当前状态生成的所有分子进行评估、得到每个分子的分子Q值,并基于epsilon贪婪策略选择一个分子Q值为马尔可夫决策过程下一步分子生成过程的动作提供策略,直至马尔可夫决策过程总步数执行完毕;
所述当前步数对应的训练后DQN模型为以历史步数生成的分子以及对应的奖励结果为训练数据、通过结合有随机化值函数的epsilon贪婪策略进行训练得到的。
7.根据权利要求6所述的基于价值学习的多目标属性分子生成系统,其特征在于,所述动作空间定义有四种动作,分别为添加原子、添加化学键、删除化学键以及不做改变;
所述添加原子包括如下步骤:从原子集合中抽取一个原子,在原分子任意位置与该原子按所有价态允许的键序连接;
所述添加化学键在两个自由价原子之间进行,如果两个原子之间没有化学键,那么添加化学键动作可以是增加一个单键、双键或三键;
所述删除化学键动作即降低当前化学键的键级。
8.根据权利要求6所述的基于价值学习的多目标属性分子生成系统,其特征在于,对于马尔可夫决策过程每一步分子生成过程,所述评估训练模块用于执行如下操作:
通过动作空间中定义的多种动作生成多个分子官能团;
通过ReplaceSubstructs函数将每个分子官能团和目标近似分子结构在预定处结合为一个完整的分子,得到与所述多个分子官能团一一对应的多个完整的分子;
对于当前状态生成的多个完整的分子,结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估,得到每个分子对应的分子Q值;
对于多个分子对应的分子Q值,基于epsilon贪婪策略选择分子Q值,将所述选择的分子Q值对应的分子官能团作为马尔可夫决策过程下一个状态对应的分子官能团,直至马尔可夫决策过程总步数执行完毕;
所述评估训练模块用于通过如下步骤基于当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估:
对于所述分子,将其转换为fingerprint向量;
将所述分子对应的fingerprint向量以及对应的episode剩余步数作为输入数据,将所述输入数据输入当前步数对应的训练后DQN网络模型,得到对应的分子Q值;
基于epsilon贪婪策略选择分子Q值作为马尔可夫决策过程下一个状态对应的分子Q值;
对于所述马尔可夫决策过程下一个状态对应的分子Q值对应的分子,通过奖励函数进行奖励,得到奖励结果;
所述分子的每个目标属性对应有一个分子属性回归预测模型,所述分子属性回归预测模型以所述分子的fingerprint向量为输入、以所述分子的目标属性值为输出,所述评估训练模块用于通过分子属性回归预测模型对生成的分子进行分子属性预测,判定所述分子的目标属性是否满足期望的目标值范围。
9.根据权利要求6-8任一项所述的基于价值学习的多目标属性分子生成系统,其特征在于,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
所述评估训练模块用于通过如下步骤结合随机化值函数、通过当前步数对应的训练后DQN模型对当前状态生成的每个分子进行评估:
通过随机化值函数将训练后DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述训练后DQN模型的网络参数;
对于每个分子,从H个输出头中随机选择一个输出头用于评估分子的分子Q值。
10.根据权利要求6-8任一项所述的基于价值学习的多目标属性分子生成系统,其特征在于,所述DQN网络模型包括一个输入层、四个全连接隐藏层和一个输出层,所述输入层用于输入当前步数生成分子对应的fingerprint向量以及当前步数对应的episode剩余步数;所述全连接隐藏层配置有ReLU激活函数;
所述DQN网络模型的损失函数为:
以历史步数生成的分子以及对应的奖励结果为训练数据、对DQN网络模型进行正向传播计算,计算分子的分子Q值;
在计算分子的分子Q值时,通过随机化值函数将DQN模型输出层的H维作为H相互独立的H个输出头,所述H输出头共享所述DQN模型的网络参数;
所述H个输出头均预设概率值被选中使用,对被选中的若干个输出头的输出值取均值来作为所述DQN网络模型的输出值;通过梯度下降方法更新DQN网络模型的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210830677.2A CN114898822A (zh) | 2022-07-15 | 2022-07-15 | 基于价值学习的多目标属性分子生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210830677.2A CN114898822A (zh) | 2022-07-15 | 2022-07-15 | 基于价值学习的多目标属性分子生成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114898822A true CN114898822A (zh) | 2022-08-12 |
Family
ID=82729823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210830677.2A Pending CN114898822A (zh) | 2022-07-15 | 2022-07-15 | 基于价值学习的多目标属性分子生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114898822A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111884213A (zh) * | 2020-07-27 | 2020-11-03 | 国网北京市电力公司 | 一种基于深度强化学习算法的配电网电压调节方法 |
CN112820361A (zh) * | 2019-11-15 | 2021-05-18 | 北京大学 | 一种基于对抗模仿学习的药物分子生成方法 |
CN114527642A (zh) * | 2022-03-03 | 2022-05-24 | 东北大学 | 一种基于深度强化学习的agv自动调整pid参数的方法 |
-
2022
- 2022-07-15 CN CN202210830677.2A patent/CN114898822A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820361A (zh) * | 2019-11-15 | 2021-05-18 | 北京大学 | 一种基于对抗模仿学习的药物分子生成方法 |
CN111884213A (zh) * | 2020-07-27 | 2020-11-03 | 国网北京市电力公司 | 一种基于深度强化学习算法的配电网电压调节方法 |
CN114527642A (zh) * | 2022-03-03 | 2022-05-24 | 东北大学 | 一种基于深度强化学习的agv自动调整pid参数的方法 |
Non-Patent Citations (1)
Title |
---|
ZHENPENG ZHOU 等: "Optimization of Molecules via Deep Reinforcement Learning", 《SCIENTIFIC REPORTS》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991056B (zh) | 一种基于遗传变邻域算法的飞机装配线作业调度方法 | |
CN111191934B (zh) | 一种基于强化学习策略的多目标云工作流调度方法 | |
CN109271320B (zh) | 一种上位多目标测试用例优先级排序方法 | |
CN105005823B (zh) | 一种基于遗传算法的船舶分支管路路径规划方法 | |
CN104616062A (zh) | 一种基于多目标遗传规划的非线性系统辨识方法 | |
CN116048958B (zh) | 医疗机器人控制软件测试数据的生成方法、注入方法 | |
CN115793657B (zh) | 基于时态逻辑控制策略的配送机器人路径规划方法 | |
CN105512755A (zh) | 一种基于分解的多目标分布估计优化方法 | |
WO2018167885A1 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
de Campos et al. | Learning bayesian networks by ant colony optimisation: searching in two different spaces | |
CN114898822A (zh) | 基于价值学习的多目标属性分子生成方法及系统 | |
CN109740221B (zh) | 一种基于搜索树的智能工业设计算法 | |
CN114925190B (zh) | 一种基于规则推理与gru神经网络推理的混合推理方法 | |
CN102063640A (zh) | 基于效用差分网络的机器人行为学习模型 | |
Cotta et al. | Evolutionary design of fuzzy logic controllers | |
CN113220437B (zh) | 一种工作流多目标调度方法及装置 | |
Sagawa et al. | Learning variable importance to guide recombination | |
Campos et al. | Learning Bayesian networks by ant colony optimisation: searching in two different spaces | |
Wang et al. | Learning to Branch in Combinatorial Optimization with Graph Pointer Networks | |
Chen et al. | Discrete Salp Swarm Algorithm for symmetric traveling salesman problem | |
CN114691518B (zh) | 一种基于深度强化学习的efsm输入序列生成方法 | |
Yavuz et al. | A hybrid meta-heuristic for the batching problem in just-in-time flow shops | |
JP2002251598A (ja) | 最適解探索装置、制御対象の制御装置及び最適解探索プログラム | |
de Mingo López et al. | Swarm Intelligence Models: Ant Colony Systems Applied to BNF Grammars Rule Derivation | |
Sanko et al. | Differential evolutionary approach guided by the Functional Constraint Network to solve program synthesis problem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220812 |
|
RJ01 | Rejection of invention patent application after publication |