CN111553118A

CN111553118A - 基于强化学习的多维连续型优化变量全局优化方法

Info

Publication number: CN111553118A
Application number: CN202010340933.0A
Authority: CN
Inventors: 陈刚; 王怡星; 韩仁坤; 张扬
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-18
Anticipated expiration: 2040-04-26
Also published as: CN111553118B

Abstract

本发明公开了一种基于强化学习的多维连续型优化变量全局优化方法，该方法包括：强化学习环境的建立；利用强化学习方法在指定优化变量集中选择指定个数的优化变量，然后再对其取值利用连续型优化变量优化算法进行优化的顺序优化策略；优化总体流程以及约束的引入方法。该方法针对多维连续型优化变量全局优化问题，实现了智能优化的目的，并且可以突破传统全局优化方法对优化变量个数的限制，使人工智能技术在优化方面的广泛应用成为了可能。可以应用于具有极大规模设计变量的工业设计、制造加工、控制优化、投资决策、系统工程等场合；并且得益于深度强化学习强大的智能组合优化能力，对于变量间存在复杂耦合关系的系统也有很好的全局优化效果。

Description

基于强化学习的多维连续型优化变量全局优化方法

技术领域

本发明属于优化算法领域，特别涉及大规模连续取值型优化变量的全局优化方法。

背景技术

优化方法可以基本分为两大类：基于梯度的优化方法以及全局优化方法。基于梯度的方法对于单极值问题的优化效率很高，但工程实际等场合中大多需要处理复杂的多极值问题，而且基于梯度的方法容易陷入局部最优，不能较好地满足优化需求。传统全局优化方法主要包括遗传算法、粒子群算法等，这类方法具有较好的全局寻优能力，可以适用于复杂的多极值优化问题。然而传统全局优化算法对优化变量的个数有限制，无法处理具有大规模优化变量的优化问题，优化变量个数一般只能限制在20个左右。考虑到这些方法一般会与代理模型(如响应面、Kriging等)结合，而构建包含多个优化变量的高精度代理模型也是十分困难和耗时的。因此对于具有大规模设计变量的工业设计、制造加工、控制优化、投资决策、系统工程等场合，传统全局优化算法的实际应用价值较低。另外，传统全局优化算法收敛速度缓慢难以直接运用于具有复杂作用机制的环境中，比如耗时的高精度流体仿真等场合。此外，现有的主流方法需要一定程度的经验作为指导，比如智能算法中初始种群的选取、算法参数的设置等，无法实现全自动优化，降低了优化效率。

因此，发展一种具有广泛适用范围，有较强全局寻优能力、收敛速度快，且能处理大规模优化变量，并尽可能实现无人工参与的智能优化算法是必要、并具有广泛需求的。

发明内容

为了解决现有全局优化算法无法支持大规模优化变量，且收敛速度较慢的问题，本发明提出一种基于强化学习的多维连续型优化变量全局优化方法，该优化方法在实际优化过程中可以实现较高程度的智能优化，无需或只需要较少的人工干预，进一步提高了优化效率。

为了达到上述目的，本发明采用如下技术方案：

基于强化学习的多维连续型优化变量全局优化方法，包括以下步骤：

步骤1：定义优化问题，明确优化变量、目标函数以及约束条件；建立用于存储历史数据集的数据结构，历史数据集中的元素为某一优化步下已知全部优化变量取值和目标函数值，该集合中的元素按照优化历史顺序排列；

步骤2：建立基于连续型优化变量取值优化算法和优化效果量化评估算法的强化学习环境，基本方法为通过批处理命令的方法将当前优化步之前的历史数据以步骤1建立的数据结构形式，以及待确定最优取值的一部分优化变量输入到强化学习环境，固定当前待确定最优取值的优化变量之外的其它优化变量的取值，再通过贝叶斯优化算法或其它连续型优化变量取值优化算法确定当前待定优化变量的最优取值，该最优取值是在其它优化变量固定取最近一次优化后的取值，且考虑约束的情况下得到的，约束的考虑方法具体由所采取的连续型优化变量取值优化算法决定，只要保证优化后的取值满足优化问题的约束条件即可；再通过优化效果量化评估算法输出优化效果评估结果，优化效果量化评估算法应当根据具体优化问题综合考虑目标函数所有分量的取值，并给出标量型的量化评估结果。

步骤3：建立用于选择优化变量的强化学习算法，该算法的实现形式包括神经网络或其它传统强化学习算法用到的形式，强化学习算法的输入为当前所有优化变量的取值，输出为小于优化变量总数的指定个数的优化变量，用于在下一步对这些优化变量进行取值优化，强化学习算法可以采用的具体方法为传统强化学习所采用的基于值函数的方法(Value-based Method)、基于策略的方法(Policy-based Method)以及两者的结合(Actor-Critic Method)；

步骤4：根据具体优化问题的目标函数和约束条件设置奖励函数，奖励函数的设置原则是当目标函数在优化期望方向获得提升时给予正向奖励，当约束违反时给予惩罚，具体奖励值与惩罚值应当依据具体问题对于优化与约束的期望情况确定，最终综合得到奖励函数值，用以表征优化效果以及对约束的满足程度，奖励函数的具体形式还应当根据所采用的强化学习算法所特有的要求确定，之后在步骤2所建立的强化学习环境中，通过强化学习训练方法不断更新步骤3所建立的强化学习算法中用到的参数，以利用强化学习优异的复杂环境智能寻优能力获取某一优化步应进一步参与小规模取值优化的优化变量，并在更新过程中提取针对指定优化问题的优化经验，并以强化学习算法参数的形式存储下来，强化学习训练方法可以使用基于经验回放的方法(Off-Policy Method)或在线更新等强化学习训练算法；对优化终止条件的设置应当权衡优化效果与优化所用时间，在允许的时间范围内尽可提高优化效果，例如对航空学中翼型进行升阻比优化时，如果对优化所用时间没有特殊要求，则应当设置为：在尽可能多次地进行强化学习与环境的交互过程后，升阻力均没有明显变化时停止优化过程，并选取优化效果以及对约束满足较好的结果作为最终结果；

步骤5：在实际使用强化学习算法进行优化时，利用步骤2所建立的强化学习环境，步骤3所建立的强化学习算法以及步骤4所获得的参数取值，通过强化学习算法不断挑选出一部分优化变量，送入取值优化器进行优化，并对当前优化结果进行量化评估，如此迭代下去直到优化结果满足所设定的优化终止条件。

本发明针对具体优化问题，首先建立以选取优化变量为目的的强化学习算法，该算法在每一优化步中从整个优化变量集内选取指定个数的优化变量用于取值优化，取值优化属于强化学习环境的一部分，它包括但不仅包括贝叶斯优化方法。强化学习环境根据强化学习算法选出的优化变量，进一步优化得到这些优化变量的最优取值，并根据目标函数和约束得到对于当前优化结果的量化评估结果。强化学习通过与该环境的交互，不断更新参数，保存优化经验。本发明充分利用了强化学习强大的智能全局组合优化能力，没有直接对所有优化变量进行优化，而是拆分为两步走的策略：先选出一部分优化变量，再固定其它优化变量的取值，对这些选出的优化变量做取值优化。并通过不断迭代，逐步提升优化效果。本发明保留了传统全局优化算法中对于小规模优化变量的全局优化能力，同时引入了智能型强化学习算法，突破了传统全局优化算法对优化变量个数的限制，并且做到了智能化的寻优过程，达到了可以保证全局寻优能力的条件下，提升收敛速度的效果。具体优化过程中，强化学习算法与小规模优化变量的传统全局优化算法结合，进行全局优化的时间可以忽略不计，对具有大规模设计变量的工业设计、制造加工、控制优化、投资决策、系统工程等场合具有很大的应用价值；并且得益于深度强化学习强大的智能组合优化能力，对于变量间存在复杂耦合关系的系统也有很好的全局优化效果。

本发明和现有技术相比较，具备如下优点：

1.将全局优化问题分为两步走，利用强化学习强大的组合优化能力从优化变量集中选取当前优化步所应进一步优化其取值的优化变量，突破了传统全局优化算法对于优化变量个数的限制；

2.将取值优化算法与优化效果量化评估算法相结合组成强化学习环境，强化学习针对具体采用的取值优化算法积累优化经验，并以参数的形式将优化经验保存下来；

3.强化学习算法中的参数经过训练后，优化能力可以复用，对于新的优化问题可以快速进行优化过程，并且极大程度地减小了人工参与，实现了自动优化的目标。

附图说明

图1本发明全局优化方法总流程图。

具体实施方式

下面采用实例对本发明做进一步说明，此处说明采用的取值优化算法即贝叶斯优化算法，以及软件、文件格式和平台用来提供对本发明的进一步理解，并不因此将本发明的保护范围限制在实例描述的范围之中。

如图1所示，本发明基于强化学习的多维连续型优化变量全局优化方法，包括以下步骤：

步骤2：建立基于连续型优化变量取值优化算法和优化效果量化评估算法的强化学习环境，基本方法为通过批处理命令的方法将当前优化步之前的历史数据以步骤1建立的数据结构形式，以及待确定最优取值的一部分优化变量输入到强化学习环境，固定当前待确定最优取值的优化变量之外的其它优化变量的取值，再通过包括但不仅包括贝叶斯优化算法在内的连续型优化变量取值优化算法确定当前待确定最优取值的优化变量的最优取值，该最优取值是在其它优化变量固定取最近一次优化后的取值，且考虑约束的情况下得到的，约束的考虑方法具体由所采取的连续型优化变量取值优化算法决定，只要保证优化后的取值满足优化问题的约束条件即可；再通过优化效果量化评估算法输出优化效果评估结果，优化效果量化评估算法应当根据具体优化问题综合考虑目标函数所有分量的取值，并给出标量型的量化评估结果；

步骤3：建立用于选择优化变量的强化学习算法，强化学习算法的输入为当前所有优化变量的取值，输出为小于优化变量总数的指定个数的优化变量，用于在下一步对这些优化变量进行取值优化，强化学习算法可以采用的具体方法为传统强化学习所采用的基于值函数的方法(Value-based Method)、基于策略的方法(Policy-based Method)以及两者的结合(Actor-Critic Method)；

步骤4：根据具体优化问题的目标函数和约束条件设置奖励函数，奖励函数的设置原则是当目标函数在优化期望方向获得提升时给予正向奖励，当约束违反时给予惩罚，具体奖励值与惩罚值依据具体问题对于优化与约束的期望情况确定，最终综合得到奖励函数值，用以表征优化效果以及对约束的满足程度，奖励函数的具体形式根据所采用的强化学习算法的要求确定，例如：当对航空学中翼型进行升阻比优化时，期望在阻力基本不变的情况下，升力尽可能提高，且阻力变化的幅度期望控制在1％以内，则对于需要标量型奖励值的强化学习算法，其奖励函数可以设置为：

其中ΔC_L和ΔC_D分别为升力系数变化量和阻力系数变化量；之后在步骤2所建立的强化学习环境中，通过强化学习训练方法不断更新步骤3所建立的强化学习算法中用到的参数，以利用强化学习优异的复杂环境智能寻优能力获取某一优化步应进一步参与小规模取值优化的优化变量，并在更新过程中提取针对指定优化问题的优化经验，并以强化学习算法参数的形式存储下来，强化学习训练方法可以使用基于经验回放的方法(Off-PolicyMethod)或在线更新等强化学习训练算法；对优化终止条件的设置应当权衡优化效果与优化所用时间，在允许的时间范围内尽可提高优化效果，例如对航空学中翼型进行升阻比优化时，如果对优化所用时间没有特殊要求，则应当设置为：在尽可能多次地进行强化学习与环境的交互过程后，升阻力均没有明显变化时停止优化过程，并选取优化效果以及对约束满足较好的结果作为最终结果；

步骤5：在实际使用强化学习算法进行优化时，利用步骤2所建立的强化学习环境，步骤3所建立的强化学习算法以及步骤4所获得的参数取值，通过强化学习算法不断挑选出一部分优化变量，送入取值优化器进行优化，直到优化结果满足所设定的优化终止条件。

实施例：

整个优化过程按照如图1所示的全局优化算法总流程进行。首先选取航空学中飞机机翼翼型为对象，对其气动外形进行优化，优化目标为保持阻力系数不变的前提下提升其升力系数，采用自由型面变形技术(FFD)方法对其进行参数化。

然后建立基于贝叶斯优化算法以及优化效果评估算法的强化学习环境。针对贝叶斯优化算法，使用Python语言编写计算文件，该文件包括优化变量、翼型变形方法、气动计算，以及贝叶斯优化算法的调用和优化结果的输出；针对优化评估算法，使用Python语言根据具体优化问题的目标函数和约束条件编写合适的量化评估程序，做到权衡升力系数与阻力系数后量化输出一标量型的结果，用以表征优化效果以及对约束的满足程度：

其中ΔC_L和ΔC_D分别为升力系数变化量和阻力系数变化量。

然后基于谷歌Tensorflow平台使用Python语言建立“表演者-评价者”架构的深度强化学习神经网络，将上一步得到的优化效果量化评估结果作为奖励函数，对强化学习网络进行训练，直到训练收敛得到最优设计参数。

在新的优化任务中使用训练好的强化学习网络，并需要保证采用相同的取值优化算法。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，但并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的基于本发明的等效变换、等同替换和显而易见的改变等，均包含在本发明的保护范围之内。

Claims

1.基于强化学习的多维连续型优化变量全局优化方法，其特征在于：包括以下步骤：

步骤2：建立基于连续型优化变量取值优化算法和优化效果量化评估算法的强化学习环境，基本方法为通过批处理命令的方法将当前优化步之前的历史数据以步骤1建立的数据结构形式，以及待确定最优取值的一部分优化变量输入到强化学习环境，固定当前待确定最优取值的优化变量之外的其它优化变量的取值，再通过连续型优化变量取值优化算法确定当前待确定最优取值的优化变量的最优取值，该最优取值是在其它优化变量固定取最近一次优化后的取值，且考虑约束的情况下得到的，约束的考虑方法具体由所采取的连续型优化变量取值优化算法决定，只要保证优化后的取值满足优化问题的约束条件即可；再通过优化效果量化评估算法输出优化效果评估结果，优化效果量化评估算法应当根据具体优化问题综合考虑目标函数所有分量的取值，并给出标量型的量化评估结果；

步骤3：建立用于选择优化变量的强化学习算法，强化学习算法的输入为当前所有优化变量的取值，输出为小于优化变量总数的指定个数的优化变量，用于在下一步对这些优化变量进行取值优化；

步骤4：根据具体优化问题的目标函数和约束条件设置奖励函数，奖励函数的设置原则是当目标函数在优化期望方向获得提升时给予正向奖励，当约束违反时给予惩罚，具体奖励值与惩罚值依据具体问题对于优化与约束的期望情况确定，最终综合得到奖励函数值，用以表征优化效果以及对约束的满足程度，奖励函数的具体形式根据所采用的强化学习算法的要求确定，之后在步骤2所建立的强化学习环境中，通过强化学习训练方法不断更新步骤3所建立的强化学习算法中用到的参数，以利用强化学习优异的复杂环境智能寻优能力获取某一优化步应进一步参与小规模取值优化的优化变量，并在更新过程中提取针对指定优化问题的优化经验，并以强化学习算法参数的形式存储下来；对优化终止条件的设置应当权衡优化效果与优化所用时间，在允许的时间范围内尽可提高优化效果，例如对航空学中翼型进行升阻比优化时，如果对优化所用时间没有特殊要求，则应当设置为：在尽可能多次地进行强化学习与环境的交互过程后，升阻力均没有明显变化时停止优化过程，并选取优化效果以及对约束满足较好的结果作为最终结果；

2.根据权利要求1所述的基于强化学习的多维连续型优化变量全局优化方法，其特征在于：所述连续型优化变量取值优化算法为贝叶斯优化算法。

3.根据权利要求1所述的基于强化学习的多维连续型优化变量全局优化方法，其特征在于：所述强化学习算法采用的具体方法为基于值函数的方法Value-based Method、基于策略的方法Policy-based Method以及两者的结合方法Actor-Critic Method。