CN117273125A

CN117273125A - 基于强化学习的多模型在线自适应择优技术驱动的进化算法

Info

Publication number: CN117273125A
Application number: CN202310704237.7A
Authority: CN
Inventors: 于海波; 朱秦娜; 康丽; 乔钢柱; 曾建潮
Original assignee: North University of China
Current assignee: North University of China
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-12-22

Abstract

本发明公开一种基于强化学习的多模型在线自适应择优技术驱动的进化算法，属于人工智能技术领域，算法引入了基于强化学习的代理模型动态选择技术，使得可以在优化过程中通过接收到的演化反馈信息动态择优代理模型，进而有效地提高个体适应度预测的鲁棒性，以更好地促进迭代优化，提高算法收敛精度。

Description

基于强化学习的多模型在线自适应择优技术驱动的进化算法

技术领域

本发明设计一种基于强化学习的多模型在线自适应择优技术驱动的进化算法，属于人工智能技术领域。

背景技术

以种群为迭代单元的进化算法在实际工程优化领域获广泛关注与应用。然而，限于实际工况中的高精度要求，进化算法通常需要执行高频次的目标适应度函数调用方可收敛达成可行的最优解决方案。对于涉及高精度仿真和理化实验设计类的计算费时优化问题，受制于一次目标适应度评估的高耗时成本和高计算资源需求，使得进化算法解决此类问题的求解代价大幅增加。结合先进的机器学习模型，通过构建计算廉价的近似代理模型取代部分昂贵的目标适应度函数评估来辅助进化算法的搜索，成为提高进化算法寻优效率的主流技术手段。代理模型辅助的进化算法(SAEAs)设计近年来得到了快速发展，其基本思想是基于演化历史数据建立代理模型(或元模型)来近似评估迭代种群个体的适应度，通过结合高效的代理模型管理技术驱动进化算法迭代收敛得到满足问题精度需求的最优解。就建模方法而言，包括回归或分类技术在内的许多机器学习方法均可以应用于构建代理模型。目前，常用的代理模型包括径向基函数(RBF)模型、Kriging模型、人工神经网络(ANN)、支持向量回归(SVR)模型和多项式响应面(PRS)模型等。

目前，SAEAs可大致分为全局模型驱动的SAEAs、局部模型驱动的SAEAs和多模型集成驱动的SAEAs。全局模型旨在逼近解空间的全局地貌，用以学习问题解空间的整体地貌特征趋势，有助于平滑解空间局部极值区域，引导迭代种群快速定位潜在最优区域。但全局模型限于训练样本规模、分布及模型泛化性能，对候选解局部邻域的近似精度较差。为了提高代理模型对特定局部区域的拟合精度，围绕候选解局部邻域内数据样本构建局部代理模型，可有效提升模型局部邻域候选解的估值精度。考虑到基于局部代理模型的进化算法不能有效地解决多模态问题，以及基于全局代理模型的进化算法不能建立相对准确的代理模型来处理高维问题等性能缺陷，通常将全局和局部代理建模相融合，以协同逼近目标全局和局部解空间。此外，为发挥不同代理模型的属性优势，实现代理模型间的优势互补，采用多模型集成的方式来辅助进化优化是，研究表明集成模型通常优于大多数个体代理模型。

目前对SAEAs的研究多侧重静态代理模型辅助的算法框架设计，即通过线下确定一种代理模型(元模型或集成模型)，在线上优化过程中仅依此单一种类模型辅助算法寻优。然而，迭代种群在优化过程中对解空间的全局勘探和局部开采偏向随不同优化阶段渐进变化，尤其在组合或混合优化问题方面，其搜索状态的变化更为显著。与此同时，针对不同的优化目标，常常需要通过大量试错实验确定最佳模型，以有效控制近似模型对优化目标的依赖度。因此，静态代理模型辅助进化算法往往因模型本身和模型特定参数的限制，在处理上述问题时低效且易诱导算法早熟收敛。实现SAEAs在线优化过程中的不同寻优阶段动态适配迭代种群以恰当的代理模型，是良好权衡SAEAs算法全局勘探与局部开采的有效途径。

强化学习是一种先进的机器学习技术，其中代理(Agent)通过与动态环境的试错交互来学习行为。它被广泛的应用于各种现实世界中的行为决策问题。在代理模型辅助的进化算法中，每一次迭代过程中代理模型的更新和选择，及其与进化算法和目标问题地貌的交互作用，本质上可归结为一种动态行为决策问题。

为了适应不同场景下的优化问题，提高代理模型对问题解空间的预测效果，增强进化算法求解精度和效率，本发明提出了一种基于强化学习的多模型在线自适应择优技术驱动的进化算法。该算法在优化过程中构建不同复杂度的同构模型，并通过利用优化过程中接收到的演化反馈信息，结合Q-学习(Q-learning)强化学习技术为每种候选模型按迭代种群搜索阶段动态分配不同的选择概率，并依概率为迭代候选解选配恰当的代理模型进行适应度估值，设计了一种多模型在线自适应择优技术。

发明内容

本发明提出了一种基于强化学习的多模型在线自适应择优技术驱动的进化算法，引入了基于强化学习的代理模型动态选择技术，使得可以在优化过程中通过接收到的演化反馈信息动态择优代理模型，进而有效地提高个体适应度预测的鲁棒性，以更好地促进迭代优化，提高算法收敛精度。其中主要解决三个关键问题：

1)构建代理模型库，该库集成了属性互补的代理模型，以实现稳定高效的预测和搜索；

2)结合Q学习(Q learning)强化学习技术为代理模型库中每种代理模型定制不同的选择概率，并针对不同优化问题或同一优化问题中不同迭代时期的优化状态，实现优化过程中候选代理模型的自主选择；

3)基于差分进化算法的全局搜索阶段和基于泰森多边形(Voronoi)的局部搜索阶段之间动态切换，平衡算法全局勘探和局部开采能力。

包括以下步骤：

步骤1，使用拉丁超立方体采样获得N个初始样本，并计算其适应度值。初始化数据库DB、初始化Q表、设置候选代理模型库，设置最大评估次数、种群规模、搜索空间的上、下界，以及终止条件。

步骤2，选择数据库中最优部分个体作为当前迭代种群，对当前迭代种群进行差分变异操作，生成子代种群，基于当前Q表和状态，从代理模型库中选择一种代理模型辅助优化过程中的适应度评估。对于经过选定代理模型评估的子代个体，选择评估结果最优个体进行真实评估，得到个体的真实适应度值。

步骤3，如果当前迭代种群获得改进解，则赋予当前代理模型选择策略奖励r，同时更新Q表和状态，执行步骤4；否则，进一步基于所选代理模型，判断是否采用基于Voronoi划分的局部搜索策略，深度开发潜在最优区域的局部最优解。此处，全局勘探和局部开采过程中均利用步骤2所选定的代理模型评估迭代种群个体适应度值。若个体适应度值得到更新，则进行真实评估并存入数据库DB；如果新增数据优于当前最优解，则赋予当前代理模型选择策略奖励r，同时更新Q表和状态。

步骤4，判断是否满足终止条件，即迭代到最大评价次数或已经找到最优解。若满足终止条件，则输出全局最优解；否则，基于更新的Q表和状态调整代理模型选择策略，流程返回到步骤2。

有益效果：

由于采用了上述技术方案，本发明取得的有益效果有：

本发明配置了核函数相同但超参数不同的RBF模型构建同构的候选模型库。不同超参数的RBF模型具有不同的特性，通过利用四种结构异构的RBF模型，有效增强了代理模型对不同优化状态下迭代种群所处解空间地貌的拟合多样性，进而有效提高了模型预测的精确性和鲁棒性，正确引导进化算法找到问题的最优解或者近似最优解。

本发明通过利用Q-学习(Q-learning)强化学习技术在线耦合不同代理模型和不同迭代阶段种群的寻优状态，提高了进化优化过程中迭代种群个体适应度的预测精度，同时增强了代理模型辅助进化算法解决不同地貌特征优化问题的鲁棒性和泛化性。

本发明通过混合差分进化算法和基于Voronoi的局部搜索策略，高效平衡了算法对目标解空间的全局勘探和局部开采，提高了算法的收敛速度和收敛精度。

附图说明

图1为基于强化学习的多模型在线自适应择优策略框架图。

图2基于强化学习的动态代理辅助进化算法流程图。

具体实施方式

如图1、2，在强化学习中，智能体(Agent)是指一个能够感知环境、学习和采取行动的实体。它是强化学习系统的核心组成部分，与环境进行交互并根据环境反馈来改善自己的行为。通过与环境进行交互来学习和改进自己的行为。Agent的目标是通过最大化累积奖励或最小化累积成本来优化自己的行为策略。在优化过程中，Agent尝试不同的代理模型选择策略，并动态选择适合当前优化状态的代理模型，自适应地平衡进化优化对解空间的探索和开发。通过分析当前状态执行代理模型选择动作，并学习代理模型的适应度评估反馈信息，保障对代理模型的最优决策能力。

具体实施方案

基于Voronoi划分的局部搜索：

在局部搜索阶段，Voronoi图将整个空间划分为多个单元，选择其中更具优势的单元用于辅助局部区域的开发，相比于在整个解空间中进行搜索，空间分割使得局部搜索进一步勘探更具发展潜力区域内的更优解，节省计算资源和时间。

若当前全局最优解累计未更新次数达到预设阈值且生成的随机数r＝rand(0,1)小于时进行基于Voronoi划分的局部搜索，MaxFes和FEs分别表示适应度评估的最大次数和当前的适应度评估次数。

Voronoi图划分是一种空间分割方法，它将给定的空间划分为多个区域，每个区域由一个称为Voronoi单元的多边形表示。在Voronoi图中，每个点都与其最近的邻近点形成一个Voronoi单元，该单元包含所有到该点距离最近的点。在本发明中，基于Voronoi划分需要通过数据库中的具有真实评估函数值的样本点S＝{x₁,x₂,…x_N}进行划分，其中数据库中包含的每个样本点按照公式(1)构造一个Voronoi单元V_i：

其中，d(x,x₀)表示点x和x₀之间的欧几里得距离。每个Voronoi单元内仅包含一个真实评估样本点，每个Voronoi单元内的点到该单元所包含的样本点的距离最近。

由于Voronoi单元的边界通常是不规则的，并且很难用一个特定的方程来描述。在此发明中使用蒙特卡罗模拟近似识别Voronoi单元边界，该方法是通过在搜索空间随机生成大量样本点，并将这些样本点分配至最近的Voronoi单元中，从而达到逼近Voronoi单元边界的目的。在本发明中，在搜索空间随机生成大量样本点构成随机样本集P_rand，|P_rand|＝popsize*d*100，其中|·|表示样本集的大小，popsize表示种群规模，d代表问题维度。基于Voronoi图将空间划分为若干小区域后，将每个Voronoi多边形域所包含的真实评估粒子作为代表点，具有适应度值较好代表点的Voronoi单元被视为更具潜力的区域。具体而言，在本发明中，选择适应度排名前10％代表点个体所在的多边形域作为进一步局部搜索区域。当在选定好的单元进行局部搜索以找到局部区域最佳解时，将该局部区域内进行蒙特卡罗模拟生成的随机样本点集记作样本池C_top，通过代理模型评估样本池C_top中粒子的近似适应度值，选择近似适应度值最小的粒子作为局部搜索找到的最佳解，进行真实评估，更新数据库。

其中，式(2)对样本池C_top中的每一个样本点x使用代理模型进行近似适应度评估，得近似适应度值最小的点作为局部区域的最佳解x*作为下一个真实评估点，表示对某一样本点x使用代理模型评估后的近似适应度值。

构建代理模型库：

径向基函数神经网络具有较高的效率和精度，其建模时间随维数增加不显著变化，尤其适用于高维问题建模。但配置不同超参数和核函数的RBF模型有明显的差异。对于RBF模型，初始数据库由N个d维样本点{(x_i,y_i)|x_i∈R^d,i＝1,…N}组成，其中y可视为对应的标签，RBF模型可形式化为:

其中，‖·‖是欧几里得范数，是一个核函数，ω_i是第i个核函数的权重系数。本发明中使用高斯核函数φ(x)＝exp(-x²/β)构建RBF模型，其中，β定义了高斯核函数的形状参数，决定RBF模型的结构特征。权重向量w＝(w₁,w₂,…,w_n)^T可以通过w＝φ^-1F计算得到，其中/>是核函数。本发明设置四个不同的β_n|n＝1,2,3,4值构建不同的RBF模型。其中，/>D_max是训练数据之间的最大距离，d是问题的维度，N是用于建立RBF模型的数据数量；β_n＝β₁*2^4*(n-1)|n＝2,3,4。随着β的增加，RBF模型变得越来越平滑。随着RBF模型平滑性的增强，对训练数据覆盖区域的局部细节特征拟合减弱，可以更好地揭示真实函数解空间的整体地貌特征趋势。基于上述四种参数的RBF模型，其平滑程度满足：RBF₁＜RBF₂＜RBF₃＜RBF₄。

强化学习Q表：

Q表如表1所示，包含四个动作和八个状态。表中是每一个状态(s₁，s₂，……，s₈)以及所对应的所有动作(a₁,a₂，a₃，a₄)的“Q值”，Q值可以表示当前状态下选择对应动作的奖励。

表1 Q表

表1中，a₁,a₂，a₃，a₄这四个动作表明不同的模型选择策略，具体如下：

a1:选择RBF1模型

对于复杂的问题，使用RBF1模型更有效，可以很好的表征数据，该模型平滑性较差，曲线容易受到函数局部景观的吸引，调整一个样本点的位置只能引起一小部分曲线的变化，易于实现曲线对于局部的控制，增强了模型的灵活性。建立起来的细致模型相比于代理模型数据库中其他代理模型，没有全局的结构，具有学习局部数据的特点，可以捕捉到一些连续型变量的非线性效应。

a2:选择RBF2模型

RBF2函数的平滑程度处于RBF1和RBF3模型之间，由于RBF2使用的核函数参数β₂＝2⁴*β₁，因此RBF2模型的函数曲线比RBF1模型曲线更光滑。

a3:选择RBF3模型

RBF3函数的平滑程度处于RBF2和RBF4模型之间，由于RBF3使用的核函数参数β₃＝2⁸*β₁，因此RBF3模型的函数曲线比RBF2模型曲线更光滑。

a4:选择RBF4模型

β决定了函数的平滑性和模型的拟合优度，由于RBF4使用的核函数参数β₄＝2¹²*β₁，是代理模型库中平滑性最高的模型，因而模型可以更容易获得数据的全局特征，能够忽略一些局部景观。虽然不善于拟合数据，但非常适合拟合解空间的整体地貌特征趋势，并且可以有效地预测它们的最优解。

表1中，s₁,s₂,…,s₈代表八种优化状态，具体如下：

状态s₁、s₃、s₅和s₇分别表示了进行了先前执行a₁、a₂、a₃和a₄操作后没有获得更好的代理模型，最优解没有更新。相反，状态s₂、s₄、s₆和s₈表示分别执行了先前的动作a₁、a₂、a₃和a₄后，获得了更好的代理模型使得最优解进行了更新。

在该强化学习系统中，SoftMax策略用于确定在状态s_i中选择a_j动作的概率，如等式4所示：

其中Q_t(s_i,a_j)是在t时处的对应Q表值；n是动作的数量；T是控制参数，根据概率随机选择要执行的操作。在执行该动作之后，将获得奖励。奖励分为两种：1)新获得的数据优于所有历史数据，获得了正的奖励值r；2)如果新获得的数据没有优于所有历史数据，则将奖励值r设置为0。Q表更新过程如公式(5)所示：

Q(S_t,A_t)＝Q(S_t,A_t)+a(r_t+1+γ_maxQ(S_t+1,a)-Q(S_t,A_t)) (5)

St表示在t时的状态，At表示在状态St执行的动作，α是取值范围在[0,1]之间的学习率，r_t+1是在执行完At之后的回报，γ被称为折扣因子，取值范围处于[0,1]之间。

基于Q-learning，对于不同的问题或优化的不同阶段，该算法框架可以从优化过程的反馈中学习，并动态调整选择的代理模型。

Claims

1.本发明提出了一种基于强化学习的多模型在线自适应择优技术驱动的进化算法，引入了基于强化学习的代理模型动态选择技术，使得可以在优化过程中通过接收到的演化反馈信息动态择优代理模型，进而有效地提高个体适应度预测的鲁棒性，以更好地促进迭代优化，提高算法收敛精度；包括以下步骤：

步骤1，使用拉丁超立方体采样获得N个初始样本，并计算其适应度值；初始化数据库DB、初始化Q表、设置候选代理模型库，设置最大评估次数、种群规模、搜索空间的上、下界，以及终止条件；

步骤2，选择数据库中最优部分个体作为当前迭代种群，对当前迭代种群进行差分变异操作，生成子代种群，基于当前Q表和状态，从代理模型库中选择一种代理模型辅助优化过程中的适应度评估；对于经过选定代理模型评估的子代个体，选择评估结果最优个体进行真实评估，得到个体的真实适应度值；

步骤3，如果当前迭代种群获得改进解，则赋予当前代理模型选择策略奖励r，同时更新Q表和状态，执行步骤4；否则，进一步基于所选代理模型，判断是否采用基于Voronoi划分的局部搜索策略，深度开发潜在最优区域的局部最优解；此处，全局勘探和局部开采过程中均利用步骤2所选定的代理模型评估迭代种群个体适应度值；若个体适应度值得到更新，则进行真实评估并存入数据库DB；如果新增数据优于当前最优解，则赋予当前代理模型选择策略奖励r，同时更新Q表和状态；

步骤4，判断是否满足终止条件，即迭代到最大评价次数或已经找到最优解；若满足终止条件，则输出全局最优解；否则，基于更新的Q表和状态调整代理模型选择策略，流程返回到步骤2。

2.根据权利要求1所述的基于强化学习的多模型在线自适应择优技术驱动的进化算法，其特征在于，在步骤1中，使用拉丁超立方体采样获得N个初始解，进行适应度评估并将其添加至数据库中；参数初始化，设置强化学习中的学习率、折扣因子，最优解停滞最大次数以及设置搜索空间的上界和下界、终止条件。

3.根据权利要求1所述的基于强化学习的多模型在线自适应择优技术驱动的进化算法，其特征在于，在步骤2中，若还未进行优化，则随机选择一个状态；否则基于当前Q表和状态，从代理模型数据库中四种代理模型里选择一种代理，使用选定的代理模型辅助进行优化过程中的粒子适应度评估；

本发明中使用径向基函数代理模型构建模型选择库，使用高斯核函数作为基函数，φ(x)＝exp(-x²/β)，β是高斯核函数的唯一超参数；设置了四个不同的β_n|n＝1,2,3,4建立RBF模型，D_max是训练数据之间的最大距离，d是问题的维度，N是用于建立RBF模型的数据数量，β_n＝β₁*2^4*(n-1)|n＝2,3,4；随着β的增加，RBF模型变得越来越平滑；随着RBF模型平滑性的增强，对训练数据覆盖区域的局部细节特征拟合减弱，可以更好地揭示真实函数的收敛趋势和特征；基于上述四种参数的RBF模型，其平滑程度满足：RBF₁＜RBF₂＜RBF₃＜RBF₄。

4.根据权利要求1所述的基于强化学习的多模型在线自适应择优技术驱动的进化算法，其特征在于，在步骤2中，首先进行基于差分进化算法的全局搜索策略，若当全局优化最优解更新，则将全局最优解进行真实评估添加至数据库中；若当全局优化最优解停滞次数达到预设值时并且算法处于迭代后期时，则使用步骤3中基于Voronoi划分的局部搜索，将局部搜索区域得到的最优解进行真实评估并存入数据库；如果新数据优于历史最佳解决方案，则该操作将立即获得奖励r，然后更新Q表和状态；

进行基于Voronoi划分的局部搜索的条件为若当前全局最优解停滞累计次数达到预设值并且生成随机数r＝rand(0,1)小于时进行局部搜索，MaxFes和FEs分别表示适应度评估的最大次数和当前的适应度评估次数；Voronoi图划分是一种空间分割方法，它将给定的空间划分为多个区域，每个区域由一个称为Voronoi单元的多边形表示；在Voronoi图中，每个点都与其最近的邻近点形成一个Voronoi单元，该单元包含所有到该点距离最近的点；在本发明中，基于Voronoi划分需要通过数据库中的具有真实评估函数值的样本点S＝{x₁,x₂,…x_N}进行划分，其中数据库中包含的每个样本点按照公式(1)构造一个Voronoi单元V_i：

其中，d(x,x₀)表示点x和x₀之间的欧几里得距离；每个Voronoi单元内仅包含一个真实评估样本点，每个Voronoi单元内的点到该单元所包含的样本点的距离最近；

由于Voronoi单元的边界通常是不规则的，并且很难用一个特定的方程来描述；在此发明中使用蒙特卡罗模拟近似识别Voronoi单元边界，该方法是通过在搜索空间随机生成大量样本点，并将这些样本点分配至最近的Voronoi单元中，从而达到逼近Voronoi单元边界的目的；在本发明中，在搜索空间随机生成大量样本点构成随机样本集P_rand，|P_rand|＝popsize*d*100，其中|·|表示样本集的大小，popsize表示种群规模，d代表问题维度；基于Voronoi图将空间划分为若干小区域后，将每个Voronoi单元所包含的真实评估粒子作为代表点，具有适应度值较好代表点的Voronoi单元被视为更具潜力的区域；具体而言，在本发明中，选择适应度排名前10％代表点个体所在的多边形域作为进一步局部搜索区域；当在选定好的单元进行局部搜索以找到局部区域最佳解时，将该局部区域内进行蒙特卡罗模拟生成的随机样本点集记作样本池C_top，通过代理模型评估样本池C_top中粒子的近似适应度值，选择近似适应度值最小的粒子作为局部搜索找到的最佳解，进行真实评估，更新数据库；

5.根据权利要求1所述的基于强化学习的多模型在线自适应择优技术驱动的进化算法，其特征在于，在步骤4中，当终止条件，即迭代到最大次数或最优解时，满足时，输出全局最优解；否则，流程返回到步骤2。