CN113836788B

CN113836788B - 基于局部数据增强的流程工业强化学习控制的加速方法

Info

Publication number: CN113836788B
Application number: CN202110972643.2A
Authority: CN
Inventors: 苏宏业; 林润泽; 谢磊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2023-10-27
Anticipated expiration: 2041-08-24
Also published as: CN113836788A

Abstract

本发明公开了一种基于局部数据增强的流程工业强化学习控制的加速方法，包括：首先，在强化学习训练过程中，在历史案例库中检索与当前状况相似的案例，将其作为局部模态下的邻近数据；其次，利用这些检索到的基于案例的知识，在局部操作范围内建立辅助的局部动力学模型；然后，使用在线建立的局部动力学模型生成一系列虚拟的案例，作为经验回放缓冲区的增广案例；最后，将生成的虚拟案例和交互获得的真实案例合并，共同组成一个新的联合经验回放缓冲区，用于更新强化学习智能体。本发明可有效地提升强化学习智能体在跨模态/跨工况情况下的训练效率以及迁移学习能力，从而为流程工业智能优化控制奠定基础。

Description

基于局部数据增强的流程工业强化学习控制的加速方法

技术领域

本发明涉及流程工业优化控制领域，尤其是涉及一种基于局部数据增强的流程工业强化学习控制的加速方法。

背景技术

随着以AlphaGo和自动驾驶等为代表的人工智能应用取得了令人瞩目的成功，深度学习和强化学习近年来非常热门，不仅在学术界还是工业界。关于深度强化学习(DRL)的研究层出不穷，迎来了井喷式的创新成果。

尽管其受到了各行各业的广泛关注，DRL更多地被应用于电子竞技游戏、推荐系统以及机器人控制等领域。这些应用场景具有一些共同的特性，即智能体与环境交互的样本很容易获得，更重要的是，智能体通常可以通过试错的方式不断自我学习和进化。

如公开号为CN110882542A的中国专利文献公开了一种游戏智能体的训练方法，包括：接收游戏服发送的游戏场景信息；将游戏场景信息中的能产生伤害效果的NPC去掉，所述游戏场景修改为第一寻路跟随场景；控制智能体根据预设的启发式奖励规则进行寻路训练，得到寻路参数；还原所述游戏场景信息中的能产生伤害效果的NPC，所述游戏场景修改为初始寻路跟随场景；根据所述寻路参数控制智能体进行所述寻路训练，直至完成预设的训练目标。该方法解决了现有技术强化学习训练效率低下，时间周期长的问题。

然而，对于以化工行业为代表的过程控制领域，DRL极其低下的样本效率为其实际应用带来了巨大的困境。此外，流程工业对象通常具有高度非线性、强耦合、时变动态等特性，且过程动态特性由于复杂的化学反应而一般比较缓慢，这些都对于DRL的训练效率提出了巨大的挑战。

在过程系统工程领域，已经有部分研究者开始关注DRL的应用和改进。然而，现有的方法未能解决训练效率的现实难题，这应该是RL如何在工业优化控制中真正实现的主要关注点之一。

在流程工业优化控制领域，目前还没有任何关于使用局部数据增强方法来加速RL训练过程的研究工作。

发明内容

本发明提供了一种基于局部数据增强的流程工业强化学习控制的加速方法，面向流程工业多模态过程的智能优化控制，可以有效提升强化学习算法在跨模态/跨工况情况下的训练速度和迁移学习能力。

一种基于局部数据增强的流程工业强化学习控制的加速方法，利用辅助模型实现局部数据增强，从而提高强化学习控制器的训练速度，具体包括以下步骤：

(1)对于流程工业的被控过程，根据过程输入输出数据和控制回路的设定值，采集强化学习环境的初始状态s₁；

(2)基于案例推理的案例库检索，在强化学习智能体的训练过程中，在经验回放缓冲区所包含的历史案例库中检索与当前状态s_t相似的案例，将其作为局部操作模态下的邻近数据；

若步骤(2)中没有检索到相似案例，则直接跳转至步骤(5)；

(3)进行局部动力学模型学习，利用检索到的基于案例的知识，在局部操作范围内在线建立辅助的局部动力学模型

(4)模型辅助数据增强，基于局部动力学模型生成一系列的虚拟案例，将其作为增广案例存入虚拟经验回放缓冲区/>

(5)将强化学习控制器产生的动作a_t输入被控过程，获取环境返回的奖励r_t以及下一个时刻的状态s_t+1，并将新的案例(s_t,a_t,r_t,s_t+1)存入真实经验回放缓冲区

(6)合并经验回放缓冲区，将辅助模型生成的虚拟经验回放缓冲区和强化学习环境中收集的真实经验回放缓冲区/>合并，形成新的联合经验回放缓冲区

(7)根据DDPG算法更新强化学习智能体，然后在每个训练回合重复执行步骤(1)至步骤(7)，直至满足停止条件，训练结束；

(8)利用训练好的强化学习智能体进行流程工业的优化控制。

优选地，步骤(2)中，采用基于距离的相似度来检索与当前状态s_t相似的案例，包括如下步骤：

(2-1)假设所有历史案例库中的案例数量为n∈Z⁺，将所有历史案例库中的状态信息提取为一个数据矩阵，记作其中s_i∈R^m(i＝1,2,…,n)为状态向量，m为状态向量的维度；

(2-2)为了降低数据矩阵X∈R^n×m的维度，并提取出更为紧凑的特征用于计算基于距离的相似性度量，使用主成分分析PCA将原始状态数据矩阵投射到隐空间中，即

T＝XP

其中，P＝[p₁,p₂,…,p_k]∈R^m×k为由特征向量组成的负载矩阵，T＝[t₁,t₂,…,t_k]∈R^n×k为隐空间下的得分矩阵，即降维后的数据矩阵，p_i∈R^m(i＝1,2,…,k)，t_i∈Rⁿ(i＝1,2,…,k)，k为主元个数；

(2-3)由于强化学习智能体在训练进程中的每个时间步中都会探索一个新的状态向量，可以根据历史案例库的PCA负载矩阵P∈R^m×k，将新遇到的状态投射到隐空间中，即

其中，t_new∈R^1×k表示对应于新状态s_new的隐空间投影；

(2-4)在降维后的隐空间中定义基于欧式距离的相似性度量，其表征了历史案例中的状态与当前时刻下的状态的近邻程度，即

其中，dist(T(i,:),t_new)代表样本T(i,:)与t_new的欧式距离，Sim(T(i,:),t_new)代表对应的相似度；

(2-5)将所有满足相似性阈值Sim＞δ的案例u₁,…,u_N存储在数据集中，作为局部操作模态下的邻近数据，其中N是检索到的相似案例的数量。

优选地，步骤(3)中，所述的局部动力学模型学习包括：

根据检索到的邻近数据来构建局部动力学模型/>采用高斯过程回归进行建模，其训练的输入数据为/>中所有的当前状态/>和动作/>输出数据为下一时刻的状态/>k为/>中对应的样本序号。

优选地，步骤(4)中，模型辅助数据增强具体包括如下步骤：

(4-1)选择邻近数据中相似度最高的案例所包含的动作值a_t作为虚拟轨迹生成的基准；

(4-2)在动作基准a_t上叠加高斯白噪声，以获得状态轨迹演化所需的动作值；具体地，随机生成K个不同的动作值，即其中高斯噪声的均值μ为零，方差σ²手动给定；

(4-3)将上述K个动作分别输入局部动力学模型从而迭代生成预测深度为D∈Z⁺的虚拟轨迹，并据此计算相应的奖励r_t；

具体地，从当前时刻的状态s_t开始，通过局部动力学模型和K个动作生成一系列虚拟案例，其状态轨迹演化过程的概率描述如下：

其中

其中，s_t+j为未来第j个时刻的状态，j＝1,2,…,D，为单步状态转移的概率描述，argmax表示对单步状态转移概率达到最大值时的变量的状态的取值；

(4-4)将生成的虚拟案例存储在虚拟经验回放缓冲区中。

进一步地，步骤(4-3)中，单步状态转移的具体实施方式包括：将当前时刻的状态s_t和动作a_t输入到局部动力学模型/>来估计下一时刻的状态即/> 表示高斯过程回归GPR预测的函数，输入是当前时刻的状态s_t和动作a_t，输出是下一个时刻的状态s_t+1。

优选地，步骤(7)中，利用DDPG算法更新强化学习智能体具体包括：在训练回合中的每个时刻，从经验回放缓冲区中随机采样一个minibatch的案例，从而通过融合真实案例和虚拟案例中所蕴含的知识和信息，来提升强化学习智能体的训练效率。

与现有技术相比，本发明具有以下有益效果：

(1)本发明通过引入基于案例推理的案例库检索、局部动力学模型学习和模型辅助数据增强，可以为强化学习智能体提供扩展的更有效的信息/知识，从而帮助引导强化学习智能体朝更好的方向进行探索；

(2)利用模型辅助的数据增强策略，强化学习智能体可以有效地利用源域中的历史案例知识来辅助目标域的训练；

(3)采用局部动力学建模的方式，可以避免全局模型外推导致泛化性能下降的风险，并保证生成的虚拟案例的可靠性；

(4)采用基于高斯过程回归的局部动力学模型作为辅助模型，在极其少量的数据集上也能相当准确地预测状态轨迹，从而能够有效提高原始DDPG算法的训练速度和跨域学习性能；

(5)本发明提出的方法可以轻松扩展到任何包含经验回放缓冲区的强化学习算法，为流程工业智能制造提供了一种新的优化控制方案。

附图说明

图1为本发明基于局部数据增强的流程工业强化学习控制的加速方法的流程框图；

图2为本发明实施例中连续搅拌釜反应器(CSTR)的示意图；

图3为本发明实施例中Mode 3下PI控制器和CBR-MA-DDPG智能体的控制效果对比图；

图4为本发明实施例中原始DDPG算法与CBR-MA-DDPG算法在跨模态情况下的训练速度对比图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，基于局部数据增强的流程工业强化学习控制的加速方法(以下简称为CBR-MA-DDPG)，主要包括以下四个部分：

(1)基于案例推理的案例库检索：根据一定的案例库检索规则，在历史案例库中搜寻符合满足期望条件的案例库(Memory)。具体地，通过某种相似度的度量，利用预先定义的相似度阈值(也可以通过自适应调参得到)，来检索满足相似度阈值的案例库。随后，这些检索到的案例库将用于“模型辅助数据增强”模块中局部动力学模型的训练。

(2)经验回放缓冲区(Replay buffer)：在功能上将原始DDPG算法的经验回放缓冲区(replay buffer)分为两部分：真实案例库和虚拟案例库。真实案例库用于储存RL agent与环境交互所收集到的状态转移数据；而虚拟案例库则用于储存利用辅助模型所生成的虚拟状态转移数据。

(3)模型辅助数据增强：根据“基于案例推理的案例库检索”模块提供的当前工况附近的相似案例(相似度意义上的近邻)，构建一个可以快速在线训练和计算的局部动力学模型(辅助模型)，然后这个模型将被于DDPG算法的局部数据增强，以生成虚拟案例。在这里，将高斯过程回归(GPR)作为环境动力学的局部近似。然后，以当前近优(near-optimal)的动作作为基准，利用训练好的局部模型生成一定深度的轨迹预测序列，将其存于虚拟案例库。

(4)DDPG智能体与环境：这部分和原始的DDPG结构一致，其中主网络和环境不断交互，以获取状态的更新和奖励的反馈；而目标网络通过主网络的权值进行软更新(softupdate)。主网络中的actor通过策略梯度(policy gradient)进行权值更新。

下面分别阐述各部分的具体实施方式。

(1)基于案例推理的案例库检索

在RL训练过程中，采用基于距离的相似度来检索当前训练状态下的历史相似案例。假设所有历史案例库中的案例数量为n∈Z⁺，将所有历史案例库中的状态信息提取为一个数据矩阵，记作其中s_i∈R^m(i＝1,2,…,n)为RL设置中的状态向量，m为状态向量的维度。为了降低状态矩阵的维度，并提取出更为紧凑的特征进行相似性度量，使用主成分分析(PCA)将原始状态数据矩阵投射到隐空间中

T＝XP (1)

其中，P＝[p₁,p₂,…,p_k]∈R^m×k为由特征向量组成的负载矩阵，T＝[t₁,t₂,…,t_k]∈R^n×k为隐空间下的得分矩阵，即降维后的数据矩阵，其中p_i∈R^m(i＝1,2,…,k)，t_i∈Rⁿ(i＝1,2,…,k)，k为主元(PC)个数。

因此，对于某一个主元空间(隐空间)中的主成分PC，其低维嵌入可以表示为

t_i＝X·p_i (2)

在RL agent的训练进程中，将在每个时间步中探索一个新的状态向量，可以根据历史案例库的PCA负载矩阵，将新遇到的状态投射到隐空间中，即

其中，t_new∈R^1×k表示对应于新状态s_new的隐空间投影。

对于隐空间中相似案例的检索，需要对相似性度量进行定义。假设相似度是距离的度量，它表征了历史案例中的状态与当前时刻下的状态的接近程度。这里使用最常见的基于欧氏距离的相似度度量，即

其中，dist(T(i，:)，t_new)代表样本T(i，:)与t_new的欧式距离，Sim(T(i,:),t_new)代表对应的相似度。

最终将所有满足相似性阈值的案例u₁,…,u_N存储在数据集中，其中N是检索到的相似案例的数量。该数据集/>将用于训练局部环境动力学模型/>这个模型就是CBR-MA-DDPG中的辅助模型。

(2)基于高斯过程回归(GPR)的局部动力学模型学习

由于动力学行为被局部描述为线性映射函数因此可以使用GPR来学习期望的局部动力学行为，其中GPR模型的输入是当前时刻的状态s_t和动作a_t；输出是下一个时刻的状态s_t+1。因此，基于所有检索到的满足相似性阈值的案例库，应用GPR对局部动力学模型进行在线学习。

然后，根据“基于案例推理的案例库检索”模块检索到的局部状态-动作对，将其输入GPR模型来拟合映射函数f_local(·)。训练完成后，就可以通过这个GPR模型来估计下一时刻的状态，即

一旦在“基于案例推理的案例库检索”模块中检索到了相似案例，则调用一次“局部动力学模型学习”模块，根据那些检索到的邻近数据来构建局部GPR模型；在每个training episode的每个时刻中最多只能被调用一次。该模块的输入为“基于案例推理的案例库检索”模块的输出，即收集到的所有满足相似性阈值的案例u_k(k＝1,2,…,N)所构成的数据集而输出是通过GPR拟合得到的局部动力学模型(辅助模型)需要指出的是，GPR模型训练所需的输入和输出样本是从/>提取的案例u_k中存储的数据对/>其中k是对应的样本序号。

(3)模型辅助数据增强

给定局部动力学模型可以利用这种数据驱动的环境模型在局部操作范围内生成一系列虚拟的预测轨迹，将其称为“模型辅助数据增强”。具体地，需要在当前操作区域附近生成一系列虚拟案例，表示为RL中的四元组/>“模型辅助数据增强”模块中最关键的部分是状态轨迹的演化过程，因为相应的奖励信号r_t＝r(s_t,a_t)可以直接通过当前样本(s_t,a_t,s_t+1)获得(假设奖励函数的形式对于RL agent来说是已知的)。

首先，选择当前的近优策略(near-optimal policy)产生动作a_t＝π(s_t|θ^π)作为虚拟轨迹生成的基准。为简单起见，在实施过程中可以直接选择相似度最高的案例中的动作为基准。

然后，将高斯白噪声叠加在这个动作基准上，以获得状态轨迹演化所需的动作值。具体地，随机生成K个不同的动作值，即其中高斯噪声的均值μ为零，方差σ²可以手动给定。

随后，将上述K个动作分别输入局部动力学模型从而迭代生成深度为D∈Z⁺的预测轨迹，并据此计算相应的奖励r_t。通过从当前状态s_t开始的轨迹演化过程得到虚拟案例，其概率描述如下

其中

最后，生成的虚拟案例(表示为四元组)存储在虚拟重放缓冲区中，稍后将与真实案例/>一起添加到重放缓冲区/>中。

(4)实验设置

(a)过程描述与控制系统分析

为了验证所提出的CBR-MA-DDPG算法的优越性，选择连续搅拌釜反应器(CSTR)作为控制对象，夹套反应器的如图2所示。假设反应器和夹套内物质完全混合，体积和物理性质不变，忽略热量损失。

在初始模态(Mode 1)下，CSTR的稳态工作条件(过程的输入变量)如下：温度设定值T^set＝88℃,冷却水入口温度T_Ci＝27℃,进料温度T_i＝66℃,进料流量F＝7.5×10^-3m³/s,进料中反应物的浓度C_Ai＝2.88kgmoles/m³。

该放热反应过程的控制目标是使反应器中的温度T尽可能接近给定的设定值T^set，通过调节阀门开度来控制冷却水流量(设定值可能会因手动调节而变化)。在操作过程中，工况条件也会随着模态切换而发生突变。

(b)状态、动作与奖励

将能够表征系统关键动态特性的变量和特征组成RL的状态，即其中C_A为反应器中反应物的浓度，T为反应器温度，T_C为夹套温度，b∈[0,1]为变送器信号，e＝T^set-T为误差反馈信号；RL的动作为控制器的输出信号m∈[0,1](阀门开度)，即/>

由于该控制系统目标是设定值追踪，因此使用控制器参数调整中的积分绝对误差(integral absolute error,IAE)准则来设计RL的奖励函数。具体地，为误差绝对值|e(t)|分配与其成正比的即时奖励r_t，即具体的奖励设置如下表1所示。

表1 DDPG和CBR-MA-DDPG算法训练的奖励设置

注：假设控制系统的设定值在初始时刻发生阶跃变化，其中“step change”表示设定值阶跃的幅值，例如：设定值88→90℃对应于step change＝2。

(c)对比实验设计

为了验证CBR-MA-DDPG算法对训练的加速作用和跨模态控制器适应效果，设置了三种不同的操作模态。

首先在Mode 1(源域)下预训练一个DDPG agent，然后将学习到的agent作为Mode2和Mode 3(目标域)下CBR-MA-DDPG的初始化。操作模态设置如下：

Mode 1:设定值88→90℃,T_Ci＝27℃,T_i＝66℃

Mode 2:设定值92→94℃,T_Ci＝15℃,T_i＝70℃

Mode 3:设定值90→105℃,T_Ci＝15℃,T_i＝70℃

为此，设计了两组不同的对比实验。第一组为大范围模态变化情况下，在新模态(Mode 3)下的最终控制性能，以传统的PID控制作为对比。第二组为跨模态下的RL agent的训练速度和适应能力，对比了原始的DDPG算法和所提出的方法，其中两者都使用相同的预训练agent作为初始化。

对比实验1：大范围模态变化情况下的控制性能

为了对比PID控制器和基于RL的控制器的性能，特意选取了运行模态发生大范围变化的情况，即在Mode 3下对两种控制器的效果进行测试。源域的设定值为88→90℃，目标域的设定值发生了巨大的变化范围，为90→105℃，还伴随着操作工况条件的突变。PI控制器和CBR-MA-DDPG agent的控制性能如图3所示。

根据图3所示的设定值跟踪情况和控制器输出信号的对比，可以看出，基于RL的控制器性能远优于PI控制器。基于RL的控制器是以一步到位的方式调整至最佳的控制器输出值，而PI控制器则需要根据误差反馈信号逐步计算控制信号。值得注意的是，尽管操作模态发生了巨大的变化，所提出的CBR-MA-DDPG算法能够在较短的训练回合内更新预训练的agent，即使在新模态下也能保持较好的控制效果。

对比实验2：使用源域下预训练的初始化，在新模态下的训练速度

为了验证CBR-MA-DDPG算法在跨模态情况下的训练速度和迁移效果，用DDPG算法在原始模态(Mode 1)预训练一个初始化的RL控制器，然后将其迁移到目标模态(Mode 2)。图4展示了预训练的agent作为初始化的episode reward的对比。

图4显示的结果表明，所提出的CBR-MA-DDPG算法的跨模态适应的训练速度都要比DDPG算法更快。两种方法最终都能迁移至episode reward较好的情况，表明最终训练完成后的控制性能是令人满意的。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于局部数据增强的流程工业强化学习控制的加速方法，其特征在于，包括以下步骤：

若步骤(2)中没有检索到相似案例，则直接跳转至步骤(5)；

(6)合并经验回放缓冲区，将辅助模型生成的虚拟经验回放缓冲区和强化学习环境中收集的真实经验回放缓冲区/>合并，形成新的联合经验回放缓冲区/>

(8)利用训练好的强化学习智能体进行流程工业的优化控制。

2.根据权利要求1所述的基于局部数据增强的流程工业强化学习控制的加速方法，其特征在于，步骤(2)中，采用基于距离的相似度来检索与当前状态s_t相似的案例，包括如下步骤：

T＝XP

(2-3)根据历史案例库的PCA负载矩阵P∈R^m×k，将新遇到的状态投射到隐空间中，即

其中，t_new∈R^1×k表示对应于新状态s_new的隐空间投影；

其中，dist(T(i，:)，t_new)代表样本T(i，:)与t_new的欧式距离，Sim(T(i,:),t_new)代表对应的相似度；

3.根据权利要求1所述的基于局部数据增强的流程工业强化学习控制的加速方法，其特征在于，步骤(3)中，所述的局部动力学模型学习包括：

4.根据权利要求1所述的基于局部数据增强的流程工业强化学习控制的加速方法，其特征在于，步骤(4)中，模型辅助数据增强具体包括如下步骤：

其中

(4-4)将生成的虚拟案例存储在虚拟经验回放缓冲区中。

5.根据权利要求4所述的基于局部数据增强的流程工业强化学习控制的加速方法，其特征在于，步骤(4-3)中，单步状态转移的具体实施方式包括：将当前时刻的状态s_t和动作a_t输入到局部动力学模型/>来估计下一时刻的状态即/> 表示高斯过程回归GPR预测的函数，输入是当前时刻的状态s_t和动作a_t，输出是下一个时刻的状态s_t+1。

6.根据权利要求1所述的基于局部数据增强的流程工业强化学习控制的加速方法，其特征在于，步骤(7)中，利用DDPG算法更新强化学习智能体具体包括：在训练回合中的每个时刻，从经验回放缓冲区R中随机采样一个minibatch的案例，从而通过融合真实案例和虚拟案例中所蕴含的知识和信息，来提升强化学习智能体的训练效率。