CN113126498A

CN113126498A - 基于分布式强化学习的优化控制系统和控制方法

Info

Publication number: CN113126498A
Application number: CN202110415116.1A
Authority: CN
Inventors: 郑华; 周江涛; 尚亚飞; 吴政龙
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-04-17
Filing date: 2021-04-17
Publication date: 2021-07-16

Abstract

本发明涉及基于分布式强化学习的优化控制系统及控制方法，该方法利用分布式强化学习算法对非线性、多变量复杂控制系统直接进行优化控制，控制目标获得最佳性能。分布式强化学习利用强化学习的迭代算法、累计奖励函数和分布式的构造都提高了算法的寻优控制效果。

Description

基于分布式强化学习的优化控制系统和控制方法

技术领域

本发明属于智能优化控制领域，特别涉及基于分布式强化学习的优化控制系统及控制方法。

背景技术

随着工业技术的不断发展进步，特别是在控制领域，人们对控制的实时性、鲁棒性、稳定性和自适应性等要求越来越高。对于简单的函数优化问题，经典算法比较有效，且能获得函数的精确最优解。但是对于一类强非线性多约束时变的复杂数学模型，如果要求得到一个最优的期望输出，那么以现有的方法来寻找合适的输入时变得十分困难。现在大多数的优化控制是建立在对复杂模型简化的基础上，例如非线性模型线性化。将复杂的模型线性化时必然带来模型精度不高，因此在对控制系统利用线性的技术进行分析和设计时，就会导致最终寻优结果有偏差，在很大程度上降低控制系统的性能。

控制策略本质是求解带约束的优化问题，优化控制最终的实现形式是在线实时寻优控制。在线寻优控制，对寻优模型的精度、收敛速度以及寻优算法的精度与收敛速度等都提出了更为严格的要求。目前主流的寻优方法有迭代法、遗传算法、蚁群算法等，其基本思路是对建立好的模型进行迭代和反馈来实现寻优过程。在对复杂的模型应用现有的一些寻优算法时，其收敛速度和精度往往达不到理想的要求。现有的优化控制方法建立在基于任务的精确数学模型之上，缺少自适应性，当环境或任务发生变化时,控制算法表现得很乏力。

强化学习基本思想是通过智能体和环境的不断交互来学习，并且最大化累计奖励，从而实现一系列最优决策。在这个过程中，不需要预先给定任何数据，而是智能体执行的动作和得到的奖励通过一定的策略来更新模型参数来获得最优控制策略。

尽管目前研究者提出了很多不同的强化学习控制算法。但是现有的强化学习控制仅仅适用于单个模型，不适用于大规模多协同模型，而且大量的数据采集要通过与模型进行交互获得，这样会存在数据获取速度慢、损耗大等问题。因此，寻找一种能够有效实现模型优化控制的方法显得尤为重要。

发明内容

本发明解决的技术问题是：为了解决传统的控制算法不能很好的适应越来越复杂多变的控制系统的缺陷，本发明涉及基于分布式强化学习的优化控制系统及控制方法，该方法利用分布式强化学习算法对非线性、多变量复杂控制系统直接进行优化控制，控制目标获得最佳性能。分布式强化学习利用强化学习的迭代算法、累计奖励函数和分布式的构造都提高了算法的寻优控制效果。

本发明的技术方案是：基于分布式强化学习的优化控制系统，其特征在于，包括分布式强化学习模块、优先级数据存储模块和被控模型模块；

所述被控模型为单个模型或多协同模型，当为单个模型时，将单个模型的状态作为数据；当为多协同模型时，将多协同模型的所有协同状态作为数据；

所述优先级数据存储模块将强化学习中的算法和被控模型交互产生的状态、动作、奖励、下一阶段状态进行储存，通过被控模型产生的数据即产生的时间、数据的权重以及数据之间的相关性进行排序，储存在该模块中；

所述分布式强化学习模块包含多个子强化学习系统和一个全局强化学习系统，且子强化学习系统和被控模型模块共享优先级数据存储模块。

本发明进一步的技术方案是：所述多个子强化学习系统和一个全局强化学习系统；在算法训练时对多个子强化学习系统进行训练，每个子强化学习系统从全局强化学习系统获得强化学习信号，按照Actor-Critic算法的方式独立的进行环境交互与学习，每个模型完成训练并得到参数更新后，异步的将该线程的参数更新到全局变量中，下一次训练开始前，从全局强化学习模型中获取更新的模型参数，使用新同步到的全局模型参数进行下一步交互更新。

本发明进一步的技术方案是：基于分布式强化学习的优化控制系统的控制方法，其特征在于，包括以下步骤：

步骤1：启动分布式强化学习模块，获取控制模型当前状态：

步骤2：将步骤1得到的当前状态输入子强化学习模块进行训练，其中训练方法为采用Actor-Critic架构，其中Actor-Critic架构中，每运行一步进行一次学习，利用反向传播算法来更新模型参数；

步骤3：被控模型模块执行输出的动作，分布式强化学习模块收集被控模块下一阶段的状态，并返回奖励值给分布式强化学习模块中的各个子强化学习系统；

步骤4：分布式强化学习模块接收控制模块传来的数据并迭代训练更新，直到得到最优控制策略。

本发明进一步的技术方案是：所述步骤2中，Actor网络基于概率大小选择行为，Critic网络基于Actor网络选择的行为利用时间差分误差来评判该行为的得分，接着Actor网络根据Critic网络对动作的评分修改选择行为的概率。

发明效果

本发明的技术效果在于：本发明通过采用分布式强化学习直接对复杂非线性模型进行优化控制，强化学习算法与被控对象可进行交互式自主学习，从而比传统控制方法具有更好的自适应性。本方法充分利用分布式强化学习可以对复杂非线性模型直接进行优化控制；强化学习算法与被控对象可进行交互式自主学习，从而比传统控制方法具有更好的自适应性。同时，充分利用分布式加快算法寻优的速度和可靠性高的优点，在外界环境可变的情况下，提高算法的自适应性，完成对模型的优化控制过程。分布式强化学习方法在复杂控制问题中寻优的应用，很好的解决了由于被控系统难以进行精确建模而导致的无法进行精确的模型控制和充分的发挥被控系统的性能等难题。将分布式强化学习方法应用于模型寻优中，改变了传统控制器设计中过度依赖被控对象精确数学模型的现状，仅仅依靠模型状态数据即可完成控制器设计，大大降低了控制器设计难度。应用在桨扇发动机的最小油耗优化控制，可以确定桨扇发动机在最小油耗时的最优前后排桨扇的桨距角。

附图说明

图1为本发明中主要步骤的流程；

图2为本发明的桨扇发动机的总体控制方案图；

图3为本发明方法采用的Actor-Critic网络框架图；

图4为本发明的一种基于分布式强化学习的优化控制方法结构图。

具体实施方式

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

参见图1-图4，本发明的技术方案是：一种基于分布式强化学习的优化控制方法。技术方案包括分布式强化学习模块、优先级数据存储模块、被控模型模块，

三个模块是相互协同的关系，首先系统的初始输入是此时桨扇发动机状态参数以及控制变量的值。初始输入进入到分布式强化学习模块的算法网络中，作为算法开始训练的初值。分布式强化学习模块中的子强化学习网络朝着靠近目标函数的方向输出一个动作，这个动作包含下一状态的桨扇发动机的前后排桨距角β₁(t+1)和β₂(t+1)。通过将此桨距角数值输入到被控模型模块中，计算得到此时的推力值F(t+1)和此时的耗油率sfc(t+1)。优先级数据存储模块用来存储在此期间产生的数据。

分布式强化学习模块包含多个子强化学习系统和一个全局强化学习系统，它们共享数据存储模块的数据。

算法在训练过程中启动N个子强化学习系统，使用N个模型同时与环境进行交互，相当于多个智能体共同探索，只要对环境设置不同，则每个模型采样得到的数据将会有区别。每个智能体的学习过程都不依赖于其他智能体，它们只考虑自己的状态和动作而不关心其他智能体的状态和动作，每个智能体从全局模块获得的强化学习信号也只与自己的状态和动作相联系。每个模型按照Actor-Critic算法的方式独立的进行环境交互与学习，每个模型完成训练并得到参数更新后，异步的将该线程的参数更新到全局变量中，下一次训练开始前，从全局强化学习模型中获取更新的模型参数，使用新同步到的全局模型参数进行下一步交互更新。

所述方法包括：

对于图3，首先获取被控模型的状态，将当前的状态作为强化学习模型的输入，通过算法决策输出接下来要执行的动作，最后控制模型执行该动作。所述的强化学习算法采用的是Actor-Critic架构，Actor网络基于概率大小选择行为，Critic网络基于Actor 网络选择的行为利用时间差分误差来评判该行为的得分，接着Actor网络根据Critic网络对动作的评分修改选择行为的概率。需要说明的是，这个概率是对输出动作的约束，如果之前输出的动作有利于实现被控模型的优化控制目标，那么就增加分布式强化学习模块执行这个动作的概率，使其被执行的概率变大，从而加速优化控制过程。相反，如果不利于被控模型的优化控制目标，就减小这个动作被执行的概率。Actor-Critic网络可以每运行一步进行一次学习，利用反向传播算法来更新模型参数，其核心公式为：

δ＝r_t(s_t,a_t)+v_ω(s_t+1)-v_ω(s_t) (1)

其中，式(1)为计算该步的时间差分误差，r_t(s_t,a_t)表示在状态s_t执行动作a_t后获得的奖励值，v_ω(s_t+1)表示状态s_t+1的状态值函数；式(2)为更新价值模型参数即 Critic网络，α^ω表示更新率，

表示状态值函数的梯度；式(3)为更新策略模型参数即Actor网络，α^θ为学习率，

为最大化策略梯度。

对于图4，算法在训练过程中启动N个子强化学习系统，使用N个模型同时与环境进行交互，相当于多个智能体共同探索，只要对环境设置不同，则每个模型采样得到的数据将会有区别。每个智能体的学习过程都不依赖于其他智能体，它们只考虑自己的状态和动作而不关心其他智能体的状态和动作，每个智能体从全局模块获得的强化学习信号也只与自己的状态和动作相联系。每个模型按照Actor-Critic算法的方式独立的进行环境交互与学习，每个模型完成训练并得到参数更新后，异步的将该线程的参数更新到全局变量中，下一次训练开始前，从全局模型中获取更新的模型参数，使用新同步到的全局模型参数进行下一步交互更新。

优先级数据存储模块通过将算法和模型交互产生的状态、动作、奖励、下一阶段状态储存起来。通过数据产生的时间、数据的权重以及数据之间的相关性进行排序储存在该模块中。这样会降低无序的大量数据之间的相关性，从而更有利于算法快速稳定的训练。

被控模型可以是单个的也可以是多协同模型组成的。多协同模型需要将模型的所有协同状态作为数据，而不仅仅是单个状态。

在此，利用本发明提出的基于分布式强化学习的优化控制方法能够针对对转桨扇发动机实现最小油耗的优化控制，使其在发动机推力不变的前提下降低油耗率，增加经济性或增大飞机航程。首先我们列出桨扇发动机的总体控制方案，如图2所示。发动机的控制单元获得发动机的状态参数和油门杆角度，改变发动机的燃油量w_f和前后两排桨扇桨叶的桨距角β₁和β₂。从而满足此时发动机运行的推力要求和桨扇转速不变的条件。桨扇发动机的推/拉力绝大部分是由桨扇提供的，为了保持控制的稳定，故需要保持桨扇转速的恒定。

利用本文的方法实现对桨扇发动机的最小油耗优化控制具体包括以下步骤：

步骤一：在特定的飞行马赫数Ma＝0.7和飞行高度H＝0km下(即设计点)，桨扇发动机的工作状态可以唯一确定。

X_in＝Ψ(μ) (4)

其中，X_in表示桨扇发动机的状态参数，即X_in＝{F,sfc,T₄,...}有推力、耗油率、涡轮前温度；μ表示桨扇发动机的控制变量，μ＝{β₁,β₂,w_f,...}有前后排桨扇的桨距角和燃油流量。

初始化强化学习算法模块训练参数。将此时桨扇发动机状态参数X_in以及控制变量μ的值输入到算法网络中，作为算法开始训练的初值，对应于图1的第一步。

步骤二：分布式强化学习模块接收桨扇发动机的上述所有参数(指的是此时桨扇发动机状态参数X_in以及控制变量μ的值，将其传递给N个子强化学习网络。对应于图1的第二步。由于每个子强化学习网络都有属于自己独立的策略，所以它们的初始方向不是相同的，这样有利于加快优化控制的速度。最终的优化控制目标是在保持桨扇发动机推力恒定的基础上实现最小油耗，优化控制目标函数的表达式如下所示。

min sfc(F＝F_d,F_d为常数) (5)

其中，F表示推力(在最小推力模式下为常数)，优化控制目标函数表示最小化耗油率。

步骤三：子强化学习网络朝着靠近目标函数的方向输出一个动作，这个动作包含下一状态的桨扇发动机的前后排桨距角β₁(t+1)和β₂(t+1)。通过将此桨距角数值输入到发动机控制模型中，计算得到此时的推力值F(t+1)和此时的耗油率sfc(t+1)。

步骤四：设置优化过程的奖励函数和发动机稳定工作的约束条件如式(6)和式(7)所示。

Reward＝λ(sfc(t+1)-sfc(t)) (6)

其中，Reward表示在这一回合内各个子强化学习网络所能获得的奖励值，λ是奖励函数的系数，用来帮助更快的实现优化控制目标。

需要设定的约束条件有：

其中，w_f表示每一步的燃油流量，不能超过最大值w_fmax，同时也不能低于最小值w_fmin；β₁表示每一步的前排桨扇的桨距角，不能超过最大值β_1max，同时也不能低于最小值β_1max；β₂表示每一步的后排桨扇的桨距角，不能超过最大值β_2max，同时也不能低于最小值β_2min；T₄表示涡轮前温度不能超过最大值T_4max。

步骤五：子强化学习网络通过分析这一过程(指的是步骤一到步骤四的过程)中的奖励函数值Reward，如果Reward的值大于0，则说明之前改变桨距角的数值有利于达到最小耗油率的优化控制目标，就要增加桨距角角度变化方向的趋势；就要增加这一变化的趋势；如果这个奖励值Reward小于0，则说明之前改变的桨距角的数值不利于达到最小耗油率的目标，就要减少上一次桨距角改变的趋势发生的概率。减少类似上一个动作的趋势；奖励值Reward等于0的时候，不对输出动作做出影响。(这一步骤对应于图1的第三步。)

步骤六：从步骤一到步骤五的过程就是分布式强化学习方法训练的过程，这个过程中要进行异步更新全局强化学习的网络参数。当训练次数达到设定的次数后，子强化学习网络从全局模型中获取更新的模型参数，使用新同步到的全局模型参数进行下一步交互更新。直到满足优化控制目标—最小耗油率。输出此时前后排桨距角β₁(final)和β₂(final)，以及此时的最小耗油率sfc_min。那么，在前排和后排桨距角分别为β₁(final)和β₂(final)的条件下，对转桨扇发动机能够稳定的工作在最小油耗模式。对应于图1的第四步。

下面根据每个附图，对方法内容和具体应用实例进行进一步详细解释说明。

图1展示了本发明的一种基于分布式强化学习的优化控制方法流程图。如图1所示，本发明分布式强化学习的优化控制方法包括如下步骤：

步骤一：启动分布式强化学习模块，获取控制模型当前的状态

在本步骤中，需要说明的是，采用多个子强化学习模块和一个全局强化学习模块来构成总的分布式强化学习模块。首先随机初始化全部的训练参数。通过和被控模块之间的通信来获取此时被控模型的状态。

步骤二：将此时模型的状态作为输入给不同的子强化学习模块来训练。

在本步骤中，由于输入的状态是相同的，但是每个子强化学习模块生成的策略是不一样的。将其产生的动作作为输出传递到被控模型模块中。

步骤三：控制模块执行输出的动作，并收集被控模块下一阶段的状态，并返回奖励值。

在本步骤中，控制模块通过执行输出的动作到达下一个状态，并获取此时的状态参数。

步骤四：接受被控模块传来的数据，不断迭代训练。

分布式强化学习模块接受来自被控模块的数据，将一回合内的数据存储到数据存储模块，并输出下一阶段的动作。

步骤五：重复步骤一、二、三、四，启动优先级功能来对数据进行选择排序，不断的交互式学习更新参数，一定训练次数内对全局模块进行更新，接着分布式强化学习模块在此基础上重新开始训练，直到输出最优的控制策略。

参见图2，步骤1)主要关于桨扇发动机的状态参数和控制变量的获取，所涉及的具体内容如下：

在特定的飞行马赫数和飞行高度下(即设计点)，桨扇发动机的工作状态可以唯一确定。

X_in＝Ψ(μ) (1)

其中，X_in表示桨扇发动机的状态参数，即X_in＝{F,sfc,T₄,...}有推力、耗油率、涡轮前温度等；μ表示桨扇发动机的控制变量，μ＝{β₁,β₂,w_f,...}有前后排桨扇的桨距角和燃油流量等。

步骤2)主要关于优化目标函数的确定，所涉及的具体内容如下：

分布式强化学习模块接收桨扇发动机的上述所有参数，将其传递给N个子强化学习网络。由于每个子强化学习网络都有属于自己独立的策略，所以它们的初始方向不是相同的，这样有利于加快优化控制的速度。最终的优化控制目标是在保持桨扇发动机推力恒定的基础上实现最小油耗，优化控制目标函数的表达式如下所示。

min sfc(F＝F_d,F_d为常数) (2)

其中，F表示推力(在最小推力模式下为常数，这里设计点的推力值为75000N)，优化控制目标函数表示最小化耗油率sfc。

步骤3)主要关于子强化学习模块的输出变量，所涉及的内容如下：

子强化学习网络朝着靠近目标函数的方向输出一个动作，这个动作包含下一状态的桨扇发动机的前后排桨距角β₁(t+1)和β₂(t+1)。通过将此桨距角数值输入到发动机控制模型中，计算得到此时的推力值F(t+1)和此时的耗油率sfc(t+1)。

步骤4)主要关于奖励函数和约束目标的设定，所涉及的内容如下：

设置优化过程的奖励函数和发动机稳定工作的约束条件如式(6)和式(7)所示。

Reward＝λ(sfc(t+1)-sfc(t)) (3)

需要设定的约束条件有：

步骤5)主要关于根据奖励值不断的修正自己的动作来输出最终的最优控制变量和目标函数值，所涉及的具体内容如下：

子强化学习网络通过分析这一过程中的奖励函数值Reward，如果该数值大于0，则说明之前改变桨距角的数值有利于达到最小耗油率的优化控制目标，就要增加这一变化的趋势；如果这个奖励值小于0，则说明之前改变的桨距角的数值不利于达到最小耗油率的目标，就要减少类似上一个动作的趋势。

当训练次数达到设定的次数后，子强化学习网络从全局模型中获取更新的模型参数，使用新同步到的全局模型参数进行下一步交互更新。直到满足优化控制目标—最小耗油率。输出此时前后排桨距角β₁(final)和β₂(final)，以及此时的最小耗油率 sfc_min。那么，在前排和后排桨距角分别为β₁(final)和β₂(final)的条件下，对转桨扇发动机能够稳定的工作在最小油耗模式。

通过设置迭代次数为800次，并且桨扇发动机飞行马赫数为0.7，飞行高度为0km。当设计的推力为75000N时，通过本方法优化控制得到的前排桨扇和后排桨扇桨距角分别为59.39°和56.13°，此时的耗油率为0.0573kg/h/N。和传统的控制方法相比，本发明对桨扇发动机的优化控制方案能够明显地降低桨扇发动机的耗油量。

根据实施实例，可以认为本发明中所提出的基于分布式强化学习的优化控制方法是可行的。

Claims

1.基于分布式强化学习的优化控制系统，其特征在于，包括分布式强化学习模块、优先级数据存储模块和被控模型模块；

2.如权利要求1所述的基于分布式强化学习的优化控制系统，其特征在于，所述多个子强化学习系统和一个全局强化学习系统；在算法训练时对多个子强化学习系统进行训练，每个子强化学习系统从全局强化学习系统获得强化学习信号，按照Actor-Critic算法的方式独立的进行环境交互与学习，每个模型完成训练并得到参数更新后，异步的将该线程的参数更新到全局变量中，下一次训练开始前，从全局强化学习模型中获取更新的模型参数，使用新同步到的全局模型参数进行下一步交互更新。

3.基于权利要求1所述的基于分布式强化学习的优化控制系统的控制方法，其特征在于，包括以下步骤：

步骤1：启动分布式强化学习模块，获取控制模型当前状态：

4.如权利要求3所述基于分布式强化学习的优化控制系统的控制方法，其特征在于，所述步骤2中，Actor网络基于概率大小选择行为，Critic网络基于Actor网络选择的行为利用时间差分误差来评判该行为的得分，接着Actor网络根据Critic网络对动作的评分修改选择行为的概率。