CN111445005A

CN111445005A - 基于强化学习的神经网络控制方法及强化学习系统

Info

Publication number: CN111445005A
Application number: CN202010115498.1A
Authority: CN
Inventors: 陈保卫; 刘淼; 李庚达; 梁凌; 李雄威; 王昕�; 段震清; 张婷; 胡勇; 曾德良
Original assignee: Guodian New Energy Technology Research Institute Co ltd
Current assignee: Guodian New Energy Technology Research Institute Co ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-07-24

Abstract

本发明公开了一种基于强化学习的神经网络控制方法及强化学习系统。本发明中，动作网络根据被控对象或其机理模型的阶次和迟延来确定状态控制量，被控对象接收动作网络发送的状态控制量输出动作值；由估值网络基于输出动作值对当前控制效果与预定目标对比进行评价，在对被控对象或其机理模型探索过程中加入随机扰动和模型变化，并同时对动作网络和估值网络进行更新，获得控制律。通过动作网络和估值网络对被控对象或其机理模型的探索，不断更新和优化控制策略，在一定程度上模拟人对环境的探索和学习过程，最终得到一个快速准确且具有一定鲁棒性的神经网络控制器，能用于解决许多控制领域的难题。

Description

基于强化学习的神经网络控制方法及强化学习系统

技术领域

本发明属于智能控制领域，特别涉及一种基于强化学习的神经网络控制方法

背景技术

在智能控制领域中，各种先进的控制方法层出不穷，常用有以下几种方法：1.专家系统：利用专家知识对专门的或困难的问题进行描述，但存在自动获取知识困难、无自学能力、知识面太窄等问题，尽管专家系统在解决复杂的高级推理中获得较为成功的应用，但是专家控制的实际应用仍相对较少。2.模糊控制：用模糊语言描述系统，既可以描述应用系统的定量模型也可以描述其定性模型。模糊逻辑可适用于任意复杂的对象控制，但是随着输入输出变量的增加，模糊逻辑的推理将变得非常复杂且难于调试。3.学习控制：规定某种判据(准则)，系统本身就能通过统计估计、自我检测、自我评价和自我校正等方式不断自行调整，直至达到准则要求为止。学习控制不需要了解太多的系统信息，但需要1～2个学习周期，因此其快速性相对较差。

以上智能控制方法均存在不同程度的缺陷，尤其在现场实际应用中，这些智能控制方法难以解决非线性、大迟延、时变系统的控制难题，因此在实际现场中仍然采用传统的PID控制算法。

发明内容

近年来随着人工智能的发展，基于AlphaGo的设计理念，提出了基于强化学习的神经网络控制方法，本发明提供了一种基于强化学习的神经网络控制方法，使控制器能够学习人的控制思想，且灵活应对各种可能的随机扰动以及对象特性的变化。具体如下：

(1)一种基于强化学习的神经网络控制方法，其中,

步骤1：动作网络根据被控对象的历史输入输出和给定值输出一个控制量；

步骤2：根据控制量获取被控对象的输出；

步骤3：估值网络根据被控对象的输出获取控制量的奖励值，并根据奖励值评估该输出的价值；

步骤4：通过最小化预定目标的价值和输出的价值的差值来更新估值网络；

步骤5：通过最大化输出的价值来更新动作网络；

步骤6：通过重复更新估值网络和动作网络，实现估值网络和动作网络收敛。

(2)如(1)所述的基于强化学习的神经网络控制方法，其中，在步骤4，增加通过滑动平均算法更新作为估值网络拷贝的目标网络；在步骤5中增加通过滑动平均算法更新作为动作网络拷贝的目标网络。

(3)如(1)至(2)所述的基于强化学习的神经网络控制方法，其中，步骤2中通过将控制量输入被控对象获取。

(4)如(1)至(3)所述的基于强化学习的神经网络控制方法，其中，步骤2中通过建立被控对象的机理模型，将控制量输入机理模型获取被控对象的输出。

(5)如(1)至(4)所述的基于强化学习的神经网络控制方法，其中，采集被控对象的输入输出数据，建立神经网络模型作为机理模型。

(6)如(1)至(5)所述的基于强化学习的神经网络控制方法，其中，机理模型中不含被控对象的外扰和时变。

(7)如(1)至(6)所述的基于强化学习的神经网络控制方法，其中，机理模型中包含被控对象的外扰和时变。

(8)如(1)至(7)所述的基于强化学习的神经网络控制方法，其中，所述动作网络为LSTM网络。

(9)如(1)至(8)所述的基于强化学习的神经网络控制方法，其中，所述估值网络能够生成值函数，该值函数能够描述被控对象当前输出的奖励值，根据该输出的奖励值能够评估该输出的价值，该价值描述预定目标与当前输出的差距。

本发明另一方面提供一种采用如(1)或(3)至(10)任一项所述基于强化学习的神经网络控制方法的强化学习系统，其中，包括：一被控对象，一与被控对象连接向被控对象发送状态控制量的动作网络；动作网络能够记录状态控制量和被控对象的输出动作值，动作网路内置策略，策略根据记录的状态控制量和被控对象的输出动作值生成待发送的状态控制量；估值网络内置奖励函数，能够根据输出动作值评价被控对象状态与预定目标的差距，并根据该差距更新估值网络和动作网络。

本专利使得复杂的强化学习算法在过程控制领域具备解决复杂问题的通用智能。

附图说明

图1为本发明强化学习系统的结构示意图；

图2为本发明基于强化学习的神经网络控制方法的流程图；

图3为本发明用于astrom模型与预测控制模型的仿真结果对比图。

具体实施方式

如图1所示本发明一方面提供一种强化学习系统，该强化学习系统包括一被控对象1，一与被控对象1连接向被控对象1发送状态控制量的动作网络2，被控对象1根据状态控制量产生一输出动作值。被控对象1的历史输入状态控制量u(k),u(k-1)...u(k-n)和历史输出动作值y(k),y(k-1)...y(k-n)会反馈至动作网络2，作为历史数据予以记录，并作为动作网络2发送下一状态控制量的依据。强化学习系统还包括一估值网络3，估值网络3与被控对象1的输出相连，能够获取被控对1的输出动作值，估值网络3内置奖励值函数，奖励值函数能够根据输出动作值评估被控对象1当前状态与预定目标之间的差距。

优选的，一目标网络2A与动作网络相连，作为动作网络2的备份，一目标网络3A与估值网络相连，作为估值网络3的备份。

优选的，该被控对象1可为一根据被控对象1建立的机理模型，从而实现对动作网络2、估值网络3的离线调试，进一步优选的，该机理模型中可以加入环境扰动，从而实现更为全面的离线调试。

该强化学习系统可由元组(S，A，P，R，γ)描述，其中S为有限的状态集；A为有限的动作集；P为状态转移概率，即采取一个固定动作状态S转移到状态S’的概率；R为单步奖励函数；γ为折扣因子，用来计算累积回报，保证奖励值收敛，通常小于1。强化学习的目标是给定一个马尔科夫决策过程，寻找最优策略，使一次实验的累积奖励最大，即：

G_t为一次实验的累积奖励，Rt为第t步的奖励函数。

动作网络内置策略，该策略可根据历史的状态控制量和输出动作值决定，通常是一个概率分布：

p(a|s)＝p[A_t＝a|S_t＝s]

π(a|s)即为策略，表示在状态s下采取动作a的概率。强化学习系统能够逐渐学习到基于当前状态的最优策略。

实际实施中，随机初始化动作网络2、估值网络3、目标网络2A和目标网络3A的权值，动作网络2根据预设策略和当前数据给出一个状态控制量，被控对象1接收状态控制量给出输出动作值，估值网络3接收输出动作值，根据奖励值函数给出奖励值。

优选的，估值网络3根据输出动作值产生奖励值的奖励值函数为：

其中sp为目标值，pv为当前值，ε为状态特定值，c为奖励特定值，ε<c，表示当目标值与当前值误差小于ε时获得一个较大的奖励值c。

估值网络3根据奖励值能够评估当前状态的价值，价值Q^μ(s_t,a_t)为：

Q^μ(s_t,a_t)＝r(s_t,a_t)+γQ^μ(s_t+1,a_t+1)

s_t和a_t表示t时刻的状态和动作，μ表示估值网络中的参数，γ表示折扣因子。

通过最小化预定目标的价值和输出的价值的差值来更新估值网络3。以本次价值与前次价值的差值构建目标函数，用梯度下降法更新估值网络3的权值。同时估值网络3将价值传递给动作网络2，并通过当前状态的价值Q^μ(s_t,a_t)的方式来更新动作网络2。更新完动作网络2和估值网络3后，更新目标网络2A和目标网络3A，即完成了一次网络更新。选取合适的学习率，保证两个网络都收敛，此时的动作网2络即为最优的控制策略。

强化学习系统通过被控对象1与环境进行交互获得奖赏指导行为，动作网络2选择一个动作使被控对象1作用于环境，环境接受该动作后被控对象1的状态发生变化，同时估值网络3根据状态产生一个奖励值信号(奖或惩)反馈给被控对象1，被控对象1根据奖励值信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化奖励值信号(奖)的概率增大。强化学习系统中由环境提供的奖励值信号是对产生动作的好坏作出评价，而不需要直接向强化学习系统提供明确的最优方案动作，适用于外部环境提供的信息很少，系统必须靠自身的经历进行学习的环境，提高了系统的环境适应性。

如图2所示，本发明另一方面提供了一种基于强化学习的神经网络控制方法，该方法包括如下步骤：

步骤1：动作网络根据被控对象的历史输入输出和给定值输出一个控制量。

步骤2：根据控制量获取被控对象的输出，优选的，获取被控对象的输出可以通过将控制量输入被控对象获取或通过建立被控对象的机理模型，将控制量输入机理模型获取被控对象的输出。进一步优选的，根据被控对象建立机理模型，若机理模型过于复杂而难以建立或者准确度不高，可以根据现场采集的被控对象实际输入输出数据，建立神经网络模型，建立神经网络模型时，应考虑被控对象的迟延惯性等特性，完整考虑对象的输入和输出量，当迟延较小时可以建立普通的BP神经网络，而当迟延较大时，用BP神经网络会有着网络输入较多，权值爆炸，网络难以收敛的问题，此时可以考虑使用动态神经网络来建模，如RNN,ELMAN,LSTM等神经网络。

步骤3：估值网络根据被控对象的输出获取控制量的奖励值，并根据奖励值评估该输出的价值。

估值网络用于估计当前输出的奖励值函数，并根据奖励值评估输出的价值。在强化学习中，每个输出及其对应的给定值、历史输入输出统称为一个状态，每个状态都会产生一个值函数，它在一定程度上描述了当前状态与预定目标之间的差距，预定目标的奖励值函数及价值最高。强化学习的目的即迅速使状态趋近于奖励值函数及价值较高的状态点。在本发明中，采用LSTM网络作为估值网络。

优选的，定义获取当前控制量的奖励值的函数为：

其中sp为给定值，pv为当前值，ε为较小的常数，c为较大的常数，表示当给定值与当前值误差小于ε时获得一个较大的奖励值c。

估值网络评估该输出的价值Q^μ(s_t,a_t)为：

Q^μ(s_t,a_t)＝r(s_t,a_t)+γQ^μ(s_t+1,a_t+1)

步骤4：通过最小化预定目标的价值和输出的价值的差值来更新估值网络。优选的，定义TD-error：γQ^μ(s_t+1,a_t+1)+r(s_t+1,a_t+1)-Q^μ(s_t,a_t)，将TD-error看做目标函数，用梯度下降法来更新估值网络权值。进一步优选的，以目标网络作为估值网络的拷贝，并通过滑动平均算法更新目标网络。

步骤5：通过最大化输出的价值来更新动作网络。

优选的，本发明采用LSTM网络作为动作网络。

优选的，通过最大化当前的状态估值Q^μ(s_t,a_t)来更新动作网络权值。动作网络输入为当前状态，输出的动作进入估值网络产生估值，将估值网络的输出当做目标函数，用梯度下降法即能实现动作网络的更新。

优选的，以目标网络作为动作网络的拷贝，并通过滑动平均算法更新目标网络。

优选的，步骤4和步骤5中的目标网络通过滑动平均算法进行更新，即：

θ^Q'＝τθ^Q+(1-τ)θ^Q'

其中θ^Q'为下一个时刻的网络权值，θ^Q为当前时刻的网络权值，τ为滑动平均的系数，为保持稳定，一般取值较小，使权值更新过程更为稳定，更易收敛。

每执行一次步骤1至步骤5即完成了一次网络更新，改进控制策略。网络权值保持上次更新的结果，直到两个网络都收敛。

优选的，最大步数为400步，即400步之后开始一个新的控制过程，因为对于迟延惯性相对不是很大的系统，400个控制周期之后控制策略的好坏已经确定，为了防止网络更新为一个坏的状态而产生对更新无益的样本，所以在规定步数后重新开始控制过程。

优选的，为了增强强化学习的神经网络控制方法的鲁棒性，在步骤2中采用机理模型来获取被控对象的输出，并将强化学习的神经网络控制方法分为两个阶段，两个阶段均包含步骤1至步骤6，但是在第一阶段中，机理模型不包含被控对象的外扰和时变，在第一阶段获得收敛的估值网络和动作网络后，将其作为第二阶段的初始估值网络和动作网络，将机理模型调整为包含被控对象的外扰和时变的机理模型，执行步骤1至步骤6，获取最终的估值网络和动作网络。

根据本发明获取的动作网络和估值网络，以及采用该动作网络和估值网络的控制器能兼顾动态性能和鲁棒性，估值网络能较为准确的估计当前控制系统的运行状态，同样对控制过程有着一定的指导意义，也可用于在线更新。将该控制方法用于astrom模型，与预测控制对比曲线如图3。

Claims

1.一种基于强化学习的神经网络控制方法，其特征在于,

步骤2：根据控制量获取被控对象的输出；

步骤5：通过最大化输出的价值来更新动作网络；

2.根据权利要求1所述的基于强化学习的神经网络控制方法，其特征在于，在步骤4，增加通过滑动平均算法更新作为估值网络拷贝的目标网络；在步骤5中增加通过滑动平均算法更新作为动作网络拷贝的目标网络。

3.根据权利要求1所述的基于强化学习的神经网络控制方法，其特征在于，步骤2中通过将控制量输入被控对象获取。

4.根据权利要求1所述的基于强化学习的神经网络控制方法，其特征在于，步骤2中通过建立被控对象的机理模型，将控制量输入机理模型获取被控对象的输出。

5.根据权利要求4所述的基于强化学习的神经网络控制方法，其特征在于，采集被控对象的输入输出数据，建立神经网络模型作为机理模型。

6.根据权利要求4至5任一项所述的基于强化学习的神经网络控制方法，其特征在于，机理模型中不含被控对象的外扰和时变。

7.根据权利要求4至5任一项所述的基于强化学习的神经网络控制方法，其特征在于，机理模型中包含被控对象的外扰和时变。

8.根据权利要求1所述的基于强化学习的神经网络控制方法，其特征在于，所述动作网络为LSTM网络。

9.根据权利要求1所述的基于强化学习的神经网络控制方法，其特征在于，所述估值网络能够生成值函数，该值函数能够描述被控对象当前输出的奖励值，根据该输出的奖励值能够评估该输出的价值，该价值描述预定目标与当前输出的差距。

10.一种采用如权利要求1或权利要求3至10任一项所述基于强化学习的神经网络控制方法的强化学习系统，其特征在于，包括：一被控对象，一与被控对象连接向被控对象发送状态控制量的动作网络；动作网络能够记录状态控制量和被控对象的输出动作值，动作网路内置策略，策略根据记录的发送状态控制量和被控对象的输出动作值生成待发送的状态控制量；估值网络内置奖励函数，能够根据输出动作值评价被控对象状态与预定目标的差距，并根据该差距更新估值网络和动作网络。