CN111142383A

CN111142383A - 一种非线性系统最优控制器的在线学习方法

Info

Publication number: CN111142383A
Application number: CN201911396754.2A
Authority: CN
Inventors: 李新兴; 查文中; 王雪源; 王蓉
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-12
Anticipated expiration: 2039-12-30
Also published as: CN111142383B

Abstract

一种非线性系统最优控制器的在线学习方法，所述方法包括：获取控制系统的初始状态、系统状态、控制输入，所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统；建立连续时间系统模型；定义目标函数；建立最优控制器；建立基于离策略学习的同步策略迭代算法；对最优控制器进行在线训练学习；将训练学习得到的最优控制器用于实际被控对象，所述被控对象包括机器人的运动控制系统的控制参数或无人机的飞行控制系统的控制参数。

Description

一种非线性系统最优控制器的在线学习方法

技术领域

本发明涉及一种非线性系统最优控制器的在线学习方法，尤其涉及一种

背景技术

在工程实践过程中，工程技术人员经常需要对机器人、飞行器等复杂非线性系统的控制器进行优化。从控制论和数学的角度来看，寻找非线性系统的最优控制器难度巨大，经典的动态规划方法往往会面临“维数灾”问题，即计算复杂度随着系统状态维数的增加呈指数增长。此外，获得最优控制器需要求解复杂的哈密顿-雅可比-贝尔曼方程(HJB方程)，但HJB方程为非线性的偏微分方程，非常难求解。

近年来，强化学习技术正成为求解复杂非线性系统最优控制器的有力工具。强化学习是机器学习中除监督学习和非监督学习的第三类算法，其基本思想是采用不断试错的方法对最优控制器在线学习。Kyriakos G.Vamvoudakis和Frank L.Lewis在论文“Onlineactor–critic algorithm to solve the continuous-time infinite horizon optimalcontrol problem”中首次提出了一种新型的强化学习算法，即所谓的同步策略迭代，用于非线性仿射系统最优控制器的在线学习，其基本思想是利用两个神经网络，即执行网络和评价网络，分别对最优控制器和其对应的最优值函数进行近似，进而利用广义策略迭代的思想，在系统运行的过程中实时对两个神经网络进行训练。与传统强化学习方法相比，该方法无需在策略评估与策略提高之间反复迭代，而是在系统运行的过程中同步进行策略评估和策略提高，实现了真正意义上的在线学习。但是该方法仍存在以下问题和缺点：1)该方法属于在策略方法(on-policy)，具有探索不足的问题，为提高算法对策略空间的探索能力，需要在执行网络的输出中加入一定的探索噪声，而探索噪声会引起一定的激励噪声偏差；2)该方法只适用于仿射系统，对于更一般的非仿射系统则不再适用。Bian Tao等人在论文“Adaptive dynamic programming and optimal control of nonlinear nonaffinesystems”提出了适用于一般非仿射系统的离策略(off-policy)强化学习方法，有效解决了同步策略迭代方法探索不足的问题，但该方法属于传统的策略迭代算法，无法实现对最优控制器的在线学习。总的来说，对于一般的非线性非仿射系统的最优控制问题，目前尚未提出可以实现实时在线学习的强化学习方法。

为克服现有同步策略迭代方法无法应用到一般的非线性非仿射系统以及同步策略迭代对策略空间探索不足的问题，本专利所要解决的技术问题包括：1、对于一般的非线性非仿射系统，提出一种可以对最优控制器进行实时在线学习的强化学习方法。2、采用离策略学习技术克服同步策略迭代方法对状态空间和策略空间探索不足的问题。

发明内容

针对现有技术的缺陷，本发明提出一种非线性系统最优控制器的在线学习方法。具体方案如下：

一种非线性系统最优控制器的在线学习方法，包括如下步骤：

S1.获取控制系统的初始状态、系统状态、控制输入，所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统；

S2.建立连续时间系统模型：

x＝f(x(t),u(t)),x(0)＝x₀

式中，

为系统状态，u∈R^m为系统的控制输入，x(0)＝x0为系统的初始状态，Ω为状态区域；

S3.定义目标函数：

式中，函数r:Rⁿ×R^m→R为连续的正定函数；

S4.建立最优控制器，最优控制器u^*满足如下的HJB方程：

式中，

为哈密顿函数，

V*为

最优控制器u^*对应的值函数，即：

S5.建立基于离策略学习的同步策略迭代算法；

S6.对最优控制器进行在线训练学习；

S7.将训练学习得到的最优控制器用于实际被控对象，所述被控对象包括机器人的运动控制系统的控制参数或无人机的飞行控制系统的控制参数。

优选的，所述步骤S5包括下列步骤：

S51.行为策略设计，选择一个行为策略u并将其应用于系统以生成学习用到的状态x(t)；

S52.同步策略评估，在时刻t，对于行为策略u(t)和由其生成的状态x(t)，定义如下的Q-函数：

在上式的基础上采用时间差分学习方法对最优值函数V^*进行估计，根据神经网络的通用近似定理，利用两个评价网络在Ω内对V^*和Q-函数分别进行近似，其中，两个神经网络的激活函数的基分别为

和

N₁和N₂分别为两个神经网络隐藏层激活函数的个数。设V^*和Q-函数的最优近似值分别为

和

其中，W₁和W₂分别为隐藏层到输出层的权重。由于W₁和W₂均未知，我们用W₁(t)和W₂(t)分别表示t时刻对W₁和W₂的估计，用

和

替换上式中的V^*(x(t))和Q(x(t),u(t))可得如下的时间差分误差e(t)：

e(t)＝r(x(t),u(t))+W(t)^Tσ(x(t),u(t))

其中，

W(t)＝[W₁(t)^T W₂(t)^T]^T。

采用归一化的梯度下降法对两个评价网络的权重W(t)进行调节：

其中，Φ_c(t)＝(1+σ^T(x(t),u(t))σ(x(t),u(t)))²为评价网络的归一化项，α＞0为评价网络的学习率；

S53.策略提高，利用其中一个评价网络的输出

对策略进行改进，引入一个执行网络对最优控制器进行近似，其中，执行网络激活函数的构成的基为

N₃为隐藏层激活函数的个数，

为u^*的最优近似值，其中，W₃为隐藏层到输出层的最优权重，用W₃(t)表示t时刻对W₃的估计值，用目标策略

代替

中的行为策略u(x(t))便得到

接下来，利用重要性加权的方法对执行网络的权重进行调节：

其中，β＞0为执行网络的学习率，Φ_a(t)＝(1+σ₃(x(t))^Tσ₃(x(t)))²为执行网络的归一化项，U_a(t)为执行网络在t时刻的目标值，U_a(t)＝0；

当评价网络和执行网络的权重收敛后，算法结束。

本发明的非线性系统最优控制器的在线学习方法与以往的同步策略迭代方法相比，不仅适用于非线性仿射系统，同时也适用于更一般的非线性非仿射系统。由于采用了离策略学习技术，该方法对最优控制器具有更好的探索能力。与迭代式强化学习方法相比，该方法无需在策略评估和策略提高之间反复迭代，而是利用系统实时生成的状态数据对最优控制器进行在线学习。

附图说明

图1为用于近似最优值函数的评价网络结构。

图2为用于近似Q-函数的评价网络结构。

图3为用于近似最优控制器的执行网络结构。

具体实施方式

S1.获取控制系统的初始状态、系统状态、控制输入，所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统。

S2.建立连续时间系统模型：

x＝f(x(t),u(t)),x(0)＝x₀

式中，

为系统状态，u∈R^m为系统的控制输入，x(0)＝x₀为系统的初始状态，Ω为状态区域。

S3.定义目标函数：

式中，函数r:Rⁿ×R^m→R为连续的正定函数。

S4.建立最优控制器，最优控制器u^*满足如下的HJB方程：

式中，

为哈密顿函数，

V^*为最优控制器u^*对应的值函数，即：

S5.建立基于离策略学习的同步策略迭代算法。在基于离策略学习的同步策略迭代算法中，学习过程中用到的所有状态数据均由行为策略u产生，为了确保算法对策略空间具有一定的探测能力，行为策略产生的状态数据需要足够丰富并满足一定的持续激励条件，以确保算法的收敛性。本发明中行为策略为：u(x(t))＝u(x(t))+n(t)，其中u为任意的一个可行控制策略，通常根据被控系统的特征和经验选择，n(t)为探索噪声，n(t)可以是包含足够多频率的正弦、余弦信号或者幅值有限的随机信号。

S6.对最优控制器进行在线训练学习。

优选的，所述步骤S5包括下列步骤：

在上式的基础上采用时间差分学习方法对最优值函数V^*进行估计，根据神经网络的通用近似定理，参见附图1、附图2，利用两个评价网络在Ω内对V^*和Q-函数分别进行近似，其中，两个神经网络的激活函数的基分别为

和

和

和

e(t)＝r(x(t),u(t))+W(t)^Tσ(x(t),u(t))

其中，

W(t)＝[W₁(t)^T W₂(t)^T]^T。

S53.策略提高，利用其中一个评价网络的输出

对策略进行改进，参见附图3，引入一个执行网络对最优控制器进行近似，其中，执行网络激活函数的构成的基为

N₃为隐藏层激活函数的个数，

代替

中的行为策略u(x(t))便得到

其中，β＞0为执行网络的学习率，Φ_a(t)＝(1+σ₃(x(t))^Tσ₃(x(t)))²为执行网络的归一化项，U_a(t)为执行网络在t时刻的目标值，U_a(t)＝0。

当评价网络和执行网络的权重收敛后，算法结束。

算法中的两个评价网络和一个执行网络均采用具有单隐藏层的感知器模型，其中，用于近似Q-函数的评价网络的输入为状态和控制输入，用于近似最优值函数的评价网络的输入为状态，二者的输出均为标量。执行网络的输入同样为系统状态，其输出为多维向量。在学习的过程中，三个神经网络均只调节隐藏层到输出层的权重，输入层到隐藏层的权重在学习过程开始之前随机生成，在学习的过程中保持不变。三个神经网络隐藏层的激活函数可以选择为常用的双曲正切函数、Sigmoid函数、线性整流器、多项式函数等。

评价网络和执行网络也可以选为具有多个隐藏层的前馈神经网络，在学习的过程中也可以调节所有连接的权重，本专利选择具有单个隐藏层的神经网络并且仅调节隐藏层到输出层的权重主要是为了计算方便。评价网络的学习率和执行网络的学习率通常选择0到1之间的一个较小的正数。此外，三个神经网络隐藏层到输出层的初始权重可随机生成。

本发明通过上述实施例来说明本发明的详细过程和组成，但是本发明并不局限于上述详细过程和组成。本领域的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。