CN112558465B

CN112558465B - 一种带有输入限制的未知无人船有限时间强化学习控制方法

Info

Publication number: CN112558465B
Application number: CN202011414640.9A
Authority: CN
Inventors: 赵红; 王宁; 杨忱; 高颖; 李堃
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-11-01
Anticipated expiration: 2040-12-03
Also published as: CN112558465A

Abstract

本发明提供一种带有输入限制的未知无人船有限时间强化学习控制方法，包括：建立无人水面船数学模型，设定无人水面船的期望轨迹数学模型；基于设定的期望轨迹数学模型，引入有限时间控制理论；基于引入有限时间控制函数的所述期望轨迹数学模型，设计无人船有限时间轨迹跟踪最优控制器；基于设计的无人船有限时间轨迹跟踪最优控制器，进一步设计评判器和执行器的神经网络权重更新率。本发明的技术方案解决了现有技术中由于外界干扰过大时，控制器因为输入饱和特性使得跟踪效果变差的技术问题。

Description

一种带有输入限制的未知无人船有限时间强化学习控制方法

技术领域

本发明涉及强化学习与水面无人船的轨迹跟踪技术领域，具体而言，尤其涉及一种带有输入限制的未知无人船有限时间强化学习控制方法。

背景技术

在复杂海域内，无人船的误差是一个很重要也很难于控制的指标，通过在强化学习的基础上加入有限时间控制，可以使得无人船在达到最优控制的基础上，误差也在有限时间内收敛，提高系统的响应速度。外界有较大的风浪流等干扰因素，因此无人船需要较大的控制输入来进行控制，但是现有的控制方法中未考虑控制器存在输入饱和限制，当外界干扰过大时，控制器会因为输入饱和特性使得跟踪效果变差。

发明内容

根据上述提出的技术问题，而提供一种带有输入限制的未知无人船有限时间强化学习控制方法。本发明考虑控制器存在输入饱和限制，当外界干扰过大时，控制器不会因为输入饱和特性使得跟踪效果变差，当需要提高系统的控制性能而对系统的指定性能进行设计时，就需要用到指定性能的控制方法，使得系统的暂态性能得到保证。

本发明采用的技术手段如下：

一种带有输入限制的未知无人船有限时间强化学习控制方法，包括如下步骤：

S1、建立无人水面船数学模型，设定无人水面船的期望轨迹数学模型；

S2、基于设定的所述期望轨迹数学模型，引入有限时间控制理论；

S3、基于引入有限时间控制函数的所述期望轨迹数学模型，设计无人船有限时间轨迹跟踪最优控制器；

S4、基于设计的无人船有限时间轨迹跟踪最优控制器，进一步设计评判器和执行器的神经网络权重更新率。

进一步地，S11、定义两个坐标系，分别为北东坐标系OXY和附体坐标系O_bX_bY_b；

S12、对无人水面船进行建模，得到如下船舶运动控制数学模型：

其中，η＝[x,y,ψ]^T表示北东坐标系下的船舶位置向量，x、y表示无人水面船运动的北东位置，ψ∈[0,2π]表示艏摇角；R(ψ)表示地球坐标系和船体坐标系之间的转换矩阵；

ν＝[u,v,r]^T表示附体坐标系下无人水面船运动的速度向量，u、v、r分别表示其纵荡速度、横荡速度、艏摇速度；τ′＝M^-1τ，

表示包含附加质量的惯性矩阵；τ＝[τ_u,τ_v,τ_r]^T表示船舶控制输入向量，τ_u、τ_v、τ_r分别表示纵荡控制力、横荡控制力、艏摇控制力；f(v)表示系统动态向量，f(v)＝-M^-1(C(v)v+D(v)v)，M(t)＝M^T(t)＞0表示包含附加质量的惯性矩阵，C(v)表示斜对称矩阵，D(v)表示阻尼矩阵；

S13、设定无人水面船的期望轨迹数学模型，如下所示：

其中，x_d＝[η_d ^T,v_d ^T]^T,η_d＝[x_d,y_d,ψ_d]^T和ν_d＝[u_d,v_d,r_d]^T分别表示无人水面船跟踪的期望位置向量及速度向量。

进一步地，所述步骤S2中，引入有限时间控制理论具体包括：

定义1：若存在和一个稳定时间ρ＞0和一个稳定时间T(ρ,e₀)＜∞使得对所有的t≥t₀+T来说满足||e||＜ρ，那么非线性系统的平衡状态e＝0是半全局有限时间稳定的；

定理1：在控制系统中，存在两个状态变量a和b，并且存在三个正定的常数c，d，e，满足下面的方程式：

定理2：考虑到无人船系统，如果存在一个正定函数J(e)和常数c＞0，0＜λ＜1，Π＞0满足以下的方程式，无人船系统是半全局有限时间稳定的：

J(e)≤-cJ^λ(e)+Π。

进一步地，所述步骤S3具体包括：

S31、构建无人船系统的动态方程：

S32、定义系统的代价函数为：

其中，Q(e)＝e^Tqe，

λ＞0是折扣因子，U(τ)是正定的函数，表示如下：

其中，

δ_i＞0，Φ＝diag(Φ₁,Φ₂,Φ₃)，

是一个有界函数并且满足|tanh(·)|≤1与tanh(0)＝0；

S33、根据Leibniz规则和系统方程进行求导，Bellman方程如下：

即可以得出：

则哈密尔顿方程可以写为：

其中，

并且最优的消耗函数可以被写为：

因此最优的哈密尔顿方程可以被写为：

S34、通过求解

得到最优控制率为：

进一步地，所述步骤S4具体包括：

S41、根据前馈神经网络的全局逼近特性，定义最优消耗函数，如下：

其中，

是评判器神经网络理想的权重向量，N是神经元的个数，

表示神经网络输入向量基函数，

是有界神经网络函数逼近误差；

V^*对于e的导数为：

S42、给出任何强化区间T＞0，由评判器神经网络估计消耗函数，因此考虑贝尔曼误差方程如下：

其中，

S43、设计成本函数的逼近函数，如下：

则积分型强化学习的贝尔曼误差方程如下：

S44、考虑目标函数

采用梯度下降法得到

其中，α_c是正定矩阵；

S45、采用强化学习最优追踪控制，最优控制策略如下：

其中，

是理想权重

的估计，执行者自适应率如下：

其中，α_a是正定矩阵，l是设计的参数；

较现有技术相比，本发明具有以下优点：

本发明提供的带有输入限制的未知无人船有限时间强化学习控制方法，考虑控制器存在输入饱和限制，当外界干扰过大时，控制器不会因为输入饱和特性使得跟踪效果变差，当需要提高系统的控制性能而对系统的指定性能进行设计时，就需要用到指定性能的控制方法，使得系统的暂态性能得到保证，更加具有实际工程意义。

基于上述理由本发明可在强化学习与水面无人船的轨迹跟踪等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程图。

图2为本发明实施例提供的无人船位置跟踪图。

图3为本发明实施例提供的无人船速度跟踪图。

图4为本发明实施例提供的无人船位置误差图。

图5为本发明实施例提供的无人船速度误差图。

图6为本发明实施例提供的无人船轨迹跟踪图。

图7为本发明实施例提供的评论家神经网络权重更新图。

图8为本发明实施例提供的演员神经网络权重更新图。

图9为本发明实施例提供的无人船控制律图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种带有输入限制的未知无人船有限时间强化学习控制方法，包括如下步骤：

具体实施时，作为本发明优选的实施方式，所述步骤S1具体包括：

S11、定义两个坐标系，分别为北东坐标系OXY和附体坐标系O_bX_bY_b；

S13、设定无人水面船的期望轨迹数学模型，如下所示：

具体实施时，作为本发明优选的实施方式，所述步骤S2中，引入有限时间控制理论具体包括：

J(e)≤-cJ^λ(e)+Π。

具体实施时，作为本发明优选的实施方式，所述步骤S3具体包括：

S31、构建无人船系统的动态方程：

S32、定义系统的代价函数为：

其中，Q(e)＝e^Tqe，

λ＞0是折扣因子，U(τ)是正定的函数，表示如下：

其中，

δ_i＞0，Φ＝diag(Φ₁,Φ₂,Φ₃)，

是一个有界函数并且满足|tanh(·)|≤1与tanh(0)＝0；其保留了一个很好的性质就是它是一个单调的奇函数并且他的一阶导数是有界的。

S33、根据Leibniz规则和系统方程进行求导，Bellman方程如下：

即可以得出：

则哈密尔顿方程可以写为：

其中，

并且最优的消耗函数可以被写为：

因此最优的哈密尔顿方程可以被写为：

S34、通过求解

得到最优控制率为：

具体实施时，作为本发明优选的实施方式，所述步骤S4具体包括：

其中，

是评判器神经网络理想的权重向量，N是神经元的个数，

表示神经网络输入向量基函数，

是有界神经网络函数逼近误差；

V^*对于e的导数为：

其中，

S43、设计成本函数的逼近函数，如下：

则积分型强化学习的贝尔曼误差方程如下：

S44、考虑目标函数

采用梯度下降法得到

其中，α_c是正定矩阵；

S45、由于代价函数的梯度未知，理想最优控制策略并不能获得，因此实际最优控制策略通过逼近未知理想权重获得。最终执行器和评判器的实际估计可以通过执行和评判器神经网络同时更新。采用强化学习最优追踪控制，最优控制策略如下：

其中，

是理想权重

的估计，执行者自适应率如下：

其中，α_a是正定矩阵，l是设计的参数；

为了验证本发明方法的有效性，进行了仿真实验，从附图2-9可以看出本发明方法跟踪的优越性，图2为无人船位置跟踪图，可以看出船舶在有限时间跟踪上参考轨迹；图3为速度跟踪图，可见虽然前期的速度有波动，但是在有限时间内也达到跟踪效果。图4和图5分别是位置误差与速度误差，从这两个误差图中可以看出误差最终在0附近波动，可以满足无人船系统良好的跟踪效果。图6为船舶的旋转仿真实验，船舶的参考轨迹为一个圆，可以看出跟踪效果很好。图7和图8为评论家权重与演员权重更新示意图，可见船舶在短时间内进行训练然后达到稳定，达到跟踪效果；图9为船舶跟踪控制律，可见船舶所设计的控制器满足有限时间的要求。达到了很好的控制效果。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。