CN112650233A

CN112650233A - 死区限制下基于反步法与自适应动态规划的无人船轨迹跟踪最优控制方法

Info

Publication number: CN112650233A
Application number: CN202011484822.3A
Authority: CN
Inventors: 赵红; 王宁; 杨忱; 高颖; 李堃
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-04-13
Anticipated expiration: 2040-12-15
Also published as: CN112650233B

Abstract

本发明提供一种死区限制下基于反步法与自适应动态规划的无人船轨迹跟踪最优控制方法，包括：建立无人水面船数学模型，设定无人水面船的期望轨迹数学模型；基于设定的所述期望轨迹数学模型，引入控制器输入死区函数；基于引入控制器输入死区函数的期望轨迹数学模型，采用反步法设计无人船轨迹跟踪系统的虚拟控制器和反步控制器；基于设计的虚拟控制器和反步控制器，为无人船轨迹跟踪的剩余误差设计基于自适应动态规划的最优控制器，并与反步控制器一起作用于无人船，设计无人船的轨迹跟踪控制器；基于无人船的轨迹跟踪控制器，设计无人船轨迹跟踪最优控制率。本发明技术方案解决了现有技术未考虑控制器存在输入死区限制，使得跟踪效果变差的问题。

Description

死区限制下基于反步法与自适应动态规划的无人船轨迹跟踪最优控制方法

技术领域

本发明涉及自适应动态规划与水面无人船的轨迹跟踪技术领域，具体而言，尤其涉及死区限制下基于反步法与自适应动态规划的无人船轨迹跟踪最优控制方法。

背景技术

如今人工智能技术已经广泛应用于控制领域，特别是无人船系统中。与传统船舶相比无人船可以很好的处理复杂多变的海上环境并且减少人为因素和不确定扰动的影响。强化学习是一个解决最优控制问题的高效的解决方法。它可以解决传统的最优控制问题中求解哈密尔顿-雅克比-贝尔曼方程不易的缺点。Werbos提出一种基于强化学习并使用演员-评论家神经网络的最优控制框架。通过使用演员-评论家神经网络可以逼近成本函数和控制策略，从而满足最优准则且避免了维数灾难问题。

执行器存在对小信号不灵敏的特性，需要对控制器提出一定的要求。当控制器中存在死区特性时，往往不能达到控制要求，因此，需要考虑在控制器存在饱和时的轨迹跟踪控制问题。同时当对系统的动态控制性能提出较高要求时，往往对控制的精度要求比较高，因此，需要考虑在控制器存在死区时系统的轨迹跟踪最优控制问题。

发明内容

根据上述提出的技术问题，而提供一种死区限制下基于反步法与自适应动态规划的无人船轨迹跟踪最优控制方法。本发明考虑控制器存在输入死区限制，当控制输入为小信号时，控制器不会因为输入死区特性使得跟踪效果变差，当需要提高系统的动态性能而对系统进行最优控制设计时，采用自适应动态规划的控制方法，使得系统的最优性能得到保证。

本发明采用的技术手段如下：

死区限制下基于反步法与自适应动态规划的无人船轨迹跟踪最优控制方法，包括如下步骤：

S1、建立无人水面船数学模型，设定无人水面船的期望轨迹数学模型；

S2、基于设定的所述期望轨迹数学模型，引入控制器输入死区函数；

S3、基于引入控制器输入死区函数的期望轨迹数学模型，采用反步法设计无人船轨迹跟踪系统的虚拟控制器和反步控制器；

S4、基于设计的虚拟控制器和反步控制器，为无人船轨迹跟踪的剩余误差设计基于自适应动态规划的最优控制器，并与反步控制器一起作用于无人船，设计无人船的轨迹跟踪控制器；

S5、基于无人船的轨迹跟踪控制器，设计无人船轨迹跟踪最优控制率。

进一步地，所述步骤S1具体包括：

S11、定义北东坐标系XOY和附体坐标系X_BO_BY_B，将北东坐标系XOY视作惯性坐标系，取地球任一点O为坐标原点，OX指向正北，OY指向正东；将附体坐标系X_BO_BY_B视作非惯性坐标系，船舶左右对称时，取其中心为坐标原点O_B，O_BX_B轴沿着船舶中线指向船艏方向，O_BY_B轴垂直指向右舷；

S12、对无人水面船进行建模，得到如下船舶运动控制数学模型：

其中，η＝[x,y,ψ]^T表示北东坐标系下的船舶位置向量，x、y表示无人水面船运动位置矢量，ψ∈[0,2π]表示艏摇角；R(ψ)表示地球坐标系和船体坐标系之间的转换矩阵；

ν＝[u,v,r]^T表示附体坐标系下无人水面船运动的速度矢量，u、v、r分别表示其纵荡速度、横荡速度、艏摇速度；τ′＝M^-1τ，τ＝[τ_u,τ_v,τ_r]^T表示船舶控制输入向量，τ_u、τ_v、τ_r分别表示纵荡控制力、横荡控制力、艏摇控制力；f(v)表示系统动态向量，f(v)＝-M^-1(C(v)v+D(v)v)，M(t)＝M^T(t)>0表示包含附加质量的惯性矩阵，C(v)表示斜对称矩阵，D(v)表示阻尼矩阵。

进一步地，所述步骤S2中，引入控制器输入死区函数，具体如下：

τ(μ)＝βμ+h

其中，

令f(η,υ)＝-C(υ)υ-D(υ)υ+h，得到：

进一步地，所述步骤S3具体包括：

S31、反步控制第一步，定义无人船的跟踪误差：

其中，η_d表示参考轨迹的位置矢量，α表示反步控制第一步设计的虚拟控制器，对z₁求导得到：

S32、构建反步控制第一步的李雅普诺夫函数：

S33、对V₁求导得到：

S34、根据李雅普诺夫稳定性判据，设计反步控制第一步的虚拟控制器：

进一步得出：

S35、反步控制第二步，根据z₂＝υ-α，对z₂求导，得到：

其中，

S36、根据反步控制第二步设计两个控制器，具体为：

μ＝μ^a+μ^*

其中，μ^a表示反步法第二步设计的反步控制器，μ^*表示自适应动态规划所设计的最优控制器；进一步得到：

S37、构建反步控制第二步的李雅普诺夫函数：

S38、对V₂求导得到：

使用杨式不等式，得到：

其中，

进一步得到：

S39、根据李雅普诺夫稳定性判据，设计反步控制第二步的反步控制器：

进一步得到：

令

则由上式得到：

进一步地，所述步骤S4具体为：

将步骤S3中定义无人船的跟踪误差z₂记为剩余误差，并且令：

进一步地，所述步骤S5具体包括：

S51、在最优控制输入μ^*作用下，将无人船剩余误差的动力学方程表示为：

S52、定义剩余误差系统的消耗函数：

其中，J^*表示最优的消耗函数，Q∈R^6×6，B∈R^3×3；

S53、根据最优控制理论并考虑上述消耗函数，建立剩余误差系统的Hamilton-Jacobi-Bellman方程：

其中，

记为消耗函数的梯度最优值；

S54、系统的最优消耗函数满足

根据

得到理想的最优控制器：

S55、将上述理想的最优控制器计算公式代入到Hamilton-Jacobi-Bellman方程，得到：

S56、使用Critic神经网络逼近最优的消耗函数J^*，得到：

其中，W^*∈R^N记为理想的有界权重矢量||W^*||≤b_c，N表示神经元的数量,

表示高斯函数的基函数，且

ε^*记为最优控制器下神经网络有界的逼近误差；

S57、取最优的消耗函数J^*对z₂的梯度，得到：

其中，

与

记为神经网络回归矢量与逼近误差对于z₂的梯度；

S58、将步骤S56中得到的公式代入到步骤S54得到的理想最优控制器的公式中，得到最优的跟踪控制器，如下：

则由最优控制器计算出的HJB方程为：

其中，

S59、由于步骤S56得到的理想的Critic权重矢量W^*实际上是未知的，因此，Critic神经网络使用

逼近系统的消耗函数J^*得到：

其中，

是理想权重矢量W^*的神经网络估计值，并且

则Critic神经网络实际逼近的最优控制器为：

因此，Critic神经网络实际逼近的HJB方程为：

S60、令

则根据梯度下降法可以设计

的更新率，如下：

较现有技术相比，本发明具有以下优点：

外界有较大的风浪流等干扰因素，因此无人船需要较大的控制输入来进行控制，本发明提供的死区限制下基于反步法与自适应动态规划的无人船轨迹跟踪最优控制方法，本发明考虑控制器存在输入死区限制，当控制输入为小信号时，控制器不会因为输入死区特性使得跟踪效果变差，当需要提高系统的动态性能而对系统进行最优控制设计时，采用自适应动态规划的控制方法，使得系统的最优性能得到保证，更加具有实际工程意义。

基于上述理由本发明可在自适应动态规划与水面无人船的轨迹跟踪等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程图。

图2为本发明实施例提供的无人船位置跟踪图。

图3为本发明实施例提供的无人船速度跟踪图。

图4为本发明实施例提供的无人船位置误差图。

图5为本发明实施例提供的无人船速度误差图。

图6为本发明实施例提供的无人船轨迹跟踪图。

图7为本发明实施例提供的Critic神经网络权重更新图。

图8为本发明实施例提供的无人船控制律图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种死区限制下基于反步法与自适应动态规划的无人船轨迹跟踪最优控制方法，包括如下步骤：

具体实施时，作为本发明优选的实施方式，所述步骤S1具体包括：

具体实施时，作为本发明优选的实施方式，所述步骤S2中，引入控制器输入死区函数，具体如下：

τ(μ)＝βμ+h

其中，

令f(η,υ)＝-C(υ)υ-D(υ)υ+h，得到：

具体实施时，作为本发明优选的实施方式，所述步骤S3具体包括：

S31、反步控制第一步，定义无人船的跟踪误差：

S32、构建反步控制第一步的李雅普诺夫函数：

S33、对V₁求导得到：

进一步得出：

S35、反步控制第二步，根据z₂＝υ-α，对z₂求导，得到：

其中，

S36、根据反步控制第二步设计两个控制器，具体为：

μ＝μ^a+μ^*

S37、构建反步控制第二步的李雅普诺夫函数：

S38、对V₂求导得到：

使用杨式不等式，得到：

其中，

进一步得到：

进一步得到：

令

则由上式得到：

具体实施时，作为本发明优选的实施方式，所述步骤S4具体为：

具体实施时，作为本发明优选的实施方式，所述步骤S5具体包括：

S52、定义剩余误差系统的消耗函数：

其中，J^*表示最优的消耗函数，Q∈R^6×6，B∈R^3×3；

其中，

记为消耗函数的梯度最优值；

S54、系统的最优消耗函数满足

根据

得到理想的最优控制器：

S56、使用Critic神经网络逼近最优的消耗函数J^*，得到：

表示高斯函数的基函数，且

ε^*记为最优控制器下神经网络有界的逼近误差；

S57、取最优的消耗函数J^*对z₂的梯度，得到：

其中，

与

记为神经网络回归矢量与逼近误差对于z₂的梯度；

则由最优控制器计算出的HJB方程为：

其中，

逼近系统的消耗函数J^*得到：

其中，

是理想权重矢量W^*的神经网络估计值，并且

则Critic神经网络实际逼近的最优控制器为：

因此，Critic神经网络实际逼近的HJB方程为：

S60、令

则根据梯度下降法可以设计

的更新率，如下：

为了验证本发明方法的有效性，进行了仿真实验，从附图2-8可以看出本发明方法跟踪的优越性，图2为无人船位置跟踪图，可以看出船舶在有限时间跟踪上参考轨迹；图3为无人船速度跟踪图，可见虽然前期的速度有波动，但是在有限时间内也达到跟踪效果。图4和图5分别是位置误差与速度误差，从这两个误差图中可以看出误差最终在0附近波动，可以满足无人船系统良好的跟踪效果。图6为无人船轨迹跟踪图，船舶的参考轨迹几乎为一个圆，可以看出跟踪效果很好。图7为Critic神经网络权重更新图，可见船舶在短时间内进行训练然后达到稳定，达到跟踪效果；图8为无人船控制律图，可见船舶所设计的控制器满足有限时间的要求，达到了很好的控制效果。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。