CN112558465B - 一种带有输入限制的未知无人船有限时间强化学习控制方法 - Google Patents
一种带有输入限制的未知无人船有限时间强化学习控制方法 Download PDFInfo
- Publication number
- CN112558465B CN112558465B CN202011414640.9A CN202011414640A CN112558465B CN 112558465 B CN112558465 B CN 112558465B CN 202011414640 A CN202011414640 A CN 202011414640A CN 112558465 B CN112558465 B CN 112558465B
- Authority
- CN
- China
- Prior art keywords
- follows
- function
- control
- unmanned
- mathematical model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供一种带有输入限制的未知无人船有限时间强化学习控制方法,包括:建立无人水面船数学模型,设定无人水面船的期望轨迹数学模型;基于设定的期望轨迹数学模型,引入有限时间控制理论;基于引入有限时间控制函数的所述期望轨迹数学模型,设计无人船有限时间轨迹跟踪最优控制器;基于设计的无人船有限时间轨迹跟踪最优控制器,进一步设计评判器和执行器的神经网络权重更新率。本发明的技术方案解决了现有技术中由于外界干扰过大时,控制器因为输入饱和特性使得跟踪效果变差的技术问题。
Description
技术领域
本发明涉及强化学习与水面无人船的轨迹跟踪技术领域,具体而言,尤其涉及一种带有输入限制的未知无人船有限时间强化学习控制方法。
背景技术
在复杂海域内,无人船的误差是一个很重要也很难于控制的指标,通过在强化学习的基础上加入有限时间控制,可以使得无人船在达到最优控制的基础上,误差也在有限时间内收敛,提高系统的响应速度。外界有较大的风浪流等干扰因素,因此无人船需要较大的控制输入来进行控制,但是现有的控制方法中未考虑控制器存在输入饱和限制,当外界干扰过大时,控制器会因为输入饱和特性使得跟踪效果变差。
发明内容
根据上述提出的技术问题,而提供一种带有输入限制的未知无人船有限时间强化学习控制方法。本发明考虑控制器存在输入饱和限制,当外界干扰过大时,控制器不会因为输入饱和特性使得跟踪效果变差,当需要提高系统的控制性能而对系统的指定性能进行设计时,就需要用到指定性能的控制方法,使得系统的暂态性能得到保证。
本发明采用的技术手段如下:
一种带有输入限制的未知无人船有限时间强化学习控制方法,包括如下步骤:
S1、建立无人水面船数学模型,设定无人水面船的期望轨迹数学模型;
S2、基于设定的所述期望轨迹数学模型,引入有限时间控制理论;
S3、基于引入有限时间控制函数的所述期望轨迹数学模型,设计无人船有限时间轨迹跟踪最优控制器;
S4、基于设计的无人船有限时间轨迹跟踪最优控制器,进一步设计评判器和执行器的神经网络权重更新率。
进一步地,S11、定义两个坐标系,分别为北东坐标系OXY和附体坐标系ObXbYb;
S12、对无人水面船进行建模,得到如下船舶运动控制数学模型:
其中,η=[x,y,ψ]T表示北东坐标系下的船舶位置向量,x、y表示无人水面船运动的北东位置,ψ∈[0,2π]表示艏摇角;R(ψ)表示地球坐标系和船体坐标系之间的转换矩阵;ν=[u,v,r]T表示附体坐标系下无人水面船运动的速度向量,u、v、r分别表示其纵荡速度、横荡速度、艏摇速度;τ′=M-1τ,表示包含附加质量的惯性矩阵;τ=[τu,τv,τr]T表示船舶控制输入向量,τu、τv、τr分别表示纵荡控制力、横荡控制力、艏摇控制力;f(v)表示系统动态向量,f(v)=-M-1(C(v)v+D(v)v),M(t)=MT(t)>0表示包含附加质量的惯性矩阵,C(v)表示斜对称矩阵,D(v)表示阻尼矩阵;
S13、设定无人水面船的期望轨迹数学模型,如下所示:
其中,xd=[ηd T,vd T]T,ηd=[xd,yd,ψd]T和νd=[ud,vd,rd]T分别表示无人水面船跟踪的期望位置向量及速度向量。
进一步地,所述步骤S2中,引入有限时间控制理论具体包括:
定义1:若存在和一个稳定时间ρ>0和一个稳定时间T(ρ,e0)<∞使得对所有的t≥t0+T来说满足||e||<ρ,那么非线性系统的平衡状态e=0是半全局有限时间稳定的;
定理1:在控制系统中,存在两个状态变量a和b,并且存在三个正定的常数c,d,e,满足下面的方程式:
定理2:考虑到无人船系统,如果存在一个正定函数J(e)和常数c>0,0<λ<1,Π>0满足以下的方程式,无人船系统是半全局有限时间稳定的:
J(e)≤-cJλ(e)+Π。
进一步地,所述步骤S3具体包括:
S31、构建无人船系统的动态方程:
S32、定义系统的代价函数为:
S33、根据Leibniz规则和系统方程进行求导,Bellman方程如下:
即可以得出:
则哈密尔顿方程可以写为:
因此最优的哈密尔顿方程可以被写为:
进一步地,所述步骤S4具体包括:
S41、根据前馈神经网络的全局逼近特性,定义最优消耗函数,如下:
V*对于e的导数为:
S42、给出任何强化区间T>0,由评判器神经网络估计消耗函数,因此考虑贝尔曼误差方程如下:
S43、设计成本函数的逼近函数,如下:
则积分型强化学习的贝尔曼误差方程如下:
其中,αc是正定矩阵;
S45、采用强化学习最优追踪控制,最优控制策略如下:
其中,αa是正定矩阵,l是设计的参数;
较现有技术相比,本发明具有以下优点:
本发明提供的带有输入限制的未知无人船有限时间强化学习控制方法,考虑控制器存在输入饱和限制,当外界干扰过大时,控制器不会因为输入饱和特性使得跟踪效果变差,当需要提高系统的控制性能而对系统的指定性能进行设计时,就需要用到指定性能的控制方法,使得系统的暂态性能得到保证,更加具有实际工程意义。
基于上述理由本发明可在强化学习与水面无人船的轨迹跟踪等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图。
图2为本发明实施例提供的无人船位置跟踪图。
图3为本发明实施例提供的无人船速度跟踪图。
图4为本发明实施例提供的无人船位置误差图。
图5为本发明实施例提供的无人船速度误差图。
图6为本发明实施例提供的无人船轨迹跟踪图。
图7为本发明实施例提供的评论家神经网络权重更新图。
图8为本发明实施例提供的演员神经网络权重更新图。
图9为本发明实施例提供的无人船控制律图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本发明提供了一种带有输入限制的未知无人船有限时间强化学习控制方法,包括如下步骤:
S1、建立无人水面船数学模型,设定无人水面船的期望轨迹数学模型;
具体实施时,作为本发明优选的实施方式,所述步骤S1具体包括:
S11、定义两个坐标系,分别为北东坐标系OXY和附体坐标系ObXbYb;
S12、对无人水面船进行建模,得到如下船舶运动控制数学模型:
其中,η=[x,y,ψ]T表示北东坐标系下的船舶位置向量,x、y表示无人水面船运动的北东位置,ψ∈[0,2π]表示艏摇角;R(ψ)表示地球坐标系和船体坐标系之间的转换矩阵;ν=[u,v,r]T表示附体坐标系下无人水面船运动的速度向量,u、v、r分别表示其纵荡速度、横荡速度、艏摇速度;τ′=M-1τ,表示包含附加质量的惯性矩阵;τ=[τu,τv,τr]T表示船舶控制输入向量,τu、τv、τr分别表示纵荡控制力、横荡控制力、艏摇控制力;f(v)表示系统动态向量,f(v)=-M-1(C(v)v+D(v)v),M(t)=MT(t)>0表示包含附加质量的惯性矩阵,C(v)表示斜对称矩阵,D(v)表示阻尼矩阵;
S13、设定无人水面船的期望轨迹数学模型,如下所示:
其中,xd=[ηd T,vd T]T,ηd=[xd,yd,ψd]T和νd=[ud,vd,rd]T分别表示无人水面船跟踪的期望位置向量及速度向量。
S2、基于设定的所述期望轨迹数学模型,引入有限时间控制理论;
具体实施时,作为本发明优选的实施方式,所述步骤S2中,引入有限时间控制理论具体包括:
定义1:若存在和一个稳定时间ρ>0和一个稳定时间T(ρ,e0)<∞使得对所有的t≥t0+T来说满足||e||<ρ,那么非线性系统的平衡状态e=0是半全局有限时间稳定的;
定理1:在控制系统中,存在两个状态变量a和b,并且存在三个正定的常数c,d,e,满足下面的方程式:
定理2:考虑到无人船系统,如果存在一个正定函数J(e)和常数c>0,0<λ<1,Π>0满足以下的方程式,无人船系统是半全局有限时间稳定的:
J(e)≤-cJλ(e)+Π。
S3、基于引入有限时间控制函数的所述期望轨迹数学模型,设计无人船有限时间轨迹跟踪最优控制器;
具体实施时,作为本发明优选的实施方式,所述步骤S3具体包括:
S31、构建无人船系统的动态方程:
S32、定义系统的代价函数为:
S33、根据Leibniz规则和系统方程进行求导,Bellman方程如下:
即可以得出:
则哈密尔顿方程可以写为:
因此最优的哈密尔顿方程可以被写为:
S4、基于设计的无人船有限时间轨迹跟踪最优控制器,进一步设计评判器和执行器的神经网络权重更新率。
具体实施时,作为本发明优选的实施方式,所述步骤S4具体包括:
S41、根据前馈神经网络的全局逼近特性,定义最优消耗函数,如下:
V*对于e的导数为:
S42、给出任何强化区间T>0,由评判器神经网络估计消耗函数,因此考虑贝尔曼误差方程如下:
S43、设计成本函数的逼近函数,如下:
则积分型强化学习的贝尔曼误差方程如下:
其中,αc是正定矩阵;
S45、由于代价函数的梯度未知,理想最优控制策略并不能获得,因此实际最优控制策略通过逼近未知理想权重获得。最终执行器和评判器的实际估计可以通过执行和评判器神经网络同时更新。采用强化学习最优追踪控制,最优控制策略如下:
其中,αa是正定矩阵,l是设计的参数;
为了验证本发明方法的有效性,进行了仿真实验,从附图2-9可以看出本发明方法跟踪的优越性,图2为无人船位置跟踪图,可以看出船舶在有限时间跟踪上参考轨迹;图3为速度跟踪图,可见虽然前期的速度有波动,但是在有限时间内也达到跟踪效果。图4和图5分别是位置误差与速度误差,从这两个误差图中可以看出误差最终在0附近波动,可以满足无人船系统良好的跟踪效果。图6为船舶的旋转仿真实验,船舶的参考轨迹为一个圆,可以看出跟踪效果很好。图7和图8为评论家权重与演员权重更新示意图,可见船舶在短时间内进行训练然后达到稳定,达到跟踪效果;图9为船舶跟踪控制律,可见船舶所设计的控制器满足有限时间的要求。达到了很好的控制效果。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (2)
1.一种带有输入限制的未知无人船有限时间强化学习控制方法,其特征在于,包括如下步骤:
S1、建立无人水面船数学模型,设定无人水面船的期望轨迹数学模型;
S2、基于设定的所述期望轨迹数学模型,引入有限时间控制理论;
所述步骤S2中,引入有限时间控制理论具体包括:
定义1:若存在和一个稳定时间ρ>0和一个稳定时间T(ρ,e0)<∞使得对所有的t≥t0+T来说满足||e||<ρ,那么非线性系统的平衡状态e=0是半全局有限时间稳定的;
定理1:在控制系统中,存在两个状态变量a和b,并且存在三个正定的常数c,d,e,满足下面的方程式:
定理2:考虑到无人船系统,如果存在一个正定函数J(e)和常数c>0,0<λ<1,Π>0满足以下的方程式,无人船系统是半全局有限时间稳定的:
J(e)≤-cJλ(e)+Π;
S3、基于引入有限时间控制函数的所述期望轨迹数学模型,设计无人船有限时间轨迹跟踪最优控制器;
所述步骤S3具体包括:
S31、构建无人船系统的动态方程:
S32、定义系统的代价函数为:
S33、根据Leibniz规则和系统方程进行求导,Bellman方程如下:
即可以得出:
则哈密尔顿方程可以写为:
因此最优的哈密尔顿方程可以被写为:
S4、基于设计的无人船有限时间轨迹跟踪最优控制器,进一步设计评判器和执行器的神经网络权重更新率;
所述步骤S4具体包括:
S41、根据前馈神经网络的全局逼近特性,定义最优消耗函数,如下:
V*对于e的导数为:
S42、给出任何强化区间T>0,由评判器神经网络估计消耗函数,因此考虑贝尔曼误差方程如下:
S43、设计成本函数的逼近函数,如下:
则积分型强化学习的贝尔曼误差方程如下:
其中,αc是正定矩阵;
S45、采用强化学习最优追踪控制,最优控制策略如下:
其中,αa是正定矩阵,l是设计的参数;
2.根据权利要求1所述的带有输入限制的未知无人船有限时间强化学习控制方法,其特征在于,所述步骤S1具体包括:
S11、定义两个坐标系,分别为北东坐标系OXY和附体坐标系ObXbYb;
S12、对无人水面船进行建模,得到如下船舶运动控制数学模型:
其中,η=[x,y,ψ]T表示北东坐标系下的船舶位置向量,x、y表示无人水面船运动的北东位置,ψ∈[0,2π]表示艏摇角;R(ψ)表示地球坐标系和船体坐标系之间的转换矩阵;ν=[u,v,r]T表示附体坐标系下无人水面船运动的速度向量,u、v、r分别表示其纵荡速度、横荡速度、艏摇速度;τ′=M-1τ,M(t)=MT(t)>0,其中表示包含附加质量的惯性矩阵;τ=[τu,τv,τr]T表示船舶控制输入向量,τu、τv、τr分别表示纵荡控制力、横荡控制力、艏摇控制力;f(v)表示系统动态向量,f(v)=-M-1(C(v)v+D(v)v),其中C(v)表示斜对称矩阵,D(v)表示阻尼矩阵;
S13、设定无人水面船的期望轨迹数学模型,如下所示:
其中,xd=[ηd T,vd T]T,ηd=[xd,yd,ψd]T和νd=[ud,vd,rd]T分别表示无人水面船跟踪的期望位置向量及速度向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011414640.9A CN112558465B (zh) | 2020-12-03 | 2020-12-03 | 一种带有输入限制的未知无人船有限时间强化学习控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011414640.9A CN112558465B (zh) | 2020-12-03 | 2020-12-03 | 一种带有输入限制的未知无人船有限时间强化学习控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112558465A CN112558465A (zh) | 2021-03-26 |
CN112558465B true CN112558465B (zh) | 2022-11-01 |
Family
ID=75059049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011414640.9A Active CN112558465B (zh) | 2020-12-03 | 2020-12-03 | 一种带有输入限制的未知无人船有限时间强化学习控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112558465B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113534668B (zh) * | 2021-08-13 | 2022-06-10 | 哈尔滨工程大学 | 基于最大熵的演员-评论家框架的auv运动规划方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108803321B (zh) * | 2018-05-30 | 2020-07-10 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN108828955B (zh) * | 2018-08-16 | 2021-03-16 | 大连海事大学 | 基于有限时间扩张状态观测器的精准航迹跟踪控制方法 |
CN109101035B (zh) * | 2018-09-13 | 2021-06-11 | 西北工业大学 | 一种用于高空滑翔uuv纵平面弹道控制的方法 |
CN110018687B (zh) * | 2019-04-09 | 2022-03-04 | 大连海事大学 | 基于强化学习方法的无人水面船最优轨迹跟踪控制方法 |
CN110472738A (zh) * | 2019-08-16 | 2019-11-19 | 北京理工大学 | 一种基于深度强化学习的无人艇实时避障算法 |
CN110597058B (zh) * | 2019-08-28 | 2022-06-17 | 浙江工业大学 | 一种基于增强学习的三自由度自主水下航行器控制方法 |
CN111240344B (zh) * | 2020-02-11 | 2023-04-07 | 哈尔滨工程大学 | 基于强化学习技术的自主水下机器人无模型控制方法 |
CN111580387B (zh) * | 2020-04-14 | 2022-09-13 | 集美大学 | 一种基于时滞分数阶船舶运动自适应滑模控制方法及系统 |
CN111679585B (zh) * | 2020-07-03 | 2022-08-26 | 大连海事大学 | 一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法 |
CN112015086B (zh) * | 2020-08-05 | 2022-04-26 | 山东科技大学 | 一种欠驱动水面船有限时间路径跟踪输出反馈控制方法 |
-
2020
- 2020-12-03 CN CN202011414640.9A patent/CN112558465B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112558465A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110018687B (zh) | 基于强化学习方法的无人水面船最优轨迹跟踪控制方法 | |
CN108803321B (zh) | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 | |
Woo et al. | Dynamic model identification of unmanned surface vehicles using deep learning network | |
CN111679585B (zh) | 一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法 | |
CN108008628B (zh) | 一种不确定欠驱动无人艇系统的预设性能控制方法 | |
Qin et al. | Adaptive trajectory tracking algorithm of unmanned surface vessel based on anti-windup compensator with full-state constraints | |
CN111308890B (zh) | 一种带有指定性能的无人船数据驱动强化学习控制方法 | |
CN108319140B (zh) | 一种重定义输出式无模型自适应航向控制方法及系统 | |
Jiang et al. | Identification modeling and prediction of ship maneuvering motion based on LSTM deep neural network | |
Dai et al. | Learning from adaptive neural network output feedback control of uncertain ocean surface ship dynamics | |
Hao et al. | Recurrent neural networks for nonparametric modeling of ship maneuvering motion | |
CN112650233B (zh) | 无人船轨迹跟踪最优控制方法 | |
CN114115262B (zh) | 基于方位角信息的多auv执行器饱和协同编队控制系统和方法 | |
CN111880546A (zh) | 一种基于自适应动态规划算法的虚拟引导船舶自动靠泊控制方法 | |
CN112558465B (zh) | 一种带有输入限制的未知无人船有限时间强化学习控制方法 | |
Gao et al. | Online optimal control for dynamic positioning of vessels via time-based adaptive dynamic programming | |
CN113848887A (zh) | 一种基于mlp方法的欠驱动无人艇轨迹跟踪控制方法 | |
Li et al. | Adaptive reinforcement learning fault-tolerant control for AUVs with thruster faults based on the integral extended state observer | |
Tong | An adaptive error constraint line-of-sight guidance and finite-time backstepping control for unmanned surface vehicles | |
Baier et al. | Hybrid physics and deep learning model for interpretable vehicle state prediction | |
He et al. | Black-box modeling of ship maneuvering motion using system identification method based on BP neural network | |
CN116088309B (zh) | 一种基于故障辨识的水面船复合学习容错控制方法 | |
Ye et al. | A modified predictive PID controller for dynamic positioning of vessels with autoregressive model | |
CN112327638B (zh) | 一种具有指定性能并带有输入饱和限制的无人船轨迹跟踪最优控制方法 | |
CN111538341A (zh) | 基于宽度学习自适应动态规划的船舶动力定位优化控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |