CN112558465B - 一种带有输入限制的未知无人船有限时间强化学习控制方法 - Google Patents

一种带有输入限制的未知无人船有限时间强化学习控制方法 Download PDF

Info

Publication number
CN112558465B
CN112558465B CN202011414640.9A CN202011414640A CN112558465B CN 112558465 B CN112558465 B CN 112558465B CN 202011414640 A CN202011414640 A CN 202011414640A CN 112558465 B CN112558465 B CN 112558465B
Authority
CN
China
Prior art keywords
follows
function
control
unmanned
mathematical model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011414640.9A
Other languages
English (en)
Other versions
CN112558465A (zh
Inventor
赵红
王宁
杨忱
高颖
李堃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN202011414640.9A priority Critical patent/CN112558465B/zh
Publication of CN112558465A publication Critical patent/CN112558465A/zh
Application granted granted Critical
Publication of CN112558465B publication Critical patent/CN112558465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种带有输入限制的未知无人船有限时间强化学习控制方法,包括:建立无人水面船数学模型,设定无人水面船的期望轨迹数学模型;基于设定的期望轨迹数学模型,引入有限时间控制理论;基于引入有限时间控制函数的所述期望轨迹数学模型,设计无人船有限时间轨迹跟踪最优控制器;基于设计的无人船有限时间轨迹跟踪最优控制器,进一步设计评判器和执行器的神经网络权重更新率。本发明的技术方案解决了现有技术中由于外界干扰过大时,控制器因为输入饱和特性使得跟踪效果变差的技术问题。

Description

一种带有输入限制的未知无人船有限时间强化学习控制方法
技术领域
本发明涉及强化学习与水面无人船的轨迹跟踪技术领域,具体而言,尤其涉及一种带有输入限制的未知无人船有限时间强化学习控制方法。
背景技术
在复杂海域内,无人船的误差是一个很重要也很难于控制的指标,通过在强化学习的基础上加入有限时间控制,可以使得无人船在达到最优控制的基础上,误差也在有限时间内收敛,提高系统的响应速度。外界有较大的风浪流等干扰因素,因此无人船需要较大的控制输入来进行控制,但是现有的控制方法中未考虑控制器存在输入饱和限制,当外界干扰过大时,控制器会因为输入饱和特性使得跟踪效果变差。
发明内容
根据上述提出的技术问题,而提供一种带有输入限制的未知无人船有限时间强化学习控制方法。本发明考虑控制器存在输入饱和限制,当外界干扰过大时,控制器不会因为输入饱和特性使得跟踪效果变差,当需要提高系统的控制性能而对系统的指定性能进行设计时,就需要用到指定性能的控制方法,使得系统的暂态性能得到保证。
本发明采用的技术手段如下:
一种带有输入限制的未知无人船有限时间强化学习控制方法,包括如下步骤:
S1、建立无人水面船数学模型,设定无人水面船的期望轨迹数学模型;
S2、基于设定的所述期望轨迹数学模型,引入有限时间控制理论;
S3、基于引入有限时间控制函数的所述期望轨迹数学模型,设计无人船有限时间轨迹跟踪最优控制器;
S4、基于设计的无人船有限时间轨迹跟踪最优控制器,进一步设计评判器和执行器的神经网络权重更新率。
进一步地,S11、定义两个坐标系,分别为北东坐标系OXY和附体坐标系ObXbYb
S12、对无人水面船进行建模,得到如下船舶运动控制数学模型:
Figure BDA0002815100450000021
Figure BDA0002815100450000022
其中,η=[x,y,ψ]T表示北东坐标系下的船舶位置向量,x、y表示无人水面船运动的北东位置,ψ∈[0,2π]表示艏摇角;R(ψ)表示地球坐标系和船体坐标系之间的转换矩阵;
Figure BDA0002815100450000023
ν=[u,v,r]T表示附体坐标系下无人水面船运动的速度向量,u、v、r分别表示其纵荡速度、横荡速度、艏摇速度;τ′=M-1τ,
Figure BDA0002815100450000024
表示包含附加质量的惯性矩阵;τ=[τuvr]T表示船舶控制输入向量,τu、τv、τr分别表示纵荡控制力、横荡控制力、艏摇控制力;f(v)表示系统动态向量,f(v)=-M-1(C(v)v+D(v)v),M(t)=MT(t)>0表示包含附加质量的惯性矩阵,C(v)表示斜对称矩阵,D(v)表示阻尼矩阵;
S13、设定无人水面船的期望轨迹数学模型,如下所示:
Figure BDA0002815100450000025
其中,xd=[ηd T,vd T]Td=[xd,ydd]T和νd=[ud,vd,rd]T分别表示无人水面船跟踪的期望位置向量及速度向量。
进一步地,所述步骤S2中,引入有限时间控制理论具体包括:
定义1:若存在和一个稳定时间ρ>0和一个稳定时间T(ρ,e0)<∞使得对所有的t≥t0+T来说满足||e||<ρ,那么非线性系统的平衡状态e=0是半全局有限时间稳定的;
定理1:在控制系统中,存在两个状态变量a和b,并且存在三个正定的常数c,d,e,满足下面的方程式:
Figure BDA0002815100450000031
定理2:考虑到无人船系统,如果存在一个正定函数J(e)和常数c>0,0<λ<1,Π>0满足以下的方程式,无人船系统是半全局有限时间稳定的:
J(e)≤-cJλ(e)+Π。
进一步地,所述步骤S3具体包括:
S31、构建无人船系统的动态方程:
Figure BDA0002815100450000032
S32、定义系统的代价函数为:
Figure BDA0002815100450000033
其中,Q(e)=eTqe,
Figure BDA0002815100450000034
λ>0是折扣因子,U(τ)是正定的函数,表示如下:
Figure BDA0002815100450000035
其中,
Figure BDA0002815100450000036
δi>0,Φ=diag(Φ123),
Figure BDA0002815100450000037
是一个有界函数并且满足|tanh(·)|≤1与tanh(0)=0;
S33、根据Leibniz规则和系统方程进行求导,Bellman方程如下:
Figure BDA0002815100450000038
即可以得出:
Figure BDA0002815100450000039
则哈密尔顿方程可以写为:
Figure BDA00028151004500000310
其中,
Figure BDA00028151004500000311
并且最优的消耗函数可以被写为:
Figure BDA00028151004500000312
因此最优的哈密尔顿方程可以被写为:
Figure BDA00028151004500000313
S34、通过求解
Figure BDA00028151004500000314
得到最优控制率为:
Figure BDA00028151004500000315
进一步地,所述步骤S4具体包括:
S41、根据前馈神经网络的全局逼近特性,定义最优消耗函数,如下:
Figure BDA0002815100450000041
其中,
Figure BDA0002815100450000042
是评判器神经网络理想的权重向量,N是神经元的个数,
Figure BDA0002815100450000043
表示神经网络输入向量基函数,
Figure BDA0002815100450000044
是有界神经网络函数逼近误差;
V*对于e的导数为:
Figure BDA0002815100450000045
S42、给出任何强化区间T>0,由评判器神经网络估计消耗函数,因此考虑贝尔曼误差方程如下:
Figure BDA0002815100450000046
其中,
Figure BDA0002815100450000047
S43、设计成本函数的逼近函数,如下:
Figure BDA0002815100450000048
则积分型强化学习的贝尔曼误差方程如下:
Figure BDA0002815100450000049
S44、考虑目标函数
Figure BDA00028151004500000410
采用梯度下降法得到
Figure BDA00028151004500000411
Figure BDA00028151004500000412
其中,αc是正定矩阵;
S45、采用强化学习最优追踪控制,最优控制策略如下:
Figure BDA00028151004500000413
其中,
Figure BDA00028151004500000414
是理想权重
Figure BDA00028151004500000415
的估计,执行者自适应率如下:
Figure BDA00028151004500000416
其中,αa是正定矩阵,l是设计的参数;
Figure BDA00028151004500000417
Figure BDA00028151004500000418
较现有技术相比,本发明具有以下优点:
本发明提供的带有输入限制的未知无人船有限时间强化学习控制方法,考虑控制器存在输入饱和限制,当外界干扰过大时,控制器不会因为输入饱和特性使得跟踪效果变差,当需要提高系统的控制性能而对系统的指定性能进行设计时,就需要用到指定性能的控制方法,使得系统的暂态性能得到保证,更加具有实际工程意义。
基于上述理由本发明可在强化学习与水面无人船的轨迹跟踪等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图。
图2为本发明实施例提供的无人船位置跟踪图。
图3为本发明实施例提供的无人船速度跟踪图。
图4为本发明实施例提供的无人船位置误差图。
图5为本发明实施例提供的无人船速度误差图。
图6为本发明实施例提供的无人船轨迹跟踪图。
图7为本发明实施例提供的评论家神经网络权重更新图。
图8为本发明实施例提供的演员神经网络权重更新图。
图9为本发明实施例提供的无人船控制律图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本发明提供了一种带有输入限制的未知无人船有限时间强化学习控制方法,包括如下步骤:
S1、建立无人水面船数学模型,设定无人水面船的期望轨迹数学模型;
具体实施时,作为本发明优选的实施方式,所述步骤S1具体包括:
S11、定义两个坐标系,分别为北东坐标系OXY和附体坐标系ObXbYb
S12、对无人水面船进行建模,得到如下船舶运动控制数学模型:
Figure BDA0002815100450000061
Figure BDA0002815100450000062
其中,η=[x,y,ψ]T表示北东坐标系下的船舶位置向量,x、y表示无人水面船运动的北东位置,ψ∈[0,2π]表示艏摇角;R(ψ)表示地球坐标系和船体坐标系之间的转换矩阵;
Figure BDA0002815100450000063
ν=[u,v,r]T表示附体坐标系下无人水面船运动的速度向量,u、v、r分别表示其纵荡速度、横荡速度、艏摇速度;τ′=M-1τ,
Figure BDA0002815100450000064
表示包含附加质量的惯性矩阵;τ=[τuvr]T表示船舶控制输入向量,τu、τv、τr分别表示纵荡控制力、横荡控制力、艏摇控制力;f(v)表示系统动态向量,f(v)=-M-1(C(v)v+D(v)v),M(t)=MT(t)>0表示包含附加质量的惯性矩阵,C(v)表示斜对称矩阵,D(v)表示阻尼矩阵;
S13、设定无人水面船的期望轨迹数学模型,如下所示:
Figure BDA0002815100450000071
其中,xd=[ηd T,vd T]Td=[xd,ydd]T和νd=[ud,vd,rd]T分别表示无人水面船跟踪的期望位置向量及速度向量。
S2、基于设定的所述期望轨迹数学模型,引入有限时间控制理论;
具体实施时,作为本发明优选的实施方式,所述步骤S2中,引入有限时间控制理论具体包括:
定义1:若存在和一个稳定时间ρ>0和一个稳定时间T(ρ,e0)<∞使得对所有的t≥t0+T来说满足||e||<ρ,那么非线性系统的平衡状态e=0是半全局有限时间稳定的;
定理1:在控制系统中,存在两个状态变量a和b,并且存在三个正定的常数c,d,e,满足下面的方程式:
Figure BDA0002815100450000072
定理2:考虑到无人船系统,如果存在一个正定函数J(e)和常数c>0,0<λ<1,Π>0满足以下的方程式,无人船系统是半全局有限时间稳定的:
J(e)≤-cJλ(e)+Π。
S3、基于引入有限时间控制函数的所述期望轨迹数学模型,设计无人船有限时间轨迹跟踪最优控制器;
具体实施时,作为本发明优选的实施方式,所述步骤S3具体包括:
S31、构建无人船系统的动态方程:
Figure BDA0002815100450000073
S32、定义系统的代价函数为:
Figure BDA0002815100450000074
其中,Q(e)=eTqe,
Figure BDA0002815100450000075
λ>0是折扣因子,U(τ)是正定的函数,表示如下:
Figure BDA0002815100450000076
其中,
Figure BDA0002815100450000077
δi>0,Φ=diag(Φ123),
Figure BDA0002815100450000078
是一个有界函数并且满足|tanh(·)|≤1与tanh(0)=0;其保留了一个很好的性质就是它是一个单调的奇函数并且他的一阶导数是有界的。
S33、根据Leibniz规则和系统方程进行求导,Bellman方程如下:
Figure BDA0002815100450000081
即可以得出:
Figure BDA0002815100450000082
则哈密尔顿方程可以写为:
Figure BDA0002815100450000083
其中,
Figure BDA0002815100450000084
并且最优的消耗函数可以被写为:
Figure BDA0002815100450000085
因此最优的哈密尔顿方程可以被写为:
Figure BDA0002815100450000086
S34、通过求解
Figure BDA0002815100450000087
得到最优控制率为:
Figure BDA0002815100450000088
S4、基于设计的无人船有限时间轨迹跟踪最优控制器,进一步设计评判器和执行器的神经网络权重更新率。
具体实施时,作为本发明优选的实施方式,所述步骤S4具体包括:
S41、根据前馈神经网络的全局逼近特性,定义最优消耗函数,如下:
Figure BDA0002815100450000089
其中,
Figure BDA00028151004500000810
是评判器神经网络理想的权重向量,N是神经元的个数,
Figure BDA00028151004500000811
表示神经网络输入向量基函数,
Figure BDA00028151004500000812
是有界神经网络函数逼近误差;
V*对于e的导数为:
Figure BDA00028151004500000813
S42、给出任何强化区间T>0,由评判器神经网络估计消耗函数,因此考虑贝尔曼误差方程如下:
Figure BDA00028151004500000814
其中,
Figure BDA00028151004500000815
S43、设计成本函数的逼近函数,如下:
Figure BDA0002815100450000091
则积分型强化学习的贝尔曼误差方程如下:
Figure BDA0002815100450000092
S44、考虑目标函数
Figure BDA0002815100450000093
采用梯度下降法得到
Figure BDA0002815100450000094
Figure BDA0002815100450000095
其中,αc是正定矩阵;
S45、由于代价函数的梯度未知,理想最优控制策略并不能获得,因此实际最优控制策略通过逼近未知理想权重获得。最终执行器和评判器的实际估计可以通过执行和评判器神经网络同时更新。采用强化学习最优追踪控制,最优控制策略如下:
Figure BDA0002815100450000096
其中,
Figure BDA0002815100450000097
是理想权重
Figure BDA0002815100450000098
的估计,执行者自适应率如下:
Figure BDA0002815100450000099
其中,αa是正定矩阵,l是设计的参数;
Figure BDA00028151004500000910
Figure BDA00028151004500000911
为了验证本发明方法的有效性,进行了仿真实验,从附图2-9可以看出本发明方法跟踪的优越性,图2为无人船位置跟踪图,可以看出船舶在有限时间跟踪上参考轨迹;图3为速度跟踪图,可见虽然前期的速度有波动,但是在有限时间内也达到跟踪效果。图4和图5分别是位置误差与速度误差,从这两个误差图中可以看出误差最终在0附近波动,可以满足无人船系统良好的跟踪效果。图6为船舶的旋转仿真实验,船舶的参考轨迹为一个圆,可以看出跟踪效果很好。图7和图8为评论家权重与演员权重更新示意图,可见船舶在短时间内进行训练然后达到稳定,达到跟踪效果;图9为船舶跟踪控制律,可见船舶所设计的控制器满足有限时间的要求。达到了很好的控制效果。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (2)

1.一种带有输入限制的未知无人船有限时间强化学习控制方法,其特征在于,包括如下步骤:
S1、建立无人水面船数学模型,设定无人水面船的期望轨迹数学模型;
S2、基于设定的所述期望轨迹数学模型,引入有限时间控制理论;
所述步骤S2中,引入有限时间控制理论具体包括:
定义1:若存在和一个稳定时间ρ>0和一个稳定时间T(ρ,e0)<∞使得对所有的t≥t0+T来说满足||e||<ρ,那么非线性系统的平衡状态e=0是半全局有限时间稳定的;
定理1:在控制系统中,存在两个状态变量a和b,并且存在三个正定的常数c,d,e,满足下面的方程式:
Figure FDA0003751868850000011
定理2:考虑到无人船系统,如果存在一个正定函数J(e)和常数c>0,0<λ<1,Π>0满足以下的方程式,无人船系统是半全局有限时间稳定的:
J(e)≤-cJλ(e)+Π;
S3、基于引入有限时间控制函数的所述期望轨迹数学模型,设计无人船有限时间轨迹跟踪最优控制器;
所述步骤S3具体包括:
S31、构建无人船系统的动态方程:
Figure FDA0003751868850000012
S32、定义系统的代价函数为:
Figure FDA0003751868850000013
其中,Q(e)=eTqe,
Figure FDA0003751868850000014
λ>0是折扣因子,U(τ)是正定的函数,表示如下:
Figure FDA0003751868850000015
其中,
Figure FDA0003751868850000016
δi>0,Φ=diag(Φ123),
Figure FDA0003751868850000017
是一个有界函数并且满足|tanh(·)|≤1与tanh(0)=0;
S33、根据Leibniz规则和系统方程进行求导,Bellman方程如下:
Figure FDA0003751868850000021
即可以得出:
Figure FDA0003751868850000022
则哈密尔顿方程可以写为:
Figure FDA0003751868850000023
其中,
Figure FDA0003751868850000024
并且最优的消耗函数可以被写为:
Figure FDA0003751868850000025
因此最优的哈密尔顿方程可以被写为:
Figure FDA0003751868850000026
S34、通过求解
Figure FDA0003751868850000027
得到最优控制率为:
Figure FDA0003751868850000028
S4、基于设计的无人船有限时间轨迹跟踪最优控制器,进一步设计评判器和执行器的神经网络权重更新率;
所述步骤S4具体包括:
S41、根据前馈神经网络的全局逼近特性,定义最优消耗函数,如下:
Figure FDA0003751868850000029
其中,
Figure FDA00037518688500000210
是评判器神经网络理想的权重向量,N是神经元的个数,
Figure FDA00037518688500000211
表示神经网络输入向量基函数,
Figure FDA00037518688500000212
是有界神经网络函数逼近误差;
V*对于e的导数为:
Figure FDA00037518688500000213
S42、给出任何强化区间T>0,由评判器神经网络估计消耗函数,因此考虑贝尔曼误差方程如下:
Figure FDA00037518688500000214
其中,
Figure FDA00037518688500000215
S43、设计成本函数的逼近函数,如下:
Figure FDA00037518688500000216
则积分型强化学习的贝尔曼误差方程如下:
Figure FDA0003751868850000031
S44、考虑目标函数
Figure FDA0003751868850000032
采用梯度下降法得到
Figure FDA0003751868850000033
Figure FDA0003751868850000034
其中,αc是正定矩阵;
S45、采用强化学习最优追踪控制,最优控制策略如下:
Figure FDA0003751868850000035
其中,
Figure FDA0003751868850000036
是理想权重
Figure FDA0003751868850000037
的估计,执行者自适应率如下:
Figure FDA0003751868850000038
其中,αa是正定矩阵,l是设计的参数;
Figure FDA0003751868850000039
Figure FDA00037518688500000310
2.根据权利要求1所述的带有输入限制的未知无人船有限时间强化学习控制方法,其特征在于,所述步骤S1具体包括:
S11、定义两个坐标系,分别为北东坐标系OXY和附体坐标系ObXbYb
S12、对无人水面船进行建模,得到如下船舶运动控制数学模型:
Figure FDA00037518688500000311
Figure FDA00037518688500000312
其中,η=[x,y,ψ]T表示北东坐标系下的船舶位置向量,x、y表示无人水面船运动的北东位置,ψ∈[0,2π]表示艏摇角;R(ψ)表示地球坐标系和船体坐标系之间的转换矩阵;
Figure FDA00037518688500000313
ν=[u,v,r]T表示附体坐标系下无人水面船运动的速度向量,u、v、r分别表示其纵荡速度、横荡速度、艏摇速度;τ′=M-1τ,M(t)=MT(t)>0,其中
Figure FDA00037518688500000314
表示包含附加质量的惯性矩阵;τ=[τuvr]T表示船舶控制输入向量,τu、τv、τr分别表示纵荡控制力、横荡控制力、艏摇控制力;f(v)表示系统动态向量,f(v)=-M-1(C(v)v+D(v)v),其中C(v)表示斜对称矩阵,D(v)表示阻尼矩阵;
S13、设定无人水面船的期望轨迹数学模型,如下所示:
Figure FDA0003751868850000041
其中,xd=[ηd T,vd T]Td=[xd,ydd]T和νd=[ud,vd,rd]T分别表示无人水面船跟踪的期望位置向量及速度向量。
CN202011414640.9A 2020-12-03 2020-12-03 一种带有输入限制的未知无人船有限时间强化学习控制方法 Active CN112558465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011414640.9A CN112558465B (zh) 2020-12-03 2020-12-03 一种带有输入限制的未知无人船有限时间强化学习控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011414640.9A CN112558465B (zh) 2020-12-03 2020-12-03 一种带有输入限制的未知无人船有限时间强化学习控制方法

Publications (2)

Publication Number Publication Date
CN112558465A CN112558465A (zh) 2021-03-26
CN112558465B true CN112558465B (zh) 2022-11-01

Family

ID=75059049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011414640.9A Active CN112558465B (zh) 2020-12-03 2020-12-03 一种带有输入限制的未知无人船有限时间强化学习控制方法

Country Status (1)

Country Link
CN (1) CN112558465B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113534668B (zh) * 2021-08-13 2022-06-10 哈尔滨工程大学 基于最大熵的演员-评论家框架的auv运动规划方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321B (zh) * 2018-05-30 2020-07-10 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN108828955B (zh) * 2018-08-16 2021-03-16 大连海事大学 基于有限时间扩张状态观测器的精准航迹跟踪控制方法
CN109101035B (zh) * 2018-09-13 2021-06-11 西北工业大学 一种用于高空滑翔uuv纵平面弹道控制的方法
CN110018687B (zh) * 2019-04-09 2022-03-04 大连海事大学 基于强化学习方法的无人水面船最优轨迹跟踪控制方法
CN110472738A (zh) * 2019-08-16 2019-11-19 北京理工大学 一种基于深度强化学习的无人艇实时避障算法
CN110597058B (zh) * 2019-08-28 2022-06-17 浙江工业大学 一种基于增强学习的三自由度自主水下航行器控制方法
CN111240344B (zh) * 2020-02-11 2023-04-07 哈尔滨工程大学 基于强化学习技术的自主水下机器人无模型控制方法
CN111580387B (zh) * 2020-04-14 2022-09-13 集美大学 一种基于时滞分数阶船舶运动自适应滑模控制方法及系统
CN111679585B (zh) * 2020-07-03 2022-08-26 大连海事大学 一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法
CN112015086B (zh) * 2020-08-05 2022-04-26 山东科技大学 一种欠驱动水面船有限时间路径跟踪输出反馈控制方法

Also Published As

Publication number Publication date
CN112558465A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN110018687B (zh) 基于强化学习方法的无人水面船最优轨迹跟踪控制方法
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
Woo et al. Dynamic model identification of unmanned surface vehicles using deep learning network
CN111679585B (zh) 一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法
CN108008628B (zh) 一种不确定欠驱动无人艇系统的预设性能控制方法
Qin et al. Adaptive trajectory tracking algorithm of unmanned surface vessel based on anti-windup compensator with full-state constraints
CN111308890B (zh) 一种带有指定性能的无人船数据驱动强化学习控制方法
CN108319140B (zh) 一种重定义输出式无模型自适应航向控制方法及系统
Jiang et al. Identification modeling and prediction of ship maneuvering motion based on LSTM deep neural network
Dai et al. Learning from adaptive neural network output feedback control of uncertain ocean surface ship dynamics
Hao et al. Recurrent neural networks for nonparametric modeling of ship maneuvering motion
CN112650233B (zh) 无人船轨迹跟踪最优控制方法
CN114115262B (zh) 基于方位角信息的多auv执行器饱和协同编队控制系统和方法
CN111880546A (zh) 一种基于自适应动态规划算法的虚拟引导船舶自动靠泊控制方法
CN112558465B (zh) 一种带有输入限制的未知无人船有限时间强化学习控制方法
Gao et al. Online optimal control for dynamic positioning of vessels via time-based adaptive dynamic programming
CN113848887A (zh) 一种基于mlp方法的欠驱动无人艇轨迹跟踪控制方法
Li et al. Adaptive reinforcement learning fault-tolerant control for AUVs with thruster faults based on the integral extended state observer
Tong An adaptive error constraint line-of-sight guidance and finite-time backstepping control for unmanned surface vehicles
Baier et al. Hybrid physics and deep learning model for interpretable vehicle state prediction
He et al. Black-box modeling of ship maneuvering motion using system identification method based on BP neural network
CN116088309B (zh) 一种基于故障辨识的水面船复合学习容错控制方法
Ye et al. A modified predictive PID controller for dynamic positioning of vessels with autoregressive model
CN112327638B (zh) 一种具有指定性能并带有输入饱和限制的无人船轨迹跟踪最优控制方法
CN111538341A (zh) 基于宽度学习自适应动态规划的船舶动力定位优化控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant