CN110018687A - 基于强化学习方法的无人水面船最优轨迹跟踪控制方法 - Google Patents

基于强化学习方法的无人水面船最优轨迹跟踪控制方法 Download PDF

Info

Publication number
CN110018687A
CN110018687A CN201910281332.4A CN201910281332A CN110018687A CN 110018687 A CN110018687 A CN 110018687A CN 201910281332 A CN201910281332 A CN 201910281332A CN 110018687 A CN110018687 A CN 110018687A
Authority
CN
China
Prior art keywords
water surface
unmanned water
optimal
control
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910281332.4A
Other languages
English (en)
Other versions
CN110018687B (zh
Inventor
王宁
高颖
李贺
杨忱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN201910281332.4A priority Critical patent/CN110018687B/zh
Publication of CN110018687A publication Critical patent/CN110018687A/zh
Application granted granted Critical
Publication of CN110018687B publication Critical patent/CN110018687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种基于强化学习方法的无人水面船最优轨迹跟踪控制方法,包括以下步骤:S1:建立无人水面船系统数学模型以及不考虑扰动情况的期望轨迹系统数学模型;S2:建立死区数学模型,得到引入死区的无人水面船系统数学模型;进一步得到跟踪误差系统;S3:建立辨识器系统;S4:通过最优代价函数评判控制策略是否符合要求:若符合,则将该控制策略输出至无人水面船系统作为最优控制策略;若不符合,通过最优代价函数评判重新生成的控制策略是否符合要求,重复上述过程直至得到最优控制策略输出至无人水面船系统。本发明解决了现有无人船最优控制方法没有考虑带有死区或完全未知系统动态,控制系统的精确性和鲁棒性降低的技术问题。

Description

基于强化学习方法的无人水面船最优轨迹跟踪控制方法
技术领域
本发明涉及船舶控制工程与船舶自动化航行领域,具体而言,尤其涉及一种基于强化学习方法的无人水面船最优轨迹跟踪控制方法。
背景技术
目前,在船舶轨迹跟踪控制领域,所设计的控制方法使无人船实现高精度轨迹跟踪是研究的核心内容。它不仅能够使无人水面船安全有效的运行,而且可以增强其鲁棒性,精确稳定地完成既定任务。常见的无人船跟踪控制算法有PID、滑模、神经网络等。
无人水面船轨迹跟踪控制系统是典型的非线性控制系统。对于非线性控制系统优化控制问题的传统解决办法是求解汉密尔顿—雅可比—贝尔曼(HJB)方程。针对HJB方程非线性全微分方程问题,文献(1)中Bellman 设计了动态规划(DP)优化控制算法,算法中无法克服非线性系统维数增加的问题,其后期文献(2)提出了基于强化学习的最优控制方法,该算法利用神经网络对DP指标函数和控制策略进行逼近,满足最优性原则,从而得到最优控制方法和最优性能指标函数,并避免了高维数的问题。根据已有的方法,文献(3)提出了一种基于迭代的执行器神经网络和评判器神经网络结构的在线自适应算法,该算法能够实现执行器神经网络和评判器神经网络同步的更新。文献(4)针对复杂的工业过程所导致的系统不确定性,通过评判器神经网络和在线策略迭代等方法设计了克服系统不确定性的最优控制方法。为了解决无人水面船轨迹跟踪问题,文献(5) 和文献(6)结合反步递推方法和策略迭代方法,提出了基于强化学习的跟踪最优控制算法。
随着上述控制算法从理论逐渐向实际转化,系统的未知动态是必须考虑的重要问题。文献(7)中,利用执行器神经网络、评判器神经网络和辨识器连续性和同步性优势,提出了执行器神经网络-评判器神经网络-辨识器(Actor-Critic-Identifier,简称ACI)辨识未知系统动态逼近HJB方程的算法。文献(8)通过积分强化学习技术和增广系统,在系统动态部分未知并且控制输入受限的情况下,提出了连续时间的最优跟踪控制算法。文献(9)基于数据驱动的自适应评判器神经网络框架,利用神经网络对未知系统辨识,提出了一类连续时间不确定非线性系统的鲁棒最优控制方法。文献(10)结合水面无人船的实际应用,在船体质量和惯性参数均未知的情况下,提出了一种自适应模糊跟踪控制算法。
执行器含有死区会严重降低系统的性能、精度,甚至会破坏系统的稳定性。文献(11)引入了径向基神经网络来逼近执行器中的未知死区,并针对含有未知机器臂动态的不确定系统,提出了有效的控制方法同时消除系统振动。文献(12)将未知死区分为输入相关函数和时变有界函数,并将其作为系统不确定性进行处理,该控制方法有效补偿了未知死区对无人水面船的影响。文献(13)结合反步法和自适应动态面技术,解决高超声速飞行器系统,同时保证了被控系统的稳定性和收敛性,在未知死区情况下,利用Nussbaum函数处理执行器中未知死区的问题。
基于以上分析,现有方法在解决无人水面船轨迹跟踪问题时,鲜有学者考虑强化学习的先进方法,现有系统缺乏对于环境的适应性和容错性,难以保证其运行的鲁棒性。现有基于强化学习方法所提出的最优控制方法主要解决系统状态已知的非线性系统的最优控制,鲜有学者考虑带有死区或完全未知系统动态等情况下的无人水面船控制问题,从而导致实际控制系统的精确性和鲁棒性降低。
参考文献如下:
文献1:R.E.GBellman,Dynamic programming,New Jersey by PrincetonUniversity Press,1957;
文献2:P.J.Werbos,“Approximate dynamic programming for real-timecontrol and neural modeling,”In Handbook of intelligent control,D.A. Whiteand D.A.Sofge,Eds.New York:Van Nostrand Reinhold,1992;
文献3:K.Vamvoudakis,D.Vrabie and F.Lewis,“Online policy iterationbased algorithms to solve the continuous-time infinite horizon optimalcontrol problem,”Proc.IEEE Symp.ADPRL,2009;
文献4:D.Wang,D.R.Liu and H.L.Li,“Policy iteration algorithm foronline design of robust control for a class of continuous-time nonlinearsystems,”IEEE Trans.Autom.Sci.Eng.,vol.11,no.2,pp.627-632,2014;
文献5:G.X.Wen,S.S.Ge,C.L.P.Chen,F.W.Tu and S.N.Wang, “Adaptivetracking control of surface vessel using optimized backstepping technique,”IEEE Trans.Cybern.,to be published;
文献6:Z.Yin,W.He,C.G.Yang and C.Y.Sun,“Control design of a marinevessel system using reinforcement learning,”Neurocomputing,vol. 311,pp.353-362,2018;
文献7:S.Bhasin,R.Kamalapurkar,M.Johnson,K.Vamvoudakis,F. Lewis andW.Dixon,“A novel actor-Ccritic-Cidentifier architecture for approximateoptimal control of uncertain nonlinear systems,”Automatica,vol. 49,no.1,pp.82-92,2013;
文献8:H.Modares and F.L.Lewis,“Optimal tracking control of nonlinearpartially-unknown constrained-input systems using integral reinforcementlearning,”Automatica,vol.50,no.7,pp.1780-1792,2014;
文献9:X.Yang,D.R.Liu and D.Wang,“Reinforcement learning for adaptiveoptimal control of unknown continuous-time nonlinear systems with inputconstraints,”Int.J.Control,vol.87,no.3,pp.553-566,2014;
文献10:N.Wang and M.J.Er,“Direct adaptive fuzzy tracking control ofmarine vehicle with fully unknown parametric dynamics and uncertainties,”IEEE Trans.Contr.Syst.Technol.,vol.24,no.5,pp.1845-1852,2016;
文献11:W.He,Y.C.Ouyang and J.Hong,“Vibration control of a flexiblerobotic manipulator in the presence of input deadzone,”IEEE Trans.Ind.Inform.,vol.13,no.1,pp.48-59,2017;
文献12:N.Wang,Y.Gao,Z.Sun and Z.J.Zheng,“Nussbaum-based adaptivefuzzy tracking control of unmanned surface vehicles with fully unknowndynamics and complex input nonlinearities,”Int.J.Fuzzy Syst.,vol. 20,no.1,pp.259-268,2018;
文献13:B.Xu,“Robust adaptive neural control of flexible hypersonicflight vehicle with dead-zone input nonlinearity,”Nonlinear Dyn.,vol.80,no.3,pp.1509-1520,2015。
发明内容
根据上述提出现有基于强化学习方法所提出的最优控制方法主要解决系统状态已知的非线性系统的最优控制,没有考虑带有死区或完全未知系统动态等情况下的无人水面船控制问题,从而导致实际控制系统的精确性和鲁棒性降低的技术问题,而提供一种基于强化学习方法的无人水面船最优轨迹跟踪控制方法。本发明主要通过在无人水面船系统中引入死区,能提高轨迹跟踪控制系统的操纵精确性和鲁棒性。
本发明采用的技术手段如下:
基于强化学习方法的无人水面船最优轨迹跟踪控制方法,包括以下步骤:
S1:建立无人水面船系统数学模型M1以及不考虑扰动情况的期望轨迹系统数学模型M2;
定义北东坐标系OX0Y0Z0和附体坐标系BXYZ;北东坐标系OX0Y0Z0视作惯性坐标系,取地球任一点O为坐标原点,OX0指向正北,OY0指向正东,OZ0指向地球球心;附体坐标系BXYZ视作非惯性坐标系,当船舶左右对称时,取其中心为坐标原点B,BX轴沿着船舶中线指向船艏方向,BY轴垂直指向右舷,BZ轴沿XY平面垂直指向下;
无人水面船系统数学模型M1表示为:
其中:
η=[x,y,ψ]T表示北东坐标系下的无人水面船位置向量,x、y表示无人水面船运动的北东位置,ψ∈[0,2π]表示艏摇角;
ν=[u,v,r]T表示附体坐标系下无人水面船运动的速度向量,u、v、r分别表示其纵荡速度、横荡速度、艏摇速度;
τ'(u)=[τ(uu),τ(uv),τ(ur)]T表示带有未知非线性的控制输入;
f(η,v)表示系统不确定性,包含了未知的Coriolis矩阵、阻尼矩阵和未建模动态;
R(ψ)表示地球坐标系和船体坐标系之间的转换矩阵;
用于产生无人水面船期望轨迹的期望轨迹系统数学模型M2表示为:
其中:
χd=[ηd T,vd T]T,ηd=[xd,ydd]T和νd=[ud,vd,rd]T分别是无人水面船跟踪的期望位置向量及期望速度向量;
S2:建立死区数学模型τ:
τ=βu+h (3)
其中:
u=[uu,uv,ur]T表示系统控制输入,并且|ui|≤δi,i=u,v,r,δi是三个方向力矩的上界;β表示死区的斜率并满足0<βmin<β<βmax,βmin和βmax为根据需要设定的已知参数;参数h=[hu,hv,hr]T满足如下条件:
其中:
bli=[blu,blv,blr]T和bri=[bru,brv,brr]T表示输入非线性的左端点和右端点;
将死区数学模型代入至M1中得到引入死区的无人水面船系统数学模型M1’:
对M1’与M2做差,得到跟踪误差系统E:
其中:
e=[ηe T,ve T]T,ηe=η-ηd,ve=v-vd,以及ηe=[ηe,xe,ye,ψ]T,ve=[ve,u,ve,v,ve,r]T,F(e)=[ve TRT(ψ),(M-1h)T+(M-1f(η,v))T-fd Td,vd)]T,G(e)=[03*3,βM-1]T; M(t)=MT(t)>0表示包含附加质量的惯性矩阵;F(e)和G(e)是含有未知结构的非线性方程;A是严格的Huwriz矩阵满足 a是一个正的常数,是建模时根据需要自定义的正定矩阵;
S3:建立非线性未知系统的辨识器系统;
构建分别对应F(e)和G(e)的RBFNN逼近器:
其中:输入向量Wf、Wg分别是F(e)、G(e) 神经网络权重,表示基函数,满足:
其中,神经网络节点数为l>1;
在集合范围内,利用F(e)和G(e)的逼近器来逼近未知动态F(e) 和G(e):
其中:输入向量 是神经网络的逼近误差;分别是G(e)理想的神经网络权重;
将公式(10a)和(10b)代入期望误差系统E后得到:
其中:
构建用于观测未知动态的观测器模型,将无人水面船系统的控制策略输入观测器得到辨识后的状态,观测器模型表示为:
其中:
是观测器状态,分别是Wf和Wg的估计,是理想逼近误差的估计;
为期望误差系统E设计权重更新率,从而保证所有辨识器的系统状态有界,根据观测误差,通过稳定性分析得到当t→∞时观测误差可以趋近于零,所以当t→∞时 趋近于常数;权重更新率表示为:
其中:Λf,Λg和Λε是设计矩阵;umax=[δuvr]T,P是正定矩阵;
S4:根据辨识后的状态建立用于评判控制策略的最优代价函数:
其中:
q∈R6×6,μ∈R3,k是正的参数,Φ∈R3×3满足Φ=diag(Φ123)>0,tanh(·)具有单调奇函数的特性,并且其一阶导数有界;
根据最优代价函数构造HJB方程,并根据HJB方程求出控制策略:
根据得到控制策略如下:
根据前馈神经网络的全局逼近特性,最优代价函数表示成如下形式:
其中:
是代价函数神经网络理想的权重向量,N是神经元的个数,表示神经网络输入向量基函数,是有界神经网络函数逼近误差;
设计最优代价函数的逼近函数如下式所示:
其中:
的估计;
将式(19)代入式(16)得到HJB方程的逼近形式:
为获得最小的值,定义一个Bellman误差方程,如下式所示:
其中:
通过使用梯度下降算法,得到最优代价函数神经网络权重更新率如下式所示:
其中:
Γc是一个正定矩阵;
引入独立权重获得最优控制策略如下:
其中:
表示期望权重的逼近值;
根据公式(23),最优代价函数的自适应律可以更新为
同样,通过最小化Bellman误差,最优控制策略自适应律设计成如下形式:
其中:
通过最优代价函数评判控制策略是否符合公式(23)的要求:
若符合,则将该控制策略输出至无人水面船系统作为最优控制策略;
若不符合,则重新生成控制策略并通过最优代价函数评判重新生成的控制策略是否符合公式(23)的要求,重复上述过程直至得到最优控制策略输出至无人水面船系统。
与现有技术相比,本发明具有以下有益效果:
1、本发明提供的基于强化学习方法的无人水面船最优轨迹跟踪控制方法,考虑到实际无人船系统会存在未知死区和系统状态完全未知的情况,本发明中无人船数学模型引入未知死区和完全未知系统动态参数,具备更强的实际应用价值,能够在存在复杂干扰的情况下,增强系统的鲁棒性、精确性和稳定性。
2、本发明提供的基于强化学习方法的无人水面船最优轨迹跟踪控制方法,将基于强化学习方法的最优控制方法用到无人船的轨迹跟踪问题中,在系统状态未知的情况下,可以实现控制策略和代价函数同时更新,得到被控系统的最优控制策略,改善了以往控制算法的收敛性能,明显提高了无人船系统在未知环境下运行的适应性和可靠性。
综上,应用本发明的技术方案在无人水面船系统中引入死区,能提高轨迹跟踪控制系统的操纵精确性和鲁棒性。因此,本发明的技术方案解决了现有基于强化学习方法所提出的最优控制方法主要解决系统状态已知的非线性系统的最优控制,没有考虑带有死区或完全未知系统动态等情况下的无人水面船控制问题,从而导致实际控制系统的精确性和鲁棒性降低的技术问题。
基于上述理由本发明可在船舶控制工程与船舶自动化航行等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是无人水面船模型及坐标系示意图。
图2是本发明所述无人水面船最优轨迹跟踪控制方法逻辑执行框架图。
图3是在线学习未知系统的辨识误差曲线。
图4是无人水面船的期望和实际轨迹示意图。
图5是期望和实际轨迹在附体坐标系下x轴方向的变化曲线。
图6是期望和实际轨迹在附体坐标系下y轴方向的变化曲线。
图7是附体坐标系下期望和实际艏向角的变化曲线。
图8是期望和实际的纵荡速度曲线。
图9是期望和实际的横荡速度曲线。
图10是期望和实际的艏摇速度曲线。
图11是最优代价函数神经网络权重收敛性示意图。
图12是最优控制策略神经网络权重收敛性示意图。
图13是纵荡速度对应的控制输入曲线。
图14是横荡速度对应的控制输入曲线。
图15艏摇速度对应的控制输入曲线。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
强化学习技术的基本原理是:如果被控系统的某个状态,得到环境“正”的奖赏,即为强化信号,则系统以后的每个动作的趋势便会加强;反之系统产生这个状态的趋势减弱。因此,强化学习的目标是学习一个行为策略,使得系统输出的状态能够获得环境最大的奖赏。在一个标准的强化学习框架结构中,它主要有四个要素,即策略(policy)、奖惩反馈(reward)、代价函数(cost function)和环境模型(model of environment)。
如图1-2所示,本发明提供了一种基于强化学习方法的无人水面船最优轨迹跟踪控制方法,包括以下步骤:
S1:建立无人水面船系统数学模型M1以及不考虑扰动情况的期望轨迹系统数学模型M2;
定义北东坐标系OX0Y0Z0和附体坐标系BXYZ;北东坐标系OX0Y0Z0视作惯性坐标系,取地球任一点O为坐标原点,OX0指向正北,OY0指向正东,OZ0指向地球球心;附体坐标系BXYZ视作非惯性坐标系,当船舶左右对称时,取其中心为坐标原点B,BX轴沿着船舶中线指向船艏方向,BY轴垂直指向右舷,BZ轴沿XY平面垂直指向下;
无人水面船系统数学模型M1表示为:
其中:
η=[x,y,ψ]T表示北东坐标系下的无人水面船位置向量,x、y表示无人水面船运动的北东位置,ψ∈[0,2π]表示艏摇角;
ν=[u,v,r]T表示附体坐标系下无人水面船运动的速度向量,u、v、r分别表示其纵荡速度、横荡速度、艏摇速度;
τ'(u)=[τ(uu),τ(uv),τ(ur)]T表示带有未知非线性的控制输入;
f(η,v)表示系统不确定性,包含了未知的Coriolis矩阵、阻尼矩阵和未建模动态;
R(ψ)表示地球坐标系和船体坐标系之间的转换矩阵;
用于产生无人水面船期望轨迹的期望轨迹系统数学模型M2表示为:
其中:
χd=[ηd T,vd T]T,ηd=[xd,ydd]T和νd=[ud,vd,rd]T分别是无人水面船跟踪的期望位置向量及期望速度向量;
S2:建立死区数学模型τ:
τ=βu+h (3)
其中:
u=[uu,uv,ur]T表示系统控制输入,并且|ui|≤δi,i=u,v,r,δi是三个方向力矩的上界;β表示死区的斜率并满足0<βmin<β<βmax,βmin和βmax为根据需要设定的已知参数;参数h=[hu,hv,hr]T满足如下条件:
其中:
bli=[blu,blv,blr]T和bri=[bru,brv,brr]T表示输入非线性的左端点和右端点;
将死区数学模型代入至M1中得到引入死区的无人水面船系统数学模型M1’:
定义期望跟踪误差为:
其中:
e=[ηe T,ve T]T,ηe=η-ηd,ve=v-vd,以及ηe=[ηe,xe,ye,ψ]T,ve=[ve,u,ve,v,ve,r]T, F(e)=[ve TRT(ψ),(M-1h)T+(M-1f(η,v))T-fd Td,vd)]T,G(e)=[03*3,βM-1]T; M(t)=MT(t)>0表示包含附加质量的惯性矩阵;F(e)和G(e)是含有未知结构的非线性方程,因为船在航行过程中的质量M未知,因此F(e)和G(e)未知;
对M1’与M2做差,对公式(6)变形得到跟踪误差系统E:
其中:
A是严格的Huwriz矩阵满足a是一个正的常数,是建模时根据需要自定义的正定矩阵;
S3:建立非线性未知系统的辨识器系统;
构建分别对应F(e)和G(e)的RBFNN逼近器:
其中:输入向量Wf、Wg分别是F(e)、G(e) 神经网络权重,表示基函数,满足:
其中,神经网络节点数为l>1;
在集合范围内,利用F(e)和G(e)的逼近器来逼近未知动态F(e) 和G(e):
其中:输入向量 是神经网络的逼近误差;分别是G(e)理想的神经网络权重;
将公式(10a)和(10b)代入期望误差系统E后得到:
其中:
构建用于观测未知动态的观测器模型,将无人水面船系统的控制策略输入观测器得到辨识后的状态,观测器模型表示为:
其中:
是观测器状态,分别是Wf和Wg的估计,是理想逼近误差的估计;
为期望误差系统E设计权重更新率,从而保证所有辨识器的系统状态有界,根据观测误差,通过稳定性分析得到当t→∞时观测误差可以趋近于零,所以当t→∞时 趋近于常数;权重更新率表示为:
其中:Λf,Λg和Λε是设计矩阵;umax=[δuvr]T,P是正定矩阵;
S4:根据辨识后的状态建立用于评判控制策略的最优代价函数:
其中:
q∈R6×6,μ∈R3,k是正的参数,Φ∈R3×3满足Φ=diag(Φ123)>0,tanh(·) 具有单调奇函数的特性,并且其一阶导数有界;
根据最优代价函数构造HJB方程(Hamilton-Jacobi-Bellman equation,又称哈密顿-雅可比-贝尔曼方程),并根据HJB方程求出控制策略:
根据得到控制策略如下:
根据前馈神经网络的全局逼近特性,最优代价函数表示成如下形式:
其中:
是代价函数神经网络理想的权重向量,N是神经元的个数,表示神经网络输入向量基函数,是有界神经网络函数逼近误差;
设计最优代价函数的逼近函数如下式所示:
其中:
的估计;
将式(19)代入式(16)得到HJB方程的逼近形式:
为获得最小的值,定义一个Bellman误差方程,如下式所示:
其中:
通过使用梯度下降算法,得到最优代价函数神经网络权重更新率如下式所示:
其中:
Γc是一个正定矩阵;
式(17)所示控制策略不可用在未知梯度的代价方程中,通过引入独立的权重,以便同时调整控制策略神经网络和代价函数神经网络,引入独立权重获得最优控制策略如下:
其中:
表示期望权重的逼近值;
根据公式(23),最优代价函数的自适应律可以更新为
同样,通过最小化Bellman误差,最优控制策略自适应律设计成如下形式:
其中:
通过最优代价函数评判控制策略是否符合公式(23)的要求:
若符合,则将该控制策略输出至无人水面船系统作为最优控制策略;
若不符合,则重新生成控制策略并通过最优代价函数评判重新生成的控制策略是否符合公式(23)的要求,重复上述过程直至得到最优控制策略输出至无人水面船系统。
为了说明上述无人水面船最优轨迹跟踪控制方法的有效性和先进性,本实施例以文(14)CyberShipII无人水面船进行Matlab仿真研究,其相应参数见下表:
表1:CyberShipII无人水面船参数
本实施例中,无人水面船初始状态为νd(0)=[1,0,0]T,η(0)=[16.9,8.2,π/4]T,ν(0)=[0,0,0]T
辨识器的更新律参数设置为Λf=I6×6和Λg=I6×6;死区的输入非线性参数设置为β=1,br=[0.3,0.3,0.3]T,bl=[0.5,0.5,0.5]T;代价函数设置为
代价函数和控制策略的神经网络参数分别设置为Γc=0.01I6×6a=0.01I6×6,ka=1;并且其初始权重设置为
仿真结果如图3-15所示:
图3显示:完全未知环境下,系统辨识误差收敛到零点的领域内;
图4显示:虚线为期望参考轨迹,实线为无人水面船实际行驶轨迹,经过一定的自适应调整之后,无人船能够跟踪期望参考轨迹,并保持在这条轨迹上行驶;
图5-7显示:x、y、ψ三个自由度期望值和实际值随时间变化的过程,最终,这三个自由度能够跟踪其对应的期望曲线分量;
图8-10显示:u、v、r纵荡速度、横荡速度、艏摇速度三个自由度期望值和实际值随时间变化的过程,最终,这三个自由度速度能够跟踪其对应的期望速度曲线分量;
图11-12显示:AC算法权重的收敛曲线;
图13-15显示:完成无人船跟踪三自由度期望轨迹过程中对应的三自由度控制器随时间变化的过程,体现了显著的跟踪特性。
文献14:Skjetne,T.I.Fossen and P.V.Kokotovic, “Adaptivemaneuveringwithexperiments,for a model ships in a marine control laboratory,”Automatica,vol.41,no.2,pp.289-298,2005。
本发明设计了无人水面船最优轨迹跟踪控制方法,首先要对无人船系统中的未知动态进行辨识。然后将系统的输出带到代价函数中,根据代价函数构造HJB方程并求出控制策略,将所得的控制策略反馈给代价函数,代价函数对控制策略进行评判作出奖赏,最终将评判结果反馈给被控系统,根据评判结果使得被控系统输出下一个状态。经过反复的策略迭代最终得到最优的控制策略。在本文中,所设计的控制策略能够抑制误差和扰动对系统的影响,那么这个控制策略为最优,所以代价函数会根据这个标准来判定所设计的控制策略是否为最优的。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (1)

1.基于强化学习方法的无人水面船最优轨迹跟踪控制方法,其特征在于,包括以下步骤:
S1:建立无人水面船系统数学模型M1以及不考虑扰动情况的期望轨迹系统数学模型M2;
定义北东坐标系OX0Y0Z0和附体坐标系BXYZ;北东坐标系OX0Y0Z0视作惯性坐标系,取地球任一点O为坐标原点,OX0指向正北,OY0指向正东,OZ0指向地球球心;附体坐标系BXYZ视作非惯性坐标系,当船舶左右对称时,取其中心为坐标原点B,BX轴沿着船舶中线指向船艏方向,BY轴垂直指向右舷,BZ轴沿XY平面垂直指向下;
无人水面船系统数学模型M1表示为:
其中:
η=[x,y,ψ]T表示北东坐标系下的无人水面船位置向量,x、y表示无人水面船运动的北东位置,ψ∈[0,2π]表示艏摇角;
ν=[u,v,r]T表示附体坐标系下无人水面船运动的速度向量,u、v、r分别表示其纵荡速度、横荡速度、艏摇速度;
τ'(u)=[τ(uu),τ(uv),τ(ur)]T表示带有未知非线性的控制输入;
f(η,v)表示系统不确定性,包含了未知的Coriolis矩阵、阻尼矩阵和未建模动态;
R(ψ)表示地球坐标系和船体坐标系之间的转换矩阵;
用于产生无人水面船期望轨迹的期望轨迹系统数学模型M2表示为:
其中:
χd=[ηd T,vd T]T,ηd=[xd,ydd]T和νd=[ud,vd,rd]T分别是无人水面船跟踪的期望位置向量及期望速度向量;
S2:建立死区数学模型τ:
τ=βu+h (3)
其中:
u=[uu,uv,ur]T表示系统控制输入,并且|ui|≤δi,i=u,v,r,δi是三个方向力矩的上界;β表示死区的斜率并满足0<βmin<β<βmax,βmin和βmax为根据需要设定的已知参数;参数h=[hu,hv,hr]T满足如下条件:
其中:
bli=[blu,blv,blr]T和bri=[bru,brv,brr]T表示输入非线性的左端点和右端点;
将死区数学模型代入至M1中得到引入死区的无人水面船系统数学模型M1’:
对M1’与M2做差,得到跟踪误差系统E:
其中:
e=[ηe T,ve T]T,ηe=η-ηd,ve=v-vd,以及ηe=[ηe,xe,ye,ψ]T,ve=[ve,u,ve,v,ve,r]T,F(e)=[ve TRT(ψ),(M-1h)T+(M-1f(η,v))T-fd Td,vd)]T,G(e)=[03*3,βM-1]T
M(t)=MT(t)>0表示包含附加质量的惯性矩阵;F(e)和G(e)是含有未知结构的非线性方程;A是严格的Huwriz矩阵满足a是一个正的常数,是建模时根据需要自定义的正定矩阵;
S3:建立非线性未知系统的辨识器系统;
构建分别对应F(e)和G(e)的RBFNN逼近器:
其中:输入向量Wf、Wg分别是F(e)、G(e)神经网络权重,表示基函数,满足:
其中,神经网络节点数为l>1;
在集合范围内,利用F(e)和G(e)的逼近器来逼近未知动态F(e)和G(e):
其中:输入向量 是神经网络的逼近误差;分别是G(e)理想的神经网络权重;
将公式(10a)和(10b)代入期望误差系统E后得到:
其中:
构建用于观测未知动态的观测器模型,将无人水面船系统的控制策略输入观测器得到辨识后的状态,观测器模型表示为:
其中:
是观测器状态,分别是Wf和Wg的估计,是理想逼近误差的估计;
为期望误差系统E设计权重更新率,从而保证所有辨识器的系统状态有界,根据观测误差,通过稳定性分析得到当t→∞时观测误差可以趋近于零,所以当t→∞时趋近于常数;权重更新率表示为:
其中:Λf,Λg和Λε是设计矩阵;umax=[δuvr]T,P是正定矩阵;
S4:根据辨识后的状态建立用于评判控制策略的最优代价函数:
其中:
q∈R6×6,μ∈R3,k是正的参数,Φ∈R3×3满足Φ=diag(Φ123)>0,tanh(·)具有单调奇函数的特性,并且其一阶导数有界;
根据最优代价函数构造HJB方程,并根据HJB方程求出控制策略:
根据得到控制策略如下:
根据前馈神经网络的全局逼近特性,最优代价函数表示成如下形式:
其中:
是代价函数神经网络理想的权重向量,N是神经元的个数,表示神经网络输入向量基函数,是有界神经网络函数逼近误差;
设计最优代价函数的逼近函数如下式所示:
其中:
的估计;
将式(19)代入式(16)得到HJB方程的逼近形式:
为获得最小的值,定义一个Bellman误差方程,如下式所示:
其中:
通过使用梯度下降算法,得到最优代价函数神经网络权重更新率如下式所示:
其中:
Γc是一个正定矩阵;
引入独立权重获得最优控制策略如下:
其中:
表示期望权重的逼近值;
根据公式(23),最优代价函数的自适应律可以更新为
同样,通过最小化Bellman误差,最优控制策略自适应律设计成如下形式:
其中:
通过最优代价函数评判控制策略是否符合公式(23)的要求:
若符合,则将该控制策略输出至无人水面船系统作为最优控制策略;
若不符合,则重新生成控制策略并通过最优代价函数评判重新生成的控制策略是否符合公式(23)的要求,重复上述过程直至得到最优控制策略输出至无人水面船系统。
CN201910281332.4A 2019-04-09 2019-04-09 基于强化学习方法的无人水面船最优轨迹跟踪控制方法 Active CN110018687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910281332.4A CN110018687B (zh) 2019-04-09 2019-04-09 基于强化学习方法的无人水面船最优轨迹跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910281332.4A CN110018687B (zh) 2019-04-09 2019-04-09 基于强化学习方法的无人水面船最优轨迹跟踪控制方法

Publications (2)

Publication Number Publication Date
CN110018687A true CN110018687A (zh) 2019-07-16
CN110018687B CN110018687B (zh) 2022-03-04

Family

ID=67190806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910281332.4A Active CN110018687B (zh) 2019-04-09 2019-04-09 基于强化学习方法的无人水面船最优轨迹跟踪控制方法

Country Status (1)

Country Link
CN (1) CN110018687B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362103A (zh) * 2019-08-19 2019-10-22 西北工业大学 分布式自主水下航行器姿态协同优化控制方法
CN111240345A (zh) * 2020-02-11 2020-06-05 哈尔滨工程大学 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN111273543A (zh) * 2020-02-15 2020-06-12 西北工业大学 一种基于策略迭代的pid优化控制方法
CN111308890A (zh) * 2020-02-27 2020-06-19 大连海事大学 一种带有指定性能的无人船数据驱动强化学习控制方法
CN111679585A (zh) * 2020-07-03 2020-09-18 大连海事大学 一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法
CN112148025A (zh) * 2020-09-24 2020-12-29 东南大学 一种基于积分补偿强化学习的无人飞行器稳定控制算法
CN112506192A (zh) * 2020-11-25 2021-03-16 哈尔滨工程大学 一种针对全回转推进器故障的动力定位船容错控制方法
CN112558465A (zh) * 2020-12-03 2021-03-26 大连海事大学 一种带有输入限制的未知无人船有限时间强化学习控制方法
CN112650233A (zh) * 2020-12-15 2021-04-13 大连海事大学 死区限制下基于反步法与自适应动态规划的无人船轨迹跟踪最优控制方法
CN112925204A (zh) * 2021-01-21 2021-06-08 深圳翱诺科技有限公司 基于加强学习的非仿射系统最优容错控制方法
CN112947084A (zh) * 2021-02-08 2021-06-11 重庆大学 一种基于强化学习的模型未知多智能体一致性控制方法
CN112947430A (zh) * 2021-02-03 2021-06-11 浙江工业大学 一种移动机器人的智能轨迹跟踪控制方法
CN112965487A (zh) * 2021-02-05 2021-06-15 浙江工业大学 基于策略迭代的移动机器人轨迹跟踪控制方法
CN113031642A (zh) * 2021-05-24 2021-06-25 北京航空航天大学 动态禁飞区约束的高超声速飞行器轨迹规划方法和系统
CN113821035A (zh) * 2021-09-22 2021-12-21 北京邮电大学 无人船轨迹追踪控制方法和装置
CN114442640A (zh) * 2022-02-28 2022-05-06 哈尔滨理工大学 一种水面无人艇轨迹跟踪控制方法
CN114879658A (zh) * 2022-03-28 2022-08-09 北京理工大学 一种气垫船轨迹跟踪控制方法
CN115616907A (zh) * 2022-09-22 2023-01-17 上海海事大学 一种无人艇航向智能规划方法及控制器
CN115981149A (zh) * 2022-12-09 2023-04-18 中国矿业大学 基于安全强化学习的高超声速飞行器最优控制方法
CN116360497A (zh) * 2023-04-18 2023-06-30 北京工业大学 一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法
CN116690561A (zh) * 2023-05-30 2023-09-05 渤海大学 一种用于单连杆机械臂的自适应最优反步控制方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8150621B1 (en) * 2009-04-07 2012-04-03 The United States of America as represeneted by the Secretary of the Navy Command and control of autonomous surface vehicle
CN107168335A (zh) * 2017-06-28 2017-09-15 大连海事大学 一种考虑混合多目标避障的水面无人艇路径跟踪制导方法
CN108303988A (zh) * 2018-03-28 2018-07-20 大连海事大学 一种无人船的目标识别追踪系统及其工作方法
CN108681246A (zh) * 2018-05-14 2018-10-19 大连海事大学 一种基于执行器故障的无人水面船航迹跟踪方法
CN109581868A (zh) * 2018-09-21 2019-04-05 长春工业大学 基于评判辨识结构的可重构机器人分散神经最优控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8150621B1 (en) * 2009-04-07 2012-04-03 The United States of America as represeneted by the Secretary of the Navy Command and control of autonomous surface vehicle
CN107168335A (zh) * 2017-06-28 2017-09-15 大连海事大学 一种考虑混合多目标避障的水面无人艇路径跟踪制导方法
CN108303988A (zh) * 2018-03-28 2018-07-20 大连海事大学 一种无人船的目标识别追踪系统及其工作方法
CN108681246A (zh) * 2018-05-14 2018-10-19 大连海事大学 一种基于执行器故障的无人水面船航迹跟踪方法
CN109581868A (zh) * 2018-09-21 2019-04-05 长春工业大学 基于评判辨识结构的可重构机器人分散神经最优控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NING WANG 等: "Reinforcement Learning-Based Optimal Tracking Control of an Unknown Unmanned Surface Vehicle", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
吕扬民 等: "水质监测无人船路径规划方法研究", 《智能计算机与应用》 *
杨忱 等: "基于强化学习的指定性能轨迹跟踪最优控制", 《大连海事大学学报》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362103A (zh) * 2019-08-19 2019-10-22 西北工业大学 分布式自主水下航行器姿态协同优化控制方法
CN111240345A (zh) * 2020-02-11 2020-06-05 哈尔滨工程大学 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN111240345B (zh) * 2020-02-11 2023-04-07 哈尔滨工程大学 基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN111273543B (zh) * 2020-02-15 2022-10-04 西北工业大学 一种基于策略迭代的pid优化控制方法
CN111273543A (zh) * 2020-02-15 2020-06-12 西北工业大学 一种基于策略迭代的pid优化控制方法
CN111308890A (zh) * 2020-02-27 2020-06-19 大连海事大学 一种带有指定性能的无人船数据驱动强化学习控制方法
CN111308890B (zh) * 2020-02-27 2022-08-26 大连海事大学 一种带有指定性能的无人船数据驱动强化学习控制方法
CN111679585A (zh) * 2020-07-03 2020-09-18 大连海事大学 一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法
CN112148025A (zh) * 2020-09-24 2020-12-29 东南大学 一种基于积分补偿强化学习的无人飞行器稳定控制算法
CN112506192A (zh) * 2020-11-25 2021-03-16 哈尔滨工程大学 一种针对全回转推进器故障的动力定位船容错控制方法
CN112558465A (zh) * 2020-12-03 2021-03-26 大连海事大学 一种带有输入限制的未知无人船有限时间强化学习控制方法
CN112650233A (zh) * 2020-12-15 2021-04-13 大连海事大学 死区限制下基于反步法与自适应动态规划的无人船轨迹跟踪最优控制方法
CN112650233B (zh) * 2020-12-15 2023-11-10 大连海事大学 无人船轨迹跟踪最优控制方法
CN112925204B (zh) * 2021-01-21 2022-06-24 深圳翱诺科技有限公司 基于加强学习的非仿射系统最优容错控制方法
CN112925204A (zh) * 2021-01-21 2021-06-08 深圳翱诺科技有限公司 基于加强学习的非仿射系统最优容错控制方法
CN112947430B (zh) * 2021-02-03 2022-07-15 浙江工业大学 一种移动机器人的智能轨迹跟踪控制方法
CN112947430A (zh) * 2021-02-03 2021-06-11 浙江工业大学 一种移动机器人的智能轨迹跟踪控制方法
CN112965487B (zh) * 2021-02-05 2022-06-17 浙江工业大学 基于策略迭代的移动机器人轨迹跟踪控制方法
CN112965487A (zh) * 2021-02-05 2021-06-15 浙江工业大学 基于策略迭代的移动机器人轨迹跟踪控制方法
CN112947084A (zh) * 2021-02-08 2021-06-11 重庆大学 一种基于强化学习的模型未知多智能体一致性控制方法
CN112947084B (zh) * 2021-02-08 2022-09-23 重庆大学 一种基于强化学习的模型未知多智能体一致性控制方法
CN113031642B (zh) * 2021-05-24 2021-08-10 北京航空航天大学 动态禁飞区约束的高超声速飞行器轨迹规划方法和系统
CN113031642A (zh) * 2021-05-24 2021-06-25 北京航空航天大学 动态禁飞区约束的高超声速飞行器轨迹规划方法和系统
CN113821035A (zh) * 2021-09-22 2021-12-21 北京邮电大学 无人船轨迹追踪控制方法和装置
CN114442640A (zh) * 2022-02-28 2022-05-06 哈尔滨理工大学 一种水面无人艇轨迹跟踪控制方法
CN114879658B (zh) * 2022-03-28 2023-03-03 北京理工大学 一种气垫船轨迹跟踪控制方法
CN114879658A (zh) * 2022-03-28 2022-08-09 北京理工大学 一种气垫船轨迹跟踪控制方法
CN115616907A (zh) * 2022-09-22 2023-01-17 上海海事大学 一种无人艇航向智能规划方法及控制器
US11977383B2 (en) * 2022-09-22 2024-05-07 Shanghai Maritime University Intelligent course planning method and controller for unmanned surface vehicle
CN115981149A (zh) * 2022-12-09 2023-04-18 中国矿业大学 基于安全强化学习的高超声速飞行器最优控制方法
CN115981149B (zh) * 2022-12-09 2024-01-09 中国矿业大学 基于安全强化学习的高超声速飞行器最优控制方法
CN116360497A (zh) * 2023-04-18 2023-06-30 北京工业大学 一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法
CN116360497B (zh) * 2023-04-18 2024-02-09 北京工业大学 一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法
CN116690561A (zh) * 2023-05-30 2023-09-05 渤海大学 一种用于单连杆机械臂的自适应最优反步控制方法及系统
CN116690561B (zh) * 2023-05-30 2024-01-23 渤海大学 一种用于单连杆机械臂的自适应最优反步控制方法及系统

Also Published As

Publication number Publication date
CN110018687B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN110018687A (zh) 基于强化学习方法的无人水面船最优轨迹跟踪控制方法
Dai et al. Adaptive leader–follower formation control of underactuated surface vehicles with guaranteed performance
CN111308890B (zh) 一种带有指定性能的无人船数据驱动强化学习控制方法
Hassanein et al. Model-based adaptive control system for autonomous underwater vehicles
CN112650233B (zh) 无人船轨迹跟踪最优控制方法
Chen et al. Adaptive optimal tracking control of an underactuated surface vessel using Actor–Critic reinforcement learning
CN112947505B (zh) 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法
CN111857165B (zh) 一种水下航行器的轨迹跟踪控制方法
CN112462792A (zh) 一种基于Actor-Critic算法的水下机器人运动控制方法
Zhang et al. Learning and near-optimal control of underactuated surface vessels with periodic disturbances
Gao et al. Online optimal control for dynamic positioning of vessels via time-based adaptive dynamic programming
Liu et al. A hierarchical disturbance rejection depth tracking control of underactuated AUV with experimental verification
Dai et al. Finite-time trajectory tracking for marine vessel by nonsingular backstepping controller with unknown external disturbance
CN107479382A (zh) 基于在线数据学习的高超声速飞行器神经网络控制方法
Yuan et al. Course control of underactuated ship based on nonlinear robust neural network backstepping method
Wang et al. Direct adaptive neural network control for ship manoeuvring modelling group model-based uncertain nonlinear systems in non-affine pure-feedback form
Li et al. Adaptive optimal trajectory tracking control of AUVs based on reinforcement learning
Chen et al. Robust trajectory tracking control of underactuated underwater vehicle subject to uncertainties
Elhaki et al. Saturated output-feedback hybrid reinforcement learning controller for submersible vehicles guaranteeing output constraints
Liu et al. Robust adaptive self-Structuring neural network bounded target tracking control of underactuated surface vessels
Fu et al. Adaptive safety motion control for underactuated hovercraft using improved integral barrier lyapunov function
Wang et al. Game-based distributed optimal formation tracking control of underactuated AUVs based on reinforcement learning
Dong et al. Performance-Guaranteed Adaptive Optimized Control of Intelligent Surface Vehicle Using Reinforcement Learning
Peng et al. Online Deep Learning Control of an Autonomous Surface Vehicle Using Learned Dynamics
CN113093771A (zh) 基于神经网络的水下机器人-机械手系统的建模方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant