CN115016496A - 基于深度强化学习的水面无人艇路径跟踪方法 - Google Patents
基于深度强化学习的水面无人艇路径跟踪方法 Download PDFInfo
- Publication number
- CN115016496A CN115016496A CN202210772926.7A CN202210772926A CN115016496A CN 115016496 A CN115016496 A CN 115016496A CN 202210772926 A CN202210772926 A CN 202210772926A CN 115016496 A CN115016496 A CN 115016496A
- Authority
- CN
- China
- Prior art keywords
- path
- unmanned ship
- representing
- network
- target unmanned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 118
- 230000002787 reinforcement Effects 0.000 title claims abstract description 40
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 174
- 230000006870 function Effects 0.000 claims abstract description 75
- 230000008569 process Effects 0.000 claims abstract description 68
- 230000009471 action Effects 0.000 claims abstract description 46
- 230000007613 environmental effect Effects 0.000 claims abstract description 24
- 230000033001 locomotion Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 64
- 230000008859 change Effects 0.000 claims description 42
- 238000013459 approach Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 30
- 238000004088 simulation Methods 0.000 description 28
- 238000013461 design Methods 0.000 description 24
- 230000000694 effects Effects 0.000 description 20
- 238000011217 control strategy Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 230000001276 controlling effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000002679 ablation Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000005728 strengthening Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000001141 propulsive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/0206—Control of position or course in two dimensions specially adapted to water vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明具体涉及基于深度强化学习的水面无人艇路径跟踪方法,包括:将目标无人艇的路径跟踪问题转换为马尔可夫决策过程,设置对应的状态空间、动作空间和奖励函数;获取目标无人艇的规划路径;根据目标无人艇的规划路径结合实时位姿信息计算参考航向角;然后基于目标无人艇的参考航向角、实时位姿信息和环境干扰信息生成目标无人艇当前的状态值;将目标无人艇当前的状态值输入经过训练的策略模型中,输出最优的动作值;策略模型基于柔性演员评论家算法构建;将最优动作值发送给目标无人艇执行;直至完成规划路径的跟踪控制。本发明无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。
Description
技术领域
本发明涉及无人艇路径跟踪控制技术领域,具体涉及基于深度强化学习的水面无人艇路径跟踪方法。
背景技术
近些年来,随着科技的发展,国内外对运载工具的研究也逐步朝着无人化、智能化的方向发展,出现了大量的智能无人平台,无人艇作为其中之一,受到了造船界和航运界的多方关注。水面无人艇(Unmanned surface vehicle,USV)是一种可以在没有人工操作的情况下,按预定程序独立完成航行和作业的中小型船舶,相比于传统的水面舰船,具有体积小、机动性高、成本低、智能化水平高等特点。同时,无人艇可以根据实际任务需求,安装不同的功能模块,进而实现巡航、测绘、监测等多种不同功能,满足多种任务的要求,更能代替有人船舶去完成深海资源探测、战场侦查、舰船救援等复杂度高、危险系数高、难度大的任务,减少人员的损失和降低任务成本。
无人艇是一种高度智能化的无人系统,集环境感知技术、规划与决策技术和运动控制技术于一体,通过自身传感器实时感知外部环境和自身状态情况,能在动态变化的复杂外部环境中进行规划路径和路径跟踪,执行预定的任务。路径规划、环境感知和路径跟踪等功能是当前无人艇的研究焦点,其中路径跟踪是无人艇最基本也是最重要的能力,保障其他部分功能的实现。运动控制性能越好,无人艇的整体性能也会随之上升。
为此,公开号为CN113625725A的中国专利就公开了《一种水面无人艇路径跟踪控制方法》,包括:设定期望跟踪路径,将期望跟踪路径离散化形成期望路径点阵;判断无人艇距离期望路径点阵的起始点的距离;根据设计参数和无人艇位置确定参考点的位置,根据路径曲率信息求得参考点处的曲率,然后根据制导算法公式求得加速度:计算由加速度引起的在Δt时间内航向角改变量;根据航向角改变量和当前无人艇航向角计算得到期望航向角;由期望航向和无人艇实际航向得到的航向偏差信息,计算得到当前时刻无人艇的舵角输出值,将其发送给底层执行机构,实现路径跟踪。
上述现有方案中的水面无人艇路径跟踪控制方法不依赖于无人艇精确数学模型,可跟踪任意类型路径。申请人发现,实际海洋环境中存在难以预测的风、浪、流等环境干扰,这些因素导致无人艇控制系统具有高度不确定性、时变性和非线性,这些都让无人艇的运动问题变得复杂且困难。然而,上述现有方法不具备自适应能力,当水面环境参数发生变化时,不仅需要复杂的参数整定过程,还难以实际保证路径跟踪控制效果的稳定,导致无人艇路径跟踪控制的稳定性不好。同时,现有技术还提出了基于最优控制和反馈线性化的自抗扰控制方法,这类算法通过环境和无人艇动力学建立准确的模型才能获得较好的控制精度,但同样由于无人艇航行环境的复杂性,导致难以准确的对环境和无人艇进行运动建模,进而导致无人艇路径跟踪控制的准确性不好。因此,如何设计一种能够提高无人艇路径跟踪控制稳定性和准确性的方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于深度强化学习的水面无人艇路径跟踪方法,无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。
为了解决上述技术问题,本发明采用了如下的技术方案:
基于深度强化学习的水面无人艇路径跟踪方法,包括以下步骤:
S1:将目标无人艇的路径跟踪问题转换为马尔可夫决策过程,设置对应的状态空间、动作空间和奖励函数;
S2:获取目标无人艇的规划路径;
S3:根据目标无人艇的规划路径结合实时位姿信息计算参考航向角;然后基于目标无人艇的参考航向角、实时位姿信息和环境干扰信息生成目标无人艇当前的状态值;
S4:将目标无人艇当前的状态值输入经过训练的策略模型中,输出最优的动作值;
策略模型基于柔性演员评论家算法构建;
训练时,基于状态空间、动作空间和奖励函数计算目标无人艇执行最优的动作值后返回的奖励值,用以更新策略模型的网络参数;
S5:将最优动作值发送给目标无人艇执行;
S6:重复执行步骤S3至S5,直至完成规划路径的跟踪控制。
优选的,步骤S1中,马尔可夫决策过程通过如下公式表示:
1)状态空间表示为:
式中:表示目标无人艇当前航向角和参考航向角之间的差值;d表示路径跟踪误差;β表示漂移角;δnd表示舵角指令大小;表示目标无人艇当前航向误差和上一时刻的航向误差的差值;Δd表示当前路径跟踪误差和上一个时刻路径跟踪误差的差值;
2)动作空间表示为:
式中:δnd表示舵角指令;
3)奖励函数表示为:
式中:表示与航向角相关的奖励;rd表示与路径跟踪误差相关的奖励;表示与控制稳定性相关的奖励;k1,k2,k3表示设置的常数项系数;σδ表示预设时段内20次舵角命令值的标准差;w1,w2,w3表示设置的每部分奖励项的权重系数。
优选的,步骤S2中,规划路径包括直线规划路径和曲线规划路径;
1)直线规划路径表示为:
Ps=<p0,...,pi,pi+1,...pT>,pi∈R2;
式中:T表示直线规划路径的路径点数目;pi=(xpi,ypi),1<=i<=T表示第i个路径点的位置坐标,R表示任意实数;
曲线规划路径表示为:
Pc:(x-xc)2+(y-yc)2=Rc;
式中:pc=(xc,yc)表示曲线规划路径的圆心坐标;Rc表示曲线规划路径的路径半径。
优选的,定义pt=(xt,yt)为目标无人艇在t时间的位置坐标表示;
1)对于直线规划路径,通过如下公式计算方位角和路径跟踪误差:
式中:χp表示直线规划路径下目标无人艇的方位角;表示直线规划路径下目标无人艇的路径跟踪误差;pi=(xpi,ypi)表示为第i个路径点的位置坐标;pi+1=(xpi+1,ypi+1)表示为第i+1个路径点的位置坐标;
2)对于曲线规划路径,通过如下公式计算方位角和路径跟踪误差:
χc=arctan(yt-yc,xt-xc);
优选的,步骤S3中,通过矢量场算法根据目标无人艇的规划路径结合实时位姿信息计算参考航向角。
优选的,矢量场算法通过如下公式计算参考航向角:
1)对于直线规划路径:
式中:χd表示直线规划路径下的参考航向角;χp表示方位角;χMs表示最大接近角,设定为(0,π/2];ks表示矢量场收敛速度的控制参数,值越大表示航向角变化的越快;ds表示目标无人艇到直线路径的跟踪误差;
2)对于曲线规划路径:
式中:χd表示曲线规划路径下的参考航向角;ρd表示曲线规划路径的路径方向,1是顺时针,-1是逆时针;χMc表示最大接近角,设定为(0,π/2];kc表示矢量场收敛速度的控制参数,值越大表示航向角变化的越快;χc表示曲线规划路径下目标无人艇的方位角;dc表示目标无人艇到曲线路径的跟踪误差。
优选的,步骤S3中,实时位姿信息包括航向角和漂移角;环境干扰信息包括风速和风向。
优选的,步骤S4中,通过如下步骤训练策略模型:
S401:初始化策略模型的网络参数,以及目标无人艇的起始位置;
S402:获取目标无人艇规划路径的当前路径点信息和实时位姿信息并计算当前的参考航向角,进而基于目标无人艇当前的参考航向角、实时位姿信息和环境干扰信息生成目标无人艇当前的状态值st;
S403:目标无人艇当前的状态值st输入至策略模型,输出最优的动作值at;然后控制目标无人艇执行最优的动作值at,并返回对应的奖励值rt+1;
S404:再次获取目标无人艇规划路径的当前路径点信息和实时位姿信息并计算当前的参考航向角,进而基于目标无人艇当前的参考航向角、实时位姿信息和环境干扰信息生成执行动作值at后的状态值st+1;然后存储并更新经验回放池D←D∪(st,at,rt+1,st+1);
S405:重复执行步骤S302至S304,直至到达最终路径点或达到设置的回合最大步长数;
S406:从经验回放池D中抽取M个样本组成批量数据,用以训练、更新策略模型的网络参数。
优选的,步骤S406中,策略模型需更新的网络参数包括Q网络和π网络的网络参数以及温度参数;
Q网络的目标函数表示为:
π网络的目标函数表示为:
式中:θ表示π网络的网络参数;DKL表示KL散度(相似度的指标);πθ表示策略网络;Qφ表示动作-状态价值函数;γ表示折扣因子;Vφ表示状态价值函数;
温度参数的目标函数表示为:
优选的,策略模型的网络参数更新过程如下:
式中:λQ表示Q网络的学习率;表示Q网络的网络参数θi的梯度;λπ表示策略网络的学习率;表示策略网络的网络参数φ的梯度;λα表示温度参数的学习率;表示温度参数α的梯度;θi表示Q网络的网络参数;表示目标Q网络的网络参数。
本发明中基于深度强化学习的水面无人艇路径跟踪方法,具有如下有益效果:
本发明将目标无人艇的路径跟踪问题转换为马尔可夫决策过程,然后通过目标无人艇的参考航向角、实时位姿信息和环境干扰信息生成状态值,并输入经过训练的策略模型中输出最优的动作值,最后将最优的动作值发送给目标无人艇执行以完成规划路径的跟踪控制。一方面,本发明的策略模型基于柔性演员评论家算法构建,并通过马尔可夫决策过程训练和参数更新,使得能够将深度强化学习算法应用到无人艇运动控制,而这种基于深度强化学习的控制方法不用对无人艇的动力学和环境干扰进行人工显式建模,并且通过参考航向角、实时位姿信息和环境干扰信息等生成的状态值,能够在与环境的交互过程中自主隐式建模环境干扰并学习到最优的控制策略,从而能够提高无人艇路径跟踪控制的准确性。另一方面,本发明将目标无人艇的路径跟踪问题转换为具备自适应能力的马尔可夫决策过程,当水面环境参数发生变化时,不需要复杂的参数整定过程,也能够保证路径跟踪控制效果的稳定,并且通过合理设置马尔可夫决策过程的状态空间、动作空间和奖励函数,能够降低策略模型的路径跟踪误差,并提高航向控制稳定性、调节速度和抗干扰能力,从而能够进一步提高无人艇路径跟踪控制的稳定性。
同时,本发明通过无人艇的参考航向角来间接控制无人艇,与现有直接使用无人艇当前到路径点距离大小作为无人艇航向控制参考相比,能够避免因为地图比例尺不同带来的绝对距离表示范围变化问题,从而能够进一步提高无人艇路径跟踪控制的准确性。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为基于深度强化学习的水面无人艇路径跟踪方法的逻辑框图;
图2为直线路径跟踪问题和曲线路径跟踪问题的示意图;
图3为基于柔性演员评论家算法的无人艇路径跟踪算法框架图;
图4为VF算法在直线跟踪路径下和曲线跟踪路径下的示例;
图5为路径跟踪多约束的奖励函数曲线;
图6为WAM-V无人艇平面运动示意图;
图7为基于VRX环境的强化学习ROS软件包架构图;
图8为训练过程平均奖励和回合平均长度变化曲线;
图9为直线路径场景跟踪结果;
图10为直线路径场景跟踪误差和航向角误差变化曲线;
图11为搜索路径场景路径跟踪实验结果;
图12为搜索路径场景跟踪误差变化;
图13为搜索路径场景航向角误差变化;
图14为曲线路径场景路径跟踪实验结果;
图15为曲线路径场景跟踪误差和航向角误差变化;
图16为不同状态空间设计下,算法训练过程平均奖励和回合平均长度变化曲线;
图17为不同平均风速条件下,跟踪误差的平均值和均方根值;
图18为不同平均风速条件下,航向角误差的平均值和均方根值;
图19为不同风速条件下搜索路径场景路径跟踪实验结果。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面通过具体实施方式进一步详细的说明:
实施例:
本实施例中公开了一种基于深度强化学习的水面无人艇路径跟踪方法。
如图1所示,基于深度强化学习的水面无人艇路径跟踪方法,包括以下步骤:
S1:将目标无人艇的路径跟踪问题转换为马尔可夫决策过程,设置对应的状态空间、动作空间和奖励函数;
S2:获取目标无人艇的规划路径;
S3:根据目标无人艇的规划路径结合实时位姿信息计算参考航向角;然后基于目标无人艇的参考航向角、实时位姿信息和环境干扰信息生成目标无人艇当前的状态值;
本实施例中,实时位姿信息包括航向角和漂移角;环境干扰信息包括风速和风向。实时位姿信息通过目标无人艇上安装的GPS和IMU获取;环境干扰信息通过目标无人艇上安装的风速传感器获取。
S4:将目标无人艇当前的状态值输入经过训练的策略模型中,输出最优的动作值;
策略模型基于柔性演员评论家算法构建;
训练时,基于状态空间、动作空间和奖励函数计算目标无人艇执行最优的动作值后返回的奖励值,用以更新策略模型的网络参数;
S5:将最优动作值发送给目标无人艇(的执行器)执行;
S6:重复执行步骤S3至S5,直至完成规划路径的跟踪控制。
本发明将目标无人艇的路径跟踪问题转换为马尔可夫决策过程,然后通过目标无人艇的参考航向角、实时位姿信息和环境干扰信息生成状态值,并输入经过训练的策略模型中输出最优的动作值,最后将最优的动作值发送给目标无人艇执行以完成规划路径的跟踪控制。一方面,本发明的策略模型基于柔性演员评论家算法构建,并通过马尔可夫决策过程训练和参数更新,使得能够将深度强化学习算法应用到无人艇运动控制,而这种基于深度强化学习的控制方法不用对无人艇的动力学和环境干扰进行人工显式建模,并且通过参考航向角、实时位姿信息和环境干扰信息等生成的状态值,能够在与环境的交互过程中自主隐式建模环境干扰并学习到最优的控制策略,从而能够提高无人艇路径跟踪控制的准确性。另一方面,本发明将目标无人艇的路径跟踪问题转换为具备自适应能力的马尔可夫决策过程,当水面环境参数发生变化时,不需要复杂的参数整定过程,也能够保证路径跟踪控制效果的稳定,并且通过合理设置马尔可夫决策过程的状态空间、动作空间和奖励函数,能够降低策略模型的路径跟踪误差,并提高航向控制稳定性、调节速度和抗干扰能力,从而能够进一步提高无人艇路径跟踪控制的稳定性。
同时,本发明通过无人艇的参考航向角来间接控制无人艇,与现有直接使用无人艇当前到路径点距离大小作为无人艇航向控制参考相比,能够避免因为地图比例尺不同带来的绝对距离表示范围变化问题,从而能够进一步提高无人艇路径跟踪控制的准确性。
具体实施过程中,如图2所示,规划路径包括直线规划路径和曲线规划路径;
1)直线规划路径表示为:
Ps=<p0,...,pi,pi+1,...pT>,pi∈R2;
式中:T表示直线规划路径的路径点数目;pi=(xpi,ypi),1<=i<=T表示第i个路径点的位置坐标;R表示任意实数;
曲线规划路径表示为:
Pc:(x-xc)2+(y-yc)2=Rc;
式中:pc=(xc,yc)表示曲线规划路径的圆心坐标;Rc表示曲线规划路径的路径半径。
定义pt=(xt,yt)为目标无人艇在t时间的位置坐标表示;
1)对于直线规划路径,通过如下公式计算方位角和路径跟踪误差:
式中:χp表示直线规划路径下目标无人艇的方位角;表示直线规划路径下目标无人艇的路径跟踪误差;pi=(xpi,ypi)表示为第i个路径点的位置坐标;pi+1=(xpi+1,ypi+1)表示为第i+1个路径点的位置坐标;
2)对于曲线规划路径,通过如下公式计算方位角和路径跟踪误差:
χc=arctan(yt-yc,xt-xc);
本发明考虑了直线规划路径和曲线规划路径对无人艇路径跟踪控制的不同影响,并设计了相应的参数计算方案,使得能够更好的将目标无人艇的路径跟踪问题转换为具有自适应性的马尔可夫决策过程,使得能够更合理的设置马尔可夫决策过程的状态空间、动作空间和奖励函数,进而能够降低策略模型的路径跟踪误差,并提高航向控制稳定性、调节速度和抗干扰能力,从而能够进一步提高无人艇路径跟踪控制的稳定性。
具体实施过程中,结合图3所示,通过如下步骤训练策略模型:
S401:初始化策略模型的网络参数,以及目标无人艇的起始位置;
S402:获取目标无人艇规划路径的当前路径点信息和实时位姿信息并计算当前的参考航向角,进而基于目标无人艇当前的参考航向角、实时位姿信息和环境干扰信息生成目标无人艇当前的状态值st;
S403:目标无人艇当前的状态值st输入至策略模型(策略网络),输出最优的动作值at;然后控制目标无人艇执行最优的动作值at,并返回对应的奖励值rt+1;
S404:再次获取目标无人艇规划路径的当前路径点信息和实时位姿信息并计算当前的参考航向角,进而基于目标无人艇当前的参考航向角、实时位姿信息和环境干扰信息生成执行动作值at后的状态值st+1;然后存储并更新经验回放池D←D∪(st,at,rt+1,st+1);
S405:重复执行步骤S302至S304,直至到达最终路径点或达到设置的回合最大步长数;
S406:从经验回放池D中抽取M个样本组成批量数据,用以训练、更新策略模型的网络参数。
本发明的策略模型基于柔性演员评论家算法构建,并通过马尔可夫决策过程进行上述的训练和参数更新,使得能够将深度强化学习算法应用到无人艇运动控制,而这种基于深度强化学习的控制方法不用对无人艇的动力学和环境干扰进行人工显式建模,并且通过参考航向角、实时位姿信息和环境干扰信息等生成的状态值,能够在与环境的交互过程中自主隐式建模环境干扰并学习到最优的控制策略,从而能够提高无人艇路径跟踪控制的准确性。
具体实施过程中,在无人艇进行路径跟踪过程中,制导算法的作用是根据无人艇当前的位置计算出下一时刻无人艇参考航向角,间接去控制无人艇推进器输出,让无人艇保持预定航向或者收敛到期望路径。相比于直接使用无人艇当前到路径点距离大小作为无人艇航向控制参考,使用参考航向角作为航向控制参考可以避免因为地图比例尺不同,带来的绝对距离表示范围变化问题。矢量场(VectorField,VF)算法是无人艇和无人机中常用的一种航向制导算法,相比视线制导算法,VF算法给出的参考航向角更为平滑,参考轨迹相比LOS算法也更短。同时,VF算法相对LOS算法需要人工设定的参数更少,计算复杂度更低。
因此,本发明采用VF算法作为路径跟踪任务的航向制导算法。通过矢量场算法根据目标无人艇的规划路径结合实时位姿信息计算参考航向角。
如图4所示,VF算法计算参考航向时遵循两个原则:一是在无人艇距离跟随路径较远时,参考航向角要引导无人艇以最大接近角尽快回到路径;二是在无人艇距离跟随路径较近时,则参考航向角应将无人艇运动方向与直线路径方向或曲线路径的切线方向对齐。
矢量场算法通过如下公式计算参考航向角:
1)对于直线规划路径:
式中:χd表示直线规划路径下的参考航向角;χp表示方位角;χMs表示最大接近角,设定为(0,π/2];ks表示矢量场收敛速度的控制参数,值越大表示航向角变化的越快;ds表示目标无人艇到直线路径的跟踪误差;
2)对于曲线规划路径:
式中:χd表示曲线规划路径下的参考航向角;ρd表示曲线规划路径的路径方向,1是顺时针,-1是逆时针;χMc表示最大接近角,设定为(0,π/2];kc表示矢量场收敛速度的控制参数,值越大表示航向角变化的越快;χc表示曲线规划路径下目标无人艇的方位角;dc表示目标无人艇到曲线路径的跟踪误差。
本发明通过矢量场算法结合目标无人艇的规划路径和实时位姿信息计算参考航向角,能够计算得到更平滑、参考轨迹更短的参考航向角,并且需要人工设定的参数更少,计算复杂度更低,从而能够提高参考航向角的计算准确性和效率。同时,本发明通过无人艇的参考航向角来间接控制无人艇,与现有直接使用无人艇当前到路径点距离大小作为无人艇航向控制参考相比,能够避免因为地图比例尺不同带来的绝对距离表示范围变化问题,从而能够进一步提高无人艇路径跟踪控制的准确性。
具体实施过程中,柔性演员评论家算法用样本经验回放池存储每回合的采样数据。每次更新时,柔性演员评论家算法从经验回放池D中随机抽取批量的采样数据利用随机梯度下降的方式对网络参数进行更新。同时,柔性演员评论家算法加入了,DQN算法的目标网络延迟更新机制,增强训练过程的稳定性。才外,柔性演员评论家算法训练过程中,温度参数α值对奖励大小的变化十分敏感,如果设置α为固定值,则容易因为奖励函数值大小不合适而出现训练不稳定,算法难以收敛的问题。
因此,策略模型需更新的网络参数包括Q网络和π网络的网络参数以及温度参数;
Q网络的目标函数表示为:
π网络的目标函数表示为:
式中:θ表示π网络的网络参数;DKL表示KL散度(相似度的指标);πθ表示策略网络;Qφ表示动作-状态价值函数;γ表示折扣因子;Vφ表示状态价值函数;
温度参数的目标函数表示为:
策略模型的网络参数更新过程如下:
式中:λQ表示Q网络的学习率;表示Q网络的网络参数θi的梯度;λπ表示策略网络的学习率;表示策略网络的网络参数φ的梯度;λα表示温度参数的学习率;表示温度参数α的梯度;θi表示Q网络的网络参数;表示目标Q网络的网络参数。
具体实施过程中,在基于强化学习的路径跟踪控制算法设计中,将问题建模为马尔可夫决策过程是十分重要的一步,状态空间、动作空间和奖励函数的选取对策略模型性能和收敛速度都有很大的影响。
马尔可夫决策过程通过如下公式表示:
1)状态空间设计
因为制导算法给出了无人艇进行路径跟踪的参考航向角,无人艇航向角根据参考航向角进行调节,即可间接达到路径跟踪控制效果。所以我们将当前无人艇航向角和VF算法的输出参考航向角之间的差值加入到状态空间中,表示为让策略模型在控制过程中能准确感知无人艇当前航向角的控制效果。考虑到无人艇的路径跟踪问题的目标是最小化无人艇到跟踪路径的跟踪误差,除了在给定参考航向角间接控制的基础上,将路径跟踪误差d也加入了状态空间中。因为水上环境存在复杂的环境扰动,加上无人艇自身是欠驱动,水面摩擦力小,无人艇在实际跟踪过程中很容易出现横向漂移运动,影响实际航向角控制的效果。因此,在状态空间中加入了当前无人艇的漂移角β和舵角指令大小δnd,让策略模型感知到当前无人艇漂移程度,从而进行更好的控制。此外,为了使得策略模型能实现更加稳定的控制效果,除了只选取当前时刻的状态以外,我们还在状态空间中加入了当前时刻与上一时刻的状态值比较,包括当前航向误差和上一时刻的航向误差的差值当前跟踪误差和上一个时刻跟踪误差的差值Δd=dt-dt-1,使得状态空间可以更好的体现出无人艇是否在向跟踪误差和航向角误差减小的方向运动。
状态空间表示为:
式中:表示目标无人艇当前航向角和参考航向角之间的差值;d表示路径跟踪误差;β表示漂移角;δnd表示舵角指令大小;表示目标无人艇当前航向误差和上一时刻的航向误差的差值;Δd表示当前路径跟踪误差和上一个时刻路径跟踪误差的差值;
2)动作空间设计
因为我们研究的是在固定巡航速度下的无人艇路径跟踪问题,所以动作空间设定为无人艇的舵角指令大小即δnd,其值的取值范围和最大变化速度根据现有技术中对无人艇操纵响应模型要求设置。
动作空间表示为:
式中:δnd表示舵角指令;
3)奖励函数设计
为了更好的完成跟踪任务,我们根据实际无人艇控制的相关经验,设计了一个多约束的奖励函数,将奖励函数设计为三部分:一是与航向角相关的奖励如果无人艇的航向角越接近VF算法给出的参考航向角,奖励值越高,鼓励算法尽快调整无人艇航向角到参考航向角;二是无人艇当前的跟踪误差相关的奖励rd,无人艇当前横向跟踪越小,获得的奖励就越高,鼓励算法能找到一个在调整无人艇航向角到参考航向角的同时能尽量减小跟踪误差的策略,使得它能更快的进入目标跟踪路径;最后是与控制稳定性相关的奖励舵角指令值变化的越慢,奖励值越高,鼓励算法找到更加稳定平滑的无人艇运动控制策略,使得控制策略更符合大部分实际任务要求的需要。
奖励函数表示为:
式中:表示与航向角相关的奖励;rd表示与路径跟踪误差相关的奖励;表示与控制稳定性相关的奖励;k1,k2,k3表示设置的常数项系数;σδ表示预设时段内20次舵角命令值的标准差;w1,w2,w3表示设置的每部分奖励项的权重系数。
实际训练中,k1,k2,k33取值分别6.0,0.2,1.05,此时绘制的奖励函数变化曲线由图5所示。从图中奖励曲线变化趋势可以看出,航向误差奖励值范围为[-1,1],在航向误差为0时达到最大值1,随着航向误差的绝对值增大而减小;横向误差的奖励值范围为[0,1],在跟踪误差为0时最大,也随着跟踪误差绝对值的增大而减小;舵角命令奖励值的范围为[0,1],相邻舵角命令变化越大,奖励值越低。每一部分的奖励函数变化趋势符合我们的期望,在训练过程中,w1,w2,w3的取值分别为0.5,0.4,0.1。
本发明将目标无人艇的路径跟踪问题转换为具有自适应性的马尔可夫决策过程,使得当水面环境参数发生变化时,不需要复杂的参数整定过程,也能够保证路径跟踪控制效果的稳定;并且,通过合理的设置马尔可夫决策过程的状态空间、动作空间以及包含与航向角相关奖励、与路径跟踪误差相关奖励、与控制稳定性相关奖励的奖励函数,使得能够降低策略模型的路径跟踪误差,并提高航向控制稳定性、调节速度和抗干扰能力,从而能够进一步提高无人艇路径跟踪控制的稳定性。
为了更好说明本发明技术方案的优势,本实施例中公开了如下实验。
本实验首先进行了无人艇强化学习仿真环境的设计。
1)水上仿真环境
VRX仿真环境是RoboNation和海军研究办公室(ONR)与海军研究生院(NPS)合作开发的一款为Robotx比赛提供的基于ROS和Gazebo的虚拟仿真环境,通过添加额外的插件扩展Gazebo原有的功能,实现了水面环境模型、船舶动力学模型、传感器仿真和通用海洋对象模型等功能。VRX环境对真实的水上环境具有足够保真度,同时Gazebo软件自身可以实现比多倍于真实世界环境的仿真速度,适合一系列的水上任务仿真,使开发人员可以快速开发新的解决方案原型,并能在一定调优和优化后,将算法从仿真环境顺利过渡到真实的水上环境部署。VRX环境使用C++和Python在ROS的框架下进行编写,提供的API和控制脚本也是ROS的标准通信格式,可以在其基础上选择C++或者Python灵活地进行二次开发,方便结合Tensorflow和Pytorch等深度学习框架开发机器学习算法。所以本实验选择VRX作为实验使用的水面仿真环境。
2)无人艇运动学和动力学模型
本实验选择16英尺的波浪自适应模块化无人艇(WAM-V)平台作为进行算法开发和测试的水面无人艇实验平台。如图6所示,WAM-V无人艇是一种双体船,使用两个充气浮筒作为船体,船体上配备两个电动推进器,推进器矢量角度固定,采用差速的控制方式进行转向操作。本实验使用简化的三自由度动力学模型对WAM-V无人艇在仿真环境中进行运动学和动力学建模,并对其操纵响应模型做简单介绍。
由于无人艇的水平平面运动是路径跟踪问题的主要关注点,因此本实验只关注水面无人艇的横荡、纵荡,艏摇三个自由度,采用简化的三自由度无人艇动力学模型,并根据现有技术中的约定规则,对无人艇船身的属性进行标记。规定xi和yi为惯性坐标系中的正北方向和正东方向,而u、v和V是相对于USV自身附体坐标系的横荡、纵荡和总的速度大小。ψ表示船身艏向角,χ和β表示航向角和运动漂移角,有β=χ-ψ。Tport和Tstbd分别代表左右推进器的作用力大小。
因此,无人艇三自由度运动学模型可以通过如下公式表示,其中v和η是无人艇的速度向量和位置向量表示,R(η)是无人艇附体坐标系相对于惯性坐标系的转动矩阵。
v=(u,v,r)T;
η=(xi,yi,ψ)T;
无人艇的三自由度动力学模型可以描述为:
其中M为无人艇质量惯性矩阵,
C(v)是科里奥利向心力矩阵,
D(v)是阻尼系数矩阵,
f是推进力和力矩。无人艇的差速运动模式下,f可以表示为:
其中B为船体宽度。
3)无人艇操纵响应模型
无人艇操纵响应模型给出输入量(舵角大小、速度大小)对无人艇的艏向角、速度变化率之间的关系。无人艇的推进器模型参考现有技术中的线性操纵响应模型和参数辨识结果进行实现,从而可以直接从推进器的每分钟转速(Revolution(s)perminute,RPM)指令中计算出推进器的推力大小,实现与仿真环境交互。设定推进器RPM指令值范围为[-1,1],其中1对应推进器最大转速,-1对应最小转速,RPM指令每单位秒的变化速率为1。δnport和δnstbd分别为无人艇左右推进器RPM指令,δnmax=为左右推进RPM的最大差值,值为2。因为WAM-V无人艇采用差速运动模式,所以无人艇舵角命令δnd和速度命令δnm可表示为:
δnd=(δnport-δnstbd)/(2δnmax);
δnm=(δnport+δnstbd)/(2δnmax);
由上式可以看出,舵角命令δnd和速度命令δnm的取值范围为[-1,1]。
4)仿真环境和无人艇模型的封装
原有的VRX仿真环境实现了足够保真度的水上的仿真环境,但是并不适合直接当作进行强化学习算法训练的仿真环境,因此,本实验设计了一个ROS软件包,对原有的水上仿真环境和无人艇仿真模型进行封装,实现Open AIGYM接口,从而搭建一个适合进行强化学习算法开发的无人艇水上环境进行强化学习训练环境,并给出了无人艇路径跟踪任务场景的生成方式。
如图7所示,本着降低代码之间的耦合程度,并提高代码复用率的宗旨,我们将整个软件包框架抽象成了Task Environment RobotEnvironment和GazeboEnvironment三个类进行实现,三个类之间是逐级继承关系。
其中,GazeboEnvironment类直接继承自Gym Environment,负责统一定义GYM环境所需的接口函数,管理强化学习算法与VRX环境之间的通信;RobotEnvironment继承自GazeboEnvironment,负责定义实验使用的无人艇的操纵方法,定义无人艇选用传感器的类型和接收传感器数据的方法,并向强化学习算法给出操作的接口;TaskEnvironment继承自Robot Environment,负责针对当前的任务的要求进行设置,处理当前学习任务的状态采集和奖励反馈等功能。软件包将通信、无人艇仿真模型和具体任务环境解耦,使得软件包不仅适用于WAM-V无人艇水上环境的路径跟踪任务强化学习训练,还可以方便地替换不同型号的无人艇的仿真模型、切换不同的无人艇水上运动控制任务。下面将展开说明每部分的具体作用。
Gazebo Environment:主要用于加载仿真环境设置,启动VRX仿真进程,同时负责使用ROS实现强化学习算法和VRX仿真环境之间的通讯,实现了GYM环境中的随机种子设置seed函数、重置仿真reset函数,执行训练步骤step函数和关闭仿真close函数。它在执行过程会调用子类的函数来得到环境观察状态值和执行动作,同时会发布每个回合的累计回报函数值等信息。
Robot Environment:实现无人艇控制和感知周围环境所需的所有ROS功能函数,并且在每次启动无人艇控制之前,对无人艇功能进行检查(检查控制和感知所需要的ROStopic和service是否正常启动并能被控制,还有检查传感器安装位置和无人艇自身姿态位置是否正确)。并加载特定配置的无人艇仿真模型到VRX环境中。
Task Environment负责加载任务场景地图到VRX环境中,并提供智能学习的特定任务的所有上下文信息,包括:在每个回合开始初始化环境的变量,初始化无人艇位姿,让无人艇执行算法选择的动作,获取执行选定动作无人艇得到的环境观测值,计算每一步的环境反馈的回报值,检查智能体是否已经到达了回合结束状态。在本实验中暂时只给出了水面无人艇的路径跟踪任务和自主避障任务两个任务的场景设置。
具体实验过程:
1、超参数设置
针对路径跟踪任务的特点,对Q网络、π网络和目标网络都设置了两层隐藏层,每层隐藏层单元个数为256,隐藏层激活函数选择ReLU函数,梯度下降采用Adam优化器,学习率为0.0003,批量大小设置为256,并在输入层前加入了一个归一化层,统一输入数据的格式,使得网络更好的收敛。在训练过程中,奖励函数折扣因子γ等具体网络参数设置参见表1。
表1
2、对比算法和评价指标
为了体现本发明提出的基于柔性演员评论家算法无人艇路径跟踪算法的有效性,本实验设置了传统的PID控制算法、基于DDPG和基于PPO的无人艇路径跟踪算法作为无人艇路径跟踪的对比算法进行对比。
对比算法的具体的设置如下:
1)PID:PID是常用的传统无模型控制算法,根据现有技术中的设置,在VF算法输出参考航向角之后,使用PID去根据当前航向角和参考航向角的误差计算航向角的控制量,根据这个误差计算出舵角控制指令进行路径跟踪控制。具体的控制参数设置如下:kp=3,ki=0.01,kd=3。
(2)DDPG:DDPG是离线强化学习算法,将Actor-Critic框架与梯度下降相互结合,采用了确定性策略,可以处理连续的动作空间。对比实验中,设置其网络学习率为0.0001,动作网络和价值网络共享网络参数,探索噪声变量均值为0,方差为0.25,软目标更新系数设置0.005。
(2)PPO:PPO算法是在线学习算法,PPO算法也是基于Actor-Critic框架,使用随机性策略,可以处理连续控制问题。PPO算法采用了重要性采样技术,改进了传统在线学习算法数据利用率较低的问题,并使用优势函数裁剪新旧策略之间的差距使得策略更新过程更加稳定。在PPO算法训练过程中,设置学习率设置为0.003,动作网络裁剪参数为0.2,策略梯度裁剪最大值为0.5,损失函数计算时熵系数和价值网络熵系数设置为0.0和0.5,GAE参数为0.95,折扣因子与隐藏层网络结构等其他网络超参数与表4.1中相同。
在无人艇的路径跟踪实验中,我们选择跟踪误差和航向角误差的平均值(Meanerror)和均方根误差(Root-mean-square error,RMSE)作为最后评价路径跟踪算法控制效果的评价指标。
3、路径跟踪实验结果分析
3.1、算法训练过程设置与分析
针对几种基于强化学习的路径跟踪算法,为使得训练得到的控制器模型能适应多种不同的路径跟踪环境,我们使用现有的实验思路来模拟实际无人艇航行环境中会遇到的各种路径拐角变换情况,算法每回合采用一条航向角随机且长度为60m直线路径去进行航迹跟踪训练,无人艇初始位置随机设置在路径起点的20m之内的范围中,无人艇初始艏向角随机。无人艇速度设置为巡航速度1.2m/s,控制器控制频率为10Hz。设置训练环境海流干扰的参数为gain=0.1,period=5,direction_x=1.0,direction_y=0.0,angle=0.4,scale=1.5,模拟真实环境中的微浪场景。在算法训练过程中,我们设置算法最大的训练时间步设置为2.4×106步,每回合最大步长为1200,采样时间间隔为0.1s。按照本发明中的流程对算法进行训练,训练结束后,我们对训练结果进行分析结果如下。
图8是三种基于强化学习的无人艇路径跟踪训练过程中平均回报奖励变化曲线和回合平均长度变化曲线,三种算法都是基于同样的训练场景,同样的训练设置得到的结果。从图中我们可以得到:1)本发明提出的基于柔性演员评论家的路径跟踪控制算法训练过程模型收敛更快,回合平均长度下降的也更快,最后的结果也更加的稳定(在1×106左右就已经收敛),也获得了最高的平均回报奖励,相比于其他两种算法,具有更快的训练速度和更稳定的结果,跟踪控制调节速度快;2)基于PPO路径跟踪算法在训练早期(大约在6.5×105步之前),平均回报奖励的增长速度是也大于基于DDPG的路径跟踪算法,两种基于随机性策略的算法早期的平均回报收益增长速度和都大于基于确定性策略算法,说明随机性策略因更鼓励对环境的探索动作,在训练初期可以更快的找到较好的无人艇路径跟踪控制策略;3)基于PPO的路径跟踪控制算法回报奖励随时间增长的变化幅度大,最不稳定,同样的回合平均长度变化曲线也存在很大的变化幅度。这样的变化说明PPO作为在线学习算法,缺少回放经验池,采集的数据在更新后就丢弃,导致训练过程相比于另外两种离线算法来说更加不稳定;4)三种算法的回合平均长度曲线的变化趋势基本和平均回报奖励的变化趋势基本都相反,随着时间步的增长,算法平均回报提升的同时,回合平均长度也在下降,说明三种算法都学习到了更快完成任务且能符合路径跟踪任务要求的策略,也说明了我们设计的奖励函数是合理的。
根据图8中的结果可知,我们采用训练收敛后的模型参数(2.25×106时间步左右)作为三种算法进行路径跟踪结果对比时使用的模型参数。考虑到实际无人艇实际行驶环境的情况,下面设置了三种不同的仿真场景:直线路径跟踪场景,搜索路径跟踪场景和曲线路径跟踪场景,来分别对比和展示算法的实际表现。三种场景中皆设置与训练环境相同参数的海浪干扰存在。
3.2、直线路径跟踪实验结果
我们设计了一条直线路径作为规划路径(路径点为(0,0),(0,80),长度为80m)让无人艇进行跟踪,并设置无人艇起点为(-15,0)。图9展示了不同算法在这个场景下产生的实际路径和规划路径的对比,图10分别给出了路径跟踪过程中无人艇的跟踪误差变化曲线和航向角误差变化曲线。从图中可以看出三种基于强化学习无人艇路径跟踪控制算法在存在一定海浪干扰的环境下可以取得比传统PID控制算法更好的路径跟踪效果。同时观察在存在海浪干扰的情况下PID算法在跟踪过程中无人艇航向角误差的变化,可以发现其始终无法调节到稳态控制,存在振荡现象。表2对几种算法在直线路径下的无人艇路径控制效果进行了进一步对比。
表2
从表2中可以得出,基于PID的路径跟踪控制虽然航向角误差的均方根误差最小,但是在跟踪误差的上的表现非常差,而基于深度强化学习的路径跟踪算法则可以在跟踪误差和航向角跟踪误差上获得更加平衡的结果,都控制在一个较小的范围。产生这样现象的原因是我们实现的PID控制算法是针对单输入和单输出系统,舵角控制指令的选取只于当前的航向角误差有关,所以算法很激进的选择了能最快减小航向角误差的动作,没有考虑如何更快的将无人艇移动到目标路径上。同时因为海浪干扰的存在,基于PID的控制算法在控制时没有对干扰进行建模,导致其无法保持稳定控制,出现震荡现象。而其余三种基于深度强化学习的方法虽然也是无模型的控制,但是可以同时关注航向角误差、路径跟踪误差等多个优化目标,还可以额外的接收无人艇当前漂移角等状态信息,能同时对多个目标进行优化产生更好的控制效果;并且在训练过程中可以隐式的建模环境干扰到算法模型中,面对环境干扰可以表现出更为抗干扰能力,做出更为鲁棒的控制。实验结果表明了基于深度强化学习在无人艇控制中的有效性。
我们进一步对实验结果进行分析,从图中可以看出本发明提出的路径跟踪控制算法在三种基于深度强化学习的路径跟踪控制算法里表现最好,平均跟踪误差和航向角误差都最小。基于DDPG和基于PPO的路径跟踪控制算法在路径转角比较大的场景下会有更多的超调现象,两种算法在这种情况下都选择更快的减小跟踪误差的控制动作,输出舵角控制指令变化幅度较大,导致了超调现象产生。其中基于PPO的路径跟踪控制算法产生的超调现象最为严重,实际跟踪表现也是三种算法中最差的,产生这个现象的原因可能是在线学习强化学习算法相比于离线强化学习算法更为不稳定,训练更容易陷入局部最优,在靠近跟踪误差较小的时候,更容易去选取尽快缩小跟踪误差的动作。基于DDPG的路径跟踪算法与其他两种基于随机性策略的算法不同,该算法是基于确定性策略,对环境的探索能力稍微弱于其他两个算法,相比于本发明提出的算法而言,没有找到一个更好的同时平衡跟踪误差和航向角误差的策略。
3.3、搜索路径跟踪实验结果
本实验实现的PID算法在直线路径场景跟踪实验中,已经表现出了较差的控制性能,实验中也无法完成搜索路径跟踪和曲线路径跟踪任务,因此下面的搜索路径场景和曲线路径场景中我们就不再对PID算法与基于强化学习的路径跟踪控制算法进行对比。
第二组实验如图11所示,根据实际无人艇任务的场景,设计了一个长度约为380m,由连续的多段直线路径组成的搜索路径(路径点坐标为(0,0),(0,50),(15,50),(15,0),(30,0),(30,50),(45,50),(45,0),(60,0),(60,20))来进行跟踪实验,无人艇起始位置为(-5,-10)。
图12和图13展示了几种算法在跟踪过程中的跟踪误差变化和航向角误差变化。从图中我们可以看出,本发明提出的无人艇路径跟踪算法实际跟踪过程中,跟踪误差和航向角误差都比较小,产生的实际跟踪路径也最为平滑,具有优秀的控制性能。基于PPO的路径跟踪算法表现要稍差一些,基于DDPG的无人艇路径跟踪控制算法表现最差。相比于直线路径跟踪场景与算法训练过程采用的直线路径场景十分相似,搜索路径中存在更多训练过程中没有遇到过或者遇到过很少的运动控制情况,对控制算法的稳定性和泛化性是一定的考验。从实验结果图中我们可以看出,基于DDPG的路径跟踪算法在搜索路径跟踪控制上表现最差,转弯时超调现象严重,在很多路径段甚至无法调节到稳态,控制效果不稳定。而基于PPO的路径跟踪算法和本发明提出的路径跟踪算法控制性能要好很多,但是基于PPO的路径跟踪算法在处理连续转角的情况时控制表现很不稳定,存在转弯幅度过大的现象。同时,结合表3中从航向角跟踪误差平均误差和均方根误差来看,基于PPO的路径跟踪算法航向角平均误差和均方根误差是最小的,但跟踪误差与本发明提出的算法结果相差很多,和直线路径一样,基于PPO的路径跟踪算法更偏重于优化航向角跟踪误差,没有像本发明提出的路径跟踪算法一样找到能更好平衡多个优化目标的策略。
表3
3.4、曲线路径跟踪实验结果
图14展示了不同路径跟踪算法在曲线路径跟踪场景中的测试结果,图15给出了路径跟踪过程中的航向角误差和跟踪误差的变化曲线。曲线路径场景设置路径圆心为(0,0),半径为30m,路径起点为(38,38),路径跟踪方向为顺时针。
虽然三种算法在训练过程中都是使用的直线路径去训练,并且选用VF制导算法在直线路径的和曲线路径的计算方法上稍有区别,但是三种算法都能较好地完成曲线路径的路径跟踪测试,并都获得了一个较为稳定的控制结果。从图中可以看出,本发明提出的路径跟踪控制算法在曲线路径上也取得三种算法里最好的控制性能,平均跟踪距离误差和航向角跟踪误差都最小,稳定后的跟踪稳态误差能在0.38m左右,航向角稳态误差能在0.1rad左右,可以较好满足实际曲线路径跟踪任务需求。而基于PPO的跟踪控制算法控制表现最差,距离跟踪误差和角度跟踪误差变化都最为剧烈,稳定后的误差也最大,再一次说明PPO这种在线算法稳定性要稍弱于其他两种算法。同时,三种算法虽然在曲线路径跟踪场景表现出了较好的泛化性,但是都仍有一定的稳态误差存在,存在进一步提高算法控制性能的空间。
综上所述,通过三种场景下的实验结果对比,可以看出本发明提出的无人艇路径跟踪算法实际控制表现较为鲁棒,面对路径的变化能很快的做出合适的调整,调节时间短,控制效果稳定,具有优秀的控制性能。
3.5、状态空间和奖励函数消融实验结果分析
为了体现出本发明提出的无人艇路径跟踪算法中马尔可夫决策过程的设计有效性,本实验对状态空间和奖励函数的设计额外进行了消融实验。在状态空间的消融实验中,分别删除状态空间中的漂移角、当前时刻和上一时刻状态的比较值、当前舵角控制指令值获得另外三种状态空间设计,采用同样的奖励函数设计,按照原有训练方法进行训练,每回合最大时间步为900,训练1.2×106个时间步后得到收敛后的模型。图16是几种状态空间设计和原有状态空间奖励回报函数变化和回合平均长度变化曲线。其中,No_Drift代表删除漂移角后的状态空间设计,No_Steer代表删除状态空间中的舵角控制指令值后的状态空间设计,No_Past代表删除当前时刻和上一时刻状态的比较值后的状态空间设计。从图中可以看到,在状态空间去掉漂移角后,回合平均长度随着训练时间的增长,从350左右,逐步到900左右,接近了每回合的时间步限制数,而且平均奖励值也远远低于其他模型,说明此时算法无法学习到有效的路径跟踪控制策略。这种现象说明漂移角是和无人艇的控制效果是直接相关的,去掉漂移角之后,状态空间的设计不满足马尔可夫性质,导致算法无法训练到一个有效的结果。状态空间去除当前舵角控制指令值后,算法在训练过程中获取的平均奖励有所降低,回合平均时间也有增长。而去除了当前时刻和上一时刻状态值的比较值之后,算法对是否在向减小误差的方向控制的感知能力下降,导致算法的控制稳定性下降,获得的平均回报奖励也有所降低。通过上述对比可以看出使用本发明设计的状态空间训练得到的无人艇路径跟踪控制算法模型可以获得最高的平均奖励收益,回合平均长度也最低,控制效果最为稳定,说明了本发明状态空间的设计有效性。
在奖励函数设计的消融实验中,我们分别删除航向角相关奖励、路径跟踪误差相关奖励和控制稳定性相关奖励后,即分别设置w1,w2,w3为0,然后按照原有训练方法训练,最后将训练收敛后的算法模型分别在搜索路径跟踪场景进行测试,得到的路径跟航向角和跟踪误差的平均值和均方根值结果,及舵角值变化的标准差结果如表4所示。其中,No_Heading代表删除航向角相关奖励后的奖励函数设计,No_Cross代表删除路径跟踪误差相关奖励后的奖励函数设计,No_Steer代表删除控制稳定性相关奖励后的奖励函数设计。从表中可以看出,在去掉航向角相关奖励后,算法跟踪误差最小,舵角指令变化的标准差也最小,但航向角跟踪表现糟糕,进一步观察其实际跟踪轨迹发现此时算法一直在围绕起点附近某个位置进行圆周运动,舵角指令保持在最大值基本不变,根本无法完成实际路径跟踪任务。而其他两个去除部分奖励后训练得到的算法模型都可以完成路径跟踪任务,到达路径终点,这说明了在使用制导算法将路径跟踪问题进行转化之后,航向角提供了完成路径跟踪任务最为基本的引导信息,缺少航向角相关的奖励会导致算法无法训练得到成功的策略。从图中还可以看出,在删除跟踪误差相关的奖励之后,虽然航向角误差相比原有算法减少,但是跟踪误差却上升较多,导致无人艇更慢的收敛到路径上。对比删除控制稳定性相关奖励和原始算法,删除控制稳定性相关奖励的算法模型,因为舵角控制变化更为激烈的原因,导致模型在跟踪误差和航向角误差都大于原有算法,控制的稳定性有所下降。根据上述分析,可以看出本发明提出的奖励函数设计可以引导无人艇训练得到一个同时将跟踪误差和航向角误差都保持在较好的水平、舵角控制的也较为稳定的控制策略。
表4
3.6、海风干扰场景实验结果分析
真实的无人艇行驶环境中不仅有海浪的干扰存在,海风干扰也是不可忽视的,因此无人艇路径跟踪控制算法还需要增强其面对海风干扰时的表现。为此,本实验在原始算法的基础上,对状态空间进行改进,将海风干扰相关的变量表示加入状态空间。在实际环境中,一个地点在较长时间段内风向都是固定的。但即使海风的风向是一段时间内是不变的,无人艇相对海风的位置不同,其受到海风干扰的表现也是不同的。所以,在原有状态空间的基础上,我们加入了当前风速vw和相对无人艇当前艏向角的风向角度χw表示,此时的状态空间可以表示如下:
气象学风力等级表中风速按照速度大小划分成0-12级。
我们考虑到使用的无人艇的物理属性限制,在风力过大环境下,无人艇不适合再进行航行,所以只考虑风速的大小在[0,8]m/s时的情况,对应气象学风力等级表中的无风到劲风等级。算法在仿真环境训练过程中,依据现有技术中对于海风干扰的设置的说明,将训练环境的海风的干扰参数设置为mean=5,var_gain=2,var_time=5,update_time=1,direction=270,使用条目x中的训练方法和小节4.3.1超参数进行训练,得到收敛后的模型参数。然后在搜索路径跟踪场景下分别设置平均风速为0-8,风向为-45°对训练收敛得到算法模型进行测试,测试场景覆盖了气象学定义的无风到劲风场景。
图19给出了在风速2,4,6,8时的无人艇实际跟踪轨迹效果,得到的跟踪误差和航向角误差对比和无人艇实际跟踪轨迹结果如图17和图18所示。从图中结果可以看出,本发明提出的无人艇路径跟踪控制算法将海风的变量表示引入状态空间表示后,在平均风速为0m/s-6m/s的范围内,随着平均风速的增加,跟踪误差和航向角误差并没有较大的变化,表现出较为优秀的抗干扰能力。但是在平均风速超过6m/s之后,算法的控制性能出现了大幅下降,跟踪误差和航向角误差都出现了不同幅度的增加。观察实际无人艇路径跟踪的实际轨迹也可以看出,在风速低于等于6m/s,无人艇基本没有出现大幅度的偏移,基本在规划路径上前进,只在与正对风速的路径转弯处出现了一些偏移。但是在平均风速增大到8m/s时,无人艇的跟踪轨迹在直线前进部分已经有较大的偏移,转角处偏移现象也更为明显。考虑仿真环境中无人艇推进器配置,风速为6m/s时,海风干扰带来的阻力已经约等于无人艇推进器设定的最大的推进力。当风速更大时,受到推进器最大推力限制,无人艇已经无法抵抗更大阻力保持稳定,所以出现了跟踪效果的下降。理论上,如果更换可以提供更大推力的无人艇模型,可以取得更为优秀的抗干扰效果。综上所述,在无人艇推进器最大推力的限制内,本发明提出的无人艇路径跟踪控制算法在存在海风干扰的条件下,可以让无人艇具有稳定的路径跟踪控制效果,具有较好的抗干扰能力。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制技术方案,本领域的普通技术人员应当理解,那些对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.基于深度强化学习的水面无人艇路径跟踪方法,其特征在于,包括以下步骤:
S1:将目标无人艇的路径跟踪问题转换为马尔可夫决策过程,设置对应的状态空间、动作空间和奖励函数;
S2:获取目标无人艇的规划路径;
S3:根据目标无人艇的规划路径结合实时位姿信息计算参考航向角;然后基于目标无人艇的参考航向角、实时位姿信息和环境干扰信息生成目标无人艇当前的状态值;
S4:将目标无人艇当前的状态值输入经过训练的策略模型中,输出最优的动作值;
策略模型基于柔性演员评论家算法构建;
训练时,基于状态空间、动作空间和奖励函数计算目标无人艇执行最优的动作值后返回的奖励值,用以更新策略模型的网络参数;
S5:将最优动作值发送给目标无人艇执行;
S6:重复执行步骤S3至S5,直至完成规划路径的跟踪控制。
2.如权利要求1所述的基于深度强化学习的水面无人艇路径跟踪方法,其特征在于:步骤S1中,马尔可夫决策过程通过如下公式表示:
1)状态空间表示为:
式中:表示目标无人艇当前航向角和参考航向角之间的差值;d表示路径跟踪误差;β表示漂移角;δnd表示舵角指令大小;表示目标无人艇当前航向误差和上一时刻的航向误差的差值;Δd表示当前路径跟踪误差和上一个时刻路径跟踪误差的差值;
2)动作空间表示为:
式中:δnd表示舵角指令;
3)奖励函数表示为:
3.如权利要求1所述的基于深度强化学习的水面无人艇路径跟踪方法,其特征在于:步骤S2中,规划路径包括直线规划路径和曲线规划路径;
1)直线规划路径表示为:
Ps=<p0,...,pi,pi+1,...pT>,pi∈R2;
式中:T表示直线规划路径的路径点数目;pi=(xpi,ypi),1<=i<=T表示第i个路径点的位置坐标,R表示任意实数;
曲线规划路径表示为:
Pc:(x-xc)2+(y-yc)2=Rc;
式中:pc=(xc,yc)表示曲线规划路径的圆心坐标;Rc表示曲线规划路径的路径半径。
4.如权利要求3所述的基于深度强化学习的水面无人艇路径跟踪方法,其特征在于:定义pt=(xt,yt)为目标无人艇在t时间的位置坐标表示;
1)对于直线规划路径,通过如下公式计算方位角和路径跟踪误差:
式中:χp表示直线规划路径下目标无人艇的方位角;表示直线规划路径下目标无人艇的路径跟踪误差;pi=(xpi,ypi)表示为第i个路径点的位置坐标;pi+1=(xpi+1,ypi+1)表示为第i+1个路径点的位置坐标;
2)对于曲线规划路径,通过如下公式计算方位角和路径跟踪误差:
χc=arctan(yt-yc,xt-xc);
5.如权利要求3所述的基于深度强化学习的水面无人艇路径跟踪方法,其特征在于:步骤S3中,通过矢量场算法根据目标无人艇的规划路径结合实时位姿信息计算参考航向角。
6.如权利要求5所述的基于深度强化学习的水面无人艇路径跟踪方法,其特征在于:矢量场算法通过如下公式计算参考航向角:
1)对于直线规划路径:
式中:χd表示直线规划路径下的参考航向角;χp表示方位角;χMs表示最大接近角,设定为(0,π/2];ks表示矢量场收敛速度的控制参数,值越大表示航向角变化的越快;ds表示目标无人艇到直线路径的跟踪误差;
2)对于曲线规划路径:
式中:χd表示曲线规划路径下的参考航向角;ρd表示曲线规划路径的路径方向,1是顺时针,-1是逆时针;χMc表示最大接近角,设定为(0,π/2];kc表示矢量场收敛速度的控制参数,值越大表示航向角变化的越快;χc表示曲线规划路径下目标无人艇的方位角;dc表示目标无人艇到曲线路径的跟踪误差。
7.如权利要求1所述的基于深度强化学习的水面无人艇路径跟踪方法,其特征在于:步骤S3中,实时位姿信息包括航向角和漂移角;环境干扰信息包括风速和风向。
8.如权利要求1所述的基于深度强化学习的水面无人艇路径跟踪方法,其特征在于:步骤S4中,通过如下步骤训练策略模型:
S401:初始化策略模型的网络参数,以及目标无人艇的起始位置;
S402:获取目标无人艇规划路径的当前路径点信息和实时位姿信息并计算当前的参考航向角,进而基于目标无人艇当前的参考航向角、实时位姿信息和环境干扰信息生成目标无人艇当前的状态值st;
S403:目标无人艇当前的状态值st输入至策略模型,输出最优的动作值at;然后控制目标无人艇执行最优的动作值at,并返回对应的奖励值rt+1;
S404:再次获取目标无人艇规划路径的当前路径点信息和实时位姿信息并计算当前的参考航向角,进而基于目标无人艇当前的参考航向角、实时位姿信息和环境干扰信息生成执行动作值at后的状态值st+1;然后存储并更新经验回放池D←D∪(st,at,rt+1,st+1);
S405:重复执行步骤S302至S304,直至到达最终路径点或达到设置的回合最大步长数;
S406:从经验回放池D中抽取M个样本组成批量数据,用以训练、更新策略模型的网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210772926.7A CN115016496A (zh) | 2022-06-30 | 2022-06-30 | 基于深度强化学习的水面无人艇路径跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210772926.7A CN115016496A (zh) | 2022-06-30 | 2022-06-30 | 基于深度强化学习的水面无人艇路径跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115016496A true CN115016496A (zh) | 2022-09-06 |
Family
ID=83079259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210772926.7A Pending CN115016496A (zh) | 2022-06-30 | 2022-06-30 | 基于深度强化学习的水面无人艇路径跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115016496A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115453914A (zh) * | 2022-10-19 | 2022-12-09 | 哈尔滨理工大学 | 一种考虑海浪干扰的无人艇回收分布式决策仿真系统 |
CN115790608A (zh) * | 2023-01-31 | 2023-03-14 | 天津大学 | 基于强化学习的auv路径规划算法及装置 |
CN116520281A (zh) * | 2023-05-11 | 2023-08-01 | 兰州理工大学 | 一种基于ddpg的扩展目标跟踪优化方法和装置 |
CN116703975A (zh) * | 2023-06-13 | 2023-09-05 | 武汉天进科技有限公司 | 一种用于无人机的智能化目标图像跟踪方法 |
CN116700276A (zh) * | 2023-06-30 | 2023-09-05 | 苏州优世达智能科技有限公司 | 一种基于ai强化学习的无人艇对抗辅助方法及系统 |
CN116974204A (zh) * | 2023-08-23 | 2023-10-31 | 南通大学 | 无人机跟踪控制模型训练方法、使用方法及终端设备 |
CN117590862A (zh) * | 2024-01-18 | 2024-02-23 | 北京工业大学 | 一种分布式无人机预定时间三维目标包围控制方法及系统 |
CN118034065A (zh) * | 2024-04-11 | 2024-05-14 | 北京航空航天大学 | 一种无人机决策网络的训练方法及装置 |
-
2022
- 2022-06-30 CN CN202210772926.7A patent/CN115016496A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115453914B (zh) * | 2022-10-19 | 2023-05-16 | 哈尔滨理工大学 | 一种考虑海浪干扰的无人艇回收分布式决策仿真系统 |
CN115453914A (zh) * | 2022-10-19 | 2022-12-09 | 哈尔滨理工大学 | 一种考虑海浪干扰的无人艇回收分布式决策仿真系统 |
CN115790608A (zh) * | 2023-01-31 | 2023-03-14 | 天津大学 | 基于强化学习的auv路径规划算法及装置 |
CN115790608B (zh) * | 2023-01-31 | 2023-05-30 | 天津大学 | 基于强化学习的auv路径规划算法及装置 |
CN116520281A (zh) * | 2023-05-11 | 2023-08-01 | 兰州理工大学 | 一种基于ddpg的扩展目标跟踪优化方法和装置 |
CN116520281B (zh) * | 2023-05-11 | 2023-10-24 | 兰州理工大学 | 一种基于ddpg的扩展目标跟踪优化方法和装置 |
CN116703975B (zh) * | 2023-06-13 | 2023-12-15 | 武汉天进科技有限公司 | 一种用于无人机的智能化目标图像跟踪方法 |
CN116703975A (zh) * | 2023-06-13 | 2023-09-05 | 武汉天进科技有限公司 | 一种用于无人机的智能化目标图像跟踪方法 |
CN116700276A (zh) * | 2023-06-30 | 2023-09-05 | 苏州优世达智能科技有限公司 | 一种基于ai强化学习的无人艇对抗辅助方法及系统 |
CN116700276B (zh) * | 2023-06-30 | 2023-11-07 | 苏州优世达智能科技有限公司 | 一种基于ai强化学习的无人艇对抗辅助方法及系统 |
CN116974204A (zh) * | 2023-08-23 | 2023-10-31 | 南通大学 | 无人机跟踪控制模型训练方法、使用方法及终端设备 |
CN116974204B (zh) * | 2023-08-23 | 2024-04-09 | 南通大学 | 无人机跟踪控制模型训练方法、使用方法及终端设备 |
CN117590862A (zh) * | 2024-01-18 | 2024-02-23 | 北京工业大学 | 一种分布式无人机预定时间三维目标包围控制方法及系统 |
CN117590862B (zh) * | 2024-01-18 | 2024-04-05 | 北京工业大学 | 一种分布式无人机预定时间三维目标包围控制方法及系统 |
CN118034065A (zh) * | 2024-04-11 | 2024-05-14 | 北京航空航天大学 | 一种无人机决策网络的训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115016496A (zh) | 基于深度强化学习的水面无人艇路径跟踪方法 | |
CN108803321B (zh) | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 | |
Larrazabal et al. | Intelligent rudder control of an unmanned surface vessel | |
Sun et al. | Mapless motion planning system for an autonomous underwater vehicle using policy gradient-based deep reinforcement learning | |
Roberts et al. | Advances in unmanned marine vehicles | |
CN111079936B (zh) | 基于强化学习的波动鳍推进水下作业机器人追踪控制方法 | |
Corno et al. | Data-driven online speed optimization in autonomous sailboats | |
Dlabač et al. | PSO-based PID controller design for ship course-keeping autopilot | |
Wang et al. | Unscented Kalman Filter trained neural network control design for ship autopilot with experimental and numerical approaches | |
Kinjo et al. | Trajectory tracking of a fully-actuated surface vessel using nonlinear model predictive control | |
Wang et al. | Path-following optimal control of autonomous underwater vehicle based on deep reinforcement learning | |
Amendola et al. | Navigation in restricted channels under environmental conditions: Fast-time simulation by asynchronous deep reinforcement learning | |
Kanazawa et al. | A multiple-output hybrid ship trajectory predictor with consideration for future command assumption | |
Taheri et al. | Design boundary layer thickness and switching gain in SMC algorithm for AUV motion control | |
Witkowska et al. | Adaptive backstepping tracking control for an over–actuated DP marine vessel with inertia uncertainties | |
Alfaro-Cid et al. | Genetic programming for the automatic design of controllers for a surface ship | |
Chavez-Galaviz et al. | ASV Station Keeping under Wind Disturbances using Neural Network Simulation Error Minimization Model Predictive Control | |
Praczyk | Using Hill Climb Modular Assembler Encoding and Differential Evolution to evolve modular neuro-controllers of an autonomous underwater vehicle acting as a Magnetic Anomaly Detector | |
Tipsuwan et al. | Overview and control strategies of autonomous sailboats—A survey | |
Wang et al. | Deep Reinforcement Learning Based Tracking Control of an Autonomous Surface Vessel in Natural Waters | |
Sun et al. | Deep learning-based trajectory tracking control forunmanned surface vehicle | |
Vianna et al. | Neural Network Based Model Predictive Control for an Autonomous Vehicle | |
Sola et al. | Evaluation of a deep-reinforcement-learning-based controller for the control of an autonomous underwater vehicle | |
Wang et al. | Cooperative control of velocity and heading for unmanned surface vessel based on twin delayed deep deterministic policy gradient with an integral compensator | |
Hu et al. | Collision avoidance of USV by model predictive control-aided deep reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |