CN113110504B - 一种基于强化学习和视线法的无人艇路径跟踪方法 - Google Patents

一种基于强化学习和视线法的无人艇路径跟踪方法 Download PDF

Info

Publication number
CN113110504B
CN113110504B CN202110517912.6A CN202110517912A CN113110504B CN 113110504 B CN113110504 B CN 113110504B CN 202110517912 A CN202110517912 A CN 202110517912A CN 113110504 B CN113110504 B CN 113110504B
Authority
CN
China
Prior art keywords
unmanned ship
reinforcement learning
network
line
critic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110517912.6A
Other languages
English (en)
Other versions
CN113110504A (zh
Inventor
董璐
熊国虹
刘剑
王远大
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yunzhikong Industrial Technology Research Institute Co ltd
Original Assignee
Nanjing Yunzhikong Industrial Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yunzhikong Industrial Technology Research Institute Co ltd filed Critical Nanjing Yunzhikong Industrial Technology Research Institute Co ltd
Priority to CN202110517912.6A priority Critical patent/CN113110504B/zh
Publication of CN113110504A publication Critical patent/CN113110504A/zh
Application granted granted Critical
Publication of CN113110504B publication Critical patent/CN113110504B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于强化学习和视线法的无人艇路径跟踪方法,拟采用DDPG对可视距离进行合理的预测,让无人艇“学会”根据当前状态动态地调整可视距离。包括如下步骤:S1.搭建无人艇仿真模型,定义无人艇运动参数;S2.设计基于强化学习基本框架对可视距离进行预测,拟采用双层全连接神经网络作为DDPG四个子网络的基本结构,激活函数采用Leaky‑ReLU;S3.设计强化学习和视线法结合的PID控制框架;S4.对步骤S3中设计好的模型进行训练并保存训练参数。S5.对于同样的初始状态做对比仿真实验、实艇实验。本发明的方法使得船舶在航行过程中获得更高精度、更快速的航迹跟踪。

Description

一种基于强化学习和视线法的无人艇路径跟踪方法
技术领域
本发明属于无人艇路径跟踪控制技术领域,具体涉及一种基于强化学习和视线法的无人艇路径跟踪方法。
背景技术
强化学习(Reinforcement Learning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process,MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。深度学习模型可以在强化学习中得到使用,形成深度强化学习。
视线法的导航原理体现在它对舵手操舵和船舶运动的直观理解上。该原理认为:如果使被控船舶的航向保持对准视线角(LOS角),那么经过适当的控制,就能使被控船舶到达期望的位置,达到航迹跟踪的效果。而且LOS算法能将传统的控制量从3个自由度的船舶位置和航向角减少到2个自由度的船舶航向角和航行速度,这种特性对于欠驱动船舶的控制尤为重要。视距导航的控制方法就是通过在目标路径上选取合适的导航点,引导无人水面艇跟踪目标导航点,最终使无人水面艇沿着目标路径航行。
在工程实际中,应用最为广泛的调节器控制规律为比例、积分、微分控制,简称PID控制,又称PID调节。PID控制器问世至今已有近70年历史,它以其结构简单、稳定性好、工作可靠、调整方便而成为工业控制的主要技术之一。当被控对象的结构和参数不能完全掌握,或得不到精确的数学模型时,控制理论的其它技术难以采用时,系统控制器的结构和参数必须依靠经验和现场调试来确定,这时应用PID控制技术最为方便。比例控制是一种最简单的控制方式。其控制器的输出与输入误差信号成比例关系。当仅有比例控制时系统输出存在稳态误差(Steady-state error)。在积分控制中,控制器的输出与输入误差信号的积分成正比关系。对一个自动控制系统,如果在进入稳态后存在稳态误差,则称这个控制系统是有稳态误差的或简称有差系统(System with Steady-state Error)。为了消除稳态误差,在控制器中必须引入“积分项”。积分项对误差取决于时间的积分,随着时间的增加,积分项会增大。这样,即便误差很小,积分项也会随着时间的增加而加大,它推动控制器的输出增大使稳态误差进一步减小,直到接近于零。因此,比例+积分(PI)控制器,可以使系统在进入稳态后几乎无稳态误差。在微分控制中,控制器的输出与输入误差信号的微分(即误差的变化率)成正比关系。自动控制系统在克服误差的调节过程中可能会出现振荡甚至失稳。其原因是由于存在有较大惯性组件(环节)或有滞后(delay)组件,具有抑制误差的作用,其变化总是落后于误差的变化。解决的办法是使抑制误差的作用的变化“超前”,即在误差接近零时,抑制误差的作用就应该是零。这就是说,在控制器中仅引入“比例”项往往是不够的,比例项的作用仅是放大误差的幅值,而需要增加的是“微分项”,它能预测误差变化的趋势,这样,具有比例+微分的控制器,就能够提前使抑制误差的控制作用等于零,甚至为负值,从而避免了被控量的严重超调。所以对有较大惯性或滞后的被控对象,比例+微分(PD)控制器能改善系统在调节过程中的动态特性。
由于LOS理论认为只要使被控船舶的航向保持对准LOS角,被控船舶就能达到期望的位置,所以如何获得LOS角便成了研究的重点所在。在传统LOS方法中,LOS角由可视距离Δ确定,而Δ=n×L是一个固定值,且常常根据人工经验设置.不同船长比n对路径跟踪的影响比较明显,当船长比较小时(目标航向与当前航向偏差较大),跟踪曲线超调量较大;当船长比较大时,无人水面艇靠近目标路径较为缓慢(目标航向与当前航向偏差较小),调节时间过长。常见的调整船长比的方法是模糊控制,但也需要根据人工经验调整。
发明内容
为解决上述问题,本发明公开了一种基于强化学习和视线法的无人艇路径跟踪方法,采用强化学习的方法对可视距离进行合理的预测,让无人艇“学会”根据当前状态动态地调整可视距离,从而使得船舶在航行过程中获得更高精度、更快速的航迹跟踪。
上述的目的通过以下的技术方案实现:
一种基于强化学习和视线法的无人艇路径跟踪方法,该方法包括如下步骤:
S1.搭建仿真模型并定义无人艇运动参数。可利用软件如vrep和gazebo搭建无人艇仿真环境,也可根据无人艇实际运动数据对它的运动模型进行拟合从而获得仿真模型;
S2.设计基于强化学习模型的基本框架,拟采用双层全连接神经网络作为Actor当前网络μ(s|θμ)、Actor目标网络ν′(s|θμ′)、Critic当前网络Q(s,a|θQ)、Critic目标网络Q′(s,a|θQ′)基本结构,激活函数采用Leaky-ReLU;
S3.设计强化学习和视线法结合的PID控制框架;
S4.对步骤S3中设计好的模型进行训练并保存训练参数。
S5.对于同样的初始状态做对比仿真实验、实艇实验。
所述的基于强化学习和视线法的无人艇路径跟踪方法,步骤S1中所述无人艇运动参数定义为:
无人艇运动速度V、x轴速度u、y轴速度v、航向角ψ、角速度w、无人艇与目标航线的垂直距离h、目标航线的倾斜角度αk,航向角与目标航线倾角的偏差为αk-ψ,αφ为无人艇期望航向,β为漂角且β=tan-1(v/u),Δ为无人水面艇的可视距离,是无人水面艇在路径上的投影点T与导航点(xLOS,yLOS)之间的距离;
智能体动作a(可视距离Δ)为一个连续的正实数,范围为0-M,M可根据航线长度调整;
奖励值r设置为:r=-h;
观测状态s定义为:
s=[u,v,cos(ψ),sin(ψ),w,h,cos(αk),sin(αk),cos(αk-ψ),sin(αk-ψ)]。
所述的基于强化学习和视线法的无人艇路径跟踪方法,步骤S2中所述基于强化学习模型的基本框架中:
(a).Actor当前网络μ(s|θμ):负责Actor当前网络参数θμ迭代更新,负责根据当前状态s选择当前动作a,用于和环境交互生成下一状态和奖励值r;
(b).Actor目标网络μ′(s|θμ′):负责根据经验回放池中采样的状态选择最优动作,Actor目标网络参数θμ′定期根据Actor当前网络参数θμ更新;
(c).Critic当前网络Q(s,a|θQ):负责Critic当前网络参数θQ的迭代更新,负责计算当前动作价值Q值;
(d).Critic目标网络Q′(s,a|θQ′):负责计算预测动作价值Q′值,Critic目标网络参数θQ′定期根据Critic当前网络参数θQ更新。
所述的基于强化学习和视线法的无人艇路径跟踪方法,步骤S3中所述强化学习和视线法结合的PID控制框架,其第i步的控制量的计算公式如下:
Δi=ai
αφ,i=αk,i+tan-1(-hii)-βi
erri=αφ,ii
Ii=Ii-1+KI×erri
dui=Kp×erri+Ii
Figure BDA0003062900260000031
Figure BDA0003062900260000032
其中Δi为无人艇第i步的可视距离,ai为第i步强化学习网络计算得到的动作值,αφi、αk,i分别是第i步无人艇期望航向和直线路径方向,ψi、βi、erri、dui分别为第i步无人艇航向、漂角、航向误差、控制量偏差,Ii、Ii-1分别为第i步、第i-1步的积分项,KI为积分控制的系数,Kp为比例控制的系数,Min、Max分别为最小控制量、最大控制量,UL、UR分别为左电机控制量、右电机控制量,U0为基础控制量。
所述的基于强化学习和视线法的无人艇路径跟踪方法,步骤S4中所述对步骤S3中设计好的模型进行训练并保存训练参数的具体方法是:
1)初始化参数:迭代次数M,每次迭代最大步数T,软更新参数τ,critic网络和actor网络学习率,衰减因子γ;
2)随机初始化权重θQ、θμ、θQ′和θμ′,初始化经验池R,初始化仿真环境;
3)初始化随机噪声η;
4)从仿真环境获得第i步观测状态si
si=[ui,vi,cos(ψi),sin(ψi),w,h,cos(αk),sin(αk),cos(αk-ψ),sin(αk-ψ)]
5)对于第i步,根据当前网络和随机噪声获得动作值ai=μ(siμ)+ηi,并根据下式计算控制量,执行控制命令与环境交互,获得第i步奖励值ri=-hi和第i+1步观测状态si+1,存储记录(si,ai,ri,si+1)在经验池R中;
Δi=ai
αφ,i=αk,i+tan-1(-hii)-βi
erri=αφ,ii
Ii=Ii-1+KI×erri
dui=Kp×erri+Ii
Figure BDA0003062900260000041
Figure BDA0003062900260000042
6)当经验池存储数量达到一万以上,从中随机抽取N个记录(st,at,rt,st+1),其中t是随机的,计算目标值函数yt
yt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
7)根据损失L更新critic网络:
Figure BDA0003062900260000043
8)根据梯度
Figure BDA0003062900260000051
更新actor网络:
Figure BDA0003062900260000052
9)更新参数θQ′、θμ′
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
10、若未达到最大步数T,重复4-9;
11、若未达到最大迭代次数M,重复3-10;
12、保存训练参数。
所述的基于强化学习和视线法的无人艇路径跟踪方法,步骤S5中所述具体实验方法为:
对于同样的初始状态(无人艇具有同样的起始位置、航向、速度、目标航线等),对使用强化学习方法进行可视距离调整和未使用强化学习的两种情况做对比仿真实验和实艇实验。
本发明的有益效果是:
解决了传统LOS方法中可视距离Δ不可调或根据人工经验调整Δ既依赖经验、复杂繁琐,且不具有广泛适应性的问题。本发明根据船舶实际运动状态利用强化学习对可视距离进行合理的、连续的预测,让无人艇“学会”根据当前状态动态地调整控制量,从而使得船舶在航行过程中获得更高精度、更快速的航迹跟踪。
附图说明
图1是视线法原理图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
基于强化学习和视线法的无人艇路径跟踪方法,该方法包括如下步骤:
S1.搭建仿真模型并定义无人艇运动参数。可利用软件如vrep和gazebo搭建无人艇仿真环境,也可根据无人艇实际运动数据对它的运动模型进行拟合从而获得仿真模型;
S2.设计基于强化学习模型的基本框架,拟采用双层全连接神经网络作为Actor当前网络μ(s|θμ)、Actor目标网络μ′(s|θμ′)、Critic当前网络Q(s,a|θQ)、Critic目标网络Q′(s,a|θQ′)基本结构,激活函数采用Leaky-ReLU;
S3.设计强化学习和视线法结合的PID控制框架;
S4.对步骤S3中设计好的模型进行训练并保存训练参数。
S5.对于同样的初始状态做对比仿真实验、实艇实验。
所述的基于强化学习和视线法的无人艇路径跟踪方法,步骤S1中所述无人艇运动参数定义为:
无人艇运动速度V、x轴速度u、y轴速度v、航向角ψ、角速度w、无人艇与目标航线的垂直距离h、目标航线的倾斜角度αk,航向角与目标航线倾角的偏差为αk-ψ,αφ为无人艇期望航向,β为漂角且β=tan-1(v/u),Δ为无人水面艇的可视距离,是无人水面艇在路径上的投影点T与导航点(xLOs,yLOS)之间的距离;
智能体动作a(可视距离Δ)为一个连续的正实数,范围为0-M,M可根据航线长度调整;
奖励值r设置为:r=-h;
观测状态s定义为:
s=[u,v,cos(ψ),sin(ψ),w,h,cos(αk),sin(αk),cos(αk-ψ),sin(αk-ψ)]。
所述的基于强化学习和视线法的无人艇路径跟踪方法,步骤S2中所述基于强化学习模型的基本框架中:
(a).Actor当前网络μ(s|θμ):负责Actor当前网络参数θμ迭代更新,负责根据当前状态s选择当前动作a,用于和环境交互生成下一状态和奖励值r;
(b).Actor目标网络μ′(s|θμ′):负责根据经验回放池中采样的状态选择最优动作,Actor目标网络参数θμ′定期根据Actor当前网络参数θμ更新;
(c).Critic当前网络Q(s,a|θQ):负责Critic当前网络参数θQ的迭代更新,负责计算当前动作价值Q值;
(d).Critic目标网络Q′(s,a|θQ′):负责计算预测动作价值Q′值,Critic目标网络参数θQ′定期根据Critic当前网络参数θQ更新。
所述的基于强化学习和视线法的无人艇路径跟踪方法,步骤S3中所述强化学习和视线法结合的PID控制框架,其第i步的控制量的计算公式如下:
Δi=ai
αφ,i=αk,i+tan-1(-hii)-βi
erri=αφ,ii
Ii=Ii-1+KI×erri
dui=Kp×erri+Ii
Figure BDA0003062900260000071
Figure BDA0003062900260000072
其中Δi为无人艇第i步的可视距离,ai为第i步强化学习网络计算得到的动作值,αφi、αk,i分别是第i步无人艇期望航向和直线路径方向,ψi、βi、erri、dui分别为第i步无人艇航向、漂角、航向误差、控制量偏差,Ii、Ii-1分别为第i步、第i-1步的积分项,KI为积分控制的系数,Kp为比例控制的系数,Min、Max分别为最小控制量、最大控制量,UL、UR分别为左电机控制量、右电机控制量,U0为基础控制量(一般设置为无人艇正常直行时的控制值)。
所述的基于强化学习和视线法的无人艇路径跟踪方法,步骤S4中所述对步骤S3中设计好的模型进行训练并保存训练参数的具体方法是:
1)初始化参数:迭代次数M,每次迭代最大步数T,软更新参数τ,critic网络和actor网络学习率,衰减因子γ;
2)随机初始化权重θQ、θμ、θQ′和θμ′,初始化经验池R,初始化仿真环境;
3)初始化随机噪声η;
4)从仿真环境获得第i步观测状态si
si=[ui,vi,cos(ψi),sin(ψi),w,h,cos(αk),sin(αk),cos(αk-ψ),sin(αk-ψ)]
5)对于第i步,根据当前网络和随机噪声获得动作值ai=μ(siμ)+ηi,并根据下式计算控制量,执行控制命令与环境交互,获得第i步奖励值ri=-hi和第i+1步观测状态si+1,存储记录(si,ai,ri,si+1)在经验池R中;
Δi=ai
αφ,i=αk,i+tan-1(-hii)-βi
erri=αφ,ii
Ii=Ii-1+KI×erri
dui=Kp×erri+Ii
Figure BDA0003062900260000073
Figure BDA0003062900260000074
6)当经验池存储数量达到一万以上,这里可根据计算机内存适当修改,从中随机抽取N个记录(st,at,rt,st+1),其中t是随机的,计算目标值函数yt
yt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
7)根据损失L更新critic网络:
Figure BDA0003062900260000081
8)根据梯度
Figure BDA0003062900260000082
更新actor网络:
Figure BDA0003062900260000083
9)更新参数θQ′、θμ′
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
10、若未达到最大步数T,重复4-9;
11、若未达到最大迭代次数M,重复3-10;
12、保存训练参数。
所述的基于强化学习和视线法的无人艇路径跟踪方法,步骤S5中所述实验方法为:
对于同样的初始状态(无人艇具有同样的起始位置、航向、速度、目标航线等),对使用强化学习方法进行可视距离调整和未使用强化学习的两种情况做对比仿真实验和实艇实验。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

Claims (3)

1.一种基于强化学习和视线法的无人艇路径跟踪方法,其特征在于,该方法包括如下步骤:
S1.搭建仿真模型并定义无人艇运动参数,利用软件vrep和gazebo搭建无人艇仿真环境,或者根据无人艇实际运动数据对它的运动模型进行拟合从而获得仿真模型;
S2.设计基于强化学习模型的基本框架,拟采用双层全连接神经网络作为Actor当前网络μ(s|θμ)、Actor目标网络μ′(s|θμ′)、Critic当前网络Q(s,a|θQ)、Critic目标网络Q′(s,a|θQ′)基本结构,激活函数采用Leaky-ReLU;
S3.设计强化学习和视线法结合的PID控制框架;
S4.对步骤S3中设计好的模型进行训练并保存训练参数;
S5.对于同样的初始状态做对比仿真实验、实艇实验;
步骤S1中所述无人艇运动参数定义为:
无人艇运动速度V、x轴速度u、y轴速度v、航向角ψ、角速度w、无人艇与目标航线的垂直距离h、目标航线的倾斜角度αk,航向角与目标航线倾角的偏差为αk-ψ,αφ为无人艇期望航向,β为漂角且β=tan-1(v/u),Δ为无人艇的可视距离,是无人水面艇在路径上的投影点T与导航点(xLOS,yLOS)之间的距离;
智能体动作a为一个连续的正实数,范围为0-M,M可根据航线长度调整;
奖励值r设置为:r=-h;
观测状态s定义为:
s=[u,v,cos(ψ),sin(ψ),w,h,cos(αk),sin(αk),cos(αk-ψ),sin(αk-ψ)];
步骤S2中所述基于强化学习模型的基本框架中:
(a).Actor当前网络μ(s|θμ):负责Actor当前网络参数θμ迭代更新,负责根据当前状态s选择当前动作a,用于和环境交互生成下一状态和奖励值r;
(b).Actor目标网络μ′(s|θμ′):负责根据经验回放池中采样的状态选择最优动作,Actor目标网络参数θu′定期根据Actor当前网络参数θμ更新;
(c).Critic当前网络Q(s,a|θQ):负责Critic当前网络参数θQ的迭代更新,负责计算当前动作价值Q值;
(d).Critic目标网络Q′(s,a|θQ′):负责计算预测动作价值Q′值,Critic目标网络参数θQ′定期根据Critic当前网络参数θQ更新;
步骤S3中所述强化学习和视线法结合的PID控制框架,其第i步的控制量的计算公式如下:
Δi=ai
αφ,i=αk,i+tan-1(-hii)-βi
erri=αφ,ii
Ii=Ii-1+KI×erri
dui=Kp×erri+Ii
Figure FDA0003886508140000021
Figure FDA0003886508140000022
其中Δi为无人艇第i步的可视距离,ai为第i步强化学习网络计算得到的动作值,αφ,i、αk,i分别是第i步无人艇期望航向和直线路径方向,ψi、βi、erri、dui分别为第i步无人艇航向、漂角、航向误差、控制量偏差,Ii、Ii-1分别为第i步、第i-1步的积分项,KI为积分控制的系数,Kp为比例控制的系数,Min、Max分别为最小控制量、最大控制量,UL、UR分别为左电机控制量、右电机控制量,U0为基础控制量。
2.根据权利要求1所述的基于强化学习和视线法的无人艇路径跟踪方法,其特征在于,步骤S4中所述对步骤S3中设计好的模型进行训练并保存训练参数的具体方法是:
1)初始化参数:迭代次数M,每次迭代最大步数T,软更新参数τ,critic网络和actor网络学习率,衰减因子γ;
2)随机初始化权重θQ、θμ、θQ′和θμ′,初始化经验池R,初始化仿真环境;
3)初始化随机噪声η;
4)从仿真环境获得第i步观测状态si
si=[ui,vi,cos(ψi),sin(ψi),w,h,cos(αk),sin(αk),cos(αk-ψ),sin(αk-ψ)]
5)对于第i步,根据当前网络和随机噪声获得动作值ai=μ(siμ)+ηi,并根据下式计算控制量,执行控制命令与环境交互,获得第i步奖励值ri=-hi和第i+1步观测状态si+1,存储记录(si,ai,ri,si+1)在经验池R中;
Δi=ai
αφ,i=αk,i+tan-1(-hii)-βi
erri=αφ,ii
Ii=Ii-1+KI×erri
dui=Kp×erri+Ii
Figure FDA0003886508140000023
Figure FDA0003886508140000031
6)当经验池存储数量达到一万以上,从中随机抽取N个记录(st,at,vt,st+1),其中t是随机的,计算目标值函数yt
yt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
7)根据损失L更新critic网络:
Figure FDA0003886508140000032
8)根据梯度
Figure FDA0003886508140000033
更新actor网络:
Figure FDA0003886508140000034
9)更新参数θQ′、θμ′
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
10)若未达到最大步数T,重复4)-9);
11)若未达到最大迭代次数M,重复3)-10);
12)保存训练参数。
3.根据权利要求1所述的基于强化学习和视线法的无人艇路径跟踪方法,其特征在于,步骤S5中所述实验方法为:对于同样的初始状态,即无人艇具有同样的运动参数,对使用强化学习方法进行可视距离调整和未使用强化学习的两种情况做对比仿真实验和实艇实验。
CN202110517912.6A 2021-05-12 2021-05-12 一种基于强化学习和视线法的无人艇路径跟踪方法 Active CN113110504B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110517912.6A CN113110504B (zh) 2021-05-12 2021-05-12 一种基于强化学习和视线法的无人艇路径跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110517912.6A CN113110504B (zh) 2021-05-12 2021-05-12 一种基于强化学习和视线法的无人艇路径跟踪方法

Publications (2)

Publication Number Publication Date
CN113110504A CN113110504A (zh) 2021-07-13
CN113110504B true CN113110504B (zh) 2022-11-22

Family

ID=76722076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110517912.6A Active CN113110504B (zh) 2021-05-12 2021-05-12 一种基于强化学习和视线法的无人艇路径跟踪方法

Country Status (1)

Country Link
CN (1) CN113110504B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113741449B (zh) * 2021-08-30 2023-07-14 南京信息工程大学 一种面向海空协同观测任务的多智能体控制方法
CN113734197A (zh) * 2021-09-03 2021-12-03 合肥学院 一种基于数据融合的无人驾驶的智能控制方案
CN113821035A (zh) * 2021-09-22 2021-12-21 北京邮电大学 无人船轨迹追踪控制方法和装置
CN114077258B (zh) * 2021-11-22 2023-11-21 江苏科技大学 一种基于强化学习ppo2算法的无人艇位姿控制方法
CN117387635B (zh) * 2023-12-13 2024-02-23 安徽大学 一种基于深度强化学习和pid控制器的无人机导航方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112034711B (zh) * 2020-08-31 2022-06-03 东南大学 一种基于深度强化学习的无人艇抗海浪干扰控制方法

Also Published As

Publication number Publication date
CN113110504A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN113110504B (zh) 一种基于强化学习和视线法的无人艇路径跟踪方法
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
Belleter et al. Observer based path following for underactuated marine vessels in the presence of ocean currents: A global approach
CN106444806B (zh) 基于生物速度调节的欠驱动auv三维轨迹跟踪控制方法
Shin et al. Nonlinear model predictive formation flight
Borhaug et al. Cross-track control for underactuated autonomous vehicles
CN113050652B (zh) 一种用于智能船舶自动靠泊的轨迹规划方法
CN111240345B (zh) 基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
Liu et al. Predictive path following based on adaptive line-of-sight for underactuated autonomous surface vessels
CN111597702B (zh) 一种火箭着陆轨迹规划方法及装置
CN109062040B (zh) 基于系统嵌套优化的预测pid方法
CN111308890A (zh) 一种带有指定性能的无人船数据驱动强化学习控制方法
Wang et al. Extended state observer-based fixed-time trajectory tracking control of autonomous surface vessels with uncertainties and output constraints
CN113467231A (zh) 基于侧滑补偿ilos制导律的无人艇路径跟踪方法
CN113110527B (zh) 一种自主水下航行器有限时间路径跟踪的级联控制方法
Vibhute Adaptive dynamic programming based motion control of autonomous underwater vehicles
Karthick et al. Relative analysis of controller effectiveness for vertical plane control of an autonomous underwater vehicle
Liu et al. Robust Adaptive Self‐Structuring Neural Network Bounded Target Tracking Control of Underactuated Surface Vessels
CN112859891B (zh) 一种基于粒子群算法优化自适应滑模控制参数的auv航向角控制方法
Zhang et al. Single neural network-based asymptotic adaptive control for an autonomous underwater vehicle with uncertain dynamics
Wang et al. Course tracking control for smart ships based on a deep deterministic policy gradient-based algorithm
Shao et al. Sailboat path following control based on LOS with sideslip angle observation and finite-time backstepping
Sinisterra et al. Nonlinear and machine-learning-based station-keeping control of an unmanned surface vehicle
Fan et al. Path-Following Control of Unmanned Underwater Vehicle Based on an Improved TD3 Deep Reinforcement Learning
CN117519136B (zh) 一种考虑大曲率转弯的无人艇路径跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant