CN114879671A - 一种基于强化学习mpc的无人艇轨迹跟踪控制方法 - Google Patents

一种基于强化学习mpc的无人艇轨迹跟踪控制方法 Download PDF

Info

Publication number
CN114879671A
CN114879671A CN202210477463.1A CN202210477463A CN114879671A CN 114879671 A CN114879671 A CN 114879671A CN 202210477463 A CN202210477463 A CN 202210477463A CN 114879671 A CN114879671 A CN 114879671A
Authority
CN
China
Prior art keywords
unmanned ship
network
control
mpc
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210477463.1A
Other languages
English (en)
Other versions
CN114879671B (zh
Inventor
王元慧
郝洋
张晓云
徐�明
刘冲
谢可超
程基涛
鄂继洋
关一田
秦紫琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202210477463.1A priority Critical patent/CN114879671B/zh
Publication of CN114879671A publication Critical patent/CN114879671A/zh
Application granted granted Critical
Publication of CN114879671B publication Critical patent/CN114879671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明属于水面无人艇轨迹跟踪控制技术领域,具体涉及一种基于强化学习MPC的无人艇轨迹跟踪控制方法。本发明在无人艇的MPC轨迹跟踪控制器设计过程中,选用无人艇的运动学模型和操纵响应模型作为预测模型,根据无人艇轨迹跟踪任务需求构造控制性能指标函数,在MPC滚动优化过程中利用强化学习的DDPG算法构建性能指标函数的求解器,通过最小化性能指标函数求解出轨迹跟踪的最优控制序列,最终将每时刻控制序列的第一个控制量作用于无人艇系统上。本发明提高了轨迹跟踪控制的鲁棒性和抗干扰,同时具备自学习能力,适应于复杂的海况环境,相较于传统的MPC控制算法其自主性和实时性更强,跟踪误差更小。

Description

一种基于强化学习MPC的无人艇轨迹跟踪控制方法
技术领域
本发明属于水面无人艇轨迹跟踪控制技术领域,具体涉及一种基于强化学习MPC的无人艇轨迹跟踪控制方法。
背景技术
无人艇(USV)是一种无人操作的水面舰艇,具有自主性强,智能化高等特点,在军事和民用领域有着广泛的用途。如何保证无人艇在海面上安全地自主航行,是无人艇研究领域的重要课题。在实际的应用中,无人艇多工作于复杂海况,除受风浪流等海洋环境的干扰外,无人艇在航行过程中多遇到岛屿、暗礁、船只,浮标等障碍物,这些障碍物又分为静止的障碍物和运动的障碍物,都会产生无人艇在航行过程发生碰撞的风险。因此,在无人艇航行之前一般会进行路径规划,为无人艇规划出一条安全的最短航迹,使无人艇沿着预设的航迹自主地航行。
无人艇多航行于复杂的海洋环境,易受风、浪、流的影响,加上无人艇多为欠驱动系统,非线性度较高,导致无人艇的轨迹跟踪控制变得异常复杂。从国内外的发展现状来看,无人艇轨迹跟踪控制一般采用滑模控制、反步法、神经网络PID、模糊PID,自抗扰控制等方法。随着人工智能的发展和进步,研究者们越来越重视将深度学习、强化学习、神经网络、群智能算法等智能算法融入到轨迹跟踪控制器的设计中来弥补当前控制算法的缺陷。
发明内容
本发明的目的在于提供一种基于强化学习MPC的无人艇轨迹跟踪控制方法。
一种基于强化学习MPC的无人艇轨迹跟踪控制方法,包括如下步骤:
步骤1:获取无人艇的实时状态信息(x,y,ψ,r),包括无人艇的位置坐标(x,y)、实时航向角ψ、艏摇角速度r;
步骤2:根据当前轨迹跟踪点Pk+1(xk+1,yk+1)和上一航迹跟踪点为Pk(xk,yk),利用LOS导引算法计算无人艇实时的期望航向角ψd
步骤3:建立无人艇轨迹跟踪的水平面数学模型,设计无人艇轨迹跟踪的DDPG-MPC智能控制器;
无人艇以恒定速度U航行,轨迹跟踪数学模型为:
Figure BDA0003626426190000021
其中,T表示无人艇对舵的快速应答性和航向稳定性;K为增益系数;α为非线性系数;δ为操舵角;
在控制器设计中,状态变量χ=(x,y,ψ,r),输出量Y=(x,y,ψ),控制量u=δ;
离散状况下无人艇轨迹跟踪非线性系统的预测模型表示为:
χ(k+1)=f(χ(k),u(k),w(k))
其中,w(k)为系统扰动;f(·)为系统的非线性函数;
考虑k时刻对k+i时刻状态变量χ的预测值可表示为χ(k+i|k),其对应的系统输出值Y(k+i|k)=Cχ(k+i|k),k+i时刻输入系统参考轨迹为Yref(k+i|k),作用于系统的控制量δ(k+i|k);
考虑k时刻开始由预测模型预测未来N个时刻的状态序列χ(k)、输出序列Y(k)、控制序列u(k)以及轨迹参考序列Yref(k)表示为:
χ(k)=(χ(k+1|k),......,χ(k+N|k))T
Y(k)=(Y(k+1|k),......,Y(k+N|k))T
u(k)=(u(k|k),......,u(k+N-1|k))T
Yref(k)=(Yref(k+1|k),......,Yref(k+N|k))T
由此根据上述部分建立无人艇轨迹跟踪控制的性能指标:
Figure BDA0003626426190000022
其中,Q,R为性能指标函数的权值矩阵;
步骤4:利用DDPG算法求解MPC滚动优化过程中的最优控制序列,控制序列的第一个控制量作用于无人艇系统上。
进一步地,所述步骤4具体为:
步骤4.1:构建DDPG算法的Actor-Critic网络,包括4个网络结构:Actor策略网络μ(a|θπ)、Critic价值网络Q(s,a|θQ)、Actor目标策略网络μ(a|θπ′)、Critic目标价值网络Q(s,a|θQ′),当前网络和目标网络的网络结构一致;
步骤4.2:初始化网络网络模型参数θπ、θQ,当前网络的参数复制到目标网络;
θπ′←θπ,θQ′←θQ
步骤4.3:选择无人艇的状态序列χ(k)作为DDPG算法的状态st,控制序列u(k)作为执行的动作at;选择无人艇轨迹跟踪控制的性能指标函数的负数作为DDPG算法的奖励回报;
Figure BDA0003626426190000031
步骤4.4:初始化无人艇的状态,根据当前无人艇的状态st,由策略网络根据当前的策略μ(a|θπ)给出状态st下的执行动作at,同时价值网络给出在状态st下执行动作at的价值Q(s,a|θQ),将动作序列的第一个动作即控制序列的第一个控制量作用于无人艇系统上使其与环境交互,得到下一时刻的状态st+1并得到及时的奖励rt,将每个过程产生的数据样本(st,at,rt,st+1)储存在经验池中用于训练策略网络和价值网络;
步骤4.5:从经验池中随机选取M个数据样本(si,ai,ri,si+1),对于价值网络的训练,构造价值网络训练的损失函数:
Figure BDA0003626426190000032
对于策略网络的训练采用策略梯度算法更新训练策略网络的参数,计算策略网络的策略梯度:
Figure BDA0003626426190000033
对于目标网络采用软更新的方式对其参数进行更新训练:
θQ′=τθQ+(1-τ)θQ′
θπ′=τθπ+(1-τ)θπ′
步骤4.6:经过多次迭代训练,策略网络产生最优策略
Figure BDA0003626426190000034
将训练好的策略网络作为MPC滚动优化的求解器。
本发明的有益效果在于:
本发明在无人艇的MPC轨迹跟踪控制器设计过程中,选用无人艇的运动学模型和操纵响应模型作为预测模型,根据无人艇轨迹跟踪任务需求构造控制性能指标函数,在MPC滚动优化过程中利用强化学习的DDPG算法构建性能指标函数的求解器,通过最小化性能指标函数求解出轨迹跟踪的最优控制序列,最终将每时刻控制序列的第一个控制量作用于无人艇系统上。本发明提高了轨迹跟踪控制的鲁棒性和抗干扰,同时具备自学习能力,适应于复杂的海况环境,相较于传统的MPC控制算法其自主性和实时性更强,跟踪误差更小。
附图说明
图1为本发明的总体流程图。
图2为LOS导引算法示意图。
图3为强化学习DDPG算法实现步骤示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明提出一种基于强化学习MPC的无人艇轨迹跟踪控制方法,实现无人艇轨迹跟踪的自主控制。在无人艇的MPC轨迹跟踪控制器设计过程中,选用无人艇的运动学模型和操纵响应模型作为预测模型,根据无人艇轨迹跟踪任务需求构造控制性能指标函数,在MPC滚动优化过程中利用强化学习的DDPG算法构建性能指标函数的求解器,通过最小化性能指标函数求解出轨迹跟踪的最优控制序列,最终将每时刻控制序列的第一个控制量作用于无人艇系统上。本发明所提出的方法提高了轨迹跟踪控制的鲁棒性和抗干扰,同时具备自学习能力,适应于复杂的海况环境。
一种基于强化学习MPC的无人艇轨迹跟踪控制方法,流程图如图1所示,主要包括以下步骤:
步骤1.实时监测无人艇状态信息,通过GPS导航定位系统获取无人艇的位置坐标(x,y)、利用罗经检测无人艇实时航向角ψ、利用陀螺仪检测无人艇艏摇角速度r。
步骤2.实时获取无人艇的状态信息(x,y,ψ,r),由当前轨迹跟踪点Pk+1(xk+1,yk+1)和上一航迹跟踪点为Pk(xk,yk)利用LOS导引算法计算无人艇实时的期望航向角ψd。详细步骤如图2所示:
将无人艇当前位置(x,y)投影至期望轨迹记为(xd(ω),yd(ω)),其中ω为轨迹参数,以该点为原点建立Serret-Frenet坐标系,沿期望轨迹的切线方向记为xp轴,与惯性系坐标轴的纵轴方向的夹角记为轨迹方位角ψp,则ψp=arctan(yd′(ω)/xd′(ω))。其中,ψp∈[-π,π],yd′(ω)=dyd(ω)/dω,xd′(ω)=dxd(ω)/dω。
轨迹参数更新率为:
Figure BDA0003626426190000051
为无人艇航行速度。
期望航向点(xLOS,yLOS)与无人艇当前位置在期望轨迹上投影点间的距离记为Δ,称为前视距离,Δ=nL,n=2~10,L为无人艇的长度。目标点(xLOS,yLOS)相对于无人艇当前位置的方位角即为无人艇的实时期望航向角ψd
ψd=ψp+arctan(-ye/Δ)
步骤3:建立无人艇轨迹跟踪的水平面数学模型,利用模型预测控制方法(MPC)结合强化学习的深度确定性策略梯度(DDPG)算法设计无人艇轨迹跟踪的DDPG-MPC智能控制器。
无人艇一阶非线性操纵响应模型为:
Figure BDA0003626426190000054
T表示无人艇对舵的快速应答性和航向稳定性;K为增益系数;α为非线性系数;r为转艏角速度;δ为操舵角。
由此得到无人艇轨迹跟踪模型:
Figure BDA0003626426190000052
考虑在实际航行中无人艇的纵向速度远远大于横向速度u>>v,横向速度v≈0,无人艇以恒定速度U航行,上述数学模型可简化为:
Figure BDA0003626426190000053
设置采样时间Ts经过离散化得到无人艇轨迹跟踪的预测模型:
Figure BDA0003626426190000061
由预测模型通过当前时刻的位置x(k),y(k),航向角ψ(k),角速度r(k)以及操舵角δ(k)可以推测下一时刻的位置x(k+1),y(k+1),航向角ψ(k+1),角速度r(k+1)。
式中,w(k)为系统的扰动变量。
在控制器设计中,状态变量χ=(x,y,ψ,r),输出量Y=(x,y,ψ),控制量u=δ。
离散状况下无人艇轨迹跟踪非线性系统的预测模型可表示为:
χ(k+1)=f(χ(k),u(k),w(k))
考虑k时刻对k+i时刻状态变量χ的预测值可表示为χ(k+i|k),其对应的系统输出值Y(k+i|k)=Cχ(k+i|k),k+i时刻输入系统参考轨迹为Yref(k+i|k),作用于系统的控制量δ(k+i|k)。
考虑k时刻开始由预测模型预测未来N个时刻的状态序列χ(k)、输出序列Y(k)、控制序列u(k)以及轨迹参考序列Yref(k)可表示为:
χ(k)=(χ(k+1|k),......,χ(k+N|k))T
Y(k)=(Y(k+1|k),......,Y(k+N|k))T
u(k)=(u(k|k),......,u(k+N-1|k))T
Yref(k)=(Yref(k+1|k),......,Yref(k+N|k))T
由此根据上述部分可建立无人艇轨迹跟踪控制的性能指标:
Figure BDA0003626426190000062
式中,Q,R为性能指标函数的权值矩阵。
步骤4.如图3所示,利用强化学习的深度确定性策略梯度(DDPG)算法求解MPC滚动优化过程中的最优控制序列,控制序列的第一个控制量作用于无人艇系统上。
(1)构建DDPG算法的Actor-Critic网络,包括4个网络结构,Actor策略网络μ(a|θπ),Critic价值网络Q(s,a|θQ),Actor目标策略网络μ(a|θπ′),Critic目标价值网络Q(s,a|θQ′)。当前网络和目标网络的网络结构一致。
(2)初始化网络网络模型参数θπ,θQ,当前网络的参数复制到目标网络
θπ′←θπ,θQ′←θQ
(3)选择无人艇某时刻的状态序列χ(k)作为DDPG算法的状态st,控制序列u(k)作为执行的动作at
(4)选择无人艇轨迹跟踪控制的性能指标函数的负数作为DDPG算法的奖励回报:
Figure BDA0003626426190000071
(5)初始化无人艇的状态,根据当前无人艇的状态st,由策略网络根据当前的策略μ(a|θπ)给出状态st下的执行动作at,同时价值网络给出在状态st下执行动作at的价值Q(s,a|θQ),将动作序列的第一个动作即控制序列的第一个控制量作用于无人艇系统上使其与环境交互,得到下一时刻的状态st+1并得到及时的奖励rt,将每个过程产生的数据样本(st,at,rt,st+1)储存在经验池中用于训练策略网络和价值网络。
(6)从经验池中随机选取M个数据样本(si,ai,ri,si+1),对于价值网络的训练,构造价值网络训练的损失函数:
Figure BDA0003626426190000072
对于策略网络的训练采用策略梯度算法更新训练策略网络的参数,计算策略网络的策略梯度:
Figure BDA0003626426190000073
对于目标网络采用软更新的方式对其参数进行更新训练:
θQ′=τθQ+(1-τ)θQ′
θπ′=τθπ+(1-τ)θπ′
(7)经过多次迭代训练,策略网络产生最优策略
Figure BDA0003626426190000081
将训练好的策略网络作为MPC滚动优化的求解器。
本发明所述的无人艇轨迹跟踪方法应用于无人艇的自主航行上,有效提高了无人艇轨迹跟踪过程中抗干扰性和鲁棒性,相较于传统的MPC控制算法其自主性和实时性更强,跟踪误差更小。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于强化学习MPC的无人艇轨迹跟踪控制方法,其特征在于,包括如下步骤:
步骤1:获取无人艇的实时状态信息(x,y,ψ,r),包括无人艇的位置坐标(x,y)、实时航向角ψ、艏摇角速度r;
步骤2:根据当前轨迹跟踪点Pk+1(xk+1,yk+1)和上一航迹跟踪点为Pk(xk,yk),利用LOS导引算法计算无人艇实时的期望航向角ψd
步骤3:建立无人艇轨迹跟踪的水平面数学模型,设计无人艇轨迹跟踪的DDPG-MPC智能控制器;
无人艇以恒定速度U航行,轨迹跟踪数学模型为:
Figure FDA0003626426180000011
其中,T表示无人艇对舵的快速应答性和航向稳定性;K为增益系数;α为非线性系数;δ为操舵角;
在控制器设计中,状态变量χ=(x,y,ψ,r),输出量Y=(x,y,ψ),控制量u=δ;
离散状况下无人艇轨迹跟踪非线性系统的预测模型表示为:
χ(k+1)=f(χ(k),u(k),w(k))
其中,w(k)为系统扰动;f(·)为系统的非线性函数;
考虑k时刻对k+i时刻状态变量χ的预测值可表示为χ(k+i|k),其对应的系统输出值Y(k+i|k)=Cχ(k+i|k),k+i时刻输入系统参考轨迹为Yref(k+i|k),作用于系统的控制量δ(k+i|k);
考虑k时刻开始由预测模型预测未来N个时刻的状态序列χ(k)、输出序列Y(k)、控制序列u(k)以及轨迹参考序列Yref(k)表示为:
χ(k)=(χ(k+1|k),......,χ(k+N|k))T
Y(k)=(Y(k+1|k),......,Y(k+N|k))T
u(k)=(u(k|k),......,u(k+N-1|k))T
Yref(k)=(Yref(k+1|k),......,Yref(k+N|k))T
由此根据上述部分建立无人艇轨迹跟踪控制的性能指标:
Figure FDA0003626426180000021
其中,Q,R为性能指标函数的权值矩阵;
步骤4:利用DDPG算法求解MPC滚动优化过程中的最优控制序列,控制序列的第一个控制量作用于无人艇系统上。
2.根据权利要求1所述的一种基于强化学习MPC的无人艇轨迹跟踪控制方法,其特征在于:所述步骤4具体为:
步骤4.1:构建DDPG算法的Actor-Critic网络,包括4个网络结构:Actor策略网络μ(a|θπ)、Critic价值网络Q(s,a|θQ)、Actor目标策略网络μ(a|θπ′)、Critic目标价值网络Q(s,a|θQ′),当前网络和目标网络的网络结构一致;
步骤4.2:初始化网络网络模型参数θπ、θQ,当前网络的参数复制到目标网络;
θπ′←θπ,θQ′←θQ
步骤4.3:选择无人艇的状态序列χ(k)作为DDPG算法的状态st,控制序列u(k)作为执行的动作at;选择无人艇轨迹跟踪控制的性能指标函数的负数作为DDPG算法的奖励回报;
Figure FDA0003626426180000022
步骤4.4:初始化无人艇的状态,根据当前无人艇的状态st,由策略网络根据当前的策略μ(a|θπ)给出状态st下的执行动作at,同时价值网络给出在状态st下执行动作at的价值Q(s,a|θQ),将动作序列的第一个动作即控制序列的第一个控制量作用于无人艇系统上使其与环境交互,得到下一时刻的状态st+1并得到及时的奖励rt,将每个过程产生的数据样本(st,at,rt,st+1)储存在经验池中用于训练策略网络和价值网络;
步骤4.5:从经验池中随机选取M个数据样本(si,ai,ri,si+1),对于价值网络的训练,构造价值网络训练的损失函数:
Figure FDA0003626426180000031
对于策略网络的训练采用策略梯度算法更新训练策略网络的参数,计算策略网络的策略梯度:
Figure FDA0003626426180000032
对于目标网络采用软更新的方式对其参数进行更新训练:
θQ′=τθQ+(1-τ)θQ′
θπ′=τθπ+(1-τ)θπ′
步骤4.6:经过多次迭代训练,策略网络产生最优策略
Figure FDA0003626426180000033
将训练好的策略网络作为MPC滚动优化的求解器。
CN202210477463.1A 2022-05-04 2022-05-04 一种基于强化学习mpc的无人艇轨迹跟踪控制方法 Active CN114879671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210477463.1A CN114879671B (zh) 2022-05-04 2022-05-04 一种基于强化学习mpc的无人艇轨迹跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210477463.1A CN114879671B (zh) 2022-05-04 2022-05-04 一种基于强化学习mpc的无人艇轨迹跟踪控制方法

Publications (2)

Publication Number Publication Date
CN114879671A true CN114879671A (zh) 2022-08-09
CN114879671B CN114879671B (zh) 2024-10-15

Family

ID=82673473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210477463.1A Active CN114879671B (zh) 2022-05-04 2022-05-04 一种基于强化学习mpc的无人艇轨迹跟踪控制方法

Country Status (1)

Country Link
CN (1) CN114879671B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115933412A (zh) * 2023-01-12 2023-04-07 中国航发湖南动力机械研究所 基于事件触发预测控制的航空发动机控制方法及装置
CN116466589A (zh) * 2023-04-26 2023-07-21 长春理工大学 一种基于自抗扰模型的路径跟踪控制方法、装置、存储介质及电子设备
CN116560241A (zh) * 2023-07-10 2023-08-08 北京科技大学 面向铰接车的显式循环模型预测控制轨迹跟踪方法和装置
CN117369286A (zh) * 2023-12-04 2024-01-09 中国海洋大学 一种海洋平台动力定位控制方法
CN118011390A (zh) * 2024-03-20 2024-05-10 中联金冠信息技术(北京)有限公司 基于无人机的穿墙雷达探测系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106338919A (zh) * 2016-11-02 2017-01-18 哈尔滨工程大学 基于增强学习型智能算法的无人艇航迹跟踪控制方法
CN108319138A (zh) * 2018-01-29 2018-07-24 哈尔滨工程大学 一种欠驱动无人艇的滑模-反步双回路轨迹跟踪控制方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN112947431A (zh) * 2021-02-03 2021-06-11 海之韵(苏州)科技有限公司 一种基于强化学习的无人船路径跟踪方法
CN114077258A (zh) * 2021-11-22 2022-02-22 江苏科技大学 一种基于强化学习ppo2算法的无人艇位姿控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106338919A (zh) * 2016-11-02 2017-01-18 哈尔滨工程大学 基于增强学习型智能算法的无人艇航迹跟踪控制方法
CN108319138A (zh) * 2018-01-29 2018-07-24 哈尔滨工程大学 一种欠驱动无人艇的滑模-反步双回路轨迹跟踪控制方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN112947431A (zh) * 2021-02-03 2021-06-11 海之韵(苏州)科技有限公司 一种基于强化学习的无人船路径跟踪方法
CN114077258A (zh) * 2021-11-22 2022-02-22 江苏科技大学 一种基于强化学习ppo2算法的无人艇位姿控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张丽珍;高浩;吴迪;李卫;陆天辰: "基于MPC的半潜式无人艇导航轨迹跟踪控制研究", 全球定位系统, no. 003, 31 December 2020 (2020-12-31) *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115933412A (zh) * 2023-01-12 2023-04-07 中国航发湖南动力机械研究所 基于事件触发预测控制的航空发动机控制方法及装置
CN116466589A (zh) * 2023-04-26 2023-07-21 长春理工大学 一种基于自抗扰模型的路径跟踪控制方法、装置、存储介质及电子设备
CN116466589B (zh) * 2023-04-26 2024-02-09 长春理工大学 一种基于自抗扰模型的路径跟踪控制方法、装置、存储介质及电子设备
CN116560241A (zh) * 2023-07-10 2023-08-08 北京科技大学 面向铰接车的显式循环模型预测控制轨迹跟踪方法和装置
CN116560241B (zh) * 2023-07-10 2023-09-15 北京科技大学 面向铰接车的显式循环模型预测控制轨迹跟踪方法和装置
CN117369286A (zh) * 2023-12-04 2024-01-09 中国海洋大学 一种海洋平台动力定位控制方法
CN117369286B (zh) * 2023-12-04 2024-02-09 中国海洋大学 一种海洋平台动力定位控制方法
CN118011390A (zh) * 2024-03-20 2024-05-10 中联金冠信息技术(北京)有限公司 基于无人机的穿墙雷达探测系统

Also Published As

Publication number Publication date
CN114879671B (zh) 2024-10-15

Similar Documents

Publication Publication Date Title
CN114879671B (zh) 一种基于强化学习mpc的无人艇轨迹跟踪控制方法
Zhou et al. The review unmanned surface vehicle path planning: Based on multi-modality constraint
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
Moreira et al. Path following control system for a tanker ship model
Tan et al. Fast marching square method based intelligent navigation of the unmanned surface vehicle swarm in restricted waters
Xu et al. Estimation of hydrodynamic coefficients of a nonlinear manoeuvring mathematical model with free-running ship model tests
Yang et al. An improved stanley guidance law for large curvature path following of unmanned surface vehicle
CN110609556A (zh) 一种基于los导航法的多无人艇协同控制方法
JP2021181301A (ja) 船舶の自動誘導方法、船舶の自動誘導プログラム、船舶の自動誘導システム、及び船舶
Guan et al. Autonomous collision avoidance of unmanned surface vehicles based on improved A-star and dynamic window approach algorithms
CN113885534A (zh) 一种基于智能预测控制的水面无人船路径跟踪方法
Deng et al. Parallel guidance and event-triggered robust fuzzy control for path following of autonomous wing-sailed catamaran
CN112947431A (zh) 一种基于强化学习的无人船路径跟踪方法
CN113126492B (zh) 动力定位船舶自动路径跟踪方法
Zhou et al. An improved beetle swarm optimization algorithm for the intelligent navigation control of autonomous sailing robots
CN114895673A (zh) 一种规则约束下基于深度强化学习的船舶避碰决策方法
Zhao et al. Decision-making for the autonomous navigation of USVs based on deep reinforcement learning under IALA maritime buoyage system
Liang et al. Economic MPC-based planning for marine vehicles: Tuning safety and energy efficiency
CN114967702A (zh) 一种无人艇控制系统及路径跟踪方法
von Ellenrieder Control of marine vehicles
Peimin et al. The design of gain scheduling PID controller of the USV course control system
CN114609905A (zh) 一种船舶编队事件触发控制方法
Wen et al. Online heuristically planning for relative optimal paths using a stochastic algorithm for USVs
Wu et al. A Review of Path Planning Methods for Marine Autonomous Surface Vehicles
CN115933467A (zh) 基于李雅普诺夫神经网络的无人系统控制方法及控制系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant