CN114879671A

CN114879671A - 一种基于强化学习mpc的无人艇轨迹跟踪控制方法

Info

Publication number: CN114879671A
Application number: CN202210477463.1A
Authority: CN
Inventors: 王元慧; 郝洋; 张晓云; 徐�明; 刘冲; 谢可超; 程基涛; 鄂继洋; 关一田; 秦紫琦
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2022-05-04
Filing date: 2022-05-04
Publication date: 2022-08-09
Anticipated expiration: 2042-05-04
Also published as: CN114879671B

Abstract

本发明属于水面无人艇轨迹跟踪控制技术领域，具体涉及一种基于强化学习MPC的无人艇轨迹跟踪控制方法。本发明在无人艇的MPC轨迹跟踪控制器设计过程中，选用无人艇的运动学模型和操纵响应模型作为预测模型，根据无人艇轨迹跟踪任务需求构造控制性能指标函数，在MPC滚动优化过程中利用强化学习的DDPG算法构建性能指标函数的求解器，通过最小化性能指标函数求解出轨迹跟踪的最优控制序列，最终将每时刻控制序列的第一个控制量作用于无人艇系统上。本发明提高了轨迹跟踪控制的鲁棒性和抗干扰，同时具备自学习能力，适应于复杂的海况环境，相较于传统的MPC控制算法其自主性和实时性更强，跟踪误差更小。

Description

一种基于强化学习MPC的无人艇轨迹跟踪控制方法

技术领域

本发明属于水面无人艇轨迹跟踪控制技术领域，具体涉及一种基于强化学习MPC的无人艇轨迹跟踪控制方法。

背景技术

无人艇(USV)是一种无人操作的水面舰艇，具有自主性强，智能化高等特点，在军事和民用领域有着广泛的用途。如何保证无人艇在海面上安全地自主航行，是无人艇研究领域的重要课题。在实际的应用中，无人艇多工作于复杂海况，除受风浪流等海洋环境的干扰外，无人艇在航行过程中多遇到岛屿、暗礁、船只，浮标等障碍物，这些障碍物又分为静止的障碍物和运动的障碍物，都会产生无人艇在航行过程发生碰撞的风险。因此，在无人艇航行之前一般会进行路径规划，为无人艇规划出一条安全的最短航迹，使无人艇沿着预设的航迹自主地航行。

无人艇多航行于复杂的海洋环境，易受风、浪、流的影响，加上无人艇多为欠驱动系统，非线性度较高，导致无人艇的轨迹跟踪控制变得异常复杂。从国内外的发展现状来看，无人艇轨迹跟踪控制一般采用滑模控制、反步法、神经网络PID、模糊PID，自抗扰控制等方法。随着人工智能的发展和进步，研究者们越来越重视将深度学习、强化学习、神经网络、群智能算法等智能算法融入到轨迹跟踪控制器的设计中来弥补当前控制算法的缺陷。

发明内容

本发明的目的在于提供一种基于强化学习MPC的无人艇轨迹跟踪控制方法。

一种基于强化学习MPC的无人艇轨迹跟踪控制方法，包括如下步骤：

步骤1：获取无人艇的实时状态信息(x,y,ψ,r)，包括无人艇的位置坐标(x,y)、实时航向角ψ、艏摇角速度r；

步骤2：根据当前轨迹跟踪点P_k+1(x_k+1,y_k+1)和上一航迹跟踪点为P_k(x_k,y_k)，利用LOS导引算法计算无人艇实时的期望航向角ψ_d；

步骤3：建立无人艇轨迹跟踪的水平面数学模型，设计无人艇轨迹跟踪的DDPG-MPC智能控制器；

无人艇以恒定速度U航行，轨迹跟踪数学模型为：

其中，T表示无人艇对舵的快速应答性和航向稳定性；K为增益系数；α为非线性系数；δ为操舵角；

在控制器设计中，状态变量χ＝(x,y,ψ,r)，输出量Y＝(x,y,ψ)，控制量u＝δ；

离散状况下无人艇轨迹跟踪非线性系统的预测模型表示为：

χ(k+1)＝f(χ(k),u(k),w(k))

其中，w(k)为系统扰动；f(·)为系统的非线性函数；

考虑k时刻开始由预测模型预测未来N个时刻的状态序列χ(k)、输出序列Y(k)、控制序列u(k)以及轨迹参考序列Y_ref(k)表示为：

χ(k)＝(χ(k+1|k),......,χ(k+N|k))^T

Y(k)＝(Y(k+1|k),......,Y(k+N|k))^T

u(k)＝(u(k|k),......,u(k+N-1|k))^T

Y_ref(k)＝(Y_ref(k+1|k),......,Y_ref(k+N|k))^T

由此根据上述部分建立无人艇轨迹跟踪控制的性能指标：

其中，Q,R为性能指标函数的权值矩阵；

步骤4：利用DDPG算法求解MPC滚动优化过程中的最优控制序列，控制序列的第一个控制量作用于无人艇系统上。

进一步地，所述步骤4具体为：

步骤4.1：构建DDPG算法的Actor-Critic网络，包括4个网络结构：Actor策略网络μ(a|θ^π)、Critic价值网络Q(s,a|θ^Q)、Actor目标策略网络μ(a|θ^π′)、Critic目标价值网络Q(s,a|θ^Q′)，当前网络和目标网络的网络结构一致；

步骤4.2：初始化网络网络模型参数θ^π、θ^Q，当前网络的参数复制到目标网络；

θ^π′←θ^π，θ^Q′←θ^Q

步骤4.3：选择无人艇的状态序列χ(k)作为DDPG算法的状态s_t，控制序列u(k)作为执行的动作a_t；选择无人艇轨迹跟踪控制的性能指标函数的负数作为DDPG算法的奖励回报；

步骤4.4：初始化无人艇的状态，根据当前无人艇的状态s_t，由策略网络根据当前的策略μ(a|θ^π)给出状态s_t下的执行动作a_t，同时价值网络给出在状态s_t下执行动作a_t的价值Q(s,a|θ^Q)，将动作序列的第一个动作即控制序列的第一个控制量作用于无人艇系统上使其与环境交互，得到下一时刻的状态s_t+1并得到及时的奖励r_t，将每个过程产生的数据样本(s_t,a_t,r_t,s_t+1)储存在经验池中用于训练策略网络和价值网络；

步骤4.5：从经验池中随机选取M个数据样本(s_i,a_i,r_i,s_i+1)，对于价值网络的训练，构造价值网络训练的损失函数：

对于策略网络的训练采用策略梯度算法更新训练策略网络的参数，计算策略网络的策略梯度：

对于目标网络采用软更新的方式对其参数进行更新训练：

θ^Q′＝τθ^Q+(1-τ)θ^Q′

θ^π′＝τθ^π+(1-τ)θ^π′

步骤4.6：经过多次迭代训练，策略网络产生最优策略

将训练好的策略网络作为MPC滚动优化的求解器。

本发明的有益效果在于：

本发明在无人艇的MPC轨迹跟踪控制器设计过程中，选用无人艇的运动学模型和操纵响应模型作为预测模型，根据无人艇轨迹跟踪任务需求构造控制性能指标函数，在MPC滚动优化过程中利用强化学习的DDPG算法构建性能指标函数的求解器，通过最小化性能指标函数求解出轨迹跟踪的最优控制序列，最终将每时刻控制序列的第一个控制量作用于无人艇系统上。本发明提高了轨迹跟踪控制的鲁棒性和抗干扰，同时具备自学习能力，适应于复杂的海况环境，相较于传统的MPC控制算法其自主性和实时性更强，跟踪误差更小。

附图说明

图1为本发明的总体流程图。

图2为LOS导引算法示意图。

图3为强化学习DDPG算法实现步骤示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明提出一种基于强化学习MPC的无人艇轨迹跟踪控制方法，实现无人艇轨迹跟踪的自主控制。在无人艇的MPC轨迹跟踪控制器设计过程中，选用无人艇的运动学模型和操纵响应模型作为预测模型，根据无人艇轨迹跟踪任务需求构造控制性能指标函数，在MPC滚动优化过程中利用强化学习的DDPG算法构建性能指标函数的求解器，通过最小化性能指标函数求解出轨迹跟踪的最优控制序列，最终将每时刻控制序列的第一个控制量作用于无人艇系统上。本发明所提出的方法提高了轨迹跟踪控制的鲁棒性和抗干扰，同时具备自学习能力，适应于复杂的海况环境。

一种基于强化学习MPC的无人艇轨迹跟踪控制方法，流程图如图1所示，主要包括以下步骤：

步骤1.实时监测无人艇状态信息，通过GPS导航定位系统获取无人艇的位置坐标(x,y)、利用罗经检测无人艇实时航向角ψ、利用陀螺仪检测无人艇艏摇角速度r。

步骤2.实时获取无人艇的状态信息(x,y,ψ,r)，由当前轨迹跟踪点P_k+1(x_k+1,y_k+1)和上一航迹跟踪点为P_k(x_k,y_k)利用LOS导引算法计算无人艇实时的期望航向角ψ_d。详细步骤如图2所示：

将无人艇当前位置(x,y)投影至期望轨迹记为(x_d(ω),y_d(ω))，其中ω为轨迹参数，以该点为原点建立Serret-Frenet坐标系，沿期望轨迹的切线方向记为x_p轴，与惯性系坐标轴的纵轴方向的夹角记为轨迹方位角ψ_p，则ψ_p＝arctan(y_d′(ω)/x_d′(ω))。其中，ψ_p∈[-π,π]，y_d′(ω)＝dy_d(ω)/dω,x_d′(ω)＝dx_d(ω)/dω。

轨迹参数更新率为：

为无人艇航行速度。

期望航向点(x_LOS,y_LOS)与无人艇当前位置在期望轨迹上投影点间的距离记为Δ，称为前视距离，Δ＝nL，n＝2～10，L为无人艇的长度。目标点(x_LOS,y_LOS)相对于无人艇当前位置的方位角即为无人艇的实时期望航向角ψ_d。

ψ_d＝ψ_p+arctan(-y_e/Δ)

步骤3：建立无人艇轨迹跟踪的水平面数学模型，利用模型预测控制方法(MPC)结合强化学习的深度确定性策略梯度(DDPG)算法设计无人艇轨迹跟踪的DDPG-MPC智能控制器。

无人艇一阶非线性操纵响应模型为：

T表示无人艇对舵的快速应答性和航向稳定性；K为增益系数；α为非线性系数；r为转艏角速度；δ为操舵角。

由此得到无人艇轨迹跟踪模型：

考虑在实际航行中无人艇的纵向速度远远大于横向速度u＞＞v，横向速度v≈0，无人艇以恒定速度U航行，上述数学模型可简化为：

设置采样时间T_s经过离散化得到无人艇轨迹跟踪的预测模型：

由预测模型通过当前时刻的位置x(k),y(k)，航向角ψ(k)，角速度r(k)以及操舵角δ(k)可以推测下一时刻的位置x(k+1),y(k+1)，航向角ψ(k+1)，角速度r(k+1)。

式中，w(k)为系统的扰动变量。

在控制器设计中，状态变量χ＝(x,y,ψ,r)，输出量Y＝(x,y,ψ)，控制量u＝δ。

离散状况下无人艇轨迹跟踪非线性系统的预测模型可表示为：

χ(k+1)＝f(χ(k),u(k),w(k))

考虑k时刻开始由预测模型预测未来N个时刻的状态序列χ(k)、输出序列Y(k)、控制序列u(k)以及轨迹参考序列Y_ref(k)可表示为：

χ(k)＝(χ(k+1|k),......,χ(k+N|k))^T

Y(k)＝(Y(k+1|k),......,Y(k+N|k))^T

u(k)＝(u(k|k),......,u(k+N-1|k))^T

Y_ref(k)＝(Y_ref(k+1|k),......,Y_ref(k+N|k))^T

由此根据上述部分可建立无人艇轨迹跟踪控制的性能指标：

式中，Q,R为性能指标函数的权值矩阵。

步骤4.如图3所示，利用强化学习的深度确定性策略梯度(DDPG)算法求解MPC滚动优化过程中的最优控制序列，控制序列的第一个控制量作用于无人艇系统上。

(1)构建DDPG算法的Actor-Critic网络，包括4个网络结构，Actor策略网络μ(a|θ^π)，Critic价值网络Q(s,a|θ^Q)，Actor目标策略网络μ(a|θ^π′)，Critic目标价值网络Q(s,a|θ^Q′)。当前网络和目标网络的网络结构一致。

(2)初始化网络网络模型参数θ^π，θ^Q，当前网络的参数复制到目标网络

θ^π′←θ^π，θ^Q′←θ^Q。

(3)选择无人艇某时刻的状态序列χ(k)作为DDPG算法的状态s_t，控制序列u(k)作为执行的动作a_t。

(4)选择无人艇轨迹跟踪控制的性能指标函数的负数作为DDPG算法的奖励回报：

(5)初始化无人艇的状态，根据当前无人艇的状态s_t，由策略网络根据当前的策略μ(a|θ^π)给出状态s_t下的执行动作a_t，同时价值网络给出在状态s_t下执行动作a_t的价值Q(s,a|θ^Q)，将动作序列的第一个动作即控制序列的第一个控制量作用于无人艇系统上使其与环境交互，得到下一时刻的状态s_t+1并得到及时的奖励r_t，将每个过程产生的数据样本(s_t,a_t,r_t,s_t+1)储存在经验池中用于训练策略网络和价值网络。

(6)从经验池中随机选取M个数据样本(s_i,a_i,r_i,s_i+1)，对于价值网络的训练，构造价值网络训练的损失函数：

对于目标网络采用软更新的方式对其参数进行更新训练：

θ^Q′＝τθ^Q+(1-τ)θ^Q′

θ^π′＝τθ^π+(1-τ)θ^π′

(7)经过多次迭代训练，策略网络产生最优策略

将训练好的策略网络作为MPC滚动优化的求解器。

本发明所述的无人艇轨迹跟踪方法应用于无人艇的自主航行上，有效提高了无人艇轨迹跟踪过程中抗干扰性和鲁棒性，相较于传统的MPC控制算法其自主性和实时性更强，跟踪误差更小。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。