CN115167447A

CN115167447A - 基于雷达图像端到端深度强化学习的无人艇智能避障方法

Info

Publication number: CN115167447A
Application number: CN202210906026.7A
Authority: CN
Inventors: 夏家伟; 林明臻; 王璐; 王昊轩; 曲建静; 魏阁安
Original assignee: Naval University of Engineering PLA
Current assignee: Naval University of Engineering PLA
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-10-11

Abstract

本发明属于无人艇技术领域，公开了基于雷达图像端到端深度强化学习的无人艇智能避障方法，基于雷达图像端到端深度强化学习的无人艇智能避障方法包括：构建欠驱动无人艇数学模型，利用障碍物与无人艇的相对位置关系和最近会遇点信息，分别构建障碍航迹图层、碰撞威胁图层或其他高维状态特征；并结合以航行状态、路径误差或其他低维状态，构建并训练多特征尺度融合的深度卷积神经网络；利用训练好的多特征尺度融合的深度卷积神经网络进行无人艇智能避障。本发明通过建立的欠驱动无人艇数学模型、动态障碍物生成模型和奖励机制，在与环境不断交互中改善USV避障策略，使其能在复杂场景下做出有效的决策，较为快速和高效的完成避障任务。

Description

基于雷达图像端到端深度强化学习的无人艇智能避障方法

技术领域

本发明属于无人艇技术领域，尤其涉及一种基于雷达图像端到端深度强化学习的无人艇智能避障方法。

背景技术

目前，水面无人艇(Unmanned Surface Vehicle，USV)作为一种小型水面任务平台，兼具高速智能、灵活隐蔽、成本低廉、无人员伤亡等优点，具有重要的军事与民用价值。在无线通信技术和航行控制技术的牵引下，USV的路径跟踪、编队协同等技术取得了重要突破，USV的自主避障能力是保证其在海上复杂环境下安全航行和顺利执行任务的关键。按照任务层次划分，避障问题可分为全局路径规划避障和局部避障，全局路径规划避障是在已知海域障碍物地图信息的情况下，根据任务需求生成避开障碍物的连续路径；局部避障通常基于传感器实时获取的态势信息，当判断存在碰撞危险时，临时生成规避路径，并在威胁消失后恢复原航行状态。

传统局部避障算法依据技术路线划分，大致分为两大类：一种是几何规则法，将障碍物和船只简化为凸体，同时考虑运动学约束，从而计算出可行轨迹的上下边界,典型算法有速度障碍法、人工势场法和动态虚拟船舶法等，然而当遭遇复杂环境时，上述方法容易陷入局部最优或无解；另一种是路径搜索法，通过优化的方式搜寻出合理的路径，如动态窗口法以及A*算法和快速扩展随机树等图搜索算法，路径搜索法适用于避让静态或相对速度较低的障碍物，且计算复杂度较高，难以适用高速无人艇实时避障的需求。随着深度强化学习(deep reinforcement learning，深度强化学习)技术的进步，其在游戏AI、自动驾驶和机器人控制等领域涌现出大量研究成果，该类算法通过智能体与环境进行大量交互，从不断试错中学习和优化策略，具有较强的复杂环境自适应能力，为解决避障问题开启了新途径。针对USV局部避障问题，现有技术1使用深度Q学习(deep Q network，DQN)实现在固定场景下的USV避障。现有技术2利用DDPG算法处理USV编队相互之间的避障问题，但深度网络的状态输入维度与USV编队数量相关，并未涉及应对非合作目标时的策略。现有技术3研究了动态障碍物情形，使用地图栅格图像作为深度网络的状态输入，使USV成功穿越障碍区域，但未考虑航行路径的约束。现有技术4引入半马尔卡夫决策模型，设计了基于DQN的航行策略切换器，能根据USV周围环境状态对左避障、右避障和保持直线三种航行模式进行切换，航行试验证明了避障的有效性，但该方法的避障控制流程和实现机制较复杂。

通过上述分析，现有技术存在的问题及缺陷为：现有的避障方法无法应用于复杂环境，计算复杂度较高，难以适用高速无人艇实时避障的需求，且不能有效的进行避障，避障效率、避障控制不佳。

发明内容

针对现有技术存在的问题，本发明提供了一种基于雷达图像端到端深度强化学习的无人艇智能避障方法。

本发明是这样实现的，一种基于雷达图像端到端深度强化学习的无人艇智能避障方法，所述基于雷达图像端到端深度强化学习的无人艇智能避障方法包括：

构建欠驱动无人艇数学模型，利用障碍物与无人艇的相对位置关系和最近会遇点信息，分别构建障碍航迹图层、碰撞威胁图层或其他高维状态特征；并结合以航行状态、路径误差或其他低维状态，构建并训练多特征尺度融合的深度卷积神经网络；利用训练好的多特征尺度融合的深度卷积神经网络进行无人艇智能避障。

进一步，所述基于雷达图像端到端深度强化学习的无人艇智能避障方法包括以下步骤：

步骤一，获取无人艇雷达回波图像，并对所述无人艇雷达回波图像进行栅格化处理并转化为灰度图像；

步骤二，构造障碍航迹图层和碰撞威胁图层分别表征障碍物相对USV的航迹信息和发生碰撞的预测位置及威胁程度；

步骤三，构建低维状态特征；构建用于实时评估USV当前的状态的奖励函数；构建并训练多特征尺度融合的深度卷积神经网络；

步骤四，利用训练好的多特征尺度融合的深度卷积神经网络进行无人艇智能避障。

进一步，所述步骤二中构造障碍航迹图层和碰撞威胁图层包括：

(1)构建障碍航迹图层：以图层中心的像素点为原点，水平向右为x轴，竖直向上为y轴建立图层坐标系{l}，确定船体坐标系{b}转换图层坐标系{l}的映射矩阵R(κ)＝diag(κ,κ)以及表示障碍物在图层坐标系{l}中的位置的位置图层

根据映射关系，确定t时刻障碍物的位置特征在图层坐标系{l}下的坐标和半径分别为

和κr_i，令位置图层

中全部障碍物覆盖区域的强度值为255，得到障碍航迹图层

的递归表达式为：

其中，κ表示映射系数，用于表征船体坐标系{b}单位距离对应图层坐标系{l}中的像素点数量；

表示障碍航迹图层；

表示位置图层；γ_s表示位置衰减系数；clip函数用于将图层中的像素强度限制在区间[0,255]内；

表示在船体坐标系{b}下第i个障碍物的位置；r_i表示在船体坐标系{b}下第i个障碍物的威胁半径，i＝1,2,…,n，n表示t时刻USV雷达观测到位于态势感知区内的障碍物的数量；

(2)通过计算态势感知区内各个障碍物和USV的会遇位置关系和时间裕度，利用基于最近会遇距离DCPA和最近会遇时间TCPA的碰撞威胁图层构建方法构建碰撞威胁图层：

确定碰撞威胁图层L_c为图层坐标系{l}中全部障碍物在最近会遇时刻的相对位置关系，障碍物与USV在最近会遇时刻的相对位置

根据映射关系，第i个障碍物的相对会遇位置特征在图层坐标系{l}的坐标和半径分别为

和κr_i，碰撞威胁图层L_c中第i个会遇点覆盖区域的强度值为：

其中，d_i表示船体坐标系{b}下第i个障碍物相对USV的DCPA；t_i表示船体坐标系{b}下第i个障碍物相对USV的TCPA；b_i表示最近会遇时刻的CPA舷角；γ_c表示威胁衰减系数，当t_i≥0时，强度值越接近最大值255；当t_i＜0时，强度值为0；碰撞威胁图层L_c中的会遇点用于表征障碍物与USV碰撞的威胁程度，当会遇点接近图层中心时，表示USV如果继续保持原航向，将发生碰撞；会遇点的强度值越大，表示预计发生碰撞的时间越短，威胁越紧迫；当图层中心不存在高强度值的会遇点时，判断认为USV的碰撞威胁较低。

进一步，所述步骤三中低维状态特征向量为：

其中，S_l表示低维状态特征向量；a_t-1表示上一时刻动作输出；

表示艏摇角速度；所述低维状态特征向量包含LOS导引误差，所述LOS导引误差包括距离误差信息y_e，

和航向误差信息χ_d，

所述步骤三中奖励函数由位置误差奖励r_d，航向误差奖励r_ψ和航向稳定性奖励r_s组成：

r＝w_dr_d+w_ψr_ψ+w_sr_s；

其中，奖励以负指数函数的形式进行描述，并将各子奖励的值域限定在(-1,1]之间，k₁、k₂、k₃表示各子奖励的调节系数，σ表示一段时间内USV航向的标准差；r_s表示航向稳定性奖励；w_d、w_ψ和w_s表示权重系数；

当USV出界或发生碰撞时，任务终止并产生终止奖励，根据不同情况，获得的奖励如下：当USV超出任务边界时，r＝r_o，r_o表示出界惩罚奖励，取值为负；USV与障碍物发生碰撞时，r＝r_c，r_c表示碰撞惩罚奖励，取值为负；当USV抵达避障结束区时，

k₄表示调节系数，r_e表示任务完成奖励，取值为正，抵达结束区越接近参考路径，获得的终止奖励越高。

进一步，所述步骤三中多特征尺度融合的深度卷积神经网络包括：

输入层，用于输入障碍航迹图层L_s与碰撞威胁图层L_c组成的双通道图像；

卷积层-池化层，用于通过多次卷积-池化处理将特征张量的尺寸进行压缩、将通道数进行扩张，并展平为一维特征向量；

展平层，用于将低维状态特征和一维特征向量拼接后得到公共特征向量；

第一策略网络层，用于利用两层独立的全连接网络得到相应的输出；

第二策略网络层，用于利用两层独立的全连接网络得到相应的输出；

第一价值网络层，用于利用两层独立的全连接网络得到相应的输出；

第二价值网络层，用于利用两层独立的全连接网络得到相应的输出；

同时，所述多特征尺度融合的深度卷积神经网络从动作集合

中选取概率最大的动作；所述动作集合

包含的动作分别是期望航向-10°，期望航向+10°和期望航向不变。

进一步，所述训练多特征尺度融合的深度卷积神经网络包括：

利用TensorFlow作为深度学习训练框架，并对网络输入的高维状态L_s和L_c使用归一化处理；利用标准化处理低维状态特征向量S_l，使用近端策略优化算法进行所述多特征尺度融合的深度卷积神经网络的训练；

同时，于训练时，按照概率分布随机从动作集合

中选取一个动作用于更新期望航向。

本发明的另一目的在于提供一种实施所述基于雷达图像端到端深度强化学习的无人艇智能避障方法的基于雷达图像端到端深度强化学习的无人艇智能避障系统，所述基于雷达图像端到端深度强化学习的无人艇智能避障系统包括：

感知模块，用于综合汇总和处理参考路径信息、障碍物信息和USV状态信息，并将所述参考路径信息、障碍物信息和USV状态信息转换为高维度的图像信息和低维度的状态信息；

决策模块，用于利用深度神经网络根据状态信息输出期望航向；

执行模块，用于根据当前USV航行参数和期望航向，输出USV油门和舵令的控制量，并根据USV动力学和运动学模型更新状态信息。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述基于雷达图像端到端深度强化学习的无人艇智能避障方法的步骤。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述基于雷达图像端到端深度强化学习的无人艇智能避障方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述基于雷达图像端到端深度强化学习的无人艇智能避障系统。

结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

本发明通过建立的欠驱动无人艇数学模型、动态障碍物生成模型和奖励机制，在与环境不断交互中改善USV避障策略，使其能在复杂场景下做出有效的决策，较为快速和高效的完成避障任务。

本发明提供了一种无模型的端到端的路径规划算法，提出了能够表征过去、现在的障碍航迹图层和表征预测未来事件的碰撞威胁图层这两种高维状态特征，设计的多特征尺度融合的深度卷积神经网络能够直接输出决策，简化了传统避障方法基于规则决策的流程，本发明的避障技术方案充分挖掘了深度神经网络对复杂避障场景下的态势理解、感知和决策能力，其时间计算复杂度与障碍物的数量和分布的复杂程度无关，具有工程应用价值。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

本发明提出的深度强化学习方法能在训练阶段中有效学习避障策略，具备在复杂情况下对障碍物环境信息的理解和作出综合决策的能力，能够快速高效完成避障任务。

第三，作为本发明的权利要求的创造性辅助证据，还体现在本发明的技术方案填补了国内外业内技术空白：

本发明首次提出了一种端到端的无人艇强化学习避障方法，与传统避障方法不同的是，该方案无需引入复杂的避障规则，而是通过对导航雷达/激光雷达等传感器获取的原始数据二次编码来构建出信息丰富的态势图像。本发明充分结合了卷积神经网络在图像特征提取和深度强化学习在序列决策问题上的优势，以图像和无人艇状态向量作为神经网络的原始输入，直接输出期望航向决策，控制流程简单。这种端到端的避障控制方案填补了相关领域的技术空白。

附图说明

图1是本发明实施例提供的基于雷达图像端到端深度强化学习的无人艇智能避障方法流程图；

图2是本发明实施例提供的t＝55时的避障场景示意图；

图3是本发明实施例提供的t＝80时的避障场景示意图；

图4是本发明实施例提供的t＝105时的避障场景示意图；

图5是本发明实施例提供的t＝130时的避障场景示意图；

图6是本发明实施例提供的t＝55时的位置图层图像；

图7是本发明实施例提供的t＝80时的位置图层图像；

图8是本发明实施例提供的t＝105时的位置图层图像；

图9是本发明实施例提供的t＝130时的位置图层图像；

图10是本发明实施例提供的t＝55时的障碍航迹图层图像；

图11是本发明实施例提供的t＝80时的障碍航迹图层图像；

图12是本发明实施例提供的t＝105时的障碍航迹图层图像；

图13是本发明实施例提供的t＝130时的障碍航迹；图层图像；

图14是本发明实施例提供的t＝55时的碰撞威胁图层图像；

图15是本发明实施例提供的t＝80时的碰撞威胁图层图像；

图16是本发明实施例提供的t＝105时的碰撞威胁图层图像；

图17是本发明实施例提供的t＝130时的碰撞威胁图层图像；

图18是本发明实施例提供的多特征尺度融合的深度卷积神经网络结构示意图；

图19是本发明实施例提供的避障系统部署方案图；

图20是本发明实施例提供的场景1DRL方法的多船避碰仿真结果图；

图21是本发明实施例提供的场景1人工势场法的多船避碰仿真结果图；

图22是本发明实施例提供的场景2 DRL方法的多船避碰仿真结果图；

图23是本发明实施例提供的场景2人工势场法的多船避碰仿真结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

如图1所示，本发明实施例提供的基于雷达图像端到端深度强化学习的无人艇智能避障方法包括以下步骤：

S101，获取无人艇雷达回波图像，并对所述无人艇雷达回波图像进行栅格化处理并转化为灰度图像；

S102，构造障碍航迹图层和碰撞威胁图层分别表征障碍物相对USV的航迹信息和发生碰撞的预测位置及威胁程度；

S103，构建低维状态特征；构建用于实时评估USV当前的状态的奖励函数；构建并训练多特征尺度融合的深度卷积神经网络；

S104，利用训练好的多特征尺度融合的深度卷积神经网络进行无人艇智能避障。

本发明实施例提供的基于雷达图像端到端深度强化学习的无人艇智能避障方法包括：

步骤1，栅格化无人艇雷达回波图像，转化为117×117像素的灰度图像，图像灰度和目标回波强度正相关。

步骤2，构造障碍航迹图层和碰撞威胁图层来分别表征障碍物相对USV的航迹信息和发生碰撞的预测位置及威胁程度。(障碍航迹图层和碰撞威胁图层的详细步骤见步骤3和步骤4)。

步骤3，障碍航迹图层的构建：

设t时刻USV雷达观测到位于态势感知区内的障碍物的数量为n,定义在船体坐标系{b}下，第i个障碍物的位置和威胁半径分别为

和r_i，i＝1,2,…,n。以图层中心的像素点为原点，水平向右为x轴，竖直向上为y轴建立图层坐标系{l}。定义船体坐标系{b}转换图层坐标系{l}的映射矩阵R(κ)＝diag(κ,κ)，式中κ是映射系数，表示船体坐标系{b}单位距离对应图层坐标系{l}中的像素点数量，本发明中κ的取值为1/8像素/米。

定义位置图层

表示障碍物在图层坐标系{l}中的位置，根据映射关系，t时刻障碍物的位置特征在{l}下的坐标和半径分别为

和κr_i，令位置图层

中全部障碍物覆盖区域的强度值为255，定义障碍航迹图层为

其递归表达式为：

式中，γ_s是位置衰减系数，clip函数的作用是将图层中的像素强度限制在区间[0,255]内，该式的目的是在航迹图层中生成障碍物相对USV的航迹特征。

图2至图5展示了地理坐标系下不同时刻下USV避障的场景，该场景模拟了USV沿参考路径行驶，穿越4个动态障碍物的情景。图中的圆表示动态障碍物，虚线矩形框表示USV的态势感知区；图6至图9展示了对应时刻下的位置图层图像，该图像与态势感知区内的障碍物态势是一致的；图10至图13展示了障碍航迹图层图像，可以看出障碍物的历史航迹的强度随时间增加而逐渐变低，达到了类似雷达余辉的显示效果，该图层能表征出障碍物相对USV的位置特征和历史航迹。

步骤4，碰撞威胁图层特征构建：

障碍航迹图层L_s可以提供障碍物过去和现在的特征，与之相对应的，碰撞威胁图层旨在提供对未来碰撞威胁的预测。本部分通过计算态势感知区内各个障碍物和USV的会遇位置关系和时间裕度，提出了一种基于DCPA和最近会遇时间(time to the closestpoint of approach,TCPA)的碰撞威胁图层构建方法。

令船体坐标系{b}下，第i个障碍物相对USV的DCPA为d_i，TCPA为t_i，最近会遇时刻的CPA舷角为b_i。定义碰撞威胁图层L_c为图层坐标系{l}中全部障碍物在最近会遇时刻的相对位置关系，障碍物与USV在最近会遇时刻的相对位置

式中，γ_c是威胁衰减系数，当t_i≥0时，USV与障碍物的相对距离逐渐减小，因此当t_i越接近0时刻时，碰撞威胁越大，强度值越接近最大值255；当t_i＜0时，USV与障碍物远离，视为威胁消除，因此强度值设为0。碰撞威胁图层L_c中的会遇点可以表征障碍物与USV碰撞的威胁程度，当会遇点接近图层中心时，意味着USV如果继续保持原航向，将发生碰撞；会遇点的强度值越大，意味着预计发生碰撞的时间越短，威胁越紧迫。因此当图层中心不存在高强度值的会遇点时，可以认为USV的碰撞威胁较低。

图14至图17展示了避障场景中四个时刻对应的碰撞威胁图层，由于USV全程航向保持稳定，因此图层中会遇点的位置保持不变，但强度会随着会遇时间的减少而逐渐变大。可以观察到图14中存在单个会遇点，图15和图16中该会遇点的强度值逐渐变大，结合图10至图13可以发现，该障碍物与USV右舷相向而行，在t＝130时刻已经完成会遇，因此图17中该会遇点消失。

步骤5，构建低维状态特征：

虽然高维状态特征能表征障碍物态势信息，但是USV的自身航行状态和参考任务路径不适合使用二维图像表达，因此有必要引入低维状态特征作为高维状态特征的补充。

设计的低维状态包含LOS导引误差，上一时刻动作输出a_t-1艏摇角速度

等，LOS导引误差包括距离误差信息y_e，

和航向误差信息χ_d，

综上，低维状态特征向量S_l设计为：

步骤6，奖励设置:

同时围绕USV路径跟踪和实时避障这两个目标，通过设计合适的奖励函数来实时评估USV当前的状态。奖励函数的设计遵循下列规则：USV的位置越接近参考路径、航向越接近期望航向、航向越稳定时奖励值越高。在USV航行过程中，设计的奖励函数由位置误差奖励r_d，航向误差奖励r_ψ和航向稳定性奖励r_s组成：

式(a)中，采用负指数函数的形式来描述奖励，并将各子奖励的值域限定在(-1,1]之间，k₁、k₂、k₃是各子奖励的调节系数，σ表示一段时间内USV航向的标准差。通过引入航向稳定性奖励r_s，可以使深度强化学习控制器在训练过程中倾向于选择连续稳定的航向控制策略，从而加速收敛。定义航行过程中奖励函数表达式为：

r＝w_dr_d+w_ψr_ψ+w_sr_s(b)

式(b)中，w_d、w_ψ和w_s是权重系数。

当USV出界或发生碰撞时，任务终止并产生终止奖励，根据不同情况，获得的奖励设计如下：当USV超出任务边界时，r＝r_o，r_o表示出界惩罚奖励，取值为负；USV与障碍物发生碰撞时，r＝r_c，类似的，r_c表示碰撞惩罚奖励，取值为负；当USV抵达避障结束区时，

k₄是调节系数，r_e是任务完成奖励，取值为正，抵达结束区越接近参考路径，获得的终止奖励越高。

步骤7，动作空间设计：

在每一个时间步长开始时，需要从动作集合

中选出一种动作来更新期望航向，集合

包含的动作分别是期望航向-10°，期望航向+10°和期望航向不变。深度强化学习策略网络会生成上述三种动作的选取概率，在网络训练阶段时，按照概率分布随机从

中选取一个动作，确保动作选择具有随机性和探索性；在网络部署阶段时，将从

中选取概率最大的动作。

步骤8，构建深度网络：

发明设计了一种多特征尺度融合的深度卷积神经网络，该网络的结构示意图如图18所示。网络输入障碍航迹图层L_s与碰撞威胁图层L_c组成的双通道图像，经过多次卷积层-池化层后，特征张量的尺寸从117×117压缩至3×3，通道数扩张至64，随后展平为一维特征向量，最终将低维状态特征和一维特征向量拼接后得到公共特征向量。网络层的详细参数如表1所示，PPO网络包含策略网络和价值网络，二者共用公共特征向量，分别经过两层独立的全连接网络得到相应的输出。考虑到高维特征经过多次卷积-池化降维操作后的向量长度(576)与低维状态特征向量长度(6)差距较大，两层全连接网络的输入都引入了低维状态特征来加快网络收敛速度。

表1 PPO网络参数

步骤9，训练参数设置：

基于OpenAI gym框架构建USV避障虚拟环境，训练参数设置如下，USV控制周期为1s，调节系数k₁，k₂，k₃，k₄分别为1/100，1/30，5，1/50；权重系数w_d，w_ψ，w_s分别为0.4，0.4，0.2；奖励值参数r_o，r_c，r_e分别为-500，-1000，50；障碍物数量1到5之间随机选取。

PPO网络训练超参数设置如表2所示：

表2超参数设置

步骤10，网络训练：

使用TensorFlow作为深度学习训练框架，训练时，网络输入的高维状态L_s和L_c使用归一化处理；低维状态特征向量S_l使用标准化处理，使用近端策略优化算法完成深度网络的训练。

步骤11，部署实现：

USV从给定起点出发，沿参考路径行驶，当感知到存在碰撞威胁时，主动改变航向以避开障碍物威胁，待威胁消除后，恢复原航线行驶。提出的基于深度强化学习的避障系统部署方案图如图19所示。

本发明实施例提供的避障系统由感知模块、决策模块和执行模块组成。感知模块负责综合汇总和处理参考路径信息、障碍物信息和USV状态信息，将其转换为高维度的图像信息和低维度的状态信息；决策模块是由深度神经网络构成，根据状态信息输出期望航向；执行模块的作用是根据当前USV航行参数和期望航向，输出USV油门和舵令的控制量，继而根据USV动力学和运动学模型更新其状态信息。三个模块通过不断循环执行，实现USV动态实时避障。

二、应用实施例。为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

将本发明实施例提供的基于深度强化学习的USV局部避障算法应用于无人艇智能化避障中。在实际工程应用中，避障策略网络在服务器完成训练，部署时策略网络的权重部署于无人艇搭载的NVIDIA Jetson AGX Xavier边缘计算平台，实际应用中使用导航雷达回波作为障碍物的信息输入，导航雷达量程设置为1000米。经过湖上测试，该避障方案能够快速和高效的完成避障任务。

三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果，和现有技术相比的确具备很大的优势，下面内容结合试验过程的数据、图表等进行描述。

通过仿真实验验证本发明实施例提供的基于深度强化学习的USV局部避障算法的有效性。通过建立的欠驱动无人艇数学模型、动态障碍物生成模型和奖励机制，在与环境不断交互中改善USV避障策略，使其能在复杂场景下做出有效的决策，较为快速和高效的完成避障任务。本发明创造性的设计了一种无模型的端到端的路径规划算法，提出了能够表征过去、现在的障碍航迹图层和表征预测未来事件的碰撞威胁图层这两种高维状态特征，设计的多特征尺度融合的深度卷积神经网络能够直接输出决策，简化了传统避障方法基于规则决策的流程，具有工程应用潜力。

为进一步验证DRL避障策略的有效性，使用该方法和传统方法对海上遭遇情况进行了避障仿真，本发明选取了两种具有代表性的避障场景，分别模拟USV在繁忙港口行驶和穿越繁忙航道的场景，以下分别简称情景1和情景2。传统方法采取人工势场法对USV进行避障控制。可以发现，本发明所提出的DRL方法能理解环境中各障碍物的运动状态和趋势，并作出符合长远收益的决策。(图20、图22)这种能力得益于DRL网络输入的高维障碍物历史航迹图像和碰撞威胁图像，使其能根据出过去-现在-未来的综合信息来作出决策，然而传统方法在处理此类问题时通常将障碍物态势参数化，在参数化的过程中，大部分原始信息未能得到有效利用(图21、图23)。因此DRL方法可以在复杂的避障场景中具备更优的性能。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。