CN116300906A

CN116300906A - 一种智能船的避障路径规划方法及系统

Info

Publication number: CN116300906A
Application number: CN202310165870.3A
Authority: CN
Inventors: 俞万能; 吴川博; 李光泽; 李慧慧; 李素文
Original assignee: Jimei University
Current assignee: Jimei University
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-06-23

Abstract

本发明公开一种智能船的避障路径规划方法及系统，涉及路径规划领域，方法包括：获取目标智能船感知范围内的障碍物状态信息和目标智能船状态信息并构建危险度隶属函数，利用危险度隶属函数评估目标智能船与感知范围内障碍物的碰撞危险度；当碰撞危险度大于所述危险度阈值时，根据目标智能船状态信息和障碍物状态信息应用改进PPO算法，得到最优避障策略并控制所述目标智能船行进。改进PPO算法是在传统PPO算法的奖励函数中引入DWA算法评价函数中的角度分量、距离分量和速度分量。利用改进的PPO算法规划路径轨迹时，解决了传统PPO算法存在的收敛速度慢、奖励稀疏以及容易陷入死锁区域的问题。

Description

一种智能船的避障路径规划方法及系统

技术领域

本发明涉及船舶智能化避障领域，特别是涉及一种适用于近海小型智能全电船的避障路径规划方法及系统。

背景技术

随着滨海新兴经济的发展，为进一步保护海洋环境，在近海水上交通、滨海旅游、公务执法、近海海洋资源开发等方面迫切需要新一代的小型绿色智能船舶。小型智能全电船融合了现代信息、人工智能、新能源以及电力推进等新技术，具有安全可靠、节能环保、运维成本低等显著特点，是未来近海小型船舶发展的重点方向。目前，因小型智能船舶具有高度智能化和自主化等优点，在军用和民用领域具有广泛的应用需求。但是，在近海复杂环境中如何保障智能全电船安全、可靠、经济航行是必须解决的关键瓶颈技术。其所航行水域多为近海水域，故在近海水域中航行面临着复杂的环境影响：航道弯曲、水流湍急、船舶流量大、航线交错，航道中礁石、石坝、岔道河口较多，通视效果差，水文复杂多变。同时，船舶受风浪影响明显，且有大量的船舶停靠，渔船或者其他游船作业，增大了通航密度。因此，近海水域中发生船舶碰撞事故的概率大大增加。近几年海事局的108份船舶碰撞事故调查报告中可以看出，近海水域中的碰撞事故占比9％，因为能见度不良造成的碰撞事故占比为19％，因为船舶走锚或与锚泊船发生碰撞事故的占比为21％。因此，研究智能化的自动避碰方法，对发展全自动化、智能化的航海体系，具有不可估量的重要意义。相比于无人车和无人机的研究，小型智能船领域的研究起步较晚，但发展前景良好，潜在发展空间巨大。

现有技术在近海复杂水域规避障碍物时往往耗时费力、效率低下，同时规划的避障路径效果很差。例如采用单一DWA算法在避障过程中存在的轨迹前瞻性不足；采用单一PPO算时，存在收敛速度慢、奖励稀疏以及容易陷入死锁区域等问题。所以说，现有算法在无人船领域的应用不够完善，得出的规划路线不够精确，导致整体规避效果往往很差、效率不高。

发明内容

本发明的目的是提供一种智能船的避障路径规划方法及系统，以PPO算法为基础，利用动态窗口DWA算法的评价函数改进PPO算法的奖励函数。利用改进的PPO算法规划路径轨迹时，解决了传统PPO算法存在的收敛速度慢、奖励稀疏以及容易陷入死锁区域的问题。

为实现上述目的，本发明提供了如下方案：

一种智能船的避障路径规划方法，所述方法包括：

获取目标智能船感知范围内的障碍物状态信息和目标智能船状态信息；

基于所述目标智能船状态信息和所述障碍物状态信息构建危险度隶属函数，利用所述危险度隶属函数评估所述目标智能船与感知范围内障碍物的碰撞危险度；

当所述碰撞危险度小于等于危险度阈值时，控制所述目标智能船按照原始航线行使；

当所述碰撞危险度大于所述危险度阈值时，根据当前所述目标智能船状态信息和当前所述障碍物状态信息应用改进PPO算法，得到所述目标障碍物的最优避障策略；所述目标障碍物为所述碰撞危险度大于所述危险度阈值的障碍物；所述改进PPO算法是在传统PPO算法的奖励函数中引入DWA算法评价函数中的角度分量、距离分量和速度分量；

基于所述最优避障策略控制所述目标智能船行进。

可选的，所述基于目标智能船状态信息和所述障碍物状态信息构建危险度隶属函数，具体包括：

计算所述目标智能船与所述障碍物之间的相距距离、相对速度比、相对舷角、最近会遇距离和最近会遇时间；

基于所述相距距离、所述相对速度比、所述相对舷角、所述最近会遇距离和所述最近会遇时间分别计算距离危险度子隶属度函数、相对速度比危险度子隶属度函数、相对舷角危险度子隶属度函数、最近会遇距离危险度子隶属度函数和最近会遇时间危险度子隶属度函数；

基于所述距离危险度子隶属度函数、所述相对速度比危险度子隶属度函数、所述相对舷角危险度子隶属度函数、所述最近会遇距离危险度子隶属度函数和所述最近会遇时间危险度子隶属度函数确定最终的所述危险度隶属函数。

可选的，所述根据当前所述目标智能船状态信息和当前所述障碍物状态信息应用改进PPO算法，得到所述目标障碍物的最优避障策略，具体包括：

依据所述目标智能船状态信息和所述障碍物状态信息，利用所述DWA算法确定所述目标智能船的预测运动轨迹，并得出各所述预测运动轨迹的评价函数；

依据所述评价函数确定所述改进PPO算法中的奖励函数；

依据当前所述目标智能船状态信息和当前所述障碍物状态信息结合所述改进PPO算法，得到所述目标障碍物的最优避障策略。

可选的，所述依据所述评价函数改进所述改进PPO算法中的奖励函数，具体包括：

依据所述评价函数中的角度分量、距离分量和速度分量确定所述改进PPO算法中奖励函数的正常动作奖励函数；所述奖励函数包括所述正常动作奖励函数、终点奖励函数和碰撞奖励函数。

可选的，在依据当前所述目标智能船状态信息和当前所述障碍物状态信息结合所述改进PPO算法，得到所述目标障碍物的最优避障策略之前，还包括：

获取PPO算法的训练数据集，所述训练数据集包括多个训练子集；每一所述训练子集包括t时间步的环境状态样本信息、t时间步的目标智能船的动作信息、t时间步的奖励值和t+1时间步的环境状态样本信息；所述t时间步的环境状态样本信息包括t时间步的目标智能船状态样本数据和t时间步的障碍物状态样本数据；

将所述训练数据集中最后一时间步环境状态样本信息输入到所述改进PPO算法的Critic网络，得到最后一时间步状态估计值；

根据所述最后一时间步状态估计值和所有所述奖励值计算折扣奖励；

将所述训练数据集中的所有所述环境状态样本信息输入到所述Critic网络中，得出所有状态估计值；并根据所有所述状态估计值和所述奖励值确定所述Critic网络优势函数；

依据所述Critic网络的损失函数对所述Critic网络进行参数更新；所述Critic网络的损失函数是根据所述折扣奖励和所有所述状态估计值确定的；

将所述训练数据集中的所有所述环境状态样本信息分别输入到所述改进PPO算法的新Actor网络和旧Actor网络，并根据新Actor网络输出和旧Actor网络输出确定新旧策略比值；

根据所述新旧策略比值和所述优势函数确定Actor网络损失函数，并依据所述Actor网络损失函数更新所述新Actor网络的参数；

返回步骤“将所述训练数据集中的所有所述环境状态样本信息分别输入到所述改进PPO算法的新Actor网络和旧Actor网络”，直至所述新Actor网络的更新迭代次数达到第一预设值；

将最后一次更新迭代时得到的所述新Actor网络的参数赋给所述旧Actor网络；

判断当前训练迭代次数是否达到第二预设值；若是，则对所述改进PPO算法中的所述新Actor网络、所述旧Actor网络和所述Critic网络完成训练；

若否，则返回步骤“获取PPO算法的训练数据集”，直至所述训练迭代次数达到所述第二预设值。

可选的，所述获取PPO算法的训练数据集，具体包括：

获取环境状态样本信息；

将当前所述环境状态样本信息输入到所述改进PPO算法的新Actor网络，得到当前新Actor网络输出结果，依据当前所述新Actor网络输出结果确定当前所述目标智能船的动作信息；

依据当前所述目标智能船的动作信息和所述奖励函数确定当前所述目标智能船状态样本数据对应的奖励值和下一时间步环境状态样本信息，并将当前所述环境状态样本信息、当前所述目标智能船的动作信息、当前所述奖励值和所述下一时间步环境状态样本信息存储于一个所述训练子集中；

将所述下一时间步环境状态样本信息作为当前所述环境状态样本信息，返回步骤“将当前所述环境状态样本信息输入到所述改进PPO算法的新Actor网络”；直至所述训练数据集的数据量达到预设数量。

本发明还提供一种智能船的避障路径规划系统，所述系统包括：

数据获取模块，用于获取目标智能船感知范围内的障碍物状态信息和目标智能船状态信息；

隶属度函数构建模块，用于基于所述目标智能船状态信息和所述障碍物状态信息构建危险度隶属函数，利用所述危险度隶属函数评估所述目标智能船与感知范围内障碍物的碰撞危险度；

第一路径规划模块，用于当所述碰撞危险度小于等于危险度阈值时，控制所述目标智能船按照原始航线行使；

第二路径规划模块，用于当所述碰撞危险度大于所述危险度阈值时，根据当前所述目标智能船状态信息和当前所述障碍物状态信息应用改进PPO算法，得到所述目标障碍物的最优避障策略；所述目标障碍物为所述碰撞危险度大于所述危险度阈值的障碍物；所述改进PPO算法是在传统PPO算法的奖励函数中引入DWA算法评价函数中的角度分量、距离分量和速度分量；基于所述最优避障策略控制所述目标智能船行进。

可选的，所述隶属度函数构建模块具体包括：

参数计算子模块，用于计算所述目标智能船与所述障碍物之间的相距距离、相对速度比、相对舷角、最近会遇距离和最近会遇时间；

隶属度子函数构建子模块，用于基于所述相距距离、所述相对速度比、所述相对舷角、所述最近会遇距离和所述最近会遇时间分别计算距离危险度子隶属度函数、相对速度比危险度子隶属度函数、相对舷角危险度子隶属度函数、最近会遇距离危险度子隶属度函数和最近会遇时间危险度子隶属度函数；

综合隶属度函数构建子模块，用于基于所述距离危险度子隶属度函数、所述相对速度比危险度子隶属度函数、所述相对舷角危险度子隶属度函数、所述最近会遇距离危险度子隶属度函数和所述最近会遇时间危险度子隶属度函数确定最终的所述危险度隶属函数。

可选的，所述第二路径规划模块具体包括：

评价函数确定子模块，用于依据所述目标智能船状态信息和所述障碍物状态信息，利用所述DWA算法确定所述目标智能船的预测运动轨迹，并得出各所述预测运动轨迹的评价函数；

奖励函数改进子模块，用于依据所述评价函数确定所述改进PPO算法中的奖励函数；

路径规划子模块，用于依据当前所述目标智能船状态信息和当前所述障碍物状态信息结合所述改进PPO算法，得到所述目标障碍物的最优避障策略。

可选的，所述奖励函数改进子模块具体包括：

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供一种智能船的避障路径规划方法及系统，以近端策略优化算法(PPO算法)为主要基础，结合动态窗口算法(DWA)的评价函数对PPO算法的奖励函数进行改进，基于改进PPO算法求解出智能船在复杂近海环境中的最优避障路径。不仅解决了传统PPO算法存在的收敛速度慢、奖励稀疏以及容易陷入死锁区域等情况，同时也能够解决了采用单一传统动态窗口算法的前瞻性不足，求解不稳定，对于动态障碍物的避障效果差，容易陷入局部最优解(每次都是选择下一步的最佳路径而非全局最优路径)的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种智能船的避障路径规划方法流程图；

图2为本发明实施例1提供的改进PPO算法的算法结构简图；

图3为本发明实施例1提供的船舶安全领域模型；

图4为本发明实施例1提供的改进PPO算法的训练框架图；

图5为本发明实施例1提供的PPO算法目标函数的限制范围示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在船舶领域中，适用于近海的小型智能船舶，可为旅游产业、海洋资源开发提供综合性的高端技术装备。而自主避障技术是实现船舶智能化的关键技术之一。为解决传统DWA算法在避障过程中存在的轨迹前瞻性不足、航向变化过大、安全性低以及无法在复杂环境下随机避障等缺点，结合深度强化学习在连续长期决策问题中的优越性，提出一种基于深度强化学习(PPO)和动态窗口法的智能船避障路径规划算法，在PPO算法的基础上引入DWA算法进行改进，使改进后的算法能够适应环境变化，提高智能船在水面避障路径规划方面的安全性和效率。

本发明的目的是提供一种智能船的避障路径规划方法及系统，以近端策略优化算法(PPO算法)为主要基础，结合动态窗口算法(DWA)的评价函数对PPO算法的奖励函数进行改进，再通过程序训练，自动求解出智能船在复杂近海环境中的最优避障路径。不仅大大改善了采用单一传统动态窗口算法的前瞻性不足，求解不稳定，对于动态障碍物的避障效果差，容易陷入局部最优解(每次都是选择下一步的最佳路径而非全局最优路径)的缺点，也解决了传统PPO算法存在的收敛速度慢、奖励稀疏以及容易陷入死锁区域等情况。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

本发明避障路径规划方法以传统近端策略优化PPO算法为基础，结合动态窗口DWA算法中以线速度和角速度描述船体运动的方式和评价函数，形成基于深度强化学习和动态窗口的避障路径规划方法。

如图1所示，本实施例提供一种智能船的避障路径规划方法，所述方法包括：

S1：获取目标智能船感知范围内的障碍物状态信息和目标智能船状态信息。

通过传感器系统对智能船周围环境进行感知并采集相关数据；通过包括激光雷达、毫米波雷达、环视相机等组成的传感器系统进行环境感知，获取实时的点云数据和图像信息等智能船周围环境信息，并进行信息预处理。

智能船核心控制器接受传感器原始数据，对其进行数据融合及相关处理；通过智能船核心处理器对传感器系统的数据进行处理，使其编程处理器可读的数据信息。采用多元数据融合算法对雷达类传感器获得的点云数据和相机类传感器获得的图像数据进行毫米波雷达坐标系、三维世界坐标系、摄像机坐标系、图像坐标系和像素坐标系等相应的坐标转换，从时间和空间两方面进行数据融合。然后确定一个包含地图信息和船体运动状态模型的坐标系，结合处理后的环境信息，确定智能船感知范围内的障碍船位置坐标、速度、运动方向等。

S2：基于所述目标智能船状态信息和所述障碍物状态信息构建危险度隶属函数，利用所述危险度隶属函数评估所述目标智能船与感知范围内障碍物的碰撞危险度。

在获取周围环境信息的基础上，对当前时刻其他障碍物对智能船的碰撞危险度进行评价分析。通过构建以本船和障碍物(可以是来船)之间的距离、相对速度比、相对舷角、最近会遇距离和最近会遇时间作为主要考虑参数的危险度隶属函数来评估船舶碰撞的危险度，并根据智能船的船体结构、降速性能、转向性能等确定危险度阈值。当计算碰撞危险度大于危险阈值时，执行后续程序，否则按原航线行驶。

假设本船周围可检测范围内障碍船的数目为N，其中第i艘障碍船的相关数据为：本船和第i艘障碍船之间的速度比K_i，本船和第i艘障碍船之间的相对舷角θ_i，最近会遇距离DCPA_i，最近会与距离TCPA_i，相应的隶属函数分别为U_Ki，U_θi，U_Di，U_DCPAi,U_TCPAi,都隶属于[0,1]，其中i＝0,1,2,···,N。其相应的权重为：速度比隶属函数权重a_K，相对舷角隶属函数权重a_θ，两船距离隶属函数权重a_D，最近会遇距离隶属函数权重a_DCPA，最近会与时间隶属函数权重a_TCPA，其中a_K+a_θ+a_D+a_DCPA+a_TCPA＝1。考虑各因素对模型的影响大小，设定a_K＝0.1，a_θ＝0.1，a_D＝0.5，a_DCPA＝0.15，a_TCPA＝0.15。

障碍船相对于本船的危险度CR_i可通过公式(1)计算：

CR_i＝a_KU_Ki+a_θU_θi+a_DU_D+a_DCPAU_DCPAi+a_TCPAU_TCPAi

具体的，步骤S2包括：

S21：计算所述目标智能船与所述障碍物之间的相距距离、相对速度比、相对舷角、最近会遇距离和最近会遇时间。

S22：基于所述相距距离、所述相对速度比、所述相对舷角、所述最近会遇距离和所述最近会遇时间分别计算距离危险度子隶属度函数、相对速度比危险度子隶属度函数、相对舷角危险度子隶属度函数、最近会遇距离危险度子隶属度函数和最近会遇时间危险度子隶属度函数。

两船距离危险隶属度函数：

从距离角度判断来船对本船的危险度时，两船间距离越小，障碍船对本船的危险度越大。因此两船距离的危险隶属函数U_D为

式中，D为两船间距离，D₁为最晚避让距离，D₂为可采取避让措施距离。

相对速度比危险隶属度函数：

本船与障碍船的相对速度危险隶属函数应该随着相对速度比的增大而增大，且不同会遇角度的情况下，相同的相对速度比对本船造成的碰撞危险度也不同。因此相对速度比危险函数U_K为

式中，K≥0，a为会遇角度且a∈(0°,180°)。

相对舷角危险隶属度函数：

当障碍船从不同舷角会遇本船时的碰撞危险度也不同。参考不同角度来船发生碰撞时对本船造成的碰撞损伤，在相同船速情况下，船头段发生碰撞时，船舶损伤评价为0.2924；船头段发生碰撞时，船舶损伤评价为0.1832；船头段发生碰撞时，船舶损伤评价为0.0731。因此，为方便计算，在对遇态势下，障碍船的相对舷角为(0°，5°)U(355°，360°)时最危险，取该处的危险隶属度函数值为0.8；在交叉态势下，障碍船的相对舷角为(5°，112.5°)U(247.5°，355°)时较为危险，取该处的危险隶属度函数值为0.5；在追越态势下，障碍船的相对舷角为(112.5°,247.5°)时最安全，取该处的危险隶属度函数值为0.2。由此得到障碍船相对舷角危险隶属函数U_θ为：

式中，θ为本船相对于障碍船的舷角，且θ∈(0°，360°)

最近会遇距离危险隶属度函数：

DCPA的危险度隶属函数U_DCPA为

式中，DCPA为当前时刻最近会遇距离，d₁表示来船能安全会遇本船的最小安全距离，d₂为两船绝对安全会遇距离。

最近会与时间危险隶属度函数：

TCPA的危险度隶属函数U_TCPA为

其中

式中，D₁表示最晚避让距离，D₂表示可采取避让措施距离，V_R表示障碍船的相对速度。

S23：基于所述距离危险度子隶属度函数、所述相对速度比危险度子隶属度函数、所述相对舷角危险度子隶属度函数、所述最近会遇距离危险度子隶属度函数和所述最近会遇时间危险度子隶属度函数确定最终的所述危险度隶属函数。

S3：当所述碰撞危险度小于等于危险度阈值时，控制所述目标智能船按照原始航线行使。

S4：当所述碰撞危险度大于所述危险度阈值时，根据当前所述目标智能船状态信息和当前所述障碍物状态信息应用改进PPO算法，得到所述目标障碍物的最优避障策略；所述目标障碍物为所述碰撞危险度大于所述危险度阈值的障碍物；所述改进PPO算法是在传统PPO算法的奖励函数中引入DWA算法评价函数中的角度分量、距离分量和速度分量；基于所述最优避障策略控制所述目标智能船行进。

根据DWA算法中以线速度和角速度来描述船舶运动的情况来定义PPO算法的动作空间；然后在此基础上，结合智能船最大探测距离，构建船舶安全领域模型并确定包含本船与最近障碍物信息的状态空间；最后结合DWA算法中有关与障碍物距离、船速、航向角与目标的方位角之间偏差的评价函数，对PPO算法的奖励函数进行改进。

结合DWA算法的动态窗口特性和评价函数，对PPO算法的动作状态空间和奖励函数进行改进，并采用改进后的算法构建避碰决策系统，将实时数据输入决策系统，获得当前状态下的最优避碰策略，将控制策略传输给智能船运控控制系统，由智能船运动控制系统控制船体研规划路线行驶。

根据DWA算法中动态窗口对速度的采样方法，设计了融合算法的动作空间，包括描述船舶运动方向和速度的角速度ω和线速度v。考虑到船舶运动学和实际需求，对角速度ω和线速度v的范围进行归一化。其中角速度ω∈[-1,1]，线速度v∈[0,1]。动作空间a定义为：a＝(w,v)。

其中，如图2所示，步骤S4具体包括：

S41：依据智能船航行状态信息(所述目标智能船状态信息和所述障碍物状态信息)，利用所述DWA算法确定所述目标智能船的预测运动轨迹，并得出各所述预测运动轨迹的评价函数。

状态空间代表了智能体(图2中的船舶运动模型)所能感知到的环境信息，是智能体制定决策和评估其长期收益的依据，合理的状态空间设计能确保PPO算法收敛，提升性能。在本研究中状态空间主要由障碍物状态S_env和本船运动状态S_os两部分构成。

障碍物状态信息S_env主要包括障碍物和来船的状态等信息，其中本船到周围船舶以及各障碍物的距离是反映当前环境信息中最直观且重要的指标。实际中，船舶航行过程中的环境信息由雷达和传感器的探测获得，因此设计如图3所示船舶安全领域模型。其中d_sensor为感知系统最远探测距离，区域中心的黑色区域为船舶位置，其他黑色区域表示障碍物位置。通过构建船舶安全领域，可以准确获取本船领域内多个障碍物和来船的位置信息。

由于算法在开始训练前，需要确定神经网络输入层和输出层的节点，且在训练过程中输入层的节点数量不可改变。然而，在船舶安全各领域内障碍物和来船的数量是在动态变化的。由于近海复杂环境障碍物较多，如果增加初始时输入层的节点个数以此来反应所有障碍物和来船的信息，则整个网络会变得过于庞大和复杂，这明显增加了算法训练所需的时间并降低了收敛性效果。为此只考虑最近且最危险的障碍物或来船的信息。因此障碍物状态信息S_env的定义如下公式所示。

S_env＝[x_T,y_T,v_T,θ_T,d_T,Δθ_T]

其中(x_T，y_T)，v_T，θ_T分别为最近障碍物在二维平面中的位置、速度、运动方向，d_T为本船到该障碍物的距离，△θ_T为障碍物运动方向与船艏向的角度差。

本船运动状态信息S_os主要包括本船的位置、速度、艏向以及本船与目标点之间的距离、方位等信息。本船运动状态信息S_os的定义如下公式所示。

S_os＝[x_o,y_o,v_o,w_o,θ_o,d_goal,θ_goal]

其中(x_o，y_o)，v_o，w_o，θ₀分别表示本船的在二维平面中的位置、线速度、角速度、运动方向，d_goal为本船与重点的距离，θ_goal终点与本船的方位。

S42：依据所述评价函数确定所述改进PPO算法中的奖励函数。具体包括：

由于传统的PPO算法用于避障路径规划时，奖励函数只包含到达终点的正向奖励、撞到障碍物的负向奖励和走一步的负向奖励，智能体在达到终点之前的其他动作不会收到任何正向的反馈。在复杂环境下，智能体可能因为稀疏的奖励函数无法学习。因此本发明围绕智能船的动态避障的控制目标，结合DWA算法中的评价函数，设计合适的奖励函数来对智能船当前的状态进行有效的评估，引导智能体做出正确的避碰决策，确保算法的收敛性并提升其性能。

智能体在每个时间步获得的奖励分为三部分：正常动作奖励R_o、终点奖励R_goal、碰撞奖励R_col。奖励函数R：

正常动作奖励R_o定义为智能船未发生碰撞且未到达终点时，运动一个时间步所获得的奖励。为解决融合算法奖励稀疏的问题，根据DWA算法中的评价函数对奖励函数进行改进。改进后的正常动作奖励函数定义如下式所示。

其中，R_head相对应DWA的评价函数中的角度分量Heading(v,w)，该奖励值与智能船的运动方向和终点方向之间的角度差成反比，角度差越大，奖励值越低。R_head定义如下式所示。

R_dis相对应DWA的评价函数中的距离分量Distance(v，w)，该奖励值与智能船和最近障碍物的距离乘正比，距离障碍物越远，奖励值越高。R_dis定义如下式所示。

其中，d_obs表示障碍物与目标智能船的距离。

R_vel相对应DWA的评价函数中的速度分量Velocity(v，w)，该奖励值与智能船的速度成正比，速度越快，奖励值越高。R_vel定义如下式所示。

其中，v是目标智能船的当前速度，v_max是目标智能船能达到的最大速度。

终点奖励R_goal定义为根据智能船当前位置与终点之间的距离给予的奖励。当智能船与终点的距离小于d_sensor/2时，终点奖励值为100；否则终点奖励值为0。R_goal定义如下式所示。

碰撞奖励R_col定义为根据智能船当前位置与最近障碍物或者来船之间的距离给予的奖励。当智能船与最近障碍物或来船的距离小于d_sensor/2时，终点奖励值为-100；否则终点奖励值为0。R_col定义如下式所示。

S43：依据当前所述目标智能船状态信息和当前所述障碍物状态信息结合所述改进PPO算法，得到所述目标障碍物的最优避障策略。

采用改进后的算法(DWA-PPO)构建智能船避碰决策系统，通过输入感知的环境信息和本船运动状态信息，获得当前时刻最优的避碰速度组合(v，w)。

本发明中，应用改进的PPO算法进行智能船的避障路径规划，在实际应用改进的PPO算法时，需要对PPO算法中的神经网络进行训练，经过训练过程，网络参数达到比较优的值，能够提高PPO算法进行路径规划的准确性。所以，在实际路径规划时，需要预先对PPO算法中的Actor网络和Critic网络进行训练，如图2和4所示：

(1.1)，首先通过Actor-new网络与环境进行交互，将环境信息s输入到Actor-new网络，得到描述正态分布的均值μ和方差σ(意义是表示动作action的分布)，然后通过该正态分布随机采样一个action组合(v，w)，再输入到环境中得到奖励r和下一步的状态s_{_}，然后存储{s，a，r，s_{_}}，再将s_输入到actor-new网络，循环步骤(1.1)，直到存储了一定量的{s，a，r，s_}。

(1.2)，将步骤(1.1)循环完最后一步得到的环境信息s_输入到critic-NN网络中，得到状态的估计值V(s_)即V_，然后计算折扣奖励：R(t)＝r(t)+γ*r(t+1)+γ²*r(t+2)+…+γ^T-t-1*r(T-1)+γ^T-t*V_，得到折扣奖励序列R＝[R(1),…R(T)]，其中T为最后一时间步。t定义为时间步变量，t可以取值1，2，3，…，T。

(1.3)，将经验池中所有环境信息s组合输入到critic-NN网络中，计算所有状态的评估状态价值，再通过如下公式计算优势值

δ_t＝r_t+γV(s_t+1)-V(s_t)

其中，γ表示折扣奖励折扣系数，λ只是一个系数，都属于[0,1]。

(1.4)，再通过如下公式计算critic-NN网络的损失函数c_loss，然后反向传播更新critic-NN网络的参数。

V(s_t)表示将状态s_t输入到critic网络后的输出值，该值表示对状态s_t的评估。

(1.5)，将经验池中存储的所有s组合输入actor-old和actor-new网络中，分别得到对应正态分布的期望方差参数μ₁，σ₁和μ₂，σ₂，然后构建两个正态分布Normal1和Normal2，再将存储的所有action组合为动作序列输入到正态分布Normal1和Normal2，得到每个动作action对应的概率分布即prob1和prob2，然后用prob2除以prob1得到新旧策略比值。

随着训练的进行，两个策略间的策略熵会增加。为此需要确定更新步长，当更新步长不合适时，更新后的参数对应的策略回报函数会降低，越学越差导致算法最终无法收敛。通过如下公式将新旧策略网络的动作输出概率的变化范围g_t(θ)限制在一定区域内，则可以解决此问题。

其中，θ代表策略网络π的参数。

(1.6)，根据如下公式计算actor-new-NN网络的损失函数a_loss，然后反向传播更新actor-new-NN网络的参数。

其中，ε为超参数，一般设置为0.2；

为优势函数，当/>

时，说明此动作比平均动作要好，所以增大选择该动作的概率；当/>

时，说明此动作比平均动作要差，所以减少选择此动作的概率，但是网络得到的动作的概率分布不能差太远，因此分别在1+ε和1-ε处截断，限制策略更新的幅度。目标函数限制范围如图5所示，图5(a)和图5(b)分别说明了这两种情况，图5中L^CLIP(θ)表示PPO算法的目标函数，即损失函数。

(1.7)，循环运行步骤(1.5)和步骤(1.6)T_update次后结束循环，再将actor-new-NN网络权重参数更新到actor-old-NN网络。

(1.8)，循环步骤(1.1)-(1.7)，知道达到最大训练次数T_max。

总结为，在依据当前所述目标智能船状态信息和当前所述障碍物状态信息结合所述改进PPO算法，得到所述目标障碍物的最优避障策略之前，还包括：

(1)获取PPO算法的训练数据集，所述训练数据集包括多个训练子集；每一所述训练子集包括t时间步的环境状态样本信息、t时间步的目标智能船的动作信息、t时间步的奖励值和t+1时间步的环境状态样本信息；所述t时间步的环境状态样本信息包括t时间步的目标智能船状态样本数据和t时间步的障碍物状态样本数据。

其中，获取PPO算法的训练数据集具体包括：

(i)获取环境状态样本信息。

(ii)将当前所述环境状态样本信息输入到所述改进PPO算法的新Actor网络，得到当前新Actor网络输出结果，依据当前所述新Actor网络输出结果确定当前所述目标智能船的动作信息。

(iii)依据当前所述目标智能船的动作信息和所述奖励函数确定当前所述目标智能船状态样本数据对应的奖励值和下一时间步环境状态样本信息，并将当前所述环境状态样本信息、当前所述目标智能船的动作信息、当前所述奖励值和所述下一时间步环境状态样本信息存储于一个所述训练子集中。

(iv)将所述下一时间步环境状态样本信息作为当前所述环境状态样本信息，返回步骤(ii)“将当前所述环境状态样本信息输入到所述改进PPO算法的新Actor网络”；直至所述训练数据集的数据量达到预设数量。

(2)将所述训练数据集中最后一时间步环境状态样本信息输入到所述改进PPO算法的Critic网络，得到最后一时间步状态估计值。

(3)根据所述最后一时间步状态估计值和所有所述奖励值计算折扣奖励。

(4)将所述训练数据集中的所有所述环境状态样本信息输入到所述Critic网络中，得出所有状态估计值；并根据所有所述状态估计值和所述奖励值确定所述Critic网络优势函数。

(5)依据所述Critic网络的损失函数对所述Critic网络进行参数更新；所述Critic网络的损失函数是根据所述折扣奖励和所有所述状态估计值V_φ(s_t)确定的。

(6)将所述训练数据集中的所有所述环境状态样本信息分别输入到所述改进PPO算法的新Actor网络和旧Actor网络，并根据新Actor网络输出和旧Actor网络输出确定新旧策略比值。

(7)根据所述新旧策略比值和所述优势函数确定Actor网络损失函数，并依据所述Actor网络损失函数更新所述新Actor网络的参数。

(8)返回步骤(6)“将所述训练数据集中的所有所述环境状态样本信息分别输入到所述改进PPO算法的新Actor网络和旧Actor网络”，直至所述新Actor网络的更新迭代次数达到第一预设值。

(9)将最后一次更新迭代时得到的所述新Actor网络的参数赋给所述旧Actor网络。该算法的原理是通过重要采样方法从旧策略π_θold(a_t，s_t)中获取样本，以此来提升样本的利用率。同时定期将新策略π_θ(a_t，s_t)的参数更新到旧策略π_θold(a|s)中。

(10)判断当前训练迭代次数是否达到第二预设值；若是，则对所述改进PPO算法中的所述新Actor网络、所述旧Actor网络和所述Critic网络完成训练。

(11)若否，则返回步骤(1)“获取PPO算法的训练数据集”，直至所述训练迭代次数达到所述第二预设值。

本发明综合了深度强化学习(PPO)和动态窗口算法(DWA)，结合DWA算法中有关与障碍物距离、船速、航向角与目标的方位角之间偏差的评价函数，对PPO算法的奖励函数进行改进，在解决了传统DWA算法的前瞻性不足以及传统PPO算法的奖励稀疏问题的同时，提高了算法的收敛速度，使改进后的算法能够适应环境变化，提高避碰过程中与障碍物之间的距离，有效提升了智能船在具体水面环境中的避碰能力。

对于近海海域航行的智能船避障路径规划任务来说，改进后的算法既具有PPO算法对连续控制问题有很好的表现，同时也具备DWA算法计算复杂度低、高效、避障效果实时性好的优点，使改进后的算法能够适应环境变化，提高避碰过程中与障碍物之间的距离，有效提升了智能船在具体水面环境中的避碰能力，总体提高了智能船在水面路径规划方面的安全性和效率。

实施例2

本实施例提供一种智能船的避障路径规划系统，所述系统包括：

数据获取模块，用于获取目标智能船感知范围内的障碍物状态信息和目标智能船状态信息。

隶属度函数构建模块，用于基于所述目标智能船状态信息和所述障碍物状态信息构建危险度隶属函数，利用所述危险度隶属函数评估所述目标智能船与感知范围内障碍物的碰撞危险度。

其中，所述隶属度函数构建模块具体包括：

参数计算子模块，用于计算所述目标智能船与所述障碍物之间的相距距离、相对速度比、相对舷角、最近会遇距离和最近会遇时间。

隶属度子函数构建子模块，用于基于所述相距距离、所述相对速度比、所述相对舷角、所述最近会遇距离和所述最近会遇时间分别计算距离危险度子隶属度函数、相对速度比危险度子隶属度函数、相对舷角危险度子隶属度函数、最近会遇距离危险度子隶属度函数和最近会遇时间危险度子隶属度函数。

第一路径规划模块，用于当所述碰撞危险度小于等于危险度阈值时，控制所述目标智能船按照原始航线行使。

其中，所述第二路径规划模块具体包括：

评价函数确定子模块，用于依据所述目标智能船状态信息和所述障碍物状态信息，利用所述DWA算法确定所述目标智能船的预测运动轨迹，并得出各所述预测运动轨迹的评价函数。

奖励函数改进子模块，用于依据所述评价函数确定所述改进PPO算法中的奖励函数。

其中，所述奖励函数改进子模块具体包括：

本说明书中各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种智能船的避障路径规划方法，其特征在于，所述方法包括：

基于所述最优避障策略控制所述目标智能船行进。

2.根据权利要求1所述的方法，其特征在于，所述基于目标智能船状态信息和所述障碍物状态信息构建危险度隶属函数，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述根据当前所述目标智能船状态信息和当前所述障碍物状态信息应用改进PPO算法，得到所述目标障碍物的最优避障策略，具体包括：

依据所述评价函数确定所述改进PPO算法中的奖励函数；

4.根据权利要求3所述的方法，其特征在于，所述依据所述评价函数改进所述改进PPO算法中的奖励函数，具体包括：

依据所述评价函数中的角度分量、距离分量和速度分量确定所述改进PPO算法中所述奖励函数的正常动作奖励函数；所述奖励函数包括所述正常动作奖励函数、终点奖励函数和碰撞奖励函数。

5.根据权利要求4所述的方法，其特征在于，在依据当前所述目标智能船状态信息和当前所述障碍物状态信息结合所述改进PPO算法，得到所述目标障碍物的最优避障策略之前，还包括：

依据Critic网络的损失函数对所述Critic网络进行参数更新；所述Critic网络的损失函数是根据所述折扣奖励和所有所述状态估计值确定的；

6.根据权利要求5所述的方法，其特征在于，所述获取PPO算法的训练数据集，具体包括：

获取环境状态样本信息；

7.一种基于权利要求1-6任一项所述的方法的智能船的避障路径规划系统，其特征在于，所述系统包括：

8.根据权利要求7所述的系统，其特征在于，所述隶属度函数构建模块具体包括：

9.根据权利要求7所述的系统，其特征在于，所述第二路径规划模块具体包括：

10.根据权利要求9所述的系统，其特征在于，所述奖励函数改进子模块具体包括：