CN116501069A

CN116501069A - 一种基于多智能体强化学习的水面无人集群航路规划方法

Info

Publication number: CN116501069A
Application number: CN202310666171.7A
Authority: CN
Inventors: 郑爽; 吕遐东; 胡洋; 许梓健; 陈杰
Original assignee: China Ship Development and Design Centre
Current assignee: China Ship Development and Design Centre
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-07-28

Abstract

本发明公开了一种基于多智能体强化学习的水面无人集群航路规划方法，包括：步骤1、根据水面无人集群执行任务的区域想定，进行三维环境建模；步骤2、针对水面无人集群执行目标驱逐任务，利用强化学习的马尔可夫决策理论构建水面无人集群航路规划的马尔可夫决策模型，即MDP模型；在MDP模型中通过设置目标奖励与过程奖励引导智能体的学习方向；步骤3、通过多智能体近端策略优化算法对MDP模型进行训练，训练得到用于水面无人集群执行目标驱逐任务的神经网络模型，利用神经网络模型实现水面无人集群执行目标驱逐任务时的实时航路规划。本发明能解决水面无人集群协同航路规划问题，智能体会自主规划实时航路，不需要额外求解动态目标的驱逐顺序。

Description

一种基于多智能体强化学习的水面无人集群航路规划方法

技术领域

本发明涉及无人船自主航路规划技术领域，尤其涉及一种基于多智能体强化学习的水面无人集群航路规划方法。

背景技术

水面无人船是一种具备自主航行能力，通过搭载任务载荷来遂行相关任务的水面设备，兼具高速、灵活等特点，无人船执行任何任务的首要前提就是航路规划，而在实际作业过程中单一无人船由于自身载荷与系统的限制，显的势单力薄，为了与更高的作业效率与更广的作业范围，在实施作业的过程时大多采用多艘无人船组成水面无人集群进行实际作业。

在水面无人集群协同航路规划领域，国内外学者针对水面无人集群协同航路规划中的航路可飞性、障碍规避、冲突规避等方面进行大量研究，并产生诸多研究成果，按照规划方法来分可以分为1)人工势场方法；2)基于数学的规划方法，包括非线性规划算法与动态规划算法；3)基于图形学的方法，包括A*算法、Voronoi图法、概率路标图法和快速扩展随机树等；4)智能优化算法，包括遗传算法、模拟退火算法、粒子群算法和蚁群算法等，海上环境复杂且目标大都为动态，传统规划方法在决策的过程中考虑决策时刻之前状态的比重大大多于考虑决策行为对后续阶段产生后果的影响，并且在需要实时决策的任务中，每一个决策都需要处理大量的实时海上态势数据，传统的规划方法难以实现实时决策目的；5)基于深度强化学习(DRL)的算法，包括基于DQN的无人船全局路径规划等。

传统无人船路径规划算法很难满足在未知的复杂海洋环境中进行高效的实时航路规划，但得益于深度神经网络的优秀表征能力，结合深度强化学习的无人船航路规划方法在这种情况下应运而生。智能体在与环境的交互中获取数据，通过不断“试错”的方式去探索并规划航路，满足并适用于各种复杂环境，但现有基于DRL的无人船航路控制问题研究成果多集中于对航向或路径跟踪控制，基于DRL面向海上目标驱逐的水面无人集群实时航路规划则少有研究。

本发明要解决的技术问题为：考虑动态目标和无人船运动特性找到一条符合实际任务需要的实时最优航路。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于多智能体强化学习的水面无人集群航路规划方法。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种基于多智能体强化学习的水面无人集群航路规划方法，该方法包括以下步骤：

步骤1、根据水面无人集群执行任务的区域想定，进行三维环境建模；

步骤2、针对水面无人集群执行目标驱逐任务，利用强化学习的马尔可夫决策理论构建水面无人集群航路规划的马尔可夫决策模型，即MDP模型；在MDP模型中通过设置目标奖励与过程奖励引导智能体的学习方向；

步骤3、通过多智能体近端策略优化算法对MDP模型进行训练，训练得到用于水面无人集群执行目标驱逐任务的神经网络模型，利用神经网络模型实现水面无人集群执行目标驱逐任务时的实时航路规划。

进一步地，本发明的所述步骤S1中的方法包括：进行三维环境建模，对批量动态目标的航路点、速度进行设置；对水面无人集群的初始位置、朝向、驱逐距离进行设定。

进一步地，本发明的所述步骤2中的方法包括：

步骤2.1、构建水面无人集群的状态空间，水面无人集群包括多艘无人船，确定无人船与动态目标的对应关系；

步骤2.2、将无人船的航行航向与航行速度两类参数分别离散为9维与3维，即动作空间有9*3维；

步骤2.3、在航行情况下，根据定义的状态空间和动作空间，以一个给定的动作进行状态转移，对无人船下一时刻的状态进行表示；

步骤2.4、构建奖惩函数，从四个方面考虑回报：目标距离回报、成功驱逐回报、动态目标存活回报与碰撞障碍物回报。

进一步地，本发明的所述步骤2.1的方法包括：

状态空间被定义为：

s_t＝(P(t)，ψ₁(t)，ψ₂(t)，…ψ_m(t)，D₁(t)，D₂(t)，…D_n(t))

其中，P(t)表示在第t个时间片的动态目标与无人船的对应关系，ψ_a(t)表示第t个时间片无人船a的位置与航行信息，D_b(t)表示第t个时间片动态目标b的位置信息；

无人船与动态目标的对应关系由以下方法确定：

根据动态目标与无人船位置的远近关系，得到各动态目标与无人船的分配关系；

动态目标T_j与各无人船(S₁,S₂,…,S_n)的距离关系为(d_1j,d_2j,…,d_nj)，其中：

min(d_1j，d_2j，…，d_nj)＝d_mj

则动态目标T_j的初步无人船分配方案为(T_j,S_m)，即T_j的初步分配的驱逐无人船为S_m，如果分配给无人船S_m的目标数量超过自身驱逐资源数量限制，则将该目标分配给除无人船S_m外距离最近的无人船，后续无人船如果还是出现分配目标数量超过自身驱逐资源数量，则继续按距离远近关系顺延给后续无人船；

ψ_a(t)中的位置与航行信息包括位置坐标(x,y)、航速v和航向位置坐标(x,y)表示为二维连续空间，为了简化训练过程，航向/>表示为一维的离散空间；

D_b(t)中的位置信息包括动态目标的三维坐标(x,y,z)。

进一步地，本发明的所述步骤2.2的方法包括：

将无人船的航行航向与航行速度两类分别离散为9维与3维，即动作空间有9*3维，如下：

航行航向的取值范围为：

航行速度分为：减速、巡航、加速；

其中，航行航向中的0表示下一航段保持当前航向，航行航向大于0表示下一航段顺时针调整相应的度数，航行航向小于0表示下一航段逆时针调整相应的度数，表示最大调整度数；航行速度将航速从0到最大航速v_max分为11段[0、0.1v_max、0.2v_max、0.3v_max、0.4v_max、0.5v_max、0.6v_max、0.7v_max、0.8v_max、0.9v_max、v_max]，当航行速度处于0时，减速的决策将失效，当速度处于v_max时，加速的决策将失效。

进一步地，本发明的所述步骤2.3的方法包括：

在航行情况下，根据定义的状态空间和动作空间，以一个给定的动作a_t＝(α(t),β(t))进行状态转移，无人船的下一时刻的状态表示为：

其中，Δv表示由动作β(t)决定的速度的变化量，无人船航向的正北方向为0度，顺时针方向为航向增加方向，α(t)的0度表示航向不变，α(t)大于0表示航向在上一时刻基础上向顺时针方向增加α(t)度，反之则转向逆时针方法。

进一步地，本发明的所述步骤2.3的方法包括：

在水面无人集群收集到状态信息，由神经网络产生相应的动作并且水面无人集群执行该动作后，考虑四个方面的回报，目标距离回报r₁(t)、成功驱逐回报r₂(t)、动态目标存活回报r₃(t)与碰撞障碍物回报r₄(t)；其中：

目标距离回报r₁(t)具体如下：

其中，AWT_t-1表示t-1时刻，无人船与分配到的目标的平均距离，即与每一个目标的距离之和除分配到目标的数量，AWT_t表示t时刻无人船与上一时刻无人船分配到的目标的平均距离，AWT_base表示基准值，reward_AWT表示基准奖励；

成功驱逐回报r₂(t)具体如下：

r₂(t)＝reward_D*DN(t)

其中，reward_D表示驱逐掉一个目标的奖励，DN(t)表示这个时刻t已驱逐的目标数量；

动态目标存活回报r₃(t)具体如下：

r₃(t)＝reward_S*SN(t)

其中，reward_S表示一个目标存在时的奖励，SN(t)表示这个时刻t还存活的动态目标数量；

碰撞障碍物回报r₄(t)具体如下：

r₄(t)＝reward_C*CN(t)

其中，reward_C表示碰撞到障碍物时的奖励，CN(t)表示这个时刻t碰撞到障碍物的无人船数量；

总的奖励函数可以表示为：

r(t)＝ar₁(t)+br₂(t)+cr₃(t)+dr₄(t)

其中，a、b、c、d为权重系数，a+b+c+d＝1。

进一步地，本发明的所述步骤3的方法包括：

步骤3.1、给定水面无人集群起始点、朝向和想定情景的三维建模；

步骤3.2、使用步骤2建立的MDP模型，选用多智能体近端策略优化算法，即MAPPO算法，MAPPO算法是在单智能体近端策略优化算法的基础上采用集中式训练-分布式执行架构构成的多智能体算法，使用MAPPO算法做为航路规划神经网络训练的算法，根据步骤1建立的环境模型和步骤2构建的MDP模型进行训练；

步骤3.3、在训练得到智能体神经网络模型之后，对无人船进行实时的航路规划。

本发明产生的有益效果是：

本发明较现有的水面无人集群协同航路规划方法充分利用先验知识，考虑动态目标和无人船运动特性：

(1)以多智能体技术解决水面无人集群协同航路规划问题；

(2)相比传统实时规划方法，大幅减少实际规划耗费的时间；

(3)在训练过程中由于奖励的设置，训练完成后，智能体会自主规划实时航路，不需要额外求解动态目标的驱逐顺序。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的基于多智能体强化学习的水面无人集群航路规划逻辑步骤；

图2是本发明实施例的基于作业想定的三维环境建模图；

图3是本发明实施例的基于MAPPO的算法集中式训练-分布式执行架构；

图4是本发明实施例的水面无人集群工作流程。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明实施例的水面无人集群协同实时航路规划方法，水面无人集群执行目标驱逐任务，利用强化学习的马尔可夫决策理论构建水面无人集群航路规划的马尔可夫决策模型(MDP)；通过设置目标奖励与过程奖励引导智能体的学习方向；通过设置的离散动作控制无人船的航路；通过多智能体近端策略优化算法(MAPPO)训练得到用于水面无人集群执行目标驱逐任务的神经网络模型，最后利用神经网络模型实现水面无人集群执行目标驱逐任务时的实时航路规划。

如图1所示，本发明的一种基于多智能体强化学习的水面无人集群航路规划方法，包括如下三个步骤。

S1、根据水面无人集群执行任务的区域想定，进行三维环境建模，对批量动态目标的航路点、速度进行设置；对无人船的初始位置、朝向、驱逐距离进行设定，具体环境各部件建模图如图2所示。

本实施例，S2、构建水面无人集群航路规划的马尔可夫决策过程(MDP)具体实现步骤如下：

Step1、状态空间被定义为

s_t＝(P(t)，ψ₁(t)，ψ₂(t)，…ψ_m(t)，D₁(t)，D₂(t)，…D_n(t)) (1)

其中，P(t)表示在第t个时间片的动态目标与无人船的对应关系，ψ_a(t)表示第t个时间片无人船a的位置与航行信息，D_b(t)表示第t个时间片动态目标b的位置信息。

无人船与目标的对应关系由以下方法确定：

例如动态目标T_j与各无人船(S₁，S₂，…，S_n)的距离关系为(d_1j，d_2j，…，d_nj)，其中，

min(d_1j，d_2j，…，d_nj)＝d_mj (2)

则动态目标T_j的初步无人船分配方案为(T_j，S_m)，即T_j的初步分配的驱逐无人船为S_m，如果分配给无人船S_m的目标数量超过自身驱逐资源数量限制，则将该目标分配给除无人船S_m外距离最近的无人船，后续无人船如果还是出现分配目标数量超过自身驱逐资源数量，则继续按距离远近关系顺延给后续无人船。

ψ_a(t)中的位置与航行信息包括位置坐标(x,y)、航速v和航向位置坐标(x,y)表示为二维连续空间，为了简化训练过程，航向/>表示为一维的离散空间。

D_b(t)中的位置信息包括动态目标的三维坐标(x,y,z)。

step2、将无人船的动作航向与航速两类分别离散为9维与3维，即动作空间有9*3维，如下：

上表中的航行航向中的0表示下一航段保持当前航向，航行航向大于0表示下一航段顺时针调整相应的度数，航行航向小于0表示下一航段逆时针调整相应的度数。在上表中的航行速度将航速从0到最大航速v_max分为11段[0、0.1v_max、0.2v_max、0.3v_max、0.4v_max、0.5v_max、0.6v_max、0.7v_max、0.8v_max、0.9v_max、v_max]，当航行速度处于0时，减速的决策将失效，当速度处于v_max时，加速的决策将失效。例如当前航段航速为0.2v_max，航行速度动作为加速则下一航段速度为0.3v_max。

step3、在航行情况下，根据定义的状态空间和动作空间，以一个给定的动作a_t＝(α(t),β(t))就可以进行状态转移，无人船的下一时刻的状态可以表示为：

上式中，Δv表示由动作β(t)决定的速度的变化量，无人船航向的正北方向为0度，顺时针方向为航向增加方向，α(t)的0度表示航向不变，α(t)大于0表示航向在上一时刻基础上向顺时针方向增加α(t)度，反之则转向逆时针方法。

动态目标与无人船的对应关系P(t)的更新由step1中的目标分配方法来更新。

step4、奖惩函数具体如下：

在水面无人集群收集到状态信息，由神经网络产生相应的动作并且水面无人集群执行该动作后，主要考虑四个方面的回报，目标距离回报r₁(t)、成功驱逐回报r₂(t)、动态目标存活回报r₃(t)与碰撞障碍物回报r₄(t)。

目标距离回报r₁(t)具体如下：

上式中，AWT_t-1表示t-1时刻，无人船与分配到的目标的平均距离，即与每一个目标的距离之和除分配到目标的数量，AWT_t表示t时刻无人船与上一时刻无人船分配到的目标的平均距离，AWT_base表示基准值，reward_AWT表示基准奖励。

成功驱逐回报r₂(t)具体如下：

r₂(t)＝reward_D*DN(t) (5)

上式中，reward_D表示驱逐掉一个目标的奖励，DN(t)表示这个时刻t已驱逐的目标数量。

动态目标存活回报r₃(t)具体如下：

r₃(t)＝reward_s*SN(t) (6)

上式中，reward_S表示一个目标存在时的奖励，SN(t)表示这个时刻t还存活的动态目标数量。

碰撞障碍物回报r₄(t)具体如下：

r₄(t)＝reward_c*CN(t) (7)

上式中，reward_C表示碰撞到障碍物时的奖励，CN(t)表示这个时刻t碰撞到障碍物的无人船数量。

总的奖励函数可以表示为：

r(t)＝ar_l(t)+br₂(t)+cr₃(t)+dr₄(t) (8)

其中a、b、c、d为权重系数,a+b+c+d＝1。

本实施例中，根据S1的环境建模和S2的MDP的构建。

S3基于MAPPO算法根据水面无人集群的想定场景完成协同航路规划具体实现如下：

step1、给定水面无人集群起始点、朝向和想定情景的三维建模；

step2、使用S2建立的MDP模型，选用多智能体近端策略优化算法(MAPPO)算法，MAPPO是在单智能体近端策略优化算法(PPO)的基础上采用集中式训练-分布式执行架构构成的多智能体算法，算法的集中式训练-分布式执行架构如图3所示，使用MAPPO算法做为航路规划神经网络训练的算法，设定batch_size＝200、learning rate＝5e-4、criticlearning rate＝5e-4、RMSprop optimizer epsilon＝1e-5、number of ppo epochs＝15、ppo clip parameter＝0.2、entropy term coefficient＝0.01、discount factor forrewards＝0.99、gae lambda parameter＝0.95，设定actor和critic网络为三层，隐藏层为64维，根据S1建立的环境模型和S2构建的MDP进行训练。

在训练得到智能体神经网络模型之后，再按照图4中流程对无人船进行实时的航路规划，图4是本发明的水面无人集群工作流程示意图。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于多智能体强化学习的水面无人集群航路规划方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于多智能体强化学习的水面无人集群航路规划方法，其特征在于，所述步骤S1中的方法包括：进行三维环境建模，对批量动态目标的航路点、速度进行设置；对水面无人集群的初始位置、朝向、驱逐距离进行设定。

3.根据权利要求1所述的基于多智能体强化学习的水面无人集群航路规划方法，其特征在于，所述步骤2中的方法包括：

4.根据权利要求3所述的基于多智能体强化学习的水面无人集群航路规划方法，其特征在于，所述步骤2.1的方法包括：

状态空间被定义为：

s_t＝P(t),ψ₁(t),ψ₂(t),…ψ_m(t),D₁(t),D₂(t),…D_n(t))

无人船与动态目标的对应关系由以下方法确定：

min(d_1j,d_2j,…,d_nj)＝d_mj

D_b(t)中的位置信息包括动态目标的三维坐标(x,y,z)。

5.根据权利要求4所述的基于多智能体强化学习的水面无人集群航路规划方法，其特征在于，所述步骤2.2的方法包括：

航行航向的取值范围为：

航行速度分为：减速、巡航、加速；

6.根据权利要求5所述的基于多智能体强化学习的水面无人集群航路规划方法，其特征在于，所述步骤2.3的方法包括：

7.根据权利要求6所述的基于多智能体强化学习的水面无人集群航路规划方法，其特征在于，所述步骤2.3的方法包括：

目标距离回报r₁(t)具体如下：

成功驱逐回报r₂(t)具体如下：

r₂(t)＝reward_D*DN(t)

动态目标存活回报r₃(t)具体如下：

r₃(t)＝reward_S*SN(t)

碰撞障碍物回报r₄(t)具体如下：

r₄(t)＝reward_C*CN(t)

总的奖励函数可以表示为：

r(t)＝ar₁(t)+br₂(t)+cr₃(t)+dr₄(t)

其中，a、b、c、d为权重系数,a+b+c+d＝1。

8.根据权利要求1所述的基于多智能体强化学习的水面无人集群航路规划方法，其特征在于，所述步骤3的方法包括：