CN113592162B

CN113592162B - 一种基于多智能体强化学习的多水下无人航行器协同搜索方法

Info

Publication number: CN113592162B
Application number: CN202110828428.5A
Authority: CN
Inventors: 杨惠珍; 夏琪琪
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2023-06-02
Anticipated expiration: 2041-07-22
Also published as: CN113592162A

Abstract

本发明公开了一种基于多智能体强化学习的多水下无人航行器协同搜索方法，在AUV协同搜索的强化学习过程中，利用VDN方法将团队的全局价值分解为单个AUV的子值函数，用DQN对全局价值反向传播计算，AUV分别执行使团队价值Q_total最大时的动作，实现多AUV的高效协同搜索。本发明解决了多AUV协同搜索过程中“虚假奖励”和“懒惰AUV”的问题，利用价值网络分解架构来均衡每个AUV的搜索收益值，使用强化学习的方法能够使AUV根据奖励大小来规划AUV的搜索路径，并引入参数共享方法加速算法收敛，从而提高协同搜索效率。

Description

一种基于多智能体强化学习的多水下无人航行器协同搜索方法

技术领域

本发明属于AUV技术领域，具体涉及一种多水下无人航行器协同搜索方法。

背景技术

近年来，各国对海洋的开发和竞争日趋激烈，人们对于水下区域的搜索非常重视。由于自主水下航行器(AUV)具有良好的隐蔽性和机动性，可具备军事搜索、情报搜集等功能。与单个AUV有限的探测能力相比，多个AUV协同工作能够扩展获取环境的感知范围，增强系统的容错能力，通过各AUV之间的信息互通，完成更复杂的搜索任务。因此，多AUV协同搜索问题是现阶段水下机器人研究的重要方向。

传统的协同搜索主要有覆盖式编队搜索、群集搜索等方法，这些方法通常存在耗时长、搜索效益不高等问题。由于近年来强化学习技术迅速发展,其不需要建立复杂模型，以试错的方式与环境进行交互,获取最大的收益回报，能够在反馈的过程中获得最优联合决策，适用于环境复杂的情况。

现在主流的CTDE(集中训练、分布执行)算法中，在集中训练时，由于AUV的部分可观测能力，容易出现一些虚假奖励和“懒惰AUV”的情况；而在分布式执行过程中仅依赖单个AUV的Q值进行决策存在较大不稳定性。

发明内容

为了克服现有技术的不足，本发明提供了一种基于多智能体强化学习的多水下无人航行器协同搜索方法，在AUV协同搜索的强化学习过程中，利用VDN方法将团队的全局价值分解为单个AUV的子值函数，用DQN对全局价值反向传播计算，AUV分别执行使团队价值Q_total最大时的动作，实现多AUV的高效协同搜索。本发明解决了多AUV协同搜索过程中“虚假奖励”和“懒惰AUV”的问题，利用价值网络分解架构来均衡每个AUV的搜索收益值，使用强化学习的方法能够使AUV根据奖励大小来规划AUV的搜索路径，并引入参数共享方法加速算法收敛，从而提高协同搜索效率。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：采用栅格法对待搜索区域进行划分，基于环境先验信息建立多AUV的搜索地图，在AUV搜索过程中利用传感器探测模型更新地图；

步骤2：构造多AUV协同搜索的强化学习模型MARL：定义第i个自主水下航行器AUV_i的状态空间sⁱ∈S、动作空间aⁱ∈A、转移函数T:S×A→P(S)、观测值

搜索收益的奖励函数/>

策略函数π:S→P(A)，全局搜索收益的奖励函数

根据AUV状态信息和决策设计Q_i值；sⁱ表示AUV_i的状态，aⁱ表示AUV_i的动作，P(S)表示状态空间S的概率分布函数，oⁱ表示第i个AUV的观测，P(A)表示动作空间A的概率分布函数，d表示AUV个数，Q_i表示第i个AUV的Q值；/>

步骤3：采用价值网络分解架构VDN，将团队的全局价值Q_total分解为每个AUV的子值函数

的线性加和：假设Q_total((h¹,h²,…,h^d),(a¹,a²,…,a^d))是多AUV的整体Q函数，hⁱ是AUV_i的历史序列信息；

为了得到各个AUV的值函数，提出VDN方法：

式(1)表明Q_total能通过线性加和的方式近似分解成d个子值函数

分别对应d个不同的AUV，且每个/>

函数的输入为对应AUV的局部观测序列和动作，互相不受影响；

步骤4：引入“AUV不变性”的定义，“AUV不变性”表明交换AUV的观测次序和交换其策略次序是等价的，在AUV之间共享部分网络权重，减少可学习参数的数量，从而有助于避免懒惰智能体问题；

定义：对AUV序号的任意排列，即双射函数p:{1,…,d}→{1,…,d}，有

成立，则称π具有“AUV不变性”，其中/>

表示集合

的一个双射函数；

步骤5：利用深度神经网络DQN的方法，通过全局奖励R_total更新Q_total，然后对全局价值反向传播，更新每个AUV的子值

迭代更新公式为：

Q_i+1(s_t,a_t)＝(1-η_t)Q_i(s_t,a_t)+η_t(r_t+γmax_a Q_i(s_t+1,a_t)) (2)其中γ是折扣因子，η_t是学习率，使用ε-greedy贪婪算法：即有ε的概率选择随机动作，有1-ε的概率贪心选择使Q_i最大的动作；s_t,a_t分别为AUV在t时刻的状态和动作，s_t+1为AUV在状态s_t下执行动作a_t，更新后在t+1时刻的状态；

步骤6：AUV根据局部观测和自身

分布式执行使Q_total最大时的动作，即使搜索效益最大化的路径：

其中a^i′为第i个AUV在其

值为/>

时所执行的动作。

本发明的有益效果如下：

本发明提供的一种基于多智能体强化学习的多AUV协同搜索方法，该方法解决了多AUV协同搜索过程中“虚假奖励”和“懒惰AUV”的问题，利用价值网络分解架构来均衡每个AUV的搜索收益值，使用强化学习的方法能够使AUV根据奖励大小来规划AUV的搜索路径，并引入参数共享方法加速算法收敛，从而提高协同搜索效率。

附图说明

图1为本发明的整体结构图。

图2为本发明声纳传感器探测图。

图3为本发明提出的值分解架构图。

图4为本发明基于多智能体强化学习的VDN流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，一种基于多智能体强化学习的多水下无人航行器协同搜索方法，包括如下步骤：

搜索收益的奖励函数/>

策略函数π:S→P(A)，全局搜索收益的奖励函数

根据AUV状态信息和决策设计Q_i值；sⁱ表示AUV_i的状态，aⁱ表示AUV_i的动作；

的线性加和：假设Q_total((h¹,h²,…,h^d),(a¹,a²,…,a^d))是多AUV的整体Q函数，hⁱ是AUV_i的历史序列信息，aⁱ是其动作，rⁱ(oⁱ,aⁱ)为单个AUV的搜索收益，团队搜索收益R_total(s,a)＝r¹(o¹,a¹)+r²(o²,a²)。整体Q函数的输入集中了所有AUV的观测和动作，可通过团队搜索奖励R_total来迭代拟合。当AUV观测到自己的目标，但不一定观测到队友的情况时，有：

为了得到各个AUV的值函数，提出VDN方法：

此公式表明Q_total能通过线性加和的方式近似分解成2个子值函数

和/>

分别对应环境中的2个AUV，且每个/>

定义：对AUV序号的任意排列，即双向映射p:{1,…,d}→{1,…,d}，有

成立，则称π具有“AUV不变性”，其中/>

迭代更新公式为：

Q_i+1(s_t,a_t)＝(1-η_t)Q_i(s_t,a_t)+η_t(r_t+γ max_a Q_i(s_t+1,a_t)) (2)

其中γ是折扣因子，η_t是学习率，使用ε-greedy贪婪算法：即有ε的概率选择随机动作，有1-ε的概率贪心选择使Q_i最大的动作；

步骤6：AUV根据局部观测和自身

具体实施例：

如图2为本发明声纳传感器探测图，利用其最大内接矩形作为栅格划分地图的依据。

图3为本发明提出的值分解架构图，其中：

局部观测值随时间步进入两个AUV的价值网络(图中显示了三个步骤)，通过低层线性层到循环层，然后在dueling层产生单独的“值”

这些值相加得到Q_total函数用于训练，而动作a_i是独立于单个输出产生的。

该方法的优点是，每个AUV都根据其局部值

贪婪地执行动作，相当于中央“决策者“通过最大化Q_total来选择联合行动。虽然需要集中化学习训练，但学习完的AUV可以分布式执行搜索任务，减少了计算量。

图4为基于多智能体强化学习的值分解流程图，其中：

首先使用全连接线性层和ReLU(线性整流函数)层处理观测输入，然后是LSTM(长短期记忆网络)和ReLU层，最后是线性决斗(dueling)层。在dueling层中产生了一个价值函数V_i和优势函数ADV_I，将其结合起来计算每个AUV的Q函数：

利用DQN方法通过全局奖励R_total更新Q_total，然后对全局价值反向传播，多步骤更新每个AUV的子值/>

最后在分布式执行阶段，AUV分别执行使团队值Q_total最大时的动作(使搜索效益最大化的路径)：

在训练了50000episodes后，与传统的CTDE方法相比，VDN算法结构简洁，通过它分解得到的

可以让AUV根据自己的局部观测选择贪婪动作，从而执行分布式策略。其集中式训练方式能够在一定程度上保证整体Q函数的最优性。此外，VDN的“端到端训练”和“参数共享”使得算法收敛速度非常快，针对一些简单的搜索任务，该算法既快速又有效。/>