CN113592162B - 一种基于多智能体强化学习的多水下无人航行器协同搜索方法 - Google Patents
一种基于多智能体强化学习的多水下无人航行器协同搜索方法 Download PDFInfo
- Publication number
- CN113592162B CN113592162B CN202110828428.5A CN202110828428A CN113592162B CN 113592162 B CN113592162 B CN 113592162B CN 202110828428 A CN202110828428 A CN 202110828428A CN 113592162 B CN113592162 B CN 113592162B
- Authority
- CN
- China
- Prior art keywords
- auv
- value
- function
- search
- total
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Feedback Control In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多智能体强化学习的多水下无人航行器协同搜索方法,在AUV协同搜索的强化学习过程中,利用VDN方法将团队的全局价值分解为单个AUV的子值函数,用DQN对全局价值反向传播计算,AUV分别执行使团队价值Qtotal最大时的动作,实现多AUV的高效协同搜索。本发明解决了多AUV协同搜索过程中“虚假奖励”和“懒惰AUV”的问题,利用价值网络分解架构来均衡每个AUV的搜索收益值,使用强化学习的方法能够使AUV根据奖励大小来规划AUV的搜索路径,并引入参数共享方法加速算法收敛,从而提高协同搜索效率。
Description
技术领域
本发明属于AUV技术领域,具体涉及一种多水下无人航行器协同搜索方法。
背景技术
近年来,各国对海洋的开发和竞争日趋激烈,人们对于水下区域的搜索非常重视。由于自主水下航行器(AUV)具有良好的隐蔽性和机动性,可具备军事搜索、情报搜集等功能。与单个AUV有限的探测能力相比,多个AUV协同工作能够扩展获取环境的感知范围,增强系统的容错能力,通过各AUV之间的信息互通,完成更复杂的搜索任务。因此,多AUV协同搜索问题是现阶段水下机器人研究的重要方向。
传统的协同搜索主要有覆盖式编队搜索、群集搜索等方法,这些方法通常存在耗时长、搜索效益不高等问题。由于近年来强化学习技术迅速发展,其不需要建立复杂模型,以试错的方式与环境进行交互,获取最大的收益回报,能够在反馈的过程中获得最优联合决策,适用于环境复杂的情况。
现在主流的CTDE(集中训练、分布执行)算法中,在集中训练时,由于AUV的部分可观测能力,容易出现一些虚假奖励和“懒惰AUV”的情况;而在分布式执行过程中仅依赖单个AUV的Q值进行决策存在较大不稳定性。
发明内容
为了克服现有技术的不足,本发明提供了一种基于多智能体强化学习的多水下无人航行器协同搜索方法,在AUV协同搜索的强化学习过程中,利用VDN方法将团队的全局价值分解为单个AUV的子值函数,用DQN对全局价值反向传播计算,AUV分别执行使团队价值Qtotal最大时的动作,实现多AUV的高效协同搜索。本发明解决了多AUV协同搜索过程中“虚假奖励”和“懒惰AUV”的问题,利用价值网络分解架构来均衡每个AUV的搜索收益值,使用强化学习的方法能够使AUV根据奖励大小来规划AUV的搜索路径,并引入参数共享方法加速算法收敛,从而提高协同搜索效率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:采用栅格法对待搜索区域进行划分,基于环境先验信息建立多AUV的搜索地图,在AUV搜索过程中利用传感器探测模型更新地图;
步骤2:构造多AUV协同搜索的强化学习模型MARL:定义第i个自主水下航行器AUVi的状态空间si∈S、动作空间ai∈A、转移函数T:S×A→P(S)、观测值搜索收益的奖励函数/>策略函数π:S→P(A),全局搜索收益的奖励函数根据AUV状态信息和决策设计Qi值;si表示AUVi的状态,ai表示AUVi的动作,P(S)表示状态空间S的概率分布函数,oi表示第i个AUV的观测,P(A)表示动作空间A的概率分布函数,d表示AUV个数,Qi表示第i个AUV的Q值;/>
步骤3:采用价值网络分解架构VDN,将团队的全局价值Qtotal分解为每个AUV的子值函数的线性加和:假设Qtotal((h1,h2,…,hd),(a1,a2,…,ad))是多AUV的整体Q函数,hi是AUVi的历史序列信息;
为了得到各个AUV的值函数,提出VDN方法:
步骤4:引入“AUV不变性”的定义,“AUV不变性”表明交换AUV的观测次序和交换其策略次序是等价的,在AUV之间共享部分网络权重,减少可学习参数的数量,从而有助于避免懒惰智能体问题;
迭代更新公式为:
Qi+1(st,at)=(1-ηt)Qi(st,at)+ηt(rt+γmaxa Qi(st+1,at)) (2)其中γ是折扣因子,ηt是学习率,使用ε-greedy贪婪算法:即有ε的概率选择随机动作,有1-ε的概率贪心选择使Qi最大的动作;st,at分别为AUV在t时刻的状态和动作,st+1为AUV在状态st下执行动作at,更新后在t+1时刻的状态;
本发明的有益效果如下:
本发明提供的一种基于多智能体强化学习的多AUV协同搜索方法,该方法解决了多AUV协同搜索过程中“虚假奖励”和“懒惰AUV”的问题,利用价值网络分解架构来均衡每个AUV的搜索收益值,使用强化学习的方法能够使AUV根据奖励大小来规划AUV的搜索路径,并引入参数共享方法加速算法收敛,从而提高协同搜索效率。
附图说明
图1为本发明的整体结构图。
图2为本发明声纳传感器探测图。
图3为本发明提出的值分解架构图。
图4为本发明基于多智能体强化学习的VDN流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,一种基于多智能体强化学习的多水下无人航行器协同搜索方法,包括如下步骤:
步骤1:采用栅格法对待搜索区域进行划分,基于环境先验信息建立多AUV的搜索地图,在AUV搜索过程中利用传感器探测模型更新地图;
步骤2:构造多AUV协同搜索的强化学习模型MARL:定义第i个自主水下航行器AUVi的状态空间si∈S、动作空间ai∈A、转移函数T:S×A→P(S)、观测值搜索收益的奖励函数/>策略函数π:S→P(A),全局搜索收益的奖励函数根据AUV状态信息和决策设计Qi值;si表示AUVi的状态,ai表示AUVi的动作;
步骤3:采用价值网络分解架构VDN,将团队的全局价值Qtotal分解为每个AUV的子值函数的线性加和:假设Qtotal((h1,h2,…,hd),(a1,a2,…,ad))是多AUV的整体Q函数,hi是AUVi的历史序列信息,ai是其动作,ri(oi,ai)为单个AUV的搜索收益,团队搜索收益Rtotal(s,a)=r1(o1,a1)+r2(o2,a2)。整体Q函数的输入集中了所有AUV的观测和动作,可通过团队搜索奖励Rtotal来迭代拟合。当AUV观测到自己的目标,但不一定观测到队友的情况时,有:
为了得到各个AUV的值函数,提出VDN方法:
步骤4:引入“AUV不变性”的定义,“AUV不变性”表明交换AUV的观测次序和交换其策略次序是等价的,在AUV之间共享部分网络权重,减少可学习参数的数量,从而有助于避免懒惰智能体问题;
迭代更新公式为:
Qi+1(st,at)=(1-ηt)Qi(st,at)+ηt(rt+γ maxa Qi(st+1,at)) (2)
其中γ是折扣因子,ηt是学习率,使用ε-greedy贪婪算法:即有ε的概率选择随机动作,有1-ε的概率贪心选择使Qi最大的动作;
具体实施例:
如图2为本发明声纳传感器探测图,利用其最大内接矩形作为栅格划分地图的依据。
图3为本发明提出的值分解架构图,其中:
局部观测值随时间步进入两个AUV的价值网络(图中显示了三个步骤),通过低层线性层到循环层,然后在dueling层产生单独的“值”这些值相加得到Qtotal函数用于训练,而动作ai是独立于单个输出产生的。
图4为基于多智能体强化学习的值分解流程图,其中:
首先使用全连接线性层和ReLU(线性整流函数)层处理观测输入,然后是LSTM(长短期记忆网络)和ReLU层,最后是线性决斗(dueling)层。在dueling层中产生了一个价值函数Vi和优势函数ADVI,将其结合起来计算每个AUV的Q函数:利用DQN方法通过全局奖励Rtotal更新Qtotal,然后对全局价值反向传播,多步骤更新每个AUV的子值/>最后在分布式执行阶段,AUV分别执行使团队值Qtotal最大时的动作(使搜索效益最大化的路径):
Claims (1)
1.一种基于多智能体强化学习的多水下无人航行器协同搜索方法,其特征在于,包括以下步骤:
步骤1:采用栅格法对待搜索区域进行划分,基于环境先验信息建立多AUV的搜索地图,在AUV搜索过程中利用传感器探测模型更新地图;
步骤2:构造多AUV协同搜索的强化学习模型MARL:定义第i个自主水下航行器AUVi的状态空间si∈S、动作空间ai∈A、转移函数T:S×A→P(S)、观测值搜索收益的奖励函数策略函数π:S→P(A),全局搜索收益的奖励函数/>根据AUV状态信息和决策设计Qi值;si表示AUVi的状态,ai表示AUVi的动作,P(S)表示状态空间S的概率分布函数,oi表示第i个AUV的观测,P(A)表示动作空间A的概率分布函数,d表示AUV个数,Qi表示第i个AUV的Q值;
步骤3:采用价值网络分解架构VDN,将团队的全局价值Qtotal分解为每个AUV的子值函数的线性加和:假设Qtotal((h1,h2,…,hd),(a1,a2,…,ad))是多AUV的整体Q函数,hi是AUVi的历史序列信息;
为了得到各个AUV的值函数,提出VDN方法:
步骤4:引入“AUV不变性”的定义,“AUV不变性”表明交换AUV的观测次序和交换其策略次序是等价的,在AUV之间共享部分网络权重,减少可学习参数的数量,从而有助于避免懒惰智能体问题;
迭代更新公式为:
Qi+1(st,at)=(1-ηt)Qi(st,at)+ηt(rt+γmaxa Qi(st+1,at)) (2)
其中γ是折扣因子,ηt是学习率,使用ε-greedy贪婪算法:即有ε的概率选择随机动作,有1-ε的概率贪心选择使Qi最大的动作;st,at分别为AUV在t时刻的状态和动作,st+1为AUV在状态st下执行动作at,更新后在t+1时刻的状态;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110828428.5A CN113592162B (zh) | 2021-07-22 | 2021-07-22 | 一种基于多智能体强化学习的多水下无人航行器协同搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110828428.5A CN113592162B (zh) | 2021-07-22 | 2021-07-22 | 一种基于多智能体强化学习的多水下无人航行器协同搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113592162A CN113592162A (zh) | 2021-11-02 |
CN113592162B true CN113592162B (zh) | 2023-06-02 |
Family
ID=78249090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110828428.5A Active CN113592162B (zh) | 2021-07-22 | 2021-07-22 | 一种基于多智能体强化学习的多水下无人航行器协同搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113592162B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114281103B (zh) * | 2021-12-14 | 2023-09-29 | 中国运载火箭技术研究院 | 一种零交互通信的飞行器集群协同搜索方法 |
CN115855226B (zh) * | 2023-02-24 | 2023-05-30 | 青岛科技大学 | 基于dqn和矩阵补全的多auv协同水下数据采集方法 |
CN117032247B (zh) * | 2023-08-22 | 2024-05-28 | 中国人民解放军国防科技大学 | 海上救援搜索路径规划方法、装置及设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111337930A (zh) * | 2020-03-19 | 2020-06-26 | 哈尔滨工程大学 | 一种auv目标搜索方法 |
CN111563188A (zh) * | 2020-04-30 | 2020-08-21 | 南京邮电大学 | 一种移动多智能体协同目标搜索方法 |
CN111880564A (zh) * | 2020-07-22 | 2020-11-03 | 电子科技大学 | 一种基于协同增强学习的多智能体区域搜索方法 |
CN112362066A (zh) * | 2020-11-20 | 2021-02-12 | 西北工业大学 | 一种基于改进的深度强化学习的路径规划方法 |
CN112364984A (zh) * | 2020-11-13 | 2021-02-12 | 南京航空航天大学 | 一种协作多智能体强化学习方法 |
JP2021034050A (ja) * | 2019-08-21 | 2021-03-01 | 哈爾浜工程大学 | 強化学習に基づくauv行動計画及び動作制御方法 |
CN112734127A (zh) * | 2021-01-20 | 2021-04-30 | 西北工业大学 | 一种基于动态蚁群劳动分工模型的多auv任务分配方法 |
CN112859807A (zh) * | 2021-01-10 | 2021-05-28 | 西北工业大学 | 基于态势模拟和蒙特卡罗的水下航行器协同搜索效能评估方法 |
CN113029123A (zh) * | 2021-03-02 | 2021-06-25 | 西北工业大学 | 一种基于强化学习的多auv协同导航方法 |
WO2021135554A1 (zh) * | 2019-12-31 | 2021-07-08 | 歌尔股份有限公司 | 一种无人车全局路径规划方法和装置 |
-
2021
- 2021-07-22 CN CN202110828428.5A patent/CN113592162B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021034050A (ja) * | 2019-08-21 | 2021-03-01 | 哈爾浜工程大学 | 強化学習に基づくauv行動計画及び動作制御方法 |
WO2021135554A1 (zh) * | 2019-12-31 | 2021-07-08 | 歌尔股份有限公司 | 一种无人车全局路径规划方法和装置 |
CN111337930A (zh) * | 2020-03-19 | 2020-06-26 | 哈尔滨工程大学 | 一种auv目标搜索方法 |
CN111563188A (zh) * | 2020-04-30 | 2020-08-21 | 南京邮电大学 | 一种移动多智能体协同目标搜索方法 |
CN111880564A (zh) * | 2020-07-22 | 2020-11-03 | 电子科技大学 | 一种基于协同增强学习的多智能体区域搜索方法 |
CN112364984A (zh) * | 2020-11-13 | 2021-02-12 | 南京航空航天大学 | 一种协作多智能体强化学习方法 |
CN112362066A (zh) * | 2020-11-20 | 2021-02-12 | 西北工业大学 | 一种基于改进的深度强化学习的路径规划方法 |
CN112859807A (zh) * | 2021-01-10 | 2021-05-28 | 西北工业大学 | 基于态势模拟和蒙特卡罗的水下航行器协同搜索效能评估方法 |
CN112734127A (zh) * | 2021-01-20 | 2021-04-30 | 西北工业大学 | 一种基于动态蚁群劳动分工模型的多auv任务分配方法 |
CN113029123A (zh) * | 2021-03-02 | 2021-06-25 | 西北工业大学 | 一种基于强化学习的多auv协同导航方法 |
Non-Patent Citations (3)
Title |
---|
云闪空间定位的三维网格搜索算法研究;杨惠珍;《武汉大学学报(信息科学版)》;370-373 * |
基于D-S证据论的多AUV协同搜索决策;魏娜;刘明雍;程为彬;;现代电子技术(11);23-27 * |
基于强化学习的移动多智能体自组织协同目标搜索;狄小娟;《中国优秀硕士学位论文全文数据库电子期刊(信息科技辑)》;I140-22 * |
Also Published As
Publication number | Publication date |
---|---|
CN113592162A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113592162B (zh) | 一种基于多智能体强化学习的多水下无人航行器协同搜索方法 | |
CN109992000B (zh) | 一种基于分层强化学习的多无人机路径协同规划方法及装置 | |
CN113159432B (zh) | 一种基于深度强化学习的多智能体路径规划方法 | |
CN112799386B (zh) | 基于人工势场与强化学习的机器人路径规划方法 | |
CN114020042A (zh) | 一种异构无人集群编队合围跟踪控制方法及系统 | |
CN113051815B (zh) | 一种基于独立指针网络的敏捷成像卫星任务规划方法 | |
CN113919485A (zh) | 基于动态层级通信网络的多智能体强化学习方法及系统 | |
Tan et al. | Multi-type task allocation for multiple heterogeneous unmanned surface vehicles (USVs) based on the self-organizing map | |
Su et al. | Robot path planning based on random coding particle swarm optimization | |
CN113642233A (zh) | 一种通信机制优化的群体智能协同方法 | |
CN116449863A (zh) | 一种基于信息素的强化学习的无人机集群多目标搜索方法 | |
Chen et al. | When shall i be empathetic? the utility of empathetic parameter estimation in multi-agent interactions | |
Chen et al. | Survey of multi-agent strategy based on reinforcement learning | |
CN116582442A (zh) | 一种基于层次化通信机制的多智能体协作方法 | |
CN116306966A (zh) | 一种基于动态图通信的多智能体强化学习协同方法 | |
Gong et al. | A path planning method based on improved particle swarm optimization algorithm | |
Yang | Reinforcement learning for multi-robot system: A review | |
Tian et al. | The application of path planning algorithm based on deep reinforcement learning for mobile robots | |
Yu et al. | A novel automated guided vehicle (AGV) remote path planning based on RLACA algorithm in 5G environment | |
Zhang et al. | Robot path planning based on shuffled frog leaping algorithm combined with genetic algorithm | |
Zhongjing et al. | Bayesian network based Ant Colony Optimization algorithm for USV path planning in a dynamic environment | |
Bai et al. | Reducing Redundant Computation in Multi-Agent Coordination through Locally Centralized Execution | |
CN115373409B (zh) | 一种复杂环境下水下机器人协同捕捞海生物的路径规划方法 | |
Qin et al. | Path Planning Scheme for Complete Coverage of UAV radar Survillance Areas using Reciprocation-Backfill Algorithm | |
CN117420821A (zh) | 一种基于学习的智能蚁群多智能体路径规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |