CN113592162B - 一种基于多智能体强化学习的多水下无人航行器协同搜索方法 - Google Patents

一种基于多智能体强化学习的多水下无人航行器协同搜索方法 Download PDF

Info

Publication number
CN113592162B
CN113592162B CN202110828428.5A CN202110828428A CN113592162B CN 113592162 B CN113592162 B CN 113592162B CN 202110828428 A CN202110828428 A CN 202110828428A CN 113592162 B CN113592162 B CN 113592162B
Authority
CN
China
Prior art keywords
auv
value
function
search
total
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110828428.5A
Other languages
English (en)
Other versions
CN113592162A (zh
Inventor
杨惠珍
夏琪琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110828428.5A priority Critical patent/CN113592162B/zh
Publication of CN113592162A publication Critical patent/CN113592162A/zh
Application granted granted Critical
Publication of CN113592162B publication Critical patent/CN113592162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多智能体强化学习的多水下无人航行器协同搜索方法,在AUV协同搜索的强化学习过程中,利用VDN方法将团队的全局价值分解为单个AUV的子值函数,用DQN对全局价值反向传播计算,AUV分别执行使团队价值Qtotal最大时的动作,实现多AUV的高效协同搜索。本发明解决了多AUV协同搜索过程中“虚假奖励”和“懒惰AUV”的问题,利用价值网络分解架构来均衡每个AUV的搜索收益值,使用强化学习的方法能够使AUV根据奖励大小来规划AUV的搜索路径,并引入参数共享方法加速算法收敛,从而提高协同搜索效率。

Description

一种基于多智能体强化学习的多水下无人航行器协同搜索 方法
技术领域
本发明属于AUV技术领域,具体涉及一种多水下无人航行器协同搜索方法。
背景技术
近年来,各国对海洋的开发和竞争日趋激烈,人们对于水下区域的搜索非常重视。由于自主水下航行器(AUV)具有良好的隐蔽性和机动性,可具备军事搜索、情报搜集等功能。与单个AUV有限的探测能力相比,多个AUV协同工作能够扩展获取环境的感知范围,增强系统的容错能力,通过各AUV之间的信息互通,完成更复杂的搜索任务。因此,多AUV协同搜索问题是现阶段水下机器人研究的重要方向。
传统的协同搜索主要有覆盖式编队搜索、群集搜索等方法,这些方法通常存在耗时长、搜索效益不高等问题。由于近年来强化学习技术迅速发展,其不需要建立复杂模型,以试错的方式与环境进行交互,获取最大的收益回报,能够在反馈的过程中获得最优联合决策,适用于环境复杂的情况。
现在主流的CTDE(集中训练、分布执行)算法中,在集中训练时,由于AUV的部分可观测能力,容易出现一些虚假奖励和“懒惰AUV”的情况;而在分布式执行过程中仅依赖单个AUV的Q值进行决策存在较大不稳定性。
发明内容
为了克服现有技术的不足,本发明提供了一种基于多智能体强化学习的多水下无人航行器协同搜索方法,在AUV协同搜索的强化学习过程中,利用VDN方法将团队的全局价值分解为单个AUV的子值函数,用DQN对全局价值反向传播计算,AUV分别执行使团队价值Qtotal最大时的动作,实现多AUV的高效协同搜索。本发明解决了多AUV协同搜索过程中“虚假奖励”和“懒惰AUV”的问题,利用价值网络分解架构来均衡每个AUV的搜索收益值,使用强化学习的方法能够使AUV根据奖励大小来规划AUV的搜索路径,并引入参数共享方法加速算法收敛,从而提高协同搜索效率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:采用栅格法对待搜索区域进行划分,基于环境先验信息建立多AUV的搜索地图,在AUV搜索过程中利用传感器探测模型更新地图;
步骤2:构造多AUV协同搜索的强化学习模型MARL:定义第i个自主水下航行器AUVi的状态空间si∈S、动作空间ai∈A、转移函数T:S×A→P(S)、观测值
Figure BDA0003174537010000021
搜索收益的奖励函数/>
Figure BDA0003174537010000022
策略函数π:S→P(A),全局搜索收益的奖励函数
Figure BDA0003174537010000023
根据AUV状态信息和决策设计Qi值;si表示AUVi的状态,ai表示AUVi的动作,P(S)表示状态空间S的概率分布函数,oi表示第i个AUV的观测,P(A)表示动作空间A的概率分布函数,d表示AUV个数,Qi表示第i个AUV的Q值;/>
步骤3:采用价值网络分解架构VDN,将团队的全局价值Qtotal分解为每个AUV的子值函数
Figure BDA0003174537010000024
的线性加和:假设Qtotal((h1,h2,…,hd),(a1,a2,…,ad))是多AUV的整体Q函数,hi是AUVi的历史序列信息;
为了得到各个AUV的值函数,提出VDN方法:
Figure BDA0003174537010000025
式(1)表明Qtotal能通过线性加和的方式近似分解成d个子值函数
Figure BDA0003174537010000026
分别对应d个不同的AUV,且每个/>
Figure BDA0003174537010000027
函数的输入为对应AUV的局部观测序列和动作,互相不受影响;
步骤4:引入“AUV不变性”的定义,“AUV不变性”表明交换AUV的观测次序和交换其策略次序是等价的,在AUV之间共享部分网络权重,减少可学习参数的数量,从而有助于避免懒惰智能体问题;
定义:对AUV序号的任意排列,即双射函数p:{1,…,d}→{1,…,d},有
Figure BDA0003174537010000028
Figure BDA0003174537010000029
成立,则称π具有“AUV不变性”,其中/>
Figure BDA00031745370100000210
表示集合
Figure BDA00031745370100000211
的一个双射函数;
步骤5:利用深度神经网络DQN的方法,通过全局奖励Rtotal更新Qtotal,然后对全局价值反向传播,更新每个AUV的子值
Figure BDA00031745370100000212
迭代更新公式为:
Qi+1(st,at)=(1-ηt)Qi(st,at)+ηt(rt+γmaxa Qi(st+1,at)) (2)其中γ是折扣因子,ηt是学习率,使用ε-greedy贪婪算法:即有ε的概率选择随机动作,有1-ε的概率贪心选择使Qi最大的动作;st,at分别为AUV在t时刻的状态和动作,st+1为AUV在状态st下执行动作at,更新后在t+1时刻的状态;
步骤6:AUV根据局部观测和自身
Figure BDA00031745370100000213
分布式执行使Qtotal最大时的动作,即使搜索效益最大化的路径:
Figure BDA0003174537010000031
其中ai′为第i个AUV在其
Figure BDA0003174537010000032
值为/>
Figure BDA0003174537010000033
时所执行的动作。
本发明的有益效果如下:
本发明提供的一种基于多智能体强化学习的多AUV协同搜索方法,该方法解决了多AUV协同搜索过程中“虚假奖励”和“懒惰AUV”的问题,利用价值网络分解架构来均衡每个AUV的搜索收益值,使用强化学习的方法能够使AUV根据奖励大小来规划AUV的搜索路径,并引入参数共享方法加速算法收敛,从而提高协同搜索效率。
附图说明
图1为本发明的整体结构图。
图2为本发明声纳传感器探测图。
图3为本发明提出的值分解架构图。
图4为本发明基于多智能体强化学习的VDN流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,一种基于多智能体强化学习的多水下无人航行器协同搜索方法,包括如下步骤:
步骤1:采用栅格法对待搜索区域进行划分,基于环境先验信息建立多AUV的搜索地图,在AUV搜索过程中利用传感器探测模型更新地图;
步骤2:构造多AUV协同搜索的强化学习模型MARL:定义第i个自主水下航行器AUVi的状态空间si∈S、动作空间ai∈A、转移函数T:S×A→P(S)、观测值
Figure BDA0003174537010000034
搜索收益的奖励函数/>
Figure BDA0003174537010000035
策略函数π:S→P(A),全局搜索收益的奖励函数
Figure BDA0003174537010000036
根据AUV状态信息和决策设计Qi值;si表示AUVi的状态,ai表示AUVi的动作;
步骤3:采用价值网络分解架构VDN,将团队的全局价值Qtotal分解为每个AUV的子值函数
Figure BDA0003174537010000037
的线性加和:假设Qtotal((h1,h2,…,hd),(a1,a2,…,ad))是多AUV的整体Q函数,hi是AUVi的历史序列信息,ai是其动作,ri(oi,ai)为单个AUV的搜索收益,团队搜索收益Rtotal(s,a)=r1(o1,a1)+r2(o2,a2)。整体Q函数的输入集中了所有AUV的观测和动作,可通过团队搜索奖励Rtotal来迭代拟合。当AUV观测到自己的目标,但不一定观测到队友的情况时,有:
Figure BDA0003174537010000041
为了得到各个AUV的值函数,提出VDN方法:
Figure BDA0003174537010000042
此公式表明Qtotal能通过线性加和的方式近似分解成2个子值函数
Figure BDA0003174537010000043
和/>
Figure BDA0003174537010000044
分别对应环境中的2个AUV,且每个/>
Figure BDA0003174537010000045
函数的输入为对应AUV的局部观测序列和动作,互相不受影响;
步骤4:引入“AUV不变性”的定义,“AUV不变性”表明交换AUV的观测次序和交换其策略次序是等价的,在AUV之间共享部分网络权重,减少可学习参数的数量,从而有助于避免懒惰智能体问题;
定义:对AUV序号的任意排列,即双向映射p:{1,…,d}→{1,…,d},有
Figure BDA0003174537010000046
Figure BDA0003174537010000047
成立,则称π具有“AUV不变性”,其中/>
Figure BDA0003174537010000048
步骤5:利用深度神经网络DQN的方法,通过全局奖励Rtotal更新Qtotal,然后对全局价值反向传播,更新每个AUV的子值
Figure BDA0003174537010000049
迭代更新公式为:
Qi+1(st,at)=(1-ηt)Qi(st,at)+ηt(rt+γ maxa Qi(st+1,at)) (2)
其中γ是折扣因子,ηt是学习率,使用ε-greedy贪婪算法:即有ε的概率选择随机动作,有1-ε的概率贪心选择使Qi最大的动作;
步骤6:AUV根据局部观测和自身
Figure BDA00031745370100000410
分布式执行使Qtotal最大时的动作,即使搜索效益最大化的路径:
Figure BDA0003174537010000051
具体实施例:
如图2为本发明声纳传感器探测图,利用其最大内接矩形作为栅格划分地图的依据。
图3为本发明提出的值分解架构图,其中:
局部观测值随时间步进入两个AUV的价值网络(图中显示了三个步骤),通过低层线性层到循环层,然后在dueling层产生单独的“值”
Figure BDA0003174537010000052
这些值相加得到Qtotal函数用于训练,而动作ai是独立于单个输出产生的。
该方法的优点是,每个AUV都根据其局部值
Figure BDA0003174537010000053
贪婪地执行动作,相当于中央“决策者“通过最大化Qtotal来选择联合行动。虽然需要集中化学习训练,但学习完的AUV可以分布式执行搜索任务,减少了计算量。
图4为基于多智能体强化学习的值分解流程图,其中:
首先使用全连接线性层和ReLU(线性整流函数)层处理观测输入,然后是LSTM(长短期记忆网络)和ReLU层,最后是线性决斗(dueling)层。在dueling层中产生了一个价值函数Vi和优势函数ADVI,将其结合起来计算每个AUV的Q函数:
Figure BDA0003174537010000054
利用DQN方法通过全局奖励Rtotal更新Qtotal,然后对全局价值反向传播,多步骤更新每个AUV的子值/>
Figure BDA0003174537010000055
最后在分布式执行阶段,AUV分别执行使团队值Qtotal最大时的动作(使搜索效益最大化的路径):
Figure BDA0003174537010000056
在训练了50000episodes后,与传统的CTDE方法相比,VDN算法结构简洁,通过它分解得到的
Figure BDA0003174537010000057
可以让AUV根据自己的局部观测选择贪婪动作,从而执行分布式策略。其集中式训练方式能够在一定程度上保证整体Q函数的最优性。此外,VDN的“端到端训练”和“参数共享”使得算法收敛速度非常快,针对一些简单的搜索任务,该算法既快速又有效。/>

Claims (1)

1.一种基于多智能体强化学习的多水下无人航行器协同搜索方法,其特征在于,包括以下步骤:
步骤1:采用栅格法对待搜索区域进行划分,基于环境先验信息建立多AUV的搜索地图,在AUV搜索过程中利用传感器探测模型更新地图;
步骤2:构造多AUV协同搜索的强化学习模型MARL:定义第i个自主水下航行器AUVi的状态空间si∈S、动作空间ai∈A、转移函数T:S×A→P(S)、观测值
Figure FDA0003174533000000011
搜索收益的奖励函数
Figure FDA0003174533000000012
策略函数π:S→P(A),全局搜索收益的奖励函数/>
Figure FDA0003174533000000013
根据AUV状态信息和决策设计Qi值;si表示AUVi的状态,ai表示AUVi的动作,P(S)表示状态空间S的概率分布函数,oi表示第i个AUV的观测,P(A)表示动作空间A的概率分布函数,d表示AUV个数,Qi表示第i个AUV的Q值;
步骤3:采用价值网络分解架构VDN,将团队的全局价值Qtotal分解为每个AUV的子值函数
Figure FDA0003174533000000014
的线性加和:假设Qtotal((h1,h2,…,hd),(a1,a2,…,ad))是多AUV的整体Q函数,hi是AUVi的历史序列信息;
为了得到各个AUV的值函数,提出VDN方法:
Figure FDA0003174533000000015
式(1)表明Qtotal能通过线性加和的方式近似分解成d个子值函数
Figure FDA0003174533000000016
分别对应d个不同的AUV,且每个/>
Figure FDA0003174533000000017
函数的输入为对应AUV的局部观测序列和动作,互相不受影响;
步骤4:引入“AUV不变性”的定义,“AUV不变性”表明交换AUV的观测次序和交换其策略次序是等价的,在AUV之间共享部分网络权重,减少可学习参数的数量,从而有助于避免懒惰智能体问题;
定义:对AUV序号的任意排列,即双射函数p:{1,…,d}→{1,…,d},有
Figure FDA0003174533000000018
Figure FDA0003174533000000019
成立,则称π具有“AUV不变性”,其中/>
Figure FDA00031745330000000110
Figure FDA00031745330000000111
表示集合/>
Figure FDA00031745330000000112
的一个双射函数;
步骤5:利用深度神经网络DQN的方法,通过全局奖励Rtotal更新Qtotal,然后对全局价值反向传播,更新每个AUV的子值
Figure FDA00031745330000000113
迭代更新公式为:
Qi+1(st,at)=(1-ηt)Qi(st,at)+ηt(rt+γmaxa Qi(st+1,at)) (2)
其中γ是折扣因子,ηt是学习率,使用ε-greedy贪婪算法:即有ε的概率选择随机动作,有1-ε的概率贪心选择使Qi最大的动作;st,at分别为AUV在t时刻的状态和动作,st+1为AUV在状态st下执行动作at,更新后在t+1时刻的状态;
步骤6:AUV根据局部观测和自身
Figure FDA0003174533000000021
分布式执行使Qtotal最大时的动作,即使搜索效益最大化的路径:
Figure FDA0003174533000000022
其中ai′为第i个AUV在其
Figure FDA0003174533000000023
值为/>
Figure FDA0003174533000000024
时所执行的动作。/>
CN202110828428.5A 2021-07-22 2021-07-22 一种基于多智能体强化学习的多水下无人航行器协同搜索方法 Active CN113592162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110828428.5A CN113592162B (zh) 2021-07-22 2021-07-22 一种基于多智能体强化学习的多水下无人航行器协同搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110828428.5A CN113592162B (zh) 2021-07-22 2021-07-22 一种基于多智能体强化学习的多水下无人航行器协同搜索方法

Publications (2)

Publication Number Publication Date
CN113592162A CN113592162A (zh) 2021-11-02
CN113592162B true CN113592162B (zh) 2023-06-02

Family

ID=78249090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110828428.5A Active CN113592162B (zh) 2021-07-22 2021-07-22 一种基于多智能体强化学习的多水下无人航行器协同搜索方法

Country Status (1)

Country Link
CN (1) CN113592162B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114281103B (zh) * 2021-12-14 2023-09-29 中国运载火箭技术研究院 一种零交互通信的飞行器集群协同搜索方法
CN115855226B (zh) * 2023-02-24 2023-05-30 青岛科技大学 基于dqn和矩阵补全的多auv协同水下数据采集方法
CN117032247B (zh) * 2023-08-22 2024-05-28 中国人民解放军国防科技大学 海上救援搜索路径规划方法、装置及设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111337930A (zh) * 2020-03-19 2020-06-26 哈尔滨工程大学 一种auv目标搜索方法
CN111563188A (zh) * 2020-04-30 2020-08-21 南京邮电大学 一种移动多智能体协同目标搜索方法
CN111880564A (zh) * 2020-07-22 2020-11-03 电子科技大学 一种基于协同增强学习的多智能体区域搜索方法
CN112362066A (zh) * 2020-11-20 2021-02-12 西北工业大学 一种基于改进的深度强化学习的路径规划方法
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN112734127A (zh) * 2021-01-20 2021-04-30 西北工业大学 一种基于动态蚁群劳动分工模型的多auv任务分配方法
CN112859807A (zh) * 2021-01-10 2021-05-28 西北工业大学 基于态势模拟和蒙特卡罗的水下航行器协同搜索效能评估方法
CN113029123A (zh) * 2021-03-02 2021-06-25 西北工业大学 一种基于强化学习的多auv协同导航方法
WO2021135554A1 (zh) * 2019-12-31 2021-07-08 歌尔股份有限公司 一种无人车全局路径规划方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
WO2021135554A1 (zh) * 2019-12-31 2021-07-08 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN111337930A (zh) * 2020-03-19 2020-06-26 哈尔滨工程大学 一种auv目标搜索方法
CN111563188A (zh) * 2020-04-30 2020-08-21 南京邮电大学 一种移动多智能体协同目标搜索方法
CN111880564A (zh) * 2020-07-22 2020-11-03 电子科技大学 一种基于协同增强学习的多智能体区域搜索方法
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法
CN112362066A (zh) * 2020-11-20 2021-02-12 西北工业大学 一种基于改进的深度强化学习的路径规划方法
CN112859807A (zh) * 2021-01-10 2021-05-28 西北工业大学 基于态势模拟和蒙特卡罗的水下航行器协同搜索效能评估方法
CN112734127A (zh) * 2021-01-20 2021-04-30 西北工业大学 一种基于动态蚁群劳动分工模型的多auv任务分配方法
CN113029123A (zh) * 2021-03-02 2021-06-25 西北工业大学 一种基于强化学习的多auv协同导航方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
云闪空间定位的三维网格搜索算法研究;杨惠珍;《武汉大学学报(信息科学版)》;370-373 *
基于D-S证据论的多AUV协同搜索决策;魏娜;刘明雍;程为彬;;现代电子技术(11);23-27 *
基于强化学习的移动多智能体自组织协同目标搜索;狄小娟;《中国优秀硕士学位论文全文数据库电子期刊(信息科技辑)》;I140-22 *

Also Published As

Publication number Publication date
CN113592162A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN113592162B (zh) 一种基于多智能体强化学习的多水下无人航行器协同搜索方法
CN109992000B (zh) 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN113159432B (zh) 一种基于深度强化学习的多智能体路径规划方法
CN112799386B (zh) 基于人工势场与强化学习的机器人路径规划方法
CN114020042A (zh) 一种异构无人集群编队合围跟踪控制方法及系统
CN113051815B (zh) 一种基于独立指针网络的敏捷成像卫星任务规划方法
CN113919485A (zh) 基于动态层级通信网络的多智能体强化学习方法及系统
Tan et al. Multi-type task allocation for multiple heterogeneous unmanned surface vehicles (USVs) based on the self-organizing map
Su et al. Robot path planning based on random coding particle swarm optimization
CN113642233A (zh) 一种通信机制优化的群体智能协同方法
CN116449863A (zh) 一种基于信息素的强化学习的无人机集群多目标搜索方法
Chen et al. When shall i be empathetic? the utility of empathetic parameter estimation in multi-agent interactions
Chen et al. Survey of multi-agent strategy based on reinforcement learning
CN116582442A (zh) 一种基于层次化通信机制的多智能体协作方法
CN116306966A (zh) 一种基于动态图通信的多智能体强化学习协同方法
Gong et al. A path planning method based on improved particle swarm optimization algorithm
Yang Reinforcement learning for multi-robot system: A review
Tian et al. The application of path planning algorithm based on deep reinforcement learning for mobile robots
Yu et al. A novel automated guided vehicle (AGV) remote path planning based on RLACA algorithm in 5G environment
Zhang et al. Robot path planning based on shuffled frog leaping algorithm combined with genetic algorithm
Zhongjing et al. Bayesian network based Ant Colony Optimization algorithm for USV path planning in a dynamic environment
Bai et al. Reducing Redundant Computation in Multi-Agent Coordination through Locally Centralized Execution
CN115373409B (zh) 一种复杂环境下水下机器人协同捕捞海生物的路径规划方法
Qin et al. Path Planning Scheme for Complete Coverage of UAV radar Survillance Areas using Reciprocation-Backfill Algorithm
CN117420821A (zh) 一种基于学习的智能蚁群多智能体路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant