CN112131660A - 一种基于多智能体强化学习的无人机集群协同学习方法 - Google Patents
一种基于多智能体强化学习的无人机集群协同学习方法 Download PDFInfo
- Publication number
- CN112131660A CN112131660A CN202010944781.5A CN202010944781A CN112131660A CN 112131660 A CN112131660 A CN 112131660A CN 202010944781 A CN202010944781 A CN 202010944781A CN 112131660 A CN112131660 A CN 112131660A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- network
- cluster
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000002787 reinforcement Effects 0.000 title claims abstract description 17
- 230000009471 action Effects 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000009916 joint effect Effects 0.000 claims description 9
- 230000000977 initiatory effect Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/15—Vehicle, aircraft or watercraft design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/28—Design optimisation, verification or simulation using fluid dynamics, e.g. using Navier-Stokes equations or computational fluid dynamics [CFD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Bioinformatics & Computational Biology (AREA)
- Fluid Mechanics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Automation & Control Theory (AREA)
- Aviation & Aerospace Engineering (AREA)
- Computational Mathematics (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于多智能体强化学习的无人机集群协同学习方法,构造基于空气动力学的环境模拟器;每个无人机获取并维护本机的局部观测值;作为student,每个无人机获取并维护来自队友的建议观测值;作为teacher,为其他无人机给出指导值;基于本机局部观测值与从队友获取的建议观测值执行动作策略,获取奖励并转移到下一状态;基于MADDPG思想进行训练,直到值网络与策略网络收敛;执行阶段以分布式的方式进行,即每个无人机基于局部观测值和队友提供的建议观测值,通过动作策略执行。本发明可以在成本较低的前提下实现无人机集群之间观测值的互补,实现无人机单独自主决策,解决“主从”结构带来的通信问题。
Description
技术领域
本发明涉及一种基于多智能体强化学习的无人机集群协同学习方法,属于无人机集群协作技术领域。
背景技术
随着科技进步及无人机技术水平提升,无人机集群在日常生活中越发重要,广泛应用于日常运输、灾难救援、军事博弈等领域。现有的无人机集群合作中,主要以“主从”的方式控制无人机集群,即是“主”无人机主要负责对各无人机获取的数据进行处理并将指令分发给参与的“从”无人机。该类方法对通信信道要求苛刻,如果通信信道受到干扰或恶意攻击,则“主从”结构的无人机集群获取的信息都将被干扰并可能导致灾难性的后果,“主从”结构的无人机集群往往缺乏灵活性,并非真正意义上的“自治系统”。
近年来深度强化学习技术取得了极大的进步,深度强化学习不同于传统的监督学习或者非监督学习,以试错的方式与环境进行交互,获取最大的累积奖赏,是天然的决策利器。在Atari游戏、围棋、星际争霸等游戏领域,智能交通、电商推荐系统等领域都取得了较广泛的应用。
在现有的多智能体强化学习算法中,MADDPG是一个Actor-Critic框架的算法,遵循集中训练、分布执行的思想,在训练Critic网络的时候考虑全局信息,实际执行时Actor的输入中包含单个智能体的局部特征,突破了传统强化学习算法只能用单一网络结构的限制。将多智能体算法MADDPG应用于无人机集群控制能有效解决上述无人机集群“主从”结构的不足,各无人机能根据自己传感器所获取的局部信息进行决策,实现一定的自治能力。然而在基于MADDPG的无人机集群中,单个无人机信息传感器(摄像头等)视野有限,无法有效获取全局信息,无法实现真正意义上的自治决策。
发明内容
发明目的:为了解决基于MADDPG的无人机集群中个体视野受限的缺点,本发明提供一种基于多智能体强化学习的无人机集群协同学习方法。在本发明的无人机集群中,无人机能从其他无人机的动作进行学习,可以较好地解决无人机集群中单个无人机视野有限的问题。
技术方案:一种基于多智能体强化学习的无人机集群协同学习方法,在无人机集群控制中,每个无人机需要学习自己的动作策略,同时扮演Student和Teacher的角色,分别从队友处获取指导意见并给队友提供建议指导,基于多智能体强化学习算法训练无人机的策略,通过使用深度神经网络对动作值函数与动作策略函数进行表示,以下分别表述为值网络和策略网络,逐步训练优化神经网络,实现无人机集群高效协作学习,得到无人机动作策略。无人机集群的策略神经网络训练过程包含以下步骤:
步骤1,基于Unity3D构建空气动力学的环境模拟器,环境模拟器中构建无人机合作集群;
步骤2,初始队友信息比较匮乏,初始化无人机观测值oα;
步骤3,无人机合作集群中每个无人机扮演Student角色;首先获取自身对环境的局部观测值其中Qα为无人机α的值网络,hα指无人机α执行的动作,oα表示来自步骤2的初始局部观测值;通过建议发起策略向无人机合作集群中的队友发起建议请求,获得队友所给建议观测值o-α指来自队友的观测值,Q-α指队友无人机的值网络,h-α指队友无人机-α执行的动作,最终整个环境信息的联合观测值为其中指i、j无人机作为Student所获得的观测值, 指i、j无人机作为Teacher所获得的观测值;
步骤4,无人机合作集群中每个无人机扮演Teacher角色,获取无人机合作集群中的队友发起的建议请求之后,每个无人机通过学习的建议评估策略对队友发起的建议进行评估,评估会对队友的值网络Q造成增减影响,并将已经评估后的建议送返给建议请求发起队友;
步骤5,根据步骤3、4获取的联合观测值为无人机集群中每个无人机与环境模拟器进行交互,将联合观测值输入到联合策略网络其中 指无人机i、j作为Student的策略网络,指无人机i、j作为Teacher的策略网络,将得到联合动作其中指无人机i、j作为Student的动作,指无人机i、j作为Teacher的动作,以上公式i、j表示不同的无人机,并获得环境模拟器对无人机集群中每个无人机的立即联合奖励其中指无人机i、j作为Teacher所获得的奖励;
步骤7,根据MADDPG“执行者-评论家”的思想,从步骤6中的经验回放池中采样部分样本对Critic网络Q与Actor网络进行训练优化,重复优化Critic网络与Actor网络,直到网络收敛。所述Critic网络指动作值网络,即所述的动作值函数;所述Actor网络指联合策略神经网络,即动作策略函数。
所述步骤3,无人机扮演Student角色,每个无人机利用自身传感器获取自身局部观测值S表示自己是Student,oα是无人机本地初始局部观测值,α指己方无人机,Qα指动作值函数神经网络,对系统好坏进行评价,hα指无人机执行的动作;学习建议发起策略向队友发起建议请求,获取队友的建议观测值其中-α指队友。
所述步骤4,无人机扮演Teacher角色,通过建议评估策略对队友发起的建议请求进行评估,T表示自己是处于Teacher角色,其中-α指队友,表示是其他无人机获取的观测指导值;最终获得包含自己局部观测值与队友观测值的联合观测值以上公式i、j表示不同的无人机,S、T分别表示是Student和Teacher。
根据MADDPG框架设定,在策略优化中基于“执行者-评论家”(Actor-Critic,AC)框架进行网络优化,所述步骤7中定义的Critic网络价值损失函数如下:
Actor网络(策略神经网络)更新目标如下:
其中表示求梯度,为策略更新目标,是策略网络待优化参数,E是指求期望,分别来自经验共享池的联合观测值、联合动作;ρ∈{S,T}表示扮演的角色可以为Student、Teacher;α∈{i,j}表示无人机的编号可以为i、j,为动作值函数,表示联合策略网络。
有益效果:与现有技术相比,本发明提供的基于多智能体强化学习的无人机集群协同学习方法,采用深度强化学习算法使无人机具备自主决策能力,无人机可以与环境模拟器进行交互,训练自己的动作函数,直到收敛,可以摆脱传统基于规则的束缚;
本发明通过多智能体深度强化学习算法实现无人机集群自主控制,无人机之间不需要显式的通信,仅需观测队友动作即可,能有效解决无人机集群“主从”结构带来的问题,使无人机具备真正意义上的自治能力;
本发明采用的基于学习的多智能体无人机集群合作算法,能有效克服单个无人机只能看到局部信息的缺点,有效解决传统无人机集群通信、自治等问题。
附图说明
图1为本发明的方法流程图;
图2为本发明整体框示意图;
图3是无人机集群交互示意图。
图4是算法伪代码。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于多智能体强化学习的无人机集群协同学习方法,在无人机集群控制中,每个无人机同时扮演Student和Teacher的角色,遵循MADDPG集中式训练、分布式执行的思想实现无人机集群协作学习。包括以下步骤:
步骤一:基于Unity3D构建空气动力学的环境模拟器,构建无人机合作集群。
步骤二:初始队友信息比较匮乏,初始化无人机局部观测值oα。
步骤三:无人机合作集群中每个无人机扮演Student角色;首先获取自身对环境的局部观测值其中Qα为无人机α的值网络,hα指无人机α采取的动作,oα表示来着步骤二的初始局部观测值;通过建议发起策略向无人机合作集群中的队友获取队友建议,获得队友所给建议观测值o-α指来自队友的观测值,Q-α指队友无人机的值网络,h-α指队友无人机-α执行的动作,最终整个环境信息的联合观测值为其中指i、j无人机作为Student所获得的观测值, 指i、j无人机作为Teacher所获得的观测值。
步骤四:无人机合作集群中每个无人机扮演Teacher角色,获取无人机合作集群中的队友发起的建议咨询请求之后,每个无人机通过学习的建议评估策略对队友发起的建议进行评估,评估会对队友的值网络Q造成增减影响,并将已经评估后的建议发送返回给建议请求发起队友。
步骤五:根据步骤三四获取的联合观测值为无人机集群中每个无人机与环境模拟器进行交互,将联合观测值输入到联合策略网络其中 指无人机i、j作为Student的策略网络,指无人机i、j作为Teacher的策略网络,将得到联合动作其中指无人机i、j作为Student的动作,指无人机i、j作为Teacher的动作,并获得环境模拟器对无人机集群中每个无人机的立即联合奖励其中指无人机i、j作为Teacher所获得的奖励。
步骤七:从经验回放池中采样部分样本以集中式的方式训练Critic网络,其联合Q值函数定义其中为联合策略函数的参数,其优化目标为损失函数其中为下一刻的目标动作,目标是使得损失函数最小。其中是损失函数,为待优化参数,E是指求期望,分别来自经验共享池的联合观测值、联合动作、联合奖励、下一时刻的观测值,γ是衰减因子,是动作值函数,是策略网络。
步骤八:Actor网络(策略神经网络)更新目标如下:
其中表示求梯度,为策略更新目标,是策略网络待优化参数,E是指求期望,指分别来自经验共享池的联合观测值、联合动作;ρ∈{S,T}表示扮演的角色可以为Student、Teacher;α∈{i,j}表示无人机的编号可以为i、j,为动作值函数,表示联合策略网络。
重复上述步骤七与八,直到Critic网络(动作值网络)Q与Actor(策略网络)网络收敛。
图1是本发明方法流程图,在具体实施根据MADDPG集中训练、分布执行的思想进行。
图2是整体框架图。其中:
步骤1,在训练阶段,无人机i、i与环境模拟器进行交互,通过自身传感器(传感器组合)获取初始化局部观测值;
步骤2,作为Student,获取建议观测值与联合观测值、联合奖励;
步骤3,作为Teacher,对队友提起的建议进行评估。
步骤4,设计合适的神经网络结构、选择适当的神经网络超参数,搭建值网络与策略网络。
例如,一个策略网络可以包括5层全连接神经网络,每层神经网络使用relu函数作激活函数。
步骤5,根据MADDPG框架设定,基于“执行者-评论家”(Actor-Critic,AC)框架进行网络优化直到网络收敛。
步骤6,按照MADDPG的流程,算法通过将获取的局部观测值和队友建议的观测值送到策略网络,得到相应的动作。
图3是本发明中无人机集群交互示意图,无人机作为Student向队友发起建议请求,获得队友建议,以及作为Teacher对队友发起的建议进行评估过程。
图4是本发明中算法流程伪代码。
Claims (4)
2.根据权利要求1所述的基于多智能体强化学习的无人机集群协同学习方法,其特征在于:无人机集群的策略神经网络训练过程包含以下步骤:
步骤1,构建环境模拟器,环境模拟器中构建无人机合作集群;
步骤2,初始化无人机观测值oα;
步骤3,无人机合作集群中每个无人机扮演Student角色;首先获取自身对环境的局部观测值其中Qα为无人机α的值网络,hα指无人机α执行的动作,oα表示来自步骤2的初始局部观测值;通过建议发起策略向无人机合作集群中的队友发起建议请求,获得队友所给建议观测值o-α指来自队友的观测值,Q-α指队友无人机的值网络,h-α指队友无人机-α执行的动作,最终整个环境信息的联合观测值为其中指i、j无人机作为Student所获得的观测值, 指i、j无人机作为Teacher所获得的观测值;
步骤4,无人机合作集群中每个无人机扮演Teacher角色,获取无人机合作集群中的队友发起的建议请求之后,每个无人机通过学习的建议评估策略对队友发起的建议进行评估,评估会对队友的值网络Q造成增减影响,并将已经评估后的建议送返给建议请求发起队友;
步骤5,根据步骤3、4获取的联合观测值为无人机集群中每个无人机与环境模拟器进行交互,将联合观测值输入到联合策略网络其中 指无人机i、j作为Student的策略网络,指无人机i、j作为Teacher的策略网络,将得到联合动作其中指无人机i、j作为Student的动作,指无人机i、j作为Teacher的动作,并获得环境模拟器对无人机集群中每个无人机的立即联合奖励其中指无人机i、j作为Teacher所获得的奖励;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010944781.5A CN112131660A (zh) | 2020-09-10 | 2020-09-10 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010944781.5A CN112131660A (zh) | 2020-09-10 | 2020-09-10 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112131660A true CN112131660A (zh) | 2020-12-25 |
Family
ID=73846574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010944781.5A Pending CN112131660A (zh) | 2020-09-10 | 2020-09-10 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131660A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113110582A (zh) * | 2021-04-22 | 2021-07-13 | 中国科学院重庆绿色智能技术研究院 | 无人机集群智能系统控制方法 |
CN113128698A (zh) * | 2021-03-12 | 2021-07-16 | 合肥工业大学 | 多无人机协同对抗决策的强化学习方法 |
CN113189983A (zh) * | 2021-04-13 | 2021-07-30 | 中国人民解放军国防科技大学 | 一种面向开放场景的多机器人协同多目标采样方法 |
CN113269329A (zh) * | 2021-04-30 | 2021-08-17 | 北京控制工程研究所 | 一种多智能体分布式强化学习方法 |
CN113286275A (zh) * | 2021-04-23 | 2021-08-20 | 南京大学 | 一种基于多智能体强化学习的无人机集群高效通信方法 |
CN113391556A (zh) * | 2021-08-12 | 2021-09-14 | 中国科学院自动化研究所 | 基于角色分配的群体分布式控制方法及装置 |
CN113467248A (zh) * | 2021-07-22 | 2021-10-01 | 南京大学 | 基于强化学习的无人机传感器故障时容错控制方法 |
CN113589842A (zh) * | 2021-07-26 | 2021-11-02 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
CN113741525A (zh) * | 2021-09-10 | 2021-12-03 | 南京航空航天大学 | 基于策略集合maddpg多无人机协同攻防对抗方法 |
CN114118400A (zh) * | 2021-10-11 | 2022-03-01 | 中国科学院自动化研究所 | 一种基于专注网络的集群对抗方法及装置 |
CN114384931A (zh) * | 2021-12-23 | 2022-04-22 | 同济大学 | 一种基于策略梯度的无人机多目标最优控制方法和设备 |
CN114499648A (zh) * | 2022-03-10 | 2022-05-13 | 南京理工大学 | 基于多智能体协作的无人机集群网络智能多跳路由方法 |
CN116187787A (zh) * | 2023-04-25 | 2023-05-30 | 中国人民解放军96901部队 | 作战资源跨域调配问题的智能规划方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107179777A (zh) * | 2017-06-03 | 2017-09-19 | 复旦大学 | 多智能体集群协同方法与多无人机集群协同系统 |
CN109948642A (zh) * | 2019-01-18 | 2019-06-28 | 中山大学 | 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法 |
CN110109358A (zh) * | 2019-05-17 | 2019-08-09 | 电子科技大学 | 一种基于反馈的混合多智能体协同控制方法 |
CN110852448A (zh) * | 2019-11-15 | 2020-02-28 | 中山大学 | 一种基于多智能体强化学习的合作型智能体的学习方法 |
KR20200095302A (ko) * | 2019-01-16 | 2020-08-10 | 한국과학기술원 | 메시지 드롭아웃: 다중 에이전트 심층 강화학습 알고리즘을 위한 효율적인 학습 방법 |
-
2020
- 2020-09-10 CN CN202010944781.5A patent/CN112131660A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107179777A (zh) * | 2017-06-03 | 2017-09-19 | 复旦大学 | 多智能体集群协同方法与多无人机集群协同系统 |
KR20200095302A (ko) * | 2019-01-16 | 2020-08-10 | 한국과학기술원 | 메시지 드롭아웃: 다중 에이전트 심층 강화학습 알고리즘을 위한 효율적인 학습 방법 |
CN109948642A (zh) * | 2019-01-18 | 2019-06-28 | 中山大学 | 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法 |
CN110109358A (zh) * | 2019-05-17 | 2019-08-09 | 电子科技大学 | 一种基于反馈的混合多智能体协同控制方法 |
CN110852448A (zh) * | 2019-11-15 | 2020-02-28 | 中山大学 | 一种基于多智能体强化学习的合作型智能体的学习方法 |
Non-Patent Citations (2)
Title |
---|
JEREMY GOW等: "Teaching on a Budget in Multi-Agent Deep Reinforcement Learning", 《2019 IEEE CONFERENCE ON GAMES (COG)》, pages 1 - 8 * |
薛丽华: "多智能体协作学习方法的研究", 《信息科技辑》, pages 140 - 291 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128698A (zh) * | 2021-03-12 | 2021-07-16 | 合肥工业大学 | 多无人机协同对抗决策的强化学习方法 |
CN113128698B (zh) * | 2021-03-12 | 2022-09-20 | 合肥工业大学 | 多无人机协同对抗决策的强化学习方法 |
CN113189983A (zh) * | 2021-04-13 | 2021-07-30 | 中国人民解放军国防科技大学 | 一种面向开放场景的多机器人协同多目标采样方法 |
CN113189983B (zh) * | 2021-04-13 | 2022-05-31 | 中国人民解放军国防科技大学 | 一种面向开放场景的多机器人协同多目标采样方法 |
CN113110582A (zh) * | 2021-04-22 | 2021-07-13 | 中国科学院重庆绿色智能技术研究院 | 无人机集群智能系统控制方法 |
CN113110582B (zh) * | 2021-04-22 | 2023-06-02 | 中国科学院重庆绿色智能技术研究院 | 无人机集群智能系统控制方法 |
CN113286275A (zh) * | 2021-04-23 | 2021-08-20 | 南京大学 | 一种基于多智能体强化学习的无人机集群高效通信方法 |
CN113269329B (zh) * | 2021-04-30 | 2024-03-19 | 北京控制工程研究所 | 一种多智能体分布式强化学习方法 |
CN113269329A (zh) * | 2021-04-30 | 2021-08-17 | 北京控制工程研究所 | 一种多智能体分布式强化学习方法 |
CN113467248A (zh) * | 2021-07-22 | 2021-10-01 | 南京大学 | 基于强化学习的无人机传感器故障时容错控制方法 |
CN113589842A (zh) * | 2021-07-26 | 2021-11-02 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
CN113589842B (zh) * | 2021-07-26 | 2024-04-19 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
CN113391556B (zh) * | 2021-08-12 | 2021-12-07 | 中国科学院自动化研究所 | 基于角色分配的群体分布式控制方法及装置 |
CN113391556A (zh) * | 2021-08-12 | 2021-09-14 | 中国科学院自动化研究所 | 基于角色分配的群体分布式控制方法及装置 |
CN113741525A (zh) * | 2021-09-10 | 2021-12-03 | 南京航空航天大学 | 基于策略集合maddpg多无人机协同攻防对抗方法 |
CN113741525B (zh) * | 2021-09-10 | 2024-02-06 | 南京航空航天大学 | 基于策略集合maddpg多无人机协同攻防对抗方法 |
CN114118400A (zh) * | 2021-10-11 | 2022-03-01 | 中国科学院自动化研究所 | 一种基于专注网络的集群对抗方法及装置 |
CN114384931B (zh) * | 2021-12-23 | 2023-08-29 | 同济大学 | 一种基于策略梯度的无人机多目标最优控制方法和设备 |
CN114384931A (zh) * | 2021-12-23 | 2022-04-22 | 同济大学 | 一种基于策略梯度的无人机多目标最优控制方法和设备 |
CN114499648A (zh) * | 2022-03-10 | 2022-05-13 | 南京理工大学 | 基于多智能体协作的无人机集群网络智能多跳路由方法 |
CN114499648B (zh) * | 2022-03-10 | 2024-05-24 | 南京理工大学 | 基于多智能体协作的无人机集群网络智能多跳路由方法 |
CN116187787B (zh) * | 2023-04-25 | 2023-09-12 | 中国人民解放军96901部队 | 作战资源跨域调配问题的智能规划方法 |
CN116187787A (zh) * | 2023-04-25 | 2023-05-30 | 中国人民解放军96901部队 | 作战资源跨域调配问题的智能规划方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131660A (zh) | 一种基于多智能体强化学习的无人机集群协同学习方法 | |
CN110852448A (zh) | 一种基于多智能体强化学习的合作型智能体的学习方法 | |
CN112465151A (zh) | 一种基于深度强化学习的多智能体联邦协作方法 | |
Traoré et al. | Discorl: Continual reinforcement learning via policy distillation | |
CN112034888B (zh) | 一种固定翼无人机自主控制协作策略训练方法 | |
CN112180967B (zh) | 基于评判-执行架构的多无人机协同对抗决策方法 | |
CN108921298B (zh) | 强化学习多智能体沟通与决策方法 | |
CN109978176A (zh) | 一种基于状态动态感知的多智能体合作学习方法 | |
CN114415735B (zh) | 面向动态环境的多无人机分布式智能任务分配方法 | |
CN113286275A (zh) | 一种基于多智能体强化学习的无人机集群高效通信方法 | |
CN114741886B (zh) | 一种基于贡献度评价的无人机集群多任务训练方法及系统 | |
CN110070188A (zh) | 一种融合交互式强化学习的增量式认知发育系统及方法 | |
CN114815882B (zh) | 一种基于强化学习的无人飞行器自主编队智能控制方法 | |
CN113627596A (zh) | 基于动态图神经网络的多智能体对抗方法及系统 | |
CN114510012A (zh) | 一种基于元动作序列强化学习的无人集群演进系统及方法 | |
CN105936047A (zh) | 仿脑机器人控制与学习系统 | |
CN116136945A (zh) | 一种基于反事实基线的无人机集群对抗博弈仿真方法 | |
CN115081936A (zh) | 面向应急条件下多遥感卫星观测任务调度的方法和装置 | |
CN114037048B (zh) | 基于变分循环网络模型的信念一致多智能体强化学习方法 | |
CN116187787A (zh) | 作战资源跨域调配问题的智能规划方法 | |
CN115374933A (zh) | 一种多节点探测器着陆行为智能规划及决策方法 | |
CN113894780B (zh) | 多机器人协作对抗方法、装置、电子设备和存储介质 | |
Tan et al. | Proximal policy based deep reinforcement learning approach for swarm robots | |
Zolna et al. | Reinforced imitation in heterogeneous action space | |
Huang et al. | A deep reinforcement learning approach to preserve connectivity for multi-robot systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |