CN112131660A - 一种基于多智能体强化学习的无人机集群协同学习方法 - Google Patents

一种基于多智能体强化学习的无人机集群协同学习方法 Download PDF

Info

Publication number
CN112131660A
CN112131660A CN202010944781.5A CN202010944781A CN112131660A CN 112131660 A CN112131660 A CN 112131660A CN 202010944781 A CN202010944781 A CN 202010944781A CN 112131660 A CN112131660 A CN 112131660A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
network
cluster
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010944781.5A
Other languages
English (en)
Inventor
俞扬
詹德川
周志华
袁雷
张云天
付聪
庞竟成
罗凡明
贾俊华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010944781.5A priority Critical patent/CN112131660A/zh
Publication of CN112131660A publication Critical patent/CN112131660A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/28Design optimisation, verification or simulation using fluid dynamics, e.g. using Navier-Stokes equations or computational fluid dynamics [CFD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Fluid Mechanics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computational Mathematics (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于多智能体强化学习的无人机集群协同学习方法,构造基于空气动力学的环境模拟器;每个无人机获取并维护本机的局部观测值;作为student,每个无人机获取并维护来自队友的建议观测值;作为teacher,为其他无人机给出指导值;基于本机局部观测值与从队友获取的建议观测值执行动作策略,获取奖励并转移到下一状态;基于MADDPG思想进行训练,直到值网络与策略网络收敛;执行阶段以分布式的方式进行,即每个无人机基于局部观测值和队友提供的建议观测值,通过动作策略执行。本发明可以在成本较低的前提下实现无人机集群之间观测值的互补,实现无人机单独自主决策,解决“主从”结构带来的通信问题。

Description

一种基于多智能体强化学习的无人机集群协同学习方法
技术领域
本发明涉及一种基于多智能体强化学习的无人机集群协同学习方法,属于无人机集群协作技术领域。
背景技术
随着科技进步及无人机技术水平提升,无人机集群在日常生活中越发重要,广泛应用于日常运输、灾难救援、军事博弈等领域。现有的无人机集群合作中,主要以“主从”的方式控制无人机集群,即是“主”无人机主要负责对各无人机获取的数据进行处理并将指令分发给参与的“从”无人机。该类方法对通信信道要求苛刻,如果通信信道受到干扰或恶意攻击,则“主从”结构的无人机集群获取的信息都将被干扰并可能导致灾难性的后果,“主从”结构的无人机集群往往缺乏灵活性,并非真正意义上的“自治系统”。
近年来深度强化学习技术取得了极大的进步,深度强化学习不同于传统的监督学习或者非监督学习,以试错的方式与环境进行交互,获取最大的累积奖赏,是天然的决策利器。在Atari游戏、围棋、星际争霸等游戏领域,智能交通、电商推荐系统等领域都取得了较广泛的应用。
在现有的多智能体强化学习算法中,MADDPG是一个Actor-Critic框架的算法,遵循集中训练、分布执行的思想,在训练Critic网络的时候考虑全局信息,实际执行时Actor的输入中包含单个智能体的局部特征,突破了传统强化学习算法只能用单一网络结构的限制。将多智能体算法MADDPG应用于无人机集群控制能有效解决上述无人机集群“主从”结构的不足,各无人机能根据自己传感器所获取的局部信息进行决策,实现一定的自治能力。然而在基于MADDPG的无人机集群中,单个无人机信息传感器(摄像头等)视野有限,无法有效获取全局信息,无法实现真正意义上的自治决策。
发明内容
发明目的:为了解决基于MADDPG的无人机集群中个体视野受限的缺点,本发明提供一种基于多智能体强化学习的无人机集群协同学习方法。在本发明的无人机集群中,无人机能从其他无人机的动作进行学习,可以较好地解决无人机集群中单个无人机视野有限的问题。
技术方案:一种基于多智能体强化学习的无人机集群协同学习方法,在无人机集群控制中,每个无人机需要学习自己的动作策略,同时扮演Student和Teacher的角色,分别从队友处获取指导意见并给队友提供建议指导,基于多智能体强化学习算法训练无人机的策略,通过使用深度神经网络对动作值函数与动作策略函数
Figure BDA00026748981700000223
进行表示,以下分别表述为值网络和策略网络,逐步训练优化神经网络,实现无人机集群高效协作学习,得到无人机动作策略。无人机集群的策略神经网络训练过程包含以下步骤:
步骤1,基于Unity3D构建空气动力学的环境模拟器,环境模拟器中构建无人机合作集群;
步骤2,初始队友信息比较匮乏,初始化无人机观测值oα
步骤3,无人机合作集群中每个无人机扮演Student角色;首先获取自身对环境的局部观测值
Figure BDA0002674898170000021
其中Qα为无人机α的值网络,hα指无人机α执行的动作,oα表示来自步骤2的初始局部观测值;通过建议发起策略
Figure BDA0002674898170000022
向无人机合作集群中的队友发起建议请求,获得队友所给建议观测值
Figure BDA0002674898170000023
o指来自队友的观测值,Q指队友无人机的值网络,h指队友无人机-α执行的动作,最终整个环境信息的联合观测值为
Figure BDA0002674898170000024
其中
Figure BDA0002674898170000025
指i、j无人机作为Student所获得的观测值,
Figure BDA0002674898170000026
Figure BDA0002674898170000027
指i、j无人机作为Teacher所获得的观测值;
步骤4,无人机合作集群中每个无人机扮演Teacher角色,获取无人机合作集群中的队友发起的建议请求之后,每个无人机通过学习的建议评估策略
Figure BDA0002674898170000028
对队友发起的建议进行评估,评估会对队友的值网络Q造成增减影响,并将已经评估后的建议送返给建议请求发起队友;
步骤5,根据步骤3、4获取的联合观测值为
Figure BDA0002674898170000029
无人机集群中每个无人机与环境模拟器进行交互,将联合观测值
Figure BDA00026748981700000210
输入到联合策略网络
Figure BDA00026748981700000211
其中
Figure BDA00026748981700000212
Figure BDA00026748981700000213
指无人机i、j作为Student的策略网络,
Figure BDA00026748981700000214
指无人机i、j作为Teacher的策略网络,将得到联合动作
Figure BDA00026748981700000215
其中
Figure BDA00026748981700000216
指无人机i、j作为Student的动作,
Figure BDA00026748981700000217
指无人机i、j作为Teacher的动作,以上公式i、j表示不同的无人机,并获得环境模拟器对无人机集群中每个无人机的立即联合奖励
Figure BDA00026748981700000218
其中
Figure BDA00026748981700000219
指无人机i、j作为Teacher所获得的奖励;
步骤6,将前述步骤所得联合观测值、联合动作、联合奖励、下一步的联合观测值
Figure BDA00026748981700000220
存储到经验回放池
Figure BDA00026748981700000221
中,供后续训练;
步骤7,根据MADDPG“执行者-评论家”的思想,从步骤6中的经验回放池
Figure BDA00026748981700000222
中采样部分样本对Critic网络Q与Actor网络
Figure BDA0002674898170000031
进行训练优化,重复优化Critic网络与Actor网络,直到网络收敛。所述Critic网络指动作值网络,即所述的动作值函数;所述Actor网络指联合策略神经网络,即动作策略函数。
所述步骤3,无人机扮演Student角色,每个无人机利用自身传感器获取自身局部观测值
Figure BDA0002674898170000032
S表示自己是Student,oα是无人机本地初始局部观测值,α指己方无人机,Qα指动作值函数神经网络,对系统好坏进行评价,hα指无人机执行的动作;学习建议发起策略
Figure BDA0002674898170000033
向队友发起建议请求,获取队友的建议观测值
Figure BDA0002674898170000034
其中-α指队友。
所述步骤4,无人机扮演Teacher角色,通过建议评估策略
Figure BDA0002674898170000035
对队友发起的建议请求进行评估,T表示自己是处于Teacher角色,其中-α指队友,表示是其他无人机获取的观测指导值;最终获得包含自己局部观测值与队友观测值的联合观测值
Figure BDA0002674898170000036
以上公式i、j表示不同的无人机,S、T分别表示是Student和Teacher。
根据MADDPG框架设定,在策略优化中基于“执行者-评论家”(Actor-Critic,AC)框架进行网络优化,所述步骤7中定义的Critic网络价值损失函数如下:
Figure BDA0002674898170000037
其中
Figure BDA0002674898170000038
是损失函数,
Figure BDA0002674898170000039
为待优化参数,E是指求期望,
Figure BDA00026748981700000310
分别来自经验共享池
Figure BDA00026748981700000311
的联合观测值、联合动作、联合奖励、下一时刻的观测值,γ是衰减因子,
Figure BDA00026748981700000312
是动作值函数,
Figure BDA00026748981700000313
是策略网络,
Figure BDA00026748981700000314
指根据策略预测出来的下一步的可能动作。
Actor网络(策略神经网络)更新目标如下:
Figure BDA00026748981700000315
其中
Figure BDA00026748981700000316
表示求梯度,
Figure BDA00026748981700000317
为策略更新目标,
Figure BDA00026748981700000318
是策略网络待优化参数,E是指求期望,
Figure BDA00026748981700000319
分别来自经验共享池
Figure BDA00026748981700000320
的联合观测值、联合动作;ρ∈{S,T}表示扮演的角色可以为Student、Teacher;α∈{i,j}表示无人机的编号可以为i、j,
Figure BDA00026748981700000321
为动作值函数,
Figure BDA00026748981700000322
表示联合策略网络。
有益效果:与现有技术相比,本发明提供的基于多智能体强化学习的无人机集群协同学习方法,采用深度强化学习算法使无人机具备自主决策能力,无人机可以与环境模拟器进行交互,训练自己的动作函数,直到收敛,可以摆脱传统基于规则的束缚;
本发明通过多智能体深度强化学习算法实现无人机集群自主控制,无人机之间不需要显式的通信,仅需观测队友动作即可,能有效解决无人机集群“主从”结构带来的问题,使无人机具备真正意义上的自治能力;
本发明采用的基于学习的多智能体无人机集群合作算法,能有效克服单个无人机只能看到局部信息的缺点,有效解决传统无人机集群通信、自治等问题。
附图说明
图1为本发明的方法流程图;
图2为本发明整体框示意图;
图3是无人机集群交互示意图。
图4是算法伪代码。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于多智能体强化学习的无人机集群协同学习方法,在无人机集群控制中,每个无人机同时扮演Student和Teacher的角色,遵循MADDPG集中式训练、分布式执行的思想实现无人机集群协作学习。包括以下步骤:
步骤一:基于Unity3D构建空气动力学的环境模拟器,构建无人机合作集群。
步骤二:初始队友信息比较匮乏,初始化无人机局部观测值oα
步骤三:无人机合作集群中每个无人机扮演Student角色;首先获取自身对环境的局部观测值
Figure BDA0002674898170000041
其中Qα为无人机α的值网络,hα指无人机α采取的动作,oα表示来着步骤二的初始局部观测值;通过建议发起策略
Figure BDA0002674898170000042
向无人机合作集群中的队友获取队友建议,获得队友所给建议观测值
Figure BDA0002674898170000043
o指来自队友的观测值,Q指队友无人机的值网络,h指队友无人机-α执行的动作,最终整个环境信息的联合观测值为
Figure BDA0002674898170000044
其中
Figure BDA0002674898170000045
指i、j无人机作为Student所获得的观测值,
Figure BDA0002674898170000046
Figure BDA0002674898170000051
指i、j无人机作为Teacher所获得的观测值。
步骤四:无人机合作集群中每个无人机扮演Teacher角色,获取无人机合作集群中的队友发起的建议咨询请求之后,每个无人机通过学习的建议评估策略
Figure BDA0002674898170000052
对队友发起的建议进行评估,评估会对队友的值网络Q造成增减影响,并将已经评估后的建议发送返回给建议请求发起队友。
步骤五:根据步骤三四获取的联合观测值为
Figure BDA0002674898170000053
无人机集群中每个无人机与环境模拟器进行交互,将联合观测值
Figure BDA0002674898170000054
输入到联合策略网络
Figure BDA0002674898170000055
其中
Figure BDA0002674898170000056
Figure BDA0002674898170000057
指无人机i、j作为Student的策略网络,
Figure BDA0002674898170000058
指无人机i、j作为Teacher的策略网络,将得到联合动作
Figure BDA0002674898170000059
其中
Figure BDA00026748981700000510
指无人机i、j作为Student的动作,
Figure BDA00026748981700000511
指无人机i、j作为Teacher的动作,并获得环境模拟器对无人机集群中每个无人机的立即联合奖励
Figure BDA00026748981700000512
其中
Figure BDA00026748981700000513
指无人机i、j作为Teacher所获得的奖励。
步骤六:将前述步骤所得联合观测值、联合动作、联合奖励、下一步的联合观测值
Figure BDA00026748981700000514
存储到经验回放池
Figure BDA00026748981700000515
中,供后续训练。
步骤七:从经验回放池
Figure BDA00026748981700000516
中采样部分样本以集中式的方式训练Critic网络,其联合Q值函数定义
Figure BDA00026748981700000517
其中
Figure BDA00026748981700000518
为联合策略函数的参数,其优化目标为损失函数
Figure BDA00026748981700000519
其中
Figure BDA00026748981700000520
为下一刻的目标动作,目标是使得损失函数最小。其中
Figure BDA00026748981700000521
是损失函数,
Figure BDA00026748981700000522
为待优化参数,E是指求期望,
Figure BDA00026748981700000523
分别来自经验共享池
Figure BDA00026748981700000524
的联合观测值、联合动作、联合奖励、下一时刻的观测值,γ是衰减因子,
Figure BDA00026748981700000525
是动作值函数,
Figure BDA00026748981700000526
是策略网络。
步骤八:Actor网络(策略神经网络)更新目标如下:
Figure BDA00026748981700000527
其中
Figure BDA00026748981700000528
表示求梯度,
Figure BDA00026748981700000529
为策略更新目标,
Figure BDA00026748981700000530
是策略网络待优化参数,E是指求期望,
Figure BDA00026748981700000531
指分别来自经验共享池
Figure BDA00026748981700000532
的联合观测值、联合动作;ρ∈{S,T}表示扮演的角色可以为Student、Teacher;α∈{i,j}表示无人机的编号可以为i、j,
Figure BDA0002674898170000061
为动作值函数,
Figure BDA0002674898170000062
表示联合策略网络。
重复上述步骤七与八,直到Critic网络(动作值网络)Q与Actor(策略网络)网络收敛。
图1是本发明方法流程图,在具体实施根据MADDPG集中训练、分布执行的思想进行。
图2是整体框架图。其中:
步骤1,在训练阶段,无人机i、i与环境模拟器进行交互,通过自身传感器(传感器组合)获取初始化局部观测值;
步骤2,作为Student,获取建议观测值与联合观测值、联合奖励;
步骤3,作为Teacher,对队友提起的建议进行评估。
步骤4,设计合适的神经网络结构、选择适当的神经网络超参数,搭建值网络与策略网络。
例如,一个策略网络可以包括5层全连接神经网络,每层神经网络使用relu函数作激活函数。
步骤5,根据MADDPG框架设定,基于“执行者-评论家”(Actor-Critic,AC)框架进行网络优化直到网络收敛。
步骤6,按照MADDPG的流程,算法通过将获取的局部观测值和队友建议的观测值送到策略网络,得到相应的动作。
图3是本发明中无人机集群交互示意图,无人机作为Student向队友发起建议请求,获得队友建议,以及作为Teacher对队友发起的建议进行评估过程。
图4是本发明中算法流程伪代码。

Claims (4)

1.一种基于多智能体强化学习的无人机集群协同学习方法,其特征在于:在无人机集群控制中,每个无人机需要学习自己的动作策略,同时扮演Student和Teacher的角色,分别从队友处获取指导意见并给队友提供建议指导,基于多智能体强化学习算法训练无人机的策略,通过使用深度神经网络对动作值函数与动作策略函数
Figure FDA0002674898160000011
进行表示,逐步训练优化神经网络,实现无人机集群高效协作学习,得到无人机动作策略。
2.根据权利要求1所述的基于多智能体强化学习的无人机集群协同学习方法,其特征在于:无人机集群的策略神经网络训练过程包含以下步骤:
步骤1,构建环境模拟器,环境模拟器中构建无人机合作集群;
步骤2,初始化无人机观测值oα
步骤3,无人机合作集群中每个无人机扮演Student角色;首先获取自身对环境的局部观测值
Figure FDA0002674898160000012
其中Qα为无人机α的值网络,hα指无人机α执行的动作,oα表示来自步骤2的初始局部观测值;通过建议发起策略
Figure FDA0002674898160000013
向无人机合作集群中的队友发起建议请求,获得队友所给建议观测值
Figure FDA0002674898160000014
o指来自队友的观测值,Q指队友无人机的值网络,h指队友无人机-α执行的动作,最终整个环境信息的联合观测值为
Figure FDA0002674898160000015
其中
Figure FDA0002674898160000016
指i、j无人机作为Student所获得的观测值,
Figure FDA0002674898160000017
Figure FDA0002674898160000018
指i、j无人机作为Teacher所获得的观测值;
步骤4,无人机合作集群中每个无人机扮演Teacher角色,获取无人机合作集群中的队友发起的建议请求之后,每个无人机通过学习的建议评估策略
Figure FDA0002674898160000019
对队友发起的建议进行评估,评估会对队友的值网络Q造成增减影响,并将已经评估后的建议送返给建议请求发起队友;
步骤5,根据步骤3、4获取的联合观测值为
Figure FDA00026748981600000110
无人机集群中每个无人机与环境模拟器进行交互,将联合观测值
Figure FDA00026748981600000111
输入到联合策略网络
Figure FDA00026748981600000112
其中
Figure FDA00026748981600000113
Figure FDA00026748981600000114
指无人机i、j作为Student的策略网络,
Figure FDA00026748981600000115
指无人机i、j作为Teacher的策略网络,将得到联合动作
Figure FDA00026748981600000116
其中
Figure FDA00026748981600000117
指无人机i、j作为Student的动作,
Figure FDA00026748981600000118
指无人机i、j作为Teacher的动作,并获得环境模拟器对无人机集群中每个无人机的立即联合奖励
Figure FDA00026748981600000119
其中
Figure FDA00026748981600000120
指无人机i、j作为Teacher所获得的奖励;
步骤6,将前述步骤所得联合观测值、联合动作、联合奖励、下一步的联合观测值
Figure FDA0002674898160000021
存储到经验回放池
Figure FDA0002674898160000022
中,供后续训练;
步骤7,从步骤6中的经验回放池
Figure FDA0002674898160000023
中采样部分样本对Critic网络Q与Actor网络
Figure FDA0002674898160000024
进行训练优化,重复优化Critic网络与Actor网络,直到网络收敛。
3.根据权利要求2所述的基于多智能体强化学习的无人机集群协同学习方法,其特征在于:所述步骤7中,根据MADDPG框架设定,在策略优化中基于执行者-评论家框架进行网络优化,所述步骤7中定义的Critic网络价值损失函数如下:
Figure FDA0002674898160000025
其中
Figure FDA0002674898160000026
是损失函数,
Figure FDA0002674898160000027
为待优化参数,E是指求期望,
Figure FDA0002674898160000028
分别来自经验共享池
Figure FDA0002674898160000029
的联合观测值、联合动作、联合奖励、下一时刻的观测值,γ是衰减因子,
Figure FDA00026748981600000210
是动作值函数,
Figure FDA00026748981600000211
是策略网络,
Figure FDA00026748981600000212
指根据策略预测出来的下一步的可能动作。
4.根据权利要求2所述的基于多智能体强化学习的无人机集群协同学习方法,其特征在于:所述步骤7中,Actor网络更新目标如下:
Figure FDA00026748981600000213
其中
Figure FDA00026748981600000214
表示求梯度,
Figure FDA00026748981600000215
为策略更新目标,
Figure FDA00026748981600000216
是策略网络待优化参数,E是指求期望,
Figure FDA00026748981600000217
分别来自经验共享池
Figure FDA00026748981600000218
的联合观测值、联合动作;ρ∈{S,T}表示扮演的角色可以为Student、Teacher;α∈{i,j}表示无人机的编号可以为i、j,
Figure FDA00026748981600000219
为动作值函数,
Figure FDA00026748981600000220
表示联合策略网络。
CN202010944781.5A 2020-09-10 2020-09-10 一种基于多智能体强化学习的无人机集群协同学习方法 Pending CN112131660A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010944781.5A CN112131660A (zh) 2020-09-10 2020-09-10 一种基于多智能体强化学习的无人机集群协同学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010944781.5A CN112131660A (zh) 2020-09-10 2020-09-10 一种基于多智能体强化学习的无人机集群协同学习方法

Publications (1)

Publication Number Publication Date
CN112131660A true CN112131660A (zh) 2020-12-25

Family

ID=73846574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010944781.5A Pending CN112131660A (zh) 2020-09-10 2020-09-10 一种基于多智能体强化学习的无人机集群协同学习方法

Country Status (1)

Country Link
CN (1) CN112131660A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113110582A (zh) * 2021-04-22 2021-07-13 中国科学院重庆绿色智能技术研究院 无人机集群智能系统控制方法
CN113128698A (zh) * 2021-03-12 2021-07-16 合肥工业大学 多无人机协同对抗决策的强化学习方法
CN113189983A (zh) * 2021-04-13 2021-07-30 中国人民解放军国防科技大学 一种面向开放场景的多机器人协同多目标采样方法
CN113269329A (zh) * 2021-04-30 2021-08-17 北京控制工程研究所 一种多智能体分布式强化学习方法
CN113286275A (zh) * 2021-04-23 2021-08-20 南京大学 一种基于多智能体强化学习的无人机集群高效通信方法
CN113391556A (zh) * 2021-08-12 2021-09-14 中国科学院自动化研究所 基于角色分配的群体分布式控制方法及装置
CN113467248A (zh) * 2021-07-22 2021-10-01 南京大学 基于强化学习的无人机传感器故障时容错控制方法
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法
CN113741525A (zh) * 2021-09-10 2021-12-03 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN114118400A (zh) * 2021-10-11 2022-03-01 中国科学院自动化研究所 一种基于专注网络的集群对抗方法及装置
CN114384931A (zh) * 2021-12-23 2022-04-22 同济大学 一种基于策略梯度的无人机多目标最优控制方法和设备
CN114499648A (zh) * 2022-03-10 2022-05-13 南京理工大学 基于多智能体协作的无人机集群网络智能多跳路由方法
CN116187787A (zh) * 2023-04-25 2023-05-30 中国人民解放军96901部队 作战资源跨域调配问题的智能规划方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179777A (zh) * 2017-06-03 2017-09-19 复旦大学 多智能体集群协同方法与多无人机集群协同系统
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN110109358A (zh) * 2019-05-17 2019-08-09 电子科技大学 一种基于反馈的混合多智能体协同控制方法
CN110852448A (zh) * 2019-11-15 2020-02-28 中山大学 一种基于多智能体强化学习的合作型智能体的学习方法
KR20200095302A (ko) * 2019-01-16 2020-08-10 한국과학기술원 메시지 드롭아웃: 다중 에이전트 심층 강화학습 알고리즘을 위한 효율적인 학습 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179777A (zh) * 2017-06-03 2017-09-19 复旦大学 多智能体集群协同方法与多无人机集群协同系统
KR20200095302A (ko) * 2019-01-16 2020-08-10 한국과학기술원 메시지 드롭아웃: 다중 에이전트 심층 강화학습 알고리즘을 위한 효율적인 학습 방법
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN110109358A (zh) * 2019-05-17 2019-08-09 电子科技大学 一种基于反馈的混合多智能体协同控制方法
CN110852448A (zh) * 2019-11-15 2020-02-28 中山大学 一种基于多智能体强化学习的合作型智能体的学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JEREMY GOW等: "Teaching on a Budget in Multi-Agent Deep Reinforcement Learning", 《2019 IEEE CONFERENCE ON GAMES (COG)》, pages 1 - 8 *
薛丽华: "多智能体协作学习方法的研究", 《信息科技辑》, pages 140 - 291 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128698A (zh) * 2021-03-12 2021-07-16 合肥工业大学 多无人机协同对抗决策的强化学习方法
CN113128698B (zh) * 2021-03-12 2022-09-20 合肥工业大学 多无人机协同对抗决策的强化学习方法
CN113189983A (zh) * 2021-04-13 2021-07-30 中国人民解放军国防科技大学 一种面向开放场景的多机器人协同多目标采样方法
CN113189983B (zh) * 2021-04-13 2022-05-31 中国人民解放军国防科技大学 一种面向开放场景的多机器人协同多目标采样方法
CN113110582A (zh) * 2021-04-22 2021-07-13 中国科学院重庆绿色智能技术研究院 无人机集群智能系统控制方法
CN113110582B (zh) * 2021-04-22 2023-06-02 中国科学院重庆绿色智能技术研究院 无人机集群智能系统控制方法
CN113286275A (zh) * 2021-04-23 2021-08-20 南京大学 一种基于多智能体强化学习的无人机集群高效通信方法
CN113269329B (zh) * 2021-04-30 2024-03-19 北京控制工程研究所 一种多智能体分布式强化学习方法
CN113269329A (zh) * 2021-04-30 2021-08-17 北京控制工程研究所 一种多智能体分布式强化学习方法
CN113467248A (zh) * 2021-07-22 2021-10-01 南京大学 基于强化学习的无人机传感器故障时容错控制方法
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法
CN113589842B (zh) * 2021-07-26 2024-04-19 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法
CN113391556B (zh) * 2021-08-12 2021-12-07 中国科学院自动化研究所 基于角色分配的群体分布式控制方法及装置
CN113391556A (zh) * 2021-08-12 2021-09-14 中国科学院自动化研究所 基于角色分配的群体分布式控制方法及装置
CN113741525A (zh) * 2021-09-10 2021-12-03 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN113741525B (zh) * 2021-09-10 2024-02-06 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN114118400A (zh) * 2021-10-11 2022-03-01 中国科学院自动化研究所 一种基于专注网络的集群对抗方法及装置
CN114384931B (zh) * 2021-12-23 2023-08-29 同济大学 一种基于策略梯度的无人机多目标最优控制方法和设备
CN114384931A (zh) * 2021-12-23 2022-04-22 同济大学 一种基于策略梯度的无人机多目标最优控制方法和设备
CN114499648A (zh) * 2022-03-10 2022-05-13 南京理工大学 基于多智能体协作的无人机集群网络智能多跳路由方法
CN114499648B (zh) * 2022-03-10 2024-05-24 南京理工大学 基于多智能体协作的无人机集群网络智能多跳路由方法
CN116187787B (zh) * 2023-04-25 2023-09-12 中国人民解放军96901部队 作战资源跨域调配问题的智能规划方法
CN116187787A (zh) * 2023-04-25 2023-05-30 中国人民解放军96901部队 作战资源跨域调配问题的智能规划方法

Similar Documents

Publication Publication Date Title
CN112131660A (zh) 一种基于多智能体强化学习的无人机集群协同学习方法
CN110852448A (zh) 一种基于多智能体强化学习的合作型智能体的学习方法
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
Traoré et al. Discorl: Continual reinforcement learning via policy distillation
CN112034888B (zh) 一种固定翼无人机自主控制协作策略训练方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN108921298B (zh) 强化学习多智能体沟通与决策方法
CN109978176A (zh) 一种基于状态动态感知的多智能体合作学习方法
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
CN113286275A (zh) 一种基于多智能体强化学习的无人机集群高效通信方法
CN114741886B (zh) 一种基于贡献度评价的无人机集群多任务训练方法及系统
CN110070188A (zh) 一种融合交互式强化学习的增量式认知发育系统及方法
CN114815882B (zh) 一种基于强化学习的无人飞行器自主编队智能控制方法
CN113627596A (zh) 基于动态图神经网络的多智能体对抗方法及系统
CN114510012A (zh) 一种基于元动作序列强化学习的无人集群演进系统及方法
CN105936047A (zh) 仿脑机器人控制与学习系统
CN116136945A (zh) 一种基于反事实基线的无人机集群对抗博弈仿真方法
CN115081936A (zh) 面向应急条件下多遥感卫星观测任务调度的方法和装置
CN114037048B (zh) 基于变分循环网络模型的信念一致多智能体强化学习方法
CN116187787A (zh) 作战资源跨域调配问题的智能规划方法
CN115374933A (zh) 一种多节点探测器着陆行为智能规划及决策方法
CN113894780B (zh) 多机器人协作对抗方法、装置、电子设备和存储介质
Tan et al. Proximal policy based deep reinforcement learning approach for swarm robots
Zolna et al. Reinforced imitation in heterogeneous action space
Huang et al. A deep reinforcement learning approach to preserve connectivity for multi-robot systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination