CN115294474A - 一种融合局部目标特征与协作特征的多智能体信息交互方法 - Google Patents
一种融合局部目标特征与协作特征的多智能体信息交互方法 Download PDFInfo
- Publication number
- CN115294474A CN115294474A CN202210812033.0A CN202210812033A CN115294474A CN 115294474 A CN115294474 A CN 115294474A CN 202210812033 A CN202210812033 A CN 202210812033A CN 115294474 A CN115294474 A CN 115294474A
- Authority
- CN
- China
- Prior art keywords
- information
- agent
- target
- interaction
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000009471 action Effects 0.000 claims abstract description 93
- 230000006870 function Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 9
- 239000003795 chemical substances by application Substances 0.000 claims description 165
- 230000008447 perception Effects 0.000 claims description 24
- 230000002452 interceptive effect Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 14
- 230000007613 environmental effect Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 5
- 230000009133 cooperative interaction Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000002787 reinforcement Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 206010010071 Coma Diseases 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种融合局部目标特征与协作特征的多智能体信息交互方法。该方法包括:(1)初始化“多目标协作导航”任务场景,其中每个智能体包括一个动作生成器和一个动作评价器;(2)构建智能体信息交互通道,该通道根据各智能体t时刻的局部观测,提取局部目标特征与协作特征,分别编码为t时刻的两类交互信息,发送给各交互对象;(3)对于每个智能体,将自身局部观测与接收到的各个交互信息,根据分层重要性权重进行融合,得到全局观测输入到动作生成器中,输出智能体的动作;(4)循环步骤2‑3,收集交互轨迹样本;(5)使用损失函数La和Lc训练每个智能体的动作生成器和动作评价器,以达到最大化团队奖励,完成协作任务的目标。
Description
技术领域
本发明涉及多智能体强化学习领域,具体涉及一种融合局部目标特征与协作特征的多智能体信息交互方法。
背景技术
多智能体强化学习是深度强化学习领域中与多智能体系统相结合的子课题之一,是在单智能体强化学习算法的基础上,向多智能体环境的拓展与延伸,主要用于生成协作任务中的行为策略,多智能体强化学习的目标是最大化群体累积奖励。其中在多智能体协作环境下,每个智能体由于感知范围的限制或传感器噪声问题,只能获得部分观测,对环境状态与队友状态的理解不完备,难以在更新自身行为策略时考虑到其他智能体对自身及整体团队的影响,因此难以生成具备团队协作能力的行为策略。
为了解决以上问题,出现了多智能体信息交互方法。这一类多智能体强化学习方法显式地假设智能体之间存在信息共享,在协作策略训练过程中,提取自身局部观测的特征进行传递,并接收队友传递而来的局部特征进行融合,补充自身对不完全可观测环境以及队友状态的掌握,从而提升智能体之间的协作能力,生成最大化团队奖励的协作行为策略。
现有的基于信息交互的协作策略生成方法能够在智能体之间建立离散或连续的通信通道。对于共享信息的生成过程,可以使用价值Q网络或搭建消息网络等方法进行生成,网络的参数通过团队奖励进行反向更新,生成的共享信息在智能体之间进行广播传递;对于消息融合过程,可以使用求和、平均等数学运算对消息进行融合,并进一步引入了注意力机制对每个消息的重要性权重进行自主学习。然而,现有的大多数信息交互方法遵循共享-观测模式,主要将智能体当前局部观测的特征嵌入进行共享,这种模式缺乏对协作环境中拓扑结构特征的利用。
综上,当前多智能体之间的信息交互方法,主要通过智能体的局部特征表征与智能体之间的局部特征共享,解决协作场景中智能体对环境状态与队友状态感知不完备的问题,进而提升协作策略的决策准确率与协作任务完成率。
发明内容
针对现有技术存在的缺陷,本发明提出了一种融合局部目标特征与协作特征的多智能体信息交互方法。在多智能体自主协作决策环境中,基于图神经网络与多层权重分配,将智能体有限感知范围内感知到的局部目标信息与协作信息共享给其他智能体,提升智能体对无法感知区域的任务执行情况的理解,使得智能体决策时考虑更全面的目标信息与队友状态,从而形成协作配合,进行合理的队内分工,避免多个智能体对同一目标产生内部竞争,提升团队任务的完成效率,可应用于无人系统(无人艇)集群等领域的多目标协同导航等任务场景。
为达到上述目的,本发明采用如下技术方案:
一种融合局部目标特征与协作特征的多智能体信息交互方法,包括以下步骤:
步骤1、初始化“多目标协作导航”任务场景,任务目标为多个智能体在不碰撞不冲突的同时协作到达所有目标点,其中每个智能体包括一个动作生成器和一个动作评价器;其过程如下:初始化“多目标协作导航”任务场景。任务目标为在不碰撞、不产生内部目标竞争的前提下,各智能体自主选择合适的目标,协作到达各自目标点。该场景是智能体交互的基础,为智能体提供观测信息,智能体的动作作用于此场景,改变场景的实时状态,场景根据动作执行的效果反馈奖励信息更新智能体的动作策略。初始化智能体数量为N,目标点数量为L。初始化N个智能体的局部感知范围、位置与速度以及L个目标点的位置。其中局部感知范围内观测到的目标数量为l,队友智能体数量为j。初始化N个智能体动作生成器与动作评价器的参数。
步骤2、构建智能体信息交互通道,该通道根据各智能体t时刻的局部观测,提取局部目标特征与协作特征,分别编码为t时刻的两类交互信息,发送给各交互对象;其过程如下:
(2-1)获取智能体局部观测信息:从步骤1的初始化场景状态中,提取智能体i的局部观测,包含智能体在x轴和z轴的自身位置与速度信息oi={vx,vz,px,pz};智能体i感知范围内观测到的l个目标实体的位置信息感知范围内j个协作队友的位置与速度信息
(2-2)局部目标特征提取与交互信息生成:将智能体i感知范围内观测到的l个目标实体的位置信息输入到多层感知机中,编码为目标特征向量,并将l个目标特征与智能体i自身特征作为节点组成目标关系图,使用图神经网络提取图特征作为目标交互信息Et,其中包含了目标与智能体之间的拓扑结构特征,能够体现智能体的目标选择偏好。
(2-3)局部协作特征提取与交互信息生成:将智能体i感知范围内j个协作队友的位置与速度信息输入到多层感知机中,编码为队友特征向量,并将j个队友特征与智能体i自身特征作为节点组成协作关系图,使用图神经网络提取图特征作为协作交互信息Tt,其中包含了智能体之间的拓扑结构特征,能够体现智能体之间的局部协作状态。
步骤3、对于每个智能体,将自身局部观测与接收到的各个交互信息,根据分层重要性权重进行融合,得到全局观测,输入到动作生成器中,输出智能体的动作;其过程如下:
步骤4、循环步骤2-3,收集交互轨迹样本;其过程如下:收集交互轨迹样本,包含每个时刻的环境观测、动作选择、环境反馈的奖励。
步骤5、使用损失函数La和Lc训练每个智能体的动作生成器和动作评价器,以达到最大化团队奖励,完成协作任务的目标,其过程如下:
(5-1)使用损失函数Lc对动作评价器进行更新,具体为:
(5-2)使用损失函数La对动作生成器进行更新,具体为:
其中,表示一次迭代更新中旧动作生成器与新动作生成器的比值,πθ(at|gcut)表示新动作生成器πθ在t时刻观测为gcu、输出动作为a的概率,表示旧动作生成器在t时刻观测为gcu、输出动作为a的概率,At表示优势函数,由奖励值与动作评价器输出的动作价值计算得到,∈表示预设的用于控制策略更新幅度的常数。
与现有技术相比,本发明具有如下的优点:
本发明方法增加了提取协作环境中的局部目标特征与协作特征这两类拓扑结构信息,形成了特征蕴含更丰富、更有利于协作的交互信息。通过引入图神经网络,提取智能体局部感知范围内,各个目标节点以及队友智能体节点之间的空间结构关系,然后结合拓扑结构信息与智能体的局部观测信息共同生成要共享的交互信息。共享这种包含拓扑结构特征的交互信息,可以使得“多目标协作导航”任务中,智能体决策时不仅考虑更全局的目标信息,还考虑队友的状态信息,形成协作配合进行合理的队内分工,避免多个智能体对同一目标产生内部竞争,从而提升团队任务的完成效率。
附图说明
图1为融合局部目标特征与协作特征的多智能体信息交互方法流程图。
图2为融合局部目标特征与协作特征的多智能体信息交互方法具体实现流程图。
图3为仿真实验中的“多目标协作导航”任务场景图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明提出了一种融合局部目标特征与协作特征的多智能体信息交互方法。在现有的多智能体信息交互方法共享-观测的基础上,增加了共享拓扑结构信息。为了提取协作环境中的拓扑结构信息,形成更有利于协作的交互信息,引入了图神经网络,提取智能体局部感知范围内,智能体与各个目标节点以及与队友智能体节点之间的空间结构关系,然后结合拓扑结构信息与智能体的局部观测信息共同生成要共享的交互信息。共享这种增加了拓扑结构特征的交互信息,可以使得智能体决策时考虑更全面的目标信息与队友状态,形成协作配合进行合理的队内分工,避免多个智能体对同一目标产生内部竞争,从而提升团队任务的完成效率。
本发明的基本特征主要有以下几个方面:一是生成了目标交互信息Et,其中包含了目标与智能体之间的拓扑结构特征,共享这类交互信息能够体现智能体的目标选择偏好;二是生成了协作交互信息Tt,其中包含了智能体之间的拓扑结构特征,共享这类交互信息能够体现智能体之间的局部协作状态;三是在融合两类交互信息时,使用分层的重要性权重分配,先对同类交互信息进行加权,再对不同类交互信息进行融合。通过分层融合,智能体可以在多目标导航不同阶段灵活选择侧重目标选择或进行协作,形成更加有效的协作。
如图1所示,一种融合局部目标特征与协作特征的多智能体信息交互方法,具体实施步骤如下:
步骤1:初始化“多目标协作导航”任务场景,任务目标为多个智能体在不碰撞不冲突的同时协作到达所有目标点,其中每个智能体包括一个动作生成器和一个动作评价器,具体过程为:初始化“多目标协作导航”任务场景。任务目标为在不碰撞、不产生内部目标竞争的前提下,各智能体自主选择合适的目标,协作到达各自目标点。该场景是智能体交互的基础,为智能体提供观测信息,智能体的动作作用于此场景,改变场景的实时状态,场景根据动作执行的效果反馈奖励信息更新智能体的动作策略。初始化智能体数量为N,目标点数量为L。初始化N个智能体的局部感知范围、位置与速度以及L个目标点的位置。其中局部感知范围内观测到的目标数量为l,队友智能体数量为j。初始化N个智能体动作生成器与动作评价器的参数。
步骤2:构建智能体信息交互通道,该通道根据各智能体t时刻的局部观测,提取局部目标特征与协作特征,分别编码为t时刻的两类交互信息,发送给各交互对象,具体过程为:
(2-1)获取智能体局部观测信息:从步骤1的初始化场景状态中,提取智能体i的局部观测,包含智能体在x轴和z轴的自身位置与速度信息oi={vx,vz,px,pz};智能体i感知范围内观测到的l个目标实体的位置信息感知范围内j个协作队友的位置与速度信息
(2-2)局部目标特征提取与交互信息生成:将智能体i感知范围内观测到的l个目标实体的位置信息输入到多层感知机中,编码为目标特征向量,并将l个目标特征与智能体i自身特征作为节点组成目标关系图,使用图神经网络提取图特征作为目标交互信息Et,其中包含了目标与智能体之间的拓扑结构特征,能够体现智能体的目标选择偏好。
(2-3)局部协作特征提取与交互信息生成:将智能体i感知范围内j个协作队友的位置与速度信息输入到多层感知机中,编码为队友特征向量,并将j个队友特征与智能体i自身特征作为节点组成协作关系图,使用图神经网络提取图特征作为协作交互信息Tt,其中包含了智能体之间的拓扑结构特征,能够体现智能体之间的局部协作状态。
步骤3:对于每个智能体,将自身局部观测与接收到的各个交互信息,根据分层重要性权重进行融合,得到全局观测,输入到动作生成器中,输出智能体的动作,具体过程为:
步骤4:循环步骤2-3,收集交互轨迹样本,具体过程为:收集交互轨迹样本,包含每个时刻的环境观测、动作选择、环境反馈的奖励。
步骤5:使用损失函数La和Lc训练每个智能体的动作生成器和动作评价器,以达到最大化团队奖励,完成协作任务的目标,具体过程为:
(5-1)使用损失函数Lc对动作评价器进行更新,具体为:
(5-2)使用损失函数La对动作生成器进行更新,具体为:
其中,表示一次迭代更新中旧动作生成器与新动作生成器的比值,πθ(at|gcut)表示新动作生成器πθ在t时刻观测为gcu、输出动作为a的概率,表示旧动作生成器在t时刻观测为gcu、输出动作为a的概率,At表示优势函数,由奖励值与动作评价器输出的动作价值计算得到,∈表示预设的用于控制策略更新幅度的常数。
实验说明及结果:仿真实验环境为“多目标协作导航”这一协作任务场景,出处:https://github.com/sumitsk/matrl.git。任务目标为:多个智能体在不碰撞的前提下,协作导航至各个目标点,到达的目标点越多,对目标点覆盖的越准确,任务完成度越高;仿真环境设置为:二维场景大小20单元*20单元、智能体大小1单元、目标点大小1单元、智能体数量3或6、目标点数量3或6;智能体局部感知范围:半径为5的单位圆;智能体动作设置:动作类型离散、动作种类5种(前后左右停);智能体状态设置:智能体速度+智能体位置坐标+感知范围内目标点位置坐标+感知范围内队友智能体速度+位置坐标;奖励设置:所有目标点与其最近智能体之间负距离的总和。表1显示了本发明方法与已有基准方法的对比结果。
表1实验结果(测试10000次得到的平均结果)
表1显示本发明方法与各基准方法在“多目标协作导航”任务中的对比结果。我们在智能体数量为3和6的两组设置中训练本发明方法和基准方法,训练过程中智能体与目标点的初始位置是随机的,训练轮数为7000轮,每轮与环境交互的最大步数为50步。
其中,对比指标设置为3种,S%表示任务成功率;DIST表示目标覆盖程度,即目标点与最近的智能体的平均距离(越小越好);AEL表示平均完成步数,即完成一轮任务所需的步数(越小越好)。用于对比的已有基准方法包括Q-MIX、COMA、MADDPG、SAEG。
其中,Q-MIX、COMA方法没有信息交互机制,即使设置为完全可观测,也无法完成“多目标协作导航”任务,与这两种方法的对比,证明了特征共享在不完全可观测协作任务完成中的重要性。MADDPG方法使用集中训练分散决策的训练框架,具有隐式的信息交互过程,在3个智能体数量的设置中具有良好的表现,但是没有拓扑结构信息的添加,与这个方法对比,证明了添加拓扑结构信息的作用。SAEG方法具有显性的信息交互过程,也使用了图神经网络表征局部特征,但是没有考虑到局部目标特征+协作特征的双交互信息共享与融合机制,与这个方法对比,证明了融合局部目标特征与协作特征的作用。
可以看出,本发明方法在成功率、目标覆盖程度、平均完成步数三种指标中都比已有方法有所提升。在智能体数量为3的任务设置中,本发明方法的任务完成率最高,完成任务所需的步数也最少;在智能体数量为6的任务设置中,智能体数量增加,任务难度升高,只有SAEG和本发明方法能够完成多目标协作导航的任务,本发明方法的任务完成率同样最高,并且对目标点的覆盖程度更好,体现了智能体之间更有效的信息交互与更好的协作效果。
Claims (6)
1.一种融合局部目标特征与协作特征的多智能体信息交互方法,其特征在于,包括以下步骤:
步骤1、初始化“多目标协作导航”任务场景,任务目标为多个智能体在不碰撞不冲突的同时协作到达所有目标点,其中每个智能体包括一个动作生成器和一个动作评价器;
步骤2、构建智能体信息交互通道,该通道根据各智能体t时刻的局部观测,提取局部目标特征与协作特征,分别编码为t时刻的两类交互信息,发送给各交互对象;
步骤3、对于每个智能体,将自身局部观测与接收到的各个交互信息,根据分层重要性权重进行融合,得到全局观测,输入到动作生成器中,输出智能体的动作;
步骤4、循环步骤2-3,收集交互轨迹样本;
步骤5、使用损失函数La和Lc训练每个智能体的动作生成器和动作评价器,以达到最大化团队奖励,完成协作任务的目标。
2.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法,其特征在于,所述步骤1的过程如下:初始化“多目标协作导航”任务场景,任务目标为在不碰撞、不产生内部目标竞争的前提下,各智能体自主选择合适的目标,协作到达各自目标点;初始化智能体数量为N,目标点数量为L;初始化N个智能体的局部感知范围、位置与速度以及L个目标点的位置,其中局部感知范围内观测到的目标数量为l,队友智能体数量为j;初始化N个智能体动作生成器与动作评价器的参数。
3.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法,其特征在于,所述步骤2的过程如下:
(2-1)获取智能体局部观测信息:从步骤1的初始化场景状态中,提取智能体i的局部观测,包含智能体自身位置与速度信息、智能体i感知范围内观测到的l个目标实体的位置信息、感知范围内j个协作队友的位置与速度信息;
(2-2)局部目标特征提取与交互信息生成:将智能体i感知范围内观测到的l个目标实体的位置信息编码为目标特征向量,并将l个目标特征与智能体i自身特征作为节点组成目标关系图,提取图特征作为目标交互信息Et,其中包含了目标与智能体之间的拓扑结构特征,能够体现智能体的目标选择偏好;
(2-3)局部协作特征提取与交互信息生成:将智能体i感知范围内j个协作队友的位置与速度信息编码为队友特征向量,并将j个队友特征与智能体i自身特征作为节点组成协作关系图,提取图特征作为协作交互信息Tt,其中包含了智能体之间的拓扑结构特征,能够体现智能体之间的局部协作状态;
5.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法,其特征在于,所述步骤4中收集交互轨迹样本,包含每个时刻的环境观测、动作选择、环境反馈的奖励。
6.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法,其特征在于,所述步骤5的过程如下:
(5-1)使用损失函数Lc对动作评价器进行更新,具体为:
(5-2)使用损失函数La对动作生成器进行更新,具体为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210812033.0A CN115294474A (zh) | 2022-07-11 | 2022-07-11 | 一种融合局部目标特征与协作特征的多智能体信息交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210812033.0A CN115294474A (zh) | 2022-07-11 | 2022-07-11 | 一种融合局部目标特征与协作特征的多智能体信息交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115294474A true CN115294474A (zh) | 2022-11-04 |
Family
ID=83821713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210812033.0A Pending CN115294474A (zh) | 2022-07-11 | 2022-07-11 | 一种融合局部目标特征与协作特征的多智能体信息交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115294474A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115793717A (zh) * | 2023-02-13 | 2023-03-14 | 中国科学院自动化研究所 | 群体协同决策方法、装置、电子设备及存储介质 |
-
2022
- 2022-07-11 CN CN202210812033.0A patent/CN115294474A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115793717A (zh) * | 2023-02-13 | 2023-03-14 | 中国科学院自动化研究所 | 群体协同决策方法、装置、电子设备及存储介质 |
CN115793717B (zh) * | 2023-02-13 | 2023-05-05 | 中国科学院自动化研究所 | 群体协同决策方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dai et al. | Task allocation without communication based on incomplete information game theory for multi-robot systems | |
CN110544296A (zh) | 一种敌方威胁不确定环境下无人机三维全局航迹智能规划方法 | |
CN114741886B (zh) | 一种基于贡献度评价的无人机集群多任务训练方法及系统 | |
CN114415735B (zh) | 面向动态环境的多无人机分布式智能任务分配方法 | |
CN115294474A (zh) | 一种融合局部目标特征与协作特征的多智能体信息交互方法 | |
CN114679729B (zh) | 一种雷达通信一体化的无人机协同多目标探测方法 | |
Xia et al. | Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning | |
Xie et al. | Et-hf: A novel information sharing model to improve multi-agent cooperation | |
CN116757249A (zh) | 一种基于分布式强化学习的无人机集群策略意图识别方法 | |
Zheng et al. | Research on multi-agent collaborative hunting algorithm based on game theory and Q-learning for a single escaper | |
Han et al. | Multi-uav automatic dynamic obstacle avoidance with experience-shared a2c | |
CN116449863A (zh) | 一种基于信息素的强化学习的无人机集群多目标搜索方法 | |
Akselrod et al. | Information flow control for collaborative distributed data fusion and multisensor multitarget tracking | |
Yang et al. | Learning graph-enhanced commander-executor for multi-agent navigation | |
Zhou et al. | A task assignment strategy for multi-AUV collaborative hunting problem | |
Zhu et al. | A novel method combining leader-following control and reinforcement learning for pursuit evasion games of multi-agent systems | |
Zhang et al. | Deep reinforcement learning for UAV swarm rendezvous behavior | |
Munnangi et al. | Improving Wildlife Monitoring using a Multi-criteria Cooperative Target Observation Approach. | |
CN114757092A (zh) | 基于队友感知的多智能体协作通信策略的训练系统和方法 | |
CN115220477A (zh) | 一种基于量子遗传算法的异构无人机联盟形成方法 | |
Lu et al. | Mission-oriented ant-team ACO for min-max MTSP | |
Ji et al. | Research on Path Planning of Mobile Robot Based on Reinforcement Learning | |
Zhang et al. | Learning Cooperative Policies with Graph Networks in Distributed Swarm Systems | |
Bromo | Reinforcement Learning Based Strategic Exploration Algorithm for UAVs Fleets | |
Li et al. | Multi-Agent Path Finding Based on Graph Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |