CN115294474A - 一种融合局部目标特征与协作特征的多智能体信息交互方法 - Google Patents

一种融合局部目标特征与协作特征的多智能体信息交互方法 Download PDF

Info

Publication number
CN115294474A
CN115294474A CN202210812033.0A CN202210812033A CN115294474A CN 115294474 A CN115294474 A CN 115294474A CN 202210812033 A CN202210812033 A CN 202210812033A CN 115294474 A CN115294474 A CN 115294474A
Authority
CN
China
Prior art keywords
information
agent
target
interaction
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210812033.0A
Other languages
English (en)
Inventor
骆祥峰
张瀚
谢少荣
陈雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202210812033.0A priority Critical patent/CN115294474A/zh
Publication of CN115294474A publication Critical patent/CN115294474A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种融合局部目标特征与协作特征的多智能体信息交互方法。该方法包括:(1)初始化“多目标协作导航”任务场景,其中每个智能体包括一个动作生成器和一个动作评价器;(2)构建智能体信息交互通道,该通道根据各智能体t时刻的局部观测,提取局部目标特征与协作特征,分别编码为t时刻的两类交互信息,发送给各交互对象;(3)对于每个智能体,将自身局部观测与接收到的各个交互信息,根据分层重要性权重进行融合,得到全局观测输入到动作生成器中,输出智能体的动作;(4)循环步骤2‑3,收集交互轨迹样本;(5)使用损失函数La和Lc训练每个智能体的动作生成器和动作评价器,以达到最大化团队奖励,完成协作任务的目标。

Description

一种融合局部目标特征与协作特征的多智能体信息交互方法
技术领域
本发明涉及多智能体强化学习领域,具体涉及一种融合局部目标特征与协作特征的多智能体信息交互方法。
背景技术
多智能体强化学习是深度强化学习领域中与多智能体系统相结合的子课题之一,是在单智能体强化学习算法的基础上,向多智能体环境的拓展与延伸,主要用于生成协作任务中的行为策略,多智能体强化学习的目标是最大化群体累积奖励。其中在多智能体协作环境下,每个智能体由于感知范围的限制或传感器噪声问题,只能获得部分观测,对环境状态与队友状态的理解不完备,难以在更新自身行为策略时考虑到其他智能体对自身及整体团队的影响,因此难以生成具备团队协作能力的行为策略。
为了解决以上问题,出现了多智能体信息交互方法。这一类多智能体强化学习方法显式地假设智能体之间存在信息共享,在协作策略训练过程中,提取自身局部观测的特征进行传递,并接收队友传递而来的局部特征进行融合,补充自身对不完全可观测环境以及队友状态的掌握,从而提升智能体之间的协作能力,生成最大化团队奖励的协作行为策略。
现有的基于信息交互的协作策略生成方法能够在智能体之间建立离散或连续的通信通道。对于共享信息的生成过程,可以使用价值Q网络或搭建消息网络等方法进行生成,网络的参数通过团队奖励进行反向更新,生成的共享信息在智能体之间进行广播传递;对于消息融合过程,可以使用求和、平均等数学运算对消息进行融合,并进一步引入了注意力机制对每个消息的重要性权重进行自主学习。然而,现有的大多数信息交互方法遵循共享-观测模式,主要将智能体当前局部观测的特征嵌入进行共享,这种模式缺乏对协作环境中拓扑结构特征的利用。
综上,当前多智能体之间的信息交互方法,主要通过智能体的局部特征表征与智能体之间的局部特征共享,解决协作场景中智能体对环境状态与队友状态感知不完备的问题,进而提升协作策略的决策准确率与协作任务完成率。
发明内容
针对现有技术存在的缺陷,本发明提出了一种融合局部目标特征与协作特征的多智能体信息交互方法。在多智能体自主协作决策环境中,基于图神经网络与多层权重分配,将智能体有限感知范围内感知到的局部目标信息与协作信息共享给其他智能体,提升智能体对无法感知区域的任务执行情况的理解,使得智能体决策时考虑更全面的目标信息与队友状态,从而形成协作配合,进行合理的队内分工,避免多个智能体对同一目标产生内部竞争,提升团队任务的完成效率,可应用于无人系统(无人艇)集群等领域的多目标协同导航等任务场景。
为达到上述目的,本发明采用如下技术方案:
一种融合局部目标特征与协作特征的多智能体信息交互方法,包括以下步骤:
步骤1、初始化“多目标协作导航”任务场景,任务目标为多个智能体在不碰撞不冲突的同时协作到达所有目标点,其中每个智能体包括一个动作生成器和一个动作评价器;其过程如下:初始化“多目标协作导航”任务场景。任务目标为在不碰撞、不产生内部目标竞争的前提下,各智能体自主选择合适的目标,协作到达各自目标点。该场景是智能体交互的基础,为智能体提供观测信息,智能体的动作作用于此场景,改变场景的实时状态,场景根据动作执行的效果反馈奖励信息更新智能体的动作策略。初始化智能体数量为N,目标点数量为L。初始化N个智能体的局部感知范围、位置与速度以及L个目标点的位置。其中局部感知范围内观测到的目标数量为l,队友智能体数量为j。初始化N个智能体动作生成器与动作评价器的参数。
步骤2、构建智能体信息交互通道,该通道根据各智能体t时刻的局部观测,提取局部目标特征与协作特征,分别编码为t时刻的两类交互信息,发送给各交互对象;其过程如下:
(2-1)获取智能体局部观测信息:从步骤1的初始化场景状态中,提取智能体i的局部观测,包含智能体在x轴和z轴的自身位置与速度信息oi={vx,vz,px,pz};智能体i感知范围内观测到的l个目标实体的位置信息
Figure BDA0003739598890000021
感知范围内j个协作队友的位置与速度信息
Figure BDA0003739598890000022
(2-2)局部目标特征提取与交互信息生成:将智能体i感知范围内观测到的l个目标实体的位置信息输入到多层感知机中,编码为目标特征向量,并将l个目标特征与智能体i自身特征作为节点组成目标关系图,使用图神经网络提取图特征作为目标交互信息Et,其中包含了目标与智能体之间的拓扑结构特征,能够体现智能体的目标选择偏好。
(2-3)局部协作特征提取与交互信息生成:将智能体i感知范围内j个协作队友的位置与速度信息输入到多层感知机中,编码为队友特征向量,并将j个队友特征与智能体i自身特征作为节点组成协作关系图,使用图神经网络提取图特征作为协作交互信息Tt,其中包含了智能体之间的拓扑结构特征,能够体现智能体之间的局部协作状态。
(2-4)交互信息传递:将目标交互信息Et与协作交互信息Tt同时传递给交互对象,每个智能体在时刻t获得的交互信息为
Figure BDA0003739598890000023
步骤3、对于每个智能体,将自身局部观测与接收到的各个交互信息,根据分层重要性权重进行融合,得到全局观测,输入到动作生成器中,输出智能体的动作;其过程如下:
(3-1)第一层交互信息融合:根据重要性权重αN-1和βN-1对同类交互信息进行加权。目标交互信息融合为
Figure BDA0003739598890000031
协作交互信息融合为
Figure BDA0003739598890000032
Figure BDA0003739598890000033
(3-2)第二层交互信息融合:根据重要性权重ωE和ωT对不同类别交互信息进行加权,融合为全局观测
Figure BDA0003739598890000034
通过分层融合,智能体可以在多目标导航不同阶段灵活选择侧重目标选择或进行协作。
(3-3)动作选择:将融合交互信息得到的全局观测
Figure BDA0003739598890000035
输入到动作生成器中,动作生成器由多层感知机构成,将全局观测映射为要执行的动作进行输出。
步骤4、循环步骤2-3,收集交互轨迹样本;其过程如下:收集交互轨迹样本,包含每个时刻的环境观测、动作选择、环境反馈的奖励。
步骤5、使用损失函数La和Lc训练每个智能体的动作生成器和动作评价器,以达到最大化团队奖励,完成协作任务的目标,其过程如下:
(5-1)使用损失函数Lc对动作评价器进行更新,具体为:
Figure BDA0003739598890000036
其中,φ为动作评价器的参数,
Figure BDA0003739598890000037
为信息交互通道的参数,
Figure BDA0003739598890000038
表示时刻t的期望值,rt为环境反馈的奖励,γ为超参数,
Figure BDA00037395988900000310
为t时刻以信息交互后得到的全局观测
Figure BDA00037395988900000311
作为输入得到的动作评价值。
(5-2)使用损失函数La对动作生成器进行更新,具体为:
Figure BDA00037395988900000312
其中,θ为动作评价器参数,
Figure BDA00037395988900000313
为信息交互通道的参数,c为超参数;S表示信息熵奖励;πθ表示动作生成器的策略输出;
Figure BDA00037395988900000314
表示智能体在时刻t的全局观测。
Figure BDA00037395988900000315
其中,
Figure BDA00037395988900000316
表示一次迭代更新中旧动作生成器与新动作生成器的比值,πθ(at|gcut)表示新动作生成器πθ在t时刻观测为gcu、输出动作为a的概率,
Figure BDA00037395988900000317
表示旧动作生成器
Figure BDA00037395988900000318
在t时刻观测为gcu、输出动作为a的概率,At表示优势函数,由奖励值与动作评价器输出的动作价值计算得到,∈表示预设的用于控制策略更新幅度的常数。
与现有技术相比,本发明具有如下的优点:
本发明方法增加了提取协作环境中的局部目标特征与协作特征这两类拓扑结构信息,形成了特征蕴含更丰富、更有利于协作的交互信息。通过引入图神经网络,提取智能体局部感知范围内,各个目标节点以及队友智能体节点之间的空间结构关系,然后结合拓扑结构信息与智能体的局部观测信息共同生成要共享的交互信息。共享这种包含拓扑结构特征的交互信息,可以使得“多目标协作导航”任务中,智能体决策时不仅考虑更全局的目标信息,还考虑队友的状态信息,形成协作配合进行合理的队内分工,避免多个智能体对同一目标产生内部竞争,从而提升团队任务的完成效率。
附图说明
图1为融合局部目标特征与协作特征的多智能体信息交互方法流程图。
图2为融合局部目标特征与协作特征的多智能体信息交互方法具体实现流程图。
图3为仿真实验中的“多目标协作导航”任务场景图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明提出了一种融合局部目标特征与协作特征的多智能体信息交互方法。在现有的多智能体信息交互方法共享-观测的基础上,增加了共享拓扑结构信息。为了提取协作环境中的拓扑结构信息,形成更有利于协作的交互信息,引入了图神经网络,提取智能体局部感知范围内,智能体与各个目标节点以及与队友智能体节点之间的空间结构关系,然后结合拓扑结构信息与智能体的局部观测信息共同生成要共享的交互信息。共享这种增加了拓扑结构特征的交互信息,可以使得智能体决策时考虑更全面的目标信息与队友状态,形成协作配合进行合理的队内分工,避免多个智能体对同一目标产生内部竞争,从而提升团队任务的完成效率。
本发明的基本特征主要有以下几个方面:一是生成了目标交互信息Et,其中包含了目标与智能体之间的拓扑结构特征,共享这类交互信息能够体现智能体的目标选择偏好;二是生成了协作交互信息Tt,其中包含了智能体之间的拓扑结构特征,共享这类交互信息能够体现智能体之间的局部协作状态;三是在融合两类交互信息时,使用分层的重要性权重分配,先对同类交互信息进行加权,再对不同类交互信息进行融合。通过分层融合,智能体可以在多目标导航不同阶段灵活选择侧重目标选择或进行协作,形成更加有效的协作。
如图1所示,一种融合局部目标特征与协作特征的多智能体信息交互方法,具体实施步骤如下:
步骤1:初始化“多目标协作导航”任务场景,任务目标为多个智能体在不碰撞不冲突的同时协作到达所有目标点,其中每个智能体包括一个动作生成器和一个动作评价器,具体过程为:初始化“多目标协作导航”任务场景。任务目标为在不碰撞、不产生内部目标竞争的前提下,各智能体自主选择合适的目标,协作到达各自目标点。该场景是智能体交互的基础,为智能体提供观测信息,智能体的动作作用于此场景,改变场景的实时状态,场景根据动作执行的效果反馈奖励信息更新智能体的动作策略。初始化智能体数量为N,目标点数量为L。初始化N个智能体的局部感知范围、位置与速度以及L个目标点的位置。其中局部感知范围内观测到的目标数量为l,队友智能体数量为j。初始化N个智能体动作生成器与动作评价器的参数。
步骤2:构建智能体信息交互通道,该通道根据各智能体t时刻的局部观测,提取局部目标特征与协作特征,分别编码为t时刻的两类交互信息,发送给各交互对象,具体过程为:
(2-1)获取智能体局部观测信息:从步骤1的初始化场景状态中,提取智能体i的局部观测,包含智能体在x轴和z轴的自身位置与速度信息oi={vx,vz,px,pz};智能体i感知范围内观测到的l个目标实体的位置信息
Figure BDA0003739598890000051
感知范围内j个协作队友的位置与速度信息
Figure BDA0003739598890000052
(2-2)局部目标特征提取与交互信息生成:将智能体i感知范围内观测到的l个目标实体的位置信息输入到多层感知机中,编码为目标特征向量,并将l个目标特征与智能体i自身特征作为节点组成目标关系图,使用图神经网络提取图特征作为目标交互信息Et,其中包含了目标与智能体之间的拓扑结构特征,能够体现智能体的目标选择偏好。
(2-3)局部协作特征提取与交互信息生成:将智能体i感知范围内j个协作队友的位置与速度信息输入到多层感知机中,编码为队友特征向量,并将j个队友特征与智能体i自身特征作为节点组成协作关系图,使用图神经网络提取图特征作为协作交互信息Tt,其中包含了智能体之间的拓扑结构特征,能够体现智能体之间的局部协作状态。
(2-4)交互信息传递:将目标交互信息Et与协作交互信息Tt同时传递给交互对象,每个智能体在时刻t获得的交互信息为
Figure BDA0003739598890000053
步骤3:对于每个智能体,将自身局部观测与接收到的各个交互信息,根据分层重要性权重进行融合,得到全局观测,输入到动作生成器中,输出智能体的动作,具体过程为:
(3-1)第一层交互信息融合:根据重要性权重αN-1和βN-1对同类交互信息进行加权。目标交互信息融合为
Figure BDA0003739598890000054
协作交互信息融合为
Figure BDA0003739598890000055
Figure BDA0003739598890000056
(3-2)第二层交互信息融合:根据重要性权重ωE和ωT对不同类别交互信息进行加权,融合为全局观测
Figure BDA0003739598890000057
通过分层融合,智能体可以在多目标导航不同阶段灵活选择侧重目标选择或进行协作。
(3-3)动作选择:将融合交互信息得到的全局观测
Figure BDA00037395988900000613
输入到动作生成器中,动作生成器由多层感知机构成,将全局观测映射为要执行的动作进行输出。
步骤4:循环步骤2-3,收集交互轨迹样本,具体过程为:收集交互轨迹样本,包含每个时刻的环境观测、动作选择、环境反馈的奖励。
步骤5:使用损失函数La和Lc训练每个智能体的动作生成器和动作评价器,以达到最大化团队奖励,完成协作任务的目标,具体过程为:
(5-1)使用损失函数Lc对动作评价器进行更新,具体为:
Figure BDA0003739598890000061
其中,φ为动作评价器的参数,
Figure BDA0003739598890000062
为信息交互通道的参数,
Figure BDA0003739598890000063
表示时刻t的期望值,rt为环境反馈的奖励,γ为超参数,
Figure BDA0003739598890000064
为t时刻以信息交互后得到的全局观测
Figure BDA0003739598890000065
作为输入得到的动作评价值。
(5-2)使用损失函数La对动作生成器进行更新,具体为:
Figure BDA0003739598890000066
其中,θ为动作评价器参数,
Figure BDA0003739598890000067
为信息交互通道的参数,c为超参数;S表示信息熵奖励;πθ表示动作生成器的策略输出;
Figure BDA0003739598890000068
表示智能体在时刻t的全局观测。
Figure BDA0003739598890000069
其中,
Figure BDA00037395988900000610
表示一次迭代更新中旧动作生成器与新动作生成器的比值,πθ(at|gcut)表示新动作生成器πθ在t时刻观测为gcu、输出动作为a的概率,
Figure BDA00037395988900000611
表示旧动作生成器
Figure BDA00037395988900000612
在t时刻观测为gcu、输出动作为a的概率,At表示优势函数,由奖励值与动作评价器输出的动作价值计算得到,∈表示预设的用于控制策略更新幅度的常数。
实验说明及结果:仿真实验环境为“多目标协作导航”这一协作任务场景,出处:https://github.com/sumitsk/matrl.git。任务目标为:多个智能体在不碰撞的前提下,协作导航至各个目标点,到达的目标点越多,对目标点覆盖的越准确,任务完成度越高;仿真环境设置为:二维场景大小20单元*20单元、智能体大小1单元、目标点大小1单元、智能体数量3或6、目标点数量3或6;智能体局部感知范围:半径为5的单位圆;智能体动作设置:动作类型离散、动作种类5种(前后左右停);智能体状态设置:智能体速度+智能体位置坐标+感知范围内目标点位置坐标+感知范围内队友智能体速度+位置坐标;奖励设置:所有目标点与其最近智能体之间负距离的总和。表1显示了本发明方法与已有基准方法的对比结果。
表1实验结果(测试10000次得到的平均结果)
Figure BDA0003739598890000071
表1显示本发明方法与各基准方法在“多目标协作导航”任务中的对比结果。我们在智能体数量为3和6的两组设置中训练本发明方法和基准方法,训练过程中智能体与目标点的初始位置是随机的,训练轮数为7000轮,每轮与环境交互的最大步数为50步。
其中,对比指标设置为3种,S%表示任务成功率;DIST表示目标覆盖程度,即目标点与最近的智能体的平均距离(越小越好);AEL表示平均完成步数,即完成一轮任务所需的步数(越小越好)。用于对比的已有基准方法包括Q-MIX、COMA、MADDPG、SAEG。
其中,Q-MIX、COMA方法没有信息交互机制,即使设置为完全可观测,也无法完成“多目标协作导航”任务,与这两种方法的对比,证明了特征共享在不完全可观测协作任务完成中的重要性。MADDPG方法使用集中训练分散决策的训练框架,具有隐式的信息交互过程,在3个智能体数量的设置中具有良好的表现,但是没有拓扑结构信息的添加,与这个方法对比,证明了添加拓扑结构信息的作用。SAEG方法具有显性的信息交互过程,也使用了图神经网络表征局部特征,但是没有考虑到局部目标特征+协作特征的双交互信息共享与融合机制,与这个方法对比,证明了融合局部目标特征与协作特征的作用。
可以看出,本发明方法在成功率、目标覆盖程度、平均完成步数三种指标中都比已有方法有所提升。在智能体数量为3的任务设置中,本发明方法的任务完成率最高,完成任务所需的步数也最少;在智能体数量为6的任务设置中,智能体数量增加,任务难度升高,只有SAEG和本发明方法能够完成多目标协作导航的任务,本发明方法的任务完成率同样最高,并且对目标点的覆盖程度更好,体现了智能体之间更有效的信息交互与更好的协作效果。

Claims (6)

1.一种融合局部目标特征与协作特征的多智能体信息交互方法,其特征在于,包括以下步骤:
步骤1、初始化“多目标协作导航”任务场景,任务目标为多个智能体在不碰撞不冲突的同时协作到达所有目标点,其中每个智能体包括一个动作生成器和一个动作评价器;
步骤2、构建智能体信息交互通道,该通道根据各智能体t时刻的局部观测,提取局部目标特征与协作特征,分别编码为t时刻的两类交互信息,发送给各交互对象;
步骤3、对于每个智能体,将自身局部观测与接收到的各个交互信息,根据分层重要性权重进行融合,得到全局观测,输入到动作生成器中,输出智能体的动作;
步骤4、循环步骤2-3,收集交互轨迹样本;
步骤5、使用损失函数La和Lc训练每个智能体的动作生成器和动作评价器,以达到最大化团队奖励,完成协作任务的目标。
2.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法,其特征在于,所述步骤1的过程如下:初始化“多目标协作导航”任务场景,任务目标为在不碰撞、不产生内部目标竞争的前提下,各智能体自主选择合适的目标,协作到达各自目标点;初始化智能体数量为N,目标点数量为L;初始化N个智能体的局部感知范围、位置与速度以及L个目标点的位置,其中局部感知范围内观测到的目标数量为l,队友智能体数量为j;初始化N个智能体动作生成器与动作评价器的参数。
3.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法,其特征在于,所述步骤2的过程如下:
(2-1)获取智能体局部观测信息:从步骤1的初始化场景状态中,提取智能体i的局部观测,包含智能体自身位置与速度信息、智能体i感知范围内观测到的l个目标实体的位置信息、感知范围内j个协作队友的位置与速度信息;
(2-2)局部目标特征提取与交互信息生成:将智能体i感知范围内观测到的l个目标实体的位置信息编码为目标特征向量,并将l个目标特征与智能体i自身特征作为节点组成目标关系图,提取图特征作为目标交互信息Et,其中包含了目标与智能体之间的拓扑结构特征,能够体现智能体的目标选择偏好;
(2-3)局部协作特征提取与交互信息生成:将智能体i感知范围内j个协作队友的位置与速度信息编码为队友特征向量,并将j个队友特征与智能体i自身特征作为节点组成协作关系图,提取图特征作为协作交互信息Tt,其中包含了智能体之间的拓扑结构特征,能够体现智能体之间的局部协作状态;
(2-4)交互信息传递:将两类交互信息传递给交互对象,每个智能体获得
Figure FDA0003739598880000021
4.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法,其特征在于,所述步骤3的过程如下:
(3-1)第一层交互信息融合:根据重要性权重αN-1和βN-1对同类交互信息进行加权,目标交互信息融合为
Figure FDA0003739598880000022
协作交互信息融合为
Figure FDA0003739598880000023
Figure FDA0003739598880000024
(3-2)第二层交互信息融合:根据重要性权重ωE和ωT对不同类别交互信息进行加权,融合为全局观测
Figure FDA0003739598880000025
通过分层融合,智能体在多目标导航不同阶段灵活选择侧重目标选择或进行协作;
(3-3)动作选择:将融合交互信息得到的全局观测
Figure FDA0003739598880000026
输入到动作生成器中,动作生成器由多层感知机构成,将全局观测映射为要执行的动作进行输出。
5.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法,其特征在于,所述步骤4中收集交互轨迹样本,包含每个时刻的环境观测、动作选择、环境反馈的奖励。
6.根据权利要求1所述的融合局部目标特征与协作特征的多智能体信息交互方法,其特征在于,所述步骤5的过程如下:
(5-1)使用损失函数Lc对动作评价器进行更新,具体为:
Figure FDA0003739598880000027
其中,φ为动作评价器的参数,
Figure FDA0003739598880000028
为信息交互通道的参数,Et表示时刻t的期望值,rt为环境反馈的奖励,γ为超参数,
Figure FDA0003739598880000029
为t时刻以信息交互后得到的全局观测
Figure FDA00037395988800000216
作为输入得到的动作评价值;
(5-2)使用损失函数La对动作生成器进行更新,具体为:
Figure FDA00037395988800000210
其中,θ为动作评价器参数,
Figure FDA00037395988800000211
为信息交互通道的参数,c为超参数;S表示信息熵奖励;πθ表示动作生成器的策略输出;
Figure FDA00037395988800000212
表示智能体在时刻t的全局观测;
Figure FDA00037395988800000213
其中,
Figure FDA00037395988800000214
表示一次迭代更新中旧动作生成器与新动作生成器的比值,πθ(at|gcut)表示新动作生成器πθ在t时刻观测为gcu、输出动作为a的概率,
Figure FDA00037395988800000215
表示旧动作生成器
Figure FDA0003739598880000031
在t时刻观测为gcu、输出动作为a的概率,At表示优势函数,由奖励值与动作评价器输出的动作价值计算得到,∈表示预设的用于控制策略更新幅度的常数。
CN202210812033.0A 2022-07-11 2022-07-11 一种融合局部目标特征与协作特征的多智能体信息交互方法 Pending CN115294474A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210812033.0A CN115294474A (zh) 2022-07-11 2022-07-11 一种融合局部目标特征与协作特征的多智能体信息交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210812033.0A CN115294474A (zh) 2022-07-11 2022-07-11 一种融合局部目标特征与协作特征的多智能体信息交互方法

Publications (1)

Publication Number Publication Date
CN115294474A true CN115294474A (zh) 2022-11-04

Family

ID=83821713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210812033.0A Pending CN115294474A (zh) 2022-07-11 2022-07-11 一种融合局部目标特征与协作特征的多智能体信息交互方法

Country Status (1)

Country Link
CN (1) CN115294474A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115793717A (zh) * 2023-02-13 2023-03-14 中国科学院自动化研究所 群体协同决策方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115793717A (zh) * 2023-02-13 2023-03-14 中国科学院自动化研究所 群体协同决策方法、装置、电子设备及存储介质
CN115793717B (zh) * 2023-02-13 2023-05-05 中国科学院自动化研究所 群体协同决策方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Dai et al. Task allocation without communication based on incomplete information game theory for multi-robot systems
CN110544296A (zh) 一种敌方威胁不确定环境下无人机三维全局航迹智能规划方法
CN114741886B (zh) 一种基于贡献度评价的无人机集群多任务训练方法及系统
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
CN115294474A (zh) 一种融合局部目标特征与协作特征的多智能体信息交互方法
CN114679729B (zh) 一种雷达通信一体化的无人机协同多目标探测方法
Xia et al. Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning
Xie et al. Et-hf: A novel information sharing model to improve multi-agent cooperation
CN116757249A (zh) 一种基于分布式强化学习的无人机集群策略意图识别方法
Zheng et al. Research on multi-agent collaborative hunting algorithm based on game theory and Q-learning for a single escaper
Han et al. Multi-uav automatic dynamic obstacle avoidance with experience-shared a2c
CN116449863A (zh) 一种基于信息素的强化学习的无人机集群多目标搜索方法
Akselrod et al. Information flow control for collaborative distributed data fusion and multisensor multitarget tracking
Yang et al. Learning graph-enhanced commander-executor for multi-agent navigation
Zhou et al. A task assignment strategy for multi-AUV collaborative hunting problem
Zhu et al. A novel method combining leader-following control and reinforcement learning for pursuit evasion games of multi-agent systems
Zhang et al. Deep reinforcement learning for UAV swarm rendezvous behavior
Munnangi et al. Improving Wildlife Monitoring using a Multi-criteria Cooperative Target Observation Approach.
CN114757092A (zh) 基于队友感知的多智能体协作通信策略的训练系统和方法
CN115220477A (zh) 一种基于量子遗传算法的异构无人机联盟形成方法
Lu et al. Mission-oriented ant-team ACO for min-max MTSP
Ji et al. Research on Path Planning of Mobile Robot Based on Reinforcement Learning
Zhang et al. Learning Cooperative Policies with Graph Networks in Distributed Swarm Systems
Bromo Reinforcement Learning Based Strategic Exploration Algorithm for UAVs Fleets
Li et al. Multi-Agent Path Finding Based on Graph Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination