CN111814915B - 多智能体时空特征提取方法及系统、行为决策方法及系统 - Google Patents
多智能体时空特征提取方法及系统、行为决策方法及系统 Download PDFInfo
- Publication number
- CN111814915B CN111814915B CN202010872541.9A CN202010872541A CN111814915B CN 111814915 B CN111814915 B CN 111814915B CN 202010872541 A CN202010872541 A CN 202010872541A CN 111814915 B CN111814915 B CN 111814915B
- Authority
- CN
- China
- Prior art keywords
- agent
- spatial
- moment
- agent system
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 261
- 239000013598 vector Substances 0.000 claims abstract description 49
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 230000006399 behavior Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000003542 behavioural effect Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 8
- 230000007787 long-term memory Effects 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 8
- 230000006403 short-term memory Effects 0.000 claims description 8
- 230000007613 environmental effect Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 description 8
- 244000062645 predators Species 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 239000012754 barrier agent Substances 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种多智能体时空特征提取方法及系统、行为决策方法及系统,所述时空特征提取方法包括:获取在时刻t下,基于t‑n t 时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体系统在各时刻的状态集合,多智能体系统由N个智能体组成,n t 为预设的历史状态数;基于图网络生成层,根据各状态集合,得到原始特征集;基于空间特征提取层,根据原始特征集,得到在当前时刻t下的空间关系特征集;基于时空关系提取层,根据当前时刻t前n个离散时刻多智能体系统的空间关系特征集,得到多智能体系统在当前时刻t下的时空关系特征集;从而实现智能体在动态复杂任务中的自主时空特征关系提取和智能行为决策。
Description
技术领域
本发明涉及多智能体系统及群体智能应用技术领域,特别涉及一种基于图注意力和长短期记忆网络的多智能体时空特征提取方法及系统、行为决策方法及系统。
背景技术
多智能体系统具有分布性、简单性、灵活性和健壮性等优势,为很多极具挑战的复杂性问题提供了崭新的解决方案。随着微纳电子、计算平台、自主控制等新兴技术的迅猛发展,由无人机、无人车等无人自主平台组成的多智能体系统在关乎国计民生以及国家和国防安全的重大场景中获得了越来越多的应用。
无人自主多智能体系统能以网络化、分布化、协同化方式快速形成区域覆盖,实现集群资源优化调度,提高任务完成率和响应速度,一方面可作为一种常态化部署系统,服务于山区巡逻、灾害预警、环境监测、区域物流等领域;另一方面也可作为一种突发事件的快速响应系统,在诸如疫情防控、突发灾害、大型活动人防等场景下提供快速物资调度、灾害监测评估、通信保障支援等能力。
然而,现有对于无人自主多智能体系统实时决策与控制技术的研究尚处于起步阶段,大多数多智能体系统采用预规划的方式提前拟定了各智能体的行为决策规则,使得智能体在面向实际应用场景时不能随着任务、环境变化实现自适应的自主行为决策,极大限制了多智能体系统智能协同效果的发挥。
实际场景中,单个智能体往往仅具有有限的环境感知能力、通信能力和行为能力,智能体之间的通信拓扑连接关系也将在动态任务中时刻发生改变,此外由于任务分工不同,每个智能体对于其他智能体及周围环境的注意力并不相同,因此,采取有效手段时刻提取出智能体与智能体之间、智能体与任务环境要素之间的时空特征关系,是保障多智能体系统实现对任务、环境的抽象理解,进而实现自主决策与智能控制的关键。
发明内容
为了解决现有技术中的上述问题,即为了提升多智能体系统在大规模复杂任务中的自主决策与智能控制能力,本发明的目的在于提供一种多智能体时空特征提取方法及系统、行为决策方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种多智能体系统的时空特征提取方法,所述时空特征提取方法包括:
步骤100:获取在时刻t下,基于(t-n t )时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体系统在各时刻的状态集合,多智能体系统由N个智能体组成,n t 为预设的历史状态数;
步骤200:基于图网络生成层,根据各时刻的状态集合,得到多智能体系统的原始特征集;
步骤300:基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集;
步骤400:基于时空关系提取层,根据当前时刻t前n个离散时刻多智能体系统的空间关系特征集,得到多智能体系统在当前时刻t下的时空关系特征集。
可选地,所述基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集,具体包括:
步骤330,基于步骤320方法获得的空间特征集,通过堆叠的图注意力网络模块和
全连接网络模块,采用步骤310、步骤320的方法迭代计算第f次的空间特征集、;
其中,,为图注意力网络模块和全连接网络模块的堆叠层数;
步骤340,在迭代计算第次的空间特征集时,基于,采用步骤310的方法,
通过第图注意力网络模块得到空间特征集;将拼接特征集输入第全连接网络模块,得到空间特征集,作为时
刻t下多智能体系统基于所述空间特征提取层的最终输出。
步骤311:采用多头注意力机制,针对多头注意力机制的多智能体系统中的第m头
注意力机制下的任一智能体i,智能体i能直接通信的邻居智能体组成的集合为N i ,在邻居
智能体中选取一个智能体j,采用可学习的矩阵W对智能体i、j对应的关系特征向量、进行线性变换,并拼接为一个新的关系特征向量;其中,W为
关系特征向量、的线性变换矩阵;
可选地,所述得到多智能体系统在当前时刻t下的时空关系特征集,具体包括:
将得到的当前时刻t及其前n个离散时刻内多智能体系统的空间关系特征集,顺次输入到包含n+1个串序连接的、带窥视孔的长短期记忆网络单元的
时空关系提取层,靠近输出端的长短期记忆网络单元记作,向前依次类推;第q个长短期
记忆网络单元的单元状态记作,输出为时空关系特征集,输入为()时刻的空间关系特征集以及第(q+1)个单元输出的时空关系特征
集及其单元状态;q=1,2,…,n+1;
其中,*表示图卷积运算,表示过度变量,表示输出门的图卷积神
经网络对应的权重系数矩阵,表示输出门的图卷积神经网络对应的偏置,为
sigmoid激活函数, 为tanh激活函数,为哈达玛积;其中第1个单元输出的为
多智能体系统在当前时刻t下的时空关系特征集。
可选地,所述可观测到的时空状态向量包括智能体自身状态、任务目标状态、可观测到的其他智能体状态和可观测到的环境要素状态;
其中,智能体自身状态包括智能体自身位置、速度、加速度状态,任务目标状态包括目标位置、速度状态;
可观测到的其他智能体状态包括可观测到的其他智能体的位置、速度状态,
可观测到的环境要素状态包括可观测到的环境中障碍物的位置、速度状态,环境中禁止通行区的位置状态。
可选地,所述图网络生成层由多层全连接神经网络连接组成。
为解决上述技术问题,本发明还提供了如下方案:
一种多智能体系统的行为决策方法,所述行为决策方法包括:
为解决上述技术问题,本发明还提供了如下方案:
一种多智能体系统的时空特征提取系统,所述时空特征提取系统包括:
状态向量获取单元,用于获取在时刻t下,基于(t-n t )时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体系统在各时刻的状态集合,多智能体系统由N个智能体组成,n t 为预设的历史状态数;
原始特征生成单元,用于基于图网络生成层,根据各时刻的状态集合,得到多智能体系统的原始特征集;
空间关系计算单元,用于基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集;
时空关系计算单元,用于基于时空关系提取层,根据当前时刻t前n个离散时刻多智能体系统的空间关系特征集,得到多智能体系统在当前时刻t下的时空关系特征集。
为解决上述技术问题,本发明还提供了如下方案:
一种多智能体系统的行为决策系统,所述行为决策系统包括
为解决上述技术问题,本发明还提供了如下方案:
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取在时刻t下,基于(t-n t )时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体系统在各时刻的状态集合,多智能体系统由N个智能体组成,n t 为预设的历史状态数;
基于图网络生成层,根据各时刻的状态集合,得到多智能体系统的原始特征集;
基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集;
基于时空关系提取层,根据当前时刻t前n个离散时刻多智能体系统的空间关系特征集,得到多智能体系统在当前时刻t下的时空关系特征集。
根据本发明的实施例,本发明公开了以下技术效果:
本发明获取多个时刻下的各智能体可观测到的时空状态向量,采用图网络生成层来表达智能体个体及与环境的空间关系,进一步采用空间特征提取层提取空间特征关系,基于时空关系提取层实现时空特征关系提取,可完成在复杂环境、时变拓扑、有限资源等约束下的时空特征关系的提取,从而可实现智能体在动态复杂任务中的自主时空特征关系提取。
附图说明
图1是本发明多智能体系统的行为决策方法的流程图;
图2是图网络生成层的结构示意图;
图3是空间特征提取层的结构示意图;
图4是时空关系提取层的结构示意图;
图5是时空特征提取层中单个长短期记忆网络单元结构示意图;
图6是本发明多智能体系统的行为决策系统的模块结构示意图。
符号说明:
状态向量获取单元—1,原始特征生成单元—2,空间关系计算单元—3,时空关系计算单元—4。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的是提供一种多智能体系统的时空特征提取方法,获取多个时刻下的各智能体可观测到的时空状态向量,采用图网络生成层来表达智能体个体及与环境的空间关系,进一步采用空间特征提取层提取空间特征关系,基于时空关系提取层实现时空特征关系提取,可完成在复杂环境、时变拓扑、有限资源等约束下的时空特征关系的提取,从而可实现智能体在动态复杂任务中的自主时空特征关系提取。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明多智能体系统的时空特征提取方法包括:
步骤100:获取在时刻t下,基于(t-n t )时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体系统在各时刻的状态集合,多智能体系统由N个智能体组成,n t 为预设的历史状态数;
步骤200:基于图网络生成层,根据各时刻的状态集合,得到多智能体系统的原始特征集;
步骤300:基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集;
步骤400:基于时空关系提取层,根据当前时刻t前n个离散时刻多智能体系统的空间关系特征集,得到多智能体系统在当前时刻t下的时空关系特征集。
更新时间,返回步骤100,开始下一时刻多智能体系统的时空特征提取。
其中,在步骤100中,可观测到的时空状态向量包括智能体自身状态、任务目标状态、可观测到的其他智能体状态和可观测到的环境要素状态;
其中,智能体自身状态包括但不限于智能体自身位置、速度、加速度状态;任务目标状态包括但不限于目标位置、速度状态;可观测到的其他智能体状态包括但不限于可观测到的其他智能体的位置、速度状态;可观测到的环境要素状态包括但不限于可观测到的环境中障碍物的位置、速度状态,环境中禁止通行区的位置状态,以及其他影响多智能体系统任务的环境状态信息。
在当前时刻t下,获取从(t-n t )时刻起每个智能体i(i=1,2…,N)可观测到的时空
状态向量;将每一时刻所有智能体获取的时空状态向量拼接为状态集
合,第(t-n t )时刻的状态集合为,第(t-n t +1)时刻的状
态集合为,以此类推,第t时刻的状态集合为,其中n t 为历史状态数,是一个可调整的非负整数。
在步骤200中,所述图网络生成层由多层全连接神经网络连接组成(如图2所示)。
如图3所示,所述空间特征提取层包括k对交替堆叠的图注意力网络模块及全连接网络模块,全连接网络模块由多层全连接神经网络层构成,用于对特征进行增强表示和维数压缩。
可选地,所述基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集,具体包括:
步骤330,基于步骤320方法获得的空间特征集,通过堆叠的图注意力网络模块和
全连接网络模块,采用步骤310、步骤320的方法迭代计算第f次的空间特征集、;
其中,,为图注意力网络模块和全连接网络模块的堆叠层数;
步骤340,在迭代计算第次的空间特征集时,基于,采用步骤310的方法,
通过第图注意力网络模块得到空间特征集;将拼接特征集输入第全连接网络模块,得到空间特征集,作为时
刻t下多智能体系统基于所述空间特征提取层的最终输出。
步骤311:采用多头注意力机制,针对多头注意力机制的多智能体系统中的第m头
注意力机制下的任一智能体i,智能体i能直接通信的邻居智能体组成的集合为N i ,在邻居
智能体中选取一个智能体j,采用可学习的矩阵W对智能体i、j对应的关系特征向量、进行线性变换,并拼接为一个新的关系特征向量;其中,W为
关系特征向量、的线性变换矩阵;
在步骤400中,得到的当前时刻t及其前n个离散时刻内多智能体系统的空间关系
特征集,顺次输入到包含n+1个串序连接的、带窥视孔的长短期记忆网络
单元的时空关系提取层,靠近输出端的长短期记忆网络单元记作,向前依次类推;第q(q=
1,2,…,n+1)个长短期记忆网络单元的单元状态记作,输出为时空关系特征集,输入为()时刻的空间关系特征集以及第(q+1)个单元输
出的时空关系特征集及其单元状态(如图4所示)。
如图5所示,在步骤400中,得到多智能体系统在当前时刻t下的时空关系特征集,具体包括:
其中,*表示图卷积运算,表示过度变量,表示输出门的图卷积神
经网络对应的权重系数矩阵,表示输出门的图卷积神经网络对应的偏置,为
sigmoid激活函数,为tanh激活函数,为哈达玛积;其中第1个单元输出的为多智能体
系统在当前时刻t下的时空关系特征集。
本发明另一实施例:一种多智能体系统的行为决策方法,包括:
采用基于模型知识驱动的方法或基于强化学习数据驱动的方法(优选采用Actor-
Critic架构进行智能体行为的训练学习),计算多智能体系统在当前时刻t下的行为决策集,其中,,(i=1,2,…,N)表示第i个智能体在当前时刻t下
的行为决策,A为所选决策空间维数,表示实数。
重复步骤100-步骤400,更新行为决策集。
本发明多智能体系统的行为决策方法通过图注意力机制和长短记忆网络对多智能体系统中蕴含的时空特征关系进行提取,可以为多智能体系统后续智能行为决策提供重要的依据,使得智能体能够在动态、复杂任务中实现自主行为决策,充分发挥多智能体系统分布化、协同化等特点,而采用图神经网络、长短期记忆网络等参数可学习的模型来构建特征提取层,可实现智能体内部隐藏特征、变化特征的提取,提升智能体的任务、环境适应性。
下面以一具体实施例详细说明本发明:
该实施例中包括5个捕食者智能体、2个猎物智能体、2个障碍物智能体,设置一定的通信距离,通信距离内的捕食者间能共享信息,同时设置一定的探测距离,探测距离内的障碍物及猎物信息为捕食者的可观测信息。捕食者智能体采用本发明所提供的方法进行时空特征提取,并在此基础上采用Actor-Critic架构进行行为决策,猎物智能体则采用传统人工势场法进行行为决策,障碍物智能体设定为静态障碍物,在一定时间内,捕食者智能体能学得协作行为,将2个猎物智能体包围住,并且能够学得一些高层策略,例如当2个猎物彼此位置较为分散时,捕食者智能体分成两组分别对其进行包围,展现了本发明所提供方法在应对复杂、动态多智能体行为决策时的自适应、分布式协同优势。
此外,本发明还提供一种多智能体系统的时空特征提取系统,可提升多智能体系统在大规模复杂任务中的自主决策与智能控制能力。
如图6所示本发明多智能体系统的时空特征提取系统包括:向量获取单元1、生成单元2、空间关系计算单元3及时空关系计算单元4。
具体地,所述状态向量获取单元1用于获取在时刻t下,基于(t-n t )时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体系统在各时刻的状态集合,多智能体系统由N个智能体组成,n t 为预设的历史状态数;
所述原始特征生成单元2用于基于图网络生成层,根据各时刻的状态集合,得到多智能体系统的原始特征集;
所述空间关系计算单元3用于基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集;
所述时空关系计算单元4用于基于时空关系提取层,根据当前时刻t前n个离散时刻多智能体系统的空间关系特征集,得到多智能体系统在当前时刻t下的时空关系特征集。
优选地,本发明还提供一种多智能体系统的行为决策系统。所述多智能体系统的行为决策系统包括:
多智能体系统的时空特征提取系统,用于获取多智能体系统在当前时刻t下的时空关系特征集;
进一步地,本发明还提供一种多智能体系统的时空特征提取系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取在时刻t下,基于(t-n t )时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体系统在各时刻的状态集合,多智能体系统由N个智能体组成,n t 为预设的历史状态数;
基于图网络生成层,根据各时刻的状态集合,得到多智能体系统的原始特征集;
基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集;
基于时空关系提取层,根据当前时刻t前n个离散时刻多智能体系统的空间关系特征集,得到多智能体系统在当前时刻t下的时空关系特征集。
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取在时刻t下,基于(t-n t )时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体系统在各时刻的状态集合,多智能体系统由N个智能体组成,n t 为预设的历史状态数;
基于图网络生成层,根据各时刻的状态集合,得到多智能体系统的原始特征集;
基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集;
基于时空关系提取层,根据当前时刻t前n个离散时刻多智能体系统的空间关系特征集,得到多智能体系统在当前时刻t下的时空关系特征集。
相对于现有技术,本发明多智能体系统的时空特征提取系统、行为决策方法、计算机可读存储介质与上述多智能体系统的时空特征提取方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (9)
1.一种多智能体系统的时空特征提取方法,其特征在于,所述时空特征提取方法包括:
步骤100:获取在时刻t下,基于t-n t 时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体系统在各时刻的状态集合,多智能体系统由N个智能体组成,n t 为预设的历史时刻数;
步骤200:基于图网络生成层,根据各时刻的状态集合,得到多智能体系统的原始特征集;所述图网络生成层由多层全连接神经网络构成;
步骤300:基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集;所述空间特征提取层采用图注意力网络模块与全连接网络模块交替堆叠的方式构建;
步骤400:基于时空关系提取层,根据当前时刻t及其前n个离散时刻多智能体系统的空间关系特征集,得到多智能体系统在当前时刻t下的时空关系特征集;所述时空关系提取层采用图卷积运算、带窥视孔的长短期记忆网络构建。
2.根据权利要求1所述的多智能体系统的时空特征提取方法,其特征在于,所述基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集,具体包括:
步骤330,基于步骤320方法获得的空间特征集,通过堆叠的图注意力网络模块和全连接网络模块,采用步骤310、步骤320的方法迭代计算第f次的空间特征集、;其中,,为图注意力网络模块和全连接网络模块的堆叠层数;
步骤311:采用多头注意力机制,针对多头注意力机制的多智能体系统中的第m头注意力机制下的任一智能体i,智能体i能直接通信的邻居智能体组成的集合为N i ,在邻居智能体中选取一个智能体j,采用可学习的矩阵W对智能体i、j对应的关系特征向量、进行线性变换,并拼接为一个新的关系特征向量;其中,W为关系特征向量、的线性变换矩阵;
4.根据权利要求1所述的多智能体系统的时空特征提取方法,其特征在于,所述得到多智能体系统在当前时刻t下的时空关系特征集,具体包括:
将得到的当前时刻t及其前n个离散时刻内多智能体系统的空间关系特征集,顺次输入到包含n+1个串序连接的、带窥视孔的长短期记忆网络单元的时空关系提取层,靠近输出端的长短期记忆网络单元记作,向前依次类推;第q个长短期记忆网络单元的单元状态记作,输出为时空关系特征集,输入为时刻的空间关系特征集以及第q+1个单元输出的时空关系特征集及其单元状态;q=1,2,…,n+1;
5.根据权利要求1所述的多智能体系统的时空特征提取方法,其特征在于,所述可观测到的时空状态向量包括智能体自身状态、任务目标状态、可观测到的其他智能体状态和可观测到的环境要素状态;
其中,智能体自身状态包括智能体自身位置、速度、加速度状态,任务目标状态包括目标位置、速度状态;
可观测到的其他智能体状态包括可观测到的其他智能体的位置、速度状态,
可观测到的环境要素状态包括可观测到的环境中障碍物的位置、速度状态,环境中禁止通行区的位置状态。
7.一种多智能体系统的时空特征提取系统,其特征在于,所述时空特征提取系统包括:
状态向量获取单元,用于获取在时刻t下,基于t-n t 时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体系统在各时刻的状态集合,多智能体系统由N个智能体组成,n t 为预设的历史时刻数;
原始特征生成单元,用于基于图网络生成层,根据各时刻的状态集合,得到多智能体系统的原始特征集;所述图网络生成层由多层全连接神经网络构成;
空间关系计算单元,用于基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集;所述空间特征提取层采用图注意力网络模块与全连接网络模块交替堆叠的方式构建;
时空关系计算单元,用于基于时空关系提取层,根据当前时刻t及其前n个离散时刻多智能体系统的空间关系特征集,得到多智能体系统在当前时刻t下的时空关系特征集;所述时空关系提取层采用图卷积运算、带窥视孔的长短期记忆网络构建。
9.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取在时刻t下,基于t-n t 时刻起每一时刻的各智能体可观测到的时空状态向量,得到多智能体系统在各时刻的状态集合,多智能体系统由N个智能体组成,n t 为预设的历史时刻数;
基于图网络生成层,根据各时刻的状态集合,得到多智能体系统的原始特征集;所述图网络生成层由多层全连接神经网络构成;
基于空间特征提取层,根据所述原始特征集,得到多智能体系统在当前时刻t下的空间关系特征集;所述空间特征提取层采用图注意力网络模块与全连接网络模块交替堆叠的方式构建;
基于时空关系提取层,根据当前时刻t及其前n个离散时刻多智能体系统的空间关系特征集,得到多智能体系统在当前时刻t下的时空关系特征集;所述时空关系提取层采用图卷积运算、带窥视孔的长短期记忆网络构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010872541.9A CN111814915B (zh) | 2020-08-26 | 2020-08-26 | 多智能体时空特征提取方法及系统、行为决策方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010872541.9A CN111814915B (zh) | 2020-08-26 | 2020-08-26 | 多智能体时空特征提取方法及系统、行为决策方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814915A CN111814915A (zh) | 2020-10-23 |
CN111814915B true CN111814915B (zh) | 2020-12-25 |
Family
ID=72859688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010872541.9A Active CN111814915B (zh) | 2020-08-26 | 2020-08-26 | 多智能体时空特征提取方法及系统、行为决策方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814915B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112203291B (zh) * | 2020-12-03 | 2021-02-23 | 中国科学院自动化研究所 | 基于知识嵌入的区域覆盖和连通保持的集群控制方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101286071A (zh) * | 2008-04-24 | 2008-10-15 | 北京航空航天大学 | 基于微粒群优化和遗传算法的多无人机三维编队重构方法 |
EP2249292A1 (en) * | 2009-04-03 | 2010-11-10 | Siemens Aktiengesellschaft | Decision making mechanism, method, module, and robot configured to decide on at least one prospective action of the robot |
CN102707693A (zh) * | 2012-06-05 | 2012-10-03 | 清华大学 | 一种时空联合的多架无人机协同控制系统的构建方法 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN109254588A (zh) * | 2018-10-17 | 2019-01-22 | 北京航空航天大学 | 一种基于交叉变异鸽群优化的无人机集群协同侦察方法 |
CN111091708A (zh) * | 2019-12-13 | 2020-05-01 | 中国科学院深圳先进技术研究院 | 车辆轨迹预测方法及装置 |
CN111221352A (zh) * | 2020-03-03 | 2020-06-02 | 中国科学院自动化研究所 | 基于多无人机协同博弈对抗的控制系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503073B (zh) * | 2019-08-29 | 2023-04-18 | 大连海事大学 | 一种第三视角下动态链接的密集多智能体轨迹预测方法 |
-
2020
- 2020-08-26 CN CN202010872541.9A patent/CN111814915B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101286071A (zh) * | 2008-04-24 | 2008-10-15 | 北京航空航天大学 | 基于微粒群优化和遗传算法的多无人机三维编队重构方法 |
EP2249292A1 (en) * | 2009-04-03 | 2010-11-10 | Siemens Aktiengesellschaft | Decision making mechanism, method, module, and robot configured to decide on at least one prospective action of the robot |
CN102707693A (zh) * | 2012-06-05 | 2012-10-03 | 清华大学 | 一种时空联合的多架无人机协同控制系统的构建方法 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN109254588A (zh) * | 2018-10-17 | 2019-01-22 | 北京航空航天大学 | 一种基于交叉变异鸽群优化的无人机集群协同侦察方法 |
CN111091708A (zh) * | 2019-12-13 | 2020-05-01 | 中国科学院深圳先进技术研究院 | 车辆轨迹预测方法及装置 |
CN111221352A (zh) * | 2020-03-03 | 2020-06-02 | 中国科学院自动化研究所 | 基于多无人机协同博弈对抗的控制系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111814915A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10846567B2 (en) | Scene understanding using a neurosynaptic system | |
CN111738372B (zh) | 分布式多智能体时空特征提取方法、行为决策方法 | |
Shaheen et al. | Continual learning for real-world autonomous systems: Algorithms, challenges and frameworks | |
US20190005380A1 (en) | Classifying features using a neurosynaptic system | |
US9798972B2 (en) | Feature extraction using a neurosynaptic system for object classification | |
CN110737968A (zh) | 基于深层次卷积长短记忆网络的人群轨迹预测方法及系统 | |
Wei et al. | Learning motion rules from real data: Neural network for crowd simulation | |
Saksena et al. | Towards behavioural cloning for autonomous driving | |
CN111814915B (zh) | 多智能体时空特征提取方法及系统、行为决策方法及系统 | |
CN112648999A (zh) | 一种基于多尺度网格细胞路径积分的类脑导航方法 | |
Hu et al. | Scalable perception-action-communication loops with convolutional and graph neural networks | |
CN115762147A (zh) | 一种基于自适应图注意神经网络的交通流量预测方法 | |
Sellat et al. | Semantic segmentation for self-driving cars using deep learning: a survey | |
Xu et al. | Automated labeling for robotic autonomous navigation through multi-sensory semi-supervised learning on big data | |
US20220269948A1 (en) | Training of a convolutional neural network | |
Noguchi et al. | Navigation behavior based on self-organized spatial representation in hierarchical recurrent neural network | |
CN114779821B (zh) | 基于深度学习的无人机自适应斥力系数路径规划方法 | |
Xue et al. | Monocular vision guided deep reinforcement learning UAV systems with representation learning perception | |
Liu et al. | Convolutional Neural Network Based Unmanned Ground Vehicle Control via Deep Reinforcement Learning | |
Shi et al. | Path Planning of Unmanned Aerial Vehicle Based on Supervised Learning | |
Ji et al. | Communication Emitter Motion Behavior’s Cognition Based on Deep Reinforcement Learning | |
Liu et al. | End-to-end control of autonomous vehicles based on deep learning with visual attention | |
Wang et al. | Data‐Driven Simulation of Pedestrian Movement with Artificial Neural Network | |
Araújo et al. | Cooperative observation of malicious targets in a 3d urban traffic environment using uavs | |
Lu et al. | Channel Spatio-Temporal Convolutional Network for Trajectory Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |