CN113792844A - 基于深度自动编码和特征融合的智能体蜂拥行为控制方法 - Google Patents

基于深度自动编码和特征融合的智能体蜂拥行为控制方法 Download PDF

Info

Publication number
CN113792844A
CN113792844A CN202110954613.9A CN202110954613A CN113792844A CN 113792844 A CN113792844 A CN 113792844A CN 202110954613 A CN202110954613 A CN 202110954613A CN 113792844 A CN113792844 A CN 113792844A
Authority
CN
China
Prior art keywords
agent
neighborhood
intelligent agent
intelligent
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110954613.9A
Other languages
English (en)
Other versions
CN113792844B (zh
Inventor
左源
朱效洲
姚雯
常强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN202110954613.9A priority Critical patent/CN113792844B/zh
Publication of CN113792844A publication Critical patent/CN113792844A/zh
Application granted granted Critical
Publication of CN113792844B publication Critical patent/CN113792844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度自动编码和特征融合的智能体蜂拥行为控制方法,包括:确定智能体的感知范围内的所有邻域智能体;利用自动编码机分别将智能体及每个邻域智能体的多源异构状态信息转化为数值化状态特征;分别对所有数值化状态特征进行维度级联,利用第一预设深度神经网络对级联后的数值化状态特征进行融合,获取智能体及每个邻域智能体的综合状态信息特征;对所有邻域智能体的综合状态信息特征进行加权合并,获取智能体的融合邻域特征;对智能体的综合状态信息特征和融合邻域特征进行维度级联,利用第二预设深度神经网络映射得到智能体的输出控制量。本发明能够控制智能体集群产生满足群体方向一致性和稳定性要求的智能体集群蜂拥行为。

Description

基于深度自动编码和特征融合的智能体蜂拥行为控制方法
技术领域
本发明涉及智能体集群运动控制技术领域,具体涉及一种基于深度自动编码和特征融合的智能体蜂拥行为控制方法。
背景技术
智能体集群是受自然界群居动物生活习性启发而设计的一类集群机器人,智能体集群没有集中式控制结构,通过智能体之间的局部交互以及智能体与外部环境的相互作用,决策执行自身能力范围内的动作,涌现出特定的宏观群体行为,从而执行特定任务。因此,智能体的群体蜂拥控制方法的研究对于进一步提高无人集群系统能效,发挥无人系统作用具有至关重要的价值和意义。
早期的智能体集群运动控制研究都是着眼于简单规则的设计、叠加和参数调整,以人工设计规则为导向,关注一致性、稳定性和收敛性等问题。虽然相应的控制方法能够在仿真模拟和小规模集群中得到了验证,但是规则叠加的不确定性和人工归纳的欠精确性使得宏观行为涌现具有不可控性。随着人工智能、深度学习等数据驱动和学习型算法的不断发展以及硬件设备的性能提升,目前已开始采用群体智能算法和深度学习技术来实现智能体集群运动控制。例如公开号为CN106970615A,发明名称为《一种深度强化学习的实时在线路径规划方法》的中国专利文献所公开的一种智能体路径规划方法,该方法利用强化学习来做路径规划,虽然强调了学习性算法在实时、自适应和灵活的场景下的作用,但是其对象是不考虑群体状态的个体,失去了宏观涌现能力,也无法达到蜂拥行为效果。又例如公开号为CN108921298A,发明名称为《强化学习多智能体沟通与决策方法》的中国专利文献所公开的一种智能体控制方法,该方法主要针对多智能体信息特征交互融合,在不考虑具体场景的情况下,利用深度学习的泛化机制和能力,自适应的提取任务相关信息,以提高后端决策智能性。该方法的优势是设计的聚类型融合方法,可以有效的自适应聚合不定数量的特征,并且吸收了表征学习可以将物理量转化为数值量的优点。但是,聚类方法有赖于聚类参数的选择,基于手动设计的状态特征以及未经过预训练的特征提取存在不稳定性;并且基于强化学习的方法输出是离散动作,无明确动作的设计不能有效的直接控制集群出现宏观涌现现象。
因此,如何有效地引导智能体在局部感知信息中,产生满足群体一致性和稳定性条件的动作进而演化为群体蜂拥行为成为了本领域技术人员亟待解决的技术问题。
发明内容
为解决上述现有技术中存在的部分或全部技术问题,本发明提供一种基于深度自动编码和特征融合的智能体蜂拥行为控制方法。
本发明的技术方案如下:
提供了一种基于深度自动编码和特征融合的智能体蜂拥行为控制方法,所述方法用于控制智能体集群蜂拥运动,包括:
确定智能体的感知范围内的所有邻域智能体;
利用并行的深度学习自动编码机分别将智能体及每个邻域智能体的多源异构状态信息转化为数值化状态特征;
分别对智能体及每个邻域智能体的所有数值化状态特征进行维度级联,并利用第一预设深度神经网络对维度级联后的数值化状态特征进行融合,获取智能体的综合状态信息特征及每个邻域智能体的综合状态信息特征;
对所有邻域智能体的综合状态信息特征进行加权合并,获取智能体对应的融合邻域特征;
对智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联,基于维度级联后的特征,利用第二预设深度神经网络映射得到智能体的输出控制量。
在一些可能的实现方式中,智能体的多源异构状态信息包括智能体的位置、速度、加速度、标识编码和能源剩余量。
在一些可能的实现方式中,深度学习自动编码机包括编码器和解码器,深度学习自动编码机形式表示为:
φi:Xi→Hfi
Figure BDA0003219778570000021
其中,φi表示针对智能体的第i个状态信息Xi的编码器函数,Hfi表示经过编码器后生成的第i个状态信息Xi的数值化状态特征,ρi表示针对智能体的第i个状态信息Xi的解码器函数,
Figure BDA0003219778570000022
表示智能体的第i个状态信息Xi对应的解码器输出。
在一些可能的实现方式中,编码器采用以Relu函数为非线性激活函数的四层全连接神经网络;
解码器采用四层全连接神经网络,并且四层全连接神经网络中前三层采用Relu函数作为非线性激活函数,第四层通过线性叠加进行输出。
在一些可能的实现方式中,第一预设深度神经网络采用以Relu函数为非线性激活函数的三层全连接神经网络。
在一些可能的实现方式中,设定智能体集群中的第i个智能体Ai的邻域为
Figure BDA0003219778570000031
第i个智能体Ai的综合状态信息特征为:
Figure BDA0003219778570000032
第i个智能体Ai对应的邻域智能体Aj的综合状态信息特征为:
Figure BDA0003219778570000033
其中,Aj表示智能体集群中的第j个智能体,
Figure BDA0003219778570000034
表示智能体Ai与智能体Aj间的距离,Ri表示智能体Ai的感知半径,
Figure BDA0003219778570000035
表示第i个智能体Ai的综合状态信息特征,Ψ表示用于融合特征的第一预设深度神经网络,concat表示特征在维度上的级联合并,
Figure BDA0003219778570000036
表示第i个智能体Ai的第i个状态信息
Figure BDA0003219778570000037
对应的数值化状态特征,W和b表示网络Ψ的可学习参数,
Figure BDA0003219778570000038
表示第j个智能体Aj的综合状态信息特征,
Figure BDA0003219778570000039
表示第j个智能体Aj的第i个状态信息
Figure BDA00032197785700000310
对应的数值化状态特征。
在一些可能的实现方式中,对所有邻域智能体的综合状态信息特征进行加权合并时,每个邻域智能体对应的权重系数利用以下公式计算;
Figure BDA00032197785700000311
其中,
Figure BDA00032197785700000312
表示智能体Ai的邻域智能体Aj对应的权重系数。
在一些可能的实现方式中,智能体对应的融合邻域特征利用以下公式计算确定;
Figure BDA00032197785700000313
其中,
Figure BDA0003219778570000041
表示智能体Ai对应的融合邻域特征。
在一些可能的实现方式中,第i个智能体Ai的输出控制量利用以下公式计算确定;
Figure BDA0003219778570000042
Figure BDA0003219778570000043
其中,
Figure BDA0003219778570000044
表示智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联得到的融合信息,ui表示第i个智能体Ai的输出控制量,fctrl表示第二预设深度神经网络,Wout和bout表示网络fctrl的可学习参数;
其中,第二预设深度神经网络采用四层全连接神经网络,并且四层全连接神经网络中前三层采用Relu函数作为非线性激活函数,第四层通过线性叠加进行输出。
在一些可能的实现方式中,智能体的输出控制量为智能体的速度矢量。
本发明技术方案的主要优点如下:
本发明的基于深度自动编码和特征融合的智能体蜂拥行为控制方法利用自动编码机制的特征自提取方式,将各种量纲、跨度、维度不统一的连续型和离散型状态信息映射到无量纲的特征向量空间中,作为可学习的数值化特征,然后通过维度级联和深度神经网络隐性地融合智能体的各个状态特征得到综合状态信息特征,针对智能体集群蜂拥行为,充分考虑智能体有限的感知范围,对智能体的邻域特征信息进行交互融合,在融合邻域特征的基础上,结合智能体自身的状态信息特征,利用深度神经网络映射得到智能体的输出控制量,根据输出控制量对智能体进行运动控制,能够使智能体集群产生满足群体方向一致性和群体系统稳定性要求的智能体集群蜂拥行为。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例的基于深度自动编码和特征融合的智能体蜂拥行为控制方法的流程图;
图2为本发明一实施例的智能体及其邻域的关系示意图;
图3为本发明一实施例的一个智能体的状态信息的处理结构框架及处理流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图,详细说明本发明实施例提供的技术方案。
参见图1,本发明一实施例提供了一种基于深度自动编码和特征融合的智能体蜂拥行为控制方法,该方法用于控制智能体集群蜂拥运动,包括以下步骤:
S1,确定智能体的感知范围内的所有邻域智能体;
S2,利用并行的深度学习自动编码机分别将智能体及每个邻域智能体的多源异构状态信息转化为数值化状态特征;
S3,分别对智能体及每个邻域智能体的所有数值化状态特征进行维度级联,并利用第一预设深度神经网络对维度级联后的数值化状态特征进行融合,获取智能体的综合状态信息特征及每个邻域智能体的综合状态信息特征;
S4,对所有邻域智能体的综合状态信息特征进行加权合并,获取智能体对应的融合邻域特征;
S5,对智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联,基于维度级联后的特征,利用第二预设深度神经网络映射得到智能体的输出控制量。
本发明一实施例提供的基于深度自动编码和特征融合的智能体蜂拥行为控制方法利用自动编码机制的特征自提取方式,将各种量纲、跨度、维度不统一的连续型和离散型状态信息映射到无量纲的特征向量空间中,作为可学习的数值化特征,然后通过维度级联和深度神经网络隐性地融合智能体的各个状态特征得到综合状态信息特征,针对智能体集群蜂拥行为,充分考虑智能体有限的感知范围,对智能体的邻域特征信息进行交互融合,在融合邻域特征的基础上,结合智能体自身的状态信息特征,利用深度神经网络映射得到智能体的输出控制量,根据输出控制量对智能体进行运动控制,能够使智能体集群产生满足群体方向一致性和群体系统稳定性要求的智能体集群蜂拥行为。
以下对本发明一实施例提供的基于深度自动编码和特征融合的智能体蜂拥行为控制方法的各个步骤及原理进行具体说明。
步骤S1,确定智能体的感知范围内的所有邻域智能体。
本发明一实施例中,在进行智能体集群的蜂拥行为控制时,分别以单个智能体个体作为考察对象,确定每个智能体的感知范围内的所有邻域智能体,基于确定的所有邻域智能体,获取每个智能体在下一时刻的输出控制量,根据输出控制量对智能体进行运动控制。
参见图2,以获取智能体集群中的第i个智能体Ai的输出控制量为例,设定:智能体Ai的感知半径为Ri,智能体集群中的第j个智能体Aj位于智能体Ai的感知范围内;则智能体集群中的第i个智能体Ai的邻域可以为
Figure BDA0003219778570000061
其中,
Figure BDA0003219778570000062
表示智能体Ai与智能体Aj间的距离,即智能体Ai的中心点到智能体Aj的中心点的距离,
Figure BDA0003219778570000063
可以利用以下公式计算;
Figure BDA0003219778570000064
其中,Si表示智能体Ai在空间中的位置,Sj表示智能体Aj在空间中的位置,||·||2表示2范数算子。
步骤S2,利用并行的深度学习自动编码机分别将智能体及每个邻域智能体的多源异构状态信息转化为数值化状态特征。
本发明一实施例中,智能体的多源异构状态信息包括智能体的位置、速度、加速度、标识编码和能源剩余量;通过并行的深度学习自动编码机构建多源异构状态信息的量纲统一、连续数值化和可学习的状态特征,即数值化状态特征。
参见图3,本发明一实施例中,深度学习自动编码机包括编码器和解码器,针对任意一个智能体的深度学习自动编码机形式可以表示为:
φi:Xi→Hfi
Figure BDA0003219778570000065
其中,φi表示针对智能体的第i个状态信息Xi的编码器函数,Hfi表示经过编码器后生成的第i个状态信息Xi的隐含特征,即数值化状态特征,ρi表示针对智能体的第i个状态信息Xi的解码器函数,
Figure BDA0003219778570000066
表示智能体的第i个状态信息Xi对应的解码器输出。
其中,编码器生成的所有状态信息隐含特征的维度相同,以便后续进行特征融合;具体的特征维度可以根据实际情况进行预设,例如预设为m维,则
Figure BDA0003219778570000071
可选的,编码器可以采用以Relu函数为非线性激活函数的四层全连接神经网络,并且编码器对于智能体集群是共享参数和神经网络结构的,即针对不同智能体的第i个状态信息的编码器结构及参数相同;解码器也可以采用四层全连接神经网络,该四层全连接神经网络中前三层采用Relu函数作为非线性激活函数,第四层通过线性叠加进行输出,并且解码器对于智能体集群是共享参数和神经网络结构的,即针对不同智能体的第i个状态信息的解码器结构及参数相同。
本发明一实施例中,解码器在自学习预训练时使用,编码器和解码器的参数φi和ρi可以在自学习预训练阶段通过最小化损失函数进行优化确定。
具体地,针对智能体的第i个状态信息Xi的学习优化目标函数可以为:
Figure BDA0003219778570000072
其中,||·||表示向量空间度量。
本发明一实施例中,针对不同特征数据可以采用不同的目标函数,例如针对连续型数据可以使用平均绝对误差或均方差,针对离散型数据可以使用交叉熵。
步骤S3,分别对智能体及每个邻域智能体的所有数值化状态特征进行维度级联,并利用第一预设深度神经网络对维度级联后的数值化状态特征进行融合,获取智能体的综合状态信息特征及每个邻域智能体的综合状态信息特征。
本发明一实施例中,第一预设深度神经网络可以采用以Relu函数为非线性激活函数的三层全连接神经网络。
具体地,以获取智能体集群中的第i个智能体Ai的输出控制量为例,第i个智能体Ai的综合状态信息特征可以表示为:
Figure BDA0003219778570000073
第i个智能体Ai对应的邻域智能体Aj的综合状态信息特征可以表示为:
Figure BDA0003219778570000074
其中,
Figure BDA0003219778570000075
表示第i个智能体Ai的综合状态信息特征,Ψ表示用于融合特征的第一预设深度神经网络,concat表示特征在维度上的级联合并,
Figure BDA0003219778570000081
表示第i个智能体Ai的第i个状态信息
Figure BDA0003219778570000082
对应的数值化状态特征,W和b表示网络Ψ的可学习参数,
Figure BDA0003219778570000083
表示第j个智能体Aj的综合状态信息特征,
Figure BDA0003219778570000084
表示第j个智能体Aj的第i个状态信息
Figure BDA0003219778570000085
对应的数值化状态特征。
其中,Ψ、W和b对于智能体集群是共享参数和神经网络结构的,即针对不同智能体的第一预设深度神经网络的结构及参数完全相同。
步骤S4,对所有邻域智能体的综合状态信息特征进行加权合并,获取智能体对应的融合邻域特征。
本发明一实施例中,在对所有邻域智能体的综合状态信息特征进行加权合并时,每个邻域智能体对应的权重系数可以根据邻域智能体与其所属的智能体间的相对距离和其所属的智能体的感知范围计算确定。
具体地,以获取智能体集群中的第i个智能体Ai的输出控制量为例,智能体Ai的邻域智能体Aj对应的权重系数可以利用以下公式计算确定;
Figure BDA0003219778570000086
其中,
Figure BDA0003219778570000087
表示智能体Ai的邻域智能体Aj对应的权重系数,Ri表示智能体Ai的感知半径,
Figure BDA0003219778570000088
表示智能体Ai与智能体Aj间的距离。
进一步地,智能体Ai对应的融合邻域特征可以利用以下公式计算确定;
Figure BDA0003219778570000089
其中,
Figure BDA00032197785700000810
表示智能体Ai对应的融合邻域特征。
步骤S5,对智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联,基于维度级联后的特征,利用第二预设深度神经网络映射得到智能体的输出控制量。
为了在满足运动规律约束条件下控制智能体的运行,需要同时考虑智能体的当前状态,以及智能体对应的邻域智能体集合对智能体的影响。为此,本发明一实施例中,在获取智能体的输出控制量时,先对智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联,再利用第二预设深度神经网络将维度级联后的特征映射为智能体在下一时刻的输出控制量。
具体地,以获取智能体集群中的第i个智能体Ai的输出控制量为例,利用以下公式对智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联操作;
Figure BDA0003219778570000091
其中,
Figure BDA0003219778570000092
表示智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联得到的融合信息,concat表示特征在维度上的级联合并。
进一步地,本发明一实施例中,第二预设深度神经网络可以采用四层全连接神经网络,且四层全连接神经网络中前三层采用Relu函数作为非线性激活函数,第四层通过线性叠加进行输出。其中,该第二预设深度神经网络对于智能体集群是共享参数和神经网络结构的,即在求解不同智能体的输出控制量时,所采用的第二预设深度神经网络的结构及参数相同。
具体地,以获取智能体集群中的第i个智能体Ai的输出控制量为例,第i个智能体Ai的输出控制量可以表示为:
Figure BDA0003219778570000093
其中,ui表示第i个智能体Ai的输出控制量,fctrl表示第二预设深度神经网络,Wout和bout表示网络fctrl的可学习参数。
进一步地,本发明一实施例中,为了便于进行智能体集群的运动控制,可以采用速度矢量作为控制量,此时基于上述过程获取的智能体的输出控制量即为智能体的速度矢量,根据获取的速度矢量对智能体的运动进行控制。
当智能体的输出控制量为智能体的速度矢量时,以时间间隔Δt为单次控制周期,对智能体集群中的第i个智能体Ai进行控制为例,智能体Ai将在控制周期内的运动路径可表示为:
Figure BDA0003219778570000094
其中,
Figure BDA0003219778570000095
表示t+Δt时刻智能体Ai的位置向量,
Figure BDA0003219778570000096
表示t时刻智能体Ai的位置向量,Vi表示智能体Ai的速度矢量,Vi=ui
本发明一实施例中,针对深度学习自动编码机和深度神经网络的参数优化训练,可以采用经典Reynolds蜂拥模型的运动数据作为训练集(Xtrain,Vtrain)。其中,Xtrain用于深度学习自动编码机的自学习预训练,训练目标函数可以使用上述给出的学习优化目标函数;Vtrain用于除自学习预训练外的总体控制模型的训练,包括针对控制输出部分的深度神经网络参数训练和预训练得到的编码器参数微调训练,相应的训练目标函数可以为:
CtrlLoss=||V-Vtrain||
其中,V表示智能体的输出控制量,本发明一实施例中为速度矢量。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,本文中“前”、“后”、“左”、“右”、“上”、“下”均以附图中表示的放置状态为参照。
最后应说明的是:以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于深度自动编码和特征融合的智能体蜂拥行为控制方法,其特征在于,所述方法用于控制智能体集群蜂拥运动,包括:
确定智能体的感知范围内的所有邻域智能体;
利用并行的深度学习自动编码机分别将智能体及每个邻域智能体的多源异构状态信息转化为数值化状态特征;
分别对智能体及每个邻域智能体的所有数值化状态特征进行维度级联,并利用第一预设深度神经网络对维度级联后的数值化状态特征进行融合,获取智能体的综合状态信息特征及每个邻域智能体的综合状态信息特征;
对所有邻域智能体的综合状态信息特征进行加权合并,获取智能体对应的融合邻域特征;
对智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联,基于维度级联后的特征,利用第二预设深度神经网络映射得到智能体的输出控制量。
2.根据权利要求1所述的基于深度自动编码和特征融合的智能体蜂拥行为控制方法,其特征在于,智能体的多源异构状态信息包括智能体的位置、速度、加速度、标识编码和能源剩余量。
3.根据权利要求2所述的基于深度自动编码和特征融合的智能体蜂拥行为控制方法,其特征在于,深度学习自动编码机包括编码器和解码器,深度学习自动编码机形式表示为:
φi:
Figure FDA0003219778560000011
ρi:
Figure FDA0003219778560000012
其中,φi表示针对智能体的第i个状态信息Xi的编码器函数,
Figure FDA0003219778560000013
表示经过编码器后生成的第i个状态信息Xi的数值化状态特征,ρi表示针对智能体的第i个状态信息Xi的解码器函数,
Figure FDA0003219778560000014
表示智能体的第i个状态信息Xi对应的解码器输出。
4.根据权利要求3所述的基于深度自动编码和特征融合的智能体蜂拥行为控制方法,其特征在于,编码器采用以Relu函数为非线性激活函数的四层全连接神经网络;
解码器采用四层全连接神经网络,并且四层全连接神经网络中前三层采用Relu函数作为非线性激活函数,第四层通过线性叠加进行输出。
5.根据权利要求4所述的基于深度自动编码和特征融合的智能体蜂拥行为控制方法,其特征在于,第一预设深度神经网络采用以Relu函数为非线性激活函数的三层全连接神经网络。
6.根据权利要求5所述的基于深度自动编码和特征融合的智能体蜂拥行为控制方法,其特征在于,设定智能体集群中的第i个智能体Ai的邻域为
Figure FDA0003219778560000021
第i个智能体Ai的综合状态信息特征为:
Figure FDA0003219778560000022
第i个智能体Ai对应的邻域智能体Aj的综合状态信息特征为:
Figure FDA0003219778560000023
其中,Aj表示智能体集群中的第j个智能体,
Figure FDA00032197785600000214
表示智能体Ai与智能体Aj间的距离,Ri表示智能体Ai的感知半径,
Figure FDA0003219778560000024
表示第i个智能体Ai的综合状态信息特征,Ψ表示用于融合特征的第一预设深度神经网络,concat表示特征在维度上的级联合并,
Figure FDA0003219778560000025
表示第i个智能体Ai的第i个状态信息
Figure FDA0003219778560000026
对应的数值化状态特征,W和b表示网络Ψ的可学习参数,
Figure FDA0003219778560000027
表示第j个智能体Aj的综合状态信息特征,
Figure FDA0003219778560000028
表示第j个智能体Aj的第i个状态信息
Figure FDA0003219778560000029
对应的数值化状态特征。
7.根据权利要求6所述的基于深度自动编码和特征融合的智能体蜂拥行为控制方法,其特征在于,对所有邻域智能体的综合状态信息特征进行加权合并时,每个邻域智能体对应的权重系数利用以下公式计算;
Figure FDA00032197785600000210
其中,
Figure FDA00032197785600000211
表示智能体Ai的邻域智能体Aj对应的权重系数。
8.根据权利要求7所述的基于深度自动编码和特征融合的智能体蜂拥行为控制方法,其特征在于,智能体对应的融合邻域特征利用以下公式计算确定;
Figure FDA00032197785600000212
其中,
Figure FDA00032197785600000213
表示智能体Ai对应的融合邻域特征。
9.根据权利要求8所述的基于深度自动编码和特征融合的智能体蜂拥行为控制方法,其特征在于,第i个智能体Ai的输出控制量利用以下公式计算确定;
Figure FDA0003219778560000031
Figure FDA0003219778560000032
其中,
Figure FDA0003219778560000033
表示智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联得到的融合信息,ui表示第i个智能体Ai的输出控制量,fctrl表示第二预设深度神经网络,Wout和bout表示网络fctrl的可学习参数;
其中,第二预设深度神经网络采用四层全连接神经网络,并且四层全连接神经网络中前三层采用Relu函数作为非线性激活函数,第四层通过线性叠加进行输出。
10.根据权利要求1至9中任一项所述的基于深度自动编码和特征融合的智能体蜂拥行为控制方法,其特征在于,智能体的输出控制量为智能体的速度矢量。
CN202110954613.9A 2021-08-19 2021-08-19 基于深度自动编码和特征融合的智能体蜂拥行为控制方法 Active CN113792844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110954613.9A CN113792844B (zh) 2021-08-19 2021-08-19 基于深度自动编码和特征融合的智能体蜂拥行为控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110954613.9A CN113792844B (zh) 2021-08-19 2021-08-19 基于深度自动编码和特征融合的智能体蜂拥行为控制方法

Publications (2)

Publication Number Publication Date
CN113792844A true CN113792844A (zh) 2021-12-14
CN113792844B CN113792844B (zh) 2023-07-25

Family

ID=79181826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110954613.9A Active CN113792844B (zh) 2021-08-19 2021-08-19 基于深度自动编码和特征融合的智能体蜂拥行为控制方法

Country Status (1)

Country Link
CN (1) CN113792844B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978176A (zh) * 2019-03-05 2019-07-05 华南理工大学 一种基于状态动态感知的多智能体合作学习方法
CN111046955A (zh) * 2019-12-12 2020-04-21 中国人民解放军军事科学院国防科技创新研究院 一种基于图网络的多智能体对抗策略智能预测方法及装置
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN112363392A (zh) * 2020-11-16 2021-02-12 湘潭大学 一类模型未知的多智能体分群一致性控制方法
CN112529160A (zh) * 2020-12-09 2021-03-19 南京大学 一种摄像器材记录的视频图像数据的高维模仿学习方法
CN112783132A (zh) * 2021-01-11 2021-05-11 中国船舶重工集团公司第七二三研究所 一种无人集群中认知协同赋能的智能体单元
CN113206786A (zh) * 2020-01-31 2021-08-03 华为技术有限公司 训练智能体的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN109978176A (zh) * 2019-03-05 2019-07-05 华南理工大学 一种基于状态动态感知的多智能体合作学习方法
CN111046955A (zh) * 2019-12-12 2020-04-21 中国人民解放军军事科学院国防科技创新研究院 一种基于图网络的多智能体对抗策略智能预测方法及装置
CN113206786A (zh) * 2020-01-31 2021-08-03 华为技术有限公司 训练智能体的方法和装置
CN112363392A (zh) * 2020-11-16 2021-02-12 湘潭大学 一类模型未知的多智能体分群一致性控制方法
CN112529160A (zh) * 2020-12-09 2021-03-19 南京大学 一种摄像器材记录的视频图像数据的高维模仿学习方法
CN112783132A (zh) * 2021-01-11 2021-05-11 中国船舶重工集团公司第七二三研究所 一种无人集群中认知协同赋能的智能体单元

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
VIVIAN F. LÓPEZ 等: "Taranis: Neural networks and intelligent agents in the early warning against floods", 《EXPERT SYSTEMS WITH APPLICATIONS》, pages 10031 - 10037 *
谢伟杰: "基于蜂拥算法的无人艇集群编队研究", 《中国优秀硕士学位论文全文数据库》, pages 1 - 92 *

Also Published As

Publication number Publication date
CN113792844B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
Amarjyoti Deep reinforcement learning for robotic manipulation-the state of the art
Lange et al. Batch reinforcement learning
Leng et al. Design for self-organizing fuzzy neural networks based on genetic algorithms
Shah et al. Fuzzy decision tree function approximation in reinforcement learning
CN110794842A (zh) 基于势场的强化学习路径规划算法
Orozco-Rosas et al. Mobile robot path planning using a QAPF learning algorithm for known and unknown environments
Callaghan et al. A soft-computing distributed artificial intelligence architecture for intelligent buildings
CN113176776A (zh) 基于深度强化学习的无人艇天气自适应避障方法
CN113141012B (zh) 电网潮流调控决策推理方法
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN109657791A (zh) 一种基于大脑神经突触记忆机制的面向开放世界连续学习方法
Takagi et al. Neural networks and genetic algorithm approaches to auto-design of fuzzy systems
CN108453737B (zh) 一种基于神经网络的机器人动作轨迹获取系统及方法
Ajabshir et al. A low-cost Q-learning-based approach to handle continuous space problems for decentralized multi-agent robot navigation in cluttered environments
CN113792844A (zh) 基于深度自动编码和特征融合的智能体蜂拥行为控制方法
CN102063640B (zh) 基于效用差分网络的机器人行为学习模型
CN111950690A (zh) 一种具有自适应能力的高效强化学习策略模型
Dai et al. Research on multi-robot task allocation based on BP neural network optimized by genetic algorithm
Masoumzadeh et al. Deep blue: A fuzzy q-learning enhanced active queue management scheme
CN114781882A (zh) 基于双重图结构结合双监督的电网调度认知图谱生成方法
Paudel Learning for robot decision making under distribution shift: A survey
CN114707613A (zh) 基于分层的深度策略梯度网络的电网调控方法
Farid et al. Control and identification of dynamic plants using adaptive neuro-fuzzy type-2 strategy
Zhang et al. Capability-driven adaptive task distribution for flexible Multi-Human-Multi-Robot (MH-MR) manufacturing systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant