CN113792843A - 一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法 - Google Patents

一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法 Download PDF

Info

Publication number
CN113792843A
CN113792843A CN202110954578.0A CN202110954578A CN113792843A CN 113792843 A CN113792843 A CN 113792843A CN 202110954578 A CN202110954578 A CN 202110954578A CN 113792843 A CN113792843 A CN 113792843A
Authority
CN
China
Prior art keywords
agent
bee
state information
direction consistency
center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110954578.0A
Other languages
English (en)
Other versions
CN113792843B (zh
Inventor
左源
朱效洲
刘圣洋
桂健钧
鹿迎
涂龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN202110954578.0A priority Critical patent/CN113792843B/zh
Publication of CN113792843A publication Critical patent/CN113792843A/zh
Application granted granted Critical
Publication of CN113792843B publication Critical patent/CN113792843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Robotics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法,该方法用于控制智能体集群蜂拥运动,包括:确定智能体的感知范围内的所有邻域智能体;根据智能体的状态信息及智能体的所有邻域智能体的状态信息,构建智能体对应的虚拟邻域中心,确定虚拟邻域中心的状态信息;利用预设深度神经网络提取当前时刻的智能体的状态信息和虚拟邻域中心的状态信息的隐性特征,获取下一时刻的智能体的控制输出量,其中,预设深度神经网络的各个权重参数利用基于群体方向一致性和群体系统稳定性构建的代价函数训练确定。本发明能够基于局部感知信息,控制智能体集群产生满足群体方向一致性和群体系统稳定性要求的智能体集群蜂拥运动。

Description

一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥 涌现控制方法
技术领域
本发明涉及智能体集群运动控制技术领域,具体涉及一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法。
背景技术
智能体集群是受自然界群居动物生活习性启发而设计的一类集群机器人,智能体集群没有集中式控制结构,通过智能体之间的局部交互以及智能体与外部环境的相互作用,决策执行自身能力范围内的动作,涌现出特定的宏观群体行为,从而执行特定任务。因此,智能体的群体蜂拥控制方法的研究对于进一步提高无人集群系统能效,发挥无人系统作用具有至关重要的价值和意义。
早期的智能体集群运动控制研究都是着眼于简单规则的设计、叠加和参数调整,以人工设计规则为导向,关注一致性、稳定性和收敛性等问题。虽然相应的控制方法能够在仿真模拟和小规模集群中得到了验证,但是规则叠加的不确定性和人工归纳的欠精确性使得宏观行为涌现具有不可控性。随着人工智能、深度学习等数据驱动和学习型算法的不断发展以及硬件设备的性能提升,目前已开始采用群体智能算法和深度学习技术来实现智能体集群运动控制。例如公开号为CN103294875A,发明名称为《基于群体智能和自适应评价的群体编队仿真方法》的中国专利文献所公开的一种群体编队仿真方法,该方法采用群体智能算法,为集群无人机编队实施自适应的仿真,通过将编队对应转化为图形,图案的形式,结合图形处理方法与人工蜂群算法进行个体编队定位和路径规划计算。然而,该方法虽然可以达到集群协同和行为一致,但是其固定定位点编队控制使得集群的形态非常固定,灵活性降低。又例如公开号为CN106970615A,发明名称为《一种深度强化学习的实时在线路径规划方法》的中国专利文献所公开的一种智能体路径规划方法,该方法利用强化学习来做路径规划,虽然强调了学习性算法在实时、自适应和灵活的场景下的作用,但是其对象是不考虑群体状态的个体,失去了宏观涌现能力,也无法达到蜂拥行为效果。又例如公开号为CN108921298A,发明名称为《强化学习多智能体沟通与决策方法》的中国专利文献所公开的一种智能体控制方法,该方法考虑群体中局部信息交互沟通方式的自适应性,通过聚类算法聚合局部多智能体信息,来提高信息交互的有效性。但是,聚类算法设计依赖于参数设定,具有不稳定性,并且行为动作输出限定为离散动作,无法明确映射到连续空间下的智能体行为。
因此,如何有效地引导智能体在局部感知信息中,产生满足群体一致性和稳定性条件的动作进而演化为群体蜂拥行为成为了本领域技术人员亟待解决的技术问题。
发明内容
为解决上述现有技术中存在的部分或全部技术问题,本发明提供一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法。
本发明的技术方案如下:
提供了一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法,所述方法用于控制智能体集群蜂拥运动,包括:
确定智能体的感知范围内的所有邻域智能体;
根据智能体的状态信息及智能体的所有邻域智能体的状态信息,构建智能体对应的虚拟邻域中心,确定虚拟邻域中心的状态信息;
利用预设深度神经网络提取当前时刻的智能体的状态信息和虚拟邻域中心的状态信息的隐性特征,获取下一时刻的智能体的控制输出量,其中,预设深度神经网络的各个权重参数利用基于群体方向一致性和群体系统稳定性构建的代价函数训练确定。
在一些可能的实现方式中,智能体的状态信息包括智能体的位置信息和速度信息,虚拟邻域中心的状态信息包括虚拟邻域中心的位置信息和速度信息。
在一些可能的实现方式中,设定智能体集群中的第i个智能体Ai的邻域为
Figure BDA0003219766770000021
利用以下公式确定智能体Ai对应的虚拟邻域中心的位置;
Sπ=∑αjSj
利用以下公式确定智能体Ai对应的虚拟领域中心的速度;
Vπ=∑αjVj
其中,Aj表示智能体集群中的第j个智能体,Dij表示智能体Ai与智能体Aj间的距离,Ri表示智能体Ai的感知半径,Sπ表示虚拟邻域中心在空间中的位置,αj表示智能体Aj对应的权重,Sj表示智能体Aj在空间中的位置,Vπ表示虚拟邻域中心的速度,Vj表示智能体Aj的速度。
在一些可能的实现方式中,智能体Aj对应的权重αj利用以下公式计算;
Figure BDA0003219766770000031
其中,e表示自然常数。
在一些可能的实现方式中,所述预设深度神经网络包括:第一四层全连接前馈网络、第二四层全连接前馈网络、三层全连接前馈网络和一层线性网络;
所述第一四层全连接前馈网络和所述第二四层全连接前馈网络与所述三层全连接前馈网络连接,所述第一四层全连接前馈网络和所述第二四层全连接前馈网络的各个权重参数相同,所述第一四层全连接前馈网络和所述第二四层全连接前馈网络中一个以智能体的状态信息为输入,另一个以虚拟邻域中心的状态信息为输入,所述第一四层全连接前馈网络和所述第二四层全连接前馈网络的输出通过维度级联方式输入所述三层全连接前馈网络;
所述三层全连接前馈网络与所述一层线性网络连接,所述三层全连接前馈网络的输出为所述一层线性网络的输入。
在一些可能的实现方式中,采用位置信息和速度信息的联立向量作为四层全连接前馈网络的输入。
在一些可能的实现方式中,设定当前时刻为tk时刻,下一时刻为tk+1时刻;
基于群体方向一致性和群体系统稳定性构建代价函数为:
Figure BDA0003219766770000032
其中,
Figure BDA0003219766770000033
表示预设深度神经网络输出的tk+1时刻下智能体Ai的控制输出量,
Figure BDA0003219766770000034
表示训练样本对应的tk+1时刻下智能体Ai的控制输出量标签,θV表示速度偏差重要度,
Figure BDA0003219766770000035
表示tk+1时刻下虚拟邻域中心的速度,θD表示距离偏差重要度,
Figure BDA0003219766770000036
表示tk时刻下智能体Ai与虚拟邻域中心的距离,
Figure BDA0003219766770000037
表示tk+1时刻下智能体Ai与虚拟邻域中心的距离,||·||表示2范数算子。
在一些可能的实现方式中,速度偏差重要度和距离偏差重要度的具体数值根据智能体集群蜂拥运动的群体方向一致性和群体系统稳定性要求进行确定。
在一些可能的实现方式中,当要求智能体集群蜂拥运动的群体方向一致性和群体系统稳定性具有相同权重时,θV=θD=0.5。
在一些可能的实现方式中,当D≤Rsec时,θV=θD=0.3;
当D≥Rcoh时,θV=θD=0;
其中,D表示智能体Ai与虚拟邻域中心的距离,Rsec表示为避免智能体碰撞而设定的安全间距,Rcoh表示智能体与集群聚集时期望的平均邻域间距。
本发明技术方案的主要优点如下:
本发明的在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法通过构建智能体的虚拟邻域中心,利用深度学习技术提取状态信息的隐性特征,并设计适应集群蜂拥行为且能考虑蜂拥行为的群体方向一致性和群体系统稳定性的代价函数对深度神经网络进行训练,能够基于局部感知信息,控制智能体集群产生满足群体方向一致性和群体系统稳定性要求的智能体集群蜂拥运动。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例的在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法的流程图;
图2为本发明一实施例的智能体及其邻域的关系示意图;
图3为本发明一实施例的深度神经网络的整体流程框架示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图,详细说明本发明实施例提供的技术方案。
参见图1,本发明一实施例提供了一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法,该方法用于控制智能体集群蜂拥运动,包括以下步骤:
S1,确定智能体的感知范围内的所有邻域智能体;
S2,根据智能体的状态信息及智能体的所有邻域智能体的状态信息,构建智能体对应的虚拟邻域中心,确定虚拟邻域中心的状态信息;
S3,利用预设深度神经网络提取当前时刻的智能体的状态信息和虚拟邻域中心的状态信息的隐性特征,获取下一时刻的智能体的控制输出量,其中,预设深度神经网络的各个权重参数利用基于群体方向一致性和群体系统稳定性构建的代价函数训练确定。
本发明一实施例提供的在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法通过构建智能体的虚拟邻域中心,利用深度学习技术提取状态信息的隐性特征,并设计适应集群蜂拥行为且能考虑蜂拥行为的群体方向一致性和群体系统稳定性的代价函数对深度神经网络进行训练,能够基于局部感知信息,控制智能体集群产生满足群体方向一致性和群体系统稳定性要求的智能体集群蜂拥运动。
以下对本发明一实施例提供的在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法的各个步骤及原理进行具体说明。
步骤S1,确定智能体的感知范围内的所有邻域智能体。
本发明一实施例中,在进行智能体集群的蜂拥涌现控制时,分别以单个智能体个体作为考察对象,确定每个智能体的感知范围内的所有邻域智能体,基于确定的所有邻域智能体,获取每个智能体在下一时刻的控制输出量。
步骤S2,根据智能体的状态信息及智能体的所有邻域智能体的状态信息,构建智能体对应的虚拟邻域中心,确定虚拟邻域中心的状态信息。
本发明一实施例中,智能体的状态信息包括智能体的位置信息和速度信息,虚拟邻域中心的状态信息包括虚拟邻域中心的位置信息和速度信息。
参见图2,以获取智能体集群中的第i个智能体Ai在下一时刻的控制输出量为例,设定:智能体Ai的感知半径为Ri,智能体集群中的第j个智能体Aj位于智能体Ai的感知范围内;则智能体集群中的第i个智能体Ai的邻域可以为
Figure BDA0003219766770000051
其中,Dij表示智能体Ai与智能体Aj间的距离,Dij可以利用以下公式计算;
Dij=||Si-Sj||公式一
其中,Si表示智能体Ai在空间中的位置,Sj表示智能体Aj在空间中的位置,||·||表示2范数算子。
进一步地,可以利用以下公式计算智能体Ai与智能体Aj的速度差;
ΔVij=||Vi-Vj||公式二
其中,ΔVij表示智能体Ai与智能体Aj的速度差,Vi表示智能体Ai的速度,Vj表示智能体Aj的速度,||·||表示2范数算子。
进一步地,参见图2,假设点πA为根据智能体Ai的邻域所形成的虚拟邻域中心,虚拟邻域中心的位置可以利用以下公式确定;
Sπ=∑αjSj公式三
虚拟邻域中心的速度可以利用以下公式确定;
Vπ=∑αjVj公式四
其中,Sπ表示虚拟邻域中心在空间中的位置,αj表示智能体Aj对应的权重,Vπ表示虚拟邻域中心的速度。
本发明一实施例中,在确定智能体对应的虚拟邻域中心的状态信息时,智能体的所有邻域智能体对应的权重可以利用邻域距离归一化方法计算确定;具体地,以智能体Ai为例,智能体的所有邻域智能体对应的权重可以利用以下公式计算确定;
Figure BDA0003219766770000061
其中,e表示自然常数。
由于不同时刻的智能体的状态信息并不完全相同,相应地,每个智能体在不同时刻下的虚拟邻域中心也不完全相同。
进一步地,以智能体Ai为例,基于上述确定的虚拟邻域中心,智能体与其对应的虚拟邻域中心的距离可以利用以下公式确定;
D=||Si-Sπ||公式六
智能体与其对应的虚拟邻域中心的速度差可以利用以下公式确定;
ΔV=||Vi-Vπ||公式七
其中,D表示智能体Aj与其对应的虚拟邻域中心πA的距离,ΔV表示智能体Aj与其对应的虚拟邻域中心πA的速度差。
上述各个表达式主要在体现在单一时刻下,智能体对于周边邻域关系的位置与速度关系计算方法;对于多时刻,以tk和tk+1两个时刻为例,可以定义:
Figure BDA0003219766770000071
Figure BDA0003219766770000072
分别表示这两个时刻下智能体Ai的位置,
Figure BDA0003219766770000073
Figure BDA0003219766770000074
分别表示这两个时刻下智能体Aj的位置,
Figure BDA0003219766770000075
Figure BDA0003219766770000076
分别表示这两个时刻下智能体Ai对应的虚拟邻域中心的位置,
Figure BDA0003219766770000077
Figure BDA0003219766770000078
分别表示这两个时刻下智能体Ai的速度,
Figure BDA0003219766770000079
Figure BDA00032197667700000710
分别表示这两个时刻下智能体Aj的速度,
Figure BDA00032197667700000711
Figure BDA00032197667700000712
分别表示这两个时刻下智能体Ai对应的虚拟邻域中心的速度。
步骤S3,利用预设深度神经网络提取当前时刻的智能体的状态信息和虚拟邻域中心的状态信息的隐性特征,获取下一时刻的智能体的控制输出量,其中,预设深度神经网络的各个权重参数利用基于群体方向一致性和群体系统稳定性构建的代价函数训练确定。
参见图3,本发明一实施例中,预设深度神经网络包括:第一四层全连接前馈网络、第二四层全连接前馈网络、三层全连接前馈网络和一层线性网络;第一四层全连接前馈网络和第二四层全连接前馈网络与三层全连接前馈网络连接,第一四层全连接前馈网络和第二四层全连接前馈网络的各个权重参数相同,第一四层全连接前馈网络和第二四层全连接前馈网络中一个以智能体的状态信息为输入,另一个以虚拟邻域中心的状态信息为输入,第一四层全连接前馈网络和第二四层全连接前馈网络的输出通过维度级联方式输入三层全连接前馈网络;三层全连接前馈网络与一层线性网络连接,三层全连接前馈网络的输出为一层线性网络的输入。
具体地,本发明一实施例中,智能体的状态信息通过一个第一四层全连接前馈网络提取隐性特征,第一四层全连接前馈网络可以采用PReLU函数作为激活函数。
相应地,智能体对应的虚拟邻域中心的状态信息也通过一个第二四层全连接前馈网络提取隐性特征,第二四层全连接前馈网络可以采用PReLU函数作为激活函数。
本发明一实施例中,可以采用位置信息和速度信息的联立向量作为四层全连接前馈网络的输入。例如,以当前时刻为tk时刻,下一时刻为tk+1时刻,获取智能体集群中的第i个智能体Ai在下一时刻的控制输出量为例,输入第一四层全连接前馈网络的位置信息与速度信息的联立向量可以表示为:
Figure BDA00032197667700000713
式中,concat表示向量在维度上的合成。
其中,为了确保状态信息能够被映射到同一个向量空间中,第一四层全连接前馈网络和第二四层全连接前馈网络为共享参数,即第一四层全连接前馈网络和第二四层全连接前馈网络的各个权重参数相同。
进一步地,在提取得到智能体的状态信息和虚拟邻域中心的状态信息的隐性特征后,通过维度级联方式,即向量在维度上的合成,将获取的隐性特征一并输入到三层全连接前馈网络中,三层全连接前馈网络可以采用PReLU函数作为激活函数;最后,将三层全连接前馈网络的输出输入到一层线性网络,得到下一时刻智能体的控制输出量。
由于训练深度神经网络结构中各个权重参数,需要设计优化目标函数,即代价函数(损失函数)。本发明一实施例中,基于群体方向一致性和群体系统稳定性构建代价函数,以确保该代价函数能够充分考虑蜂拥行为的群体方向一致性和群体系统稳定性。
具体地,以当前时刻为tk时刻,下一时刻为tk+1时刻,获取智能体集群中的第i个智能体Ai在下一时刻的控制输出量为例,基于群体方向一致性和群体系统稳定性构建代价函数为:
Figure BDA0003219766770000081
其中,
Figure BDA0003219766770000082
表示预设深度神经网络输出的tk+1时刻下智能体Ai的控制输出量,
Figure BDA0003219766770000083
表示训练样本对应的tk+1时刻下智能体Ai的控制输出量标签,θV表示速度偏差重要度,
Figure BDA0003219766770000084
表示tk+1时刻下虚拟邻域中心的速度,θD表示距离偏差重要度,
Figure BDA0003219766770000085
表示tk时刻下智能体Ai与虚拟邻域中心的距离,
Figure BDA0003219766770000086
表示tk+1时刻下智能体Ai与虚拟邻域中心的距离,||·||表示2范数算子。
在上述代价函数中,
Figure BDA0003219766770000087
项表示在tk+1时刻深度神经网络模型生成结果
Figure BDA0003219766770000088
与训练样本的标签
Figure BDA0003219766770000089
的误差;
Figure BDA00032197667700000810
项表示在tk+1时刻待考察智能体Ai的速度与虚拟邻域中心的速度的误差,该项主要用于考量智能体与智能体集群的方向趋势一致性;
Figure BDA00032197667700000811
项表示待考察智能体Ai与虚拟邻域中心的距离在tk时刻和tk+1时刻的误差,该项主要用于考量智能体集群的群体系统稳定性,降低因智能体尝试保持群体速度一致性而造成的局部震荡和不稳定性。
本发明一实施例中,参数θV和参数θD分别表示速度偏差和距离偏差在代价函数中的重要度,速度偏差重要度和距离偏差重要度的具体数值根据智能体集群蜂拥运动的群体方向一致性和群体系统稳定性要求进行确定。
具体地,当要求智能体集群蜂拥运动的群体方向一致性和群体系统稳定性具有相同权重时,即平等条件下,θV=θD=0.5。
当需要避免智能体出现相互碰撞时,即要求D≤Rsec时,θV=θD=0.3。其中,D表示智能体Ai与虚拟邻域中心的距离,Rsec表示为避免智能体碰撞而设定的安全间距。
当智能体集群的群体密度较稀疏时,即D≥Rcoh时,θV=θD=0。其中,Rcoh表示智能体与集群聚集时期望的平均邻域间距,该参数Rcoh用于表征智能体集群的密度。
通过设置智能体安全间距和期望平均邻域间距,基于智能体安全间距和期望平均邻域间距,调整代价函数中的速度偏差重要度和距离偏差重要度,能够实现智能体集群蜂拥行为宏观形态的控制。
本发明一实施例中,通过利用深度学习技术挖掘复杂多维数据特征的能力,提取当前时刻智能体的状态信息隐性特征,结合虚拟邻域中心的状态信息映射生产下一时刻智能体的控制输出量,分别根据每个智能体对应的下一时刻的控制输出量对每个智能体进行动作控制,能够使智能体集群产生满足群体方向一致性和群体系统稳定性要求的蜂拥行为。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,本文中“前”、“后”、“左”、“右”、“上”、“下”均以附图中表示的放置状态为参照。
最后应说明的是:以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法,其特征在于,所述方法用于控制智能体集群蜂拥运动,包括:
确定智能体的感知范围内的所有邻域智能体;
根据智能体的状态信息及智能体的所有邻域智能体的状态信息,构建智能体对应的虚拟邻域中心,确定虚拟邻域中心的状态信息;
利用预设深度神经网络提取当前时刻的智能体的状态信息和虚拟邻域中心的状态信息的隐性特征,获取下一时刻的智能体的控制输出量,其中,预设深度神经网络的各个权重参数利用基于群体方向一致性和群体系统稳定性构建的代价函数训练确定。
2.根据权利要求1所述的在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法,其特征在于,智能体的状态信息包括智能体的位置信息和速度信息,虚拟邻域中心的状态信息包括虚拟邻域中心的位置信息和速度信息。
3.根据权利要求2所述的在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法,其特征在于,设定智能体集群中的第i个智能体Ai的邻域为
Figure FDA0003219766760000011
利用以下公式确定智能体Ai对应的虚拟邻域中心的位置;
Sπ=∑αjSj
利用以下公式确定智能体Ai对应的虚拟领域中心的速度;
Vπ=∑αjVj
其中,Aj表示智能体集群中的第j个智能体,Dij表示智能体Ai与智能体Aj间的距离,Ri表示智能体Ai的感知半径,Sπ表示虚拟邻域中心在空间中的位置,αj表示智能体Aj对应的权重,Sj表示智能体Aj在空间中的位置,Vπ表示虚拟邻域中心的速度,Vj表示智能体Aj的速度。
4.根据权利要求3所述的在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法,其特征在于,智能体Aj对应的权重αj利用以下公式计算;
Figure FDA0003219766760000021
其中,e表示自然常数。
5.根据权利要求1至4中任一项所述的在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法,其特征在于,所述预设深度神经网络包括:第一四层全连接前馈网络、第二四层全连接前馈网络、三层全连接前馈网络和一层线性网络;
所述第一四层全连接前馈网络和所述第二四层全连接前馈网络与所述三层全连接前馈网络连接,所述第一四层全连接前馈网络和所述第二四层全连接前馈网络的各个权重参数相同,所述第一四层全连接前馈网络和所述第二四层全连接前馈网络中一个以智能体的状态信息为输入,另一个以虚拟邻域中心的状态信息为输入,所述第一四层全连接前馈网络和所述第二四层全连接前馈网络的输出通过维度级联方式输入所述三层全连接前馈网络;
所述三层全连接前馈网络与所述一层线性网络连接,所述三层全连接前馈网络的输出为所述一层线性网络的输入。
6.根据权利要求5所述的在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法,其特征在于,采用位置信息和速度信息的联立向量作为四层全连接前馈网络的输入。
7.根据权利要求5所述的在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法,其特征在于,设定当前时刻为tk时刻,下一时刻为tk+1时刻;
基于群体方向一致性和群体系统稳定性构建代价函数为:
Figure FDA0003219766760000022
其中,
Figure FDA0003219766760000023
表示预设深度神经网络输出的tk+1时刻下智能体Ai的控制输出量,
Figure FDA0003219766760000024
表示训练样本对应的tk+1时刻下智能体Ai的控制输出量标签,θV表示速度偏差重要度,
Figure FDA0003219766760000025
表示tk+1时刻下虚拟邻域中心的速度,θD表示距离偏差重要度,
Figure FDA0003219766760000026
表示tk时刻下智能体Ai与虚拟邻域中心的距离,
Figure FDA0003219766760000027
表示tk+1时刻下智能体Ai与虚拟邻域中心的距离,||·||表示2范数算子。
8.根据权利要求7所述的在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法,其特征在于,速度偏差重要度和距离偏差重要度的具体数值根据智能体集群蜂拥运动的群体方向一致性和群体系统稳定性要求进行确定。
9.根据权利要求7所述的在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法,其特征在于,当要求智能体集群蜂拥运动的群体方向一致性和群体系统稳定性具有相同权重时,θV=θD=0.5。
10.根据权利要求7所述的在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法,其特征在于,当D≤Rsec时,θV=θD=0.3;
当D≥Rcoh时,θV=θD=0;
其中,D表示智能体Ai与虚拟邻域中心的距离,Rsec表示为避免智能体碰撞而设定的安全间距,Rcoh表示智能体与集群聚集时期望的平均邻域间距。
CN202110954578.0A 2021-08-19 2021-08-19 一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法 Active CN113792843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110954578.0A CN113792843B (zh) 2021-08-19 2021-08-19 一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110954578.0A CN113792843B (zh) 2021-08-19 2021-08-19 一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法

Publications (2)

Publication Number Publication Date
CN113792843A true CN113792843A (zh) 2021-12-14
CN113792843B CN113792843B (zh) 2023-07-25

Family

ID=79181818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110954578.0A Active CN113792843B (zh) 2021-08-19 2021-08-19 一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法

Country Status (1)

Country Link
CN (1) CN113792843B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106020189A (zh) * 2016-05-24 2016-10-12 武汉科技大学 基于邻域约束的空地异构机器人系统路径规划方法
US20170072565A1 (en) * 2014-05-05 2017-03-16 Georgia Tech Research Corporation Control of Swarming Robots
CN110363815A (zh) * 2019-05-05 2019-10-22 东南大学 一种单视角点云下基于实例分割的机器人抓取检测方法
CN111240356A (zh) * 2020-01-14 2020-06-05 西北工业大学 一种基于深度强化学习的无人机集群会合方法
CN112414401A (zh) * 2020-11-06 2021-02-26 北京理工大学 基于图神经网络的无人机协同定位系统及方法
CN112947084A (zh) * 2021-02-08 2021-06-11 重庆大学 一种基于强化学习的模型未知多智能体一致性控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170072565A1 (en) * 2014-05-05 2017-03-16 Georgia Tech Research Corporation Control of Swarming Robots
CN106020189A (zh) * 2016-05-24 2016-10-12 武汉科技大学 基于邻域约束的空地异构机器人系统路径规划方法
CN110363815A (zh) * 2019-05-05 2019-10-22 东南大学 一种单视角点云下基于实例分割的机器人抓取检测方法
CN111240356A (zh) * 2020-01-14 2020-06-05 西北工业大学 一种基于深度强化学习的无人机集群会合方法
CN112414401A (zh) * 2020-11-06 2021-02-26 北京理工大学 基于图神经网络的无人机协同定位系统及方法
CN112947084A (zh) * 2021-02-08 2021-06-11 重庆大学 一种基于强化学习的模型未知多智能体一致性控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QIANG ZHANG等: "Adaptive Tracking Games for Coupled Stochastic Linear Multi-Agent Systems: Stability,Optimality and Robustness", 《IEEE TRANSACTIONS ON AUTOMATIC CONTROL》, vol. 58, no. 11, pages 2862 - 2877, XP011531319, DOI: 10.1109/TAC.2013.2270869 *
黄琪: "基于强化学习的办公建筑冷源系统节能优化控制策略仿真研究", 《中国优秀硕士学位论文全文数据库》, pages 1 - 114 *

Also Published As

Publication number Publication date
CN113792843B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
Zhang et al. Collective behavior coordination with predictive mechanisms
CN110928189A (zh) 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法
Liu et al. A novel efficient learning algorithm for self-generating fuzzy neural network with applications
CN113141012B (zh) 电网潮流调控决策推理方法
Tang et al. A fusion crossover mutation sparrow search algorithm
Wang et al. Oracle-guided deep reinforcement learning for large-scale multi-UAVs flocking and navigation
Liang et al. Recent advances in particle swarm optimization via population structuring and individual behavior control
Yan et al. Path Planning for Mobile Robot's Continuous Action Space Based on Deep Reinforcement Learning
Li et al. When digital twin meets deep reinforcement learning in multi-UAV path planning
CN113792843A (zh) 一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法
Kuroki et al. Collective intelligence for 2d push manipulations with mobile robots
CN116582442A (zh) 一种基于层次化通信机制的多智能体协作方法
Butz Learning classifier systems
Tanaka et al. Action acquisition method for constructing cognitive development system through instructed learning
Kuremoto et al. Adaptive swarm behavior acquisition by a neuro‐fuzzy system and reinforcement learning algorithm
Pan et al. Bio-inspired Computing: Theories and Applications: 14th International Conference, BIC-TA 2019, Zhengzhou, China, November 22–25, 2019, Revised Selected Papers, Part I
CN113792844B (zh) 基于深度自动编码和特征融合的智能体蜂拥行为控制方法
Xinjia et al. Research on a stigmergy-driven & MAS-based method of modeling intelligent system
Rais Martínez et al. Comparison of evolutionary strategies for reinforcement learning in a swarm aggregation behaviour
Shi et al. Adaptive reinforcement q-learning algorithm for swarm-robot system using pheromone mechanism
Yang et al. Ship traffic volume forecast in bridge area based on enhanced hybrid radial basis function neural networks
Ding et al. Exercise Behavior Prediction and Injury Assessment Based on Swarm Intelligence Algorithm
Zhang et al. Optimal Path Planning for Mobile Robots in Complex Environments Based on the Grey Wolf Algorithm and Self-powered Sensors
Abdulgader Bio Inspired Evolutionary Fuzzy System for Data Classification
Kanović et al. Optimization of ship lock control system using swarm-based techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant