CN113391556B - 基于角色分配的群体分布式控制方法及装置 - Google Patents

基于角色分配的群体分布式控制方法及装置 Download PDF

Info

Publication number
CN113391556B
CN113391556B CN202110922017.2A CN202110922017A CN113391556B CN 113391556 B CN113391556 B CN 113391556B CN 202110922017 A CN202110922017 A CN 202110922017A CN 113391556 B CN113391556 B CN 113391556B
Authority
CN
China
Prior art keywords
agent
strategy
module
role
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110922017.2A
Other languages
English (en)
Other versions
CN113391556A (zh
Inventor
丘腾海
张天乐
蒲志强
刘振
朱金营
易建强
常红星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110922017.2A priority Critical patent/CN113391556B/zh
Publication of CN113391556A publication Critical patent/CN113391556A/zh
Application granted granted Critical
Publication of CN113391556B publication Critical patent/CN113391556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种基于角色分配的群体分布式控制方法及装置,方法包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到第一策略网络模型输出的各智能体的角色类型;将智能体的观测状态与各智能体的角色类型输入至第二策略网络模型中,得到第二策略网络模型输出的对应智能体的动作;控制智能体执行动作;其中,第一策略网络模型和第二策略网络模型是利用智能体样本数据进行训练得到的,其中第二策略网络模型的输入为第一策略网络模型的输出。本发明通过构建具有角色分配的第一策略网络模型结构以及构建具有基于角色类型分配相应动作的第二策略网络模型结构,实现动态不确定环境下群体无碰撞的协同控制。

Description

基于角色分配的群体分布式控制方法及装置
技术领域
本发明涉及无人群体系统协同技术领域,尤其涉及一种基于角色分配的群体分布式控制方法及装置。
背景技术
近些年,无人群体系统由于其独特优势和巨大的应用潜能吸引了众多研究者的关注,可广泛应用于仓储物流、应急救援和城市安防等。其中大部分的群体系统都是同构智能体,共同完成同一个任务,而且智能体都是比较简单,个体能力有限的,比如局部感知、局部通信和有限的机动能力等。
然而,大部分的多智能体强化学习方法在解决复杂任务中的群体协同中缺乏群体策略的扩展性和灵活性。有些方法通过群共享和学习策略网络的方式虽然具有扩展性,但随着群体中智能体数量的增多面临维数灾难的问题,尤其对于多复杂任务场景要求群体中各智能体具有多种技能,简单群共享机制的效果不佳。
目前,为解决简单群共享机制的效果不佳的问题,对复杂任务进行分解,通过为每个智能体分配子任务的方式以共同完成复杂任务。由于这种方式需要使用先验领域知识用来分解任务,并定义每个角色智能体的职责,对于动态不确定环境下的群体系统适应性较差。因此,如何构建具有群体策略扩展性和灵活性,结合先验知识,避免群体维数灾难,使得群体能够在动态不确定环境下完成群体复杂任务具有深远意义。
发明内容
本发明提供一种基于角色分配的群体分布式控制方法及装置,用以解决现有技术中由于群体策略扩展性差以及存在维数灾难以致领域知识利用适应性较差、群体系统控制效果不佳的缺陷,实现动态不确定环境下群体无碰撞的协同控制。
本发明提供一种基于角色分配的群体分布式控制方法,包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到所述第一策略网络模型输出的各智能体的角色类型;将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所述智能体的动作;控制所述智能体执行所述动作;其中,所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入为所述第一策略网络模型的输出。
根据本发明提供的一种基于角色分配的群体分布式控制方法,所述第一策略网络模型,包括:环境特征提取层,基于所述观测状态,利用第一策略感知模块提取环境特征;第一交互特征获取层,基于所述环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征;角色分析层,基于所述第一交互特征,利用第一策略角色模块和第一策略值函数模块对所述智能体进行角色分析,得到各所述智能体的角色类型。
根据本发明提供的一种基于角色分配的群体分布式控制方法,所述第一交互特征表示为:
Figure 843989DEST_PATH_IMAGE001
其中,
Figure 388103DEST_PATH_IMAGE002
表示第一交互特征,Oi表示智能体i的观测状态,
Figure 99969DEST_PATH_IMAGE003
表示组成所述第一策略 交互模块的全连接神经网络组成的函数,
Figure 514770DEST_PATH_IMAGE004
表示环境特征,
Figure 519635DEST_PATH_IMAGE005
表示局部交互信息;
根据本发明提供的一种基于角色分配的群体分布式控制方法,所述智能体i的观测状态Oi表示为:
Figure 786931DEST_PATH_IMAGE006
其中,Sj表示感知邻居智能体j的状态,N0(i)表示智能体i在感知半径D0 =2.5范围的邻居智能体个数;
所述局部交互信息
Figure 269865DEST_PATH_IMAGE005
表示为:
Figure 804751DEST_PATH_IMAGE007
其中,Nc(i)表示智能体i在通信半径Dc =3范围内的邻居智能体个数,i表示第i个 智能体,i=1,2,…,n,n表示群体中智能体的总数,
Figure 980518DEST_PATH_IMAGE008
表示通信邻居智能体j的第一交互特征;
所述各智能体的角色类型表示为 :
Figure 469530DEST_PATH_IMAGE009
其中,ρi表示所述智能体i的角色类型,ρ表示智能体i的可选角色,
Figure 21734DEST_PATH_IMAGE010
表示组成所述 第一策略角色模块的全连接神经网络组成的函数,
Figure 411127DEST_PATH_IMAGE011
表示组成所述第一策略值函数模块的 全连接神经网络组成的函数。
根据本发明提供的一种基于角色分配的群体分布式控制方法,所述第二策略网络模型,包括:状态特征提取层,基于所述智能体的观测状态,利用第二策略感知模块将所述智能体的观测状态与所述智能体的角色类型结合,获取所述智能体的状态特征;第二交互特征获取层,基于所述状态特征和第二网络交互信息,利用第二策略交互模块获得第二交互特征;动作预测层,基于所述第二交互特征,利用第二策略值函数模块和第二策略模块对所述智能体进行状态分析,得到所述智能体对应的动作。
根据本发明提供的一种基于角色分配的群体分布式控制方法,所述状态特征表示为:
Figure 757795DEST_PATH_IMAGE012
其中,
Figure 993823DEST_PATH_IMAGE013
表示智能体的状态特征,f表示多层全连接神经网络函数,
Figure 818560DEST_PATH_IMAGE014
表示组成所述 第二策略感知模块的全连接神经网络组成的函数,
Figure 328039DEST_PATH_IMAGE015
表示智能体i的角色类型;
根据本发明提供的一种基于角色分配的群体分布式控制方法,所述第二交互特征表示为:
Figure 347072DEST_PATH_IMAGE016
其中,
Figure 309212DEST_PATH_IMAGE017
表示第二交互特征,
Figure 203219DEST_PATH_IMAGE018
表示组成所述第二策略交互模块的全连接神经网络 组成的函数,
Figure 301625DEST_PATH_IMAGE013
表示环境特征,
Figure 757139DEST_PATH_IMAGE019
表示第二网络交互信息;
所述动作表示为:
Figure 206575DEST_PATH_IMAGE020
其中,αi表示所述智能体i的动作,α表示智能体i的可选动作,
Figure 373114DEST_PATH_IMAGE021
表示组成所述第二 策略模块的全连接神经网络组成的函数,
Figure 591606DEST_PATH_IMAGE022
表示组成所述第二策略值函数模块的全连接神 经网络组成的函数。
本发明还提供了一种基于角色分配的群体分布式控制装置,包括:第一策略网络模型模块,将获取的群体中的智能体的观测状态输入至第一策略网络模型模块中,得到所述第一策略网络模型模块输出的各智能体的角色类型;第二策略网络模型模块,将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型模块中,得到所述第二策略网络模型模块输出的对应所述智能体的动作;控制所述智能体执行所述动作;其中,所述第一策略网络模型模块和所述第二策略网络模型模块是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型模块的输入为所述第一策略网络模型模块的输出。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于角色分配的群体分布式控制方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于角色分配的群体分布式控制方法的步骤。
本发明提供的基于角色分配的群体分布式控制方法及装置,通过第一策略网络模型动态分配群体中各智能体的角色,再通过第二策略网络基于群体中各智能体被分配的角色获取群体中各智能体的基本动作,以执行智能体相应角色的所需执行的动作;通过构建具有角色分配的第一策略网络模型结构以及构建具有基于角色类型分配相应动作的第二策略网络模型结构,实现动态不确定环境下群体无碰撞的协同控制。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于角色分配的群体分布式控制方法的流程示意图;
图2是本发明实施例提供的基于角色分配的群体分布式控制方法的网络示意图;
图3是本发明分配提供的一种基于角色分配的群体分布式控制方法的仿真示意图;
图4是本发明分配提供的基于角色分配的群体分布式控制装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了一种基于角色分配的群体分布式控制方法的流程示意图,该方法包括:
S01,将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到第一策略网络模型输出的各智能体的角色类型;
S02,将智能体的观测状态与各智能体的角色类型输入至第二策略网络模型中,得到第二策略网络模型输出的对应智能体的动作;
控制智能体执行动作;
其中,第一策略网络模型和第二策略网络模型是利用智能体样本数据进行训练得到的,其中第二策略网络模型的输入为第一策略网络模型的输出。
需要说明的是,本说明书中的S0N不代表基于角色分配的群体分布式控制方法的先后顺序,下面结合图2-图3具体描述本发明的基于角色分配的群体分布式控制割方法。
步骤S01,将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到第一策略网络模型输出的各智能体的角色类型。
在本实施例中,为了使第一策略网络模型用于分布式动态分配群体中的角色,第一策略网络模型,包括:环境特征提取层,基于观测状态,利用第一策略感知模块提取环境特征;第一交互特征获取层,基于环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征;角色分析层,基于第一交互特征,利用第一策略角色模块和第一策略值函数模块对智能体进行角色分析,得到各智能体的角色类型。
具体而言,首先,环境特征提取层,基于观测状态,利用第一策略感知模块提取环境特征。需要说明的是,第一策略感知模块采用图注意力网络结构,用于提取智能体与环境的空间特征。
另外,智能体i的观测状态Oi表示为:
Figure 952443DEST_PATH_IMAGE006
其中,Sj表示感知邻居智能体j的状态,N0(i)表示智能体i在感知半径D0 =2.5范围的邻居智能体个数。
其次,第一交互特征获取层,基于环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征。需要说明的是,第一策略交互模块采用图注意力网络结构,通过局部交互信息与周围同构智能体协商角色分配,且能够处理不确定智能体数量的信息。
在一个可选实施例中,第一策略交互模块包括至少两层全连接神经网络。
本实施例中,局部交互信息
Figure 889175DEST_PATH_IMAGE005
表示为:
Figure 124984DEST_PATH_IMAGE007
其中,Nc(i)表示智能体i在通信半径Dc =3范围内的邻居智能体个数,i表示第i个 智能体,i=1,2,…,n,n表示群体中智能体的总数,
Figure 197982DEST_PATH_IMAGE008
表示通信邻居智能体j的第一交互特征。
另外,第一交互特征表示为:
Figure RE-119432DEST_PATH_IMAGE001
其中,所述
Figure RE-759361DEST_PATH_IMAGE002
表示第一交互特征,Oi表示智能体i的观测状态,
Figure RE-370733DEST_PATH_IMAGE003
表示组成所述第一 策略交互模块的全连接神经网络组成的函数,
Figure RE-273967DEST_PATH_IMAGE004
表示环境特征,
Figure RE-451350DEST_PATH_IMAGE023
表示局部交互信息。
最后,角色分析层,基于第一交互特征,利用第一策略角色模块和第一策略值函数模块对智能体进行角色分析,得到各智能体的角色类型。应当注意,第一策略角色模块和第一策略值函数模块采用策略函数-评价函数Actor-Critic架构,利用分布式方法执行。另外,第一策略值函数模块用于评估第一策略角色模块输出的各智能体的角色类型,第一策略角色模块作为第一策略,用于选择各智能体的角色类型分配给群体中智能体。
本实施例中,各智能体的角色类型表示为 :
Figure 775310DEST_PATH_IMAGE009
其中,ρi表示所述智能体i的角色类型,ρ表示智能体i的可选角色,
Figure 324365DEST_PATH_IMAGE010
表示组成所述 第一策略角色模块的全连接神经网络组成的函数,
Figure 696441DEST_PATH_IMAGE011
表示组成所述第一策略值函数模块的 全连接神经网络组成的函数。
步骤S02,将智能体的观测状态与各智能体的角色类型输入至第二策略网络模型中,得到第二策略网络模型输出的对应智能体的动作;控制智能体执行动作;其中,第一策略网络模型和第二策略网络模型是利用智能体样本数据进行训练得到的,其中第二策略网络模型的输入为第一策略网络模型的输出。
本实施例中,为了使第二策略网络基于群体中的角色获取群体中各智能体的动作,以使智能体分配角色后执行相应任务,第二策略网络模型,包括:状态特征提取层,基于智能体的观测状态,利用第二策略感知模块将智能体的观测状态与各智能体的角色类型结合,获取智能体的状态特征;第二交互特征获取层,基于状态特征和第二网络交互信息,利用第二策略交互模块获得第二交互特征;动作预测层,基于第二交互特征,利用第二策略值函数模块和第二策略模块对智能体进行状态分析,得到智能体对应的动作。
具体而言,首先,状态特征提取层,基于智能体的观测状态,利用第二策略感知模块提取智能体的观测状态特征表征,并将其与各智能体的角色类型结合,获取智能体的状态特征。
本实施例中,状态特征表示为:
Figure 829482DEST_PATH_IMAGE012
其中,
Figure 945205DEST_PATH_IMAGE013
表示智能体的状态特征,f表示多层全连接神经网络函数,
Figure 348767DEST_PATH_IMAGE014
表示组成第二 策略感知模块的全连接神经网络组成的函数,
Figure 157323DEST_PATH_IMAGE015
表示智能体i的角色类型。
其次,第二交互特征获取层,基于状态特征和第二网络交互信息,利用第二策略交互模块获得第二交互特征。
本实施例中,第二交互特征表示为:
Figure 512081DEST_PATH_IMAGE016
其中,
Figure 431496DEST_PATH_IMAGE024
表示第二交互特征,
Figure 707142DEST_PATH_IMAGE018
表示组成所述第二策略交互模块的全连接神经网络 组成的函数,
Figure 421020DEST_PATH_IMAGE013
表示环境特征,
Figure 794233DEST_PATH_IMAGE019
表示第二网络交互信息。
最后,动作预测层,基于第二交互特征,利用第二策略值函数模块和第二策略模块对智能体进行状态分析,得到智能体对应的动作。应当注意,第二策略模块和第二策略值函数模块采用策略函数-评价函数Actor-Critic架构,利用分布式方法执行。另外,第二策略值函数模块用于评估第二策略模块输出的动作,第二策略模块作为第二策略,用于选择基本动作控制所述群体中智能体。
本实施例中,动作表示为:
Figure 251759DEST_PATH_IMAGE020
其中,αi表示所述智能体i的动作,α表示智能体i的可选动作,
Figure 364334DEST_PATH_IMAGE021
表示组成所述第二 策略模块的全连接神经网络组成的函数,
Figure 514692DEST_PATH_IMAGE022
表示组成所述第二策略值函数模块的全连接神 经网络组成的函数。
参考图2,在一个可选实施例中,该方法还包括:训练第一策略网络模型和第二策略网络模型,具体包括:
S11,训练第一策略网络模型,得到第一策略网络模型输出的预测角色;
S12,训练第二策略网络模型,得到第二策略网络模型输出的智能体的训练动作;
S13,基于智能体的训练动作得到机动轨迹,并将其输入至角色识别网络,得到角色识别网络输出的智能体角色分布概率;
S14,根据角色分布概率以及第一策略网络模型输出的预测角色,进行交叉熵损失函数计算,并基于损失函数收敛,结束训练。
具体而言,首先,执行步骤S11,训练第一策略网络模型,得到第一策略网络模型输出的预测角色。
本实施例中,训练第一策略网络模型,包括:利用分布式方法训练和执行,为提高训练效率,训练方式采用课程学习的方法,且每k=5个时间单位训练或执行一次,训练时的第一外部奖惩函数表示为:
Figure 844042DEST_PATH_IMAGE025
其中,R表示群体团队奖励;
Figure 606724DEST_PATH_IMAGE026
,t表示为时间。
需要说明的是,课程学习方法为先利用智能体样本数据中群体个数较小的群体进行训练,直至训练的覆盖任务成功率大于90%时,逐步增加群体中智能体的个数,直至群体智能体总数达到要求的为止。
在一个可选实施例中,群体中的智能体个数为12。
其次,执行步骤S12,训练第二策略网络模型,得到第二策略网络模型输出的智能体的训练动作。
本实施例中,训练第二策略网络模型,包括:利用分布式方法训练和执行,为提高训练效率,训练方式采用课程学习的方法训练第二策略网络模型,且所述第二策略值函数模块用于评估所述第二策略模块输出的动作,所述第二策略模块作为第二策略,用于选择基本动作控制所述群体中智能体,训练时的第二外部奖惩函数表示为:
Figure 337920DEST_PATH_IMAGE027
Figure 659180DEST_PATH_IMAGE028
其中,RL表示群体团队奖励,用于保证所生成的群体行为对于团队性能是有用的, RI表示第二内部奖励,用于提升角色与其责任的关联,使得角色类型通过智能体的长期行 为特征被识别出来,
Figure 210247DEST_PATH_IMAGE029
表示变分后验估计函数,用于近似估计真是的后验概率,
Figure 42199DEST_PATH_IMAGE030
表示智能体 i的轨迹。
随后,执行步骤S13,基于智能体的训练动作得到机动轨迹,并将其输入至角色识别网络,得到角色识别网络输出的智能体角色分布概率。
需要说明的是,在训练过程中,角色识别模型的输入采用群体中能听的机动轨迹, 利用第二感知模块处理所述机动轨迹的观测状态,基于门循环单元编码所述机动轨迹信 息,且角色识别网络的参数更新集为D,
Figure 893480DEST_PATH_IMAGE031
;角色识别网络输出为智能体i的 角色分布概率q
Figure 120062DEST_PATH_IMAGE032
,与所述智能体i的各智能体的角色类型
Figure 424005DEST_PATH_IMAGE033
相结合,用于计算更新交叉熵 损失函数Lq
本实施例中,角色识别网络包括角色感知模块、GRU网络和FC网络,其中,GRU作为LSTM的一种变体,将忘记门和输入门合成了一个单一的更新门;FC 网络是一种新发展的与传统的TCP/IP网络并列的一种高速网络。它有自己的地址分配和网络管理的体系。
最后,执行步骤S14,根据角色分布概率以及第一策略网络模型输出的预测角色,进行交叉熵损失函数计算,并基于损失函数收敛,结束训练。
本实施例中,交叉熵损失函数Lq表示为:
Figure 788209DEST_PATH_IMAGE034
其中,
Figure 228418DEST_PATH_IMAGE033
表示为第一策略网络模型输出的预测角色,
Figure 891480DEST_PATH_IMAGE035
表示为变分后验估计函数
Figure 417139DEST_PATH_IMAGE029
的 输出,并以此更新角色识别网络的权重参数。
在一个可选实施例中,参考图3,场景1中黑色圆点表示覆盖任务目标点,其余颜色表示群体中的智能体,不同颜色表示所分配的角色类型,相同颜色的智能体分配相同的角色,共同完成覆盖任务中的1个子区域任务。场景2中覆盖目标点分布较为密集,以便于快速实现群体协同控制完成覆盖任务,成功覆盖的概率接近100%。与其他方法相比,本发明的方法进行群体协同控制的成功率等指标均优于现有方法。
综上所述,本发明通过第一策略网络模型动态分配群体中各智能体的角色,再通过第二策略网络基于群体中各智能体被分配的角色获取群体中各智能体的基本动作,以执行智能体相应角色的所需执行的动作;通过构建具有角色分配的第一策略网络模型结构以及构建具有基于角色类型分配相应动作的第二策略网络模型结构,实现动态不确定环境下群体无碰撞的协同控制。
下面对本发明提供的基于角色分配的群体分布式控制装置进行描述,下文描述的基于角色分配的群体分布式控制装置与上文描述的基于角色分配的群体分布式控制方法可相互对应参照。
图4示出了一种基于角色分配的群体分布式控制装置的结构示意图,该装置包括:
第一策略网络模型模块41,将获取的群体中的智能体的观测状态输入至第一策略网络模型模块中,得到第一策略网络模型模块输出的各智能体的角色类型;
第二策略网络模型模块42,将智能体的观测状态与各智能体的角色类型输入至第二策略网络模型模块中,得到第二策略网络模型模块输出的对应智能体的动作;
控制智能体执行动作;
其中,第一策略网络模型模块41和第二策略网络模型模块42是利用智能体样本数据进行训练得到的,其中第二策略网络模型模块42的输入为第一策略网络模型模块41的输出。
在本实施例中,为了使第一策略网络模型用于分布式动态分配群体中的角色,第一策略网络模型模块41,包括:环境特征提取单元,基于观测状态,利用第一策略感知模块提取环境特征;第一交互特征获取单元,基于环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征;角色分析单元,基于第一交互特征,利用第一策略角色模块和第一策略值函数模块对智能体进行角色分析,得到各智能体的角色类型。
为了使第二策略网络基于群体中的角色获取群体中各智能体的动作,以使智能体分配角色后执行相应任务,第二策略网络模型模块42,包括:状态特征提取单元,基于智能体的观测状态,利用第二策略感知模块将智能体的观测状态与智能体的角色类型结合,获取智能体的状态特征;第二交互特征获取单元,基于状态特征和第二网络交互信息,利用第二策略交互模块获得第二交互特征;动作预测单元,基于第二交互特征,利用第二策略值函数模块和第二策略模块对智能体进行状态分析,得到智能体对应的动作。
在一个可选实施例中,该装置还包括:角色识别网络模块,基于智能体的训练动作得到机动轨迹智能体角色分布概率;损失函数计算模块,根据角色分布概率以及第一策略网络模型输出的预测角色,进行交叉熵损失函数计算。需要说明的是,通过交叉熵损失函数收敛,判断训练结束。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)51、通信接口(Communications Interface)52、存储器(memory)53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信。处理器51可以调用存储器53中的逻辑指令,以执行基于角色分配的群体分布式控制方法,该方法包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到所述第一策略网络模型输出的各智能体的角色类型;将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所述智能体的动作;控制所述智能体执行所述动作;其中,所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入为所述第一策略网络模型的输出。
此外,上述的存储器53中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于角色分配的群体分布式控制方法,该方法包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到所述第一策略网络模型输出的各智能体的角色类型;将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所述智能体的动作;控制所述智能体执行所述动作;其中,所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入为所述第一策略网络模型的输出。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于角色分配的群体分布式控制方法,该方法包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到所述第一策略网络模型输出的各智能体的角色类型;将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所述智能体的动作;控制所述智能体执行所述动作;其中,所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入为所述第一策略网络模型的输出。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于角色分配的群体分布式控制方法,其特征在于,包括:
将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到所述第一策略网络模型输出的各智能体的角色类型;
将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所述智能体的动作;
控制所述智能体执行所述动作;
其中,所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入为所述第一策略网络模型的输出;
所述第一策略网络模型,包括:
环境特征提取层,基于所述观测状态,利用第一策略感知模块提取环境特征;
第一交互特征获取层,基于所述环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征;
角色分析层,基于所述第一交互特征,利用第一策略角色模块和第一策略值函数模块对所述智能体进行角色分析,得到各所述智能体的角色类型;所述各智能体的角色类型表示为:
Figure 933305DEST_PATH_IMAGE001
其中,ρi表示所述智能体i的角色类型,ρ表示智能体i的可选角色,
Figure 611411DEST_PATH_IMAGE002
表示组成所述第一策略角色模块的全连接神经网络组成的函数,
Figure 45935DEST_PATH_IMAGE003
表示组成所述第一策略值函数模块的全连接神经网络组成的函数,
Figure 758676DEST_PATH_IMAGE004
表示第一交互特征;
所述第二策略网络模型,包括:
状态特征提取层,基于所述智能体的观测状态,利用第二策略感知模块将所述智能体的观测状态与所述智能体的角色类型结合,获取所述智能体的状态特征;
第二交互特征获取层,基于所述状态特征和第二网络交互信息,利用第二策略交互模块获得第二交互特征;
动作预测层,基于所述第二交互特征,利用第二策略值函数模块和第二策略模块对所述智能体进行状态分析,得到所述智能体对应的动作;所述动作表示为:
Figure 948349DEST_PATH_IMAGE005
其中,αi表示所述智能体i的动作,α表示智能体i的可选动作,
Figure 520276DEST_PATH_IMAGE006
表示组成所述第二策略模块的全连接神经网络组成的函数,
Figure 617545DEST_PATH_IMAGE007
表示组成所述第二策略值函数模块的全连接神经网络组成的函数,
Figure 388055DEST_PATH_IMAGE008
表示第二交互特征。
2.根据权利要求1所述的基于角色分配的群体分布式控制方法,其特征在于,所述第一交互特征表示为:
Figure 919268DEST_PATH_IMAGE009
其中,
Figure 837545DEST_PATH_IMAGE010
表示第一交互特征,Oi表示智能体i的观测状态,
Figure 613871DEST_PATH_IMAGE011
表示组成所述第一策略交互模块的全连接神经网络组成的函数,
Figure 301205DEST_PATH_IMAGE012
表示环境特征,
Figure 832680DEST_PATH_IMAGE013
表示局部交互信息。
3.根据权利要求1所述的基于角色分配的群体分布式控制方法,其特征在于,所述智能体i的观测状态Oi表示为:
Figure 113620DEST_PATH_IMAGE014
其中,Sj表示感知邻居智能体j的状态,N0(i)表示智能体i在感知半径D0 =2.5范围的邻居智能体个数;
所述局部交互信息
Figure 552691DEST_PATH_IMAGE015
表示为:
Figure 297794DEST_PATH_IMAGE016
其中,Nc(i)表示智能体i在通信半径Dc =3范围内的邻居智能体个数,i表示第i个智能体,i=1,2,…,n,n表示群体中智能体的总数,
Figure 672274DEST_PATH_IMAGE017
表示通信邻居智能体j的第一交互特征。
4.根据权利要求1所述的基于角色分配的群体分布式控制方法,其特征在于,所述状态特征表示为:
Figure 565144DEST_PATH_IMAGE018
其中,
Figure 11169DEST_PATH_IMAGE019
表示智能体的状态特征,f表示多层全连接神经网络函数,
Figure 49925DEST_PATH_IMAGE020
表示组成所述第二策略感知模块的全连接神经网络组成的函数,
Figure 719941DEST_PATH_IMAGE021
表示智能体i的角色类型。
5.根据权利要求1所述的基于角色分配的群体分布式控制方法,其特征在于,所述第二交互特征表示为:
Figure 709894DEST_PATH_IMAGE022
其中,
Figure 959610DEST_PATH_IMAGE023
表示第二交互特征,
Figure 476041DEST_PATH_IMAGE024
表示组成所述第二策略交互模块的全连接神经网络组成的函数,
Figure 457904DEST_PATH_IMAGE025
表示环境特征,
Figure 794207DEST_PATH_IMAGE026
表示第二网络交互信息。
6.一种基于角色分配的群体分布式控制装置,其特征在于,包括:
第一策略网络模型模块,将获取的群体中的智能体的观测状态输入至第一策略网络模型模块中,得到所述第一策略网络模型模块输出的各智能体的角色类型;
第二策略网络模型模块,将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型模块中,得到所述第二策略网络模型模块输出对应所述智能体的动作;
控制所述智能体执行所述动作;
其中,所述第一策略网络模型模块和所述第二策略网络模型模块是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型模块的输入为所述第一策略网络模型模块的输出;
所述第一策略网络模型模块,包括:
环境特征提取单元,基于所述观测状态,利用第一策略感知模块提取环境特征;
第一交互特征获取单元,基于所述环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征;
角色分析单元,基于所述第一交互特征,利用第一策略角色模块和第一策略值函数模块对所述智能体进行角色分析,得到各所述智能体的角色类型;所述各智能体的角色类型表示为:
Figure 582035DEST_PATH_IMAGE001
其中,ρi表示所述智能体i的角色类型,ρ表示智能体i的可选角色,
Figure 828340DEST_PATH_IMAGE002
表示组成所述第一策略角色模块的全连接神经网络组成的函数,
Figure 105737DEST_PATH_IMAGE003
表示组成所述第一策略值函数模块的全连接神经网络组成的函数,
Figure 568817DEST_PATH_IMAGE004
表示第一交互特征;
所述第二策略网络模型,包括:
状态特征提取单元,基于所述智能体的观测状态,利用第二策略感知模块将所述智能体的观测状态与所述智能体的角色类型结合,获取所述智能体的状态特征;
第二交互特征获取单元,基于所述状态特征和第二网络交互信息,利用第二策略交互模块获得第二交互特征;
动作预测单元,基于所述第二交互特征,利用第二策略值函数模块和第二策略模块对所述智能体进行状态分析,得到所述智能体对应的动作;所述动作表示为:
Figure 894756DEST_PATH_IMAGE027
其中,
Figure 651360DEST_PATH_IMAGE028
表示所述智能体i的动作,α表示智能体i的可选动作,
Figure 709446DEST_PATH_IMAGE029
表示组成所述第二策略模块的全连接神经网络组成的函数,
Figure 223604DEST_PATH_IMAGE007
表示组成所述第二策略值函数模块的全连接神经网络组成的函数,
Figure 149971DEST_PATH_IMAGE008
表示第二交互特征。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述基于角色分配的群体分布式控制方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于角色分配的群体分布式控制方法的步骤。
CN202110922017.2A 2021-08-12 2021-08-12 基于角色分配的群体分布式控制方法及装置 Active CN113391556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110922017.2A CN113391556B (zh) 2021-08-12 2021-08-12 基于角色分配的群体分布式控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110922017.2A CN113391556B (zh) 2021-08-12 2021-08-12 基于角色分配的群体分布式控制方法及装置

Publications (2)

Publication Number Publication Date
CN113391556A CN113391556A (zh) 2021-09-14
CN113391556B true CN113391556B (zh) 2021-12-07

Family

ID=77622666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110922017.2A Active CN113391556B (zh) 2021-08-12 2021-08-12 基于角色分配的群体分布式控制方法及装置

Country Status (1)

Country Link
CN (1) CN113391556B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113985924B (zh) * 2021-12-27 2022-04-08 中国科学院自动化研究所 飞行器控制方法、装置、设备及计算机可读存储介质
CN116777402B (zh) * 2023-06-19 2024-01-30 华东师范大学 一种基于元认知的面向群体协作的个性化角色定位方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103301630A (zh) * 2013-06-16 2013-09-18 西安科技大学 足球机器人协调与合作控制方法及系统
CN106964145A (zh) * 2017-03-28 2017-07-21 南京邮电大学 一种仿人足球机器人传球控制方法及球队控球方法
CN108259250A (zh) * 2018-02-28 2018-07-06 哈尔滨理工大学 一种多智能体一致性采样方法
CN110278249A (zh) * 2019-05-30 2019-09-24 天津神兔未来科技有限公司 一种分布式群体智能系统
CN110471297A (zh) * 2019-07-30 2019-11-19 清华大学 多智能体协同控制方法、系统及设备
CN110554709A (zh) * 2019-09-06 2019-12-10 哈尔滨工业大学(深圳) 一种分布式的仿生的多智能体自主集群控制方法
CN110882544A (zh) * 2019-11-28 2020-03-17 网易(杭州)网络有限公司 多智能体训练方法、装置和电子设备
CN110930483A (zh) * 2019-11-20 2020-03-27 腾讯科技(深圳)有限公司 一种角色控制的方法、模型训练的方法以及相关装置
CN111514585A (zh) * 2020-03-17 2020-08-11 清华大学 智能体的控制方法及系统、计算机装置以及存储介质
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
CN112180724A (zh) * 2020-09-25 2021-01-05 中国人民解放军军事科学院国防科技创新研究院 一种在干扰条件下多智能体协同合作的训练方法及系统
CN112379992A (zh) * 2020-12-04 2021-02-19 中国科学院自动化研究所 基于角色的多智能体任务协同消息传递及异常处理方法
CN112381454A (zh) * 2020-12-04 2021-02-19 中国科学院自动化研究所 基于角色的多智能体任务协同系统
CN112488320A (zh) * 2020-09-25 2021-03-12 中国人民解放军军事科学院国防科技创新研究院 一种针对复杂条件下多智能体的训练方法及系统
CN113095498A (zh) * 2021-03-24 2021-07-09 北京大学 基于散度的多智能体合作学习方法、装置、设备及介质
CN113128657A (zh) * 2021-06-17 2021-07-16 中国科学院自动化研究所 多智能体行为决策方法、装置、电子设备和存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103301630A (zh) * 2013-06-16 2013-09-18 西安科技大学 足球机器人协调与合作控制方法及系统
CN106964145A (zh) * 2017-03-28 2017-07-21 南京邮电大学 一种仿人足球机器人传球控制方法及球队控球方法
CN108259250A (zh) * 2018-02-28 2018-07-06 哈尔滨理工大学 一种多智能体一致性采样方法
CN110278249A (zh) * 2019-05-30 2019-09-24 天津神兔未来科技有限公司 一种分布式群体智能系统
CN110471297A (zh) * 2019-07-30 2019-11-19 清华大学 多智能体协同控制方法、系统及设备
CN110554709A (zh) * 2019-09-06 2019-12-10 哈尔滨工业大学(深圳) 一种分布式的仿生的多智能体自主集群控制方法
CN110930483A (zh) * 2019-11-20 2020-03-27 腾讯科技(深圳)有限公司 一种角色控制的方法、模型训练的方法以及相关装置
CN110882544A (zh) * 2019-11-28 2020-03-17 网易(杭州)网络有限公司 多智能体训练方法、装置和电子设备
CN111514585A (zh) * 2020-03-17 2020-08-11 清华大学 智能体的控制方法及系统、计算机装置以及存储介质
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
CN112180724A (zh) * 2020-09-25 2021-01-05 中国人民解放军军事科学院国防科技创新研究院 一种在干扰条件下多智能体协同合作的训练方法及系统
CN112488320A (zh) * 2020-09-25 2021-03-12 中国人民解放军军事科学院国防科技创新研究院 一种针对复杂条件下多智能体的训练方法及系统
CN112379992A (zh) * 2020-12-04 2021-02-19 中国科学院自动化研究所 基于角色的多智能体任务协同消息传递及异常处理方法
CN112381454A (zh) * 2020-12-04 2021-02-19 中国科学院自动化研究所 基于角色的多智能体任务协同系统
CN113095498A (zh) * 2021-03-24 2021-07-09 北京大学 基于散度的多智能体合作学习方法、装置、设备及介质
CN113128657A (zh) * 2021-06-17 2021-07-16 中国科学院自动化研究所 多智能体行为决策方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Autonomous Navigation with Improved Hierarchical Neural Network Based on Deep Reinforcement Learning;Haiying Zhang 等;《2019 Chinese Control Conference (CCC)》;20191231;全文 *
基于角色分配的多智能体决策算法研究;陈杰 等;《电子设计工程》;20190731;第27卷(第14期);第117-120,125页 *

Also Published As

Publication number Publication date
CN113391556A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN113391556B (zh) 基于角色分配的群体分布式控制方法及装置
CN109635917B (zh) 一种多智能体合作决策及训练方法
Yu et al. Optimizing task scheduling in human-robot collaboration with deep multi-agent reinforcement learning
CN110852448A (zh) 一种基于多智能体强化学习的合作型智能体的学习方法
CN105729491B (zh) 机器人任务的执行方法、装置及系统
CN108921298B (zh) 强化学习多智能体沟通与决策方法
Haykin et al. Cognitive control
CN112329948A (zh) 一种多智能体策略预测方法及装置
CN113128657B (zh) 多智能体行为决策方法、装置、电子设备和存储介质
CN110782004B (zh) 模型训练方法、模型调用方法、设备及可读存储介质
Wang et al. A task allocation algorithm for a swarm of unmanned aerial vehicles based on bionic wolf pack method
CN109147396A (zh) 机场停机位的分配方法及装置
CN109407644A (zh) 一种用于制造企业多Agent协同控制方法及系统
Sarfraz et al. Sparse coding in a dual memory system for lifelong learning
CN114757362B (zh) 一种基于边缘增强的多智能体系统通信方法及相关装置
CN116187787B (zh) 作战资源跨域调配问题的智能规划方法
Xia et al. Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning
CN113627596A (zh) 基于动态图神经网络的多智能体对抗方法及系统
CN108205266A (zh) 基于信息流的指挥决策建模方法及存储介质
Tan et al. Proximal policy based deep reinforcement learning approach for swarm robots
CN114676846A (zh) 一种多智能体强化学习方法及系统
Pagliuca et al. N-Mates Evaluation: a New Method to Improve the Performance of Genetic Algorithms in Heterogeneous Multi-Agent Systems.
CN114298302A (zh) 智能体任务学习方法及装置
CN116047902A (zh) 一种机器人在人群中导航的方法、装置、设备及存储介质
CN112396501B (zh) 一种基于交互式强化学习的订单分派方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant