CN113391556B

CN113391556B - 基于角色分配的群体分布式控制方法及装置

Info

Publication number: CN113391556B
Application number: CN202110922017.2A
Authority: CN
Inventors: 丘腾海; 张天乐; 蒲志强; 刘振; 朱金营; 易建强; 常红星
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-12-07
Anticipated expiration: 2041-08-12
Also published as: CN113391556A

Abstract

本发明提供一种基于角色分配的群体分布式控制方法及装置，方法包括：将获取的群体中的智能体的观测状态输入至第一策略网络模型中，得到第一策略网络模型输出的各智能体的角色类型；将智能体的观测状态与各智能体的角色类型输入至第二策略网络模型中，得到第二策略网络模型输出的对应智能体的动作；控制智能体执行动作；其中，第一策略网络模型和第二策略网络模型是利用智能体样本数据进行训练得到的，其中第二策略网络模型的输入为第一策略网络模型的输出。本发明通过构建具有角色分配的第一策略网络模型结构以及构建具有基于角色类型分配相应动作的第二策略网络模型结构，实现动态不确定环境下群体无碰撞的协同控制。

Description

基于角色分配的群体分布式控制方法及装置

技术领域

本发明涉及无人群体系统协同技术领域，尤其涉及一种基于角色分配的群体分布式控制方法及装置。

背景技术

近些年，无人群体系统由于其独特优势和巨大的应用潜能吸引了众多研究者的关注，可广泛应用于仓储物流、应急救援和城市安防等。其中大部分的群体系统都是同构智能体，共同完成同一个任务，而且智能体都是比较简单，个体能力有限的，比如局部感知、局部通信和有限的机动能力等。

然而，大部分的多智能体强化学习方法在解决复杂任务中的群体协同中缺乏群体策略的扩展性和灵活性。有些方法通过群共享和学习策略网络的方式虽然具有扩展性，但随着群体中智能体数量的增多面临维数灾难的问题，尤其对于多复杂任务场景要求群体中各智能体具有多种技能，简单群共享机制的效果不佳。

目前，为解决简单群共享机制的效果不佳的问题，对复杂任务进行分解，通过为每个智能体分配子任务的方式以共同完成复杂任务。由于这种方式需要使用先验领域知识用来分解任务，并定义每个角色智能体的职责，对于动态不确定环境下的群体系统适应性较差。因此，如何构建具有群体策略扩展性和灵活性，结合先验知识，避免群体维数灾难，使得群体能够在动态不确定环境下完成群体复杂任务具有深远意义。

发明内容

本发明提供一种基于角色分配的群体分布式控制方法及装置，用以解决现有技术中由于群体策略扩展性差以及存在维数灾难以致领域知识利用适应性较差、群体系统控制效果不佳的缺陷，实现动态不确定环境下群体无碰撞的协同控制。

本发明提供一种基于角色分配的群体分布式控制方法，包括：将获取的群体中的智能体的观测状态输入至第一策略网络模型中，得到所述第一策略网络模型输出的各智能体的角色类型；将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中，得到所述第二策略网络模型输出的对应所述智能体的动作；控制所述智能体执行所述动作；其中，所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的，其中所述第二策略网络模型的输入为所述第一策略网络模型的输出。

根据本发明提供的一种基于角色分配的群体分布式控制方法，所述第一策略网络模型，包括：环境特征提取层，基于所述观测状态，利用第一策略感知模块提取环境特征；第一交互特征获取层，基于所述环境特征获取得到的局部交互信息，利用第一策略交互模块获得第一交互特征；角色分析层，基于所述第一交互特征，利用第一策略角色模块和第一策略值函数模块对所述智能体进行角色分析，得到各所述智能体的角色类型。

根据本发明提供的一种基于角色分配的群体分布式控制方法，所述第一交互特征表示为：

其中，

表示第一交互特征，O_i表示智能体i的观测状态，

表示组成所述第一策略交互模块的全连接神经网络组成的函数，

表示环境特征，

表示局部交互信息；

根据本发明提供的一种基于角色分配的群体分布式控制方法，所述智能体i的观测状态O_i表示为：

其中，S_j表示感知邻居智能体j的状态，N⁰(i)表示智能体i在感知半径D⁰ =2.5范围的邻居智能体个数；

所述局部交互信息

表示为：

其中，N^c(i)表示智能体i在通信半径D^c =3范围内的邻居智能体个数，i表示第i个智能体，i=1,2,…,n，n表示群体中智能体的总数，

表示通信邻居智能体j的第一交互特征；

所述各智能体的角色类型表示为：

其中，ρ_i表示所述智能体i的角色类型，ρ表示智能体i的可选角色，

表示组成所述第一策略角色模块的全连接神经网络组成的函数，

表示组成所述第一策略值函数模块的全连接神经网络组成的函数。

根据本发明提供的一种基于角色分配的群体分布式控制方法，所述第二策略网络模型，包括：状态特征提取层，基于所述智能体的观测状态，利用第二策略感知模块将所述智能体的观测状态与所述智能体的角色类型结合，获取所述智能体的状态特征；第二交互特征获取层，基于所述状态特征和第二网络交互信息，利用第二策略交互模块获得第二交互特征；动作预测层，基于所述第二交互特征，利用第二策略值函数模块和第二策略模块对所述智能体进行状态分析，得到所述智能体对应的动作。

根据本发明提供的一种基于角色分配的群体分布式控制方法，所述状态特征表示为：

其中，

表示智能体的状态特征，f表示多层全连接神经网络函数，

表示组成所述第二策略感知模块的全连接神经网络组成的函数，

表示智能体i的角色类型；

根据本发明提供的一种基于角色分配的群体分布式控制方法，所述第二交互特征表示为：

其中，

表示第二交互特征，

表示组成所述第二策略交互模块的全连接神经网络组成的函数，

表示环境特征，

表示第二网络交互信息；

所述动作表示为：

其中，α_i表示所述智能体i的动作，α表示智能体i的可选动作，

表示组成所述第二策略模块的全连接神经网络组成的函数，

表示组成所述第二策略值函数模块的全连接神经网络组成的函数。

本发明还提供了一种基于角色分配的群体分布式控制装置，包括：第一策略网络模型模块，将获取的群体中的智能体的观测状态输入至第一策略网络模型模块中，得到所述第一策略网络模型模块输出的各智能体的角色类型；第二策略网络模型模块，将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型模块中，得到所述第二策略网络模型模块输出的对应所述智能体的动作；控制所述智能体执行所述动作；其中，所述第一策略网络模型模块和所述第二策略网络模型模块是利用智能体样本数据进行训练得到的，其中所述第二策略网络模型模块的输入为所述第一策略网络模型模块的输出。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于角色分配的群体分布式控制方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于角色分配的群体分布式控制方法的步骤。

本发明提供的基于角色分配的群体分布式控制方法及装置，通过第一策略网络模型动态分配群体中各智能体的角色，再通过第二策略网络基于群体中各智能体被分配的角色获取群体中各智能体的基本动作，以执行智能体相应角色的所需执行的动作；通过构建具有角色分配的第一策略网络模型结构以及构建具有基于角色类型分配相应动作的第二策略网络模型结构，实现动态不确定环境下群体无碰撞的协同控制。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于角色分配的群体分布式控制方法的流程示意图；

图2是本发明实施例提供的基于角色分配的群体分布式控制方法的网络示意图；

图3是本发明分配提供的一种基于角色分配的群体分布式控制方法的仿真示意图；

图4是本发明分配提供的基于角色分配的群体分布式控制装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了一种基于角色分配的群体分布式控制方法的流程示意图，该方法包括：

S01，将获取的群体中的智能体的观测状态输入至第一策略网络模型中，得到第一策略网络模型输出的各智能体的角色类型；

S02，将智能体的观测状态与各智能体的角色类型输入至第二策略网络模型中，得到第二策略网络模型输出的对应智能体的动作；

控制智能体执行动作；

其中，第一策略网络模型和第二策略网络模型是利用智能体样本数据进行训练得到的，其中第二策略网络模型的输入为第一策略网络模型的输出。

需要说明的是，本说明书中的S0N不代表基于角色分配的群体分布式控制方法的先后顺序，下面结合图2-图3具体描述本发明的基于角色分配的群体分布式控制割方法。

步骤S01，将获取的群体中的智能体的观测状态输入至第一策略网络模型中，得到第一策略网络模型输出的各智能体的角色类型。

在本实施例中，为了使第一策略网络模型用于分布式动态分配群体中的角色，第一策略网络模型，包括：环境特征提取层，基于观测状态，利用第一策略感知模块提取环境特征；第一交互特征获取层，基于环境特征获取得到的局部交互信息，利用第一策略交互模块获得第一交互特征；角色分析层，基于第一交互特征，利用第一策略角色模块和第一策略值函数模块对智能体进行角色分析，得到各智能体的角色类型。

具体而言，首先，环境特征提取层，基于观测状态，利用第一策略感知模块提取环境特征。需要说明的是，第一策略感知模块采用图注意力网络结构，用于提取智能体与环境的空间特征。

另外，智能体i的观测状态O_i表示为：

其中，S_j表示感知邻居智能体j的状态，N⁰(i)表示智能体i在感知半径D⁰ =2.5范围的邻居智能体个数。

其次，第一交互特征获取层，基于环境特征获取得到的局部交互信息，利用第一策略交互模块获得第一交互特征。需要说明的是，第一策略交互模块采用图注意力网络结构，通过局部交互信息与周围同构智能体协商角色分配，且能够处理不确定智能体数量的信息。

在一个可选实施例中，第一策略交互模块包括至少两层全连接神经网络。

本实施例中，局部交互信息

表示为：

表示通信邻居智能体j的第一交互特征。

另外，第一交互特征表示为：

其中，所述

表示第一交互特征，O_i表示智能体i的观测状态，

表示环境特征，

表示局部交互信息。

最后，角色分析层，基于第一交互特征，利用第一策略角色模块和第一策略值函数模块对智能体进行角色分析，得到各智能体的角色类型。应当注意，第一策略角色模块和第一策略值函数模块采用策略函数-评价函数Actor-Critic架构，利用分布式方法执行。另外，第一策略值函数模块用于评估第一策略角色模块输出的各智能体的角色类型，第一策略角色模块作为第一策略，用于选择各智能体的角色类型分配给群体中智能体。

本实施例中，各智能体的角色类型表示为：

步骤S02，将智能体的观测状态与各智能体的角色类型输入至第二策略网络模型中，得到第二策略网络模型输出的对应智能体的动作；控制智能体执行动作；其中，第一策略网络模型和第二策略网络模型是利用智能体样本数据进行训练得到的，其中第二策略网络模型的输入为第一策略网络模型的输出。

本实施例中，为了使第二策略网络基于群体中的角色获取群体中各智能体的动作，以使智能体分配角色后执行相应任务，第二策略网络模型，包括：状态特征提取层，基于智能体的观测状态，利用第二策略感知模块将智能体的观测状态与各智能体的角色类型结合，获取智能体的状态特征；第二交互特征获取层，基于状态特征和第二网络交互信息，利用第二策略交互模块获得第二交互特征；动作预测层，基于第二交互特征，利用第二策略值函数模块和第二策略模块对智能体进行状态分析，得到智能体对应的动作。

具体而言，首先，状态特征提取层，基于智能体的观测状态，利用第二策略感知模块提取智能体的观测状态特征表征，并将其与各智能体的角色类型结合，获取智能体的状态特征。

本实施例中，状态特征表示为：

其中，

表示智能体的状态特征，f表示多层全连接神经网络函数，

表示组成第二策略感知模块的全连接神经网络组成的函数，

表示智能体i的角色类型。

其次，第二交互特征获取层，基于状态特征和第二网络交互信息，利用第二策略交互模块获得第二交互特征。

本实施例中，第二交互特征表示为：

其中，

表示第二交互特征，

表示环境特征，

表示第二网络交互信息。

最后，动作预测层，基于第二交互特征，利用第二策略值函数模块和第二策略模块对智能体进行状态分析，得到智能体对应的动作。应当注意，第二策略模块和第二策略值函数模块采用策略函数-评价函数Actor-Critic架构，利用分布式方法执行。另外，第二策略值函数模块用于评估第二策略模块输出的动作，第二策略模块作为第二策略，用于选择基本动作控制所述群体中智能体。

本实施例中，动作表示为：

表示组成所述第二策略模块的全连接神经网络组成的函数，

参考图2，在一个可选实施例中，该方法还包括：训练第一策略网络模型和第二策略网络模型，具体包括：

S11，训练第一策略网络模型，得到第一策略网络模型输出的预测角色；

S12，训练第二策略网络模型，得到第二策略网络模型输出的智能体的训练动作；

S13，基于智能体的训练动作得到机动轨迹，并将其输入至角色识别网络，得到角色识别网络输出的智能体角色分布概率；

S14，根据角色分布概率以及第一策略网络模型输出的预测角色，进行交叉熵损失函数计算，并基于损失函数收敛，结束训练。

具体而言，首先，执行步骤S11，训练第一策略网络模型，得到第一策略网络模型输出的预测角色。

本实施例中，训练第一策略网络模型，包括：利用分布式方法训练和执行，为提高训练效率，训练方式采用课程学习的方法，且每k=5个时间单位训练或执行一次，训练时的第一外部奖惩函数表示为：

其中，R表示群体团队奖励；

，t表示为时间。

需要说明的是，课程学习方法为先利用智能体样本数据中群体个数较小的群体进行训练，直至训练的覆盖任务成功率大于90%时，逐步增加群体中智能体的个数，直至群体智能体总数达到要求的为止。

在一个可选实施例中，群体中的智能体个数为12。

其次，执行步骤S12，训练第二策略网络模型，得到第二策略网络模型输出的智能体的训练动作。

本实施例中，训练第二策略网络模型，包括：利用分布式方法训练和执行，为提高训练效率，训练方式采用课程学习的方法训练第二策略网络模型，且所述第二策略值函数模块用于评估所述第二策略模块输出的动作，所述第二策略模块作为第二策略，用于选择基本动作控制所述群体中智能体，训练时的第二外部奖惩函数表示为：

其中，R_L表示群体团队奖励，用于保证所生成的群体行为对于团队性能是有用的， R_I表示第二内部奖励，用于提升角色与其责任的关联，使得角色类型通过智能体的长期行为特征被识别出来，

表示变分后验估计函数，用于近似估计真是的后验概率，

表示智能体 i的轨迹。

随后，执行步骤S13，基于智能体的训练动作得到机动轨迹，并将其输入至角色识别网络，得到角色识别网络输出的智能体角色分布概率。

需要说明的是，在训练过程中，角色识别模型的输入采用群体中能听的机动轨迹，利用第二感知模块处理所述机动轨迹的观测状态，基于门循环单元编码所述机动轨迹信息，且角色识别网络的参数更新集为D，

；角色识别网络输出为智能体i的角色分布概率q

，与所述智能体i的各智能体的角色类型

相结合，用于计算更新交叉熵损失函数L_q。

本实施例中，角色识别网络包括角色感知模块、GRU网络和FC网络，其中，GRU作为LSTM的一种变体，将忘记门和输入门合成了一个单一的更新门；FC 网络是一种新发展的与传统的TCP/IP网络并列的一种高速网络。它有自己的地址分配和网络管理的体系。

最后，执行步骤S14，根据角色分布概率以及第一策略网络模型输出的预测角色，进行交叉熵损失函数计算，并基于损失函数收敛，结束训练。

本实施例中，交叉熵损失函数L_q表示为：

其中，

表示为第一策略网络模型输出的预测角色，

表示为变分后验估计函数

的输出，并以此更新角色识别网络的权重参数。

在一个可选实施例中，参考图3，场景1中黑色圆点表示覆盖任务目标点，其余颜色表示群体中的智能体，不同颜色表示所分配的角色类型，相同颜色的智能体分配相同的角色，共同完成覆盖任务中的1个子区域任务。场景2中覆盖目标点分布较为密集，以便于快速实现群体协同控制完成覆盖任务，成功覆盖的概率接近100%。与其他方法相比，本发明的方法进行群体协同控制的成功率等指标均优于现有方法。

综上所述，本发明通过第一策略网络模型动态分配群体中各智能体的角色，再通过第二策略网络基于群体中各智能体被分配的角色获取群体中各智能体的基本动作，以执行智能体相应角色的所需执行的动作；通过构建具有角色分配的第一策略网络模型结构以及构建具有基于角色类型分配相应动作的第二策略网络模型结构，实现动态不确定环境下群体无碰撞的协同控制。

下面对本发明提供的基于角色分配的群体分布式控制装置进行描述，下文描述的基于角色分配的群体分布式控制装置与上文描述的基于角色分配的群体分布式控制方法可相互对应参照。

图4示出了一种基于角色分配的群体分布式控制装置的结构示意图，该装置包括：

第一策略网络模型模块41，将获取的群体中的智能体的观测状态输入至第一策略网络模型模块中，得到第一策略网络模型模块输出的各智能体的角色类型；

第二策略网络模型模块42，将智能体的观测状态与各智能体的角色类型输入至第二策略网络模型模块中，得到第二策略网络模型模块输出的对应智能体的动作；

控制智能体执行动作；

其中，第一策略网络模型模块41和第二策略网络模型模块42是利用智能体样本数据进行训练得到的，其中第二策略网络模型模块42的输入为第一策略网络模型模块41的输出。

在本实施例中，为了使第一策略网络模型用于分布式动态分配群体中的角色，第一策略网络模型模块41，包括：环境特征提取单元，基于观测状态，利用第一策略感知模块提取环境特征；第一交互特征获取单元，基于环境特征获取得到的局部交互信息，利用第一策略交互模块获得第一交互特征；角色分析单元，基于第一交互特征，利用第一策略角色模块和第一策略值函数模块对智能体进行角色分析，得到各智能体的角色类型。

为了使第二策略网络基于群体中的角色获取群体中各智能体的动作，以使智能体分配角色后执行相应任务，第二策略网络模型模块42，包括：状态特征提取单元，基于智能体的观测状态，利用第二策略感知模块将智能体的观测状态与智能体的角色类型结合，获取智能体的状态特征；第二交互特征获取单元，基于状态特征和第二网络交互信息，利用第二策略交互模块获得第二交互特征；动作预测单元，基于第二交互特征，利用第二策略值函数模块和第二策略模块对智能体进行状态分析，得到智能体对应的动作。

在一个可选实施例中，该装置还包括：角色识别网络模块，基于智能体的训练动作得到机动轨迹智能体角色分布概率；损失函数计算模块，根据角色分布概率以及第一策略网络模型输出的预测角色，进行交叉熵损失函数计算。需要说明的是，通过交叉熵损失函数收敛，判断训练结束。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)51、通信接口(Communications Interface)52、存储器(memory)53和通信总线54，其中，处理器51，通信接口52，存储器53通过通信总线54完成相互间的通信。处理器51可以调用存储器53中的逻辑指令，以执行基于角色分配的群体分布式控制方法，该方法包括：将获取的群体中的智能体的观测状态输入至第一策略网络模型中，得到所述第一策略网络模型输出的各智能体的角色类型；将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中，得到所述第二策略网络模型输出的对应所述智能体的动作；控制所述智能体执行所述动作；其中，所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的，其中所述第二策略网络模型的输入为所述第一策略网络模型的输出。

此外，上述的存储器53中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于角色分配的群体分布式控制方法，该方法包括：将获取的群体中的智能体的观测状态输入至第一策略网络模型中，得到所述第一策略网络模型输出的各智能体的角色类型；将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中，得到所述第二策略网络模型输出的对应所述智能体的动作；控制所述智能体执行所述动作；其中，所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的，其中所述第二策略网络模型的输入为所述第一策略网络模型的输出。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于角色分配的群体分布式控制方法，该方法包括：将获取的群体中的智能体的观测状态输入至第一策略网络模型中，得到所述第一策略网络模型输出的各智能体的角色类型；将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中，得到所述第二策略网络模型输出的对应所述智能体的动作；控制所述智能体执行所述动作；其中，所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的，其中所述第二策略网络模型的输入为所述第一策略网络模型的输出。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。