CN113391556B - 基于角色分配的群体分布式控制方法及装置 - Google Patents
基于角色分配的群体分布式控制方法及装置 Download PDFInfo
- Publication number
- CN113391556B CN113391556B CN202110922017.2A CN202110922017A CN113391556B CN 113391556 B CN113391556 B CN 113391556B CN 202110922017 A CN202110922017 A CN 202110922017A CN 113391556 B CN113391556 B CN 113391556B
- Authority
- CN
- China
- Prior art keywords
- agent
- strategy
- module
- role
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000009471 action Effects 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000002452 interceptive effect Effects 0.000 claims description 74
- 230000006870 function Effects 0.000 claims description 67
- 238000013528 artificial neural network Methods 0.000 claims description 29
- 239000000203 mixture Substances 0.000 claims description 25
- 230000003993 interaction Effects 0.000 claims description 20
- 230000007613 environmental effect Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008447 perception Effects 0.000 claims description 11
- 230000001149 cognitive effect Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 abstract description 18
- 230000001276 controlling effect Effects 0.000 abstract description 9
- 239000003795 chemical substances by application Substances 0.000 description 158
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种基于角色分配的群体分布式控制方法及装置,方法包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到第一策略网络模型输出的各智能体的角色类型;将智能体的观测状态与各智能体的角色类型输入至第二策略网络模型中,得到第二策略网络模型输出的对应智能体的动作;控制智能体执行动作;其中,第一策略网络模型和第二策略网络模型是利用智能体样本数据进行训练得到的,其中第二策略网络模型的输入为第一策略网络模型的输出。本发明通过构建具有角色分配的第一策略网络模型结构以及构建具有基于角色类型分配相应动作的第二策略网络模型结构,实现动态不确定环境下群体无碰撞的协同控制。
Description
技术领域
本发明涉及无人群体系统协同技术领域,尤其涉及一种基于角色分配的群体分布式控制方法及装置。
背景技术
近些年,无人群体系统由于其独特优势和巨大的应用潜能吸引了众多研究者的关注,可广泛应用于仓储物流、应急救援和城市安防等。其中大部分的群体系统都是同构智能体,共同完成同一个任务,而且智能体都是比较简单,个体能力有限的,比如局部感知、局部通信和有限的机动能力等。
然而,大部分的多智能体强化学习方法在解决复杂任务中的群体协同中缺乏群体策略的扩展性和灵活性。有些方法通过群共享和学习策略网络的方式虽然具有扩展性,但随着群体中智能体数量的增多面临维数灾难的问题,尤其对于多复杂任务场景要求群体中各智能体具有多种技能,简单群共享机制的效果不佳。
目前,为解决简单群共享机制的效果不佳的问题,对复杂任务进行分解,通过为每个智能体分配子任务的方式以共同完成复杂任务。由于这种方式需要使用先验领域知识用来分解任务,并定义每个角色智能体的职责,对于动态不确定环境下的群体系统适应性较差。因此,如何构建具有群体策略扩展性和灵活性,结合先验知识,避免群体维数灾难,使得群体能够在动态不确定环境下完成群体复杂任务具有深远意义。
发明内容
本发明提供一种基于角色分配的群体分布式控制方法及装置,用以解决现有技术中由于群体策略扩展性差以及存在维数灾难以致领域知识利用适应性较差、群体系统控制效果不佳的缺陷,实现动态不确定环境下群体无碰撞的协同控制。
本发明提供一种基于角色分配的群体分布式控制方法,包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到所述第一策略网络模型输出的各智能体的角色类型;将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所述智能体的动作;控制所述智能体执行所述动作;其中,所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入为所述第一策略网络模型的输出。
根据本发明提供的一种基于角色分配的群体分布式控制方法,所述第一策略网络模型,包括:环境特征提取层,基于所述观测状态,利用第一策略感知模块提取环境特征;第一交互特征获取层,基于所述环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征;角色分析层,基于所述第一交互特征,利用第一策略角色模块和第一策略值函数模块对所述智能体进行角色分析,得到各所述智能体的角色类型。
根据本发明提供的一种基于角色分配的群体分布式控制方法,所述第一交互特征表示为:
根据本发明提供的一种基于角色分配的群体分布式控制方法,所述智能体i的观测状态Oi表示为:
其中,Sj表示感知邻居智能体j的状态,N0(i)表示智能体i在感知半径D0 =2.5范围的邻居智能体个数;
所述各智能体的角色类型表示为 :
根据本发明提供的一种基于角色分配的群体分布式控制方法,所述第二策略网络模型,包括:状态特征提取层,基于所述智能体的观测状态,利用第二策略感知模块将所述智能体的观测状态与所述智能体的角色类型结合,获取所述智能体的状态特征;第二交互特征获取层,基于所述状态特征和第二网络交互信息,利用第二策略交互模块获得第二交互特征;动作预测层,基于所述第二交互特征,利用第二策略值函数模块和第二策略模块对所述智能体进行状态分析,得到所述智能体对应的动作。
根据本发明提供的一种基于角色分配的群体分布式控制方法,所述状态特征表示为:
根据本发明提供的一种基于角色分配的群体分布式控制方法,所述第二交互特征表示为:
所述动作表示为:
本发明还提供了一种基于角色分配的群体分布式控制装置,包括:第一策略网络模型模块,将获取的群体中的智能体的观测状态输入至第一策略网络模型模块中,得到所述第一策略网络模型模块输出的各智能体的角色类型;第二策略网络模型模块,将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型模块中,得到所述第二策略网络模型模块输出的对应所述智能体的动作;控制所述智能体执行所述动作;其中,所述第一策略网络模型模块和所述第二策略网络模型模块是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型模块的输入为所述第一策略网络模型模块的输出。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于角色分配的群体分布式控制方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于角色分配的群体分布式控制方法的步骤。
本发明提供的基于角色分配的群体分布式控制方法及装置,通过第一策略网络模型动态分配群体中各智能体的角色,再通过第二策略网络基于群体中各智能体被分配的角色获取群体中各智能体的基本动作,以执行智能体相应角色的所需执行的动作;通过构建具有角色分配的第一策略网络模型结构以及构建具有基于角色类型分配相应动作的第二策略网络模型结构,实现动态不确定环境下群体无碰撞的协同控制。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于角色分配的群体分布式控制方法的流程示意图;
图2是本发明实施例提供的基于角色分配的群体分布式控制方法的网络示意图;
图3是本发明分配提供的一种基于角色分配的群体分布式控制方法的仿真示意图;
图4是本发明分配提供的基于角色分配的群体分布式控制装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了一种基于角色分配的群体分布式控制方法的流程示意图,该方法包括:
S01,将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到第一策略网络模型输出的各智能体的角色类型;
S02,将智能体的观测状态与各智能体的角色类型输入至第二策略网络模型中,得到第二策略网络模型输出的对应智能体的动作;
控制智能体执行动作;
其中,第一策略网络模型和第二策略网络模型是利用智能体样本数据进行训练得到的,其中第二策略网络模型的输入为第一策略网络模型的输出。
需要说明的是,本说明书中的S0N不代表基于角色分配的群体分布式控制方法的先后顺序,下面结合图2-图3具体描述本发明的基于角色分配的群体分布式控制割方法。
步骤S01,将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到第一策略网络模型输出的各智能体的角色类型。
在本实施例中,为了使第一策略网络模型用于分布式动态分配群体中的角色,第一策略网络模型,包括:环境特征提取层,基于观测状态,利用第一策略感知模块提取环境特征;第一交互特征获取层,基于环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征;角色分析层,基于第一交互特征,利用第一策略角色模块和第一策略值函数模块对智能体进行角色分析,得到各智能体的角色类型。
具体而言,首先,环境特征提取层,基于观测状态,利用第一策略感知模块提取环境特征。需要说明的是,第一策略感知模块采用图注意力网络结构,用于提取智能体与环境的空间特征。
另外,智能体i的观测状态Oi表示为:
其中,Sj表示感知邻居智能体j的状态,N0(i)表示智能体i在感知半径D0 =2.5范围的邻居智能体个数。
其次,第一交互特征获取层,基于环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征。需要说明的是,第一策略交互模块采用图注意力网络结构,通过局部交互信息与周围同构智能体协商角色分配,且能够处理不确定智能体数量的信息。
在一个可选实施例中,第一策略交互模块包括至少两层全连接神经网络。
另外,第一交互特征表示为:
最后,角色分析层,基于第一交互特征,利用第一策略角色模块和第一策略值函数模块对智能体进行角色分析,得到各智能体的角色类型。应当注意,第一策略角色模块和第一策略值函数模块采用策略函数-评价函数Actor-Critic架构,利用分布式方法执行。另外,第一策略值函数模块用于评估第一策略角色模块输出的各智能体的角色类型,第一策略角色模块作为第一策略,用于选择各智能体的角色类型分配给群体中智能体。
本实施例中,各智能体的角色类型表示为 :
步骤S02,将智能体的观测状态与各智能体的角色类型输入至第二策略网络模型中,得到第二策略网络模型输出的对应智能体的动作;控制智能体执行动作;其中,第一策略网络模型和第二策略网络模型是利用智能体样本数据进行训练得到的,其中第二策略网络模型的输入为第一策略网络模型的输出。
本实施例中,为了使第二策略网络基于群体中的角色获取群体中各智能体的动作,以使智能体分配角色后执行相应任务,第二策略网络模型,包括:状态特征提取层,基于智能体的观测状态,利用第二策略感知模块将智能体的观测状态与各智能体的角色类型结合,获取智能体的状态特征;第二交互特征获取层,基于状态特征和第二网络交互信息,利用第二策略交互模块获得第二交互特征;动作预测层,基于第二交互特征,利用第二策略值函数模块和第二策略模块对智能体进行状态分析,得到智能体对应的动作。
具体而言,首先,状态特征提取层,基于智能体的观测状态,利用第二策略感知模块提取智能体的观测状态特征表征,并将其与各智能体的角色类型结合,获取智能体的状态特征。
本实施例中,状态特征表示为:
其次,第二交互特征获取层,基于状态特征和第二网络交互信息,利用第二策略交互模块获得第二交互特征。
本实施例中,第二交互特征表示为:
最后,动作预测层,基于第二交互特征,利用第二策略值函数模块和第二策略模块对智能体进行状态分析,得到智能体对应的动作。应当注意,第二策略模块和第二策略值函数模块采用策略函数-评价函数Actor-Critic架构,利用分布式方法执行。另外,第二策略值函数模块用于评估第二策略模块输出的动作,第二策略模块作为第二策略,用于选择基本动作控制所述群体中智能体。
本实施例中,动作表示为:
参考图2,在一个可选实施例中,该方法还包括:训练第一策略网络模型和第二策略网络模型,具体包括:
S11,训练第一策略网络模型,得到第一策略网络模型输出的预测角色;
S12,训练第二策略网络模型,得到第二策略网络模型输出的智能体的训练动作;
S13,基于智能体的训练动作得到机动轨迹,并将其输入至角色识别网络,得到角色识别网络输出的智能体角色分布概率;
S14,根据角色分布概率以及第一策略网络模型输出的预测角色,进行交叉熵损失函数计算,并基于损失函数收敛,结束训练。
具体而言,首先,执行步骤S11,训练第一策略网络模型,得到第一策略网络模型输出的预测角色。
本实施例中,训练第一策略网络模型,包括:利用分布式方法训练和执行,为提高训练效率,训练方式采用课程学习的方法,且每k=5个时间单位训练或执行一次,训练时的第一外部奖惩函数表示为:
需要说明的是,课程学习方法为先利用智能体样本数据中群体个数较小的群体进行训练,直至训练的覆盖任务成功率大于90%时,逐步增加群体中智能体的个数,直至群体智能体总数达到要求的为止。
在一个可选实施例中,群体中的智能体个数为12。
其次,执行步骤S12,训练第二策略网络模型,得到第二策略网络模型输出的智能体的训练动作。
本实施例中,训练第二策略网络模型,包括:利用分布式方法训练和执行,为提高训练效率,训练方式采用课程学习的方法训练第二策略网络模型,且所述第二策略值函数模块用于评估所述第二策略模块输出的动作,所述第二策略模块作为第二策略,用于选择基本动作控制所述群体中智能体,训练时的第二外部奖惩函数表示为:
其中,RL表示群体团队奖励,用于保证所生成的群体行为对于团队性能是有用的,
RI表示第二内部奖励,用于提升角色与其责任的关联,使得角色类型通过智能体的长期行
为特征被识别出来,表示变分后验估计函数,用于近似估计真是的后验概率,表示智能体
i的轨迹。
随后,执行步骤S13,基于智能体的训练动作得到机动轨迹,并将其输入至角色识别网络,得到角色识别网络输出的智能体角色分布概率。
需要说明的是,在训练过程中,角色识别模型的输入采用群体中能听的机动轨迹,
利用第二感知模块处理所述机动轨迹的观测状态,基于门循环单元编码所述机动轨迹信
息,且角色识别网络的参数更新集为D,;角色识别网络输出为智能体i的
角色分布概率q,与所述智能体i的各智能体的角色类型相结合,用于计算更新交叉熵
损失函数Lq。
本实施例中,角色识别网络包括角色感知模块、GRU网络和FC网络,其中,GRU作为LSTM的一种变体,将忘记门和输入门合成了一个单一的更新门;FC 网络是一种新发展的与传统的TCP/IP网络并列的一种高速网络。它有自己的地址分配和网络管理的体系。
最后,执行步骤S14,根据角色分布概率以及第一策略网络模型输出的预测角色,进行交叉熵损失函数计算,并基于损失函数收敛,结束训练。
本实施例中,交叉熵损失函数Lq表示为:
在一个可选实施例中,参考图3,场景1中黑色圆点表示覆盖任务目标点,其余颜色表示群体中的智能体,不同颜色表示所分配的角色类型,相同颜色的智能体分配相同的角色,共同完成覆盖任务中的1个子区域任务。场景2中覆盖目标点分布较为密集,以便于快速实现群体协同控制完成覆盖任务,成功覆盖的概率接近100%。与其他方法相比,本发明的方法进行群体协同控制的成功率等指标均优于现有方法。
综上所述,本发明通过第一策略网络模型动态分配群体中各智能体的角色,再通过第二策略网络基于群体中各智能体被分配的角色获取群体中各智能体的基本动作,以执行智能体相应角色的所需执行的动作;通过构建具有角色分配的第一策略网络模型结构以及构建具有基于角色类型分配相应动作的第二策略网络模型结构,实现动态不确定环境下群体无碰撞的协同控制。
下面对本发明提供的基于角色分配的群体分布式控制装置进行描述,下文描述的基于角色分配的群体分布式控制装置与上文描述的基于角色分配的群体分布式控制方法可相互对应参照。
图4示出了一种基于角色分配的群体分布式控制装置的结构示意图,该装置包括:
第一策略网络模型模块41,将获取的群体中的智能体的观测状态输入至第一策略网络模型模块中,得到第一策略网络模型模块输出的各智能体的角色类型;
第二策略网络模型模块42,将智能体的观测状态与各智能体的角色类型输入至第二策略网络模型模块中,得到第二策略网络模型模块输出的对应智能体的动作;
控制智能体执行动作;
其中,第一策略网络模型模块41和第二策略网络模型模块42是利用智能体样本数据进行训练得到的,其中第二策略网络模型模块42的输入为第一策略网络模型模块41的输出。
在本实施例中,为了使第一策略网络模型用于分布式动态分配群体中的角色,第一策略网络模型模块41,包括:环境特征提取单元,基于观测状态,利用第一策略感知模块提取环境特征;第一交互特征获取单元,基于环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征;角色分析单元,基于第一交互特征,利用第一策略角色模块和第一策略值函数模块对智能体进行角色分析,得到各智能体的角色类型。
为了使第二策略网络基于群体中的角色获取群体中各智能体的动作,以使智能体分配角色后执行相应任务,第二策略网络模型模块42,包括:状态特征提取单元,基于智能体的观测状态,利用第二策略感知模块将智能体的观测状态与智能体的角色类型结合,获取智能体的状态特征;第二交互特征获取单元,基于状态特征和第二网络交互信息,利用第二策略交互模块获得第二交互特征;动作预测单元,基于第二交互特征,利用第二策略值函数模块和第二策略模块对智能体进行状态分析,得到智能体对应的动作。
在一个可选实施例中,该装置还包括:角色识别网络模块,基于智能体的训练动作得到机动轨迹智能体角色分布概率;损失函数计算模块,根据角色分布概率以及第一策略网络模型输出的预测角色,进行交叉熵损失函数计算。需要说明的是,通过交叉熵损失函数收敛,判断训练结束。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)51、通信接口(Communications Interface)52、存储器(memory)53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信。处理器51可以调用存储器53中的逻辑指令,以执行基于角色分配的群体分布式控制方法,该方法包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到所述第一策略网络模型输出的各智能体的角色类型;将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所述智能体的动作;控制所述智能体执行所述动作;其中,所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入为所述第一策略网络模型的输出。
此外,上述的存储器53中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于角色分配的群体分布式控制方法,该方法包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到所述第一策略网络模型输出的各智能体的角色类型;将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所述智能体的动作;控制所述智能体执行所述动作;其中,所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入为所述第一策略网络模型的输出。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于角色分配的群体分布式控制方法,该方法包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到所述第一策略网络模型输出的各智能体的角色类型;将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所述智能体的动作;控制所述智能体执行所述动作;其中,所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入为所述第一策略网络模型的输出。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于角色分配的群体分布式控制方法,其特征在于,包括:
将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到所述第一策略网络模型输出的各智能体的角色类型;
将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所述智能体的动作;
控制所述智能体执行所述动作;
其中,所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入为所述第一策略网络模型的输出;
所述第一策略网络模型,包括:
环境特征提取层,基于所述观测状态,利用第一策略感知模块提取环境特征;
第一交互特征获取层,基于所述环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征;
角色分析层,基于所述第一交互特征,利用第一策略角色模块和第一策略值函数模块对所述智能体进行角色分析,得到各所述智能体的角色类型;所述各智能体的角色类型表示为:
所述第二策略网络模型,包括:
状态特征提取层,基于所述智能体的观测状态,利用第二策略感知模块将所述智能体的观测状态与所述智能体的角色类型结合,获取所述智能体的状态特征;
第二交互特征获取层,基于所述状态特征和第二网络交互信息,利用第二策略交互模块获得第二交互特征;
动作预测层,基于所述第二交互特征,利用第二策略值函数模块和第二策略模块对所述智能体进行状态分析,得到所述智能体对应的动作;所述动作表示为:
6.一种基于角色分配的群体分布式控制装置,其特征在于,包括:
第一策略网络模型模块,将获取的群体中的智能体的观测状态输入至第一策略网络模型模块中,得到所述第一策略网络模型模块输出的各智能体的角色类型;
第二策略网络模型模块,将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型模块中,得到所述第二策略网络模型模块输出对应所述智能体的动作;
控制所述智能体执行所述动作;
其中,所述第一策略网络模型模块和所述第二策略网络模型模块是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型模块的输入为所述第一策略网络模型模块的输出;
所述第一策略网络模型模块,包括:
环境特征提取单元,基于所述观测状态,利用第一策略感知模块提取环境特征;
第一交互特征获取单元,基于所述环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征;
角色分析单元,基于所述第一交互特征,利用第一策略角色模块和第一策略值函数模块对所述智能体进行角色分析,得到各所述智能体的角色类型;所述各智能体的角色类型表示为:
所述第二策略网络模型,包括:
状态特征提取单元,基于所述智能体的观测状态,利用第二策略感知模块将所述智能体的观测状态与所述智能体的角色类型结合,获取所述智能体的状态特征;
第二交互特征获取单元,基于所述状态特征和第二网络交互信息,利用第二策略交互模块获得第二交互特征;
动作预测单元,基于所述第二交互特征,利用第二策略值函数模块和第二策略模块对所述智能体进行状态分析,得到所述智能体对应的动作;所述动作表示为:
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述基于角色分配的群体分布式控制方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于角色分配的群体分布式控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110922017.2A CN113391556B (zh) | 2021-08-12 | 2021-08-12 | 基于角色分配的群体分布式控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110922017.2A CN113391556B (zh) | 2021-08-12 | 2021-08-12 | 基于角色分配的群体分布式控制方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113391556A CN113391556A (zh) | 2021-09-14 |
CN113391556B true CN113391556B (zh) | 2021-12-07 |
Family
ID=77622666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110922017.2A Active CN113391556B (zh) | 2021-08-12 | 2021-08-12 | 基于角色分配的群体分布式控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113391556B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113985924B (zh) * | 2021-12-27 | 2022-04-08 | 中国科学院自动化研究所 | 飞行器控制方法、装置、设备及计算机可读存储介质 |
CN116777402B (zh) * | 2023-06-19 | 2024-01-30 | 华东师范大学 | 一种基于元认知的面向群体协作的个性化角色定位方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103301630A (zh) * | 2013-06-16 | 2013-09-18 | 西安科技大学 | 足球机器人协调与合作控制方法及系统 |
CN106964145A (zh) * | 2017-03-28 | 2017-07-21 | 南京邮电大学 | 一种仿人足球机器人传球控制方法及球队控球方法 |
CN108259250A (zh) * | 2018-02-28 | 2018-07-06 | 哈尔滨理工大学 | 一种多智能体一致性采样方法 |
CN110278249A (zh) * | 2019-05-30 | 2019-09-24 | 天津神兔未来科技有限公司 | 一种分布式群体智能系统 |
CN110471297A (zh) * | 2019-07-30 | 2019-11-19 | 清华大学 | 多智能体协同控制方法、系统及设备 |
CN110554709A (zh) * | 2019-09-06 | 2019-12-10 | 哈尔滨工业大学(深圳) | 一种分布式的仿生的多智能体自主集群控制方法 |
CN110882544A (zh) * | 2019-11-28 | 2020-03-17 | 网易(杭州)网络有限公司 | 多智能体训练方法、装置和电子设备 |
CN110930483A (zh) * | 2019-11-20 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 一种角色控制的方法、模型训练的方法以及相关装置 |
CN111514585A (zh) * | 2020-03-17 | 2020-08-11 | 清华大学 | 智能体的控制方法及系统、计算机装置以及存储介质 |
CN112131660A (zh) * | 2020-09-10 | 2020-12-25 | 南京大学 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
CN112180724A (zh) * | 2020-09-25 | 2021-01-05 | 中国人民解放军军事科学院国防科技创新研究院 | 一种在干扰条件下多智能体协同合作的训练方法及系统 |
CN112379992A (zh) * | 2020-12-04 | 2021-02-19 | 中国科学院自动化研究所 | 基于角色的多智能体任务协同消息传递及异常处理方法 |
CN112381454A (zh) * | 2020-12-04 | 2021-02-19 | 中国科学院自动化研究所 | 基于角色的多智能体任务协同系统 |
CN112488320A (zh) * | 2020-09-25 | 2021-03-12 | 中国人民解放军军事科学院国防科技创新研究院 | 一种针对复杂条件下多智能体的训练方法及系统 |
CN113095498A (zh) * | 2021-03-24 | 2021-07-09 | 北京大学 | 基于散度的多智能体合作学习方法、装置、设备及介质 |
CN113128657A (zh) * | 2021-06-17 | 2021-07-16 | 中国科学院自动化研究所 | 多智能体行为决策方法、装置、电子设备和存储介质 |
-
2021
- 2021-08-12 CN CN202110922017.2A patent/CN113391556B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103301630A (zh) * | 2013-06-16 | 2013-09-18 | 西安科技大学 | 足球机器人协调与合作控制方法及系统 |
CN106964145A (zh) * | 2017-03-28 | 2017-07-21 | 南京邮电大学 | 一种仿人足球机器人传球控制方法及球队控球方法 |
CN108259250A (zh) * | 2018-02-28 | 2018-07-06 | 哈尔滨理工大学 | 一种多智能体一致性采样方法 |
CN110278249A (zh) * | 2019-05-30 | 2019-09-24 | 天津神兔未来科技有限公司 | 一种分布式群体智能系统 |
CN110471297A (zh) * | 2019-07-30 | 2019-11-19 | 清华大学 | 多智能体协同控制方法、系统及设备 |
CN110554709A (zh) * | 2019-09-06 | 2019-12-10 | 哈尔滨工业大学(深圳) | 一种分布式的仿生的多智能体自主集群控制方法 |
CN110930483A (zh) * | 2019-11-20 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 一种角色控制的方法、模型训练的方法以及相关装置 |
CN110882544A (zh) * | 2019-11-28 | 2020-03-17 | 网易(杭州)网络有限公司 | 多智能体训练方法、装置和电子设备 |
CN111514585A (zh) * | 2020-03-17 | 2020-08-11 | 清华大学 | 智能体的控制方法及系统、计算机装置以及存储介质 |
CN112131660A (zh) * | 2020-09-10 | 2020-12-25 | 南京大学 | 一种基于多智能体强化学习的无人机集群协同学习方法 |
CN112180724A (zh) * | 2020-09-25 | 2021-01-05 | 中国人民解放军军事科学院国防科技创新研究院 | 一种在干扰条件下多智能体协同合作的训练方法及系统 |
CN112488320A (zh) * | 2020-09-25 | 2021-03-12 | 中国人民解放军军事科学院国防科技创新研究院 | 一种针对复杂条件下多智能体的训练方法及系统 |
CN112379992A (zh) * | 2020-12-04 | 2021-02-19 | 中国科学院自动化研究所 | 基于角色的多智能体任务协同消息传递及异常处理方法 |
CN112381454A (zh) * | 2020-12-04 | 2021-02-19 | 中国科学院自动化研究所 | 基于角色的多智能体任务协同系统 |
CN113095498A (zh) * | 2021-03-24 | 2021-07-09 | 北京大学 | 基于散度的多智能体合作学习方法、装置、设备及介质 |
CN113128657A (zh) * | 2021-06-17 | 2021-07-16 | 中国科学院自动化研究所 | 多智能体行为决策方法、装置、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
Autonomous Navigation with Improved Hierarchical Neural Network Based on Deep Reinforcement Learning;Haiying Zhang 等;《2019 Chinese Control Conference (CCC)》;20191231;全文 * |
基于角色分配的多智能体决策算法研究;陈杰 等;《电子设计工程》;20190731;第27卷(第14期);第117-120,125页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113391556A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113391556B (zh) | 基于角色分配的群体分布式控制方法及装置 | |
CN109635917B (zh) | 一种多智能体合作决策及训练方法 | |
Yu et al. | Optimizing task scheduling in human-robot collaboration with deep multi-agent reinforcement learning | |
CN110852448A (zh) | 一种基于多智能体强化学习的合作型智能体的学习方法 | |
CN105729491B (zh) | 机器人任务的执行方法、装置及系统 | |
CN108921298B (zh) | 强化学习多智能体沟通与决策方法 | |
Haykin et al. | Cognitive control | |
CN112329948A (zh) | 一种多智能体策略预测方法及装置 | |
CN113128657B (zh) | 多智能体行为决策方法、装置、电子设备和存储介质 | |
CN110782004B (zh) | 模型训练方法、模型调用方法、设备及可读存储介质 | |
Wang et al. | A task allocation algorithm for a swarm of unmanned aerial vehicles based on bionic wolf pack method | |
CN109147396A (zh) | 机场停机位的分配方法及装置 | |
CN109407644A (zh) | 一种用于制造企业多Agent协同控制方法及系统 | |
Sarfraz et al. | Sparse coding in a dual memory system for lifelong learning | |
CN114757362B (zh) | 一种基于边缘增强的多智能体系统通信方法及相关装置 | |
CN116187787B (zh) | 作战资源跨域调配问题的智能规划方法 | |
Xia et al. | Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning | |
CN113627596A (zh) | 基于动态图神经网络的多智能体对抗方法及系统 | |
CN108205266A (zh) | 基于信息流的指挥决策建模方法及存储介质 | |
Tan et al. | Proximal policy based deep reinforcement learning approach for swarm robots | |
CN114676846A (zh) | 一种多智能体强化学习方法及系统 | |
Pagliuca et al. | N-Mates Evaluation: a New Method to Improve the Performance of Genetic Algorithms in Heterogeneous Multi-Agent Systems. | |
CN114298302A (zh) | 智能体任务学习方法及装置 | |
CN116047902A (zh) | 一种机器人在人群中导航的方法、装置、设备及存储介质 | |
CN112396501B (zh) | 一种基于交互式强化学习的订单分派方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |