CN113283574B

CN113283574B - 群体对抗中智能体控制方法、装置、电子设备及存储介质

Info

Publication number: CN113283574B
Application number: CN202110828346.0A
Authority: CN
Inventors: 丘腾海; 吴士广; 蒲志强; 刘振; 易建强; 常红星
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-12-07
Anticipated expiration: 2041-07-22
Also published as: CN113283574A

Abstract

本发明提供一种群体对抗中智能体控制方法、装置、电子设备及存储介质，该方法包括：获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征；基于第一智能体的状态特征和第一智能体周围各个对手的状态特征，获得第一智能体周围环境状态特征；基于第一对手的状态特征和第一对手周围各个智能体的状态特征，获得第一智能体周围各个对手的总行为特征；基于第一智能体周围各个对手的总行为特征，获得第一智能体周围各个对手的深层总行为特征；基于第一智能体周围环境状态特征和第一智能体周围各个对手的深层总行为特征，获得交互特征；基于交互特征对第一智能体进行控制。控制效果良好。

Description

群体对抗中智能体控制方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种群体对抗中智能体控制方法、装置、电子设备及存储介质。

背景技术

智能体是人工智能领域中一个很重要的概念。任何独立的能够思想并可以同环境交互的实体都可以抽象为智能体。现如今，由多个无人车/无人机等智能体组成的无人群体系统越发受到人们的关注，其应用从仓储物流、灾害救援到战场侦察和战场群体对抗的各种场景，因此，其在军事和民用各领域均具有重要的研究价值。

此类无人群体系统通常具有自组织性、自分布式以及无中心等特点，且其中每一个智能体均具有一定的智能性，这也使得无人群体系统能够通过其包括的各个智能体之间的相互协作来完成一个个体无法完成的复杂任务。尤其，在战场群体对抗场景，每一个智能体不仅要与相邻的其他智能体进行协同，还需要考虑对手智能体的状态和行为，而且对手智能体的个数和行为均存在较大的不确定性和复杂性。因此，在复杂的群体对抗环境下，无人群体分布式、协同高效对抗仍然面临着巨大的技术挑战。

近年来，深度强化学习逐渐成为热门课题，因而逐渐有研究人员应用深度强化学习来训练无人群体系统，以增强无人群体系统中各智能体的协同能力。但是，现有的大多数方法均是将对手智能体视为无人群体系统所处环境的一部分，直接使用或直接堆叠对手智能体的状态，导致迁移性和扩展性较差，且其并未考虑当前智能体对于对手智能体行为的影响。此外，还忽略了各个对手智能体的自主性特征，没有充分考虑不同对手智能体之间的水平差异对群体协同的影响。对于较大规模的群体对抗，上述现有方法的无人群体系统中各智能体存在着协同能力弱、适应性差、控制效果不佳等问题，亟待解决。

发明内容

本发明提供一种群体对抗中智能体控制方法、装置、电子设备及存储介质，用以克服现有技术中无人群体系统中各智能体存在着协同能力弱、适应性差、控制效果不佳等缺陷，能够实现对智能体的高效控制以进行群体对抗。

本发明提供一种群体对抗中智能体控制方法，所述方法包括：

获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征；其中，所述第一对手为与所述第一智能体距离最近的对手；

基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征，获得第一智能体周围环境状态特征；

基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征，获得所述第一智能体周围各个对手的总行为特征；

基于所述第一智能体周围各个对手的总行为特征，获得第一智能体周围各个对手的深层总行为特征；

基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征，获得交互特征；

基于所述交互特征对所述第一智能体进行控制。

根据本发明提供的群体对抗中智能体控制方法，所述方法还包括以下步骤：

根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异，获得第一智能体的群体对抗总奖励，并根据所述第一智能体的群体对抗总奖励获得第一智能体累计回报最大动作；

相应地，所述基于所述交互特征对所述第一智能体进行控制，包括：基于所述交互特征和所述第一智能体累计回报最大动作对所述第一智能体进行控制。

根据本发明提供的群体对抗中智能体控制方法，所述根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异，获得第一智能体的群体对抗总奖励和第一智能体累计回报最大动作，包括：

基于所述第一智能体周围各个对手的总行为特征和预设的状态预测法，预测获得所述第一智能体周围各个对手下一时刻的状态特征；

将所述第一智能体周围各个对手下一时刻的状态特征和第一智能体周围各个对手实时的状态特征进行比较，获得所述第一智能体周围各个对手状态特征的预测差异；

基于所述第一智能体周围各个对手状态特征的预测差异，获得第一智能体的内在奖励；

基于所述第一智能体的内在奖励和预设的第一智能体的外部奖励，获得所述第一智能体的群体对抗总奖励；

基于所述第一智能体的群体对抗总奖励和深度增强学习算法，获得所述第一智能体累计回报最大动作。

根据本发明提供的群体对抗中智能体控制方法，所述基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征，获得第一智能体周围环境状态特征，包括：

基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征，计算获得第一智能体对其周围各个对手的注意力关注系数；

对所述第一智能体对其周围各个对手的注意力关注系数进行多头注意力特征提取，获得第一智能体对应的多头注意力特征；

将所述第一智能体对应的多头注意力特征和所述第一智能体的状态特征进行组合，获得第一智能体周围环境状态特征。

根据本发明提供的群体对抗中智能体控制方法，所述基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征，获得所述第一智能体周围各个对手的总行为特征，包括：

基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征，计算获得第一对手对其周围各个智能体的注意力关注系数；

对所述第一对手对其周围各个智能体的注意力关注系数进行多头注意力特征提取，获得第一智能体周围各个对手的行为特征；

将所述第一智能体周围各个对手的行为特征进行堆叠，获得所述第一智能体周围各个对手的总行为特征。

根据本发明提供的群体对抗中智能体控制方法，所述基于所述第一智能体周围各个对手的总行为特征，获得第一智能体周围各个对手的深层总行为特征，包括：

基于预设的全连接层神经网络和长短时记忆网络，对所述第一智能体周围各个对手的总行为特征进行特征编码，获得第一智能体周围各个对手的深层总行为特征。

根据本发明提供的群体对抗中智能体控制方法，所述基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征，获得交互特征，包括：

将所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征进行融合，获得第一智能体综合特征；

基于选择性传递注意力机制从所述第一智能体综合特征中提取交互特征。

本发明还提供一种群体对抗中智能体控制装置，所述装置包括：

状态获取模块一，用于获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征；

状态获取模块二，用于基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征，获得第一智能体周围环境状态特征；

特征获取模块一，用于基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征，获得所述第一智能体周围各个对手的总行为特征；

特征获取模块二，用于基于所述第一智能体周围各个对手的总行为特征，获得第一智能体周围各个对手的深层总行为特征；

特征获取模块三，用于基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征，获得交互特征；

控制模块，用于基于所述交互特征对所述第一智能体进行控制。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现根据如上任一项所述群体对抗中智能体控制方法的全部或部分步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现根据如上任一项所述群体对抗中智能体控制方法的全部或部分步骤。

本发明提供一种机器人导航方法、装置、电子设备及存储介质，所述方法通过获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征，以及进行智能体之间关系图推理，智能体与对手之间关系图的推理，既考虑了当前的第一智能体对于其周围各个对手行为的影响因素，还考虑了各个不同的对手的各自的自主性状态特征，以及更结合了第一智能体本身的状态特征，能够在群体对抗中快速、高效地实现各智能体的控制，且控制效果良好，并且基于此控制方法能够有效提升各个智能体对于各个对手的对抗，即提升群体对抗的成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1是本发明提供的群体对抗中智能体控制方法的流程示意图之一；

图2是本发明提供的群体对抗中智能体控制方法的流程示意图之二；

图3是本发明提供的群体对抗中智能体控制方法中智能体与对手进行群体对抗的场景示意图；

图4是本发明提供的群体对抗中智能体控制装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

附图标记：

310：对手；320：智能体；330：基地；510：状态获取模块一；520：状态获取模块二；530：特征获取模块一；540：特征获取模块二；550：特征获取模块三；560：控制模块；610：处理器；620：通信接口；630：存储器 640：通信总线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明的技术方案进行清除完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图1-5描述本发明提供的一种群体对抗中智能体控制方法、装置、电子设备及存储介质。

本发明提供一种群体对抗中智能体控制方法，图1是本发明提供的群体对抗中智能体控制方法的流程示意图之一，如图1所示，所述方法包括：

100、获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征；其中，所述第一对手为与所述第一智能体距离最近的对手；

200、基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征，获得第一智能体周围环境状态特征；

300、基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征，获得所述第一智能体周围各个对手的总行为特征；

400、基于所述第一智能体周围各个对手的总行为特征，获得第一智能体周围各个对手的深层总行为特征；

500、基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征，获得交互特征；

600、基于所述交互特征对所述第一智能体进行控制。

针对步骤100，实时获取智能体群体中第一智能体周围的观测状态，并通过全连接层神经网络对所述观测状态中各项子因素分别进行特征编码，以分别获得第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征、第一对手周围各个智能体的状态特征。

其中，

表示第一智能体，且第一智能体理解为是智能体群体中随机选择的作为当前分析目标的智能体；

表示第一智能体

周围的各个对手，且表示多个对手。需要说明的是，对手则是对手智能体的简称，也即群体对抗中的各个对手也是智能体，只不过与第一智能体所属群体是一种对抗的关系。

表示第一对手，且第一对手是从第一智能体

周围的各个对手

中选取的一个作为当前分析目标的对手，可以理解为其是与第一智能体距离最近的对手，当然也可以是根据实际需求而选择的一个对手。并且第一对手

的周围除了第一智能体

之外还会存在其他智能体。

表示第一对手

周围的各个智能体，且表示多个智能体（包含第一智能体

）。

第一智能体的状态、第一智能体周围各个对手的状态、第一对手的状态、第一对手周围各个智能体的状态，以及各个智能体与各个对手之间的互相影响的关系状态，均属于第一智能体周围的观测状态

中的子因素。因此，通过全连接层神经网络对实时获取的第一智能体周围的观测状态

中的各项子因素分别进行特征编码处理，则分别相应获得各个状态的状态特征，即，分别获得到第一智能体的状态特征

、第一智能体周围各个对手的状态特征

、第一对手的状态特征

、第一对手周围各个智能体的状态特征

。

针对步骤200，根据所述第一智能体的状态特征

和所述第一智能体周围各个对手的状态特征

，计算获得第一智能体周围环境状态特征

。

针对步骤300，根据所述第一对手的状态特征

和所述第一对手周围各个智能体的状态特征

，计算获得所述第一智能体周围各个对手的总行为特征

。

针对步骤400，根据所述第一智能体周围各个对手的总行为特征

，计算获得第一智能体周围各个对手的深层总行为特征

。

针对步骤500，所述第一智能体周围环境状态特征

和所述第一智能体周围各个对手的深层总行为特征

，获得交互特征

。

针对步骤600，基于所述交互特征

对所述第一智能体进行控制。并且针对于每一个被当做当前分析目标的第一智能体，均基于此法获得的交互特征

对其进行控制，由此实现对智能体群体中所有智能体的有效控制，以在群体对抗过程中，使得各智能体能够高效地对抗各个对手。

本发明提供的群体对抗中智能体控制方法，通过获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征，以及进行智能体之间关系图推理，智能体与对手之间关系图的推理，既考虑了当前的第一智能体对于其周围各个对手行为的影响因素，还考虑了各个不同的对手的各自的自主性状态特征，以及更结合了第一智能体本身的状态特征，能够在群体对抗中快速、高效地实现各智能体的控制，且控制效果良好，并且基于此控制方法能够有效提升各个智能体对于各个对手的对抗，即提升群体对抗的成功率。

根据本发明提供的群体对抗中智能体控制方法，在图1所示实施例的基础上，所述方法还包括以下步骤700，且步骤700发生在步骤300至步骤600之间任意位置，如图2所示，步骤700发生在步骤300和步骤400之间，具体地：

700、根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异，获得第一智能体的群体对抗总奖励，并根据所述第一智能体的群体对抗总奖励获得第一智能体累计回报最大动作；

相应地，所述方法的步骤600、基于所述交互特征对所述第一智能体进行控制，则包括：基于所述交互特征和所述第一智能体累计回报最大动作对所述第一智能体进行控制。

由此，可以有效提升对于各个智能体的控制效果，高效实现群体对抗。

根据本发明提供的群体对抗中智能体控制方法，在上述实施例的基础上，步骤700、根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异，获得第一智能体的群体对抗总奖励和第一智能体累计回报最大动作，包括：

710、基于所述第一智能体周围各个对手的总行为特征和预设的状态预测法，预测获得所述第一智能体周围各个对手下一时刻的状态特征；

720、将所述第一智能体周围各个对手下一时刻的状态特征和第一智能体周围各个对手实时的状态特征进行比较，获得所述第一智能体周围各个对手状态特征的预测差异；

730、基于所述第一智能体周围各个对手状态特征的预测差异，获得第一智能体的内在奖励；

740、基于所述第一智能体的内在奖励和预设的第一智能体的外部奖励，获得所述第一智能体的群体对抗总奖励；

750、基于所述第一智能体的群体对抗总奖励和深度增强学习算法，获得所述第一智能体累计回报最大动作。

针对步骤710，基于所述第一智能体周围各个对手的总行为特征

和预设的状态预测法进行状态预测，获得所述第一智能体周围各个对手下一时刻的状态特征

，具体计算过程为：

其中，

表示预先设定的状态预测网络，也可以是全连接层神经网络。

针对步骤720，将所述第一智能体周围各个对手下一时刻的状态特征

分别和第一智能体周围各个对手实际的状态特征

（可由传感器等实时采集获取）进行比较，具体是同一对手不同状态特征进行比较，以分别获得所述第一智能体周围各个对手状态特征的预测差异，且预测差异可以由两种状态进行差值计算来表示。

针对步骤730，基于所述第一智能体周围各个对手状态特征的预测差异，获得第一智能体的内在奖励

，具体计算过程为：

其中，

表示第一智能体周围各个对手状态特征的预测差异；

表示存活的对手的集合；

表示平均值函数。

针对步骤740，基于所述第一智能体的内在奖励

和预设的第一智能体的外部奖励

，获得所述第一智能体的群体对抗总奖励

，具体计算过程为：

其中，

表示可调节的权重参数，且设定取值为

取0.01。

针对步骤750，根据所述第一智能体的群体对抗总奖励

，并利用深度增强学习算法（Proximal Policy Optimization算法，简称PPO算法），输出所述第一智能体以及其他各个智能体的累计回报最大动作。以便于后续根据各个智能体的累计回报最大动作以及交互特征来进行智能体群体中各个智能体的控制，实现高效的群体对抗。PPO算法中，还涉及到一些可调节的权重参数等，比如可以设定其第一权重参数、第二权重参数、第三权重参数分别为

。

根据本发明提供的群体对抗中智能体控制方法，步骤200、基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征，获得第一智能体周围环境状态特征，包括：

201、基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征，计算获得第一智能体对其周围各个对手的注意力关注系数；

202、对所述第一智能体对其周围各个对手的注意力关注系数进行多头注意力特征提取，获得第一智能体对应的多头注意力特征；

203、将所述第一智能体对应的多头注意力特征和所述第一智能体的状态特征进行组合，获得第一智能体周围环境状态特征。

针对步骤201，基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征，计算获得第一智能体对其周围各个对手的注意力关注系数

，具体计算过程为：

其中，

表示第一中间系数；

表示第一智能体的状态特征；

表示第一智能体周围各个对手的状态特征；

表示向量点乘；

表示第一智能体的状态特征

的维度；

表示存活的各个对手

的数量，且初始时刻设定存活的对手数量

取15个。

针对步骤202，根据上一步骤计算获得的所述第一智能体对其周围各个对手的注意力关注系数

和所述第一智能体周围各个对手的状态特征

，进行多头注意力特征提取，获得第一智能体对应的多头注意力特征

，具体提取计算过程为：

针对步骤203，再将所述第一智能体对应的多头注意力特征

和所述第一智能体的状态特征

进行拼接组合，获得第一智能体周围环境状态特征

。

本方法所获得的第一智能体周围环境状态特征

，既考虑了当前的第一智能体对于其周围各个对手行为的影响因素，还考虑了各个不同的对手的各自的自主性状态特征，以及更结合了第一智能体本身的状态特征，由此，其在整体协同控制上效果更佳。

根据本发明提供的群体对抗中智能体控制方法，步骤300、基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征，获得所述第一智能体周围各个对手的总行为特征，包括：

301、基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征，计算获得第一对手对其周围各个智能体的注意力关注系数；

302、对所述第一对手对其周围各个智能体的注意力关注系数进行多头注意力特征提取，获得第一智能体周围各个对手的行为特征；

303、将所述第一智能体周围各个对手的行为特征进行堆叠，获得所述第一智能体周围各个对手的总行为特征。

针对步骤301，基于所述第一对手的状态特征

和所述第一对手周围各个智能体的状态特征

，计算获得第一对手对其周围各个智能体的注意力关注系数

，具体计算过程为：

其中，

表示第二中间系数；

表示第一对手的状态特征；

表示第一对手周围各个智能体的状态特征；

表示线性可学习的权重矩阵；权重是指不同对手占据不同的权重，且权重比例可以预先基于实际需求进行设定；

表示基于全连接层神经网络对其进行处理；

是指Leaky Relu激活函数；

表示第一对手周围各个智能体的数量，且初始时刻第一对手周围各个智能体的数量设定为

取10。

针对步骤302，对所述第一对手对其周围各个智能体的注意力关注系数

进行多头注意力特征提取，获得第一智能体周围各个对手的行为特征

，具体计算过程为：

其中，

表示线性可学习的权重矩阵

的转置矩阵；

是指ReLu激活函数。

针对步骤303，将所述第一智能体周围各个对手的行为特征

，具体是将第一智能体周围所有对手的行为特征

一起进行堆叠处理，比如逐一堆叠，最终获得所述第一智能体周围各个对手的总行为特征

，其本质理解为是第一智能体周围所有对手的总的行为特征。

对于第一智能体周围的各个对手，不仅单独考虑各个对手各自的状态特征等，还综合考虑所有对手的总的行为特征，能够增强数据分析的全面性，为后续对于智能体的控制提供更为可靠的参考依据。

根据本发明提供的群体对抗中智能体控制方法，步骤400、基于所述第一智能体周围各个对手的总行为特征，获得第一智能体周围各个对手的深层总行为特征，包括：

401、基于预设的全连接层神经网络和长短时记忆网络，对所述第一智能体周围各个对手的总行为特征进行特征编码，获得第一智能体周围各个对手的深层总行为特征。

针对步骤401，基于预设的全连接层神经网络和长短时记忆网络，对所述第一智能体周围各个对手的总行为特征

进行特征编码处理，获得第一智能体周围各个对手的深层总行为特征

。

本方法深入挖掘智能体与对手之间的深层关系特征，以便于最终快速实现智能体群体中各智能体对于对手的最佳对抗。

根据本发明提供的群体对抗中智能体控制方法，步骤500、基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征，获得交互特征，包括：

501、将所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征进行融合，获得第一智能体综合特征；

502、基于选择性传递注意力机制从所述第一智能体综合特征中提取交互特征。

针对步骤501，将所述第一智能体周围环境状态特征

和所述第一智能体周围各个对手的深层总行为特征

进行融合，获得第一智能体综合特征

。

针对步骤502，采用选择性传递注意力机制从所述第一智能体综合特征

中提取出交互特征向量

，具体提取计算过程为：

其中，

表示第一智能体相邻的其他智能体的个数；

表示每两个智能体间的通信跳数，且

，并设定

取3，此时默认

也为3个；

、

、

分别三个智能体分别对应的线性可学习的权重矩阵；

表示各个其他智能体的状态特征的维度；

表示ReLu激活函数。

图3是本发明提供的群体对抗中智能体控制方法中智能体与对手进行群体对抗的场景示意图，结合图3所示，通常群体对抗场景中，中心位置的大圆形330表示基地，表示被保护的核心位置。而场景中群体内，其中一方为智能体，如图3中各个虚线圆形物320所示，其均作为防御者；另一方为对手，如图3中各个实线圆形物310所示，其均作为攻击者。各个对手的任务是攻击基地，并避免被智能体吞噬，其采用的对抗策略是速度避障法。而各个智能体的任务是保护基地，并基于本发明提出的本发明提供的群体对抗中智能体控制方法的控制去消灭各个对手。对抗回合终止的触发条件，是基地遭到对手的攻击，或者所有对手均被消灭，且当所有对手均被消灭时，各个智能体获得正的奖励，也即获得奖励函数。需要说明的是，可以将初始时刻各个对手与基地的距离设定在一定范围内，比如设置在[1.5, 2]取值范围区间，同时设置各个智能体与基地的距离范围也在一定范围内，且此范围小于对手所在的距离范围，比如设置在[0.4, 0.5]取值范围区间，且默认基地的半径大小为0.25，且各数据取值单位保持一致。

本发明提出的群体对抗中智能体控制方法，其具体的逻辑控制原理分析如下：对智能体关系图进行推理，计算获得第一智能体周围环境状态特征，通过对对手关系进行建模分析，计算获得所述第一智能体周围各个对手的总行为特征，并计算获得第一智能体周围各个对手的深层总行为特征，还根据由第一智能体周围各个对手的深层总行为特征和第一智能体周围环境状态特征相融合获得的融合特征再进一步从智能体和对手之间交互信息中获得交互特征，最后根据交互特征分别建立控制策略网络和控制价值网络，以据其对群体中各个智能体进行有效控制。其充分利用了个各智能体和各个对手的各种状态特征和行为特征等，还采用多头注意力机制进行信息融合，有效提升了对抗成功率和缩短了对抗回合的时间。并且，其在对对手关系进行建模分析后，同时还可以基于第一智能体周围各个对手的总行为特征进行第一智能体周围各个对手下一时刻的状态特征的状态预测，并根据由预测结果中的预测差异获得的第一智能体的内在奖励和预设的预设的第一智能体的外部奖励获得所述第一智能体的群体对抗总奖励，并据此获得一智能体的群体对抗总奖励以及第一智能体以及其他各个智能体的累计回报最大动作，最后将各个智能体的累计回报最大动作，一并作为对各个智能体进行控制的依据，实现有效的群体对抗。即其利用预设的状态预测网络有效引导各个智能体进行状态预测和控制训练，以在群体对抗中快速实现各智能体对于各个对手的对抗，提升对抗的成功率。

下面对本发明提供的一种群体对抗中智能体控制装置进行介绍，所述装置可以理解为执行上述群体对抗中智能体控制方法的装置，二者应用原理相同，可相互参照，此处不再赘述。

本发明还提供一种群体对抗中智能体控制装置，图4是本发明提供的群体对抗中智能体控制装置的结构示意图，如图4所示，所述装置包括：状态获取模块一510、状态获取模块二520、特征获取模块一530、特征获取模块二540、特征获取模块三550和控制模块560，其中，

所述状态获取模块一510，用于获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征；

所述状态获取模块二520，用于基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征，获得第一智能体周围环境状态特征；

所述特征获取模块一530，用于基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征，获得所述第一智能体周围各个对手的总行为特征；

所述特征获取模块二540，用于基于所述第一智能体周围各个对手的总行为特征，获得第一智能体周围各个对手的深层总行为特征；

所述特征获取模块三550，用于基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征，获得交互特征；

所述控制模块560，用于基于所述交互特征对所述第一智能体进行控制。

本发明提供的群体对抗中智能体控制装置，包括相互连接的状态获取模块一510、状态获取模块二520、特征获取模块一530、特征获取模块二540、特征获取模块三550和控制模块560，各模块相互配合工作，使得本装置通过获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征，以及进行智能体之间关系图推理，智能体与对手之间关系图的推理，既考虑了当前的第一智能体对于其周围各个对手行为的影响因素，还考虑了各个不同的对手的各自的自主性状态特征，以及更结合了第一智能体本身的状态特征，能够在群体对抗中快速、高效地实现各智能体的控制，且控制效果良好，并且基于此控制方法能够有效提升各个智能体对于各个对手的对抗，即提升群体对抗的成功率。

本发明还提供一种电子设备，图5是本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)610、通信接口(CommunicationsInterface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行所述群体对抗中智能体控制方法的全部或部分步骤，该方法包括：

获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征；

基于所述交互特征对所述第一智能体进行控制。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述群体对抗中智能体控制方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random AccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各实施例所述群体对抗中智能体控制方法的全部或部分步骤，该方法包括：

基于所述交互特征对所述第一智能体进行控制。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上各实施例所述群体对抗中智能体控制方法的全部或部分步骤，该方法包括：

基于所述交互特征对所述第一智能体进行控制。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的群体对抗中智能体控制方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种群体对抗中智能体控制方法，其特征在于，所述方法包括：

基于所述交互特征对所述第一智能体进行控制；

所述基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征，获得第一智能体周围环境状态特征，包括：

基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征，计算获得第一智能体对其周围各个对手的注意力关注系数；具体计算过程为：

其中，

表示第一中间系数；

表示第一智能体的状态特征；

表示第一智能体周围各个对手的状态特征；

表示向量点乘；

表示第一智能体的状态特征

的维度；

表示存活的各个对手j的数量；

对所述第一智能体对其周围各个对手的注意力关注系数进行多头注意力特征提取，获得第一智能体对应的多头注意力特征；具体提取计算过程为：

将所述第一智能体对应的多头注意力特征和所述第一智能体的状态特征进行组合，获得第一智能体周围环境状态特征；

所述基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征，获得所述第一智能体周围各个对手的总行为特征，包括：

基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征，计算获得第一对手对其周围各个智能体的注意力关注系数；具体计算过程为：

其中，

表示第二中间系数；

表示第一对手的状态特征；

表示第一对手周围各个智能体的状态特征；

表示基于全连接层神经网络对其进行处理；

是指LeakyReLu激活函数；

表示第一对手周围各个智能体的数量；

表示第一对手对其周围各个智能体的注意力关注系数；

对所述第一对手对其周围各个智能体的注意力关注系数进行多头注意力特征提取，获得第一智能体周围各个对手的行为特征；具体计算过程为：

其中，

表示线性可学习的权重矩阵

的转置矩阵；

是指ReLu激活函数；

表示第一智能体周围各个对手的行为特征；

将所述第一智能体周围各个对手的行为特征进行堆叠，获得所述第一智能体周围各个对手的总行为特征；

所述基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征，获得交互特征，包括：

2.根据权利要求1所述的群体对抗中智能体控制方法，其特征在于，所述方法还包括以下步骤：

相应地，所述基于所述交互特征对所述第一智能体进行控制，包括：基于所述交互特征和所述第一智能体累计回报最大动作对所述第一智能体进行控制；

所述根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异，获得第一智能体的群体对抗总奖励和第一智能体累计回报最大动作，包括：

基于所述第一智能体周围各个对手的总行为特征和预设的状态预测法，预测获得所述第一智能体周围各个对手下一时刻的状态特征；具体计算过程为：

其中，

表示预先设定的状态预测网络，也可以是全连接层神经网络；

表示第一智能体周围各个对手下一时刻的状态特征；

表示第一智能体周围各个对手的总行为特征；

基于所述第一智能体周围各个对手状态特征的预测差异，获得第一智能体的内在奖励；具体计算过程为：

其中，

表示第一智能体周围各个对手状态特征的预测差异；

表示存活的对手的集合；E表示平均值函数；

表示第一智能体的内在奖励；

基于所述第一智能体的内在奖励和预设的第一智能体的外部奖励，获得所述第一智能体的群体对抗总奖励；具体计算过程为：

其中，

表示可调节的权重参数；

表示第一智能体的内在奖励；

表示预设的第一智能体的外部奖励；

表示第一智能体的群体对抗总奖励；

3.根据权利要求1-2任一项所述的群体对抗中智能体控制方法，其特征在于，所述基于所述第一智能体周围各个对手的总行为特征，获得第一智能体周围各个对手的深层总行为特征，包括：

4.一种群体对抗中智能体控制装置，其特征在于，所述装置包括：

状态获取模块二，用于基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征，获得第一智能体周围环境状态特征；所述基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征，获得第一智能体周围环境状态特征，包括：基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征，计算获得第一智能体对其周围各个对手的注意力关注系数；具体计算过程为：

其中，

表示第一中间系数；

表示第一智能体的状态特征；

表示第一智能体周围各个对手的状态特征；

表示向量点乘；

表示第一智能体的状态特征

的维度；

表示存活的各个对手j的数量；

特征获取模块一，用于基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征，获得所述第一智能体周围各个对手的总行为特征；所述基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征，获得所述第一智能体周围各个对手的总行为特征，包括：基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征，计算获得第一对手对其周围各个智能体的注意力关注系数；具体计算过程为：

其中，

表示第二中间系数；

表示第一对手的状态特征；

表示第一对手周围各个智能体的状态特征；

表示基于全连接层神经网络对其进行处理；

是指LeakyReLu激活函数；

表示第一对手周围各个智能体的数量；

表示第一对手对其周围各个智能体的注意力关注系数；

其中，

表示线性可学习的权重矩阵

的转置矩阵；

是指ReLu激活函数；

表示第一智能体周围各个对手的行为特征；

特征获取模块二，用于基于所述第一智能体周围各个对手的总行为特征，获得第一智能体周围各个对手的深层总行为特征；所述基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征，获得交互特征，包括：将所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征进行融合，获得第一智能体综合特征；基于选择性传递注意力机制从所述第一智能体综合特征中提取交互特征；

5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现根据权利要求1-3任一项所述群体对抗中智能体控制方法的全部或部分步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现根据权利要求1-3任一项所述群体对抗中智能体控制方法的全部或部分步骤。