CN113893539A

CN113893539A - 智能体的协同对战方法及装置

Info

Publication number: CN113893539A
Application number: CN202111495010.3A
Authority: CN
Inventors: 黄茗; 王滨; 原鑫; 李波
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-01-07
Anticipated expiration: 2041-12-09
Also published as: CN113893539B

Abstract

本发明涉及一种智能体的协同对战方法、装置、终端设备和存储介质，通过确定智能体进行对战的虚拟空战场景；根据虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，根据状态值，确定与状态值对应的动作的奖励值；根据虚拟空战场景、动作空间信息、状态空间信息和奖励值，对初始强化学习模型进行训练，当初始强化学习模型处于收敛状态时，得到目标强化学习模型；采用目标强化学习模型与规则智能体进行对战，克服了目标奖励困难和不稳定的问题，多智能体的策略进行变化时，不会影响多智能体的强化学习。

Description

智能体的协同对战方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种智能体的协同对战方法、装置、终端设备和存储介质。

背景技术

多个无人作战飞机在进行空战自主机动决策时，需要进行决策认知和协同配合。因为无人作战飞机的环境比较复杂，同时需要考虑飞机之间的协同，如何实现作战飞机的自主控制是一个研究重点。

传统的无人机控制依赖于专家知识，通过专家对环境的判断和经验构建规则，来应对不同的情况，但是这要求专家具备很高的经验知识，同时考虑所有的情况耗费大量的时间精力。随着人工智能技术的发展，深度学习不断应用到各个领域。强化学习是近年来比较受关注的一个研究方向，强化学习在智能机器人、游戏博弈、无人车等应用领域中取得了一系列的成果。

强化学习主要基于马尔科夫决策过程，根据当前的环境和状态选择执行动作后，通过计算回报的大小来判断所选动作的合理性。强化学习从过去的经验中不断学习来获取知识，从而不需要大量的标签数据，同时也可以减少对专家的依赖。强化学习最初应用于单智能体的场景，在单智能体的场景中，智能体所在的环境是稳定的。但是在多智能体的强化学习中，环境是复杂多变的，状态空间会随着智能体的增加呈指数级增长，可能出现维度爆炸的问题，计算复杂；同时存在目标奖励确定困难和不稳定性的问题，多智能体之间因为合作和任务不同会影响到奖励函数的定义，而且每个智能体策略发生变化时，其余智能体的策略也会发生变化，影响算法最终的收敛性。

发明内容

本发明意在提供一种智能体的协同对战方法、装置、终端设备和存储介质，以解决现有技术中存在的不足，本发明要解决的技术问题通过以下技术方案来实现。

第一个方面，本发明实施例提供一种智能体的协同对战方法，所述方法包括：

确定智能体进行对战的虚拟空战场景；

根据所述虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，其中，所述动作空间信息至少包括动作值，所述状态空间信息至少包括状态值；

根据所述状态值，确定与所述状态值对应的动作的奖励值；

根据所述虚拟空战场景、动作空间信息、状态空间信息和所述奖励值，对初始强化学习模型进行训练，当所述初始强化学习模型处于收敛状态时，得到目标强化学习模型；

采用所述目标强化学习模型与规则智能体进行对战。

可选地，所述动作空间信息至少包括：初始指令和动作指令，其中，所述初始指令至少包括初始化实体指令、航线巡逻指令、区域巡逻指令、机动参数调整指令、跟随指令和打击目标指令中的一种或多种，所述动作指令至少包括移动动作、攻击动作、躲避动作、区域巡逻动作和无动作中的一种或多种。

可选地，所述状态空间信息包括虚拟空战场景下的所有智能体的状态信息，以及各个智能体之间的关联关系，各个智能体的状态信息还包括是否存活和智能体类型，所述各个智能体之间的关联关系至少包括智能体之间的距离。

可选地，所述根据所述虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，包括：

在所述虚拟空战场景内，设置每个智能体的局部观测信息为

，全局观察空间为

，

；每个智能体的动作为

；

确定每个智能体的动作与观测历史的曲线信息，包括：

；

确定每个智能体的分布式策略，所述分布式策略包括：

，其值函数为

，i，t为大于0的自然数，Θ为目标神经网络参数。

可选地，所述根据所述状态值，确定与所述状态值对应的动作的奖励值，包括：

根据预先设置的对战胜负评判策略，根据不同的状态值，确定与所述状态值对应的动作值；

根据不同的动作值，确定与所述动作值对应的动作；

确定与所述动作对应的奖励值。

可选地，所述方法还包括：

采用所述目标强化学习模型与自身智能体进行对战；

根据对战结果，对所述目标强化学习模型进行更新。

可选地，所述根据所述虚拟空战场景、动作空间信息、状态空间信息和所述奖励值，对初始强化学习模型进行训练，当所述初始强化学习模型处于收敛状态时，得到目标强化学习模型，包括：

对于每个智能体的局部动作值函数

，采用VDN算法进行计算，得到联合动作值函数，所述联合动作值函数包括：

通过采用初始强化学习模型qmix的分布式策略和混合网络模型，使用局部动作值函数

来获取最优动作，并联合动作值函数取argmax转化为单调性约束，包括：

对所述初始强化学习模型qmix进行训练的过程中，得到代价函数为：

其中b为采样的样本数量；

根据所述代价函数确定所述目标强化学习模型，所述目标强化学习模型包括：

，其中

表示目标网络，r为奖励值，γ表示更新率，

表示下一时刻的联合动作-观测历史、联合动作、系统状态，

表示下一时刻的目标神经网络参数。

第二个方面，本发明实施例提供一种智能体的协同对战装置，所述装置包括：

第一确定模块，用于确定智能体进行对战的虚拟空战场景；

第二确定模块，用于根据所述虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，其中，所述动作空间信息至少包括动作值，所述状态空间信息至少包括状态值；

第三确定模块，用于根据所述状态值，确定与所述状态值对应的动作的奖励值；

模型训练模块，用于根据所述虚拟空战场景、动作空间信息、状态空间信息和所述奖励值，对初始强化学习模型进行训练，当所述初始强化学习模型处于收敛状态时，得到目标强化学习模型；

对战模块，用于采用所述目标强化学习模型与规则智能体进行对战。

可选地，所述第二确定模块用于：

在所述虚拟空战场景内，设置每个智能体的局部观测信息为

，全局观察空间为

，

；每个智能体的动作为

；

确定每个智能体的动作与观测历史的曲线信息，包括：

；

确定每个智能体的分布式策略，所述分布式策略包括：

，其值函数为

，i，t为大于0的自然数，Θ为目标神经网络参数。

可选地，所述第三确定模块，用于：

根据不同的动作值，确定与所述动作值对应的动作；

确定与所述动作对应的奖励值。

可选地，所述对战模块还用于：

采用所述目标强化学习模型与自身智能体进行对战；

根据对战结果，对所述目标强化学习模型进行更新。

可选地，所述模型训练模块用于：

对于每个智能体的局部动作值函数

其中b为采样的样本数量；

，其中

表示目标网络，r为奖励值，γ表示更新率，

表示下一时刻的联合动作-观测历史、联合动作、系统状态，

表示下一时刻的目标神经网络参数。

第三个方面，本发明实施例提供一种终端设备，包括：至少一个处理器和存储器；

所述存储器存储计算机程序；所述至少一个处理器执行所述存储器存储的计算机程序，以实现第一个方面提供的智能体的协同对战方法。

第四个方面，本发明实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现第一个方面提供的智能体的协同对战方法。

本发明实施例包括以下优点：

本发明实施例提供的智能体的协同对战方法、装置、终端设备和存储介质，通过确定智能体进行对战的虚拟空战场景；根据虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，其中，动作空间信息至少包括动作值，状态空间信息至少包括状态值；根据状态值，确定与状态值对应的动作的奖励值；根据虚拟空战场景、动作空间信息、状态空间信息和奖励值，对初始强化学习模型进行训练，当初始强化学习模型处于收敛状态时，得到目标强化学习模型；采用目标强化学习模型与规则智能体进行对战，使用仿真平台构建无人机的对战环境，定义智能体的状态空间和动作空间，并定义不同动作的奖励值，使用qmix强化学习算法进行学习，克服了目标奖励困难和不稳定的问题，多智能体的策略进行变化时，不会影响多智能体的强化学习。

附图说明

图1是本发明的一种智能体的协同对战方法实施例的步骤流程图；

图2是本发明的又一种智能体的协同对战的步骤流程图；

图3是本发明的再一种智能体的协同对战方法实施例的步骤流程图；

图4是本发明的强化学习模型训练的示意图；

图5是本发明的一种智能体的协同对战装置实施例的结构框图；

图6是本发明的一种终端设备的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明一实施例提供一种智能体的协同对战方法，用于多智能体之间的对战。本实施例的执行主体为智能体的协同对战装置，设置在智能体上，该智能体可以是无人机或有人机。

参照图1，示出了本发明的一种智能体的协同对战方法实施例的步骤流程图，该方法具体可以包括如下步骤：

S101、确定智能体进行对战的虚拟空战场景；

具体地，基于现实中的无人机，通过仿真平台进行空战想定，基于XSIM仿真平台，以异构、协同全透明态势空战为想定，为无人机对战提供一个虚拟对战场景。

S102、根据虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，其中，动作空间信息至少包括动作值，状态空间信息至少包括状态值；

具体地，基于设置好的虚拟空战场景，为每一个智能体设置动作空间信息和状态空间信息，其中，动作空间信息至少包括：初始指令和动作指令，其中，初始指令至少包括初始化实体指令、航线巡逻指令、区域巡逻指令、机动参数调整指令、跟随指令和打击目标指令中的一种或多种，动作指令至少包括移动动作、攻击动作、躲避动作、区域巡逻动作和无动作中的一种或多种。另外，该动作空间信息还包括与每一个动作对应的动作值；

状态空间信息包括虚拟空战场景下的所有智能体的状态信息，以及各个智能体之间的关联关系，各个智能体的状态信息还包括是否存活和智能体类型，各个智能体之间的关联关系至少包括智能体之间的距离。该状态空间信息还包括不同状态对应的状态值。

S103、根据状态值，确定与状态值对应的动作的奖励值；

具体地，根据整个仿真平台的胜负评判指标，为动作制定相应的奖励。其中当有人机被击毁和所有飞机携弹量为0时判负；时间结束时，两边战损相同则判断有人机在中心区域的时间。根据这些规则，当右方飞机发射导弹时，取0.7的概率击中敌方飞机，加10分；取0.3的概率无法击中，损失导弹，-3分；如果攻击的是敌方有人机，则+5分；对于有人机，远离中心区域-1分。

S104、根据虚拟空战场景、动作空间信息、状态空间信息和奖励值，对初始强化学习模型进行训练，当初始强化学习模型处于收敛状态时，得到目标强化学习模型；

S105、采用目标强化学习模型与规则智能体进行对战。

具体地，将己方的智能体使用qmix强化学习网络，与规则编写的敌方智能体对战，并进行模型训练；第二阶段将第一阶段的智能体进行自我对战，不断强化，达到使用深度强化学习提升智能体的策略认知和选择的能力。

本发明实施例提供的智能体的协同对战方法，通过确定智能体进行对战的虚拟空战场景；根据虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，其中，动作空间信息至少包括动作值，状态空间信息至少包括状态值；根据状态值，确定与状态值对应的动作的奖励值；根据虚拟空战场景、动作空间信息、状态空间信息和奖励值，对初始强化学习模型进行训练，当初始强化学习模型处于收敛状态时，得到目标强化学习模型；采用目标强化学习模型与规则智能体进行对战，使用仿真平台构建无人机的对战环境，定义智能体的状态空间和动作空间，并定义不同动作的奖励值，使用qmix强化学习算法进行学习，克服了目标奖励困难和不稳定的问题，多智能体的策略进行变化时，不会影响多智能体的强化学习。

本发明又一实施例对上述实施例提供的智能体的协同对战方法做进一步补充说明。

可选地，根据虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，包括：

在所述虚拟空战场景内，设置每个智能体的局部观测信息为

，全局观察空间为

，

；每个智能体的动作为

；

确定每个智能体的动作与观测历史的曲线信息，包括：

；

确定每个智能体的分布式策略，所述分布式策略包括：

，其值函数为

，i，t为大于0的自然数，Θ为目标神经网络参数。

可选地，根据状态值，确定与状态值对应的动作的奖励值，包括：

根据预先设置的对战胜负评判策略，根据不同的状态值，确定与状态值对应的动作值；

根据不同的动作值，确定与动作值对应的动作；

确定与动作对应的奖励值。

可选地，该方法还包括：

采用目标强化学习模型与自身智能体进行对战；

根据对战结果，对目标强化学习模型进行更新。

可选地，根据虚拟空战场景、动作空间信息、状态空间信息和奖励值，对初始强化学习模型进行训练，当初始强化学习模型处于收敛状态时，得到目标强化学习模型，包括：

对于每个智能体的局部动作值函数

其中b为采样的样本数量；

，其中

表示目标网络，r为奖励值，γ表示更新率，

表示下一时刻的联合动作-观测历史、联合动作、系统状态，

表示下一时刻的目标神经网络参数。

图2是本发明的又一种智能体的协同对战的步骤流程图，如图2所示，本发明提供一种基于深度强化学习的仿真多智能体协同对战方法，使用仿真平台构建无人机的对战环境，定义智能体的状态空间和动作空间，并定义不同动作的奖励值，根据历史对战数据，使用qmix强化学习算法进行学习。qmix强化学习的分为两个阶段，第一阶段使用规则制定对手智能体，训练己方智能体与其对抗，为后续提供基础；第二阶段通过自我对抗训练两方的智能体，优化其输出的策略，使得最终学习的智能体能够学习更多的策略，可以和具备更高智能的智能体对抗。

具体的，

S1、基于现实中的无人机，通过仿真平台进行空战想定，制定一个虚拟空战场景；

S2、根据虚拟场景，分析构建无人机的动作空间和状态空间；

S3、根据场景需要，通过对战的结果判定来定义奖励值；

S4、使用深度强化学习qmix来对智能体进行训练，先与规则智能体对战，后续自我博弈提升。

图3是本发明的再一种智能体的协同对战方法实施例的步骤流程图，如图3所示，

S301、通过仿真平台进行空战想定，定义无人机的作战方式和区域；

基于空中智能博弈大赛和XSIM仿真平台，以异构、协同全透明态势空战为想定，为无人机对战提供一个虚拟对战场景。作战想定对战分为红蓝双方，均为1架有人机（此处有人机和无人机区别主要在于参数不同，不是人为操作）携带4架无人机进行确定信息的透明态势自由对战，同时每个飞机带有模拟的雷达探测功能以及空空导弹作为攻击武器。飞机的位置具有三个维度，分别是x、y坐标和高度。战场中心为坐标原点，向右为 x 轴正轴，向上为 y 轴正轴，初始高度 9000～10000 米。整个战场的大小为300km×300km，战斗的整体时长为20分钟。

对战时的进攻方向为红蓝迎头进入，速度 0.9 马赫；机载火控雷达发现目标后，依据选定的空战策略，锁定并发射空空导弹攻击目标。

S302、分析仿真环境，设定无人机在强化学习中的动作空间和状态空间；

分析构建无人机的动作空间和状态空间，构建在强化学习过程的状态值和动作值，具体方式如下：

第一步，动作空间。

在仿真平台中，想定的无人机总共有5种指令，分别为初始化实体指令；航线巡逻指令；区域巡逻指令；机动参数调整指令；跟随指令；打击目标指令。其中初始化指令仅在对战开始前3秒生效，因此不加入智能体的可选动作空间。为了能让无人机自由移动和攻击，在基础指令之上制定了16个动作空间：

移动动作，通过让使用航线巡逻指令，以无人机当前的坐标为起始点，东南西北方向以及四个夹角总共8个方向，加上5km的距离之后的坐标作为目标点，形成8个移动动作；

攻击动作，使用打击目标指令，5个敌方飞机为目标，形成5个攻击动作；

躲避动作，当敌方导弹距离无人机过近时，使用跟随指令，跟随友方其他飞机；

区域巡逻动作，使用区域巡逻指令，以当前坐标点为中心，周围5公里进行区域巡逻；

无动作，不执行任何指令；

第二步，状态空间。

状态空间为全局的观察空间，记录了每个己方飞机的状态，以及与敌方飞机的关联。其中自身的状态空间包括:

对于每个己方飞机，记录其是否存活；飞机的类型；以及与其他友方飞机的距离；相应友方飞机的位置，即x、y坐标和高度（坐标要除以半个坐标系长度150000）；友方飞机的类型；同时判断该己方飞机在8个方向能否移动。

对于每个己方飞机，还要判断其与敌方飞机的关联，即敌方飞机相对于自身的位置，距离，类型，以及敌方飞机能否被攻击。

每个智能体的局部观测信息为

，系统的全局观察空间为

，即

。每个智能体的动作为

。每个智能体的动作-观测历史可以表示

。则每个智能体的分布式策略为

，i，t为大于0的自然数，Θ为目标神经网络参数，其值函数为

。

S303、根据胜负评判依据，以及动作状态空间定义强化学习的奖励值；

根据状态值选择的动作值来选择无人机的动作，并为每个动作产设定奖励值，具体方式如下：

根据整个仿真平台的胜负评判指标，为动作制定相应的奖励。其中当有人机被击毁和所有飞机携弹量为0时判负；时间结束时，两边战损相同则判断有人机在中心区域的时间。根据这些规则，当右方飞机发射导弹时，取0.7的概率击中敌方飞机，加10分；取0.3的概率无法击中，损失导弹，-3分；如果攻击的是敌方有人机，则+5分；对于有人机，远离中心区域-1分。

S304、使用深度强化想学习qmix进行智能体训练，一阶段与规则智能体训练，二阶段自我博弈。

本发明实施例提出一种基于深度强化学习的仿真多智能体协同对战方法，通过仿真无人机对战平台，抽象无人机的动作，基于深度强化学习qmix进行多智能体训练，能够减少对人工规则的依赖和避免单智能体的缺陷。

图4是本发明的强化学习模型训练的示意图，如图4所示，使用深度强化学习模型qmix进行智能体训练，具体方式如下：

对于每个智能体i的局部动作值函数

，局部值函数只依赖于每个智能体的局部观测，VDN（Value-Decomposition Networks For Cooperative Multi-AgentLearning）采用了直接相加求和的方式：

qmix采用分布式策略，贪心地通过局部

来获取最优动作，将联合动作值函数取argmax转化为单调性约束，即：

为了实现上述约束，qmix采用混合网络来实现。qmix在训练过程中采用的代价函数为：

其中b为采样的样本数量。在无人机对战中，时间为20分钟，由于最快可以每秒更新一次战场的状态，同时向无人机发出指令。但这种情况下，可能会出现无人机还未充分执行上一个动作就要执行下一个动作，因此将采样频率定义10s一次，因此每次对战总的样本量为120个。

上式中的

，其中

表示目标网络，r为奖励值，γ表示更新率，

表示下一时刻的联合动作-观测历史、联合动作、系统状态，

表示下一时刻的目标神经网络参数。

整体训练的过程分为两个阶段，将己方的智能体使用qmix强化学习网络，与规则编写的敌方智能体对战，并进行模型训练；第二阶段将第一阶段的智能体进行自我对战，不断强化，达到使用深度强化学习提升智能体的策略认知和选择的能力。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

本发明实施例提供的智能体的协同对战方法，通过确定智能体进行对战的虚拟空战场景；根据虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，其中，动作空间信息至少包括动作值，状态空间信息至少包括状态值；根据状态值，确定与状态值对应的动作的奖励值；根据虚拟空战场景、动作空间信息、状态空间信息和奖励值，对初始强化学习模型进行训练，当初始强化学习模型处于收敛状态时，得到目标强化学习模型；采用目标强化学习模型与规则智能体进行对战，使用仿真平台构建无人机的对战环境，定义智能体的状态空间和动作空间，并定义不同动作的奖励值，使用qmix强化学习算法进行学习，克服了目标奖励困难和不稳定的问题，多智能体的策略进行变化时，额不会影响多智能体的强化学习。

本发明另一实施例提供一种智能体的协同对战装置，用于执行上述实施例提供的智能体的协同对战方法。

参照图5，示出了本发明的一种智能体的协同对战装置实施例的结构框图，该装置具体可以包括如下模块：第一确定模块501、第二确定模块502、第三确定模块503、模型训练模块504和对战模块505，其中：

第一确定模块501用于确定智能体进行对战的虚拟空战场景；

第二确定模块502用于根据虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，其中，动作空间信息至少包括动作值，状态空间信息至少包括状态值；

第三确定模块503用于根据状态值，确定与状态值对应的动作的奖励值；

模型训练模块504用于根据虚拟空战场景、动作空间信息、状态空间信息和奖励值，对初始强化学习模型进行训练，当初始强化学习模型处于收敛状态时，得到目标强化学习模型；

对战模块505用于采用目标强化学习模型与规则智能体进行对战。

本发明实施例提供的智能体的协同对战装置，通过确定智能体进行对战的虚拟空战场景；根据虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，其中，动作空间信息至少包括动作值，状态空间信息至少包括状态值；根据状态值，确定与状态值对应的动作的奖励值；根据虚拟空战场景、动作空间信息、状态空间信息和奖励值，对初始强化学习模型进行训练，当初始强化学习模型处于收敛状态时，得到目标强化学习模型；采用目标强化学习模型与规则智能体进行对战，使用仿真平台构建无人机的对战环境，定义智能体的状态空间和动作空间，并定义不同动作的奖励值，使用qmix强化学习算法进行学习，克服了目标奖励困难和不稳定的问题，多智能体的策略进行变化时，额不会影响多智能体的强化学习。

本发明又一实施例对上述实施例提供的智能体的协同对战装置做进一步补充说明。

可选地，动作空间信息至少包括：初始指令和动作指令，其中，初始指令至少包括初始化实体指令、航线巡逻指令、区域巡逻指令、机动参数调整指令、跟随指令和打击目标指令中的一种或多种，动作指令至少包括移动动作、攻击动作、躲避动作、区域巡逻动作和无动作中的一种或多种。

可选地，状态空间信息包括虚拟空战场景下的所有智能体的状态信息，以及各个智能体之间的关联关系，各个智能体的状态信息还包括是否存活和智能体类型，各个智能体之间的关联关系至少包括智能体之间的距离。

可选地，第二确定模块用于：

在虚拟空战场景内，设置每个智能体的局部观测信息为

，全局观察空间为

，

；每个智能体的动作为

；

确定每个智能体的动作与观测历史的曲线信息，包括：

；

确定每个智能体的分布式策略，所述分布式策略包括：

，其值函数为

，i，t为大于0的自然数，Θ为目标神经网络参数。

可选地，第三确定模块，用于：

根据不同的动作值，确定与动作值对应的动作；

确定与动作对应的奖励值。

可选地，对战模块还用于：

采用目标强化学习模型与自身智能体进行对战；

根据对战结果，对目标强化学习模型进行更新。

可选地，模型训练模块用于：

对于每个智能体的局部动作值函数

其中b为采样的样本数量；

，其中

表示目标网络，r为奖励值，γ表示更新率，

表示下一时刻的联合动作-观测历史、联合动作、系统状态，

表示下一时刻的目标神经网络参数。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明再一实施例提供一种终端设备，用于执行上述实施例提供的智能体的协同对战方法。

图6是本发明的一种终端设备的结构示意图，如图6所示，该终端设备包括：至少一个处理器601和存储器602；

存储器存储计算机程序；至少一个处理器执行存储器存储的计算机程序，以实现上述实施例提供的智能体的协同对战方法。

本实施例提供的终端设备，通过确定智能体进行对战的虚拟空战场景；根据虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，其中，动作空间信息至少包括动作值，状态空间信息至少包括状态值；根据状态值，确定与状态值对应的动作的奖励值；根据虚拟空战场景、动作空间信息、状态空间信息和奖励值，对初始强化学习模型进行训练，当初始强化学习模型处于收敛状态时，得到目标强化学习模型；采用目标强化学习模型与规则智能体进行对战，使用仿真平台构建无人机的对战环境，定义智能体的状态空间和动作空间，并定义不同动作的奖励值，使用qmix强化学习算法进行学习，克服了目标奖励困难和不稳定的问题，多智能体的策略进行变化时，额不会影响多智能体的强化学习。

本申请又一实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，计算机程序被执行时实现上述任一实施例提供的智能体的协同对战方法。

根据本实施例的计算机可读存储介质，通过确定智能体进行对战的虚拟空战场景；根据虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，其中，动作空间信息至少包括动作值，状态空间信息至少包括状态值；根据状态值，确定与状态值对应的动作的奖励值；根据虚拟空战场景、动作空间信息、状态空间信息和奖励值，对初始强化学习模型进行训练，当初始强化学习模型处于收敛状态时，得到目标强化学习模型；采用目标强化学习模型与规则智能体进行对战，使用仿真平台构建无人机的对战环境，定义智能体的状态空间和动作空间，并定义不同动作的奖励值，使用qmix强化学习算法进行学习，克服了目标奖励困难和不稳定的问题，多智能体的策略进行变化时，额不会影响多智能体的强化学习。

应该指出，上述详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式。此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要说明的是，本申请中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位，如旋转90度或处于其他方位，并且对这里所使用的空间相对描述作出相应解释。

在上面详细的说明中，参考了附图，附图形成本文的一部分。在附图中，类似的符号典型地确定类似的部件，除非上下文以其他方式指明。在详细的说明书、附图中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下，其他实施方案可以被使用，并且可以作其他改变。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能体的协同对战方法，其特征在于，所述方法包括：

确定智能体进行对战的虚拟空战场景；

根据所述状态值，确定与所述状态值对应的动作的奖励值；

采用所述目标强化学习模型与规则智能体进行对战。

2.根据权利要求1所述的方法，其特征在于，所述动作空间信息至少包括：初始指令和动作指令，其中，所述初始指令至少包括初始化实体指令、航线巡逻指令、区域巡逻指令、机动参数调整指令、跟随指令和打击目标指令中的一种或多种，所述动作指令至少包括移动动作、攻击动作、躲避动作、区域巡逻动作和无动作中的一种或多种。

3.根据权利要求2所述的方法，其特征在于，所述状态空间信息包括虚拟空战场景下的所有智能体的状态信息，以及各个智能体之间的关联关系，各个智能体的状态信息还包括是否存活和智能体类型，所述各个智能体之间的关联关系至少包括智能体之间的距离。

4.根据权利要求3所述的方法，其特征在于，所述根据所述虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，包括：

在所述虚拟空战场景内，设置每个智能体的局部观测信息为