CN113894780B

CN113894780B - 多机器人协作对抗方法、装置、电子设备和存储介质

Info

Publication number: CN113894780B
Application number: CN202111136603.0A
Authority: CN
Inventors: 赵冬斌; 唐振韬; 朱圆恒
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2023-05-05
Anticipated expiration: 2041-09-27
Also published as: CN113894780A

Abstract

本发明提供一种多机器人协作对抗方法、装置、电子设备和存储介质，其中方法包括：获取对抗环境的当前全局状态信息，以及每一己方机器人的当前局部观测信息；将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型，得到所述协作对抗模型输出的每一己方机器人的当前决策行为；基于每一己方机器人的当前决策行为，对每一己方机器人进行控制。本发明提供的方法、装置、电子设备和存储介质，利用了对方机器人的训练数据，扩大了训练样本，提高了训练数据的利用率，提高了协作对抗模型的鲁棒性和准确性。

Description

多机器人协作对抗方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种多机器人协作对抗方法、装置、电子设备和存储介质。

背景技术

实体机器人对抗系统一直以来都是人工智能研究的重点。现有的实体机器人对抗系统的决策方法主要可分为两大类，一类是以有限状态机和行为决策树为代表的传统规则型方法，该类方法可结合博弈论模型或交互式动态影响图方法提升模型决策性能。另一类则是基于马尔科夫决策过程的决策型方法，将决策问题建模成马尔科夫决策过程进行求解，并且可以结合遗传算法或随机组合梯度下降的方法求解马尔科夫决策模型。

然而，随着状态空间的增加，求解目标优化问题的计算量会迅速增加，并且严重依赖于专家模型的质量，数据利用率低，模型决策效率低，模型准确性差。

发明内容

本发明提供一种多机器人协作对抗方法、装置、电子设备和存储介质，用于解决现有技术中的多机器人对抗方法的数据利用率低，模型决策效率低，模型准确性差的技术问题。

本发明提供一种多机器人协作对抗方法，包括：

获取对抗环境的当前全局状态信息，以及每一己方机器人的当前局部观测信息；

将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型，得到所述协作对抗模型输出的每一己方机器人的当前决策行为；

基于每一己方机器人的当前决策行为，对每一己方机器人进行控制；

其中，所述协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为，以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。

根据本发明提供的多机器人协作对抗方法，所述每一己方机器人的当前决策行为对应的奖励包括探索奖励；所述探索奖励是基于如下步骤确定的：

基于所述对抗环境的当前全局状态信息，以及训练特征模型和目标特征模型，确定当前全局状态信息特征误差；

基于任一己方机器人的当前局部观测信息，以及训练特征模型和目标特征模型，确定当前局部观测信息特征误差；

基于所述当前全局状态信息特征误差，以及所述任一己方机器人的历史全局状态信息特征误差，确定所述任一己方机器人的全局状态奖励；

基于所述当前局部观测信息特征误差，以及所述任一己方机器人的历史局部观测信息特征误差，确定所述任一己方机器人的局部观测奖励；

基于所述任一己方机器人的全局状态奖励和局部观测奖励，确定所述任一己方机器人的探索奖励；

其中，所述训练特征模型的损失函数是基于所述训练特征模型和所述目标特征模型的均方误差确定的。

根据本发明提供的多机器人协作对抗方法，所述将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型，得到所述协作对抗模型输出的每一己方机器人的当前决策行为，包括：

将所述对抗环境的当前全局状态信息输入至所述协作对抗模型的全局态势感知层，得到所述全局态势感知层输出的全局态势特征向量；

将每一己方机器人的当前局部观测信息输入至所述协作对抗模型的分布决策评估层，得到所述分布决策评估层输出的每一己方机器人的决策评估值；

将所述全局态势特征向量和所述每一己方机器人的决策评估值输入至所述协作对抗模型的集中决策评估层，得到所述集中决策评估层输出的联合决策评估值；

将所述联合决策评估值输入至所述协作对抗模型的行为确定层，得到所述行为确定层输出的每一己方机器人的当前决策行为。

根据本发明提供的多机器人协作对抗方法，所述将所述全局态势特征向量和所述每一己方机器人的决策评估值输入至所述协作对抗模型的集中决策评估层，得到所述集中决策评估层输出的联合决策评估值，包括：

将所述全局态势特征向量输入所述集中决策评估层中的第一特征提取层，得到所述第一特征提取层输出的第一权重和第一偏置；

将所述全局态势特征向量输入所述集中决策评估层中的第二特征提取层，得到所述第二特征提取层输出的第二权重；

将所述全局态势特征向量输入所述集中决策评估层中的第三特征提取层，得到所述第三特征提取层输出的第二偏置；

将所述每一己方机器人的决策评估值、所述第一权重、所述第一偏置、所述第二权重和所述第二偏置输入至所述集中决策评估层中的结果输出层，得到所述结果输出层输出的联合决策评估值；

其中，所述第一特征提取层包括两个全连接层和一个绝对值激活函数激活层；所述第二特征提取层包括一个全连接层和一个绝对值激活函数激活层；所述第三特征提取层包括两个全连接层和两个ReLU函数激活层。

根据本发明提供的多机器人协作对抗方法，所述每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为，以及每一对方机器人的样本决策行为对应的奖励是基于如下步骤确定的：

构建行为决策树；

基于所述行为决策树，以及任一对方机器人的样本局部观测信息，确定所述任一对方机器人的样本决策行为；

基于预设的奖励规则，以及所述任一对方机器人的样本决策行为，确定所述任一对方机器人的样本决策行为对应的奖励。

根据本发明提供的多机器人协作对抗方法，所述协作对抗模型是基于如下步骤训练的：

确定当前次迭代训练中的训练样本和陪练样本；所述陪练样本在当前次迭代训练中的数量低于上一次迭代训练中的数量；

基于所述训练样本和所述陪练样本，对所述协作对抗模型进行训练；

其中，所述训练样本为多机器人协作对抗过程中生成的历史全局状态信息、每一己方机器人的历史局部观测信息、每一己方机器人的历史决策行为，以及每一己方机器人的历史决策行为对应的奖励，所述陪练样本为每一对方机器人的历史局部观测信息、每一对方机器人的历史决策行为，以及每一对方机器人的历史决策行为对应的奖励。

本发明提供一种多机器人协作对抗装置，包括：

获取单元，用于获取对抗环境的当前全局状态信息，以及每一己方机器人的当前局部观测信息；

决策单元，用于将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型，得到所述协作对抗模型输出的每一己方机器人的当前决策行为；

控制单元，用于基于每一己方机器人的当前决策行为，对每一己方机器人进行控制；

本发明提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现所述多机器人协作对抗方法的步骤。

本发明提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述多机器人协作对抗方法的步骤。

本发明提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现所述多机器人协作对抗方法的步骤。

本发明提供的多机器人协作对抗方法、装置、电子设备和存储介质，根据样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为，以及每一对方机器人的样本决策行为对应的奖励训练后得到协作对抗模型，所得到的协作对抗模型能够根据当前全局状态信息，以及每一己方机器人的当前局部观测信息得到当前决策行为，由于利用了对方机器人的训练数据，扩大了训练样本，提高了训练数据的利用率，提高了协作对抗模型的鲁棒性和准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的多机器人协作对抗方法的流程示意图；

图2是本发明提供的协作对抗模型的结构示意图；

图3是本发明提供的协作对抗模型的训练示意图；

图4是本发明提供的多机器人协作对抗装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的多机器人协作对抗方法的流程示意图，如图1所示，该方法包括：

步骤110，获取对抗环境的当前全局状态信息，以及每一己方机器人的当前局部观测信息。

具体地，本发明实施例提供的多机器人协作对抗方法可以适用于无人机对抗、智能体对抗等场景。其中，多机器人可以包括多个己方机器人和多个对方机器人。本发明实施例对于己方和对方的机器人的具体数量不作限定。

当前全局状态信息为当前时刻的全局状态信息。全局状态信息为整个对抗环境中的各个机器人的状态信息，以及对抗环境中对机器人的状态产生影响的物体的状态信息。例如，全局状态信息可以包括每一己方机器人的位置和姿态，每一对方机器人的位置和姿态，对抗环境中的实时地图信息。实时地图信息包括机器人可行区域信息和障碍物信息等。

可以采用二维特征映射平面图来表示全局状态信息，即将机器人的对抗环境的场地按照单位尺寸间隔进行转换，得到二维特征平面图，然后将全局状态信息投影到二维特征平面图，得到二维特征映射平面图。例如，假定对抗场地尺寸为8m×5m，以每10cm作为一个单位间隔，得到80×50的二维特征平面图。将己方机器人和对方机器人的位置姿态，栅格化后分别物理投影到二维平面，并将其与运行状态通过线性映射进行对应。比如，物理投影处为1时表示运行状态，0时表示故障状态。又比如在二维特征平面图中对障碍物信息进行标注，0表示可行区域，1表示障碍物区域。

当前局部观测信息为当前时刻任一机器人自身观测到的整个对抗环境中的各个机器人的状态信息，以及对抗环境中对机器人的状态产生影响的物体的状态信息。也就是说，局部观测信息的信息种类与全局状态信息相同，区别在于，局部观测信息是从任一机器人上安装的传感器检测到的。可以采用一维特征向量来表示当前局部观测信息。

步骤120，将对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型，得到协作对抗模型输出的每一己方机器人的当前决策行为；其中，协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为，以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。

具体地，当前决策行为为每一己方机器人在当前时刻的决策行为。决策行为为机器人在协作对抗中的采取的行为行为。例如，决策行为可以为前进、后退、左转、右转、执行特定行为等。可以采用深度强化学习的方法，建立协作对抗模型，对每一己方机器人在协作对抗中的决策行为进行确定。

可以将对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型，由协作对抗模型对当前全局状态信息和每一己方机器人的当前局部观测信息进行学习，确定满足全局最优结果的每一己方机器人的当前决策行为。

协作对抗模型可以通过强化学习算法构建，其运行原理为：如果每一己方机器人根据当前全局状态信息和当前局部观测信息做出某个决策行为，该决策行为导致其对应的奖励增加，则每一己方机器人以后采取这个决策行为的趋势便会增强。协作对抗模型的目的是在每个时刻发现最优的决策行为，使得每一己方机器人采取最优的决策行为后能够获得最大的奖励。

协作对抗模型的训练样本包括样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为，以及每一对方机器人的样本决策行为对应的奖励作为训练样本。

训练样本可以来自训练过程中实时产生的数据，也可以来自之前协作对抗过程中产生的历史数据。

步骤130，基于每一己方机器人的当前决策行为，对每一己方机器人进行控制。

具体地，根据协作对抗模型输出的每一己方机器人的当前决策行为，控制每一己方机器人进行协作对抗，从而得到最佳的协作对抗效果。

本发明实施例提供的多机器人协作对抗方法，根据样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为，以及每一对方机器人的样本决策行为对应的奖励训练后得到协作对抗模型，所得到的协作对抗模型能够根据当前全局状态信息，以及每一己方机器人的当前局部观测信息得到当前决策行为，由于利用了对方机器人的训练数据，扩大了训练样本，提高了训练数据的利用率，提高了协作对抗模型的鲁棒性和准确性。

基于上述实施例，每一己方机器人的当前决策行为对应的奖励包括探索奖励；探索奖励是基于如下步骤确定的：

基于对抗环境的当前全局状态信息，以及训练特征模型和目标特征模型，确定当前全局状态信息特征误差；

基于当前全局状态信息特征误差，以及任一己方机器人的历史全局状态信息特征误差，确定任一己方机器人的全局状态奖励；

基于当前局部观测信息特征误差，以及任一己方机器人的历史局部观测信息特征误差，确定任一己方机器人的局部观测奖励；

基于任一己方机器人的全局状态奖励和局部观测奖励，确定任一己方机器人的探索奖励；

其中，训练特征模型的损失函数是基于训练特征模型和目标特征模型的均方误差确定的。

具体地，每一己方机器人的当前决策行为对应的奖励可以包括探索奖励，还可以包括根据协作对抗的规则确定的常规奖励。例如，训练过程中t时刻的总奖励

为常规奖励

与探索奖励

的累加和，用公式表示为：

常规奖励

是根据协作对抗的规则确定的，例如，常规奖励

反映对抗过程中己方的有效奖励，对应t时刻的第一资源奖励

第二资源奖励

行为附加奖励

及取胜奖励

具体表示为

其中，

与

为t时刻己方与对方的第一资源，

与

为t时刻己方与对方的第二资源，

与buff_t ^opp为t时刻己方与对方的行为附加状态，

与

为t-1时刻己方与对方的第一资源，

与

为t-1时刻己方与对方的第二资源，

与

为t时刻己方与对方的行为附加状态。

探索奖励

基于好奇心驱动机制设计，具体步骤包括：

首先，可以以全连接神经网络为初始模型，随机初始化后分别建立训练特征模型f和目标特征模型

根据t时刻对抗环境的当前全局状态信息s_t，以及训练特征模型f和目标特征模型

确定当前全局状态信息特征误差

根据t时刻任一己方机器人的当前局部观测信息o_t，以及训练特征模型f和目标特征模型

确定当前局部观测信息特征误差

基于当前全局状态信息特征误差

以及任一己方机器人的历史全局状态信息特征误差的平均值

确定任一己方机器人的全局状态奖励

基于当前局部观测信息特征误差

以及任一己方机器人的历史局部观测信息特征误差的平均值

确定任一己方机器人的局部观测奖励

基于任一己方机器人的全局状态奖励

和局部观测奖励

确定任一己方机器人的探索奖励

可以用公式表示为：

其中，clip表示截断函数，

与

表示局部观测信息与全局状态信息的历史数据的特征误差的平均值，std(err^o)与std(err^s)为对应的局部观测信息与全局状态信息的历史数据的特征误差的标准差。

其中，训练特征模型的损失函数err是基于训练特征模型f和目标特征模型

的均方误差确定的，用公式表示为：

在机器人探索过程中，训练特征模型f通过最小化均方误差来逼近目标特征模型

该方式等价于促使机器人记录下已经历的对抗环境状态。

同时，为避免特征模型由于过早拟合而落入局部极值解陷阱，设计了一种目标特征模型权重更新机制，表示为：

其中，θ_f表示训练特征模型权重，

表示目标特征模型权重，α为惯性因子。通过该更新机制使模型具备适当的状态遗忘性，防止模型过早收敛而降低探索效率。

本发明实施例提供的多机器人协作对抗方法，采用了好奇心机制确定探索奖励，提升机器人在对抗环境中的探索效率，引导协作对抗模型向更多未知环境探索，提高模型的鲁棒性和准确性。

基于上述任一实施例，步骤120包括：

将对抗环境的当前全局状态信息输入至协作对抗模型的全局态势感知层，得到全局态势感知层输出的全局态势特征向量；

将每一己方机器人的当前局部观测信息输入至协作对抗模型的分布决策评估层，得到分布决策评估层输出的每一己方机器人的决策评估值；

将全局态势特征向量和每一己方机器人的决策评估值输入至协作对抗模型的集中决策评估层，得到集中决策评估层输出的联合决策评估值；

将联合决策评估值输入至协作对抗模型的行为确定层，得到行为确定层输出的每一己方机器人的当前决策行为。

具体地，图2是本发明提供的协作对抗模型的结构示意图，如图2所示，从结构上来看，协作对抗模型包括全局态势感知层、分布决策评估层、集中决策评估层和行为确定层。

全局态势感知层，用于对对抗环境的当前全局状态信息进行特征提取，得到全局态势特征向量。全局态势感知层以SqueezeNet的核心模块Fire Module作为二维特征提取层，因其具有通过卷积核参数设计来压缩权重数量的作用，故将其定义为卷积型权重压缩模块。该模块在保证神经网络模型性能的前提下减少模型训练权重数量。采用两层卷积型权重压缩模块进行二维特征提取，激活函数为线性整流函数(Rectified Linear Unit,简称ReLU)。对经过卷积型权重压缩模块输出的隐层信息进行平铺，随后将隐层信息接入到由全连接层构成的神经网络模型，并得到全局态势特征向量，对应激活函数同样为ReLU。

分布决策评估层，用于根据每一己方机器人的当前局部观测信息，确定每一己方机器人的决策评估值。分布决策评估层，可以包括多个机器人决策网络，机器人决策网络与己方机器人一一对应。

机器人决策网络以机器人局部观测信息作为输入，首先经过一层全连接网络，对输入信息进行压缩，对应激活函数为ReLU。然后再经过一层门控循环单元网络(GRU)适当保留时间序列信息，对应激活函数为双曲正切函数(tanh)，最后再接一层全连接网络，将隐层信息转换为决策评估值输出。

集中决策评估层，用于根据全局态势特征向量和每一己方机器人的决策评估值，确定用于对每一己方机器人的决策行为进行整体评估的联合决策评估值。

行为确定层，用于根据联合决策评估值，确定每一己方机器人的当前决策行为。

基于上述任一实施例，将全局态势特征向量和每一己方机器人的决策评估值输入至协作对抗模型的集中决策评估层，得到集中决策评估层输出的联合决策评估值，包括：

将全局态势特征向量输入集中决策评估层中的第一特征提取层，得到第一特征提取层输出的第一权重和第一偏置；

将全局态势特征向量输入集中决策评估层中的第二特征提取层，得到第二特征提取层输出的第二权重；

将全局态势特征向量输入集中决策评估层中的第三特征提取层，得到第三特征提取层输出的第二偏置；

将每一己方机器人的决策评估值、第一权重、第一偏置、第二权重和第二偏置输入至集中决策评估层中的结果输出层，得到结果输出层输出的联合决策评估值；

其中，第一特征提取层包括两个全连接层和一个绝对值激活函数激活层；第二特征提取层包括一个全连接层和一个绝对值激活函数激活层；第三特征提取层包括两个全连接层和两个ReLU函数激活层。

具体地，集中决策评估层参考QMIX算法结构设计思路进行网络设计。从结构上看，集中决策评估层可以包括第一特征提取层、第二特征提取层、第三特征提取层和结果输出层。

第一特征提取层包括依次连接的两个全连接层和一个绝对值激活函数激活层。将全局态势特征向量输入集中决策评估层中的第一特征提取层，得到第一特征提取层输出的第一权重w_h1和第一偏置b_h1。

第二特征提取层包括依次连接的一个全连接层和一个绝对值激活函数激活层。将全局态势特征向量输入集中决策评估层中的第二特征提取层，得到第二特征提取层输出的第二权重w_final。

第三特征提取层包括两个全连接层和两个ReLU函数激活层，连接顺序依次为第一全连接层、第一ReLU函数激活层、第二全连接层和第二ReLU函数激活层。将全局态势特征向量输入集中决策评估层中的第三特征提取层，得到第三特征提取层输出的第二偏置b_final。

将每一己方机器人的决策评估值Q_i、第一权重w_h1、第一偏置b_h1、第二权重w_final和第二偏置b_final输入至集中决策评估层中的结果输出层，得到结果输出层输出的联合决策评估值Q_tot。可以用公式表示为：

Q_tot＝(H^Tw_final+b_final)

其中，Elu为激活函数，H为中间计算量，T为转置运算符，Q_S为每一己方机器人的决策评估值Q_i的拼接结果，i为己方机器人的标号。

基于上述任一实施例，根据多机器人深度强化学习，采用高效地联合观测-行为-状态值函数优化方法，对每个机器人的观测-行为值函数进行训练后，得到相应的决策行为。

相关具体步骤为：

首先，从个体角度，定义t时刻机器人i的局部观测信息为o_i,t，决策行为为a_i,t，全局状态信息为s_t；

接着，在多机器人对抗过程中，保存对应机器人i的观测-行为序列轨迹τ_i，其表示为τ_i＝(o_i,0,a_i,0,…,o_i,t,a_i,t)，对应机器人i的观测-行为值函数为Q_i(τ_i,a_i；θ_i)，θ_i表示对应的模型权重。多机器人联合观测-行为序列轨迹τ＝(τ₁,…,τ_n)，联合行为a＝(a₁,…,a_n)，n为机器人数量。

然后，对每个机器人的观测-行为值函数进行直接求和，得到的多机器人联合观测-行为值函数Q_tot(τ,a)表示为

在此基础之上，利用学习过程中的全局状态信息s，并且采用集中决策评估层对每个机器人的值函数进行合并得到最终的多机器人联合观测-行为-状态值函数Q_tot(τ,a,s；θ)，对应的训练损失函数L(θ)定义为：

L(θ)＝(y^tot-Q_tot(τ,a,s；θ))²

为有效利用离策略样本数据，更新目标值采用离策略强化学习方法，目标值y^tot为：

其中，r表示奖励信号，γ为折扣因子，

表示为多机器人联合观测-行为-状态值目标函数。

最后，为有效考虑机器人的累积奖励，采用资格迹方法TD(λ)进一步计算优化目标值，因此实际计算的目标值为:

其中,

表示从t时刻开始后j步的未来期望回报估计,k为时刻参数，λ为参数。并且，在训练网络权重θ的基础上，采用软更新(Soft-Update)方式更新目标网络权重

β为惯性因子，更新过程记为：

训练优化过程中采用自适应矩估计优化器(Adam)作为模型训练优化器。环境运行采用并行交互的方式生成训练数据，经验池回放方式为优先级经验回放，模型探索方式为∈-贪心，探索系数∈采用线性下降的方式，以逐步降低机器人模型的探索随机性。对手策略模型生成的数据保留率同样为线性下降的方式，以逐步降低机器人模型在训练过程中对对手行为数据的依赖性。

当协作对抗模型在训练过程中的胜率满足策略任务要求时，训练过程结束。反之，返回到上述步骤再次对模型进行迭代优化。

当训练过程结束后，由机器人网络得到对应训练完成的观测-动作值函数

o为机器人局部观测信息，对应的决策行为a^*的取值方式为贪心方法，表示为：

训练过程中，QMIX算法假定多机器人的联合观测-行为-状态值函数Q_tot(τ,a,s；θ)取argmax等价于每个机器人i的观测-行为值函数Q_i(τ_i,a_i；θ_i)取argmax，表示全局与个体的单调性相同，具体表示为：

通过贪心方式获取每个个体Q_i的最优行为。为使QMIX满足单调性，条件约束定义为

因此，以绝对值激活函数Abs作为第一特征提取层和第二特征提取层中全连接网络的激活函数。将多机器人决策Q_i值经过相应权重和偏置的非线性变换，得到多机器人联合观测-行为-状态值函数Q_tot(τ,a,s；θ)。

基于上述任一实施例，每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为，以及每一对方机器人的样本决策行为对应的奖励是基于如下步骤确定的：

构建行为决策树；

基于行为决策树，以及任一对方机器人的样本局部观测信息，确定任一对方机器人的样本决策行为；

基于预设的奖励规则，以及任一对方机器人的样本决策行为，确定任一对方机器人的样本决策行为对应的奖励。

具体地，可以通过构建行为决策树的方式，来生成高质量的训练样本，提高协作对抗模型的训练效率和准确性，还可以处理模型训练冷启动困难的问题。

可以根据协作对抗训练中的规则，确定对方机器人的行为逻辑，然后构建行为决策树。然后将任一对方机器人的样本局部观测信息输入至行为决策树中，确定该对方机器人的样本决策行为。

然后按照预设的奖励规则，根据该对方机器人的样本决策行为，确定该对方机器人的样本决策行为对应的奖励。

此处，预设的奖励规则确定的奖励，可以与己方机器人根据协作对抗的规则确定的常规奖励相同，也就是说，对方机器人的奖励仅包括常规奖励。

每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为，以及每一对方机器人的样本决策行为对应的奖励可以以三元组形式存储。

基于上述任一实施例，协作对抗模型是基于如下步骤训练的：

确定当前次迭代训练中的训练样本和陪练样本；陪练样本在当前次迭代训练中的数量低于上一次迭代训练中的数量；

基于训练样本和陪练样本，对协作对抗模型进行训练；

其中，训练样本为多机器人协作对抗过程中生成的历史全局状态信息、每一己方机器人的历史局部观测信息、每一己方机器人的历史决策行为，以及每一己方机器人的历史决策行为对应的奖励，陪练样本为每一对方机器人的历史局部观测信息、每一对方机器人的历史决策行为，以及每一对方机器人的历史决策行为对应的奖励。

具体地，以己方机器人的数据为训练样本，以对方机器人的数据为陪练样本，对协作对抗模型进行训练。在训练过程中，随着迭代训练次数的增加，使得陪练样本在当前次迭代训练中的数量低于上一次迭代训练中的数量，直至逐渐减少为零，避免协作对抗模型在进行迭代优化时被困在局部区域，得不到全局优化解。

图3是本发明提供的协作对抗模型的训练示意图，如图3所示，己方机器人和对方机器人的数量均为2，可以采用经验回放的方法训练协作对抗模型。以行为决策树作为训练过程中的对方的决策模型，将其在对抗过程中执行决策行为过程所产生的数据转化为深度强化学习模型对应的状态-动作-奖励三元组的形式，并且使行为决策树的生成数据作为深度强化学习决策模型训练集中的一部分，存入到对抗经验回放池。由此改善经验池数据的样本分布，加快模型优化训练过程。对抗过程中的队伍分为两方，随机以其中一方作为训练方(己方)，另一方作为陪练方(对方)。训练方与陪练方在对抗过程中同时生成交互数据信息。开始时，陪练方数据以100％概率存入到对抗经验回放池。训练时从对抗经验回放池中进行随机采样数据，计算训练方的探索奖励。随后将对抗双方的全局状态-局部观测-动作-奖励构成的数据信息并入到训练批。最后通过多机器人深度强化学习更新优化所有网络模型，并随着训练迭代次数的增加，线性降低陪练方的样本存储概率，避免模型优化被困在局部区域。

基于上述任一实施例，图4是本发明提供的多机器人协作对抗装置的结构示意图，如图4所示，该装置包括：

获取单元410，用于获取对抗环境的当前全局状态信息，以及每一己方机器人的当前局部观测信息；

决策单元420，用于将对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型，得到协作对抗模型输出的每一己方机器人的当前决策行为；

控制单元430，用于基于每一己方机器人的当前决策行为，对每一己方机器人进行控制；

其中，协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为，以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。

本发明实施例提供的多机器人协作对抗装置，根据样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为，以及每一对方机器人的样本决策行为对应的奖励训练后得到协作对抗模型，所得到的协作对抗模型能够根据当前全局状态信息，以及每一己方机器人的当前局部观测信息得到当前决策行为，由于利用了对方机器人的训练数据，扩大了训练样本，提高了训练数据的利用率，提高了协作对抗模型的鲁棒性和准确性。

基于上述任一实施例，每一己方机器人的当前决策行为对应的奖励包括探索奖励；探索奖励是基于如下步骤确定的：

基于上述任一实施例，决策单元包括：

全局感知子单元，用于将对抗环境的当前全局状态信息输入至协作对抗模型的全局态势感知层，得到全局态势感知层输出的全局态势特征向量；

分布决策子单元，用于将每一己方机器人的当前局部观测信息输入至协作对抗模型的分布决策评估层，得到分布决策评估层输出的每一己方机器人的决策评估值；

集中决策子单元，用于将全局态势特征向量和每一己方机器人的决策评估值输入至协作对抗模型的集中决策评估层，得到集中决策评估层输出的联合决策评估值；

结果输出子单元，用于将联合决策评估值输入至协作对抗模型的动作确定层，得到动作确定层输出的每一己方机器人的当前决策行为。

基于上述任一实施例，集中决策子单元具体用于：

基于上述任一实施例，还包括：

陪练样本确定单元，用于构建行为决策树；

基于上述任一实施例，还包括：

模型训练单元，用于确定当前次迭代训练中的训练样本和陪练样本；陪练样本在当前次迭代训练中的数量低于上一次迭代训练中的数量；

基于训练样本和陪练样本，对协作对抗模型进行训练；

基于上述任一实施例，图5为本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(Processor)510、通信接口(Communications Interface)520、存储器(Memory)530和通信总线(Communications Bus)540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑命令，以执行如下方法：

获取对抗环境的当前全局状态信息，以及每一己方机器人的当前局部观测信息；将对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型，得到协作对抗模型输出的每一己方机器人的当前决策行为；基于每一己方机器人的当前决策行为，对每一己方机器人进行控制；其中，协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为，以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的。

此外，上述的存储器530中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令，实现上述方法，其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：

本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时，实现上述方法，其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

本发明实施例提供一种计算机程序产品，包括计算机程序，其特征在于，计算机程序被处理器执行时实现如上述多机器人协作对抗方法的步骤。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多机器人协作对抗方法，其特征在于，包括：

其中，所述协作对抗模型是基于样本全局状态信息、每一己方机器人的样本局部观测信息、每一己方机器人的样本决策行为、每一己方机器人的样本决策行为对应的奖励、每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为，以及每一对方机器人的样本决策行为对应的奖励进行训练后得到的；

所述每一己方机器人的当前决策行为对应的奖励包括探索奖励；所述探索奖励是基于如下步骤确定的：

2.根据权利要求1所述的多机器人协作对抗方法，其特征在于，所述将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型，得到所述协作对抗模型输出的每一己方机器人的当前决策行为，包括：

3.根据权利要求2所述的多机器人协作对抗方法，其特征在于，所述将所述全局态势特征向量和所述每一己方机器人的决策评估值输入至所述协作对抗模型的集中决策评估层，得到所述集中决策评估层输出的联合决策评估值，包括：

4.根据权利要求1至3任一项所述的多机器人协作对抗方法，其特征在于，所述每一对方机器人的样本局部观测信息、每一对方机器人的样本决策行为，以及每一对方机器人的样本决策行为对应的奖励是基于如下步骤确定的：

构建行为决策树；

5.根据权利要求1至3任一项所述的多机器人协作对抗方法，其特征在于，所述协作对抗模型是基于如下步骤训练的：

6.一种多机器人协作对抗装置，其特征在于，包括：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述多机器人协作对抗方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述多机器人协作对抗方法的步骤。

9.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述多机器人协作对抗方法的步骤。