CN112215364A

CN112215364A - 一种基于强化学习的敌-友深度确定性策略方法及系统

Info

Publication number: CN112215364A
Application number: CN202010977621.0A
Authority: CN
Inventors: 薛超; 姜浩; 金松昌; 康颖; 史殿习; 郝峰; 王弢
Original assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center
Current assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2021-01-12
Anticipated expiration: 2040-09-17
Also published as: CN112215364B

Abstract

一种基于强化学习的敌‑友深度确定性策略方法，包括：构建强化学习环境，所述学习环境包括：多种场景、基于每种场景设计的多个智能体以及多个智能体之间的关系；基于每种场景，获取各智能体动作；基于所有智能体动作以及智能体之间的关系，以使敌方最坏、友方最好为目标，对估计评论家网络和估计演员网络进行训练，确定各智能体动作策略；其中，所述智能体之间的关系包括：处于友方的合作者和处于对方的对抗者；本发明提供的方法能够有效的面对多智能体强化学习中的非稳定性问题，即便是面对快速变化的对手，算法也能够有较好的性能和泛化性。

Description

一种基于强化学习的敌-友深度确定性策略方法及系统

技术领域

本发明涉及智能体强化学习领域，具体涉及一种基于强化学习的敌-友深度确定性策略方法及系统。

背景技术

近年来，深度强化学习取得了迅速的发展。其在机器人运动控制、视频预测等单智能体环境下，以及Atari游戏、Go等复杂游戏环境下，取得了显著的成功。然而，现实生活中的场景往往涉及多智能体之间复杂的合作、对抗或交互，如车辆自动驾驶、资源分配、群体机器人、人机交互等。因此，越来越多的研究人员正从单智能体领域转向多智能体领域。目前在多智能体场景下已经取得了一定的研究成果，如通信和自然语言处理、多智能体游戏、交通控制、社交困境等。

马尔科夫决策过程(Markov Decision Process,MDP)是强化学习问题在数学上的理想化形式，也是一种通过交互式学习来实现目标的理论框架。通常将进行学习以及实施决策的机器人称为智能体，智能体之外所有与之相互作用的事物称为环境。智能体选择动作，环境对这些动作做出相应的回馈，并且向智能体呈现一个新的状态。同时环境也会产生一个收益(也就是奖励)，这个奖励就是智能体在选择动作过程中想要最大化的目标。该系列决策过程可以建模成MDP。

非稳定性是多智能体强化学习面临的一个严峻问题。因为在多智能体环境设定中，智能体只能感知到部分环境，在这种部分可观察的状态下，智能体无法获取环境的整体信息。在训练的过程中，任一智能体将其他智能体看做是环境的一部分，其他智能体都在与环境不断的交互，且每个其他智能体的策略都会随时变化，所以对每个智能体而言，整个环境都是在动态变化的。在此情况下，每个智能体感知到的环境是独立的，获得的奖励回报也会不同，整个环境也变的很不稳定。经典的梯度下降算法在这种部分可观察的多智能体场景下通常表现出较大的方差。为了解决不稳定问题，研究人员做了大量的工作。美国人工智能协会(AAAI2018)上发表的论文《Counterfactual Multi-Agent Policy Gradients》提出了一种基于行为-批评学习框架的集中式批评来减小政策梯度方差的反事实多智能体策略梯度算法(COMA)。神经信息处理系统大会(NIPS 2017)上发表的文章《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》提出了一种多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient，MADDPG)。

MADDPG算法是将演员-评论家(Actor-Critic，AC)算法进行了一系列改进，使其能够适用于传统强化学习算法无法处理的复杂多智能体场景。算法通过获取全局信息条件下的每个智能体的Q函数以及其他智能体的动作和状态，使用集中式训练得到演员和评论家。在执行的时候演员只需要自己局部观测的信息就能运行。该算法能够有效的缓解非平稳性问题，且在合作场景和对抗场景中均有较好的表现。

友方或敌方Q学习算法(Friend-or-Foe Q-learning，FFQ)是一种经典的强化学习算法，它是从Minimax-Q算法拓展而来。为了能够处理一般和博弈，FFQ算法对一个智能体i，将其他所有智能体分为两组，一组为i的朋友帮助i一起最大化其奖励回报，另一组为i的敌人对抗i并降低i的奖励回报，因此对每个智能体而言都有两组。这样一个n智能体的一般和博弈就转化成了n个两智能体的零和博弈。

尽管目前研究者提出了很多用来缓解强化学习非稳定性问题的方法，但是在面对时刻变化的环境，尤其是在对抗环境中，已有算法的效果仍然有限。需要寻找一种泛化能力强的、能够很好应对对手快速变化的算法来解决非稳定性问题。

发明内容

为了解决在面对时刻变化的环境，尤其是在对抗环境中，已有算法的效果仍然有限，泛化能力弱、无法很好应对对手快速变化的问题，本发明提出了一种基于强化学习的敌-友深度确定性策略方法，包括：

构建强化学习环境，所述学习环境包括：多种场景、基于每种场景设计的多个智能体以及多个智能体之间的关系；

基于每种场景，获取各智能体动作；

基于所有智能体动作以及智能体之间的关系，以使敌方最坏、友方最好为目标，对估计评论家网络和估计演员网络进行训练，确定各智能体动作策略；

其中，所述智能体之间的关系包括：处于友方的合作者和处于对方的对抗者。

优选的，所述强化学习环境的构建，包括：

为学习环境构建多个场景；

基于各场景为学习环境构建设定数量的友方合作者关系的智能体和设定数量的敌方对抗者关系的智能体，并对所有智能体进行编号；

其中，场景包括：追捕场景、物理欺骗场景、私密通信场景和推离场景。

优选的，所述基于所有智能体动作以及智能体之间的关系，以使敌方最坏、友方最好为目标，对估计评论家网络和估计演员网络进行训练，确定各智能体动作策略，包括：

基于所有智能体动作以及智能体之间的关系构建样本集；

基于样本集，以敌方最坏、友方最好为目标，对估计评论家网络进行训练得到Q值；

基于各智能体从环境中获取的其他智能体的动作和所述各智能体的估计Q值，对估计演员网络进行训练，得到各智能体的执行动作。

优选的，所述基于所有智能体动作以及智能体之间的关系构建样本集，包括：

从学习环境中采样到的所有智能体对学习环境的联合观测值、执行动作、动作执行完成后的奖励反馈、在下一时刻对学习环境的联合观测值信息存入到回忆池中；

基于所述回忆池中的所有智能体对学习环境的联合观测值、执行动作、动作执行完成后的奖励反馈以及下一时刻对学习环境的联合观测值得到样本集。

优选的，所述基于样本集，以敌方最坏、友方最好为目标，对估计评论家网络进行训练得到Q值，包括：

基于样本集中的针对敌方关系的其他智能体，采用单步梯度方法将学习环境中友方智能体视为一个整体，对以敌方最坏、友方最好为目标的目标函数进行计算，得到使得敌方处于最坏情况时的敌方辅助参数；

基于样本集中的针对友方关系的其他智能体，采用单步梯度方法将学习环境中敌方智能体视为一个整体，对以敌方最坏、友方最好为目标的目标函数进行求解得到友方处于最好情况的友方辅助参数；

基于所述敌方辅助参数和所述友方辅助参数确定敌方最差、友方最好情况下的Q值，并通过损失函数进行优化，直到损失函数收敛。

优选的，所述目标函数的计算式如下：

其中，

表示优化目标函数，

表示集中训练分步执行框架，xⁿ表示在t时刻的学习环境信息，

表示t时刻友方智能体的动作，

表示t时刻敌方智能体的动作，

表示t时刻第i个智能体的观测的确定性策略函数，

表示t时刻在敌方最坏的情况下使得

增加最快的友方动作，

表示t时刻使得

减少最快的敌方动作，

表示友方智能体在t时刻的友方辅助参数，

表示敌方智能体在t时刻的敌方辅助参数。

优选的，所述基于各智能体从环境中获取的其他智能体的动作和所述各智能体的估计Q值，对估计演员网络进行训练，得到各智能体的执行动作包括：

将各智能体的估计Q值作为所述估计演员网络的输入，将各智能体从环境中获取的其他智能体的动作作为所述估计演员网络的输出对所述估计演员网络进行训练。

优选的，还包括目标演员网络和目标评论家网络；

使用参数更新函数，将估计评论家网络和估计演员网络的参数拷贝至目标评论家网络和目标演员网络，并存入记忆池；

从所述记忆池中提取新的样本集，基于所述新的样本集以敌方最坏、友方最好为目标，对估计评论家网络进行训练得到新的Q值；

所述目标演员网络通过新的样本集以及所述新的Q值，对所述目标演员网络进行训练，得到各智能体的新的执行动作。

优选的，所述敌方辅助参数如下式所示：

其中，

表示使用单步梯度方法求解的函数；

所述友方辅助参数如下式所示：

其中，

表示使用单步梯度方法求解的函数。

基于同一发明构思，本发明还提供了一种基于强化学习的敌-友深度确定性策略系统，包括：环境构建模块、评论家网络模块、演员网络模块和动作执行模块；

所述环境构建模块，用于构建强化学习环境，所述学习环境包括：多种场景、基于每种场景设计的多个智能体以及多个智能体之间的关系；

动作获取模块，用于基于每种场景，获取各智能体动作；

所述训练模块，用于基于所有智能体动作以及智能体之间的关系，以使敌方最坏、友方最好为目标，对估计评论家网络和估计演员网络进行训练，确定各智能体动作策略；

其中，所述智能体之间的关系包括：处于友方的合作者和处于对方的对抗者

与现有技术相比，本发明的有益效果为：

1、本发明提供的一种基于强化学习的敌-友深度确定性策略方法，包括：构建强化学习环境并设定奖惩规则，将友方或敌方Q学习算法思想引入到深度确定性策略梯度算法，得到优化目标函数和损失函数；基于深度确定性策略梯度算法，构建网络框架；多智能体对所述强化学习环境进行随机动作探索，将从环境中采样到的信息存入到回忆池中；从所述回忆池中提取一批次样本数据进行训练和学习，更新网络参数，直至求得算法收敛所需要的的敌对平衡和合作平衡或最大迭代步数；本发明提供的方法能够有效的面对多智能体强化学习中的非稳定性问题，即便是面对快速变化的对手(即敌方智能体有着较好的性能)，算法也能够有较好的性能和泛化性；

2、本发明提供的一种基于强化学习的敌-友深度确定性策略方法，提供了一种在极限的情况下来提高智能体策略的泛化性和性能的强化学习算法，算法通过引入经典的FFQ的思想，能够有效地将多智能一般和博弈看作成n(智能体的个数)个零和博弈。使用分步的方法分别求解敌方最坏友方最好情况下的优化目标。同时该方法也能够有效的求解到算法收敛所需要的敌对平衡和合作平衡，保证算法能够收敛。

附图说明

图1为本发明的基于强化学习的敌-友深度确定性策略方法示意图；

图2为本发明提供的方法的整体网络框架图；

图3为本发明提供的方法的环境设定图；

图4为本发明提供的方法的算法流程图；

图5为本发明提供的方法与其他强化学习算法在四个场景中性能对比示意图；

图6为本发明提供的方法与其他强化学习算法在追捕场景中随数量变化能对比示意图；

图7为本发明提供的方法与其他强化学习算法收敛性对比示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明的技术方案，下面结合附图对本发明作进一步的详细说明。

本发明公开了一种基于强化学习的敌-友深度确定性策略方法，如图1所示，具体包括：

步骤1：构建强化学习环境，所述学习环境包括：多种场景、基于每种场景设计的多个智能体以及多个智能体之间的关系；

步骤2：基于每种场景，获取各智能体动作；

步骤3：基于所有智能体动作以及智能体之间的关系，以使敌方最坏、友方最好为目标，对估计评论家网络和估计演员网络进行训练，确定各智能体动作策略；

步骤1：构建强化学习环境并设定奖惩规则，将友方或敌方Q学习算法思想引入到深度确定性策略梯度算法，得到优化目标函数和损失函数，具体包括：

1、构建如图3所示的强化学习环境。主要包括追捕等四种学习环境。该学习环境模拟一个真实物理世界环境，环境中存在弹力，阻力等，具体包括：

1.1追捕场景：该场景的目标就是三个追捕者智能体准确地捕捉到逃逸者。场景中设定三个追捕者(合作者)，一个逃逸者(对抗者)和两个障碍物，追捕者的速度略小于逃逸者的速度。在环境中有随机出现的障碍物，可能会影响追捕者和逃逸者的行进过程。追捕者通过与逃逸者直接的距离得到奖励，当距离逃逸者越近时，追捕者得到的奖励越多。当追捕者捕捉到逃逸者的时候，得到一个大的奖励。而逃逸者的奖励设定则相反，与追捕者距离越远，得到的奖励越多。

1.2物理欺骗场景：一个对抗者，两个合作者，N个地标(N＝2)。所有智能体都观察地标和其他智能体的位置。其中一个地标是“目标地标”(绿色)。两个合作者根据其中任意一个合作者与目标地标的接近程度而获得奖励，距离目标地标越近，得到奖励越多。同时合作者也会随着对抗者也接近目标地标的程度，得到负面奖励。对抗者距离目标地标越近，合作者得到的负面奖励越多。而对抗者得到的正面奖励越多。环境中设定对抗者并不知道哪个地标是目标地标。因此，合作者必须学会“分头活动”并覆盖所有地标以欺骗对抗者。

1.3私密通信场景：两个合作者(称为Alice和Bob)，一个对抗者(成为Eve)。Alice必须通过公共频道发送加密的消息给Bob。Bob接收Alice发送过来的消息，并通过两人共同拥有的私钥(在每次迭代回合开头随机生成)来重建消息。Alice和Bob根据Bob重建消息的程度得到奖励，重建的消息越完整得到的奖励值越多。Eve在通过公共频道实时监听消息，但是没有私钥来解密消息。其尝试破解并重建这个加密的消息，当Eve可以重建消息时则Alice和Bob会得到一个负面奖励。Eve可以重建消息越完整其自身得到的正面奖励越多，Alice和Bob会得到的负面奖励越多。

1.4推离场景：一个对抗者，两个合作者，一个地标。对抗者的奖励基于到地标的距离。如果合作者离目标很近，而对抗者离目标很远，则合作者得到一个正面的奖励，对抗者得到一个负面的。所以需要合作者学会把对抗者从地标上推开。

2、构建敌方最坏友方最好的优化目标。在合作对抗的场景下，总是希望在友方有效的配合下，智能体能够很好的应对对手的快速变化。也就是说，无论对手的动作如何改变，策略如何的高明，我方团队均能够从容应对。基于一种极致的思想，算法中总是假设对手的策略都是最高明的，对手的动作都是能够对我方产生最大压迫的。在这种情况下，就逼迫我方总是以最完美的合作去应对这种变化。在这种最糟糕的情况下训练出来的算法模型，无论对手策略如何变化，我方都是能够很好处理。为了更好的实现这个想法，引用经典的FFQ算法思想，将这种敌方最坏，友方最好的思想引入到MADDPG算法的集中训练分步执行框架当中。如图4所示，算法的优化目标步骤如下：

2.1经典的FFQ算法的收敛后必须要满足两个条件：

2.1.1敌对平衡：当算法训练至收敛之后，在整个博弈当中，任何智能体i均不能通过单方面更改其自身的策略来提高其预期回报值，并且其他智能体的任何变更都不会损害智能体i的回报值。

2.1.2合作平衡：当算法训练至收敛之后，在整个博弈当中，任何智能体i均不能通过单方面更改其自身的策略来提高其预期回报值，并且所有智能体都可以得到其最高回报值。

2.2将FFQ算法思想引入集中训练分步执行框架中。具体步骤如下：

2.2.1从环境中任意选定一智能体i，将其他的任意一智能体看做成是智能体i的友方或者敌方。因此优化目标由原本MADDPG算法集中训练分步执行框架的优化目标如公式(1)所示：

将其转换成敌方最小友方最大的优化目标如公式(2)所示：

其中

是智能体i友方的动作，

是智能体i敌方的动作。

2.2.2在FFQ算法当中，想要将算法中的智能体识别成敌方和友方的时候，就必须知道

其他所有智能体的信息。而集中训练分步执行的框架中，很好的将所有智能体的信息共享在评论家网络当中，这样可以有效的实现我们的想法，并保证FFDDPG算法可以有效的实现并保证收敛。为了得到敌方最坏的场景，假设对方每一个动作都是会使得智能体i的Q值减少的最多的动作

而友方最好情况则是使得智能体i的Q值增加的最多的动作

将此方法引入到集中训练分步执行当中，在MADDPG算法中的用于更新评论家网络参数的损失函数如公式(3)所示：

引入FFQ思想转换成FFDDPG算法的损失函数如公式(4)所示

其中

如公式(5)所示

3.设计线性分步方法求解优化目标。为了得到这个使得敌方最坏友方最好的动作，FFDDPG算法使用独特的线性求解方法来计算得到。

3.1初始化参数友方辅助参数∈^a和敌方辅助参数∈^b；

3.2计算使敌方处于最坏情况的动作。

3.2.1为了避免计算资源大量的消耗，在此使用单步梯度方法来计算使得

减少的最快的敌方动作

其中辅助参数

应帮助敌方使得

尽可能的减小。将得敌方辅助参数如公式(6)所示

3.2.2为了求得公式(6)中的敌方辅助参数，对

使用单步梯度方法求解，得最佳辅助参数的值为

需要注意的是，单步梯度方法只能寻找到近似最优，无法保证是全局最优，但是该方法计算得到的辅助参数任然是有效的。

3.2.3至此，将计算智能体i的价值Q的敌方的真实执行动b_N2转化为新的假设动作

而

则是使得敌方处于最糟糕情况下的动作，并且在此情况下，将环境中友方智能体视为一个整体时，可以近似找到算法收敛所需要的敌对平衡。

3.3计算使友方处于最好情况的动作。

3.3.1在处于敌方最坏情况下，将敌方看作一个整体，开始计算友方最好的动作。该动作应是在敌方最坏的情况下使得

增加的最快的动作

其中辅助参数

应帮助友方使得

尽可能的增加。将得友方辅助参数如公式(7)所示

3.3.2为了求的公式(7)中友方辅助参数，在敌方最坏的基础上对

进行单步求解，得最佳辅助参数的值为

3.3.3至此，将计算智能体i的价值Q的友方的真实执行动a_N1转化为新的假设动作

而

则是使得敌方处于最糟糕情况下的动作，并且在此情况下，将环境中友方智能体视为一个整体时，可以近似找到算法收敛所需要的合作平衡。

3.4在此，成功求解优化目标如公式(8)所示：

得到用于更新评论家的损失函数如公式(9)所示：

步骤2：基于深度确定性策略梯度算法，构建网络框架，包括演员网络和评论家网络，随机初始化参数，具体包括：

构建的网络框架。算法的网络结构遵循MADDPG经典的集中训练分布执行的框架。算法中共有四个网络，包含个两个演员神经网络(称为目标演员网络和估计演员网络)，两个评论家神经网络(称为目标评论家网络和估计评论家网络)和一个参数神经网络，评论家网络用来指导演员网络的更新。估计网络和目标网络的更新频率不一致，即目标网络更新慢，估计网络更新快。在网络训练的时候只需要训练估计演员网络和估计评论家网络的参数，而目标演员网络和目标评论家网络的参数是由前面两个估计网络每隔一定的时间复制过去。

为提高采样数据的利用率，将在线学习变成离线学习。在此设定一个记忆回放池，回放池中存放每个智能体与环境交互过程中产生的历史信息。为了固定策略，使用更新较慢的目标网络来保存估计网络当前时刻的参数。因此目标网络的结构与估计网络完全相同，且其参数是由估计网络隔k时间段软更新复制过来。在这k时间段内，网络就可以一直用当前采样的数据进行训练，而不需要时刻重新采样数据。

步骤3：多智能体对所述强化学习环境进行随机动作探索，将从环境中采样到的信息<x,a,r,x’>存入到回忆池中，具体包括：

每一个智能体都有一个估计演员网络，输入为智能体自身对环境的观察，网络的输出为一个确定性动作，该动作在环境中执行并得到一个来自环境的反馈。网络在训练的时候只使用智能体自身与环境交互的产生的数据。同时每个智能体也对应一个估计评论家网络。与估计演员网络不同的是估计评论家网络输入的是所有智能体产生的数据，这样就形成了有个去中心化的集中评论家网络，从而实现集中训练分布执行框架。如图2所示，具体包括：

1.初始化演员网络和评论家网络的参数；

2.对环境进行随机动作探索，将从环境中采样到的信息存入到回放池中。其中是所有智能体在t时刻对环境的联合观察值，是所有智能体t时刻分别执行的动作，是所有智能体动作执行完后分别得到的环境的奖励反馈，是所有智能体动作执行完后，所有智能体在t+1时刻对学习环境的联合观察。

步骤4：从所述回忆池中提取一批次样本数据，对演员网络和评论家网络的参数进行训练和学习，更新网络参数，重复步骤4，直至求得算法收敛所需要的的敌对平衡和合作平衡或最大迭代步数，具体包括：

1.从回忆池中提取一批次样本数据(xⁿ，aⁿ，rⁿ，x′ⁿ)，将样本池中动作a和环境观察信息输入到估计评论家网络，计算出估计Q值。将环境观察信息输入到估计演员网络，计算出智能体在环境中执行的动作a。

2.使用损失函数

来更新估计评论家网络。其中：

3.使用优化目标函数来更新估计演员网络：

4.使用评论家

网络来计算智能体i的Q值，用于指导演员网络计算出执行动作a。

5.使用软更新，θ′_i←τθ_i+(1-τ)θ′_i，将估计网络的参数拷贝至目标网络。

本发明(简称FFDDPG)与其他强化学习算法进行对比，实验设备为台式电脑，搭载因特尔i7-8700处理器，处理器频率为3.20GHz，RAM大小为32GB，显卡为Nvidia GTX 1050G大小为4GB，实验系统为乌班图16.04版本。首先基于OPEN AI开源的四个基准粒子世界环境进行测试，环境参数使用默认设定。该环境是多智能体强化学习算法常用的测试环境。环境有效的反映了真实世界的几种合作对抗场景，环境使用力和时间来计算智能体之间的速度和距离，尽快能将真实世界中的几类问题进行抽象。测试三种算法在四种场景中的性能，通过对比智能体的收益值(即奖励)来对比算法的性能，对比结果如图5所示。其中奖励值越高，算法性能越好，通过图5可以看出，本发明算法的性能优于其他算法，模型的性能和泛化能力更高。但是在私密通信的场景下，由于很难得知什么样的信息才会使得敌方处于最坏的场景，因此在该场景中本发明性能只有略微提升。通过图7可以看出，本发明能有效收敛，虽然收敛速度略慢与其他算法。

对比智能体友方数量对算法性能的影响。即在追捕场景当中，分别设定追捕者(友方)和逃逸者(敌方)的数量分别为3-1，6-2和9-3，对比结果如图6和表1所示。

表1智能体友方数量对算法性能的影响

	FFDDPG	M3DDPG	MADDPG
				3-追捕者/1-逃逸者	5442±90	5161±87	4945±101
6-追捕者/2-逃逸者	13851±108	11483±161	11833±179
				9追捕者/3-逃逸者	55503±398	41749±283	44197±346

从实验结果来看，随着智能体数量的增加，本发明的性能会比其他算法好的更多。因为本发明更好的考虑友方合作的场景，合作方数量越多，性能越好。

实施例2

为实现实施例中的方法，本发明还提供了一种基于强化学习的敌-友深度确定性策略系统，包括：环境构建模块、评论家网络模块、演员网络模块和动作执行模块；

动作获取模块，用于基于每种场景，获取各智能体动作；

优选的，环境构建模块包括：

场景构建子模块，用于为学习环境构建多个场景；

关系子模块，用于基于各场景为学习环境构建设定数量的友方合作者关系的智能体和设定数量的敌方对抗者关系的智能体，并对所有智能体进行编号；

优选的，所述训练模块包括：

样本集构建子模块，用于基于所有智能体动作以及智能体之间的关系构建样本集；

Q值计算子模块，用于基于样本集，以敌方最坏、友方最好为目标，对估计评论家网络进行训练得到Q值；

动作执行子模块，用于基于各智能体从环境中获取的其他智能体的动作和所述各智能体的估计Q值，对估计演员网络进行训练，得到各智能体的执行动作。

Q值计算子模块包括：

敌方辅助参数计算单元，用于基于样本集中的针对敌方关系的其他智能体，采用单步梯度方法将学习环境中友方智能体视为一个整体，对以敌方最坏、友方最好为目标的目标函数进行计算，得到使得敌方处于最坏情况时的敌方辅助参数；

友方辅助参数计算单元，用于基于样本集中的针对友方关系的其他智能体，采用单步梯度方法将学习环境中敌方智能体视为一个整体，对以敌方最坏、友方最好为目标的目标函数进行求解得到友方处于最好情况的友方辅助参数；

优化单元，用于基于所述敌方辅助参数和所述友方辅助参数确定敌方最差、友方最好情况下的Q值，并通过损失函数进行优化，直到损失函数收敛。

所述目标函数的计算式如下：

其中，

表示优化目标函数，

表示t时刻友方智能体的动作，

表示t时刻敌方智能体的动作，

表示t时刻第i个智能体的观测的确定性策略函数，

表示t时刻在敌方最坏的情况下使得

增加最快的友方动作，

表示t时刻使得

减少最快的敌方动作，

表示友方智能体在t时刻的友方辅助参数，

表示敌方智能体在t时刻的敌方辅助参数。

优选的，样本集构建子模块，包括：

数据存入单元，用于从学习环境中采样到的所有智能体对学习环境的联合观测值、执行动作、动作执行完成后的奖励反馈、在下一时刻对学习环境的联合观测值信息存入到回忆池中；

数据选取单元，用于基于所述回忆池中的所有智能体对学习环境的联合观测值、执行动作、动作执行完成后的奖励反馈以及下一时刻对学习环境的联合观测值得到样本集。

动作执行子模块用于将各智能体的估计Q值作为所述估计演员网络的输入，将各智能体从环境中获取的其他智能体的动作作为所述估计演员网络的输出对所述估计演员网络进行训练。

还包括目标演员网络和目标评论家网络；

所述敌方辅助参数如下式所示：

其中，

表示使用单步梯度方法求解的函数；

所述友方辅助参数如下式所示：

其中，

表示使用单步梯度方法求解的函数。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。