CN110471297A

CN110471297A - 多智能体协同控制方法、系统及设备

Info

Publication number: CN110471297A
Application number: CN201910694354.3A
Authority: CN
Inventors: 张崇洁; 王同翰; 王鉴浩
Original assignee: Turing Artificial Intelligence Research Institute (nanjing) Co Ltd; Tsinghua University
Current assignee: Turing Artificial Intelligence Research Institute (nanjing) Co Ltd; Tsinghua University
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2019-11-19
Anticipated expiration: 2039-07-30
Also published as: CN110471297B

Abstract

本申请提供一种多智能体协同控制方法、系统及设备，其中所述方法包括以下步骤：从执行一目标任务的多个智能体中确定一目标智能体；根据一价值函数为所述多个智能体中的目标智能体从策略集中调用相应的至少一策略，以控制所述目标智能体执行期望动作；其中，所述价值函数与对应的所述目标智能体的激励价值函数、以及所述多个智能体中除所述目标智能体之外的其他智能体相对所述目标智能体的交互价值函数相关。本申请提供的多智能体协同控制方法，通过设置交互价值函数作为一种内在激励价值函数，使得每个智能体对有影响力的状态和行为点进行更频繁的探索；通过激励智能体之间的交互，促使多个智能体之间产生合作，以有效地解决复杂合作型任务。

Description

多智能体协同控制方法、系统及设备

技术领域

本申请涉及多智能体技术领域，尤其涉及一种多智能体协同控制方法、系统及设备。

背景技术

在实际应用中，多智能体系统中多个智能体以协作的方式解决任务是十分常见的。在需要多个智能体协作解决任务时，无法直接把单智能体解决任务时使用的策略直接应用到多智能体系统中。现有技术中一种解决方法是采用集中式探索方式，从而将问题简化为单智能体问题。然而，这种集中式探索方式中策略集的大小会随着智能体数量的增多而呈指数级变大，计算处理十分棘手且在实践中极为低效。

现有技术中另一种解决方法是采用分散式探索方式，每个智能体通过单智能体的内在动机独自探索。然而，这种分散式探索的方法完全忽略了智能体之间的交互作用，在需要复杂协同配合的任务中极容易失败。

发明内容

鉴于以上相关技术的缺失，本申请的目的在于公开一种多智能体协同控制方法、系统及设备，用于解决相关技术中存在的问题。

为实现上述目的及其他目的，本申请的第一方面公开一种多智能体协同控制方法，包括以下步骤：从执行一目标任务的多个智能体中确定一目标智能体；基于根据一价值函数为所述多个智能体中的目标智能体从策略集中调用相应的至少一策略，以控制所述目标智能体执行期望动作；其中，所述价值函数与对应的所述目标智能体的激励价值函数、以及所述多个智能体中除所述目标智能体之外的其他智能体相对所述目标智能体的交互价值函数相关。

本申请第二方面还提供一种多智能体协同控制系统，包括：处理模块，用于从执行一目标任务的多个智能体中确定一目标智能体；控制模块，用于基于根据一价值函数为所述多个智能体中的目标智能体从策略集中调用相应的至少一策略，以控制所述目标智能体执行期望动作；其中，所述价值函数与对应的所述目标智能体的激励价值函数、以及所述多个智能体中除所述目标智能体之外的其他智能体相对所述目标智能体的交互价值函数相关。

本申请第三方面还提供一种多智能体协同控制系统，包括：多个智能设备，各所述智能设备控制至少一个智能体，所述多个智能设备执行一目标任务时执行并实现如第一方面所述的多智能体协同控制方法。

本申请的第四方面还提供一种计算机设备，包括：存储器，用于存储程序代码；一个或多个处理器；其中，所述处理器用于调用所述存储器中存储的程序代码来执行如第一方面所述的多智能体协同控制方法。

本申请的第五方面还提供一种计算机可读存储介质，存储有多智能体的协同控制方法的计算机程序，所述计算机程序被执行时实现如第一方面所述的多智能体协同控制方法。

综上所述，本申请提供的多智能体协同控制方法、系统以及设备，具有如下有益效果：本申请提供的多智能体协同控制方法，通过设置交互价值函数作为一种内在激励价值函数，使得每个智能体对有影响力的状态和行为点进行更频繁的探索；通过激励智能体之间的交互，促使多个智能体之间产生合作，进而使得智能体能够学习到复杂的合作策略，以有效地解决复杂合作型任务。

附图说明

图1显示为本申请多智能体协同控制方法在一实施例中的流程示意图。

图2显示为本申请多智能体协同控制方法在一实施例中的流程示意图。

图3A显示为本申请多智能体协同控制方法在一实施例中的场景示意图。

图3B显示为本申请多智能体协同控制方法在一实施例中的动作示意图。

图3C显示为本申请多智能体协同控制方法在一实施例中的状态示意图。

图3D显示为本申请多智能体协同控制方法在一实施例中的智能体B的动作示意图。

图3E显示为本申请多智能体协同控制方法在另一实施例中的动作示意图。

图3F显示为本申请多智能体协同控制方法在一实施例中的智能体A的动作示意图。

图3G显示为本申请多智能体协同控制方法在另一实施例中的场景示意图。

图4显示为本申请多智能体协同控制系统在一实施例中的结构示意图。

图5显示为本申请多智能体协同控制系统中控制模块在一实施例中的结构示意图。

图6显示为本申请多智能体协同控制系统在另一实施例中的结构示意图。

图7显示为本申请多智能体协同控制系统在又一实施例中的结构示意图。

图8显示为本申请提供的多智能体协同控制系统在一实施例中的结构示意图。

具体实施方式

以下由特定的具体实施例说明本申请的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效。

在下述描述中，参考附图，附图描述了本申请的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本公开的精神和范围的情况下进行组成以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本申请的实施例的范围仅由本申请的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本申请。

虽然在一些实例中术语第一、第二等在本文中用来描述各种元素，但是这些元素不应当被这些术语限制。这些术语仅用来将一个元素与另一个元素进行区分。例如，第一最优策略可以被称作第二最优策略，并且类似地，第二最优策略可以被称作第一最优策略，而不脱离各种所描述的实施例的范围。第一最优策略和第二最优策略均是在描述一个策略，但是除非上下文以其他方式明确指出，否则它们不是同一个最优策略。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元素、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元素、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元素、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

在机器学习领域，深度学习与强化学习相结合而形成的的深度强化学习得到了广泛的应用。强化学习的目的是通过学习策略来最大化自身从环境中获得的累积收益。然而在现实场景中，由于奖励稀疏，大部分情况下都无法获得有效的反馈，难以获得有效的学习。此外，传统的深度强化学习往往需要奖励函数，所述奖励函数通常是预先设计好的。而针对目标任务的不同，所述奖励函数也会随之变化；而奖励函数的设置十分繁琐，且需要大量的尝试，因此奖励函数往往难以设计，难以获得较为理想的学习结果。为了解决奖励稀疏的问题，一种常见的方法是为智能体增加内在的激励以提高效率。

然而，上述方法并不适用于多个智能体协同解决任务的场景。在需要多个智能体协作解决任务时，无法直接把单智能体解决任务时使用的策略直接应用到多智能体系统中。一种解决方法是采用集中式探索方式，从而将问题转化为单智能体问题。然而，这种集中式探索方式中策略集的大小会随着智能体数量的增多而呈指数级变大，计算处理十分棘手且在实践中极为低效。另一种解决方法是采用分散式探索方式，每个智能体通过单智能体的内在动机独自探索。然而，这种分散式探索的方法完全忽略了智能体之间的交互作用，在需要复杂协同配合的任务中极容易失败。

鉴于此，本申请提供一种多智能体协同控制方法，通过设置交互价值函数作为一种内在激励价值函数，不仅使得智能体能够学习到复杂的合作策略以解决复杂合作型任务，还能够使得每个智能体对有影响力的状态和行为点进行更频繁的探索。

所述多智能体的协同控制方法可由例如为计算机设备等数据处理设备来执行。所述计算机设备可以是以下合适的设备，诸如手持计算机设备、平板计算机设备、笔记本计算机、桌上型计算机、服务器等。计算机设备可包括以下一个或多个部件：显示器、输入装置、输入/输出(I/O)端口、一个或多个处理器、存储器、非易失性存储设备、网络接口、以及电源等。所述的各种部件可包括硬件元件(例如芯片和电路)、软件元件(例如存储指令的有形非暂态计算机可读介质)、或者硬件元件和软件元件的组合。此外，需注意，各种部件可被组合成更少的部件或者被分离成附加部件。例如，存储器和非易失性存储设备可被包括在单个部件中。所述计算机设备可单独执行所述多智能体的协同控制方法，或与其他计算机设备配合执行。

所述智能体是指驻留在某一环境下，能持续自主地发挥作用，具备驻留性、反应性、社会性、主动性等特征的计算实体。即，所述智能体可以获取并执行从环境中获得的反映环境中所发生事件的数据，并执行对环境产生影响的行动。在一些实施例中，所述智能体包括弱定义智能体和强定义智能体。所述弱定义智能体指具有自主性、社会性、反应性和能动性等基本特性的智能体；所述强定义智能体指不仅具有所述基本特性，还具有移动性、通信能力、理性或其它特性的智能体。在一些实施例中，所述智能体还可以是一个处于环境之中并且作为这个环境的部分的系统，随时可以感测环境并且执行相应的动作，同时逐渐建立自己的活动规划以应付未来可能感测到的环境变化。

在一些实施例中，所述智能体可以是硬件和软件组合而成的实体，例如所述智能体可以是移动机器人、搬运机器人、码垛机器人、清洁机器人等工业机器人或服务机器人，在另一些示例中，所述智能体还可以是智能手机、智能交通灯、无人机、车联网汽车、智能汽车、智能家居设备等。在一些实施例中，所述智能体也可以是应用于网络环境中的虚拟实体，例如广告投放平台、路由选择服务器、虚拟游戏角色等。

本申请提供一种多智能体协同控制方法，请参阅图1，显示为本申请多智能体协同控制方法在一实施例中的流程示意图。如图1所示，所述多智能体协同控制方法包括如下步骤：

步骤S1，从执行一目标任务的多个智能体中确定一目标智能体。在多智能体系统中，包含多个智能体，各个智能体为执行目标任务而分别执行各自的子任务。值得注意的是，所述目标智能体并不意味着与其他智能体有所区别，而是用于指示所述多智能体协同控制方法在此次动作的执行主体。也就是说，多个智能体中任一智能体均能够作为目标智能体。

所述目标任务可以是合作类目标任务，也可以是对抗类目标任务。例如，所述多个智能体为清洁机器人，在一包含多个房间分隔提的物理环境中，所述多个智能体通过各自“向前移动”、“向后移动”、“向左移动”、“向右移动”等动作协同完成清洁某个特定地点的目标任务。所述房间分隔体是指物理空间内用于分隔空间的立面，如墙面、隔断、落地窗、天花板等。又如，所述多个智能体为智能汽车，在一道路交通环境中，通过实时协同规划行驶路径从而完成运送货物到达某个指定地点的目标任务。再如，所述多个智能体在一有限空间的物理环境中，通过“抢夺”或“采集”等动作协同对抗完成收集全部环境资源的目标任务。

步骤S2，根据一价值函数为所述多个智能体中的目标智能体从策略集中调用相应的至少一策略，以控制所述目标智能体执行期望动作。其中，所述价值函数与对应的所述目标智能体的激励价值函数、以及所述多个智能体中除所述目标智能体之外的其他智能体相对所述目标智能体的交互价值函数相关。

所述期望动作指的是能够使智能体直接或间接完成目标任务的动作。例如，智能体在当前时刻位于客厅某一处，当目标任务为打开卧室的门时，智能体能够执行的动作可以包括“向前移动”、“向后移动”、“向左移动”、“向右移动”以及“转动门把手”等，则所述期望动作可以为例如“转动门把手”的动作。

本申请所涉及的目标任务是根据强化学习(Reinforcement Learning，RL)的任务，所述目标任务的应用环境是由马尔科夫决策过程(Markov Decision Processes，MDP)建模的。强化学习方法是一种通过学习策略来最大化自身从环境中获得的累计收益的机器学习方法。强化学习通过智能体(Agent)从环境学习以使得奖励(Reward)最大，如果智能体的某个行为策略导致环境正的奖励(强化信号)，那么智能体以后产生这个行为策略的趋势便会加强。因此，在一些实施例中，所述多智能体协同控制方法还包括确定执行所述目标任务的实施环境的步骤。不同的实施环境有不同的外在激励函数，从而影响所述目标智能体的价值函数。

马尔可夫决策过程是根据马尔可夫过程理论的随机动态系统的决策过程。例如，利用多智能体马尔科夫决策过程对多智能体协同任务建模可以如下述公式所示：

＝<I,S,A,T,R,γ>；

上述模型中，I表示有限个多智能体的集合，其中I≡{1,2,…,N}；S表示多智能体的联合状态集，其中S≡×i∈I S_i，S_i是智能体i的状态集；A表示多智能体的联合动作集，其中A≡×i∈I A_i；T表示转移方程；R表示奖励方程，γ表示衰减系数。

马尔科夫决策过程MDP的目标是找到一个最优策略，使期望奖励最大化。价值函数学习算法就是用于通过学习获得最优价值函数，从而找到相应的最优策略，所述最优策略要好于(至少相等于)任何其他策略。

请参阅图2，显示为本申请多智能体协同控制方法在另一实施例中的流程示意图。如图所示，在步骤S2中，所述根据一价值函数为所述多个智能体中的目标智能体从策略集中调用相应的至少一策略，以控制所述目标智能体执行期望动作，还包括如下步骤：

步骤S21，确定所述多个智能体中的目标智能体的交互价值函数。

在一些实施例中，所述交互价值函数与转移之后的所述多个智能体中的除所述目标智能体之外的其他智能体的动作-价值函数与忽略所述智能体的状态和动作的条件下经反事实计算得到的动作-价值函数的期望差相关。所述反事实计算是一种概率推断方式，用于表示在现实情况为X＝x₁的情况下、估计X＝x₂的情况下Y的值。例如，在一个包含有智能体1和智能体2的多智能体系统中，所述反事实计算可以是计算所述智能体在假设不存在智能体2的情况下执行某一动作的概率。

在一些实施例中，在一些实施例中所述多个智能体中的除所述目标智能体之外的其他智能体的动作-价值函数与除所述目标智能体之外的其他智能体的奖励以及所述其他智能体在转移之后的期望累计收益之和相关。例如，所述多个智能体中的除所述目标智能体之外的其他智能体的动作-价值函数为除所述目标智能体之外的其他智能体的奖励与所述其他智能体在转移之后的期望累计收益之和的和。

在一些实施例中，所述经反事实计算得到的动作-价值函数与除所述目标智能体之外的其他智能体的反事实奖励以及所述其他智能体在转移之后的反事实的期望累计收益之和相关。

在多智能体协同任务中，存在若干个交互点。所述交互点可以是有价值的，可以是无意义的。在不同的目标任务中交互点也会不同。所述有价值的交互点指的是一个智能体在当前状态和动作下可以帮助其他智能体获得更多预期的外在奖励或内部激励。本申请实施例中，通过将交互价值函数作为额外的内在激励，不仅能够促使智能体更为频繁地探索有价值的交互点，还能够有效地过滤无意义的交互点，更有助于完成目标任务，从而实现效率上的提升。

步骤S22，根据所述交互价值函数和所述激励价值函数确定所述目标智能体的价值函数。

在一些实施例中，所述激励价值函数与所述目标智能体的外在激励价值函数以及内在激励价值函数相关。本实施例中，所述目标智能体的激励价值函数为所述目标智能体的外在激励价值函数与内在激励价值函数之和。所述外在激励价值函数为环境提供的激励价值函数，根据当前动作可能获得的环境的激励价值以影响所述智能体以后产生这个动作策略的趋势是否加强或减弱。所述内在激励价值函数可以为例如好奇心等。所述好奇心作为内在激励价值函数时，能够促使智能体根据其对环境的不确定性进行探索，从而一方面能够避免陷入局部最优的情况，另一方面能够更大程度上发现有价值的交互点。

步骤S23，根据所述价值函数从所述策略集中获得一策略，根据所述策略控制所述目标智能体执行期望动作。

在执行某一目标任务中，可以采取的策略的总体称为策略集(或称策略空间)。也就是说，在多智能体协同完成一目标任务时，所述策略集为可供各个智能体进行选择的策略的集合。

所述策略可以是通过对成熟任务中拥有相当规模的可靠数据样本进行训练而学习得到。在一些实施例中，所述策略可以通过一深度神经网络进行训练而学习得到。所述深度神经网络中包括一连续参数空间，所述连续参数空间中的每一组参数对应一个策略，由此形成了一连续策略集。但并不以此为限，鉴于数据样本的规模或不易收集等特点或者训练的条件等要求，在某些实施例中，所述策略也可以直接从公共渠道上获得，这些被公开的策略是由他人训练且被证明可靠的。在本申请中，为所述策略集中的各策略赋予了一价值函数，以此作为某一策略被选定用以控制目标智能体的依据。

在一些实施例中，所述多智能体协同控制方法还包括为各智能体构建状态集和动作集的步骤。一智能体的状态集为完成某一目标任务的全部状态的集合，一智能体的动作集为完成某一目标任务的全部动作的集合。在某一时刻，各智能体的在当前时刻的状态形成了多智能体系统的联合状态，各智能体在当前时刻的动作形成了多智能体系统的联合动作。

承前所述，在一些实施例中，所述交互价值可以通过例如如下所示的公式表示：

式中，VoI^π _-i|i(S_-i′；S_i,A_i|S_-i,A_-i)表示智能体i对其他智能体的交互价值；p^π(s,a,s′_-i)表示s,a,s′_-i出现的概率；表示除智能体i以外的其他智能体的动作价值函数；表示在忽略除智能体i以外的其他智能体的状态和动作的条件下、经反事实计算得到的动作-价值函数；S_-i表示除智能体i以外的其他智能体的状态集，S_i表示智能体i的状态集；A_-i表示除智能体i以外的其他智能体的动作集，S_-i′表示除智能体i以外的其他智能体的下一时刻的状态集；s表示智能体的状态，a表示智能体的动作，s_-i表示除智能体i以外的其他智能体的状态，a_-i表示除智能体i以外的其他智能体的动作，π表示多个智能体的联合策略。

在一些实施例中，所述多个智能体中的除所述目标智能体之外的其他智能体的动作-价值函数可以通过例如如下所示的公式表示：

式中，表示除所述目标智能体之外的其他智能体的动作-价值函数，r_-i(s,a)表示除所述目标智能体之外的其他智能体的奖励，p(s′_i|s,a,s′_-i)表示转移方程，表示期望累计收益，γ表示衰减系数；π表示多个智能体的联合策略，s表示智能体的状态，a表示智能体的动作，s′_-i表示除智能体i以外的其他智能体下一时刻的状态，s′_i表示智能体i下一时刻的状态。

在一些实施例中，所述经反事实计算得到的动作-价值函数可以通过例如如下所示的公式表示：

式中，表示经反事实计算得到的动作-价值函数，表示在给定s_-i,a_-i的条件下出现的概率，表示转移方程，表示除所述目标智能体i之外的其他智能体的反事实奖励，表示期望累计收益，π表示多个智能体的联合策略，γ表示衰减系数，s_-i表示除智能体i以外的其他智能体的状态，a_-i表示除智能体i以外的其他智能体的动作，s′_-i表示除智能体i以外的其他智能体下一时刻的状态，s′_i表示智能体i下一时刻的状态，表示智能体i的反事实状态，表示智能体i的反事实动作，s′表示多智能体群体下一时刻的状态。

在一些实施例中，还包括更新价值函数中的价值的步骤。在本实施例中，更新价值函数指的是更新包括策略集中所有策略(包括正在执行的当前策略)的价值函数的价值。在实际应用中，更新价值函数是根据执行的动作、执行动作之前的当前状态、执行动作之后的下一状态、以及执行动作之后获得的奖励等来实施的。具体地，对于当前策略，当前策略的价值函数根据执行的动作、执行动作之前的当前状态、执行动作之后的下一状态、以及执行动作之后获得的奖励进行更新获得新的价值。对于策略集中的其他任一策略，所述任一策略的价值函数也是根据执行的动作、执行动作之前的当前状态、执行动作之后的下一状态、以及执行动作之后获得的奖励进行更新获得新的价值。需说明的是，更新所有策略的价值函数是根据相同的动作。

在一些实施例中，多智能体系统中各个智能体并非彼此之间都具有相互作用，而是其内的各个智能体彼此成对且具有成对的交互作用。因此，在一些实施例中，当所述多智能体之间存在成对的交互作用时，所述交互价值函数为每对智能体的交互价值函数之和。

在一些实施例中，所述交互价值函数还可以与除所述目标智能体之外的其他智能体的即时奖励以及所述其他智能体在转移之后的期望累计收益相关。在本实施例中，可以通过例如如下所示的公式表示：

式中，VoI^π _-i|i(S_-i′；S_i,A_i|S_-i,A_-i)表示智能体i对其他智能体的交互价值；p^π(s′_-i|s_-i,a_-i)表示在给定s_-i,a_-i的条件下s′_-i出现的概率，p(s′_-i|s,a)表示转移方程，表示多智能体群体下一时刻的状态的价值函数；γ表示衰减系数，S_-i′表示除智能体i以外的其他智能体的状态的集合，S_i表示智能体i的状态集，A_i表示智能体i的动作集，A_-i表示除智能体i以外的其他智能体的动作的集合，π表示多个智能体的联合策略，s表示智能体的状态集，a表示智能体的动作集，s_-i表示除智能体i以外的其他智能体的状态，a_-i表示除智能体i以外的其他智能体的动作，s′_-i表示除智能体i以外的其他智能体的下一状态，s′表示多智能体群体下一时刻的状态。其中，所述r_-i(s,a)表示除所述目标智能体i之外的其他智能体的奖励，所述表示所述其他智能体的反事实的奖励。在一些实施例中，所述即时奖励为除所述目标智能体之外的其他智能体的奖励与所述其他智能体的反事实的奖励之差。

例如在搬运机器人的实施例中，多个搬运机器人在搬运一重物的目标任务中，单个搬运机器人因力量不足、难以维持平衡等问题难以独立完成任务，因而需要多个搬运机器人的协作。以两个搬运机器人举例，搬运机器人Robot1与搬运机器人Robot2学习协作搬运一重物(如箱子、书、桌子等)到一指定地点。在该任务中，搬运机器人在执行搬运动作时，重物需要离开地面；重物到达指定地点后，搬运机器人才能获得来自环境的外在奖励。

传统的智能体控制方法只依赖外在奖励进行学习，在实际场景中，奖励往往由于过于稀疏而导致搬运机器人难以学会有效的控制方法此外，传统的智能体控制方法没有激励多智能体进行合作的机制。在本申请实施例中，搬运机器人Robot1在抬起、搬运重物的过程中，其动作对于搬运机器人Robot2的状态集(例如重物的位置、速度等)会产生影响，根据该影响，所述多智能体协同控制方法将生成密集的对于智能体Robot1的交互价值；反之，当搬运机器人Robot2在执行动作的过程中，其动作也会对搬运机器人Robot1的状态集产生影响。由于额外设置了交互价值作为内在激励价值，环境中的奖励变得相对密集，搬运机器人Robot1和搬运机器人Robot2在较为密集的奖励下，将更乐于去抬起并搬运重物；同时，通过交互价值的影响，搬运机器人Robot1和移动机器Robot2将更多地探索合作搬运的方法、探索目标点的位置，进而加速任务的最终完成。

为了易于理解，以多个智能体为两个智能体为例。请参阅图3A、图3B、图3C、图3D、图3E、图3F、以及图3G，其中图3A显示为本申请多智能体协同控制方法在一实施例中的场景示意图，图3B显示为本申请多智能体协同控制方法在一实施例中的动作示意图，图3C显示为本申请多智能体协同控制方法在一实施例中的状态示意图，图3D显示为本申请多智能体协同控制方法在一实施例中的智能体B的动作示意图，图3E显示为本申请多智能体协同控制方法在另一实施例中的动作示意图，图3F显示为本申请多智能体协同控制方法在一实施例中的智能体A的动作示意图，图3G显示为本申请多智能体协同控制方法在另一实施例中的场景示意图。

如图3A所示，例如，在一个室内场景中，全部空间通过一墙体分割为两个子空间(为了描述简便，左边的子空间称为左空间，右边的子空间称为右空间，以下不再赘述)，所述墙体上设置有一可活动的门(即图中的“Door”)。左空间和右空间的一角分别设置有一开关(图中以白色小方块表示)用以控制门的开启或闭合。在图3A中，在左空间内有两个智能体(图中以白色小圆球表示)，即智能体A和智能体B。在本申请实施例中，所述目标任务为从左上角出发的两个智能体都经过门到达右空间内，且只有一个或两个智能体在开关附近边时门才会打开。因此，所述智能体A和智能体B需要协同完成目标任务才能获得奖励。容易理解，在所述智能体A执行动作的过程中，智能体A即为所述目标智能体；在智能体B执行动作的过程中，智能体B即为所述目标智能体。

在本申请实施例中，以执行所述目标任务的最优策略为例，所述最优策略为：一个智能体先移动到左边的开关附近，为另一个智能体打开门，使所述另一个智能体可以进入右空间；在另一个智能体进入到右空间后，其移动到右空间的开关附近，为留在左空间的智能体打开门，使其能够进入右边房间。显然，在这种需要协同配合的任务中，若直接应用单智能体的探索方法是无法完成任务的。若直接应用集中式探索策略或分散式探索策略，智能体A和智能体B将会始终在左空间内进行移动，而无法打开门进入到右空间内。

应当理解，所述“最优”是指对于一个目标任务的解在一定范围或区域内最优，或者说解决问题或达成目标的手段在一定范围或限制内最优。对于不同的目标任务，所述最优策略也会不同。例如，当要求是以最短时间或最少步数完成所述目标任务时，形成的为第一最优策略；当要求是尽可能完全探索全部空间的情况下，形成的为第二最优策略。显然，所述第一最优策略和第二最优策略是不同的策略。

在所述目标任务中，通过设计稀疏的外在激励价值函数，使得当智能体到达开关附近或门附近时获得一定的奖励。当然也可以设计外在激励价值函数使得智能体在发生碰撞等事故情况时获得惩罚。通过设计交互价值函数，促使智能体更为频繁地探索重要的交互点(例如左空间的开关、右空间的开关、以及门)，在这些交互点上，智能体能够合作完成任务。

在初始状态下，智能体将初始状态作为一深度神经网络的输入，从而获得一连续策略集。从所述连续策略集中选择一策略并根据该策略进行下一动作的选择。在选择动作后，执行所述动作，在这个过程中，智能体与含有稀疏奖励的环境进行交互，从而到达下一状态。在下一状态，智能体再通过选择策略并执行动作，由此完成一次完整的训练过程。

在如图3A的初始状态下，智能体A和智能体B均位于左空间内。如图3B所示，在初始状态下，智能体A执行移动到左空间的开关附近的动作，智能体B执行移动到门附近的动作，从而形成了如图3C所示的状态。在图3C中，智能体A位于左空间的开关附近，智能体B位于门附近；此时达成前述条件，门开启。然后，如图3D所示，智能体A和智能体B通过选择策略，智能体A执行停留的动作，智能体B执行进入右空间的动作。当智能体B进入右空间后，智能体B需要移动至右空间的开关附近，为智能体A打开门。因此，如图3E所示，智能体B执行移动到右空间的开关附近的动作，智能体A执行移动到门附近的动作，门随即开启。在图3F所示的状态中，智能体A执行进入到右空间的动作，从而形成如图3G所示的状态。在图3G中，智能体A和智能体B都到达了右空间，因此完成目标任务并获得奖励。

本申请提供的多智能体协同控制方法，通过设置交互价值函数作为一种内在激励价值函数，使得每个智能体对有影响力的状态和行为点进行更频繁的探索；通过激励智能体之间的交互，促使多个智能体之间产生合作，进而使得智能体能够学习到复杂的合作策略，以有效地解决复杂合作型任务。

本申请所述的多智能体协同控制方法通过一多智能体协同控制系统来执行或实现。请参阅图4，显示为本申请提供的多智能体协同控制系统在一实施例中的结构示意图，如图所示，所述多智能体协同控制系统40包括处理模块401和控制模块402，其中：所述处理模块401用于从执行一目标任务的多个智能体中确定一目标智能体；所述控制模块402用于根据一价值函数为所述多个智能体中的目标智能体从策略集中调用相应的至少一策略，以控制所述目标智能体执行期望动作；其中，所述价值函数与对应的所述目标智能体的激励价值函数、以及所述多个智能体中除所述目标智能体之外的其他智能体相对所述目标智能体的交互价值函数相关。

在多智能体系统中，包含多个智能体，各个智能体为执行目标任务而分别执行各自的子任务。值得注意的是，所述目标智能体并不意味着与其他智能体有所区别，而是用于指示所述多智能体协同控制方法在此次动作的执行主体。也就是说，多个智能体中任一智能体均能够作为目标智能体。所述目标任务可以是合作类目标任务，也可以是对抗类目标任务。例如，所述多个智能体为清洁机器人，在一包含多个房间分隔提的物理环境中，所述多个智能体通过各自“向前移动”、“向后移动”、“向左移动”、“向右移动”等动作协同完成清洁某个特定地点的目标任务。所述房间分隔体是指物理空间内用于分隔空间的立面，如墙面、隔断、落地窗、天花板等。又如，所述多个智能体为智能汽车，在一道路交通环境中，通过实时协同规划行驶路径从而完成运送货物到达某个指定地点的目标任务。再如，所述多个智能体在一有限空间的物理环境中，通过“抢夺”或“采集”等动作协同对抗完成收集全部环境资源的目标任务。

请参阅图5，显示为本申请多智能体协同控制系统中控制模块在一实施例中的结构示意图。如图所示，在一些实施例中，所述控制模块还包括第一计算模块501、第二计算模块502、以及执行模块503，其中：所述第一计算模块501用于确定所述多个智能体中目标智能体的交互价值函数；所述第二计算模块502用于根据所述交互价值函数和所述激励价值函数确定所述目标智能体的价值函数；所述执行模块503用于根据所述价值函数，从所述策略集中获得一策略，根据所述策略控制所述目标智能体执行期望动作。在一些实施例中，所述交互价值函数与转移之后的所述多个智能体中的除所述目标智能体之外的其他智能体的动作-价值函数与忽略所述智能体的状态和动作的条件下经反事实计算得到的动作-价值函数的期望差相关。所述反事实计算是一种概率推断方式，用于表示在现实情况为X＝x₁的情况下、估计X＝x₂的情况下Y的值。例如，在一个包含有智能体1和智能体2的多智能体系统中，所述反事实计算可以是计算所述智能体在假设不存在智能体2的情况下执行某一动作的概率。

式中，VoI^π _-i|i(S_-i′；S_i,_Ai|S_-i,A_-i)表示智能体i对其他智能体的交互价值；p^π(s,a,s′_-i)表示s,a,s′_-i出现的概率；表示除智能体i以外的其他智能体的动作价值函数；表示在忽略除智能体i以外的其他智能体的状态和动作的条件下、经反事实计算得到的动作-价值函数；S_-i表示除智能体i以外的其他智能体的状态集，S_i表示智能体i的状态集；A_-i表示除智能体i以外的其他智能体的动作集，S_-i′表示除智能体i以外的其他智能体的下一时刻的状态集；s表示智能体的状态，a表示智能体的动作，s_-i表示除智能体i以外的其他智能体的状态，a_-i表示除智能体i以外的其他智能体的动作，π表示多个智能体的联合策略。

例如，在搬运一重物的目标任务中，单个搬运机器人因力量不足、难以维持平衡等问题难以独立完成任务，因而需要多个搬运机器人的协作。以两个搬运机器人举例，搬运机器人Robot1与搬运机器人Robot2学习协作搬运一重物(如箱子、书、桌子等)到一指定地点。在该任务中，搬运机器人在执行搬运动作时，重物需要离开地面；重物到达指定地点后，搬运机器人才能获得来自环境的外在奖励。

传统的智能体控制方法只依赖外在奖励进行学习，在实际场景中，奖励往往由于过于稀疏而导致搬运机器人难以学会有效的控制方法。此外，传统的智能体控制方法没有激励多智能体进行合作的机制。在本申请实施例中，搬运机器人Robot1在抬起、搬运重物的过程中，其动作对于搬运机器人Robot2的状态集(例如重物的位置、速度等)会产生影响，根据该影响，所述多智能体协同控制方法将生成密集的对于智能体Robot1的交互价值；反之，当搬运机器人Robot2在执行动作的过程中，其动作也会对搬运机器人Robot1的状态集产生影响。由于额外设置了交互价值作为内在激励价值，环境中的奖励变得相对密集，搬运机器人Robot1和搬运机器人Robot2在较为密集的奖励下，将更乐于去抬起并搬运重物；同时，通过交互价值的影响，搬运机器人Robot1和移动机器Robot2将更多地探索合作搬运的方法、探索目标点的位置，进而加速任务的最终完成。

请参阅图6，显示为本申请多智能体协同控制系统在另一实施例中的结构示意图。如图所示，所述多智能体协同控制系统60除了处理模块601和控制模块602以外，还包括第一初始化模块603；所述第一初始化模块603用于确定执行所述目标任务的实施环境。

由于所述智能体是指驻留在某一环境下，能持续自主地发挥作用，具备驻留性、反应性、社会性、主动性等特征的计算实体。智能体可以＝处于环境之中并且作为这个环境的部分的系统，随时可以感测环境并且执行相应的动作，同时逐渐建立自己的活动规划以应付未来可能感测到的环境变化。因此，在执行所述目标任务之前，需要确定执行所述目标任务的实施环境。

G＝<I,S,A,T,R,γ>；

请参阅图7，显示为本申请多智能体协同控制系统在又一实施例中的结构示意图。如图所示，所述多智能体协同控制系统70除了处理模块701和控制模块702以外，还包括二初始化模块703；所述第二初始化模块703用于为各智能体构建状态集和动作集。在一些实施例中，所述多智能体协同控制方法还包括为各智能体构建状态集和动作集的步骤。一智能体的状态集为完成某一目标任务的全部状态的集合，一智能体的动作集为完成某一目标任务的全部动作的集合。在某一时刻，各智能体的在当前时刻的状态形成了多智能体系统的联合状态，各智能体在当前时刻的动作形成了多智能体系统的联合动作。

本申请提供的多智能体协同控制系统用以执行前述的多智能体协同控制方法，原理和具体流程请参照上述实施例，此处不再赘述。

本申请提供的多智能体协同控制系统，通过设置交互价值函数作为一种内在激励价值函数，使得每个智能体对有影响力的状态和行为点进行更频繁的探索；通过激励智能体之间的交互，促使多个智能体之间产生合作，进而使得智能体能够学习到复杂的合作策略，以有效地解决复杂合作型任务。

应当理解，所述多智能体协同控制系统包含通过计算机设备中的软件和硬件来实现。所述计算机设备可以是任何具有数学和逻辑运算、数据处理能力的计算设备，其包括但不限于：个人计算机设备、单台服务器、服务器集群、分布式服务端、所述云服务端等。其中，所述云服务端包括公共云(Public Cloud)服务端与私有云(Private Cloud)服务端，其中，所述公共或私有云服务端包括Software-as-a-Service(软件即服务，简称SaaS)、Platform-as-a-Service(平台即服务，简称PaaS)及Infrastructure-as-a-Service(基础设施即服务，简称IaaS)等。所述私有云服务端例如阿里云计算服务平台、亚马逊(Amazon)云计算服务平台、百度云计算平台、腾讯云计算平台等等。

所述计算机设备至少包括：存储器、一个或多个处理器、I/O接口、网络接口和输入结构等。其中所述存储器用于存储待鉴别物品的多幅图像以及至少一个程序。所述存储器可包括高速随机存取存储器，并且还可包括非易失性存储器，例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。

所述存储器用于存储程序代码。存储器可以包括易失性存储器(VolatileMemory)，例如随机存取存储器(Random Access Memory，RAM)；存储器也可以包括非易失性存储器(Non-Volatile Memory)，例如只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；存储器还可以包括上述种类的存储器的组合。存储器可用于存储一组程序代码，以便于处理器调用存储器中存储的程序代码以实现本申请实施例中涉及的所述样本输入模块、对抗生成模块以及混淆判别模块等功能模块中的任一项或多项的功能。处理器可以由一个或者多个通用处理器构成，例如中央处理器(Central Processing Unit，CPU)。处理器可用于运行相关的程序代码中以下任一项或多项功能模块的程序：样本输入模块、对抗生成模块以及混淆判别模块等。也就是说，处理器执行程序代码可以实现以下任一项或多项功能模块的功能：处理模块和控制模块等等。其中，关于所述处理模块和控制模块具体可参见前述实施例中的相关阐述。

在一些实施例中，存储器还可以包括远离一个或多个处理器的存储器，例如经由RF电路或外部端口以及通信网络访问的网络附加存储器，其中所述通信网络可以是因特网、一个或多个内部网、局域网(LAN)、广域网(WLAN)、存储局域网(SAN)等，或其适当组合。存储器控制器可控制设备的诸如CPU和外设接口之类的其他组件对存储器的访问。存储器可选地包括高速随机存取存储器，并且可选地还包括非易失性存储器，诸如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储器设备。由设备的其他组件诸如CPU和外围接口，对存储器的访问可选地通过存储器控制器来控制。

所述一个或多个处理器可操作地与网络接口耦接，以将计算设备以通信方式耦接至网络。例如，网络接口可将计算设备连接到局域网(如LAN)、和/或广域网(如WAN)。处理器还与I/O端口和输入结构可操作地耦接，该I/O端口可使得计算设备能够与各种其他电子设备进行交互，该输入结构可使得用户能够与计算设备进行交互。因此，输入结构可包括按钮、键盘、鼠标、触控板等。此外，电子显示器可包括触摸部件，该触摸部件通过检测对象触摸其屏幕的发生和/或位置来促进用户输入。

具体应用场景中，所述处理模块和控制模块等都可以是软件模块，这些软件模块可部署在服务器、或服务器上的虚拟机，或服务器上的容器上。此外，这些软件模块可根据实际需求部署在同一服务器上，或者不同服务器上，本申请不做限定。

本申请还提供一种多智能体协同控制系统，请参阅图8，显示为本申请提供的多智能体协同控制系统在一实施例中的结构示意图，如图所示，所述多智能体协同控制系统80包括：

多个智能设备801，各所述智能设备801控制至少一个智能体802，所述多个智能设备801执行一目标任务时执行并实现前述的多智能体协同控制方法：从执行一目标任务的多个智能体801中确定一目标智能体；根据一价值函数为所述多个智能体中的目标智能体从策略集中调用相应的至少一策略，以控制所述目标智能体执行期望动作。其中，所述价值函数与对应的所述目标智能体的激励价值函数、以及所述多个智能体中除所述目标智能体之外的其他智能体相对所述目标智能体的交互价值函数相关。

在一些实施例中，所述智能设备为拥有计算处理能力的执行设备，例如移动机器人、智能终端、智能冰箱、智能交通灯、无人机、智能汽车等。所述智能终端例如为包括但不限于智能手机、平板电脑、智能手表、智能眼镜、个人数字助理(PDA)等等便携式或者穿戴式的电子设备，应当理解，本申请于实施方式中描述的便携式电子设备只是一个应用实例，该设备的组件可以比图示具有更多或更少的组件，或具有不同的组件配置。所绘制图示的各种组件可以用硬件、软件或软硬件的组合来实现，包括一个或多个信号处理和/或专用集成电路。在一些实施例中，所述智能设备也可以是应用于网络环境中的虚拟实体，例如广告投放平台、路由选择服务器、虚拟游戏角色等。

本申请提供的多智能体协同控制系统用以执行前述的多智能体协同控制方法，原理和具体流程请参照上述实施例，此处不再赘述。本申请提供的多智能体协同控制系统通过设置交互价值函数作为一种内在激励价值函数，使得每个智能体对有影响力的状态和行为点进行更频繁的探索；通过激励智能体之间的交互，促使多个智能体之间产生合作，进而使得智能体能够学习到复杂的合作策略，以有效地解决复杂合作型任务。

本申请还提供一种计算机可读写存储介质，存储有多智能体的协同控制方法的计算机程序，所述多智能体的协同控制方法的计算机程序被执行时实现上述实施例关于图1中所述的多智能体的协同控制方法。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。根据这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

于本申请提供的实施例中，所述计算机可读写存储介质可以包括只读存储器、随机存取存储器、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储设备、闪存、U盘、移动硬盘、或者能够用于存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。另外，任何连接都可以适当地称为计算机可读介质。例如，如果指令是使用同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或者诸如红外线、无线电和微波之类的无线技术，从网站、服务器或其它远程源发送的，则所述同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线电和微波之类的无线技术包括在所述介质的定义中。然而，应当理解的是，计算机可读写存储介质和数据存储介质不包括连接、载波、信号或者其它暂时性介质，而是旨在针对于非暂时性、有形的存储介质。如申请中所使用的磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中，磁盘通常磁性地复制数据，而光盘则用激光来光学地复制数据。

在一个或多个示例性方面，本申请所述多智能体的协同控制方法的计算机程序所描述的功能可以用硬件、软件、固件或者其任意组合的方式来实现。当用软件实现时，可以将这些功能作为一个或多个指令或代码存储或传送到计算机可读介质上。本申请所公开的方法或算法的步骤可以用处理器可执行软件模块来体现，其中处理器可执行软件模块可以位于有形、非临时性计算机可读写存储介质上。有形、非临时性计算机可读写存储介质可以是计算机能够存取的任何可用介质。

本申请上述的附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这根据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以通过执行规定的功能或操作的专用的根据硬件的系统来实现，或者可以通过专用硬件与计算机指令的组合来实现。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种多智能体协同控制方法，其特征在于，包括以下步骤：

从执行一目标任务的多个智能体中确定一目标智能体；

根据一价值函数为所述多个智能体中的目标智能体从策略集中调用相应的至少一策略，以控制所述目标智能体执行期望动作；其中，所述价值函数与对应的所述目标智能体的激励价值函数、以及所述多个智能体中除所述目标智能体之外的其他智能体相对所述目标智能体的交互价值函数相关。

2.根据权利要求1所述的多智能体协同控制方法，其特征在于，所述根据一价值函数为所述多个智能体中的目标智能体从策略集中调用相应的至少一策略，以控制所述目标智能体执行期望动作的步骤包括：

确定所述多个智能体中的目标智能体的交互价值函数；

根据所述交互价值函数和所述激励价值函数确定所述目标智能体的价值函数；

根据所述价值函数，从所述策略集中获得一策略，根据所述策略控制所述目标智能体执行期望动作。

3.根据权利要求1所述的多智能体协同控制方法，其特征在于，还包括确定执行所述目标任务的实施环境的步骤。

4.根据权利要求1所述的多智能体协同控制方法，其特征在于，还包括为各智能体构建状态集和动作集的步骤。

5.根据权利要求1所述的多智能体协同控制方法，其特征在于，所述目标智能体的激励价值函数与所述目标智能体的外在激励价值函数以及内在激励价值函数相关。

6.根据权利要求1所述的多智能体协同控制方法，其特征在于，所述交互价值函数与转移之后的所述多个智能体中的除所述目标智能体之外的其他智能体的动作-价值函数与忽略所述智能体的状态和动作的条件下经反事实计算得到的动作-价值函数的期望差相关。

7.根据权利要求6所述的多智能体协同控制方法，其特征在于，所述多个智能体中的除所述目标智能体之外的其他智能体的动作-价值函数与除所述目标智能体之外的其他智能体的奖励以及所述其他智能体在转移之后的期望累计收益之和相关。

8.根据权利要求6所述的多智能体协同控制方法，其特征在于，所述经反事实计算得到的动作-价值函数与除所述目标智能体之外的其他智能体的反事实奖励以及所述其他智能体在转移之后的反事实的期望累计收益之和相关。

9.根据权利要求1或6所述的多智能体协同控制方法，其特征在于，当所述多智能体之间存在成对的交互作用时，所述交互价值函数为每对智能体的交互价值之和。

10.根据权利要求1所述的多智能体协同控制方法，其特征在于，所述交互价值函数与除所述目标智能体之外的其他智能体的即时奖励以及所述其他智能体在转移之后的期望累计收益相关。

11.根据权利要求10所述的多智能体协同控制方法，其特征在于，所述即时奖励为除所述目标智能体之外的其他智能体的奖励与所述其他智能体的反事实的奖励之差。

12.根据权利要求1所述的多智能体协同控制方法，其特征在于，还包括更新价值函数中的价值的步骤。

13.一种多智能体协同控制系统，其特征在于，包括：

处理模块，用于从执行一目标任务的多个智能体中确定一目标智能体；

控制模块，用于根据一价值函数为所述多个智能体中的目标智能体从策略集中调用相应的至少一策略，以控制所述目标智能体执行期望动作；

其中，所述价值函数与对应的所述目标智能体的激励价值函数、以及所述多个智能体中除所述目标智能体之外的其他智能体相对所述目标智能体的交互价值函数相关。

14.根据权利要求13所述的多智能体协同控制系统，其特征在于，所述控制模块还包括：

第一计算模块，用于确定多个智能体中的所述目标智能体的交互价值函数；

第二计算模块，用于根据所述交互价值函数和所述激励价值函数确定所述目标智能体的价值函数；

执行模块，用于根据所述价值函数，从所述策略集中获得一策略，根据所述策略控制所述目标智能体执行期望动作。

15.根据权利要求13所述的多智能体协同控制系统，其特征在于，还包括第一初始化模块，用于确定执行所述目标任务的实施环境。

16.根据权利要求13所述的多智能体协同控制系统，其特征在于，还包括第二初始化模块，用于为各智能体构建状态集和动作集。

17.根据权利要求13所述的多智能体协同控制系统，其特征在于，所述目标智能体的激励价值函数与所述目标智能体的外在激励价值函数以及内在激励价值函数相关。

18.根据权利要求13所述的多智能体协同控制系统，其特征在于，所述交互价值函数与转移之后的所述多个智能体中的除所述目标智能体之外的其他智能体的动作-价值函数与忽略所述智能体的状态和动作的条件下经反事实计算得到的动作-价值函数的期望差相关。

19.根据权利要求18所述的多智能体协同控制系统，其特征在于，所述多个智能体中的除所述目标智能体之外的其他智能体的动作-价值函数与除所述目标智能体之外的其他智能体的奖励以及所述其他智能体在转移之后的期望累计收益之和相关。

20.根据权利要求18所述的多智能体协同控制系统，其特征在于，所述经反事实计算得到的动作-价值函数与除所述目标智能体之外的其他智能体的反事实奖励以及所述其他智能体在转移之后的反事实的期望累计收益之和相关。

21.根据权利要求18所述的多智能体协同控制系统，其特征在于，当所述多智能体之间存在成对的交互作用时，所述交互价值函数为每对智能体的交互价值之和。

22.根据权利要求18所述的多智能体协同控制系统，其特征在于，所述交互价值函数与除所述目标智能体之外的其他智能体的即时奖励以及所述其他智能体在转移之后的期望累计收益相关。

23.根据权利要求22所述的多智能体协同控制系统，其特征在于，所述即时奖励为除所述目标智能体之外的其他智能体的奖励与所述其他智能体的反事实的奖励之差。

24.根据权利要求13所述的多智能体协同控制系统，其特征在于，还包括更新模块，用于更新价值函数中的价值。

25.一种多智能体协同控制系统，其特征在于，包括：多个智能设备，各所述智能设备控制至少一个智能体，所述多个智能设备执行一目标任务时执行并实现如权利要求1-12中任一项所述的多智能体协同控制方法。

26.一种计算机设备，其特征在于，包括：

存储器，用于存储程序代码；

一个或多个处理器；

其中，所述处理器用于调用所述存储器中存储的程序代码来执行权利要求1-12中任一项所述多智能体协同控制方法。

27.一种计算机可读存储介质，存储有多智能体的协同控制方法的计算机程序，其特征在于，所述计算机程序被执行时实现权利要求1-12中任一项所述多智能体协同控制方法。