CN115618754B

CN115618754B - 多智能体的价值评估方法、装置和可读储存介质

Info

Publication number: CN115618754B
Application number: CN202211631819.9A
Authority: CN
Inventors: 张俊格; 张茗奕; 娄行舟; 黄凯奇; 徐辉杰; 陈丹丹
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-04-07
Anticipated expiration: 2042-12-19
Also published as: CN115618754A

Abstract

本发明提供了一种多智能体的价值评估方法、装置和可读储存介质，涉人工智能技术领域，旨在解决针对多智能体，价值评估模块进行价值评估过程中，忽略了联合动作的作用，导致价值评估模块的价值评估在联合行动空间上的泛化性较差的技术问题，本发明提供的多智能体的价值评估方法以互信息最大化的方法来更新联合动作映射模型中的映射函数，使得联合动作映射与状态转移向量之间的互信息最大化，即使得联合动作映射的映射向量中蕴含丰富的状态转移信息，也即在通过价值评估模块进行价值评估之前，能够知道联合动作的各种结果信息，这样提前知道联合动作的结果又能够使得价值评估模块的评估结果更加准确。

Description

多智能体的价值评估方法、装置和可读储存介质

技术领域

本发明涉人工智能技术领域，具体而言，涉及一种多智能体的价值评估方法、装置和可读储存介质。

背景技术

最新的多智能体策略梯度方法优于其他种类智能体强化学习方法，由于联合动作空间呈指数增长，且价值评估模块的价值评估在联合行动空间上的泛化性较差，这些方法中忽略了联合动作的作用，但联合动作在实际中是非常重要的，其中蕴含了其他智能体的策略信息，而智能体在多智能体系统中决策时，需要考虑到其他智能体的策略信息来应对环境不平稳变化带来的影响。

因此，为了改进价值评估模块在联合动作空间中价值评估的泛化性，提供一种能够适用于多智能体联合动作的价值评估方法成为目前亟待解决的技术问题。

发明内容

本发明旨在解决或改善上述技术问题中的至少之一。

本发明的第一方面在于提供一种多智能体的价值评估方法。

本发明的第二方面在于提供一种多智能体的价值评估装置。

本发明的第三方面在于提供一种多智能体的价值评估装置。

本发明的第四方面在于提供一种可读储存介质。

本发明提供的多智能体的价值评估方法，包括：将每一智能体的动作进行拼接得到联合动作，并将联合动作送入联合动作映射模块中，得到联合动作的第一映射向量；基于第一映射向量，通过互信息神经估计网络模块计算当前的联合动作与状态转移向量之间的互信息，并采取梯度上升算法来更新联合动作映射模块的参数，以使联合动作映射与状态转移向量之间的互信息最大化，以使联合动作映射模块映射出的向量包括所有动作转移结果的信息；将联合动作送入更新后的联合动作映射模块中，得到联合动作的第二映射向量；基于第二映射向量，通过价值评估模块对联合动作进行价值评估，以供多个智能体根据价值评估模块的价值评估结果进行策略更新。

本发明提供的多智能体的价值评估方法，先对各智能体的动作进行拼接得到联合动作，并将联合动作送入联合动作映射模块中，通过联合动作映射模块映射出针对该联合动作的第一映射向量，可以理解的，联合动作映射模块中包含联合动作映射函数，联合动作映射函数中包括联合向量与联合动作的映射关系，这样系统在获取到多个智能体的联合动作之后，可以通过联合动作映射函数计算出对应该联合动作的第一映射向量，获取到之后，并将第一映射向量送入互信息神经估计网络模块中，通过互信息神经估计网络模块计算当前的联合动作与状态转移向量之间的互信息，并采取梯度上升算法更新联合动作映射函数的参数，以使联合动作映射与状态转移向量之间的互信息最大化，由于联合动作映射函数是在联合动作映射与状态转移向量之间的互信息最大化的基础上更新出来的，这样就使得通过联合动作映射函数映射出的向量中蕴含丰富的状态转移信息，这样在获取到联合动作之后，可以使得联合动作映射模块映射出的向量包括所有动作转移结果的信息，使用更新后的联合动作映射模块对联合动作进行映射，将映射结果送入价值评估模块中进行价值估计，用于指导各智能体的策略更新。其中，价值评估模块也即根据每个智能体的策略来评估所有的智能体在未来能够获取的奖励的评估模块，也即价值评估模块包括一个神经网络驱动的动作价值函数Q，用于估计当前状态下动作u的价值（估计的未来收益），把状态s和联合动作映射u送入动作价值函数Q中后，输出价值估计的结果。联合动作与状态转移向量之间的互信息也即联合动作的变量与状态转移变量之间的关联程度，关联程度越大说明联合动作映射出的映射向量包含状态转移的信息量越多。状态转移向量也即在下一时刻，智能体能够进行哪些动作的转移，然后将这些可能发生的动作向量化，这样后期就可以通过互信息神经估计网络来使联合动作映射与状态转移向量之间的互信息最大化。本发明以互信息最大化的方法来更新联合动作映射模型中的映射函数，通过最大化互信息的一个下界，来使得联合动作映射与状态转移向量之间的互信息最大化，即使得联合动作映射的映射向量中蕴含丰富的状态转移信息，也即在通过价值评估模块进行价值评估之前，能够知道联合动作的各种结果信息，这样提前知道联合动作的结果又能够使得价值评估模块的评估结果更加准确。本发明能应用于各个场景中的多智能体系统，通过本发明能够显著的提高多智能体系统的学习效率、决策水平，并显著降低训练所需的计算开销。

在上述技术方案中，互信息神经估计网络模块通过如下公式计算当前的联合动作与状态转移向量之间的互信息：

；

其中T为由深度神经网络参数化的向量处理函数，b为批数据的大小，x为状态转移向量，为从边缘概率分布中采样的联合动作映射向量，也即是从映射空间随机采样出的联合动作映射向量，仅仅用于计算互信息，i为参数，z为联合动作映射向量，I为当前的联合动作与状态转移向量之间的互信息，log为对数函数。

在上述技术方案中，多个智能体根据价值评估模块的价值评估结果的进行策略更新的步骤包括：多个智能体根据价值评估模块的价值评估结果，通过策略梯度的方式对多个智能体的策略进行更新。

在该技术方案中，多个智能体根据价值评估模块的价值评估结果，通过策略梯度的方式对多个智能体的策略进行更新，这样多个智能体能够根据更新之后的策略进行动作，以获取最大的价值，进而提高多智能体系统的学习效率、决策水平。

在上述技术方案中，策略梯度的更新公式如下：

；

其中，π^a为智能体a的策略，A^a(s,z)为反事实优势函数，A^a(s,z)=Q（s,z）-b(s,u^-a)，，z’为使用u’a代替原动作之后的联合动作映射，∇J为目标函数的梯度，a为智能体编号，∇_θ为对参数θ求梯度，π^a(u’aǀo^a)为智能体a的策略，在观测o^a下采取动作u^’a的概率。

其中，对上述公式中各参数进一步解释如下，u^a代表智能体a的动作，u=(u¹,u²,...,u^a,...)是联合动作，u^-a=是去掉u^a后的剩余的联合动作，也即u^-a=(u¹,u²,......)，u^'a是智能体a的另一个动作，u^'a代替原动作之后的联合动作就是u1,u2,...,u^’a,...)。

在上述技术方案中，在通过价值评估模块对联合动作进行价值评估的步骤之后，还包括：根据采集到的评估数据，更新价值评估模块；其中，评估数据包括联合动作在联合动作映射模块中映射后的第一映射向量、第二映射向量、状态转移向量和评估结果数据中的至少一种。

在该技术方案中，在通过价值评估模块对联合动作进行价值评估的步骤之后，还可以根据采集到的评估数据，更新价值评估模块，这样可以进一步提高多智能体算法的学习效率。

进一步，可使用梯度下降算法更新价值评估模块。

进一步，梯度下降算法的梯度下降的目标函数如下：

L=(y_t ^(λ)-Q(s_t,z_t))²；

其中，s表示状态，z表示联合动作映射，Q表示由神经网络参数化的价值函数，L表示损失函数，y表示更新目标，y_t ^(λ)表示根据当前采集数据算出的真实价值，t表示时刻。

在该公式中，由于y_t ^(λ)是我们根据当前采集数据算出的真实状态动作价值，价值函数Q是价值评估模块评估出的价值，两者的差的平方永远为正数，在理想状态下估计的价值等于真实的价值，因此本申请可以通过梯度下降算法来更新Q的参数，也即随着损失函数L的梯度下降，就能让我们的估计值与真实值接近，估计得更加准确。

本发明第二方面提供了一种多智能体的价值评估装置，包括：拼接模块，用于将每一智能体的动作进行拼接得到联合动作，并将联合动作送入联合动作映射模块中；联合动作映射模块，用于将拼接模块输入的联合动作映射出第一映射向量；互信息神经估计网络模块用于基于第一映射向量，计算当前的联合动作与状态转移向量之间的互信息，并采取梯度上升算法来更新联合动作映射模块的参数，以使联合动作映射与状态转移向量之间的互信息最大化，以使联合动作映射模块映射出的向量包括所有动作转移结果的信息；价值评估模块，能够基于更新后的联合动作映射模块映射出的第二映射向量，对联合动作进行价值评估，以供多个智能体根据价值评估模块的价值评估结果进行策略更新。

本发明第三方面提供了一种多智能体的价值评估装置，包括储存器和处理器，储存器上存储有计算机程序或指令，处理器执行程序或指令时实现如本申请第一方面任一项技术方案提供的多智能体的价值评估方法。

本发明第四方面提供了一种可读储存介质，可读储存介质上存储有程序或指令，处理器执行程序或指令时实现如本申请第一方面任一项技术方案提供的多智能体的价值评估方法。

根据本发明的附加方面和优点将在下面的描述部分中变得明显，或通过根据本发明的实践了解到。

附图说明

根据本发明的实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本发明的实施例提供的多智能体的价值评估方法的流程示意图；

图2示出了本发明的另一实施例提供的多智能体的价值评估方法的流程示意图；

图3示出了本发明的实施例提供的多智能体的价值评估装置的示意性方框图；

图4示出了本发明的实施例提供的多智能体的价值评估装置的结构示意图；

图5示出了本发明的另一实施例提供的多智能体的价值评估装置的示意性方框图。

其中，图3至图5中的零部件名称与标号的对应关系如下：

1多智能体的价值评估装置，11拼接模块，12联合动作映射模块，13互信息神经估计网络模块，132深度神经网络参数化的向量处理函数建立模块，14价值评估模块，15储存器，16处理器，171人工神经网络，172门控循环单元，173多层感知机，174类和模块。

具体实施方式

为了能够更清楚地理解根据本发明的实施例的上述方面、特征和优点，下面结合附图和具体实施方式对根据本发明的实施例进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解根据本发明的实施例，但是，根据本发明的实施例还可以采用其他不同于在此描述的其他方式来实施，因此，根据本发明的实施例的保护范围并不受下面公开的具体实施例的限制。

如图1所示，本发明的一个实施例提供的多智能体的价值评估方法包括如下步骤：

S102：将每一智能体的动作进行拼接得到联合动作，并将联合动作送入联合动作映射模块中，得到联合动作的第一映射向量；

S104：基于第一映射向量，通过互信息神经估计网络模块计算当前的联合动作与状态转移向量之间的互信息，并采取梯度上升算法来更新联合动作映射模块的参数，以使联合动作映射与状态转移向量之间的互信息最大化，以使联合动作映射模块映射出的向量包括所有动作转移结果的信息；

S106：将联合动作送入更新后的联合动作映射模块中，得到联合动作的第二映射向量；

S108：基于第二映射向量，通过价值评估模块对联合动作进行价值评估，以供多个智能体根据价值评估模块的价值评估结果进行策略更新。

本发明提供的多智能体的价值评估方法，先对各智能体的动作进行拼接得到联合动作，并将联合动作送入联合动作映射模块中，通过联合动作映射模块映射出针对该联合动作的第一映射向量，可以理解的，联合动作映射模块中包含联合动作映射函数，联合动作映射函数中包括联合向量与联合动作的映射关系，这样系统在获取到多个智能体的联合动作之后，可以通过联合动作映射函数计算出对应该联合动作的第一映射向量，获取到之后，并将第一映射向量送入互信息神经估计网络模块中，通过互信息神经估计网络模块计算当前的联合动作与状态转移向量之间的互信息，并采取梯度上升算法更新联合动作映射函数的参数，以使联合动作映射与状态转移向量之间的互信息最大化，由于联合动作映射函数是在联合动作映射与状态转移向量之间的互信息最大化的基础上更新出来的，这样就使得通过联合动作映射函数映射出的向量中蕴含丰富的状态转移信息，这样在获取到联合动作之后，可以使得联合动作映射模块映射出的向量包括所有动作转移结果的信息，使用更新后的联合动作映射模块对联合动作进行映射，将映射结果送入价值评估模块中进行价值估计，用于指导各智能体的策略更新。其中，价值评估模块也即根据每个智能体的策略来评估所有的智能体在未来能够获取的奖励的评估模块。联合动作与状态转移向量之间的互信息也即联合动作的变量与状态转移变量之间的关联程度，关联程度越大说明联合动作映射出的映射向量包含状态转移的信息量越多。状态转移向量也即在下一时刻，智能体能够进行哪些动作的转移，然后将这些可能发生的动作向量化，这样后期就可以通过互信息神经估计网络来使联合动作映射与状态转移向量之间的互信息最大化。本发明以互信息最大化的方法来更新联合动作映射模型中的映射函数，通过最大化互信息的一个下界，来使得联合动作映射与状态转移向量之间的互信息最大化，即使得联合动作映射的映射向量中蕴含丰富的状态转移信息，也即在通过价值评估模块进行价值评估之前，能够知道联合动作的各种结果信息，这样提前知道联合动作的结果又能够使得价值评估模块的评估结果更加准确。本发明能应用于各个场景中的多智能体系统，通过本发明能够显著的提高多智能体系统的学习效率、决策水平，并显著降低训练所需的计算开销。

在上述实施例中，互信息神经估计网络模块通过如下公式计算当前的联合动作与状态转移向量之间的互信息：

；

其中T为由深度神经网络参数化的向量处理函数，b为批数据的大小，x为状态转移向量，为从边缘概率分布中采样的联合动作映射向量，也即是从映射空间随机采样出的联合动作映射向量，仅仅用于计算互信息，i为智能体的个数，为联合动作映射向量，I为当前的联合动作与状态转移向量之间的互信息，log为对数函数，e是自然对数。

在上述实施例中，多个智能体根据价值评估模块的价值评估结果，通过策略梯度的方式对多个智能体的策略进行更新，这样多个智能体能够根据更新之后的策略进行动作，以获取最大的价值，进而提高多智能体系统的学习效率、决策水平。

策略梯度的更新公式如下：

；

其中，对上述公式中各参数进一步解释如下，u^a代表智能体a的动作，u是联合动作，当智能体a进行动作u^a时，联合动作u=(u¹,u²,...,u^a,...)，u^-a=是去掉u^a后的剩余的联合动作，也即u^-a=(u¹,u²,......)，u^'a是智能体a的另一个动作，u^'a代替原动作u^a之后的联合动作就是u1,u2,...,u^’a,...)。

如图2所示，为本发明的另一个实施例提供的多智能体的价值评估方法与上述实施例的区别在于还包括对价值评估模块进行更新的步骤，具体而言，本实施例的多智能体的价值评估方法包括如下步骤：

S202：将每一智能体的动作进行拼接得到联合动作，并将联合动作送入联合动作映射模块中，得到联合动作的第一映射向量；

S204：基于第一映射向量，通过互信息神经估计网络模块计算当前的联合动作与状态转移向量之间的互信息，并采取梯度上升算法来更新联合动作映射模块的参数，以使联合动作映射与状态转移向量之间的互信息最大化，以使联合动作映射模块映射出的向量包括所有动作转移结果的信息；

S206：将联合动作送入更新后的联合动作映射模块中，得到联合动作的第二映射向量；

S208：基于第二映射向量，通过价值评估模块对联合动作进行价值评估，以供多个智能体根据价值评估模块的价值评估结果进行策略更新；

S210：根据采集到的评估数据，更新价值评估模块；其中，评估数据包括联合动作在联合动作映射模块中映射后的第一映射向量、第二映射向量、状态转移向量和评估结果数据中的至少一种。

本实施例的多智能体的价值评估方法，具备上述实施例提供的多智能体的价值评估方法的全部有益效果之外，本实施例的多智能体的价值评估方法在通过价值评估模块对联合动作进行价值评估的步骤之后，还能够根据采集到的评估数据，更新价值评估模块；其中，评估数据包括联合动作在联合动作映射模块中映射后的第一映射向量、第二映射向量、状态转移向量和评估结果数据中的至少一种。通过在通过价值评估模块对联合动作进行价值评估的步骤之后，还可以根据采集到的评估数据，使用梯度下降算法更新价值评估模块，这样可以进一步提高多智能体算法的学习效率。

进一步，梯度下降算法的梯度下降的目标函数如下：

L=(y_t ^(λ)-Q(s_t,z_t))²；

其中，s表示状态，z表示联合动作映射，Q表示由神经网络参数化的价值函数，L表示损失函数，y表示更新目标，y_t ^(λ)表示根据当前采集数据算出的真实价值。

如图3所示，本发明第二方面的实施例提供了一种多智能体的价值评估装置包括拼接模块11、联合动作映射模块12、互信息神经估计网络模块13和价值评估模块14，拼接模块11用于将每一智能体的动作进行拼接得到联合动作，并将联合动作送入联合动作映射模块中，联合动作映射模块12用于将拼接模块输入的联合动作映射出第一映射向量，互信息神经估计网络模块13用于基于第一映射向量，计算当前的联合动作与状态转移向量之间的互信息，并采取梯度上升算法来更新联合动作映射模块的参数，以使联合动作映射与状态转移向量之间的互信息最大化，以使联合动作映射模块映射出的向量包括所有动作转移结果的信息，价值评估模块14能够基于更新后的联合动作映射模块映射出的第二映射向量，对联合动作进行价值评估，以供多个智能体根据价值评估模块的价值评估结果进行策略更新。

具体而言，如图4所示，多个智能体能够基于当前时刻t的观测和上一时刻的动作，将当前时刻t的每一个智能体的动输入至联合动作映射模块12，联合动作映射模块12能够映射出联合动作的第一映射向量，同时能够将当前时刻联合动作映射出的第一映射向量、当前时刻的状态和下一时刻的状态输送至互信息神经估计网络模块13，同时能够将当前时刻联合动作的第一映射向量、上一时刻的联合动作的第一映射向量、当前时刻的状态、当前时刻的观测和智能体的个数输送至互价值评估模块14，互信息神经估计网络模块13能够基于联合动作映射模块12的输入计算当前的联合动作与状态转移向量之间的互信息，并采取梯度上升算法来更新联合动作映射模块12的参数，以使联合动作映射模块12与状态转移向量之间的互信息最大化，价值评估模块14能够基于联合动作映射模块12的输入进行价值的评估。进一步，互信息神经估计网络模块13的损失函数L_m1与价值评估模块14的损失函数L_critic相加可以得到一个总的损失函数L，然后系统可以根据总的损失函数L来优化各项参数，以提高模型的各项性能。进一步，在计算互信息神经估计网络模块13的损失函数L_m1的过程中，请参考深度神经网络参数化的向量处理函数建立模块132，在深度神经网络参数化的向量处理函数建立模块132中，分别将状态转移向量和联合动作映射向量输送至神经网络上，然后通过状态处理函数处理状态转移向量，通过动作处理函数处理联合动作的映射向量，然后将状态处理函数和动作处理函数相乘得到深度神经网络参数化的向量处理函数T（xⁱ ,zⁱ），然后深度神经网络参数化的向量处理函数T（xⁱ ,zⁱ）一方面基于状态转移向量和联合动作映射向量的输入，经过类和模块174拟合成L函数，另一方面基于状态转移向量和从边缘概率分布中采样的联合动作映射向量的输入，依次经过语言函数、类和模块174和对数函数拟合成R函数，然后拟合L函数和R函数得到互信息神经估计网络模块13的损失函数L_m1。

进一步，智能体输出当前时刻的动作的具体过程为，基于当前时刻t的观测和上一时刻的动作，依次经过人工神经网络171、门控循环单元172和人工神经网络171得到当前时刻的动作。

进一步，价值评估模块14在进行价值评估过程具体为，已当前时刻状态、当前时刻观测、上一时刻联合动作映射向量为输入，先经过多层感知机173，然后通过价值评估函数通过coma算法（counterfactual multi-agent policy gradients，）进行价值评估。

另外，针对附图4中，所有涉及到的字母的含义解释如下：x为状态转移向量，i为参数，z为联合动作映射向量，T（xⁱ ,zⁱ）为深度神经网络参数化的向量处理函数，u为动作，u_t ⁿ为n智能体在t时刻的动作，o为观测，o_t ⁿ为n智能体在t时刻的观测，t为当前时刻，t-1为上一时刻，t+1为下一时刻，s为状态，L_m1为互信息神经估计网络模块的损失函数，L_critic为价值评估模块的损失函数，L为总函数，a为智能体编号，A为估计价值，A_t ^a为a智能体在t时刻的估计价值，Q为由神经网络参数化的价值函数，f为函数，π_t ^a为智能体a在t时刻的策略。

如图5所示，本发明第三方面提供了一种多智能体的价值评估装置包括储存器15和处理器16，储存器15上存储有计算机程序或指令，处理器16执行程序或指令时实现如本申请第一方面任一项技术方案提供的多智能体的价值评估方法。

通过本方法的多智能体的价值评估装置进行价值评估然后对多智能体进行训练与现有的多智能体策略梯度算法模型的训练结果相比，本发明的方法能够显著的提高多智能体系统的学习效率和决策水平。

在根据本发明的实施例中，术语“第一”、“第二”、“第三”仅用于描述的方面，而不能理解为指示或暗示相对重要性；术语“多个”则指两个或两个以上，除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；“相连”可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在根据本发明的实施例中的具体含义。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

以上仅为根据本发明的实施例的优选实施例而已，并不用于限制根据本发明的实施例，对于本领域的技术人员来说，根据本发明的实施例可以有各种更改和变化。凡在根据本发明的实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在根据本发明的实施例的保护范围之内。

Claims

1.一种多智能体的价值评估方法，其特征在于，包括：

将每一所述智能体的动作进行拼接得到联合动作，并将所述联合动作送入联合动作映射模块中，得到所述联合动作的第一映射向量；

基于所述第一映射向量，通过互信息神经估计网络模块计算当前的联合动作与状态转移向量之间的互信息，并采取梯度上升算法来更新所述联合动作映射模块的参数，以使所述联合动作映射与状态转移向量之间的互信息最大化，以使所述联合动作映射模块映射出的向量包括所有动作转移结果的信息；

将所述联合动作送入更新后的所述联合动作映射模块中，得到联合动作的第二映射向量；

基于所述第二映射向量，通过价值评估模块对所述联合动作进行价值评估，以供多个智能体根据所述价值评估模块的价值评估结果进行策略更新；

所述互信息神经估计网络模块通过如下公式计算当前的联合动作与状态转移向量之间的互信息：

；

其中，T为由深度神经网络参数化的向量处理函数，b为批数据的大小，x为状态转移向量，为从边缘概率分布中采样的联合动作映射向量，i为求和公式的计算参数，0≤i≤b，z为联合动作映射，I为当前的联合动作与状态转移向量之间的互信息，log为对数函数，e是自然对数。

2.根据权利要求1所述的多智能体的价值评估方法，其特征在于，所述多个智能体根据所述价值评估模块的价值评估结果进行策略更新包括：

所述多个智能体根据所述价值评估模块的价值评估结果，通过策略梯度的方式对多个智能体的策略进行更新。

3.根据权利要求2所述的多智能体的价值评估方法，其特征在于，所述策略梯度的更新公式如下：

；

其中，π^a为智能体a的策略，A^a(s,z)为反事实优势函数，A^a(s,z)=Q（s,z）-b(s,u^-a)，b(s,u^-a)，Q表示由神经网络参数化的价值函数，s表示状态，z表示联合动作映射，z’为使用u^’a代替原动作u^a之后的联合动作映射，∇J为目标函数的梯度，a为智能体编号，∇_θ为对参数求梯度，π^a(u^’aǀo^a)为智能体a的策略在观测o^a下采取动作u^’a的概率，u^a代表智能体a的动作，u是联合动作，u^-a是从联合动作u中去掉u^a后剩余的联合动作，u=(u¹,u²,...,u^a,...)，u-a=(u¹,u²,......)，u^'a是智能体a的另一个动作。

4.根据权利要求1至3中任一项所述的多智能体的价值评估方法，其特征在于，在所述通过价值评估模块对所述联合动作进行价值评估之后，还包括：

根据采集到的评估数据，更新所述价值评估模块；

其中，所述评估数据包括联合动作在联合动作映射模块中映射后的第一映射向量、第二映射向量、状态转移向量和评估结果数据中的至少一种。

5.根据权利要求4所述的多智能体的价值评估方法，其特征在于，所述根据采集到的评估数据，更新所述价值评估模块包括：

根据采集到的评估数据，使用梯度下降算法更新所述价值评估模块。

6.根据权利要求5所述的多智能体的价值评估方法，其特征在于，所述梯度下降算法的梯度下降的目标函数如下：

L=(y_t ^(λ)-Q(s_t,z_t))²；

其中，s表示状态，z表示联合动作映射向量，Q表示由神经网络参数化的价值函数，L表示损失函数，y表示更新目标，y_t ^(λ)表示根据当前采集数据算出的真实价值，t表示时刻。

7.一种多智能体的价值评估装置，其特征在于，包括：

拼接模块，用于将每一所述智能体的动作进行拼接得到联合动作，并将所述联合动作送入联合动作映射模块中；

联合动作映射模块，用于将所述拼接模块输入的所述联合动作映射出第一映射向量；

互信息神经估计网络模块，用于基于所述第一映射向量，计算当前的联合动作与状态转移向量之间的互信息；基于所述互信息采取梯度上升算法来更新所述联合动作映射模块的参数，以使所述联合动作映射与状态转移向量之间的互信息最大化，以使所述联合动作映射模块映射出的向量包括所有动作转移结果的信息；

价值评估模块，能够基于更新后的所述联合动作映射模块映射出的第二映射向量，对所述联合动作进行价值评估，以供多个智能体根据所述价值评估模块的价值评估结果进行策略更新；

；

8.一种多智能体的价值评估装置，其特征在于，包括：

储存器和处理器，所述储存器上存储有计算机程序或指令，所述处理器执行所述程序或指令时实现如权利要求1至6中任一项所述的多智能体的价值评估方法。

9.一种可读储存介质，其特征在于，所述可读储存介质上存储有程序或指令，处理器执行所述程序或指令时实现如权利要求1至6中任一项所述的多智能体的价值评估方法。