CN116484942B

CN116484942B - 用于多智能体强化学习的方法、系统、设备和存储介质

Info

Publication number: CN116484942B
Application number: CN202310402439.6A
Authority: CN
Inventors: 郭家明; 彭少辉; 易琦; 胡杏; 郭崎; 李威
Original assignee: Shanghai Processor Technology Innovation Center
Current assignee: Shanghai Processor Technology Innovation Center
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2024-03-15
Anticipated expiration: 2043-04-13
Also published as: CN116484942A

Abstract

本申请公开了一种用于多智能体强化学习的方法、系统、设备和存储介质。所述方法包括：获取各智能体与环境交互的历史交互数据、未来状态信息和奖励值；根据所述历史交互数据计算反映所述各智能体与环境交互过程的信念状态向量；响应于满足预定约束条件，基于所述信念状态向量、所述未来状态信息和所述奖励值计算后见向量，以确定与多智能体强化学习相关的后见价值函数；以及将所述后见价值函数作为多智能体强化学习中的新基线，以实现多智能体强化学习。利用本申请的方案，可以降低梯度估计的方差，提高采样效率和性能。

Description

用于多智能体强化学习的方法、系统、设备和存储介质

技术领域

本申请一般涉及多智能体技术领域。更具体地，本申请涉及一种用于多智能体强化学习的方法、系统、设备和计算机可读存储介质。

背景技术

多智能体是指驻留在某一环境下的多个实体，它们可以解释从环境中获得的反映环境中所发生事件的数据，并执行对环境产生影响的行动。其中，多个多智能体可以是硬件(例如机器人)，也可以是软件。多智能体强化学习(Multi-Agent ReinforcementLearning，“MARL”)是指让多个智能体处于相同的环境中，每个智能体独立与环境交互，利用环境反馈的奖励改进自己的策略，以获得更高的回报，其应用于例如多个机器人的控制、语言的交流及多玩家的游戏等场景。

现有多智能体强化学习有两种主要的技术路径：一种是集中式的训练和分布式的执行，一种是独立学习。其中，集中式的训练指在训练时智能体共享包括观察和行动在内的所有信息，而分布式的执行指在部署时，智能体不再共享信息而是独立运行。这种设置在某些情况下使训练更有稳定性，但在应用到大规模的多智能体训练时却会带来较大的通信开销，而且难以实现部署后的策略优化。对于独立学习而言，训练过程和执行过程都是去中心化的，智能体之间不共享信息，而且每个智能体都将其他智能体认为是环境。独立训练避免了额外的通信开销而且使得部署后优化成为可能，其最常用的算法为独立近端策略优化算法(Independent Proximal Policy Optimization，“IPPO”)。然而，IPPO算法是根据未来累计奖励估计梯度来调整行动的对数概率，这种累积奖励奖励也受到其他因素(例如当前状态和其他智能体的行动等因素)的影响，而使梯度估计存在较高的方差，从而导致较低的采样效率和较低的最终性能。

有鉴于此，亟需提供一种用于多智能体强化学习的方案，以便降低梯度估计的方差，提高采样效率和性能。

发明内容

为了至少解决如上所提到的一个或多个技术问题，本申请在多个方面中提出了用于多智能体强化学习的方案。

在第一方面中，本申请提供一种用于多智能体强化学习的方法，包括：获取各智能体与环境交互的历史交互数据、未来状态信息和奖励值；根据所述历史交互数据计算反映所述各智能体与环境交互过程的信念状态向量；响应于满足预定约束条件，基于所述信念状态向量、所述未来状态信息和所述奖励值计算后见向量，以确定与多智能体强化学习相关的后见价值函数；以及将所述后见价值函数作为多智能体强化学习中的新基线，以实现多智能体强化学习。

在一个实施例中，其中所述历史交互数据包括所述各智能体的历史状态信息和历史执行动作，并且根据所述历史交互数据计算反映所述各智能体与环境交互过程的信念状态向量包括：基于所述各智能体的历史状态信息和历史执行动作，使用信念状态网络进行计算，以获得反映所述各智能体与环境交互过程的信念状态向量。

在另一个实施例中，所述方法还包括：基于所述信念状态向量，使用估计网络进行估计，以获得与所述各智能体的状态和奖励有关的估计向量；以及根据所述估计向量更新所述估计网络和所述信念状态网络。

在又一个实施例中，其中根据所述估计向量更新所述估计网络和所述信念状态网络包括：根据所述估计向量、所述未来状态信息和所述奖励值构建第一损失函数；以及基于所述第一损失函数更新所述估计网络和所述信念状态网络。

在又一个实施例中，其中基于所述第一损失函数更新所述估计网络和所述信念状态网络包括：基于所述第一损失函数更新所述估计网络和所述信念状态网络各自对应的第一参数和第二参数；以及利用更新后的第一参数和第二参数分别更新所述估计网络和所述信念状态网络。

在又一个实施例中，其中响应于满足预定约束条件，基于所述信念状态向量、所述未来状态信息和所述奖励值计算后见向量包括：响应于满足预定约束条件，基于所述信念状态向量、所述未来状态信息和所述奖励值，使用后见向量网络进行计算获得所述后见向量。

在又一个实施例中，所述方法还包括：响应于满足所述预定约束条件，使用分布网络进行分布估计，以获得预定信念状态下后见向量的分布信息；根据所述分布信息构建第二损失函数；以及基于所述第二损失函数更新所述后见向量网络。

在又一个实施例中，所述方法还包括：对所述分布网络进行更新，以获得更新后的分布网络；以及根据所述更新后的分布网络和所述第二损失函数更新所述后见向量网络。

在又一个实施例中，其中根据所述更新后的分布网络和所述第二损失函数更新所述后见向量网络包括：根据所述更新后的分布网络和所述第二损失函数更新所述后见向量网络对应的第三参数；以及利用更新后的第三参数更新所述后见向量网络。

在又一个实施例中，所述方法还包括：响应于满足所述预定约束条件，使用辅助网络辅助所述后见向量网络进行计算，以获得所述后见向量。

在又一个实施例中，其中使用辅助网络辅助所述后见向量网络进行计算包括：响应于满足所述预定约束条件，使用辅助网络进行预测，以获得与所述各智能体的状态和奖励有关的预测向量；以及根据所述预测向量更新所述辅助网络，以辅助所述后见向量网络进行计算。

在又一个实施例中，其中根据所述预测向量更新所述辅助网络包括：根据所述预测向量、所述未来状态信息和所述奖励值构建第三损失函数；以及基于根据所述更新后的分布网络和所述第三损失函数更新所述辅助网络。

在又一个实施例中，其中基于根据更新后的分布网络和所述第三损失函数更新所述辅助网络包括：根据所述更新后的分布网络和所述第三损失函数更新所述辅助网络对应的第四参数；以及利用更新后的第四参数更新所述辅助网络。

在又一个实施例中，其中所述信念状态网络包括长短期记忆网络，所述估计网络、所述分布网络、所述辅助网络和所述后见向量网络均包括全连接网络。

在第二方面中，本申请提供一种用于多智能体强化学习的系统，包括：数据获取单元，其用于获取各智能体与环境交互的历史交互数据、未来状态信息和奖励值；第一计算单元，其用于根据所述历史交互数据计算反映所述各智能体与环境交互过程的信念状态向量；第二计算单元，其用于响应于满足预定约束条件，基于所述信念状态向量、所述未来状态信息和所述奖励值计算后见向量，以确定与多智能体强化学习相关的后见价值函数；以及强化学习单元，其用于将所述后见价值函数作为多智能体强化学习中的新基线，以实现多智能体强化学习。

在第三方面中，本申请提供一种用于多智能体强化学习的设备，包括：处理器；以及存储器，其中存储有用于多智能体强化学习的程序指令，当所述程序指令由所述处理器执行时，使得所述设备实现前述第一方面中的多个实施例。

在第四方面中，本申请提供一种计算机可读存储介质，其上存储有用于多智能体强化学习的计算机可读指令，该计算机可读指令被一个或多个处理器执行时，实现前述第一方面中的多个实施例。

通过如上所提供的用于多智能体强化学习的方案，本申请实施例通过历史交互数据确定各智能体与环境交互过程的信念状态向量，并结合未来状态信息和奖励值计算后见向量，并确定后见价值函数。即，本申请实施例考虑了多个智能体的整个交互过程以及其他智能体的行为，形成后见价值函数。接着，将后见价值函数作为多智能体强化学习中的新基线，以实现多智能体强化学习。基于此，可以消除其他智能体的行为对累积奖励的影响，从而能够降低梯度估计的方差，提高采样效率和性能。进一步地，本申请实施例通过多个网络构建了后见价值函数的学习框架，使其独立于智能体的当前动作，以确保梯度估计的近似无偏性。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是示出根据本申请实施例的用于多智能体强化学习的方法的示例性流程框图；

图2是示出根据本申请实施例的计算后见价值函数的示例性示意图；

图3是示出根据本申请实施例的用于多智能体强化学习的系统的示例性结构框图；

图4是示出根据本申请实施例的用于多智能体强化学习的系统的又一示例性结构框图；以及

图5是根据本申请实施例的用于多智能体强化学习的设备的示例性结构框图。

具体实施方式

下面将结合附图对本披露实施例中的技术方案进行清楚和完整地描述。应当理解的是本说明书所描述的实施例仅是本披露为了便于对方案的清晰理解和符合法律的要求而提供的部分实施例，而并非可以实现本披露的所有实施例。基于本说明书公开的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本披露保护的范围。

应当理解，本披露的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本披露说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本披露。如在本披露说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本披露说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

如背景技术描述可知，多智能体强化学习有两种主要的路径，即集中式的训练和分布式的执行和独立学习。其中，独立学习的常用算法为IPPO算法，该IPPO算法属于策略梯度类算法。在应用场景中，IPPO算法的原始策略梯度算法可以通过如下式子表示：

其中，表示智能体的期望收益梯度，π表示智能体作出的策略集合，θ表示参数，a表示智能体执行的动作，s表示智能体的状态，γ表示折扣系数，r表示奖励值，表示累积奖励。

根据前文可知，IPPO算法是根据未来累计奖励估计梯度来调整行动的对数概率，这种累积奖励奖励也受到其他因素(例如当前状态和其他智能体的行动等因素)的影响，而使梯度估计存在较高的方差。现有的方法是通过在累积奖励上减去状态价值函数/>以消除前述影响。其中，前述减去的状态价值函数/>视为基线(原始基线)，其对应的策略梯度变化为/>然而，现有的状态价值函数仅考虑了智能体的当前状态(例如s_t)，因此现有的方法仍然无法消除其他智能体的动作所带来的高方差问题。

基于此，本申请提出一种用于多智能体强化学习的方案，通过结合各智能体与环境交互过程的历史交互数据、未来状态信息和奖励值确定后见价值函数，并将后见价值函数作为多智能体强化学习中的新基线实现多智能体强化学习，消除了其他智能体的行为对累积奖励的影响，降低了梯度估计的方差。

图1是示出根据本申请实施例的用于多智能体强化学习的方法100的示例性流程框图。如图1中所示，在步骤101处，获取各智能体与环境交互的历史交互数据、未来状态信息和奖励值。可以理解，各智能体与环境交互的历史交互数据是t时刻以及t时刻之前获得的数据，其中该历史交互数据可以至少包括各智能体的历史状态信息(例如s₀，...，s_t)和历史执行动作(例如a₀，...，a_t)等信息。各智能体与环境交互的未来状态信息是t时刻之后获得的数据，例如记为s_t+1。进一步地，前述奖励值是t时刻时多个智能体从环境获得的奖励值r_t。

基于前述获得的历史交互数据，在步骤102处，根据历史交互数据计算反映各智能体与环境交互过程的信念状态向量。在一个示例性场景中，假设信念状态向量记为b_t，则在一个实施例中，可以基于各智能体的历史状态信息和历史执行动作，使用信念状态网络进行计算，以获得反映各智能体与环境交互过程的信念状态向量。其中，前述信念状态网络可以例如是长短期记忆网络(Long Short-Term Memory，“LSTM”)。具体来说，以历史状态信息和历史执行动作作为信念状态网络的输入，经由信念状态网络进行计算后，输出前述信念状态向量b_t。

需要理解的是，在使用信念状态网络进行计算时，也可以对信念状态网络进行更新。在一个实施例中，首先可以基于信念状态向量，使用估计网络进行估计，以获得与各智能体的状态和奖励有关的估计向量，接着根据估计向量更新估计网络和信念状态网络。在一个实施场景中，前述估计网络可以例如是全连接网络。具体地，在根据估计向量更新估计网络和信念状态网络中，可以根据估计向量、未来状态信息和奖励值构建第一损失函数，进而基于第一损失函数更新估计网络和信念状态网络。在一个实施例中，可以基于第一损失函数更新估计网络和信念状态网络各自对应的第一参数和第二参数，并利用更新后的第一参数和第二参数分别更新估计网络和信念状态网络。

作为示例，假设信念状态网络记为L，估计网络记为M，信念状态向量记为b_t，未来状态信息记为s_t+1，奖励值记为r_t。根据前文描述可知，信念状态向量b_t可以基于信念状态网络L计算获得。基于获得的信念状态向量b_t，将信念状态向量b_t输入至估计网络M中进行估计，可以获得与各智能体的状态和奖励有关的估计向量，例如记为接着，基于估计向量/>未来状态信息s_t+1和奖励值r_t可以构建第一损失函数。在一个实现场景中，前述第一损失函数可以通过如下式子表示：

其中L_M(θ_b，θ_m)表示第一损失，θ_m和θ_b分别表示估计网络M和信念状态网络L各自对应的第一参数和第二参数。在该场景下，基于前述第一损失函数，可以通过例如梯度下降法来调整第一参数θ_m和第二参数θ_b，以基于更新后的第一参数θ_m和第二参数θ_b来更新估计网络M和信念状态网络L。

接着，在步骤103处，响应于满足预定约束条件，基于信念状态向量、未来状态信息和奖励值计算后见向量，以确定与多智能体强化学习相关的后见价值函数。在一个实施例中，响应于满足预定约束条件，基于信念状态向量、未来状态信息和奖励值，使用后见向量网络进行计算获得后见向量。其中，该后见向量网络也可以例如是全连接网络。也就是说，在预定约束条件下，通过将信念状态向量、未来状态信息和奖励值输入后见向量网络，经由后见向量网络进行计算后可以获得后见向量。例如，以上述信念状态向量b_t，未来状态信息s_t+1，奖励值r_t为例，假设后见向量网络记为F，通过将信念状态向量b_t，未来状态信息s_t+1，奖励值r_t输入后见向量网络F中，可以获得后见向量h_t，且在获得后见向量h_t后，可以确定与多智能体强化学习相关的后见价值函数v^h，并且

进一步地，在步骤104处，将后见价值函数作为多智能体强化学习中的新基线，以实现多智能体强化学习。也即，利用后见价值函数代替上述IPPO算法中的原始状态价值函数/>在累积奖励减去后见价值函数/>从而消除其他智能体的动作所带来的高方差问题，以实现多智能体强化学习。

可以理解，在多智能体强化学习中，各智能体与其他智能体以及环境的交互可以视为马尔可夫决策过程。在实际应用场景中，可以给出预定约束条件max(I(h_t；s_t+1，r_t|b_t))，即在给定信念状态向量b_t的条件下，使得后见向量h_t、未来状态信息s_t+1以及奖励值r_t的互信息I最大化。与此同时，再给出约定条件I(h_t；b_t)＝0，即信念状态向量b_t和后见向量h_t之间的互信息为0。换言之，各智能体之间相互独立。基于此，可以证明在满足上述约束条件时，使用本申请实施例的方案获得的后见价值函数的梯度方差要小于原始状态价值函数/>的梯度方差。此外，还可以获得后见向量h_t和各智能体之间的互信息存在一个上界：I(h_t+i；a_t)≤H(s_t+i+1r_t+i|b_t+i)。通过最小化前述上界，使得互信息趋于零，能够实现梯度的无偏性。在本申请实施例中，通过将前述约束条件转化为相应的损失函数，以更新用于计算后见向量的后见向量网络，从而进一步确定梯度方差减小的后见价值函数/>

在一个实施例中，响应于满足预定约束条件，使用分布网络进行分布估计，以获得预定信念状态下后见向量的分布信息，接着根据分布信息构建第二损失函数，以基于第二损失函数更新后见向量网络。其中，前述分布网络也可以例如是全连接网络。作为示例，假设分布网络记为C，经由分布网络C可以获得给定信念状态向量b_t时后见向量h_t的分布，例如记为接着，获得预定信念状态下后见向量的分布信息I_vCLUB(b_t；h_t)，并且该分布信息I_vCLUB(b_t；h_t)可以通过如下式子表示：

在获得上述分布信息I_vCLUB(b_t；h_t)后，也即获得上述互信息的上界的估计，可以构建第二损失函数L_F(θ_f)，该第二损失函数L_F(θ_f)可以通过如下式子表示：

L_F(θ_f)＝I_υCLUB(b_t；h_t) (4)

在一个实施例中，还可以对分布网络进行更新，以获得更新后的分布网络，进而根据更新后的分布网络和第二损失函数更新后见向量网络。具体地，根据更新后的分布网络和第二损失函数更新后见向量网络对应的第三参数，并利用更新后的第三参数更新后见向量网络。例如，参见上述公式(4)所表示的第二损失函数，其中θ_f即为后见向量网络对应的第三参数。在一个实现场景中，首先利用更新后的分布网络计算给定信念状态向量b_t时后见向量h_t的分布以基于上述公式(3)确定预定信念状态下后见向量的分布信息I_vCLUB(b_t；h_t)。接着根据公式(4)的第二损失函数，利用例如梯度下降法更新后见向量网络对应的第三参数θ_f，进而利用更新后的第三参数θ_f更新后见向量网络F。

在一个实施例中，响应于满足预定约束条件，使用辅助网络辅助后见向量网络进行计算，以获得后见向量。类似地，该辅助网络也可以例如是全连接网络。具体地，可以使用辅助网络进行预测，以获得与各智能体的状态和奖励有关的预测向量，接着根据预测向量更新辅助网络，以辅助后见向量网络进行计算。更为具体地，根据预测向量、未来状态信息和奖励值构建第三损失函数，并基于根据更新后的分布网络和第三损失函数更新辅助网络。与上述网络类似，本申请实施例还可以根据更新后的分布网络和第三损失函数更新辅助网络对应的第四参数，以便利用更新后的第四参数更新辅助网络。

在一个示例性场景中，假设辅助网络记为P，可以通过将信念状态向量b_t和后见向量h_t输入至辅助网络记为P，输出与各智能体的状态和奖励有关的预测向量进一步地，根据预测向量/>未来状态信息s_t+1和奖励值r_t可以构建第三损失函数。在一个实现场景中，前述第三损失函数可以通过如下式子表示：

其中θ_p表示辅助网络P对应的第四参数。在该场景下，基于前述第三损失函数，可以通过例如梯度下降法来调整第四参数θ_p，以基于更新后的第四参数θ_p可以更新辅助网络P。基于此，通过利用上述更新的估计网络M、信念状态网络L、分布网络记为C、后见向量网络F以及辅助网络P，可以获得后见向量并进一步确定后见价值函数通过将后见价值函数/>作为多智能体强化学习中的新基线，以实现多智能体强化学习。

结合上述描述可知，本申请实施例通过结合各智能体与环境交互过程的历史交互数据、未来状态信息和奖励值，通过多个网络构建学习框架，并且将预定约束条件转化为相应的损失函数，以更新多个网络。进一步地，基于更新的多个网络计算后见向量，从而确定将后见价值函数，以代替原始状态价值函数，由此消除其他智能体的行为对累积奖励的影响。基于此，利用本申请实施例的方案，能够降低梯度估计的方差，提高采样效率和性能，并且确保梯度估计的近似无偏性。

需要注意的是，虽然上述分步描述各个网络的更新，但在应用场景中，可以同时对上述一个网络或者多个网络进行更新，本申请对此不作任何限制。此外，在一些实施例中，可以将各智能体与环境交互的历史交互数据、未来状态信息和奖励值存入缓存区中，以从缓存区中提取数据，通过不断迭代更新多个网络。

图2是示出根据本申请实施例的计算后见价值函数的示例性示意图。如图2中所示，首先可以基于各智能体与环境交互的历史交互数据中的历史状态信息s_t和历史执行动作a_t，利用信念状态网络(例如LSTM)计算信念状态向量(图中未示出)。即，将历史状态信息s_t和历史执行动作a_t输入LSTM网络中进行计算，以输出信念状态向量(例如图中箭头①所示)。如前所述，在信念状态网络计算信念状态向量时，可以利用估计网络M中进行估计，可以获得与各智能体的状态和奖励有关的估计向量以基于估计向量未来状态信息s_t+1和奖励值r_t可以构建第一损失函数(参见上述公式(2))。接着，根据第一损失函数更新估计网络M和信念状态网络L各自对应的第一参数θ_m和第二参数θ_b。

在获得信念状态向量后，基于信念状态向量、未来状态信息s_t+1和奖励值r_t，使用后见向量网络F(其对应的参数为θ_f)进行计算获得后见向量。也就是说，将信念状态向量、未来状态信息s_t+1和奖励值r_t输入后见向量网络(例如图中箭头②所示)中进行计算，以输出后见向量h_t(例如图中箭头③所示)。基于获得的后见向量h_t，可以经由分布网络C可以获得给定信念状态向量b_t时后见向量h_t的分布/>并获得预定信念状态下后见向量的分布信息I_vCLUB(b_t；h_t)(参见上述公式(3))。根据分布信息I_vCLUB(b_t；h_t)可以确定上述公式(4)所表示的第二损失函数，以根据该第二损失函数更新后见向量网络F对应的第三参数θ_f，进而利用更新后的第三参数θ_f更新后见向量网络F。

进一步地，本申请实施例还通过将信念状态向量b_t和后见向量h_t输入至辅助网络记为P，输出与各智能体的状态和奖励有关的预测向量根据预测向量/>未来状态信息s_t+1和奖励值r_t构建上述公式(5)所示的第三损失函数。基于前述第三损失函数，可以通过例如梯度下降法来调整第四参数θ_p，以基于更新后的第四参数θ_p可以更新辅助网络P。最后，根据更新的估计网络M、信念状态网络L、分布网络记为C、后见向量网络F以及辅助网络P，可以获得后见向量并进一步通过例如结果表示v_head确定后见价值函数例如图中所示的v_t。通过将后见价值函数作为多智能体强化学习中的新基线，以实现多智能体强化学习。

可以理解，图中下方所示的多个箭头A表示正向计算(或者说正向传播)，而上方所示的多个箭头B表示更新参数(或者说反向更新)。类似地，对于后续的状态信息s_t+1，...，s_T、执行动作a_t+1，...，a_T-1和奖励值r_t+1，...，r_T-1也分别对应执行前述操作，获得后见价值函数v_t+1，...，v_T-1，本申请在此不再赘述。

在一个实施例中，本申请实施例还提供用于多智能体强化学习的系统，其包括：数据获取单元、第一计算单元、第二计算单元和强化学习单元，例如图3所示。

图3是示出根据本申请实施例的用于多智能体强化学习的系统300的示例性结构框图。如图3中所示，该系统300包括数据获取单元301、第一计算单元302、第二计算单元303和强化学习单元304。在一个实施场景中，前述数据获取单元301用于获取各智能体与环境交互的历史交互数据、未来状态信息和奖励值。其中，前述历史交互数据可以至少包括各智能体的历史状态信息和历史执行动作等信息。在一些实施例中，前述历史状态信息、历史执行动作、未来状态信息和奖励值可以分别记为(s₀，...，s_t)、(a₀，...，a_t)、(s_t+1，...)和r_t，并且在获取后可以存储至缓存区。

在一个实施场景中，前述第一计算单元302可以用于根据历史交互数据计算反映各智能体与环境交互过程的信念状态向量。具体地，前述第一计算单元302可以进一步用于基于各智能体的历史状态信息和历史执行动作，使用信念状态网络进行计算，以获得反映各智能体与环境交互过程的信念状态向量。其中，前述信念状态网络可以例如是LSTM。具体地，前述第一计算单元302可以进一步用于基于信念状态向量，使用估计网络进行估计，以获得与各智能体的状态和奖励有关的估计向量，接着根据估计向量更新估计网络和信念状态网络。在一个实施场景中，前述估计网络可以例如是全连接网络。

在一个实施场景中，前述第二计算单元303用于响应于满足预定约束条件，基于信念状态向量、未来状态信息和奖励值计算后见向量，以确定与多智能体强化学习相关的后见价值函数。在一个实施例中，可以利用例如全连接网络计算获得后见向量。基于获得的后见向量，可以确定后见价值函数。

在一个实施场景中，强化学习单元304可以用于将后见价值函数作为多智能体强化学习中的新基线，以实现多智能体强化学习。也即，利用后见价值函数代替上述原始的状态价值函数以消除其他智能体的动作所带来的高方差问题，以实现多智能体强化学习。

在一个实施例中，本申请实施例的上述系统300还可以包括第一更新单元和第二更新单元，例如图4所示。

图4是示出根据本申请实施例的用于多智能体强化学习的系统300的又一示例性结构框图。如图4中所示，该系统300可以包括数据获取单元301、第一计算单元302、第二计算单元303和强化学习单元304以及第一更新单元401和第二更新单元402。其中，关于数据获取单元301、第一计算单元302、第二计算单元303和强化学习单元304的更多细节可以参考上述图3。

在一个实施场景中，前述第一更新单元401可以用于根据估计向量、未来状态信息和奖励值构建第一损失函数(例如上述公式(2))，进而基于第一损失函数更新估计网络和信念状态网络。具体地，前述第一更新单元401可以进一步基于第一损失函数更新估计网络和信念状态网络各自对应的第一参数和第二参数，并利用更新后的第一参数和第二参数分别更新估计网络和信念状态网络。

在一个实施场景中，前述第二更新单元402可以用于响应于满足预定约束条件，使用分布网络进行分布估计，以获得预定信念状态下后见向量的分布信息，接着根据分布信息构建第二损失函数(例如上述公式(4))，以基于第二损失函数更新后见向量网络。其中，前述分布网络也可以例如是全连接网络。进一步地，前述第二更新单元402可以用于对分布网络进行更新，以获得更新后的分布网络，进而根据更新后的分布网络和第二损失函数更新后见向量网络。具体地，根据更新后的分布网络和第二损失函数更新后见向量网络对应的第三参数，并利用更新后的第三参数更新后见向量网络。

在一些实施例中，第二更新单元402还可以用于响应于满足预定约束条件，使用辅助网络辅助后见向量网络进行计算，以获得后见向量。例如，使用辅助网络进行预测，以获得与各智能体的状态和奖励有关的预测向量，接着根据预测向量更新辅助网络，以辅助后见向量网络进行计算。更为具体地，第二更新单元402可以用于根据预测向量、未来状态信息和奖励值构建第三损失函数(例如上述公式(5))，并基于根据更新后的分布网络和第三损失函数更新辅助网络。

可以理解，前述各个单元实现的具体操作与前述方法相对应，由此关于各个单元实现具体操作的更多细节可以参考上述图1和图2，本申请在此不再赘述。

图5是根据本申请实施例的用于多智能体强化学习的设备500的示例性结构框图。

如图5中所示，本申请的设备500可以包括处理器501和存储器502，其中处理器501和存储器502之间通过总线进行通信。存储器502存储有用于多智能体强化学习的程序指令，当所述程序指令由所述处理器501执行时，使得实现根据前文结合附图描述的方法步骤：获取各智能体与环境交互的未来状态信息、未来交互数据和奖励值；根据所述历史交互数据计算反映所述各智能体与环境交互过程的信念状态向量；响应于满足预定约束条件，基于所述信念状态向量、所述未来状态信息和所述奖励值计算后见向量，以确定与多智能体强化学习相关的后见价值函数；以及将所述后见价值函数作为多智能体强化学习中的新基线，以实现多智能体强化学习。

根据上述结合附图的描述，本领域技术人员也可以理解本申请的实施例还可以通过软件程序来实现。由此本申请还提供了一种计算机可读存储介质。该计算机可读存储介质其上存储有用于多智能体强化学习的计算机可读指令，该计算机可读指令被一个或多个处理器执行时，实现本申请结合附图1所描述的用于多智能体强化学习的方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应当注意，尽管在附图中以特定顺序描述了本申请方法的操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

应当理解，当本申请的权利要求、当说明书及附图中使用到术语“第一”、“第二”、“第三”和“第四”等时，其仅用于区别不同对象，而不是用于描述特定顺序。本申请的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本申请。如在本申请说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本申请说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

虽然本申请的实施方式如上，但所述内容只是为便于理解本申请而采用的实施例，并非用以限定本申请的范围和应用场景。任何本申请所述技术领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种用于多智能体强化学习的方法，包括：

获取各智能体与环境交互的历史交互数据、未来状态信息和奖励值；

根据所述历史交互数据计算反映所述各智能体与环境交互过程的信念状态向量；

响应于满足预定约束条件，基于所述信念状态向量、所述未来状态信息和所述奖励值计算后见向量，以确定与多智能体强化学习相关的后见价值函数；以及

将所述后见价值函数作为多智能体强化学习中的新基线，以实现多智能体强化学习，

其中所述预定约束条件为在给定信念状态向量的条件下，使得所述后见向量、所述未来状态信息和所述奖励值之间的互信息最大化，并且所述信念状态向量和所述后见向量之间的互信息为0。

2.根据权利要求1所述的方法，其中所述历史交互数据包括所述各智能体的历史状态信息和历史执行动作，并且根据所述历史交互数据计算反映所述各智能体与环境交互过程的信念状态向量包括：

基于所述各智能体的历史状态信息和历史执行动作，使用信念状态网络进行计算，以获得反映所述各智能体与环境交互过程的信念状态向量。

3.根据权利要求2所述的方法，还包括：

基于所述信念状态向量，使用估计网络进行估计，以获得与所述各智能体的状态和奖励有关的估计向量；以及

根据所述估计向量更新所述估计网络和所述信念状态网络。

4.根据权利要求3所述的方法，其中根据所述估计向量更新所述估计网络和所述信念状态网络包括：

根据所述估计向量、所述未来状态信息和所述奖励值构建第一损失函数；以及

基于所述第一损失函数更新所述估计网络和所述信念状态网络。

5.根据权利要求4所述的方法，其中基于所述第一损失函数更新所述估计网络和所述信念状态网络包括：

基于所述第一损失函数更新所述估计网络和所述信念状态网络各自对应的第一参数和第二参数；以及

利用更新后的第一参数和第二参数分别更新所述估计网络和所述信念状态网络。

6.根据权利要求3所述的方法，其中响应于满足预定约束条件，基于所述信念状态向量、所述未来状态信息和所述奖励值计算后见向量包括：

响应于满足预定约束条件，基于所述信念状态向量、所述未来状态信息和所述奖励值，使用后见向量网络进行计算获得所述后见向量。

7.根据权利要求6所述的方法，还包括：

响应于满足所述预定约束条件，使用分布网络进行分布估计，以获得预定信念状态下后见向量的分布信息；

根据所述分布信息构建第二损失函数；以及

基于所述第二损失函数更新所述后见向量网络。

8.根据权利要求7所述的方法，还包括：

对所述分布网络进行更新，以获得更新后的分布网络；以及

根据所述更新后的分布网络和所述第二损失函数更新所述后见向量网络。

9.根据权利要求7所述的方法，其中根据所述更新后的分布网络和所述第二损失函数更新所述后见向量网络包括：

根据所述更新后的分布网络和所述第二损失函数更新所述后见向量网络对应的第三参数；以及

利用更新后的第三参数更新所述后见向量网络。

10.根据权利要求8所述的方法，还包括：

响应于满足所述预定约束条件，使用辅助网络辅助所述后见向量网络进行计算，以获得所述后见向量。

11.根据权利要求10所述的方法，其中使用辅助网络辅助所述后见向量网络进行计算包括：

响应于满足所述预定约束条件，使用辅助网络进行预测，以获得与所述各智能体的状态和奖励有关的预测向量；以及

根据所述预测向量更新所述辅助网络，以辅助所述后见向量网络进行计算。

12.根据权利要求11所述的方法，其中根据所述预测向量更新所述辅助网络包括：

根据所述预测向量、所述未来状态信息和所述奖励值构建第三损失函数；以及

基于根据所述更新后的分布网络和所述第三损失函数更新所述辅助网络。

13.根据权利要求12所述的方法，其中基于根据更新后的分布网络和所述第三损失函数更新所述辅助网络包括：

根据所述更新后的分布网络和所述第三损失函数更新所述辅助网络对应的第四参数；以及

利用更新后的第四参数更新所述辅助网络。

14.根据权利要求13所述的方法，其中所述信念状态网络包括长短期记忆网络，所述估计网络、所述分布网络、所述辅助网络和所述后见向量网络均包括全连接网络。

15.一种用于多智能体强化学习的系统，包括：

数据获取单元，其用于获取各智能体与环境交互的历史交互数据、未来状态信息和奖励值；

第一计算单元，其用于根据所述历史交互数据计算反映所述各智能体与环境交互过程的信念状态向量；

第二计算单元，其用于响应于满足预定约束条件，基于所述信念状态向量、所述未来状态信息和所述奖励值计算后见向量，以确定与多智能体强化学习相关的后见价值函数；以及

强化学习单元，其用于将所述后见价值函数作为多智能体强化学习中的新基线，以实现多智能体强化学习，

16.根据权利要求15所述的系统，其中所述历史交互数据包括所述各智能体的历史状态信息和历史执行动作，并且在根据所述历史交互数据计算反映所述各智能体与环境交互过程的信念状态向量中，所述第一计算单元进一步用于：

17.根据权利要求16所述的系统，还包括第一更新单元，所述第一更新单元用于：

根据所述估计向量更新所述估计网络和所述信念状态网络。

18.根据权利要求17所述的系统，其中在根据所述估计向量更新所述估计网络和所述信念状态网络中，所述第一更新单元进一步用于：

19.根据权利要求18所述的系统，其中在基于所述第一损失函数更新所述估计网络和所述信念状态网络中，所述第一更新单元进一步用于：

20.根据权利要求17所述的系统，其中在响应于满足预定约束条件，基于所述信念状态向量、所述未来状态信息和所述奖励值计算后见向量中，所述第二计算单元进一步用于：

21.根据权利要求20所述的系统，还包括第二更新单元，所述第二更新单元用于：

响应于满足所述预定约束条件，使用分布网络进行分布估计，以获得预定信念状态下后见向量的分布信息；以及

根据所述分布信息构建第二损失函数；以及

基于所述第二损失函数更新所述后见向量网络。

22.根据权利要求21所述的系统，所述第二更新单元进一步用于：

对所述分布网络进行更新，以获得更新后的分布网络；以及

23.根据权利要求21所述的系统，其中在根据所述更新后的分布网络和所述第二损失函数更新所述后见向量网络中，所述第二更新单元进一步用于：

利用更新后的第三参数更新所述后见向量网络。

24.根据权利要求22所述的系统，还包括辅助单元，所述辅助单元用于：

25.根据权利要求24所述的系统，其中在使用辅助网络辅助所述后见向量网络进行计算中，所述辅助单元进一步用于：

26.根据权利要求25所述的系统，其中在根据所述预测向量更新所述辅助网络中，所述辅助单元进一步用于：

27.根据权利要求26所述的系统，其中在基于根据所述更新后的分布网络和所述第三损失函数更新所述辅助网络中，所述辅助单元进一步用于：

利用更新后的第四参数更新所述辅助网络。

28.根据权利要求27所述的系统，其中所述信念状态网络包括长短期记忆网络，所述估计网络、所述分布网络、所述辅助网络和所述后见向量网络均包括全连接网络。

29.一种用于多智能体强化学习的设备，包括：

处理器；以及

存储器，其中存储有用于多智能体强化学习的程序指令，当所述程序指令由所述处理器执行时，使得所述设备实现根据权利要求1-14任意一项所述的方法。

30.一种计算机可读存储介质，其上存储有用于多智能体强化学习的计算机可读指令，该计算机可读指令被一个或多个处理器执行时，实现如权利要求1-14任意一项所述的方法。