CN113128705B

CN113128705B - 一种智能体最优策略获取方法及装置

Info

Publication number: CN113128705B
Application number: CN202110314960.5A
Authority: CN
Inventors: 徐诚; 殷楠; 段世红; 何昊
Original assignee: Shunde Graduate School of USTB
Current assignee: Shunde Graduate School of USTB
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2024-02-09
Anticipated expiration: 2041-03-24
Also published as: CN113128705A

Abstract

本发明公开了一种智能体最优策略获取方法及装置，该方法包括：将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和，构建系统模型；利用卡尔曼滤波算法，从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体对应的局部奖励；根据各智能体对应的局部奖励，通过预设的强化学习算法，对多智能系统中的各智能体进行训练，使得每一智能体分别学习到当前环境下的最优策略。本发明解决了不平稳环境下的多智能体系统信用分配问题，能提高多智能体系统在完成协作任务过程中计算的高效性和鲁棒性。

Description

一种智能体最优策略获取方法及装置

技术领域

本发明涉及多智能体强化学习技术领域，特别涉及一种智能体最优策略获取方法及装置。

背景技术

随着强化学习在工业、通信等领域的广泛应用，依据现实任务的需求，多个智能体在合作或竞争的环境中如何高效交互成为重点讨论的问题。在部分可观测环境下，相比单智能体，引入多智能体使得状态空间的马尔可夫性失效，即环境不平稳。这是由于智能体不具备全局观测的能力，从而无法获取其他智能体对环境做出的改变，得不到真实的环境状态。

当使用同样的全局奖励信号来训练多个智能体时，尤其是在合作任务情况下，要明确单个智能体对团队做出的贡献，降低环境不平稳性对智能体学习的影响，即需要解决多智能体系统中的信用分配问题。对于多智能体系统的单个智能体学习环境下的最优策略，使用个人奖励而非全局奖励训练则会更加有效。

针对上述需求，现有技术多从博弈论和广义马尔可夫决策过程MDP角度出发，假设我们对于所处环境模式有足够的领域知识，从而证实了这些方法在降低环境不平稳对智能体学习的影响是可行的。然而当环境中其他智能体的行为产生变化，或者智能体无法观察到的全部的环境变化时，这些技术则会失效。除此之外，也有将滤波方法应用于强化学习框架。证实了在简单的网格环境下，滤波与基于值函数的强化学习方法结合，对提高智能体学习效率是有效的。

综上所述，现有的多智能体信用分配强化学习方法难以满足复杂的部分可观测环境下的智能体协作需求，解决效率较低且应用能力较差。

发明内容

本发明提供了一种智能体最优策略获取方法及装置，以解决现有的多智能体信用分配强化学习方法难以满足复杂的部分可观测环境下的智能体协作需求，解决效率较低且应用能力较差的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种智能体最优策略获取方法，适用于多智能体系统，所述智能体最优策略获取方法包括：

将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和，构建系统模型；

基于构建的系统模型，利用卡尔曼滤波算法从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体对应的局部奖励；

根据各智能体所对应的局部奖励，通过预设的强化学习算法，对多智能系统中的各智能体进行训练，使得每一智能体分别学习到当前环境下的最优策略。

进一步地，所述将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和，构建系统模型，包括：

将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和，表达式如下：

g_t＝r(i)_t+b_t

其中，g_t表示t时刻的全局奖励，r(i)_t表示t时刻智能体在状态i下获得的真实奖励，b_t表示t时刻的噪声，而且，b_t+1＝b_t+z_t，z_t为服从均值为μ，方差为/>的t时刻的高斯随机变量；

系统模型的表达式如下：

其中，x_t表示t时刻的状态向量；

其中，s表示状态数量；

ω_t表示服从0均值高斯分布的系统噪声且协方差矩阵∑₁如下：

其中，表示系统噪声的协方差；

v_t表示观测误差，属于高斯白噪声，假设无观测误差，∑₂＝0；A表示状态转移矩阵为，A＝I，C表示观测矩阵，C＝(0 … 0 1_i 0 … 0 1)_1×(s+1)，若处于状态i，则C的第i个元素和最后一个元素值为1，其余为0。

进一步地，所述基于构建的系统模型，利用卡尔曼滤波算法从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体对应的局部奖励，包括：

将所述系统模型转换为如下表示：

其中，ε_t为零均值高斯白噪声，∑₂＝0；

估计由环境的不平稳性引起的噪声的协方差σ²的值；

根据估计的σ²的值，基于转换后的系统模型，利用卡尔曼滤波算法从观测到的智能体在与环境交互过程中接收的全局奖励中获得智能体对应的局部奖励。

进一步地，所述估计由环境的不平稳性引起的噪声的协方差σ²的值，包括：

初始化μ₀＝0，t＝0；

使用连续的μ₀，运行卡尔曼滤波，迭代n次，记录x_t+1(s+1)，x_t+2(s+1)，…，x_t+n(s+1)；其中，n＞200；

估计噪声的均值和方差：

其中，μ_t表示t时刻噪声的均值，表示t时刻噪声的方差。

进一步地，所述预设的强化学习算法为MADDPG算法。

另一方面，本发明还提供了一种智能体最优策略获取装置，适用于多智能体系统，所述智能体最优策略获取装置包括：

系统模型构建模块，用于将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和，构建系统模型：

卡尔曼滤波模块，用于基于所述系统模型构建模块所构建的系统模型，利用卡尔曼滤波算法从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体对应的局部奖励；

强化学习训练模块，用于根据所述卡尔曼滤波模块计算出的各智能体所对应的局部奖励，通过预设的强化学习算法，对多智能系统中的各智能体进行训练，使得每一智能体分别学习到当前环境下的最优策略。

进一步地，所述系统模型构建模块具体用于：

g_t＝r(i)_t+b_t

系统模型的表达式如下：

其中，x_t表示t时刻的状态向量；

其中，s表示状态数量；

其中，表示系统噪声的协方差；

进一步地，所述卡尔曼滤波模块具体用于：

将所述系统模型转换为如下表示：

其中，ε_t为零均值高斯白噪声，∑₂＝0；

估计由环境的不平稳性引起的噪声的协方差σ²的值；

进一步地，所述卡尔曼滤波模块具体还用于：

初始化μ₀＝0，t＝0；

估计噪声的均值和方差：

其中，μ_t表示t时刻噪声的均值，表示t时刻噪声的方差。

进一步地，所述强化学习训练模块所使用的强化学习算法为MADDPG算法。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明提出了部分可观测环境下的多智能体系统全局奖励信号的设定方法，并建立了全局奖励与个人贡献和环境噪声的关系；使用卡尔曼滤波方法从带噪声的全局奖励中获取智能体真实的训练回报，使其学习到不同场景下的最优策略。从而实现了部分可观测环境下多智能体执行协作任务过程中的信用分配；适用于部分可观测环境下，降低不平稳环境的影响，使多智能体高效学习在不同环境下完成任务的最优策略；解决了不平稳环境下的多智能体系统信用分配问题，可提高多智能体系统在完成协作任务过程中计算的高效性和鲁棒性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的智能体最优策略获取方法的流程示意图；

图2为本发明实施例提供的引入滤波的MADDPG算法框架示意图；

图3为本发明实施例提供的智能体最优策略获取方法的具体流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

本实施例提供了一种智能体最优策略获取方法，适用于多智能体系统，可用于解决复杂部分可观测环境下的多智能体协作，针对环境不平稳而出现的智能体信用分配问题。解决实际场景下，未知复杂环境的目标定位和路径导航问题，适用于火场救援的受伤人员位置定位、矿场环境中机器人协作勘探路线导航等领域。该方法可由电子设备实现，该电子设备可以是终端或者服务器。

本实施例的方法结合环境的非平稳性和部分可观测性对多智能体系统的影响，建立起具有普遍意义的全局奖励和智能体自身贡献的联系。最终在多智能体训练过程中，使用基于卡尔曼滤波的信用分配方法，从观测到的带噪声的全局奖励中获得智能体局部奖励，用于单个智能体学习最优策略。

具体地，本实施例所提供的方法的执行流程如图1所示，包括以下步骤：

S101，将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和，构建系统模型；

S102，基于构建的系统模型，利用卡尔曼滤波算法从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体的局部奖励；

S103，根据各智能体的局部奖励，通过预设的强化学习算法，对多智能系统中的各智能体进行训练，使得每一智能体分别学习到当前环境下的最优策略。

进一步地，需要说明的是，在合作任务情况下，要明确单个智能体对团队做出的贡献，对于系统中的单个智能体学习环境下的最优策略，使用个人奖励而非全局奖励训练则会更加有效。环境的非平稳性、部分可观测性和全局奖励的影响可以认为是用原始奖励设置的非平稳函数替代真实奖励值。对于一个智能体来说，环境中存在一个或多个不可观测的状态变量都会影响到全局奖励信号，而其他智能体的存在或者环境变化都属于不可观测的状态，故将这些不可观测的状态变量对于全局奖励信号的影响当作环境噪声来处理。基于此，本实施例将单一智能体观察到的全局奖励建模为其自身贡献(即个人奖励信号)和随机马尔可夫过程(即由其他智能体或外部因素引起的奖励信号)的总和，如果智能体在时间t处于状态i，并且它接收到全局奖励为g_t，那么它可以表示为：

g_t＝r(i)_t+b_t

其中，g_t表示t时刻的全局奖励，r(i)_t表示t时刻智能体在状态i下获得的真实奖励，b_t表示t时刻的噪声，代表不可观测的环境状态对全局奖励的影响，

而且：

b_t+1＝b_t+z_t，

其中，z_t为服从均值为μ，方差为的高斯随机变量；

基于上述，系统模型可以表示为：

其中，x_t表示t时刻的状态向量；

其中，s表示状态数量；

其中，表示系统噪声的协方差；

卡尔曼滤波是一种利用线性系统状态方程，通过输入观测数据，对系统状态进行最优估计的算法。卡尔曼滤波的优势在于它只需要部分数据，而非全部的历史状态和观测值。而且，能够在每次更新期间计算得到足够的统计数据。所以在训练过程中，可以在线运行该算法，且速度不会随着时间的推移而恶化。

标准卡尔曼滤波算法基于具有零均值高斯白噪声的系统模型。为了使用标准卡尔曼滤波算法，将上面的系统模型转换为如下表示：

其中，ε_t为零均值高斯白噪声，∑₂＝0；

进一步地，在利用卡尔曼滤波算法从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体的局部奖励之前，必须猜测由环境的不平稳性引起的噪声的协方差σ²的值。然而，在一个真正的多智能体系统中，获取这个协方差值是不实际的。因为在上面给出的系统模型中噪声不为零，故本实施例采用如下的噪声在线估计方法，具体实现过程如下：

步骤1：初始化μ₀＝0，t＝0。

步骤2：使用连续的μ₀，运行卡尔曼滤波，迭代n次(n＞200)，记录x_t+1(s+1)，x_t+2(s+1)，…，x_t+n(s+1)。

步骤3：开始循环

①估计噪声的均值和方差：

②使用μ_t和运行基于滤波的信用分配算法，记录x_t+n+1(s+1)的值。

③t←t+1

结束循环。

其中，μ_t表示t时刻噪声的均值，表示t时刻噪声的方差。

通过上述过程，即可根据估计的σ²的值，基于转换后的系统模型，利用卡尔曼滤波算法从观测到的全局奖励中获得单一智能体对应的局部奖励。

进一步地，本实施例所采用的强化学习算法为MADDPG算法，本实施例通过在MADDPG算法中引入基于卡尔曼滤波的信用分配实现智能体训练，其框架如图2所示。在MADDPG框架的基础上引入滤波，即将智能体接收到的全局奖励信号滤除不稳定环境因素影响后得到智能体局部奖励信号，并将得到的奖励值用于对应的智能体训练，从而降低环境不平稳对智能体学习过程的影响。

结合上述状态模型和步骤，本实施例的智能体最优策略获取方法的执行过程如图3所示，其包括如下步骤：

步骤1：初始化强化学习环境、智能体网络参数和卡尔曼滤波参数。

步骤2：循环迭代

①在当前的状态i下，基于强化学习算法选择动作a并执行，到达新的状态k，得到全局奖励g_t。

②对状态进行预测，更新估计值和协方差矩阵/>

③使用得到的全局奖励g_t更新状态后验估计值，校正模型。

④根据x_t(i)获得局部奖励r(i)，将探索得到的<s_i，a_i，r_i，s′_i>存入经验回放池。

⑤重新估计噪声过程的均值μ和方差σ²，更新u和∑₁。

⑥对于每一个智能体a，a∈(1，N)从Replay buffer中随机采样数据用于更新对应智能体的actor网络和critic网络。

⑦t←t+1，i←k

停止迭代。

综上，本实施例提出了部分可观测环境下的多智能体系统全局奖励信号的设定方法并建立了全局奖励与个人贡献和环境噪声的关系；使用卡尔曼滤波方法从带噪声的全局奖励中获取智能体真实的训练回报，使其学习到不同场景下的最优策略。实现了部分可观测环境下多智能体执行协作任务过程中的信用分配；适用于部分可观测环境下，降低不平稳环境的影响，使多智能体高效学习在不同环境下完成任务的最优策略；解决了不平稳环境下的多智能体系统信用分配问题，可提高多智能体系统在完成协作任务过程中计算的高效性和鲁棒性。

第二实施例

本实施例提供了一种智能体最优策略获取装置，该装置包括以下模块：

系统模型构建模块，用于将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和，构建系统模型；

本实施例的智能体最优策略获取装置与上述第一实施例的智能体最优策略获取方法相对应；其中，本装置中的各功能模块所实现的功能与上述第一实施例的智能体最优策略获取方法中的各流程步骤一一对应；故，在此不再赘述。

第三实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第四实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种智能体最优策略获取方法，适用于多智能系统，其特征在于，包括：

根据各智能体所对应的局部奖励，通过预设的强化学习算法，对多智能系统中的各智能体进行训练，使得每一智能体分别学习到当前环境下的最优策略；

所述将智能体在与环境交互过程中接收的全局奖励建模为单一智能体真实的局部奖励和不可观测环境状态引起的随机噪声信号之和，构建系统模型，包括：

g_t＝r(i)_t+b_t

其中，g_t表示t时刻的全局奖励，r(i)_t表示t时刻智能体在状态i下获得的真实奖励，b_t表示t时刻的噪声，而且，b_t+1＝b_t+z_t,z_t为服从均值为μ，方差为/>的t时刻的高斯随机变量；

系统模型的表达式如下：

其中，x_t表示t时刻的状态向量；

其中，s表示状态数量；

其中，表示系统噪声的协方差；

v_t表示观测误差，属于高斯白噪声，假设无观测误差，∑₂＝0；A表示状态转移矩阵为，A＝I，C表示观测矩阵，C＝(0 … 0 1_i 0 … 0 1)_1×(s+1)，若处于状态i，则C的第i个元素和最后一个元素值为1，其余为0；

所述基于构建的系统模型，利用卡尔曼滤波算法从观测到的多智能体系统中智能体在与环境交互过程中接收的全局奖励中获得当前智能体对应的局部奖励，包括：

将所述系统模型转换为如下表示：

其中，ε_t为零均值高斯白噪声，∑₂＝0；

估计由环境的不平稳性引起的噪声的协方差σ²的值；

根据估计的σ²的值，基于转换后的系统模型，利用卡尔曼滤波算法从观测到的智能体在与环境交互过程中接收的全局奖励中获得智能体对应的局部奖励；

所述估计由环境的不平稳性引起的噪声的协方差σ²的值，包括：

初始化μ₀＝0，t＝0；

使用连续的μ₀，运行卡尔曼滤波，迭代n次，记录x_t+1(s+1)，x_t+2(s+1)，...，x_t+n(s+1)；其中，n>200；

估计噪声的均值和方差：

其中，μ_t表示t时刻噪声的均值，表示t时刻噪声的方差。

2.如权利要求1所述的智能体最优策略获取方法，其特征在于，所述预设的强化学习算法为MADDPG算法。

3.一种智能体最优策略获取装置，适用于多智能系统，其特征在于，包括：

强化学习训练模块，用于根据所述卡尔曼滤波模块计算出的各智能体所对应的局部奖励，通过预设的强化学习算法，对多智能系统中的各智能体进行训练，使得每一智能体分别学习到当前环境下的最优策略；

所述系统模型构建模块具体用于：

g_t＝r(i)_t+b_t

系统模型的表达式如下：

其中，x_t表示t时刻的状态向量；

其中，s表示状态数量；

其中，表示系统噪声的协方差；

所述卡尔曼滤波模块具体用于：

将所述系统模型转换为如下表示：

其中，ε_t为零均值高斯白噪声，∑₂＝0；

估计由环境的不平稳性引起的噪声的协方差σ²的值；

所述卡尔曼滤波模块具体还用于：

初始化μ₀＝0，t＝0；

估计噪声的均值和方差：

其中，μ_t表示t时刻噪声的均值，表示t时刻噪声的方差。

4.如权利要求3所述的智能体最优策略获取装置，其特征在于，所述强化学习训练模块所使用的强化学习算法为MADDPG算法。