CN112084721A

CN112084721A - 一种多代理强化学习合作任务下的奖励函数建模方法

Info

Publication number: CN112084721A
Application number: CN202011009883.4A
Authority: CN
Inventors: 谭哲越; 尹建伟; 尚永衡; 张鹿鸣; 李莹; 邓水光
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-15

Abstract

本发明公开了一种多代理强化学习合作任务下的奖励函数建模方法，包括：每个代理独立观测环境状态，输入各自的策略网络，得到各自的动作决策；在模拟环境执行各代理的动作，得到每个代理各自的奖励；将各代理之间的交互建模为一张无向图，使用此图计算出每个代理的奖励的加权总和；使用加权后的奖励训练代理的策略网络。该方法能够对多个代理与环境交互后的结果进行整合，同时建模出的无向图能够起到可信度赋值的效果，给训练算法提供更加精准的奖励描述，帮助多代理系统在合作任务上学习到更好的策略。

Description

一种多代理强化学习合作任务下的奖励函数建模方法

技术领域

本发明属于人工智能自动化领域，特别地涉及一种多代理强化学习合作任务下的奖励函数建模方法。

背景技术

现代人工智能自动化领域使用强化学习来训练代理执行任务是一个常见的解决方案，其中，许多场景依赖多个代理进行合作来达成共同的目标。在多代理合作体系中，可以用各代理的局部奖励作为各代理的学习信号，也可以使用特定的全局奖励来衡量估计全局的价值函数，为各代理的策略网络或价值网络提供训练用的梯度。

使用各代理的局部奖励在工程上的实现较为简单，一些场景下可以认为等价于独立训练各代理。通常来说，各代理使用独立的信号进行训练时难以对其他的代理的策略和意向进行估计，在训练过程中可能导致模拟执行任务时产生大量冲突；冲突的交互作为负样本，大量的负样本会导致网络难以训练。使用全局奖励作为训练信号的情况下，目前主流的方法为将各代理的局部奖励进行求和作为全局奖励估计。这种方法工程上的实现也较为简单，然而会导致失去代理之间的交互距离的信息描述，此全局奖励估计在一些场景下方差较大，可能导致最终训练得到的策略不是最优策略。

发明内容

为解决上述问题，本发明的目的在于提供一种多代理强化学习合作任务下的奖励函数建模方法，其通过设置观测范围来对各代理之间的交互建模出一张无向图，并使用此图计算全局奖励的估计，作为训练价值网络或策略网络的训练信号；同时，此图也能对可信度赋值的问题进行一个描述，为全局奖励的估计提供相关信息。

为实现上述目的，本发明的解决方案为：

一种多代理强化学习合作任务下的奖励函数建模方法，包括：

过设置观测范围来对各代理之间的交互建模出一张无向图，并使用此图计算全局奖励的估计，作为训练价值网络或策略网络的训练信号。

具体的执行过程为：

每个代理独立观测环境状态，输入各自的价值网络，得到各候选动作的价值估计，选择拥有最大价值估计的动作作为当前动作决策；在模拟环境执行各代理的动作，得到每个代理各自的局部环境反馈奖励，按代理编号分别记做r₁,…,r_i,…,r_N，其中下标为各代理标号。

构造无向图G(V,E)，结点集合V：＝{v₁,…,v_N}，其中v_i为代理i对应的结点；同时图的边集E此时为空集。

设置观测范围D，遍历每个代理，根据当前的代理间距离，与所有距离小于D的代理之间添加一条边。其中，若代理的观测范围内没有其他代理，则表示其他代理对此代理的影响较小，在图中为独立的连通组件。在此过程结束后，对于边集E中的每一条边(v_i,v_j)，其两端对应的代理的距离小于D。

使用所述图G计算每个代理的全局奖励估计，具体过程为：对于每一个代理对应的节点v_i，按距离加权汇总其他连通结点的局部奖励，得到此代理的全局奖励估计：

其中，r_i为此代理自身的局部奖励，G_i为图G中节点i所属的连通组件，d_i,j为结点i到结点j的距离(跳数)。

对所述各代理的全局奖励估计进行加权求和，得到用于训练的全局奖励估计：

其中，N为结点总数。

使用所述计算过程得到的全局奖励估计作为训练用奖励信号，对价值网络或策略网络进行训练。

与现有技术相比，本发明具有的有益效果为：提供一种多代理强化学习合作任务下的奖励函数建模方法，估计多代理环境下的全局奖励，用于提供训练信号。其中，估计出的训练信号能够显著提升对应任务的性能表现。

附图说明

图1是各代理的观测范围(虚线框)和按规则构造出的图G。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

多代理进行合作任务的场景中，容易将所有代理的位置映射到一个二维的平面上去，接下来以此为例进行具体实施的说明。如图1所示，本例的场景如下：(1)5个代理，散布在二维平面上，每个代理之间的相对距离可以用欧式距离来衡量；(2)虚线框表示代理的观测范围，图1所示的三个虚线框分别为代理2、代理3和代理5的观测范围；(3)本例将得到的全局奖励估计作为多代理DQN算法奖励信号进行学习

根据当前代理的相对位置和接收到的局部奖励估计全局奖励并进行训练的流程具体为：

1、根据当前观测状态计算奖励结构图G的流程具体为：

a)构造无向图G(V,E)，其中，结点集合V：＝{v₁,…,v_N}，v_i为代理i对应的结点；图的边集E此时为空集。

b)设置观测范围D，遍历每一个结点v_i：

i.如果v_i的观测范围内有其他结点，如v_j，则往边集E里面添加一条边(v_i,v_j)；

ii.如果没有其他结点，则终止流程。

c)所述添加边的过程结束后，对于边集E中的每一条边(v_i,v_j)，其两端对应的代理的距离小于D。

2、使用所述构造流程得到的图G来计算全局奖励估计的流程具体为：

a)对于每一个代理对应的结点v_i和它所属的连通组件G_i，按距离加权汇总其他连通结点的局部奖励，得到此代理的全局奖励估计r′_i：

其中，r_i为此代理的自身局部奖励，d_i,j为结点i到结点j的距离 (跳数)。

b)对所述各代理的全局奖励估计进行加权求和，得到用于训练的全局奖励估计：

3、使用所述流程得到的全局奖励估计和多代理DQN算法进行训练的流程具体为：

a)对于全局价值函数，其时序差分的目标值为：

b)全局价值函数的损失函数为：

c)对于每个独立的代理，其优势函数为：

A_i(s_i,a_i)＝Q(s,a)-V_i(s_i)

其中，Q(s,a)为全局价值函数，A_i(s_i,a_i)和V_i(s_i)分别为每个代理自己维护的优势函数和状态价值函数。

d)使用所述得到的价值函数进行学习，计算每个代理自己的策略。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的一个实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种多代理强化学习合作任务下的奖励函数建模方法，其特征在于，包括：

每个代理独立观测环境状态，输入各自的价值网络，得到各候选动作的价值估计，选择拥有最大价值估计的动作作为当前动作决策；

在模拟环境执行各代理的动作，得到每个代理各自的环境反馈奖励；

将各代理之间的交互建模为一张无向图，作为全局奖励信息的特征描述；

使用此图计算分别对每个代理计算全局奖励估计值；对每个代理各自的估计值进行加权求和计算全局奖励；

使用计算得到的全局奖励计算价值函数的目标值，计算时序差分误差，为训练各代理的价值网络提供梯度信息；

其中，建模出的无向图能够对多个代理与环境交互后的结果进行整合，同时能够起到对各代理进行可信度赋值的效果，给训练算法提供更加精准的奖励描述。

2.如权利要求1所述的方法，其特征在于，

所述的无向图是通过设置各代理为图中节点，以各代理之间的距离作为边的权重进行构造；同时，设置超参数对代理观测的最大距离加以限制，仅在指定范围内的其他代理才会和当前代理添加有权边；根据具体场景和问题，设置此超参数等价于忽略范围外的代理的影响，从而减轻具体实施时的计算压力。

3.如权利要求1所述方法，其特征在于，

所述的全局奖励计算具体为：以各代理为中心，对其他代理计算对应的奖励权重，以跳数为度量指标，距离越远的代理权重越小，使用所计算得到的权重对其他代理的环境反馈进行加权求和，得到当前代理的全局奖励估计；对所有代理的全局奖励估计进行加权求和，作为训练用全局奖励估计。