CN115130376A

CN115130376A - 一种基于行列式多样性引导的群体强化学习训练方法

Info

Publication number: CN115130376A
Application number: CN202210702974.9A
Authority: CN
Inventors: 蒋竟成; 杨鑫; 魏小鹏; 朴海音
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-09-30

Abstract

本发明属于人工智能技术领域，提出了一种基于行列式多样性引导的群体强化学习训练方法，包括计算成对随机策略的确定性相似性估计核矩阵，适用于覆盖了离散和连续动作空间情况的基于随机策略梯度的算法，并且确定性相似性估计可到多步设置，该核矩阵构成的行列式从高维空间中衡量群体的多样性。基于行列式的强化学习群体训练，通过多臂老虎机算法选择温度系数，优化代替行列式目标来调节群体的多样性或相似性，提高群体性能。本发明所提出的基于梯度的行列式，可以通过自动微分更新策略网络权重。本发明所提出的代替行列式来自对原始矩阵进行平滑操作的正定矩阵，使得Cholesky分解存在，解决了原矩阵行列式与具有利用机制群体训练的冲突问题。

Description

一种基于行列式多样性引导的群体强化学习训练方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于行列式多样性引导的群体强化学习训练方法。

背景技术

强化学习的本质是对已知策略的利用和对未知环境的探索。利用是指智能体在与环境交互中改进策略，探索是指智能体动作是从随机条件分布中采样。在复杂的强化学习环境中，智能体需要具有逃离局部最优策略或过拟合的探索能力。

(1)基于群体的训练

Jaderberg等人提出的基于群体的训练(Population Based Training)继承了遗传算法的思想，提供了一种平衡探索和利用的方法，即异步训练一组不同策略行为的智能体，并通过利用群体中精英智能体的训练信息来加速训练。然而，大规模分布式群体训练的昂贵成本是智能体的数量受限的原因。另一方面，小规模的群体训练或不适当的利用频率会导致快速收敛到局部最优解。因此出现了许多方法来增加群体的多样性，但在机器学习领域，以统一原则的方式对多样性进行建模的工作是有限的。例如，文献TrajectoryDiversity for Zero-Shot Coordination和Diversity-Driven Exploration Strategyfor DeepReinforcement Learning所提出的群体多样性是从对与对之间的某种距离或散度的期望中优化的，当行为被映射到高维空间时，可能发生聚类现象。因为成对距离的范数可能会有很大的不同，导致群体可分为多个簇，而簇内智能体是相似的。

(2)行列式多样性

行列式点过程精确地描述费米子的排斥作用，使其自然地成为了衡量群体多样性的一个工具。在行列式点过程中，多样性来自于一个核矩阵的行列式。这个矩阵定义了成对元素之间的相似性度量，因此相似的元素不太可能同时发生。从几何角度来看，行列式衡量超平面空间中向量的有向体积，因此行列式是一个高阶的优化目标。Parker-Holder等人将成对确定性策略之间相似性的度量作为核矩阵的元素，则极大化行列式目标之后，相似的策略不太可能同时出现。但是在使用行列式刻画群体策略多样性之前，仍有一些待克服的障碍：①群体策略是随机策略时，多样性与概率度量之间联系是不清晰的。②计算行列式的复杂度较高，而半正定矩阵仍然可能无法满足快速求解行列式的要求。③智能体可能由于过度追求多样性或相似性从而出现策略性能下降。

发明内容

本发明聚焦于小规模种群体的强化学习，提出了一种基于行列式多样性引导的群体强化学习训练方法，可以高效地衡量智能体群体策略的多样性，并利用多样性在进一步改善智能体群体在具体任务中性能。为了解决背景技术中所提到的问题，本发明考虑了几种现有的概率测度作为核函数来刻画成对随机策略之间的相似性，并构造了行列式点过程的矩阵。本发明使用行列式正则化来改善群体策略的多样性或相似性。为了满足核矩阵Cholesky分解的限制性约束，将核矩阵正定化，以便在原始矩阵奇异时也可以进行优化。

本发明的技术方案：一种基于行列式多样性引导的群体强化学习训练方法，首先通过确定性相似估计计算成对随机策略之间的相似性，再将相似性所构成的矩阵正定化得到行列式，最后通过多臂老虎机选择温度系数提高随机策略性能。

具体包括步骤如下：

(1)计算成对随机策略之间的相似性

确定性相似估计用于衡量两个随机策略之间的相似性，并形成半正定矩阵K；半正定矩阵K中的元素表示所对应行列随机策略的相似性，数值由确定性近似核函数计算；

设定对称有界距离函数D表示任意两个随机分布的概率度量的距离函数，两个随机策略π和π’之间的确定性距离函数d_D定义为：

其中，

表示状态集合，d表示微元符号，s表示状态；

两个随机策略π和π’之间的相似性通过状态集合

进行有限采样计算，通过确定性近似核函数来估计，基于单步状态的确定性近似核函数K^s _f定义为：

K^s _f(π，π′)＝E_s[f(D(π(·|s)，π′(·|s)))]#(2)

其中，E_s表示期望，f：R→[0，1]表示一个可微函数；

确定性相似估计允许从群体所有随机策略生成的轨迹中均匀地对访问状态进行采样；受基于轨迹的多样性启发，接下来考虑长期视野的目标。例如，智能体可以在一条轨迹中的少量状态中选择不同的操作，而不会影响最终结果。在这种情况下，平均所有状态的相似性可能过于敏感，无法使行为多样化。拓展后的T步确定性相似估计以轨迹样本衡量随机策略的相似性，可用于循环神经网络的训练，基于轨迹的确定性近似核函数K^τ _f定义为：

其中，s_t表示随机策略在时间t得到的状态，τ表示采样轨迹；E_τ表示期望；

考虑具有离散动作集合的情况，对两个离散随机分布的概率度量P和Q之间的对称有界距离函数D和可微函数f对应为：①总变差距离(Total Variation Distance)：

和f_TV(d)＝1-d；②海林格距离(Hellinger distance)：

和f_H(d)＝1-d；③詹森-香农散度(Jensen-ShannonDivergence)：

和

考虑具有连续动作集合的情况，使用欧几里德范数作为距离函数，设定概率度量μ和v为多变量不相关高斯分布，m表示多变量高斯分布的均值向量，∑表示协方差矩阵，即μ～N(m₁，∑₁)且v～N(m₂，∑₂)，得到对称有界距离函数D和可微函数f：④瓦瑟斯坦距离(p-Wasserstein distance)：

和

其中协方差矩阵∑₁和∑₂是对角矩阵，|·|_F为矩阵Frobenius范数，exp为指数函数，σ为超参数；使用方差归一化来消除超参数σ²；

根据随机策略动作集合的形式，确定性相似估计使用的对称有界距离函数D和可微函数f包括了随机策略形式所有情况；随机策略具有离散动作集合的情况下使用①、②或③；随机策略具有连续动作集合的情况下使用④；根据所使用强化学习算法，确定性近似核函数使用基于单步状态的K^s _f或基于轨迹的K^τ _f，计算形成半正定矩阵K；

(2)将相似性所构成的矩阵正定化得到行列式

引入一种基于行列式和其温度系数λ的增广损失；由于矩阵的元素是由确定性近似核函数计算的，因此可以通过自动微分直接计算行列式的梯度。注意到由于群体训练的剥削利用机制的存在，一个智能体的网络权重可能会被另一个智能体复制。因此，矩阵中的某两行(或列)是线性相关的，行列式为零，对行列式求梯度可能会遇到数值不稳定性(例如，最大似然估计)。在这种情况下，K将退化为半正定矩阵，这使得无法进行Cholesky分解(或者梯度为零)。为了满足Cholesky分解中的条件，使用代替矩阵

其中，β∈(0，1)表示平滑系数，I表示单位矩阵；

代替矩阵的行列式不会改变原始矩阵行列式的排斥性。如果矩阵中所有非对角元素都小于1，则满足Cholesky分解的条件。实际上，这意味着群体所有不同策略对都不是完全相似的。因此，可以通过Cholesky分解，从下三角矩阵的主对角线得到行列式。代替矩阵

是正定矩阵，因此通过Cholesky分解有

从下三角矩阵

的主对角线乘积的平方得到代替矩阵

的行列式；半正定矩阵K被

替换后，群体的联合损失函数被重写为：

其中，λ∈R，det表示矩阵的行列式，M表示群体规模，Θ表示群体网络权重，J_π表示随机策略的奖励损失；公式(9)关于参数θ_i∈Θ中的目标梯度由下式给出：

其中，

表示函数关于参数θ_i的梯度，

表示函数关于参数Θ的梯度；

(3)基于多臂老虎机的选择温度系数

当温度系数λ为正时，最大化公式(6)增加群体的多样性；当温度系数λ为负时，最大化公式(6)增加群体的相似性；因此，温度系数λ被视为探索-利用权衡；通过学习优化λ，进而优化行列式目标进行训练群体策略的训练，即排斥学习或模仿学习，以最大化随机策略的平均累积回报：

其中，r_t表示在时间t采取动作后得到的奖励，Λ表示温度系数λ的参数集合；

将公式(7)中的上层优化问题视为多臂老虎机问题进行求解；

多臂老虎机的每只手臂代表一个温度系数λ，这些手臂通过汤普森采样(Thompsonsampling)或置信区间上限算法(Upper Confidence Bound)来选择，以在有限的采样时间内最大化回报；服务端根据适应度对随机策略进行排序，并定期利用最佳随机策略的网络权重，所选手臂的回报是，在使用相应的温度系数进行优化后，群体的最高性能是否得到改善；此外，服务端在策略优化阶段计算行列式的梯度。

本发明是群体训练的实例，奖励估计梯度依然由局部学习者计算，不同的是中心服务端需要额外计算行列式的梯度，整体架构如图1所示。服务端根据适应度(例如，智能体最近几局的平均累积奖励)对智能体进行排序，并定期利用最佳智能体的网络权重。此外，服务端在策略优化阶段计算行列式的梯度。

所述服务端和每个学习者的工作流程划分为五个步骤：

S1学习者对网络权重进行评估，将评估结果发送给服务端；

S2服务端根据评估结果更新系数；

S3学习者异步采集轨迹后，将表演家网络的权重和轨迹样本发送给服务端，通过策略优化的损失函数局部计算相应的梯度；

S4服务端计算行列式梯度，并发送梯度和系数给学习者；

S5学习者接收乘以系数后的行列式梯度，将两部分的梯度相加，更新网络权重；

这五个步骤循环往复；最后，奖励高的手臂被选中次数更多。

确定性相似性估计允许从群体所有随机策略生成的轨迹中均匀地对访问状态进行采样，并显示出一些良好的性质：

1)这些状态是从混合平均策略的轨迹中抽样的。通过有限采样来估计相似性，而不是中棘手的积分，并且在策略(on-policy)的智能体有机会从前所未有的状态中学习。

2)不再计算嵌入之间的相似性。如果D是对称且有界的度量，可以通过函数f轻松地将值映射到[0,1]。然后，可以通过将链式法则

来更新关于参数θ的策略。

3)多步确定性相似估计计算连续T个时间步的相似性，并且与递归神经网络兼容。T代表多样性的敏感性，敏感性随着T的增加而增加。即使只有少数几个状态-动作对是不同的，其轨迹也将是不同的。

本发明的有益效果：本发明所提出的行列式是基于梯度的，因此可以通过自动微分更新策略网络权重。本发明所提出的代替行列式来自对原始矩阵进行平滑操作的正定矩阵，使得Cholesky分解存在，解决了原矩阵行列式与具有利用机制群体训练的冲突问题。

附图说明

图1是一种基于行列式多样性引导的群体强化学习训练方法的整体架构图。

具体实施方式

下面结合具体实施方式对本发明作进一步详细说明，但本发明并不局限于具体实施方式。

一种基于行列式多样性引导的群体强化学习训练方法，具体实施包括基于多臂老虎机的行列式优化、群体学习框架的实现以及测试。

(1)行列式引导的增广优化目标

在本发明中，由于矩阵的元素是由确定性近似估计核函数计算的，因此可以通过自动微分直接计算行列式的梯度。首先通过确定性近似估计核函数构成原始矩阵，再通过计算正定操作得到正定矩阵。接着通过Cholesky分解得到下三角矩阵，该下三角矩阵的对角线元素乘积的平方即行列式的值。

多臂老虎机算法用于更新温度系数，以汤普森采样为例。本发明需要记录使用多臂老虎机每个手臂所对应的系数优化成功与失败的次数。初始状态下，温度系数从温度系数参数空间中随机采样，设置评估奖励为负无穷。智能体每次训练之后进行评估，若本次评估群体最优智能体的平均累计奖励高于上一次评估的群体最优智能体平均累计奖励，则使用这只手臂的成功次数加一，否则这只手臂的失败次数加一。接着基于每只手臂的成功和失败次数，使用贝塔分布进行采样得到每只手臂成功的概率，选取最高概率的那只手臂所对应的温度系数，进行优化并循环往复。

(2)群体强化学习模块

本发明可以应用于基于随机策略的强化学习算法，无论动作空间是离散的还是连续的。以阶段性策略梯度(Phasic Policy Gradient)算法为例。与其他基于信赖域的算法相似，阶段性策略梯度限制了策略优化的学习步长，并且比传统的策略梯度方法具有更高的样本效率。阶段性策略梯度算法将价值优化和策略优化分开，因为相对于信赖域策略优化和近端策略优化算法，价值优化通常可以容忍更高级别的样本重用。由于行列式的计算需要服务端从局部学习者同步每个智能体策略的网络权重，这只发生在策略优化阶段。因为在策略优化阶段，较小程度的样本复用减少了通信开销。

(3)测试

以在OpenAI Gym的MujoCo环境中测试为例。群体学习者的数量为5，优化器为Adam，学习率为0.0003，策略与价值网络均由2层隐藏层单元数为64的多层感知机；激活函数使用Tanh函数，数据采集步长为2048，折扣因子为0.99，学习批大小为64，辅助学习批大小为256，泛化优势估计系数为0.95，裁剪系数为0.2，策略迭代次数为4，价值迭代次数为4，辅助阶段迭代次数为6，使用奖励和状态标准化，从204800步开始群体进行利用，此后群体进行利用的间隔为20480步，温度系数的参数空间为{-0.05,0.0,0.05}，多臂老虎机算法使用汤普森采样，确定性相似估计的批大小为64，确定性相似估计的时间步为1，采用基于瓦瑟斯坦距离的核函数，平滑系数为0.99。

本发明运行1003520个时间步后，在Walker2d-v3、Hopper-v3、Ant-v3、HalfCheetah-v3、Swimmer-v3和Humanoid-v3的群体中位数智能体平均累积奖励比基线基于群体的训练分别高出5.15％、18.52％、-7.0％、6.12％、1.74％和8.92％。由于具有增广模块需要额外计算行列式梯度，训练时间多出9.79％。

Claims

1.一种基于行列式多样性引导的群体强化学习训练方法，其特征在于，首先通过确定性相似估计计算成对随机策略之间的相似性，再将相似性所构成的矩阵正定化得到行列式，最后通过多臂老虎机选择温度系数提高随机策略性能；

具体包括步骤如下：

(1)计算成对随机策略之间的相似性

其中，

表示状态集合，d表示微元符号，s表示状态；

两个随机策略π和π’之间的相似性通过状态集合

K^s _f(π,π′)＝E_s[f(D(π(·|s),π′(·|s)))]#(2)

其中，E_s表示期望，f:R→[0,1]表示一个可微函数；

确定性相似估计允许从群体所有随机策略生成的轨迹中均匀地对访问状态进行采样；拓展后的T步确定性相似估计以轨迹样本衡量随机策略的相似性，可用于循环神经网络的训练，基于轨迹的确定性近似核函数K^τ _f定义为：

考虑具有离散动作集合的情况，对两个离散随机分布的概率度量P和Q之间的对称有界距离函数D和可微函数f对应为：①总变差距离：

和f_TV(d)＝1-d；②海林格距离：

和f_H(d)＝1-d；③詹森–香农散度：

和

考虑具有连续动作集合的情况，使用欧几里德范数作为距离函数，设定概率度量μ和v为多变量不相关高斯分布，m表示多变量高斯分布的均值向量，∑表示协方差矩阵，即μ～N(m₁,∑₁)且v～N(m₂,∑₂)，得到对称有界距离函数D和可微函数f：④瓦瑟斯坦距离：

和