CN113239629B

CN113239629B - 一种轨迹空间行列式点过程的强化学习探索和利用的方法

Info

Publication number: CN113239629B
Application number: CN202110618757.7A
Authority: CN
Inventors: 缪佳宇; 张伟楠
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2023-06-16
Anticipated expiration: 2041-06-03
Also published as: CN113239629A

Abstract

本发明公开了一种轨迹空间行列式点过程的强化学习探索和利用的方法，涉及质量和多样性强化学习领域。在质量和多样性强化学习框架中，增加强化学习中智能体的探索能力和生成多样化的智能体策略。本发明首先通过变分自编码器和对比学习学习到一个有意义的轨迹编码空间，鼓励种群中的智能体沿着不同的轨迹方向进行探索，然后基于行列式点过程不断从中筛选出高回报和多样性的策略并变异其他策略的探索方向。本发明可以在各种维度、各种类型(连续或离散)的状态空间下提升智能体的表现，在需要强探索能力的环境中的收敛速度和表现优于框架下的其他方法，并且可以生成多样的高回报策略，可以用于机器人导航等强化学习应用场景中辅助机器人进行探索。

Description

一种轨迹空间行列式点过程的强化学习探索和利用的方法

技术领域

本发明涉及质量和多样性强化学习领域，尤其涉及一种轨迹空间行列式点过程的强化学习探索和利用的方法。

背景技术

质量和多样性强化学习问题，是指在一个种群中，不仅希望智能体能够得到高回报的策略，同时希望策略之间的差异性要尽可能大。同时追求质量和多样性，一方面有利于智能体的探索，另一方面很有可能可以得到多种不同的高回报策略。

(一)分析近期质量和多样化强化学习的研究：

Parker-Holder等在Advances in Neural Information Processing Systems(神经信息处理系统会议)会议(2020年第33届第18050-18062页)上发表的EffectiveDiversity in Population Based Reinforcement Learning.《高效的基于种群的多样性强化学习》，该文中将行为空间定义为某些状态下的动作空间，并使用行列式核矩阵的值当成额外的损失函数。其不足在于局限于不同的策略需要有一定数量的重合状态的情况，以及额外的优化目标会影响训练的过程；

Cideron等在arXiv preprint平台(2020年编号2006.08505)上发表的QD-RL:Efficient Mixing of Quality and Diversity in Reinforcement Learning.《QD-RL:强化学习中有效的混合质量和多样性》，该文中将行为空间定义为结果空间。其不足在于：忽略了策略运行过程中的特征。

对国内外相关专利分析以及相关研究可得出以下结论：目前在质量和多样性强化学习问题中没有重视策略运行过程中轨迹特征和稳定训练的方法。

因此，本领域的技术人员致力于开发一种轨迹空间行列式点过程的强化学习探索和利用的方法，在质量和多样性强化学习问题中，重视策略运行过程中的轨迹特征并且能够稳定训练的方法。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是现有质量和多样性强化学习方法忽略了策略运行的轨迹特征和训练不稳定的问题。

为实现上述目的，本发明提供了一种轨迹空间行列式点过程的强化学习探索和利用的方法，包括如下步骤：

步骤1、学习到轨迹空间；

步骤2、在学习到的所述轨迹空间中，通过行列式点过程对种群中探索不同的轨迹方向的策略进行选择和变异。

进一步地，所述轨迹空间通过变分自编码器和对比学习方法学习得到；所述变分自编码器被要求解码出的轨迹需要和输入的轨迹尽可能相同，所述对比学习方法被要求相似的轨迹在轨迹空间的编码尽可能相似，不相似的轨迹在轨迹空间的编码尽可能不相似。

进一步地，所述轨迹空间的学习过程中，z匹配策略模型π_ψ(s,z)被要求通过行为克隆的方法使得生成的轨迹和编码z对应的轨迹相一致。

进一步地，所述步骤2探索不同的轨迹方向的策略是指策略以不同的z匹配策略初始化，从而探索不同的轨迹方向。

进一步地，所述行列式点过程选择是指从策略种群中选取具有高回报和多样性的策略；所述行列式点过程变异是为策略设置新的轨迹空间探索方向。

进一步地，包括如下步骤：

步骤1、输入在环境中采样得到的轨迹，通过优化整体的目标损失函数，训练轨迹编码模型得到有意义的轨迹编码空间和z匹配策略模型；

步骤2、随机采样N个隐变量z放入集合Z；

步骤3、根据集合Z中的新加入或者被替换的隐变量生成z匹配策略，种群中对应的智能体以z匹配策略初始化，并在对应的轨迹方向与环境交互进行学习；

步骤4、每隔T时间步，获取每个策略的回报和对应的轨迹编码，通过行列式点过程选取前K个具有高回报和多样性的策略；

步骤5、对于剩下的N-K策略重新采样隐变量z并替换集合Z中其对应的部分；

步骤6、如果到达最大时间步，终止训练并返回最新的前K个具有高回报和多样性的策略，否则进入所述步骤3。

进一步地，所述训练轨迹编码模型包括如下步骤:

步骤1.1、输入批量的轨迹序列τ；

步骤1.2、通过长短期记忆(LSTM)网络得到编码z，再通过另外一个长短期记忆(LSTM)网络解码得到解码后的序列τ′；

步骤1.3、通过梯度下降法优化整体的目标损失函数。

进一步地，所述轨迹编码模型的整体目标损失函数为：

-E_qΦ[logp_θ(τ|z)]+D_KL(q_Φ(z|τ)|p(z))为变分自编码器相关的部分，目的在于提升极大似然估计的下确界(ELBO)，其中θ为轨迹编码器的参数，φ为轨迹解码器的参数,D_KL为KL散度；

为对比学习的部分，使得相似的轨迹在轨迹空间的编码尽可能相似，不相似的轨迹在轨迹空间的编码尽可能不相似，其中α是权重系数，l_φ(τ,τ_p；T_n)具体公式为:

其中，sim代表余弦相似度，τ_p代表正样本，τ_n代表负样本；E_τ[l_BC]为z匹配策略模型的行为克隆损失函数，目的是使得z匹配策略生成的轨迹和z对应的轨迹相匹配，具体公式为:

其中,ψ为匹配策略模型参数。

进一步地，所述行列式点过程选择机制包括如下步骤：

步骤4.1、输入不同策略对应的回报和轨迹编码,得到核矩阵L＝Diag(r_u)·S·Diag(r_u)，L_ij＝B_i,B_j＝r_iz_i,r_jz_j＝r_ir_jz_i,z_j，其中r_i代表第i个策略的回报，z_i代表第i个策略的轨迹归一化后的编码,Diag(r_u)代表N个策略的回报组成的对角矩阵，S代表N个策略的轨迹编码z组成的相似度矩阵；

步骤4.2、得到后验概率

其中D_u代表选取的策略索引；最大化所述后验概率即相当于选取高回报且具有多样性的策略；

步骤4.3、通过快速贪婪MAP算法最大化所述后验概率筛选出前K个具有高回报和多样性的策略。

进一步地，所述行列式点过程可以通过令L′＝Diag(exp(α′r_u))·S·Diag(exp(α′r_u))，其中α′＝θ′/(2(1-θ′))，使得后验概率

从而可以通过控制θ′在回报项和多样性项进行权衡。

本发明定义行为空间为轨迹空间，有效地利用了策略运行过程中的特征，从而可以利用策略在轨迹空间中不同的轨迹方向上进行探索。训练轨迹模型中的变分自编码器和对比学习的约束使得隐变量编码z能够对应轨迹空间中的轨迹，同时保证z之间的相似度和其对应的轨迹的相似度相对应。z匹配策略作为初始化可以保证对应的策略在一开始的时候探索z对应的轨迹方向，从而可以保证种群中的策略探索轨迹空间中的不同区域。而基于行列式点过程的选择和变异机制，能够有效的筛选出种群中高回报并且差异度比较大的策略，并对其他的策略进行变异，从而探索其他可能的方向。这种在上层轨迹空间中探索的方式区别于单纯的动作上的探索，既指定了不同的探索方向又给了策略探索的空间。行列式点过程的选择和变异机制消除了额外的多样性优化目标带来的干扰，从而稳定了训练的过程。

本发明与现有技术相比较，具有如下显而易见的实质性特点和显著优点：

1.本发明中轨迹空间模型能够有效捕捉策略运行中轨迹的特征，形成具有区分度和有意义的轨迹编码。相比于之前的动作空间和结果空间更能够体现策略之间的差异性。

2.本发明中基于行列式点过程的选择和变异机制能够使得种群中的策略在轨迹空间中进行充分的探索和利用，同时可以一些生成高回报和多样性的策略。

3、实践证明，本发明中训练得到的策略种群具有更快的收敛速度和收敛表现,这代表了更强的探索能力，同时生成的高回报策略间也存在着差异性，这代表了种群策略的多样性。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的方法流程图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

如图1所示，本发明实施提供了一种轨迹空间下基于行列式点过程的强化学习探索和利用的方法。本发明实施例将方法应用于机器人导航环境中，该环境中机器人需要移动至目标位置处，但是中间有一道阻隔墙，机器人不知道墙体的位置，而且每个时刻受到的奖励与到目标的直线距离成反比。这是一个具有欺骗性奖励的环境，机器人需要绕过墙体到达指定位置。使用的强化学习方法为近端策略优化算法，即PPO(Proximal PolicyOptimization)具体步骤如下:

1、使用纯探索的策略进行采样，得到若干个机器人的长度为M的轨迹，作为轨迹编码模型的训练集。其中纯探索的策略的奖励设置为负的证据下界(ELBO)。

2、不断的从训练集中选取大小为B的批量样本，以轨迹间的位置距离作为相似度衡量的基准，令最相似的轨迹作为正例，最不相似的B/2的样本作为负例，同时通过梯度反向传播方法优化整体的目标函数，包括变分自编码器的损失函数-E_qΦ[logp_θ(τ|z)]+D_KL(q_Φ(z|τ)|p(z))，对比学习的损失函数l_φ(τ,τ_p；T_n)和z匹配策略的损失函数l_BC。其中隐变量z编码空间大小为d。

3.从正态分布中随机采样N个隐变量z组成隐变量集合Z。

4.对于Z中新加入的或者被更新的隐变量z生成对应的z匹配策略。种群中对应的智能体以此策略初始化，并在对应的轨迹方向使用常规的PPO算法进行学习。

5.每隔T时间步，获取每个策略的回报r_i和对应的轨迹编码z_i，通过行列式点过程选取前K个具有高回报和多样性的策略。

6.对于剩下的N-K个策略重新从正态分布中采样隐变量z并替换集合Z中其对应的部分。

7.如果到达最大时间步MAXT，终止训练并返回最新的前K个具有高回报和多样性的策略，否则进入步骤4。

在机器人导航的场景中，之前的质量和多样性强化学习方法往往较难绕过障碍物导致阻塞，而本方法可以使得机器人绕开中间的障碍，成功的抵达目标，这表明本方法具有较大的探索能力。同时基于行列式点过程的选择和变异机制在轨迹空间中进行探索和利用，能不断地筛选出具有高回报同时多样性的策略，具体表现为机器人可以沿着不同的轨迹到达目的地，例如从左侧绕开墙体或者从右侧绕开墙体。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种轨迹空间行列式点过程的强化学习探索和利用的方法，其特征在于，包括如下步骤：

步骤1、机器人导航环境中，采样得到机器人智能体探索策略种群与环境交互的轨迹数据，学习机器人的移动轨迹空间；

步骤2、在学习到的所述机器人的移动轨迹空间中，通过行列式点过程的技术手段对种群中机器人策略探索不同的轨迹方向的策略进行选择和变异，在整个机器人策略种群中，通过行列式点过程中最大化后验概率的快速贪婪MAP算法，筛选出轨迹回报高且具有多样性的策略个体，并对剩余的策略个体进行重新初始化以探索其他轨迹方向，重复进行选择和变异步骤直到达到环境允许的最大次数，最终得到可以解决机器人导航任务且具有多样性的策略种群。

2.如权利要求1所述的轨迹空间行列式点过程的强化学习探索和利用的方法，其特征在于，所述轨迹空间通过变分自编码器和对比学习方法学习得到；所述变分自编码器被要求解码出的轨迹需要和输入的轨迹尽可能相同，所述对比学习方法被要求相似的轨迹在轨迹空间的编码尽可能相似，不相似的轨迹在轨迹空间的编码尽可能不相似。

3.如权利要求2所述的轨迹空间行列式点过程的强化学习探索和利用的方法，其特征在于，所述轨迹空间的学习过程中，z匹配策略模型π_ψ(s,z)被要求通过行为克隆的方法使得生成的轨迹和编码z对应的轨迹相一致。

4.如权利要求1所述的轨迹空间行列式点过程的强化学习探索和利用的方法，其特征在于，所述步骤2探索不同的轨迹方向的策略是指策略以不同的z匹配策略初始化，从而探索不同的轨迹方向。

5.如权利要求1所述的轨迹空间行列式点过程的强化学习探索和利用的方法，其特征在于，所述行列式点过程选择是指从策略种群中选取具有高回报和多样性的策略；所述行列式点过程变异是为策略设置新的轨迹空间探索方向。

6.如权利要求1所述的轨迹空间行列式点过程的强化学习探索和利用的方法，其特征在于，包括如下步骤：

步骤2、随机采样N个隐变量z放入集合Z；

步骤5、对于剩下的N-K个策略重新采样隐变量z并替换集合Z中其对应的部分；

7.如权利要求6所述的轨迹空间行列式点过程的强化学习探索和利用的方法，其特征在于，所述轨迹编码模型训练包括如下步骤:

步骤1.1、输入批量的轨迹序列τ；

步骤1.3、通过梯度下降法优化整体的目标损失函数。

8.如权利要求6所述的轨迹空间行列式点过程的强化学习探索和利用的方法，其特征在于，所述轨迹编码模型的整体目标损失函数为：

为变分自编码器相关的部分，目的在于提升极大似然估计的下确界(ELBO)，其中θ为轨迹编码器的参数，φ为轨迹解码器的参数,D_KL为KL散度；

为对比学习的部分，使得相似的轨迹在轨迹空间的编码尽可能相似，不相似的轨迹在轨迹空间的编码尽可能不相似，其中α是权重系数，损失函数l_φ(τ,τ_p；T_n)具体公式为:

其中，sim代表余弦相似度，τ_p代表正样本，τ_n代表负样本；E_τ[l_BC]为z匹配策略模型的行为克隆损失函数l_BC的期望，目的是使得z匹配策略生成的轨迹和z对应的轨迹相匹配，l_BC具体公式为:

其中,ψ为匹配策略模型参数。

9.如权利要求6所述的轨迹空间行列式点过程的强化学习探索和利用的方法，其特征在于，所述行列式点过程选择机制包括如下步骤：

步骤4.2、得到后验概率

其中D_u代表选取的策略索引；最大化所述后验概率即相当于从种群中选取高回报且具有多样性的策略；

10.如权利要求6所述的轨迹空间行列式点过程的强化学习探索和利用的方法，其特征在于，所述行列式点过程可以通过令L′＝Diag(exp(α′r_u))·S·Diag(exp(α′r_u))，其中α′＝θ′/(2(1-θ′))，使得后验概率

从而可以通过控制θ′在回报项和多样性项进行权衡。