CN115668215A

CN115668215A - 用于训练参数化策略的装置和方法

Info

Publication number: CN115668215A
Application number: CN202180036524.4A
Authority: CN
Inventors: 文森特·莫恩斯; 胡格斯·范·阿塞尔; 海瑟姆·布·阿马尔
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2023-01-31
Also published as: US20230385611A1; WO2022167079A1; EP4278301A1

Abstract

一种用于根据提议分布训练参数化策略的装置，所述装置包括一个或多个处理器，所述一个或多个处理器用于重复执行以下步骤：根据所述提议分布形成提议；将所述提议输入到所述策略中，以根据所述提议的所述策略形成输出状态；估计所述输出状态与所述提议的优选状态之间的损失；通过自适应算法并根据所述损失形成策略自适应；对所述策略应用所述策略自适应，以形成自适应策略；通过所述自适应策略，形成所述策略自适应的方差估计值；根据所述方差估计值，自适应所述提议分布，以减小在所述步骤的后续迭代中形成的策略自适应的方差。

Description

用于训练参数化策略的装置和方法

技术领域

本发明涉及训练用于强化学习的参数化策略。

背景技术

基于模型的强化学习是一组开发用于离线学习控制策略的技术，即无需直接与环境交互，这可能带来高昂成本。与梯度估计器相关联的方差是策略梯度强化学习中普遍存在的问题。在基于模型的强化学习的背景下，使用随机性模型和策略来模拟用于策略训练的随机轨迹时，这一问题会变得更加严重。

基于模型的强化学习(Model-based reinforcement learning，MB-RL)可以通过环境的确定性或随机性模型进行。与确定性模型相比，通常假设该策略通过探索可能的信息性轨迹从转移模型的随机性中获益，因为这些轨迹要么是有奖励的，要么是成本高昂的，否则就会被忽略。对于假设不完美的模型，智能体可以处理不完全了解环境的问题，从而找到最有利可图的期望策略。然而，当使用从轨迹模拟中检索的梯度来更新策略时，消除该偏差的代价是蒙特卡洛梯度估计值的方差更高。该问题的解决方案是，例如，通过使用矩匹配的多变量高斯分布近似轨迹的可能多峰分布。虽然这大大简化了轨迹结果的评估，但这可能会过度简化问题，在高维问题和长期任务中尤为如此。它还要求从业人员使用自定义奖励函数，有时会违反以下假设，即奖励函数没有可访问的分析公式。控制变量(包括基线)或Rao-Blackwellisation等常用方差减小技术可以部分降低模拟梯度的方差，但这些技术的使用必须根据所使用的梯度估计器进行定制。具体地，它们主要与似然比梯度估计器一起使用，并且几乎无法处理来自随机性模型的噪声。

由于模型和策略的随机性，大多数现有MB-RL算法都摒弃了梯度噪声问题。在无模型RL中，这是一个得到广泛研究的问题，已提出多种方法来应对这一问题，例如近端策略更新、基于重要性采样的策略优化等。

已提出一种用于在MB-RL的背景下应对这一问题的现有算法，称为基于粒子的策略搜索的概率推理(Probabilistic Inference for Particle-Based Policy Search，PIPPS)。PIPPS使用重新参数化和似然比梯度估计器的混合。通过对这两个估计器进行仔细加权来实现降噪。根据非参数化提议分布，生成一组粒子。换句话说，PIPPS示出了如何在给定所生成轨迹的情况下减小更新的方差。

此外，PIPPS还具有高计算成本。在每个时间步长处，必须计算分步更新的参数的方差，这对于大型模型而言并不可行。在实践中，PIPPS假设可以访问每个梯度分量，即每个轨迹、步骤和粒子；大多数ML库通常不会这样处理梯度融合且分量不可访问的情况。因此，访问这些梯度的计算成本很高。

因此，PIPPS很难将“现成设计”应用于现有算法。这需要进行大量的编码工作，并且计算复杂性远远大于目前的计算复杂性。

需要开发一种方法以及用于实现该方法的装置，该方法可降低MB-RL环境中的梯度噪声，同时提供基于随机梯度估计的控制算法的更快、更高效的样本训练。

发明内容

根据一个方面，提供了一种用于根据提议分布训练参数化策略的装置，所述装置包括一个或多个处理器，所述一个或多个处理器用于重复执行以下步骤：根据所述提议分布形成提议；将所述提议输入到所述策略中，以根据所述提议的所述策略形成输出状态；估计所述输出状态与所述提议的优选状态之间的损失；通过自适应算法并根据所述损失形成策略自适应；对所述策略应用所述策略自适应，以形成自适应策略；通过所述自适应策略，形成所述策略自适应的方差估计值；根据所述方差估计值，自适应所述提议分布，以减小在所述步骤的后续迭代中形成的策略自适应的方差。

所述提议可以是伪随机数序列。这可以有助于分配系统的训练刺激。

所述提议分布可以是参数化提议分布。这可以提供表达所述提议分布的有效方式。

所述优选状态可以表示响应于所述提议的最佳或可接受状态。所述优选状态可以是由预定算法和/或由地面真值信息定义的状态。

所述自适应所述提议分布的步骤可以包括自适应所述提议分布的一个或多个参数。这可以提供表达所述自适应的有效方式。

所述步骤可以包括：对所述策略自适应中的噪声进行第一次估计；对所述噪声依赖于所述提议的程度进行第二次估计；根据所述第二次估计，自适应所述提议分布。这可以为改进所述提议分布提供有效机制。

所述提议分布可以由梯度方差估计器自适应，从而将所述策略自适应的方差估计值作为输入。这可以为改进所述提议分布提供有效机制。

所述方差估计值可以由方差估计器形成。所述方差估计器可以是随机估计器。这可以提供有效的方差度量。

所述提议可以通过对所述提议分布进行随机采样而形成。这可以使得连续迭代提议能够表示所述提议分布中的不同状态。

所述自适应算法可以以抑制连续迭代中所述自适应的方差的方式对轨迹进行采样。这可以加快所述学习过程。

根据上述权利要求中任一项所述的装置，其中，所述自适应算法形成策略梯度，并通过随机优化所述策略梯度来形成所述自适应。这可以为改进所述提议分布提供有效机制。

根据上述权利要求中任一项所述的装置，其中，所述参数化策略包括神经网络模型。

根据另一方面，提供了一种用于根据提议分布训练参数化策略的方法，所述方法包括重复执行以下步骤：根据所述提议分布形成提议；将所述提议输入到所述策略中，以根据所述提议的所述策略形成输出状态；估计所述输出状态与所述提议的优选状态之间的损失；通过自适应算法并根据所述损失形成策略自适应；对所述策略应用所述策略自适应，以形成自适应策略；通过所述自适应策略，形成所述策略自适应的方差估计值；根据所述方差估计值，自适应所述提议分布，以减小在所述步骤的后续迭代中形成的策略自适应的方差。

根据另一方面，提供了一种由所述装置或权利要求中定义的方法形成的参数化策略。

根据另一方面，提供了一种处理装置，包括一个或多个处理器，所述一个或多个处理器用于接收输入，并通过权利要求中定义的参数化策略处理所述输入。

附图说明

现在将结合附图通过示例的方式描述本发明，其中：

图1示出了基于模型的强化学习的典型方法；

图2示出了所提出的方法的流程图，所提出的方法包括与策略和模型同时训练的提议分布；

图3以示意图形式示出了FiRe轨迹的数据生成过程的有向无环图。

具体实施方式

在强化学习(reinforcement learning，RL)问题方面，智能体必须决定如何依次选择动作以最大化其总预期回报。与经典的随机最优控制方法相比，RL方法不需要系统动态或目标的详细先验知识。相反，这些方法通过与系统本身的交互来学习最优控制策略。策略指定智能体在所有意外事件时应执行的操作。智能体希望找到最大限度地实现其预期效用的最优策略。策略通常由每个决策变量的决策函数组成。决策变量的决策函数是针对所述决策函数的每个父项赋值指定值的函数。因此，策略指定所述智能体将对其能够感测的每个可能值执行的操作。

RL问题通常被形式化为马尔可夫决策过程(Markov decision process，MDP)，其包括潜在无限状态空间、动作空间、描述任务动态的状态转移概率密度函数、衡量所述智能体性能的奖励概率密度函数和折扣因子。在每个时间步长处，所述智能体处于一种状态，并且必须选择一个动作，从而转移到新状态并获得奖励。状态-动作-奖励三元组的序列在一定(可能是无限的)范围内形成轨迹。本文中的策略指定给定当前状态的动作的条件概率分布。RL智能体的目标是找到最大限度地实现预期的总预期回报的最优策略。假设存在一个参数化系列的策略，则所述智能体的优化目标现在转换为找到最优参数组态，并且在数学上可以形式化地表示为等式1。

其中，

图1示出了上述场景的典型方法。通常，使用包括环境模型的模拟器104在基于模型的强化学习中生成想象的轨迹。然后，使用这些想象的轨迹来训练策略参数以完成任务。通过使用模型，可以从所述环境中收集尽可能少的数据，这些数据的收集成本高昂。在图1中，所述模拟器104输出所述想象的轨迹，然后所述想象的轨迹用于生成回报估计值106。然后，可以使用所述生成的回报估计值106来确定策略梯度108。确定所述策略梯度108之后，可以以如上所述的方式更新策略110以找到所述最优策略。所述过程通常以指定的起始状态102开始，所述策略从所述起始状态102优化。

当所述策略和所述模型是随机性策略和模式，并且使用蒙特卡洛采样来估计所述策略梯度的值时，通过由这些分布决定的噪声收集所述梯度。蒙特卡洛采样的基本定理是，用于对提供低方差梯度更新的轨迹进行采样的最佳分布不是联合模型和策略。然而，尚未开发任何工具来根据这种序贯重要性采样原理对轨迹进行采样，在所述序贯重要性采样原理下，尝试找到所述最佳分布以实现这种高效采样。

本文中所提出的方法旨在降低基于模型的强化学习中的参数梯度噪声，也称为方差。所提出的方法在MB-RL的背景下提出了序贯重要性重采样(sequential importanceresampling，SIR)方差减小算法。所提出的方法的主要方面包括与所述策略和所述模型同时训练的参数化提议分布，以最小化策略参数的平均梯度的总方差估计器，并在模拟轨迹上进行评估。为了确保所提出的方法不会因为与所述模型和所述策略定义的状态-动作概率空间匹配不佳而导致额外的方差，所述提议分布构建在这些分量之上。如果需要，所述提议可以任意接近所述轨迹的联合代理概率分布，并且对其编码的映射的变化具有稳健性。当可以使用具有已知基分布(例如，高斯分布或均匀分布)的重新参数化辅助随机变量对这些分布进行采样时，所述提议会修改该基分布，以使得重新加权的轨迹具有比原始对应轨迹更低的平均梯度方差。因此，为了实现所提出的方法，仅要求可以通过具有已知分布的辅助随机变量的映射对轨迹进行采样。目前的许多RL体系结构都满足这一条件，使得所提出的方法具有通用性和灵活性，可以应用于各种模型。所述提议可以通过对所述提议分布进行随机采样而形成。在所提出的方法中，所述自适应算法可以以抑制连续迭代中所述自适应的方差的方式对轨迹进行采样。所述自适应算法可以形成策略梯度，并通过随机优化所述策略梯度来形成所述自适应。

所提出的方法的核心概念是基于策略梯度模型的RL的参数化提议分布，其形式为所述策略的基分布和基于模型的强化学习中的转移模型。该参数化提议分布经过训练以生成辅助随机变量，当策略参数梯度通过所述模型和所述策略以生成重要性加权轨迹时，所述辅助随机变量最小化策略参数梯度的方差。因此，提供了一种基于梯度的有效方法来训练所述提议分布。

因此，本文提出了一种用于根据提议分布训练参数化策略的方法和装置。所述装置包括一个或多个处理器，所述一个或多个处理器用于重复执行所述方法的以下步骤：根据所述提议分布形成提议；将所述提议输入到所述策略中，以根据所述提议的所述策略形成输出状态；估计所述输出状态与所述提议的优选状态之间的损失；通过自适应算法并根据所述损失形成策略自适应；对所述策略应用所述策略自适应，以形成自适应策略；通过所述自适应策略，形成所述策略自适应的方差估计值；根据所述方差估计值，自适应所述提议分布，以减小在所述步骤的后续迭代中形成的策略自适应的方差。其中，所述优选状态是一种高奖励状态，即对应于所采取的策略的期望结果。

所提出的方法包括过滤算法，所述过滤算法学习产生所述策略参数的低方差梯度更新的参数化采样分布。所述采样分布(也称为所述提议分布，或简称为所述提议)的参数经过优化，以从单个起始状态最小化跨轨迹的策略梯度方差的值。这与忽略学习多模态采样分布的可能性的现有方法形成对比。所述提议可以是参数化提议，因为参数的数量是固定的，这与非参数化算法不同；在非参数化算法中，参数的数量是灵活的，并且随着训练的进行可以添加额外的参数。因此，所述提议分布可以是参数化提议分布。因此，所述自适应所述提议分布的步骤可以包括自适应所述提议分布的一个或多个参数。

为此，可以使用三个分量来实现这一目标。第一，产生低方差轨迹的对象，即所述提议。第二，可计算的损失函数，即在策略学习期间动态最小化的梯度方差估计器。第三，针对所述提议传播梯度以最小化所述损失的方法。

所提出的方法的提议是灵活的参数化分布，以起始状态P0为条件。假设所述提议本身可以具有重新参数化梯度，以便于学习。但是，也可以使用似然比来代替。

所述损失是所述策略梯度的总方差估计器。也就是说，所述损失是单参数偏导数的方差之和，这对于精确计算来说可能非常昂贵。因此，所述方差估计器可以是经验方差协方差矩阵的迹线的随机估计器，所述经验方差协方差矩阵可以在所述策略更新的每个步骤中用于训练所述提议。换言之，所述提议分布可以由梯度方差估计器自适应，从而将所述策略自适应的方差估计值作为输入。如前所述，基于该损失计算梯度，并将其传播到所述提议参数。这可以包括以下步骤：对所述策略自适应中的噪声或方差进行第一次估计；对所述噪声依赖于所述提议的程度进行第二次估计；根据所述第二次估计，自适应所述提议分布。

这种形式的提议分布在所述策略训练期间取代了所述转移模型和策略的所述基分布，主要优点在于可以任意接近这些分布。提议应涵盖其将取代的大部分分布。远离这些分布的提议会产生不稳定的轨迹，从而很少提供关于更新方向的可靠信息。

图2示出了所提出的方法200的流程图。所提议的方法将所述起始状态或所述基分布102替换为用于轨迹模拟的辅助变量上的提议分布202。所述轨迹通常是一系列状态和动作。所述辅助变量可以是伪随机数。在实践中，这些辅助随机变量与所述初始状态一起确定性地确定进行采样的轨迹。范围是以减少策略更新的方差的方式对它们进行采样。然后，估计(206)所述模拟轨迹的加权回报，并检索噪声策略梯度208。权重的计算方式使得所述轨迹的估计平均无偏倚。传回(210)这些梯度，并将其用于使用给定的随机优化器更新策略204。此时，根据该梯度估计值，针对所述提议分布202推导出另一损失。可以推导出所述策略梯度方差的随机或噪声估计值。与针对所述回报和策略所执行的操作类似，推导出关于所述提议分布参数的方差估计值的梯度。该梯度现在成为用于更新所述提议分布202的参数的信号212，这可以使用另一随机优化器。

基于模型的方法可以用于求解等式1，因为它提供了无模型类型算法的高效示例替代方案。MB-RL通过首先构建动态和(可能地)奖励的代理模型(也称为转移模型)来运行，而不是直接从环境交互中学习策略。

形式上，在存在表现良好的代理模型的情况下，MB-RL中的控制步骤可以写为找到代理MDP的最优策略的问题，即

其中，

和

用于指示所学习的转移模型和奖励模型。换言之，所述智能体尝试通过求解以下等式来找到θ^＊：

其中，

是在遵循π_θ的同时根据

和

获得的轨迹的密度。

当所述转移模型未知时，通常与另一模型特定目标一起实现所述目标，所述另一模型特定目标最小化所观测的转移与所预测的转移之间的差异的度量。可以使用基于随机优化、动态编程、模型预测控制和蒙特卡洛树搜索的各种算法来确定此类最优策略。通常，这些方法使用采样、近似或两者来计算效用函数

或其梯度

因为等式2中的预期几乎总是难以实现的。

当前提出的方法侧重于通过模拟优化控制的框架子集。通常，以访问的起始状态为条件，从所述转移模型和所述策略中检索轨迹的蒙特卡洛样本。然后，通过这些模拟，可以执行所述策略参数的更新。不可避免地，由于所述策略与用于在所述环境中收集数据的策略有所偏离，所述转移模型也是如此。因此，现实环境中的数据收集片段可以定期交织。

为了应用所提出的方法，可以对要解决的任务进行以下两种假设。

假设1-等式2中目标的梯度估计器可以表示为轨迹的每个步骤上的子目标梯度之和。

适用于某些归一化常数Z和K个模拟轨迹。

假设2-可以将所述轨迹重新参数化为辅助随机变量

的函数，其中，

是实现为所述模拟轨迹

的随机变量。此外，假设

相对于X是可微的。

当在给定函数实现的蒙特卡洛样本的情况下估计梯度时，通常可以将所述似然比(likelihood ratio，LR)估计器与重新参数化技术(reparameterised technique，RP)进行比较。

通过使用Fisher恒等式推导出所述LR估计器。

具有以下无偏且一致的蒙特卡洛估计器。

其中，l_t是时间t时所述轨迹的某个效用函数。

所提出的方法的目的是在所述模型和所述策略是随机性模型和策略的情况下，构建在所述LR和所述RP设置中有效的梯度方差减小算法。为此，描述了过滤重新参数化RL(Filtering Reparameterised RL，FiRe-RL)。FiRe是一个与模型无关的框架，所述框架为基于模型的智能体提供提议采样分布，以确保减小梯度方差。除了在模型和环境中实现高效的梯度传播之外，FiRe还可以用作MB-RL的通用采样规则，而不考虑使用的是深度网络还是概率动态模型。

过滤重新参数化强化学习(简称FiRe)依赖于重要性加权策略更新方案，其中，提议采样分布经过明确训练以产生表现良好的轨迹。

最优提议分布

要从分布P中收集一组样本，需要考虑以下两个实现方式选项：直接从所述分布P进行采样；使用代理分布(也称为提议)Q来实现这一点。第一个选项是第二个选项的特例。当P≠Q时，应使用所述样本的接受/拒绝、加权或重新采样等技术来纠正使用替代分布引起的偏差。在重要性采样的情况下，蒙特卡洛采样的标准结果是，对于具有分布P和密度p的多变量随机变量X，相对于给定函数f最小化所述方差的具有密度q的分布不是对P本身，而是通过等式6给出。

q^*(x)∝p(x)‖f(x)‖ (6)

如上所述，在策略梯度RL设置中，所述目标通常是相对于所述策略参数检索所述效用函数预期梯度的无偏估计器。然而，如等式3所示，等式6采用的不是可以应用于最小化所述梯度的总方差的问题的形式，因为它采用的是子目标之和的形式。此外，在这种形式中，等式6用处不大，因为q的选择基于对f的形状的了解，这通常是未知的。因此，对于所提出的方法，使用替代选项，即学习参数化提议分布q_φ，所述参数化提议分布最小化平均梯度估计器的总方差。然后，可以如等式7所示来表示所得到的联合目标。

其中，

是尚未定义的平均回报梯度的估计器，

是轨迹平均总折旧回报的加权版本。

重要的是，在本文中所考虑的一系列基于模型的问题中，所检索的梯度的方差具有不同的起源。这是所述起始状态、所述策略和所述转移模型的随机性。因此，在这种背景下，提出在所述联合状态-动作空间中选择提议分布，这是一种不属于RL中使用的现有提议的方法。例如，MF-RL中的近端策略优化算法和其它重要性采样工具仅限于从所述动作空间进行采样的提议，而基于粒子的策略搜索算法的概率推理仅依赖于所述环境模型上的提议分布。

使用归一化流程的灵活、可训练的提议

选择所述提议是任何重要性采样算法的关键方面。在大多数情况下，无法以封闭形式检索所述最优提议。所提出的方法的目的是寻求一种通用方法，通过所述方法学习最小化所述平均梯度方差的提议分布，同时使方案尽可能通用、计算成本低廉并且在训练过程中对不断变化的策略和模型具有稳健性。关于最后一点，如等式6所示，所述提议的密度应与相关分布的密度相关。如果大多数样本都是在低密度位置绘制的，则得到的权重将具有高方差，并且粒子将具有低质量。提议目标相对于策略训练的不稳定性构成了另一个难以克服的挑战。如果

和q不以某种方式联系在一起，则所述模型或政策参数化分布的微小变化可能会对提议效率产生破坏性影响。因此，采用以保守方式被动地调整所述联合转移模型和策略的分布。也就是说，与

的差异可以任意缩小，并且可以轻松应对变化。

该分布采用归一化流(Normalising Flow，NF)的形式，即，对根据已知分布生成的随机变量应用的一组平滑双射变换。所提出的方法包括使用所述NF生成用于从所述联合目标分布生成样本的辅助变量。这些样本可能会重新参数化。

使用变量规则的变化，可以将预期表示为：

通过使用该提议系列，重要性权重现在仅为φ的函数，并且与T_θ无关，因此使得所述提议对策略和模型的变化具有稳健性。例如，这使得能够通过选择d维随机变量

的T_φ≡I_d，选择几乎随处匹配

的提议。

再次参考所述MB-RL背景，重点是找到针对随机变量

的提议，以生成轨迹的每个状态-动作对的随机样本。所述提议包括在所述模型和策略前向图

之前插入一系列变换

T_φ的形式可以从一大组双射函数中选择，所述一大组双射函数包括径向、平面、耦合、Sylvester、Householder流和许多其它函数。从符号的角度来看，由于所选择的提议的形式与所述策略参数无关，因此可以写成：

在这种等效的情况下，可以考虑两种替代但等效的提议形式：一种形式相对于所述辅助变量ξ：q_φ(ξ)；另一种形式相对于相应的轨迹

图3示出了以示意图形式呈现的数据生成过程的有向无环图。图3示出了该图或FiRe轨迹的流程图。来自基分布302的参数化分布图以正方形标记。辅助随机变量304以圆形标记。其中的确定性变换306以带有图案填充的圆形标记。将联合概率和提议图分解成其分量，即

和

其中g_φ是某个给定的递归神经网络单元。FiRe通过修改用于生成想象的状态和动作的辅助随机变量，来生成低方差加权策略梯度更新。

提出了一种用于解决上述问题的序贯蒙特卡洛算法。这是一种序贯蒙特卡洛算法(Sequential Monte Carlo，SMC)算法，其中，提议分布用于检索具有低方差梯度更新的轨迹。考虑到从中在任何时间1≤t≤H以及针对任何粒子1≤k≤K绘制K个轨迹的分布

可以使用等式9的简单公式推导出

的预期值的无偏估计器。

其中，所述重要性权重

通过

给出。如果

和

的值高度相关，这是对具有高奖励的轨迹进行采样的合理假设，则可以表明以下有偏但一致的估计器的方差低于等式9中显示的方差：

其中，

是自归一化权重。

所述LR和所述RP梯度采样方法均可与这些估计器一起使用。为了使用所述RP梯度，可以使用均匀分布的辅助随机变量ξ～P₀，以根据θ重新参数化所述轨迹。在序贯重要性采样算法的背景下出现的困难在于，不支持自由更改变量

因为现在必须根据q_θ,φ而不是

对

进行采样。可以使用以下有偏但一致的估计器来估计所述策略梯度的所述RP形式

其中，假设状态-动作对是根据q_θ,φ生成的。换言之，可以通过根据

加权所述轨迹的有偏重新参数化版本，从提议的轨迹中检索所述SIS重新参数化策略梯度。

遗憾的是，无法以封闭形式推导出通过等式11给出的所述估计器的所述总方差，因为它涉及期望比。使用增量法，推导出自归一化梯度总方差的以下近似值：

其中，

和

是时间步长t处所述梯度分量的(未知)预期值。

等式6示出了在非顺序情况下使用简单的非自归一化重要性估计器时的最优提议。所提议的方差公式和自归一化估计器的使用促使形成所述自归一化提议q_φ(ξ)，所述自归一化提议最小化等式12中的总方差公式，并通过等式13给出。

当t>2时 (13)

通过递归进行：首先，通过求解以下等式，使用变分法找到

由此得出

然后，找到q₂≡q_φ(ξ₂∣ξ₁)的最优值，并且类似地找到

将q^*(ξ₁)代入该表达式可得出等式13，其中t＝2。其余步骤通过递归进行。

所述总方差可以理解为轨迹和起始状态的内积的预期值(为了简明起见省略了这些)，并由此得出以下估计器：

其中，e_U是长度为U的单个向量，

是

的自归一化实现。

然后，假设可以访问函数值

则可以考虑任意实数矩阵

以及所述矩阵

的K个实现。然后，下面的恒等式保持并提供K个方差分量的可计算估计值：

其中，

其中，

是具有值

长度为H的实数向量的自归一化估计值。

对于最小化通过等式12给出的数量的任务，所述目标可以定义为使用相对于所述提议参数的重新参数化梯度来找到最小化通过等式12给出的损失的分布q_φ。

对于通过最小化所述平均梯度方差估计值优化的重新参数化提议分布，可以推导出以下梯度公式。

其中，η_t(ξ)＝w_φ(ξ_≤t)δ_t(T_θ(ξ_≤t)) (16)

该估计器使用双重新参数化技术，来避免原始重新参数化梯度估计值的似然比项。

由于所述提议分布可能与最优组态具有任意距离，因此当序列相当长时，上述提出的方法可能表现不佳。可以依赖多种技术来诊断不良粒子组态，例如预期样本量(Expected Sample Size，ESS)。

只要所述策略的梯度为1，就可以使用所述策略的所述目标的其它几种形式。可以使用替代值估计，使得可以在未完成整个想象序列的情况下估计回报，而不是计算范围H的轨迹上的纯模拟回报。

对于要实现的当前所提出方法的所述提议，要求是灵活的，因此所述方法可以应用于大量现有模型。可以对其应用所提出方法的模型的典型示例是Dreamer。

Dreamer是一种基于模型的算法，旨在基于像素离线学习策略，例如，机器人移动、汽车驾驶或打游戏等视频。谷歌(RTM)于2019年发布Dreamer。基于像素的强化学习是一项困难的任务，因为它需要特征提取算法将图像中包含的信息转换为有意义的内容，所述策略可以使用这些内容来决定要采取的动作。Dreamer使用单独训练的卷积神经网络构建视频的低维嵌入表示。这使得能够在该嵌入空间中学习策略，而不是使用全像素域。使用重新参数化计算随机梯度估计值：所述梯度通过所述模拟轨迹，因此可能会受到值激增或降至零的影响，这是诸如此类的典型递归模型问题。

所提出的方法的工作原理是在所述策略训练期间在线计算所述更新的方差估计，然后提出提供更高效更新的替代低方差轨迹。这是通过在所述模型和所述策略之上插入所描述的提议分布来实现的。因此，可以假设所述模型不会以任何有意义的方式改变。

因此，所提出的方法允许在较长轨迹上进行训练，具有更快的学习速率并且使用的样本更少。这使得训练更具样本效率。因此，只需与所述环境进行较少交互即可达到合理的性能水平。这意味着对算法进行更具成本效益的训练，这在基于模型的强化学习算法开发机器人策略时非常重要。许多更常用的MB-RL算法可以受益于所提出的方法，例如DeepPILCO和MB-MPO算法。

上述参数化策略可以包括神经网络模型。参数化策略可以由上述装置或方法形成。因此，通过使用由其形成所述参数化策略的装置或方法，所述参数化策略可以表现出上述特性。在本文中，还提供了一种处理装置，包括一个或多个处理器，所述一个或多个处理器用于接收输入，并通过上述参数化策略处理所述输入。

申请人在此单独公开了本文中描述的每个单独特征以及两个或多个此类特征的任何组合，在某种程度上，这样的特征或组合能够根据本领域技术人员的公知常识基于本说明书作为一个整体来执行，无论这些特征或特征的组合是否解决了本文公开的任何问题，并且不限制权利要求的范围。申请人指出，本发明的方面可以包括任何这样的单独特征或特征的组合。鉴于上述描述，本领域技术人员将明显地看到，在本发明的范围内可以进行各种修改。

Claims

1.一种用于根据提议分布(202)训练参数化策略(204)的装置，其特征在于，所述装置包括一个或多个处理器，所述一个或多个处理器用于重复执行以下步骤：

根据所述提议分布形成提议；

将所述提议输入到所述策略中，以根据所述提议的所述策略形成输出状态；

估计所述输出状态与所述提议的优选状态之间的损失(206)；

通过自适应算法并根据所述损失形成策略自适应；

对所述策略应用(210)所述策略自适应，以形成自适应策略；

通过所述自适应策略，形成所述策略自适应的方差估计值；

根据所述方差估计值，自适应(212)所述提议分布，以减小在所述步骤的后续迭代中形成的策略自适应的方差。

2.根据权利要求1所述的装置，其特征在于，所述提议是伪随机数序列。

3.根据权利要求1或2所述的装置，其特征在于，所述提议分布是参数化提议分布。

4.根据权利要求3所述的装置，其特征在于，所述自适应所述提议分布的步骤包括自适应所述提议分布的一个或多个参数。

5.根据上述权利要求中任一项所述的装置，其特征在于，包括以下步骤：

对所述策略自适应中的噪声进行第一次估计；

对所述噪声依赖于所述提议的程度进行第二次估计；

根据所述第二次估计，自适应所述提议分布。

6.根据上述权利要求中任一项所述的装置，其特征在于，所述提议分布由梯度方差估计器自适应，从而将所述策略自适应的方差估计值作为输入。

7.根据权利要求6所述的装置，其特征在于，所述方差估计器是随机估计器。

8.根据上述权利要求中任一项所述的装置，其特征在于，所述提议通过对所述提议分布进行随机采样而形成。

9.根据上述权利要求中任一项所述的装置，其特征在于，所述自适应算法以抑制连续迭代中所述自适应的方差的方式对轨迹进行采样。

10.根据上述权利要求中任一项所述的装置，其特征在于，所述自适应算法形成策略梯度，并通过随机优化所述策略梯度来形成所述自适应。

11.根据上述权利要求中任一项所述的装置，其特征在于，所述参数化策略包括神经网络模型。

12.一种用于根据提议分布(202)训练参数化策略(204)的方法，其特征在于，所述方法包括重复执行以下步骤：

根据所述提议分布形成提议；

估计所述输出状态与所述提议的优选状态之间的损失(206)；

通过自适应算法并根据所述损失形成策略自适应；

对所述策略应用(210)所述策略自适应，以形成自适应策略；

通过所述自适应策略，形成所述策略自适应的方差估计值；

13.一种参数化策略(204)，其特征在于，所述参数化策略由根据权利要求1至11所述的装置或根据权利要求12所述的方法形成。

14.一种处理装置，其特征在于，包括一个或多个处理器，所述一个或多个处理器用于接收输入，并通过权利要求13所述的参数化策略(204)处理所述输入。