CN114219066A

CN114219066A - 基于瓦瑟斯坦距离的无监督强化学习方法及装置

Info

Publication number: CN114219066A
Application number: CN202111270803.5A
Authority: CN
Inventors: 季向阳; 何舜成; 蒋雨航
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-03-22

Abstract

本发明公开了一种基于瓦瑟斯坦距离的无监督强化学习方法及装置，该方法包括获取智能体的当前策略引导得到的轨迹里的状态分布；计算状态分布与其他历史策略得到的轨迹里的状态分布之间的瓦瑟斯坦距离；根据瓦瑟斯坦距离计算智能体的伪回报，并以伪回报代替目标强化学习框架中的环境反馈的回报，引导智能体的当前策略与其他历史策略保持大的距离。该方法利用瓦瑟斯坦距离，来鼓励无监督强化学习框架下的算法能够训练得到多样化的策略或技能。

Description

基于瓦瑟斯坦距离的无监督强化学习方法及装置

技术领域

本发明涉及深度学习技术领域，特别涉及一种基于瓦瑟斯坦距离的无监督强化学习方法及装置。

背景技术

强化学习是机器学习领域中较为复杂的一个研究领域，针对的是解决一类序列决策问题。在这一类序列决策问题中，智能体被设定为需要从环境中感知信息(例如无人驾驶车视觉传感器获取的视觉信息，机械臂的角度、速度等状态信息)，通过内置的策略模型计算得到动作，再施加给环境，如此反复与环境交互。在强化学习中，智能体的目标是最大化从环境反馈的回报。与传统的自然语言处理、计算机视觉领域的算法不同，强化学习方法致力于解决更普遍的一类问题，如人机交互、博弈、机器人控制等等，同时也可以应用到自然语言处理、计算机视觉领域。因此强化学习在实现通用人工智能上具有广阔前景，是目前的前沿研究领域。

与前述的经典强化学习相比，无监督强化学习致力于使得智能体在没有环境反馈的回报时，依旧成功地学习一系列策略或技能。当再次可以获取到环境的反馈时，这些学到的策略或技能可以被视作预训练模型来加速训练进程；当在分层强化学习中时，这些学到的策略或技能则可作为原始选项。在无监督强化学习中，关键的问题是如何能够学习出一系列更加多样化的策略或技能，来帮助智能体更加有效的探索状态空间。

现有的多数无监督强化学习算法主要通过给模型输入一个隐变量，并通过最大化互信息的方式来间接控制智能体的行为表现。进而每次通过改变隐变量的值来获取到一系列多样化的策略或技能。

对互信息的计算可以等价为对两个条件概率分布之间的JS散度(Jensen-Shannondivergence，琴生-香农散度，一种两个概率分布间差异的度量方法)的计算，因此这些基于互信息的方法受限于JS散度本身的局限，仅仅满足于能够成功区分出不同的策略或技能，而不能鼓励不同的策略之间尽可能保持大的差异性，所以在对状态空间的探索上依旧存在着效率不足的问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于瓦瑟斯坦距离的无监督强化学习方法，该方法可以利用瓦瑟斯坦距离，来鼓励无监督强化学习框架下的算法能够训练得到多样化的策略或技能。

本发明的另一个目的在于提出一种基于瓦瑟斯坦距离的无监督强化学习装置。

为达到上述目的，本发明一方面实施例提出了一种基于瓦瑟斯坦距离的无监督强化学习方法，包括以下步骤：

获取智能体的当前策略引导得到的轨迹里的状态分布；

计算所述状态分布与其他历史策略得到的轨迹里的状态分布之间的瓦瑟斯坦距离；以及

根据所述瓦瑟斯坦距离计算所述智能体的伪回报，并以所述伪回报代替目标强化学习框架中的环境反馈的回报，引导所述智能体的当前策略与所述其他历史策略保持大的距离。

为达到上述目的，本发明另一方面实施例提出了一种基于瓦瑟斯坦距离的无监督强化学习装置，包括：

获取模块，用于获取智能体的当前策略引导得到的轨迹里的状态分布；

计算模块，用于计算所述状态分布与其他历史策略得到的轨迹里的状态分布之间的瓦瑟斯坦距离；以及

学习模块，用于根据所述瓦瑟斯坦距离计算所述智能体的伪回报，并以所述伪回报代替目标强化学习框架中的环境反馈的回报，引导所述智能体的当前策略与所述其他历史策略保持大的距离

本发明实施例的基于瓦瑟斯坦距离的无监督强化学习方法及装置，提供了一种基于瓦瑟斯坦距离的无监督强化学习框架，为现有的无监督强化学习领域提供了新的问题解决思路。现有的基于互信息的算法局限于无法鼓励策略或技能间保持较大距离，从而存在对状态空间探索效率不足的问题。本发明提供的方法则能够通过“伪回报”的方式，鼓励智能体习得差异较大的不同策略，从而能够更有效地探索状态空间，为在环境给予回报时迅速适应任务目标提供了更多样化的预训练模型。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于瓦瑟斯坦距离的无监督强化学习方法流程图；

图2为根据本发明一个实施例的基于瓦瑟斯坦距离的无监督强化学习框架中物理量关系图；

图3为根据本发明一个实施例的基于瓦瑟斯坦距离的无监督强化学习框架中循环示意图；

图4为根据本发明一个实施例的回报分摊算法中循环示意图；

图5为根据本发明一个实施例的基于瓦瑟斯坦距离的无监督强化学习装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于瓦瑟斯坦距离的无监督强化学习方法及装置。

首先将参照附图描述根据本发明实施例提出的基于瓦瑟斯坦距离的无监督强化学习方法。

图1为根据本发明一个实施例的基于瓦瑟斯坦距离的无监督强化学习方法流程图。

如图1所示，该基于瓦瑟斯坦距离的无监督强化学习方法包括以下步骤：

在步骤S101中，获取智能体的当前策略引导得到的轨迹里的状态分布。

在步骤S102中，计算所述状态分布与其他历史策略得到的轨迹里的状态分布之间的瓦瑟斯坦距离。

本发明为基于瓦瑟斯坦距离来使智能体学会一系列多样化的策略的框架，在本框架下，鼓励智能体的不同策略之间的差异性尽可能大，进而能够更高效地探索状态空间。

在步骤S103中，根据瓦瑟斯坦距离计算智能体的伪回报，并以伪回报代替目标强化学习框架中的环境反馈的回报，引导智能体的当前策略与其他历史策略保持大的距离。

可选地，在本发明的一个实施例中，根据瓦瑟斯坦距离计算智能体的伪回报，包括：利用智能体的策略模型，以智能体的当前观测得到的状态变量，进行决策得到动作变量，进而与环境产生交互，得到伪回报。

可选地，在本发明的一个实施例中，在计算智能体的伪回报之后，还包括：采用深度强化学习框架，利用梯度反向传播优化智能体的策略模型。

为了使得智能体能够在无法获取到环境的反馈时(有时也可以认为不明确指定目标任务时)，依旧能够高效、充分地探索状态空间，本发明提供一种基于瓦瑟斯坦距离的无监督强化学习框架，使得智能体能够自发的训练得到多种相互之间差异性尽可能大的不同策略，来对状态空间进行充分的探索。在本发明的框架下，将智能体当前策略所引导得到的轨迹里的状态分布，与历史的其他策略得到的轨迹里的状态分布之间，计算得到瓦瑟斯坦距离，进而通过该距离计算得到智能体的“伪回报”，并以此“伪回报”代替传统强化学习框架中的环境反馈的回报，从而鼓励引导智能体的策略与历史中曾有过的策略尽可能保持大的距离。在实际使用时，使用人工神经网络作为智能体的策略模型，依据智能体当前观测得到的状态变量来做决策得到动作变量，进而与环境产生交互。在获得“伪回报”后，采用深度强化学习框架，利用梯度反向传播来优化智能体的策略网络。

图2展示了基于瓦瑟斯坦距离的无监督强化学习框架中物理量关系，下面通过具体实施例和附图对本发明的基于瓦瑟斯坦距离的无监督强化学习方法进行说明。

不妨令p，q分别表示在域

上的两个分布，用Γ[p，q]来表示在域

上所有边际分布分别为p，q的联合分布，那么在给定一个合适的代价函数

来衡量将每个x运输到y的代价时，瓦瑟斯坦距离被设计用于衡量这样两个分布之间的差异性：

对瓦瑟斯坦距离的估计方式基本可以分为原始形式估计与对偶形式估计两大类，也由此引导了在本发明的框架中的几种不同的算法。

第一种算法使用瓦瑟斯坦距离的对偶形式估计。定义集合

不妨令

表示两个连续函数，则依据Fenchel-Rockafellar对偶性可以得到瓦瑟斯坦距离的对偶形式：

而当

时，即两个分布在同一个空间中时，依据Kantorovich-Rubinstein对偶性可以得到另一种对偶形式：

根据以上结果可以得到本发明提供的第一种算法(I)：

首先初始化两个策略网络

和

以及两个策略网络对应的样本池D₁＝{}，D₂＝{}，初始化测试函数网络μ，v(见式(2))或f(见式(3))。之后，在达到预设的迭代次数前，重复如下步骤1-3，示意图如图3所示。

步骤1、选取特定策略网络

随机或依次轮流选择其中一个策略网络l∈{1，2}。

步骤2、由智能体与环境交互获得经验数据

在t时刻，不妨令智能体观测到的环境状态变量为s_t。智能体内部从观测量到动作向量的映射由端到端的深度神经网络组成。若观测量为图片信息，采取卷积神经网络进行处理；若观测量为向量信息，采取多层感知机进行处理。智能体将自身观测到的s_t输入策略网络

从而得到动作变量a_t，而环境接受到a_t后根据其内部的状态转移方程得到下一时刻的状态变量s_t+1，依据本发明提供的框架下根据下式计算得到“伪回报”。

进而将相应的样本添加进对应的样本池：D_l＝D_l∪{(s_t，a_t，s_t+1，r_t)}。

步骤3、训练智能体的策略网络和测试函数网络

从步骤2中的样本池中采样，利用深度强化学习算法，通过梯度反向传播来优化智能体的策略网络。在本发明的实施中，深度强化学习算法的选择是可调整、多样化的，根据经验，选择算法SAC(Soft Actor-Critic，软演员-评论家算法)有较好的效果。另一方面，利用采样得到的样本依据式(2)或式(3)来优化测试函数网络，从而得到更准确的瓦瑟斯坦距离估计。

相应的，使用瓦瑟斯坦距离的原始形式估计，可以推导出本发明提供的另一种算法(II)：

首先初始化两个策略网络

以及两个策略网络对应的样本池D₁＝{}，D₂＝{}。之后，在达到预设的迭代次数前，重复如下步骤1-3，示意图如图3所示。

步骤1、选取特定策略网络

随机或依次轮流选择其中一个策略网络l∈{1，2}，初始化轨迹S＝{}。

步骤2、由智能体与环境交互获得经验数据

与前述第一种算法步骤2类似，在t时刻，智能体观测到的环境状态变量为s_t。智能体内部从观测量到动作向量的映射由端到端的深度神经网络组成。智能体将自身观测到的s_t输入策略网络从而得到动作变量a_t，而环境接受到a_t后根据其内部的状态转移方程得到下一时刻的状态变量s_t+1，将状态变量加进轨迹中S＝S∪{s_t+1}。

若该条轨迹在该时刻结束，则从样本池D_3-l采样一批状态变量样本

使用瓦瑟斯坦原始形式估计计算得到“伪回报”

否则r_t＝0。

将相应的样本添加进对应的样本池：D_l＝D_l∪{(s_t，a_t，s_t+1，r_t)}。

步骤3、训练智能体的策略网络

与前述第一种算法步骤3类似，从相应的样本池中采样，利用深度强化学习算法，通过梯度反向传播来优化智能体的策略网络。在本发明的实施中，深度强化学习算法的选择是可调整、多样化的，根据经验，选择算法SAC有较好的效果。

上述的两种算法仍旧存在一定的缺陷：a)基于对偶形式估计的算法无法很好的推广到三个以上的不同策略的训练。b)基于原始形式估计的算法的“伪回报”过于稀疏，对于深度强化学习算法来说是一个较大的挑战。

因此，本发明提供了第三种能够很好解决以上局限的算法。首先，为了能够训练得到三个以上的不同策略，在该算法中采用瓦瑟斯坦距离的原始形式估计，并将所有非当前策略的策略得到的状态变量的平均分布作为需要保持最大距离的目标分布。为解决稀疏“伪回报”问题，本发明对第二种算法中的步骤2中对“伪回报”的计算方法进行了优化，提供了如下回报分摊算法(III)：

给定一批状态变量样本

和要保持距离的目标分布的状态变量样本

并假定这两批样本的分布

计算得到代价矩阵C_N×M。给定循环次数K，重复如下步骤1-3，示意图如图4所示。

步骤1、采样投影向量

从在d-1维的单位圆

上的均匀分布

上随机采样得到v_k

步骤2、计算投影后的样本

计算得到投影后的样本：

步骤3、依据步骤2的投影后的样本计算匹配矩阵

进而计算得到“伪回报”向量

根据以上结果计算得到“伪回报”

根据本发明实施例提出的基于瓦瑟斯坦距离的无监督强化学习方法，提供了一种基于瓦瑟斯坦距离的无监督强化学习框架，为现有的无监督强化学习领域提供了新的问题解决思路。现有的基于互信息的算法局限于无法鼓励策略或技能间保持较大距离，从而存在对状态空间探索效率不足的问题。本发明提供的方法则能够通过“伪回报”的方式，鼓励智能体习得差异较大的不同策略，从而能够更有效地探索状态空间，为在环境给予回报时迅速适应任务目标提供了更多样化的预训练模型。

其次参照附图描述根据本发明实施例提出的基于瓦瑟斯坦距离的无监督强化学习装置。

如图5所示，该基于瓦瑟斯坦距离的无监督强化学习装置包括：获取模块100、计算模块200和学习模块300。

其中，获取模块100，用于获取智能体的当前策略引导得到的轨迹里的状态分布。计算模块200，用于计算状态分布与其他历史策略得到的轨迹里的状态分布之间的瓦瑟斯坦距离。学习模块300，用于根据瓦瑟斯坦距离计算智能体的伪回报，并以伪回报代替目标强化学习框架中的环境反馈的回报，引导智能体的当前策略与其他历史策略保持大的距离。

可选地，在本发明的一个实施例中，计算模块，进一步用于，利用智能体的策略模型，以智能体的当前观测得到的状态变量，进行决策得到动作变量，进而与环境产生交互，得到伪回报。

可选地，在本发明的一个实施例中，还包括：优化模块，用于在计算智能体的伪回报之后采用深度强化学习框架，利用梯度反向传播优化智能体的策略模型。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于瓦瑟斯坦距离的无监督强化学习装置，提供了一种基于瓦瑟斯坦距离的无监督强化学习框架，为现有的无监督强化学习领域提供了新的问题解决思路。现有的基于互信息的算法局限于无法鼓励策略或技能间保持较大距离，从而存在对状态空间探索效率不足的问题。本发明提供的方法则能够通过“伪回报”的方式，鼓励智能体习得差异较大的不同策略，从而能够更有效地探索状态空间，为在环境给予回报时迅速适应任务目标提供了更多样化的预训练模型。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于瓦瑟斯坦距离的无监督强化学习方法，其特征在于，包括以下步骤：

获取智能体的当前策略引导得到的轨迹里的状态分布；

2.根据权利要求1所述的方法，其特征在于，所述根据所述瓦瑟斯坦距离计算所述智能体的伪回报，包括：

利用所述智能体的策略模型，以所述智能体的当前观测得到的状态变量，进行决策得到动作变量，进而与环境产生交互，得到所述伪回报。

3.根据权利要求1所述的方法，其特征在于，在计算所述智能体的伪回报之后，还包括：

采用深度强化学习框架，利用梯度反向传播优化所述智能体的策略模型。

4.根据权利要求1或2所述的方法，其特征在于，所述瓦瑟斯坦距离为对偶形式估计。

5.根据权利要求3所述的方法，其特征在于，所述瓦瑟斯坦距离为对偶形式为原始形式估计。

6.根据权利要求3所述的方法，其特征在于，所述瓦瑟斯坦距离为原始形式估计，并将所有非当前策略的策略得到的状态变量的平均分布作为需要保持最大距离的目标分布。

7.一种基于瓦瑟斯坦距离的无监督强化学习装置，其特征在于，包括：

学习模块，用于根据所述瓦瑟斯坦距离计算所述智能体的伪回报，并以所述伪回报代替目标强化学习框架中的环境反馈的回报，引导所述智能体的当前策略与所述其他历史策略保持大的距离。

8.根据权利要求7所述的装置，其特征在于，所述计算模块，进一步用于，利用所述智能体的策略模型，以所述智能体的当前观测得到的状态变量，进行决策得到动作变量，进而与环境产生交互，得到所述伪回报。

9.根据权利要求7所述的装置，其特征在于，还包括：

优化模块，用于在计算所述智能体的伪回报之后采用深度强化学习框架，利用梯度反向传播优化所述智能体的策略模型。