CN110033096B

CN110033096B - 一种用于强化学习的状态数据生成方法和系统

Info

Publication number: CN110033096B
Application number: CN201910172638.6A
Authority: CN
Inventors: 卢宗青; 姜杰川
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2021-04-02
Anticipated expiration: 2039-03-07
Also published as: CN110033096A

Abstract

本申请公开了一种用于强化学习的状态数据生成方法和系统，包括：获取智能体在第一学习阶段的所有第一状态数据，并获取第一状态数据中距学习目标符合预设步数范围的第二状态数据；用第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量；将第二状态数据输入已训练好的所述编码器，得到多个第二潜在变量；从第一潜在变量和第二潜在变量中选出符合预设条件的第三潜在变量；将第三潜在变量输入变分自动编码机的解码器，生成第二学习阶段的初始状态数据。通过生成新的状态数据，使智能体以一定概率从新的状态数据而非原始状态数据开始探索，缩短了探索用时，增加了奖励次数，适用于任何强化学习方法。

Description

一种用于强化学习的状态数据生成方法和系统

技术领域

本申请涉及深度强化学习领域，尤其涉及一种用于强化学习的状态数据生成方法和系统。

背景技术

深度强化学习(Deep Reinforcement Learning，DRL)已经在围棋、机械臂等连续决策任务中取得显著成功。在强化学习中(Reinforcement Learning，RL)，智能体(Agent)通过观察环境(Environment)状态(State)，选择回报(Reward)期望最大的动作，并接收环境给出的反馈。通过时序差分或策略梯度的方法进行训练，或者二者结合的演员-评论家算法(Actor-Critic Algorithm)。然而在现实应用中，一个常见的问题是奖励(Reward)稀疏，一些任务只有在完成目标时才能获得奖励，其他情况下奖励均为零。并且目标很难通过传统的探索策略探索到，这给训练智能体带来巨大挑战。在这种情境下，通过精心设计来改变奖励函数使其不再稀疏并不可行，因为这需要依赖专家经验且容易偏离最初目标，使得智能体策略产生偏差。

目前有很多方法为解决这一问题而设计。例如采集专家的行为并利用模仿学习，然而专家行为的采集本身就是很困难的。事后经验回放(Hindsight Experience Replay，HER)通过设置一些不同于最初设定的目标，这本质上是一种数据增强的方法，且学到的目标通常不是最终的目标。探索类的方法可以分为两类，基于计数的探索和基于好奇心的探索。它们都是通过量化状态的新奇度并作为一个内部的奖励来激励智能体探索新的状态。但是内部奖励的引入偏离了最初的目标，且容易带来训练过程的不稳定。

综上所述，需要提供一种奖励次数多，不偏离目标且训练过程稳定的状态生成方法与系统。

发明内容

为解决以上问题，本申请提出了一种用于强化学习的状态数据生成方法和系统。

一方面，本申请提出一种用于强化学习的状态数据生成方法，包括：

获取智能体在第一学习阶段的所有第一状态数据，以及，获取所有第一状态数据中距学习目标符合预设步数范围的第二状态数据；

利用所述所有第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量；

将所述第二状态数据输入所述已训练好的变分自动编码机的编码器，得到多个第二潜在变量；

采用拒绝采样算法，从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量；

将所述第三潜在变量输入所述变分自动编码机的解码器，生成所述智能体在第二学习阶段的初始状态数据。

优选地，所述利用所述所有第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量，包括：

利用所述所有第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器；

对所述编码器的隐空间进行采样，得到多个第一潜在变量。

优选地，所述将所述第二状态数据输入所述已训练好的变分自动编码机的编码器，得到多个第二潜在变量，包括：

对第二状态数据进行采样；

将采样到的第二状态数据输入所述已训练好的变分自动编码机的编码器中，得到与各状态数据对应的潜在变量；

对所述潜在变量进行高斯采样，得到多个第二潜在变量。

优选地，所述采用拒绝采样算法，从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量，包括：

从第一潜在变量和第二潜在变量中选取一个向量，将所述向量放入概率密度函数中计算，得到第一比较值；

从0至常数函数的区间内随机选择一个值作为第二比较值；

若所述第一比较值小于所述第二比较值，则将所述第一比较值对应的向量确定为第三潜在变量。

优选地，所述将所述向量放入概率密度函数中计算之前，还包括：

使用核密度估计对编码器的隐空间中的多维均值向量进行估计，得到概率密度函数。

优选地，所述编码器的隐空间中的多维均值向量为使用第一状态数据训练变分自动编码机后得到的向量。

优选地，所述从0至常数函数的区间内随机选择一个值作为第二比较值之前，还包括：

使用概率密度函数中的值构造常数函数。

优选地，所述智能体在第二学习阶段，按照设定的概率，以生成的初始状态数据为起点开始运行。

优选地，所述第一状态数据存储在第一缓冲区，所述第二状态数据存储在第二缓冲区。

第二方面，本申请提出一种用于强化学习的状态数据生成系统，包括：

事件存储模块，用于存储智能体在第一学习阶段的所有第一状态数据，以及，存储所有第一状态数据中距学习目标符合预设步数范围的第二状态数据；

训练与处理模块，用于使用所有第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量；将所述第二状态数据输入所述已训练好的变分自动编码机的编码器，得到多个第二潜在变量；

采样与筛选模块，用于使用拒绝采样算法，从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量；

状态生成模块，用于将所述第三潜在变量输入所述变分自动编码机的解码器，生成所述智能体在第二学习阶段的初始状态数据；

集合存储模块，用于存储各潜在变量。

本申请的优点在于：收集智能体所经历的事件中的所有状态，对变分自动编码机进行训练，减少训练过程的不稳定；用训练好的变分自动编码机的编码器对筛选出的状态数据进行计算，生成新的状态数据，使智能体以一定概率从新生成的状态数据而非原始状态数据(事件的初始状态)开始探索，缩短了探索所需时间，增加了奖励的次数；通过筛选出在一定阈值范围内的状态数据，并根据这些状态数据生成新的状态，不会偏离最初的目标；通过使用事件中的状态数据并生成新的状态数据，能够动态地平衡强化学习中的探索与利用，并且能够配合任何强化学习方法使用且不依赖于先验知识与专家经验，具有很强的实用性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的，而并不认为是对本申请的限制。而且在整个附图中，用同样的参考符号表示相同的部件。在附图中：

图1是本申请提供的一种用于强化学习的状态数据生成方法的步骤示意图；

图2是本申请提供的一种用于强化学习的状态数据生成方法的确定第三潜在变量的示意图；

图3是本申请提供的一种用于强化学习的状态数据生成系统的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本申请的实施方式，提出一种用于强化学习的状态数据生成方法，如图1所示，包括：

S101，获取智能体在第一学习阶段的所有第一状态数据，以及，获取所有第一状态数据中距学习目标符合预设步数范围的第二状态数据；

S102，利用所述所有第一状态数据训练变分自动编码机(Variational Auto-Encoder，VAE)，得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量；

S103，将所述第二状态数据输入所述已训练好的变分自动编码机的编码器，得到多个第二潜在变量；

S104，采用拒绝采样算法，从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量；

S105，将所述第三潜在变量输入所述变分自动编码机的解码器，生成所述智能体在第二学习阶段的初始状态数据。

所述第一状态数据存储在第一缓冲区，所述第二状态数据存储在第二缓冲区。

在训练过程，第一缓冲区用于存储智能体近期经历过的所有状态(第一状态数据)，第二缓冲区用于存储在当前策略下易于到达目标的状态(第二状态数据)，第二状态数据为距离目标的步数在预设步数(人工设定)的上下界内的状态数据。

以预设步数为50步至52步为例，则第一状态数据中的所有能够用50步达到目标的状态、所有能够用51步达到目标的状态和所有能够用52步达到目标的状态，都为符合预设步数范围的第二状态数据。

在开始训练时，第二缓冲区通常是空的。

每经历多个事件，用第一缓冲区中存储的第一状态数据训练变分自动编码机。

所述多个事件的事件个数可以设定。

所述预设步数的上下界可以设定。

在每次事件开始时，智能体根据预设的概率，以生成的状态数据为起点，开始运行。若没有生成的状态数据，则以事件原点为起点，开始运行。

所述利用所述所有第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量，包括：

对所述编码器的隐空间(Latent Space)进行采样，得到多个第一潜在变量。

所述采样包括随机采样。

所述编码器的隐空间用多维均值向量和多维方差向量表示。

所述第一潜在变量包括多维均值向量和多维方差向量。

所述采样到的各第一潜在变量组成第一集合(Z₁)。

所述将所述第二状态数据输入所述已训练好的变分自动编码机的编码器，得到多个第二潜在变量，包括：

对第二状态数据进行采样；

对所述潜在变量进行高斯采样，得到多个第二潜在变量。

所述与各状态数据对应的潜在变量包括多维均值向量和多维方差向量。

若第二缓冲区不为空，即有距学习目标符合预设步数范围的第二状态数据，则从第二缓冲区中采样一个第二状态数据，将采样到的第二状态数据输入所述已训练好的变分自动编码机的编码器中，得到与此状态数据对应的潜在变量(多维均值向量和多维方差向量)。对所述多维均值向量和多维方差向量进行高斯采样，得到第二潜在变量。将所述第二潜在变量放入第二集合(Z₂)，并重复上述过程，直至第二集合(Z₂)中的第二潜在变量的数量与第一集合(Z₁)中的第一潜在变量的数量相等。

所述第二集合(Z₂)中的第二潜在变量包括多维向量。

所述采用拒绝采样算法，从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量，包括：

从0至常数函数的区间内随机选择一个值作为第二比较值；

重复这一过程直到确定(所选择)的第三潜在变量的数量等于设定的事件个数。

所述选取向量的方式包括随机选取。

所述从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量，即为从第一集合(Z₁)和第二集合(Z₂)的并集中，选出符合预设条件的第三潜在变量。

由于第一潜在变量包括多维均值向量和多维方差向量，第二集合中的第二潜在变量包括多维向量，所以，所述从第一潜在变量和第二潜在变量中选取一个向量中的所述向量，为多维向量。

所述将所述向量放入概率密度函数中计算之前，还包括：

使用核密度估计(Kernel Density Estimation，KDE)对编码器的隐空间中的多维均值向量进行估计，得到概率密度函数。

所述概率密度函数用f表示。

所述编码器的隐空间中的多维均值向量为使用第一状态数据训练变分自动编码机后得到的多维向量。

所述从0至常数函数的区间内随机选择一个值作为第二比较值之前，还包括：

使用概率密度函数中的值构造常数函数。

构造常数函数用的概率密度函数中的值可以是最大值。

所述常数函数为(1+∈)*max(f)。

其中∈为一个极小量，max(f)为概率密度函数f的最大值。

如图2所示，以从第一集合(Z₁)和第二集合(Z₂)的并集中选取一个多维向量

为例。将

放入概率密度函数f中计算，得到

(第一比较值)。从(0,(1+∈)*max(f))区间内随机选取一个值μ(第二比较值)。检查是否满足

如果满足，则接受

否则拒绝。重复这一过程直到接受的样本量等于设定的事件个数。

将所述各样本(第三潜在变量)放入第三集合

所述智能体在第二学习阶段，按照设定的概率，以生成的初始状态数据为起点开始运行。

根据本申请的实施方式，还提出一种用于强化学习的状态数据生成系统，如图3所示，包括：

事件存储模块101，用于存储智能体在第一学习阶段的所有第一状态数据，以及，存储所有第一状态数据中距学习目标符合预设步数范围的第二状态数据；

训练与处理模块102，用于使用所有第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量；将所述第二状态数据输入所述已训练好的变分自动编码机的编码器，得到多个第二潜在变量；

采样与筛选模块103，用于使用拒绝采样算法，从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量；

状态生成模块104，用于将所述第三潜在变量输入所述变分自动编码机的解码器，生成所述智能体在第二学习阶段的初始状态数据；

集合存储模块105，用于存储各潜在变量。所述各潜在变量包括：各第一潜在变量、各第二潜在变量和各第三潜在变量。

各所述第一潜在变量放入第一集合(Z₁)，各所述第二潜在变量放入第二集合(Z₂)，各所述第三潜在变量放入第三集合

变分自动编码机中的编码器将智能体的高维状态数据映射到一个有意义的近似服从高斯分布的低维空间，并利用核密度估计获得一段时间内智能体状态数据在低维空间中的概率密度函数。利用概率密度函数以及设计好的采样方法自适应地挑选符合条件的状态数据，使用变分自动编码机中的解码器解码(生成)出新的状态数据。

以在第一缓冲区中状态数据分布中具有较低概率密度的状态数据作为起始状态。较低的概率密度意味着该状态对智能体来说是陌生的，并且从该状态出发有利于探索更远的环境。随着探索的进行，原本新奇的状态逐渐变得普通，新的新奇的状态会被生成，促使智能体不断探索新的环境。探索的目的是获得奖励信号。当第二缓冲区不为空时，由于第二缓冲区中的状态数据本身概率较低，会生成大量的相似的状态数据，用于强化已学到的策略。随着策略的不断提升，对于一些原本在第二缓冲区中的初始状态数，智能体花费小于步数下界的步数即可完成，这种状态数据将不再符合第二缓冲区的定义，而其他更困难的状态数据将满足条件，即由第二缓冲区生成的起始状态数据经历一个由简到难的过程。

本申请的方法中，收集智能体所经历的事件中的所有状态，对变分自动编码机进行训练，减少训练过程的不稳定；用训练好的变分自动编码机的编码器对筛选出的状态数据进行计算，生成新的状态数据，使智能体以一定概率从新生成的状态数据而非原始状态数据(事件的初始状态)开始探索，缩短了探索所需时间，增加了奖励的次数，解决奖励稀疏的问题，对于机械臂、多智能体协作等实际应用有重要意义；通过筛选出在一定阈值范围内的状态数据，并根据这些状态数据生成对智能体有指导意义的新的状态，不会偏离最初的目标；通过使用事件中的状态数据并生成新的状态数据，能够动态地平衡强化学习中的探索与利用，并且能够配合任何强化学习方法使用且不依赖于先验知识与专家经验，具有很强的实用性。使用变分自动编码机生成状态数据，易于训练，不易坍塌。由于变分自动编码机能够将高维空间映射到低维空间，所以适用于高维状态数据空间；由于在隐空间中，相似的状态分布在隐空间相近的位置，所以能够从隐空间的某一点周围采样生成一系列相似但不相同的状态数据，这使得能够使用较少的参考样本获得较多的生成状态数据。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于强化学习的状态数据生成方法，其特征在于，包括：

将所述第三潜在变量输入所述变分自动编码机的解码器，生成所述智能体在第二学习阶段的初始状态数据；其中

从0至常数函数的区间内随机选择一个值作为第二比较值；

2.如权利要求1所述的一种用于强化学习的状态数据生成方法，其特征在于，所述利用所述所有第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量，包括：

对所述编码器的隐空间进行采样，得到多个第一潜在变量。

3.如权利要求1所述的一种用于强化学习的状态数据生成方法，其特征在于，所述将所述第二状态数据输入所述已训练好的变分自动编码机的编码器，得到多个第二潜在变量，包括：

对第二状态数据进行采样；

对所述潜在变量进行高斯采样，得到多个第二潜在变量。

4.如权利要求1所述的一种用于强化学习的状态数据生成方法，其特征在于，所述将所述向量放入概率密度函数中计算之前，还包括：

5.如权利要求4所述的一种用于强化学习的状态数据生成方法，其特征在于，所述编码器的隐空间中的多维均值向量为使用第一状态数据训练变分自动编码机后得到的向量。

6.如权利要求1所述的一种用于强化学习的状态数据生成方法，其特征在于，所述从0至常数函数的区间内随机选择一个值作为第二比较值之前，还包括：

使用概率密度函数中的值构造常数函数。

7.如权利要求1所述的一种用于强化学习的状态数据生成方法，其特征在于，所述智能体在第二学习阶段，按照设定的概率，以生成的初始状态数据为起点开始运行。

8.如权利要求1所述的一种用于强化学习的状态数据生成方法，其特征在于，所述第一状态数据存储在第一缓冲区，所述第二状态数据存储在第二缓冲区。

9.一种用于强化学习的状态数据生成系统，其用于实现权利要求1所述的方法，其特征在于，包括：

集合存储模块，用于存储各潜在变量。