CN113313265A

CN113313265A - 基于带噪声专家示范的强化学习方法

Info

Publication number: CN113313265A
Application number: CN202110624399.0A
Authority: CN
Inventors: 黄圣君; 宁鲲鹏
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-08-27

Abstract

本发明公开了一种基于带噪声专家示范的强化学习方法。强化学习在各种应用中取得了巨大的成功。为了学习有效的策略，智能体通常需要与环境进行大量的交互次数来获取数据，这会耗费大量的计算成本以及时间开销。为了解决这一挑战，基于示范的强化学习通过利用专家的监督信息能够显著的降低学习的迭代次数。然而，这些方法通常假设专家所提供的专家轨迹是完美的，从而导致学到的模型在实际应用中会被噪声轨迹所误导。本发明通过估计每例示范的潜在价值，在强调更有用的示范的同时过滤掉有噪声的示范，并同时探索环境以及利用专家示范进行策略的学习，有效地学得了鲁棒的智能决策模型。

Description

基于带噪声专家示范的强化学习方法

技术领域

本发明属于强化学习技术领域，具体涉及到利用专家轨迹信息来加速强化学习的相关方法。

背景技术

近几年，强化学习(Reinforcement Leaming，简称RL)作为一种构建智能体进行决策的方法在多个领域上取得了显著的进展。其目标是，然而，强化学习在取得巨大成功的同时，也暴露出了样本利用率低、收敛速度慢等众多问题。为了解决这类问题，一些研究者尝试着使用专家示范来加速强化学习的训练，简称RLED框架。其核心思想是强化学习算法可以通过将各种形式的先验知识整合到学习过程中，从而节省大量的经验。这些方法通常分为两个步骤，首先通过监督学习的方式对专家示范进行模仿学习，接着通过与环境探索进行标注的强化学习。这些方法通常假设专家所提供的示范轨迹是完美的不含噪声的，并且它们的最终目标是从这些示范中获得合适的行为。然而，在大多数实际应用场景中，所提供的示范通常包含严重的噪声甚至误导信息，这会导致之前的方法在带有噪声的专家示范中学习到的策略与真实策略不一致，从而导致其在真实场景的表现很差。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明考虑了一种更为实际的情况，即专家所提供的示范轨迹是包含噪声的，此外本发明还提供了一种基于带噪声专家示范的强化学习算法，

技术方案：为实现上述目的，本发明采用的技术方案为：

基于带噪声专家示范的强化学习方法，包括以下步骤：

步骤1：初始化环境ε，状态空间S，动作空间A，专家轨迹集合∑＝{σ¹，σ²，...，σ^m}；其中，m表示专家轨迹条数；

步骤2：初始化智能体策略π_θ，随机初始化网络参数为θ，内存H；

步骤3：让智能体与环境ε进行交互，将交互得到的元组(s_t-1，a_t-1，r_t，s_t)存放到内存H中，其中s_t-1，s_t∈S分别代表时刻t-1和时刻t的状态，a_t-1∈A代表时刻t-1的动作，r_t表示当前动作可得到的瞬时奖赏；

步骤4：根据当前智能体策略π_θ计算每个专家轨迹实例的权重

步骤5：根据与环境交互收集到的数据H以及专家所提供的示范进行梯度下降更新网络参数θ。

进一步的，所述步骤1对环境、状态空间、动作空间、专家轨迹集合初始化的具体方法为：

强化学习被形式化为一个马尔可夫决策过程M，即M＝(S，A，γ，P，R)，其中状态空间S是由状态构成的集合，动作空间A是由动作构成的集合，γ∈[0，1)为折扣因子，P是状态转移函数，R：(S×A)→R是奖赏函数；在每个时刻t，对于状态s_t∈S，智能体会根据其自身策略π_θ执行动作a_t∈A作用于环境ε，环境会返回当前动作可得到的瞬时奖赏r_t∈R以及下一个状态s_t+1；即环境ε由状态转移函数P以及奖赏函数R构成；

专家轨迹由状态s、动作a、奖赏序列r构成，每条轨迹σⁱ由若干个(状态s，动作a，奖赏序列r)实例构成，即

其中

代表专家第i条轨迹的第j个动作，

代表终止状态；收集m条专家轨迹构成专家示范集合∑＝{σ¹，σ²，...，σ^m}。

进一步的，所述步骤2初始化内存H，智能体策略π_θ以及其网络参数θ的具体方法为：

初始化额外的存储空间H为空集，用来存放每次迭代智能体与环境交互的数据；智能体策略π_θ由Actor和Critic两个网络构成，分别来预测当前状态所执行的动作以及当前状态的长远价值；两个网络均使用随机初始化的全连接网络，输入为环境所提供的状态s_t，输出分别为动作a_t以及长远价值V_θ(s_t)。

进一步的，所述步骤3智能体与环境ε交互的具体方法为：

首先，设当前时刻为t，智能体从环境ε获得状态s_t，并根据智能体策略π_θ采样得到动作a_t～π_θ(st)；执行动作a_t，从环境中得到瞬时奖赏r_t以及下一个状态s_t+1；接着，将交互得到的元组(s_t-1，a_t-1，r_t，s_t)存放到内存H中，接着根据新的状态s_t+1反复重复这一过程直到到达终止状态sT。

进一步的，所述步骤4中计算每个专家轨迹实例的权重的具体方法为：

通过估计专家轨迹中的每个实例

的价值来有选择性的利用专家示范的信息进行更好的强化学习；对于给定的状态

如果专家给出的动作

相比于当前的策略能够得到更高的期望奖赏，则表示专家策略优于当前智能体的策略；由此，定义如下的权重形式：

其中

其中，δ是一个超参数；

代表专家计算得到的状态-动作价值函数，估计了在状态

下执行动作

的长远奖赏回报；

是来自策略π的状态价值函数，估计了状态

的长远奖赏价值。

进一步的，所述步骤5中更新网络参数的具体方法为：

为了联合训练智能体同步的在探索环境以及模仿专家示范中学习，定义如下的联合目标函数l：

l＝l_d+λl_e

其中，l_d以及l_e分别代表模仿示范以及环境探索的损失函数，λ是一个权衡参数；

对于示范学习部分，目标为学得的策略π(·)能够最小化智能体的动作

和专家动作

的距离，使得智能体能够越来越和专家相似；因此，定义如下带权重的交叉熵损失函数：

通过最小化损失函数l_d，策略π将会被优化到产生和专家策略一致的动作；与此同时，有负面影响的噪声示范会被权重

消除掉；

对于环境探索部分，采用基于信用域的TRPO方法来定义损失函数l_e如下所示：

其中，π(a|s)表示状态s下执行动作a的概率，π^old是更新前的策略，

是一个优势函数的估计器，[]表示期望，KL[]表示KL散度函数，β是新策略和旧策略的最大信用域参数；

最后结合损失函数l_d以及l_e，在次迭代的过程中对网络参数θ进行梯度下降法更新。有益效果：本发明提供的基于带噪声专家示范的强化学习方法，通过动态的估计不同学习阶段下专家示范实例对智能体本身的潜在价值，有助于本方法以一种更为有效以及更为鲁棒地结合环境探索以及专家示范模仿的方式进行策略的学习，从而显著的降低了智能体与环境交互的代价，同时显著地提升了模型学习的效率以及性能。具体来说，本发明定义了基于环境探索以及专家轨迹利用的联合损失来进行策略的学习。一方面，实施策略梯度算法，使期望收益最大化；另一方面，定义了交叉熵损失来最小化智能体动作与示范动作之间的距离，使得模型能够尽快的学到专家示范的监督信息。此外，为了更为有效的利用专家轨迹的信息，给每个专家示范实例赋予一个权重来估计其对智能体的潜在价值。该权重被形式化为由专家计算得到的状态动作价值和由智能体本身估计的状态价值的差值，这个差异可以被看作是一个特定实例的价值函数的预期收益，从而衡量其对策略学习的潜在贡献。换句话来说，本发明一方面通过设置小的权重来过滤掉噪声或误导性的示范，另一方面通过设置大的权重来强调有用的权重。最后，通过对所有示范实例中最小化加权损失函数，专家示范能被充分的利用作为监督信息来帮助智能体进行环境探索。

附图说明

图1是基于带噪声专家示范的强化学习具体工作流程图；

图2是利用带噪声专家示范更新模型的流程图；

图3是通过探索环境更新模型的流程图；

图4是整个基于带噪专家示范的强化学习框架流程图；

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示为基于带噪声专家示范的强化学习具体工作流程图。本方法的整个过程分为两部分，一是通过探索环境进行传统的强化学习，二是通过利用带噪专家示范来更新模型从而加速强化学习进程。首先，初始化环境ε以及待学习的智能体策略π_θ。此外，还获得专家所提供的带噪声的示范轨迹集∑＝{σ¹，σ²，...，σ^m}。一方面，通过估计每个专家示范实例的潜在价值，得到带权重的交叉熵损失，从而最小化该损失来使得智能体有选择性地模仿专家轨迹。另一方面，让智能体探索环境并基于策略梯度的方式来最大化长远奖赏收益。最后，将两者合并成联合损失进行策略优化。随着模型的更新，专家示范的潜在价值能够更为准确得估计，与此同时，合理的利用专家示范能够帮助模型训练的收敛，二者相辅相成。

图2所示为利用带噪声专家示范更新模型的流程图。为解决强化学习算法收敛速度慢、交互次数多等问题，通过模仿专家示范的行为来加速强化学习的过程。但专家所提供的示范里通常不是完美的或包含噪声的，因此希望通过估计专家轨迹中的每个实例

的潜在价值来有选择性的利用专家示范的信息进行更好的强化学习。直观地来看，对于给定的状态

如果专家给出的动作

相比于当前的策略能够得到更高的期望奖赏，这意味着专家策略很可能优于当前智能体的策略，因此这样的示范是应当利用来提升策略网络的性能的。由此，定义如下的权重形式：

其中

其中δ是一个超参数，例如

可以看作是专家计算得到的状态-动作价值函数，它估计了在状态

下执行动作

的长远奖赏回报。注意到这一项是一个准确值，因为每条轨迹σⁱ是已知的。

是来自策略π的状态价值函数，其估计了状态

的长远奖赏价值。最终，噪声或误导性的示范通过设置小的权重来过滤掉，更有用的权重通过设置大的权重来强调。最后最小化如下带权重的交叉熵损失来拉近智能体策略与专家策略的距离：

显然，通过梯度下降方式对参数θ进行优化，策略π将会被优化到产生和专家策略一致的动作。与此同时，有负面影响的噪声示范会被权重

消除掉。

图3所示为通过探索环境更新模型的流程图。环境探索部分，本发明使用标准的强化学习流程来更新模型。具体来说，在每次迭代过程中，智能体会与环境交互得到一系列经验，接着计算带奖赏的最大似然函数并计算其梯度，使用梯度上升的方式来更新模型。核心思想是，如果探索过程中在某一状态下执行某一动作能够得到更高的长远奖赏，那么就应当增加该状态下执行这一动作的概率。随着迭代式的策略更新，智能体在环境中的性能表现也会逐渐收敛。

图4所示为基于带噪声专家示范的强化学习框架流程图。整体来说，环境ε，状态空间S，动作空间A，以及包含m条专家轨迹的集合∑＝{σ¹，σ²，...，σ^m}均会给出。首先初始化策略π_θ并与环境进行交互，在每个迭代过程中，我们使用交互采集得到的经验以及事先给予的专家轨迹进行模型更新，并且我们同时会使用当前的价值网络的价值增益来评估专家轨迹的价值从而帮助智能体能够自适应的模仿专家行为，直到智能体策略的收敛。

Claims

1.基于带噪声专家示范的强化学习方法，其特征在于：包括以下步骤：

步骤1：初始化环境ε，状态空间S，动作空间Α，专家轨迹集合Σ＝{σ¹,σ²,…,σ^m}；其中，m表示专家轨迹条数；

步骤3：让智能体与环境ε进行交互，将交互得到的元组(s_t-1,a_t-1,r_t,s_t)存放到内存H中，其中s_t-1,s_t∈S分别代表时刻t-1和时刻t的状态，a_t-1∈A代表时刻t-1的动作，r_t表示当前动作可得到的瞬时奖赏；

2.根据权利要求1所述的基于带噪声专家示范的强化学习方法，其特征在于：所述步骤1对环境、状态空间、动作空间、专家轨迹集合初始化的具体方法为：

强化学习被形式化为一个马尔可夫决策过程M，即M＝(S,A,γ,P,R)，其中状态空间S是由状态构成的集合，动作空间A是由动作构成的集合，γ∈[0,1)为折扣因子，P是状态转移函数，R:(S×A)→R是奖赏函数；在每个时刻t，对于状态s_t∈S，智能体会根据其自身策略π_θ执行动作a_t∈A作用于环境ε，环境会返回当前动作可得到的瞬时奖赏r_t∈R以及下一个状态s_t+1；即环境ε由状态转移函数P以及奖赏函数R构成；

其中

代表专家第i条轨迹的第j个动作，

代表终止状态；收集m条专家轨迹构成专家示范集合Σ＝{σ¹,σ²,…,σ^m}。

3.根据权利要求2所述的基于带噪声专家示范的强化学习方法，其特征在于：所述步骤2初始化内存H，智能体策略π_θ以及其网络参数θ的具体方法为：

4.根据权利要求3所述的基于带噪声专家示范的强化学习方法，其特征在于：所述步骤3智能体与环境ε交互的具体方法为：

首先，设当前时刻为t，智能体从环境ε获得状态s_t，并根据智能体策略π_θ采样得到动作a_t～π_θ(s_t)；执行动作a_t，从环境中得到瞬时奖赏r_t以及下一个状态s_t+1；接着，将交互得到的元组(s_t-1,a_t-1,r_t,s_t)存放到内存H中，接着根据新的状态s_t+1反复重复这一过程直到到达终止状态s_T。

5.根据权利要求4所述的基于带噪声专家示范的强化学习方法，其特征在于：所述步骤4中计算每个专家轨迹实例的权重的具体方法为：

通过估计专家轨迹中的每个实例