CN112518742B

CN112518742B - 基于动态模型与事后经验回放的多目标机器人控制方法

Info

Publication number: CN112518742B
Application number: CN202011281615.8A
Authority: CN
Inventors: 李秀; 杨瑞; 吕加飞; 杨宇
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2022-01-25
Anticipated expiration: 2040-11-16
Also published as: CN112518742A

Abstract

本发明公开了一种基于动态模型与事后经验回放的多目标机器人控制方法，本发明能够学习到完成整个目标空间的策略，在泛化性上比现有方法更有优势；本发明通过基于模型的值函数估计和事后经验回放提高了多目标强化学习中的数据利用效率；相比其他离线值函数估计方法没有离线偏差，虽然存在模型误差，但是本发明通过单步与多步值函数估计的加权求和权衡了模型误差和学习速度，具有更好的表现。

Description

基于动态模型与事后经验回放的多目标机器人控制方法

技术领域

本发明涉及机器人控制技术领域，尤其涉及一种基于动态模型与事后经验回放的多目标机器人控制方法。

背景技术

强化学习：机器学习中的一类方法，主要由智能体和环境两部分组成。智能体根据当前的状态按照一定的策略(policy)执行动作并作用在环境中，环境接收到动作后会返回新的状态及一个奖励(reward)。

深度强化学习：将深度神经网络和强化学习进行了结合，使得强化学习能够有效解决大状态空间、甚至连续状态空间的复杂问题，机器人控制就属于连续状态空间控制问题。

多目标强化学习：通常的强化学习是完成一个特定目标，但是在机器人控制等问题中常常存在大量目标，比如移动机械臂到空间中的任意位置，我们希望智能体能够到达空间中的任意目标，于是引入了多目标强化学习。

离线策略算法：强化学习中一类采集数据的动作策略和更新的目标策略不相同的方法，这一类方法通常需要使用经验回放技术，对数据利用效率高于在线策略算法，但是在多目标连续控制问题中，数据利用效率依然很低；

经验回放：强化学习中离线策略算法的使用的一个技巧，使用一个经验池来储存智能体与环境交互产生的数据，训练策略时从经验池中小批次采样来训练策略网络。

事后经验回放：针对多目标强化学习的方法，通过修改经验池中数据的期望目标为实际完成的目标，极大的提高了对失败数据的利用效率。

离线策略偏差：当直接在离线策略算法中使用多步值函数估计的时候，由于行为策略和目标策略存在差异，导致多步的经验回放会带来离线策略偏差的累积，可能会严重影响智能体的策略学习。

基于动态模型的方法：强化学习中，已知环境的动态模型或根据数据学习出环境的动态模型的一类方法。我们可以与动态模型进行交互，从而减小与环境的交互次数。基于动态模型的方法存在的问题是，当动态模型对真实环境拟合不足时，就会存在模型误差，并且随着交互步数累积，也可能对智能体的训练带来危害。

多步方法：本专利中提到的多步方法是指对值函数做多步展开，利用多步的累积折扣奖励对值函数做估计的方法，该方式相比单步方法偏差更小，通常收敛速度更快。

现有技术存在以下不足：

(1)现有技术通常对于完成一个特定任务需要训练一个策略网络，泛化性不强，而我们的多目标强化学习技术能同时训练大量目标，一个模型就能够完成一定目标空间中的所有任务；

(2)现有技术没有利用到事后经验回放的信息，往往无法从失败的数据中学习，而我们的技术利用了事后经验回放来提高失败数据的利用，加速了机器人任务的训练；

(3)现有技术没有利用到基于模型的值函数展开方法，往往使用单步的时序差分方法学习，而我们的技术能够加速值函数的学习和智能体的训练；

(4)现有技术中的多步值函数估计方法在离线策略的情况下存在较大离线偏差，而本专利的方法由于使用了基于模型的值函数展开，不存在离线偏差，但是存在一定模型误差。

发明内容

本发明目的就是为了弥补已有技术中多目标强化学习机器人控制中数据利用效率低，需要海量数据训练的问题缺陷，提供一种基于动态模型与事后经验回放的多目标机器人控制方法，通过结合基于动态模型的多步值函数展开与事后经验回放技术起到了显著提高数据利用效率的效果。

本发明是通过以下技术方案实现的：

一种基于动态模型与事后经验回放的多目标机器人控制方法，具体方法如下：

S1、设定多目标强化学习参数；

S2、在多目标强化学习的参数设定下，得到确定性策略梯度算法Actor和Critic的损失函数L_actor和I_critic；

S3、建立动态模型，基于动态模型与单步值函数估计和多步值函数展开来加速多目标强化学习训练；

S4、利用事后经验回放技术，在多目标强化学习中，将失败经历的目标替换为实际完成的目标。

所述的多目标强化学习参数具体如下：

将强化学习表示为马尔可夫决策过程MDP，MDP包含了五元组(S，A，R，P，γ)，其中S代表状态空间，A代表动作空间，R代表奖励函数，P代表状态转移概率矩阵，γ代表折扣因子；智能体每个时刻观测到状态s_t，根据状态执行动作a_t，环境接收到动作后转移到下一个状态s_t+1并反馈奖励r_t，强化学习优化的目标是最大化累积奖励值

智能体根据策略π(a_t|s_t)选择动作，动作值函数Q(s_t，a_t)代表在状态s_t执行动作a_t后的期望累积奖励，

多目标强化学习中，智能体的策略和奖励函数都受到目标g的调节，奖励函数、值函数、策略具有以下表示：r(s_t，a_t，g)，Q(s_t，a_t，g)，π(s_t，g)；使用成功与否来设置奖励函数，即完成目标奖励为0，未完成目标奖励为-1，用φ表示状态到目标的映射，∈表示设定达到目标的阈值，奖励函数表示为

所述的在多目标强化学习的参数设定下，得到确定性策略梯度算法Actor和Critic的损失函数L_actor和L_critic，具体如下：

确定性策略梯度算法DDPG基于Actor Critic架构，Critic部分对状态动作进行评估，Actor部分即为选择动作的策略，在多目标强化学习的设定下，Actor、Critic的损失函数L_actor，L_critic分别为：

where Q_target＝r_t+γQ(s_t+1，π(s_t+1，g)，g)。

所述的建立动态模型，基于动态模型与单步值函数估计和多步值函数展开来加速多目标强化学习训练，具体如下：

首先根据交互数据训练一个环境的动态模型M：S×A→S，来最小化下一状态估计误差：

然后从某个状态动作对(s_t，a_t，r_t，s_t+1，g)出发，利用策略与动态模型进行交互，产生新的数据(s′_t+i，a′_t+i，r′_t+i，s′_t+i+1，g′_t+i)，i∈(0，n]，其中状态s由M计算，奖励r由奖励函数r(s′_t，a′_t，g_t′)计算，使用单步值函数估计和多步值函数展开的加权平均，带权的

具有以下形式：

当α接近0时，

接近于单步的展开，此时

是没有模型误差的但是学习速度较慢，当α增加的时候，

包含更多的值函数展开信息，但同时带来更多偏差，因此α起到权衡基于模型的多步信息和模型偏差的作用，通过调节α和步数n加速智能体的训练，同时提高数据利用效率。

本发明的优点是：

(1)本发明能够学习到完成整个目标空间的策略，在泛化性上比现有方法更有优势；

(2)本发明通过基于模型的值函数估计和事后经验回放提高了多目标强化学习中的数据利用效率；

(3)本发明相比其他离线值函数估计方法没有离线偏差，虽然存在模型误差，但是本发明通过单步与多步值函数估计的加权求和权衡了模型误差和学习速度，具有更好的表现。

附图说明

图1为本发明的事后经验回放整体算法流程图。

具体实施方式

如图1所示，一种基于动态模型与事后经验回放的多目标机器人控制方法，具体方法如下：

(1)设定多目标强化学习参数；

(2)在多目标强化学习的参数设定下，得到确定性策略梯度算法Actor和Critic的损失函数L_actor和L_critic；

(3)建立动态模型，基于动态模型与单步值函数估计和多步值函数展开来加速多目标强化学习训练；

(4)利用事后经验回放技术，在多目标强化学习中，将失败经历的目标替换为实际完成的目标。

所述的多目标强化学习参数具体如下：

where Q_target＝r_t+γQ(s_t+1，π(s_t+1，g)，g)。

首先根据交互数据训练一个环境的动态模型，M：S×A→S，来最小化下一状态估计误差：

然后从某个状态动作对(s_t，a_t，r_t，s_t+1，g)出发，利用策略与动态模型进行交互，产生新的数据(s′_t+i，a′_t+i，r′_t+i，s′_t+i+1，g′_t+i)，i∈(0，n]，其中状态s由M计算，奖励r由奖励函数r(s′_t，a′_t，g)计算，使用单步值函数估计和多步值函数展开的加权平均，带权的

具有以下形式：

当α接近0时，

接近于单步的展开，此时

是没有模型误差的但是学习速度较慢，当α增加的时候，

事后经验回放整体算法如图1所示。

本发明的目的在于：

(1)实现多目标强化学习机器人控制，能学习到完成目标空间内任意目标的策略，泛化性强；

(2)利用事后经验回放技术和基于模型的多步值函数展开来加速多目标强化学习训练；

(3)利用基于动态模型的多步值函数估计方法解决离线偏差的影响，利用单步与多步的值函数展开的加权求和来缓解模型误差，通过调整权重α能够提高算法的稳定性和性能。

为了验证本发明的有效性以及本技术与现有方法的对比，我们使用仿真环境Fetch、Hand的八个任务进行测试，如图表1和表2所示，Fetch代表操作机械臂，Hand代表操作机械手，其中DDPG代表现有基础方法，HER代表事后经验回放方法，MMHER代表我们的方法，比较的结果是收敛所需epoch数(越小代表速度越快)以及训练完成相同次数后的完成任务的平均成功率，我们的方法在训练速度和最终表现上都是最优的：

表1本发明方法和其他方法收敛所需epoch数量对比

算法	FetchReach	FetchPush
			DDPG	3	——
HER	2	22
			MMHER	1	18

表2本发明方法和其他算法在仿真环境上的平均成功率对比

Claims

1.一种基于动态模型与事后经验回放的多目标机器人控制方法，其特征在于：具体方法如下：

S1、设定多目标强化学习参数；所述的多目标强化学习参数具体如下：

将强化学习表示为马尔可夫决策过程MDP，MDP包含了五元组(S，A，R，P，γ)，其中S代表状态空间，A代表动作空间，R代表奖励函数，P代表状态转移概率矩阵，γ代表折扣因子；智能体每个时刻观测到状态s_t，根据状态执行动作α_t，环境接收到动作后转移到下一个状态s_t+1并反馈奖励r_t，强化学习优化的目标是最大化累积奖励值

智能体根据策略π(α_t|s_t)选择动作；

S2、在多目标强化学习的参数设定下，得到确定性策略梯度算法Actor和Critic的损失函数L_actor和L_critic；具体如下：

确定性策略梯度算法DDPG基于Actor Gritic架构，Gritic部分对状态动作进行评估，Actor部分即为选择动作的策略，在多目标强化学习的设定下，Actor、Gritic的损失函数L_actor，L_critic分别为：

where Q_target＝r_t+γQ(s_t+1，π(s_t+1，g)，g)

其中g代表目标空间中的一个目标；

S3、建立动态模型，基于动态模型与单步值函数估计和多步值函数展开来加速多目标强化学习训练；包括：

首先根据交互数据训练一个环境的动态模型

来最小化下一状态估计误差：

然后从某个状态动作对

出发，利用策略与动态模型进行交互，产生新的数据

其中状态s由M计算，奖励r由奖励函数

计算，使用单步值函数估计和多步值函数展开的加权平均，带权的

具有以下形式：

其中α是可以调节的参数；

2.根据权利要求1所述的一种基于动态模型与事后经验回放的多目标机器人控制方法，其特征在于：动作值函数

其中Q(s_t，α_t)代表在状态s_t执行动作α_t后的期望累积奖励。

3.根据权利要求2所述的一种基于动态模型与事后经验回放的多目标机器人控制方法，其特征在于：多目标强化学习中，智能体的策略和奖励函数都受到目标g的调节，奖励函数、值函数、策略具有以下表示：r(s_t，α_t，g)，Q(s_t，α_t，g)，π(s_t，g)；使用成功与否来设置奖励函数，即完成目标奖励为0，未完成目标奖励为-1，用φ表示状态到目标的映射，∈表示设定达到目标的阈值，奖励函数表示为

4.根据权利要求1所述的一种基于动态模型与事后经验回放的多目标机器人控制方法，其特征在于：当α接近0时，

接近于单步的展开，此时

是没有模型误差的但是学习速度较慢，当α增加的时候，

包含更多的值函数展开信息，但同时带来更多偏差，因此α起到权衡基于模型的多步信息和模型偏差的作用。

5.根据权利要求1所述的一种基于动态模型与事后经验回放的多目标机器人控制方法，其特征在于：通过调节α和步数n加速智能体的训练。