CN114626505A

CN114626505A - 一种移动机器人深度强化学习控制方法

Info

Publication number: CN114626505A
Application number: CN202210207885.7A
Authority: CN
Inventors: 马宏宾; 张华卿; 金英
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-06-14

Abstract

本发明涉及一种移动机器人深度强化学习控制方法，属于机器人智能控制技术领域。在机器人学习行为策略阶段，本发明在最大熵强化学习框架下提出了一种具有历史行为重用的off‑policy似然比策略梯度模型学习算法，用于对移动机器人进行端对端的行为控制。该方法提高了机器人行为学习过程中数据的利用率，从而提高了学习速度和采样效率，节省了机器人与环境的交互成本。同时，在对机器人的行为策略模型进行评估阶段，本发明提出了一种统一的评价网络模型来同时逼近状态值函数和动作值函数，通过该评价网络可以直接给出一个状态和动作的优势函数。相对于使用两个网络分别逼近状态值函数和动作值函数，该评价网络具有学习速度快、能够减小参数累积误差的优势。

Description

一种移动机器人深度强化学习控制方法

技术领域

本发明涉及一种基于深度强化学习的机器人自主行为控制方法，属于机器人智能控制技术领域。

背景技术

移动机器人是指一类集成环境感知与识别、规划和决策、行为与控制等多功能于一体的综合系统，它既可接收设计者的控制信号，又可按照预先编程好的指令运行，也可按照人工智能技术制定的规则策略进行行动。目前，移动机器人发展的一个重要趋势是智能化，即，要求移动机器人实现自主控制而非被动接受指令。因此，需要移动机器人具有更强大、更灵活的感知、决策、控制能力。

随着移动机器人的广泛应用，其作业应用场景呈现多样性与复杂性。如何让移动机器人面临存有动态和静态障碍的复杂场景下稳定作业，以及提高其在生产作业中的效率和智能水平，成为了该领域的研究重点。

移动机器人要求具备稳定良好的作业能力，其控制方法的鲁棒性、可靠性是关键。因此，深度强化学习、模仿学习等各类人工智能方法被不断提出，并且逐步应用于实际工程领域。其中，深度强化学习是一种将深度学习的感知能力与强化学习的决策能力结合起来的通用学习框架能通过端对端的学习方式来实现原始感知输入到决策动作输出的直接控制。这种端对端的方式，对于解决自动控制系统、移动机器人控制、自动驾驶、游戏博弈等诸多技术问题，具有天然的适用性。

但是，现有的基于无模型的深度强化学习方法，因在学习过程中与环境交互产生数据的成本非常高，且机器人无法像分布式强化学习方法那样在现实领域中扩展多个线程与环境交互。因此，如何提高交互数据的利用率，并且在复杂环境下能够稳定学习各种行为技能，成为机器人强化学习控制领域亟待解决的关键技术问题。

发明内容

本发明的目的是为了解决在移动机器人深度强化学习控制中面临的数据利用率低、学习稳定性差的技术问题，创造性地提出一种移动机器人深度强化学习控制方法。

本发明的创新点在于：在机器人学习行为策略阶段，在最大熵强化学习框架下提出了一种具有历史行为重用的off-policy似然比策略梯度模型学习算法(AC-HBR)，用于对移动机器人进行端对端的行为控制。该方法提高了机器人行为学习过程中数据的利用率，从而提高了学习速度和采样效率，节省了机器人与环境的交互成本。

同时，为了有效对机器人的控制策略进行评价，在对机器人的策略进行评估的阶段，提出一种统一的评价网络模型来同时逼近状态值函数和动作值函数。通过该评价网络模型可直接给出状态和动作的优势函数。相对于使用两个网络分别逼近状态值函数和动作值函数，该评价网络模型能够以较高的精度给出机器人动作的优势函数，具有速度快、能够减小参数累积误差等优势。

本发明采用以下技术方案实现。

一种移动机器人深度强化学习控制方法，包括以下步骤：

首先，定义无限时间马尔科夫过程为

其中，S表示有限的连续状态空间集合，A表示有限的连续动作空间集合，

表示在给定状态s_t∈S下，采取动作a_t∈A后转移到状态s_t+1∈S的概率。

定义π表示智能体的策略，定义π(a_t|s_t)表示智能体在给定状态s_t下采取动作a_t的概率。

在深度强化学习中，定义φ为策略模型的参数，则π_φ表示智能体的神经网络高斯策略模型，且由神经网络输出策略的均值和标准差；r表示智能体采取动作a_t后转移到状态s_t+1，定义r_t表示智能体在状态s_t时采取动作a_t后环境返回给智能体的奖励信号，

γ表示无限时间马尔科夫过程的折扣因子，γ∈[0,1]。

在最大熵强化学习框架下，软动作值函数为：

软状态值函数为：

其中，α为温度熵系数，

表示期望。

步骤1：构造机器人的状态空间、动作空间和奖励函数。

针对机器人所能感知的信息，设计状态向量s。根据机器人所具有的执行机构，设计动作空间a。根据相应的目标，设计机器人行为学习过程中的奖励函数r(s_t,a_t)，s_t、a_t分别表示机器人在t时刻的状态和动作。机器人的状态空间s和动作空间a，由开发人员根据机器人的特性根据工程实践自主定义。

步骤2：机器人通过交互数据，学习行为策略模型。

采用off-policy似然比策略梯度机器人行为学习方法，根据采样状态，从当前策略模型和经验回放池中同时采样动作，以此优化机器人的行为策略。

该方法能够充分利用以往的机器人历史行为，在机器人行为策略的学习过程中提升数据利用率。该方法中，关于策略模型参数的策略梯度损失函数

如式1所示：

其中，E_b表示经验回放池；BC(·)表示对输入变量进行Box-Cox数据分布转换，BC(logπ_φ(a_t|s_t))表示对和状态一起从经验回放池采集的动作在当前策略模型下的对数概率做Box-Cox数据分布转换。

步骤3：评估机器人行为策略模型，并预测采样动作的优势函数。

统一评价网络模型结构如图2所示，包括状态输入层、动作输入层、动作扩展层、隐藏层和值函数输出层。

在预测状态值函数V^π(s_t)时，定义一个和动作a_t具有相同形状的元素全为零的向量a^e。当检测到动作输入层的输入为零时，将动作扩展层的输出置为零，由统一的评价网络得到状态值函数：V^π(s_t)＝Q(s_t,a^e)。

定义变量θ为统一的评价网络的模型参数。当使用这个统一的评价网络模型来同时逼近状态值函数和动作值函数时，模型的策略梯度损失函数如式3所示：

其中，

表示由具有策略参数

的目标评价网络预测的状态值函数，

表示状态值函数V_π的梯度损失函数，

表示动作值函数Q的梯度损失函数；Q_θ(s_t,a_t)、

分别表示由参数θ表示的统一的评价网络所表示的动作值函数和状态值函数。

在机器人行为策略模型的学习过程中，当计算采样动作的优势函数时，根据下式由统一的评价网络模型直接预测采样动作的优势函数A(s_t,a_t)：

步骤4：进行机器人训练。

将机器人与环境进行交互，并将交互数据保存在经验回访池中。每隔N个步数，重复步骤2和步骤3，然后将机器人再次与环境交互收集数据，从而完成移动机器人的自主学习控制。

其中，机器人与环境的交互的间隔步数N，根据实际情况自主设定。例如，可设置间隔步数N为300。

有益效果

本发明方法，对比现有技术，具有以下优点：

1.在机器人行为策略模型的学习过程中，本发明提出了一种具有历史行为重用的策略梯度算法，提高了学习速度和采样效率，加快了机器人行为技能的学习速度和学习的稳定性。

2.在对机器人的行为策略模型进行评估阶段，本发明提出了一种统一的评价网络模型来同时逼近状态值函数和动作值函数。通过该评价网络可以直接给出一个状态和动作的优势函数。相对于使用两个网络分别逼近状态值函数和动作值函数，该评价网络具有学习速度快、能够减小参数累积误差的优势。

附图说明

图1是“BipedalWalkerHardcore”机器人训练环境示意图；

图2是本发明所提出的一种统一的评价网络模型结构示意图；

图3是本发明所提出的机器人行为深度强化学习算法与SAC(soft actor-critic)在“BipedalWalkerHardcore”机器人训练环境下的回报曲线对比图。

图4是本发明所提出的机器人行为深度强化学习算法与SAC在Gym和PyBullet中其他一些列机器人控制基准环境下的累积回报曲线对比图。

图5是本发明中图3和图4实验中使用的所有超参数设置。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

实施例

如图1所示，以Gym环境下的“BipedalWalkerHardcore”机器人行为控制为例，进行说明。

步骤1：构造机器人的状态空间、动作空间和奖励函数。

具体地，“BipedalWalkerHardcore”机器人通过与环境的交互来学习在复杂路况下的跑步、跨坑、越障、下阶梯等一系列技能。机器人通过自身携带的传感器来感知环境信息，而策略模型则根据由这些感知信息构造的状态量来给出机器人在当前状态下所采取的动作。“BipedalWalkerHardcore”机器人的感知信息包括各部件角速度，水平速度，垂直速度，关节位置，腿与地面的接触以及10个激光雷达测距仪的测量值，将这些感知信息拼接成24维的状态向量s。且通过机器人胯下两个关节的转矩以及膝关节的转矩来构造机器人的4维动作空间a。由于这个环境是的动作空间是4维连续动作空间。“BipedalWalkerHardcore”机器人的目标是快速到达终点，并且控制四个关节的力矩最小、距离目标越近环境返回的奖励函数就越大，当机器人跌倒时环境返回的奖励为-100。该环境根据此规则设计并直接返回相应的奖励函数r(s,a)给机器人。

步骤2：机器人通过交互数据，学习行为策略模型。

具体地，机器人在行为策略的学习过程中根据下式来更新策略模型的参数：

在与环境的交互过程中，为了保证机器人关节可承受的动作幅度，借鉴SAC(softactor-critic)算法的技术，应用可逆的压缩函数tanh(·)对从高斯策略中采集的动作进行限幅，并通过下式计算压缩动作的对数概率密度函数：

其中，

是一个随机变量，D表示动作矢量的维度；μ(u|s)是对应于高斯策略的概率密度函数，u_i是u中的第i个元素。

当使用从经验回放池中采集的动作来计算当前策略的策略梯度的时候，通过下式将采集到的经过tanh(·)压缩的动作转换为对应的从高斯策略中采样的动作a_G：

其中，a_tanh表示经过tanh(·)压缩的动作。

采用SAC算法中的自动熵系数调整方法，调整温度熵系数α：

其中，

表示一个最小的期望熵。

当使用本发明所提出的统一评价网络模型来同时逼近状态值函数和动作值函数时，模型的梯度损失函数如下所示：

其中，

表示由具有策略参数

的目标评价网络预测的状态值函数。并且，针对过估计的问题，采用“double q-learning”的技术。因此，采用两个统一的评价网络来同时学习状态值函数和动作值函数，并且在计算

时，采用两个网络中相对小的动作值函数。

在机器人行为策略模型的学习过程中，当计算采样动作的优势函数时，根据下式由统一的评价网络模型直接预测采样动作的优势函数：

步骤4：机器人训练。

具体地，机器人与环境交互，并将交互的数据保存在经验回访池中。每隔一定步数(本发明的实验中设置为300步)重复步骤2和步骤3，然后机器人再次与环境交互收集数据。

在训练过程中，首先设置有关超参数。

具体地，本发明提出的用于机器人端到端行为控制的深度强化学习算法AC-HBR，和用于对比实验的SAC深度强化学习算法使用的所有通用的超参数，均列于图5中。如图5所示，在通用的超参数中，奖励缩放是指直接将环境奖励乘以一个常数，在不破坏奖励函数的情况下调整奖励值，从而间接地将Q值调整到合适的大小。为方便和提高可对比性，将AC-HBR和SAC两种算法在所有任务的测试中的奖励缩放值均设置为0.2。设置统一的评价网络扩展层中的神经网络单元数为84，给定超参数β＝0.003。在对机器人行为学习的测试中，β具有很宽的调整范围，并且在调整范围内对算法的性能几乎没有影响。在对算法的性能测试中采用多个随机种子对算法进行测试。

图3展示了本发明所提出的算法和SAC在“BipedalWalkerHardcore”环境中的机器人行为控制的性能对比曲线。图4展示了本发明所提出的算法和SAC在Gym和PyBullet环境中的机器人行为控制的性能对比曲线。