CN113093727B

CN113093727B - 一种基于深度安全强化学习的机器人无地图导航方法

Info

Publication number: CN113093727B
Application number: CN202110250387.6A
Authority: CN
Inventors: 吕少华; 李衍杰; 许运鸿; 刘奇; 陈美玲; 赵威龙; 刘悦丞; 庞玺政
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2023-03-28
Anticipated expiration: 2041-03-08
Also published as: CN113093727A

Abstract

本发明具体涉及一种基于深度安全强化学习的机器人无地图导航方法，具体包括：初始化训练环境，设计移动机器人奖励函数和安全风险代价函数；利用传感器检测的图像信息和激光雷达信息，结合移动机器人的目标信息和运动信息，将各状态信息进行处理后经Actor网络输出决策动作到机器人，机器人执行Actor网络输出的动作，从环境中得到下一时刻新的状态观测及奖励信息，将机器人与环境交互得到的经验存入经验池，定期更新网络参数；判断是否训练结束，将训练好的模型应用于真实移动机器人进行导航。本发明基于演员‑评论家‑安全（ACS）框架的深度安全强化学习，通过引入约束性策略优化（CPO）算法，提升了强化学习用于无地图导航任务的安全性。

Description

一种基于深度安全强化学习的机器人无地图导航方法

技术领域

本发明涉及机器人无地图导航领域，具体涉及一种基于深度安全强化学习的机器人无地图导航方法。

背景技术

机器人导航是指机器人从当前初始位置到达目标位置，并且在此过程中不和其他静态或动态障碍物发生碰撞的技术。近年来，机器人导航技术广泛应用于扫地机器人、服务机器人、物流机器人、特种救援机器人和火星探索机器人等领域。导航中的安全性主要体现在避免碰撞的能力。

有地图与无地图相比：目前比较成熟的导航技术基本是基于SLAM建图的有地图导航，然而像野外搜索救援等特种机器人在执行任务时，环境往往是未知的，此时就无法建图；有地图导航基于SLAM建图后，当环境随时间变化或者机器人每到一个新环境时需要重新建图；人类可在仅知道目标大致方位，在没有精确地图的情况下穿越障碍物前往目的地，也能在从未见过的新环境中导航，是因为人类学习到了环境的内部表征。基于深度强化学习的无地图导航能让机器人学习到类似的内部表征，对复杂动态未知环境有一定适应能力。

基于深度强化学习的无地图导航与传统的基于Bug算法的无地图导航相比：Bug算法无法学习到环境的内部表征，没有自学习能力，所规划的路径往往不是最优的，而且无法利用视觉特征进行导航；基于深度强化学习的无地图导航可在与环境的交互中学习到环境的内部表征，有一定的自学习能力，规划的路径相比利用Bug算法规划的路径要更接近于最优路径，还可以通过物体的视觉特征进行导航。

虽然强化学习在游戏和控制等领域应用比较成功，然而大部分强化学习工作是基于仿真平台进行开发的，在真实移动机器人上用的较少，原因是强化学习学到的策略不能保证是安全的，从而可能造成严重后果。而在无人驾驶等领域，安全性是关键也是最基本的要求，因此要考虑强化学习的安全性。

发明内容

本发明针对上述问题，将约束型策略优化(Constrained Policy Optimization，CPO)算法这样一种安全强化学习方法引入无地图导航，从而进一步提升基于深度强化学习的无地图导航过程中的安全性。

为了解决上述技术问题，本发明采用的技术方案是：提供一种基于深度安全强化学习的机器人无地图导航方法，该方法包括以下步骤：

S1：初始化训练环境，设置移动机器人参数，根据训练环境设计移动机器人奖励函数和安全风险代价函数；

S2：将传感器检测的图像信息和激光雷达信息、以及移动机器人的目标信息和运动信息作为Actor神经网络的输入，Actor神经网络将各状态信息进行处理后输出决策动作到移动机器人；

S3：移动机器人执行Actor神经网络输出的动作，然后从环境中得到下一时刻新的观测信息和奖励信息；

S4：将移动机器人与环境交互得到的经验存入经验池，所述Actor神经网络与Critic神经网络、Safety神经网络组成基于深度安全强化学习的ACS神经网络系统，当所述经验池存满或者设置定期，对ACS神经网络系统参数进行更新；

S5：判断训练步数是否达到设定阈值，若未达到设定阈值，则返回S2继续循环执行，若训练步数达到设定阈值，则训练结束，将训练结束后的模型应用于真实移动机器人进行导航。

进一步的，所述奖励函数r(s_t,a_t)和安全风险代价函数c(s_t,a_t)的表达式为：

c(s_t,a_t)＝r_colision

其中，S_t表示移动机器人在t时刻的状态，a_t表示移动机器人在t时刻所采取的行动，r(s_t,a_t)表示移动机器人的多个子奖励函数，包括到达目标奖励r_arrival(r_arrival>0)、相对目标点距离变化奖励μ(d_t-1-d_t)和时间惩罚奖励p_time(p_time>0)，其中d_t表示t时刻目标点相对移动机器人在机器人坐标系下的距离，D表示设定的移动机器人到达目标点的距离阈值，μ(μ>0)表示距离变化奖励的比例系数，d_t-1-d_t表示相邻两个时刻目标点相对于移动机器人的距离变化，如果当前移动机器人与目标点的距离相对于上一时刻变小，则由μ(d_t-1-d_t)可得到正奖励，否则为负奖励，p_time表示每多执行一个时间步就给予值大小为p_time的惩罚，安全风险代价函数c(s_t,a_t)的值大小为r_colision。

进一步的，所述S2具体方法为：

将三维原始RGB图像进行灰度化、裁剪，叠帧处理为连续4帧灰度图像后通过卷积层和Flatten层进行处理；

将原始1080维激光雷达信息通过1D卷积层和Flatten层进行处理后，用LSTM提取时序信息特征；

将t时刻目标点与移动机器人的相对距离和相对方向角度信息用LSTM提取时序信息特征；

将t时刻移动机器人的运动信息，包括线速度和角速度，用LSTM提取时序信息特征；

将以上四种经过处理后的信息特征拼接在一起后再通过LSTM提取时序信息特征，最后通过全连接层输出决策动作到机器人。

进一步的，所述深度安全强化学习为约束型策略优化(CPO)算法，所述约束型策略优化(CPO)算法是在信赖域策略优化(TRPO)算法的基础上加入了风险代价约束函数J^C(θ)≤β_safe，其中β_safe表示安全阈值，θ表示Actor神经网络参数，所述风险代价约束函数J^C(θ)表达式为：

/>

其中，C为CPO算法中的安全风险标志，s表示状态，a表示动作，π_θ(a|s)、

分别表示当前策略函数和旧策略函数，/>

表示Safety神经网络相关的优势函数。

进一步的，所述对ACS神经网络系统参数进行更新的方法如下：

Critic神经网络的参数更新表达式为：

其中，ω表示Critic神经网络的参数，/>

是Critic神经网络相关的TD偏差，表示为

r_t表示当前时刻的奖励，γ∈(0，1)为折扣因子，/>

分别表示Critic神经网络t+1时刻、t时刻的状态值函数，超参数α^ω表示Critic神经网络参数ω相关的梯度更新步长，▽_ω表示/>

的梯度算子；

Safety神经网络的参数更新表达式为：

其中，φ表示Safety神经网络的参数，/>

是Safety神经网络相关的TD偏差，表示为/>

c_t表示t时刻安全风险代价，/>

分别表示Safety神经网络t+1时刻、t时刻的状态值函数，超参数α^φ表示Safety神经网络参数φ相关的梯度更新步长，▽_φ表示/>

的梯度算子；

Actor神经网络中θ_k+1表示参数参数向量θ_k更新值，所述CPO算法的求解公式为：

θ_k+1＝arg max_θ J(θ)

s.t.J^C(θ)≤β_safe

其中，D_KL表示两策略分布之间的KL散度，δ表示当前策略和旧策略的平均KL散度上界阈值，J(θ)为目标函数，其表达式为：

表示Critic神经网络相关的优势函数。

将风险代价约束函数J^C(θ)和目标函数J(θ)带入CPO算法的求解公式中，可得

定义g为目标函数J(θ)的梯度，b为风险代价约束函数J^C(θ)的梯度，定义

为随机策略，H为KL散度的Hessian矩阵，则CPO算法的求解问题为：

s.t.c+b^T(θ-θ_k)≤0

(一)当上述求解问题有可行解时，通过对偶问题求解，定义拉格朗日乘子为ν和λ，上述求解问题的对偶问题表示如下：

定义上述对偶问题最优解为ν^*和λ^*，则参数向量θ_k的更新公式为：

(二)当上述求解问题没有可行解，则参数向量θ_k的更新公式为：

本发明提供的一种基于深度安全强化学习的机器人无地图导航方法，其有益效果是：

1、本发明基于演员-评论家-安全(Actor-Critic-Safety，ACS)系统框架的深度安全强化学习，通过约束性策略优化(Constrained Policy Optimization，CPO)算法的引入，提升强化学习用于无地图导航任务的安全性。与现有利用强化学习算法进行无地图导航的方法相比，可大幅减小移动机器人在导航中的碰撞率，提升导航成功率，从而提升了强化学习无地图导航的安全性能。

2、与现有传统的基于Bug算法的无地图导航相比，导航路径明显缩短，路径更优。

3、本发明提出的基于约束性策略优化(CPO)算法的无地图导航算法有很强的泛化能力，在简单静态仿真环境中训练之后直接迁移到较复杂静态仿真环境中，仍可保持较高的导航成功率；在多种静态仿真环境中训练好之后，可迁移至其他各种不同的复杂静态仿真环境和动态仿真环境中，同时保持很高的导航成功率。

附图说明

图1为本发明方法的整体流程图；

图2为本发明实施例中构建的一个Gazebo-world环境图；

图3为本发明实施例中Gazebo-world环境图对应的2D地图；

图4为本发明实施例中由信息输入到动作输出的端到端的导航方案图；

图5为本发明实施例中Actor-Critic-Safety网络系统架构图。

具体实施方式

为进一步对本发明的技术方案作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的步骤。

如图1所示为本发明方法的整体流程图，一种基于深度安全强化学习的机器人无地图导航方法，包括以下步骤：

S1：初始化训练环境，设置移动机器人参数，包括移动机器人的最大线速度、最小线速度、最大角速度、最小角速度、最大步数，设定移动机器人到达目标点的距离、激光雷达信息及图像信息输入的维度，根据训练环境设计移动机器人奖励函数和安全风险代价函数；

本发明的一个实施例中，初始化训练环境是加载已构建的用于训练的Gazebo-world环境，用SLAM对Gazebo-world环境进行建图成2D地图，然后用ROS-rviz进行可视化，在每个回合开始时随机初始化移动机器人初始方向、出发点及目标点，实施例中用于训练的一个Gazebo-world环境图如图2所示，Gazebo-world环境图对应的2D地图如图3所示。

根据训练环境设计移动机器人的奖励函数r(s_t,a_t)和安全风险代价函数c(s_t,a_t)的表达式为：

c(s_t,a_t)＝r_colision

本发明的一个实施例中，将3维原始RGB图像(1024×768×3)进行灰度化、裁剪，叠帧(4帧)处理为连续4帧灰度图像(64×64×4)后通过卷积层以及Flatten层进行处理；将原始1080维激光雷达信息通过1D卷积、Flatten层后，用LSTM提取时序信息特征；将当前时刻目标点相对于当前机器人的位置信息通过极坐标变换在机器人坐标系中表示，即相对距离和相对方向角度信息，接着用LSTM提取时序信息特征；将当前时刻移动机器人的运动信息，即线速度和角速度，用LSTM提取时序信息特征；将以上四种经过处理后的状态特征拼接在一起后再通过LSTM提取时序信息特征，然后通过全连接层输出动作。以上由信息输入到动作输出的端到端的导航过程如图4所示。

S3：移动机器人执行Actor网络输出的动作，从环境中得到下一时刻新的状态观测信息和奖励信息；

本发明的一个实施例中，移动机器人执行Actor网络决策输出的动作后，环境根据移动机器人采取的动作，将下一时刻的状态观测信息以及奖励信息反馈给移动机器人。

S4：将移动机器人与环境交互得到的经验存入经验池，所述Actor神经网络(参数θ)与Critic神经网络(参数ω)、Safety神经网络(参数φ)组成基于深度安全强化学习的演员-评论家-安全(Actor-Critic-Safety，ACS)神经网络系统，当所述经验池存满或者设置定期，对ACS神经网络系统参数进行更新；

本发明的一个实施例中，优选ACS神经网络系统如图5所示，将移动机器人与环境交互得到的经验存入经验池，当经验池存满或者定期更新Actor神经网络(Actor NeuralNetwork，Actor NN)参数、Critic神经网络(Critic Neural Network，Critic NN)参数以及Safety神经网络(Safety Neural Network，Safety NN)参数。

本发明所述深度安全强化学习，即约束型策略优化(Constrained PolicyOptimization，CPO)算法，是在信赖域策略优化(Trust Region Policy Optimization，TRPO)算法的基础上加入了风险代价约束函数J^C(θ)≤β_safe，其中β_safe表示安全阈值，θ表示Actor神经网络参数值，所述风险代价约束函数J^C(θ)表达式为：

分别表示当前策略函数和旧策略函数，/>

表示Safety神经网络相关的优势函数。

在TRPO算法中，累计奖励函数为

其中，γ∈(0，1)为折扣因子，设Critic神经网络的参数为ω，Critic网络的状态值函数为

Critic网络的状态动作值函数为

Critic网络的优势函数为

定义Critic网络相关的TD偏差(Temporal-difference error，TD error)

为

实施例中，通常用TD偏差δ_t代替优势函数A^π(s,a)计算，因为TD偏差δ_t是优势函数A^π(s,a)的无偏估计。

Critic神经网络的损失函数Loss_Critic(ω)定义为

Critic神经网络的参数ω的更新方式为

其中，r_t表示当前时刻的奖励，γ∈(0，1)为折扣因子，

的梯度算子；

目标函数J(θ)为

其中，

表示Critic神经网络相关的优势函数。

本发明所述的约束型策略优化(CPO)算法中的累计安全风险函数为

Safety网络对应的状态值函数为

Safety网络对应的状态动作值函数为

Safety网络对应的优势函数为

设Safety神经网络的参数为φ，则其对应的

为

Safety神经网络的损失函数Loss_Safety(φ)为

Safety神经网络的参数φ的更新方式为

其中，c_t表示t时刻安全风险代价，

的梯度算子。

对应的风险代价约束函数J^C(θ)为

Actor神经网络中θ_k+1表示参数参数向量θ_k更新值，经典TRPO求解公式如下：

θ_k+1＝arg max_θ J(θ)

为保证策略安全，J^C(θ)应限制在安全阈值β_safe以下，即加上有关安全的风险代价约束J^C(θ)≤β_safe，将此约束加入到TRPO算法中，所述CPO算法的求解公式为：

θ_k+1＝arg max_θ J(θ)

s.t.J^C(θ)≤β_safe

/>

表示Critic神经网络相关的优势函数。

由于神经网络的参数空间维度过高，以上CPO算法求解公式计算量非常大，直接求解不太可行。当采取一个小的步长δ时，风险代价约束函数J^C(θ)和目标函数J(θ)可在

(θ_k)处进行线性化来近似，信赖域约束同样可以很好地通过在θ_k进行二阶展开来近似(在θ_k处进行二阶展开时，KL散度和其梯度均为0)。

为随机策略，H为KL散度的Hessian矩阵，则CPO算法求解问题近似为

s.t.c+b^T(θ-θ_k)≤0

因为H总是半正定的(假设H总是正定)，则以上约束问题是凸函数，当有可行解时，可以通过对偶问题求解。定义拉格朗日乘子为ν和λ，上述CPO算法求解问题的对偶问题可以表示如下：

如果上述CPO求解问题有可行解，设对偶问题最优解为ν^*和λ^*，则参数向量θ_k的更新公式为

如果上述CPO求解问题没有可行解，则参数向量θ_k的更新公式为：

综上，ACS网络的参数更新公式总结如下：

/>

S5：判断训练步数是否达到设定阈值，若未达到设定阈值，则返回S2继续循环执行，若训练步数达到设定阈值，则训练结束，停止训练，将训练结束后的模型应用于真实移动机器人进行导航。

综上所述，本发明提供的一种基于深度安全强化学习的机器人无地图导航方法，将约束型策略优化(Constrained Policy Optimization，CPO)算法这样一种安全强化学习方法引入无地图导航，从而进一步提升基于深度强化学习的无地图导航过程中的安全性。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的步骤、方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种步骤、方法所固有的要素。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度安全强化学习的机器人无地图导航方法，其特征在于，该方法包括以下步骤：

S5：判断训练步数是否达到设定阈值，若未达到设定阈值，则返回S2继续循环执行，若训练步数达到设定阈值，则训练结束，将训练结束后的模型应用于真实移动机器人进行导航；

其中，所述深度安全强化学习为CPO算法，所述CPO算法是在TRPO算法的基础上加入了风险代价约束函数J^C(θ)≤β_safe，其中β_safe表示安全阈值，θ表示Actor神经网络参数，所述风险代价约束函数J^C(θ)表达式为：

分别表示当前策略函数和旧策略函数，/>

表示Safety神经网络相关的优势函数；

所述对ACS神经网络系统参数进行更新的方法如下：

Critic神经网络的参数更新表达式为：

其中，ω表示Critic神经网络的参数，/>

是Critic神经网络相关的TD偏差，表示为/>

r_t表示当前时刻的奖励，γ∈(0，1)为折扣因子，/>

分别表示Critic神经网络t+1时刻、t时刻的状态值函数，超参数α^ω表示Critic神经网络参数ω相关的梯度更新步长，/>

表示/>

的梯度算子；

Safety神经网络的参数更新表达式为：

其中，φ表示Safety神经网络的参数，/>

是Safety神经网络相关的TD偏差，表示为/>

c_t表示t时刻安全风险代价，/>

分别表示Safety神经网络t+1时刻、t时刻的状态值函数，超参数α^φ表示Safety神经网络参数φ相关的梯度更新步长，/>

表示/>

的梯度算子；

Actor神经网络中θ_k+1表示参数向量θ_k更新值，所述CPO算法的求解公式为：

θ_k+1＝argmax_θJ(θ)

s.t.J^C(θ)≤β_safe

表示Critic神经网络相关的优势函数；

s.t.c+b^T(θ-θ_k)≤0

2.根据权利要求1所述的一种基于深度安全强化学习的机器人无地图导航方法，其特征在于，所述奖励函数r(s_t,a_t)和安全风险代价函数c(s_t,a_t)的表达式为：

c(s_t,a_t)＝r_colision

其中，s_t表示移动机器人在t时刻的状态，a_t表示移动机器人在t时刻所采取的行动，r(s_t,a_t)表示移动机器人的多个子奖励函数，包括到达目标奖励r_arrival、相对目标点距离变化奖励μ(d_t-1-d_t)和时间惩罚奖励p_time，其中d_t表示t时刻目标点相对移动机器人在机器人坐标系下的距离，D表示设定的移动机器人到达目标点的距离阈值，μ表示距离变化奖励的比例系数，d_t-1-d_t表示相邻两个时刻目标点相对于移动机器人的距离变化，如果当前移动机器人与目标点的距离相对于上一时刻变小，则由μ(d_t-1-d_t)可得到正奖励，否则为负奖励，p_time表示每多执行一个时间步就给予值大小为p_time的惩罚，安全风险代价函数c(s_t,a_t)的值大小为r_colision，其中，r_arrival>0，p_time>0，μ>0。

3.根据权利要求1所述的一种基于深度安全强化学习的机器人无地图导航方法，其特征在于，所述S2具体方法为：