CN108255182B

CN108255182B - 一种基于深度强化学习的服务机器人行人感知避障方法

Info

Publication number: CN108255182B
Application number: CN201810091022.1A
Authority: CN
Inventors: 赵忠华; 鲁兴龙; 曹一文; 晏懿琳
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2021-05-11
Anticipated expiration: 2038-01-30
Also published as: CN108255182A

Abstract

本发明公开了一种基于深度强化学习的服务机器人行人感知避障方法，涉及深度学习和服务机器人避障领域。该方法在训练阶段：首先，使用ORCA算法生成训练数据。然后，随机生成实验场景，使用初始化后的强化学习模型与环境交互生成新的训练数据，并融合进原有训练数据。最后，在新的训练数据上利用SGD算法训练网络，得到最终的网络模型。该方法在执行阶段：通过激光雷达获取周围行人的状态，根据训练好的模型和奖励函数计算预测状态，选择获得最大奖励的动作作为输出并执行。本发明具有很强的实时性和适应性，在行人环境下，可以使机器人遵守行人的右行规则，规划出高效、安全、自然的路径，提升了服务机器人的智能性和社交性。

Description

一种基于深度强化学习的服务机器人行人感知避障方法

技术领域

本发明涉及深度学习和服务机器人避障领域，尤其涉及一种基于深度强化学习的服务机器人行人感知避障方法。

背景技术

随着劳动力成本的提高，机器人开始在各个领域取代人类劳动者，特别是公共服务领域，如外卖机器人、快递机器人、商场导购机器人等。这些机器人面临的场景一般有很多高动态变化的障碍物，如行人。如何使服务机器人能够在行人环境下自主导航，完成高效、安全、自然躲避行人障碍物，成为限制服务机器人得到更加广泛应用的关键问题。在行人环境下，传统的避障算法适应性变差，有时候会表现出急停、急转等不安全的行为，尤其是当机器人的移动速度达到行人步行速度的时候。

最近很多研究者开始尝试使用强化学习的方法来解决机器人的控制问题，特别是机器人的自主避障问题，基于学习的方法可以使为机器人规划出更加自然、连续的路径。公开专利CN106970615A提出了一种深度强化学习的实时在线路径规划方法，利用深度学习方法来得到图像的高层语义信息，并利用强化学习的方法来完成从环境的端到端的实时场景的路径规划。该发明使用从图像到结果端到端的训练方法，首先训练不容易收敛，即收敛速度很慢或者不收敛。另外，该发明没有考虑行人环境下如何与行人进行自然、安全的交互。不能适用于商场、机场等行人环境。

机器人在行人环境下的避障算法是当前研究的重点也是难点，最大的困难在于行人自身的避障机制还尚未研究清楚，即什么时间采用什么动作躲避周围什么状态的行人，因此很难对行人的避障机制进行建模。因此传统的避障算法难以应对这样场景。另外，对于深度强化学习，一般使用端到端的训练方式通常比较难收敛，或者收敛很慢。

因此，本领域的技术人员致力于开发一种基于深度强化学习的服务机器人行人感知避障方法，将行人一般遵守的靠右行走的规则(简称“右行规则”)建模，并与避障规则融合进深度强化学习的奖励函数中，奖励机器人遵守右行规则的行为，惩罚不遵守右行规则或者与行人碰撞的行为，很好地解决了行人环境下的避障问题，增加了机器人的智能性和社交性。使用激光雷达采集周围行人的信息，并人工提取特征，然后放入网络进行训练，使强化学习更易收敛。使用ORCA多体避障算法生成训练数据，预先训练网络作为初始化，大大加快收敛速度。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是克服现有技术所存在的难以对行人的避障机制进行建模的问题，以及克服机器人深度强化学习中，一般使用端到端的训练方式通常比较难收敛，或者收敛很慢的问题。

为实现上述目的，本发明提供了一种基于深度强化学习的服务机器人行人感知避障方法，包括以下步骤：

S1、深度强化学习框架搭建，包括以下步骤：

S1-1、状态空间

描述为15维向量空间；

S1-2、动作空间

描述为2维离散向量空间；

S1-3、奖励函数设置为包含避障规则R_av(s,a)和右行规则R_norm(s,a)，其中s表示状态，a表示动作；

S1-4、建立多层神经网络拟合价值函数，强化学习中使用价值函数来评价状态的潜在累计奖励，建立用于评价状态价值的深度神经网络V；

S2、线下训练阶段，包括以下步骤：

S2-1、预训练阶段，步骤如下：

S2-1-1、利用ORCA多体避障算法，生成多条机器人避障轨迹，并将轨迹处理成N个“状态－价值”对的形式

其中第k个“状态－价值”对为(s,y)_k，式中，

γ为折扣因子，t_g为从当前位置到达目标位置所用的时间，v_max为机器人的最大速率，生成训练数据集D；

S2-1-2、使用训练数据集D，对步骤S1-4中搭建的多层神经网络V通过SGD算法训练，更新网络参数；

S2-2、强化学习阶段，使用初始化后的网络，进行深度强化学习训练，进一步优化网络参数；

S3、线上执行阶段，步骤如下：

S3-1、使用激光雷达获取周围行人的位置、速度和尺寸信息以及机器人自身的位置、速度尺寸等信息，然后处理成15维状态的形式；

S3-2、遍历动作空间

依次选择动作执行，将当前的状态做一步预测，得到预测状态s′；

S3-3、将预测状态s′输入到训练好的神经网络V中，得到对状态的评价y，并结合执行动作后的即时奖励R＝R_av(s,a)+R_norm(s,a)，计算预测状态总的奖励值

S3-4、选择奖励值最大的动作作为输出。

进一步地，所述步骤S2强化训练阶段包括以下步骤：

S2-2-1、将多层神经网络V复制一份，生成另一个多层神经网络V′；

S2-2-2、在仿真器中，随机生成实验场景，包括机器人自身的位置[p_x,p_y]、目的地[pg_x,pg_y]和周围行人的位置[p′_x,p′_y]和目的地[pg′_x,pg′_y]等状态；

S2-2-3、根据步骤S2-2-2中生成的场景，使用线上执行阶段的步骤，获得机器人和周围行人的轨迹，并利用神经网络V′预测状态，将轨迹处理成M个“状态-价值”对的形式

用新生成的训练数据更新训练数据集D，并剔除相同数量的旧数据；

S2-2-4、将步骤S2-2-2和步骤2-2-3重复m次；

S2-2-5、对训练数据集D，随机采样一个训练子集，利用SGD算法，更新网络参数V的参数；

S2-2-6、将步骤S2-2-4、步骤2-2-5重复N次，并且每隔C次，用预先设置的实验场景测试训练效果，并将神经网络V的参数赋值给V′；

S2-2-7、达到固定的训练次数后(观察到模型收敛)，得到最终的网络模型。

进一步地，所述15维向量空间中，状态

其中等式右边的参数分别表示机器人距离目标的距离，机器人的最大速率，机器人的速度分量，机器人尺寸(半径)，机器人的航向角，行人相对机器人的速度分量，行人相对机器人的位置分量，行人的尺寸(半径)，机器人尺寸和行人尺寸的和，机器人航向角的余弦和正弦值，机器人和行人的距离。

进一步地，所述2维离散向量空间中，动作a＝[Δθ，v]，式中Δθ，v分别表示航向变化值和速率。

进一步地，所述避障规则R_av(s,a)奖励机器人到达目的地，惩罚机器人靠近行人0.2米以内或者发生碰撞：

其中，d_min表示决策时间间隔Δt内机器人与行人之间的距离，p表示机器人当前的位置，p_g表示机器人的目标位置，p_g可以由全局路径规划算法提供。

进一步地，所述右行规则R_norm(s,a)具体为三个场景，分别为“超车”、“会车”和“交叉”。

进一步地，所述拟合价值函数是一个全连接层网络。

进一步地，所述深度神经网络V为五层，包括输入层、3个隐含层和输出层。

进一步地，所述步骤S3-1还包括具体使用激光雷达测量环境信息，并将测量数据进行人腿特征提取，然后利用分类器判别是否为行人，根据机器人和行人的相对关系，确定出行人的位置、速度、尺寸等状态信息，机器人自身的状态信息可以由机器人自身的里程计提供。

进一步地，所述激光雷达为单线激光雷达。

本发明所提供的基于深度强化学习的服务机器人行人感知避障方法，将行人一般遵守的靠右行走的规则(简称“右行规则”)建模，并与避障规则融合进深度强化学习的奖励函数中，奖励机器人遵守右行规则的行为，惩罚不遵守右行规则或者与行人碰撞的行为，很好地解决了行人环境下的避障问题，增加了机器人的智能性和社交性。使用激光雷达采集周围行人的信息，并人工提取特征，而非直接的图像信息，然后放入网络进行训练，使强化学习更易收敛。使用ORCA多体避障算法生成训练数据，预先训练网络作为初始化，大大加快收敛速度。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的离散动作空间示意图；

图2是本发明的一个较佳实施例的右行规则示意图；

图3是本发明的一个较佳实施例的神经网络结构示意图；

图4是本发明的一个较佳实施例的线下训练阶段流程图；

图5是本发明的一个较佳实施例的线上执行阶段流程图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

如图1、图2、图3、图4和图5所示，本发明提出的一种基于深度强化学习的服务机器人行人感知避障方法，包含深度强化学习框架搭建、线下训练阶段和线上执行阶段，包括以下步骤：

S1、深度强化学习框架搭建,具体内容如下：

S1-1、状态空间

描述为15维向量空间，包括

分别表示机器人距离目标的距离，机器人的最大速率，机器人的速度分量，机器人尺寸(半径)，机器人的航向角，行人相对机器人的速度分量，行人相对机器人的位置分量，行人的尺寸(半径)，机器人尺寸和行人尺寸的和，机器人航向角的余弦和正弦值，机器人和行人的距离；

S1-2、动作空间

描述为2维离散向量空间，如图1所示，包括a＝[Δθ，v]，分别表示航向变化值和速率；

S1-3、奖励函数设置包含两个部分，避障规则和右行规则，具体如下：

S1-3-1、避障规则R_av(s,a)主要奖励机器人到达目的地，惩罚机器人靠近行人0.2米以内或者发生碰撞：

其中，d_min表示决策时间间隔Δt内机器人与行人之间的距离。p表示机器人当前的位置，p_g表示机器人的目标位置。p_g可以由全局路径规划算法提供；

S1-3-2、右行规则R_norm(s,a)将右行规则具体化为三个场景，分别为“超车”、“会车”和“交叉”。如图2所示，如果机器人和行人的相对位置满足其中的灰色区域，那么进行惩罚,即减去一个常数；

其中，圆圈加箭头表示机器人，矩形加箭头表示行人，黑色五角星表示机器人的目标位置，灰色区域表示惩罚区域；

S1-4、多层神经网络拟合价值函数。强化学习中使用价值函数来评价状态的潜在累计奖励，本发明用一个全连接层网络来拟合价值函数。建立用于评价状态价值的深度神经网络V，如图3所示，整个网络为五层，包括输入层、3个隐含层和输出层；

S2、线下训练阶段，如图4所示，包括预训练阶段和强化学习阶段两部分，具体步骤如下：

S2-1、预训练阶段，具体步骤如下：

其中，

γ为折扣因子，t_g为从当前位置到达目标位置所用的时间，生成训练数据集D；

S2-1-2、使用训练数据集D，对S1-4中搭建的多层神经网络V通过SGD算法训练，更新网络参数；

S2-2、强化学习阶段，使用初始化后的网络，进行深度强化学习训练，进一步优化网络参数。具体步骤包括：

S2-2-3、根据S2-2-2生成的场景，使用线上执行阶段的步骤，获得机器人和周围行人的轨迹，并利用神经网络V′预测状态，将轨迹处理成M个“状态-价值”对的形式

S2-2-4、将S2-2-2和S2-2-3重复m次；

S2-2-6、将S2-2-4、S2-2-5重复N次，并且每隔C次，用预先设置的实验场景测试训练效果，并将神经网络V的参数赋值给V′；

S2-2-7、达到固定的训练次数后(观察到模型收敛)，得到最终的网络模型V。

S3、线上执行阶段，如图5所示，具体步骤如下：

S3-1、使用激光雷达获取周围行人的位置、速度和尺寸信息以及机器人自身的位置、速度尺寸等信息，然后处理成15维状态s的形式，具体使用单线激光雷达测量环境信息，并将测量数据进行人腿特征提取，然后利用分类器判别是否为行人。根据机器人和行人的相对关系，确定出行人的位置、速度、尺寸等状态信息。机器人自身的状态信息可以由机器人自身的里程计提供；

S3-2、遍历动作空间

依次选择动作a执行，将当前的状态s做一步预测，得到预测状态s′；

S3-4、选择奖励值最大的动作a作为输出。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于深度强化学习的服务机器人行人感知避障方法，其特征在于，包括以下步骤：

S1、深度强化学习框架搭建，包括以下步骤：

S1-1、状态空间

描述为15维向量空间；

S1-2、动作空间

描述为2维离散向量空间；

S1-3、奖励函数设置为包含避障规则R_av(s，a)和右行规则R_norm(s，a)，式中s表示状态，a表示动作；

S2、线下训练阶段，包括以下步骤：

S2-1、预训练阶段，步骤如下：

S2-1-1、利用ORCA多体避障算法，生成多条机器人避障轨迹，并将轨迹处理成N个“状态一价值”对的形式

其中，第k个所述“状态一价值”对表示为(s，y)_k，y表示价值，

S3、线上执行阶段，步骤如下：

S3-1、使用激光雷达获取周围行人的位置、速度和尺寸信息以及机器人自身的位置、速度和尺寸信息，然后处理成15维状态的形式；

S3-2、遍历所述动作空间

依次选择其中的动作执行，将当前的状态做一步预测，得到预测状态s′；

S3-3、将预测状态s′输入到训练好的神经网络V中，得到对状态的评价y，并结合执行动作后的即时奖励R＝R_av(s，a)+R_norm(s，a)，计算预测状态总的奖励值

其中Δt为决策时间间隔；

S3-4、选择奖励值最大的动作作为输出。

2.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法，其特征在于，所述步骤S2-2强化学习阶段包括以下步骤：

S2-2-2、在仿真器中，随机生成实验场景，包括机器人自身的位置[p_x，p_y]、目的地[pg_x，pg_y]和周围行人的位置[p′_x，p′_y]和目的地[pg′_x，pg′_y]状态；

S2-2-3、根据步骤S2-2-2中生成的场景，使用线上执行阶段的步骤，获得机器人和周围行人的轨迹，并利用神经网络V′预测状态，将轨迹处理成M个所述“状态-价值”对的形式

S2-2-4、将步骤S2-2-2和步骤2-2-3重复m次；

S2-2-7、达到固定的训练次数即观察到模型收敛，得到最终的网络模型。

3.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法，其特征在于，所述15维向量空间中，状态

式中，d_g表示机器人距离目标的距离，v_max表示机器人的最大速率，v′_x，V′_y表示机器人的速度分量，r表示机器人半径，θ′表示机器人的航向角，

表示行人相对机器人的速度分量，

表示行人相对机器人的位置分量，

表示行人的半径，

表示机器人半径和行人半径的和，cos(θ′)，sin(θ′)分别表示机器人航向角的余弦和正弦值，d_a表示机器人和行人的距离。

4.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法，其特征在于，所述2维离散向量空间中，动作a＝[Δθ，v]，式中Δθ，v分别表示航向变化值和速率。

5.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法，其特征在于，所述避障规则R_av(s，a)奖励机器人到达目的地，惩罚机器人靠近行人0.2米以内或者发生碰撞：

6.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法，其特征在于，所述右行规则R_norm(s，a)具体为三个场景，分别为“超车”、“会车”和“交叉”。

7.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法，其特征在于，所述拟合价值函数是一个全连接层网络。

8.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法，其特征在于，所述深度神经网络V为五层，包括输入层、3个隐含层和输出层。

9.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法，其特征在于，所述步骤S3-1还包括具体使用激光雷达测量环境信息，并将测量数据进行人腿特征提取，然后利用分类器判别是否为行人，根据机器人和行人的相对关系，确定出行人的位置、速度、尺寸状态信息，机器人自身的状态信息可以由机器人自身的里程计提供。

10.如权利要求1或9所述基于深度强化学习的服务机器人行人感知避障方法，其特征在于，所述激光雷达为单线激光雷达。