CN109407676A

CN109407676A - 基于DoubleDQN网络和深度强化学习的移动机器人避障方法

Info

Publication number: CN109407676A
Application number: CN201811562344.6A
Authority: CN
Inventors: 李湛; 杨柳; 薛喜地; 孙维超; 林伟阳; 佟明斯; 高会军
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology; Harbin University of Science and Technology
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-03-01
Anticipated expiration: 2038-12-20
Also published as: CN109407676B

Abstract

基于DoubleDQN网络和深度强化学习的移动机器人避障方法，它属于移动机器人导航技术领域。本发明解决了现有的深度强化学习避障方法存在的响应延迟高、所需训练时间长以及避障成功率低的问题。本发明设计了特殊的决策动作空间以及回报函数、将移动机器人轨迹数据采集和Double DQN网络训练放在两个线程下并行运行，可以有效提高训练效率，解决了现有深度强化学习避障方法需要的训练时间长的问题；本发明使用Double DQN网络对动作值进行无偏估计，防止陷入局部最优，克服现有深度强化学习避障方法避障成功率低和响应延迟高的问题，与现有方法相比，本发明可以将网络训练时间缩短到现有技术的20％以下，且保持100％的避障成功率。本发明可以应用于移动机器人导航技术领域。

Description

基于DoubleDQN网络和深度强化学习的移动机器人避障方法

技术领域

本发明属于移动机器人导航技术领域，具体涉及一种移动机器人避障方法。

背景技术

随着移动机器人行业的发展，避碰是许多机器人应用的核心，例如在多智能体协调，家庭服务机器人和仓库机器人等。然而，在寻找所用时间最短的路径的同时，还要保证准确的避障效果仍然是一项非常具有挑战性的工作。因为在很多情况下，需要在准确避障的同时，能以最短的时间抵达给定目标位置。

目前根据移动机器人间是否互相通信，将避障算法类型分为两大类，分别是通信类和非通信类。然而在实际应用场景中，我们有时候很难实时获取可靠的通信。关于非通信类型的避碰的现有工作可以大致分为两类，基于响应和基于局部路径规划。其中基于局部路径规划的方法通过预测其它移动机器人或者障碍物的运动趋势来明确智能体之间的未来状态的演变，然而，在拥挤的环境中，该类算法通常会将当前所在的区域内大部分面积标记为不安全区域，这将会导致机器人冻结问题。此外，由于模型和测量的不确定性，特别是在未来几秒内，其他智能体的实际路径可能不符合预测路径。因此，基于轨迹的方法也需要以高速率(传感器刷新率)运行，这将占用更多计算资源以及时间。

对于基于响应类的避障算法分为自主学习类和非自主学习类，非自主学习类的算法诸如人工势场法等算法，但由于当车子距离障碍物过近或者离目标位置太远将会导致局部震荡等一系列问题，虽然后续有改进版本的人工势场法，但也使得其参数变得很难整定，实际应用起来很难。对于自主学习类的移动机器人避障算法，目前主要是基于深度强化学习。目前应用深度强化学习进行避障较为成功的案例有诸如基于预测控制的深度强化学习避障(Decentralized Non-communicating Multiagent Collision Avoidance with DeepReinforcement Learning，CADRL)，基于DDPG的深度强化学习避障(Virtual to real DeepReinforcement Learning Continuous Control of Mobile Robots for MaplessNavigation，VDRL-CCMRMN)，以及DQN算法。

然而对于基于预测控制的深度强化学习(CADRL)的避障算法，首先其基于预测控制来线性预测行人的未来状态，这使得获取的系统状态并不准确；其次，其对动作空间里所有的动作采取的是逐个评估的方法，这意味着在决策时会加大响应延迟；最后，CADRL算法里涉及到的奖励回报仅仅线性叠加到动作值上，并没有真正参与到网络权值的更新，这不能称之为深度强化学习，因为其避障能力并不是学习出来的。

对于DQN算法，由于其只有一个网络，该网络即参与动作值的估计，也参与决策，产生的估计往往是有偏估计，易陷入局部最优，导致的结果是在避障性能上表现不佳，避障成功率不高。

对于基于DDPG的深度强化学习(VDRL-CCMRMN)避障算法，由于该算法是端到端的训练方式，使得移动机器人训练得到避障能力以及寻找目标能力所花费的时间代价巨大。

发明内容

本发明的目的是为解决现有的深度强化学习避障方法存在的响应延迟高、所需训练时间长以及避障成功率低的问题。

本发明为解决上述技术问题采取的技术方案是：基于DoubleDQN网络和深度强化学习的移动机器人避障方法，该方法包括以下步骤：

步骤一：利用移动机器人上的Kinect对移动机器人所处于的当前环境进行地图构建，并提取出移动机器人所处于的当前环境中的所有障碍物信息；

步骤二：将全局坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息变换到局部坐标系下，将局部坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息作为Double DQN网络的状态输入；

步骤三：设计Double DQN网络输出的决策动作空间；

步骤四：设计Double DQN网络的回报函数，回报函数由步长奖励、碰撞惩罚、耗时惩罚和抵达目标位置奖励组成；

步骤五：确定Double DQN网络的决策输出策略；

步骤六：建立Double DQN网络，并对建立的Double DQN网络进行训练，直至训练过程中移动机器人每个回合获得的总体奖励不再增加时停止训练，得到训练好的Double DQN网络，将训练好的Double DQN网络应用于移动机器人的避障。

本发明的有益效果是：本发明的基于DoubleDQN网络和深度强化学习的移动机器人避障方法，本发明设计了特殊的决策动作空间以及回报函数、同时本发明将移动机器人轨迹数据采集和Double DQN网络训练放在两个线程下并行运行，可以有效提高训练效率，解决了现有的深度强化学习避障方法需要的训练时间长的问题；而且本发明通过使用Double DQN网络来对动作值进行估计，为无偏估计，防止陷入局部最优，克服了现有的深度强化学习避障方法的避障成功率低和响应延迟高的问题，与现有方法相比，本发明的方法可以将网络训练时间缩短到现有技术的20％以下，且保持100％的避障成功率。

附图说明

图1是本发明的基于DoubleDQN网络和深度强化学习的移动机器人避障方法的流程图；

图2是本发明将全局坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息变换到局部坐标系下的示意图；

图中的v表示移动机器人速度(包括方向和大小)在局部坐标系下的表现形式，X和Y分别代表全局坐标系的X轴和Y轴，x和y分别代表局部坐标系的x轴和y轴；m为坐标轴的单位；

图3是本发明的动作空间的示意图；

图4是本发明的动作噪声ε的衰减曲线图；

图5是本发明的双线程异步数据收集方法与单线程异步数据收集方法的对比图；

图中虚线代表双线程异步数据收集方法，实线代表单线程异步数据收集方法。

具体实施方式

具体实施方式一：如图1所示，本实施方式所述的基于DoubleDQN网络和深度强化学习的移动机器人避障方法，该方法包括以下步骤：

步骤三：设计Double DQN网络输出的决策动作空间；

步骤五：确定Double DQN网络的决策输出策略；

本实施方式采用Kinect采集的图像具有视觉深度信息，在进行地图构建的同时，可以分别识别出是箱子、行人等等。特别的，在本发明试验中采用的是第二代kinect，即kinect2。

本实施方式设计输出的决策动作空间，可以使得训练收敛速度加快；

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤二的具体过程为：

将全局坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息变换到局部坐标系下，坐标变换如图2所示，图中的v表示移动机器人速度(包括方向和大小)在局部坐标系下的表现形式；将局部坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息作为DoubleDQN网络的状态输入；所述局部坐标系是以移动机器人自身为坐标原点，以移动机器人指向目标位置的方向为x轴正方向，y轴的方向满足右手定则，且垂直于x轴方向。

DoubleDQN网络的状态输入s′的表达式如公式(1)所示：

其中：s^jn代表全局坐标下的网络输入状态，rotate(s^jn)代表对全局坐标下的网络输入状态进行坐标变换，v_x′代表移动机器人速度在局部坐标系下的x轴分量(为标量)，v_y′代表移动机器人速度在局部坐标系下的y轴分量(为标量)，代表障碍物在局部坐标系下的横坐标x，代表障碍物在局部坐标系下的纵坐标y，代表障碍物的半径大小；

dg为当前时刻移动机器人到目标位置的直线距离，且dg＝||p_g-p||₂，p_g为坐标变换后的目标位置，p为移动机器人自身的位置，da为当前时刻移动机器人与障碍物之间的直线距离，且为坐标变换后的障碍物位置，r为移动机器人半径大小，为坐标变换后的障碍物速度，代表障碍物速度在局部坐标系下的x轴分量，代表障碍物速度在局部坐标系下的y轴分量；θ代表移动机器人速度与局部坐标系的x轴的夹角。

本实施方式中的θ可以表示候选动作方向与局部坐标系的x轴的夹角。

具体实施方式三：本实施方式与具体实施方式一不同的是：所述步骤三的具体过程为：

在局部坐标系下，设计DoubleDQN网络输出的决策动作空间a的集合为A，其中：集合A是指以局部坐标系的x轴方向为中心方向，以与中心方向角度相差-90°,-85°,-80°,···0°,5°,···85°,90°的一组候选速度方向的集合，则集合A中包含有37个候选动作。动作空间示意图如图3所示，候选动作如虚线箭头所示。

具体实施方式四：本实施方式与具体实施方式一不同的是：所述步骤四的具体过程为：

DoubleDQN网络的回报函数R(s^jn,a)的形式如公式(2)所示：

R(s^jn,a)＝R₁+R₂+R₃+R₄ (2)

其中：R₁＝k·(dg_last-dg)，R₁表示步长奖励，代表当前时刻移动机器人与目标位置的直线距离和上一时刻移动机器人与目标位置的直线距离的差分，dg表示当前时刻移动机器人与目标位置的直线距离，dg_last表示上一时刻移动机器人与目标位置的直线距离；k表示步长奖励系数；R₁表征每次决策下移动机器人与给定目标位置的距离缩短的程度；

R₂表示碰撞惩罚，da和da_min分别表示当前时刻移动机器人与障碍物之间的直线距离以及移动机器人与障碍物之间的最小安全距离；车子与障碍物相距小于某一值可视为发生碰撞，则进行惩罚；

R₃＝-c·timer_count，R₃表示耗时惩罚，代表对当前移动机器人到目标位置所用时间取负值，其表征所用的时间越多，对该智能体的惩罚则越大，可以在一定程度上刺激其在训练过程中找到最优路径使得抵达目标位置所用的时间最短；timer_count表示移动机器人到目标位置所用时间，c代表耗时惩罚系数；

R₄表示若到达目标位置，则给定一个奖励，否则不给予任何奖励与惩罚。

具体实施方式五：本实施方式与具体实施方式一不同的是：所述步骤五的具体过程为：

对于视野中只有一个障碍物的情况：采用公式(3)所示的ε-greedy输出策略，所有动作值由DoubleDQN网络输出一次性给出；

其中：action代表网络的决策输出，epsilon表示一个随机产生的0到1之间的浮点数，action_space表示决策动作空间a的集合A，即包含所有候选动作，random函数表示从集合A内随机取一个动作；Q(state)表示将当前状态state输入到网络Q中，由于网络有37个输出(动作值，action value)对应37个候选动作，maxQ(state)表示从网络Q的输出中取最大值(最大动作值，action value)，表示网络Q输出的最大值所对应的候选动作；即求出动作值最大的那个动作；

即在决策的时候并非完全是按照动作值最大的动作进行决策的，而是按照某个小概率进行随机给定决策，其它大概率以贪婪算法(按照动作值最大的动作进行决策)给定决策。

Double DQN算法中涉及到两个网络Q1和Q2，属于现有成熟的技术。Q1表示最终要输出的网络(目标网络)，Q2表示训练过程中实时更新的网络，大致流程为：

训练时：1)训练时，每个程序周期都对Q2进行更新；2)每隔500个训练程序周期，利用Q2对Q1进行更新。

数据采集时：Q1网络和Q2网络用以互相估计，为无偏估计，防止陷入局部最优。

Q网络类似于一个评分器，输入是当前的状态state，输出是当前所有候选动作的评分(即动作值，action value)，然后按照每个动作所得的分数来进行动作选取。

动作噪声ε随时间衰减，ε的表达式如公式(4)所示，衰减曲线如图4所示。

式中train_time代表训练时间；

对于视野中大于一个障碍物的情况：双智能体网络仍可应用与多智能体情况，用表示与移动机器人相邻的第i个障碍物，则移动机器人与第i个障碍物组成的状态的表达式为：

s表示移动机器人在局部坐标系下的状态；

则DoubleDQN网络的决策输出策略的表达式如公式(6)所示；

其中：表示利用全部的n个障碍物对当前某个待评估的候选动作的评分，则每个候选动作对应得到n个分数，在n个分数中取最低分，则代表每个候选动作对应的最低分；代表最高的最低分所对应的候选动作。

这类似于我们现实中的投票机制。将37个候选动作当作37个候选人，将n个障碍物当作n个投票人。对于这个n个投票人，每个人都对所有候选人进行投票，即我们要利用训练得到的双智能体网络去获取到所有的的值。反之，对于某一个候选人a_k,k＝0,1,···,73，其目前拥有了n个投票人给的n个分数，我们在这n个分数里取最低分，即对所有的37个候选人(候选动作)都采取这种得分方式。当对所有的候选人(候选动作)评分完毕之后，我们在所有候选人(候选动作)里取一个得分最高的候选人(候选动作)进行决策输出，即

之所以在给每个候选动作评分的时候取的是所有分数里最低的一个，原因在于对与某个候选人取得所有的n个分数里面，取最低分意味着我们在选取动作过程中做了最坏的打算，也就是保证了如果在最坏的情况下车子都能成功避障，那么其它情况车子也一定能正常避障，也即保证车子能以最大的裕度去通过多障碍物情况。

具体实施方式六：本实施方式与具体实施方式一不同的是：所述步骤六的具体过程为：

步骤六一、建立大小为(14，50，50，50，37)、采用非线性全连接、激活函数为ReLU的Double DQN网络，其中：14表示Double DQN网络有14个输入(对应着14维的输入状态)，(50，50，50)代表Double DQN网络有三个神经元个数为50的隐藏层，37代表37个输出动作；

步骤六二、随机初始化Double DQN网络的参数；

步骤六三、利用反向传播规则对Double DQN网络进行训练，将移动机器人轨迹数据采集和Double DQN网络训练放在两个线程下并行运行；

步骤六四、直至训练过程中移动机器人每个回合获得的总体奖励(reward)不再增加(趋于稳定，收敛)时，则停止训练，得到训练好的Double DQN网络；

步骤六五、将训练好的Double DQN网络应用于移动机器人的避障。

本实施方式采用的是双线程异步数据收集方法，也就是将仿真的数据采集与网络训练分别放在两个独立的线程里面进行，为了显示出本发明的异步训练方法的有效性，将本发明的双线程异步数据收集方法与传统的单线程异步数据收集方法进行了对比，给出如图5所示的数据采集对比图。

本实施方式将移动机器人轨迹数据采集和Double DQN网络训练放在两个线程下并行运行，可以有效提高训练效率。

具体实施方式七：本实施方式与具体实施方式一不同的是：步骤一采用的Kinect为Kinect2。

Kinect采集的图像具有视觉深度信息，在进行地图构建的同时，可以分别识别出是箱子、行人等等。本实施方式采用的是第二代kinect，即kinect2。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.基于DoubleDQN网络和深度强化学习的移动机器人避障方法，其特征在于，该方法包括以下步骤：

步骤三：设计Double DQN网络输出的决策动作空间；

步骤五：确定Double DQN网络的决策输出策略；

2.根据权利要求1所述的基于Double DQN网络和深度强化学习的移动机器人避障方法，其特征在于，所述步骤二的具体过程为：

将全局坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息变换到局部坐标系下，将局部坐标系下的移动机器人自身、目标位置以及步骤一提取的所有障碍物信息作为DoubleDQN网络的状态输入；所述局部坐标系是以移动机器人自身为坐标原点，以移动机器人指向目标位置的方向为x轴正方向，y轴的方向满足右手定则，且垂直于x轴方向；

DoubleDQN网络的状态输入s′的表达式如公式(1)所示：

其中：s^jn代表全局坐标下的网络输入状态，rotate(s^jn)代表对全局坐标下的网络输入状态进行坐标变换，v_x′代表移动机器人速度在局部坐标系下的x轴分量，v_y′代表移动机器人速度在局部坐标系下的y轴分量，代表障碍物在局部坐标系下的横坐标x，代表障碍物在局部坐标系下的纵坐标y，代表障碍物的半径大小；

3.根据权利要求1所述的基于DoubleDQN网络和深度强化学习的移动机器人避障方法，其特征在于，所述步骤三的具体过程为：

在局部坐标系下，设计DoubleDQN网络输出的决策动作空间a的集合为A，其中：集合A是指以局部坐标系的x轴方向为中心方向，以与中心方向角度相差-90°,-85°,-80°,…0°,5°,…85°,90°的一组候选速度方向的集合，则集合A中包含有37个候选动作。

4.根据权利要求1所述的基于DoubleDQN网络和深度强化学习的移动机器人避障方法，其特征在于，所述步骤四的具体过程为：

DoubleDQN网络的回报函数R(s^jn,a)的形式如公式(2)所示：

R(s^jn,a)＝R₁+R₂+R₃+R₄ (2)

其中：R₁＝k·(dg_last-dg)，R₁表示步长奖励，dg表示当前时刻移动机器人与目标位置的直线距离，dg_last表示上一时刻移动机器人与目标位置的直线距离；k表示步长奖励系数；

R₂表示碰撞惩罚，da和da_min分别表示当前时刻移动机器人与障碍物之间的直线距离以及移动机器人与障碍物之间的最小安全距离；

R₃＝-c·timer_count，R₃表示耗时惩罚，timer_count表示移动机器人到目标位置所用时间，c代表耗时惩罚系数；

5.根据权利要求1所述的基于DoubleDQN网络和深度强化学习的移动机器人避障方法，其特征在于，所述步骤五的具体过程为：

对于视野中只有一个障碍物的情况：采用公式(3)所示的输出策略，所有动作值由DoubleDQN网络输出一次性给出；

其中：action代表网络的决策输出，epsilon表示一个随机产生的0到1之间的浮点数，action_space表示决策动作空间a的集合A，random函数表示从集合A内随机取一个动作；Q(state)表示将当前状态state输入到网络Q中，maxQ(state)表示从网络Q的输出中取最大值，表示网络Q输出的最大值所对应的候选动作；

动作噪声ε随时间衰减，ε的表达式如公式(4)所示，

式中：train_time代表训练时间；

对于视野中大于一个障碍物的情况：用表示与移动机器人相邻的第i个障碍物，则移动机器人与第i个障碍物组成的状态的表达式为：

s表示移动机器人在局部坐标系下的状态；

则DoubleDQN网络的决策输出策略的表达式如公式(6)所示；

6.根据权利要求1所述的基于DoubleDQN网络和深度强化学习的移动机器人避障方法，其特征在于，所述步骤六的具体过程为：

步骤六一、建立大小为(14，50，50，50，37)、采用非线性全连接、激活函数为ReLU的Double DQN网络，其中：14表示Double DQN网络有14个输入，(50，50，50)代表Double DQN网络有三个神经元个数为50的隐藏层，37代表37个输出动作；

步骤六二、随机初始化Double DQN网络的参数；

步骤六四、直至训练过程中移动机器人每个回合获得的总体奖励不再增加时，则停止训练，得到训练好的Double DQN网络；

7.根据权利要求1所述的基于DoubleDQN网络和深度强化学习的移动机器人避障方法，其特征在于，步骤一采用的Kinect为Kinect2。