CN110632931A

CN110632931A - 动态环境下基于深度强化学习的移动机器人避碰规划方法

Info

Publication number: CN110632931A
Application number: CN201910953396.4A
Authority: CN
Inventors: 王宏健; 何姗姗; 严浙平; 付忠健; 阮力; 刘超伟
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2019-12-31
Anticipated expiration: 2039-10-09
Also published as: CN110632931B

Abstract

本发明公开一种动态环境下基于深度强化学习的移动机器人避碰规划方法，属于移动机器人导航技术领域。本发明通过激光测距仪采集原始数据，将原始数据处理后作为神经网络的输入，建立LSTM神经网络，通过A3C算法，神经网络输出相应参数，经过处理获得机器人每一步的动作。本发明无需对环境进行建模，更加适用于未知障碍物环境，采用actor‑critic框架与时间差分算法，实现低方差的同时更适用于连续动作空间，实现边训练边学习的效果。设计具有艏向转角限制的连续动作空间，且采用4个线程并行学习训练，与一般深度强化学习方法相比，大大提高学习训练时间，减少样本相关性，保障探索空间的高利用性与探索策略的多样性，从而提升算法收敛性、稳定性以及避障成功率。

Description

动态环境下基于深度强化学习的移动机器人避碰规划方法

技术领域

本发明属于移动机器人导航技术领域，具体涉及一种动态环境下基于深度强化学习的移动机器人避碰规划方法。

背景技术

移动机器人的研究始于20世纪60年代，迄今为止该领域已成为机器人学的重要研究方向之一。随着科技水平的不断进步与发展，自主移动机器人具有较高的智能化水平，可以在无人监督的情况下自主完成任务。因此在搜索、探测、消防、侦查等领域，移动机器人具有良好的发展空间与前景。在上述特殊领域，环境通常复杂多变，不仅有动态障碍物同时也有静态障碍物，要想成功实现移动机器人的功能就必须设计合适的避障算法，从而使机器人具有实时避障的能力。自主移动机器人的智能避障是指机器人通过传感器检测到障碍物并采集其状态信息，按照一定的算法进行的路径规划，从而避开障碍物，最终到达目的地。深度强化学习是近年来人工智能领域最受关注的方向之一，它将深度学习的感知能力和强化学习的决策能力相结合，直接通过高维感知输入的学习来控制Agent的行为，为解决复杂系统的感知决策问题提供了思路。近几年的深度强化学习算法的相关研究主要围绕DQN即DeepQ-network算法及其相关改进展开。DeepMind公司的Mnih等提出了开创性的DQN，通过DQN，Agent仅通过从图像中获取原始像素就能学会玩视频游戏。Mnih引入了单独的Q函数网络并将迭代式更新引入DQN从而降低目标值与当前值的相关性，提出改进版DQN即NatureDQN。Wang等人提出了决斗模型即Dueling DQN，将状态值和动作优势值分开，使得网络架构和RL算法能够更好地结合在一起。Hasselt针对DQN中学习过程中近似函数尺度不变，从而使reward剪切到预定范围中，最终影响不同游戏应用算法质量这一问题，提出使用自适应的规范化学习中的目标。Lillicrap等人提出了DDPG，DDPG是深度强化学习应用于连续控制强化学习领域的一种重要算法，使用相同的参数解决了20多个连续控制的仿真问题。2016年，Mnih等人提出异步优势行动者-评论家A3C算法，该算法融合了之前几乎所有的深度强化学习算法，它可以在相对轻量级的许多游戏任务中实现卓越的效果。传统避障方法主要实现机器人无碰全局路径规划，主要经典算法有：人工势场法、模糊控制算法、A*算法、栅格法等。智能避障方法则致力于解决传统避障方法中对于未知坏境下的明显缺陷问题，使机器人能在动态未知环境下仍有良好避障效果。比较新颖的智能避障方法有：基于神经网络的机器人避障方法、结合强化学习的避障算法等。强化学习、深度强化学习在移动机器人避障、导航等问题上都有着良好表现。总的来说，传统避障方法局限性较大，特别是对于复杂、动态未知环境不太适用；而智能避障算法特别是近几年热门的结合深度学习、强化学习的避障算法对于连续高维复杂动态未知环境有极大优势。

一般的强化学习仅适用于离散动作空间，例如DQN，而对于高维连续动作空间，会出现计算爆炸等现象，本发明提出的一种动态环境下基于深度强化学习的移动机器人避碰规划方法，则适用于连续动作空间，通过异步学习机制消除相关性，节省了通信成本、时间成本，从而提升探索策略的多样性最终提升算法稳定性。本发明提出的一种动态环境下基于深度强化学习的移动机器人避碰规划方法明显优于传统方法与一般深度强化学习方法，且本文通过实验充分说明了在面对不同类型动态障碍物环境下该方法具有自适应性强的特点，能更好实现移动机器人的避障功能。

发明内容

本发明的目的在于：针对具有转角限制的连续动作空间，为了提升移动机器人的先进性和安全性在面对动态障碍物环境时能够有能力去寻找一条安全、高效的路径来完成安全的作业任务。因此针对提出的问题，为了实现成功躲避动态障碍物的目的，本发明提出了一种基于深度强化学习的移动机器人动态障碍物避障方法。

本发明的目的是这样实现的：

一种动态环境下基于深度强化学习的移动机器人避碰规划方法，包括以下步骤：

步骤一：通过移动机器人所携带的激光测距仪获取原始数据，获得障碍物信息；

步骤二：对步骤一中原始数据进行数据处理后，与在全局坐标系下的相关位置、角度信息结合进行相应处理，处理后的数据即A3C算法的状态S；

步骤三：设计A3C算法的动作空间、奖励函数，奖励函数包括对与目标距离的惩罚、与障碍物距离的惩罚以及对所用步长的惩罚；

步骤四：设计障碍物环境，构建多类型动态障碍物；

步骤五：建立LSTM神经网络，将步骤二中所得状态作为神经网络的输入，输出经处理后即为移动机器人所选择的动作即艏向角角度；

步骤六：通过所建立的神经网络，使用A3C算法进行训练学习，在训练过程中，神经网络针对每一步的状态-动作对进行好坏评价，通过评价值不断更新网络相应参数，最终朝着使奖励最大化的方向更新，经过预设回合的训练后，移动机器人通过训练好的网络能够实现有效避障。

步骤一中所述的通过移动机器人所携带的激光测距仪获取原始数据，获得障碍物信息；原始数据为一系列离散的数据点，均包含距离信息与方位角信息，通过以上信息获取局部坐标系下障碍物距离与方位信息。

步骤二中将激光传感器获得的原始数据进行数据处理后，与在全局坐标系下的移动机器人位置、目标位置以及艏向角角度信息再进行相应处理后作为A3C算法的状态具体包括：局部坐标系X_mO_mY_m是指以移动机器人自身为坐标原点，以移动机器人运动方向为X轴正方向，Y轴正方向与X轴垂直且满足右手定则；全局坐标系X_eO_eY_e则为大地坐标系；步骤一中获取的原始数据是基于局部坐标系下的方位信息，需转换成全局坐标系下的方位信息与目标位置信息、移动机器人自身位置信息以及相关角度信息共同处理后作为算法的状态。

步骤三中所述的设计A3C算法的动作空间、奖励函数，奖励函数包括对与目标距离的惩罚、与障碍物距离的惩罚以及对所用步长的惩罚，所设计的奖励函数包含三部分，分别是对距离最近的障碍物与当前移动机器人距离的惩罚，距离越近惩罚越大；对目标与移动机器人距离的惩罚，距离越远惩罚越大；对步数的惩罚，在每个回合中，所用步数越多即时间越长，故步数越多惩罚越大。

步骤四中所述的设计障碍物环境，构建多类型动态障碍物，在构建形状不同的静态障碍物基础上，增加四种动态障碍物：匀速直线运动、匀速正弦运动、匀速圆周运动、匀加速直线运动动态障碍物，并分别就每种动态障碍物进行不同速度与加速度的训练学习与测试。

步骤五中所述的建立LSTM神经网络，将步骤二中所得状态作为神经网络的输入，输出经处理后即为移动机器人所选择的动作即艏向角度：整个网络框架分为全局网络与局部网络，全局网络与局部网络中都含有Actor与Critic两个网络结构；Actor网络与Critic网络均由一个输入层、一个LSTM隐含层、两个全连接隐含层、一个输出层构成。

步骤六中所述的通过所建立的神经网络，使用A3C算法进行训练学习，在训练过程中，神经网络针对每一步的状态-动作对进行好坏评价，通过评价值不断更新网络相应参数，最终实现奖励最大化目的，经过预设回合的训练后，移动机器人通过训练好的网络能够实现有效避障中，整个网络由4个线程并行工作，其中，全局网络保存其中最好的参数再通过同步机制拉送到每个局部网络中，而Actor网络负责选择动作，Critic网络则对当前状态-动作对进行评价，Actor网络按照Critic网络的评价进行参数更新，当训练结束后，通过该网络，移动机器人能够自主实现实时避障。

本发明的有益效果在于：

1.针对多类型动态障碍物环境，提出一种动态环境下基于深度强化学习的移动机器人避碰规划方法，相比于传统的避障方法与深度强化学习方法，不仅兼顾了安全避障距离，而且对移动机器人的避障轨迹的平滑性和整体避障的代价消耗以及避障成功率都进行了提高，避障仿真证明了本发明提出的算法具有可适应性强和高效率的特点。

2.考虑到移动机器人工作环境通常是未知且较复杂含多种类型动态障碍物，对于移动机器人自身而言已知环境仅为激光测距仪探测所得局部范围，因此本发明专门针对这种全局未知而局部已知的情况进行多类型动态障碍物避障进行设计，与传统避障方法相比，扩大了避障算法的应用范围，与一般深度强化学习方法相比，无需对环境进行建模，大大减少计算成本，降低难度，更加适用于未知含多类型动态障碍物环境。

3.相比于一般深度强化学习仅适用于离散动作空间且必须回合结束才能学习，本避障方法采用Actor-Critic框架与时间差分算法，实现低方差的同时更适用于连续动作空间，实现边训练边学习的效果。考虑到移动机器人实际具有角速度限制，因此设计了具有艏向角速度限制的连续动作空间，且采用4个线程并行学习训练，与一般深度强化学习方法相比，大大提高学习训练时间，减少样本相关性，保障了探索空间的高利用性与探索策略的多样性，从而提升算法收敛性、稳定性以及避障成功率。

4.相比静态障碍物环境下的移动机器人小车的避障的A3C算法的应用，是无法处理拥有动态障碍物环境下的小车避障过程，因此上文在静态障碍物避障算法的状态，奖励函数进行了改进来实现动态障碍物环境下的移动小车避障的目的。

附图说明

图1为动态环境避障算法流程图。

图2为移动机器人坐标系系统图。

图3为激光测距仪探测模型示意图。

图4(a)为匀速直线动态障碍物环境下移动机器人避障仿真结果图。

图4(b)为匀速正弦动态障碍物环境下移动机器人避障仿真结果图。

图4(c)为匀速圆周动态障碍物环境下移动机器人避障仿真结果图。

图4(d)为匀加速直线动态障碍物环境下移动机器人避障仿真结果图。

图5(a)为匀速直线动态障碍物环境下移动机器人避障且到达目标仿真结果图。

图5(b)为匀速正弦动态障碍物环境下移动机器人避障且到达目标仿真结果图。

图5(c)为匀速圆周动态障碍物环境下移动机器人避障且到达目标仿真结果图。

图5(d)为匀加速直线动态障碍物环境下移动机器人避障且到达目标仿真结果图。

图6(a)为匀速直线动态障碍物环境下移动机器人与动态障碍物之间距离曲线图。

图6(b)为匀速正弦动态障碍物环境下移动机器人与动态障碍物之间距离曲线图。

图6(c)为匀速圆周动态障碍物环境下移动机器人与动态障碍物之间距离曲线图。

图6(d)为匀加速直线动态障碍物环境下移动机器人与动态障碍物之间距离曲线图。

图7为Actor网络选择动作示意图。

图8为动态障碍物环境下移动机器人避障运动轨迹图。

具体实施方式

下面结合附图和案例对本发明做进一步描述。

本发明公开一种动态环境下基于深度强化学习的移动机器人避碰规划方法，属于移动机器人导航技术领域，可用于移动机器人在多类型动态障碍物环境下工作时的有效避障。本发明通过激光测距仪采集原始数据，将原始数据进行相应处理后作为神经网络的输入，建立LSTM神经网络，通过A3C算法，神经网络输出相应参数，经过处理获得机器人每一步的动作。整体避障算法流程图如图1所示。本发明无需对环境进行建模，更加适用于未知障碍物环境，采用actor-critic框架与时间差分算法，实现低方差的同时更适用于连续动作空间，实现边训练边学习的效果。考虑到移动机器人实际具有转角限制，因此设计了具有艏向转角限制的连续动作空间，且采用4个线程并行学习训练，与一般深度强化学习方法相比，大大提高学习训练时间，减少样本相关性，保障了探索空间的高利用性与探索策略的多样性，从而提升算法收敛性、稳定性以及避障成功率。仿真实验结果可以看出本发明所提算法针对多种类型动态障碍物环境有更好的适应性和避障执行效率，能够更好的应用到移动机器人导航技术领域。

本发明包括以下步骤：

步骤一：通过移动机器人所携带的激光测距仪获取原始数据，获得障碍物信息：

本专利中移动机器人所携带的激光测距仪开角为180°，分辨率为1°，测量范围为80m，通过激光波束反射原理，可获取探测范围内障碍物的相对数据信息，原始数据为一系列离散的数据点，均包含距离信息与方位角信息，通过上述信息即可获取局部坐标系下障碍物距离与方位信息。通过激光测距仪发出的180条波束探测回来的数据如图3所示。

步骤二：将激光传感器获得的原始数据进行数据处理后，与在全局坐标系下的移动机器人位置、目标位置以及艏向角角度信息再进行相应处理后作为A3C算法的状态：

在考虑到障碍物为动态障碍物会给避障带来困难因此改变A3C算法的神经网络的输入状态实现动态障碍物的躲避。其中动态障碍物的状态分别为：障碍物与移动机器人的相对位置，对动态障碍物速度的预测值和下一时刻的位置信息以及角速度的变化情况，从而实现在处理动态障碍物避障的过程。局部坐标系X_mO_mY_m是指以移动机器人自身为坐标原点，以移动机器人运动方向为X轴正方向，Y轴正方向与X轴垂直且满足右手定则；全局坐标系X_eO_eY_e则为大地坐标系。步骤一中获取的原始数据是基于局部坐标系下的方位信息，需转换成全局坐标系下的方位信息与目标位置信息、移动机器人自身位置信息以及相关角度信息共同处理后作为算法的状态。假设移动机器人在t时刻在全局坐标系下的位置坐标为(x_t，y_t)，在一个采样周期T_s内，移动机器人做匀速直线运动，则移动机器人运动学模型如下式所示：

其中，(x_t+1,y_t+1)分别是t+1时刻所对应的全局坐标系下移动机器人的位置坐标，v_t为机器人运动速度，ψ为机器人艏向与全局坐标系X_e轴正方向夹角。

将激光测距仪获取的障碍物极坐标形式的方位信息转化为局部坐标系下的位置坐标信息的转换公式如下式所示：

其中，(x_o,y_o)为局部坐标系下障碍物直角坐标形式位置信息，(l,α)为激光测距仪获得的极坐标信息，l为障碍物到局部坐标系原点O_m的距离，α为障碍物与O_m连线与Y_m轴正方向夹角。

再将局部坐标系中障碍物坐标转换成全局坐标系下的直角坐标(x_e,y_e)如下式所示：

其中，ψ为机器人艏向与全局坐标系X_e轴正方向夹角,即艏向角,l为障碍物到局部坐标系原点O_m的距离，α为障碍物与O_m连线与Y_m轴正方向夹角。

移动机器人的全局、局部坐标系及相关参数构成的移动机器人坐标系系、统如图2所示。

在本文中规定探测区域为80m的扇形范围，通过激光测距仪发出的180条波束探测回来的数据如图3所示：

步骤三：设计A3C算法的动作空间、奖励函数，奖励函数包括对与目标距离的惩罚、与障碍物距离的惩罚以及对所用步长的惩罚：

所设计的动作空间为艏向角在[-10°，+10°]区间内的连续动作空间，初始艏向角以正北方向为基准规定为0度，逆时针为正，即动作空间a的集合为A，即包含所有可能选择动作，由于是连续动作空间，故可以取该区间内的任一值，从而有别于其他强化学习中动作离散这一特点。若动作空间是离散的，则需人为规定出所有可能选择的动作，因此规定动作的合理性对最终训练效果有很大影响。故本方法可避免这一问题，且考虑到实际情况，移动机器人是具有转角限制的，最终设定转角限制为[-10°，+10°]。

奖励函数包含四部分，分别是对距离最近的障碍物与当前移动机器人距离的惩罚，距离越近惩罚越大；对目标与移动机器人距离的惩罚，距离越远惩罚越大；对步数的惩罚，在每个回合中，所用步数越多即时间越长，故步数越多惩罚越大；移动小车的当前艏向与预测到的动态障碍物的移动方向的相对角度差，小车艏向偏离动态障碍物的角度差越大，奖励越大，相反惩罚越多

奖励函数R如下式所示：

R(s,a)＝R₁+R₂+R₃+R₄

其中，R₁＝p·tar_dis，tar_dis表示当前移动机器人与目标的直线距离，p为目标奖励系数，由于最终目的是到达目标，即距离目标越近越好，故p设定为负值，因此，R₁表示奖励函数对移动机器人与目标距离的惩罚。

而R₂表示奖励函数对距离最近的障碍物与当前移动机器人距离的惩罚，R₂＝q·obs_dis，q为障碍物奖励系数，obs_dis表示当前移动机器人与其距离最近的障碍物距离，距离越大越好，故q设定为正值。

而R₃表示奖励函数对步数的惩罚，R₃＝k·step_count，k为时间惩罚系数，取k为负数，step_count为当前累计步数。

当移动机器人每做出一个动作，对于R₁与R₂都再次进行相应奖惩。设置到达距离dis_reach，即tar_dis<＝dis_reach时，默认移动机器人到达目标，R₁+＝50。若移动机器人能连续回合到达目标，则在此基础上，R₁+＝k·ep_count，其中，k为连续到达奖励系数，ep_count为连续到达的回合累计数，当出现未到达回合，ep_count清零。当移动机器人未到达目标时，不改变R₁。设置碰撞距离dis_crash，作为安全距离，当obs_dis<＝dis_crash时，默认发生碰撞，R₂-＝100，该回合结束，开始新回合，否则无额外奖惩。以上情况均基于激光测距仪探测范围内存在障碍物，若探测范围内无障碍物，则对移动机器人的移动艏向朝向目标方向的角度差在一定范围内给予一定奖励。

R₄表示对动态障碍物运动方向与移动机器人艏向角角度差的惩罚。规定移动机器人的艏向角度为ψ，动态障碍物的移动方向记为β，当两者的角度差Δ＝|ψ-β|的角度越大，相应的奖励越大；反之若Δ的值越小，则证明小车将会在某时刻与动态障碍物相撞，因此相应的惩罚也会变大。因此相对于静态障碍物的网络状态输入，这个条件的增加会加速神经网络的收敛速度，同时能够以最大安全航向躲避动态障碍物。

步骤四：设计障碍物环境，构建多类型动态障碍物：

在构建形状不同的静态障碍物基础上，增加四种动态障碍物：匀速直线运动、匀速正弦运动、匀速圆周运动、匀加速直线运动动态障碍物，并分别就每种动态障碍物进行不同速度与加速度的训练学习与测试。

针对动态障碍环境，设置不同运动速度与加速度的动态障碍物，并以移动机器人v＝1m/s与v＝2m/s两种运动速度进行移动机器人避碰仿真实验验证，绘出不同动态障碍物下的移动机器人与动态障碍物之间距离曲线。其中，匀速直线运动动态障碍物进行匀速自左向右、再自右向左的往复运动；匀速正弦运动动态障碍物轨迹为平移、拉伸变换后的部分正弦曲线，进行匀速自上向下、再自下向上的往复运动；匀速圆周运动动障碍物则是每个step相对于圆心转过同样的角度θ，进行顺时针圆周运动；匀加速直线运动动障碍物初速度为0，自右上向左下进行匀加速直线运动，到达左下方终点后，速度变为0，自左下方向右上方进行相同加速度的匀加速直线运动，然后进行往复运动。

移动机器人速度v＝1m/s，匀速直线动障碍速度v_o1＝0.3m/s；移动机器人速度v＝1m/s，匀速正弦运动障碍速度v_o2＝1.2m/s；移动机器人速度v＝2m/s，匀速圆周运动动障碍每个step转过的角度θ＝3°；移动机器人速度v＝2m/s，匀加速直线运动动障碍初始速度v_o3＝0，加速度a＝0.05m/s²。以上四种机器人避障仿真结果分别如图4(a)、图4(b)、图4(c)、图4(d)所示。上述针对不同运动的动态障碍物成功避障且到达目标的移动机器人避障仿真结果分别如图5(a)、图5(b)、图5(c)、图5(d)所示，各仿真结果所对应的移动机器人与动态障碍物之间距离曲线分别如图6(a)、图6(b)、图6(c)、图6(d)所示。其中，矩形为目标，黑色区域为障碍物，浅灰色曲线为移动机器人运动轨迹，中灰色曲线为动态障碍物运动轨迹。

步骤五：建立LSTM神经网络，将步骤二中所得状态作为神经网络的输入，输出经处理后即为移动机器人所选择的动作即艏向角角度：

整个网络框架分为全局网络与局部网络，全局网络与局部网络中都含有Actor与Critic两个网络结构，但全局网络仅起储存网络相关参数作用。Actor网络与Critic网络均由一个输入层，一个LSTM隐含层，两个全连接隐含层，一个输出层构成，其中，Actor网络的输出用于选择动作。

建立A3C-LSTM神经网络，Critic网络输入为相应数据处理后的8维状态信息，有三层隐含层，输入层与含64个LSTM记忆单元的LSTM神经网络层相连，batch_size＝1，初始化状态为全0，将处理后的LSTM层输出作为第二层隐含层的输入，采用激活函数为RELU6的非线性全连接方式，再将该层输出作为最后一层隐含层输入，最后一层隐含层激活函数同样为RELU6的非线性全连接层，最后连接输出层，维度为1，输出为V(s_t)，即为当前时刻评价值函数。Actor网络与Critic网络结构相同，不同之处在于：最后一层隐含层全连接两个输出层，激活函数不同，输出分别为mu，sigma。LSTM网络中记忆单元状态、参数等只能由Critic网络进行更新，Actor网络中的仅复制Critic网络中LSTM层。

Actor网络选择动作示意图如图7所示。其中，S₀,S₁,…,S₁₈均为可能到达的状态，状态输入Actor网络中，经过隐含层，输出为sigma,mu用来确定正态分布函数。wrap_a_out与normal_dist则表示生成以sigma,mu为对应参数的正态分布函数，从而按概率以正态分布形式进行采样，输出动作。Critic网络负责评价Actor网络在当前状态下所选择的动作好坏，最终实现奖励最大化。

步骤六：通过所建立的神经网络，使用A3C算法进行训练学习，在训练过程中，神经网络针对每一步的状态-动作对进行好坏评价，通过评价值不断更新网络相应参数，最终朝着使奖励最大化的方向更新，经过预设回合的训练且移动机器人每回合获得奖励基本趋于稳定，移动机器人通过训练好的网络能够实现有效避障：

整个网络由4个线程并行工作，其中，全局网络保存其中最好的参数再通过同步机制拉送到每个局部网络中，而Actor网络负责选择动作，Critic网络则对当前状态-动作对进行评价，Actor网络按照Critic网络的评价进行参数更新，当训练结束后，通过应用训练好的网络，移动机器人可自主实现实时避障。

为了验证本专利方法有的有效性，设计了仿真案例，设计了多类型动态障碍物环境下移动机器人为到达虚拟目标点进行避障仿真实验。如图8所示，仿真环境大小为800×600，设置移动机器人的起始位置为(50,100)，初始艏向角以正北方向为基准规定为0度，即为全局坐标系y轴正方向，深灰色正方形为虚拟目标，边长为30，同时在二维环境中设置了8个静态障碍物，再设置4种不同类型的动态障碍物，规定当移动机器人与虚拟目标的距离为15m的时候，到达目标标志位为真，标志AUV已经到达目标成功完成避障任务，结束该次训练回合，重新开始回合，直到到达预设回合次数。

图8表示A3C-LSTM算法在动态障碍物环境下形成的避障运动轨迹。图中浅灰色曲线即为移动机器人运动轨迹，中灰色曲线为动态障碍物运动轨迹，从图中可以看出移动机器人选择很合理的避障路径成功到达虚拟目标且没有带来避障风险，同时保持安全避障距离的要求，针对多种类型动态障碍物均具有良好避障效果。实验仿真结果证明了本文所提出的是合理的且符合实际要求并具有一定优势。

本发明最终针对多类型动态障碍物环境的移动机器人避障问题，提出一种动态环境下基于深度强化学习的移动机器人避碰规划方法，通过实验数据证明了本发明提出的避障方法在复杂多类型动态障碍物环境下避障算法的效率与可行性，更能胜任这种含随机复杂动态障碍物的移动机器人作业环境，能够使得移动机器人灵活应对不同的外界环境，能够更好的应用到移动机器人导航技术领域。

Claims

1.一种动态环境下基于深度强化学习的移动机器人避碰规划方法，其特征在于，包括以下步骤：

步骤四：设计障碍物环境，构建多类型动态障碍物；

2.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法，其特征在于：步骤一中所述的通过移动机器人所携带的激光测距仪获取原始数据，获得障碍物信息；原始数据为一系列离散的数据点，均包含距离信息与方位角信息，通过以上信息获取局部坐标系下障碍物距离与方位信息。

3.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法，其特征在于：步骤二中将激光传感器获得的原始数据进行数据处理后，与在全局坐标系下的移动机器人位置、目标位置以及艏向角角度信息再进行相应处理后作为A3C算法的状态具体包括：局部坐标系X_mO_mY_m是指以移动机器人自身为坐标原点，以移动机器人运动方向为X轴正方向，Y轴正方向与X轴垂直且满足右手定则；全局坐标系X_eO_eY_e则为大地坐标系；步骤一中获取的原始数据是基于局部坐标系下的方位信息，需转换成全局坐标系下的方位信息与目标位置信息、移动机器人自身位置信息以及相关角度信息共同处理后作为算法的状态。

4.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法，其特征在于：步骤三中所述的设计A3C算法的动作空间、奖励函数，奖励函数包括对与目标距离的惩罚、与障碍物距离的惩罚以及对所用步长的惩罚，所设计的奖励函数包含三部分，分别是对距离最近的障碍物与当前移动机器人距离的惩罚，距离越近惩罚越大；对目标与移动机器人距离的惩罚，距离越远惩罚越大；对步数的惩罚，在每个回合中，所用步数越多即时间越长，故步数越多惩罚越大。

5.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法，其特征在于：步骤四中所述的设计障碍物环境，构建多类型动态障碍物，在构建形状不同的静态障碍物基础上，增加四种动态障碍物：匀速直线运动、匀速正弦运动、匀速圆周运动、匀加速直线运动动态障碍物，并分别就每种动态障碍物进行不同速度与加速度的训练学习与测试。

6.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法，其特征在于：步骤五中所述的建立LSTM神经网络，将步骤二中所得状态作为神经网络的输入，输出经处理后即为移动机器人所选择的动作即艏向角度：整个网络框架分为全局网络与局部网络，全局网络与局部网络中都含有Actor与Critic两个网络结构；Actor网络与Critic网络均由一个输入层、一个LSTM隐含层、两个全连接隐含层、一个输出层构成。

7.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法，其特征在于：步骤六中所述的通过所建立的神经网络，使用A3C算法进行训练学习，在训练过程中，神经网络针对每一步的状态-动作对进行好坏评价，通过评价值不断更新网络相应参数，最终实现奖励最大化目的，经过预设回合的训练后，移动机器人通过训练好的网络能够实现有效避障中，整个网络由4个线程并行工作，其中，全局网络保存其中最好的参数再通过同步机制拉送到每个局部网络中，而Actor网络负责选择动作，Critic网络则对当前状态-动作对进行评价，Actor网络按照Critic网络的评价进行参数更新，当训练结束后，通过该网络，移动机器人能够自主实现实时避障。