CN110632931A - 动态环境下基于深度强化学习的移动机器人避碰规划方法 - Google Patents

动态环境下基于深度强化学习的移动机器人避碰规划方法 Download PDF

Info

Publication number
CN110632931A
CN110632931A CN201910953396.4A CN201910953396A CN110632931A CN 110632931 A CN110632931 A CN 110632931A CN 201910953396 A CN201910953396 A CN 201910953396A CN 110632931 A CN110632931 A CN 110632931A
Authority
CN
China
Prior art keywords
mobile robot
network
obstacle
dynamic
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910953396.4A
Other languages
English (en)
Other versions
CN110632931B (zh
Inventor
王宏健
何姗姗
严浙平
付忠健
阮力
刘超伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201910953396.4A priority Critical patent/CN110632931B/zh
Publication of CN110632931A publication Critical patent/CN110632931A/zh
Application granted granted Critical
Publication of CN110632931B publication Critical patent/CN110632931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Optics & Photonics (AREA)
  • Electromagnetism (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开一种动态环境下基于深度强化学习的移动机器人避碰规划方法,属于移动机器人导航技术领域。本发明通过激光测距仪采集原始数据,将原始数据处理后作为神经网络的输入,建立LSTM神经网络,通过A3C算法,神经网络输出相应参数,经过处理获得机器人每一步的动作。本发明无需对环境进行建模,更加适用于未知障碍物环境,采用actor‑critic框架与时间差分算法,实现低方差的同时更适用于连续动作空间,实现边训练边学习的效果。设计具有艏向转角限制的连续动作空间,且采用4个线程并行学习训练,与一般深度强化学习方法相比,大大提高学习训练时间,减少样本相关性,保障探索空间的高利用性与探索策略的多样性,从而提升算法收敛性、稳定性以及避障成功率。

Description

动态环境下基于深度强化学习的移动机器人避碰规划方法
技术领域
本发明属于移动机器人导航技术领域,具体涉及一种动态环境下基于深度强化学习的移动机器人避碰规划方法。
背景技术
移动机器人的研究始于20世纪60年代,迄今为止该领域已成为机器人学的重要研究方向之一。随着科技水平的不断进步与发展,自主移动机器人具有较高的智能化水平,可以在无人监督的情况下自主完成任务。因此在搜索、探测、消防、侦查等领域,移动机器人具有良好的发展空间与前景。在上述特殊领域,环境通常复杂多变,不仅有动态障碍物同时也有静态障碍物,要想成功实现移动机器人的功能就必须设计合适的避障算法,从而使机器人具有实时避障的能力。自主移动机器人的智能避障是指机器人通过传感器检测到障碍物并采集其状态信息,按照一定的算法进行的路径规划,从而避开障碍物,最终到达目的地。深度强化学习是近年来人工智能领域最受关注的方向之一,它将深度学习的感知能力和强化学习的决策能力相结合,直接通过高维感知输入的学习来控制Agent的行为,为解决复杂系统的感知决策问题提供了思路。近几年的深度强化学习算法的相关研究主要围绕DQN即DeepQ-network算法及其相关改进展开。DeepMind公司的Mnih等提出了开创性的DQN,通过DQN,Agent仅通过从图像中获取原始像素就能学会玩视频游戏。Mnih引入了单独的Q函数网络并将迭代式更新引入DQN从而降低目标值与当前值的相关性,提出改进版DQN即NatureDQN。Wang等人提出了决斗模型即Dueling DQN,将状态值和动作优势值分开,使得网络架构和RL算法能够更好地结合在一起。Hasselt针对DQN中学习过程中近似函数尺度不变,从而使reward剪切到预定范围中,最终影响不同游戏应用算法质量这一问题,提出使用自适应的规范化学习中的目标。Lillicrap等人提出了DDPG,DDPG是深度强化学习应用于连续控制强化学习领域的一种重要算法,使用相同的参数解决了20多个连续控制的仿真问题。2016年,Mnih等人提出异步优势行动者-评论家A3C算法,该算法融合了之前几乎所有的深度强化学习算法,它可以在相对轻量级的许多游戏任务中实现卓越的效果。传统避障方法主要实现机器人无碰全局路径规划,主要经典算法有:人工势场法、模糊控制算法、A*算法、栅格法等。智能避障方法则致力于解决传统避障方法中对于未知坏境下的明显缺陷问题,使机器人能在动态未知环境下仍有良好避障效果。比较新颖的智能避障方法有:基于神经网络的机器人避障方法、结合强化学习的避障算法等。强化学习、深度强化学习在移动机器人避障、导航等问题上都有着良好表现。总的来说,传统避障方法局限性较大,特别是对于复杂、动态未知环境不太适用;而智能避障算法特别是近几年热门的结合深度学习、强化学习的避障算法对于连续高维复杂动态未知环境有极大优势。
一般的强化学习仅适用于离散动作空间,例如DQN,而对于高维连续动作空间,会出现计算爆炸等现象,本发明提出的一种动态环境下基于深度强化学习的移动机器人避碰规划方法,则适用于连续动作空间,通过异步学习机制消除相关性,节省了通信成本、时间成本,从而提升探索策略的多样性最终提升算法稳定性。本发明提出的一种动态环境下基于深度强化学习的移动机器人避碰规划方法明显优于传统方法与一般深度强化学习方法,且本文通过实验充分说明了在面对不同类型动态障碍物环境下该方法具有自适应性强的特点,能更好实现移动机器人的避障功能。
发明内容
本发明的目的在于:针对具有转角限制的连续动作空间,为了提升移动机器人的先进性和安全性在面对动态障碍物环境时能够有能力去寻找一条安全、高效的路径来完成安全的作业任务。因此针对提出的问题,为了实现成功躲避动态障碍物的目的,本发明提出了一种基于深度强化学习的移动机器人动态障碍物避障方法。
本发明的目的是这样实现的:
一种动态环境下基于深度强化学习的移动机器人避碰规划方法,包括以下步骤:
步骤一:通过移动机器人所携带的激光测距仪获取原始数据,获得障碍物信息;
步骤二:对步骤一中原始数据进行数据处理后,与在全局坐标系下的相关位置、角度信息结合进行相应处理,处理后的数据即A3C算法的状态S;
步骤三:设计A3C算法的动作空间、奖励函数,奖励函数包括对与目标距离的惩罚、与障碍物距离的惩罚以及对所用步长的惩罚;
步骤四:设计障碍物环境,构建多类型动态障碍物;
步骤五:建立LSTM神经网络,将步骤二中所得状态作为神经网络的输入,输出经处理后即为移动机器人所选择的动作即艏向角角度;
步骤六:通过所建立的神经网络,使用A3C算法进行训练学习,在训练过程中,神经网络针对每一步的状态-动作对进行好坏评价,通过评价值不断更新网络相应参数,最终朝着使奖励最大化的方向更新,经过预设回合的训练后,移动机器人通过训练好的网络能够实现有效避障。
步骤一中所述的通过移动机器人所携带的激光测距仪获取原始数据,获得障碍物信息;原始数据为一系列离散的数据点,均包含距离信息与方位角信息,通过以上信息获取局部坐标系下障碍物距离与方位信息。
步骤二中将激光传感器获得的原始数据进行数据处理后,与在全局坐标系下的移动机器人位置、目标位置以及艏向角角度信息再进行相应处理后作为A3C算法的状态具体包括:局部坐标系XmOmYm是指以移动机器人自身为坐标原点,以移动机器人运动方向为X轴正方向,Y轴正方向与X轴垂直且满足右手定则;全局坐标系XeOeYe则为大地坐标系;步骤一中获取的原始数据是基于局部坐标系下的方位信息,需转换成全局坐标系下的方位信息与目标位置信息、移动机器人自身位置信息以及相关角度信息共同处理后作为算法的状态。
步骤三中所述的设计A3C算法的动作空间、奖励函数,奖励函数包括对与目标距离的惩罚、与障碍物距离的惩罚以及对所用步长的惩罚,所设计的奖励函数包含三部分,分别是对距离最近的障碍物与当前移动机器人距离的惩罚,距离越近惩罚越大;对目标与移动机器人距离的惩罚,距离越远惩罚越大;对步数的惩罚,在每个回合中,所用步数越多即时间越长,故步数越多惩罚越大。
步骤四中所述的设计障碍物环境,构建多类型动态障碍物,在构建形状不同的静态障碍物基础上,增加四种动态障碍物:匀速直线运动、匀速正弦运动、匀速圆周运动、匀加速直线运动动态障碍物,并分别就每种动态障碍物进行不同速度与加速度的训练学习与测试。
步骤五中所述的建立LSTM神经网络,将步骤二中所得状态作为神经网络的输入,输出经处理后即为移动机器人所选择的动作即艏向角度:整个网络框架分为全局网络与局部网络,全局网络与局部网络中都含有Actor与Critic两个网络结构;Actor网络与Critic网络均由一个输入层、一个LSTM隐含层、两个全连接隐含层、一个输出层构成。
步骤六中所述的通过所建立的神经网络,使用A3C算法进行训练学习,在训练过程中,神经网络针对每一步的状态-动作对进行好坏评价,通过评价值不断更新网络相应参数,最终实现奖励最大化目的,经过预设回合的训练后,移动机器人通过训练好的网络能够实现有效避障中,整个网络由4个线程并行工作,其中,全局网络保存其中最好的参数再通过同步机制拉送到每个局部网络中,而Actor网络负责选择动作,Critic网络则对当前状态-动作对进行评价,Actor网络按照Critic网络的评价进行参数更新,当训练结束后,通过该网络,移动机器人能够自主实现实时避障。
本发明的有益效果在于:
1.针对多类型动态障碍物环境,提出一种动态环境下基于深度强化学习的移动机器人避碰规划方法,相比于传统的避障方法与深度强化学习方法,不仅兼顾了安全避障距离,而且对移动机器人的避障轨迹的平滑性和整体避障的代价消耗以及避障成功率都进行了提高,避障仿真证明了本发明提出的算法具有可适应性强和高效率的特点。
2.考虑到移动机器人工作环境通常是未知且较复杂含多种类型动态障碍物,对于移动机器人自身而言已知环境仅为激光测距仪探测所得局部范围,因此本发明专门针对这种全局未知而局部已知的情况进行多类型动态障碍物避障进行设计,与传统避障方法相比,扩大了避障算法的应用范围,与一般深度强化学习方法相比,无需对环境进行建模,大大减少计算成本,降低难度,更加适用于未知含多类型动态障碍物环境。
3.相比于一般深度强化学习仅适用于离散动作空间且必须回合结束才能学习,本避障方法采用Actor-Critic框架与时间差分算法,实现低方差的同时更适用于连续动作空间,实现边训练边学习的效果。考虑到移动机器人实际具有角速度限制,因此设计了具有艏向角速度限制的连续动作空间,且采用4个线程并行学习训练,与一般深度强化学习方法相比,大大提高学习训练时间,减少样本相关性,保障了探索空间的高利用性与探索策略的多样性,从而提升算法收敛性、稳定性以及避障成功率。
4.相比静态障碍物环境下的移动机器人小车的避障的A3C算法的应用,是无法处理拥有动态障碍物环境下的小车避障过程,因此上文在静态障碍物避障算法的状态,奖励函数进行了改进来实现动态障碍物环境下的移动小车避障的目的。
附图说明
图1为动态环境避障算法流程图。
图2为移动机器人坐标系系统图。
图3为激光测距仪探测模型示意图。
图4(a)为匀速直线动态障碍物环境下移动机器人避障仿真结果图。
图4(b)为匀速正弦动态障碍物环境下移动机器人避障仿真结果图。
图4(c)为匀速圆周动态障碍物环境下移动机器人避障仿真结果图。
图4(d)为匀加速直线动态障碍物环境下移动机器人避障仿真结果图。
图5(a)为匀速直线动态障碍物环境下移动机器人避障且到达目标仿真结果图。
图5(b)为匀速正弦动态障碍物环境下移动机器人避障且到达目标仿真结果图。
图5(c)为匀速圆周动态障碍物环境下移动机器人避障且到达目标仿真结果图。
图5(d)为匀加速直线动态障碍物环境下移动机器人避障且到达目标仿真结果图。
图6(a)为匀速直线动态障碍物环境下移动机器人与动态障碍物之间距离曲线图。
图6(b)为匀速正弦动态障碍物环境下移动机器人与动态障碍物之间距离曲线图。
图6(c)为匀速圆周动态障碍物环境下移动机器人与动态障碍物之间距离曲线图。
图6(d)为匀加速直线动态障碍物环境下移动机器人与动态障碍物之间距离曲线图。
图7为Actor网络选择动作示意图。
图8为动态障碍物环境下移动机器人避障运动轨迹图。
具体实施方式
下面结合附图和案例对本发明做进一步描述。
本发明公开一种动态环境下基于深度强化学习的移动机器人避碰规划方法,属于移动机器人导航技术领域,可用于移动机器人在多类型动态障碍物环境下工作时的有效避障。本发明通过激光测距仪采集原始数据,将原始数据进行相应处理后作为神经网络的输入,建立LSTM神经网络,通过A3C算法,神经网络输出相应参数,经过处理获得机器人每一步的动作。整体避障算法流程图如图1所示。本发明无需对环境进行建模,更加适用于未知障碍物环境,采用actor-critic框架与时间差分算法,实现低方差的同时更适用于连续动作空间,实现边训练边学习的效果。考虑到移动机器人实际具有转角限制,因此设计了具有艏向转角限制的连续动作空间,且采用4个线程并行学习训练,与一般深度强化学习方法相比,大大提高学习训练时间,减少样本相关性,保障了探索空间的高利用性与探索策略的多样性,从而提升算法收敛性、稳定性以及避障成功率。仿真实验结果可以看出本发明所提算法针对多种类型动态障碍物环境有更好的适应性和避障执行效率,能够更好的应用到移动机器人导航技术领域。
本发明包括以下步骤:
步骤一:通过移动机器人所携带的激光测距仪获取原始数据,获得障碍物信息:
本专利中移动机器人所携带的激光测距仪开角为180°,分辨率为1°,测量范围为80m,通过激光波束反射原理,可获取探测范围内障碍物的相对数据信息,原始数据为一系列离散的数据点,均包含距离信息与方位角信息,通过上述信息即可获取局部坐标系下障碍物距离与方位信息。通过激光测距仪发出的180条波束探测回来的数据如图3所示。
步骤二:将激光传感器获得的原始数据进行数据处理后,与在全局坐标系下的移动机器人位置、目标位置以及艏向角角度信息再进行相应处理后作为A3C算法的状态:
在考虑到障碍物为动态障碍物会给避障带来困难因此改变A3C算法的神经网络的输入状态实现动态障碍物的躲避。其中动态障碍物的状态分别为:障碍物与移动机器人的相对位置,对动态障碍物速度的预测值和下一时刻的位置信息以及角速度的变化情况,从而实现在处理动态障碍物避障的过程。局部坐标系XmOmYm是指以移动机器人自身为坐标原点,以移动机器人运动方向为X轴正方向,Y轴正方向与X轴垂直且满足右手定则;全局坐标系XeOeYe则为大地坐标系。步骤一中获取的原始数据是基于局部坐标系下的方位信息,需转换成全局坐标系下的方位信息与目标位置信息、移动机器人自身位置信息以及相关角度信息共同处理后作为算法的状态。假设移动机器人在t时刻在全局坐标系下的位置坐标为(xt,yt),在一个采样周期Ts内,移动机器人做匀速直线运动,则移动机器人运动学模型如下式所示:
Figure BDA0002226454440000061
其中,(xt+1,yt+1)分别是t+1时刻所对应的全局坐标系下移动机器人的位置坐标,vt为机器人运动速度,ψ为机器人艏向与全局坐标系Xe轴正方向夹角。
将激光测距仪获取的障碍物极坐标形式的方位信息转化为局部坐标系下的位置坐标信息的转换公式如下式所示:
Figure BDA0002226454440000062
其中,(xo,yo)为局部坐标系下障碍物直角坐标形式位置信息,(l,α)为激光测距仪获得的极坐标信息,l为障碍物到局部坐标系原点Om的距离,α为障碍物与Om连线与Ym轴正方向夹角。
再将局部坐标系中障碍物坐标转换成全局坐标系下的直角坐标(xe,ye)如下式所示:
Figure BDA0002226454440000063
其中,ψ为机器人艏向与全局坐标系Xe轴正方向夹角,即艏向角,l为障碍物到局部坐标系原点Om的距离,α为障碍物与Om连线与Ym轴正方向夹角。
移动机器人的全局、局部坐标系及相关参数构成的移动机器人坐标系系、统如图2所示。
在本文中规定探测区域为80m的扇形范围,通过激光测距仪发出的180条波束探测回来的数据如图3所示:
步骤三:设计A3C算法的动作空间、奖励函数,奖励函数包括对与目标距离的惩罚、与障碍物距离的惩罚以及对所用步长的惩罚:
所设计的动作空间为艏向角在[-10°,+10°]区间内的连续动作空间,初始艏向角以正北方向为基准规定为0度,逆时针为正,即动作空间a的集合为A,即包含所有可能选择动作,由于是连续动作空间,故可以取该区间内的任一值,从而有别于其他强化学习中动作离散这一特点。若动作空间是离散的,则需人为规定出所有可能选择的动作,因此规定动作的合理性对最终训练效果有很大影响。故本方法可避免这一问题,且考虑到实际情况,移动机器人是具有转角限制的,最终设定转角限制为[-10°,+10°]。
奖励函数包含四部分,分别是对距离最近的障碍物与当前移动机器人距离的惩罚,距离越近惩罚越大;对目标与移动机器人距离的惩罚,距离越远惩罚越大;对步数的惩罚,在每个回合中,所用步数越多即时间越长,故步数越多惩罚越大;移动小车的当前艏向与预测到的动态障碍物的移动方向的相对角度差,小车艏向偏离动态障碍物的角度差越大,奖励越大,相反惩罚越多
奖励函数R如下式所示:
R(s,a)=R1+R2+R3+R4
其中,R1=p·tar_dis,tar_dis表示当前移动机器人与目标的直线距离,p为目标奖励系数,由于最终目的是到达目标,即距离目标越近越好,故p设定为负值,因此,R1表示奖励函数对移动机器人与目标距离的惩罚。
而R2表示奖励函数对距离最近的障碍物与当前移动机器人距离的惩罚,R2=q·obs_dis,q为障碍物奖励系数,obs_dis表示当前移动机器人与其距离最近的障碍物距离,距离越大越好,故q设定为正值。
而R3表示奖励函数对步数的惩罚,R3=k·step_count,k为时间惩罚系数,取k为负数,step_count为当前累计步数。
当移动机器人每做出一个动作,对于R1与R2都再次进行相应奖惩。设置到达距离disreach,即tar_dis<=disreach时,默认移动机器人到达目标,R1+=50。若移动机器人能连续回合到达目标,则在此基础上,R1+=k·ep_count,其中,k为连续到达奖励系数,ep_count为连续到达的回合累计数,当出现未到达回合,ep_count清零。当移动机器人未到达目标时,不改变R1。设置碰撞距离discrash,作为安全距离,当obs_dis<=discrash时,默认发生碰撞,R2-=100,该回合结束,开始新回合,否则无额外奖惩。以上情况均基于激光测距仪探测范围内存在障碍物,若探测范围内无障碍物,则对移动机器人的移动艏向朝向目标方向的角度差在一定范围内给予一定奖励。
R4表示对动态障碍物运动方向与移动机器人艏向角角度差的惩罚。规定移动机器人的艏向角度为ψ,动态障碍物的移动方向记为β,当两者的角度差Δ=|ψ-β|的角度越大,相应的奖励越大;反之若Δ的值越小,则证明小车将会在某时刻与动态障碍物相撞,因此相应的惩罚也会变大。因此相对于静态障碍物的网络状态输入,这个条件的增加会加速神经网络的收敛速度,同时能够以最大安全航向躲避动态障碍物。
步骤四:设计障碍物环境,构建多类型动态障碍物:
在构建形状不同的静态障碍物基础上,增加四种动态障碍物:匀速直线运动、匀速正弦运动、匀速圆周运动、匀加速直线运动动态障碍物,并分别就每种动态障碍物进行不同速度与加速度的训练学习与测试。
针对动态障碍环境,设置不同运动速度与加速度的动态障碍物,并以移动机器人v=1m/s与v=2m/s两种运动速度进行移动机器人避碰仿真实验验证,绘出不同动态障碍物下的移动机器人与动态障碍物之间距离曲线。其中,匀速直线运动动态障碍物进行匀速自左向右、再自右向左的往复运动;匀速正弦运动动态障碍物轨迹为平移、拉伸变换后的部分正弦曲线,进行匀速自上向下、再自下向上的往复运动;匀速圆周运动动障碍物则是每个step相对于圆心转过同样的角度θ,进行顺时针圆周运动;匀加速直线运动动障碍物初速度为0,自右上向左下进行匀加速直线运动,到达左下方终点后,速度变为0,自左下方向右上方进行相同加速度的匀加速直线运动,然后进行往复运动。
移动机器人速度v=1m/s,匀速直线动障碍速度vo1=0.3m/s;移动机器人速度v=1m/s,匀速正弦运动障碍速度vo2=1.2m/s;移动机器人速度v=2m/s,匀速圆周运动动障碍每个step转过的角度θ=3°;移动机器人速度v=2m/s,匀加速直线运动动障碍初始速度vo3=0,加速度a=0.05m/s2。以上四种机器人避障仿真结果分别如图4(a)、图4(b)、图4(c)、图4(d)所示。上述针对不同运动的动态障碍物成功避障且到达目标的移动机器人避障仿真结果分别如图5(a)、图5(b)、图5(c)、图5(d)所示,各仿真结果所对应的移动机器人与动态障碍物之间距离曲线分别如图6(a)、图6(b)、图6(c)、图6(d)所示。其中,矩形为目标,黑色区域为障碍物,浅灰色曲线为移动机器人运动轨迹,中灰色曲线为动态障碍物运动轨迹。
步骤五:建立LSTM神经网络,将步骤二中所得状态作为神经网络的输入,输出经处理后即为移动机器人所选择的动作即艏向角角度:
整个网络框架分为全局网络与局部网络,全局网络与局部网络中都含有Actor与Critic两个网络结构,但全局网络仅起储存网络相关参数作用。Actor网络与Critic网络均由一个输入层,一个LSTM隐含层,两个全连接隐含层,一个输出层构成,其中,Actor网络的输出用于选择动作。
建立A3C-LSTM神经网络,Critic网络输入为相应数据处理后的8维状态信息,有三层隐含层,输入层与含64个LSTM记忆单元的LSTM神经网络层相连,batch_size=1,初始化状态为全0,将处理后的LSTM层输出作为第二层隐含层的输入,采用激活函数为RELU6的非线性全连接方式,再将该层输出作为最后一层隐含层输入,最后一层隐含层激活函数同样为RELU6的非线性全连接层,最后连接输出层,维度为1,输出为V(st),即为当前时刻评价值函数。Actor网络与Critic网络结构相同,不同之处在于:最后一层隐含层全连接两个输出层,激活函数不同,输出分别为mu,sigma。LSTM网络中记忆单元状态、参数等只能由Critic网络进行更新,Actor网络中的仅复制Critic网络中LSTM层。
Actor网络选择动作示意图如图7所示。其中,S0,S1,…,S18均为可能到达的状态,状态输入Actor网络中,经过隐含层,输出为sigma,mu用来确定正态分布函数。wrap_a_out与normal_dist则表示生成以sigma,mu为对应参数的正态分布函数,从而按概率以正态分布形式进行采样,输出动作。Critic网络负责评价Actor网络在当前状态下所选择的动作好坏,最终实现奖励最大化。
步骤六:通过所建立的神经网络,使用A3C算法进行训练学习,在训练过程中,神经网络针对每一步的状态-动作对进行好坏评价,通过评价值不断更新网络相应参数,最终朝着使奖励最大化的方向更新,经过预设回合的训练且移动机器人每回合获得奖励基本趋于稳定,移动机器人通过训练好的网络能够实现有效避障:
整个网络由4个线程并行工作,其中,全局网络保存其中最好的参数再通过同步机制拉送到每个局部网络中,而Actor网络负责选择动作,Critic网络则对当前状态-动作对进行评价,Actor网络按照Critic网络的评价进行参数更新,当训练结束后,通过应用训练好的网络,移动机器人可自主实现实时避障。
为了验证本专利方法有的有效性,设计了仿真案例,设计了多类型动态障碍物环境下移动机器人为到达虚拟目标点进行避障仿真实验。如图8所示,仿真环境大小为800×600,设置移动机器人的起始位置为(50,100),初始艏向角以正北方向为基准规定为0度,即为全局坐标系y轴正方向,深灰色正方形为虚拟目标,边长为30,同时在二维环境中设置了8个静态障碍物,再设置4种不同类型的动态障碍物,规定当移动机器人与虚拟目标的距离为15m的时候,到达目标标志位为真,标志AUV已经到达目标成功完成避障任务,结束该次训练回合,重新开始回合,直到到达预设回合次数。
图8表示A3C-LSTM算法在动态障碍物环境下形成的避障运动轨迹。图中浅灰色曲线即为移动机器人运动轨迹,中灰色曲线为动态障碍物运动轨迹,从图中可以看出移动机器人选择很合理的避障路径成功到达虚拟目标且没有带来避障风险,同时保持安全避障距离的要求,针对多种类型动态障碍物均具有良好避障效果。实验仿真结果证明了本文所提出的是合理的且符合实际要求并具有一定优势。
本发明最终针对多类型动态障碍物环境的移动机器人避障问题,提出一种动态环境下基于深度强化学习的移动机器人避碰规划方法,通过实验数据证明了本发明提出的避障方法在复杂多类型动态障碍物环境下避障算法的效率与可行性,更能胜任这种含随机复杂动态障碍物的移动机器人作业环境,能够使得移动机器人灵活应对不同的外界环境,能够更好的应用到移动机器人导航技术领域。

Claims (7)

1.一种动态环境下基于深度强化学习的移动机器人避碰规划方法,其特征在于,包括以下步骤:
步骤一:通过移动机器人所携带的激光测距仪获取原始数据,获得障碍物信息;
步骤二:对步骤一中原始数据进行数据处理后,与在全局坐标系下的相关位置、角度信息结合进行相应处理,处理后的数据即A3C算法的状态S;
步骤三:设计A3C算法的动作空间、奖励函数,奖励函数包括对与目标距离的惩罚、与障碍物距离的惩罚以及对所用步长的惩罚;
步骤四:设计障碍物环境,构建多类型动态障碍物;
步骤五:建立LSTM神经网络,将步骤二中所得状态作为神经网络的输入,输出经处理后即为移动机器人所选择的动作即艏向角角度;
步骤六:通过所建立的神经网络,使用A3C算法进行训练学习,在训练过程中,神经网络针对每一步的状态-动作对进行好坏评价,通过评价值不断更新网络相应参数,最终朝着使奖励最大化的方向更新,经过预设回合的训练后,移动机器人通过训练好的网络能够实现有效避障。
2.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法,其特征在于:步骤一中所述的通过移动机器人所携带的激光测距仪获取原始数据,获得障碍物信息;原始数据为一系列离散的数据点,均包含距离信息与方位角信息,通过以上信息获取局部坐标系下障碍物距离与方位信息。
3.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法,其特征在于:步骤二中将激光传感器获得的原始数据进行数据处理后,与在全局坐标系下的移动机器人位置、目标位置以及艏向角角度信息再进行相应处理后作为A3C算法的状态具体包括:局部坐标系XmOmYm是指以移动机器人自身为坐标原点,以移动机器人运动方向为X轴正方向,Y轴正方向与X轴垂直且满足右手定则;全局坐标系XeOeYe则为大地坐标系;步骤一中获取的原始数据是基于局部坐标系下的方位信息,需转换成全局坐标系下的方位信息与目标位置信息、移动机器人自身位置信息以及相关角度信息共同处理后作为算法的状态。
4.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法,其特征在于:步骤三中所述的设计A3C算法的动作空间、奖励函数,奖励函数包括对与目标距离的惩罚、与障碍物距离的惩罚以及对所用步长的惩罚,所设计的奖励函数包含三部分,分别是对距离最近的障碍物与当前移动机器人距离的惩罚,距离越近惩罚越大;对目标与移动机器人距离的惩罚,距离越远惩罚越大;对步数的惩罚,在每个回合中,所用步数越多即时间越长,故步数越多惩罚越大。
5.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法,其特征在于:步骤四中所述的设计障碍物环境,构建多类型动态障碍物,在构建形状不同的静态障碍物基础上,增加四种动态障碍物:匀速直线运动、匀速正弦运动、匀速圆周运动、匀加速直线运动动态障碍物,并分别就每种动态障碍物进行不同速度与加速度的训练学习与测试。
6.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法,其特征在于:步骤五中所述的建立LSTM神经网络,将步骤二中所得状态作为神经网络的输入,输出经处理后即为移动机器人所选择的动作即艏向角度:整个网络框架分为全局网络与局部网络,全局网络与局部网络中都含有Actor与Critic两个网络结构;Actor网络与Critic网络均由一个输入层、一个LSTM隐含层、两个全连接隐含层、一个输出层构成。
7.根据权利要求1所述的一种动态环境下基于深度强化学习的移动机器人避碰规划方法,其特征在于:步骤六中所述的通过所建立的神经网络,使用A3C算法进行训练学习,在训练过程中,神经网络针对每一步的状态-动作对进行好坏评价,通过评价值不断更新网络相应参数,最终实现奖励最大化目的,经过预设回合的训练后,移动机器人通过训练好的网络能够实现有效避障中,整个网络由4个线程并行工作,其中,全局网络保存其中最好的参数再通过同步机制拉送到每个局部网络中,而Actor网络负责选择动作,Critic网络则对当前状态-动作对进行评价,Actor网络按照Critic网络的评价进行参数更新,当训练结束后,通过该网络,移动机器人能够自主实现实时避障。
CN201910953396.4A 2019-10-09 2019-10-09 动态环境下基于深度强化学习的移动机器人避碰规划方法 Active CN110632931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910953396.4A CN110632931B (zh) 2019-10-09 2019-10-09 动态环境下基于深度强化学习的移动机器人避碰规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910953396.4A CN110632931B (zh) 2019-10-09 2019-10-09 动态环境下基于深度强化学习的移动机器人避碰规划方法

Publications (2)

Publication Number Publication Date
CN110632931A true CN110632931A (zh) 2019-12-31
CN110632931B CN110632931B (zh) 2022-06-21

Family

ID=68975749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910953396.4A Active CN110632931B (zh) 2019-10-09 2019-10-09 动态环境下基于深度强化学习的移动机器人避碰规划方法

Country Status (1)

Country Link
CN (1) CN110632931B (zh)

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111220988A (zh) * 2020-01-07 2020-06-02 上海钛米机器人科技有限公司 一种地图数据处理方法、装置、设备和介质
CN111273670A (zh) * 2020-03-03 2020-06-12 大连海事大学 一种针对快速移动障碍物的无人艇避碰方法
CN111309035A (zh) * 2020-05-14 2020-06-19 浙江远传信息技术股份有限公司 多机器人协同移动与动态避障方法、装置、设备及介质
CN111413970A (zh) * 2020-03-18 2020-07-14 天津大学 超宽带与视觉融合的室内机器人定位与自主导航方法
CN111506063A (zh) * 2020-04-13 2020-08-07 中国科学技术大学 一种基于分层强化学习框架的移动机器人无图导航方法
CN111645065A (zh) * 2020-03-25 2020-09-11 南京大学 一种基于深度强化学习的机械臂运动规划方法
CN111781922A (zh) * 2020-06-15 2020-10-16 中山大学 一种适用于复杂动态场景的基于深度强化学习的多机器人协同导航方法
CN111880549A (zh) * 2020-09-14 2020-11-03 大连海事大学 面向无人船路径规划的深度强化学习奖励函数优化方法
CN111880535A (zh) * 2020-07-23 2020-11-03 上海交通大学 一种基于强化学习的无人艇混合感知自主避障方法及系统
CN111897327A (zh) * 2020-07-14 2020-11-06 季华实验室 多移动机器人控制/分派模型获取方法、装置、电子设备
CN112629542A (zh) * 2020-12-31 2021-04-09 山东师范大学 基于ddpg和lstm的无地图机器人路径导航方法及系统
CN112731921A (zh) * 2020-12-11 2021-04-30 北方信息控制研究院集团有限公司 一种基于平行仿真的军用路径规划支持系统
CN112882469A (zh) * 2021-01-14 2021-06-01 浙江大学 一种融合全局训练的深度强化学习避障导航方法
CN112991544A (zh) * 2021-04-20 2021-06-18 山东新一代信息产业技术研究院有限公司 一种基于全景影像建模的群体疏散行为仿真方法
CN113093727A (zh) * 2021-03-08 2021-07-09 哈尔滨工业大学(深圳) 一种基于深度安全强化学习的机器人无地图导航方法
CN113177664A (zh) * 2021-05-20 2021-07-27 的卢技术有限公司 一种以安全性、距离代价为约束的自学习路径规划方法
CN113218399A (zh) * 2021-05-12 2021-08-06 天津大学 一种基于多智能体分层强化学习的迷宫导航方法及装置
CN113219997A (zh) * 2021-06-08 2021-08-06 河北师范大学 一种基于tpr-ddpg的移动机器人路径规划方法
CN113232016A (zh) * 2021-04-13 2021-08-10 哈尔滨工业大学(威海) 一种强化学习与模糊避障融合的机械臂路径规划方法
CN113341958A (zh) * 2021-05-21 2021-09-03 西北工业大学 一种混合经验的多智能体强化学习运动规划方法
CN113359717A (zh) * 2021-05-26 2021-09-07 浙江工业大学 一种基于深度强化学习的移动机器人导航避障方法
CN113392584A (zh) * 2021-06-08 2021-09-14 华南理工大学 基于深度强化学习和方向估计的视觉导航方法
CN113467481A (zh) * 2021-08-11 2021-10-01 哈尔滨工程大学 一种基于改进Sarsa算法的路径规划方法
CN113532457A (zh) * 2021-06-07 2021-10-22 山东师范大学 机器人路径导航方法、系统、设备及存储介质
CN113843802A (zh) * 2021-10-18 2021-12-28 南京理工大学 一种基于深度强化学习td3算法的机械臂运动控制方法
CN113910221A (zh) * 2021-09-28 2022-01-11 广州杰赛科技股份有限公司 一种机械臂自主运动规划方法、装置、设备及存储介质
CN113959446A (zh) * 2021-10-20 2022-01-21 苏州大学 一种基于神经网络的机器人自主物流运输导航方法
WO2022016299A1 (zh) * 2020-07-20 2022-01-27 陈永聪 一种建立强人工智能的方法
CN114237235A (zh) * 2021-12-02 2022-03-25 之江实验室 一种基于深度强化学习的移动机器人避障方法
CN114347041A (zh) * 2022-02-21 2022-04-15 汕头市快畅机器人科技有限公司 群体机器人控制与图案生成方法
CN114371724A (zh) * 2021-12-03 2022-04-19 中国人民解放军海军航空大学 一种飞行器的避障方法及系统
CN114489059A (zh) * 2022-01-13 2022-05-13 沈阳建筑大学 基于d3qn-per移动机器人路径规划方法
CN114610040A (zh) * 2022-04-02 2022-06-10 天津大学 一种应用于无人操作系统的自主避障学习控制方法及装置
CN115857556A (zh) * 2023-01-30 2023-03-28 中国人民解放军96901部队 一种基于强化学习的无人飞行器协同探测规划方法
CN115981369A (zh) * 2023-01-09 2023-04-18 南京航空航天大学 有限通信下面向多无人机联合任务分配和航迹规划的方法
CN116661501A (zh) * 2023-07-24 2023-08-29 北京航空航天大学 无人机集群高动态环境避障与动平台着降联合规划方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092254A (zh) * 2017-04-27 2017-08-25 北京航空航天大学 一种基于深度增强学习的家用扫地机器人的设计方法
CN108803615A (zh) * 2018-07-03 2018-11-13 东南大学 一种基于深度强化学习的虚拟人未知环境导航算法
US10133275B1 (en) * 2017-03-01 2018-11-20 Zoox, Inc. Trajectory generation using temporal logic and tree search
CN110262511A (zh) * 2019-07-12 2019-09-20 同济人工智能研究院(苏州)有限公司 基于深度强化学习的双足机器人自适应性行走控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10133275B1 (en) * 2017-03-01 2018-11-20 Zoox, Inc. Trajectory generation using temporal logic and tree search
CN107092254A (zh) * 2017-04-27 2017-08-25 北京航空航天大学 一种基于深度增强学习的家用扫地机器人的设计方法
CN108803615A (zh) * 2018-07-03 2018-11-13 东南大学 一种基于深度强化学习的虚拟人未知环境导航算法
CN110262511A (zh) * 2019-07-12 2019-09-20 同济人工智能研究院(苏州)有限公司 基于深度强化学习的双足机器人自适应性行走控制方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
XIANG CAO, 等: "Target Search Control of AUV in Underwater Environment With Deep Reinforcement Learning", 《IEEE ACCESS》 *
YUANDA. WANG,等: "Learning to Navigate Through Complex Dynamic Environment With Modular Deep Reinforcement Learning", 《IEEE TRANSACTIONS ON GAMES》 *
卜祥津: "基于深度强化学习的未知环境下机器人路径规划的研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
吴运雄,等: "基于深度强化学习的移动机器人轨迹跟踪和动态避障", 《广东工业大学学报》 *
练青坡: "多USV避碰规划与学习方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技II辑》 *

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111220988A (zh) * 2020-01-07 2020-06-02 上海钛米机器人科技有限公司 一种地图数据处理方法、装置、设备和介质
CN111220988B (zh) * 2020-01-07 2023-07-14 上海钛米机器人科技有限公司 一种地图数据处理方法、装置、设备和介质
CN111273670A (zh) * 2020-03-03 2020-06-12 大连海事大学 一种针对快速移动障碍物的无人艇避碰方法
CN111273670B (zh) * 2020-03-03 2024-03-15 大连海事大学 一种针对快速移动障碍物的无人艇避碰方法
CN111413970A (zh) * 2020-03-18 2020-07-14 天津大学 超宽带与视觉融合的室内机器人定位与自主导航方法
CN111645065A (zh) * 2020-03-25 2020-09-11 南京大学 一种基于深度强化学习的机械臂运动规划方法
CN111506063A (zh) * 2020-04-13 2020-08-07 中国科学技术大学 一种基于分层强化学习框架的移动机器人无图导航方法
CN111309035A (zh) * 2020-05-14 2020-06-19 浙江远传信息技术股份有限公司 多机器人协同移动与动态避障方法、装置、设备及介质
CN111781922A (zh) * 2020-06-15 2020-10-16 中山大学 一种适用于复杂动态场景的基于深度强化学习的多机器人协同导航方法
CN111781922B (zh) * 2020-06-15 2021-10-26 中山大学 一种基于深度强化学习的多机器人协同导航方法
CN111897327A (zh) * 2020-07-14 2020-11-06 季华实验室 多移动机器人控制/分派模型获取方法、装置、电子设备
CN111897327B (zh) * 2020-07-14 2024-02-23 季华实验室 多移动机器人控制/分派模型获取方法、装置、电子设备
WO2022016299A1 (zh) * 2020-07-20 2022-01-27 陈永聪 一种建立强人工智能的方法
CN111880535A (zh) * 2020-07-23 2020-11-03 上海交通大学 一种基于强化学习的无人艇混合感知自主避障方法及系统
CN111880535B (zh) * 2020-07-23 2022-07-15 上海交通大学 一种基于强化学习的无人艇混合感知自主避障方法及系统
CN111880549A (zh) * 2020-09-14 2020-11-03 大连海事大学 面向无人船路径规划的深度强化学习奖励函数优化方法
CN112731921A (zh) * 2020-12-11 2021-04-30 北方信息控制研究院集团有限公司 一种基于平行仿真的军用路径规划支持系统
CN112629542B (zh) * 2020-12-31 2022-08-30 山东师范大学 基于ddpg和lstm的无地图机器人路径导航方法及系统
CN112629542A (zh) * 2020-12-31 2021-04-09 山东师范大学 基于ddpg和lstm的无地图机器人路径导航方法及系统
CN112882469A (zh) * 2021-01-14 2021-06-01 浙江大学 一种融合全局训练的深度强化学习避障导航方法
CN112882469B (zh) * 2021-01-14 2022-04-08 浙江大学 一种融合全局训练的深度强化学习避障导航方法
CN113093727A (zh) * 2021-03-08 2021-07-09 哈尔滨工业大学(深圳) 一种基于深度安全强化学习的机器人无地图导航方法
CN113232016A (zh) * 2021-04-13 2021-08-10 哈尔滨工业大学(威海) 一种强化学习与模糊避障融合的机械臂路径规划方法
CN112991544A (zh) * 2021-04-20 2021-06-18 山东新一代信息产业技术研究院有限公司 一种基于全景影像建模的群体疏散行为仿真方法
CN113218399A (zh) * 2021-05-12 2021-08-06 天津大学 一种基于多智能体分层强化学习的迷宫导航方法及装置
CN113218399B (zh) * 2021-05-12 2022-10-04 天津大学 一种基于多智能体分层强化学习的迷宫导航方法及装置
CN113177664B (zh) * 2021-05-20 2024-03-19 的卢技术有限公司 一种以安全性、距离代价为约束的自学习路径规划方法
CN113177664A (zh) * 2021-05-20 2021-07-27 的卢技术有限公司 一种以安全性、距离代价为约束的自学习路径规划方法
CN113341958B (zh) * 2021-05-21 2022-02-25 西北工业大学 一种混合经验的多智能体强化学习运动规划方法
CN113341958A (zh) * 2021-05-21 2021-09-03 西北工业大学 一种混合经验的多智能体强化学习运动规划方法
CN113359717A (zh) * 2021-05-26 2021-09-07 浙江工业大学 一种基于深度强化学习的移动机器人导航避障方法
CN113532457B (zh) * 2021-06-07 2024-02-02 山东师范大学 机器人路径导航方法、系统、设备及存储介质
CN113532457A (zh) * 2021-06-07 2021-10-22 山东师范大学 机器人路径导航方法、系统、设备及存储介质
CN113219997A (zh) * 2021-06-08 2021-08-06 河北师范大学 一种基于tpr-ddpg的移动机器人路径规划方法
CN113392584B (zh) * 2021-06-08 2022-12-16 华南理工大学 基于深度强化学习和方向估计的视觉导航方法
CN113392584A (zh) * 2021-06-08 2021-09-14 华南理工大学 基于深度强化学习和方向估计的视觉导航方法
CN113467481A (zh) * 2021-08-11 2021-10-01 哈尔滨工程大学 一种基于改进Sarsa算法的路径规划方法
CN113910221B (zh) * 2021-09-28 2023-01-17 广州杰赛科技股份有限公司 一种机械臂自主运动规划方法、装置、设备及存储介质
CN113910221A (zh) * 2021-09-28 2022-01-11 广州杰赛科技股份有限公司 一种机械臂自主运动规划方法、装置、设备及存储介质
CN113843802A (zh) * 2021-10-18 2021-12-28 南京理工大学 一种基于深度强化学习td3算法的机械臂运动控制方法
CN113843802B (zh) * 2021-10-18 2023-09-05 南京理工大学 一种基于深度强化学习td3算法的机械臂运动控制方法
CN113959446B (zh) * 2021-10-20 2024-01-23 苏州大学 一种基于神经网络的机器人自主物流运输导航方法
CN113959446A (zh) * 2021-10-20 2022-01-21 苏州大学 一种基于神经网络的机器人自主物流运输导航方法
CN114237235B (zh) * 2021-12-02 2024-01-19 之江实验室 一种基于深度强化学习的移动机器人避障方法
CN114237235A (zh) * 2021-12-02 2022-03-25 之江实验室 一种基于深度强化学习的移动机器人避障方法
CN114371724A (zh) * 2021-12-03 2022-04-19 中国人民解放军海军航空大学 一种飞行器的避障方法及系统
CN114489059A (zh) * 2022-01-13 2022-05-13 沈阳建筑大学 基于d3qn-per移动机器人路径规划方法
CN114489059B (zh) * 2022-01-13 2024-02-02 沈阳建筑大学 基于d3qn-per移动机器人路径规划方法
CN114347041B (zh) * 2022-02-21 2024-03-08 汕头市快畅机器人科技有限公司 群体机器人控制与图案生成方法
CN114347041A (zh) * 2022-02-21 2022-04-15 汕头市快畅机器人科技有限公司 群体机器人控制与图案生成方法
CN114610040A (zh) * 2022-04-02 2022-06-10 天津大学 一种应用于无人操作系统的自主避障学习控制方法及装置
CN115981369B (zh) * 2023-01-09 2023-12-01 南京航空航天大学 有限通信下面向多无人机联合任务分配和航迹规划的方法
CN115981369A (zh) * 2023-01-09 2023-04-18 南京航空航天大学 有限通信下面向多无人机联合任务分配和航迹规划的方法
CN115857556A (zh) * 2023-01-30 2023-03-28 中国人民解放军96901部队 一种基于强化学习的无人飞行器协同探测规划方法
CN116661501B (zh) * 2023-07-24 2023-10-10 北京航空航天大学 无人机集群高动态环境避障与动平台着降联合规划方法
CN116661501A (zh) * 2023-07-24 2023-08-29 北京航空航天大学 无人机集群高动态环境避障与动平台着降联合规划方法

Also Published As

Publication number Publication date
CN110632931B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN110632931B (zh) 动态环境下基于深度强化学习的移动机器人避碰规划方法
Zhu et al. Deep reinforcement learning based mobile robot navigation: A review
Liu et al. Mapper: Multi-agent path planning with evolutionary reinforcement learning in mixed dynamic environments
CN111780777B (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN113110592B (zh) 一种无人机避障与路径规划方法
CN109582027B (zh) 一种基于改进粒子群优化算法的usv集群避碰规划方法
CN109241552B (zh) 一种基于多约束目标的水下机器人运动规划方法
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
CN112947562A (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN111240345A (zh) 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
Espinoza et al. Deep interactive motion prediction and planning: Playing games with motion prediction models
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
Grando et al. Deep reinforcement learning for mapless navigation of unmanned aerial vehicles
Guo et al. A deep reinforcement learning based approach for AGVs path planning
Xin et al. DRL-based improvement for autonomous UAV motion path planning in unknown environments
Zhang et al. Multi-UUV path planning based on improved artificial potential field method
Helble et al. 3-d path planning and target trajectory prediction for the oxford aerial tracking system
CN116804879A (zh) 一种改进蜣螂算法融合dwa算法的机器人路径规划框架方法
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
CN114326826B (zh) 多无人机队形变换方法及系统
Wu et al. A multi-critic deep deterministic policy gradient UAV path planning
Duo et al. A deep reinforcement learning based mapless navigation algorithm using continuous actions
CN112857373B (zh) 一种最小化无用动作的节能性无人车路径导航方法
Wan et al. Real-time path planning for navigation in unknown environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant