CN107065881B - 一种基于深度强化学习的机器人全局路径规划方法 - Google Patents
一种基于深度强化学习的机器人全局路径规划方法 Download PDFInfo
- Publication number
- CN107065881B CN107065881B CN201710346125.3A CN201710346125A CN107065881B CN 107065881 B CN107065881 B CN 107065881B CN 201710346125 A CN201710346125 A CN 201710346125A CN 107065881 B CN107065881 B CN 107065881B
- Authority
- CN
- China
- Prior art keywords
- robot
- neural network
- layer
- deep neural
- movement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims abstract description 131
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000009434 installation Methods 0.000 claims abstract description 8
- 230000000694 effects Effects 0.000 claims abstract description 5
- 239000010410 layer Substances 0.000 claims description 134
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 16
- 230000000875 corresponding effect Effects 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 9
- 230000004888 barrier function Effects 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- DKMVJQCQTCLYIF-UHFFFAOYSA-M Methylbenactyzium bromide Chemical compound [Br-].C=1C=CC=CC=1C(O)(C(=O)OCC[N+](C)(CC)CC)C1=CC=CC=C1 DKMVJQCQTCLYIF-UHFFFAOYSA-M 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000011229 interlayer Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 210000005036 nerve Anatomy 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000000644 propagated effect Effects 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003920 environmental process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000003475 lamination Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0253—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Electromagnetism (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明提出一种基于深度强化学习的机器人全局路径规划方法,属于机器学习和全局路径规划技术领域。该方法在训练阶段:首先在场景内安装俯视摄像机,并构建深度神经网络,设定一条训练路径后,深度神经网络根据摄像机所拍摄的图片输出机器人执行的动作,并根据动作执行的效果对深度神经网络的参数进行优化;然后更新目标位置,对机器人进行不同的路径规划训练,得到最终深度神经网络。在执行阶段:最终深度神经网络根据摄像机拍摄图像输出机器人执行的动作,机器人执行该动作;若机器人执行完动作后到达目标终位置,则机器人完成全局路径规划。本发明具有较强的实时性,无需人为参与,不需要进入场景预先构建环境地图,适用于多种场景,成本低廉。
Description
技术领域
本发明涉及一种基于深度强化学习的机器人全局路径规划方法,属于机器学习领域和全局路径规划技术领域。
背景技术
近年来,机器人成为高技术领域内迅速发展起来的重要产业之一,全局路径规划技术又是机器人技术研究的重要领域。良好的机器人全局路径规划技术可以减少机器人作业时间,减少能源损耗,提高机器人的工作效率,提升人类生活水平质量等。例如在一些环境恶劣,人类难以到达的事故现场,良好全局路径规划技术可以使抢险机器人穿越障碍到达目标位置实施救援任务;在家庭生活中,通过服务机器人的“眼睛”和“耳朵”了解家庭环境,从一个房间到达另一个房间帮助家庭分担家务。因此,移动机器人的全局路径规划技术在现在和将来都拥有很广阔的应用和发展空间,具有非常巨大的研究价值。而传统的全局路径规划技术,机器人需要携带大量的传感器去感知环境,预先在场景中构建全局地图。该方法在环境发生变化时需要重新建立连通模型,适应能力差,实用性不强。
当前公开技术文献中,如“一种基于ROS的移动机器人室内环境探索系统与控制方法”,专利公开号为105487535A。该技术基于机器人操作系统,人工操控搭载雷达传感器的移动机器人在场景中构建局部地图,将局部地图拼接成全局地图,并作为移动机器人在场景中运动控制的基础,应用到后期的全局路径规划任务中。该技术首先要求构建场景的全局地图,并且全局地图质量的好坏对后期移动机器人在场景中的应用效果产生决定影响。然而,在很多实际的应用场景中我们不能够构建高质量的全局地图,甚至不具备预先进入场景内构建全局地图的条件。因此,多种限制因素导致该技术实际应用中工作量巨大,人机交互的体验感大幅下降,不能够方便快捷的完成任务,难以在实际场景中大量的应用与推广。
目前,图像信息处理的很多问题都已经开始用深度神经网络进行解决,并取得了广泛的成功,深度神经网络能够准确的提取特征并有效的表达模型信息。强化学习又称评价学习,是一个不断的试探过程。它通过不断的行动与评价获得知识,改进行动方案以适应环境,使最终的评价函数值最大,达到学习的目的。
发明内容
本发明的目的是为克服已有技术的不足之处,提出了一种基于深度强化学习的机器人全局路径规划方法。本发明具有较强的实时性,且无需人为参与,不需要进入场景预先构建环境地图,能够适用于多种不同场景,成本低廉。
本发明提出一种基于深度强化学习的机器人全局路径规划方法,包括以下步骤:
本发明提出的一种基于深度强化学习的机器人全局路径规划方法,其特征在于,分为训练阶段和执行阶段,包括以下步骤:
1)训练阶段;具体步骤如下:
1-1)在需要进行机器人全局路径规划的场景内距离地面hg的屋顶安装俯视摄像机,俯视摄像机对所在场景进行实时拍摄,得到该场景的一系列RGB图像;
1-2)建立评判机器人运动收益的深度神经网络,记为NR,具体步骤如下:
1-2-1)构建一个包含N层的深度神经网络NR,包括:一层输入层L1,若干层卷积层Lcnn-conv,若干层池化层Lcnn-pool,一层全连接层Lfull和一层输出层Ln;
深度神经网络NR中,输入层L1的输入采用步骤1-1)安装的俯视摄像机连续拍摄的4帧RGB图像的信息作为一组输入数据;由于每张RGB图像包含3个维度,因此深度神经网络NR的一组输入数据,记为x:hnet×wnet×3×4,其中,hnet代表RGB图像的高度,wnet代表RGB图像的宽度;
输出层Ln的输出包含三个维度,每一维度分别对应机器人的一种运动方式,分别记为:Q1、Q2、Q3,则输出层Ln的输出为一个3×1的矩阵,记为y:{Q1;Q2;Q3};其中,Q1为左转30度前进,Q2为直行,Q3为右转30度前进;
1-2-2)设置深度神经网络激活函数;
深度神经网络NR的前N-1层激活函数f(·)为Relu函数,其表达式为f(x)=max(0,x),输出层激活函数为Sigmoid函数,其表达式为
1-2-3)定义深度神经网络每一层的权重参数θi并进行初始化赋值;
令θi表示深度神经网络NR中第i层权重参数,包括:第i层的连接参数wi和第i层的偏置参数bi;深度神经网络每一层的权重参数θi组成深度神经网络的总权重参数θR;
深度神经网络NR层与层间为映射关系,其映射关系表达式为ai+1=f(zi+1);其中zi+1=wi*ai+bi,ai与ai+1分别表示深度神经网络NR的第i层与i+1层输出数据;深度神经网络NR总的映射关系为即输入层L1的输入的数据经过每一层的权重参数θi与该层相应的激活函数f(·)计算后,输出到下一层使深度神经网络不断前向传播,最终到达输出层Ln;
训练开始前,对深度神经网络的每一层的权重参数θi赋初始值,赋值方法为:对深度神经网络NR的第i层,根据正态分布随机对第i层的连接参数wi进行初始化赋值,令偏置参数bi值为0;
1-2-4)设定深度神经网络NR奖惩系数R:机器人根据输出层Ln输出的动作指令选择执行的动作,机器人执行完动作后根据当前状态评判此次执行的效果,给出由奖惩系数r1、r2、r3和r4组成的奖惩系数R,表达式为R=r1+r2+r3+r4;
评判标准为:若机器人与障碍物发生碰撞,则r1设定为-5;若机器人与障碍物距离小于30cm,则r1设定为-0.5;若机器人与障碍物未发生碰撞且距离大于等于30厘米,则r1设定为0;若机器人向前运动,则r2设定为0,否则r2设定为-5;若机器人到达目标点,则r3设定为10,否则r3设定为为0;若机器人遍历时间大于设定的阈值步数,则r4设定为-0.05,否则r4设定为0;
1-3)对深度神经网络NR的参数进行训练,训练完成后,得到最终的深度神经网络NR_final;具体步骤如下:
1-3-1)在计算机中建立一个数据缓存区Dmemory,初始化为空;在数据缓存区Dmemory中,分别建立一个经验池Dstart和一个数据样本集Dminibatch,分别初始化为空;
1-3-2)初始化计数器c1=0,计数器c1用来记录机器人运动次数;初始化计数器c2=0,计数器c2用来记录机器人每次成功到达目标位置需要经过的运动次数;初始化计数器c3=0,计数器c3用来记录机器人在一个场景中不同目标位置间训练全局路径规划的运动次数;
1-3-3)随机设定机器人在场景中的初始位置和目标位置;
1-3-4)t时刻,机器人保持初始静止状态,俯视摄像机连续抓拍场景图像,随机截取其中连续四帧的场景图像,则深度神经网络NR的t时刻输入数据为:xt=hnet×wnet×3×4,记做状态st并保存;
1-3-5)将步骤1-3-4)得到的t时刻的输入数据xt输入到深度神经网络NR中得到输出层对应输出的矩阵yt;
1-3-6)选择机器人的执行动作,记做At,同时更新计数器c1=c1+1;执行动作的选择方法如下:
1-3-6-1)在0~1中产生随机数ε1,如果随机数ε1>ε,ε为设定阈值,则机器人的执行动作At为输出层输出的矩阵yt中元素的最大值所对应的动作,即At=max(Q1t,Q2t,Q3t);
1-3-6-2)如果随机数ε1<ε,则机器人的执行动作At为在矩阵yt除去最大值元素后的剩余两个元素中任意选择一个元素所对应的动作,即At=rand(Qt);
1-3-7)机器人执行完动作At后,若机器人到达步骤1-3-3)设定的目标位置,则进入步骤1-3-13);若未达到,则计数器c2=c2+1,进入步骤1-3-8);
1-3-8)重复步骤1-2-4),计算得到t时刻的奖惩系数记为Rt+1,叠加到t时刻输出层输出的矩阵yt,更新矩阵yt,得到t时刻的新的输出矩阵,记为Yvalue_t;
计算新的输出矩阵Yvalue具体方法如下:假定输出矩阵为y:{Q1;Q2;Q3},机器人应执行的动作为Q1,动作执行完毕后,反馈得到奖惩系数R,根据计算公式:Q1'=Q1+R、Q'2=Q2、Q3'=Q3,得到新的矩阵Yvalue:{Q1',Q'2,Q3'};
1-3-9)在t+1时刻,重复步骤1-3-4),得到新的状态st+1,建立集合{st,Qt,At,Rt+1,st+1},将该集合存储到数据缓冲区Dexplore并进行判定:如果数据缓冲区Dexplore的集合总数小于设定容量memory,则数据缓冲区Dexplore的集合总数加1;否则,数据缓冲区Dexplore的集合总数归0;
1-3-10)将集合{st,Qt,At,Rt+1,st+1}保存到数据缓冲区Dexplore后,将该集合同时保存到数据样本集Dminibatch与经验池Dstart中,且数据样本集Dminibatch与经验池Dstart中集合的总数分别加1,并进行判定:如果数据样本集Dminibatch的集合总数大于数据样本集Dminibatch的设定容量,则在下一个时刻将新得到的集合替换原数据样本集Dminibatch中距离当前时刻最久的集合;如果经验池Dstart的集合总数小于经验池Dstart的设定容量,则在下一个时刻重新返回步骤1-3-4);如果经验池Dstart的集合总数大于等于经验池Dstart的设定容量,则进入步骤1-3-11),并将下一个时刻新得到的集合替换原经验池Dstart中距离当前时刻最久的集合;
1-3-11)使用随机梯度下降法更新深度神经网络总权重参数θR,得到更新后的深度神经网络NR';具体步骤如下:
1-3-11-1)计算损失J(w,b);假设从数据样本集Dminibatch中随机选取m组集合,将Yvalue矩阵{Q'1;Q'2;Q'3}作为目标值,则根据损失函数计算机器人执行本次动作的损失,损失函数的表达式为:
1-3-11-2)计算深度神经网络每一层的残差δi,其中i表示深度神经网络的第i层;对于输出层,残差计算根据公式:δi=-(y-ai-1)·f'(zi-1);对于深度神经网络的第2层到第N-1层,则根据以下公式计算残差:δi=(wi·δi)f'(zi);
1-3-11-3)计算深度神经网络每一层权重参数θi的偏导数:连接参数wi的偏导数为偏置参数bi的偏导数为
1-3-11-4)计算深度神经网络每一层权重参数θi的梯度:连接参数wi的梯度为偏置参数bi的梯度为
1-3-11-5)更新深度神经网络每一层权重参数θi,得到更新后的深度神经网络NR':更新后,新的连接参数为新的偏置参数为其中,α表示学习速率,λ表示权重衰减系数;
1-3-12)利用步骤1-3-11)得到更新后的深度神经网络NR',重新返回步骤1-3-4),机器人在下一个时刻执行新的深度神经网络NR'输出的相应动作,并记录集合;
1-3-13)机器人到达步骤1-3-3)设定的目标位置,记录并存储计数器c2记录的次数为
1-3-14)令机器人在场景中的初始位置和目标位置保持不变,重新返回步骤1-3-4),对机器人进行多次路径规划训练,并记录每一次训练得到的计数器c2的值,得到集合集合中的每一个元素分别代表计数器c2记录的机器人完成一次路径规划训练的运动次数;
1-3-15)对设定相同初始位置和相同目标位置的路径规划训练进行判定,
若同时满足以下两个条件,则判定设定相同初始位置和相同目标位置路径规划训练完成,令c3计数器加1,同时清空c2集合为0,并进入步骤1-3-16);否则,重新返回步骤1-3-4):
条件1:连续n次训练存储的c2的次数变化差值小于设定阈值p;
条件2:连续n次训练后,经过损失函数计算得到损失J(w,b),小于设定阈值q,相邻两次训练的损失变化差值小于设定阈值k;
1-3-16)对计数器c3的次数进行判定:若c3<u,u为设定的阈值,则重新返回步骤1-3-3),随机更新机器人在场景中的初始位置和目标位置,对机器人进行新的路径规划训练;否则,深度神经网络参数训练完成,得到最终深度神经网络NR_final;
2)执行阶段;具体步骤如下:
2-1)在场景中随机设定机器人初始位置和终点目标位置;
2-2)俯视摄像机连续抓拍场景图像,随机截取其中连续四帧的场景图像,作为最终深度神经网络NR_final的输入数据xfinal;
2-3)将步骤2-2)的得到的输入数据xfinal输入到步骤1)训练完成的最终深度神经网络NR_final中,最终深度神经网络NR_final输出机器人执行的动作记为A,机器人执行该动作A,并进行判定:
2-3-1)若机器人执行完动作A后没有到达目标位置,则重新返回步骤2-2),最终深度神经网络NR_final生成机器人执行的下一个动作;
2-3-2)若机器人执行完动作A后到达目标终位置,则机器人完成全局路径规划。
本发明的技术特点及有益效果在于:
本发明提出的一种基于深度强化学习的机器人全局路径规划方法,通过俯视摄像机实时观察场景内的状态并截取图像信息,构建深度神经网络,并利用强化学习算法对所构建的深度神经网络进行训练,训练完成后,深度神经网络产生决策驱动机器人完成全局路径规划任务。本发明在机器人感知环境过程中,大幅减少了需要携带的传感器设备,仅需要在场景内安装一台俯视摄像机。在构建全局地图过程中,相较于传统的全局路径规划技术,该方法采用实时的图像信息作为输入,具有较强的实时性;且提取的场景内空间有效信息数量更多且更为准确,较好地弥补了自由空间存在的缺陷。从俯视摄像机截取的图像信息中提取路径信息,不需要进入场景中预先构建环境地图,它有效的解决了机器人在实际应用过程中的遇到的很多困难,如场景不具备提前构建全局地图的条件或构建全局地图较难。本发明通过不断试错使深度神经网络累积经验提取有效的图像信息特征,最终机器人将实时图像信息经过深度神经网络直接产生机器人的运动控制策略,完成全局路径规划任务。由于该方法在训练阶段完成深度神经网络的训练工作且输入数据为实时的图像信息,因此,训练工作完成后便可直接应用于大量场景中,使本发明在环境发生变化时具有较强的适应性,避免了需要重新建立连通模型等问题。
本方法具有以下优点:
1、通过俯视摄像机提取场景中的实时图像,具有较强的实时性;图像信息作为深度神经网络的输入,使空间信息数量更多且更为准确,弥补了空间存在的缺陷。
2、机器人感知环境过程中,场景中仅需安装一台俯视摄像机。
3、从俯视摄像机截取的图像信息中提取路径信息,不需要进入场景中预先构建环境地图,避免了很多场景不能够提前构建全局地图或构建全局地图较难的困难。
4、通过深度神经网络累积经验提取有效的图像信息特征,并结合强化学习算法选择机器人执行“左转30度前进”、“直行”和“右转30度前进”3种动作,最终形成机器人在场景内的全局路径规划,该方法能够实用于多种场景,在环境发生变化时具有较强的适应性,避免了需要重新建立连通模型等问题。
5、机器人在完成全局路径规划任务过程中,不需要人为参与。
附图说明
图1为本发明训练阶段流程图。
图2为本发明实施例中深度神经网络结构示意图。
图3为本发明执行阶段流程图。
具体实施方式
本发明提出的一种基于深度强化学习的机器人全局路径规划方法,下面结合附图和具体实施例进一步详细说明如下。
本发明提出的一种基于深度强化学习的机器人全局路径规划方法,分为训练阶段和执行阶段两个阶段,包括以下步骤:
1)训练阶段;流程如图1所示,具体步骤如下:
1-1)在需要进行机器人全局路径规划的场景内安装俯视摄像机;
在需要进行机器人全局路径规划的场景内距离地面hg(取值范围2m~3.5m,本实施例中距离是2.8m)的屋顶安装俯视摄像机(俯视摄像机的型号无特殊要求,本实施例采用的产品为海康威视),俯视摄像机能够覆盖场景内的每个角落;俯视摄像机对所在场景进行实时拍摄,得到该场景的一系列RGB图像。本发明中所述的场景为普通的室内场景,本实施例中采用的场景为包含客厅、厨房、卧室、卫生间的普通家居场景。
1-2)建立评判机器人运动收益的深度神经网络,记为NR,具体步骤如下:
1-2-1)建立一个包含N层的深度神经网络NR,包括:一层输入层L1,卷积层Lcnn-conv(一般取值5层),池化层Lcnn-pool(一般取值1层),一层全连接层Lfull和一层输出层Ln。本实施例中,建立的深度神经网络的结构示意图如图2所示,包括:1层输入层L1,5层卷积层Lcnn-conv与1层池化层Lcnn-pool,1层全连接层Lfull和1层输出层Ln;其中,池化层位于第1层卷积层和第2层卷积层之间。
深度神经网络NR中,输入层L1的输入为步骤1-1)拍摄得到的RGB图像。本发明中,采用俯视摄像机连续拍摄的4张RGB图像的信息作为深度神经网络的一组输入数据,由于每张RGB图像包含3个维度,因此深度神经网络NR的一组输入数据,记为x:hnet×wnet×3×4,其中,hnet代表RGB图像的高度,wnet代表RGB图像的宽度,(RGB图像的高度和宽度一般取值均为224像素)。
由于本发明中,机器人(本发明的机器人可采用常规的机器人,本实施例的机器人使用型号为Pioneer3-AT)有三种运动方式,包括:左转30度前进、直行和右转30度前进,则设定输出层Ln的输出包含三个维度;其中,每一维度分别对应机器人的一种运动方式,则输出层Ln的输出为一个3×1的矩阵,记为y:{Q1;Q2;Q3},Q1、Q2、Q3分别对应机器人对应机器人应执行的动作:Q1为左转30度前进,Q2为直行,Q3为右转30度前进。
1-2-2)设置深度神经网络激活函数;
为了加快深度神经网络计算的收敛速度同时避免梯度饱和,深度神经网络NR的前N-1层激活函数f(·)为Relu函数,其表达式为f(x)=max(0,x),输出层激活函数为Sigmoid函数,其表达式为
1-2-3)定义深度神经网络每一层的权重参数θi并进行初始化赋值;
令θi表示深度神经网络NR中第i层权重参数,包括:第i层的连接参数wi和第i层的偏置参数bi;深度神经网络每一层的权重参数θi组成深度神经网络的总权重参数θR。
深度神经网络NR层与层间为映射关系,其映射关系表达式为ai+1=f(zi+1)。其中zi+1=wi*ai+bi,ai与ai+1分别表示深度神经网络NR的第i层与i+1层输出数据;深度神经网络NR总的映射关系可以概括为即输入层L1的输入的数据经过每一层的权重参数θi与该层相应的激活函数f(·)计算后,输出到下一层使深度神经网络不断前向传播,最终到达输出层Ln。
训练开始前,对深度神经网络的每一层的权重参数θi赋初始值,赋值方法为:对深度神经网络NR的第i层,根据正态分布随机对第i层的连接参数wi进行初始化赋值,令偏置参数bi值为0。
1-2-4)设定深度神经网络NR奖惩系数;机器人根据输出层Ln输出的动作指令选择执行的动作,机器人执行完动作后会根据当前状态评判此次执行的效果,给出由奖惩系数r1、r2、r3和r4组成的奖惩系数R,表达式为R=r1+r2+r3+r4。评判标准为:机器人与障碍物发生碰撞时,r1设定为-5;机器人与障碍物距离小于30cm时,r1设定为-0.5;机器人与障碍物未发生碰撞且距离大于等于30厘米时,r1设定为0;若机器人向前运动,则r2设定为0,否则r2设定为-5;若机器人到达目标点,则r3设定为10,否则为0;若机器人遍历时间大于设定的阈值步数(一般设定阈值为200步),则r4设定为-0.05,否则r4设定为0。
1-3)对深度神经网络NR的参数进行训练;深度神经网络NR的参数训练是通过对机器人进行多次全局路径规划训练实现的,训练后得到的最终的深度神经网络NR_final使输入数据经过深度神经网络NR_final直接判断机器人运动方式的优劣。
1-3-1)在计算机中建立一个数据缓存区Dmemory,初始化为空;在数据缓存区Dmemory中,分别建立一个经验池Dstart和一个数据样本集Dminibatch,分别初始化为空;
1-3-2)初始化计数器c1=0,计数器c1用来记录机器人运动次数;初始化计数器c2=0,计数器c2用来记录机器人每次成功到达目标点需要经过的运动次数;初始化计数器c3=0,计数器c3用来记录机器人在一个场景中不同目标点间训练全局路径规划的运动次数。
1-3-3)随机设定机器人在场景中的初始位置和目标位置。
1-3-4)t时刻,机器人保持初始静止状态,俯视摄像机连续抓拍场景图像,随机截取其中连续四帧的场景图片,则深度神经网络NR的t时刻输入数据为:xt=hnet×wnet×3×4,记做状态st并保存;
1-3-5)将步骤1-3-4)得到的t时刻的输入数据xt输入到深度神经网络NR中得到输出层对应输出的矩阵yt。
1-3-6)选择机器人的执行动作,记做At,同时更新计数器c1=c1+1;执行动作的选择方法如下:
1-3-6-1)在0~1中产生随机数ε1,如果随机数ε1>ε(一般ε取值为0.9),则机器人的执行动作At为输出层输出的矩阵yt中元素的最大值所对应的动作,即At=max(Q1t,Q2t,Q3t);其中Q1t、Q2t、Q3t分别对应机器人“左转30度前进”、“直行”和“右转30度前进”。
1-3-6-2)如果随机数ε1<ε,则机器人的执行动作At为在矩阵yt除去最大值元素后的剩余两个元素中任意选择一个元素所对应的动作,即At=rand(Qt)。
1-3-7)机器人执行完动作At后,若机器人到达步骤1-3-3)设定的目标位置,则进入步骤1-3-13);若未达到,则计数器c2=c2+1,进入步骤1-3-8);
1-3-8)更新矩阵yt;重复步骤1-2-4),计算得到t时刻的记为奖惩系数Rt+1,叠加到t时刻输出层输出的矩阵yt,得到t时刻的新的输出矩阵,记为Yvalue_t;
计算新的输出矩阵Yvalue,具体方法如下:假定输出矩阵为y:{Q1;Q2;Q3},机器人应执行的动作为Q1,机器人执行Q1对应的动作“左转30度前进”反馈得到奖惩系数Rt+1,根据计算公式:Q1'=Q1+R、Q'2=Q2、Q3'=Q3,得到新的矩阵Yvalue:{Q1',Q'2,Q3'}。
1-3-9)在t+1时刻,重复步骤1-3-4),得到新的状态st+1,建立集合{st,Qt,At,Rt+1,st+1},并将该集合存储到数据缓冲区Dexplore(其中,数据缓冲区的容量meomory一般取值10000组集合)并进行判定:如果数据缓冲区Dexplore的集合总数小于容量memory,则数据缓冲区Dexplore的集合总数加1;否则,数据缓冲区Dexplore的集合总数归0;
1-3-10)将集合{st,Qt,At,Rt+1,st+1}保存到数据缓冲区Dexplore后,将该集合同时保存到数据样本集Dminibatch与经验池Dstart中,且数据样本集Dminibatch与经验池Dstart中集合的总数分别加1(数据样本集Dminibatch的容量一般设定为32组集合,经验池Dstart的容量一般设定为1000组集合),并进行判定:如果数据样本集Dminibatch的集合总数大于数据样本集Dminibatch的设定容量,则在下一个时刻将会用新的集合替换原数据样本集Dminibatch中距离当前时刻最久的集合;如果经验池Dstart的集合总数小于经验池Dstart的设定容量,则在下一个时刻重新返回步骤1-2-4);如果经验池Dstart的集合总数大于等于经验池Dstart的设定容量,则进入步骤1-3-11),并且将新的集合替换原经验池Dstart中距离当前时刻最久的集合。
1-3-11)使用随机梯度下降法更新深度神经网络总权重参数θR,得到更新后的深度神经网络NR';具体步骤如下:
1-3-11-1)计算损失J(w,b);假设从数据样本集Dminibatch中随机选取m(m一般取值为6)组集合,将Yvalue矩阵{Q'1;Q'2;Q'3}作为目标值,则根据损失函数计算机器人执行本次动作的损失,损失函数的表达式为:
1-3-11-2)计算深度神经网络每一层的残差δi,其中i表示深度神经网络的第i层;对于输出层,残差计算根据公式:δi=-(y-ai-1)·f'(zi-1);对于深度神经网络的第2层到第N-1层,则根据以下公式计算残差:δi=(wi·δi)f'(zi)。此步骤为以上深度神经网络从后往前求导的过程,即为反向传导的本意所在。
1-3-11-3)计算深度神经网络每一层权重参数θi的偏导数:连接参数wi的偏导数为偏置参数bi的偏导数为
1-3-11-4)计算深度神经网络每一层权重参数θi的梯度:连接参数wi的梯度为偏置参数bi的梯度为
1-3-11-5)更新深度神经网络每一层权重参数θi,得到更新后的深度神经网络NR':更新后,新的连接参数为新的偏置参数为其中α表示学习速率,一般取值0.001;λ表示权重衰减系数,一般取值0.90。
1-3-12)利用步骤1-3-11)得到更新后的深度神经网络NR',重新返回步骤1-2-4),机器人在下一个时刻执行新的深度神经网络NR'输出的相应动作,并记录集合;
1-3-13)机器人到达步骤1-3-3)设定的目标位置,记录并存储计数器c2记录的次数,
1-3-14)令机器人在场景中的初始位置和目标位置保持不变,重新返回步骤1-3-4),对机器人进行多次训练(此处的多次训练始终保持起点和终点不变,但机器人采用的前进方式可能完全不同),并记录每一次训练得到的计数器c2的值,得到集合(其中以为例,表示计数器c2记录的机器人完成第一次设定初始位置和目标位置的路径规划训练的运动次数);
1-3-15)对设定相同初始位置和相同目标位置的路径规划训练进行判定,
若同时满足以下两个条件,则判定设定相同初始位置和相同目标位置路径规划训练完成,令c3计数器加1,记录机器人完成了c3次的不同目标位置的路径规划任务,同时清空c2数据集合为0,并进入步骤1-3-16);否则,重新返回步骤1-3-4):
条件1:连续n(一般取值5)次训练存储的c2的次数变化差值小于p(一般取值3);
条件2:连续n(一般取值5)次训练后,经过损失函数计算得到损失J(w,b),小于设定阈值q(一般取值0.1),相邻两次训练的损失变化差值小于k(一般取值0.005);
1-3-16)对计数器c3的次数进行判定:若c3<u(u为设定的阈值,一般取值6),则重新返回步骤1-3-3),随机更新机器人在场景中的初始位置和目标位置(新的初始位置和目标位置应与原位置不同),对机器人进行新的路径规划训练;否则,深度神经网络参数训练完成,得到最终深度神经网络NR_final。
2)执行阶段,执行阶段流程图如图3所示,具体步骤如下:。
2-1)在场景中随机设定机器人初始位置,随机设定终点目标位置;
2-2)俯视摄像机连续抓拍场景图像,随机截取其中连续四帧的场景图像,作为最终深度神经网络NR_final的输入数据xfinal;
2-3)将步骤2-2)的得到的输入数据xfinal输入到步骤1)训练完成的最终深度神经网络NR_final中,最终深度神经网络NR_final输出机器人执行的动作记为A,机器人执行该动作A,并进行判定:
2-3-1)若机器人执行完动作A后没有到达目标位置,则重新返回步骤2-2),最终深度神经网络NR_final生成机器人执行的下一个动作;
2-3-2)若机器人执行完动作A后到达目标终位置,则机器人完成全局路径规划任务。
Claims (1)
1.一种基于深度强化学习的机器人全局路径规划方法,其特征在于,分为训练阶段和执行阶段,包括以下步骤:
1)训练阶段;具体步骤如下:
1-1)在需要进行机器人全局路径规划的场景内距离地面hg的屋顶安装俯视摄像机,俯视摄像机对所在场景进行实时拍摄,得到该场景的一系列RGB图像;
1-2)建立评判机器人运动收益的深度神经网络,记为NR,具体步骤如下:
1-2-1)构建一个包含N层的深度神经网络NR,包括:一层输入层L1,若干层卷积层Lcnn-conv,若干层池化层Lcnn-pool,一层全连接层Lfull和一层输出层Ln;
深度神经网络NR中,输入层L1的输入采用步骤1-1)安装的俯视摄像机连续拍摄的4帧RGB图像的信息作为一组输入数据;由于每张RGB图像包含3个维度,因此深度神经网络NR的一组输入数据,记为x:hnet×wnet×3×4,其中,hnet代表RGB图像的高度,wnet代表RGB图像的宽度;
输出层Ln的输出包含三个维度,每一维度分别对应机器人的一种运动方式,分别记为:Q1、Q2、Q3,则输出层Ln的输出为一个3×1的矩阵,记为y:{Q1;Q2;Q3};其中,Q1为左转30度前进,Q2为直行,Q3为右转30度前进;
1-2-2)设置深度神经网络激活函数;
深度神经网络NR的前n-1层激活函数f(·)为Relu函数,其表达式为f(x)=max(0,x),输出层激活函数为Sigmoid函数,其表达式为
1-2-3)定义深度神经网络每一层的权重参数θi并进行初始化赋值;
令θi表示深度神经网络NR中第i层权重参数,包括:第i层的连接参数wi和第i层的偏置参数bi;深度神经网络每一层的权重参数θi组成深度神经网络的总权重参数θR;
深度神经网络NR层与层间为映射关系,其映射关系表达式为ai+1=f(zi+1);其中zi+1=wi*ai+bi,ai与ai+1分别表示深度神经网络NR的第i层与i+1层输出数据;深度神经网络NR总的映射关系为即输入层L1的输入的数据经过每一层的权重参数θi与该层相应的激活函数f(·)计算后,输出到下一层使深度神经网络不断前向传播,最终到达输出层Ln;
训练开始前,对深度神经网络的每一层的权重参数θi赋初始值,赋值方法为:对深度神经网络NR的第i层,根据正态分布随机对第i层的连接参数wi进行初始化赋值,令偏置参数bi值为0;
1-2-4)设定深度神经网络NR奖惩系数R:机器人根据输出层Ln输出的动作指令选择执行的动作,机器人执行完动作后根据当前状态评判此次执行的效果,给出由奖惩系数r1、r2、r3和r4组成的奖惩系数R,表达式为R=r1+r2+r3+r4;
评判标准为:若机器人与障碍物发生碰撞,则r1设定为-5;若机器人与障碍物距离小于30cm,则r1设定为-0.5;若机器人与障碍物未发生碰撞且距离大于等于30厘米,则r1设定为0;若机器人向前运动,则r2设定为0,否则r2设定为-5;若机器人到达目标点,则r3设定为10,否则r3设定为为0;若机器人遍历时间大于设定的阈值步数,则r4设定为-0.05,否则r4设定为0;
1-3)对深度神经网络NR的参数进行训练,训练完成后,得到最终的深度神经网络NR_final;具体步骤如下:
1-3-1)在计算机中建立一个数据缓存区Dmemory,初始化为空;在数据缓存区Dmemory中,分别建立一个经验池Dstart和一个数据样本集Dminibatch,分别初始化为空;
1-3-2)初始化计数器c1=0,计数器c1用来记录机器人运动次数;初始化计数器c2=0,计数器c2用来记录机器人每次成功到达目标位置需要经过的运动次数;初始化计数器c3=0,计数器c3用来记录机器人在一个场景中不同目标位置间训练全局路径规划的运动次数;
1-3-3)随机设定机器人在场景中的初始位置和目标位置;
1-3-4)t时刻,机器人保持初始静止状态,俯视摄像机连续抓拍场景图像,随机截取其中连续四帧的场景图像,则深度神经网络NR的t时刻输入数据为:xt=hnet×wnet×3×4,记做状态st并保存;
1-3-5)将步骤1-3-4)得到的t时刻的输入数据xt输入到深度神经网络NR中得到输出层对应输出的矩阵yt;
1-3-6)选择机器人的执行动作,记做At,同时更新计数器c1=c1+1;执行动作的选择方法如下:
1-3-6-1)在0~1中产生随机数ε1,如果随机数ε1>ε,ε为设定阈值,则机器人的执行动作At为输出层输出的矩阵yt中元素的最大值所对应的动作,即At=max(Q1t,Q2t,Q3t);
1-3-6-2)如果随机数ε1<ε,则机器人的执行动作At为在矩阵yt除去最大值元素后的剩余两个元素中任意选择一个元素所对应的动作,即At=rand(Qt);
1-3-7)机器人执行完动作At后,若机器人到达步骤1-3-3)设定的目标位置,则进入步骤1-3-13);若未达到,则计数器c2=c2+1,进入步骤1-3-8);
1-3-8)重复步骤1-2-4),计算得到t时刻的奖惩系数记为Rt+1,叠加到t时刻输出层输出的矩阵yt,更新矩阵yt,得到t时刻的新的输出矩阵,记为Yvalue_t;
计算新的输出矩阵Yvalue具体方法如下:假定输出矩阵为y:{Q1;Q2;Q3},机器人应执行的动作为Q1,动作执行完毕后,反馈得到奖惩系数R,根据计算公式:Q′1=Q1+R、Q'2=Q2、Q′3=Q3,得到新的矩阵Yvalue:{Q′1,Q'2,Q′3};
1-3-9)在t+1时刻,重复步骤1-3-4),得到新的状态st+1,建立集合{st,Qt,At,Rt+1,st+1},将该集合存储到数据缓冲区Dexplore并进行判定:如果数据缓冲区Dexplore的集合总数小于设定容量memory,则数据缓冲区Dexplore的集合总数加1;否则,数据缓冲区Dexplore的集合总数归0;
1-3-10)将集合{st,Qt,At,Rt+1,st+1}保存到数据缓冲区Dexplore后,将该集合同时保存到数据样本集Dminibatch与经验池Dstart中,且数据样本集Dminibatch与经验池Dstart中集合的总数分别加1,并进行判定:如果数据样本集Dminibatch的集合总数大于数据样本集Dminibatch的设定容量,则在下一个时刻将新得到的集合替换原数据样本集Dminibatch中距离当前时刻最久的集合;如果经验池Dstart的集合总数小于经验池Dstart的设定容量,则在下一个时刻重新返回步骤1-3-4);如果经验池Dstart的集合总数大于等于经验池Dstart的设定容量,则进入步骤1-3-11),并将下一个时刻新得到的集合替换原经验池Dstart中距离当前时刻最久的集合;
1-3-11)使用随机梯度下降法更新深度神经网络总权重参数θR,得到更新后的深度神经网络NR';具体步骤如下:
1-3-11-1)计算损失J(w,b);假设从数据样本集Dminibatch中随机选取m组集合,将Yvalue矩阵{Q'1;Q'2;Q'3}作为目标值,则根据损失函数计算机器人执行本次动作的损失,损失函数的表达式为:
1-3-11-2)计算深度神经网络每一层的残差δi,其中i表示深度神经网络的第i层;对于输出层,残差计算根据公式:δi=-(y-ai-1)·f'(zi-1);对于深度神经网络的第2层到第N-1层,则根据以下公式计算残差:δi=(wi·δi)f'(zi);
1-3-11-3)计算深度神经网络每一层权重参数θi的偏导数:连接参数wi的偏导数为偏置参数bi的偏导数为
1-3-11-4)计算深度神经网络每一层权重参数θi的梯度:连接参数wi的梯度为偏置参数bi的梯度为
1-3-11-5)更新深度神经网络每一层权重参数θi,得到更新后的深度神经网络NR':更新后,新的连接参数为新的偏置参数为其中,α表示学习速率,λ表示权重衰减系数;
1-3-12)利用步骤1-3-11)得到更新后的深度神经网络NR',重新返回步骤1-3-4),机器人在下一个时刻执行新的深度神经网络NR'输出的相应动作,并记录集合;
1-3-13)机器人到达步骤1-3-3)设定的目标位置,记录并存储计数器c2记录的次数为
1-3-14)令机器人在场景中的初始位置和目标位置保持不变,重新返回步骤1-3-4),对机器人进行多次路径规划训练,并记录每一次训练得到的计数器c2的值,得到集合集合中的每一个元素分别代表计数器c2记录的机器人完成一次路径规划训练的运动次数;
1-3-15)对设定相同初始位置和相同目标位置的路径规划训练进行判定,
若同时满足以下两个条件,则判定设定相同初始位置和相同目标位置路径规划训练完成,令c3计数器加1,同时清空c2集合为0,并进入步骤1-3-16);否则,重新返回步骤1-3-4):
条件1:连续n次训练存储的c2的次数变化差值小于设定阈值p;
条件2:连续n次训练后,经过损失函数计算得到损失J(w,b),小于设定阈值q,相邻两次训练的损失变化差值小于设定阈值k;
1-3-16)对计数器c3的次数进行判定:若c3<u,u为设定的阈值,则重新返回步骤1-3-3),随机更新机器人在场景中的初始位置和目标位置,对机器人进行新的路径规划训练;否则,深度神经网络参数训练完成,得到最终深度神经网络NR_final;
2)执行阶段;具体步骤如下:
2-1)在场景中随机设定机器人初始位置和终点目标位置;
2-2)俯视摄像机连续抓拍场景图像,随机截取其中连续四帧的场景图像,作为最终深度神经网络NR_final的输入数据xfinal;
2-3)将步骤2-2)的得到的输入数据xfinal输入到步骤1)训练完成的最终深度神经网络NR_final中,最终深度神经网络NR_final输出机器人执行的动作记为A,机器人执行该动作A,并进行判定:
2-3-1)若机器人执行完动作A后没有到达目标位置,则重新返回步骤2-2),最终深度神经网络NR_final生成机器人执行的下一个动作;
2-3-2)若机器人执行完动作A后到达目标终位置,则机器人完成全局路径规划。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710346125.3A CN107065881B (zh) | 2017-05-17 | 2017-05-17 | 一种基于深度强化学习的机器人全局路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710346125.3A CN107065881B (zh) | 2017-05-17 | 2017-05-17 | 一种基于深度强化学习的机器人全局路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107065881A CN107065881A (zh) | 2017-08-18 |
CN107065881B true CN107065881B (zh) | 2019-11-08 |
Family
ID=59610903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710346125.3A Active CN107065881B (zh) | 2017-05-17 | 2017-05-17 | 一种基于深度强化学习的机器人全局路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107065881B (zh) |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107610235B (zh) * | 2017-08-21 | 2020-11-10 | 北京精密机电控制设备研究所 | 一种基于深度学习的移动平台导航方法和装置 |
CN107443396A (zh) * | 2017-08-25 | 2017-12-08 | 魔咖智能科技(常州)有限公司 | 一种实时模仿人体动作的智能陪伴机器人 |
CN107450593B (zh) * | 2017-08-30 | 2020-06-12 | 清华大学 | 一种无人机自主导航方法和系统 |
CN107729953B (zh) * | 2017-09-18 | 2019-09-27 | 清华大学 | 基于连续状态行为域强化学习的机器人羽状流追踪方法 |
CN107911299B (zh) * | 2017-10-24 | 2020-12-29 | 浙江工商大学 | 一种基于深度q学习的路由规划方法 |
CN108052004B (zh) * | 2017-12-06 | 2020-11-10 | 湖北工业大学 | 基于深度增强学习的工业机械臂自动控制方法 |
CN107992939B (zh) * | 2017-12-06 | 2021-11-12 | 湖北工业大学 | 基于深度增强学习的等切削力齿轮加工方法 |
CN108161934B (zh) * | 2017-12-25 | 2020-06-09 | 清华大学 | 一种利用深度强化学习实现机器人多轴孔装配的方法 |
US10695911B2 (en) * | 2018-01-12 | 2020-06-30 | Futurewei Technologies, Inc. | Robot navigation and object tracking |
CN108320051B (zh) * | 2018-01-17 | 2021-11-23 | 哈尔滨工程大学 | 一种基于gru网络模型的移动机器人动态避碰规划方法 |
CN108255182B (zh) * | 2018-01-30 | 2021-05-11 | 上海交通大学 | 一种基于深度强化学习的服务机器人行人感知避障方法 |
CN108375379A (zh) * | 2018-02-01 | 2018-08-07 | 上海理工大学 | 基于变异的双重dqn的快速路径规划方法及移动机器人 |
CN108393892B (zh) * | 2018-03-05 | 2020-07-24 | 厦门大学 | 一种机器人前馈力矩补偿方法 |
US10732639B2 (en) * | 2018-03-08 | 2020-08-04 | GM Global Technology Operations LLC | Method and apparatus for automatically generated curriculum sequence based reinforcement learning for autonomous vehicles |
CN108550162B (zh) * | 2018-03-27 | 2020-02-07 | 清华大学 | 一种基于深度强化学习的物体检测方法 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN108803321B (zh) * | 2018-05-30 | 2020-07-10 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN108762281A (zh) * | 2018-06-08 | 2018-11-06 | 哈尔滨工程大学 | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 |
US11966838B2 (en) | 2018-06-19 | 2024-04-23 | Nvidia Corporation | Behavior-guided path planning in autonomous machine applications |
CN108924897A (zh) * | 2018-06-30 | 2018-11-30 | 北京工业大学 | 一种基于深度强化学习算法的移动sink路径规划方法 |
CN109241552B (zh) * | 2018-07-12 | 2022-04-05 | 哈尔滨工程大学 | 一种基于多约束目标的水下机器人运动规划方法 |
CN109213147A (zh) * | 2018-08-01 | 2019-01-15 | 上海交通大学 | 一种基于深度学习的机器人避障轨迹规划方法及系统 |
WO2020062911A1 (en) * | 2018-09-26 | 2020-04-02 | Huawei Technologies Co., Ltd. | Actor ensemble for continuous control |
CN109272444B9 (zh) * | 2018-10-07 | 2023-06-30 | 朱钢 | 一种改善Ai智慧摄影场景优化策略的实现方法 |
CN109352649B (zh) * | 2018-10-15 | 2021-07-20 | 同济大学 | 一种基于深度学习的机械手控制方法及系统 |
CN109697458A (zh) * | 2018-11-27 | 2019-04-30 | 深圳前海达闼云端智能科技有限公司 | 控制设备移动的方法、装置、存储介质及电子设备 |
CN111435243B (zh) * | 2018-12-26 | 2023-05-05 | 珠海一微半导体股份有限公司 | 扫地机器人空间地图生成方法、装置及扫地机器人 |
CN109743666A (zh) * | 2018-12-27 | 2019-05-10 | 北京普诺兴科技有限公司 | 基于增强学习的室内声源移动方法、介质、设备和装置 |
CN109520511A (zh) * | 2018-12-27 | 2019-03-26 | 北京普诺兴科技有限公司 | 基于增强学习的室内声源找寻方法、介质、设备和装置 |
CN109857107A (zh) * | 2019-01-30 | 2019-06-07 | 广州大学 | Agv小车导航方法、装置、系统、介质和设备 |
CN111800538B (zh) * | 2019-04-09 | 2022-01-25 | Oppo广东移动通信有限公司 | 信息处理方法、装置、存储介质及终端 |
CN109947117A (zh) * | 2019-04-19 | 2019-06-28 | 辽宁工业大学 | 一种适用于单目视觉物流配送小车的伺服同步控制系统及控制方法 |
CN110631596B (zh) * | 2019-04-23 | 2020-06-02 | 太原理工大学 | 一种基于迁移学习的装备车辆路径规划方法 |
CN110044358B (zh) * | 2019-04-29 | 2020-10-02 | 清华大学 | 基于现场场线特征的移动机器人定位方法 |
CN110154024B (zh) * | 2019-05-22 | 2020-09-15 | 清华大学 | 一种基于长短期记忆神经网络增量模型的装配控制方法 |
CN110443412B (zh) * | 2019-07-18 | 2021-11-02 | 华中科技大学 | 动态优化加工过程中物流调度及路径规划的强化学习方法 |
CN110514206B (zh) * | 2019-08-02 | 2023-08-04 | 中国航空无线电电子研究所 | 一种基于深度学习的无人机飞行路径预测方法 |
US11436470B2 (en) * | 2019-09-13 | 2022-09-06 | Kyndryl, Inc. | Generating simulated image training data |
CN110515303B (zh) * | 2019-09-17 | 2022-09-09 | 余姚市浙江大学机器人研究中心 | 一种基于ddqn的自适应动态路径规划方法 |
CN110926470B (zh) * | 2019-09-25 | 2021-06-25 | 吉林大学珠海学院 | 一种agv导航控制方法及系统 |
CN110693396B (zh) * | 2019-10-21 | 2021-06-11 | 深圳市云鼠科技开发有限公司 | 一种基于free move技术的扫地机避障处理方式 |
CN110794842A (zh) * | 2019-11-15 | 2020-02-14 | 北京邮电大学 | 基于势场的强化学习路径规划算法 |
CN110971683B (zh) * | 2019-11-28 | 2021-06-15 | 海南大学 | 基于强化学习的服务组合方法 |
CN111142557B (zh) * | 2019-12-23 | 2020-12-22 | 清华大学 | 无人机路径规划方法、系统、计算机设备及可读存储介质 |
CN111061277B (zh) * | 2019-12-31 | 2022-04-05 | 歌尔股份有限公司 | 一种无人车全局路径规划方法和装置 |
CN111240356B (zh) * | 2020-01-14 | 2022-09-02 | 西北工业大学 | 一种基于深度强化学习的无人机集群会合方法 |
CN111611373B (zh) * | 2020-04-13 | 2021-09-10 | 清华大学 | 一种面向机器人的具身主动场景描述方法 |
CN111857054B (zh) * | 2020-07-15 | 2021-10-08 | 清华大学 | 一种基于神经网络的数控系统运动轨迹控制方法 |
CN111949032A (zh) * | 2020-08-18 | 2020-11-17 | 中国科学技术大学 | 一种基于强化学习的3d避障导航系统及方法 |
CN112231489B (zh) * | 2020-10-19 | 2021-11-02 | 中国科学技术大学 | 防疫机器人知识学习与迁移方法和系统 |
CN112836852B (zh) * | 2020-12-31 | 2024-05-31 | 中国电子科技集团公司信息科学研究院 | 一种基于强化学习的无人平台路径规划方法及装置 |
CN112902969B (zh) * | 2021-02-03 | 2023-08-01 | 重庆大学 | 一种无人机在数据收集过程中的路径规划方法 |
CN114397889B (zh) * | 2021-12-22 | 2024-03-26 | 深圳银星智能集团股份有限公司 | 基于单元分解的全覆盖路径规划方法及相关设备 |
CN115657674B (zh) * | 2022-10-26 | 2023-05-05 | 宝开(上海)智能物流科技有限公司 | 一种基于图神经网络的分布式路径规划方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102346489A (zh) * | 2010-07-28 | 2012-02-08 | 中国科学院自动化研究所 | 基于脉冲神经网络的机器人跟踪目标的控制方法 |
EP2360629A3 (en) * | 2005-05-07 | 2012-04-11 | Stephen L. Thaler | Device for the autonomous bootstrapping of useful information |
CN102819264A (zh) * | 2012-07-30 | 2012-12-12 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
CN104571113A (zh) * | 2015-01-20 | 2015-04-29 | 博康智能网络科技股份有限公司 | 移动机器人的路径规划方法 |
CN105045260A (zh) * | 2015-05-25 | 2015-11-11 | 湖南大学 | 一种未知动态环境下的移动机器人路径规划方法 |
CN105487535A (zh) * | 2014-10-09 | 2016-04-13 | 东北大学 | 一种基于ros的移动机器人室内环境探索系统与控制方法 |
CN105740644A (zh) * | 2016-03-24 | 2016-07-06 | 苏州大学 | 一种基于模型学习的清洁机器人最优目标路径规划方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101298088B1 (ko) * | 2011-11-17 | 2013-08-22 | 재단법인대구경북과학기술원 | 2자유도 피에조다리를 이용한 초소형 다족로봇 |
US20140025613A1 (en) * | 2012-07-20 | 2014-01-23 | Filip Ponulak | Apparatus and methods for reinforcement learning in large populations of artificial spiking neurons |
-
2017
- 2017-05-17 CN CN201710346125.3A patent/CN107065881B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2360629A3 (en) * | 2005-05-07 | 2012-04-11 | Stephen L. Thaler | Device for the autonomous bootstrapping of useful information |
CN102346489A (zh) * | 2010-07-28 | 2012-02-08 | 中国科学院自动化研究所 | 基于脉冲神经网络的机器人跟踪目标的控制方法 |
CN102819264A (zh) * | 2012-07-30 | 2012-12-12 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
CN105487535A (zh) * | 2014-10-09 | 2016-04-13 | 东北大学 | 一种基于ros的移动机器人室内环境探索系统与控制方法 |
CN104571113A (zh) * | 2015-01-20 | 2015-04-29 | 博康智能网络科技股份有限公司 | 移动机器人的路径规划方法 |
CN105045260A (zh) * | 2015-05-25 | 2015-11-11 | 湖南大学 | 一种未知动态环境下的移动机器人路径规划方法 |
CN105740644A (zh) * | 2016-03-24 | 2016-07-06 | 苏州大学 | 一种基于模型学习的清洁机器人最优目标路径规划方法 |
Non-Patent Citations (4)
Title |
---|
A novel path planning method for biomimetic robot based on deep learning;Yang Lu;《Assembly Automation》;20160301;第36卷(第2期);第186-191页 * |
Path Planning of Mobile Robot Using Neural Nwtwork;Il-Kyun Jung;《IEEE international symposium on industrial electronics IEEE,1999》;19991231;第979-983页 * |
未知环境下移动机器人安全路径规划的一种神经网络方法;樊长虹等;《自动化学报》;20041130;第30卷(第6期);第817-823页 * |
神经网络在机器人路径规划中的应用研究;刘成良等;《机器人》;20011031;第23卷(第7期);第606-608页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107065881A (zh) | 2017-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107065881B (zh) | 一种基于深度强化学习的机器人全局路径规划方法 | |
CN110419049B (zh) | 房间布局估计方法和技术 | |
CN109682392B (zh) | 基于深度强化学习的视觉导航方法及系统 | |
CN106778502B (zh) | 一种基于深度残差网络的人群计数方法 | |
CN109299401B (zh) | 基于混合深度学习模型LSTM-ResNet的城域时空流预测方法 | |
CN113495578B (zh) | 一种基于数字孪生式训练的集群航迹规划强化学习方法 | |
CN106022237A (zh) | 一种端到端的卷积神经网络的行人检测方法 | |
CN106897714A (zh) | 一种基于卷积神经网络的视频动作检测方法 | |
CN109870162A (zh) | 一种基于竞争深度学习网络的无人机飞行路径规划方法 | |
CN110427968A (zh) | 一种基于细节增强的双目立体匹配方法 | |
CN106970615A (zh) | 一种深度强化学习的实时在线路径规划方法 | |
CN106203354A (zh) | 基于混合深度结构的场景识别方法 | |
CN110084307A (zh) | 一种基于深度强化学习的移动机器人视觉跟随方法 | |
CN108648161A (zh) | 非对称核卷积神经网络的双目视觉障碍物检测系统及方法 | |
CN111626128A (zh) | 一种基于改进YOLOv3的果园环境下行人检测方法 | |
CN105809687A (zh) | 一种基于图像中边沿点信息的单目视觉测程方法 | |
CN105869173A (zh) | 一种立体视觉显著性检测方法 | |
CN109389043A (zh) | 一种无人机航拍图片的人群密度估计方法 | |
CN106250931A (zh) | 一种基于随机卷积神经网络的高分辨率图像场景分类方法 | |
CN109523470A (zh) | 一种深度图像超分辨率重建方法及系统 | |
US11853080B2 (en) | Spray operation method and device for unmanned aerial vehicle | |
CN111582091B (zh) | 基于多分支卷积神经网络的行人识别方法 | |
CN108536144A (zh) | 一种融合稠密卷积网络和竞争架构的路径规划方法 | |
CN114117259A (zh) | 一种基于双重注意力机制的轨迹预测方法及装置 | |
CN107016212A (zh) | 基于动态贝叶斯网络的意图分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |