CN107860389A - 机器人室内行走强化学习路径导航算法 - Google Patents
机器人室内行走强化学习路径导航算法 Download PDFInfo
- Publication number
- CN107860389A CN107860389A CN201711082784.7A CN201711082784A CN107860389A CN 107860389 A CN107860389 A CN 107860389A CN 201711082784 A CN201711082784 A CN 201711082784A CN 107860389 A CN107860389 A CN 107860389A
- Authority
- CN
- China
- Prior art keywords
- barrier
- moving object
- robot
- turn
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004888 barrier function Effects 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 12
- 230000009471 action Effects 0.000 claims abstract description 8
- 230000008859 change Effects 0.000 claims abstract description 6
- 230000005540 biological transmission Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 description 4
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/3446—Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种机器人室内行走强化学习路径导航算法,包括以下步骤:机器人为一个运动物体,机器人前部装有直射探测器,探测器可以向正前方发射信号,运动物体通过收到的反射信号,知道正前方某个距离处有障碍物,不能继续直线前进,需要改变行进方向;运动物体决定向左或者向右转弯,并执行向左或向右动作继续前进,当遇到下一个障碍物时,重复向右或向左的转弯动作;经过强化学习,形成一个最佳的路线,后续行驶按照已经学习成功的路径进行。本发明方法合理,实用性强,主要用在室内或者没有卫星定位信号或者面积相对较小的区域,目标是实现室内导航。
Description
技术领域
本发明涉及无线通信领域,具体涉及一种基于滑动窗口机制的终端滤波器系数取值范围控制方法。
背景技术
目前,科学技术的发展大力推动了机器人技术的研究和应用,越来越多的工业机器人被应用到各种生产线上,工业机器人的研究也逐步成熟。但对于移动机器人尤其是步行机械人的研究相对较少,而机器人研究的目标就是使机器人越来越具有人类的特征。
机器人在变化较少的线路上循环往复地运动,并从事自己的检查工作。运动的起点、终点、经过的路线等长期变化不大。机器人可以抽象成一个运动物体,每次运动前输入起点和终点,也可以重复上次的起点和终点。然后,机器人自己或者在外部人员的帮助下到达起点,并开始运动。运动期间自行计算何时转弯,并最终顺利到达预设的终点。
发明内容
本发明的目的是要解决现有技术的不足,提供一种机器人室内行走强化学习路径导航算法。
本发明采用的技术方案为:一种机器人室内行走强化学习路径导航算法,包括以下步骤:
(1)机器人为一个运动物体,运动物体的行动区域抽象成一个封闭、没有卫星信号、有多个凌乱障碍物的室内空间;机器人前部装有直射探测器,探测器可以向正前方发射信号,如果正前方有障碍物,信号就被反射;
(2)运动物体通过收到的反射信号,知道正前方某个距离处有障碍物,不能继续直线前进,需要改变行进方向;运动物体决定向左或者向右转弯,并执行向左或向右动作继续前进,当遇到下一个障碍物时,重复向右或向左的转弯动作,实际是与前一次的转向相反的转向……,具体方法如下:
设立主方向,用Z表示;相对于Z方向的左方向用X表示,相对于Z方向的右方向用Y表示;运动物体开始方向设置在Z方向;到达终点的方向也是Z方向;运动物体每前进一个观察距离后需要进行一次障碍物检测,检测正前方有无障碍物,没有障碍物则继续向前;正前方有障碍物,旋转身体检测相对正前方的左、右是否有障碍物,哪个方向没有障碍物,向那个方向前进;如果左右两个方向都没有障碍物,则随机选择一个方向前进。前进固定距离停下,回转到Z方向,检测是否有障碍物,如果没有,则向Z方向前进,如果有障碍物,继续在原来的左即X方向或右即Y方向前进;如此往复,行走到终点;
(3)从开始状态开始一直达到最终状态的这个过程称之为一个场景,机器人会从一个随机的开始状态出发,直到到达最终状态完成一个场景,然后立即重新初始化到一个开始状态,从而进入下一个场景;经过强化学习,形成一个最佳的路线,后续行驶按照已经学习成功的路径进行;强化学习算法为寻迹优化,根据前一次的轨迹,进行取最短路径优化,具体算法如下:
1)根据运行轨迹进行分段,分段的标准是满足:约束条件1,Z方向某段的连续前进距离最大;约束条件2,Z方向总段数最少;约束条件3,X、Y方向距离最小;强化函数:
Q(state,方向)=R(state,方向)+γ*Max[Q(next state,all方向)]
根据这个公式,Q位置=R的当前位置+γ*Q最大回报的方向;此处γ为系数取1;
2)达到上述3个约束条件要求的轨迹或部分轨迹得到强化记录,并存储这个记录,构建成下一次轨迹的运行路径;
存储记录强化流程如下:
第一次,机器人从零开始,没有积累数据,左转、右转;左转、右转;……;最终到达终点;
第二次,根据第一次的数据积累,将第一次数据输入进强化函数,按照强化函数的输出,预设线路,并借助导航雷达的指示,左转、右转;左转、右转;……;最终到达终点。根据反馈,上次转向后经历较多方格的路径优先;
第三次,将前一次的行驶路径数据输入强化函数,按照强化函数的输出,预设线路,并借助导航雷达的指示,左转、右转;左转、右转;……;最终到达终点;
第四次,重复前一次的操作。
作为优选,所述机器人的设备体积在1立方米左右。
有益效果:本发明提出的机器人室内行走强化学习路径导航算法,方法合理,实用性强,主要用在室内或者没有卫星定位信号或者面积相对较小的区域,目标是实现室内导航。
附图说明
图1为本发明算法数据收集示意图;
图2为本发明强化学习算法示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步的说明。
一种机器人室内行走强化学习路径导航算法,包括以下步骤:
(1)机器人为一个运动物体,运动物体设备体积在1立方米左右。运动物体的行动区域抽象成一个封闭、没有卫星信号、有多个凌乱障碍物的室内空间;机器人前部装有直射探测器,探测器可以向正前方发射信号,如果正前方有障碍物,信号就被反射;
(2)运动物体通过收到的反射信号,知道正前方某个距离处有障碍物,不能继续直线前进,需要改变行进方向;运动物体决定向左或者向右转弯,并执行向左或向右动作继续前进,当遇到下一个障碍物时,重复向右或向左的转弯动作,实际是与前一次的转向相反的转向……,具体方法如下:
如图1所示,图中小黑点代表机器人(运动物体),边界黑色粗线代表空间障碍(边界)。每个小方格的几何中心代表这个小方格的位置,可以用一个坐标表示。小方格的大小可以根据实际情况进行调整,越小定位精度越高。设立主方向,用Z表示。相对于Z方向的左方向用X表示,相对于Z方向的右方向用Y表示。运动物体开始方向设置在Z方向。到达终点的方向也是Z方向。
d2面积为一个观察点,每前进d(如:2)米为一个观察距离,运动物体每前进一个观察距离后需要进行一次障碍物检测,检测正前方有无障碍物,没有障碍物则继续向前;正前方有障碍物,旋转身体检测相对正前方的左、右是否有障碍物,哪个方向没有障碍物,向那个方向前进。如果左右两个方向都没有障碍物,则随机选择一个方向前进。前进固定距离d(如:2)米停下,回转到Z方向,检测是否有障碍物,如果没有,则向Z方向前进,如果有障碍物,继续在原来的左或右(X、Y)方向前进。如此往复,行走到终点。
(3)机器人将通过环境来学习,机器人会从一个方格跳转到另一个方格,直到我们到达最终方格。我们把从开始状态(方格)开始一直达到最终状态(方格)的这个过程称之为一个场景,机器人会从一个随机的开始状态出发,直到到达最终状态完成一个场景,然后立即重新初始化到一个开始状态,从而进入下一个场景。如图2所示,从方格i到方格j,每个得到奖赏的方格都给予记录坐标。将所有的坐标连接在一起形成一个路线。经过强化学习,形成一个最佳的路线,后续行驶按照已经学习成功的路径进行。强化学习算法为寻迹优化,根据前一次的轨迹,进行取最短路径优化,具体算法如下:
1)根据运行轨迹进行分段,分段的标准是满足:约束条件1,Z方向某段的连续前进距离最大;约束条件2,Z方向总段数最少;约束条件3,X、Y方向距离最小;强化函数:
Q(state,方向)=R(state,方向)+γ*Max[Q(next state,all方向)]
根据这个公式,Q位置=R的当前位置+γ*Q最大回报的方向;此处γ为系数取1;
2)达到上述3个约束条件要求的轨迹或部分轨迹得到强化记录,并存储这个记录,构建成下一次轨迹的运行路径;
存储记录强化流程如下:
第一次,机器人从零开始,没有积累数据,左转、右转;左转、右转;……;最终到达终点;
第二次,根据第一次的数据积累,将第一次数据输入进强化函数,按照强化函数的输出,预设线路,并借助导航雷达的指示,左转、右转;左转、右转;……;最终到达终点。根据反馈,上次转向后经历较多方格的路径优先;
第三次,将前一次的行驶路径数据输入强化函数,按照强化函数的输出,预设线路,并借助导航雷达的指示,左转、右转;左转、右转;……;最终到达终点;
第四次,重复前一次的操作。
以上结合附图对本发明的实施方式做出详细说明,但本发明不局限于所描述的实施方式。对本领域的普通技术人员而言,在本发明的原理和技术思想的范围内,对这些实施方式进行多种变化、修改、替换和变形仍落入本发明的保护范围内。
Claims (2)
1.一种机器人室内行走强化学习路径导航算法,其特征在于:包括以下步骤:
(1)机器人为一个运动物体,运动物体的行动区域抽象成一个封闭、没有卫星信号、有多个凌乱障碍物的室内空间;机器人前部装有直射探测器,探测器可以向正前方发射信号,如果正前方有障碍物,信号就被反射;
(2)运动物体通过收到的反射信号,知道正前方某个距离处有障碍物,不能继续直线前进,需要改变行进方向;运动物体决定向左或者向右转弯,并执行向左或向右动作继续前进,当遇到下一个障碍物时,重复向右或向左的转弯动作,实际是与前一次的转向相反的转向……,具体方法如下:
设立主方向,用Z表示;相对于Z方向的左方向用X表示,相对于Z方向的右方向用Y表示;运动物体开始方向设置在Z方向;到达终点的方向也是Z方向;运动物体每前进一个观察距离后需要进行一次障碍物检测,检测正前方有无障碍物,没有障碍物则继续向前;正前方有障碍物,旋转身体检测相对正前方的左、右是否有障碍物,哪个方向没有障碍物,向那个方向前进;如果左右两个方向都没有障碍物,则随机选择一个方向前进。前进固定距离停下,回转到Z方向,检测是否有障碍物,如果没有,则向Z方向前进,如果有障碍物,继续在原来的左即X方向或右即Y方向前进;如此往复,行走到终点;
(3)从开始状态开始一直达到最终状态的这个过程称之为一个场景,机器人会从一个随机的开始状态出发,直到到达最终状态完成一个场景,然后立即重新初始化到一个开始状态,从而进入下一个场景;经过强化学习,形成一个最佳的路线,后续行驶按照已经学习成功的路径进行;强化学习算法为寻迹优化,根据前一次的轨迹,进行取最短路径优化,具体算法如下:
1)根据运行轨迹进行分段,分段的标准是满足:约束条件1,Z方向某段的连续前进距离最大;约束条件2,Z方向总段数最少;约束条件3,X、Y方向距离最小;强化函数:
Q(state,方向)=R(state,方向)+γ*Max[Q(next state,all方向)]
根据这个公式,Q位置=R的当前位置+γ*Q最大回报的方向;此处γ为系数取1;
2)达到上述3个约束条件要求的轨迹或部分轨迹得到强化记录,并存储这个记录,构建成下一次轨迹的运行路径;
存储记录强化流程如下:
第一次,机器人从零开始,没有积累数据,左转、右转;左转、右转;……;最终到达终点;
第二次,根据第一次的数据积累,将第一次数据输入进强化函数,按照强化函数的输出,预设线路,并借助导航雷达的指示,左转、右转;左转、右转;……;最终到达终点。根据反馈,上次转向后经历较多方格的路径优先;
第三次,将前一次的行驶路径数据输入强化函数,按照强化函数的输出,预设线路,并借助导航雷达的指示,左转、右转;左转、右转;……;最终到达终点;
第四次,重复前一次的操作。
2.根据权利要求1所述的一种机器人室内行走强化学习路径导航算法,其特征在于:所述机器人的设备体积为1立方米。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711082784.7A CN107860389A (zh) | 2017-11-07 | 2017-11-07 | 机器人室内行走强化学习路径导航算法 |
CN202311495177.9A CN117451069A (zh) | 2017-11-07 | 2017-11-07 | 机器人室内行走强化学习路径导航算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711082784.7A CN107860389A (zh) | 2017-11-07 | 2017-11-07 | 机器人室内行走强化学习路径导航算法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311495177.9A Division CN117451069A (zh) | 2017-11-07 | 2017-11-07 | 机器人室内行走强化学习路径导航算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107860389A true CN107860389A (zh) | 2018-03-30 |
Family
ID=61701058
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711082784.7A Pending CN107860389A (zh) | 2017-11-07 | 2017-11-07 | 机器人室内行走强化学习路径导航算法 |
CN202311495177.9A Pending CN117451069A (zh) | 2017-11-07 | 2017-11-07 | 机器人室内行走强化学习路径导航算法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311495177.9A Pending CN117451069A (zh) | 2017-11-07 | 2017-11-07 | 机器人室内行走强化学习路径导航算法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN107860389A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108619722A (zh) * | 2018-05-03 | 2018-10-09 | 网易(杭州)网络有限公司 | 竞速游戏的路线指示方法及装置 |
CN109063739A (zh) * | 2018-07-04 | 2018-12-21 | 合肥中科自动控制系统有限公司 | 一种基于svm与强化学习的室内场景识别方法 |
CN110672101A (zh) * | 2019-09-20 | 2020-01-10 | 北京百度网讯科技有限公司 | 导航模型训练方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001078951A1 (en) * | 2000-04-13 | 2001-10-25 | Zhimin Lin | Semi-optimal path finding in a wholly unknown environment |
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN104298239A (zh) * | 2014-09-29 | 2015-01-21 | 湖南大学 | 一种室内移动机器人增强地图学习路径规划方法 |
CN107065890A (zh) * | 2017-06-02 | 2017-08-18 | 北京航空航天大学 | 一种无人车智能避障方法及系统 |
-
2017
- 2017-11-07 CN CN201711082784.7A patent/CN107860389A/zh active Pending
- 2017-11-07 CN CN202311495177.9A patent/CN117451069A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001078951A1 (en) * | 2000-04-13 | 2001-10-25 | Zhimin Lin | Semi-optimal path finding in a wholly unknown environment |
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN104298239A (zh) * | 2014-09-29 | 2015-01-21 | 湖南大学 | 一种室内移动机器人增强地图学习路径规划方法 |
CN107065890A (zh) * | 2017-06-02 | 2017-08-18 | 北京航空航天大学 | 一种无人车智能避障方法及系统 |
Non-Patent Citations (1)
Title |
---|
张彦琴 等: "《智能汽车运输系统》", 30 June 2011 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108619722A (zh) * | 2018-05-03 | 2018-10-09 | 网易(杭州)网络有限公司 | 竞速游戏的路线指示方法及装置 |
CN109063739A (zh) * | 2018-07-04 | 2018-12-21 | 合肥中科自动控制系统有限公司 | 一种基于svm与强化学习的室内场景识别方法 |
CN110672101A (zh) * | 2019-09-20 | 2020-01-10 | 北京百度网讯科技有限公司 | 导航模型训练方法、装置、电子设备及存储介质 |
CN110672101B (zh) * | 2019-09-20 | 2021-09-28 | 北京百度网讯科技有限公司 | 导航模型训练方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117451069A (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136481B (zh) | 一种基于深度强化学习的停车策略 | |
Wang et al. | Automatic parking of vehicles: A review of literatures | |
CN106774310B (zh) | 一种机器人导航方法 | |
CN108303972B (zh) | 移动机器人的交互方法及装置 | |
CN103869820B (zh) | 一种巡视器地面导航规划控制方法 | |
KR102192530B1 (ko) | 무인 운반차, 컴퓨터와 무인 운반차를 가진 시스템, 가상 궤도를 계획하기 위한 방법 및 무인 운반차를 작동하기 위한 방법 | |
CN112629542B (zh) | 基于ddpg和lstm的无地图机器人路径导航方法及系统 | |
CN112882469B (zh) | 一种融合全局训练的深度强化学习避障导航方法 | |
CN107860389A (zh) | 机器人室内行走强化学习路径导航算法 | |
CN105955279B (zh) | 一种基于图像视觉的移动机器人路径规划方法及装置 | |
CN103324196A (zh) | 基于模糊逻辑的多机器人路径规划与协调避碰方法 | |
CN110362083A (zh) | 一种基于多目标跟踪预测的时空地图下自主导航方法 | |
Xiao et al. | Autonomous ground navigation in highly constrained spaces: Lessons learned from the benchmark autonomous robot navigation challenge at icra 2022 [competitions] | |
CN114815845B (zh) | 一种基于Hybrid A*算法的自动驾驶农机平滑路径规划方法 | |
CN115097823A (zh) | 机器人任务执行方法、装置、机器人及存储介质 | |
KR20160048530A (ko) | 자율 이동 차량의 경로 생성 방법 및 경로 생성 장치 | |
CN112061116A (zh) | 一种基于势能场函数逼近的强化学习方法的泊车策略 | |
CN116300909A (zh) | 一种基于信息预处理和强化学习的机器人避障导航方法 | |
CN112363491B (zh) | 机器人掉头控制方法及装置 | |
JP2007249631A (ja) | 折線追従移動ロボットおよび折線追従移動ロボットの制御方法 | |
CN109782771B (zh) | 一种果园移动机器人及地头转向方法 | |
Zhao et al. | Complete coverage path planning scheme for autonomous navigation ROS-based robots | |
Wang et al. | AGRNav: Efficient and Energy-Saving Autonomous Navigation for Air-Ground Robots in Occlusion-Prone Environments | |
CN101706665B (zh) | 用于移动焊接机器人自寻迹的位姿调整方法 | |
JP7258046B2 (ja) | 経路決定装置、ロボット及び経路決定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180330 |
|
RJ01 | Rejection of invention patent application after publication |