CN107860389A - 机器人室内行走强化学习路径导航算法 - Google Patents

机器人室内行走强化学习路径导航算法 Download PDF

Info

Publication number
CN107860389A
CN107860389A CN201711082784.7A CN201711082784A CN107860389A CN 107860389 A CN107860389 A CN 107860389A CN 201711082784 A CN201711082784 A CN 201711082784A CN 107860389 A CN107860389 A CN 107860389A
Authority
CN
China
Prior art keywords
barrier
moving object
robot
turn
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711082784.7A
Other languages
English (en)
Inventor
田锦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinling Institute of Technology
Original Assignee
Jinling Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinling Institute of Technology filed Critical Jinling Institute of Technology
Priority to CN201711082784.7A priority Critical patent/CN107860389A/zh
Priority to CN202311495177.9A priority patent/CN117451069A/zh
Publication of CN107860389A publication Critical patent/CN107860389A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3446Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种机器人室内行走强化学习路径导航算法,包括以下步骤:机器人为一个运动物体,机器人前部装有直射探测器,探测器可以向正前方发射信号,运动物体通过收到的反射信号,知道正前方某个距离处有障碍物,不能继续直线前进,需要改变行进方向;运动物体决定向左或者向右转弯,并执行向左或向右动作继续前进,当遇到下一个障碍物时,重复向右或向左的转弯动作;经过强化学习,形成一个最佳的路线,后续行驶按照已经学习成功的路径进行。本发明方法合理,实用性强,主要用在室内或者没有卫星定位信号或者面积相对较小的区域,目标是实现室内导航。

Description

机器人室内行走强化学习路径导航算法
技术领域
本发明涉及无线通信领域,具体涉及一种基于滑动窗口机制的终端滤波器系数取值范围控制方法。
背景技术
目前,科学技术的发展大力推动了机器人技术的研究和应用,越来越多的工业机器人被应用到各种生产线上,工业机器人的研究也逐步成熟。但对于移动机器人尤其是步行机械人的研究相对较少,而机器人研究的目标就是使机器人越来越具有人类的特征。
机器人在变化较少的线路上循环往复地运动,并从事自己的检查工作。运动的起点、终点、经过的路线等长期变化不大。机器人可以抽象成一个运动物体,每次运动前输入起点和终点,也可以重复上次的起点和终点。然后,机器人自己或者在外部人员的帮助下到达起点,并开始运动。运动期间自行计算何时转弯,并最终顺利到达预设的终点。
发明内容
本发明的目的是要解决现有技术的不足,提供一种机器人室内行走强化学习路径导航算法。
本发明采用的技术方案为:一种机器人室内行走强化学习路径导航算法,包括以下步骤:
(1)机器人为一个运动物体,运动物体的行动区域抽象成一个封闭、没有卫星信号、有多个凌乱障碍物的室内空间;机器人前部装有直射探测器,探测器可以向正前方发射信号,如果正前方有障碍物,信号就被反射;
(2)运动物体通过收到的反射信号,知道正前方某个距离处有障碍物,不能继续直线前进,需要改变行进方向;运动物体决定向左或者向右转弯,并执行向左或向右动作继续前进,当遇到下一个障碍物时,重复向右或向左的转弯动作,实际是与前一次的转向相反的转向……,具体方法如下:
设立主方向,用Z表示;相对于Z方向的左方向用X表示,相对于Z方向的右方向用Y表示;运动物体开始方向设置在Z方向;到达终点的方向也是Z方向;运动物体每前进一个观察距离后需要进行一次障碍物检测,检测正前方有无障碍物,没有障碍物则继续向前;正前方有障碍物,旋转身体检测相对正前方的左、右是否有障碍物,哪个方向没有障碍物,向那个方向前进;如果左右两个方向都没有障碍物,则随机选择一个方向前进。前进固定距离停下,回转到Z方向,检测是否有障碍物,如果没有,则向Z方向前进,如果有障碍物,继续在原来的左即X方向或右即Y方向前进;如此往复,行走到终点;
(3)从开始状态开始一直达到最终状态的这个过程称之为一个场景,机器人会从一个随机的开始状态出发,直到到达最终状态完成一个场景,然后立即重新初始化到一个开始状态,从而进入下一个场景;经过强化学习,形成一个最佳的路线,后续行驶按照已经学习成功的路径进行;强化学习算法为寻迹优化,根据前一次的轨迹,进行取最短路径优化,具体算法如下:
1)根据运行轨迹进行分段,分段的标准是满足:约束条件1,Z方向某段的连续前进距离最大;约束条件2,Z方向总段数最少;约束条件3,X、Y方向距离最小;强化函数:
Q(state,方向)=R(state,方向)+γ*Max[Q(next state,all方向)]
根据这个公式,Q位置=R的当前位置+γ*Q最大回报的方向;此处γ为系数取1;
2)达到上述3个约束条件要求的轨迹或部分轨迹得到强化记录,并存储这个记录,构建成下一次轨迹的运行路径;
存储记录强化流程如下:
第一次,机器人从零开始,没有积累数据,左转、右转;左转、右转;……;最终到达终点;
第二次,根据第一次的数据积累,将第一次数据输入进强化函数,按照强化函数的输出,预设线路,并借助导航雷达的指示,左转、右转;左转、右转;……;最终到达终点。根据反馈,上次转向后经历较多方格的路径优先;
第三次,将前一次的行驶路径数据输入强化函数,按照强化函数的输出,预设线路,并借助导航雷达的指示,左转、右转;左转、右转;……;最终到达终点;
第四次,重复前一次的操作。
作为优选,所述机器人的设备体积在1立方米左右。
有益效果:本发明提出的机器人室内行走强化学习路径导航算法,方法合理,实用性强,主要用在室内或者没有卫星定位信号或者面积相对较小的区域,目标是实现室内导航。
附图说明
图1为本发明算法数据收集示意图;
图2为本发明强化学习算法示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步的说明。
一种机器人室内行走强化学习路径导航算法,包括以下步骤:
(1)机器人为一个运动物体,运动物体设备体积在1立方米左右。运动物体的行动区域抽象成一个封闭、没有卫星信号、有多个凌乱障碍物的室内空间;机器人前部装有直射探测器,探测器可以向正前方发射信号,如果正前方有障碍物,信号就被反射;
(2)运动物体通过收到的反射信号,知道正前方某个距离处有障碍物,不能继续直线前进,需要改变行进方向;运动物体决定向左或者向右转弯,并执行向左或向右动作继续前进,当遇到下一个障碍物时,重复向右或向左的转弯动作,实际是与前一次的转向相反的转向……,具体方法如下:
如图1所示,图中小黑点代表机器人(运动物体),边界黑色粗线代表空间障碍(边界)。每个小方格的几何中心代表这个小方格的位置,可以用一个坐标表示。小方格的大小可以根据实际情况进行调整,越小定位精度越高。设立主方向,用Z表示。相对于Z方向的左方向用X表示,相对于Z方向的右方向用Y表示。运动物体开始方向设置在Z方向。到达终点的方向也是Z方向。
d2面积为一个观察点,每前进d(如:2)米为一个观察距离,运动物体每前进一个观察距离后需要进行一次障碍物检测,检测正前方有无障碍物,没有障碍物则继续向前;正前方有障碍物,旋转身体检测相对正前方的左、右是否有障碍物,哪个方向没有障碍物,向那个方向前进。如果左右两个方向都没有障碍物,则随机选择一个方向前进。前进固定距离d(如:2)米停下,回转到Z方向,检测是否有障碍物,如果没有,则向Z方向前进,如果有障碍物,继续在原来的左或右(X、Y)方向前进。如此往复,行走到终点。
(3)机器人将通过环境来学习,机器人会从一个方格跳转到另一个方格,直到我们到达最终方格。我们把从开始状态(方格)开始一直达到最终状态(方格)的这个过程称之为一个场景,机器人会从一个随机的开始状态出发,直到到达最终状态完成一个场景,然后立即重新初始化到一个开始状态,从而进入下一个场景。如图2所示,从方格i到方格j,每个得到奖赏的方格都给予记录坐标。将所有的坐标连接在一起形成一个路线。经过强化学习,形成一个最佳的路线,后续行驶按照已经学习成功的路径进行。强化学习算法为寻迹优化,根据前一次的轨迹,进行取最短路径优化,具体算法如下:
1)根据运行轨迹进行分段,分段的标准是满足:约束条件1,Z方向某段的连续前进距离最大;约束条件2,Z方向总段数最少;约束条件3,X、Y方向距离最小;强化函数:
Q(state,方向)=R(state,方向)+γ*Max[Q(next state,all方向)]
根据这个公式,Q位置=R的当前位置+γ*Q最大回报的方向;此处γ为系数取1;
2)达到上述3个约束条件要求的轨迹或部分轨迹得到强化记录,并存储这个记录,构建成下一次轨迹的运行路径;
存储记录强化流程如下:
第一次,机器人从零开始,没有积累数据,左转、右转;左转、右转;……;最终到达终点;
第二次,根据第一次的数据积累,将第一次数据输入进强化函数,按照强化函数的输出,预设线路,并借助导航雷达的指示,左转、右转;左转、右转;……;最终到达终点。根据反馈,上次转向后经历较多方格的路径优先;
第三次,将前一次的行驶路径数据输入强化函数,按照强化函数的输出,预设线路,并借助导航雷达的指示,左转、右转;左转、右转;……;最终到达终点;
第四次,重复前一次的操作。
以上结合附图对本发明的实施方式做出详细说明,但本发明不局限于所描述的实施方式。对本领域的普通技术人员而言,在本发明的原理和技术思想的范围内,对这些实施方式进行多种变化、修改、替换和变形仍落入本发明的保护范围内。

Claims (2)

1.一种机器人室内行走强化学习路径导航算法,其特征在于:包括以下步骤:
(1)机器人为一个运动物体,运动物体的行动区域抽象成一个封闭、没有卫星信号、有多个凌乱障碍物的室内空间;机器人前部装有直射探测器,探测器可以向正前方发射信号,如果正前方有障碍物,信号就被反射;
(2)运动物体通过收到的反射信号,知道正前方某个距离处有障碍物,不能继续直线前进,需要改变行进方向;运动物体决定向左或者向右转弯,并执行向左或向右动作继续前进,当遇到下一个障碍物时,重复向右或向左的转弯动作,实际是与前一次的转向相反的转向……,具体方法如下:
设立主方向,用Z表示;相对于Z方向的左方向用X表示,相对于Z方向的右方向用Y表示;运动物体开始方向设置在Z方向;到达终点的方向也是Z方向;运动物体每前进一个观察距离后需要进行一次障碍物检测,检测正前方有无障碍物,没有障碍物则继续向前;正前方有障碍物,旋转身体检测相对正前方的左、右是否有障碍物,哪个方向没有障碍物,向那个方向前进;如果左右两个方向都没有障碍物,则随机选择一个方向前进。前进固定距离停下,回转到Z方向,检测是否有障碍物,如果没有,则向Z方向前进,如果有障碍物,继续在原来的左即X方向或右即Y方向前进;如此往复,行走到终点;
(3)从开始状态开始一直达到最终状态的这个过程称之为一个场景,机器人会从一个随机的开始状态出发,直到到达最终状态完成一个场景,然后立即重新初始化到一个开始状态,从而进入下一个场景;经过强化学习,形成一个最佳的路线,后续行驶按照已经学习成功的路径进行;强化学习算法为寻迹优化,根据前一次的轨迹,进行取最短路径优化,具体算法如下:
1)根据运行轨迹进行分段,分段的标准是满足:约束条件1,Z方向某段的连续前进距离最大;约束条件2,Z方向总段数最少;约束条件3,X、Y方向距离最小;强化函数:
Q(state,方向)=R(state,方向)+γ*Max[Q(next state,all方向)]
根据这个公式,Q位置=R的当前位置+γ*Q最大回报的方向;此处γ为系数取1;
2)达到上述3个约束条件要求的轨迹或部分轨迹得到强化记录,并存储这个记录,构建成下一次轨迹的运行路径;
存储记录强化流程如下:
第一次,机器人从零开始,没有积累数据,左转、右转;左转、右转;……;最终到达终点;
第二次,根据第一次的数据积累,将第一次数据输入进强化函数,按照强化函数的输出,预设线路,并借助导航雷达的指示,左转、右转;左转、右转;……;最终到达终点。根据反馈,上次转向后经历较多方格的路径优先;
第三次,将前一次的行驶路径数据输入强化函数,按照强化函数的输出,预设线路,并借助导航雷达的指示,左转、右转;左转、右转;……;最终到达终点;
第四次,重复前一次的操作。
2.根据权利要求1所述的一种机器人室内行走强化学习路径导航算法,其特征在于:所述机器人的设备体积为1立方米。
CN201711082784.7A 2017-11-07 2017-11-07 机器人室内行走强化学习路径导航算法 Pending CN107860389A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711082784.7A CN107860389A (zh) 2017-11-07 2017-11-07 机器人室内行走强化学习路径导航算法
CN202311495177.9A CN117451069A (zh) 2017-11-07 2017-11-07 机器人室内行走强化学习路径导航算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711082784.7A CN107860389A (zh) 2017-11-07 2017-11-07 机器人室内行走强化学习路径导航算法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202311495177.9A Division CN117451069A (zh) 2017-11-07 2017-11-07 机器人室内行走强化学习路径导航算法

Publications (1)

Publication Number Publication Date
CN107860389A true CN107860389A (zh) 2018-03-30

Family

ID=61701058

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201711082784.7A Pending CN107860389A (zh) 2017-11-07 2017-11-07 机器人室内行走强化学习路径导航算法
CN202311495177.9A Pending CN117451069A (zh) 2017-11-07 2017-11-07 机器人室内行走强化学习路径导航算法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202311495177.9A Pending CN117451069A (zh) 2017-11-07 2017-11-07 机器人室内行走强化学习路径导航算法

Country Status (1)

Country Link
CN (2) CN107860389A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108619722A (zh) * 2018-05-03 2018-10-09 网易(杭州)网络有限公司 竞速游戏的路线指示方法及装置
CN109063739A (zh) * 2018-07-04 2018-12-21 合肥中科自动控制系统有限公司 一种基于svm与强化学习的室内场景识别方法
CN110672101A (zh) * 2019-09-20 2020-01-10 北京百度网讯科技有限公司 导航模型训练方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078951A1 (en) * 2000-04-13 2001-10-25 Zhimin Lin Semi-optimal path finding in a wholly unknown environment
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法
CN102799179A (zh) * 2012-07-06 2012-11-28 山东大学 基于单链序贯回溯q学习的移动机器人路径规划算法
CN104298239A (zh) * 2014-09-29 2015-01-21 湖南大学 一种室内移动机器人增强地图学习路径规划方法
CN107065890A (zh) * 2017-06-02 2017-08-18 北京航空航天大学 一种无人车智能避障方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078951A1 (en) * 2000-04-13 2001-10-25 Zhimin Lin Semi-optimal path finding in a wholly unknown environment
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法
CN102799179A (zh) * 2012-07-06 2012-11-28 山东大学 基于单链序贯回溯q学习的移动机器人路径规划算法
CN104298239A (zh) * 2014-09-29 2015-01-21 湖南大学 一种室内移动机器人增强地图学习路径规划方法
CN107065890A (zh) * 2017-06-02 2017-08-18 北京航空航天大学 一种无人车智能避障方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张彦琴 等: "《智能汽车运输系统》", 30 June 2011 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108619722A (zh) * 2018-05-03 2018-10-09 网易(杭州)网络有限公司 竞速游戏的路线指示方法及装置
CN109063739A (zh) * 2018-07-04 2018-12-21 合肥中科自动控制系统有限公司 一种基于svm与强化学习的室内场景识别方法
CN110672101A (zh) * 2019-09-20 2020-01-10 北京百度网讯科技有限公司 导航模型训练方法、装置、电子设备及存储介质
CN110672101B (zh) * 2019-09-20 2021-09-28 北京百度网讯科技有限公司 导航模型训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN117451069A (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
CN110136481B (zh) 一种基于深度强化学习的停车策略
Wang et al. Automatic parking of vehicles: A review of literatures
CN106774310B (zh) 一种机器人导航方法
CN108303972B (zh) 移动机器人的交互方法及装置
CN103869820B (zh) 一种巡视器地面导航规划控制方法
KR102192530B1 (ko) 무인 운반차, 컴퓨터와 무인 운반차를 가진 시스템, 가상 궤도를 계획하기 위한 방법 및 무인 운반차를 작동하기 위한 방법
CN112629542B (zh) 基于ddpg和lstm的无地图机器人路径导航方法及系统
CN112882469B (zh) 一种融合全局训练的深度强化学习避障导航方法
CN107860389A (zh) 机器人室内行走强化学习路径导航算法
CN105955279B (zh) 一种基于图像视觉的移动机器人路径规划方法及装置
CN103324196A (zh) 基于模糊逻辑的多机器人路径规划与协调避碰方法
CN110362083A (zh) 一种基于多目标跟踪预测的时空地图下自主导航方法
Xiao et al. Autonomous ground navigation in highly constrained spaces: Lessons learned from the benchmark autonomous robot navigation challenge at icra 2022 [competitions]
CN114815845B (zh) 一种基于Hybrid A*算法的自动驾驶农机平滑路径规划方法
CN115097823A (zh) 机器人任务执行方法、装置、机器人及存储介质
KR20160048530A (ko) 자율 이동 차량의 경로 생성 방법 및 경로 생성 장치
CN112061116A (zh) 一种基于势能场函数逼近的强化学习方法的泊车策略
CN116300909A (zh) 一种基于信息预处理和强化学习的机器人避障导航方法
CN112363491B (zh) 机器人掉头控制方法及装置
JP2007249631A (ja) 折線追従移動ロボットおよび折線追従移動ロボットの制御方法
CN109782771B (zh) 一种果园移动机器人及地头转向方法
Zhao et al. Complete coverage path planning scheme for autonomous navigation ROS-based robots
Wang et al. AGRNav: Efficient and Energy-Saving Autonomous Navigation for Air-Ground Robots in Occlusion-Prone Environments
CN101706665B (zh) 用于移动焊接机器人自寻迹的位姿调整方法
JP7258046B2 (ja) 経路決定装置、ロボット及び経路決定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180330

RJ01 Rejection of invention patent application after publication