CN107860389A

CN107860389A - 机器人室内行走强化学习路径导航算法

Info

Publication number: CN107860389A
Application number: CN201711082784.7A
Authority: CN
Inventors: 田锦
Original assignee: Jinling Institute of Technology
Current assignee: Jinling Institute of Technology
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2018-03-30
Also published as: CN117451069A

Abstract

本发明公开了一种机器人室内行走强化学习路径导航算法，包括以下步骤：机器人为一个运动物体，机器人前部装有直射探测器，探测器可以向正前方发射信号，运动物体通过收到的反射信号，知道正前方某个距离处有障碍物，不能继续直线前进，需要改变行进方向；运动物体决定向左或者向右转弯，并执行向左或向右动作继续前进，当遇到下一个障碍物时，重复向右或向左的转弯动作；经过强化学习，形成一个最佳的路线，后续行驶按照已经学习成功的路径进行。本发明方法合理，实用性强，主要用在室内或者没有卫星定位信号或者面积相对较小的区域，目标是实现室内导航。

Description

机器人室内行走强化学习路径导航算法

技术领域

本发明涉及无线通信领域,具体涉及一种基于滑动窗口机制的终端滤波器系数取值范围控制方法。

背景技术

目前，科学技术的发展大力推动了机器人技术的研究和应用，越来越多的工业机器人被应用到各种生产线上，工业机器人的研究也逐步成熟。但对于移动机器人尤其是步行机械人的研究相对较少，而机器人研究的目标就是使机器人越来越具有人类的特征。

机器人在变化较少的线路上循环往复地运动，并从事自己的检查工作。运动的起点、终点、经过的路线等长期变化不大。机器人可以抽象成一个运动物体，每次运动前输入起点和终点，也可以重复上次的起点和终点。然后，机器人自己或者在外部人员的帮助下到达起点，并开始运动。运动期间自行计算何时转弯，并最终顺利到达预设的终点。

发明内容

本发明的目的是要解决现有技术的不足，提供一种机器人室内行走强化学习路径导航算法。

本发明采用的技术方案为：一种机器人室内行走强化学习路径导航算法，包括以下步骤：

(1)机器人为一个运动物体，运动物体的行动区域抽象成一个封闭、没有卫星信号、有多个凌乱障碍物的室内空间；机器人前部装有直射探测器，探测器可以向正前方发射信号，如果正前方有障碍物，信号就被反射；

(2)运动物体通过收到的反射信号，知道正前方某个距离处有障碍物，不能继续直线前进，需要改变行进方向；运动物体决定向左或者向右转弯，并执行向左或向右动作继续前进，当遇到下一个障碍物时，重复向右或向左的转弯动作，实际是与前一次的转向相反的转向……，具体方法如下：

设立主方向，用Z表示；相对于Z方向的左方向用X表示，相对于Z方向的右方向用Y表示；运动物体开始方向设置在Z方向；到达终点的方向也是Z方向；运动物体每前进一个观察距离后需要进行一次障碍物检测，检测正前方有无障碍物，没有障碍物则继续向前；正前方有障碍物，旋转身体检测相对正前方的左、右是否有障碍物，哪个方向没有障碍物，向那个方向前进；如果左右两个方向都没有障碍物，则随机选择一个方向前进。前进固定距离停下，回转到Z方向，检测是否有障碍物，如果没有，则向Z方向前进，如果有障碍物，继续在原来的左即X方向或右即Y方向前进；如此往复，行走到终点；

(3)从开始状态开始一直达到最终状态的这个过程称之为一个场景，机器人会从一个随机的开始状态出发，直到到达最终状态完成一个场景，然后立即重新初始化到一个开始状态，从而进入下一个场景；经过强化学习，形成一个最佳的路线，后续行驶按照已经学习成功的路径进行；强化学习算法为寻迹优化，根据前一次的轨迹，进行取最短路径优化，具体算法如下：

1)根据运行轨迹进行分段，分段的标准是满足：约束条件1，Z方向某段的连续前进距离最大；约束条件2，Z方向总段数最少；约束条件3，X、Y方向距离最小；强化函数：

Q(state,方向)＝R(state,方向)+γ*Max[Q(next state,all方向)]

根据这个公式，Q位置＝R的当前位置+γ*Q最大回报的方向；此处γ为系数取1；

2)达到上述3个约束条件要求的轨迹或部分轨迹得到强化记录，并存储这个记录，构建成下一次轨迹的运行路径；

存储记录强化流程如下：

第一次，机器人从零开始，没有积累数据，左转、右转；左转、右转；……；最终到达终点；

第二次，根据第一次的数据积累，将第一次数据输入进强化函数，按照强化函数的输出，预设线路，并借助导航雷达的指示，左转、右转；左转、右转；……；最终到达终点。根据反馈，上次转向后经历较多方格的路径优先；

第三次，将前一次的行驶路径数据输入强化函数，按照强化函数的输出，预设线路，并借助导航雷达的指示，左转、右转；左转、右转；……；最终到达终点；

第四次，重复前一次的操作。

作为优选，所述机器人的设备体积在1立方米左右。

有益效果：本发明提出的机器人室内行走强化学习路径导航算法，方法合理，实用性强，主要用在室内或者没有卫星定位信号或者面积相对较小的区域，目标是实现室内导航。

附图说明

图1为本发明算法数据收集示意图；

图2为本发明强化学习算法示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步的说明。

一种机器人室内行走强化学习路径导航算法，包括以下步骤：

(1)机器人为一个运动物体，运动物体设备体积在1立方米左右。运动物体的行动区域抽象成一个封闭、没有卫星信号、有多个凌乱障碍物的室内空间；机器人前部装有直射探测器，探测器可以向正前方发射信号，如果正前方有障碍物，信号就被反射；

如图1所示，图中小黑点代表机器人(运动物体)，边界黑色粗线代表空间障碍(边界)。每个小方格的几何中心代表这个小方格的位置，可以用一个坐标表示。小方格的大小可以根据实际情况进行调整，越小定位精度越高。设立主方向，用Z表示。相对于Z方向的左方向用X表示，相对于Z方向的右方向用Y表示。运动物体开始方向设置在Z方向。到达终点的方向也是Z方向。

d²面积为一个观察点，每前进d(如：2)米为一个观察距离，运动物体每前进一个观察距离后需要进行一次障碍物检测，检测正前方有无障碍物，没有障碍物则继续向前；正前方有障碍物，旋转身体检测相对正前方的左、右是否有障碍物，哪个方向没有障碍物，向那个方向前进。如果左右两个方向都没有障碍物，则随机选择一个方向前进。前进固定距离d(如：2)米停下，回转到Z方向，检测是否有障碍物，如果没有，则向Z方向前进，如果有障碍物，继续在原来的左或右(X、Y)方向前进。如此往复，行走到终点。

(3)机器人将通过环境来学习，机器人会从一个方格跳转到另一个方格，直到我们到达最终方格。我们把从开始状态(方格)开始一直达到最终状态(方格)的这个过程称之为一个场景，机器人会从一个随机的开始状态出发，直到到达最终状态完成一个场景，然后立即重新初始化到一个开始状态，从而进入下一个场景。如图2所示，从方格i到方格j,每个得到奖赏的方格都给予记录坐标。将所有的坐标连接在一起形成一个路线。经过强化学习，形成一个最佳的路线，后续行驶按照已经学习成功的路径进行。强化学习算法为寻迹优化，根据前一次的轨迹，进行取最短路径优化，具体算法如下：

Q(state,方向)＝R(state,方向)+γ*Max[Q(next state,all方向)]

存储记录强化流程如下：

第四次，重复前一次的操作。

以上结合附图对本发明的实施方式做出详细说明，但本发明不局限于所描述的实施方式。对本领域的普通技术人员而言，在本发明的原理和技术思想的范围内，对这些实施方式进行多种变化、修改、替换和变形仍落入本发明的保护范围内。

Claims

1.一种机器人室内行走强化学习路径导航算法，其特征在于：包括以下步骤：

Q(state,方向)＝R(state,方向)+γ*Max[Q(next state,all方向)]

存储记录强化流程如下：

第四次，重复前一次的操作。

2.根据权利要求1所述的一种机器人室内行走强化学习路径导航算法，其特征在于：所述机器人的设备体积为1立方米。