CN110908377B - 一种机器人导航空间约简方法 - Google Patents

一种机器人导航空间约简方法 Download PDF

Info

Publication number
CN110908377B
CN110908377B CN201911173702.9A CN201911173702A CN110908377B CN 110908377 B CN110908377 B CN 110908377B CN 201911173702 A CN201911173702 A CN 201911173702A CN 110908377 B CN110908377 B CN 110908377B
Authority
CN
China
Prior art keywords
robot
path
path track
pos
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911173702.9A
Other languages
English (en)
Other versions
CN110908377A (zh
Inventor
陈春林
朱远洋
伍雪菲
王志
辛博
朱张青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201911173702.9A priority Critical patent/CN110908377B/zh
Publication of CN110908377A publication Critical patent/CN110908377A/zh
Application granted granted Critical
Publication of CN110908377B publication Critical patent/CN110908377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0251Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • G05D1/028Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle using a RF signal

Abstract

本申请公开了一种机器人导航空间约简方法,包括:机器人利用自身的传感器对周围环境进行扫描,获取周围环境的信息;根据周围环境信息建立二值化六边形栅格地图,地图中标注出可通行区域和不可通行区域,形成原始环境地图;根据原始环境地图中的起点和终点位置,使用沿左手、右手走的规则,获得两条从起点到终点的路径轨迹;确定优化参数K值,对两条路径轨迹进行优化,并将优化后的两条路径轨迹衔接生成约简后新的导航空间;根据机器人初始位置和新的导航空间,强化学习对Q表进行更新,获取机器人的最优运动策略,得到机器人的运动路径。本申请的方法减少了机器人在导航过程中的无效探索空间,收敛快,学习效率高。

Description

一种机器人导航空间约简方法
技术领域
本申请涉及机器人导航,具体涉及一种机器人导航空间约简方法。
背景技术
移动机器人的一项关键能力是能够在其环境中进行有效的导航,并且强化学习广泛用于移动机器人的路径规划。然而,现有的强化学习是机器人与空间环境进行交互,并得到反馈,这种反馈比较弱小,因此收敛较慢,导致机器学习现有机器人导航算法计算量大、收敛速度慢、学习效率低。
现有的导航地图多采用四边形栅格地图,其中四边形中正方形居多,正方形虽然能够密铺,但在自由度上适用性一般,对于一些不平整的路面,密铺时的衔接效果不理想,导致规划出的导航路径不平滑。另外,现有的强化学习中,未能对机器的导航路径根据生物的导航规律进行优化,未能有效提高学习效率。
公开号为CN106933223A的专利文件公开了一种机器人自主导航方法及系统,法包括:预先为导航空间制定虚拟路径,虚拟路径由坐标点及坐标点与坐标点之间的连接关系组成;获取机器人在导航空间中的初始位置和目的地位置,并根据初始位置和目的地位置确定机器人对应在虚拟路径中的初始坐标点和目的地坐标点;采用路径规划算法计算出在虚拟路径中从初始坐标点到达目的地坐标点的最短路径;根据最短路径引导机器人到达目的地坐标点。该发明主要通过最短路线算法来提高效率,并未考虑对空间的约简。
发明内容
发明目的:本申请的目的在于提供一种机器人导航空间约简方法,在保证能学习到最优路径的情况下,对导航空间进行约简,且在六边形栅格地图下进行导航,以解决现有机器人导航算法计算量大、收敛速度慢、规划路径不够平滑、学习效率低的问题。
技术方案:本申请提供了一种机器人导航空间约简方法,包括以下步骤:
(1)启动机器人,利用机器人的传感器扫描周围环境,对周围环境数据进行数据融合,获取周围环境信息并进行动态更新;
(2)根据获取的周围环境信息利用粒子滤波方法建立六边形栅格地图,在六边形栅格地图中区分并标注出可通行区域和不可通行区域,形成原始环境地图Envpri
(3)根据原始环境地图Envpri中起点pS和终点pG位置,先后分别令机器人按照第一路径轨迹规则和第二路径轨迹规则形成两条不同的路径轨迹,即第一路径轨迹TL和第二路径轨迹TR,其中,
TL={posL1;posL2;...;posLm},TR={posR1;posR2;...;posRn},其中posL1~posLm和posR1~posRn分别为在轨迹序列中不同的坐标位置;
(4)分别优化第一路径轨迹TL和第二路径轨迹TR,对其进行空间约简,构建较小的新导航环境Envnew
(5)根据起点pS和终点pG位置,采用强化学习进行更新Q表Q(s,a),其中,s表示状态位置,a表示在不同状态的选取动作;
(6)根据更新后的Q表,获取机器人的运动策略π,运动策略π由多个动作依次组合,最优运动策略π*为:
Figure GDA0002965556900000021
其中,S为新导航环境Envnew的范围位置;
Figure GDA0002965556900000022
Figure GDA0002965556900000023
表示从状态s转移到状态s'的概率,Qπ(s',a')表示在策略π下,Q表中状态s'下选择某一动作a'的状态动作价值,r(s,a)表示在状态s下选取动作a所得回报奖励,γ为期望折扣因子;
根据最优运动策略π*,得到移动机器人的运动路径。
进一步地,传感器包括激光雷达、RGB-D相机,步骤(1)包括:
根据有RGB-D相机获取的深度图像信息和激光雷达扫描的数据进行融合,根据计算公式(1-1)和(1-2)计算得出相机的扫描局部范围信息,并进而计算出RGB-D相机的扫描范围:
Figure GDA0002965556900000024
Figure GDA0002965556900000025
Figure GDA0002965556900000026
其中rR,rC,rL为三维向量,分别代表RGB-D相机获取的图像最右、正中间、最左边的坐标;θmax、θmin分别表示由RGB-D相机转换成虚拟扫描最大、最小角度,θi表示虚拟扫描增量角度,w表示深度图像的宽度值,通过光学成像原理,即可计算机器人到障碍物的距离;
Figure GDA0002965556900000031
rj为每列图像中距离障碍物的最小值,其中i和j代表图像的行和列,N代表图像的总行数,x、f和Z分别代表光学原点到像素点的距离、相机焦距、物体到成像板的距离;rij表示虚拟扫描原点到障碍物的距离。
进一步地,步骤(2)中,通过以下步骤建立六边形栅格地图:
(21)将周围环境地图细化分隔为等面积的六边形栅格形成栅格地图,根据分辨率需求确定六边形栅格的边长b,通过公式(2-1)计算得出六边形栅格地图的行和列的数量:
Figure GDA0002965556900000032
其中,X为行数,Y为列数,W和l分别为周围环境的宽和长;
(22)根据周围环境中的障碍物信息,对六边形栅格进行分类;预设每个六边形栅格在Gmapping过程中占有栅格地图的面积比例阈值;
采用基于RBPF的Gmapping算法,通过机器人坐标和朝向以及与障碍物的距离rj计算出障碍物的坐标;
采用bresenham直线段扫面算法,通过概率计算判断出障碍物和可通行区域的可能性大小;
(23)根据障碍物的深度信息,利用式(2-2)进行数据融合:
Figure GDA0002965556900000033
其中,Mlidar表示激光雷达的信息,Drgb-d表示RGB-D相机的信息,rfusion代表两者融合结果;
若当前六边形栅格的占有率G(Drgb-d,Mlidar)<0.5,则判定为占有,即当前六边形栅格为可通行区域;若G(Drgb-d,Mlidar)>0.5,则判定为非占有,即当前六边形栅格为不可通行区域;在测距范围之外区域定义为未知,即G(Drgb-d,Mlidar)=0.5,据此形成原始环境地图Envpri
进一步地,步骤(3)中,通过以下步骤形成第一路径轨迹和第二路径轨迹:
先后令机器人从起点开始沿原始环境边缘向第一方向和第二方向行走,第一方向和第二方向的方向相反,分别对应第一路径轨迹和第二路径轨迹;当遇到正前方为障碍物时:
若机器人处于第一路径轨迹时,以自身的第一视角选择向第一方向拐弯,保持机器人行走在原始环境地图范围内;若机器人处于第二路径轨迹时,以自身的第一视角选择向第二方向拐弯,保持机器人行走在原始环境地图范围内;
据此形成第一路径轨迹TL={posL1;posL2;...;posLm}和第二路径轨迹TR={posR1;posR2;...;posRn},其序列长度分别为m和n,posLm和posRn重合,均为终点pG所在位置。
进一步地,在步骤(4)中,通过以下方法构建新导航环境Envnew
(41)根据传感器性能和优化需求,设置优化步距K值,分别从第一路径轨迹序列TL和第二路径轨迹序列TR中的第一个到m-K和n-K位置,进行优化检测;
(42)判定第一路径与第二路径是否需要优化:
若在第一路径轨迹和第二路径轨迹中,当前位置到目标位置所需的步数超出K步,则判定第一路径轨迹或第二路径轨迹的当前路段需要优化;否则不需要优化;
(43)将原第一路径轨迹或第二路径轨迹中需要优化的路段替换为只需K步即可到达目标位置的路径;
(44)对优化后的第一路径轨迹和第二轨迹路径进行持续优化,直至两路径的序列长度保持不变,形成新的第一路径轨迹TLnew和第二路径轨迹TRnew
(45)将TLnew和TRnew起点和终点衔接起来,形成一个闭环路径,将闭环路径的内部空间作为新导航环境Envnew
进一步地,步骤(5)中采用以下方法进行强化学习:
(51)在新导航环境Envnew下,初始化Q表,将Q表中存储的机器人在各种状态s下的动作a的值函数Q(s,a)设置为0;
(52)进行一个回合的强化学习:
(a)初始化状态s0=pS,pS是新导航环境Envnew中设置的起点;
(b)使用ε-greedy策略开始学习,生成的动作at,其中t代表在学习回合中的时间序列,然后执行动作at得到下一个状态st+1和回报r;在状态st+1下使用贪婪策略,在多个动作中选择使值函数Q(st+1,at+1)最大的动作作为动作at+1;更新Q表中Q(st,at)的值:
Figure GDA0002965556900000051
其中Q(st,at)为更新前t时刻的值函数的值,Q(st,at)m为更新后t时刻的值函数的值;α表示学习率,γ表示期望折扣因子;
(c)更新当前状态,令st=st+1,返回步骤(b),直到状态st为新导航环境Envnew中的终点位置;
(53)执行M个强化学习回合,得到更新后的Q表,M值为初始设置的学习参数,以保证得到足够的训练次数来获得最优运动策略π*。M为一般经验性的设置值,可根据学习的难度、学习率、使用的策略等情况设置。
有益效果:与现有技术相比,本申请公开的机器人导航空间约简方法,利用机器人自带传感器,获取周围环境信息,并通过粒子滤波方法,以及信息融合,建立二值化的六边形栅格地图,分别沿相反方向获得两条运动轨迹,并对运动轨迹优化,约简导航空间,最后利用强化学习训练Q表,得到训练好的Q表。根据训练好的Q表,得到最优运动策略。该方法使得机器人在训练过程中减少了无效探索空间,计算复杂度低,收敛快。
附图说明
图1为本发明的机器人导航空间约简方法的流程图;
图2为机器人建立的六边形栅格地图;
图3为二值化后的六边形栅格地图;
图4为第一路径轨迹和第二路径轨迹形成的闭环路径及约简后的导航空间示意图;
图5为本发明的导航空间约简方法与传统Q-learning方法学习回合数与每回合步数的对比图。
具体实施方式
下面结合附图和实施例对本申请做进一步描述:
本申请提供了一种机器人导航空间约简方法,如图1所示,包括以下步骤:
(1)启动机器人,利用机器人的传感器(例如激光雷达、RGB-D相机)扫描周围环境,对周围环境数据进行数据融合,获取周围环境信息并进行动态更新;包括:
根据有RGB-D相机获取的深度图像信息和激光雷达扫描的数据进行融合,根据计算公式(1-1)和(1-2)计算得出相机的扫描局部范围信息,并进而计算出RGB-D相机的“扫描范围”:
Figure GDA0002965556900000061
Figure GDA0002965556900000062
Figure GDA0002965556900000063
其中rR,rC,rL为三维向量,分别代表RGB-D相机获取的图像最右、正中间、最左边的坐标;θmax、θmin分别表示由RGB-D相机转换成虚拟扫描最大、最小角度,θi表示虚拟扫描增量角度,w表示深度图像的宽度值,通过光学成像原理,即可计算机器人到障碍物的距离;
Figure GDA0002965556900000064
rj为每列图像中距离障碍物的最小值,其中i和j代表图像的行和列,N为图像的总行数,x、f和Z分别代表光学原点到像素点的距离,相机焦距,物体到成像板的距离,rij表示虚拟扫描原点到物体的距离。
(2)根据获取的周围环境信息利用粒子滤波方法建立六边形栅格地图,如图2所示,用SLAM移动机器人扫描得到的地图,黑色的轮廓粗线就是障碍物。在六边形栅格地图中区分并标注出可通行区域和不可通行区域,并将六边形删的地图二值化,如图3所示,形成原始环境地图Envpri;建立六边形栅格地图的步骤包括:
(21)将周围环境地图细化分隔为等面积的六边形栅格形成栅格地图,根据分辨率需求确定六边形栅格的边长b,通过公式(2-1)计算得出六边形栅格地图的行和列的数量:
Figure GDA0002965556900000071
其中,X为行数,Y为列数,W和l分别为周围环境的宽和长;
(22)根据周围环境中的障碍物信息,对六边形栅格进行分类;预设每个六边形栅格在Gmapping过程中占有栅格地图的面积比例阈值;
采用基于RBPF的Gmapping算法,通过机器人坐标和朝向以及与障碍物的距离rj计算出障碍物的坐标;
采用bresenham直线段扫面算法,通过概率计算判断出障碍物和可通行区域的可能性大小;
(23)根据障碍物的深度信息(每个像素值表示传感器距离物体的实际距离),利用式(2-2)进行数据融合:
Figure GDA0002965556900000072
其中,Mlidar表示激光雷达的信息,Drgb-d表示RGB-D相机的信息,rfusion代表两者融合结果;
若当前六边形栅格占有率G(Drgb-d,Mlidar)<0.5则判定为空闲,即当前六边形栅格为可通行区域;若计算出G(Drgb-d,Mlidar)>0.5,则判定为非占有,即当前六边形栅格为不可通行区域;在测距范围之外区域定义为未知,即G(Drgb-d,Mlidar)=0.5,据此形成原始环境地图Envpri
(3)根据原始环境地图Envpri中起点pS和终点pG位置,先令机器人从起点开始沿原始环境边缘向第一方向走,遇到正前方为障碍物时,以自身的第一视角选择向左拐弯(左手规则),保持机器人行走在原始环境地图范围内,到达终点,即形成第一路径轨迹TL={posL1;posL2;...;posLn},其序列长度为n,表示经过的六边形栅格的数量,其中posL1~posLn为第一路径轨迹中包括的六边形栅格位置;
然后令机器人从起点开始沿原始环境边缘向第二方向走,遇到正前方为障碍物时,以自身的第一视角选择向右拐弯(右手规则),保持机器人行走在原始环境地图范围内,到达终点,即形成第二路径轨迹TR={posR1;posR2;...;posRm},其序列长度为m,表示经过的六边形栅格的数量,其中posR1~posRm为第二路径轨迹中包括的六边形栅格位置。
posRm和posLn分别为第一路径轨迹和第二路径轨迹的终点,二者重合,均为终点pG所在位置。
(4)分别优化第一路径轨迹TL和第二路径轨迹TR,对其进行空间约简,构建较小的新导航环境Envnew;包括以下步骤:
(41)根据传感器性能和优化需求,设置优化参数步距K值,分别从第一路径轨迹序列TL和第二路径轨迹序列TR中的第一个到m-K和n-K位置,进行优化检测;
(42)判定第一路径轨迹与第二路径轨迹是否需要优化,以第一路径轨迹为例:设定目标位置posLj(posLj∈TL),确定当前位置posLi(posLi∈TL)到目标位置posLj的优化参数步距K值,而在路段
Figure GDA0002965556900000082
中,当前位置到目标位置所需的步数超出K步,即j-i>K,则判定该路段需要优化;否则不需要优化;本实施例中K=3;
(43)将原第一路径轨迹中需要优化的路段替换为只需K步即可到达目标位置的路径;
(44)对优化后的第一路径轨迹进行持续优化,直至第一路径轨迹的序列长度保持不变,形成新的第一路径轨迹TLnew;同理,可形成新的第二路径轨迹TRnew
(45)将新的第一路径轨迹TLnew和新的第二路径轨迹TRnew起点和终点衔接起来,形成一个闭环路径,将闭环路径的空间作为新导航环境Envnew,如图4所示。
(5)根据起点pS和终点pG位置,采用强化学习进行更新Q表;包括:
(51)在新导航环境Envnew下,初始化Q表,将Q表中存储的机器人在各种状态s下的动作a的值函数Q(s,a)设置为0;
(52)进行一个回合的强化学习:
(a)初始化状态s0=pS,pS是新导航环境Envnew中设置的起点;
(b)使用ε-greedy策略开始学习,生成的动作at,其中t代表在学习回合中的时间序列,然后执行动作at得到下一个状态st+1和回报r;在状态st+1下使用贪婪策略,在多个动作中选择使值函数Q(st+1,at+1)最大的动作作为动作at+1;更新Q表中Q(st,at)的值:
Figure GDA0002965556900000081
其中Q(st,at)为更新前Q(st,at)的值,Q(st,at)m为更新后Q(st,at)的值;α表示学习率,γ表示折扣因子;
(c)更新当前状态,令st=st+1,返回步骤(b),直到状态st为新导航环境Envnew中的终点位置;
(53)执行M个强化学习回合,得到更新后的Q表,M值一般是个初始设置学习的参数,以保证得到足够的训练次数来获得最优运动策略π*。M为经验性的设置值,可根据学习的难度、学习率、使用的策略等情况设置。
(6)根据更新后的Q表,获取机器人的运动策略π,运动策略π由多个动作依次组合,最优运动策略π*为:
Figure GDA0002965556900000093
其中,S为所述新导航环境的Envnew的范围位置;
Figure GDA0002965556900000091
Figure GDA0002965556900000092
表示从状态s转移到状态s'的概率,Qπ(s',a')表示在策略π下,Q表中状态s'下选择某一动作a'的状态动作价值,r(s,a)表示在状态s下选取动作a所得回报奖励。其中s表示状态位置,a表示在不同状态的选取动作,γ为期望折扣因子;
根据最优值函数策略π*,得到移动机器人的运动路径。
由图5可得,与传统强化学习相比,基于本申请提供的机器人导航空间约简方法强化学习(K=3),在使用规则后,在学习过程中每个回合的步数明显少于传统强化学习,收敛速度要明显快于比传统强化学习,由此可见,本申请提供的机器人导航空间约简方法能够有效提高学习效率。
本申请中采用的六边形栅格可以更好的在不平整地面上进行衔接,同样六边形具有更多的自由度,规划出来的路径可以更加平滑,而且许多生物对导航的神经意识也是六边形。关于把六边形栅格地图运用到机器人导航中的研究很少。在生物世界中,动物在制定路径规划时依赖于自己的经验知识。人类具有后验知识,对人们的航行有很大帮助。采用人类行为的后验知识沿墙走的规则技术,沿墙走可以保证在较短步数内找到终点。用沿墙走规则获得的路径,并将其利用起来进行优化,在一定程度上可以把原来的探索空间约简的更小,然后将基于规则的强化学习及六边形地图应用于机器人的导航学习,有效地提高学习效率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (5)

1.一种机器人导航空间约简方法,其特征在于,包括以下步骤:
(1)启动机器人,利用所述机器人的传感器扫描周围环境,对周围环境数据进行数据融合,获取周围环境信息并进行动态更新;
(2)根据获取的周围环境信息利用粒子滤波方法建立六边形栅格地图,在所述六边形栅格地图中区分并标注出可通行区域和不可通行区域,形成原始环境地图Envpri
(3)根据原始环境地图Envpri中起点pS和终点pG位置,先后分别令机器人按照第一路径轨迹规则和第二路径轨迹规则形成两条不同的路径轨迹,即第一路径轨迹TL和第二路径轨迹TR,其具体步骤如下:
先后令机器人从起点开始沿原始环境边缘向第一方向和第二方向行走,所述第一方向和第二方向的方向相反,分别对应第一路径轨迹和第二路径轨迹;当遇到正前方为障碍物时:
若机器人处于第一路径轨迹时,以自身的第一视角选择向第一方向拐弯,保持机器人行走在原始环境地图范围内;若机器人处于第二路径轨迹时,以自身的第一视角选择向第二方向拐弯,保持机器人行走在原始环境地图范围内;
据此形成第一路径轨迹TL={posL1;posL2;...;posLm}和第二路径轨迹TR={posR1;posR2;...;posRn},其序列长度分别为m和n,posLm和posRn重合,均为终点pG所在位置;
其中posL1~posLm和posR1~posRn分别为在轨迹序列中不同的坐标位置;
(4)分别优化所述第一路径轨迹TL和第二路径轨迹TR,对其进行空间约简,构建新导航环境Envnew
(5)根据起点pS和终点pG位置,采用强化学习进行更新Q表Q(s,a),其中,s表示状态位置,a表示在不同状态的选取动作;
(6)根据更新后的Q表,获取机器人的运动策略π,所述运动策略π由多个动作依次组合,最优运动策略π*为:
Figure FDA0002965556890000011
其中,S为所述新导航环境Envnew的范围位置;
Figure FDA0002965556890000012
Figure FDA0002965556890000013
表示从状态s转移到状态s'的概率,Qπ(s',a')表示在策略π下,Q表中状态s'下选择某一动作a'的状态动作价值,r(s,a)表示在状态s下选取动作a所得回报奖励,γ为期望折扣因子;
根据最优运动策略π*,得到移动机器人的运动路径。
2.根据权利要求1所述的方法,其特征在于,所述传感器包括激光雷达、RGB-D相机,步骤(1)包括:
根据有RGB-D相机获取的深度图像信息和激光雷达扫描的数据进行融合,根据计算公式(1-1)和(1-2)计算得出相机的扫描局部范围信息,并进而计算出RGB-D相机的扫描范围:
Figure FDA0002965556890000021
Figure FDA0002965556890000022
Figure FDA0002965556890000023
其中rR,rC,rL为三维向量,分别代表RGB-D相机获取的图像最右、正中间、最左边的坐标;θmax、θmin分别表示由RGB-D相机转换成虚拟扫描最大、最小角度,θi表示虚拟扫描增量角度,w表示深度图像的宽度值,通过光学成像原理,即可计算机器人到障碍物的距离;
Figure FDA0002965556890000024
其中i和j代表图像的行和列,N代表图像的总行数,x、f和Z分别代表光学原点到像素点的距离、相机焦距和物体到成像板的距离;rij表示虚拟扫描原点到障碍物的距离。
3.根据权利要求2所述的方法,其特征在于,步骤(2)中,通过以下步骤建立所述六边形栅格地图:
(21)将周围环境地图细化分隔为等面积的六边形栅格形成栅格地图,根据分辨率需求确定所述六边形栅格的边长b,通过公式(2-1)计算得出六边形栅格地图的行和列的数量:
Figure FDA0002965556890000031
其中,X为行数,y为列数,W和l分别为周围环境的宽和长;
(22)根据周围环境中的障碍物信息,对所述六边形栅格进行分类;预设每个六边形栅格在Gmapping过程中占有栅格地图的面积比例阈值;
采用基于RBPF的Gmapping算法,通过机器人坐标和朝向以及与障碍物的距离rj计算出障碍物的坐标;
采用bresenham直线段扫面算法,通过概率计算判断出障碍物和可通行区域的可能性大小;
(23)根据障碍物的深度信息,利用式(2-2)进行数据融合:
Figure FDA0002965556890000032
其中,Mlidar表示激光雷达的信息,Drgb-d表示RGB-D相机的信息,rfusion代表两者融合结果;
若当前六边形栅格的占有率G(Drgb-d,Mlidar)<0.5,则判定为占有,即当前六边形栅格为可通行区域;若G(Drgb-d,Mlidar)>0.5,则判定为非占有,即当前六边形栅格为不可通行区域;在测距范围之外区域定义为未知,即G(Drgb-d,Mlidar)=0.5,据此形成原始环境地图Envpri
4.根据权利要求1所述的方法,其特征在于,在步骤(4)中,通过以下方法构建新导航环境Envnew
(41)根据传感器性能和优化需求,设置优化步距K值,分别从第一路径轨迹序列TL和第二路径轨迹序列TR中的第一个到m-K和n-K位置,进行优化检测;
(42)判定所述第一路径与所述第二路径是否需要优化:
若在所述第一路径轨迹和所述第二路径轨迹中,当前位置到目标位置所需的步数超出K步,则判定第一路径轨迹或第二路径轨迹的当前路段需要优化;否则不需要优化;
(43)将原第一路径轨迹或第二路径轨迹中需要优化的路段替换为只需K步即可到达目标位置的路径;
(44)对优化后的第一路径轨迹和第二轨迹路径进行持续优化,直至两路径的序列长度保持不变,形成新的第一路径轨迹TLnew和第二路径轨迹TRnew
(45)将TLnew和TRnew起点和终点衔接起来,形成一个闭环路径,将所述闭环路径的内部空间作为新导航环境Envnew
5.根据权利要求4所述的方法,其特征在于,步骤(5)中采用以下方法进行强化学习:
(51)在所述新导航环境Envnew下,初始化Q表,将所述Q表中存储的机器人在各种状态s下的动作a的值函数Q(s,a)设置为0;
(52)进行一个回合的强化学习:
(a)初始化状态s0=pS,pS是所述新导航环境Envnew中设置的起点;
(b)使用ε-greedy策略开始学习,生成动作at,其中t代表在学习回合中的时间序列,然后执行动作at得到下一个状态st+1和回报r;在状态st+1下使用贪婪策略,在多个动作中选择使值函数Q(st+1,at+1)最大的动作作为动作at+1;更新Q表中Q(st,at)的值:
Figure FDA0002965556890000041
其中Q(st,at)为更新前t时刻的值函数的值,Q(st,at)m为更新后t时刻的值函数的值;α表示学习率,γ表示期望折扣因子;
(c)更新当前状态,令st=st+1,返回步骤(b),直到状态st为所述新导航环境Envnew中的终点位置;
(53)执行M个强化学习回合,得到更新后的Q表,M值为初始设置的学习参数,以保证得到足够的训练次数来获得最优运动策略π*
CN201911173702.9A 2019-11-26 2019-11-26 一种机器人导航空间约简方法 Active CN110908377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911173702.9A CN110908377B (zh) 2019-11-26 2019-11-26 一种机器人导航空间约简方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911173702.9A CN110908377B (zh) 2019-11-26 2019-11-26 一种机器人导航空间约简方法

Publications (2)

Publication Number Publication Date
CN110908377A CN110908377A (zh) 2020-03-24
CN110908377B true CN110908377B (zh) 2021-04-27

Family

ID=69819592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911173702.9A Active CN110908377B (zh) 2019-11-26 2019-11-26 一种机器人导航空间约简方法

Country Status (1)

Country Link
CN (1) CN110908377B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111839926B (zh) * 2020-06-18 2022-04-12 南京邮电大学 一种头姿交互控制与自主学习控制共享的轮椅控制方法及系统
CN111856436A (zh) * 2020-07-02 2020-10-30 大连理工大学 一种多线激光雷达和红外相机的联合标定装置及标定方法
CN111854651A (zh) * 2020-07-20 2020-10-30 武汉科技大学 基于slam的室内建筑面积实时测量方法
CN111949032A (zh) * 2020-08-18 2020-11-17 中国科学技术大学 一种基于强化学习的3d避障导航系统及方法
CN113589821A (zh) * 2020-08-20 2021-11-02 深圳市海柔创新科技有限公司 仓库机器人导航路线预约
CN112484718B (zh) * 2020-11-30 2023-07-28 海之韵(苏州)科技有限公司 一种基于环境地图修正的边沿导航的装置和方法
CN112558605B (zh) * 2020-12-06 2022-12-16 北京工业大学 基于纹状体结构的机器人行为学习系统及其学习方法
CN113110482B (zh) * 2021-04-29 2022-07-19 苏州大学 基于先验信息启发式的室内环境机器人探索方法及系统
CN113721603B (zh) * 2021-07-29 2023-08-08 云鲸智能(深圳)有限公司 基站探索方法、装置、机器人及可读存储介质
CN113804201B (zh) * 2021-10-27 2024-01-09 南京极目机器人科技有限公司 对包含目标特征的作业对象的导航方法、装置及电子设备
CN114019977A (zh) * 2021-11-03 2022-02-08 诺力智能装备股份有限公司 移动机器人的路径控制方法、装置、存储介质及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078951A1 (en) * 2000-04-13 2001-10-25 Zhimin Lin Semi-optimal path finding in a wholly unknown environment
CN101110100A (zh) * 2006-07-17 2008-01-23 松下电器产业株式会社 检测图像的几何形状的方法和装置
CN106933223A (zh) * 2015-12-30 2017-07-07 深圳市朗驰欣创科技股份有限公司 一种机器人自主导航方法及系统
CN108415432A (zh) * 2018-03-09 2018-08-17 珠海市微半导体有限公司 机器人基于直边的定位方法
CN109116854A (zh) * 2018-09-16 2019-01-01 南京大学 一种基于强化学习的多组机器人协作控制方法及控制系统
CN109146082A (zh) * 2017-06-27 2019-01-04 发那科株式会社 机器学习装置、机器人控制系统和机器学习方法
CN110307848A (zh) * 2019-07-04 2019-10-08 南京大学 一种移动机器人导航方法
CN110389591A (zh) * 2019-08-29 2019-10-29 哈尔滨工程大学 一种基于dbq算法的路径规划方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078951A1 (en) * 2000-04-13 2001-10-25 Zhimin Lin Semi-optimal path finding in a wholly unknown environment
CN101110100A (zh) * 2006-07-17 2008-01-23 松下电器产业株式会社 检测图像的几何形状的方法和装置
CN106933223A (zh) * 2015-12-30 2017-07-07 深圳市朗驰欣创科技股份有限公司 一种机器人自主导航方法及系统
CN109146082A (zh) * 2017-06-27 2019-01-04 发那科株式会社 机器学习装置、机器人控制系统和机器学习方法
CN108415432A (zh) * 2018-03-09 2018-08-17 珠海市微半导体有限公司 机器人基于直边的定位方法
CN109116854A (zh) * 2018-09-16 2019-01-01 南京大学 一种基于强化学习的多组机器人协作控制方法及控制系统
CN110307848A (zh) * 2019-07-04 2019-10-08 南京大学 一种移动机器人导航方法
CN110389591A (zh) * 2019-08-29 2019-10-29 哈尔滨工程大学 一种基于dbq算法的路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An event-based probabilistic Q-learning method for navigation control of mobile robots;Dongdong Xu,et al.;《Proceeding of the 11th World Congress on Intelligent Control and Automation》;20150305;第587-592页 *
唐开强等.约束条件下基于强化学习的六足机器人步态规划.《第18届中国系统仿真技术及其应用学术年会论文集(18th CCSSTA 2017) 》.2017,第18卷 *

Also Published As

Publication number Publication date
CN110908377A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN110908377B (zh) 一种机器人导航空间约简方法
CN111587408B (zh) 机器人导航和对象跟踪
Cunningham et al. MPDM: Multipolicy decision-making in dynamic, uncertain environments for autonomous driving
CN111098852B (zh) 一种基于强化学习的泊车路径规划方法
CN112348846A (zh) 图像序列上对象检测和跟踪的人工智能驱动基准真值生成
EP3693944A1 (en) Method and device for short-term path planning of autonomous driving through information fusion by using v2x communication and image processing
CN111610786B (zh) 基于改进rrt算法的移动机器人路径规划方法
CN112000754A (zh) 地图构建方法、装置、存储介质及计算机设备
Xu et al. icurb: Imitation learning-based detection of road curbs using aerial images for autonomous driving
CN110986945B (zh) 基于语义高度地图的局部导航方法和系统
JP2020123346A (ja) 各領域において最適化された自律走行を遂行できるように位置基盤アルゴリズムの選択によってシームレスパラメータ変更を遂行する方法及び装置
CN110764518B (zh) 水下清淤机器人路径规划方法、装置、机器人和存储介质
CN116540731B (zh) 融合堆叠lstm与sac算法的路径规划方法及系统
JP6865342B2 (ja) Cnn基盤車線検出のための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
Zeng et al. Lookup: Vision-only real-time precise underground localisation for autonomous mining vehicles
Dashora et al. Hybrid imitative planning with geometric and predictive costs in off-road environments
Jin et al. Safe-Nav: learning to prevent PointGoal navigation failure in unknown environments
Reda et al. Path planning algorithms in the autonomous driving system: A comprehensive review
Chen et al. Navigable space construction from sparse noisy point clouds
Short et al. Abio-inspiredalgorithminimage-based pathplanning and localization using visual features and maps
CN111310919A (zh) 基于场景切分和局部路径规划的驾驶控制策略训练方法
CN116203972A (zh) 一种未知环境探索路径规划方法、系统、设备及介质
CN114740868A (zh) 一种基于深度强化学习的移动机器人路径规划方法
Wang et al. Deep Reinforcement Learning-based Off-road Path Planning via Low-dimensional Simulation
CN114527759A (zh) 一种基于分层强化学习的端到端驾驶方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant