CN114153216B - 基于深度强化学习和块规划的月面路径规划系统和方法 - Google Patents
基于深度强化学习和块规划的月面路径规划系统和方法 Download PDFInfo
- Publication number
- CN114153216B CN114153216B CN202111530627.4A CN202111530627A CN114153216B CN 114153216 B CN114153216 B CN 114153216B CN 202111530627 A CN202111530627 A CN 202111530627A CN 114153216 B CN114153216 B CN 114153216B
- Authority
- CN
- China
- Prior art keywords
- block
- planning
- path
- map
- planner
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000002787 reinforcement Effects 0.000 title claims abstract description 22
- 238000013461 design Methods 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 27
- 238000011156 evaluation Methods 0.000 claims description 18
- 238000013459 approach Methods 0.000 claims description 12
- 238000012876 topography Methods 0.000 claims description 10
- 238000009827 uniform distribution Methods 0.000 claims description 10
- 230000004888 barrier function Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000003321 amplification Effects 0.000 claims description 2
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 2
- 238000004088 simulation Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 241000255581 Drosophila <fruit fly, genus> Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Electromagnetism (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于深度强化学习和块规划的月面路径规划方法,用于月面机器人在大范围月面地形中的快速路径规划。基于深度强化学习方法,提出了一种端到端的路径规划器,能够基于特定尺寸的月面可穿越性地图和机器人位置、目标位置,直接求解当前最佳运动方向。基于分层思想,设计一种块规划应用架构,首先利用块规划器在缩小地图上进行粗略初始路径规划,然后利用块规划器沿着初始路径进行分块精确路径规划。块规划应用架构能够有效压缩求解空间,显著降低路径规划时耗。本发明主要用于月面大范围遥测地形图上的机器人路径规划,通过端到端规划器和块规划应用架构的设计使得本发明的方法具有规划速度快的优势。
Description
技术领域
本发明涉及机器人路径规划技术领域,具体涉及一种基于深度强化学习和块规划的月面快速路径规划系统和方法。
背景技术
月面机器人的路径规划是月面探测任务的设计和实施过程中的重要环节,对于提高月球 探测效率、保证探测机器人系统安全性具有重要意义。
一般来说,机器人的路径规划也可以分为全局规划和局部规划。月面全局路径规划是指 在月面遥感图像规划出从初始位置出发,规避撞击坑等障碍物并到达目标位置的自由路径节 点序列;而月面局部规划是指根据机器人在线或短期内感知到的局部地图,进行短期、短距 离的避障规划。目前,受到星表机器人局部感知能力运动能力的约束,其局部自主规划能够 覆盖的范围只有数米,月球机器人或火星机器人的路径规划以局部规划为主,无法无人自主 地实现远距离规划。随着月面探测活动范围的扩大和探测自主性要求的增加,有必要开展基 于月面遥感地图的远距离的快速路径规划方法。
在一些传统的全局路径规划中,首先将地图编码表征为可计算的栅格图或维诺图等,然 后基于搜索或者采样的原理进行机器人的安全路径求解,常用的算法包括粒子群算法,A*算 法,遗传算法,RRT,果蝇算法等。许多学者为提高月面全局路径规划的安全性、平滑性、 求解速度等,对这些算法做了许多改进。但是,这些算法通常是基于搜索或采样的,因此其 路径规划速度严重依赖于求解空间的大小,当然规划任务范围增大或障碍物比较复杂时,算 法应用的时间消耗会按指数规律增大,这在一定程度上限制了月面大范围地形上的路径规划 的应用。
近年来,随着深度学习和深度强化学习方法在图像推理和机器人控制领域得到了广泛研 究和应用。深度学习具有很强的深度数据建模能力,善于提取图像、语音、语言等信息中的 时间和空间特征;而强化学习模拟生物对外界刺激做出反应的现象,能够从过去的经验中, 而不需要标签数据的监督下进行自学习。基于学习的方法进行路径规划具备一些传统方法难 以突破的优势。首先,其可以直接基于地图像素矩阵进行路径规划,而不需人为地将地图表 征成计算机可计算的障碍空间和自由空间;此外,基于学习的方法构建端到端的规划器,通 过网络推理进行路径规划,相比基于搜索和采样原理的方法,在求解时间上有巨大的潜在优 势。但是,目前的基于学习的方法的缺点在于,受限于神经网络的结构,其通常只能对特定 尺寸的地图进行规划,而如果规划范围较大时,缩小尺寸后进行规划可能会导致严重的精度 损失,导致规划的路径不可用。
现有技术的缺点总结如下:
1.A*,RRT等传统路径规划算法首先需要将地图表征为障碍空间和安全空间,其规划效 果依赖于人为经验;
2.传统路径规划算法的求解速度严重依赖于求解空间的大小,当然规划任务范围增大或 障碍物比较复杂时,算法应用的时间消耗会按指数规律增大,这在一定程度上限制了月面大 范围地形上的路径规划的应用;
3.对基于学习的规划方法来说,受限于神经网络的结构,其通常只能对特定尺寸的地图 进行规划,而如果规划范围较大时,缩小尺寸后进行规划可能会导致严重的精度损失,导致 规划的路径可用性较差。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于深度强化学习和块规划的月面快速路径规划方法,用于解决以下问题:
(1)通过端到端的方法实现直接基于二值化可通行性地图进行路进规划,而不需要在地图上进行障碍物识别、定位和计算图表征。
(2)实现月面机器人在大范围月面地形上的快速路径规划,减小规划时间消耗;
(3)解决现有的基于学习方法受限于神经网络结构而无法对任意尺度地图进行精确路径规划的困难。
本发明采用的技术方案如下:
一种基于深度强化学习和块规划的月面快速路径规划系统,由一个基于深度Q网络的块 规划器和一个块规划应用架构构成;
基于深度Q网络的块规划器:基于深度Q网络的端到端的规划器,用于特定的N*×N*尺 寸的月面可穿越性地图上的路径规划,采用一种双通道输入的深度Q网络来建立全局状态信 息到最佳运动方向的映射关系,包括全局通道和局部通道两个通道。全局通道用于提取全局 信息,包括全局可穿越性地图T,机器人的当前位置(rx*,ry*)和目标位置(gx*,gy*)。全局状态 通过一个维度为3×N*×N*的3层状态立方来表示,包括全局可穿越性地图T、机器人位置图R 和目标位置图G,其中机器人位置层和目标位置层是N*×N*的空白图上标记位置信息构成的。 全局通道通过一个18层的残差卷积神经网络(Resnet18)进行特征提取。局部通道用于进行 机器人瞬时位置周边近距离的X个单元格范围内障碍物信息提取和推理,其输入矩阵维度为1×X×X,记为Tlocal。局部通道由于其输入局部地图的尺度较小,采用一个6层的残差卷积神 经网络(Resnet 6)进行信息推理。全局特征和局部特征通过两个全连接层进行融合,进而进 行机器人运动方向评价值的估计。网络输出为指向机器人周边8个方向动作的评价值。经训 练,该Q网络输出的最大评价值所对应动作即为当前全局和局部状态输入情况下的最优动作。 经块规划器的迭代求解,可以求出地图T上的一条轨迹,记为
块规划应用架构:基于分层思想设计的一种块规划应用架构,一方面能够有效压缩大范 围地图上路径规划的求解空间,另一方面克服了单一块规划器只能进行特定尺寸地图上路径 规划的缺点。对于一张尺寸为N×N的二值化可穿越性地图(N>N*),首先将其缩小为N*×N*的可规划图,利用块规划器进行粗略初始路径求解;然后,沿着初始粗略路径均匀地选取一 些导航点;然后,利用块规划器依次在每两个相邻导航点之间进行精确路径求解;最后依次 将每两个相邻导航点之间的路径进行拼接,得到原N×N尺寸地图上的路径规划结果。
进一步地,其训练奖励采用一种稠密奖励机制,用于促进算法学会趋近目标、规避障碍 物以及优化路径长度等行为,从而能够自动地基于输入可穿越性地图和机器人、目标位置信 息进行规划。奖励函数包含目标到达奖励、目标趋近奖励、触障奖励、能量优化奖励以及平 滑奖励,最终的奖励是这四项奖励的求和。目标到达奖励,记为如果时刻k机器人到 达目标位置,则其取值为1,否则为0;目标趋近奖励,记为/>将其设计为机器人趋近 目量的线性函数,可以表示为/>其中/>如果在 时刻k机器人趋近了目标,则取值为正,否则为负;触障奖励记为/>当机器人到达障碍 物区域时,其取值为-1,否则取值为0。在我们的算法中,触碰障碍物可以通过T(rx,ry)=0来 判定。/>表示能量成本奖励,其设置的目的是优化路径长度,其取值取决于当时选取的动作, 如果规划器选取了沿grid边的奖励,则/>如果规划器选取了沿着grid对角线的奖励, />其中c表示机器人行走单位长度的能量成本,并且有c<0;平滑性奖励记为/>其目的是为了使得到的路径更加平滑,如果当前时刻规划器选取的动作是否与前一时刻的相 同则其取值s=0,否则s<0。最终算法在k时刻的奖励可以通过上述奖励项求和得到:
进一步地,其块规划器的训练地图集通过以下方法进行构建:首先,人工构造的一个仿 真月面地形图,包含若干个撞击坑和若干个高地。将仿真地形图上的撞击坑和高地的数字高 程数据提取出来,分别独立进行横、纵尺寸的变换,随后将其随机叠加到一张平地的大尺度 地形图上。地形尺寸变化倍数因子和每张地图上的障碍(撞击坑和高地)的数量服从均匀分 布,每个障碍物的随机初始化位置坐标服从独立的均匀分布。通过上述操作,得到了包含若 干张障碍物随机分布的大尺度地图。在每一张大尺度地图上随机截取若干张不同尺度的地图, 其每个边幅尺寸服从均匀分布。最终获取了包含大量障碍物随机分布、不同尺寸月面地形图 的训练集。
进一步地,块规划器的算法流程按次序包含:块规划输入,块规划变量初始化,步规划, 位置更新和路径输出。
(1)块规划器输入
对于一张给定的尺寸为N*×N*的二值化可穿越性地图T上的规划任务,明确起始位置和 目标位置(sx*,sy*),(gx*,gy*)。
(2)块规划器变量初始化
将起始位置设置为机器人初始位置,即将局部通道输入尺寸初始化为 X×X。
(3)步规划
块规划器的每一步规划通过一次深度Q网络推理来实现。在步规划时,根据当前时刻机 器人的位置和局部通道输入尺寸X,按照Tlocal=T(rx*-X/2:rx*+X/2,ry*-X/2:ry*+X/2) 计算局部通道输入Tlocal。将Tlocal与T,R,G一起输入到Q网络中进行当前状态下8个动作 的评价值的估计,并以最大评价值所对应的动作作为当前状态对应的最优动作,即:ak=arcmax(qk(sk,a))。
(4)位置更新
通过位置更新使得规划进入下一步。首先判断机器人是否到达了目标位置,如果且/>则进入第(5)步进行路径输出;否则,按照更新机器人位置,并返回到第(3) 步进行下一步规划。
(5)块规划器输出
输出规划结果,用来表示规划器在T上求解出的一 条轨迹。
进一步地,块规划器应用架构的操作流程包含:任务初始化;尺寸变换;初始粗略规划; 导航点求解;精确路径规划;路径拼接。
(1)任务初始化
对于给定的地形图,将其转化为N×N的二值化可穿越性地图Tinit,确定规划任务的起始 位置(sx,sy)和目标位置(gx,gy)。
(2)尺寸变换
将尺寸N×N的二值化可穿越性地图Tinit按照K=N/N*变换为尺寸为N*×N*的块规划器的 可规划地图。将起始位置和目标位置坐标变换到T上,得到块规划器可输入位置坐标: sx*=sx/K,sy*=sy/K,gx*=gx/K,gy*=gy/K。
(3)初始粗略规划
利用块规划器在缩小地图上进行初始粗略路径的规划。将尺寸变换得到到地图T和位置 变量输入到块规划器,并按照块规划器算法流程进行路径规划,将输出的路径结果记为ψinit*。 将块规划器输出的路径节点坐标扩大K倍,即可得到原地图上的初始粗略路径,即ψinit=Kψinit*
(4)导航点求解
导航点求解是在初始粗略路径ψinit的基础上进行精确路径求解的前提。导航点是确定精 确路径块规划位置和块地图的一系列关节点。从起始点(sx,sy)开始,沿着初始路径,均匀地 选取初始路径上的节点作为导航点。假设初始路径的长度为Linit,导航点的数量可以根据式 确定。具体可以按照下式确定导航点坐标:
(5)精确块规划
从起始点(sx,sy)开始,沿着初始粗略路径,在每两个相邻的导航点之间进行块规划,即 求解从导航点到/>的精确路径。
首先,确定块地图的中心位置坐标和块地图像素矩阵/>中心坐标的计算 公式为/>根据块地图的中心坐标,可以确定其像素矩阵 为/>
然后,将导航点坐标转化为块地图上的起始点/>和目标点坐标转换公式为:
然后,以为输入,利用块规划器进行两点之间的精确 路径规划,输出路径记为/>
最后,将块规划器输出的路径转化为原来尺寸为N×N的地图上的路径路径节点坐 标转换表达式为:
(6)路径拼接
将J-1个块地图上的路径规划结果依次进行拼接,得到最终的路径ψfinal,可以表示为:
本发明的有益效果如下:
1.本发明所提供的基于深度强化学习和块规划的月面快速路径规划方法,是一种端到端的方法,能够直接基于二值化可通行性地图进行路进规划,而不需要在地图上 进行障碍物识别、定位和计算图表征。
2.本发明通过端到端和块规划应用架构的设计,有效压缩了大范围地图上路径规划的求解空间,实现月面机器人在大范围月面地形上的快速路径规划,减小规划时间 消耗;
3.本发明通过块规划应用架构的设计,突破了现有基于学习方法受限于神经网络结构而无法对任意尺度地图进行精确路径规划的限制。
附图说明
图1为块规划器;
图2为块规划器的训练地图集构建方法
图3为块规划器的算法流程图;
图4为块规划应用架构;
图5为块规划应用架构的操作流程图;
图6为基于深度强化学习和块规划的月面快速路径规划方法的一种具体应用结果示例图。
具体实施方式
下文中,结合附图和实施例对本发明作进一步阐述。
本发明基于深度强化学习和块规划的月面快速路径规划系统,由一个基于深度Q网络的 端到端的块规划器和一个块规划应用架构构成。
1.基于深度Q网络的块规划器
1.1.块规划器的构成
块规划器是一种基于深度Q网络的端到端的规划器,用于特定的N*×N*尺寸的月面可穿 越性地图上的路径规划,其中N*表示用于规划器输入的地图的尺寸。可穿越性地图是基于月面数 字高程模型生成的二值化地图,其像素值取“1”的位置为可穿越区域,像素值取“0”的位 置为不可以穿越区域。块规划器采用一种双通道输入的深度Q网络来建立全局状态信息到最 佳运动方向的映射关系,其输入包含全局通道和局部通道两个通道。全局通道用于提取全局 信息,包括全局可穿越性地图T,机器人的当前位置(rx*,ry*)和目标位置(gx*,gy*)。为了让网络 更加直接的理解机器人位置和目标位置的空间关系,在全局可穿越性地图的基础上,增加一 层机器人位置层和一层目标位置层,机器人位置层和目标位置层是N*×N*的空白图上标记位 置信息构成的,如图1所示。因此,全局状态通过一个维度为3×N*×N*的3层状态立方来表 示,包括全局可穿越性地图T、机器人位置图R和目标位置图G。全局通道通过一个18层的 残差卷积神经网络(Resnet18)进行特征提取。局部通道主要用于进行机器人瞬时位置周边近 距离的X个单元格范围内障碍物信息提取和推理,其输入矩阵维度为1×X×X,记为Tlocal。局 部通道由于其输入局部地图的尺度较小,采用一个6层的残差卷积神经网络(Resnet6)进行 信息推理,其由3个BasicBlock模块串联构成。全局特征和局部特征通过两个全连接层进行 融合,进而进行机器人运动方向评价值的估计。网络输出为指向机器人周边8个方向动作的 评价值。经训练,该Q网络输出的最大评价值所对应动作即为当前全局和局部状态输入情况 下的最优动作。经块规划器的迭代求解,可以求出地图T上的一条轨迹,记为 其中ψ*表示规划器输出的路径,/>表示路径上的节点,i表 示节点索引,/>的坐标,本文用ψ*表示块规划器的内部变量,用下标i表示一条路径 上节点的索引值。
1.2.块规划器的训练
(1)奖励函数设计
为实现规划器的快速训练,设计了一种稠密奖励机制,用于促进算法学会趋近目标、规 避障碍物以及优化路径长度等行为,从而能够自动地基于输入可穿越性地图和机器人、目标 位置信息进行规划。奖励函数包含目标到达奖励、目标趋近奖励、触障奖励、能量成本奖励 以及平滑奖励,最终的奖励是这四项奖励的求和。目标到达奖励,记为如果时刻k机 器人到达目标位置,则其取值为1,否则为0;目标趋近奖励,记为/>将其设计为机器 人趋近目量的线性函数,可以表示为/>其中其中λ线性放大系数,(rxk,ryk)为k时刻机器人的位置,(gx,gy)为目标位置,如果在时刻k机器人趋 近了目标,则取值为正,否则为负;触障奖励记为/>当机器人到达障碍物区域时,其取 值为-1,否则取值为0。在本发明的算法中,触碰障碍物可以通过T(rxk,ryk)=0来判定,其中 (rxk,ryk)为机器人当前时刻的位置。/>表示能量成本奖励,其设置的目的是优化路径长度, 其取值取决于当时选取的动作,如果规划器选取了沿grid边的奖励,则/>如果规划器 选取了沿着grid对角线的奖励,/>其中c表示机器人行走单位长度的能量成本,并且 有c<0;平滑性奖励记为/>其目的是为了使得到的路径更加平滑,如果当前时刻规划器 选取的动作是否与前一时刻的相同则其取值s=0,否则s<0。最终算法在k时刻的奖励可以通 过上述奖励项求和得到:
(2)训练地图集构建与训练
构建训练地图集,进行块规划器的训练,如图2所示。首先,人工构造的一个仿真月面 地形图,包含若干个撞击坑和若干个高地。将仿真地形图上的撞击坑和高地的数字高程数据 提取出来,分别独立进行横、纵尺寸的变换,随后将其随机叠加到一张平地的大尺度地形图 上。地形尺寸变化倍数因子和每张地图上的障碍(撞击坑和高地)的数量服从均匀分布,每 个障碍物的随机初始化位置坐标服从独立的均匀分布。通过上述操作,得到了包含若干张障 碍物随机分布的大尺度地图。在每一张大尺度地图上随机截取若干张不同尺度的地图,其每 个边幅尺寸服从均匀分布。最终获取了包含大量障碍物随机分布、不同尺寸月面地形图的训 练集。
在每个训练回合开始时,从训练集中随机选取一张尺寸为N×N的地形图,将其转化为尺 寸为N*×N*的二值化可穿越性地图。将机器人的初始位置和目标位置按照均匀分布进行随机 初始化。训练采用边采样边训练的方式。将k时刻机器人的位置记为其综合状态为sk, 那么/>若机器人采用动作ak之后获得了奖励rk,并到达位置,得到 新的综合状态/>那么[sk,ak,rk,sk]构成一个训练样本。将Q网络代表的规划 策略为π(θk),其中θk表示网络权值。那么网络训练的损失函数可以基于贝尔曼方程表示为:
上式中,γ表示未来奖励的折扣因子,表示过去某一时刻的网络模型的权重,qπ表示 策略π下的动作评价值,a'表示下一个时刻可能采取的动作。
1.3.块规划器的算法流程
块规划器的算法按次序包含:块规划器输入,块规划器变量初始化,步规划,位置更新 和路径输出。图3所示为块规划器的算法流程图。
(1)块规划器输入
对于一张给定的尺寸为N*×N*的二值化可穿越性地图T上的规划任务,明确规划任务的 起始位置(sx*,sy*)和规划任务目标位置(gx*,gy*)。
(2)块规划器变量初始化
将规划任务起始位置(sx*,sy*)设置为机器人初始位置即将局 部通道输入尺寸初始化为X×X。
(3)步规划
块规划器的每一步规划通过一次深度Q网络推理来实现。在步规划时,根据当前时刻机 器人的位置(rx*,ry*)和局部通道输入尺寸X,按照Tlocal=T(rx*-X/2:rx*+X/2,ry*-X/2:ry*+X/2) 计算局部通道输入Tlocal。将Tlocal与T,R,G一起输入到Q网络中进行当前状态下8个动作 的评价值的估计,并以最大评价值所对应的动作作为当前状态对应的最优动作,即: ak=arcmax(qk(sk,a)),其中ak为当前时刻的动作,sk为当前时刻的综合状态,qk(sk,a)为当前状态的动 作评价值,a表示动作变量。
(4)位置更新
通过位置更新使得规划进入下一步。首先判断机器人是否到达了目标位置,如果且/>则进入第(5)步进行路径输出;否则,按照更新机器人位置,并返回到第(3) 步进行下一步规划。
(5)块规划器输出
输出规划结果,用来表示规划器在T上求解出的一 条轨迹。
2.块规划应用架构
2.1.块规划应用架构的构成
基于分层思想设计了一种块规划应用架构,一方面能够有效压缩大范围地图上路径规划 的求解空间,另一方面克服了单一块规划器只能进行特定尺寸地图上路径规划的缺点。对于 一张尺寸为N×N的二值化可穿越性地图(N>N*),首先将其缩小为尺寸为N*×N*的可规划 图,利用块规划器进行粗略初始路径求解;然后,沿着初始粗略路径均匀地选取一些导航点; 然后,利用块规划器依次在每两个相邻导航点之间进行精确路径求解;最后依次将每两个相 邻导航点之间的路径路径进行拼接,即得到原N×N尺寸地图上的路径规划结果。图4所示为 本发明所提供的块规划应用架构。
2.2.块规划应用架构的操作流程
块规划应用架构与块规划器联合使用。其操作流程如图5所示,包括:任务初始化;尺 寸变换;初始粗略规划;导航点求解;精确路径规划;路径拼接。
(1)任务初始化
对于给定的地形图,将其转化为N×N的二值化可穿越性地图Tinit,确定规划任务的起始 位置(sx,sy)和目标位置(gx,gy)。
(2)尺寸变换
将尺寸N×N的二值化可穿越性地图Tinit按照K=N/N*变换为尺寸为N*×N*的块规划器的 可规划地图,K表示地图尺寸变换比。将起始位置和目标位置坐标变换到T上,得到块规划 器可输入位置坐标:sx*=sx/K,sy*=sy/K,gx*=gx/K,gy*=gy/K。
(3)初始粗略规划
利用块规划器在缩小地图上进行初始粗略路径的规划。将尺寸变换得到到地图T和位置 变量输入到块规划器,并按照块规划器算法流程进行路径规划,将输出的路径结果记为ψinit*。 将块规划器输出的路径节点坐标扩大K倍,即可得到原地图上的初始粗略路径,即ψinit=Kψinit*
(4)导航点求解
导航点求解是在初始粗略路径ψinit的基础上进行精确路径求解的前提。导航点是确定精确 路径块规划位置和块地图的一系列关节点。从起始点(sx,sy)开始,沿着初始路径,均匀地选 取初始路径上的节点作为导航点。导航点的数量J可以根据式确定,Linit表示初始路 径节点数量,j表示导航点的索引,/>为第j个导航点的坐标,表示初始路 径上第/>个节点的坐标;具体按照下式确定导航点坐标:
(5)精确块规划
从起始点(sx,sy)开始,沿着初始粗略路径,在每两个相邻的导航点之间进行块规划,即求解 从导航点到/>的精确路径。
首先,确定块地图的中心位置坐标和块地图像素矩阵/>中心坐标的计算公 式为/>根据块地图的中心坐标,可以确定其像素矩阵为 />
然后,将导航点坐标转化为块地图上的起始点/>和目标点坐标转换公式为:
然后,以为输入,利用块规划器进行两点之间的精确 路径规划,输出路径记为/>表示第j个块地图上的路 径节点坐标。
最后,将块规划器输出的路径转化为原来尺寸为N×N的地图上的路径路径节点坐 标转换表达式为:
(6)路径拼接
将J-1个块地图上的路径规划结果依次进行拼接,得到最终的路径ψfinal,可以表示为:
图6(a)为一个基于深度强化学习和块规划的月面快速路径规划方法的一个具体实施案 例的规划结果。其中,测试地图采用中科院国家天文台提供的CE2TMap2015全月高精度地 图模型中图幅#L007上的某10000m×10000m范围的地形上,其分辨率为20m/pixel,因此原 地图的网格尺寸为500×500(N=500),规划任务的起始位置和目标位置分别设为(197,67) 和(405,451),局部通道输入尺寸初始化为10×10(X=10);图6(b)为此具体实施案 例的规划过程中每次调用块规划器得到的块地图上的路径结果,其中初始块为缩小地图上的 初始粗略路径,块1-8为沿着初始粗略路径得到的相邻导航点坐标之间的块地图上的路径规 划结果。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人 员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方 案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实 质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
Claims (8)
1.一种基于深度强化学习和块规划的月面路径规划系统,其特征在于,所述月面路径规划系统包括一个基于深度Q网络的块规划器和一个块规划应用架构;
所述基于深度Q网络的块规划器用于月面可穿越性地图上的路径规划,所述可穿越性地图是基于月面数字高程模型生成的二值化地图,其像素值取“1”的位置为可穿越区域,像素值取“0”的位置为不可以穿越区域;所述基于深度Q网络的块规划器采用一种双通道输入的深度Q网络来建立全局状态信息到最佳运动方向的映射关系,包括全局通道和局部通道两个通道;
所述块规划应用架构采用分层设计,首先将可穿越性地图的缩小为可规划图,利用块规划器进行粗略初始路径求解;其次,沿着初始粗略路径均匀地选取导航点;然后,利用块规划器依次在每两个相邻导航点之间进行精确路径求解;最后依次将每两个相邻导航点之间的路径进行拼接,得到可穿越性地图上的路径规划结果;
月面路径规划方法包括块规划器训练方法、块规划器算法和块规划应用架构的操作方法,所述块规划器训练方法包括训练奖励方法和训练地图集构建方法;
所述训练奖励方法采用稠密奖励机制,包括目标到达奖励、目标趋近奖励、触障奖励、能量成本奖励以及平滑奖励,最终的奖励是这五项奖励的求和,具体包括以下步骤:
目标到达奖励,记为如果时刻k机器人到达目标位置,则其取值为1,否则为0;
目标趋近奖励,记为将其设计为机器人趋近目量的线性函数,表示为其中/>其中,λ线性放大系数,(rxk,ryk)为k时刻机器人的位置,(gx,gy)为目标位置;如果在时刻k机器人趋近了目标,则取值为正,否则为负;
触障奖励,记为当机器人到达障碍物区域时,其取值为-1,否则取值为0;
能量成本奖励,记为其设置的目的是优化路径长度,其取值取决于当时选取的动作,如果规划器选取了沿grid边的奖励,则/>如果规划器选取了沿着grid对角线的奖励,/>其中c表示机器人行走单位长度的能量成本,并且有c<0;
平滑奖励,记为其目的是为了使得到的路径更加平滑,用s表示/>的取值;如果当前时刻规划器选取的动作与前一时刻的相同,则s=0,否则,s<0;最终算法在k时刻的奖励rk通过上述奖励项求和得到:
2.如权利要求1所述的一种基于深度强化学习和块规划的月面路径规划系统,其特征在于,所述全局通道用于提取全局信息,包括全局可穿越性地图、机器人的当前位置和目标位置,在全局可穿越性地图的基础上,增加一层机器人位置层和一层目标位置层,机器人位置层和目标位置层是在空白图上标记位置信息构成的;所述全局通道通过一个18层的残差卷积神经网络进行特征提取。
3.如权利要求2所述的一种基于深度强化学习和块规划的月面路径规划系统,其特征在于,所述局部通道用于进行机器人瞬时位置周边近距离的X个单元格范围内障碍物信息提取和推理,其输入矩阵维度为1×X×X,记为Tlocal;所述局部通道采用一个6层的残差卷积神经网络进行信息推理。
4.如权利要求3所述的一种基于深度强化学习和块规划的月面路径规划系统,其特征在于,所述全局通道和局部通道通过两个全连接层进行融合,进而进行机器人运动方向评价值的估计;网络输出为指向机器人周边8个方向动作的评价值;经训练,Q网络输出的最大评价值所对应动作即为当前全局和局部状态输入情况下的最优动作;经块规划器的迭代求解,求出全局可穿越性地图上的轨迹。
5.一种基于深度强化学习和块规划的月面路径规划方法,其特征在于,采用如权利要求1~4中任一权利要求所述的基于深度强化学习和块规划的月面路径规划系统。
6.如权利要求5所述的一种基于深度强化学习和块规划的月面路径规划方法,其特征在于,所述训练地图集构建方法具体包括以下步骤:
步骤11,人工构造一个带有障碍的仿真月面地形图,所述障碍包括撞击坑和高地;
步骤12,将仿真月面地形图上的撞击坑和高地的数字高程数据提取出来,分别独立进行横、纵尺寸的变换,
步骤13,随后将撞击坑和高地的数字高程数据随机叠加到一张平地的大尺度地形图上;地形尺寸变化倍数因子和每张仿真月面地形图上的障碍的数量服从均匀分布,每个障碍的随机初始化位置坐标服从独立的均匀分布;
步骤14,得到了包含障碍物随机分布的大尺度仿真月面地形图;
步骤15,在每一张大尺度仿真月面地形图上随机截取不同尺度的地图,其每个边幅尺寸服从均匀分布;
步骤16,获取了包含障碍物随机分布、不同尺寸仿真月面地形图的训练集。
7.如权利要求5所述的一种基于深度强化学习和块规划的月面路径规划方法,其特征在于,所述块规划器算法具体包括以下步骤:
步骤21,块规划器输入:
对于一张给定的尺寸为N*×N*的二值化可穿越性地图T上的规划任务,明确起始位置(sx*,sy*)和目标位置(gx*,gy*);
步骤22,块规划器变量初始化:
将起始位置设置为机器人初始位置,即将局部通道输入尺寸初始化为X×X;
步骤23,步规划:
块规划器的每一步规划通过一次深度Q网络推理来实现;在步规划时,根据当前时刻机器人的位置和局部通道输入尺寸X,按照Tlocal=T(rx*-X/2:rx*+X/2,ry*-X/2:ry*+X/2)计算局部通道输入Tlocal;将Tlocal与全局可穿越性地图T,机器人位置图R,目标位置图G一起输入到深度Q网络中进行当前状态下8个动作的评价值的估计,并以最大评价值所对应的动作作为当前状态对应的最优动作;
步骤24,位置更新:
通过位置更新使得规划进入下一步;首先判断机器人是否到达了目标位置,如果且/>则进入步骤25进行路径输出;否则,按照更新机器人位置,并返回到步骤23步进行下一步规划;
步骤25,块规划器输出:
输出规划结果,用来表示规划器在全局可穿越性地图T上求解出的一条轨迹,其中ψ*表示规划器输出的路径,/>表示路径上的节点,i表示节点索引,/>为/>的坐标。
8.如权利要求7所述的一种基于深度强化学习和块规划的月面路径规划方法,其特征在于,所述块规划应用架构的操作方法具体包括以下步骤:
步骤31,任务初始化:
对于给定的地形图,用N表示地图边长,首先将其转化为N×N的二值化可穿越性地图Tinit,确定规划任务的起始位置(sx,sy)和目标位置(gx,gy);
步骤32,尺寸变换:
将尺寸N×N的二值化可穿越性地图Tinit按照K=N/N*变换为尺寸为N*×N*的块规划器的可规划地图;将起始位置和目标位置坐标变换到T上,得到块规划器输入位置坐标:sx*=sx/K,sy*=sy/K,gx*=gx/K,gy*=gy/K;用N*表示块地图的边长,用K表示地图尺寸变换比;
步骤33,初始粗略规划:
利用块规划器在缩小地图上进行初始粗略路径的规划;将尺寸变换得到地图T和位置变量输入到块规划器,并按照块规划器算法流程进行路径规划,将输出的路径结果记为ψinit*;将块规划器输出的路径节点坐标扩大K倍,即可得到原地图上的初始粗略路径,即ψinit=Kψinit*;
步骤34,导航点求解:
导航点求解是在初始粗略路径ψinit的基础上进行精确路径求解的前提;导航点是确定精确路径块规划位置和块地图的一系列关节点;从起始点(sx,sy)开始,沿着初始路径,均匀地选取初始路径上的节点作为导航点;导航点的数量J根据式确定,Linit表示初始路径节点数量,j表示导航点的索引,/>为第j个导航点的坐标,/>表示初始路径上第/>个节点的坐标;具体按照下式确定导航点坐标:
步骤35,精确块规划
从起始点(sx,sy)开始,沿着初始粗略路径,在每两个相邻的导航点之间进行块规划,即求解从导航点到/>的精确路径,具体包括以下步骤:
步骤351,确定块地图的中心位置坐标和块地图像素矩阵/>将两个相邻导航点坐标分别记为/>和/>则中心坐标的计算公式为根据块地图的中心坐标,确定其像素矩阵为
步骤352,将导航点坐标转化为块地图上的起始点坐标/>和目标点坐标转换公式为:
步骤353,以 为输入,利用块规划器进行两点之间的精确路径规划,输出路径记为/> 表示第j个块地图上的路径节点坐标;
步骤354,将块规划器输出的路径转化为原来尺寸为N×N的地图上的路径路径节点坐标转换表达式为:
步骤36,路径拼接:
将J-1个块地图上的路径规划结果依次进行拼接,得到最终的路径ψfinal,表示为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111530627.4A CN114153216B (zh) | 2021-12-14 | 2021-12-14 | 基于深度强化学习和块规划的月面路径规划系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111530627.4A CN114153216B (zh) | 2021-12-14 | 2021-12-14 | 基于深度强化学习和块规划的月面路径规划系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114153216A CN114153216A (zh) | 2022-03-08 |
CN114153216B true CN114153216B (zh) | 2023-10-03 |
Family
ID=80450891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111530627.4A Active CN114153216B (zh) | 2021-12-14 | 2021-12-14 | 基于深度强化学习和块规划的月面路径规划系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114153216B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115328117B (zh) * | 2022-07-15 | 2023-07-14 | 大理大学 | 基于强化学习的蛋白质动态配体通道最优路径分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110955242A (zh) * | 2019-11-22 | 2020-04-03 | 深圳市优必选科技股份有限公司 | 机器人导航方法、系统、机器人及存储介质 |
CN112362066A (zh) * | 2020-11-20 | 2021-02-12 | 西北工业大学 | 一种基于改进的深度强化学习的路径规划方法 |
JP2021034050A (ja) * | 2019-08-21 | 2021-03-01 | 哈爾浜工程大学 | 強化学習に基づくauv行動計画及び動作制御方法 |
CN113359820A (zh) * | 2021-05-28 | 2021-09-07 | 中国地质大学(武汉) | 一种基于dqn的无人机路径规划方法 |
CN113486871A (zh) * | 2021-09-07 | 2021-10-08 | 中国人民解放军国防科技大学 | 基于深度图的无人车局部自主控制方法、装置和设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210103286A1 (en) * | 2019-10-04 | 2021-04-08 | Hong Kong Applied Science And Technology Research Institute Co., Ltd. | Systems and methods for adaptive path planning |
-
2021
- 2021-12-14 CN CN202111530627.4A patent/CN114153216B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021034050A (ja) * | 2019-08-21 | 2021-03-01 | 哈爾浜工程大学 | 強化学習に基づくauv行動計画及び動作制御方法 |
CN110955242A (zh) * | 2019-11-22 | 2020-04-03 | 深圳市优必选科技股份有限公司 | 机器人导航方法、系统、机器人及存储介质 |
CN112362066A (zh) * | 2020-11-20 | 2021-02-12 | 西北工业大学 | 一种基于改进的深度强化学习的路径规划方法 |
CN113359820A (zh) * | 2021-05-28 | 2021-09-07 | 中国地质大学(武汉) | 一种基于dqn的无人机路径规划方法 |
CN113486871A (zh) * | 2021-09-07 | 2021-10-08 | 中国人民解放军国防科技大学 | 基于深度图的无人车局部自主控制方法、装置和设备 |
Non-Patent Citations (5)
Title |
---|
Fast Path Planning for Long-Range Planetary Roving Based on a Hierarchical Framework and Deep Reinforcement Learning;胡瑞军;《aerospace》;全文 * |
Top Design and Implementation of the Lunar Rover Mission Planning;Jia, Y;《Deep Space Explore》;全文 * |
基于合作博弈的智能集群自主聚集策略;张育林;《国防科技大学学报》;全文 * |
基于强化学习的无人艇路径规划方法与设计;王亭;《中国优秀硕士论文全文库工程科技Ⅱ辑》;全文 * |
基于深度Q 网络的改进RRT路径规划算法;李昭莹;《空天防御》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114153216A (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711529B (zh) | 一种基于值迭代网络的跨领域联邦学习模型及方法 | |
CN108319293B (zh) | 一种基于lstm网络的uuv实时避碰规划方法 | |
CN108334677B (zh) | 一种基于gru网络的uuv实时避碰规划方法 | |
Cao et al. | Target search control of AUV in underwater environment with deep reinforcement learning | |
CN102915039B (zh) | 一种仿动物空间认知的多机器人联合目标搜寻方法 | |
CN110794842A (zh) | 基于势场的强化学习路径规划算法 | |
WO2019076044A1 (zh) | 移动机器人局部运动规划方法、装置及计算机存储介质 | |
CN114384920A (zh) | 一种基于局部栅格地图实时构建的动态避障方法 | |
CN104777839B (zh) | 基于bp神经网络和距离信息的机器人自主避障方法 | |
CN107909206A (zh) | 一种基于深层结构循环神经网络的pm2.5预测方法 | |
CN108805327A (zh) | 基于虚拟现实的机器人路径规划与环境重建的方法和系统 | |
CN108320051B (zh) | 一种基于gru网络模型的移动机器人动态避碰规划方法 | |
CN114237235B (zh) | 一种基于深度强化学习的移动机器人避障方法 | |
CN105678417A (zh) | 一种施工隧道撑子面涌水量预测方法及装置 | |
CN114153216B (zh) | 基于深度强化学习和块规划的月面路径规划系统和方法 | |
CN112857370A (zh) | 一种基于时序信息建模的机器人无地图导航方法 | |
CN106875403A (zh) | 一种用于空中加油的仿鹰眼视觉运动目标检测方法 | |
CN110726416A (zh) | 一种基于障碍区域扩张策略的强化学习路径规划方法 | |
CN107292039A (zh) | 一种基于小波聚类的uuv巡岸轮廓构建方法 | |
CN116382267B (zh) | 一种基于多模态脉冲神经网络的机器人动态避障方法 | |
CN116679711A (zh) | 一种基于有模型与无模型强化学习的机器人避障方法 | |
CN114594776B (zh) | 一种基于层次化和模块化学习的导航避障方法 | |
CN116403176A (zh) | 基于车道点未来轨迹偏移量辅助监督的车辆轨迹预测方法 | |
Kou et al. | Autonomous Navigation of UAV in Dynamic Unstructured Environments via Hierarchical Reinforcement Learning | |
Agishev et al. | MonoForce: Self-supervised learning of physics-aware grey-box model for predicting the robot-terrain interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |