CN117232531A

CN117232531A - 机器人导航规划方法及存储介质和终端设备

Info

Publication number: CN117232531A
Application number: CN202311507493.3A
Authority: CN
Inventors: 陈俊逸; 汤继敏
Original assignee: Changsha Xiaogu Technology Co ltd
Current assignee: Changsha Xiaogu Technology Co ltd
Priority date: 2023-11-14
Filing date: 2023-11-14
Publication date: 2023-12-15
Anticipated expiration: 2043-11-14
Also published as: CN117232531B

Abstract

本发明涉及机器人导航规划方法及存储介质和终端设备，包括：构建以全局路径规划、局部代价地图和机器人动作为输入，是否进行全局路径重规划或机器人下一步动作为输出的导航模型；根据机器人所处环境，确定当前全局路径规划；根据机器人状态，确定当前局部代价地图和当前机器人动作；将当前全局路径规划、当前局部代价地图和当前机器人动作，输入导航模型，输出是否进行全局路径重规划或机器人下一步动作；若输出为进行全局路径重规划，则返回；若输出为机器人下一步动作，则根据输出结果导航机器人下一步动作。

Description

机器人导航规划方法及存储介质和终端设备

技术领域

本发明涉及控制领域，特别是涉及一种机器人的导航技术。

背景技术

当前机器人技术在各行各业都有着广泛的应用，例如送餐机器人、安防机器人等。这些场景中，机器人可能会面对复杂的地形环境，遇到人和车辆等各种障碍物，给导航带来极大挑战。所以应运而生了机器人导航技术，即根据地图和环境信息给出机器人的移动方向和速度大小，引导机器人朝着目标点运动，同时能够防止碰到障碍物。

传统算法，如专利申请CN107436148B公开了根据全局路径、局部代价地图、障碍物的运动状态信息和估计的运动轨迹，来计算机器人的导航策略，提高避障能力，没有使用深度学习算法，其导航响应速度和准确度都不太高。

随着深度学习技术的发展，已应用于机器人导航中，如专利申请CN115585813A公开了一种基于注意力机制的深度强化学习机器人导航方法，来提高陌生且复杂环境中进行导航能力；专利申请CN112882469B公开了将全局路径作为初始路径，并在该路径中选择一个位于机器人和目标点间的路点作为机器人的临时目标，用于训练基于深度强化学习的导航模型，能够提高机器人的导航效率。

这些方法取得了不错的效果，但仍然至少存在以下两个问题：1）为应对环境信息的更新或者障碍物的出现，导航系统需要进行全局路径的重规划，但是现有重规划的时机都是通过设置规则来选择的，可能会出现过于频繁或者不够及时的问题；2）在局部路径的规划中，忽略了移动障碍物之间的位置和速度关系，导致在行人、障碍物较多的拥挤环境中性能较差。

因此，如何进一步提高机器人的导航效果，改善上述至少一个问题，是本领域亟待解决的核心要点。

发明内容

为解决上述技术问题，本发明提供一种机器人导航规划方法，包括：

S1：构建以全局路径规划、局部代价地图和机器人动作为输入，是否进行全局路径重规划或机器人下一步动作为输出的导航模型；

S2：根据机器人所处环境，确定当前全局路径规划；

S3：根据机器人状态，确定当前局部代价地图和当前机器人动作；

S4：将当前全局路径规划、当前局部代价地图和当前机器人动作，输入导航模型，输出是否进行全局路径重规划或机器人下一步动作；

S5：若输出为进行全局路径重规划，则返回步骤S2；若输出为机器人下一步动作，则根据输出结果导航机器人下一步动作；

导航模型，包括输入层、特征提取层、拼接层和输出层；

输入层，以状态空间state=[keypoints, costmap, velocity]为输入；其中keypoints表示由当前位置到m个路径点的坐标向量，为全局路径规划；costmap表示局部代价地图；velocity表示机器人速度；m是后续路径点的个数；

特征提取层，包括三部分；第一部分以状态空间state中的机器人速度为输入，包括两个全连接层，提取得到第一特征；第二部分以状态空间state中的m个路径点的坐标向量为输入，包括两个全连接层，提取得到第二特征；第三部分以状态空间state中的局部代价地图为输入，包括一个深度卷积网络，和一个全连接层，提取得到第三特征；

拼接层，将第一特征、第二特征和第三特征进行拼接，再将拼接结果输入到一个全连接层中；

输出层，以动作空间action=[Replan, Vs]为输出；其中，Replan表示是否进行全局路径重规划， Vs表示下一步动作，包括速度大小和方向。

进一步地，Vs包括若干个离散动作，用速度和方向表示。

进一步地，Vs由a*b个离散动作组成；其中a为速度数量，a个速度在 (0, V_max ]之间呈平均间隔;b为方向数量，b个方向均匀分布在 [-Turn_max, Turn_max)之间；其中V_max是机器人的最大速度，Turn_max是机器人的最大角度；动作空间总共有a*b+1维。

进一步地，选择导航模型输出得分最高的动作确定是否进行全局路径重规划或下一步动作。

进一步地，采用深度强化学习方法对导航模型进行训练，训练的奖励函数表示为：

R = R_step + R_collision + R_safety + R_waypoint

其中，R_step表示较小的负的步长得分；

R_collision表示对碰撞的惩罚得分；

R_safety表示避免碰撞的安全得分；

R_waypoint表示靠近目标的奖励得分。

进一步地，骤S2，包括：

S21：根据机器人所处环境，确定全局路径点；

S22：将全局路径点做路径规划，确定从当前点到目标点的可行路径。

进一步地，步骤S3，包括：

S31：机器人感应周围环境的点云数据；

S32：根据点云数据，分别确定周围障碍物的位置坐标、X轴速度和Y轴速度，以分别得到局部障碍物位置代价图、X轴速度代价图和Y轴速度代价图；

S33：将局部障碍物位置代价图、X轴速度代价图和Y轴速度代价图进行拼接，得到局部代价地图。

进一步地，步骤S32，包括：

根据点云数据，计算周围障碍物的位置坐标，并填充至栅格地图中，得到局部障碍物位置代价图；

对点云数据进行聚类，估计周围移动障碍物的速度，分别投射到X轴和Y轴上，并将其值填充至地图中障碍物的位置上，得到X轴速度代价图和Y轴速度代价图。

另一方面，本发明还提供一种计算机存储介质，存储有可执行程序代码；所述可执行程序代码，用于执行上述任意的机器人导航规划方法。

另一方面，本发明还提供一种终端设备，包括存储器和处理器；所述存储器存储有可被处理器执行的程序代码；所述程序代码用于执行上述任意的机器人导航规划方法。

本发明提供一种机器人导航规划方法及存储介质和终端设备，针对导航过程中全局信息的更新问题，将全局路径信息与重规划动作融合到深度强化学习的模型构建训练中，能够自动判断是否需要进行全局路径重规划，并给出机器人下一步的运动导航信息。针对局部环境中动态障碍物的问题，基于网络模型，如深度卷积神经网络来处理机器人周围移动障碍物的位置、速度信息，能够更好挖掘移动障碍物之间的空间和移动关系，能进一步提高导航规划的及时性和准确性。

附图说明

图1为本发明机器人导航规划方法的一个实施例的流程图；

图2为导航模型的一个实施例的神经网络结构图；

图3为离散化的机器人速度示意图；

图4为构建局部代价地图的一个实施例的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示，诸如上、下、左、右、前、后……，则该方向性指示仅用于解释在某一特定姿态下，各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。另外，若本发明实施例中有涉及“第一、第二”、“S1、S2”、“步骤一、步骤二”等的描述，则该类描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量或者表明方法的执行顺序等，本领域技术人员可以理解的凡是在发明技术构思下，不违背其发明要点的，都应该列入本发明的保护范围。

如图1所示，本发明提供一种机器人导航规划方法，包括：

优选的，如图2所示，该导航模型，可选但不仅限于包括输入层、特征提取层、拼接层和输出层；可选但不仅限于采用神经网络和Q学习的深度强化学习算法进行构建和训练。具体的：

输入层，可选但不仅限于以状态空间state=[keypoints, costmap, velocity]为输入；其中keypoints表示由当前位置到m个路径点的坐标向量，表示全局路径规划；costmap表示局部代价地图，velocity表示机器人速度。其中，m是后续路径点的个数。具体的，当坐标点不足m个时，用0来填充，m可选但不仅限于为5。

特征提取层，可选但不仅限于包括三部分；第一部分以状态空间state中的机器人速度为输入，包括两个全连接层FC，提取得到第一特征feat1 = FC(FC(velocity))。第二部分以状态空间state中的路径点的坐标向量，即m个全局路径点为输入，包括两个全连接层FC，提取得到第二特征feat2 = FC(FC(keypoints))。第三部分以状态空间state中的局部代价地图为输入，包括一个深度卷积网络，如ResNet18、MobileNet、ShuffleNet等，和一个全连接层FC，提取得到第三特征feat3 = FC(ResNet18(costmap))。

拼接层，将第一特征feat1、第二特征feat2和第三特征feat3进行拼接，再将拼接结果输入到一个全连接层FC中；

输出层，可选但不仅限于以动作空间action=[Replan, Vs]为输出；其中Replan表示是否进行全局路径重规划， Vs表示下一步动作，即下一步的速度矢量，包括速度大小和方向。

优选的，Replan =1表示进行全局路径重规划；Replan=0表示不进行全局路径重规划。

更为优选的，Vs，可选但不仅限于包括若干个离散动作，用速度和方向表示。示例的，Vs可选但不仅限于由40个离散动作组成，如图3所示，5个速度在 (0, V_max ]之间呈平均间隔，8个方向均匀分布在 [-Turn_max, Turn_max)之间，其中V_max是机器人的最大速度，Turn_max是机器人的最大角度。因此，在该实例下，动作空间总共有41维，包括Replan和40个离散动作，在运行时，可选但不仅限于选择得分最高的动作作为最终执行的策略，即下一步动作：是否进行全局路径重规划Replan或下一步速度Vs，包括速度大小和方向。

更为优选的，可选但不仅限于采用深度强化学习方法对导航模型进行训练，训练的奖励函数的目标，可选但不仅限于为：机器人沿着全局路径点进行运动，同时避免在移动过程中发生碰撞，且最小化机器人平均到达时间。具体的，后续先根据动作空间价值选择得分最高的动作作为输出，然后再计算奖励返回训练模型参数。优选的，该奖励函数表示为：

R = R_step + R_collision + R_safety + R_waypoint

其中，R_step表示较小的负的步长得分；该得分以鼓励机器人沿着最短路径到达目标位置，可选但不仅限于R_step=-0.1；

R_collision表示对碰撞的惩罚得分；该得分为负数，可选但不仅限于R_collision=-25；

R_safety表示避免碰撞的安全得分；该得分可选但不仅限于为R_safety=K*d_obs，其中K为常系数，可选为100；d_obs是机器人与障碍物之间的最小间隔距离；

R_waypoint表示靠近目标的奖励得分；该得分可选但不仅限于为R_waypoint=3，如当机器人到达路径点附近区域1米时，或者到达目标点附近0.5米时奖励。

则，在该实施例中，输出层在输出时，根据动作空间中41维动作的各自得分，即对应的状态价值value，表示为value=QNet(state)，而输出动作空间action中得分最大的动作，即：是否进行全局路径重规划或速度Vs中的一个。可以表示为a = action[idx]。其中，a=argmax(value)是价值最大值所对应的动作索引。a为Replan或其他速度：Vs₀…Vs_N，N为速度的维数。当a等于Replan时，则进行重规划；否则，输出选择的速度。再计算奖励reward,反馈训练网络参数。

S2：根据机器人所处环境，确定当前全局路径规划；具体的：可选但不仅限于根据机器人当前所处的环境，对其接下来的运行路径等进行全局规划。优选的，包括：

S21：根据机器人所处环境，确定全局路径点；具体的，可选但不仅限于将当前环境，如已知的地图信息等，采用栅格地图进行表示，得到全局路径点。

S22：将全局路径点做路径规划，确定从当前点到目标点的可行路径；具体的，可选但不仅限于使用Theta*算法，一种任意角度的全局路径规划算法，来进行全局路径的规划，得到一条从当前点到目标点，即任意一点到另一点的可行路径，确定整个全局地图内的全局路径规划，并确定两两直线的拐点处为路径点，用于引导机器人移动。

S3：根据机器人状态，确定当前局部代价地图和当前机器人动作；具体的，可选但不仅限于根据机器人当前所处的状态，如周围的障碍物位置、障碍物的移动情况等，确定当前局部代价地图；该机器人周围的障碍物，可选但不仅限于为机器人一定半径范围内的障碍物，或机器人感知范围内，即能够感应得到的障碍物。优选的，如图4所示，可选但不仅限于包括：

S31：机器人感应周围环境的点云数据；具体的，可选但不仅限于使用激光雷达得到激光雷达数据，以得到周围环境的点云数据。

S32：根据点云数据，分别确定周围障碍物的位置坐标、X轴速度和Y轴速度，以分别得到局部障碍物位置代价图、X轴速度代价图和Y轴速度代价图；具体的，计算周围障碍物的位置坐标，可选但不仅限于填充至栅格地图中，通过障碍物栅格化表示，以得到局部障碍物位置代价图。同时对点云数据进行聚类，估计周围移动障碍物的速度。该速度，可选但不仅限于为矢量，包括其速度值和速度方向。然后将该速度分别投射到X轴和Y轴上，并将其值填充到地图中障碍物的位置上，得到X轴速度代价图和Y轴速度代价图。

S33：将局部障碍物位置代价图、X轴速度代价图和Y轴速度代价图进行拼接，得到局部代价地图。具体的，将三个代价图进行拼接，得到局部代价地图。因此，局部代价地图上的每一点包含三个数据，分别表示该位置坐标是否有障碍物、X轴速度、Y轴速度。

在该实施例中，给出了构建局部代价地图的优选实施例。值得注意的，步骤S31-S33为构建局部代价地图的优选实施例，但并不以此为限。机器人周围障碍物的信息，可选但不仅限于包括上述位置坐标、X轴速度和Y轴速度，还可选但不仅限于包括上述信息的任意一种或两种，还可包括加速度等其他信息，同样可以通过点云数据而聚类得到。该优选实施例只是提供了一种综合考虑模型精确度、响应时间和复杂度的信息方式，包括障碍物位置坐标、X轴速度和Y轴速度。更为具体的，该障碍物信息，也不仅限于通过点云数据而确定，还可通过深度图等而确定。

更为具体的，关于当前机器人速度，可选但不仅限于采用传感器等检测设备采集提取；

具体的，可选但不仅限于将上述示例的全局路径规划（结合机器人当前的多个路径点信息）、以及感知范围内障碍物信息所表示成的局部代价地图和机器人当前速度，一起输入到上述示例的基于深度强化学习的导航模型NavNet中，输出机器人下一步动作，示例为：是否进行全局路径重规划Replan和机器人的速度Vs。可选的，当Replan为1时，则进行全局路径重规划，否则输出机器的导航速度Vs，该导航速度Vs为矢量，包括速度值和速度方向。

S5：若输出为进行全局路径重规划，则返回步骤S2；若输出为机器人下一步动作，则根据输出结果导航机器人下一步动作。

具体的，根据输出结果，若需要进行全局路径重规划，则返回步骤S2；若无需进行全局路径重规划，则根据输出速度导航机器人下一步动作。具体的，可选但不仅限于若Replan=1，则反馈；若否，则输出导航速度Vs导航机器人下一步动作。

在该实施例中，为解决复杂场景下的机器人导航问题，本发明提出一种机器人导航规划方法，针对导航过程中全局信息的更新问题，将全局路径信息与重规划动作融合到模型构建训练中，能够自动判断是否需要进行全局路径重规划，并给出机器人下一步的运动导航信息。针对局部环境中动态障碍物的问题，基于网络模型，如深度卷积神经网络来处理机器人周围移动障碍物的位置、速度信息，能够更好挖掘移动障碍物之间的空间和移动关系，能进一步提高导航规划的及时性和准确性。

优选的，步骤S1，在构建导航模型后，还包括对导航模型进行深度强化学习训练的步骤。具体的，在深度强化学习的训练中，导航模型NavNet会不断的与环境进行交互。为降低训练的难度并尝试更多的场景，该训练步骤可选但不仅限于包括：

使用Stage模拟器构建包含各种地图和移动障碍物的仿真环境；

用OCRA避障算法控制移动障碍物的运动，用导航模型NavNet的输出控制机器人的运动；

将仿真环境封装成Gym库的形式，其接口包括当前状态的获取，奖励得分的获取，下一动作的设置等，便于深度学习的训练。最后，采用深度Q学习方法对神经网络进行训练，并使用经验回放缓存、价值网络模型更新、时间差分学习、SGD优化等技术来加速网络的收敛速度。本发明使用的深度Q学习的训练方法可以使用其他深度强化学习方法，可选但不仅限于包括Double DQN、Dueling DQN等。

再将训练好的导航模型，部署到机器人上，控制机器人动作。

具体的，在该步骤中，将训练好的导航模型NavNet部署到机器人上，并按照图1中机器人导航规划方法的流程控制机器人的动作移动。导航模型根据当前环境的状态输出相应的策略，并决定是否进行全局路径重规划，或者朝着某个方向以某速度运动。与训练时不同的是，此时不需要再计算奖励函数，而是直接输出模型结果。

本发明的优点：

现有机器人导航技术中全局路径信息存在更新不及时或者过于频繁的问题，且难以处理包含较多移动障碍物的复杂环境。为解决该问题，我们提出了以下方法：

1）将全局路径信息与重规划动作融合到深度强化学习的训练中，能够自动判断是否需要进行全局路径重规划，避免重规划更新不及时或过于频繁的问题；

2）使用深度卷积神经网络来处理机器人周围移动障碍物的位置、速度信息，能够更好挖掘移动障碍物之间的空间关系，进一步保证导航的可靠性，更够更好的适应众多移动障碍物的复杂动态场景。

示例性的，所述程序代码可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述程序代码在终端设备中的执行过程。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可以是终端设备的内部存储单元，例如硬盘或内存。所述存储器也可以是终端设备的外部存储设备，例如终端设备上配备的插接式硬盘，智能存储卡（SmartMedia Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器还可以既包括终端设备的内部存储单元也包括外部存储设备。所述存储器用于存储所述程序代码以及终端设备所需的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

上述计算机存储介质和终端设备基于上述机器人导航规划方法而创造，其技术作用和有益效果在此不再赘述，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种机器人导航规划方法，其特征在于，包括：

S2：根据机器人所处环境，确定当前全局路径规划；

导航模型，包括输入层、特征提取层、拼接层和输出层；

2.根据权利要求1所述的机器人导航规划方法，其特征在于，Vs包括若干个离散动作，用速度和方向表示。

3.根据权利要求2所述的机器人导航规划方法，其特征在于，Vs由a*b个离散动作组成；其中a为速度数量，a个速度在 (0, V_max ]之间呈平均间隔;b为方向数量，b个方向均匀分布在 [-Turn_max, Turn_max)之间；其中V_max是机器人的最大速度，Turn_max是机器人的最大角度；动作空间总共有a*b+1维。

4.根据权利要求3所述的机器人导航规划方法，其特征在于，选择导航模型输出得分最高的动作确定是否进行全局路径重规划或下一步动作。

5.根据权利要求4所述的机器人导航规划方法，其特征在于，采用深度强化学习方法对导航模型进行训练，训练的奖励函数表示为：

R = R_step + R_collision + R_safety + R_waypoint

其中，R_step表示较小的负的步长得分；

R_collision表示对碰撞的惩罚得分；

R_safety表示避免碰撞的安全得分；

R_waypoint表示靠近目标的奖励得分。

6.根据权利要求1所述的机器人导航规划方法，其特征在于，步骤S2，包括：

S21：根据机器人所处环境，确定全局路径点；

7.根据权利要求1-6任意一项所述的机器人导航规划方法，其特征在于，步骤S3，包括：

S31：机器人感应周围环境的点云数据；

8.根据权利要求7所述的机器人导航规划方法，其特征在于，步骤S32，包括：

9.一种计算机存储介质，其特征在于，存储有可执行程序代码；所述可执行程序代码，用于执行权利要求1-8任意一项所述的机器人导航规划方法。

10.一种终端设备，其特征在于，包括存储器和处理器；所述存储器存储有可被处理器执行的程序代码；所述程序代码用于执行权利要求1-8任意一项所述的机器人导航规划方法。