CN116503739A

CN116503739A - 一种机器人上下楼梯运动的场景识别方法及系统

Info

Publication number: CN116503739A
Application number: CN202310561819.4A
Authority: CN
Inventors: 谭治英; 孔伟丰; 范文博; 季琰; 陶旭; 李旭; 徐孝彬; 骆敏舟
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-07-28

Abstract

本发明提供了一种机器人上下楼梯运动的场景识别方法及系统，该方法通过对YOLOv5网络进行轻量化改进，使用RepVGG单元作为主干特征提取网络，并将其池化层修改为BasicRFB_s增大感受野。同时，本发明引入了深度相机获取楼梯点云信息，对点云进行基于法向量差异的分割，对于上下楼进行进一步识别判断。该方法可提高上下楼梯的识别准确率，具有较高的实用性，为机器人下一运动的状态切换提供基础。

Description

一种机器人上下楼梯运动的场景识别方法及系统

技术领域

本发明涉及一种机器人上下楼梯运动的场景识别方法及系统，属于机器视觉技术领域。

背景技术

目前，在移动机器人的上下楼梯运动中，对上下楼梯的感知是一大挑战。楼梯是最常见的人造场景之一，对于移动机器人来说是一种相对复杂的场景，目前现有的方式大多数基于接触式传感器反馈、2D视觉、3D视觉等方式，而这些方式存在识别准确率低、运行速度慢等问题。针对这一系列问题，需要引入一种合适的方法来提升机器人上下楼梯运动过程中的场景识别准确率。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种机器人上下楼梯运动的场景识别方法及系统，该方法能够改善目前场景识别的准确率低、运行速度慢等问题，提升了场景识别的实时性。

本发明采用如下技术方案，

一种机器人上下楼梯运动的场景识别方法，包括：

获取机器人上下楼梯的场景视频流；

对所述场景视频流进行采集，得到前帧RGB图像和后帧RGB图像，以及，对所述场景视频流进行点云采集；

分别对所述前帧RGB图像和后帧RGB图像采用改进的YOLOv5网络进行上下楼梯识别；

对所采集的点云采用分割算法进行上下楼梯识别；

将所述前帧RGB图像和后帧RGB图像的上下楼梯识别结果进行比对，如果识别结果一致，且与所述采用分割算法的上下楼梯识别结果一致，则输出识别结果。

进一步的，所述方法，还包括：将所述前帧RGB图像和后帧RGB图像转换为640*640*3大小，作为改进的YOLOv5网络的输入。

进一步的，若所述前帧RGB图像和后帧RGB图像的上下楼梯识别结果不一致，则重新获取机器人上下楼梯的场景视频流。

进一步的，所述改进的YOLOv5网络包括主干网络和颈部网络Neck；

所述主干网络包括一个CBL模块，3组由RepVGG网络和C3卷积层构成的结构，一组RepVGG网络和包含注意力SE Block的C3SE模块，以及池化层；

所述颈部网络Neck包括CBL卷积层，C3卷积层，C_3卷积层和Concat层。

进一步的，所述池化层采用BasicRFB_s。

进一步的，所述BasicRFB_s中第一次卷积后添加C3SE注意力机制。

进一步的，所述采用改进的YOLOv5网络进行上下楼梯识别，包括：

输入图像经过三次RepVGG和C3结构操作后，输出特征图尺寸分别为160*160*64、80*80*128、40*40*256，然后经过一次RepVGG结构，输出20*20*512的特征图，经过C3SE操作后输出20*20*512的特征图进入池化层；

由池化层输入的20*20*512的特征图经过CBL卷积层得到的20*20*256的特征图，经过Upsample上采样，输出40*40*256的特征图并与主干网络中第三个C3输出的40*40*256的特征图进行ADD操作得到大小为40*40*256特征图，将得到的特征图依次进行C_3、CBL、Upsample操作后得到大小为80*80*128特征图，再与主干网络中第二个C3模块输出的特征图进行ADD相加得到大小为80*80*128特征图，再经过一次C_3结构输出80*80*128的特征图到检测头，在后续的操作中，第一次检测头的输出结果经过一次CBL操作和颈部网络Neck第一次C_3输出结果进行ADD相加输入到下一层C_3结构中，由C_3输出一个特征图尺寸为40*40*128的检测头结果，该结果经过CBL操作和颈部网络Neck第一个CBL输出的结果进行Concat结合输出一个20*20*384的特征图，经过C_3操作后得到第三个20*20*128的检测头。

进一步的，对所述场景视频流进行点云采集，并对所采集的点云采用分割算法进行上下楼梯识别，包括：

对所述场景视频流进行点云采集，并得到各点云的法向量；

对所述法向量进行预处理后，采用聚类算法得到方向垂直于楼梯的平行面和垂直面的两类结果；

若垂直于楼梯的垂直面的点云占比大于预设阈值T₁，且垂直于楼梯的水平面的点云占比小于预设阈值T₂，则识别为上楼梯，反之识别为下楼梯。

进一步的，所述预设阈值T₁和T₂根据相机与机器人安装视角设置。

本发明还提供一种机器人上下楼梯运动的场景识别系统，用于实现前述的机器人上下楼梯运动的场景识别方法，所述系统包括：

RGB-D传感器，安装于机器人顶部或视野相对开阔的位置，用于获取机器人上下楼梯的场景视频流，对所获取的场景视频流进行采集，得到前帧RGB图像和后帧RGB图像；以及对获取的场景视频流进行点云采集；

第一识别模块，用于分别对所述前帧RGB图像和后帧RGB图像采用改进的YOLOv5网络进行上下楼梯识别；

第二识别模块，用于对所采集的点云采用分割算法进行上下楼梯识别；

输出模块，用于将所述前帧RGB图像和后帧RGB图像的上下楼梯识别结果进行比对，如果识别结果一致，且与所述采用分割算法的上下楼梯识别结果一致，则输出识别结果。

与现有技术相比，本发明所达到的有益效果：

本发明提出一种机器人上下楼梯运动的场景识别方法，改进了YOLOv5网络的结构，使其达到了轻量化，提升了场景识别的实时性，并且引入了点云信息对于场景识别结果进行进一步判断。该方法可解决机器人上下楼运动过程中的场景识别准确率低、处理速度慢等缺点，最大限度减少了深度学习过程造成的场景识别准确率低的问题，该方法相比如单独使用传感器反馈、2D视觉或3D视觉，更能满足实际工程中的使用需求。

附图说明

图1为本发明提供的一种机器人上下楼梯运动的场景识别方法流程图；

图2为本发明提供的改进的YOLOv5网络结构；

图3为RepVGG网络训练和推理过程；

图4为本发明提供的改进的BasicRFB_s网络结构；

图5为楼梯结构示意图；

图6为本发明提供的楼梯点云分割示意图；

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明提供一种机器人上下楼梯运动的场景识别方法，参见图1，包括：

获取机器人上下楼梯的场景视频流；

基于所获取的场景视频流得到前帧RGB图像和后帧RGB图像；

分别对所得到的前帧RGB图像和后帧RGB图像采用改进的YOLOv5网络进行上下楼梯识别；

对所获取的场景视频流进行点云采集，并对所采集的点云采用分割算法进行上下楼梯识别；

将前帧RGB图像和后帧RGB图像的上下楼梯识别结果进行比对，如果识别结果一致，且与采用分割算法的上下楼梯识别结果一致，则输出识别结果。

需要说明的是，将RGB-D传感器安装在机器人顶部或视野相对开阔的位置，通过RGB-D传感器对获取的场景视频流进行采集，得到前帧RGB图像和后帧RGB图像；以及通过RGB-D传感器对获取的场景视频流进行点云采集。

需要说明的是，将前帧RGB图像和后帧RGB图像转换为640*640*3大小，作为改进的YOLOv5网络的输入。

需要说明的是，若前帧RGB图像和后帧RGB图像的上下楼梯识别结果不一致，则重新获取机器人上下楼梯的场景视频流进行识别。

本发明中，改进的YOLOv5网络，如图2所示，

S1、使用RepVGG网络构建特征提取网络，提取输入图像的特征图，

RepVGG在训练过程中使用多分支结构，在推理过程中，通过结构重新参数化，将多分支结构转化为单路径结构，如图3所示，该方法既保证了训练效果，又提高了推理速度，其可以充分利用GPU设备，对于多分支模型其剪枝更方便。

S2、将Focus层替换为尺寸为3*3的普通卷积层，将提取的特征图进行卷积处理，提高模型检测速度。

S3、采用BasicRFB_s作为池化层，增强网络的特征提取能力。

进一步的，在BasicRFB_s中第一次卷积后添加C3SE注意力机制，减少池化损失，改进后的BasicRFB_s网络结构如图4所示。

参见图2，本发明的一个实施例中，改进的YOLOv5的主干网络Back bone包括一个CBL模块，3组由RepVGG网络和C3卷积层构成的结构，以及一组RepVGG网络和包含注意力SEBlock的C3SE模块，主干网络数据处理过程如下：

输入图像经过三次RepVGG和C3结构操作后，输出特征图尺寸分别为160*160*64、80*80*128、40*40*256，然后经过一次RepVGG结构，输出20*20*512的特征图，经过C3SE操作后输出20*20*512的特征图进入池化层。

改进的YOLOv5的颈部网络Neck的数据处理过程如下：

经过主干网络的特征输入到颈部网络Neck，在该部分输入池化后的图像进行卷积、上采样等。由池化层输入的20*20*512的特征图经过CBL卷积层得到的20*20*256的特征图，经过Upsample上采样，图像尺寸扩大一倍，通道数不变，输出40*40*256的特征图并与主干网络中第三个C3输出的40*40*256的特征图进行ADD操作进行特征图相加得到大小为40*40*256特征图，将得到的特征图依次进行C_3、CBL、Upsample操作后得到特征图大小为80*80*128，再与主干网络中第二个C3模块输出的特征图进行ADD相加得到特征图80*80*128，再经过一次C_3结构输出80*80*128的特征图到检测头，在后续的操作中，第一次检测头的输出结果经过一次CBL操作和Neck部分第一次C_3输出结果进行ADD相加输入到下一层C_3结构中，由C_3输出一个特征图尺寸为40*40*128的检测头结果，该结果经过CBL操作和Neck部分第一个CBL输出的结果进行Concat结合输出一个20*20*384的特征图，经过C_3操作后得到第三个20*20*128的检测头。

对于改进后的YOLOv5，若其识别前后帧结果不一致，则有可能存在识别失误，如将上楼梯识别为下楼梯，为了进一步确定此处识别目标，使用点云信息对其进一步识别，基于此，本发明的一个实施例中，采用一种基于法向量差异的分割方式对目标楼梯进行分割识别，考虑到楼梯的阶梯状结构如图5所示，楼梯可分为平行面和垂直面，其表面法向量应垂直于楼梯表面，如图5中的法向量垂直于楼梯的垂直面，法向量/>垂直于楼梯的平行面。但由于深度传感器采集点云存在误差，对点云法向量预处理后，根据楼梯的结果使用基于法向量差异的分割方式对平行面和垂直面分别进行分割，

由于传感器采集的点云的法向量较为杂乱，对于法向量进行预处理后，经过聚类得到方向对齐的法向量结果，即方向垂直于楼梯的平行面和垂直面，根据聚类结果，其分割结构如图6所示。

若机器人处于上楼状态中，则可同时观测到垂直面和水平面，若其处于下楼状态中，则只观测到水平面，因此根据前述聚类分割结果进行计算分割结果的点云数量，可依据垂直面和水平面点云在预处理后的点云中的占比来进一步判断其上下楼梯运动状态。

具体为，根据相机与机器人安装视角设置阈值进行判断，若垂直面点云占比大于阈值T₁，且水平面的占比小于阈值T₂，则为上楼梯，反之则为下楼梯。

需要说明的是，若采用改进的YOLOv5网络的识别结果与点云分割得到的识别结果不一致，则重新采集机器人上下楼梯的场景视频流进行识别流程。

采用本发明提供的改进后的网络进行机器人上下楼梯识别与现有其他网络对比结果如表1所示，可以看出，采用本发明方法进行识别的精度显著提高。

表1网络识别结果对比

基于相同的发明构思，本发明提供一种机器人上下楼梯运动的场景识别系统，用于实现上述的机器人上下楼梯运动的场景识别方法，该系统包括：

RGB-D传感器，安装在机器人顶部或视野相对开阔的位置，用于获取机器人上下楼梯的场景视频流，对所获取的场景视频流进行采集，得到前帧RGB图像和后帧RGB图像；以及对获取的场景视频流进行点云采集；

值得指出的是，该系统实施例是与上述方法实施例对应的，上述方法实施例的实现方式均适用于该装置实施例中，并能达到相同或相似的技术效果，故不在此赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种机器人上下楼梯运动的场景识别方法，其特征在于，包括：

获取机器人上下楼梯的场景视频流；

对所采集的点云采用分割算法进行上下楼梯识别；

2.根据权利要求1所述的一种机器人上下楼梯运动的场景识别方法，其特征在于，所述方法，还包括：将所述前帧RGB图像和后帧RGB图像转换为640*640*3大小，作为改进的YOLOv5网络的输入。

3.根据权利要求1所述的一种机器人上下楼梯运动的场景识别方法，其特征在于，若所述前帧RGB图像和后帧RGB图像的上下楼梯识别结果不一致，则重新获取机器人上下楼梯的场景视频流。

4.根据权利要求1所述的一种机器人上下楼梯运动的场景识别方法，其特征在于，所述改进的YOLOv5网络包括主干网络和颈部网络Neck；

5.根据权利要求4所述的一种机器人上下楼梯运动的场景识别方法，其特征在于，所述池化层采用BasicRFB_s。

6.根据权利要求5所述的一种机器人上下楼梯运动的场景识别方法，其特征在于，所述BasicRFB_s中第一次卷积后添加C3SE注意力机制。

7.根据权利要求6所述的一种机器人上下楼梯运动的场景识别方法，其特征在于，所述采用改进的YOLOv5网络进行上下楼梯识别，包括：

8.根据权利要求1所述的一种机器人上下楼梯运动的场景识别方法，其特征在于，对所述场景视频流进行点云采集，并对所采集的点云采用分割算法进行上下楼梯识别，包括：

对所述场景视频流进行点云采集，并得到各点云的法向量；

9.根据权利要求8所述的一种机器人上下楼梯运动的场景识别方法，其特征在于，所述预设阈值T₁和T₂根据相机与机器人安装视角设置。

10.一种机器人上下楼梯运动的场景识别系统，其特征在于，用于实现权利要求1至9任意一项所述的机器人上下楼梯运动的场景识别方法，所述系统包括：