CN116310799A

CN116310799A - 语义信息与几何约束相结合的动态特征点剔除方法

Info

Publication number: CN116310799A
Application number: CN202310115772.9A
Authority: CN
Inventors: 闫河; 黄奎霖; 王旭; 蔡朝安
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-06-23

Abstract

本发明涉及于图像处理技术领域，尤其涉及语义信息与几何约束相结合的动态特征点剔除方法，步骤包括：在ORB‑SLAM2系统框架中创建目标检测线程，设计了YOLOv5目标检测网络；提取图像ORB特征点，使用了对极几何约束的运动一致性检测算法判断特征点动态性；提出语义信息与几何约束相结合的动态特征点剔除模块，最终确定目标检测边界框中的动态物体，实现了动态特征点的有效剔除。本发明方法可以快速识别场景中的物体类别，通过验证证明，本发明方法在TUM数据集上其绝对轨迹误差、平移和旋转相对位姿误差的RMSE值与ORB‑SLAM2相比分别降低了97.71％、95.10％和91.97％。

Description

语义信息与几何约束相结合的动态特征点剔除方法

技术领域

本发明涉及于图像处理技术领域，尤其涉及语义信息与几何约束相结合的动态特征点剔除方法。

背景技术

同时定位与地图构建(Simultaneous Localization and Mapping，SLAM)技术是指搭载特定传感器的移动机器人在未知环境中从任意位置出发，于运动过程中根据观测到的路标，然后计算视野内路标与机器人的距离和夹角，从而定位自身的位置和姿态，同时在自身定位基础上增量式地构建周围环境地图。SLAM技术是机器人感知自身状态和外部环境的关键技术，更是机器人完成环境感知、自主定位与导航、路径规划、人机交互等复杂任务的关键及基础。

视觉SLAM因视觉传感器成本低、能获取丰富的环境信息被广泛应用，在静态环境下能够保证其鲁棒性和高效性，然而在实际动态场景下，由于场景中动态物体的特征点干扰，使得视觉SLAM图像帧间特征点匹配时出现误匹配，进而估计的位姿信息误差较大，最终导致机器人的运动轨迹与地图构建出现严重偏差。目前国内外动态场景视觉SLAM技术在一定程度上剔除了运动物体的特征点，减少了动态特征点干扰，提升了定位精度，然而大多技术没有考虑潜在运动物体的特征点，如临时停放的车辆。若仅依据先验类别信息把物体的特征点判为动态特征点并给予剔除将，存在特征点“过剔除”问题，同样易导致视觉SLAM定位精度不高。此外，目前动态SLAM技术忽略了SLAM系统的实时性，增加了时间消耗，导致系统无法实时运行，机器人耗电量高。因此，进行语义信息与几何约束相结合的动态特征点剔除研究具有极其重要的实际应用价值，同时还可用语义信息构建三维语义地图，实现机器人对场景高层次的感知，有利于智能机器人完成人机交互等高级任务。

本发明的目的在于研究适用于动态场景下视觉SLAM的动态特征点剔除方法，从而实现机器人准确地估计位姿，获得精确的定位信息。本发明致力于从改进轻量级目标检测网络、特征点提取、运动一致性检测、动态特征点剔除等四方面开展了研究，力图提高动态场景视觉SLAM的定位精度，以满足移动机器人定位要求。

发明内容

本发明的目的是提供语义信息与几何约束相结合的动态特征点剔除方法，用于解决现有技术中忽略了SLAM系统的实时性，增加了时间消耗导致系统无法实时运行，机器人耗电量高的技术问题。

为了实现上述目的，本发明采用了如下技术方案：

本发明提供一种语义信息与几何约束相结合的动态特征点剔除方法，包括以下步骤：

S1：在ORB-SLAM2系统框架创建一个目标检测线程并行运行，并设计一轻量级的YOLOv5目标检测网络为视觉SLAM提供物体的语义信息；

S2：提取图像ORB特征点，使用对极几何约束的运动一致性检测算法判断特征点动态性；

S3：提出语义信息与几何约束相结合的动态特征点剔除模块，最终确定目标检测边界框中的动态物体，实现了动态特征点的有效剔除；

S4：利用保留的静态特征点进行位姿估计，提高动态场景中的SLAM定位精度。

进一步地，S1包括以下步骤：

S100：改进ORB-SLAM2系统框架的ShuffleNetv2网络：

在步长为1的基本单元块中引入了Ghost模块和SE模块；

在步长为2的基本单元块中增加SE模块；

并在步长为1和步长为2的两个基本单元块中均新增深度可分离卷积，得到改进后两个步长不同的基本单元块；

S101：使用改进后的ShuffleNetv2网络替换YOLOv5的骨干网络：

S102：骨干网络使用Hard-Swish激活函数代替ReLu；

颈部使用PAN结构获得三个不同尺度的特征图，并使用CSP结构对相邻特征图进行特征连接和融合；

S103：训练过程中使用SIoU损失函数；

S104：进行ShuffleNet-YOLOv5目标检测模型训练，使用数据集进行训练，得到语义信息。

进一步地，所述SIoU损失函数由4个Cost函数组成：Angle cost、Distance cost、Shape cost、IoU cost；

总的损失函数为：

Loss＝W_boxL_box+W_clsL_cls

其中，L_cls使用Focal Loss作为分类预测损失，W_box、W_cls分别是边界框和分类损失的权重，L_box是边界框的坐标预测损失，如下所示：

Δ＝∑_t＝x,y(1-e^-(2-Λ)ρt)

式中，Δ是添加了角度惩罚Angle cost的Distance cost函数，其中Angle cost的表达式如上式Λ所示Ω是Shape cost函数，IOU是IoU cost函数。

进一步地，S2中所述使用对极几何约束的运动一致性检测算法判断特征点动态性，包括：

S200：使用ORB特征提取算法提取特征点；

S201：设两帧图像I₁、I₂之间的运动中，O₁和O₂为两个相机的光心，空间点P在I₁、I₂中分别得到特征匹配点位置P₁和P₂；O₁、O₂、P三个点确定的平面称为极平面，O₁O₂称为基线，极平面与两个像平面I₁、I₂之间的相交线l₁、l₂即为极线；

特征点P₁和P₂的归一化坐标为P₁＝[u₁,v₁,1]^T,P₂＝[u₂,v₂,1]^T；

S202：计算极线：

通过以下等式可计算极线l₁：

式中，基础矩阵F根据配对特征点的像素位置求出；

如果空间点P是静态点，则满足多视图几何中静态场景定义的标准约束公式P₂ ^TFP₁＝0，而动态目标中所提取到的特征点则会违背以上约束，因此，根据特征点是否违背约束来区分匹配的正确性；

S203：判断特征点静动态：

通过下式计算点到极线的距离D：

如果D小于预设的阈值，则认为点P是静态的，否则是动态的。

进一步地，S3包括：

S300：根据S1所述方法获取物体的类别和边界框结果，根据S2所述方法记录潜在动态点，并提出动态特征剔除模块精确地剔除正在运动的物体的特征点；

S301：根据目标检测线程并行运行得到物体的预测结果，根据物体的运动属性，将物体根据类别标签分成高动态(人、车辆等自身具有运动属性)、低动态(书、椅子等具有被移动属性)和静态(桌子等静态属性)三大类；

S302：初判断：

若YOLOv5边界框中的特征点只位于低动态或静态物体上，则不对特征点进行细判断处理；只有在特征点处于高动态物体框内时才进行细判断；

S303：细判断：

此时对于高动态物体框中的特征点，要考虑之前运动一致性检测的潜在特征点是否也在高动态物体框中，若潜在特征点同时在高动态物体框中，并且其特征点数量大于一定阈值，则将该物体确定为移动状态，并丢弃该物体上所有特征点；

S304：使用场景中的静态特征点估计相机位姿，完成SLAM系统整体定位。

本发明至少具备以下有益效果：

本发明首先在开源框架ORB-SLAM2的基础上，在系统前端部分加入了设计的轻量级YOLOv5目标检测网络作为独立线程并行处理，该方法可以快速识别场景中的物体类别，为SLAM提供了物体类别的语义信息，同时在跟踪线程中提取图像的ORB特征点，并使用基于极线几何的运动一致性检测算法记录潜在动态点，然后在动态特征点剔除模块中将物体根据目标检测结果的类别标签分成高动态(人、车辆等)、低动态(书、椅子等)和静态三类，考虑之前运动一致性检测的潜在动态点落在分割物体内的数量，从而精确剔除正在运动的物体的特征点并有效地保留了静态特征点，进而利用保留的静态特征点进行位姿估计。该方法在TUM数据集上其绝对轨迹误差(ATE)、平移和旋转相对位姿误差(RPE)的RMSE值与ORB-SLAM2相比分别降低了97.71％、95.10％和91.97％。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的语义信息与几何约束相结合的动态特征点剔除方法的流程图；

图2(a)和(b)为改进的ShuffleNetv2基本单元块图；

图3为改进的ShuffleNet-YOLOv5网络结构图；

图4为对极几何约束关系图；

图5(a)和(b)为动态特征点剔除效果图；

图6(a)和(b)为在fr3_w_xyz序列上的轨迹对比图；

图7(a)和(b)为在fr3_w_half序列上的轨迹对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，为本发明公开的语义信息与几何约束相结合的动态特征点剔除方法流程图，包括以下步骤：

S1：在ORB-SLAM2系统框架中创建了一个目标检测线程并行运行，设计了轻量级的YOLOv5目标检测网络为视觉SLAM提供物体的语义信息；

S100：为了使得模型体积更加轻量、精度更高，在步长为1的ShuffleNetv2基本单元块的基础上引入了GhostNet网络中的Ghost模块和SE(Squeeze-and-ExcitationNetworks)模块，在步长为2的基本单元块中增加SE模块，并在两个单元块中均新增深度可分离卷积，得到改进后两个步长不同的ShuffleNetv2基本单元块。如图2为改进的ShuffleNetv2基本单元块图。

S101：使用改进后的轻量级ShuffleNetv2网络替换YOLOv5的骨干网络。

S102：骨干网络使用Hard-Swish激活函数代替ReLu，计算速度更快；颈部使用PAN(Path Aggregation Network)结构获得三个不同尺度的特征图，并使用CSP结构对相邻特征图进行特征连接和融合。图3为改进的ShuffleNet-YOLOv5网络结构图。

S103：目标检测其有效性在很大程度取决于损失函数的定义，在训练期间最小化损失可以将目标的预测框与相应的真实框进行匹配。在训练过程中使用一种新的损失函数SIoU，其中考虑到所需回归之间的向量角度，重新定义了惩罚指标。SIoU损失函数由4个Cost函数组成：Angle cost、Distance cost、Shape cost、I oU cost。总的损失函数为：

Loss＝W_boxL_box+W_clsL_cls

Δ＝∑_t＝x,y(1-e^-(2-Λ)ρt)

式中，Δ是添加了角度惩罚Anglecost的Distance cost函数，其中Angle cost的表达式如上式Λ所示，Ω是Shape cost函数，IOU是IoU cost函数。SIoU损失添加角度惩罚函数有效地减少了损失的总自由度，提高了训练的速度和推理的准确性。

S104：在硬件平台为NVIDIA RTX8000 48G显卡上进行ShuffleNet-YOLOv5目标检测模型训练，使用Microsoft coco2017数据集进行训练，得到语义标签信息。

S2：同时在跟踪线程中提取图像ORB特征点，使用了对极几何约束的运动一致性检测算法判断特征点动态性；

具体实施时，基于对极几何约束的运动一致性算法包括以下具体步骤：

S200：使用ORB特征提取算法提取特征点。

S201：在S200提取ORB特征基础上，如图4的对极几何约束关系，设两帧图像I₁、I₂之间的运动，O₁和O₂为两个相机的光心，空间点P在I₁、I₂中分别得到特征匹配点位置P₁和P₂。O₁、O₂、P三个点确定的平面称为极平面，O₁O₂称为基线，极平面与两个像平面I₁、I₂之间的相交线l₁、l₂即为极线。特征点P₁和P₂的归一化坐标为P₁＝[u₁,v₁,1]^T,P₂＝[u₂,v₂,1]^T。

S202：计算极线。通过以下等式可计算极线l₁。

式中，基础矩阵F可根据配对特征点的像素位置求出，如果空间点P是静态点，则满足多视图几何中静态场景定义的标准约束公式P₂ ^TFP₁＝0，而动态目标中所提取到的特征点则会违背以上约束，因此可以根据特征点是否违背约束来区分匹配的正确性。

S203：判断特征点静动态。当特征点P₂不在极线l₂上，空间点P可能为动态特征点。计算点到极线的距离D，下式即为对极几何的极线约束公式。

S3：提出语义信息与几何约束相结合的动态特征点剔除模块，最终确定目标检测边界框中的动态物体，从而实现了动态特征点的有效剔除；

具体实施时，基于语义信息与几何约束的动态特征点剔除，利用目标检测获取物体的类别和边界框，直接移除所有落在边界框中的特征点是一种减少动态物体干扰的简单方式，但会移除某些包含在边界框中的静态特征点。当动态物体占据图像很大一部分时，直接剔除会使得系统跟踪的特征点过少，导致系统工作失效。此外，除了剔除运动物体本身，还需要判断潜在移动物体，比如被人移动的椅子，临时停放的车辆等。因此，结合权利3所述对极几何约束方法精确判断特征点动态性，从而达到动态环境中极大地提高了定位精度的目的。为此，综合考虑下，S3包括以下具体步骤：

S300：在S1所述方法获取物体的类别和边界框结果，S2所述方法记录潜在动态点的基础上提出动态特征剔除模块精确地剔除正在运动的物体的特征点。

S301：目标检测线程并行运行得到物体的预测结果，根据物体的运动属性，将物体根据类别标签分成高动态(人、车辆等自身具有运动属性)、低动态(书、椅子等具有被移动属性)和静态(桌子等静态属性)三大类。

S302：初判断。若YOLOv5边界框中的特征点只位于低动态或静态物体上，不对特征点进行细判断处理。只有在特征点处于高动态物体框内时才进行细判断。

S303：细判断。此时对于高动态物体框中的特征点，要考虑之前运动一致性检测的潜在特征点是否也在高动态物体框中，若潜在特征点同时在高动态物体框中，并且其特征点数量大于一定阈值，则将该物体确定为移动状态，并丢弃该物体上所有特征点。

S304：最后，使用场景中的静态特征点估计相机位姿，完成定位。

S4：利用保留的静态特征点进行位姿估计，从而提高动态场景中的SLAM定位精度。

验证本发明公开的语义信息与几何约束的动态特征点剔除方法：如图5(a)表示未剔除动态特征点效果图，图5(b)表示剔除动态特征点效果图，可以看到动态物体的特征点被成功剔除，图中部分红色的潜在动态物体没有被移动，有效的保留了静态特征点。

验证本发明公开的剔除动态特征点后SLAM系统在高动态场景下定位精度与鲁棒性及时间效率：在TUM数据集的动态对象类“walking”序列进行测试，该序列包括fr3_walking_static、fr3_walking_xyz、fr3_walking_rpy、fr3_walking_half 4组高动态场景，其中xyz、rpy、halfsphere、static则对应了相机的移动方式。通过TUM提供的在线测试工具评测计算结果，用以评估SLAM系统位姿估计的准确性。图6是本发明方法与ORB-SLAM2方法在fr3_walking_xyz序列上的可视化轨迹误差结果，图7是本发明方法与ORB-SLAM2方法在fr3_walking_half序列上的可视化轨迹误差结果。图中黑线表示相机轨迹的真实值，蓝线表示运动估计的相机轨迹，红线表示真实轨迹与估计轨迹之间的差别。本发明方法与ORB-SLAM2的绝对轨迹误差对比结果如表1所示。

在定量分析中使用绝对轨迹误差的均方根误差(RMSE)和标准差误差(S.D)用作评估指标，RMSE表示估计值与真实值之间的偏差，S.D.反映了估计的相机轨迹的分散性。从表1绝对轨迹误差可知，本发明方法在fr3_walking_xyz序列下的RMSE和S.D值比ORB-SLAM2分别降低了97.71％和97.81％，在其他序列中也有显著降低。

表1绝对轨迹误差ATE对比结果(单位：m)

验证本发明公开的剔除动态特征点后SLAM系统在高动态场景下的时间效率：在TUM数据集上的fr3_walking_xyz序列测试了跟踪线程处理所需的时间，从表2可知跟踪线程耗时数据。

表2跟踪线程的平均时间对比(单位：ms)

结合上述可知：在算法时间方面，SLAM系统中新增线程会使得时间消耗增加，本发明主要时间消耗用于目标检测线程。本发明设计的轻量级目标检测模型计算量小、精度高，且采用多线程并行操作，降低了部分时间消耗，系统整体上能达到20帧/s的处理速度，对系统实时性影响较小，能够满足算法的实时性要求。本发明方法在处理高动态场景时仅使用CPU便取得了出色的性能，表明更满足实时性的需求。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.语义信息与几何约束相结合的动态特征点剔除方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语义信息与几何约束相结合的动态特征点剔除方法，其特征在于，S1包括以下步骤：

S100：改进ORB-SLAM2系统框架的ShuffleNetv2网络：

在步长为1的基本单元块中引入了Ghost模块和SE模块；

在步长为2的基本单元块中增加SE模块；

S101：使用改进后的ShuffleNetv2网络替换YOLOv5的骨干网络：

S102：骨干网络使用Hard-Swish激活函数代替ReLu；

S103：训练过程中使用SIoU损失函数；

3.根据权利要求1所述的语义信息与几何约束相结合的动态特征点剔除方法，其特征在于，所述SIoU损失函数由4个Cost函数组成：Angle cost、Distance cost、Shape cost、IoU cost；

总损失函数为：

Loss＝W_boxL_box+W_clsL_cls

Δ＝∑_t＝x,y(1-e^-(2-Λ)ρt)

式中，Δ是添加了角度惩罚Angle cost的Distance cost函数，其中Angle cost的表达式如上式Λ所示，Ω是Shape cost函数，IOU是IoU cost函数。

4.根据权利要求1所述的语义信息与几何约束相结合的动态特征点剔除方法，其特征在于，S2中所述使用对极几何约束的运动一致性检测算法判断特征点动态性，包括：

S200：使用ORB特征提取算法提取特征点；

S202：计算极线：

通过以下等式可计算极线l₁：

式中，基础矩阵F根据配对特征点的像素位置求出；

S203：判断特征点静动态：

通过下式计算点到极线的距离D：

5.根据权利要求1所述的语义信息与几何约束相结合的动态特征点剔除方法，其特征在于，S3包括：

S301：根据目标检测线程并行运行得到物体的预测结果，根据物体的运动属性，将物体根据类别标签分成高动态、低动态和静态三类；

S302：初判断：

S303：细判断：