CN111241944B

CN111241944B - 基于背景目标与背景特征匹配的场景识别与回环检测方法

Info

Publication number: CN111241944B
Application number: CN201911417888.8A
Authority: CN
Inventors: 丁勇; 阮翊婷; 周一博; 庄泽; 朱子奇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-05-26
Anticipated expiration: 2039-12-31
Also published as: CN111241944A

Abstract

本发明公开了一种基于背景目标与背景特征匹配的场景识别与回环检测方法。包括1)获取车身摄像机拍摄的室外场景图像；2)构建基于Faster R‑CNN目标检测网络的背景特征提取网络，对输入的室外场景图像进行背景目标的检测，并使用ROI pooling层的输出作为背景目标特征；3)对背景目标特征进行降维；4)计算当前输入图像背景特征与之前输入图像背景特征之间的L2距离；5)根据L2距离计算其场景相似度，使用最近邻搜索找出相匹配的图片对，根据相似度判断是否为同一场景，得到回环检测结果。本发明在性能上接近基于人工特征提取的最新方法并优于传统的词袋匹配方法，且在特征提取的速度上与人工特征提取相比具有明显的优势。

Description

基于背景目标与背景特征匹配的场景识别与回环检测方法

技术领域

本发明属于图像处理与自动驾驶技术领域，尤其涉及一种基于背景目标与背景特征匹配的场景识别与回环检测方法。

背景技术

随着近些年来自动驾驶技术的越发完善与其市场的火热程度，对于SLAM的研究也就具有十分重要的意义。由于目前自动驾驶场景下主要依赖的传感器仍然以视觉传感器为主，且当前市场上用于自动驾驶的视觉传感器仍然多数为单目摄像头，因而对于单目视觉SLAM的研究更加具有应用价值。

视觉SLAM其实就是一个只通过视觉传感器摄像头来对周围环境进行感知的过程。在这个过程中，没有任何的环境先验知识，我们不仅需要估计主体的运动(包括地理位置与相机的位姿等信息)，还需要根据摄像头捕捉到的环境信息同时完成建图的任务。在这一过程中，SLAM的建图极其依赖与后端的优化过程。而回环检测起到了后端优化的触发作用。当检测到路径闭环时，SLAM系统可以根据闭环对路径漂移进行修正，继而优化整个系统的性能。

传统的典型单目视觉SLAM，诸如ORB-SLAM等，都是通过对输入图像提取人工设计的图像特征(如SURF，SIFT，ORB特征等)，然后基于对极几何约束与图优化方法来计算摄像头的相对位移和偏转与地标的位置，从而完成对环境的构图。

然而在这些基于人工特征提取的传统视觉SLAM技术中，特征提取部分占据了大量的计算资源，想要设计更合适的特征来提高精度的同时又会占用更多的资源。这就导致在保持帧率流畅的同时，很难再进一步提高SLAM的精度。

而卷积神经网络和深度学习在计算机视觉中的成功应用及其展现出的出众的鲁棒性，为SLAM提供了新的发展方向。卷积神经网络在图像特征提取与目标识别领域取得的卓越成效，完全可以应用到单目视觉SLAM领域中。因此，基于深度学习的SLAM回环检测研究具有十分重要的现实意义。

发明内容

本发明公开了一种基于背景目标与背景特征匹配的场景识别与回环检测方法。其目的是利用室外背景目标检测网络来提取图片中的背景特征，通过提取的背景特征实现图片中的场景匹配，从而实现视觉回环检测。

本发明解决其技术问题所采用的技术方案如下：

步骤(1).获取车身摄像机拍摄的室外场景图像；

步骤(2).构建基于Faster R-CNN目标检测网络的背景特征提取网络并进行训练，所述的背景特征提取网络包括VGG主干卷积网络、RPN网络、ROI池化层；将步骤(1)获取的室外场景图像输入VGG主干卷积网络，将VGG主干卷积网络的输出作为RPN网络的输入，生成初步提取框，采用非最大值抑制算法对初步提取框进行筛选，将筛选后的提取框中的特征输入到ROI池化层，得到室外场景图像的背景目标特征；

步骤(3).将步骤(2)得到的背景目标特征输入全连接层进行降维，得到最终背景目标特征；

步骤(4).将待匹配的当前室外场景图像输入步骤(2)所述的背景特征提取网络，然后按照步骤(3)进行降维，得到当前室外场景图像对应的最终背景目标特征；计算当前室外场景图像与所有已输入的室外场景图像分别对应的最终背景目标特征之间的L₂距离和匹配相似度度量；

步骤(5).使用最近邻搜索的方法通过L₂距离将当前室外场景图像与之前所有已输入的室外场景图像进行匹配，匹配成功的两幅图片即为最后识别的相同室外场景，说明两幅图像描述场景为同一地点，检测到路径闭环；所述的最近邻搜索的配对规则如下：

先从n个已输入的室外场景图像中获取与当前室外场景图像最终背景目标特征之间L2距离最小的k个样本，再对所述的k个样本与当前室外场景图像最终背景目标特征之间的匹配相似度度量进行排序，匹配相似度度量最大值对应的样本即与当前室外场景图像最终背景目标匹配的室外场景图。

本发明的有益效果：

本发明通过对特定背景目标特征的提取与筛选来进行特征匹配，从而实现室外场景的场景匹配与回环检测方法。实验结果表明，基于本发明所提出的回环检测方法在测试效果上接近基于人工特征提取的最新方法并优于传统的词袋匹配方法，且特征提取速度较快，与人工特征提取相比具有明显的优势。

附图说明

图1为本发明基于背景目标与背景特征匹配的场景识别与回环检测方法的流程图。

具体实施方式

下面结合附图对本发明方法作进一步说明。

步骤(1).输入车身摄像机拍摄的室外场景图像。

步骤(2).构建基于Faster R-CNN目标检测网络的背景特征提取网络，对步骤(1)中输入的室外场景图像使用背景特征提取网络进行背景相关特征的提取。其中Faster R-CNN网络提取的背景目标设定为天空、建筑、道路、人行道、树木等室外场景下的背景目标。

整个背景特征提取网络由主干网络VGGNet，候选框提取网络RPN，非最大值抑制操作NMS和兴趣域池化层ROI Pooling Layer四个部分组成。主干网络VGGNet负责提取图像中的全局高级语义特征；候选框提取网络RPN生成初步提取框，通过NMS进行筛选；最后将框体内特征输入到ROI池化层中进行特征降维。

所构建的背景特征提取网络舍弃Faster R-CNN的全连接层，将RPN网络各个通道的输出通过一个兴趣域池化层(ROI Pooling Layer)输出固定大小为7×7的输出特征作为输入图片的背景目标特征。

所述RPN网络的损失函数为：

其中，i是一个anchor的索引，p_i表示第i个anchor是背景的概率，

是真值，anchor若为正，/>

的值为1，反之，/>

的值为0，/>

这一表明回归损失函数只有当/>

的时候才会被激活，t_i表示预测边界框的4个参数坐标，/>

表示与正anchor对应的ground-truth box的坐标向量，N_cls是cls项的归一化值为mini-batch的大小，N_reg是reg项的归一化值为anchor位置的数量，分类损失函数L_{rpn_cls}是一个关于背景、前景分类问题的二分类交叉熵损失函数，回归损失函数L_{rpn_reg}定义如下：

在对所有目标候选框计算损失函数并求和之后，用N_cls和N_reg归一化，同时引入平衡因子λ；回归损失函数中的t_i和

表示如下：

其中，(x，y，w，h)表示预测框的坐标，(x_a，y_a，w_a，h_a)表示真实目标框的坐标，(x^*，y^*，w^*，h^*)表示GT框的坐标。

使用ROI Pooling层得到固定大小输出特征的具体方法如下：

首先将ROI输入的目标框坐标通过输入图片与特征图大小的比值直接映射到原始特征图上，得到目标框体在原始特征图中的坐标。通过最大池化操作，将VGGNet-16总共512个通道中的特征大小都缩放到7×7大小。

步骤(3).将步骤(2)提取的背景目标特征使用一个25088到4096的全连接层将输入的7×7×512维的特征降维至4096维，将降维后的背景目标特征作为最终背景目标特征。

步骤(4).将当前输入图片得到的最终背景目标特征与之前输入图片得到的最终背景目标特征进行匹配。具体匹配方法如下所述：

对当前输入图像中得到的背景特征根据如下公式计算其与之前图像的背景特征之间的L₂距离：

其中，n为最终背景目标特征的维度，

分别表示第i个室外场景图像和第j个室外场景图像的第k维最终背景目标特征，d_i，j表示特征之间的L₂距离。

步骤(5)计算当前图片的最终背景目标特征与所有已输入图片的特征的匹配矩阵。匹配相似度度量S_i，j计算如下：

/>

其中，n_i和n_j分别为第i个室外场景图像和第j个室外场景图像中提取的背景信息个数；S_i，j表示当前输入的第i个室外场景图像与之前输入的第j个室外场景图像分别对应的最终背景目标特征之间的匹配相似度度量；Thresh表示自适应的相似度阈值。

步骤(6).使用最近邻搜索的方法通过L₂距离将当前图像与之前输入的图像进行匹配。最近邻搜索的配对规则如下：

步骤(7).步骤(6)中匹配成功的两幅图片即为最后识别的相同室外场景，检测到路径闭环。

为了验证本发明所述的算法的优越性能，我们在德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办的自动驾驶数据集KITTI数据集(GeigerA，Lenz P，UrtasunR.Are we ready for autonomous driving？the kitti vision benchmarksuite[C]//2012IEEE Conference on Computer Vision and Pattern Recognition.IEEE，2012：3354-3361)上进行了回环检测的实验。

在实验中使用了查准率Precision、查全率Recall和平均精度均值Mean AveragePrecision(mAP)来对实验结果进行评估。相关计算公式如下：

其中TP、FP、FN为True Positive真正例、False Positive假正例、False Negative假反例。AP为对P-R曲线的积分。i为分类类别，共m类，mAP即为m类AP的均值。

本发明所述方法的特征提取速度在0.07到0.085秒之间。远远小于大部分人工特征提取方法所花费的时间(0.4到2秒)。表1给出了本发明所述方法在KITTI数据集的00、03和10序列上的整体性能。

表1本发明所述方法在KITTI数据集上的整体性能

/>

Claims

1.一种基于背景目标与背景特征匹配的场景识别与回环检测方法，其特征在于，包括以下步骤：

步骤(1).获取车身摄像机拍摄的室外场景图像；

先从n个已输入的室外场景图像中获取与当前室外场景图像最终背景目标特征之间L2距离最小的k个样本，再对所述的k个样本与当前室外场景图像最终背景目标特征之间的匹配相似度度量进行排序，匹配相似度度量最大值对应的样本即与当前室外场景图像匹配的室外场景图。

2.如权利要求1所述的一种基于背景目标与背景特征匹配的场景识别与回环检测方法，其特征在于，所述的步骤(2)具体为：

步骤(2.1).建立基于Faster R-CNN目标检测网络的背景特征提取网络，所述的背景特征提取网络包括VGG主干卷积网络、RPN网络、ROI池化层和全卷积层；

步骤(2.2).将步骤(1)获取的室外场景图像输入VGG主干卷积网络，得到室外场景图像的全局特征；

步骤(2.3).将室外场景图像的全局特征输入到RPN网络，将RPN网络各个通道的输出通过一个ROI池化层得到固定大小为7×7的输出特征；所述RPN网络的损失函数为：

是真值，anchor若为正，/>

的值为1，反之，/>

的值为0，/>

表明只有当/>

的时候，回归损失函数才会被激活；t_i表示预测边界框的4个参数坐标，/>

表示与正anchor对应的ground-truth box的坐标向量，N_cls是cls项的归一化值为mini-batch的大小，N_reg是reg项的归一化值为anchor位置的数量，分类损失函数L_{rpn_cls}是一个关于背景、前景分类问题的二分类交叉熵损失函数，回归损失函数L_{rpn_reg}定义如下：/>

表示如下：

t_x＝(x-x_a)/w_a；t_y＝(y-y_a)/h_a；

其中，(x,y,w,h)表示预测框的坐标，(x_a,y_a,w_a,h_a)表示真实目标框的坐标，(x^*,y^*,w^*,h^*)表示GT框的坐标；

所述的通过一个ROI池化层得到固定大小为7×7的输出特征的具体方法为：首先将ROI输入的候选框坐标通过输入图片与特征图大小的比值直接映射到原始特征图上，得到目标框体在原始特征图中的坐标，通过最大池化操作，将VGGNet-16总共512个通道中的特征大小都缩放到7×7大小，得到7×7×512维的特征作为室外场景图像的背景目标特征。

3.如权利要求1所述的一种基于背景目标与背景特征匹配的场景识别与回环检测方法，其特征在于，所述的步骤(4)具体为：

计算当前输入的室外场景图像对应的最终背景目标特征与之前输入的一个室外场景图像对应的最终背景目标特征之间的L₂距离，计算公式如下：

其中，n为最终背景目标特征的维度，

分别表示第i个室外场景图像和第j个室外场景图像的第k维最终背景目标特征，d_i,j表示特征之间的L₂距离；

计算匹配相似度度量S_i,j，计算公式如下：

其中，n_i和n_j分别为第i个室外场景图像和第j个室外场景图像中提取的背景信息个数；S_i,j表示当前输入的第i个室外场景图像与之前输入的第j个室外场景图像分别对应的最终背景目标特征之间的匹配相似度度量；Thresh表示自适应的相似度阈值；

遍历所有已输入的室外场景图像，得到当前室外场景图像与所有已输入的室外场景图像分别对应的最终背景目标特征之间的L₂距离和匹配相似度度量。

4.如权利要求1所述的一种基于背景目标与背景特征匹配的场景识别与回环检测方法，其特征在于，步骤(2)所述的背景目标特征包括天空、建筑、道路、人行道、树木。