CN111241944B - 基于背景目标与背景特征匹配的场景识别与回环检测方法 - Google Patents
基于背景目标与背景特征匹配的场景识别与回环检测方法 Download PDFInfo
- Publication number
- CN111241944B CN111241944B CN201911417888.8A CN201911417888A CN111241944B CN 111241944 B CN111241944 B CN 111241944B CN 201911417888 A CN201911417888 A CN 201911417888A CN 111241944 B CN111241944 B CN 111241944B
- Authority
- CN
- China
- Prior art keywords
- background
- outdoor scene
- scene image
- target
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于背景目标与背景特征匹配的场景识别与回环检测方法。包括1)获取车身摄像机拍摄的室外场景图像;2)构建基于Faster R‑CNN目标检测网络的背景特征提取网络,对输入的室外场景图像进行背景目标的检测,并使用ROI pooling层的输出作为背景目标特征;3)对背景目标特征进行降维;4)计算当前输入图像背景特征与之前输入图像背景特征之间的L2距离;5)根据L2距离计算其场景相似度,使用最近邻搜索找出相匹配的图片对,根据相似度判断是否为同一场景,得到回环检测结果。本发明在性能上接近基于人工特征提取的最新方法并优于传统的词袋匹配方法,且在特征提取的速度上与人工特征提取相比具有明显的优势。
Description
技术领域
本发明属于图像处理与自动驾驶技术领域,尤其涉及一种基于背景目标与背景特征匹配的场景识别与回环检测方法。
背景技术
随着近些年来自动驾驶技术的越发完善与其市场的火热程度,对于SLAM的研究也就具有十分重要的意义。由于目前自动驾驶场景下主要依赖的传感器仍然以视觉传感器为主,且当前市场上用于自动驾驶的视觉传感器仍然多数为单目摄像头,因而对于单目视觉SLAM的研究更加具有应用价值。
视觉SLAM其实就是一个只通过视觉传感器摄像头来对周围环境进行感知的过程。在这个过程中,没有任何的环境先验知识,我们不仅需要估计主体的运动(包括地理位置与相机的位姿等信息),还需要根据摄像头捕捉到的环境信息同时完成建图的任务。在这一过程中,SLAM的建图极其依赖与后端的优化过程。而回环检测起到了后端优化的触发作用。当检测到路径闭环时,SLAM系统可以根据闭环对路径漂移进行修正,继而优化整个系统的性能。
传统的典型单目视觉SLAM,诸如ORB-SLAM等,都是通过对输入图像提取人工设计的图像特征(如SURF,SIFT,ORB特征等),然后基于对极几何约束与图优化方法来计算摄像头的相对位移和偏转与地标的位置,从而完成对环境的构图。
然而在这些基于人工特征提取的传统视觉SLAM技术中,特征提取部分占据了大量的计算资源,想要设计更合适的特征来提高精度的同时又会占用更多的资源。这就导致在保持帧率流畅的同时,很难再进一步提高SLAM的精度。
而卷积神经网络和深度学习在计算机视觉中的成功应用及其展现出的出众的鲁棒性,为SLAM提供了新的发展方向。卷积神经网络在图像特征提取与目标识别领域取得的卓越成效,完全可以应用到单目视觉SLAM领域中。因此,基于深度学习的SLAM回环检测研究具有十分重要的现实意义。
发明内容
本发明公开了一种基于背景目标与背景特征匹配的场景识别与回环检测方法。其目的是利用室外背景目标检测网络来提取图片中的背景特征,通过提取的背景特征实现图片中的场景匹配,从而实现视觉回环检测。
本发明解决其技术问题所采用的技术方案如下:
步骤(1).获取车身摄像机拍摄的室外场景图像;
步骤(2).构建基于Faster R-CNN目标检测网络的背景特征提取网络并进行训练,所述的背景特征提取网络包括VGG主干卷积网络、RPN网络、ROI池化层;将步骤(1)获取的室外场景图像输入VGG主干卷积网络,将VGG主干卷积网络的输出作为RPN网络的输入,生成初步提取框,采用非最大值抑制算法对初步提取框进行筛选,将筛选后的提取框中的特征输入到ROI池化层,得到室外场景图像的背景目标特征;
步骤(3).将步骤(2)得到的背景目标特征输入全连接层进行降维,得到最终背景目标特征;
步骤(4).将待匹配的当前室外场景图像输入步骤(2)所述的背景特征提取网络,然后按照步骤(3)进行降维,得到当前室外场景图像对应的最终背景目标特征;计算当前室外场景图像与所有已输入的室外场景图像分别对应的最终背景目标特征之间的L2距离和匹配相似度度量;
步骤(5).使用最近邻搜索的方法通过L2距离将当前室外场景图像与之前所有已输入的室外场景图像进行匹配,匹配成功的两幅图片即为最后识别的相同室外场景,说明两幅图像描述场景为同一地点,检测到路径闭环;所述的最近邻搜索的配对规则如下:
先从n个已输入的室外场景图像中获取与当前室外场景图像最终背景目标特征之间L2距离最小的k个样本,再对所述的k个样本与当前室外场景图像最终背景目标特征之间的匹配相似度度量进行排序,匹配相似度度量最大值对应的样本即与当前室外场景图像最终背景目标匹配的室外场景图。
本发明的有益效果:
本发明通过对特定背景目标特征的提取与筛选来进行特征匹配,从而实现室外场景的场景匹配与回环检测方法。实验结果表明,基于本发明所提出的回环检测方法在测试效果上接近基于人工特征提取的最新方法并优于传统的词袋匹配方法,且特征提取速度较快,与人工特征提取相比具有明显的优势。
附图说明
图1为本发明基于背景目标与背景特征匹配的场景识别与回环检测方法的流程图。
具体实施方式
下面结合附图对本发明方法作进一步说明。
步骤(1).输入车身摄像机拍摄的室外场景图像。
步骤(2).构建基于Faster R-CNN目标检测网络的背景特征提取网络,对步骤(1)中输入的室外场景图像使用背景特征提取网络进行背景相关特征的提取。其中Faster R-CNN网络提取的背景目标设定为天空、建筑、道路、人行道、树木等室外场景下的背景目标。
整个背景特征提取网络由主干网络VGGNet,候选框提取网络RPN,非最大值抑制操作NMS和兴趣域池化层ROI Pooling Layer四个部分组成。主干网络VGGNet负责提取图像中的全局高级语义特征;候选框提取网络RPN生成初步提取框,通过NMS进行筛选;最后将框体内特征输入到ROI池化层中进行特征降维。
所构建的背景特征提取网络舍弃Faster R-CNN的全连接层,将RPN网络各个通道的输出通过一个兴趣域池化层(ROI Pooling Layer)输出固定大小为7×7的输出特征作为输入图片的背景目标特征。
所述RPN网络的损失函数为:
其中,i是一个anchor的索引,pi表示第i个anchor是背景的概率,是真值,anchor若为正,/>的值为1,反之,/>的值为0,/>这一表明回归损失函数只有当/>的时候才会被激活,ti表示预测边界框的4个参数坐标,/>表示与正anchor对应的ground-truth box的坐标向量,Ncls是cls项的归一化值为mini-batch的大小,Nreg是reg项的归一化值为anchor位置的数量,分类损失函数Lrpn_cls是一个关于背景、前景分类问题的二分类交叉熵损失函数,回归损失函数Lrpn_reg定义如下:
其中,(x,y,w,h)表示预测框的坐标,(xa,ya,wa,ha)表示真实目标框的坐标,(x*,y*,w*,h*)表示GT框的坐标。
使用ROI Pooling层得到固定大小输出特征的具体方法如下:
首先将ROI输入的目标框坐标通过输入图片与特征图大小的比值直接映射到原始特征图上,得到目标框体在原始特征图中的坐标。通过最大池化操作,将VGGNet-16总共512个通道中的特征大小都缩放到7×7大小。
步骤(3).将步骤(2)提取的背景目标特征使用一个25088到4096的全连接层将输入的7×7×512维的特征降维至4096维,将降维后的背景目标特征作为最终背景目标特征。
步骤(4).将当前输入图片得到的最终背景目标特征与之前输入图片得到的最终背景目标特征进行匹配。具体匹配方法如下所述:
对当前输入图像中得到的背景特征根据如下公式计算其与之前图像的背景特征之间的L2距离:
步骤(5)计算当前图片的最终背景目标特征与所有已输入图片的特征的匹配矩阵。匹配相似度度量Si,j计算如下:
其中,ni和nj分别为第i个室外场景图像和第j个室外场景图像中提取的背景信息个数;Si,j表示当前输入的第i个室外场景图像与之前输入的第j个室外场景图像分别对应的最终背景目标特征之间的匹配相似度度量;Thresh表示自适应的相似度阈值。
步骤(6).使用最近邻搜索的方法通过L2距离将当前图像与之前输入的图像进行匹配。最近邻搜索的配对规则如下:
步骤(7).步骤(6)中匹配成功的两幅图片即为最后识别的相同室外场景,检测到路径闭环。
为了验证本发明所述的算法的优越性能,我们在德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办的自动驾驶数据集KITTI数据集(GeigerA,Lenz P,UrtasunR.Are we ready for autonomous driving?the kitti vision benchmarksuite[C]//2012IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2012:3354-3361)上进行了回环检测的实验。
在实验中使用了查准率Precision、查全率Recall和平均精度均值Mean AveragePrecision(mAP)来对实验结果进行评估。相关计算公式如下:
其中TP、FP、FN为True Positive真正例、False Positive假正例、False Negative假反例。AP为对P-R曲线的积分。i为分类类别,共m类,mAP即为m类AP的均值。
本发明所述方法的特征提取速度在0.07到0.085秒之间。远远小于大部分人工特征提取方法所花费的时间(0.4到2秒)。表1给出了本发明所述方法在KITTI数据集的00、03和10序列上的整体性能。
表1本发明所述方法在KITTI数据集上的整体性能
Claims (4)
1.一种基于背景目标与背景特征匹配的场景识别与回环检测方法,其特征在于,包括以下步骤:
步骤(1).获取车身摄像机拍摄的室外场景图像;
步骤(2).构建基于Faster R-CNN目标检测网络的背景特征提取网络并进行训练,所述的背景特征提取网络包括VGG主干卷积网络、RPN网络、ROI池化层;将步骤(1)获取的室外场景图像输入VGG主干卷积网络,将VGG主干卷积网络的输出作为RPN网络的输入,生成初步提取框,采用非最大值抑制算法对初步提取框进行筛选,将筛选后的提取框中的特征输入到ROI池化层,得到室外场景图像的背景目标特征;
步骤(3).将步骤(2)得到的背景目标特征输入全连接层进行降维,得到最终背景目标特征;
步骤(4).将待匹配的当前室外场景图像输入步骤(2)所述的背景特征提取网络,然后按照步骤(3)进行降维,得到当前室外场景图像对应的最终背景目标特征;计算当前室外场景图像与所有已输入的室外场景图像分别对应的最终背景目标特征之间的L2距离和匹配相似度度量;
步骤(5).使用最近邻搜索的方法通过L2距离将当前室外场景图像与之前所有已输入的室外场景图像进行匹配,匹配成功的两幅图片即为最后识别的相同室外场景,说明两幅图像描述场景为同一地点,检测到路径闭环;所述的最近邻搜索的配对规则如下:
先从n个已输入的室外场景图像中获取与当前室外场景图像最终背景目标特征之间L2距离最小的k个样本,再对所述的k个样本与当前室外场景图像最终背景目标特征之间的匹配相似度度量进行排序,匹配相似度度量最大值对应的样本即与当前室外场景图像匹配的室外场景图。
2.如权利要求1所述的一种基于背景目标与背景特征匹配的场景识别与回环检测方法,其特征在于,所述的步骤(2)具体为:
步骤(2.1).建立基于Faster R-CNN目标检测网络的背景特征提取网络,所述的背景特征提取网络包括VGG主干卷积网络、RPN网络、ROI池化层和全卷积层;
步骤(2.2).将步骤(1)获取的室外场景图像输入VGG主干卷积网络,得到室外场景图像的全局特征;
步骤(2.3).将室外场景图像的全局特征输入到RPN网络,将RPN网络各个通道的输出通过一个ROI池化层得到固定大小为7×7的输出特征;所述RPN网络的损失函数为:
其中,i是一个anchor的索引,pi表示第i个anchor是背景的概率,是真值,anchor若为正,/>的值为1,反之,/>的值为0,/>表明只有当/>的时候,回归损失函数才会被激活;ti表示预测边界框的4个参数坐标,/>表示与正anchor对应的ground-truth box的坐标向量,Ncls是cls项的归一化值为mini-batch的大小,Nreg是reg项的归一化值为anchor位置的数量,分类损失函数Lrpn_cls是一个关于背景、前景分类问题的二分类交叉熵损失函数,回归损失函数Lrpn_reg定义如下:/>
其中,(x,y,w,h)表示预测框的坐标,(xa,ya,wa,ha)表示真实目标框的坐标,(x*,y*,w*,h*)表示GT框的坐标;
所述的通过一个ROI池化层得到固定大小为7×7的输出特征的具体方法为:首先将ROI输入的候选框坐标通过输入图片与特征图大小的比值直接映射到原始特征图上,得到目标框体在原始特征图中的坐标,通过最大池化操作,将VGGNet-16总共512个通道中的特征大小都缩放到7×7大小,得到7×7×512维的特征作为室外场景图像的背景目标特征。
3.如权利要求1所述的一种基于背景目标与背景特征匹配的场景识别与回环检测方法,其特征在于,所述的步骤(4)具体为:
计算当前输入的室外场景图像对应的最终背景目标特征与之前输入的一个室外场景图像对应的最终背景目标特征之间的L2距离,计算公式如下:
计算匹配相似度度量Si,j,计算公式如下:
其中,ni和nj分别为第i个室外场景图像和第j个室外场景图像中提取的背景信息个数;Si,j表示当前输入的第i个室外场景图像与之前输入的第j个室外场景图像分别对应的最终背景目标特征之间的匹配相似度度量;Thresh表示自适应的相似度阈值;
遍历所有已输入的室外场景图像,得到当前室外场景图像与所有已输入的室外场景图像分别对应的最终背景目标特征之间的L2距离和匹配相似度度量。
4.如权利要求1所述的一种基于背景目标与背景特征匹配的场景识别与回环检测方法,其特征在于,步骤(2)所述的背景目标特征包括天空、建筑、道路、人行道、树木。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911417888.8A CN111241944B (zh) | 2019-12-31 | 2019-12-31 | 基于背景目标与背景特征匹配的场景识别与回环检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911417888.8A CN111241944B (zh) | 2019-12-31 | 2019-12-31 | 基于背景目标与背景特征匹配的场景识别与回环检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241944A CN111241944A (zh) | 2020-06-05 |
CN111241944B true CN111241944B (zh) | 2023-05-26 |
Family
ID=70869640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911417888.8A Active CN111241944B (zh) | 2019-12-31 | 2019-12-31 | 基于背景目标与背景特征匹配的场景识别与回环检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241944B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108764A (zh) * | 2017-12-26 | 2018-06-01 | 东南大学 | 一种基于随机森林的视觉slam回环检测方法 |
CN108827306A (zh) * | 2018-05-31 | 2018-11-16 | 北京林业大学 | 一种基于多传感器融合的无人机slam导航方法及系统 |
CN109948425A (zh) * | 2019-01-22 | 2019-06-28 | 中国矿业大学 | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9177404B2 (en) * | 2012-10-31 | 2015-11-03 | Qualcomm Incorporated | Systems and methods of merging multiple maps for computer vision based tracking |
-
2019
- 2019-12-31 CN CN201911417888.8A patent/CN111241944B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108764A (zh) * | 2017-12-26 | 2018-06-01 | 东南大学 | 一种基于随机森林的视觉slam回环检测方法 |
CN108827306A (zh) * | 2018-05-31 | 2018-11-16 | 北京林业大学 | 一种基于多传感器融合的无人机slam导航方法及系统 |
CN109948425A (zh) * | 2019-01-22 | 2019-06-28 | 中国矿业大学 | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 |
Non-Patent Citations (2)
Title |
---|
Zhenlong Du.et..Fast Scene Reconstruction Based on Improved SLAM.《Computers, Materials & Continua 》.2019,第61卷(第1期),第243-254页. * |
张金凤等.动态场景下基于视觉特征的 SLAM 方法.《计算机工程》.2019,第46卷(第10期),第95-102页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111241944A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229397B (zh) | 基于Faster R-CNN的图像中文本检测方法 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN111914642B (zh) | 一种行人重识别方法、装置、设备及介质 | |
CN110766723B (zh) | 一种基于颜色直方图相似性的无人机目标跟踪方法及系统 | |
CN111241943B (zh) | 基于背景目标与三元组损失的场景识别与回环检测方法 | |
CN108804992B (zh) | 一种基于深度学习的人群统计方法 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN109886079A (zh) | 一种车辆检测与跟踪方法 | |
CN110781785A (zh) | 基于Faster RCNN算法改进的交通场景下行人检测方法 | |
CN110633727A (zh) | 基于选择性搜索的深度神经网络舰船目标细粒度识别方法 | |
CN111860297A (zh) | 一种应用于室内固定空间的slam回环检测方法 | |
CN113420819A (zh) | 一种基于CenterNet的轻量级水下目标检测方法 | |
CN107045630B (zh) | 一种基于rgbd的行人检测和身份识别方法及系统 | |
CN111709317A (zh) | 一种基于显著性模型下多尺度特征的行人重识别方法 | |
CN112926552B (zh) | 基于深度神经网络的遥感影像车辆目标识别模型及方法 | |
CN114495170A (zh) | 一种基于局部抑制自注意力的行人重识别方法及系统 | |
CN111476314B (zh) | 一种融合光流算法与深度学习的模糊视频检测方法 | |
CN116912763A (zh) | 一种融合步态人脸模态的多行人重识别方法 | |
CN115641445B (zh) | 一种非对称内卷积与Transformer相融合的遥感图像阴影检测方法 | |
CN111241944B (zh) | 基于背景目标与背景特征匹配的场景识别与回环检测方法 | |
CN115690770A (zh) | 基于空间注意力特征的非受限场景下的车牌识别方法 | |
CN115880332A (zh) | 一种低空飞行器视角的目标跟踪方法 | |
Guo et al. | Overlapped pedestrian detection based on yolov5 in crowded scenes | |
CN112487927B (zh) | 一种基于物体关联注意力的室内场景识别实现方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |