CN111241943A - 自动驾驶场景下基于背景目标检测与三元组损失的场景识别与回环检测方法 - Google Patents
自动驾驶场景下基于背景目标检测与三元组损失的场景识别与回环检测方法 Download PDFInfo
- Publication number
- CN111241943A CN111241943A CN201911417831.8A CN201911417831A CN111241943A CN 111241943 A CN111241943 A CN 111241943A CN 201911417831 A CN201911417831 A CN 201911417831A CN 111241943 A CN111241943 A CN 111241943A
- Authority
- CN
- China
- Prior art keywords
- network
- background
- feature
- features
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种自动驾驶场景下基于背景目标检测与三元组损失的场景识别与回环检测方法。1)输入车身采集到的室外场景图像;2)构建基于FasterR‑CNN目标检测网络的背景特征提取网络,对输入的室外场景图像进行背景目标的检测,并使用ROI pooling层的输出作为背景特征;3)特征降维;4)计算当前输入图像背景特征与之前输入图像背景特征之间的L2距离;5)根据L2距离计算其场景相似度,使用最近邻搜索找出相匹配的图片对,根据相似度判断是否为同一场景,得到回环检测结果。本发明所提出的方法在性能上能够接近基于人工特征提取的最新方法并优于传统的词袋匹配方法,且特征提取的速度快,与人工特征提取相比具有明显的优势。
Description
技术领域
本发明属于图像处理与自动驾驶技术领域,尤其涉及一种自动驾驶场景下基于背景目标检测与三元组损失的场景识别与回环检测方法。
背景技术
随着近些年来自动驾驶技术的越发完善与其市场的火热程度,对于SLAM的研究也就具有十分重要的意义。由于目前自动驾驶场景下主要依赖的传感器仍然以视觉传感器为主,且当前市场上用于自动驾驶的视觉传感器仍然多数为单目摄像头,因而对于单目视觉SLAM的研究更加具有应用价值。
视觉SLAM其实就是一个只通过视觉传感器—摄像头来对周围环境进行感知的过程。在这个过程中,没有任何的环境先验知识,我们不仅需要估计主体的运动(包括地理位置与相机的位姿等信息),还需要根据摄像头捕捉到的环境信息同时完成建图的任务。在这一过程中,SLAM的建图极其依赖与后端的优化过程。而回环检测起到了后端优化的触发作用。当检测到路径闭环时,SLAM系统可以根据闭环对路径漂移进行修正,继而优化整个系统的性能。
传统的典型单目视觉SLAM,诸如ORB-SLAM等,都是通过对输入图像提取人工设计的图像特征(如SURF,SIFT,ORB特征等),然后基于对极几何约束与图优化方法来计算摄像头的相对位移和偏转与地标的位置,从而完成对环境的构图。
然而在这些基于人工特征提取的传统视觉SLAM技术中,特征提取部分占据了大量的计算资源,想要设计更合适的特征来提高精度的同时又会占用更多的资源。这就导致在保持帧率流畅的同时,很难再进一步提高SLAM的精度。
而卷积神经网络和深度学习在计算机视觉中的成功应用及其展现出的出众的鲁棒性,为SLAM提供了新的发展方向。卷积神经网络在图像特征提取与目标识别领域取得的卓越成效,完全可以应用到单目视觉SLAM领域中。因此,基于深度学习的SLAM回环检测研究具有十分重要的现实意义。
发明内容
本发明公开了一种自动驾驶场景下基于背景目标检测与三元组损失的场景识别与回环检测方法,其目的是利用室外背景目标检测网络来提取图片中的背景特征,通过提取的背景特征实现图片中的场景匹配,从而实现视觉回环检测。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤(1).获取车身摄像机拍摄的室外场景图像;
步骤(2).构建基于Faster R-CNN目标检测网络的背景特征提取网络并进行训练,所述的背景特征提取网络包括VGG主干卷积网络、RPN网络、ROI池化层;将步骤(1)获取的室外场景图像输入VGG主干卷积网络,将VGG主干卷积网络的输出作为RPN网络的输入,生成初步提取框,采用非最大值抑制算法对初步提取框进行筛选,将筛选后的提取框中的特征输入到ROI池化层,得到室外场景图像的高阶背景特征;
步骤(3).构建一个用于自动生成匹配特征的特征细化网络并进行训练,所述特征细化网络由两个卷积层组成;将步骤(2)获得的高阶背景特征作为特征细化网络的输入,得到细化后的背景特征;
步骤(4).将待匹配的当前室外场景图像输入步骤(2)所述的背景特征提取网络,将得到的高阶背景特征输入到步骤(3)所述的特征细化网络,得到当前室外场景图像细化后的背景特征;计算当前室外场景图像与所有已输入的室外场景图像分别对应的细化后的背景特征之间的L2距离,当L2距离小于阈值时,说明两幅图像相似度接近,匹配成功,即二者描述场景为同一地点,检测到路径闭环。
本发明的有益效果:
本发明通过对特定背景目标识别的网络提取并筛选图像场景中背景相关物体的高阶抽象特征,再通过三元组损失训练自动生成基于L2距离判定的场景特征,从而实现纯视觉的场景识别与回环检测方法。实验结果表明,基于本发明所提出的方法在回环检测方法在性能上接近基于人工特征提取的最新方法并在动态物体抗干扰的能力上优于传统的词袋匹配方法,且在特征提取的速度上与人工特征提取相比具有明显的优势,此外基于三元组损失训练得到的特征相比起直接使用背景物体高阶抽象特征,省去了对相似度匹配函数的设计环节。
附图说明
图1为本发明基于背景目标检测与三元组损失的场景识别与回环检测方法的流程图。
具体实施方式
下面结合附图对本发明方法作进一步说明。
步骤(1).输入车身摄像机拍摄的室外场景图像;
步骤(2).构建基于Faster R-CNN目标检测网络的背景特征提取网络,对步骤(1)中输入的室外场景图像使用背景特征提取网络进行背景相关特征的提取。其中Faster R-CNN网络提取的背景目标设定为天空、建筑、道路、人行道、树木等室外场景下的背景目标。
整个背景特征提取网络由主干网络VGGNet,候选框提取网络RPN,非最大值抑制操作NMS和兴趣域池化层ROI Pooling Layer四个部分组成。主干网络VGGNet负责提取图像中的全局高级语义特征;候选框提取网络RPN生成初步提取框,通过NMS进行筛选;最后将框体内特征输入到ROI池化层中进行特征降维。
所构建的背景特征提取网络舍弃Faster R-CNN的全连接层,将RPN网络各个通道的输出通过一个兴趣域池化层(ROI Pooling Layer)输出固定大小为11×11的输出特征作为输入图片的背景特征。
所述RPN网络的损失函数为:
其中,i是一个anchor的索引,pi表示第i个anchor是背景的概率,是真值,anchor若为正,的值为1,反之,的值为0,这一表明回归损失函数只有当的时候才会被激活,ti表示预测边界框的4个参数坐标,表示与正anchor对应的ground-truth box的坐标向量,Ncls是cls项的归一化值为mini-batch的大小,Nreg是reg项的归一化值为anchor位置的数量,分类损失函数Lrpn_cls是一个关于背景、前景分类问题的二分类交叉熵损失函数,回归损失函数Lrpn_reg定义如下:
其中,(x,y,w,h)表示预测框的坐标,(xa,ya,wa,ha)表示预测框的坐标,(x*,y*,w*,h*)表示GT框的坐标。
使用ROI Pooling层得到固定大小输出特征的具体方法如下:
首先将ROI输入的目标框坐标通过输入图片与特征图大小的比值直接映射到原始特征图上,得到目标框体在原始特征图中的坐标。通过最大池化操作,将VGGNet-16总共512个通道中的特征大小都缩放到11×11大小。
步骤(3).构建一个能够自动生成匹配特征的由两个全连接层的特征细化网络。通过三元组损失Triplet Loss输入回环检测的正负样本进行训练。三元组损失具体实现方法如下所述:
将训练集中的数据分为三类,标准样本Anchor,正样本Positive,负样本Negative,构建成三元组。Anchor为训练数据集中随机选取的一个样本,Positive为和Anchor属于同一类的样本,而Negative则为和Anchor不同类的样本。
由于在回环检测中,场景样本并非分类数据,场景闭环的判据是当前相机拍摄所处的位置。这里选取的Positive样本其实是与Anchor样本图像距离小于2米的场景图像,而Negative则是超出2米的场景图像或者干脆是不相干的场景图像。
该网络输入为场景图像经过背景特征提取网络之后输出的抽象高阶背景特征。通过两个卷积层,根据式(5)中所示损失函数训练得到的权重值进行运算后,得到输出的抽象场景特征。
式(6)中m为样本总量,i为当前样本,和分别为Anchor样本与Positive样本、Anchor样本与Negative样本输出特征之间L2距离。α为设定的样本L2距离阈值。[*]+为Hinge Loss损失函数,其具体运算如下式所示:
[x]+=LHinge(x)=max(0,x) (7)
步骤(4).基于步骤(3)中由三元组损失训练网络得到的自适应特征,由以下公式计算两幅图片特征之间的L2距离:
为了验证本发明所述的算法的优越性能,我们在德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办的自动驾驶数据集KITTI数据集(Geiger A,Lenz P,UrtasunR.Are we ready for autonomous driving?the kitti vision benchmark suite[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2012:3354-3361)上进行了回环检测的实验。
在实验中使用了查准率Precision、查全率Recall和平均精度均值Mean AveragePrecision(mAP)来对实验结果进行评估。相关计算公式如下:
其中TP、FP、FN为True Positive真正例、False Positive假正例、False Negative假反例。AP为对P-R曲线的积分。i为分类类别,共m类,mAP即为m类AP的均值。
本发明所述方法的特征提取速度在0.075到0.09秒之间。远远小于大部分人工特征提取方法所花费的时间(0.4到2秒)。表1给出了本发明所述方法在KITTI数据集的00、03和10序列上的整体性能。
表1本发明所述方法在KITTI数据集上的整体性能
Claims (5)
1.自动驾驶场景下基于背景目标检测与三元组损失的场景识别与回环检测方法,其特征在于,包括以下步骤:
步骤(1).获取车身摄像机拍摄的室外场景图像;
步骤(2).构建基于Faster R-CNN目标检测网络的背景特征提取网络并进行训练,所述的背景特征提取网络包括VGG主干卷积网络、RPN网络、ROI池化层;将步骤(1)获取的室外场景图像输入VGG主干卷积网络,将VGG主干卷积网络的输出作为RPN网络的输入,生成初步提取框,采用非最大值抑制算法对初步提取框进行筛选,将筛选后的提取框中的特征输入到ROI池化层,得到室外场景图像的高阶背景特征;
步骤(3).构建一个用于自动生成匹配特征的特征细化网络并进行训练,所述特征细化网络由两个卷积层组成;将步骤(2)获得的高阶背景特征作为特征细化网络的输入,得到细化后的背景特征;
步骤(4).将待匹配的当前室外场景图像输入步骤(2)所述的背景特征提取网络,将得到的高阶背景特征输入到步骤(3)所述的特征细化网络,得到当前室外场景图像细化后的背景特征;计算当前室外场景图像与所有已输入的室外场景图像分别对应的细化后的背景特征之间的L2距离,当L2距离小于阈值时,说明两幅图像相似度接近,匹配成功,即二者描述场景为同一地点,检测到路径闭环。
2.如权利要求1所述的自动驾驶场景下基于背景目标检测与三元组损失的场景识别与回环检测方法,其特征在于,所述的步骤(2)具体为:
步骤(2.1).建立基于Faster R-CNN目标检测网络的背景特征提取网络,所述的背景特征提取网络包括VGG主干卷积网络、RPN网络、ROI池化层和全卷积层;
步骤(2.2).将步骤(1)获取的室外场景图像输入VGG主干卷积网络,得到室外场景图像的全局特征;
步骤(2.3).将室外场景图像的全局特征输入到RPN网络,将RPN网络各个通道的输出通过一个ROI池化层得到固定大小为11×11的输出特征;所述RPN网络的损失函数为:
其中,i是一个anchor的索引,pi表示第i个anchor是背景的概率,是真值,anchor若为正,的值为1,反之,的值为0,这一表明回归损失函数只有当的时候才会被激活,ti表示预测边界框的4个参数坐标,表示与正anchor对应的ground-truth box的坐标向量,Ncls是cls项的归一化值为mini-batch的大小,Nreg是reg项的归一化值为anchor位置的数量,分类损失函数Lrpn_cls是一个关于背景、前景分类问题的二分类交叉熵损失函数,回归损失函数Lrpn_reg定义如下:
其中,(x,y,w,h)表示预测框的坐标,(xa,ya,wa,ha)表示预测框的坐标,(x*,y*,w*,h*)表示GT框的坐标;
所述的通过一个ROI池化层得到固定大小为11×11的输出特征的具体方法为:首先将ROI输入的候选框坐标通过输入图片与特征图大小的比值直接映射到原始特征图上,得到目标框体在原始特征图中的坐标,通过最大池化操作,将VGGNet-16总共512个通道中的特征大小都缩放到11×11大小,得到11×11×512维的特征。
3.如权利要求1所述的自动驾驶场景下基于背景目标检测与三元组损失的场景识别与回环检测方法,其特征在于,所述的步骤(3)具体为:
步骤(3.1).建立特征细化网络,所述的特征细化网络由两个卷积层组成;
步骤(3.2).将步骤(2)得到的高阶背景特征作为训练数据集对特征细化网络进行训练,将训练数据集中的数据分为三类:标准样本、正样本和负样本,构建成三元组;所述的标准样本为训练数据集中随机选取的一个样本,正样本为和标准样本属于同一类的样本,负样本为和标准样本不同类的样本;在训练过程中,采用的损失函数为:
其中,m为训练数据集中的样本总量,i为当前样本,Dia,ip和Dia,in分别为标准样本与正样本、标准样本与负样本之间的L2距离,α为设定的L2距离阈值;[*]+为Hinge Loss损失函数,计算公式如下:
[x]+=LHinge(x)=max(0,x)。
5.如权利要求1所述的自动驾驶场景下基于背景目标检测与三元组损失的场景识别与回环检测方法,其特征在于,步骤(2)所述的高阶背景特征包括天空、建筑、道路、人行道、树木。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911417831.8A CN111241943B (zh) | 2019-12-31 | 2019-12-31 | 基于背景目标与三元组损失的场景识别与回环检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911417831.8A CN111241943B (zh) | 2019-12-31 | 2019-12-31 | 基于背景目标与三元组损失的场景识别与回环检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241943A true CN111241943A (zh) | 2020-06-05 |
CN111241943B CN111241943B (zh) | 2022-06-21 |
Family
ID=70872734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911417831.8A Active CN111241943B (zh) | 2019-12-31 | 2019-12-31 | 基于背景目标与三元组损失的场景识别与回环检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241943B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112295617A (zh) * | 2020-09-18 | 2021-02-02 | 济南大学 | 一种基于实验场景态势感知的智能烧杯 |
CN113239901A (zh) * | 2021-06-17 | 2021-08-10 | 北京三快在线科技有限公司 | 场景识别方法、装置、设备及存储介质 |
CN118015286A (zh) * | 2024-04-09 | 2024-05-10 | 杭州像素元科技有限公司 | 通过背景分割进行收费站车道通行状态检测的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180161986A1 (en) * | 2016-12-12 | 2018-06-14 | The Charles Stark Draper Laboratory, Inc. | System and method for semantic simultaneous localization and mapping of static and dynamic objects |
CN108805149A (zh) * | 2017-05-05 | 2018-11-13 | 中兴通讯股份有限公司 | 一种视觉同步定位与地图构建的回环检测方法及装置 |
WO2018214706A1 (zh) * | 2017-05-22 | 2018-11-29 | 腾讯科技(深圳)有限公司 | 运动控制方法、存储介质、计算机设备和服务机器人 |
CN109447018A (zh) * | 2018-11-08 | 2019-03-08 | 天津理工大学 | 一种基于改进Faster R-CNN的道路环境视觉感知方法 |
CN110516527A (zh) * | 2019-07-08 | 2019-11-29 | 广东工业大学 | 一种基于实例分割的视觉slam回环检测改进方法 |
-
2019
- 2019-12-31 CN CN201911417831.8A patent/CN111241943B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180161986A1 (en) * | 2016-12-12 | 2018-06-14 | The Charles Stark Draper Laboratory, Inc. | System and method for semantic simultaneous localization and mapping of static and dynamic objects |
CN108805149A (zh) * | 2017-05-05 | 2018-11-13 | 中兴通讯股份有限公司 | 一种视觉同步定位与地图构建的回环检测方法及装置 |
WO2018214706A1 (zh) * | 2017-05-22 | 2018-11-29 | 腾讯科技(深圳)有限公司 | 运动控制方法、存储介质、计算机设备和服务机器人 |
CN109447018A (zh) * | 2018-11-08 | 2019-03-08 | 天津理工大学 | 一种基于改进Faster R-CNN的道路环境视觉感知方法 |
CN110516527A (zh) * | 2019-07-08 | 2019-11-29 | 广东工业大学 | 一种基于实例分割的视觉slam回环检测改进方法 |
Non-Patent Citations (1)
Title |
---|
李卓等: "基于几何约束的视觉闭环检测和位姿优化", 《电光与控制》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112295617A (zh) * | 2020-09-18 | 2021-02-02 | 济南大学 | 一种基于实验场景态势感知的智能烧杯 |
CN112295617B (zh) * | 2020-09-18 | 2022-04-01 | 济南大学 | 一种基于实验场景态势感知的智能烧杯 |
CN113239901A (zh) * | 2021-06-17 | 2021-08-10 | 北京三快在线科技有限公司 | 场景识别方法、装置、设备及存储介质 |
CN113239901B (zh) * | 2021-06-17 | 2022-09-27 | 北京三快在线科技有限公司 | 场景识别方法、装置、设备及存储介质 |
CN118015286A (zh) * | 2024-04-09 | 2024-05-10 | 杭州像素元科技有限公司 | 通过背景分割进行收费站车道通行状态检测的方法及装置 |
CN118015286B (zh) * | 2024-04-09 | 2024-06-11 | 杭州像素元科技有限公司 | 通过背景分割进行收费站车道通行状态检测的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111241943B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109035304B (zh) | 目标跟踪方法、介质、计算设备和装置 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN112750140A (zh) | 基于信息挖掘的伪装目标图像分割方法 | |
CN111241943B (zh) | 基于背景目标与三元组损失的场景识别与回环检测方法 | |
CN107330390B (zh) | 一种基于图像分析和深度学习的人数统计方法 | |
CN104835145B (zh) | 基于自适应Codebook背景模型的前景检测方法 | |
CN109377555B (zh) | 自主水下机器人前景视场三维重建目标特征提取识别方法 | |
CN108804992B (zh) | 一种基于深度学习的人群统计方法 | |
WO2021169049A1 (zh) | 一种真实场景下玻璃检测的方法 | |
CN105741319B (zh) | 基于盲目更新策略和前景模型的改进视觉背景提取方法 | |
WO2022142417A1 (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
CN113159043A (zh) | 基于语义信息的特征点匹配方法及系统 | |
CN110633727A (zh) | 基于选择性搜索的深度神经网络舰船目标细粒度识别方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN109711245A (zh) | 一种基于图像候选区域的闭环检测方法 | |
CN115661720A (zh) | 一种被遮挡车辆的目标跟踪识别方法及系统 | |
CN114821356B (zh) | 一种精确定位的光学遥感目标检测方法 | |
CN111274964A (zh) | 一种基于无人机视觉显著性分析水面污染物的检测方法 | |
CN113095371A (zh) | 一种面向三维重建的特征点匹配方法及系统 | |
CN115620393A (zh) | 一种面向自动驾驶的细粒度行人行为识别方法及系统 | |
CN111709317A (zh) | 一种基于显著性模型下多尺度特征的行人重识别方法 | |
Wang et al. | Combining semantic scene priors and haze removal for single image depth estimation | |
CN112884835A (zh) | 一种基于深度学习之目标检测的视觉slam方法 | |
Fu et al. | A case study of utilizing YOLOT based quantitative detection algorithm for marine benthos | |
CN116665015B (zh) | 一种基于YOLOv5的红外序列图像弱小目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |