CN110097584B

CN110097584B - 结合目标检测和语义分割的图像配准方法

Info

Publication number: CN110097584B
Application number: CN201910203512.0A
Authority: CN
Inventors: 王文; 陈彤; 汤亿则; 王红凯; 周晨轶; 徐亦白; 卢杉; 包迅格
Original assignee: Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2021-11-09
Anticipated expiration: 2039-03-18
Also published as: CN110097584A

Abstract

本实施例提出了结合目标检测和语义分割的图像配准方法，包括从传感器数据中获取待处理图像，借助实时目标检测算法截取待处理图像中的关键区域；对关键区域中进行尺度不变特征变换，得到关键区域中的特征点；基于语义信息对关键区域进行语义分割，实现将关键区域中的特征点进行归类，定义针对每一类语义信息项误差函数，结合视觉里程计原有框架中的误差函数得到总体误差函数；对总体误差函数进行基于似然域模型的优化处理，当误差最小时完成图像配准。通过对关键区域采用提取关键点的处理方式能够减小提取和匹配的范围。

Description

结合目标检测和语义分割的图像配准方法

技术领域

本发明属于视觉定位领域。尤其涉及结合目标检测和语义分割的图像配准方法。

背景技术

虚实配准技术是增强现实应用需要完成的第一步，其核心技术理论为即时定位和建图技术，即SLAM技术，其在机器人、自动驾驶、虚拟与增强现实领域有着广泛的应用。尤其是在自动驾驶领域，近年来，国内外多家公司投入大量人力、物力来进行算法研发。自身定位和环境建图是无人驾驶的关键所在。鲁棒而快速的环境识别以及精确的相机定位至关重要。传统的视觉里程计(VO)建立图像间像素级别的联系，并由此进行建图，位姿追踪等。在视觉里程计通过像素点匹配和多视图几何关系，计算帧与帧间的位姿的过程中，像素点匹配本身存在不小的误差，依据该匹配求解出的相邻帧位姿也将存在一定的误差。后续帧基于前面的序列帧继续建图，则这些位姿隐含的误差也会不断累积。为了减少累计误差，有效地提升定位精度，现有的SLAM框架中一般采取两类方式：

第一种，使用局部优化，借助更多的相邻帧来引入更多的几何约束。将多帧间的位姿结合为一个小场景下的优化问题，最小化这些帧间的误差来实现精度的提升。

第二种，则考虑全局下的位姿关系。当物体长时间运动，并在某一时刻重复运动回原场景，构成一个回环的时候，可以对比建图过程中的关键帧，检测出该回环行为，进而依据早期的位姿修正当前位姿，有效减小累计误差。这两种方式都有自身的优势和局限性，缺点在于，第一种方法未能引入新的信息，还存在更多减小误差的空间；而第二种只有出现回环时才会产生效果。

累积误差一个主要来源就是帧间像素点的匹配。在视觉里程计中，算法追踪的是特征点或像素点，而这些点并不具有很好的不变性。这也就意味着角度，距离，光照等变化都会使其发生变化，这便带来了很大的麻烦和误差。对于一个从较远处即进入视场的物体，若从物体上划定特定的一个圆形区域，可以观察到，随着摄像机与物体越来越近(尺度变化)，该圆形区域内的像素变换很大，无法实现很好的匹配追踪，因此便丢失这部分约束可能更有利于相邻帧间的匹配；而如果使用语义信息建立约束时，其鲁棒性明显更好。在这样的场景下，语义分割作为辅助信息，对SLAM中的位姿估计具有很大的提升作用。另一方面，现有SLAM方案为了追求实时性，多采用计算效率高，精度低的视觉描述子，如ORB-SLAM采用ORB算子。这样为了速度而折衷精度的方式，对定位精度也产生了很大的影响。

发明内容

为了解决现有技术中存在的缺点和不足，本发明提出了结合目标检测和语义分割的图像配准方法，通过在关键区域采用SIFT算子提取关键点和描述子，使得特征点提取和匹配的范围都大大减少。

所述图像处理方法，包括：

从传感器数据中获取待处理图像，借助实时目标检测算法截取待处理图像中的关键区域；

对关键区域中进行尺度不变特征变换，得到关键区域中的特征点；

基于语义信息对关键区域进行语义分割，实现将关键区域中的特征点进行归类，定义针对每一类语义信息项误差函数，结合视觉里程计原有框架中的误差函数得到总体误差函数；

对总体误差函数进行基于似然域模型的优化处理，当误差最小时完成图像配准。

可选的，所述获取待处理图像，借助实时目标检测算法截取待处理图像中的关键区域，包括：

从待处理图像中提取两张相邻帧图像；

将两张相邻帧图像进行基于YOLO算法的目标检测；

以检测到的关键目标为中心，将区域边界的宽高尺寸分别扩大一倍，扩大后的边界限定的区域为关键区域。

可选的，所述基于语义信息对关键区域进行语义分割，实现将关键区域中的特征点进行归类，定义针对每一类语义信息项误差函数，结合视觉里程计原有框架中的误差函数得到总体误差函数，包括：

截取出的关键区域进行语义分割，将关键区域上的每个像素点将被归入一个类别；

根据关键区域中的像素点进行地图重建，将重建得到的地图点与已有类别语义关联；

定义语义信息项的误差函数表达式

式中e_sem(k,i)表征了第i个地图点,在优化过程中的第k个位姿下，映射在相应语义图上的误差函数；

结合已有误差函数可以得到总体误差函数表达式

其中，E_sem代表语义项目误差函数，E_base代表所有点在对应位姿下的重投影误差之和，λ是权重系数。

可选的，所述对总体误差函数进行基于似然域模型的优化处理，当误差最小时完成图像配准，包括：

构建似然域模型表达式，基于似然域模型表达式构建总体语义误差函数

式中，S_k为相邻帧图像中的语义分割结果(语义观测)，T_k为当前帧位姿，X_i为地图点坐标，Z_i则表征了地图点的具体语义类别。π(T_k,X_i)代表了投影过程，p为地图点投影到当前帧，得到的像素坐标结果，

是度量函数，计算了投影点p到最近的该语义c区域的距离，σ描述了不确定度；

对总体语义误差函数进行基于EM优化算法的优化求解。

可选的，所述对总体语义误差函数进行基于EM优化算法的优化求解，包括：

对于所有观测到该地图点P_i的图像，有如下权重公式：

其中α为归一化系数。具体EM优化算法，按照如下步骤完成：

在E-Step中，保持和T_k不变，通过权重公式计算

在M-Step中，保持

不变，优化坐标点P_i和相机姿态T_k；

由于e_sem(k,i)的稀疏性，M步骤可以快速实现。

本发明提供的技术方案带来的有益效果是：

通过对得到的关键区域进行特征点提取并对得到的特征点进行处理的操作，能够有效降低处理、匹配范围，在SLAM框架中针对关键区域引入语义图的方式提升在配准过程中的可靠性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提出的结合目标检测和语义分割的图像配准方法的流程示意图；

图2为本申请实施例提出的针对参数的马尔科夫毯示意图。

具体实施方式

为使本发明的结构和优点更加清楚，下面将结合附图对本发明的结构作进一步地描述。

实施例一

本发明提出了结合目标检测和语义分割的图像配准方法，如图1所示，包括：

11、从传感器数据中获取待处理图像，借助实时目标检测算法截取待处理图像中的关键区域；

12、对关键区域中进行尺度不变特征变换，得到关键区域中的特征点；

13、基于语义信息对关键区域进行语义分割，实现将关键区域中的特征点进行归类，定义针对每一类语义信息项误差函数，结合视觉里程计原有框架中的误差函数得到总体误差函数；

14、对总体误差函数进行基于似然域模型的优化处理，当误差最小时完成图像配准。

在实施中，针对目前在视频拍摄过程中视频录制设备与被摄物体之间距离发生变化时，由于拍摄区域内图像变化迅速无法实现匹配跟踪，这样在后期进行视频编辑时，很难进行相邻帧的图像匹配，因此本申请提出了一种图像校准方法，在现有的经典视觉SLAM框架中增加了截取关键区域ROI(Region of Interest)以及引入最小化语义投影误差E_sem的步骤，前者通过对得到的关键区域进行特征点提取并对得到的特征点进行处理的操作，能够有效降低处理、匹配范围，后者则通过在SLAM框架中针对关键区域引入语义图的方式提升在配准过程中的可靠性。

首先，现有技术中常用的视觉SLAM流程包括以下步骤：

1.传感器信息读取。在视觉SLAM中主要为相机图像信息的读取和预处理。如果是在机器人中，还可能有码盘、惯性传感器等信息的读取和同步。

2.视觉里程计(Visual Odometry，VO)。视觉里程计的任务是估算相邻图像间相机的运动，以及局部地图的样子。VO又称为前端(Front End)。

3.后端优化(Optimization)。后端接受不同时刻视觉里程计测量的相机位姿，以及回环检测的信息，对它们进行优化，得到全局一致的轨迹和地图。由于接在VO之后，又称为后端(Back End)。

4.回环检测(Loop Closing)。回环检测判断机器人是否到达过先前的位置。如果检测到回环，它会把信息提供给后端进行处理。

5.建图(Mapping)。它根据估计的轨迹，建立与任务要求对应的地图。

基于已有的SLAM流程框架，本实施例中分别针对在SLAM框架中引入的两个特征进行描述。

一、截取关键区域ROI，即步骤11的具体内容包括：

111、从待处理图像中提取两张相邻帧图像；

112、将两张相邻帧图像进行基于YOLO算法的目标检测；

113、以检测到的关键目标为中心，将区域边界的宽高尺寸分别扩大一倍，扩大后的边界限定的区域为关键区域。

首先，针对输入的RGB图片，使用轻量级实时目标检测算法，检测关键目标。为了保证轻量级和实时性，借鉴SqueezeSeg的思想，基于SqueezeNet结构，进行部分修改，作为骨干网络。网络采用Encoder-Decoder结构，其中的降采层命名为Fire模块，表示一个特定的卷积处理层，该层的具体处理方式为，

先使用1x1卷积核将输入feature map压缩为同尺寸，通道数目为原来1/4的，作为压缩feature map；基于该特征图，采用两个旁路分别施以3x3和1x1的卷积，再将通道数扩充为原来的1/2。最后将两个旁路特征，在通道上级联在一起。其中的上采样层称为FireDeconv模块，与Fire模块类似，但在压缩与扩充之间增加了一个装置卷积层，用于将特征图尺寸扩充为原来的2倍。

具体的目标检测方式借鉴YOLO系列的处理方式来处理特征网络的输出。

特征网络的输出在最后一层使用全局平均pooling将输出通道数固定到具体的大小(13x13x1x(3+5)＝1352)。该数值的具体含义为：

首先将输入图划分为13x13个网格，每个网格预测1个物体，每个物体预测属于3个类别(针对KITTI数据集而言)中的哪一个，每个物体使用中心点和宽高尺寸来确定具体位置，同时预测该输出的置信度。其具体损失函数为：

其中，第一项表征预测的置信度C与真值(ground truth)

的差距，

的具体含义为网络预测的2D包围盒(bounding box)与目标包围盒构成的区域交并比(IOU)。

第二项用于预测物体的归属类别，p_i(c)表示该物体属于类别c的概率。

第三项指导2D bounding box中心点(x,y)的回归，

最后一项则用于box尺寸(w,h)的回归。每项均包含了预测值和真值的对应。

针对s²(s＝13)个划分出的网格，让每个网格预测一个物体，但是真实情况下一张图中的物体不会很多，比如只有一个物体落在某一个网格上。因此，使用

表示第i网格上预测的物体存在对应的ground truth，

则表示不存在对应。这两种情况对网络loss的作用显然不一样，需要采用不同的权重λ加权。直接借鉴YOLO^[11,12]的经验值，设置λ_noobj为0.5，λ_coord为5。

在完成2D box的预测之后，同时采用非极大值抑制算法，对输出的低阈值结果进行过滤。在测试过程中，对SLAM框架中的输入的两张相邻帧进行如上所述的2D关键目标检测，并以关键目标为中心，使得边界向外部扩展1倍的宽高尺度，进而截取指定ROI区域。由于相邻帧在场景和目标上几近相同，因此针对相邻帧的目标检测网络的输出也能够保持高度一致，同时在该网络的训练阶段，采用随机偏移的数据增强的方式也能为保证输出的近似提供很大的帮助。

在完成相邻帧的关键目标检测之后，针对截取的ROI使用SIFT算法提取关键点和描述子，剩余区域则仍旧使用ORB算法实现关键点提取；

在关键点匹配时，ROI区域与非ROI区域分别匹配；由于只在RGB图上限定部分区域使用SIFT，同时区分两类区域匹配也大大减少了描述子匹配检索的区域，因此引入的SIFT算法不会对运行速度有太大的影响。将该方案集成到VO中，实现精度的提升。其中特征提取和匹配，采用了常规ORB和SIFT算法，仅仅限制了其提取的图像区域。

ORB(Oriented FAST and Rotated BRIEF)是一种快速特征点提取和描述的算法。算法分为两部分，分别是特征点提取和特征点描述。特征提取是由FAST(Features fromAccelerated Segment Test)算法发展来的，特征点描述是根据BRIEF(Binary RobustIndependentElementary Features)特征描述算法改进的。

ORB算法具体包括：

1)首先提取FAST关键点

1.从图片中选取像素点P，设其灰度值为I_P。

2.设定合适的阈值t，设另一个点为Q，其灰度值为I_Q。当|I_Q-I_P|>t时，视其相同；反之不同。

3.以P为圆心，画一个半径为3像素的圆，取到16个像素点。若这个圆周上有连续n个像素点与P点不相同，则认为P点为一个特征点。

4.为了加快特征点检测速度，首先检测1、9、5、13位置上点的灰度值，如果这四个位置有≥3个点与P点不相同，则直接排除这个点。

在FAST的基础上，用灰度重心法来计算图中角点的方向。首先确定以特征点P为圆心，n为半径的圆的质心。

首先，moment定义为：

其中，I(x,y)为图像灰度表达式。则质心为：

以向量

方向为特征点P的方向，角度为：

2)提取BRIEF描述子

BRIEF算法的结果是一个二进制串。其核心思想是在角点P周围以一定方法选取n对点，把这n对点的比较组合起来作为描述子。其过程一般为以下几步：

1.在特征点P的领域S*S内以一定方法选取n对点。

2.定义二值检测τ为：

3.对选取出来的n对点做上述操作，串成一个二进制码，作为描述子

3)描述子的匹配

在非ROI区域内，使用快速近似最近邻算法FLANN实现相邻帧间特征点间描述子的匹配。其中超过最小匹配距离两倍的匹配点对，被过滤，以保证匹配的鲁棒性。

二、引入最小化语义投影误差E_sem，即步骤13的具体内容包括：

131、截取出的关键区域进行语义分割，将关键区域上的每个像素点将被归入一个类别；

132、根据关键区域中的像素点进行地图重建，将重建得到的地图点与已有类别语义关联；

133、定义语义信息项的误差函数表达式

134、结合已有误差函数可以得到总体误差函数表达式

在实施中，语义图像对于角度、光照、距离等具有很好的不变性，能在短时间内保持不变，因此引入语义图，并以此建立额外的中期约束，有助于减小累计误差。其减小误差的核心思想为：若某个像素点在图像上属于某个语义类别，那么该像素点对应的地图点坐标，通过变换矩阵重投影在平面上也应该要属于原先的语义类别。若与原先的类别相矛盾，则可以构造出一个误差项，而该误差项在视觉里程计中具有相对特征点匹配要高的可靠性，有助于位姿和重建出的地图点的优化。

在前文提及到的视觉SLAM流程中的视觉里程计VO中，在前一部分得到的关键区域的基础上引入语义图的步骤为：

1)语义信息结合第一阶段的ROI结果

引入该误差项，隐含着将ROI区域中的点的作用权重提升。因此借鉴VSO的思想，将语义图嵌入到SLAM的框架之中。基于目标检测阶段截取的ROI区域训练一个语义分割网络，这里采用实时语义分割算法ICNet来完成ROI图片向语义图的转化。

训练时，图像和语义标签被裁剪为多个图像块，在线运行时，输入图像即为前一阶段得到的ROI区域图像。由于只需要处理为数不多的小尺寸ROI区域，该算法的引入同样使得实时在线分割成为可能。而VSO则需要在离线阶段即准备好语义图库。接下来阐述本算法中的语义图嵌入。

2)视觉语义里程计(VO)框架

传统的视觉里程计以Bundle Adjustment(BA)为框架建立了图优化的框架：

每个e_base(k,i)表示第i个地图点与第k个位姿之间计算出的误差函数。

在本发明中，采用特征点法来实现前端VO，因此该误差项表示为几何误差。定义该误差函数后，重建的地图点和自身位姿将作为优化项，由BA完成优化求解。在引入语义信息后，语义误差将被添加到该误差描述中。对截取出的ROI图像I_k进行语义分割S_R＝R²→C，则ROI图像上的每个像素点将被归入一个类别C。那么根据该像素点重建出的地图点P_i(坐标X_i)，也将与该类别语义关联起来，得到z_i∈C。使用p(Z_i＝c|X_i)便表示位于X_i的点属于语义c的概率。

针对每个地图点P_i而言，可以定义一个概率向量w_i来表示该点属于各个语义类别的概率。

由此定义语义信息项的误差函数：

每一项e_sem(k,i)表征了第i个地图点,在优化过程中的第k个位姿下，映射在相应语义图上的误差函数。将该误差项目嵌入到SLAM的BA框架中，结合特征点法的基本误差函数可以得到总体误差：

其中，E_sem代表语义项目误差函数，E_base代表所有点在对应位姿下的重投影误差之和，λ是权重系数，最小化上述误差，即可得到目标位姿和重建出的三维坐标点。

在得到总体误差函数表达式后，就可以基于该表达式进行优化，完成图像校准，即步骤14包括：

141、构建似然域模型表达式，基于似然域模型表达式构建总体语义误差函数

式中，Sk为相邻帧图像中的语义分割结果(语义观测)，T_k为当前帧位姿，X_i为地图点坐标，Z_i则表征了地图点的具体语义类别。π(T_k,X_i)代表了投影过程，p为地图点投影到当前帧，得到的像素坐标结果，

142、对总体语义误差函数进行基于EM优化算法的优化求解。

在实施中，误差函数借鉴激光SLAM中的似然域模型来构建。对引入的语义信息而言，图片中的不同区域和物体被划分为了不同的类别，那么对每一种类别，都可以建立一个似然域模型，而地图点P_i在重投影回图像平面上时应当要能落在该类别的区域内。具体而言，对于每一个截取的ROI图像，其包含的每一种语义c，都抽象出一个二值图。在此图像基础上便可以建立似然域模型。

1.似然域模型

定义似然域模型：

其中，S_k为相邻帧图像中的语义分割结果(语义观测)，T_k为当前帧位姿，X_i为地图点坐标，Z_i则表征了地图点的具体语义类别。π(T_k,X_i)代表了投影过程。p为地图点投影到当前帧，得到的像素坐标结果。

是度量函数，计算了投影点p到最近的该语义c区域的距离。在实际投影过程中，虽然只有ROI区域有值，但对于度量函数计算最近邻语义区域而言没有影响。最后σ描述了不确定度。根据如上定义的似然域函数，构建总体语义误差函数为：

其中

表示了地图点P_i属于语义类别c的概率，其物理意义可以解释为相对c个语义的权重。采用EM算法来求解问题，最小化总体误差的计算相当于M过程。

步骤142中的具体优化求解包括：

对于所有观测到该地图点P_i的图像，有如下权重公式：

其中α为归一化系数。具体EM优化算法，按照如下步骤完成：在E-Step中，保持和T_k不变，通过权重公式计算

在M-Step中，保持

不变，优化坐标点P_i和相机姿态T_k；由于e_sem(k,i)的稀疏性，M步骤可以快速实现。

现在推导似然域模型为何能描述为前一小节所述形式。对于场景中的第i个点，X_i为其三维坐标，T_k为当前帧位姿。当其属于某个真实语义类别Z_i时，重投影在图像帧上，得到观测的语义结果为S_k时，其分布可以写成如下左式形式，根据边缘概率的原理，得到如下右式形式:

其中u_i,k,为投影位置，进而根据贝叶斯公式：

继续如下引入两个条件独立，来简化公式：

S_k⊥X_i,T_k

S_k|u_i,k,Z_i

u_i,k⊥Z_i

u_i,k|T_k,X_i

其中⊥代表左边的变量不受右边变量的影响，|表示左边的变量处于右边变量的影响之下。其具体含义为语义分割S_k只和投影位置u_i,k,、地图点类别Z_i有关；而投影位置u_i,k只和相机位姿T_k,、地图点坐标X_i有关。

该描述即为贝叶斯网络中的马尔科夫毯，可以用图示来形式化表达。如图2示，与变量间的相关关系相对应，相语义分割S_k的马尔科夫毯为投影位置u_i,k、地图点类别Z_i，而投影位置u_i,k的马尔科夫毯为相机位姿T_k、地图点坐标X_i。

因此，可以得到简化的计算结果：

其中第二项代表传统视觉里程计里的重投影过程。为了计算效率，假设其值为1，得到：

p(S_k|Z_i＝c,X_i,T_k)＝p(S_k|u_i,k,Z_i＝c)

在分割出的ROI图像中，各个语义类别被认为是同等重要，因此假设语义分割为均匀分布。进一步利用贝叶斯公式：

p(S_k|u_i,k,Z_i＝c)∝p(u_i,k,Z_i＝c|S_k)＝p(u_i,k|S_k,Z_i＝c)p(Z_i＝c|S_k)

其中，在最右边的式子第一项即为前文所述似然域模型：

而后一项只是比例系数(分割为S_k的区域中标记为c的比例)，代入得到：

p(S_k|u_i,k,Z_i＝c)＝p(u_i,k|S_k,Z_i＝c)p(Z_i＝c|S_k)

至此得到了上文中的完整的似然域模型：

3)针对语义约束的优化

对于似然域模型而言，由于在某一语义物体内的点是不加区分的，因此可能使得约束不足，导致一个地图点与一个位姿之间的语义约束存在多解，即单个点的语义约束只能保证投影点落在相应的语义区域内，而无法微调具体投影点在区域内的位置。因此在底层的传统视觉里程计嵌入语义约束的过程中，本发明结合了一些策略来改进这一点。包括：

1、使用多个点与语义约束优化一个相机位姿。

2、语义约束中只优化相机位姿，而不优化地图点。

3、频繁的语义优化，以减小错误语义关联的可能性。最后，将上述约束集成到传统SLAM系统的BA中，实现精度的改良。

在著名的自动驾驶数据集KITTI上评估了本文算法，在KITTI上根据Car类别所占的区域来提取RIO区域。最终结果如表1所示,其中平移RPE单位为％，旋转RPE单位为deg./100m。总体上看，算法在RPE的平移指标上优化明显，在旋转指标上大体与原SLAM方案持平。具体而言，增加了ROI关键区域，效果相对不够稳定。一个关键的原因在于选取的ROI区域有时过小，导致特征点提取过少，区域内的点反而不容易匹配上，使得该区域的特征点无效。而继续增加了语义约束之后，改善情况相对鲁棒，尤其是平移误差显著减小，但在旋转的指标上优化同样不是很明显。一个重要原因在于，KITTI数据集大多为直道，因此对于主要出现在转弯时的旋转偏移而言，优化效果不是很明显。

表1 KITTI数据集上的RPE位姿误差

同样在采集的电力作业场景下的机房场景验证了的算法。如表2所示，可以看到，由于目标区域占比相对较大，使得本算法在精度上的优化相对明显，但也在一定程度上降低了算法的计算效率。

表2电力场景数据集上的重投影误差

上述实施例中的各个序号仅仅为了描述，不代表各部件的组装或使用过程中的先后顺序。

以上所述仅为本发明的实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。