CN112364865A

CN112364865A - 一种复杂场景中运动小目标的检测方法

Info

Publication number: CN112364865A
Application number: CN202011259097.XA
Authority: CN
Inventors: 王治忠; 张飞; 朱俊才; 刘瑞清; 王松伟; 牛晓可; 张彦昆
Original assignee: Henan Light Industry School; Zhengzhou Buen Technology Co ltd; Zhengzhou University
Current assignee: Henan Light Industry School; Zhengzhou Buen Technology Co ltd; Zhengzhou University
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-02-12
Anticipated expiration: 2040-11-12
Also published as: CN112364865B

Abstract

本发明公开了一种复杂场景中运动小目标的检测方法，包括运动检测，目标检测与目标匹配三个模块；运动检测模块主要基于背景补偿的方法，首先检测图像中的SIFT特征点，采用空间分布约束筛选特征点，并根据帧间目标匹配的结果区分内点与外点，使用RANSAC算法求出透射变换矩阵，对背景进行补偿，最后基于帧间差分法求出具有运动属性的区域；目标检测模块使用YOLOV3‑SOD网络对当前帧图像进行检测，通过匹配运动检测与目标检测的结果确定运动目标；最后利用运动目标在图像序列中存在的时间和空间上的连续性，设计帧间目标匹配模块，进一步提高检测的准确性，本发明能在多种场景中通用，准确性高，实时性好。

Description

一种复杂场景中运动小目标的检测方法

技术领域

本发明涉及视频图像检测与计算机视觉领域，具体涉及一种复杂场景中运动小目标的检测方法。

背景技术

运动目标检测在计算机视觉研究中日益备受重视，根据摄像机的运动状态，可以分为静态运动目标检测和动态运动目标检测，静态检测由于背景图像是静止的，进行运动目标的检测比较容易，动态检测时由于摄像机的运动，拍摄的视频往往发生全局运动，所以在动态检测时主要涉及全局运动参量估计、背景匹配和运动目标检测。

现有的运动目标检测方法有：光流法，背景减除法和背景补偿法，光流法利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧与当前帧存在的对应关系，从而计算出相邻帧之间的运动信息，光流法用于运动目标检测时存在着计算量大、耗时长的问题，不适于对实时性要求较高的场景，且光流法基于亮度恒常性的假设，在实际场景中不符合；背景减除法首先通过某种方式对背景进行建模，可分为静态建模和动态建模，常用的建模方法有ViBe算法、GMM背景建模等，应用时将视频序列减去背景模型从而得到运动目标，但当背景复杂或背景运动范围较大时，背景模型往往不能有效建立，导致检测效果太差；背景补偿法首先进行特征检测及匹配，计算出全局运动参量，然后进行背景补偿，最后利用帧间差分法得出运动像素。

基于背景补偿的运动目标检测的难点在于全局运动参量的估计，常见的运动参数模型有仿射运动参数模型、透射运动参数模型和双线性运动参数模型等，其中仿射参数模型能很好的表示背景图像的平移、旋转和缩放运动，且运动参数少，计算量小，常用于运动视频的背景匹配。要获取运动参数模型中的参数，一般采用特征匹配的方法，通过匹配特征的坐标位置计算模型参数，常用于匹配的特征有特征点、纹理、边缘、矩形块等，特征点检测因为精度高、数量多和计算量小的特点被广泛应用，特征点检测算法有：SUSAN角点检测算子、SIFT算子、Harris算子和SURF算子等；特诊点检测及匹配的结果是得到N对匹配的特征点，在匹配的特征点对中,在运动目标上的、被遮挡的、误匹配的和移出视场的特征点,称之为外点,而那些位于背景区域且正确匹配的点称之为内点，仿射变换矩阵的计算需要使用鲁棒估计法消除外点的影响，一般为最小二乘法、M估计法、RANSAC法等。目前，背景补偿的方法大致如上，如何准确的检测特征点，正确的进行特征匹配和消除外点的影响是背景补偿法的难点所在。

运动目标的检测与识别在智能监控领域、无人机跟踪系统、军事侦查方面具有重要的作用，但现有算法只有对运动目标的检测，没有识别。卷积神经网络在图像分析和处理领域取得了众多突破的进展，包括图像特征提取分类、目标识别、目标检测和语义分割等等，典型的目标识别网络有AlexNet、VGG、ResNet和Inception等，这些网络在目标识别任务上表现出色，但由于运动目标的特殊性，大多运动目标都是小像素区域，分辨率低、特征不明显等问题制约着目标识别网络的性能。针对运动小目标的特点，如何设计神经网络也是运动目标检测与识别的难点所在。

发明内容

本发明的目的在于：针对目前复杂场景下运动小目标的检测与识别难点的问题，提供了一种复杂场景中运动小目标的检测方法，该方法基于特征点检测与匹配，以空间分布筛选特征点，采用RANSAC算法实现鲁棒的估计参数模型，并进行背景补偿，采用帧间差分的方法得出运动区域，该方法能有效检测出目标候选区域；针对帧间差分法检测结果出现存在“空洞”、阴影和反射的问题，合理设计卷积神经网络结构，融合浅层与深层通道的特征，设计出针对运动小目标检测的卷积神经网络，较现有小目标检测算法的准确率高；本发明能准确检测并出运动目标，能在无人机跟随、智能监控等多种场景下使用。

本发明的技术方案如下：

一种复杂场景中运动小目标检测方法，包括以下步骤：

(a)对相邻图像进行特征点检测，并对检测到的特征点进行匹配；

(b)由匹配好的特征点对计算仿射变换矩阵；

(c)对图像背景进行运动补偿，并采用三帧间差分法确定运动区域；

(d)构建小目标检测模型YOLOV3-SOD对图像中小目标进行精确定位；

(e)使用交互比IOU统一三帧间差分法和YOLOV3-SOD模型的检测结果，为目标增添运动信息，实现目标匹配；

(f)针对运动目标丢失严重情况，利用运动目标在图像序列中存在时间和空间上的连续性，用相邻帧目标匹配提高召回率。

步骤(a)中，采用SIFT特征点检测的方法，并以欧式距离为匹配准则对特征点进行匹配，最后以空间分布筛选特征点，具体步骤如下：

(a1)对输入图像生成高斯差分金字塔(DOG金字塔)，构建尺度空间；寻找空间极值点，进行特征点的初步查探；排除对比度较低和不稳定的边缘点，筛选出稳定的特征点；筛选出来的SIFT特征点对旋转、尺度缩放、亮度变化保持不变性；

(a2)将每个SIFT特征点附近的区域划分为4*4个子区域，每个子区域计算梯度直方图，并分配到8个方向上，即每个特征点构建128维的特征描述符；

(a3)以欧式距离为判断准则，根据特征描述符对特征点进行匹配；

(a4)特征点强度、数量和分布会影响匹配精度和速度，特征点强度越突出，越利于点特征的跟踪；数量越多，计算效率会下降；分布越均匀，匹配会越准确；针对SIFT特征点检测及匹配的结果，采用分网格的方式、筛选出每个网格中特征点强度最大的点，减少无效特征点，提高检测精度，减小运算量。

步骤(b)中，采用随机抽样一致算法计算透射变换矩阵，定义当前帧图像坐标为(x,y)，下帧图像坐标为(x′,y′)，已知透射变换矩阵为3x3矩阵T，则透射变换模型为[x′,y′,w′]＝[x,y,w]×T，变换之前w恒为1，针对步骤(a1)中匹配的N对特征点，以RANSAC算法计算透射变换参数，RANSAC算法实现鲁棒的估计参数模型，能从包含少量外点的数据集中估计出高精度的参数。

步骤(c)中，对图像进行背景补偿及三帧差法确定运动区域的具体步骤为：

(c1)由透射变换矩阵重映射完成背景补偿，重映射采用双线性插值的方法；

(c2)t时刻图像与背景补偿后t-k时刻图像差分得到第一前景图像，t时刻图像与背景补偿后t+k时刻图像差分得到第二前景图像；

(c3)对第一前景图像和第二前景图像进行阈值化处理，阈值为25；

(c4)对阈值化的第一前景图像和第二前景图像进行“与”操作得到大致运动区域。

步骤(d)中，YOLOV3通过上采样的方式融合不同层次的特征图来保留小目标特征，采用同样的思想构建小目标检测模型YOLOV3-SOD，具体步骤为：

(d1)4倍降采样层被选作网络最后的输出层，8倍降采样层与4倍降采样层融合，16倍降采样分别与8倍和4倍降采样层融合，32倍降采样分别与16倍和8倍降采样层融合；

(d2)浅层作为输出网络层，并且增加分支融合结构，这样浅层与深层信息得以融合，使小目标的位置和语义信息更加丰富；

(d3)为了避免训练过程中梯度消失，加强特征复用，根据DSSD网络启发，将YOLOV3输出层的卷积层变为2个残差单元和一个卷积层。

步骤(e)中，通过计算运动检测和目标检测的交互比IOU，实现目标匹配的具体步骤为：

(e1)计算交互比IOU，假设运动检测的边界框是M，目标检测的边界框是D，由IOU的计算公式：

计算出IOU；

(e2)判断IOU的值是否大于阈值，若是则目标检测框被作为最终的输出结果，可由公式：

判断是否为运动目标。

步骤(f)中，运动检测丢失目标严重导致整体检测的召回率低，使用相邻帧目标匹配提高召回率的具体步骤为：

(f1)在相邻帧间对应的检测框具有较大的重叠，通过计算两者的IOU，可以判定两个检测框是否属于同一物体；

(f2)针对运动检测丢失目标的情况，利用上帧的检测结果实现运动目标的再召回。

与现有的技术相比本发明的有益效果是：

1、一种复杂场景中运动小目标的检测方法，以空间分布筛选特征点，减小运算量的同时提高匹配精度；

2、一种复杂场景中运动小目标的检测方法，设计卷积神经网络对运动小目标进行检测，较现有小目标检测算法，该卷积神经网络对小目标进行优化，且实时性高；

3、一种复杂场景中运动小目标的检测方法，针对运动检测丢失目标的情况，利用相邻帧的目标匹配实现运动目标的再召回，提高召回率。

附图说明

图1为一种复杂场景中运动小目标的检测方法的工作原理流程图；

图2为一种复杂场景中运动小目标的检测方法的卷积神经网络的结构图

具体实施方式

下面结合实施例对本发明的特征和性能作进一步的详细描述。

请参阅图1-2，一种复杂场景中运动小目标的检测方法，包括以下步骤：

(b)由匹配好的特征点对计算透射变换矩阵；

步骤(a)的处理流程如下：

(a1)输入帧间隔为3的连续三帧图像，进行SIFT特征点检测，间隔帧数可根据实际情况调整；

(a2)假设当前帧为第k帧，第k-3帧与第k帧匹配特征点，第k帧与第k+3帧匹配特征点；

(a3)删除上帧检测框内的特征点，消除内点的影响，提高匹配精度；

(a4)将图像分为10*10的网格，每个网格中选出响应强度最大的特征点，最终筛选出N对匹配好的特征点。

步骤(b)中利用步骤(a)得到的N对匹配好的特征点，以随机抽样一致算法(RANSAC)计算鲁棒的透射变换矩阵。其中，(x,y)是为前一帧特征点的坐标，(x′,y′)为后一帧对应的特征点的坐标，T为所求仿射变换矩阵，为3*3矩阵，依次计算第k-3帧到第k帧的透射变换矩阵和第k+3帧到第k帧的透射变换矩阵。

步骤(c)采用完成背景补偿和三帧差分法的的具体处理流程为：

(c1)对三帧图像进行均值滤波；

(c2)以双线性插值的方法完成第k-3帧对第k帧的重映射和第k+3帧对第k帧的重映射，I_k-3(x,y)、I_k+3(x,y)分别表示第k-3帧和k+3帧重映后(x,y)位置上的像素值，I_k(x,y)表示第k帧(x,y)位置上的像素值；

(c3)第k-3帧与第k帧差分后阈值得到d_pray(x,y)，第k+3帧与第k帧差分后阈值得到d_next(x,y)，按以下公式操作：

(c4)对两个差分后的图像进行“与”操作，得到二值图像b_image：

b_image(x,y)＝d_pray(x,y)∩d_next(x,y) (式2)

步骤(d)中，设计一种针对小目标优化的、轻巧级的卷积神经网络，图2为该卷积神经网络的结构，基础网络由五个残差模块组成，包含的残差块的数目分别为1，2，4，4，2，浅层作为输出网络层，输出层的卷积层为2个残差单元和一个卷积层；本发明中共采用3类运动目标进行检测，MDR105数据集包括飞机、人和汽车三类目标，每一类分别有11520、17714和11836张样本图像，从中选取若干图像并额外添加一些运动视角的图像，制作了用于目标检测的数据集，数据集共有9606张图像，训练集7684张，验证集1922张，3个类别均匀分布，用于检测时的具体流程如下：

(d1)在原图中截取检测框，缩放到n*n的大小；

(d2)输入到卷积神经网络中进行检测；

(d3)保留被正确分类的检测框。

步骤(e)中，使用交互比(IOU)统一三帧间差分法和YOLOV3-SOD模型的检测结果，实现目标匹配的具体流程：

(e1)假设运动检测的边界框是M，目标检测的边界框是D，根据IOU的计算公式(式3)计算出IOU；

(e2)使用IOU为目标检测增添运动信息，当IOU的值大于阈值时，此处阈值设定为0.2，该目标检测框被作为最终的输出结果，假设图像中含有m个目标，D_i表示为目标i的目标检测结果，i∈(0,m]，其中含有n个运动目标，M_j表示为运动目标j的运动检测结果，j∈(0,n]，对于第i个目标，可由(式4)判断是否为运动目标；

步骤(f)中，使用相邻帧目标匹配提高召回率的具体流程：

(f1)同一目标在相邻帧间对应的检测框具有较大的重叠，通过计算两者的IOU，阈值设定为0.2，可以判定两个检测框是否属于同一物体；

(f2)针对运动检测丢失目标的情况，利用上帧的检测结果实现运动目标的再召回；

(f3)考虑到运动目标停止在背景中的情况，统计运动检测丢失目标的帧数，当满足一定的阈值，认为该目标停止运动。

表1为本发明的最终检测结果，本发明性能展示，采用召回率、准确率和F1_Score作为检测的评价指标，平均每帧检测时间作为实时性指标；表2为对不同大小的运动目标的召回率，其中YOLOv3-sod几乎在各种level的尺寸取得了最高分，证明了其有检测小目标的能力，实验结果表明，本发明在复杂场景中能准确检测运动小目标，并且实时性高。

表1本发明的最终检测结果

表2本发明对不同大小的运动目标的检测性能

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.一种复杂场景中运动小目标的检测方法，其特征在于，包括以下步骤：

(a)对相邻图像进行SIFT特征点检测，并对检测到的特征点进行匹配；

(b)由匹配好的特征点对计算透射变换矩阵；

2.根据权利要求1所述的一种复杂场景中运动小目标的检测方法，其特征在于，所述步骤(a)的具体步骤如下：

(a1)对输入图像生成高斯差分金字塔，构建尺度空间；寻找空间极值点，进行特征点的初步查探；排除对比度较低和不稳定的边缘点，筛选出稳定的特征点；筛选出来的SIFT特征点对旋转、尺度缩放、亮度变化保持不变性；

(a4)针对SIFT特征点检测及匹配的结果，采用分网格的方式、筛选出每个网格中特征点强度最大的点，减少无效特征点。

3.根据权利要求2所述的一种复杂场景中运动小目标的检测方法，其特征在于，所述步骤(b)中，采用随机抽样一致算法计算透射变换矩阵，定义当前帧图像坐标为x,y，下帧图像坐标为x′,y′，已知透射变换矩阵为3x3矩阵T，则透射变换模型为[x′,y′,w′]＝[x,y,w]×T，变换之前w恒为1，针对步骤(a1)中匹配的N对特征点，以RANSAC算法计算透射变换参数，RANSAC算法实现鲁棒的估计参数模型。

4.根据权利要求1所述的一种复杂场景中运动小目标的检测方法，其特征在于，所述步骤(c)的具体步骤为：

5.根据权利要求1所述的一种复杂场景中运动小目标的检测方法，其特征在于，所述步骤(d)的具体步骤为：

(d2)浅层作为输出网络层，并且增加分支融合结构；

(d3)将YOLOV3输出层的卷积层变为2个残差单元和一个卷积层。

6.根据权利要求1所述的一种复杂场景中运动小目标的检测方法，其特征在于，所述步骤(e)的具体步骤为：

计算出IOU；

判断是否为运动目标。

7.根据权利要求1所述的一种复杂场景中运动小目标的检测方法，其特征在于，所述步骤(f)的具体步骤为：

(f1)在相邻帧间对应的检测框具有较大的重叠，通过计算两者的IOU，可判定两个检测框是否属于同一物体；