CN108122247B

CN108122247B - 一种基于图像显著性和特征先验模型的视频目标检测方法

Info

Publication number: CN108122247B
Application number: CN201711419449.1A
Authority: CN
Inventors: 张弘; 张泽宇; 李军伟; 杨帆; 杨一帆
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-11-13
Anticipated expiration: 2037-12-25
Also published as: CN108122247A

Abstract

一种基于图像显著性和特征先验模型的视频目标检测方法，根据输入正负样本训练卷积神经网络，作为目标的特征先验模型；提取图像序列中某一图像帧的显著性区域，聚类得到显著性候选框；将显著性候选框输入特征先验模型，预测目标位置，以实现图像帧中的目标检测；利用特征先验模型在显著性候选框中定位关键点，利用L‑K稀疏光流方法对关键点计算，预测目标运动方向；在图像帧中，提取满足运动方向约束与置信度阈值的候选，作为新的正负样本，输入并更新特征先验模型；针对所述图像序列中的每个图像帧，重复步骤，实现图像序列的目标检测。本发明实现了目标的检测，且具有抗干扰能力强、检测精度高、实时性能好的特点，增强了目标检测系统的工程应用能力。

Description

一种基于图像显著性和特征先验模型的视频目标检测方法

技术领域

本发明涉及图像处理领域，特别是涉及复杂的运动背景下目标的检测的问题，采用了将图像显著性和目标先验特征结合的方法，在提高了目标检测精度的同时，降低了算法的复杂度，满足了视频目标检测的实时性要求。

背景技术

随着自动驾驶技术，无人机技术，安防监控技术的发展，视频中的目标检测成为了当前图像处理研究领域的一大热点。如何在复杂的运动背景下精确地定位目标，以及如何利用有限的计算资源快速地定位目标，是目前这一领域需要解决的两大难题。

传统的视频目标检测方法大多是利用了图像帧与帧之间的目标运动信息，比如背景差分法、帧间差分法、光流法等等。背景差分法往往应用于背景变化较小的应用场合，例如安防监控领域，通过维护一个稳定的背景信息，将原始的图像减去稳定的背景信息就得到了需要的前景目标的位置和尺寸。但是这种方法对光照变化、天气、背景变化比较敏感，对于画面中存在明暗交替阴影的应用场景或者是像自动驾驶和无人机这类相机本身在快速运动的应用场景，效果比较差；帧间差分的方法，首先计算相邻两帧或者相邻三帧之间的差值，然后利用聚类、区域划分的方法，将像素变化明显的区域定位出来，就是要检测的目标。但由于运动目标像素上的相似性，这种方法经常不能完整地检测出运动目标，检测精度比较低；光流法是通过计算目标在三维空间中的运动矢量场投影到视频二维平面上的运动矢量—光流场，来检测运动目标的方法。光流场反映了图像上每个像素点的灰度变化趋势，它可看成是像素点在图像平面上运动而产生的瞬时速度场,也是一种对真实运动场的近似估计。光流方法不需要预先知道场景的任何信息，可以精确计算出物体的运动速度，但是大多数光流方法的计算相当复杂,对硬件要求比较高,不适于实时处理,而且对噪声比较敏感、抗噪声性能差。不仅如此，这些传统的方法还都存在这一个共同的缺陷：就是只能检测运动的目标，而对于视频中静止的特殊目标则无能无力。

近几年，研究人员将深度学习方法，即卷积神经网络，应用到了静态图像中的目标检测上，大大的提高了目标检测的精度。比如在2014年由Ross Girshick等人提出的R-CNN的方法，以及后续在2015年和2016年相继提出的Fast-RCNN和Faster-RCNN的方法，大大的提高了静态图像中目标的检测精度。这一类方法首先在全图中提取目标的候选框，然后通过卷积神经网络提取候选框的图像特征；之后利用全连接层搭建分类器，对候选框中的目标进行分类；最后通过目标框的线性回归，提高目标的定位精度和进行尺寸估计。虽然这类方法解决了传统检测方法精度不高、只能针对运动目标的缺陷，但是依然存在明显的不足:(1)针对单幅图像独立的做目标检测，无法维持每个目标在视频中位置的一贯性；(2)利用卷积神经网络提取目标特征，需要大量的数据集进行线下训练，特征提取依赖于GPU的硬件环境，计算复杂度高、功耗很大，检测系统难以搭建在移动平台上；(3)实时性不高，难以满足30帧/秒的实时视频处理要求。

专利公开号107229904A，提出了一种完全利用深度神经网络进行目标检测的方法，采用区域建议网络(RPN)的方法提取全图中的目标候选框。但是整体系统存在网络参数较大、计算复杂度高的问题，专利中提到实验完全建立在CPU+GPU的架构下，没有标明算法的处理时间。专利公开号107247930A，则是提出了应用卷积神经网络和显著性的方法检测合成孔径雷达图像中目标的方法。但是与本发明不同的是，该方法没有考虑目标特征模型的更新问题，完全利用已经训练好的模型进行目标检测，对于目标的追踪性能比较差。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种基于图像显著性和特征先验模型的视频目标检测方法，针对复杂运动背景下存在运动或静止目标的情况下，利用图像显著性和目标特征先验模型相结合的方法，实现了目标的检测，且具有抗干扰能力强、检测精度高、实时性能好的特点，增强了目标检测系统的工程应用能力。

本发明技术解决方案为：一种基于图像显著性和特征先验模型的视频目标检测方法，包括以下步骤：首先，针对特定检测目标，利用训练视频，分别选取目标和背景场景作为正、负样本，训练卷积神经网络，作为目标的特征先验模型；其次，利用谱残差的方法提取图像中的显著性区域，然后利用聚类的方法得到目标候选框，缩小目标定位的范围，提高算法效率，降低误检率；再次，根据目前学习得到的目标特征模型，提取目标候选框的特征信息，利用全连接网络预测目标位置；最后，通过L-K光流的方法跟踪视频中所有的目标，利用目标运动约束选取候选框，同时利用相关性判决条件做阈值判断，置信度高的作为正样本，置信度低的作为负样本，更新目标的特征模型。

实现步骤如下：

(1)根据输入正负样本训练卷积神经网络，作为目标的特征先验模型；

(2)利用谱残差法提取图像序列中某一图像帧的显著性区域，然后通过聚类得到显著性候选框；

(3)利用特征先验模型，提取目标候选框中的特征，预测目标位置，以实现所述图像帧中的目标检测；

(4)根据特征先验模型的特点定位目标关键点，利用L-K稀疏光流方法对关键点计算光流信息，预测目标运动方向；

(5)在所述图像帧中，提取满足运动方向约束与置信度阈值的候选框，作为新的正负样本，输入并更新特征先验模型；

(6)针对所述图像序列中的每个图像帧，重复步骤(2)至步骤(5)，实现图像序列的目标检测。

所述步骤(2)中，利用K-Means聚类方法得到显著性候选框。

所述步骤(4)中，利用所述卷积神经网络提取所述显著性候选框的特征点，将所述卷积神经网络全连接层对应的连接权重排序，筛选权重值大于设定阈值的特征点为关键点。

所述步骤(4)中，利用L-K稀疏光流方法对关键点计算光流信息，预测目标运动方向的实现如下：

其中，x代表所述图像帧的水平方向；y代表所述图像帧的垂直方向；u代表目标在x方向的速度；v代表y方向的速度；I_x代表所述图像帧的像素灰度值在x方向的偏导；I_y代表所述图像帧的像素灰度值在y方向的偏导；I_t代表所述图像帧的像素灰度值随时间t的偏导。

所述步骤(5)中，在运动方向约束的条件下利用相关性判决条件得到候选框的置信度。

所述步骤(5)中，所述提取满足运动方向约束的候选框是指在步骤(4)得到目标运动方向后，在所述目标运动方向上每隔设定值的像素，同时在垂直于所述目标运动方向的方向上引入设定值的偏差，从而提取若干个候选框。

本发明与现有技术相比优点在于：

(1)本发明提出了利用卷积神经网络的方法，针对特定待检测目标，建立特征先验模型的方法；同时考虑了工程实现的需要，具有模型参数少，训练时间短的特点；经过不断试验证明，能够实现高精度的待检测目标定位；

(2)本发明提出了利用图像的显著性算法减小视频图像中待检测目标搜索范围的方法，降低了目标检测的复杂度；实验证明，经过了显著性候选框提取后，处理一幅图像帧的时间缩减到了25ms左右；

(3)本发明创造性地将光流跟踪的方法和卷积神经网络的检测方法相结合；首先利用卷积网络中全连接层提供的信息定位稀疏光流的关键点；其次，利用光流跟踪的方法，利用运动方向约束条件提取目标的候选位置和可能干扰区域，作为正样本和困难负样本(hard-negative samples)；通过更新特征模板的策略，提高特征先验模型的鲁棒性，以提高检测精度；

总之，本发明实现了一种可以应用于移动硬件平台的目标检测方法，针对复杂运动背景下的目标检测问题，提高了目标检测精度的同时，满足了视频目标检测的实时性要求。

附图说明

图1为本发明一种基于图像显著性和先验特征模型的视频目标检测方法的流程图；

图2为本发明中视频中目标显著性的效果图；

图3为本发明中视频中目标检测结果的效果图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1所示，本发明步骤为：⑴针对特定检测目标，分别选取目标和背景场景作为正、负样本，训练卷积神经网络，作为目标的先验模型；⑵利用谱残差的方法提取图像中的显著性区域，利用K-Means算法将显著性区域进行聚合得到显著性候选框；⑶根据当前的目标特征模型，提取目标候选框处的图像特征，利用全连接网络输出结果判断目标候选框是属于目标还是背景；⑷通过卷积神经网络模型定位目标关键点，再利用L-K稀疏光流的方法跟踪视频中的所有目标，得到目标运动方向；⑸在目标运动方向上选取候选框，同时利用相关性判决条件做判断，置信度高的作为正样本，置信度低的作为负样本，每隔10帧，利用新的样本集更新目标放的先验特征模型。⑹针对所述图像序列中的每个图像帧，重复步骤⑵至步骤⑸，实现图像序列的目标检测。其中的Conv1和Conv3代表卷积层，ReLu代表激活层函数，Max-Pooling代表最大值池化，ROI-Pooling代表区域池化，FC代表全连接层。

具体实现步骤如下(以检测地面车辆为例)：

(1)根据应用场景训练卷积神经网络，作为目标的特征先验模型

利用ImageNet数据集中的标签为车辆的图片进行模型的训练工作。

目标特征先验模型由三层卷积神经网络来实现，每一层均由3×3卷积层，relu激活层和池化层串联组成。

提取出的目标模型通过一个全连接网络实现目标分类，可以判断检测出的是属于目标还是属于背景；

训练数据使用有标注的待检测目标图像作为正样本，并利用旋转和尺度缩放进行样本的扩充，使用了-20°～+20°的旋转角度和5个尺度变换；选取与待检测目标框覆盖度小于15％的样本框作为负样本；

(2)利用谱残差方法提取图像中的显著性区域，然后利用聚类得到候选框；

采用谱残差方法提取图像中的显著性区域，具体原理为：

假设输入的图像为I(x)，经过傅里叶变换之后，频谱可以分为相位谱P(f)和振幅谱A(f)。假设图像的Log谱线为L(f)，是对振幅谱取对数得到的。

L(f)＝log(A(f))

通过构建一个平滑滤波器h₃(f)平滑Log振幅谱得到V(f)，则V(f)可以表示为：

V(f)＝h₃(f)*L(f)

其中，h₃(f)是一个3×3的平滑矩阵，如下式所示，本发明中n取值为3

则剩余谱R(f)定义为：

R(f)＝L(f)-V(f)

统计谱线中的奇点就是图像中的显著区域，R(f)表示谱线中的奇点，通过对剩余谱R(f)做傅里叶逆变换即可得到显著度图S(x)，其中G(x)为高斯核函数，F^-1是代表傅里叶逆变换的符号：

S(x)＝G(x)*{F^-1[exp(R(f)+P(f))]}²

如图2所示，是使用所述的谱残差法提取的图像显著性区域的效果图；图中的明亮区域代表图像中的显著性位置。从图中不难看出，本发明方法涵盖了所有的潜在目标，同时有效的缩小了目标潜在区域的面积。

将得到的显著性图利用改进的K-Means算法进行聚合，得到最终的图像的显著性候选框。

(3)利用当前的目标特征模型，在显著性候选框中提取待检测目标；

将分割出的目标显著性区域输入目前的目标特征模型中，通过模型输出判断待检测区域是否属于目标；

如图3所示，是使用本发明一种基于图像显著性和先验特征模型的视频目标检测方法在一幅测试图像中检测到的车辆效果图。最终经过全连接层的筛选剩下的候选框为图中所示的矩形框，成功的检测出了图像中所有的车辆，没有误检和漏检发生。

(4)利用卷积神经网络特点提取关键点，进行稀疏光流计算。

L-K稀疏光流法，首先需要提取目标框中的关键点。在很多应用中，比如2011年，由Zdenek Kalal提出的跟踪、学习和检测(TLD)的框架中，运用了均匀采样的方式选取关键点，容易遇到各点光流方向不一致的问题。在本发明中，结合卷积神经网络的特点，将全连接层的连接权重排序，将与大权重值相连接的特征点标记为关键点，然后计算L-K光流。

根据光流基本假设，可以得到光流基本方程：

I_xu+I_yv＝-I_t

公式中代表水平方向x上的速度；代表垂直方向y上的速度；I_x代表像素灰度值在x方向的偏导；I_y代表像素灰度值在y方向的偏导；I_t代表像素灰度值随时间t的偏导；

假设认为图像光流在n×n的邻域内是一致的，则利用最小二乘法，可以得出L-K光流的计算公式：

(5)结合光流跟踪方法的模型更新策略；

得到目标的运动方向后，在所述目标运动方向上每隔10个像素，同时在垂直于所述目标运动方向的方向上引入±5个像素的偏差，从而总共提取12个候选框；利用相关性判决条件得到候选框置信度，置信度高于0.5的认为是正样本，置信度小于等于0.4认为是负样本，置信度落在其他范围的候选框舍弃；每间隔10帧图像后，利用采集的新样本集，输入并更新特征先验模型。

总之，本发明提出了利用图像的显著性算法减小视频图像中待检测目标搜索范围的方法，降低了目标检测的复杂度；实验证明，不经过显著性算法提取候选框，处理所述一幅图像帧的时间为200ms左右，经过了显著性候选框提取后，处理一幅图像帧的时间缩减到了20ms左右；并且，本发明中的方法可以应用于移动硬件平台的目标检测，通过CPU+GPU的架构进行所述步骤(1)中卷积神经网络的训练，最终的网络参数只有800KB，远远小于一般的卷积神经网络7MB左右的参数规模，训练时间约为15个小时；所述步骤(2)到步骤(5)运行在ARM+FPGA的架构下，平均处理每一图像帧的时间约为25ms，其中需要进行目标模板更新的图像帧处理时间在50ms左右，其余的图像帧处理时间为20ms左右。

本发明一种基于图像显著性和特征先验模型的目标检测方法针对复杂运动背景下的目标检测问题，提高了目标检测精度的同时，满足了视频目标检测的实时性要求。

提供以上实例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于图像显著性和特征先验模型的目标检测方法，特征在于包括以下步骤：

(1)根据输入的正负样本训练卷积神经网络，作为目标的特征先验模型；

(6)针对所述图像序列中的每个图像帧，重复步骤(2)至步骤(5)，实现图像序列的目标检测；

所述步骤(4)中，利用所述卷积神经网络提取所述显著性候选框的特征点，将所述卷积神经网络全连接层对应的连接权重排序，筛选权重值大于设定阈值的特征点为关键点；

所述步骤(5)中，在运动方向约束的条件下利用相关性判决条件得到候选框的置信度,根据候选框置信度提取正负样本，更新特征先验模型；

2.根据权利要求1所述的基于图像显著性和特征先验模型的目标检测方法，其特征在于：所述步骤(2)中，利用K-Means聚类方法得到显著性候选框。

3.根据权利要求1所述的基于图像显著性和特征先验模型的目标检测方法，其特征在于：所述步骤(4)中，利用L-K稀疏光流方法对关键点计算光流信息，预测目标运动方向的实现如下：