CN110555406B

CN110555406B - 一种基于Haar-like特征及CNN匹配的视频运动目标识别方法

Info

Publication number: CN110555406B
Application number: CN201910820113.9A
Authority: CN
Inventors: 钟珞; 刘文璇; 钟忺; 罗瑞奇; 袁景凌; 李琳; 宋华珠; 黄文心
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-08-31
Filing date: 2019-08-31
Publication date: 2023-03-24
Anticipated expiration: 2039-08-31
Also published as: CN110555406A

Abstract

本发明公开了一种基于Haar‑like特征及CNN匹配的视频运动目标识别方法，包括以下步骤：1)对视频目标图像进行Haar‑like特征提取；2)对视频利用滑动窗口，在加速度特征中提取FFT系数；3)将步骤1)和步骤2)生成的特征进行特征融合；4)利用分类器根据融合特征对视频进行目标识别，得到初步识别结果；5)将识别结果作为输入，利用CNN提取特征；6)将提取到的CNN特征转换为紧凑的二进制编码；7)对给定视频，直接提取CNN特征并转换为紧凑的二进制编码；8)将步骤6)中得到的二进制编码和步骤7)得到的二进制编码利用汉明距离进行比较，输出汉明距离较小的视频图像。本发明方法可以同时关注全局信息以及余部信息，提高视频目标的识别准确率。

Description

一种基于Haar-like特征及CNN匹配的视频运动目标识别方法

技术领域

本发明涉及图像识别技术，尤其涉及一种基于Haar-like特征及CNN匹配的视频运动目标识别方法。

背景技术

随着计算机视觉领域中新技术的不断发展，视频图像等的不同处理方式如：获取、加工、传输以及应用都在不断的迭代更新。尤其是近年来，以图像、图形、视频等大容量为特征的图像数据处理广泛应用于医学、交通、工业自动化等领域。自然界的一切图像都是连续变化的模拟图像，在日常生活中，这些图像中的运动目标往往是实际中比较关心的。如：行人、行驶的交通工具以及其他的物体。针对这些目标，本专利设计了相关的处理方法。

目标识别(Target Recognition)指通过模型对输入视频中存在的目标进行识别和分类。2004年，Huang等人以光流法为基础，实现了车辆的检测。在这个系统中，完成了对目标的提取、跟踪、遮挡检测和图像分类等。同时针对分离遮挡对象的问题，开发了遮挡检测、运动矢量矫正和运动场聚类三种处理方法。之后在2010年，Lee等人根据场景信息的前景分割问题他提出了一种帧间差分算法，该算法可以对前景目标进行鲁棒检测。除此之外，由于这两种方法计算量较大，背景建模方法应运而生。在研究传统的运动目标检测的同时，针对目标特征提取的方法也在不断的改进。

视频内容的复杂性导致其在一段时间内标注效率不甚理想，近年来，相关领域研究在有了较大突破，一方面，深度学习快速发展，以CNN为基础的模型开创了深度学习大规模应用于图像处理的时代，ImageNet等比赛也通过高质量的大规模数据集不断提升着图像识别内容的发展。而视频标注的重要基础，目标检测(Target Detection)作为图像识别的必经之路，也在深度学习的助力下快速发展，J Redmon等人提出的YOLO实时视频目标识别模型使得视频内容的目标检测在学术领域达到了高可用阶段，随着硬件设备的快速发展，相信很快能在工业界实现大规模应用。

在计算机视觉的领域里，为了识别出某图像所属的类别需要将其和剩余的图像分别开。这就要求选取的特征要能够很好的描述图像并且具有代表性。Zergat K和TaghvaeiS等利用主成分分析(PCA,Principal Component Analysis)进行特征提取并实现了目标识别的任务；刘等人在文献中基于Wavelet小波系数重构改进了算法来完成车辆的跟踪；此外，在目标的识别与检测中，传统的特征提取方法主要有Hog及Haar等等。Gabor变换属于加窗傅立叶变换，Gabor小波在提取相关目标的特征时，不受尺度与方向的影响。

但是手工特征有其局限性。近年来，随着卷积神经网络在许多计算机视觉领域的成功，研究的重点已经转移到深度学习方法上。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于Haar-like特征及CNN匹配的视频运动目标识别方法。

本发明解决其技术问题所采用的技术方案是：一种基于Haar-like特征及CNN匹配的视频运动目标识别方法，包括以下步骤：

1)对视频目标图像进行Haar-like特征提取；

2)对视频利用滑动窗口，在加速度特征中提取FFT系数，将所有窗口的加速度特征串联起来，得到最终的加速度向量；

3)将步骤1)和步骤2)生成的特征进行特征融合；

4)利用分类器根据融合特征对视频进行目标识别，得到初步识别结果；

5)将识别结果作为输入，利用CNN提取特征；

6)将提取到的CNN特征转换为紧凑的二进制编码；

7)对给定视频，直接提取CNN特征并转换为紧凑的二进制编码；

8)将步骤6)中得到的二进制编码和步骤7)得到的CNN特征编码分别与原始视频图像利用汉明距离进行比较，输出汉明距离较小的视频图像。

按上述方案，所述步骤1)中对视频目标图像进行Haar-like特征提取是通过收集并标注视频中感兴趣目标的正负样本，构造出能够区分目标样本和非目标样本的矩形特征；其具体过程如下：

1.1)构造用于反应图像局部的灰度变化的Haar-like特征，将图像划分为3个不同的矩形区域部分，3个部分有重叠区域且覆盖图像全局；

1.2)视频图像中目标的灰度变化特征由灰色区域和黑色区域组成，所选择的特征区域为灰色矩形框。其中，在图像中选择灰色区域时需要有重叠区域。

1.3)针对不同部分进行特征矩形框选取；

在灰色区域中，随机选择矩形框，所选择的区域特征为黑色，所选择的黑色矩形框的位置和尺寸在灰色区域内；

1.4)结合积分图计算：将图中标号第二部分与第三部分的黑色矩形像素之和与第一个矩形框像素值求差值；

1.5)生成特征空间，FeatureSpace＝{F₁，F₂，F₃，…,F_n}，将生成的特征空间进行压缩。

按上述方案，所述步骤1.5)中压缩计算公式如下：

其中，ω_i为高斯随机测量矩阵中非零权重。

按上述方案，所述步骤2)中最终的加速度向量是基于惯性传感器针对视频中的运动目标进行处理，并且利用滑动窗口从传感器中的加速度信号提取快速傅氏变换FFT系数；

具体如下：

2.1)采用滑动窗口方法对加速度信号在各个轴上进行分割；

2.2)使用移动平均滤波器去噪；

2.3)计算FFT系数；

2.4)丢弃当前分量，保留前64个FFT系数；

2.5)将所有窗口的FFT系数串联起来，得到最终的加速度特征向量。

按上述方案，所述步骤3)中的特征融合是采用并行特征融合(Serial FeatureFusion)方法DCA进行优化结合。

按上述方案，所述步骤6)将CNN特征转换为紧凑的二进制编码是使用局部敏感哈希(LSH)算法，将每个CNN特征转换为128位二进制编码。

按上述方案，所述步骤7)具体如下：

7.1)给定视频目标，将目标图像分块即提取物体区域；

7.2)将不同的区域利用CNN提取特征，将其重新采样到227×227，并减去像素值的均值；

7.3)将提取到的CNN特征转换为紧凑的二进制编码，使用局部敏感哈希算法，将每个CNN特征转换为128位二进制编码。

按上述方案，所述步骤7)具体如下：

7.1)给定视频目标，利用Edge Box将目标图像分块即提取物体区域；

7.2)根据步骤7.1)得到不同的即时窗口，将窗口的置信度进行评分，保留排名靠前的目标区域；对于每个图像I，构造一组对象区域表示为R₁＝{r_I,r_I,1,r_I,2,…r_I,M-1}，其中R₁代表了整张图片，{r_I,r_I,1,r_I,2,…r_I,M-1}代表了Edge Box划分的不同区域，最终划分的区域数量为M；

7.3)将不同的区域利用CNN提取特征，将其重新采样到227×227，并减去像素值的均值。

7.4)将提取到的CNN特征转换为紧凑的二进制编码。使用局部敏感哈希(LSH)算法，将每个CNN特征转换为128位二进制编码，对于不同的目标区域集R₁＝{r_I,r_I,1,r_I,2,…r_I,M-1}中，所对应的CNN特征集合为C₁＝{c_I,c_I,1,c_I,2,…c_I,M-1}。

本发明产生的有益效果是：

本发明使用改进Haar-like特征提取方法对视频中的目标进行了特征提取，解决了传统Haar-like特征忽视视频目标全局特征的问题。相关文献表明，在对目标进行特征提取时仅仅对图像全局进行特征提取会忽视目标敏感区域并且易受到非目标区域的干扰从而导致识别率降低。本专利针对这个问题将Haar-like特征提取算法进行改进，并将提取后的特征进行压缩，将原来的高位特征向量降维且保持原始特征的大部分信息。可以同时关注全局信息以及余部信息，提高视频目标的识别准确率。

本发明采用了针对视频的特征融合模型，主要有如下优点：一是融合了不同模态的特征，互相弥补了在描述同一视频目标时的不足。二是特征融合能够从多个特征中提取判别信息，消除冗余信息，在视频背景较复杂时有优势。三是在特征融合的同时考虑目标之间的类结构，最大限度地提高了两个特征集之间对应特征的相关性。此外，本发明有效保留了视频中图像的视觉信息及视频的运动结构信息。本发明算法能够在较低复杂度的前提下，保持较好的鲁棒性的同时提升视频的目标识别准确率。

对于进行目标识别后的数据，本发明利用CNN匹配进行优化，通过融合深度特征与手工特征的优点，降低复杂场景的背景噪声杂波。与传统的卷积神经网络直接提取整张图片进行识别，本发明利用边缘框(Edge Box)将图像分割，分割成不同具有显著局部特征的子模块图像，每个子模块的图像进行CNN特征提取，在上述模块图像神经网络的基础上，进行二值编码的转换。本发明的优点一是能够从不同的图像区域中提出显著的局部特征，有效地抑制了背景噪声干扰。二是利用CNN特征对手工特征进行了优化，提升了改进Haar-like算法识别的准确率。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的改进Haar-like特征提取方法示意图；

图2是本发明实施例的特征压缩示意图；

图3是本发明实施例的紧凑CNN特征二进制编码示意图；

图4是本发明实施例的特征融合示意图；

图5是本发明实施例的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图5所示，本专利中基于改进Haar-like特征及CNN匹配的视频运动目标识别方法，实现步骤为：

步骤1.根据融合特征提取算法，将视频进行目标识别，得到初步识别结果。融合特征包括Haar-like特征和加速度特征；特征融合是采用并行特征融合(Serial FeatureFusion)方法DCA进行优化结合，如图4；

步骤2.将步骤1中作为输入，利用CNN提取特征；

步骤3.将提取到的CNN特征转换为紧凑的二进制编码。使用局部敏感哈希(LSH)算法，将每个CNN特征转换为128位，如图3；

步骤4.假设输入图像中只有一个对象区域。其CNN特征为C_Q。与2)中的

步骤4进行比较。比较表达式采用汉明距离：

其中，x和y是输入图像和原始图像。

步骤5.经过CNN对算法的优化，能够有效地提高目标识别的准确率。

其中，本实施例中使用基于改进的Haar-like特征提取算法提取Haar-like特征，实现步骤为：

开始训练过程：收集并标注视频中感兴趣目标的正负样本，构造出能够区分目标样本和非目标样本的矩形特征。其具体过程如下：

构造Haar-like特征，用于反应图像局部的灰度变化。将图像划分为不同的部分，再针对不同部分进行特征矩形框选取。如图1；

视频图像中目标的灰度变化特征由灰色区域和黑色区域组成。所选择的特征区域为灰色矩形框。其中，在图像中选择灰色区域时需要有重叠区域。

在灰色区域中，随机选择矩形框。与提取Haar-like特征的矩形框相似，所选择的区域特征为黑色。黑色矩形框的位置和尺寸在灰色区域内。

结合积分图计算。每个视频目标随机划分三个区域。将第二个第三个黑色矩形像素之和与第一个矩形框像素值求差值。

生成特征空间(Feature Space)FeatureSpace＝{F₁，F₂，F₃，…,F_n}将生成的特征空间进行压缩，如图2所示。压缩计算公式如下：

其中ω_i为高斯随机测量矩阵中非零权重。

2)本实施例中基于运动响应图的加速度特征提取算法实现步骤为：

步骤1.利用均值滤除视频图像中的活动点即视频中目标在运动过程中位置的变化，计算表达式如下：

其中，f(i,j)表示(i,j)的像素信号。f^*(i,j)表示(i,j)零均值像素信号。N代表帧数。

步骤2.在步骤1的基础上，对零均值像素信号进行二进制符号化。

步骤3.针对视频中的运动目标，区分视频图像中的活动点和噪声点。将步骤2中得到的像素信号进行卷积运算。得到的运动响应图(MRM)计算表达式如下：

其中，M(i,j)代表了像素点(i,j)的运动响应图。将非零响应样本的数量表示为NZ。P(i,j)代表了正样本点，Q(i,j)代表了负样本点。

步骤4.采用滑动窗口方法对加速度信号在各个轴上进行分割。

步骤5.使用移动平均滤波器去噪。(此时长度为5)。

步骤6.计算FFT系数。

步骤7.丢弃当前分量，保留前64个FFT系数。

步骤8.将所有窗口的FFT系数串联起来，得到最终的加速度特征向量。

步骤9.得到视觉特征向量x、加速度向量y，维数分别为p、q。找到两个向量的最大相关线性投影，计算表达式如下：

其中S_xx∈R^p*p，S_yy∈R^q*q为向量x与向量y的协方差矩阵。S_xy为向量x与向量y的交叉协方矩阵。

步骤10.计算表达式的解，在约束条件下使用拉格朗日乘子。此时得到变换矩阵W_x与W_y。

步骤11.通过对变换矩阵中的向量进行拼接或求和得到融合特征。计算表达式如下：

步骤12.得到融合特征后利用SVM分类器进行最终分类。

3)本实施例中的基于紧凑CNN特征提取算法的步骤为：

步骤1.给定视频目标，利用Edge Box将目标图像分块即提取物体区域。

步骤2.根据步骤1得到不同的即时窗口，不同的窗口可能包含了不同的对象位置。将窗口的置信度进行评分，保留排名靠前的目标区域。对于每个图像I，构造一组对象区域表示为R₁＝{r_I,r_I,1,r_I,2,…r_I,M-1}。其中r_I代表了整张图片，{r_I,r_I,1,r_I,2,…r_I,M-1}代表了Edge Box划分的不同区域。最终划分的区域数量为M。

步骤3.将不同的区域利用CNN提取特征。将其重新采样到227×227，并减去该区域像素值的均值；

步骤4.将提取到的CNN特征转换为紧凑的二进制编码。使用局部敏感哈希(LSH)算法，将每个CNN特征转换为128位。对于不同的目标区域集R₁＝{r_I,r_I,1,r_I,2,…r_I,M-1}中，所对应的CNN特征集合为C₁＝{c_I,c_I,1,c_I,2,…c_I,M-1}；

步骤5.将提取到的紧凑CNN二进制特征，存储在单独的内存空间中。

通过本发明所提供的算法，能够合理地利用视频图像的局部特征，有效提高视频中目标识别的准确率，且降低了背景噪声。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于Haar-like特征及CNN匹配的视频运动目标识别方法，其特征在于，包括以下步骤：

1)对视频目标图像进行Haar-like特征提取；

3)将步骤1)和步骤2)生成的特征进行特征融合；

5)将识别结果作为输入，利用CNN提取特征；

6)将提取到的CNN特征转换为紧凑的二进制编码；

8)将步骤6)中得到的二进制编码和步骤7)得到的二进制编码分别与原始视频图像转化的二进制编码利用汉明距离进行比较，输出汉明距离较小的视频图像。

2.根据权利要求1所述的基于Haar-like特征及CNN匹配的视频运动目标识别方法，其特征在于，所述步骤1)中对视频目标图像进行Haar-like特征提取是通过收集并标注视频中感兴趣目标的正负样本，构造出能够区分目标样本和非目标样本的矩形特征；其具体过程如下：

1.1)构造用于反应图像局部的灰度变化的Haar-like特征，将图像划分为3个不同的矩形区域部分并进行标记，3个部分有重叠区域且覆盖图像全局；

1.2)视频图像中目标的灰度变化特征由灰色区域和黑色区域组成，所选择的特征区域为灰色矩形框；其中，在图像中选择灰色区域时需要有重叠区域；

1.3)针对不同部分进行特征矩形框选取；

1.4)结合积分图计算：将标记标号为第二部分与第三部分的黑色矩形像素之和与第一个矩形框像素值求差值；

3.根据权利要求2所述的基于Haar-like特征及CNN匹配的视频运动目标识别方法，其特征在于，所述步骤1.5)中压缩计算公式如下：

其中，ω_i为高斯随机测量矩阵中非零权重。

4.根据权利要求1所述的基于Haar-like特征及CNN匹配的视频运动目标识别方法，其特征在于，所述步骤2)中最终的加速度向量是基于惯性传感器针对视频中的运动目标进行处理，并且利用滑动窗口从传感器中的加速度信号提取快速傅氏变换FFT系数

具体如下：

2.1)采用滑动窗口方法对加速度信号在各个轴上进行分割；

2.2)使用移动平均滤波器去噪；

2.3)计算FFT系数；

2.4)丢弃当前分量，保留前64个FFT系数；

5.根据权利要求1所述的基于Haar-like特征及CNN匹配的视频运动目标识别方法，其特征在于，所述步骤3)中的特征融合是采用并行特征融合方法DCA进行优化结合。

6.根据权利要求1所述的基于Haar-like特征及CNN匹配的视频运动目标识别方法，其特征在于，所述步骤6)将CNN特征转换为紧凑的二进制编码是使用局部敏感哈希算法，将每个CNN特征转换为128位二进制编码。

7.根据权利要求1所述的基于Haar-like特征及CNN匹配的视频运动目标识别方法，其特征在于，所述步骤7)具体如下：

7.1)给定视频目标，将目标图像分块即提取物体区域；

8.根据权利要求1所述的基于Haar-like特征及CNN匹配的视频运动目标识别方法，其特征在于，所述步骤7)具体如下：

7.3)将不同的区域利用CNN提取特征，将其重新采样到227×227，并减去像素值的均值；

7.4)将提取到的CNN特征转换为紧凑的二进制编码，使用局部敏感哈希(LSH)算法，将每个CNN特征转换为128位二进制编码，对于不同的目标区域集R₁＝{r_I,r_I,1,r_I,2,…r_I,M-1}中，所对应的CNN特征集合为C₁＝{c_I,c_I,1,c_I,2,…c_I,M-1}。