CN106485226A

CN106485226A - 一种基于神经网络的视频行人检测方法

Info

Publication number: CN106485226A
Application number: CN201610899106.9A
Authority: CN
Inventors: 邵李焕; 陈少博
Original assignee: HANGZHOU PAINIAO ELECTRONIC TECHNOLOGY Co Ltd
Current assignee: HANGZHOU PAINIAO ELECTRONIC TECHNOLOGY Co Ltd
Priority date: 2016-10-14
Filing date: 2016-10-14
Publication date: 2017-03-08

Abstract

本发明公开了一种基于神经网络的视频行人检测方法，包括以下步骤：步骤S1：提取视频中的一帧图像；步骤S2：将当前帧图像与已有背景图像对比进而生成前景运动对象图像并进行膨胀腐蚀运算；步骤S3：将前景运动对象图像进行归一化处理；步骤S4：在前景运动对象图像中提取HOG特征和LUV特征；步骤S5：将HOG特征和LUV特征输入预先已学习和训练好的神经网络并经神经网络处理检测出行人位置。本发明针对HOG‑SVM算法计算量大、计算速度慢的缺点，使用神经网络算法替代SVM分类器，使用HOG和LUV特征来描述图像，在保证准确率的基础上提高处理速度；并充分利用了混合高斯背景减除法滤除背景图像；算法计算速度快，准确率高。

Description

一种基于神经网络的视频行人检测方法

技术领域

本发明属于智能视频监控领域，尤其涉及一种基于神经网络的视频行人检测方法。

背景技术

行人检测是一种在待检测的图像或者视频中发现行人并反馈行人位置信息和相对大小的方法。近年来行人检测在计算机视觉领域受到足够关注和重视，并且取得了很大的发展，使得行人检测的实用性获得增强。但是，在图像或视频内的行人由于运动形态、服饰穿着、拍摄时机等影响，行人的形态存在较大的变化。因此行人检测也成为了计算机视觉领域的一个研究难点。

目前有多种检测行人的方法，其中基于机器学习的检测方法比例最大。该方法包括以下两方面：特征描述算子和学习算法。特征描述算子有haar小波、HOG(HistogramofOrientedGradient)、LBP(LocalBinaryPattern)、Shapelet特征以及边缘特征(edgelet)等。学习算法有支持向量机(SVM)、神经网络等。现有的主流技术解决方案是采用HOG特征+SVM分类器的方法，该方法采取对图像采用不同大小框架扫描，对每一幅扫描获得的图像提取HOG特征并利用训练好的SVM分类器对提取的特征进行分类，由于HOG特征在光照和偏移量上有较好的鲁棒性等特点，具有最佳的代表性。但由于采用了扫描的方法提取图像，造成了效率上的大浪费，并且在SVM的处理中计算量大，导致其计算速度不理想。同时由于只使用了一种特征，对行人的特征描述不够全面，在某些特殊场合的检测正确率偏低。

故，针对目前现有技术中存在的上述缺陷，实有必要进行研究，以提供一种方案，解决现有技术中存在的缺陷。

发明内容

有鉴于此，确有必要提供一种检测速度快且准确率高的基于神经网络的视频行人检测方法。

为了克服现有技术存在的缺陷，本发明提供以下技术方案：

一种基于神经网络的视频行人检测方法，包括以下步骤：

步骤S1：提取视频中的一帧图像；

步骤S2：将当前帧图像与已有背景图像对比进而生成前景运动对象图像并进行膨胀腐蚀运算；

步骤S3：将前景运动对象图像进行归一化处理；

步骤S4：在前景运动对象图像中提取HOG特征和LUV特征；

步骤S5：将HOG特征和LUV特征输入预先已学习和训练好的神经网络并经神经网络处理检测出行人位置。

优选地，所述神经网络采用无隐层结构、单隐层结构或双隐层结构。

优选地，在所述步骤S3中，将前景运动对象图像归一化到64像素*128像素大小。

优选地，在所述步骤S2中，通过混合高斯算法将当前帧图像与已有背景图像对比进而生成二值化的前景运动对象图像。

优选地，对二值化的前景运动对象图像进行膨胀腐蚀运算。

优选地，进一步包括以下步骤：

对二值化的前景运动对象图像进行一次膨胀运算；

将经第一次膨胀运算处理的图像进行多次腐蚀运算；

再将经腐蚀运算处理的图像进行多次膨胀运算。

优选地，在所述步骤S4中，还包括将提取的HOG特征及LUV特征进行PCA降维的步骤。降维处理后提取HOG特征及LUV特征中最主要的一半维度。

优选地，所述神经网络为采用单隐层结构的BP神经网络，采用优化为3780维的特征向量的输入结构、节点个数为80个的可提高检测精度的隐层结构。

与现有技术相比较，针对HOG-SVM算法计算量大，计算速度慢的缺点，本发明使用神经网络算法替代SVM分类器，使用HOG和LUV特征来描述图像，在保证准确率的基础上还提高了处理速度；同时充分利用了混合高斯背景减除法除滤除背景图像，使得算法具有计算速度快，准确率高的优点。

附图说明

图1为本发明一种基于神经网络的视频行人检测方法的流程框图。

图2为本发明用于试验使用的原始视频。

图3为图2经过混合高斯背景减除处理后的黑白二值图。

图4为图3经过一次膨胀运算处理后的黑白二值图。

图5为图4经过两次腐蚀运算处理后的黑白二值图。

图6为图5经过四次膨胀运算处理后的黑白二值图。

图7为通过本文方法处理后的行人检测结果图。

如下具体实施例将结合上述附图进一步说明本发明。

具体实施方式

以下将结合附图对本发明作进一步说明。

参见图1，所示为本发明一种基于神经网络的视频行人检测方法的流程框图，包括以下步骤：

步骤S1：提取视频中的一帧图像；

步骤S3：将前景运动对象图像进行归一化处理；

步骤S4：在前景运动对象图像中提取HOG特征和LUV特征，其中LUV特征为LUV色彩空间，全称CIE 1976(L,u,v)色彩空间，L表示物体亮度，u和v是色度。将LUV空间特征量化为1890维特征直方图，从而形成LUV直方图特征向量；

在步骤S3中，将步骤S2得到的前景运动对象图像进行归一化到64像素*128像素(以下设计HOG特征的尺寸描述的单位均为像素)大小后进行HOG特征提取。由于神经网络对输入有严格要求，因此使用归一化将采集到的前景图像统一大小以便提取相同数量的特征维数。

HOG特征提取的参数如下：检测窗口(64,128),块尺寸(16,16),块步长(8,16),cell尺寸(8,8),直方图bin个数9，最后获得共3780维特征向量。

所述神经网络是单隐层结构的BP神经网络，

在步骤S2中，通过混合高斯算法进行了图像相减除处理。该方法能屏蔽大部分周期性变化的运动目标，其模型为：

图像序列I中的某一个特定像素{X₀，Y₀}可以表示为X_t表示时刻t像素{X₀，Y₀}的值。K是高斯分布的个数，ω_(i,t)是时刻t第i个高斯分布的权重，μ_(i,t)是时刻t第i个高斯分布的均值，C_(i,t)是时刻t第i个高斯分布的协方差矩阵，若假设红绿蓝三像素相互独立，并且有相同的方差，则协方差矩阵可以表示为定义为C_(i，t)＝σ_i ²I高斯密度公式，其形式为:

η(X_t,μ,C)＝1/((2π/^n/2|C|²)exp(-1/2(X_t-μ_t)^T C^-1(X_T-μ_T)) (2)

高斯模型参数更新公式如下：

ω_(k，t)＝(1-α)ω_(k，t-1)+α(M_(k，t)) (3)

μ_t＝(1-ρ)μ_(t-1)+ρX_t (4)

σ_t ²＝(1-ρ)σ_(t-1) ²+ρ(X_t-μ_t)^T(X_t-μ_t) (5)

其中ρ＝αη(X_t│μ_k,σ_k)。当MK，t＝1即像素与某个高斯分布相匹配，则该高斯分布的权重增大，方差变小，选择权重与方差比值最高的b个高斯分布作为背景模型。某一像素与背景模型相匹配则认为该像素是背景像素，否则，则认为是前景像素，从而实现前景运动对象图像的提取。

在提取视频前景运动对象图像时，首先将视频帧进行混合高斯背景减除，得到前景为白色背景为黑色的二值图。由于光照、摄像头抖动等原因，通过混合高斯背景减除后的视频帧依然存在不少噪点。为了解决这个问题，本发明对获得的黑白二值图进行膨胀腐蚀运算。为了防止真实的前景在腐蚀运算中被切割，本发明先运用了一次膨胀运算，以在后面的腐蚀运算时保证真实前景的连贯性。在通过两次腐蚀运算将黑背二值图中的噪点去除，最后通过四次膨胀运算将真正的前景图像加强。通过膨胀——腐蚀——膨胀处理后的黑白二值图可以很好的表示前景所在区域。参见图2至图6，所示为视频在上述处理中所展现的黑白二值图。

在步骤S4中，HOG特征提取分为了以下几个步骤：

①平方根Gamma空间和颜色空间标准化。

②像素梯度的计算。通过式(1)和式(2)分别计算像素点得到梯度的模值和方向角:

其中，G(x，y)，α(x，y)，H(x，y)分别表示像素点的梯度幅值、梯度方向以及像素点的灰度值。

③元内梯度直方图的统计。

④block归一化直方图。

⑤计算出HOG特征。

本发明中对获取的前景运动对象图像进行归一化到64像素*128像素大小后进行HOG特征提取，HOG特征提取的参数如下：检测窗口(64,128),块尺寸(16,16),块步长(8,16),cell尺寸(8,8),直方图bin个数9。最后获得共3780维特征向量。

在一种优选的实施方式中，将提取的HOG特征及LUV特征进行PCA(PrincipalComponent Analysis)降维，提取特征中最主要的一半维度。PCA是一种数据分析方法，通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。本发明中使用前期训练好的PCA降维参数(由训练样本特征计算后得到的平均矩阵、协方差矩阵、协方差特征向量和特征值矩阵)对HOG特征进行降维。

神经网络由于对非线性问题具有良好的分类特性，因此经常被用作分类器。在特征选择时与遗传算法结合往往能取得非常好的效果。本发明使用了目前较为成熟的BP神经网络。

BP(Back Propagation)神经网络是一种按误差逆传播算法训练的多层前馈网络。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hiddenlayer)和输出层(output layer)。

在步骤S5中，预先学习和训练好上述神经网络，学习和训练如下：

本发明实施例对pets2001标准视频提供的监控视频序列进行处理。该视频中场景背景处于动态变化之中，不仅有光照变化还有不停变化的汽车，运动物体有单个行人、多个行人、各种车辆等，行人遮挡比较严重。具体包括如下步骤：

利用行人样本图片库，提取图片的HOG特征和LUV特征作为输入数据，采用神经网络学习方法生成行人的模式识别分类器。

本文使用OpenCV计算机视觉开源库和INRIA行人数据库来对算法进行验证。INRIA行人数据库为法国国家信息与自动化研究所行人数据库，训练集由正样本614张，负样本1218张构成；测试集由正样本288张，负测试样本453张构成。样本通过截取街景行人而构成，图像行人姿态多样，背景复杂多变，普遍代表了行人检测的大多数难点，适用性更强。依据INRIA行人数据库给出的行人坐标，将614张正样本截取出1237个行人图片作为正样本，1218张风景图片作为负样本。

本发明选用Qiang Zhu提出的HOG特征，通过将图像进行归一化到64像素*128像素大小后进行HOG特征提取，HOG特征提取的参数如下：检测窗口(64,128),块尺寸(16,16),块步长(8,16),cell尺寸(8,8),直方图bin个数9，最后获得共3780维特征向量。

本发明继续对得到的所有HOG特征进行PCA降维处理。将所有训练样本的3780维HOG特征组成一个3780*(1237+1218)矩阵，计算该矩阵的协方差矩阵并求出其特征向量和特征值，将得到的特征向量和特征值按大小排序，并对排序后的前1890个特征做提取，作为新的HOG特征。

本发明选用LUV特征，通过将归一化的前景图片转换到LUV色彩空间，设置L为27色彩级别，U为7色彩级别，V为10色彩级别，最后将LUV空间特征量化为1890维特征直方图，从而形成LUV直方图特征向量。

为了确定较优的神经网络结构，本发明分别对无隐层结构(3780-2)，单隐层结构(3780-90-2)和双隐层结构(3780-1900-40-2)的神经网络进行了实验。实验结果见表1。实验结果显示，无隐层结构的神经网络由于可调整空间太小，致使最后的实验结果不理想。双隐层结构的神经网络当第一层隐层的节点数目过多时会出现过拟合现象，且训练和检测时间大大增加。单隐层结构的神经网络相对于无隐层结构的神经网络其可供算法程序调整的空间较大。单隐层结构的神经网络相对于双隐层结构的神经网络不仅能够避免双隐层结构出现的过拟合问题，而且在算法的训练和检测环节其耗时大大减少。

表1各结构神经网络对比

对比上述实验结果，本发明设计了单隐层结构的BP神经网络。同时为了确定隐层节点数目，本发明分别对隐层节点数为67、72、77、78、79、80、 81、82、83、84、85、86、87的神经网络进行了测试，测试结果见表2不同隐层节点数对结果的影响。其中行人识别率为对行人图片做出正确反应的概率，非行人识别率为对非行人图片做出正确反应的概率，准确率为行人识别率加非行人识别率的平均值。

表2不同隐层节点数对结果的影响

由上表可知当隐层节点为80个时算法的准确率明显提高最终我们确定神经网络的结构为网络输入层3780维的特征向量，网络输出层为行人概率和非行人概率，隐层节点个数为80个。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于神经网络和双特征融合的视频行人检测方法，其特征在于，包括以下步骤：

步骤S1：提取视频中的一帧图像；

步骤S3：将前景运动对象图像进行归一化处理；

步骤S4：在前景运动对象图像中提取HOG特征和LUV特征；

2.根据权利要求1所述的一种基于神经网络和双特征融合的视频中的行人检测方法，其特征在于，所述神经网络采用无隐层结构、单隐层结构或双隐层结构。

3.根据权利要求1或2所述的基于神经网络和双特征融合的视频行人检测方法，其特征在于，在所述步骤S3中，为HOG特征提取提供的图像为将前景运动图像进行归一化到64像素*128像素大小。

4.根据权利要求1所述的基于神经网络和双特征融合的视频行人检测方法，其特征在于，对二值化的前景运动对象图像进行膨胀腐蚀运算。其步骤如下：

对二值化的前景运动对象图像进行一次膨胀运算；

将经第一次膨胀运算处理的图像进行多次腐蚀运算；

再将经腐蚀运算处理的图像进行多次膨胀运算。

5.根据权利要求3所述的基于神经网络和双特征融合的视频行人检测方法，其特征在于，在所述步骤S4中，还包括将提取HOG特征及LUV特征后进行PCA降维处理。降维处理后提取HOG特征及LUV特征中最主要的一半维度。

6.根据权利要求2所述的基于神经网络和双特征融合的视频行人检测方法，其特征在于所述神经网络为采用单隐层结构的BP神经网络，采用优化为3780维的特征向量的输入结构、节点个数为80个的可提高检测精度的隐层结构。