CN105678231A

CN105678231A - 一种基于稀疏编码和神经网络的行人图片检测方法

Info

Publication number: CN105678231A
Application number: CN201511020817.6A
Authority: CN
Inventors: 舒泓新; 蔡晓东; 陈昀; 王爱华
Original assignee: CHINACCS INFORMATION INDUSTRY Co Ltd
Current assignee: CHINACCS INFORMATION INDUSTRY Co Ltd
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2016-06-15

Abstract

本发明公开了一种基于稀疏编码和神经网络的行人图片检测方法，具体为：先预处理样本数据集中的样本并提取聚合通道特征；构建BP-AdaBoost强分类器模型并训练；对视频帧进行预处理，并进行不同尺度的缩放得到图片金字塔；利用快速图像特征金字塔计算方法结合滑动窗口检测法，对窗口图像进行计算得出聚合通道特征，并利用训练好的强分类器进行分类；当窗口图像的检测结果为正样本，则输出检测窗口，将所有检测窗口进行融合得到准确的定位窗口。本发明的有益效果是：本发明的检测方法在训练样本很大时仍能够具有计算速度快、精确度高的优势。

Description

一种基于稀疏编码和神经网络的行人图片检测方法

技术领域

本发明涉及图片检索方法，特别涉及一种基于稀疏编码和神经网络的行人图片检测方法。

背景技术

随着科技的进步，计算机等智能设备在人们的日常生活中应用越来越广泛，计算机在处理重复的，数据密集的任务时，比人类更有效，更准确。自然地人们希望计算机能够像人类一样处理一些更智能的问题。在计算机新的应用领域中计算机视觉是一个重要的部分，由计算机代替或辅助人类完成对目标的检测与跟踪是计算机视觉最核心也是最广泛的应用，从日常生活中用到的指纹或人脸解锁，到汽车的自动驾驶，机器人控制等都与计算机视觉技术息息相关。人类是社会生活的主体，对行人的识别理所当然的也是计算机视觉应用中最重要的任务之一。但由于人体姿态多变，外形不固定且随着衣着的变化表现的颜色特征也不同，目前仍然是一个极富挑战的课题，但因其广泛的应用前景，虽然行人检测任务面临着众多困难，仍然吸引了大量研究者的目光。

基于计算机视觉的行人检测主要任务就是计算机判断输入的图片(或视频帧)是否包含行人，如果包含行人就给出行人的位置信息。在对输入图像处理的过程中要用到计算机视觉与数字图像处理的知识，对目标模型的判定与分类则需要用到机器学习模式识别的相关知识，是一个多学科相结合的复杂的研究课题。行人检测具有广泛的应用前景，在智能汽车辅助驾驶系统、智能视频监控系统、机器人智能控制系统等方面都有很高的应用价值，同时行人检测也是人体行为分析应用中的第一步。近年来在航拍图像、受害者营救等新兴领域也得到应用。目前的检测方法多是基于HOG+SVM行人分类方法，但当图片场景有较大变化时不能够保证鲁棒性，无法适用于多个场景(即背景固定的图，可移植性不好)，而且SVM分类器对于样本线性可分的情况效果较好，但是对于样本线性不可分的情况就不够理想，而且SVM对于大规模的训练样本无法实施(如今是大数据时代，数据可以达到数以万计)，而且传统支持向量机算法只给出了二类分类的算法，而在行人检测的实际应用中，一般要解决多类的分类问题(比如性别、大人、小孩等等)。

发明内容

针对在样本数目很大时行人检测流行的Adboost+SVM模型难以实施训练的问题，本发明提供了一种适用于样本数量大、检测速度快和准确率高的基于稀疏编码和神经网络的行人图片检索方法。

为了实现上述发明目的，本发明提供了一种基于稀疏编码和神经网络的行人图片检测方法，其中，所述图片检测方法具体为：

步骤S101：首先对样本数据集中的正样本和负样本做图像预处理，然后再提取聚合通道特征；

步骤S102：构建BP-AdaBoost强分类器模型，并利用步骤S101得到的聚合通道特征对BP-AdaBoost强分类器进行训练；

步骤S103：获取待检测视频帧，并对视频帧进行图像预处理，并根据缩放因子进行不同尺度的缩放得到图片金字塔，所述图片金字塔是由视频帧的原图像和若干缩放图像组成的层图像集；

步骤S104：利用快速图像特征金字塔计算方法结合滑动窗口检测法，对层图像集每一层图像所处的窗口图像进行计算得出聚合通道特征，并利用训练好的BP-AdaBoost强分类器进行分类识别；

步骤S105：当窗口图像的检测结果为正样本，则BP-AdaBoost强分类器输出检测窗口，将所有层图像对应的检测窗口进行融合得到准确的定位窗口；当窗口图像的检测结果为负样本，则无输出。

其中，所述步骤S101中，所述样本数据集为INRIA训练样本集和INRIA训练样本集的对称变换样本集。

所述步骤S101和所述步骤S103中，所述图像预处理包括尺寸归一化处理和图像降噪处理；所述降噪预处理采用的滤波器为小波滤波器，平滑半径与检测精度的关系，r＝1时检测效果最佳。小波滤波器能通过大多数频率分量，但将某些范围的频率分量衰减到极低水平，有着较好的可调性，小波滤波可以较快的给出结果，提高整体检测速度。

所述步骤S101和所述步骤S103中，所述聚合通道特征包括三种通道特征：3个HSV颜色空间、6个量化的梯度方向直方图和1个梯度强度特征。使用HSV颜色空间变换方法，HSV相比LUV颜色空间变换计算量小，避免LUV中求立方根问题，加快了ACF特征提取速度，变换速度相对传统方法提高了一个数量级。

所述HSV颜色空间由视频帧的RGB颜色空间转换得到，具体为：

设RGB颜色空间中红、绿和蓝颜色的坐标均为(r,g,b)，r、g、b的值是在0到1之间的实数，设max等价于r、g和b中的最大者，设min等于r、g和b中值中的最小者，设HSV空间坐标值为(h,s,v)，其中h∈[0°,360°)为色调，s∈[0,1]为颜色，v∈[0,1]为饱和度，计算公式为：

s = \{\begin{matrix} 0, & \begin{matrix} i f & m a x = 0 \end{matrix} \\ \frac{m a x - m i n}{m a x} = 1 - \frac{m i n}{m a x}, & o t h e r w i s e \end{matrix}

v＝max

统计中采用了固定h和s，统计v特征，比如，划分h为16份，s为4份，v为4份，那么我们最终会得到一个256维的特征向量，具体的维数可以相应的调整；

所述梯度强度的计算公式为：

m (x, y) = \sqrt{{(I (x + 1, y) - I {(x - 1, y)}^{2} + I (x, y + 1) - I (x, y - 1))}^{2}}

所述梯度方向直方图的计算公式为：

θ(x,y)＝arctan((I(x,y+1)-I(x,y-1))/(I(x+1,y)-I(x-1,y)))。

所述步骤S102中，构建BP-AdaBoost强分类器具体为：

步骤S601：从样本数据集中随机选择m组训练数据(x₁,y₁)(x₂,y₂)…(x_m,y_m)，其中x_i为训练样本数据，y_i∈{1,-1}为样本期望分类结果，其中i＝1,2,…,m；初始化训练数据的分布权值D_i(i)＝1/m，i＝1,2,…,m，根据样本输入和输出的维数确定BP神经网络的网络结构，即输入层和输出层节点的个数；并初始化BP神经网络的其他参数值包括权值、学习效率、隐含层节点个数和决策阈值；

步骤S602：训练第t(t＝1,2,…,m)个弱分类器时，用训练样本集训练BP神经网络，并得到预测训练数据的网络输出，得到弱分类器序列g(t)的预测误差和e_i，其计算公式为：

e_{i} = \underset{i}{Σ} D_{i} (i), i = 1, 2, ..., m (g (t) &NotEqual; y);

其中，g(t)为网络的实际输出，y为样本期望分类结果；

步骤S603：根据计算出的预测误差和e_i，计算弱分类器的权重a_i，计算公式为：

a_{i} = \frac{1}{2} I n (\frac{1 - e_{i}}{e_{i}});

步骤S604：根据权重计算结果，调整下一次训练时样本的权重，调整公式如下：

D_{i + 1} (i) = \frac{D_{i} (i)}{B_{i}} * \exp [- a_{i} y_{i} g_{i} (x_{i})];

其中i＝1,2,…,m，B_i为归一化算子；

步骤S605：t次迭代后，得到t组弱分类器函数f(g_i,a_i)，并由这些弱分类器函数共同构成了最终的BP-AdaBoost强分类器：

所述步骤S103中，所述图片金字塔通过如下方式得到：

使用缩放因子s＝2^-k/8，将视频帧的原图像进行缩放得到19层的精密采样金字塔，所述精密采样金字塔为由视频帧的原图像和18张缩放图像组成的层图像集，其中最小缩放图像与滑动窗口检测法采用的窗口大小相同。

所述步骤S104中，所述快速图像特征金字塔计算方法具体为：

先计算出缩放因子为1、1/2、1/4的层图像的特征层，依据计算好的层图像的特征层估算其左右层图像的特征层，特征估算公式为：

C_s≈R(C_s',s/s')(s/s')^-λΩ

其中,C_s为待估算的特征层，其缩放因子为s，s'为事先己经计算好的层中与s距离最近的层的缩放因子,其中R(C_s',s/s')表示将C_s的尺寸缩放为原来的s/s'倍；λ_Ω是取决于具体特征的常系数，事先通过训练样本估计。

所述步骤S105中，融合具体为：

步骤S901、标记BP-AdaBoost强分类器输出的检测窗口并进行转换，得到与视频帧原图像对应的位置窗口，其中检测窗口和位置窗口由四个元素组成：左上角坐标、窗口高度、窗口宽度和分类算法计算得到的置信分数；

步骤S902、采用非极大值抑制算法将位置窗口进行融合，具体为：

假设两个检测窗口分别为bb1和bb2，二者重合率a₀计算公式如下：

a_{0} = \frac{a r e a (b b 1 \cap b b 2)}{a r e a (\min (b b 1, b b 2))}

当重合率a₀<θ时，两个检测窗口不做任何处理，其中θ＝0.5；

当重合率a₀>θ时，则再计算两个检测窗口的重合面积阈值，假设抑制窗口为BB_u，其检测分数为s_d、高度为h_u,被抑制窗口为BB_d，其检测分数为s_d、高度为h_d，则抑制窗口BB_u与被抑制窗口BB_d的重合面积阈值为：

{thr}_{o} = \{\begin{matrix} 0.65 & s_{d} / s_{u} &GreaterEqual; α \\ \min (0.65, 0.65 \times {(h_{d} / {λh}_{u})}^{2}) & s_{d} / s_{u} < α \end{matrix}

当重合面积阈值结果为0.65时，不采用动态阈值抑制，其中α＝0.7；

当重合面积阈值小于0.65时，采用动态阈值抑制；

最终得到准确的定位窗口。

其中，所述步骤S901中，标记检测窗口进行并进行转换具体为：

假设B是H点在层图像中的坐标，B'是H点视频帧原图像中的坐标，坐标A为检测窗口左上角的坐标，计算公式如下：

B'＝B-pad

A＝B'+(modelDsPad-modelDs)/2＝B+(modelDsPad-modelDs)/2-pad

其中，modelDsPad是检测窗口对行人的扩展，modelDs为行人尺寸，pad是计算特征时对输入图像的扩展；将检测窗口左上角坐标A除以缩放因子，得到检测窗口左上角在视频帧原图像中对应的坐标；

窗口高度和窗口宽度除以缩放因子得到转换后的窗口高度和窗口宽度；

置信分数不变，其中置信分数为检测窗口对应特征向量距离BP-adaboost决策平面的距离。

本发明的有益效果是：本发明的检测方法在训练样本很大时仍能够具有计算速度快、精确度高的优势；其中图像预处理时，采用小波滤波器，并使用HSV颜色空间变换方法，提高了ACF特征提取速度，而且对传统非极大值抑制方法进行改进，提高了定位窗口的准确性。

附图说明

附图1为本发明实施例的检测方法的流程图。

具体实施方式

本发明实施例提供了一种基于稀疏编码和神经网络的行人图片检测方法，如图1所示，具体为：

步骤S101：首先对样本数据集中的正样本和负样本做图像预处理，然后再提取聚合通道特征；样本数据集为INRIA训练样本集和INRIA训练样本集的对称变换样本集，INRIA训练样本集是目前使用最多的静态行人数据库，有着较高的清晰度，能够训练出更精确的分类器，其中，正样本的图像中含有行人，负样本的图像中不含行人；

其中图像预处理包括尺寸归一化处理和图像降噪处理；图像降噪处理采用的滤波器为小波滤波器，平滑半径与检测精度的关系，r＝1时检测效果最佳。小波滤波器能通过大多数频率分量，但将某些范围的频率分量衰减到极低水平，有着较好的可调性，小波滤波可以较快的给出结果，提高整体检测速度。

聚合通道特征包括三种通道特征：3个HSV颜色空间、6个量化的梯度方向直方图和1个梯度强度特征。使用HSV颜色空间变换方法，HSV相比LUV颜色空间变换计算量小，避免LUV中求立方根问题，加快了ACF特征提取速度，变换速度相对传统方法提高了一个数量级。

HSV颜色空间由视频帧的RGB颜色空间转换得到，具体为：

s = \{\begin{matrix} 0, & \begin{matrix} i f & m a x = 0 \end{matrix} \\ \frac{m a x - m i n}{m a x} = 1 - \frac{m i n}{m a x}, & o t h e r w i s e \end{matrix}

v＝max

从RGB颜色空间转换到HSV颜色空间可使用查表法，可以预先建立从量化的RGB空间到量化的HSV空间之间的查找表(look-uptable)，从而加快直方图的计算过程；

梯度强度的计算公式为：

m (x, y) = \sqrt{{(I (x + 1, y) - I {(x - 1, y)}^{2} + I (x, y + 1) - I (x, y - 1))}^{2}}

梯度方向直方图的计算公式为：

θ(x,y)＝arctan((I(x,y+1)-I(x,y-1))/(I(x+1,y)-I(x-1,y)))。

分类器的设计步骤包括采用基于AdaBoost和BP-ANN组合分类算法被称为是BP-AdaBoost模型，即指把BP神经网络作为弱分类器，采用AdaBoost算法反复训练BP神经网络，最后得到由若干个BP神经网络加权形成的强分类器。在样本数目很大时目前行人检测流行的Adboost+SVM模型难以实施训练，SVM是借助二次规划来求解支持向量，而求解二次规划将涉及m阶矩阵的计算(m为样本的个数)，当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间；传统支持向量机算法只给出了二类分类的算法，而在行人检测的实际应用中，一般要解决多类的分类问题。BP-Adboost模型则克服了SVM中的这些缺点并且如果训练样本选取合适其收敛速度是可以接受的。构建BP-AdaBoost强分类器具体为：

e_{i} = \underset{i}{Σ} D_{i} (i), i = 1, 2, ..., m (g (t) &NotEqual; y);

其中，g(t)为网络的实际输出，y为样本期望分类结果；

a_{i} = \frac{1}{2} I n (\frac{1 - e_{i}}{e_{i}});

D_{i + 1} (i) = \frac{D_{i} (i)}{B_{i}} * \exp [- a_{i} y_{i} g_{i} (x_{i})];

其中i＝1,2,…,m，B_i为归一化算子；

所述步骤S103中，所述图片金字塔通过如下方式得到：

使用缩放因子s＝2^-k/8，将视频帧的原图像进行缩放得到19层的精密采样金字塔，精密采样金字塔为由视频帧的原图像和18张缩放图像组成的层图像集，其中最小缩放图像与滑动窗口检测法采用的窗口大小相同。

步骤S104中，快速图像特征金字塔计算方法具体为：

C_s≈R(C_s',s/s')(s/s')^-λΩ

传统非极大值抑制过程中,容易抑制尺度相近的位置窗口,而难以抑制尺度差异较大的窗口，因为真实的行人窗口周围容易残留很多误检窗口,这些窗口的尺度和检测分数往往比真实的行人小很多,虽然存在较大的重合面积,但未达到阈值,从而产生误检。当采用一种尺度融合的非极大值抑制算法，被抑制窗口的尺度小于抑制窗口时,应该进行更严格的抑制。

本发明步骤S105中，融合具体为：

假设两个位置窗口分别为bb1和bb2，二者重合率a₀计算公式如下：

a_{0} = \frac{a r e a (b b 1 \cap b b 2)}{a r e a (\min (b b 1, b b 2))}

当重合率a₀<θ时，两个位置窗口不做任何处理，其中θ＝0.5；

当重合率a₀>θ时，则再计算两个位置窗口的重合面积阈值，假设抑制窗口(较大窗口)为BB_u，其检测分数为s_d、高度为h_u,被抑制窗口(较小窗口)为BB_d，其检测分数为s_d、高度为h_d，则抑制窗口BB_u与被抑制窗口BB_d的重合面积阈值为：

{thr}_{o} = \{\begin{matrix} 0.65 & s_{d} / s_{u} &GreaterEqual; α \\ \min (0.65, 0.65 \times {(h_{d} / {λh}_{u})}^{2}) & s_{d} / s_{u} < α \end{matrix}

当重合面积阈值小于0.65时，采用动态阈值抑制；

最终得到准确的定位窗口。

B'＝B-pad

A＝B'+(modelDsPad-modelDs)/2＝B+(modelDsPad-modelDs)/2-pad

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于稀疏编码和神经网络的行人图片检测方法，其特征在于，所述图片检测方法具体为：

步骤S104：利用快速图像特征金字塔计算方法结合滑动窗口检测法，对层图像集每一层层图像所处的窗口图像进行计算得出聚合通道特征，并利用训练好的BP-AdaBoost强分类器进行分类识别；

2.根据权利要求1所述的基于稀疏编码和神经网络的行人图片检测方法，其特征在于，所述步骤S101中，所述样本数据集包括INRIA训练样本集和INRIA训练样本集的对称变换样本集。

3.根据权利要求1所述的基于稀疏编码和神经网络的行人图片检测方法，其特征在于，所述步骤S101和所述步骤S103中，所述图像预处理包括尺寸归一化处理和图像降噪处理；所述图像降噪处理采用的滤波器为小波滤波器。

4.根据权利要求1所述的基于稀疏编码和神经网络的行人图片检测方法，其特征在于，所述步骤S101和所述步骤S103中，所述聚合通道特征包括三种通道特征：HSV颜色空间、梯度方向直方图和梯度强度特征。

5.根据权利要求4所述的基于稀疏编码和神经网络的行人图片检测方法，其特征在于，所述HSV颜色空间由视频帧的RGB颜色空间转换得到，具体为：

s = \{\begin{matrix} 0, & i f & m a x = 0 \\ \frac{m a x - m i n}{m a x} = 1 - \frac{m i n}{m a x}, & o t h e r w i s e \end{matrix}

v＝max；

所述梯度强度的计算公式为：

m (x, y) = \sqrt{{(I (x + 1, y) - I {(x - 1, y)}^{2} + I (x, y + 1) - I (x, y - 1))}^{2}}

所述梯度方向直方图的计算公式为：

θ(x,y)＝arctan((I(x,y+1)-I(x,y-1))/(I(x+1,y)-I(x-1,y)))。

6.根据权利要求1所述的基于稀疏编码和神经网络的行人图片检测方法，其特征在于，所述步骤S102中，构建BP-AdaBoost强分类器具体为：

e_{i} = \underset{i}{Σ} D_{i} (i), i = 1, 2, ..., m (g (t) &NotEqual; y);

其中，g(t)为网络的实际输出，y为样本期望分类结果；

a_{i} = \frac{1}{2} I n (\frac{1 - e_{i}}{e_{i}});

D_{i + 1} (i) = \frac{D_{i} (i)}{B_{i}} * \exp [- a_{i} y_{i} g_{i} (x_{i})];

其中i＝1,2,…,m，B_i为归一化算子；

7.根据权利要求1所述的基于稀疏编码和神经网络的行人图片检测方法，其特征在于，所述步骤S103中，所述图片金字塔通过如下方式得到：

8.根据权利要求1所述的基于稀疏编码和神经网络的行人图片检测方法，其特征在于，所述步骤S104中，所述快速图像特征金字塔计算方法具体为：

C_s≈R(C_s',s/s')(s/s')^-λΩ

其中,C_s为待估算的特征层，其缩放因子为s，s'为事先己经计算好的层中与s距离最近的层的缩放因子,其中R(C_s',s/s')表示将C_s的尺寸缩放为原来的s/s'倍；λ_Ω取决于具体特征的常系数，通过训练样本估计得出。

9.根据权利要求1所述的基于稀疏编码和神经网络的行人图片检测方法，其特征在于，所述步骤S105中，融合具体为：

a_{0} = \frac{a r e a (b b 1 \cap b b 2)}{a r e a (\min (b b 1, b b 2))}

当重合率a₀>θ时，则再计算两个位置窗口的重合面积阈值，假设抑制窗口为BB_u，其检测分数为s_d、高度为h_u,被抑制窗口为BB_d，其检测分数为s_d、高度为h_d，则抑制窗口BB_u与被抑制窗口BB_d的重合面积阈值为：

{thr}_{o} = \{\begin{matrix} 0.65 & s_{d} / s_{u} &GreaterEqual; α \\ \min (0.65, 0.65 \times {(h_{d} / {λh}_{u})}^{2}) & s_{d} / s_{u} < α \end{matrix}

当重合面积阈值小于0.65时，采用动态阈值抑制；

最终得到准确的定位窗口。

10.根据权利要求9所述的基于稀疏编码和神经网络的行人图片检测方法，其特征在于，所述步骤S901中，标记检测窗口进行并进行转换具体为：

B'＝B-pad

A＝B'+(modelDsPad-modelDs)/2＝B+(modelDsPad-modelDs)/2-pad

置信分数不变。