CN105718858B

CN105718858B - 一种基于正负广义最大池化的行人识别方法

Info

Publication number: CN105718858B
Application number: CN201610024377.XA
Authority: CN
Inventors: 孙锐; 张广海; 高隽; 张旭东
Original assignee: Hefei University of Technology
Current assignee: Hefei Jiema Intelligent Technology Co.,Ltd.
Priority date: 2016-01-13
Filing date: 2016-01-13
Publication date: 2019-01-11
Anticipated expiration: 2036-01-13
Also published as: CN105718858A

Abstract

本发明公开了一种基于正负广义最大池化的行人识别方法，包括：对采集的交通视频进行预处理，获得需要的训练样本图像，利用基于梯度的HOG局部描述符提取训练样本图像的局部特征，并通过由空间聚集受限玻尔兹曼机组成的深度分层编码方法对局部特征进行编码，形成训练样本的特征编码向量，再采用正负广义最大池化方法得到高层图像特征表示向量，将获得的特征数据输入支持向量机分类器，完成训练；对待测的行人图像进行预处理，得到测试样本，用同样的方式获得测试样本的特征表示向量；将测试样本的特征表示向量输入训练完成的支持向量机分类器，识别测试图像为行人还是非行人。本发明能提高行人识别的准确率，增强行人识别算法的鲁棒性。

Description

一种基于正负广义最大池化的行人识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于正负广义最大池化的行人识别方法。

背景技术

行人识别在智能交通系统和智能监控系统中具有广泛的应用前景，但它目前仍然是计算机视觉领域公开的难题，原因是行人外观和背景环境，如衣着、姿势、光照、视角等变化很大，加之背景复杂，识别的准确率不高。

在整个行人检测系统中，特征池化越来越重要。特征池化的思想来源于对纹状皮质层复杂细胞的研究，它已成为图像/视频特征表示和编码常用方法。用于行人识别的基本池化方法有最大池化、求和池化、平均池化和l_p池化。最大池化是一种广泛应用于计算机视觉领域的特征池化方法，但由于最大池化不区分编码系数的符号而只选择其最大绝对值，因此减弱了其分类辨别能力。求和池化适用于任何编码，然而由于无信息量的描述子频繁的影响结果表示，而潜在的具有高度信息量的描述子却对结果表示几乎没有影响，使得求和池化缺乏辨别力。平均池化是一种量化方法，在平均池化中考虑池化区域的所有元素，然而这种方法很容易丢失每一块的空间信息。l_p池化具有理想的辨别力池化结果，l_p池化是以一种更详尽的方式对其进行建模，但是l_p池化阶段算法需要进一步的研究。

发明内容

本发明是为了克服现有技术存在的不足之处，提供一种基于正负广义最大池化的行人识别方法，以期能有效地克服行人外观形变与复杂背景环境的影响，获得较好的分类性能，从而有效提高行人识别率，增强行人识别算法的鲁棒性。

本发明为解决技术问题采用如下技术方案：

本发明一种基于正负广义最大池化的行人识别方法的特点是按如下步骤进行：

步骤1、从交通视频中随机选取N个行人训练图像和N个非行人训练图像，对所述N个行人训练图像和N个非行人训练图像分别进行预处理，获得N个行人正样本训练图像和N个非行人负样本训练图像；

步骤2、利用HOG局部特征描述子对所述N个行人正样本训练图像和N个非行人负样本训练图像分别进行特征提取，获得行人特征集合x⁺和非行人特征集合x^-；

步骤3、利用式(1)所示的深度分层编码函数获得第n个行人正样本训练图像中第j个行人特征编码向量和第n个非行人负样本训练图像中第j个非行人特征编码向量

式(1)中，w_j表示受限玻尔兹曼机加权矩阵W第j列的元素，w_ij是受限玻尔兹曼机加权矩阵W第i行第j列的元素，f_enc(·,·)是前馈编码函数，σ(·)是sigmoid传输函数，I为局部图像描述子的维数；是第n个行人正样本训练图像的第i个行人特征，是第n个非行人负样本训练图像的第i个非行人特征；1≤i≤I；1≤n≤N；1≤j≤J；

步骤4、将所述第n个行人正样本训练图像中所有行人特征编码向量进行级联，获得第n个行人正样本训练图像的行人特征编码向量

将所述第n个非行人负样本训练图像的所有非行人特征编码向量进行级联，获得第n个非行人负样本训练图像的非行人特征编码向量

步骤5、对所述行人特征编码向量按列排序，记为对所述非行人特征编码向量按列排序，记为z^-；由z⁺和z^-构成特征编码向量Z；

步骤6、采用正负广义最大池化方法对所述特征编码向量Z进行优化处理，获得特征表示向量Y；

步骤6.1、利用式(2)所示的最大池化式对所述特征编码向量Z进行处理，获得第u个最大池化特征表示向量y_u：

y_u＝max{|z_u1|,|z_u2|,…,|z_un|,…,|z_uN|} (2)

式(2)中，z_un为所述特征编码向量Z的第u行第n列元素；1≤u≤N；

步骤6.2、利用式(3)对所述最大池化特征表示向量y_u进行处理，获得第u个正负最大池化特征表示向量y_u,PN-MP：

式(3)中，z_uv为所述特征编码向量Z的第u行第v列；

从而获得所有正负最大池化表示向量{y_1,PN-MP,y_2,PN-MP,…,y_u,PN-MP,…,y_N,PN-MP}；

对所述所有正负最大池化表示向量{y_1,PN-MP,y_2,PN-MP,…,y_u,PN-MP,…,y_N,PN-MP}按列排序，记为y；

步骤6.3、利用式(4)的正负广义最大池化式对所述正负最大池化特征表示向量y进行处理，获得特征表示向量Y：

式(4)中，y^T是y的转置矩阵，表示值全为1的N维向量，λ是正则化参数；

步骤7、利用支持矢量机对所述特征表示向量Y进行训练，获得分类识别模型和分类函数阈值τ；

步骤8、对待识别的测试图像分别按照步骤1和步骤2进行预处理和HOG特征提取，获得测试图像的特征集合x_C；

步骤9、利用式(5)所示的编码函数获得测试图像的第j个特征编码向量Z_Cj，从而获得测试图像的所有特征编码向量{z_C1,z_C2,…,z_Cj,…,z_CJ}：

式(5)中，x_Ci是测试图像特征集合x_C中第i个测试图像特征；

对所述测试图像的所有特征编码向量{z_C1,z_C2,…,z_Cj,…,z_CJ}按列排序，记为Z_c；

步骤10、采用正负广义最大池化方法对所述测试图像的特征编码向量Z_c进行优化处理，获得测试图像的特征表示向量Y_c；

步骤11、将所述测试图像的特征表示向量Y_c输入所述分类识别模型中，从而获得识别结果；若所述识别结果大于分类函数阈值τ，则表示所述测试图像为行人图像，否则表示所述测试图像为非行人图像。

与已有技术相比，本发明有益效果体现在：

1、本发明首先采用深度学习混合分层结构的方式对行人进行分层特征表示，以获得高层图像表示向量；然后使用堆叠3个受限玻尔兹曼机的深度学习模型编码HOG描述符，把从一个平面编码HOG描述符的工作扩展到了一个深度结构；接着，采用在模型内部通过池化方法利用空间信息；随后，在最大池化基础上提出了正负广义最大池化方法，以提高行人分类识别的辨别力；最后，采用支持向量机技术，充分利用高层图像特征表示向量中的信息实现行人分类，从而解决了行人外观形变与复杂背景下的行人识别问题，提高了行人识别率，实现了一种高效的行人识别方法。

2、本发明采用深度学习混合分层结构的方式对行人进行分层特征表示，混合分层结构包括：HOG局部描述符的局部特征提取，局部特征编码，空间池化形成高层图像特征表示向量和利用支持向量机的行人分类识别；进行局部特征编码时，利用一种基于受限玻尔兹曼机的深度分层结构，充分利用了深度学习的适应性和表达能力，提高了对外观形变和不同行人场景的适应能力。

3、本发明采用基于受限玻尔兹曼机深度分层结构编码HOG局部特征，既强调了网络结构的深度又突出了特征表达的能力，使编码HOG描述符的工作由一个平面扩展到了一个深度结构，提高了编码效率。

4、本发明采用在模型内部通过池化方法利用空间信息，在模型内部利用池化方法的聚合表示可以有效的利用空间信息，更多的提取有效的特征表示。

5、本发明采用正负广义最大池化方法对编码局部特征进行聚合，这种池化方法充分克服了统计汇总期间的空间信息不可恢复的损失和有关特征分布的底层过简化的假设，提高了行人分类识别的辨别力。

6、本发明采用支持向量机分类算法解决了行人分类识别问题，在机器学习中支持向量机是一种简单高效的分类器，高斯核函数可以有效提高数据在非线性条件下的可区分性，提高了行人分类识别率。

附图说明

图1为本发明的结构示意图；

图2为本发明的行人识别流程图；

图3为本发明的深度分层受限玻尔兹曼机的示意图。

具体实施方式

本实施例中，如图1和图2所示，一种基于正负广义最大池化的行人识别方法包括以下过程：首先对采集的交通视频进行预处理，获得需要的训练样本图像，然后利用基于梯度的HOG局部描述符提取训练样本图像的局部特征，并通过一个由空间聚集受限玻尔兹曼机组成的深度分层编码方法对局部特征进行编码，形成训练样本的特征编码向量，再采用正负广义最大池化方法得到高层图像特征表示向量，接着，将获得的特征数据输入支持向量机分类器，完成训练；随后，对待测的行人图像进行预处理，得到测试样本，用同样的方式获得测试样本的特征表示向量后；再将测试样本的特征表示向量输入训练完成的支持向量机分类器，最终识别测试图像为行人还是非行人。具体地说，是按如下步骤进行：

步骤1、从车载系统的交通视频中采集图像，随机选取N个行人训练图像和N个非行人训练图像，对N个行人训练图像和N个非行人训练图像分别进行预处理，获得N个行人正样本训练图像和N个非行人负样本训练图像；

步骤1.1、从车载系统的交通视频中随机选取N个行人训练图像和N个非行人训练图像，对N个行人训练图像和N个非行人训练图像进行归一化处理，分别获得像素大小为128×64的N个正样本和N个负样本；

步骤1.2、分别对N个正样本和N个负样本进行灰度化处理，分别获得N个正样本的灰度图和N个负样本的灰度图；

步骤1.3、对N个正样本的灰度图和N个负样本的灰度图进行灰度均衡化处理，分别获得N个正样本的灰度均衡化图像和N个负样本的灰度均衡化图像；

步骤1.4、对N个正样本的灰度均衡化图像和N个负样本的灰度均衡化图像分别用高斯滤波算法进行去噪平滑处理，从而获得N个行人正样本训练图像和N个非行人负样本训练图像；

步骤2、利用HOG局部特征描述子对N个行人正样本训练图像和N个非行人负样本训练图像分别进行特征提取，获得行人特征集合x⁺和非行人特征集合x^-；

目前，在计算机视觉和模式识别等领域中，可用于特征提取的方法很多，HOG是现阶段单一特征中性能较好的一种，主要用来描述图像的局部纹理特征且方法简单实用，因此较为常用，通常通过计算和统计图像局部区域的梯度方向直方图来构成特征。

步骤3、利用式(1)所示的深度分层编码函数获得第n个行人正样本训练图像的第j个行人特征编码向量和第n个非行人负样本训练图像的第j个非行人特征编码向量

式(1)中，w_j是受限玻尔兹曼机加权矩阵W第j列的元素，w_ij是受限玻尔兹曼机加权矩阵W第i行第j列的元素，受限玻尔兹曼机加权矩阵W具体实现可以参考Lee等人在2009年的著作：《Convolutional deep belief networks for scalable unsupervised learningof hierarchical representations》；f_enc(·,·)是前馈编码函数，σ(·)是sigmoid传输函数，I为局部图像描述符的维数；本实例中I＝128；是第n个行人正样本训练图像的第i个行人特征，是第n个非行人负样本训练图像的第i个非行人特征；1≤i≤I；1≤n≤N；1≤j≤J；本实例中J＝2048；

在HOG局部特征提取之后，主要运用分层视觉编码方法获得特征编码向量，即利用由空间聚集的L个相互堆叠的受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)组成的深度分层编码方法对局部特征进行编码，形成训练样本的特征编码向量；如图3所示，本实例中的深度分层共有4层，即L＝3；深度分层编码方法主要利用了深度学习(deeplearning)的优良特性，使得特征编码向量可以进行微调(fine-tune)，获得更为精确的结果。

步骤4、将第n个行人正样本训练图像的所有行人特征编码向量进行级联，获得第n个行人正样本训练图像的行人特征编码向量

将第n个非行人负样本训练图像的所有非行人特征编码向量进行级联，获得第n个非行人负样本训练图像的非行人特征编码向量

步骤5、对行人特征编码向量按列排序，记为z⁺；对非行人特征编码向量按列排序，记为z^-；由z⁺和z^-构成特征编码向量Z；

步骤6、采用正负广义最大池化(Positive and Negative Generalized MaxPooling，PN-GMP)方法对特征编码向量Z做进一步优化处理，以获得特征表示向量Y；

步骤6.1、利用式(2)所示的最大池化公式对特征编码向量Z进行处理，获得第u个最大池化特征表示向量y_u：

y_u＝max{|z_u1|,|z_u2|,…,|z_un|,…,|z_uN|} (2)

式(2)中，z_un是特征编码向量Z的第u行第n列；1≤u≤N；

最大池化(Max Pooling)是一种广泛应用于计算机视觉领域的特征池化方法。特别是当表示为稀疏性时，首选最大池化方法。由池化方法的期望可知，最大池化比求和池化更倾向于增加相似性度量的辨别力，特别是池化基数M增加时表现更为明显。因此，随着池化基数M的增加，相似和不相似的图像可以更容易利用最大池化进行分离。然而，由于最大池化不区分特征编码向量的符号而只选择其最大绝对值，因此减弱了其分类辨别能力。

步骤6.2、为了克服最大池化的缺点，引入了正负最大池化(Positive andNegative Max Pooling，PN-MP)；利用式(3)对最大池化特征表示向量y_u进行处理，获得第u个正负最大池化特征表示向量y_u,PN-MP，从而获得所有正负最大池化表示向量

{y_1,PN-MP,y_2,PN-MP,…,y_u,PN-MP,…,y_N,PN-MP}；

式(3)中，z_uv是特征编码向量Z的第u行第v列；

对所有正负最大池化表示向量{y_1,PN-MP,y_2,PN-MP,…,y_u,PN-MP,…,y_N,PN-MP}按列排序，记为y；

步骤6.3、PN-GMP方法在PN-MP方法基础上做了进一步优化，使得池化能力更为完善，识别率得到进一步提高；利用式(4)所示的正负广义最大池化公式对正负最大池化特征表示向量y进行处理，获得特征表示向量Y：

式(4)中，y^T是y的转置矩阵，表示值全为1的N维向量，λ是正则化参数；λ→∞时，特征表示向量Y退化为求和池化的特征表示向量；

步骤7、利用支持矢量机(Support Vector Machine，SVM)对特征表示向量Y进行训练，即利用训练数据和确定的学习参数，进行支持矢量机学习，从而获得训练好的分类识别模型和分类函数阈值τ，本实例中τ＝0.005；SVM具体实现可以参考邓乃扬和田英杰在2009年的著作：《支持向量机:理论、算法与拓展》；

步骤7.1、将训练数据集带入式(5)求最优化：

式(5)中，ω为支持向量机的权重；C为超平面的惩罚因子，其中C越大，容忍出错的程度越小，但训练的时间越长；b为超平面的偏置量；ξ_m为超平面的第m个松弛变量；x_m和y_m表示第m个训练数据，并有{x_m,y_m＝±1}，1≤m≤2N；

步骤7.2、调用设置好训练参数的SVM中的函数进行训练，完成训练后获得训练好的模型；本发明的SVM是采用基于高斯核函数的SVM；

步骤8、对待识别的测试图像按照步骤1和步骤2进行预处理和HOG特征提取，获得测试图像的特征集合x_C；

步骤9、利用式(6)所示的编码函数获得测试图像的第j个特征编码向量z_Cj，从而获得测试图像的所有特征编码向量{z_C1,z_C2,…,z_Cj,…,z_CJ}：

式(6)中，x_Ci是测试图像特征集合x_C中第i个测试图像特征；

对测试图像特征编码向量{z_C1,z_C2,…,z_Cj,…,z_CJ}按列排序，记为Z_c；1≤j≤J；

步骤10、按照步骤6对测试图像特征编码向量Z_c做进一步优化处理，以获得测试图像的特征表示向量Y_c；

步骤11、将测试图像特征表示向量Y_c输入训练好的分类识别模型中，从而获得识别结果；若识别结果大于分类函数阈值τ，则表示测试图像为行人图像，否则表示测试图像为非行人图像。

Claims

1.一种基于正负广义最大池化的行人识别方法，其特征是按如下步骤进行：

步骤5、对所述行人特征编码向量按列排序，记为z⁺；对所述非行人特征编码向量按列排序，记为z^-；由z⁺和z^-构成特征编码向量Z；

y_u＝max{|z_u1|,|z_u2|,...,|z_un|,...,|z_uN|} (2)

式(3)中，z_uv为所述特征编码向量Z的第u行第v列；

从而获得所有正负最大池化表示向量{y_1,PN-MP,y_2,PN-MP,...,y_u,PN-MP,...,y_N,PN-MP}；

对所述所有正负最大池化表示向量{y_1,PN-MP,y_2,PN-MP,...,y_u,PN-MP,...,y_N,PN-MP}按列排序，记为y；

步骤9、利用式(5)所示的编码函数获得测试图像的第j个特征编码向量Z_Cj，从而获得测试图像的所有特征编码向量{z_C1,z_C2,...,z_Cj,...,z_CJ}：

式(5)中，x_Ci是测试图像特征集合x_C中第i个测试图像特征；

对所述测试图像的所有特征编码向量{z_C1,z_C2,...,z_Cj,...,z_CJ}按列排序，记为Z_c；