CN112633169B

CN112633169B - 一种基于改进型LeNet-5网络的行人识别算法

Info

Publication number: CN112633169B
Application number: CN202011538165.6A
Authority: CN
Inventors: 王燕妮; 余丽仙; 孙雪松; 刘祥; 翟会杰
Original assignee: Xian University of Architecture and Technology
Current assignee: Xian University of Architecture and Technology
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2023-05-30
Anticipated expiration: 2040-12-23
Also published as: CN112633169A

Abstract

本发明公开了一种基于改进型LeNet‑5网络的行人识别算法，包括：1)将从网上裁剪的部分单行人图片、部分低像素手机拍摄的生活中行人图片以及戴姆勒行人检测标准数据库中选取的部分图片进行归一化处理，得到样本集；2)对样本集中的图片灰度化，并分为训练集、验证集和测试集；3)对LeNet‑5网络进行修改，在该网络的基础上再引入两层卷积层、两层池化层和BN层，将BN层置于网络激活函数层的前面。并将LeNet‑5中最后的Gaussian connection分类层改为softmax；4)将上述训练样本输入该网络进行训练，通过验证集和测试集的准确率来选取最终的训练模型，以达到提高检测精度的目的，更好地满足行人分类的准确率和实时性的要求。

Description

一种基于改进型LeNet-5网络的行人识别算法

技术领域

本发明属于数字图像处理领域，具体涉及一种基于改进型LeNet-5网络的行人识别算法。

背景技术

近年来无人驾驶、智能交通一直是生活中的热点话题，越来越多的研究者投身其中，国内的清华大学、西安交通大学等高校都对自动驾驶车辆这一领域进行了深入的研究，比如最近的夜间车辆距离检测，就是采样机器视觉的技术来衡量夜间车距，对于道路交通安全具有很大的研究意义。在智能驾驶领域，行人安全问题不可忽视，受天气、树木遮挡、光影、复杂背景等的影响，一定程度上加大了对行人的准确识别的难度。

目前对于目标分类检测的主要方法分为传统方法和深度学习方法或者两种方法加以结合。行人检测中最重要的一部分就是特征提取，而HOG特征是该领域应用最广泛的特征之一。由于单一的特征在很多复杂情况下表达能力不足，一些研究者为了解决该问题又提出了组合特征，如Sangeetha等提出了一种行人检测方法，该方法是基于边缘梯度的多尺度高效直方图；Jiao Jichao提出了一种能减轻背景干扰的HOG-PCA(HOGP)混合特征描述符。黄炎等提出了能抑制部分梯度干扰信息的HOG-LBP组合特征。较为常用的方法还有HOG+SVM。以上都是处理过程较为繁琐、基于手工特征的传统方法。近几年来CNN(卷积神经网络)在图像分类中应用十分广泛，对于一些目标检测定位问题的处理中，LeNet-5、AlexNet、VGG、ResNet等都是常用来作为骨干网络先进行特征提取和分类。卷积神经网络的优点在于它是一个统一的结构体，通过输入图像，神经网络自主学习，最终输出一个具有学习能力的模型，而卷积层又具有权重共享等特点，可以使网络学习所需要的参数减少，减少内存的同时提高学习效率。刘智等提出基于深度卷积网络行为识别模型；Liu等提出了实时性较高用于目标检测的SSD网络。

在可见光环境下，一般设备拍摄到的图片都是高清的，而夜间或者雾天等环境下，普通相机表现出的性能并不佳。通常会因为光线、恶劣天气、相机距离等的影响，使得拍摄到的物体分辨率不高。考虑到分类的目的是为了辨别出是否有该类别，为了方便行人分类，同时节省网络训练时间，由此想到制作小分辨率、含单行人的样本集。

因此，考虑到为手写体识别而存在的LeNet-5网络，如：张秀玲等提出的基于改进LeNet-5网络的车牌字符识别，在识别准确率上达到了99.88％；又如：张猛等提出的基于改进的LeNet-5卷积神经网络交通标志的识别，在识别率上高达93.558％。

在行人识别算法研究过程中，申请人曾经直接用LeNet-5网络训练制作的小分辨率样本数据集，在训练过程中发现网络不稳定，且泛化能力不强。分析主要问题在于LeNet-5网络深度过浅，导致其在面对较为复杂的特征时，学习能力不够强。

因此，如何进一步针对小分辨率样本数据，进行更好的训练，达到对行人进行准确分类识别和检测，是申请人研究的课题之一。

发明内容

本发明的目的在于，提供一种基于改进型LeNet-5网络的行人识别算法，以更好地满足行人分类的准确率和实时性的要求。

为了实现上述任务，本发明采取如下的技术解决方案：

一种基于改进型LeNet-5网络的行人识别算法，其特征在于，包括以下步骤：

1)将从网上裁剪的部分单行人图片、部分低像素手机拍摄的生活中行人图片以及戴姆勒行人检测标准数据库中选取的部分图片进行归一化处理，处理为48x64的图片，得到样本集；

2)统一样本集中的图片维度，并对样本集进行标注处理，同时分为训练集、验证集和测试集；

3)对LeNet-5网络进行修改，构建改进型LeNet-5网络；即，在常规的LeNet-5网络基础上，新引入两层卷积层、两层池化层和BN层；两层卷积层和两层池化层分别连接于LeNet-5中的第二个池化层之后，BN层置于网络激活函数层的前面，并将LeNet-5中最后的Gaussian connection分类层改为softmax；其中，在新引入的两个池化层中，第二个池化层为平均池化；

4)将训练集输入该改进型LeNet-5网络进行训练，通过验证集准确率选取最终训练模型，将所得最终训练模型用于测试集进行准确率测试。

根据本发明，步骤1)中，所述戴姆勒行人检测标准数据库是一个公开行人检测和分类数据集；从戴姆勒行人检测标准数据库中选取的部分图片是采用车载摄像机获取的图片，图片大小均为18x36。

进一步地，步骤2)中所述的对样本集进行标注处理，经含有行人的图片标注为1，不含行人的背景图标注为2。

优选地，步骤4)中所述将训练集输入该改进型LeNet-5网络进行训练算法如下：

(1)正向传播和反向传播：

正向传播就是通过卷积核不停的对图像进行滤波处理提取特征，同时计算整个网络的loss值，然后通过反向传播运算，来更新网络权值，调整整个网络，使网络的损失降到最小；正向传播中的主要运算有卷积，激活函数以及下采样；

卷积运算公式如下：

式中：k表示的是卷积核；

表示的是输入；

表示的是输出；

表示的是偏置；f表示的是激活函数；M_j表示的是第j个特征图；l表示的是层数；

池化层通常在卷积层之后进行，池化层主要起的功能是下采样，该操作运算公式如下：

式中：

表示的是输入；

表示的是输出；

表示的是偏置；f表示的是激活函数；β对应的是每个输出的特征图；

使用的激活函数是relu，该激活函数运算如下：

f(x)＝max(0,x) (3)

反向传播是通过使用反向求导，来优化网络和权值，从而减小网络最终计算出的损失函数的值，计算损失函数的公式如下所示：

式中：L表示计算得到的损失值，y表示的是正向传播之后得到的实际损失值，

表示经过relu函数的输出，代表的是该样本标签为1的概率；

反向传播是整个网络的关键，网络用随机梯度下降法来寻找最优值；反向传播的计算公式如下：

式中：

表示第l-1层的第k个神经元连接到第l层的第j个神经元的权值；

表示第l层的第j个神经元的偏置；

表示第l层的第j个神经元的输入；

表示第l层的第j个神经元的输出；E表示损失函数，l表示第l层，t表示输出的期望值；式(8)中的

表示的是网络权值更新后的值；

在改进型LeNet-5网络的设置中，总共设置了30个epoch，对于学习率使用的是可变的学习率，也就是随着迭代次数的增加，学习率会相应的减少，稳定最后的训练，防止梯度爆炸。

为了验证本发明的基于改进型LeNet-5网络的行人识别算法带来的优点，申请人在实际情况中选取了在真实场景中拍摄的多个场景的图片，并将选取的图片输入改进型LeNet-5网络中，通过准确率和实时性的检测，发现该改进型LeNet-5网络具有较高的准确率，能很好的区分行人和背景，且实时性较高。

附图说明

图1是改进型LeNet-5网络训练过程中产生的loss值和准确率图；其中(a)图是loss值图，(b)图是准确率图；

图2是改进型LeNet-5在验证集上的准确率。

下面结合附图和实施例对本发明做进一步详细描述。

具体实施方式

首先需要说明的是，在以下的实施例中，涉及的相关名称定义如下：

戴姆勒行人检测标准数据库：表示的是一个公开行人检测和分类数据集；该数据库采用车载摄像机获取，分为检测、分类等多数据集。

LeNet5网络：LeNet-5网络共有7层，即：C1层、S2层、C3层、S4层、C5层、F6层和Output层。不包含输入，每层都包含可训练参数；每个层有多个Feature Map，每个FeatureMap通过一种卷积滤波器提取输入的一种特征，然后每个FeatureMap有多个神经元。其中：

1、C1层是一个卷积层

输入图片：32*32

卷积核大小：5*5

卷积核种类：6

输出特征图大小：28*28

神经元数量：28*28*6

可训练参数：(5*5+1)*6(每个滤波器5*5＝25个unit参数和一个bias参数，一共6个滤波器)

连接数：(5*5+1)*6*28*28；

2、S2层是一个下采样层

输入：28*28

采样区域：2*2

采样方式：4个输入相加，乘以一个可训练参数，再加上一个可训练偏置。

采样种类：6

输出特征图大小：14*14

神经元数量：14*14*6

连接数：(2*2+1)*6*14*14

3、C3层也是一个卷积层

输入：S2中所有6个或者几个特征图组合

卷积核大小：5*5

卷积核种类：16

输出特征图大小：10*10

C3中的每个特征图是连接到S2中的所有6个或者几个特征图的，表示本层的特征图是上一层提取到的特征图的不同组合；

存在的一个方式是：C3的前6个特征图以S2中3个相邻的特征图子集为输入。接下来6个特征图以S2中4个相邻特征图子集为输入。然后的3个以不相邻的4个特征图子集为输入。最后一个将S2中所有特征图为输入。则：可训练参数：6*(3*25+1)+6*(4*25+1)+3*(4*25+1)+(25*6+1)＝1516。

连接数：10*10*1516＝151600。

4、S4层是一个下采样层

输入：10*10

采样区域：2*2

采样种类：16

输出图大小：5*5(10/2)

神经元数量：5*5*16＝400

连接数：16*(2*2+1)*5*5＝2000

5、C5层是一个卷积层

输入：S4层的全部16个单元特征map(与s4全相连)

卷积核大小：5*5

卷积核种类：120

输出图大小：1*1

可训练参数/连接：120*(16*5*5+1)＝48120。

6、F6层全连接层

输入：c5 120维向量

计算方式：计算输入向量和权重向量之间的点积，再加上一个偏置，结果通过sigmoid函数；可训练参数:84*(120+1)＝10164。

7、Output层-全连接层

Output层也是全连接层，共有10个节点，分别代表数字0到9，且如果节点i的值为0，则网络识别的结果是数字i。采用的是径向基函数的网络连接方式。假设x是上一层的输入，y是RBF的输出，则RBF输出的计算方式是：

上式w_ij的值由i的比特图编码确定，i从0到9，j取值从0到7*12-1。RBF输出的值越接近于0，则越接近于i，即越接近于i的ASCII编码图，表示当前网络输入的识别结果是字符i。该层有84x10＝840个参数和连接。softmax：softmax逻辑回归模型是logistic回归模型在多分类问题上的推广，当分类数为2时，softmax回归退化为logistic回归。

Relu函数：线性整流函数(Rectified Linear Unit，ReLU)，又称修正线性单元，是一种人工神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的非线性函数。其表达式为：f(x)＝max(0，x)。

申请人在研究发现，LeNet、ResNet、VGG等都是常用的深度卷积网络模型，相比较而言，ResNet和VGG的网络深度更深，通常所使用到的输入图片的分辨率也是在200及以上，而LeNet网络较浅，计算量不复杂，且在交通标志识别等分类问题上都有着很好地效果。

经过综合考虑，为了使得的行人识别准确率更高，在基于经典的LeNet-5网络模型的基础上，通过修改可以得到新的网络结构。

由于传统的LeNet5的网络只有7层，网络深度较浅，所以在该网络的基础上再引入了两层卷积层和两层池化层，且将最后的输出分类层改为了softmax分类，同时在每一层卷积层后引入了BN操作，防止梯度消失或爆炸的问题产生。改进后的LeNet5网络结构如表1所示。

层数	层名	卷积核或池化尺寸	输出特征图尺寸
				Layer0	Input	-	48x64
Layer1	Conv1	5x5	48x64
				Layer2	Max_pool2	2x2	24x32
Layer3	Conv3	5x5	24x32
				Layer4	Max_pool4	2x2	12x16
Layer5	Conv5	5x5	12x16
				Layer6	Max_pool6	2x2	6x8
Layer7	Conv7	5x5	6x8
				Layer8	Avg_pool8	2x2	3x4
Layer9	Conv9	3x4	1x1
				Layer10	Conv10	1x1	1x1

具体介绍如下所示：

(1)第一层卷积层输入的数据为处理后的48x64x1的灰度图像，输入的卷积核大小为5x5，个数为6个，步长为1，边缘扩充为2。该层还包含了BN层、降采样层和Relu激励函数。

(2)第二层卷积层与一个卷积层完全相同。输入的数据为24x32x6，通过该层得到的输出特征图为12x16x16。

(3)第三卷积层的输入数据为12x16x16，该层包含32个大小为5x5的卷积核。从结构上来看，该层与第二层的结构完全一致。

(4)第四层卷积层输入数据为6x8x32，该层包含64个大小为5x5的卷积核。该层的池化层改用平均池化，用于深层网络背景信息的提取和融合。

(5)第五层全连接层的输入数据为3x4x64，包含120个大小为3x4的卷积核。同时该层还包含了BN操作和relu操作，目的是为了归一化和激活处理。

(6)第6层为全连接层，输入的数据尺寸为1x1x120，输出维度为2。由于最终需要的将行人和背景进行区分，所以需要的是二分类，于是将正样本标注为1，负样本标注为2。

(7)最后一层为输出层，使用softmax_loss对上述提取的特征进行整合和归一化处理，其本质上就是利用cross entropy做损失函数，在生成概率时用softmax，作为最终的2分类输出。

以下是发明人给出的具体实施例。

本实施例给出一种基于改进型LeNet-5网络的行人识别算法，包括如下步骤：

1)样本来源主要由三部分组成：网上裁剪部分单行人图片；低像素手机拍摄部分生活中行人图片；戴姆勒行人检测标准数据库中选取的部分图片。将上述收集到的三部分图片进行归一化处理，得到样本集；

2)将样本集进行灰度化，并分为训练集、验证集和测试集；

3)对传统是LeNet-5网络进行修改，构建改进型LeNet-5网络。即，在常规的LeNet-5网络基础上，引入两层卷积层和两层池化层，分别连接于LeNet-5中的第二个池化层之后。引入的两个池化层中，第二个池化层为平均池化。同时引入BN层，将BN层置于网络激活函数层的前面。并将LeNet-5中最后的Gaussian connection分类层改为softmax；

4)将训练集输入该改进型LeNet-5网络进行训练，通过验证集的准确率选取最终训练模型，将所得最终训练模型用于测试集进行准确率测试。

本实施例中，步骤1)中的戴姆勒行人检测标准数据库采用车载摄像机获取，分类数据库有三个训练集和两个测试集，图片大小均为18x36。对于传统的LeNet-5网络来说，图片分辨率过小，因此从戴姆勒行人检测标准数据库中集中选取了部分包含行人较少的图片，从网上裁剪了部分单行人图片；在现实生活中拍摄的部分生活中行人图片。将从得到的上述三部分图片进行归一化处理，统一处理为48x64的图片，形成最终的样本集。

在步骤2)中，首先需要统一样本中的图片维度，由于戴姆勒行人检测标准数据库中的样本图片均为灰度图，所以对样本集进行了灰度化。其次将样本集分为训练集、验证集和测试集。对样本集进行标注处理，含有行人的图片标注为1，不含行人的背景图标注为2。

把步骤2)处理后的样本集中的训练集输入改进型LeNet-5网络，进行训练学习，通过验证集准确率得到最终训练模型。

改进型的LeNet-5网络及其训练学习算法如下：

(1)对LeNet5网络的改进：传统的LeNet5的网络只有7层，网络深度较浅，所以在该网络的基础上再引入了两层卷积层和两层池化层以及BN层，且将最后的输出分类层改为了softmax分类，BN层置于网络激活函数层的前面，同时在每一层卷积层后引入了BN操作，以防止梯度消失或爆炸的问题产生。在新引入的两个池化层中，第二个池化层为平均池化；最终成为改进型LeNet-5网络。

(2)改进型LeNet-5网络分正向传播和反向传播。正向传播就是通过卷积核不停的对图像进行滤波处理提取特征，同时计算整个网络的loss值，然后通过反向传播运算，来更新网络权值，调整整个网络，使网络的损失降到最小。正向传播中的主要运算有卷积运算、BN运算、激活函数以及下采样。

a)卷积运算公式如下：

式中：k表示的是卷积核；

表示的是输入；

表示的是输出；

表示的是第j个神经元偏置；f表示的是激活函数；M_j表示的是第j个特征图；l表示的是层数。

在卷积运算中，假设输入大小为：W1*H1*D1，那么得到的输出则为：

W2＝(W1-F+2P)/S+1 (2)

H2＝(H1-F+2P)/S+1 (3)

D2＝K (4)

b)BN具体操作过程如下：

首先将准备输入网络中一批数据x＝{x¹,x²,…,x^m}进行处理，标准化处理后，使得该组数据具有均值和方差：

式中：分母中的Var[]为求得的方差，分子中E[]为求得的均值，k的取值范围为1到m。

经过处理后，某个神经元的激活x将会被强行拉回均值为0，方差为1的标准正态分布。目的是为了改变输入值要落入的区域位置，经过该操作后，输入值落入的位置会更偏向于敏感区域。优点是可以加快信息流动和网络训练速度。缺点是会使得网络的学习表达能力变弱。为此对每个神经元加入了scale和shift操作，操作步骤如下所示：

式中：γ^(k)和β^(k)为引入的形变和移位参数。

完整的BN操作如下式(7)至(10)所示，式(7)表示的是求取输入的均值；式(8)表示的是求取输入的方差；式(9)表示的是对输入值求得的均值和方差进行标准化；式(10)表示的针对引入的形变和位移参数的训练。

式中：x_i代表的是输入参数，μ_B为输入参数的均值，

为输入参数的方差，ε为超参数，BN()表示的是标准化操作，y_i代表输入为x_i时经过BN操作后得到的输出。

c)池化层通常在卷积层之后，下采样运算公式如下：

式中：

表示的是输入；

表示的是输出；

表示的是第j个神经元偏置；f表示的是激活函数；β对应的是每个输出的特征图。

d)改进型LeNet-5网络中使用的激活函数是relu，该激活函数运算如下：

f(x)＝max(0,x) (12)

表示经过relu函数的输出，代表的是该样本标签为1的概率。

(3)反向传播是整个网络的关键。网络用到随机梯度下降法来寻找最优值。首先，就是网络权值和偏置的问题，将其用一个函数y＝f(x，w，b)来表示，在这个式子中，y表示输出，x表示输入，w表示权值，b表示偏转(一般每一层的偏置共享)，在前向传播中，自变量只有一个输入，所以需要做的就是尝试不同的w和b来得到一个理想的t。

基于上述用一个C来表示想要的值，误差的计算为E＝(y-t)²，想要达到的结果就是E接近0，在此再换一种表达方式，即：

C(w，b)＝(f(x,w,b)-t)²，这样一来，看到的就是关于w，b式子。再接下来便是梯度下降的问题了，梯度的求解在多元函数中其实也就是偏导数的计算，可表示如下：

只有

才能保证C是一直递减的，进而梯度下降的根本思想也就转为

(η为学习率)，这对于w来说也就是要求只要每次更新

即可。

综上，反向传播的计算公式如下：

式中：

表示第l层的第j个神经元的偏置；

表示第l层的第j个神经元的输入；

表示第l层的第j个神经元的输出；E表示损失函数，l表示第l层，t表示输出的期望值。式(18)表示中的运算后得到的

表示的是网络权值更新后的值。

在本实施例的改进型LeNet-5网络的设置中，总共设置了30个epoch，对于学习率使用的是可变的学习率，也就是随着迭代次数的增加，学习率会相应的减少，训练loss值会相对稳定，有利于防止梯度爆炸。

改进型LeNet-5网络训练过程中的loss值如图1中的(a)所示。改进型LeNet-5网络在验证集上的准确率如图1(b)所示。

改进型LeNet-5网络模型在验证集上的准确率如图2所示。

通过验证集的准确率选择一个性能最好的网络模型，将该模型用于测试集测试。表2给出了行人样本库3种算法准确率以及网络测试的时长。

表2

表2可以看出，采用本发明的基于改进型LeNet-5网络的行人识别算法，准确率、时间和单张耗时均优于HOG+SVM和传统LeNet-5，可以更好地满足行人分类的准确率和实时性的要求。

Claims

1.一种基于改进型LeNet-5网络的行人识别算法，其特征在于，包括以下步骤：

所述戴姆勒行人检测标准数据库是一个公开行人检测和分类数据集；从戴姆勒行人检测标准数据库中选取的部分图片是采用车载摄像机获取的图片，图片大小均为18x36；

2)统一样本集中的图片维度，并对样本集进行标注处理，然后将样本集中的图片进行灰度化，并分为训练集、验证集和测试集；

所述的对样本集进行标注处理是，含有行人的图片标注为1，不含行人的背景图标注为2；

3)对LeNet-5网络进行修改，构建改进型LeNet-5网络；即，在常规的LeNet-5网络基础上，新引入两层卷积层、两层池化层和BN层；两层卷积层和两层池化层分别连接于LeNet-5中的第二个池化层之后，BN层置于网络激活函数层的前面，并将LeNet-5中最后的Gaussianconnection分类层改为softmax；其中，在新引入的两个池化层中，第二个池化层为平均池化；

改进后的LeNet5网络结构为：

(1)第一层卷积层输入的数据为处理后的48x64x1的灰度图像，输入的卷积核大小为5x5，个数为6个，步长为1，边缘扩充为2；该层还包含了BN层、降采样层和Relu激励函数；

(2)第二层卷积层与第一个卷积层完全相同；输入的数据为24x32x6，通过该层得到的输出特征图为12x16x16；

(3)第三卷积层的输入数据为12x16x16，该层包含32个大小为5x5的卷积核；从结构上来看，该层与第二层的结构完全一致；

(4)第四层卷积层输入数据为6x8x32，该层包含64个大小为5x5的卷积核；该层的池化层改用平均池化，用于深层网络背景信息的提取和融合；

(5)第五层全连接层的输入数据为3x4x64，包含120个大小为3x4的卷积核；同时该层还包含了BN操作和relu操作，目的是为了归一化和激活处理；

(6)第6层为全连接层，输入的数据尺寸为1x1x120，输出维度为2;由于最终需要的将行人和背景进行区分，所以需要的是二分类，于是将正样本标注为1，负样本标注为2；

(7)最后一层为输出层，使用softmax_loss对上述提取的特征进行整合和归一化处理，其本质上就是利用cross entropy做损失函数，在生成概率时用softmax，作为最终的2分类输出；

4)将训练集输入该改进型LeNet-5网络进行训练，通过验证集准确率选取最终训练模型，将所得最终训练模型用于测试集进行准确率测试；

训练集输入该改进型LeNet-5网络进行训练算法如下：

正向传播和反向传播：

卷积运算公式如下：