CN112633169B - 一种基于改进型LeNet-5网络的行人识别算法 - Google Patents

一种基于改进型LeNet-5网络的行人识别算法 Download PDF

Info

Publication number
CN112633169B
CN112633169B CN202011538165.6A CN202011538165A CN112633169B CN 112633169 B CN112633169 B CN 112633169B CN 202011538165 A CN202011538165 A CN 202011538165A CN 112633169 B CN112633169 B CN 112633169B
Authority
CN
China
Prior art keywords
layer
network
pictures
lenet
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011538165.6A
Other languages
English (en)
Other versions
CN112633169A (zh
Inventor
王燕妮
余丽仙
孙雪松
刘祥
翟会杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Architecture and Technology
Original Assignee
Xian University of Architecture and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Architecture and Technology filed Critical Xian University of Architecture and Technology
Priority to CN202011538165.6A priority Critical patent/CN112633169B/zh
Publication of CN112633169A publication Critical patent/CN112633169A/zh
Application granted granted Critical
Publication of CN112633169B publication Critical patent/CN112633169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进型LeNet‑5网络的行人识别算法,包括:1)将从网上裁剪的部分单行人图片、部分低像素手机拍摄的生活中行人图片以及戴姆勒行人检测标准数据库中选取的部分图片进行归一化处理,得到样本集;2)对样本集中的图片灰度化,并分为训练集、验证集和测试集;3)对LeNet‑5网络进行修改,在该网络的基础上再引入两层卷积层、两层池化层和BN层,将BN层置于网络激活函数层的前面。并将LeNet‑5中最后的Gaussian connection分类层改为softmax;4)将上述训练样本输入该网络进行训练,通过验证集和测试集的准确率来选取最终的训练模型,以达到提高检测精度的目的,更好地满足行人分类的准确率和实时性的要求。

Description

一种基于改进型LeNet-5网络的行人识别算法
技术领域
本发明属于数字图像处理领域,具体涉及一种基于改进型LeNet-5网络的行人识别算法。
背景技术
近年来无人驾驶、智能交通一直是生活中的热点话题,越来越多的研究者投身其中,国内的清华大学、西安交通大学等高校都对自动驾驶车辆这一领域进行了深入的研究,比如最近的夜间车辆距离检测,就是采样机器视觉的技术来衡量夜间车距,对于道路交通安全具有很大的研究意义。在智能驾驶领域,行人安全问题不可忽视,受天气、树木遮挡、光影、复杂背景等的影响,一定程度上加大了对行人的准确识别的难度。
目前对于目标分类检测的主要方法分为传统方法和深度学习方法或者两种方法加以结合。行人检测中最重要的一部分就是特征提取,而HOG特征是该领域应用最广泛的特征之一。由于单一的特征在很多复杂情况下表达能力不足,一些研究者为了解决该问题又提出了组合特征,如Sangeetha等提出了一种行人检测方法,该方法是基于边缘梯度的多尺度高效直方图;Jiao Jichao提出了一种能减轻背景干扰的HOG-PCA(HOGP)混合特征描述符。黄炎等提出了能抑制部分梯度干扰信息的HOG-LBP组合特征。较为常用的方法还有HOG+SVM。以上都是处理过程较为繁琐、基于手工特征的传统方法。近几年来CNN(卷积神经网络)在图像分类中应用十分广泛,对于一些目标检测定位问题的处理中,LeNet-5、AlexNet、VGG、ResNet等都是常用来作为骨干网络先进行特征提取和分类。卷积神经网络的优点在于它是一个统一的结构体,通过输入图像,神经网络自主学习,最终输出一个具有学习能力的模型,而卷积层又具有权重共享等特点,可以使网络学习所需要的参数减少,减少内存的同时提高学习效率。刘智等提出基于深度卷积网络行为识别模型;Liu等提出了实时性较高用于目标检测的SSD网络。
在可见光环境下,一般设备拍摄到的图片都是高清的,而夜间或者雾天等环境下,普通相机表现出的性能并不佳。通常会因为光线、恶劣天气、相机距离等的影响,使得拍摄到的物体分辨率不高。考虑到分类的目的是为了辨别出是否有该类别,为了方便行人分类,同时节省网络训练时间,由此想到制作小分辨率、含单行人的样本集。
因此,考虑到为手写体识别而存在的LeNet-5网络,如:张秀玲等提出的基于改进LeNet-5网络的车牌字符识别,在识别准确率上达到了99.88%;又如:张猛等提出的基于改进的LeNet-5卷积神经网络交通标志的识别,在识别率上高达93.558%。
在行人识别算法研究过程中,申请人曾经直接用LeNet-5网络训练制作的小分辨率样本数据集,在训练过程中发现网络不稳定,且泛化能力不强。分析主要问题在于LeNet-5网络深度过浅,导致其在面对较为复杂的特征时,学习能力不够强。
因此,如何进一步针对小分辨率样本数据,进行更好的训练,达到对行人进行准确分类识别和检测,是申请人研究的课题之一。
发明内容
本发明的目的在于,提供一种基于改进型LeNet-5网络的行人识别算法,以更好地满足行人分类的准确率和实时性的要求。
为了实现上述任务,本发明采取如下的技术解决方案:
一种基于改进型LeNet-5网络的行人识别算法,其特征在于,包括以下步骤:
1)将从网上裁剪的部分单行人图片、部分低像素手机拍摄的生活中行人图片以及戴姆勒行人检测标准数据库中选取的部分图片进行归一化处理,处理为48x64的图片,得到样本集;
2)统一样本集中的图片维度,并对样本集进行标注处理,同时分为训练集、验证集和测试集;
3)对LeNet-5网络进行修改,构建改进型LeNet-5网络;即,在常规的LeNet-5网络基础上,新引入两层卷积层、两层池化层和BN层;两层卷积层和两层池化层分别连接于LeNet-5中的第二个池化层之后,BN层置于网络激活函数层的前面,并将LeNet-5中最后的Gaussian connection分类层改为softmax;其中,在新引入的两个池化层中,第二个池化层为平均池化;
4)将训练集输入该改进型LeNet-5网络进行训练,通过验证集准确率选取最终训练模型,将所得最终训练模型用于测试集进行准确率测试。
根据本发明,步骤1)中,所述戴姆勒行人检测标准数据库是一个公开行人检测和分类数据集;从戴姆勒行人检测标准数据库中选取的部分图片是采用车载摄像机获取的图片,图片大小均为18x36。
进一步地,步骤2)中所述的对样本集进行标注处理,经含有行人的图片标注为1,不含行人的背景图标注为2。
优选地,步骤4)中所述将训练集输入该改进型LeNet-5网络进行训练算法如下:
(1)正向传播和反向传播:
正向传播就是通过卷积核不停的对图像进行滤波处理提取特征,同时计算整个网络的loss值,然后通过反向传播运算,来更新网络权值,调整整个网络,使网络的损失降到最小;正向传播中的主要运算有卷积,激活函数以及下采样;
卷积运算公式如下:
Figure BDA0002854162840000041
式中:k表示的是卷积核;
Figure BDA0002854162840000042
表示的是输入;
Figure BDA0002854162840000043
表示的是输出;
Figure BDA0002854162840000044
表示的是偏置;f表示的是激活函数;Mj表示的是第j个特征图;l表示的是层数;
池化层通常在卷积层之后进行,池化层主要起的功能是下采样,该操作运算公式如下:
Figure BDA0002854162840000045
式中:
Figure BDA0002854162840000046
表示的是输入;
Figure BDA0002854162840000047
表示的是输出;
Figure BDA0002854162840000048
表示的是偏置;f表示的是激活函数;β对应的是每个输出的特征图;
使用的激活函数是relu,该激活函数运算如下:
f(x)=max(0,x) (3)
反向传播是通过使用反向求导,来优化网络和权值,从而减小网络最终计算出的损失函数的值,计算损失函数的公式如下所示:
Figure BDA0002854162840000049
式中:L表示计算得到的损失值,y表示的是正向传播之后得到的实际损失值,
Figure BDA00028541628400000410
表示经过relu函数的输出,代表的是该样本标签为1的概率;
反向传播是整个网络的关键,网络用随机梯度下降法来寻找最优值;反向传播的计算公式如下:
Figure BDA00028541628400000411
Figure BDA00028541628400000412
Figure BDA0002854162840000051
Figure BDA0002854162840000052
式中:
Figure BDA0002854162840000053
表示第l-1层的第k个神经元连接到第l层的第j个神经元的权值;
Figure BDA0002854162840000054
表示第l层的第j个神经元的偏置;
Figure BDA0002854162840000055
表示第l层的第j个神经元的输入;
Figure BDA0002854162840000056
表示第l层的第j个神经元的输出;E表示损失函数,l表示第l层,t表示输出的期望值;式(8)中的
Figure BDA0002854162840000057
表示的是网络权值更新后的值;
在改进型LeNet-5网络的设置中,总共设置了30个epoch,对于学习率使用的是可变的学习率,也就是随着迭代次数的增加,学习率会相应的减少,稳定最后的训练,防止梯度爆炸。
为了验证本发明的基于改进型LeNet-5网络的行人识别算法带来的优点,申请人在实际情况中选取了在真实场景中拍摄的多个场景的图片,并将选取的图片输入改进型LeNet-5网络中,通过准确率和实时性的检测,发现该改进型LeNet-5网络具有较高的准确率,能很好的区分行人和背景,且实时性较高。
附图说明
图1是改进型LeNet-5网络训练过程中产生的loss值和准确率图;其中(a)图是loss值图,(b)图是准确率图;
图2是改进型LeNet-5在验证集上的准确率。
下面结合附图和实施例对本发明做进一步详细描述。
具体实施方式
首先需要说明的是,在以下的实施例中,涉及的相关名称定义如下:
戴姆勒行人检测标准数据库:表示的是一个公开行人检测和分类数据集;该数据库采用车载摄像机获取,分为检测、分类等多数据集。
LeNet5网络:LeNet-5网络共有7层,即:C1层、S2层、C3层、S4层、C5层、F6层和Output层。不包含输入,每层都包含可训练参数;每个层有多个Feature Map,每个FeatureMap通过一种卷积滤波器提取输入的一种特征,然后每个FeatureMap有多个神经元。其中:
1、C1层是一个卷积层
输入图片:32*32
卷积核大小:5*5
卷积核种类:6
输出特征图大小:28*28
神经元数量:28*28*6
可训练参数:(5*5+1)*6(每个滤波器5*5=25个unit参数和一个bias参数,一共6个滤波器)
连接数:(5*5+1)*6*28*28;
2、S2层是一个下采样层
输入:28*28
采样区域:2*2
采样方式:4个输入相加,乘以一个可训练参数,再加上一个可训练偏置。
采样种类:6
输出特征图大小:14*14
神经元数量:14*14*6
连接数:(2*2+1)*6*14*14
3、C3层也是一个卷积层
输入:S2中所有6个或者几个特征图组合
卷积核大小:5*5
卷积核种类:16
输出特征图大小:10*10
C3中的每个特征图是连接到S2中的所有6个或者几个特征图的,表示本层的特征图是上一层提取到的特征图的不同组合;
存在的一个方式是:C3的前6个特征图以S2中3个相邻的特征图子集为输入。接下来6个特征图以S2中4个相邻特征图子集为输入。然后的3个以不相邻的4个特征图子集为输入。最后一个将S2中所有特征图为输入。则:可训练参数:6*(3*25+1)+6*(4*25+1)+3*(4*25+1)+(25*6+1)=1516。
连接数:10*10*1516=151600。
4、S4层是一个下采样层
输入:10*10
采样区域:2*2
采样方式:4个输入相加,乘以一个可训练参数,再加上一个可训练偏置。
采样种类:16
输出图大小:5*5(10/2)
神经元数量:5*5*16=400
连接数:16*(2*2+1)*5*5=2000
5、C5层是一个卷积层
输入:S4层的全部16个单元特征map(与s4全相连)
卷积核大小:5*5
卷积核种类:120
输出图大小:1*1
可训练参数/连接:120*(16*5*5+1)=48120。
6、F6层全连接层
输入:c5 120维向量
计算方式:计算输入向量和权重向量之间的点积,再加上一个偏置,结果通过sigmoid函数;可训练参数:84*(120+1)=10164。
7、Output层-全连接层
Output层也是全连接层,共有10个节点,分别代表数字0到9,且如果节点i的值为0,则网络识别的结果是数字i。采用的是径向基函数的网络连接方式。假设x是上一层的输入,y是RBF的输出,则RBF输出的计算方式是:
Figure BDA0002854162840000081
上式wij的值由i的比特图编码确定,i从0到9,j取值从0到7*12-1。RBF输出的值越接近于0,则越接近于i,即越接近于i的ASCII编码图,表示当前网络输入的识别结果是字符i。该层有84x10=840个参数和连接。softmax:softmax逻辑回归模型是logistic回归模型在多分类问题上的推广,当分类数为2时,softmax回归退化为logistic回归。
Relu函数:线性整流函数(Rectified Linear Unit,ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数。其表达式为:f(x)=max(0,x)。
申请人在研究发现,LeNet、ResNet、VGG等都是常用的深度卷积网络模型,相比较而言,ResNet和VGG的网络深度更深,通常所使用到的输入图片的分辨率也是在200及以上,而LeNet网络较浅,计算量不复杂,且在交通标志识别等分类问题上都有着很好地效果。
经过综合考虑,为了使得的行人识别准确率更高,在基于经典的LeNet-5网络模型的基础上,通过修改可以得到新的网络结构。
由于传统的LeNet5的网络只有7层,网络深度较浅,所以在该网络的基础上再引入了两层卷积层和两层池化层,且将最后的输出分类层改为了softmax分类,同时在每一层卷积层后引入了BN操作,防止梯度消失或爆炸的问题产生。改进后的LeNet5网络结构如表1所示。
层数 层名 卷积核或池化尺寸 输出特征图尺寸
Layer0 Input - 48x64
Layer1 Conv1 5x5 48x64
Layer2 Max_pool2 2x2 24x32
Layer3 Conv3 5x5 24x32
Layer4 Max_pool4 2x2 12x16
Layer5 Conv5 5x5 12x16
Layer6 Max_pool6 2x2 6x8
Layer7 Conv7 5x5 6x8
Layer8 Avg_pool8 2x2 3x4
Layer9 Conv9 3x4 1x1
Layer10 Conv10 1x1 1x1
具体介绍如下所示:
(1)第一层卷积层输入的数据为处理后的48x64x1的灰度图像,输入的卷积核大小为5x5,个数为6个,步长为1,边缘扩充为2。该层还包含了BN层、降采样层和Relu激励函数。
(2)第二层卷积层与一个卷积层完全相同。输入的数据为24x32x6,通过该层得到的输出特征图为12x16x16。
(3)第三卷积层的输入数据为12x16x16,该层包含32个大小为5x5的卷积核。从结构上来看,该层与第二层的结构完全一致。
(4)第四层卷积层输入数据为6x8x32,该层包含64个大小为5x5的卷积核。该层的池化层改用平均池化,用于深层网络背景信息的提取和融合。
(5)第五层全连接层的输入数据为3x4x64,包含120个大小为3x4的卷积核。同时该层还包含了BN操作和relu操作,目的是为了归一化和激活处理。
(6)第6层为全连接层,输入的数据尺寸为1x1x120,输出维度为2。由于最终需要的将行人和背景进行区分,所以需要的是二分类,于是将正样本标注为1,负样本标注为2。
(7)最后一层为输出层,使用softmax_loss对上述提取的特征进行整合和归一化处理,其本质上就是利用cross entropy做损失函数,在生成概率时用softmax,作为最终的2分类输出。
以下是发明人给出的具体实施例。
本实施例给出一种基于改进型LeNet-5网络的行人识别算法,包括如下步骤:
1)样本来源主要由三部分组成:网上裁剪部分单行人图片;低像素手机拍摄部分生活中行人图片;戴姆勒行人检测标准数据库中选取的部分图片。将上述收集到的三部分图片进行归一化处理,得到样本集;
2)将样本集进行灰度化,并分为训练集、验证集和测试集;
3)对传统是LeNet-5网络进行修改,构建改进型LeNet-5网络。即,在常规的LeNet-5网络基础上,引入两层卷积层和两层池化层,分别连接于LeNet-5中的第二个池化层之后。引入的两个池化层中,第二个池化层为平均池化。同时引入BN层,将BN层置于网络激活函数层的前面。并将LeNet-5中最后的Gaussian connection分类层改为softmax;
4)将训练集输入该改进型LeNet-5网络进行训练,通过验证集的准确率选取最终训练模型,将所得最终训练模型用于测试集进行准确率测试。
本实施例中,步骤1)中的戴姆勒行人检测标准数据库采用车载摄像机获取,分类数据库有三个训练集和两个测试集,图片大小均为18x36。对于传统的LeNet-5网络来说,图片分辨率过小,因此从戴姆勒行人检测标准数据库中集中选取了部分包含行人较少的图片,从网上裁剪了部分单行人图片;在现实生活中拍摄的部分生活中行人图片。将从得到的上述三部分图片进行归一化处理,统一处理为48x64的图片,形成最终的样本集。
在步骤2)中,首先需要统一样本中的图片维度,由于戴姆勒行人检测标准数据库中的样本图片均为灰度图,所以对样本集进行了灰度化。其次将样本集分为训练集、验证集和测试集。对样本集进行标注处理,含有行人的图片标注为1,不含行人的背景图标注为2。
把步骤2)处理后的样本集中的训练集输入改进型LeNet-5网络,进行训练学习,通过验证集准确率得到最终训练模型。
改进型的LeNet-5网络及其训练学习算法如下:
(1)对LeNet5网络的改进:传统的LeNet5的网络只有7层,网络深度较浅,所以在该网络的基础上再引入了两层卷积层和两层池化层以及BN层,且将最后的输出分类层改为了softmax分类,BN层置于网络激活函数层的前面,同时在每一层卷积层后引入了BN操作,以防止梯度消失或爆炸的问题产生。在新引入的两个池化层中,第二个池化层为平均池化;最终成为改进型LeNet-5网络。
(2)改进型LeNet-5网络分正向传播和反向传播。正向传播就是通过卷积核不停的对图像进行滤波处理提取特征,同时计算整个网络的loss值,然后通过反向传播运算,来更新网络权值,调整整个网络,使网络的损失降到最小。正向传播中的主要运算有卷积运算、BN运算、激活函数以及下采样。
a)卷积运算公式如下:
Figure BDA0002854162840000121
式中:k表示的是卷积核;
Figure BDA0002854162840000122
表示的是输入;
Figure BDA0002854162840000123
表示的是输出;
Figure BDA0002854162840000124
表示的是第j个神经元偏置;f表示的是激活函数;Mj表示的是第j个特征图;l表示的是层数。
在卷积运算中,假设输入大小为:W1*H1*D1,那么得到的输出则为:
W2=(W1-F+2P)/S+1 (2)
H2=(H1-F+2P)/S+1 (3)
D2=K (4)
b)BN具体操作过程如下:
首先将准备输入网络中一批数据x={x1,x2,…,xm}进行处理,标准化处理后,使得该组数据具有均值和方差:
Figure BDA0002854162840000125
式中:分母中的Var[]为求得的方差,分子中E[]为求得的均值,k的取值范围为1到m。
经过处理后,某个神经元的激活x将会被强行拉回均值为0,方差为1的标准正态分布。目的是为了改变输入值要落入的区域位置,经过该操作后,输入值落入的位置会更偏向于敏感区域。优点是可以加快信息流动和网络训练速度。缺点是会使得网络的学习表达能力变弱。为此对每个神经元加入了scale和shift操作,操作步骤如下所示:
Figure BDA0002854162840000131
式中:γ(k)和β(k)为引入的形变和移位参数。
完整的BN操作如下式(7)至(10)所示,式(7)表示的是求取输入的均值;式(8)表示的是求取输入的方差;式(9)表示的是对输入值求得的均值和方差进行标准化;式(10)表示的针对引入的形变和位移参数的训练。
Figure BDA0002854162840000132
Figure BDA0002854162840000133
Figure BDA0002854162840000134
Figure BDA0002854162840000135
式中:xi代表的是输入参数,μB为输入参数的均值,
Figure BDA0002854162840000136
为输入参数的方差,ε为超参数,BN()表示的是标准化操作,yi代表输入为xi时经过BN操作后得到的输出。
c)池化层通常在卷积层之后,下采样运算公式如下:
Figure BDA0002854162840000137
式中:
Figure BDA0002854162840000138
表示的是输入;
Figure BDA0002854162840000139
表示的是输出;
Figure BDA00028541628400001310
表示的是第j个神经元偏置;f表示的是激活函数;β对应的是每个输出的特征图。
d)改进型LeNet-5网络中使用的激活函数是relu,该激活函数运算如下:
f(x)=max(0,x) (12)
反向传播是通过使用反向求导,来优化网络和权值,从而减小网络最终计算出的损失函数的值,计算损失函数的公式如下所示:
Figure BDA0002854162840000141
式中:L表示计算得到的损失值,y表示的是正向传播之后得到的实际损失值,
Figure BDA0002854162840000142
表示经过relu函数的输出,代表的是该样本标签为1的概率。
(3)反向传播是整个网络的关键。网络用到随机梯度下降法来寻找最优值。首先,就是网络权值和偏置的问题,将其用一个函数y=f(x,w,b)来表示,在这个式子中,y表示输出,x表示输入,w表示权值,b表示偏转(一般每一层的偏置共享),在前向传播中,自变量只有一个输入,所以需要做的就是尝试不同的w和b来得到一个理想的t。
基于上述用一个C来表示想要的值,误差的计算为E=(y-t)2,想要达到的结果就是E接近0,在此再换一种表达方式,即:
C(w,b)=(f(x,w,b)-t)2,这样一来,看到的就是关于w,b式子。再接下来便是梯度下降的问题了,梯度的求解在多元函数中其实也就是偏导数的计算,可表示如下:
Figure BDA0002854162840000143
只有
Figure BDA0002854162840000146
才能保证C是一直递减的,进而梯度下降的根本思想也就转为
Figure BDA0002854162840000144
(η为学习率),这对于w来说也就是要求只要每次更新
Figure BDA0002854162840000145
即可。
综上,反向传播的计算公式如下:
Figure BDA0002854162840000151
Figure BDA0002854162840000152
Figure BDA0002854162840000153
Figure BDA0002854162840000154
式中:
Figure BDA0002854162840000155
表示第l-1层的第k个神经元连接到第l层的第j个神经元的权值;
Figure BDA0002854162840000156
表示第l层的第j个神经元的偏置;
Figure BDA0002854162840000157
表示第l层的第j个神经元的输入;
Figure BDA0002854162840000158
表示第l层的第j个神经元的输出;E表示损失函数,l表示第l层,t表示输出的期望值。式(18)表示中的运算后得到的
Figure BDA0002854162840000159
表示的是网络权值更新后的值。
在本实施例的改进型LeNet-5网络的设置中,总共设置了30个epoch,对于学习率使用的是可变的学习率,也就是随着迭代次数的增加,学习率会相应的减少,训练loss值会相对稳定,有利于防止梯度爆炸。
改进型LeNet-5网络训练过程中的loss值如图1中的(a)所示。改进型LeNet-5网络在验证集上的准确率如图1(b)所示。
改进型LeNet-5网络模型在验证集上的准确率如图2所示。
通过验证集的准确率选择一个性能最好的网络模型,将该模型用于测试集测试。表2给出了行人样本库3种算法准确率以及网络测试的时长。
表2
Figure BDA00028541628400001510
表2可以看出,采用本发明的基于改进型LeNet-5网络的行人识别算法,准确率、时间和单张耗时均优于HOG+SVM和传统LeNet-5,可以更好地满足行人分类的准确率和实时性的要求。

Claims (1)

1.一种基于改进型LeNet-5网络的行人识别算法,其特征在于,包括以下步骤:
1)将从网上裁剪的部分单行人图片、部分低像素手机拍摄的生活中行人图片以及戴姆勒行人检测标准数据库中选取的部分图片进行归一化处理,处理为48x64的图片,得到样本集;
所述戴姆勒行人检测标准数据库是一个公开行人检测和分类数据集;从戴姆勒行人检测标准数据库中选取的部分图片是采用车载摄像机获取的图片,图片大小均为18x36;
2)统一样本集中的图片维度,并对样本集进行标注处理,然后将样本集中的图片进行灰度化,并分为训练集、验证集和测试集;
所述的对样本集进行标注处理是,含有行人的图片标注为1,不含行人的背景图标注为2;
3)对LeNet-5网络进行修改,构建改进型LeNet-5网络;即,在常规的LeNet-5网络基础上,新引入两层卷积层、两层池化层和BN层;两层卷积层和两层池化层分别连接于LeNet-5中的第二个池化层之后,BN层置于网络激活函数层的前面,并将LeNet-5中最后的Gaussianconnection分类层改为softmax;其中,在新引入的两个池化层中,第二个池化层为平均池化;
改进后的LeNet5网络结构为:
(1)第一层卷积层输入的数据为处理后的48x64x1的灰度图像,输入的卷积核大小为5x5,个数为6个,步长为1,边缘扩充为2;该层还包含了BN层、降采样层和Relu激励函数;
(2)第二层卷积层与第一个卷积层完全相同;输入的数据为24x32x6,通过该层得到的输出特征图为12x16x16;
(3)第三卷积层的输入数据为12x16x16,该层包含32个大小为5x5的卷积核;从结构上来看,该层与第二层的结构完全一致;
(4)第四层卷积层输入数据为6x8x32,该层包含64个大小为5x5的卷积核;该层的池化层改用平均池化,用于深层网络背景信息的提取和融合;
(5)第五层全连接层的输入数据为3x4x64,包含120个大小为3x4的卷积核;同时该层还包含了BN操作和relu操作,目的是为了归一化和激活处理;
(6)第6层为全连接层,输入的数据尺寸为1x1x120,输出维度为2;由于最终需要的将行人和背景进行区分,所以需要的是二分类,于是将正样本标注为1,负样本标注为2;
(7)最后一层为输出层,使用softmax_loss对上述提取的特征进行整合和归一化处理,其本质上就是利用cross entropy做损失函数,在生成概率时用softmax,作为最终的2分类输出;
4)将训练集输入该改进型LeNet-5网络进行训练,通过验证集准确率选取最终训练模型,将所得最终训练模型用于测试集进行准确率测试;
训练集输入该改进型LeNet-5网络进行训练算法如下:
正向传播和反向传播:
正向传播就是通过卷积核不停的对图像进行滤波处理提取特征,同时计算整个网络的loss值,然后通过反向传播运算,来更新网络权值,调整整个网络,使网络的损失降到最小;正向传播中的主要运算有卷积,激活函数以及下采样;
卷积运算公式如下:
Figure QLYQS_1
式中:k表示的是卷积核;
Figure QLYQS_2
表示的是输入;
Figure QLYQS_3
表示的是输出;
Figure QLYQS_4
表示的是偏置;f表示的是激活函数;Mj表示的是第j个特征图;l表示的是层数;
池化层通常在卷积层之后进行,池化层主要起的功能是下采样,该操作运算公式如下:
Figure QLYQS_5
式中:
Figure QLYQS_6
表示的是输入;
Figure QLYQS_7
表示的是输出;
Figure QLYQS_8
表示的是偏置;f表示的是激活函数;β对应的是每个输出的特征图;
使用的激活函数是relu,该激活函数运算如下:
f(x)=max(0,x) (3)
反向传播是通过使用反向求导,来优化网络和权值,从而减小网络最终计算出的损失函数的值,计算损失函数的公式如下所示:
Figure QLYQS_9
式中:L表示计算得到的损失值,y表示的是正向传播之后得到的实际损失值,
Figure QLYQS_10
表示经过relu函数的输出,代表的是样本标签为1的概率;
反向传播是整个网络的关键,网络用随机梯度下降法来寻找最优值;梯度更新的计算公式如下:
Figure QLYQS_11
Figure QLYQS_12
Figure QLYQS_13
Figure QLYQS_14
式中:
Figure QLYQS_15
表示第l-1层的第k个神经元连接到第l层的第j个神经元的权值;
Figure QLYQS_16
表示第l层的第j个神经元的偏置;
Figure QLYQS_17
表示第l层的第j个神经元的输入;
Figure QLYQS_18
表示第l层的第j个神经元的输出;E表示损失函数,l表示第l层,t表示输出的期望值,式(8)中的计算得到的
Figure QLYQS_19
表示的是网络权值更新后的值;
在改进型LeNet-5网络的设置中,总共设置30个epoch,对于学习率使用的是可变的学习率,也就是随着迭代次数的增加,学习率会相应的减少,稳定最后的训练,防止梯度爆炸。
CN202011538165.6A 2020-12-23 2020-12-23 一种基于改进型LeNet-5网络的行人识别算法 Active CN112633169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011538165.6A CN112633169B (zh) 2020-12-23 2020-12-23 一种基于改进型LeNet-5网络的行人识别算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011538165.6A CN112633169B (zh) 2020-12-23 2020-12-23 一种基于改进型LeNet-5网络的行人识别算法

Publications (2)

Publication Number Publication Date
CN112633169A CN112633169A (zh) 2021-04-09
CN112633169B true CN112633169B (zh) 2023-05-30

Family

ID=75321580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011538165.6A Active CN112633169B (zh) 2020-12-23 2020-12-23 一种基于改进型LeNet-5网络的行人识别算法

Country Status (1)

Country Link
CN (1) CN112633169B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537176A (zh) * 2021-09-16 2021-10-22 武汉未来幻影科技有限公司 一种驾驶员疲劳状态的确定方法、装置以及设备
CN115131699A (zh) * 2022-06-24 2022-09-30 安徽工程大学 一种智能消防车目标识别实现方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128606A (en) * 1997-03-11 2000-10-03 At&T Corporation Module for constructing trainable modular network in which each module inputs and outputs data structured as a graph
CN110097145A (zh) * 2019-06-20 2019-08-06 江苏德劭信息科技有限公司 一种基于cnn和特征金字塔的交通违禁品识别方法
CN110580450A (zh) * 2019-08-12 2019-12-17 西安理工大学 一种基于卷积神经网络的交通标志识别方法
CN111325152B (zh) * 2020-02-19 2023-09-26 北京工业大学 一种基于深度学习的交通标志识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Facial Expression Recognition Based on Improved LeNet-5 CNN;Guan Wang等;《 2019 Chinese Control And Decision Conference (CCDC)》;全文 *

Also Published As

Publication number Publication date
CN112633169A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN111310861B (zh) 一种基于深度神经网络的车牌识别和定位方法
Latha et al. Automatic detection of tea leaf diseases using deep convolution neural network
CN103955702B (zh) 基于深度rbf网络的sar图像地物分类方法
CN107122776A (zh) 一种基于卷积神经网络的交通标志检测与识别方法
CN112446388A (zh) 一种基于轻量化二阶段检测模型的多类别蔬菜幼苗识别方法及系统
CN108830188A (zh) 基于深度学习的车辆检测方法
US10262214B1 (en) Learning method, learning device for detecting lane by using CNN and testing method, testing device using the same
CN107066559A (zh) 一种基于深度学习的三维模型检索方法
CN113408605A (zh) 基于小样本学习的高光谱图像半监督分类方法
CN110222767B (zh) 基于嵌套神经网络和栅格地图的三维点云分类方法
CN106295124A (zh) 利用多种图像检测技术综合分析基因子图相似概率量的方法
CN114842264B (zh) 一种基于多尺度空谱特征联合学习的高光谱图像分类方法
CN112633169B (zh) 一种基于改进型LeNet-5网络的行人识别算法
CN111984817B (zh) 一种基于自注意力机制加权的细粒度图像检索方法
CN108230330B (zh) 一种快速的高速公路路面分割和摄像机定位的方法
CN110807485B (zh) 基于高分遥感影像二分类语义分割图融合成多分类语义图的方法
CN113378883B (zh) 一种基于通道分组注意力模型的细粒度车辆分类方法
CN111639697B (zh) 基于非重复采样与原型网络的高光谱图像分类方法
CN112784921A (zh) 任务注意力引导的小样本图像互补学习分类算法
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN111339978A (zh) 利用卷积神经网络模型识别交通指数时间序列模式的方法
CN112766283A (zh) 一种基于多尺度卷积网络的两相流流型识别方法
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法
CN112949510A (zh) 基于Faster R-CNN热红外影像人物探测方法
CN114492634B (zh) 一种细粒度装备图片分类识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant