CN112633169B - 一种基于改进型LeNet-5网络的行人识别算法 - Google Patents
一种基于改进型LeNet-5网络的行人识别算法 Download PDFInfo
- Publication number
- CN112633169B CN112633169B CN202011538165.6A CN202011538165A CN112633169B CN 112633169 B CN112633169 B CN 112633169B CN 202011538165 A CN202011538165 A CN 202011538165A CN 112633169 B CN112633169 B CN 112633169B
- Authority
- CN
- China
- Prior art keywords
- layer
- network
- pictures
- lenet
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000011176 pooling Methods 0.000 claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 23
- 230000004913 activation Effects 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000012795 verification Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 41
- 210000002569 neuron Anatomy 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004880 explosion Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000005284 excitation Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 13
- 238000005070 sampling Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000005251 gamma ray Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进型LeNet‑5网络的行人识别算法,包括:1)将从网上裁剪的部分单行人图片、部分低像素手机拍摄的生活中行人图片以及戴姆勒行人检测标准数据库中选取的部分图片进行归一化处理,得到样本集;2)对样本集中的图片灰度化,并分为训练集、验证集和测试集;3)对LeNet‑5网络进行修改,在该网络的基础上再引入两层卷积层、两层池化层和BN层,将BN层置于网络激活函数层的前面。并将LeNet‑5中最后的Gaussian connection分类层改为softmax;4)将上述训练样本输入该网络进行训练,通过验证集和测试集的准确率来选取最终的训练模型,以达到提高检测精度的目的,更好地满足行人分类的准确率和实时性的要求。
Description
技术领域
本发明属于数字图像处理领域,具体涉及一种基于改进型LeNet-5网络的行人识别算法。
背景技术
近年来无人驾驶、智能交通一直是生活中的热点话题,越来越多的研究者投身其中,国内的清华大学、西安交通大学等高校都对自动驾驶车辆这一领域进行了深入的研究,比如最近的夜间车辆距离检测,就是采样机器视觉的技术来衡量夜间车距,对于道路交通安全具有很大的研究意义。在智能驾驶领域,行人安全问题不可忽视,受天气、树木遮挡、光影、复杂背景等的影响,一定程度上加大了对行人的准确识别的难度。
目前对于目标分类检测的主要方法分为传统方法和深度学习方法或者两种方法加以结合。行人检测中最重要的一部分就是特征提取,而HOG特征是该领域应用最广泛的特征之一。由于单一的特征在很多复杂情况下表达能力不足,一些研究者为了解决该问题又提出了组合特征,如Sangeetha等提出了一种行人检测方法,该方法是基于边缘梯度的多尺度高效直方图;Jiao Jichao提出了一种能减轻背景干扰的HOG-PCA(HOGP)混合特征描述符。黄炎等提出了能抑制部分梯度干扰信息的HOG-LBP组合特征。较为常用的方法还有HOG+SVM。以上都是处理过程较为繁琐、基于手工特征的传统方法。近几年来CNN(卷积神经网络)在图像分类中应用十分广泛,对于一些目标检测定位问题的处理中,LeNet-5、AlexNet、VGG、ResNet等都是常用来作为骨干网络先进行特征提取和分类。卷积神经网络的优点在于它是一个统一的结构体,通过输入图像,神经网络自主学习,最终输出一个具有学习能力的模型,而卷积层又具有权重共享等特点,可以使网络学习所需要的参数减少,减少内存的同时提高学习效率。刘智等提出基于深度卷积网络行为识别模型;Liu等提出了实时性较高用于目标检测的SSD网络。
在可见光环境下,一般设备拍摄到的图片都是高清的,而夜间或者雾天等环境下,普通相机表现出的性能并不佳。通常会因为光线、恶劣天气、相机距离等的影响,使得拍摄到的物体分辨率不高。考虑到分类的目的是为了辨别出是否有该类别,为了方便行人分类,同时节省网络训练时间,由此想到制作小分辨率、含单行人的样本集。
因此,考虑到为手写体识别而存在的LeNet-5网络,如:张秀玲等提出的基于改进LeNet-5网络的车牌字符识别,在识别准确率上达到了99.88%;又如:张猛等提出的基于改进的LeNet-5卷积神经网络交通标志的识别,在识别率上高达93.558%。
在行人识别算法研究过程中,申请人曾经直接用LeNet-5网络训练制作的小分辨率样本数据集,在训练过程中发现网络不稳定,且泛化能力不强。分析主要问题在于LeNet-5网络深度过浅,导致其在面对较为复杂的特征时,学习能力不够强。
因此,如何进一步针对小分辨率样本数据,进行更好的训练,达到对行人进行准确分类识别和检测,是申请人研究的课题之一。
发明内容
本发明的目的在于,提供一种基于改进型LeNet-5网络的行人识别算法,以更好地满足行人分类的准确率和实时性的要求。
为了实现上述任务,本发明采取如下的技术解决方案:
一种基于改进型LeNet-5网络的行人识别算法,其特征在于,包括以下步骤:
1)将从网上裁剪的部分单行人图片、部分低像素手机拍摄的生活中行人图片以及戴姆勒行人检测标准数据库中选取的部分图片进行归一化处理,处理为48x64的图片,得到样本集;
2)统一样本集中的图片维度,并对样本集进行标注处理,同时分为训练集、验证集和测试集;
3)对LeNet-5网络进行修改,构建改进型LeNet-5网络;即,在常规的LeNet-5网络基础上,新引入两层卷积层、两层池化层和BN层;两层卷积层和两层池化层分别连接于LeNet-5中的第二个池化层之后,BN层置于网络激活函数层的前面,并将LeNet-5中最后的Gaussian connection分类层改为softmax;其中,在新引入的两个池化层中,第二个池化层为平均池化;
4)将训练集输入该改进型LeNet-5网络进行训练,通过验证集准确率选取最终训练模型,将所得最终训练模型用于测试集进行准确率测试。
根据本发明,步骤1)中,所述戴姆勒行人检测标准数据库是一个公开行人检测和分类数据集;从戴姆勒行人检测标准数据库中选取的部分图片是采用车载摄像机获取的图片,图片大小均为18x36。
进一步地,步骤2)中所述的对样本集进行标注处理,经含有行人的图片标注为1,不含行人的背景图标注为2。
优选地,步骤4)中所述将训练集输入该改进型LeNet-5网络进行训练算法如下:
(1)正向传播和反向传播:
正向传播就是通过卷积核不停的对图像进行滤波处理提取特征,同时计算整个网络的loss值,然后通过反向传播运算,来更新网络权值,调整整个网络,使网络的损失降到最小;正向传播中的主要运算有卷积,激活函数以及下采样;
卷积运算公式如下:
池化层通常在卷积层之后进行,池化层主要起的功能是下采样,该操作运算公式如下:
使用的激活函数是relu,该激活函数运算如下:
f(x)=max(0,x) (3)
反向传播是通过使用反向求导,来优化网络和权值,从而减小网络最终计算出的损失函数的值,计算损失函数的公式如下所示:
反向传播是整个网络的关键,网络用随机梯度下降法来寻找最优值;反向传播的计算公式如下:
式中:表示第l-1层的第k个神经元连接到第l层的第j个神经元的权值;表示第l层的第j个神经元的偏置;表示第l层的第j个神经元的输入;表示第l层的第j个神经元的输出;E表示损失函数,l表示第l层,t表示输出的期望值;式(8)中的表示的是网络权值更新后的值;
在改进型LeNet-5网络的设置中,总共设置了30个epoch,对于学习率使用的是可变的学习率,也就是随着迭代次数的增加,学习率会相应的减少,稳定最后的训练,防止梯度爆炸。
为了验证本发明的基于改进型LeNet-5网络的行人识别算法带来的优点,申请人在实际情况中选取了在真实场景中拍摄的多个场景的图片,并将选取的图片输入改进型LeNet-5网络中,通过准确率和实时性的检测,发现该改进型LeNet-5网络具有较高的准确率,能很好的区分行人和背景,且实时性较高。
附图说明
图1是改进型LeNet-5网络训练过程中产生的loss值和准确率图;其中(a)图是loss值图,(b)图是准确率图;
图2是改进型LeNet-5在验证集上的准确率。
下面结合附图和实施例对本发明做进一步详细描述。
具体实施方式
首先需要说明的是,在以下的实施例中,涉及的相关名称定义如下:
戴姆勒行人检测标准数据库:表示的是一个公开行人检测和分类数据集;该数据库采用车载摄像机获取,分为检测、分类等多数据集。
LeNet5网络:LeNet-5网络共有7层,即:C1层、S2层、C3层、S4层、C5层、F6层和Output层。不包含输入,每层都包含可训练参数;每个层有多个Feature Map,每个FeatureMap通过一种卷积滤波器提取输入的一种特征,然后每个FeatureMap有多个神经元。其中:
1、C1层是一个卷积层
输入图片:32*32
卷积核大小:5*5
卷积核种类:6
输出特征图大小:28*28
神经元数量:28*28*6
可训练参数:(5*5+1)*6(每个滤波器5*5=25个unit参数和一个bias参数,一共6个滤波器)
连接数:(5*5+1)*6*28*28;
2、S2层是一个下采样层
输入:28*28
采样区域:2*2
采样方式:4个输入相加,乘以一个可训练参数,再加上一个可训练偏置。
采样种类:6
输出特征图大小:14*14
神经元数量:14*14*6
连接数:(2*2+1)*6*14*14
3、C3层也是一个卷积层
输入:S2中所有6个或者几个特征图组合
卷积核大小:5*5
卷积核种类:16
输出特征图大小:10*10
C3中的每个特征图是连接到S2中的所有6个或者几个特征图的,表示本层的特征图是上一层提取到的特征图的不同组合;
存在的一个方式是:C3的前6个特征图以S2中3个相邻的特征图子集为输入。接下来6个特征图以S2中4个相邻特征图子集为输入。然后的3个以不相邻的4个特征图子集为输入。最后一个将S2中所有特征图为输入。则:可训练参数:6*(3*25+1)+6*(4*25+1)+3*(4*25+1)+(25*6+1)=1516。
连接数:10*10*1516=151600。
4、S4层是一个下采样层
输入:10*10
采样区域:2*2
采样方式:4个输入相加,乘以一个可训练参数,再加上一个可训练偏置。
采样种类:16
输出图大小:5*5(10/2)
神经元数量:5*5*16=400
连接数:16*(2*2+1)*5*5=2000
5、C5层是一个卷积层
输入:S4层的全部16个单元特征map(与s4全相连)
卷积核大小:5*5
卷积核种类:120
输出图大小:1*1
可训练参数/连接:120*(16*5*5+1)=48120。
6、F6层全连接层
输入:c5 120维向量
计算方式:计算输入向量和权重向量之间的点积,再加上一个偏置,结果通过sigmoid函数;可训练参数:84*(120+1)=10164。
7、Output层-全连接层
Output层也是全连接层,共有10个节点,分别代表数字0到9,且如果节点i的值为0,则网络识别的结果是数字i。采用的是径向基函数的网络连接方式。假设x是上一层的输入,y是RBF的输出,则RBF输出的计算方式是:
上式wij的值由i的比特图编码确定,i从0到9,j取值从0到7*12-1。RBF输出的值越接近于0,则越接近于i,即越接近于i的ASCII编码图,表示当前网络输入的识别结果是字符i。该层有84x10=840个参数和连接。softmax:softmax逻辑回归模型是logistic回归模型在多分类问题上的推广,当分类数为2时,softmax回归退化为logistic回归。
Relu函数:线性整流函数(Rectified Linear Unit,ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数。其表达式为:f(x)=max(0,x)。
申请人在研究发现,LeNet、ResNet、VGG等都是常用的深度卷积网络模型,相比较而言,ResNet和VGG的网络深度更深,通常所使用到的输入图片的分辨率也是在200及以上,而LeNet网络较浅,计算量不复杂,且在交通标志识别等分类问题上都有着很好地效果。
经过综合考虑,为了使得的行人识别准确率更高,在基于经典的LeNet-5网络模型的基础上,通过修改可以得到新的网络结构。
由于传统的LeNet5的网络只有7层,网络深度较浅,所以在该网络的基础上再引入了两层卷积层和两层池化层,且将最后的输出分类层改为了softmax分类,同时在每一层卷积层后引入了BN操作,防止梯度消失或爆炸的问题产生。改进后的LeNet5网络结构如表1所示。
层数 | 层名 | 卷积核或池化尺寸 | 输出特征图尺寸 |
Layer0 | Input | - | 48x64 |
Layer1 | Conv1 | 5x5 | 48x64 |
Layer2 | Max_pool2 | 2x2 | 24x32 |
Layer3 | Conv3 | 5x5 | 24x32 |
Layer4 | Max_pool4 | 2x2 | 12x16 |
Layer5 | Conv5 | 5x5 | 12x16 |
Layer6 | Max_pool6 | 2x2 | 6x8 |
Layer7 | Conv7 | 5x5 | 6x8 |
Layer8 | Avg_pool8 | 2x2 | 3x4 |
Layer9 | Conv9 | 3x4 | 1x1 |
Layer10 | Conv10 | 1x1 | 1x1 |
具体介绍如下所示:
(1)第一层卷积层输入的数据为处理后的48x64x1的灰度图像,输入的卷积核大小为5x5,个数为6个,步长为1,边缘扩充为2。该层还包含了BN层、降采样层和Relu激励函数。
(2)第二层卷积层与一个卷积层完全相同。输入的数据为24x32x6,通过该层得到的输出特征图为12x16x16。
(3)第三卷积层的输入数据为12x16x16,该层包含32个大小为5x5的卷积核。从结构上来看,该层与第二层的结构完全一致。
(4)第四层卷积层输入数据为6x8x32,该层包含64个大小为5x5的卷积核。该层的池化层改用平均池化,用于深层网络背景信息的提取和融合。
(5)第五层全连接层的输入数据为3x4x64,包含120个大小为3x4的卷积核。同时该层还包含了BN操作和relu操作,目的是为了归一化和激活处理。
(6)第6层为全连接层,输入的数据尺寸为1x1x120,输出维度为2。由于最终需要的将行人和背景进行区分,所以需要的是二分类,于是将正样本标注为1,负样本标注为2。
(7)最后一层为输出层,使用softmax_loss对上述提取的特征进行整合和归一化处理,其本质上就是利用cross entropy做损失函数,在生成概率时用softmax,作为最终的2分类输出。
以下是发明人给出的具体实施例。
本实施例给出一种基于改进型LeNet-5网络的行人识别算法,包括如下步骤:
1)样本来源主要由三部分组成:网上裁剪部分单行人图片;低像素手机拍摄部分生活中行人图片;戴姆勒行人检测标准数据库中选取的部分图片。将上述收集到的三部分图片进行归一化处理,得到样本集;
2)将样本集进行灰度化,并分为训练集、验证集和测试集;
3)对传统是LeNet-5网络进行修改,构建改进型LeNet-5网络。即,在常规的LeNet-5网络基础上,引入两层卷积层和两层池化层,分别连接于LeNet-5中的第二个池化层之后。引入的两个池化层中,第二个池化层为平均池化。同时引入BN层,将BN层置于网络激活函数层的前面。并将LeNet-5中最后的Gaussian connection分类层改为softmax;
4)将训练集输入该改进型LeNet-5网络进行训练,通过验证集的准确率选取最终训练模型,将所得最终训练模型用于测试集进行准确率测试。
本实施例中,步骤1)中的戴姆勒行人检测标准数据库采用车载摄像机获取,分类数据库有三个训练集和两个测试集,图片大小均为18x36。对于传统的LeNet-5网络来说,图片分辨率过小,因此从戴姆勒行人检测标准数据库中集中选取了部分包含行人较少的图片,从网上裁剪了部分单行人图片;在现实生活中拍摄的部分生活中行人图片。将从得到的上述三部分图片进行归一化处理,统一处理为48x64的图片,形成最终的样本集。
在步骤2)中,首先需要统一样本中的图片维度,由于戴姆勒行人检测标准数据库中的样本图片均为灰度图,所以对样本集进行了灰度化。其次将样本集分为训练集、验证集和测试集。对样本集进行标注处理,含有行人的图片标注为1,不含行人的背景图标注为2。
把步骤2)处理后的样本集中的训练集输入改进型LeNet-5网络,进行训练学习,通过验证集准确率得到最终训练模型。
改进型的LeNet-5网络及其训练学习算法如下:
(1)对LeNet5网络的改进:传统的LeNet5的网络只有7层,网络深度较浅,所以在该网络的基础上再引入了两层卷积层和两层池化层以及BN层,且将最后的输出分类层改为了softmax分类,BN层置于网络激活函数层的前面,同时在每一层卷积层后引入了BN操作,以防止梯度消失或爆炸的问题产生。在新引入的两个池化层中,第二个池化层为平均池化;最终成为改进型LeNet-5网络。
(2)改进型LeNet-5网络分正向传播和反向传播。正向传播就是通过卷积核不停的对图像进行滤波处理提取特征,同时计算整个网络的loss值,然后通过反向传播运算,来更新网络权值,调整整个网络,使网络的损失降到最小。正向传播中的主要运算有卷积运算、BN运算、激活函数以及下采样。
a)卷积运算公式如下:
在卷积运算中,假设输入大小为:W1*H1*D1,那么得到的输出则为:
W2=(W1-F+2P)/S+1 (2)
H2=(H1-F+2P)/S+1 (3)
D2=K (4)
b)BN具体操作过程如下:
首先将准备输入网络中一批数据x={x1,x2,…,xm}进行处理,标准化处理后,使得该组数据具有均值和方差:
式中:分母中的Var[]为求得的方差,分子中E[]为求得的均值,k的取值范围为1到m。
经过处理后,某个神经元的激活x将会被强行拉回均值为0,方差为1的标准正态分布。目的是为了改变输入值要落入的区域位置,经过该操作后,输入值落入的位置会更偏向于敏感区域。优点是可以加快信息流动和网络训练速度。缺点是会使得网络的学习表达能力变弱。为此对每个神经元加入了scale和shift操作,操作步骤如下所示:
式中:γ(k)和β(k)为引入的形变和移位参数。
完整的BN操作如下式(7)至(10)所示,式(7)表示的是求取输入的均值;式(8)表示的是求取输入的方差;式(9)表示的是对输入值求得的均值和方差进行标准化;式(10)表示的针对引入的形变和位移参数的训练。
c)池化层通常在卷积层之后,下采样运算公式如下:
d)改进型LeNet-5网络中使用的激活函数是relu,该激活函数运算如下:
f(x)=max(0,x) (12)
反向传播是通过使用反向求导,来优化网络和权值,从而减小网络最终计算出的损失函数的值,计算损失函数的公式如下所示:
(3)反向传播是整个网络的关键。网络用到随机梯度下降法来寻找最优值。首先,就是网络权值和偏置的问题,将其用一个函数y=f(x,w,b)来表示,在这个式子中,y表示输出,x表示输入,w表示权值,b表示偏转(一般每一层的偏置共享),在前向传播中,自变量只有一个输入,所以需要做的就是尝试不同的w和b来得到一个理想的t。
基于上述用一个C来表示想要的值,误差的计算为E=(y-t)2,想要达到的结果就是E接近0,在此再换一种表达方式,即:
C(w,b)=(f(x,w,b)-t)2,这样一来,看到的就是关于w,b式子。再接下来便是梯度下降的问题了,梯度的求解在多元函数中其实也就是偏导数的计算,可表示如下:
综上,反向传播的计算公式如下:
式中:表示第l-1层的第k个神经元连接到第l层的第j个神经元的权值;表示第l层的第j个神经元的偏置;表示第l层的第j个神经元的输入;表示第l层的第j个神经元的输出;E表示损失函数,l表示第l层,t表示输出的期望值。式(18)表示中的运算后得到的表示的是网络权值更新后的值。
在本实施例的改进型LeNet-5网络的设置中,总共设置了30个epoch,对于学习率使用的是可变的学习率,也就是随着迭代次数的增加,学习率会相应的减少,训练loss值会相对稳定,有利于防止梯度爆炸。
改进型LeNet-5网络训练过程中的loss值如图1中的(a)所示。改进型LeNet-5网络在验证集上的准确率如图1(b)所示。
改进型LeNet-5网络模型在验证集上的准确率如图2所示。
通过验证集的准确率选择一个性能最好的网络模型,将该模型用于测试集测试。表2给出了行人样本库3种算法准确率以及网络测试的时长。
表2
表2可以看出,采用本发明的基于改进型LeNet-5网络的行人识别算法,准确率、时间和单张耗时均优于HOG+SVM和传统LeNet-5,可以更好地满足行人分类的准确率和实时性的要求。
Claims (1)
1.一种基于改进型LeNet-5网络的行人识别算法,其特征在于,包括以下步骤:
1)将从网上裁剪的部分单行人图片、部分低像素手机拍摄的生活中行人图片以及戴姆勒行人检测标准数据库中选取的部分图片进行归一化处理,处理为48x64的图片,得到样本集;
所述戴姆勒行人检测标准数据库是一个公开行人检测和分类数据集;从戴姆勒行人检测标准数据库中选取的部分图片是采用车载摄像机获取的图片,图片大小均为18x36;
2)统一样本集中的图片维度,并对样本集进行标注处理,然后将样本集中的图片进行灰度化,并分为训练集、验证集和测试集;
所述的对样本集进行标注处理是,含有行人的图片标注为1,不含行人的背景图标注为2;
3)对LeNet-5网络进行修改,构建改进型LeNet-5网络;即,在常规的LeNet-5网络基础上,新引入两层卷积层、两层池化层和BN层;两层卷积层和两层池化层分别连接于LeNet-5中的第二个池化层之后,BN层置于网络激活函数层的前面,并将LeNet-5中最后的Gaussianconnection分类层改为softmax;其中,在新引入的两个池化层中,第二个池化层为平均池化;
改进后的LeNet5网络结构为:
(1)第一层卷积层输入的数据为处理后的48x64x1的灰度图像,输入的卷积核大小为5x5,个数为6个,步长为1,边缘扩充为2;该层还包含了BN层、降采样层和Relu激励函数;
(2)第二层卷积层与第一个卷积层完全相同;输入的数据为24x32x6,通过该层得到的输出特征图为12x16x16;
(3)第三卷积层的输入数据为12x16x16,该层包含32个大小为5x5的卷积核;从结构上来看,该层与第二层的结构完全一致;
(4)第四层卷积层输入数据为6x8x32,该层包含64个大小为5x5的卷积核;该层的池化层改用平均池化,用于深层网络背景信息的提取和融合;
(5)第五层全连接层的输入数据为3x4x64,包含120个大小为3x4的卷积核;同时该层还包含了BN操作和relu操作,目的是为了归一化和激活处理;
(6)第6层为全连接层,输入的数据尺寸为1x1x120,输出维度为2;由于最终需要的将行人和背景进行区分,所以需要的是二分类,于是将正样本标注为1,负样本标注为2;
(7)最后一层为输出层,使用softmax_loss对上述提取的特征进行整合和归一化处理,其本质上就是利用cross entropy做损失函数,在生成概率时用softmax,作为最终的2分类输出;
4)将训练集输入该改进型LeNet-5网络进行训练,通过验证集准确率选取最终训练模型,将所得最终训练模型用于测试集进行准确率测试;
训练集输入该改进型LeNet-5网络进行训练算法如下:
正向传播和反向传播:
正向传播就是通过卷积核不停的对图像进行滤波处理提取特征,同时计算整个网络的loss值,然后通过反向传播运算,来更新网络权值,调整整个网络,使网络的损失降到最小;正向传播中的主要运算有卷积,激活函数以及下采样;
卷积运算公式如下:
池化层通常在卷积层之后进行,池化层主要起的功能是下采样,该操作运算公式如下:
使用的激活函数是relu,该激活函数运算如下:
f(x)=max(0,x) (3)
反向传播是通过使用反向求导,来优化网络和权值,从而减小网络最终计算出的损失函数的值,计算损失函数的公式如下所示:
反向传播是整个网络的关键,网络用随机梯度下降法来寻找最优值;梯度更新的计算公式如下:
式中:表示第l-1层的第k个神经元连接到第l层的第j个神经元的权值;表示第l层的第j个神经元的偏置;表示第l层的第j个神经元的输入;表示第l层的第j个神经元的输出;E表示损失函数,l表示第l层,t表示输出的期望值,式(8)中的计算得到的表示的是网络权值更新后的值;
在改进型LeNet-5网络的设置中,总共设置30个epoch,对于学习率使用的是可变的学习率,也就是随着迭代次数的增加,学习率会相应的减少,稳定最后的训练,防止梯度爆炸。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011538165.6A CN112633169B (zh) | 2020-12-23 | 2020-12-23 | 一种基于改进型LeNet-5网络的行人识别算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011538165.6A CN112633169B (zh) | 2020-12-23 | 2020-12-23 | 一种基于改进型LeNet-5网络的行人识别算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112633169A CN112633169A (zh) | 2021-04-09 |
CN112633169B true CN112633169B (zh) | 2023-05-30 |
Family
ID=75321580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011538165.6A Active CN112633169B (zh) | 2020-12-23 | 2020-12-23 | 一种基于改进型LeNet-5网络的行人识别算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633169B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537176A (zh) * | 2021-09-16 | 2021-10-22 | 武汉未来幻影科技有限公司 | 一种驾驶员疲劳状态的确定方法、装置以及设备 |
CN115131699A (zh) * | 2022-06-24 | 2022-09-30 | 安徽工程大学 | 一种智能消防车目标识别实现方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6128606A (en) * | 1997-03-11 | 2000-10-03 | At&T Corporation | Module for constructing trainable modular network in which each module inputs and outputs data structured as a graph |
CN110097145A (zh) * | 2019-06-20 | 2019-08-06 | 江苏德劭信息科技有限公司 | 一种基于cnn和特征金字塔的交通违禁品识别方法 |
CN110580450A (zh) * | 2019-08-12 | 2019-12-17 | 西安理工大学 | 一种基于卷积神经网络的交通标志识别方法 |
CN111325152B (zh) * | 2020-02-19 | 2023-09-26 | 北京工业大学 | 一种基于深度学习的交通标志识别方法 |
-
2020
- 2020-12-23 CN CN202011538165.6A patent/CN112633169B/zh active Active
Non-Patent Citations (1)
Title |
---|
Facial Expression Recognition Based on Improved LeNet-5 CNN;Guan Wang等;《 2019 Chinese Control And Decision Conference (CCDC)》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112633169A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310861B (zh) | 一种基于深度神经网络的车牌识别和定位方法 | |
Latha et al. | Automatic detection of tea leaf diseases using deep convolution neural network | |
CN103955702B (zh) | 基于深度rbf网络的sar图像地物分类方法 | |
CN107122776A (zh) | 一种基于卷积神经网络的交通标志检测与识别方法 | |
CN112446388A (zh) | 一种基于轻量化二阶段检测模型的多类别蔬菜幼苗识别方法及系统 | |
CN108830188A (zh) | 基于深度学习的车辆检测方法 | |
US10262214B1 (en) | Learning method, learning device for detecting lane by using CNN and testing method, testing device using the same | |
CN107066559A (zh) | 一种基于深度学习的三维模型检索方法 | |
CN113408605A (zh) | 基于小样本学习的高光谱图像半监督分类方法 | |
CN110222767B (zh) | 基于嵌套神经网络和栅格地图的三维点云分类方法 | |
CN106295124A (zh) | 利用多种图像检测技术综合分析基因子图相似概率量的方法 | |
CN114842264B (zh) | 一种基于多尺度空谱特征联合学习的高光谱图像分类方法 | |
CN112633169B (zh) | 一种基于改进型LeNet-5网络的行人识别算法 | |
CN111984817B (zh) | 一种基于自注意力机制加权的细粒度图像检索方法 | |
CN108230330B (zh) | 一种快速的高速公路路面分割和摄像机定位的方法 | |
CN110807485B (zh) | 基于高分遥感影像二分类语义分割图融合成多分类语义图的方法 | |
CN113378883B (zh) | 一种基于通道分组注意力模型的细粒度车辆分类方法 | |
CN111639697B (zh) | 基于非重复采样与原型网络的高光谱图像分类方法 | |
CN112784921A (zh) | 任务注意力引导的小样本图像互补学习分类算法 | |
CN114913498A (zh) | 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 | |
CN111339978A (zh) | 利用卷积神经网络模型识别交通指数时间序列模式的方法 | |
CN112766283A (zh) | 一种基于多尺度卷积网络的两相流流型识别方法 | |
CN115393631A (zh) | 基于贝叶斯层图卷积神经网络的高光谱图像分类方法 | |
CN112949510A (zh) | 基于Faster R-CNN热红外影像人物探测方法 | |
CN114492634B (zh) | 一种细粒度装备图片分类识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |