CN104063719B

CN104063719B - 基于深度卷积网络的行人检测方法及装置

Info

Publication number: CN104063719B
Application number: CN201410301823.8A
Authority: CN
Inventors: 汪永强; 童庆; 刘文昌; 莫永波; 胡祝银
Original assignee: Shenzhen Sunwin Intelligent Co Ltd
Current assignee: Shenzhen Sunwin Intelligent Co Ltd
Priority date: 2014-06-27
Filing date: 2014-06-27
Publication date: 2018-01-26
Anticipated expiration: 2034-06-27
Also published as: CN104063719A

Abstract

本发明公开了一种基于深度卷积网络的行人检测方法及装置，其中，该方法包括卷积神经网络训练步骤和行人检测步骤；所述卷积神经网络训练包括如下步骤：S10、从图像库中选取多组样本图像数据；S11、将一组样本图像数据送入多层神经卷积网络的输入层；S12、计算神经卷积网络的中间层的输出矢量以及输出层的实际输出矢量得出中间层误差以及输出层误差；S13、调整输出层矢量元素到中间层输出矢量元素的权值以及中间层输出矢量元素到输出层矢量元素的权值；S14、判断总误差函数值，并利用训练后的网络检测行人。本发明具有鲁棒性较佳、检测准确率高的优点。

Description

基于深度卷积网络的行人检测方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于深度卷积网络的行人检测方法及装置。

背景技术

随着科技的发展，智能视频监控技术渐渐成为视频监控技术的研究热点之一。所谓“智能化”，就是要充分挖掘抽取视频资源中的关键信息，并利用这种信息为用户提供有价值的服务。比如，当监控系统发现一个来历不明的物品较长时间地出现在安全区域，或者发现可疑人物游荡在安全管理的区域以及其他的异常行为时，系统能对这样一些具有潜在威胁的事件及时捕获，并对是否介入事件做出智能的判断，从而有效抑制人作为行为主体所引致的系列问题，实现真正意义上的全天候的监控。

智能化监控系统除了可以提高报警精确度，减少漏分析或者误分析的现象外，还可以缩短响应时间，提高响应速度，形成更为有效的现场数据，在安全威胁发生之前就能够提示安全人员关注相关监控画面，为潜在威胁做好准备工作。于是，近年来，智能视频监控系统也开始在一些特定的场合，如车站、银行、商场等公共领域逐渐普及，所以安全领域成为主要应用场所。

实际上，目前大多数监控系统都还停留在普通的网络视频监控(IP监控、数字化监控)的概念上。简单地说，“眼睛”到处都有，但是智能化的程度并不高，还处于比较初始的阶段。一些智能化监控系统还只能分析一些较为简单的异常行为，其光照环境适应性也处在较低的水平，离用户所期望的理想效果还差得比较远。随着市场上对智能视频应用需求的不断提升，很多科研机构和厂商正投入大量的资金和研发力量从事监控系统智能化的研究。研发出了一批相关技术和产品。

而行人作为视频监控的主体，又有着其特殊的研究地位。所以对行人的检测与识别技术的研究在智能视频监控中有着重要的意义。行人检测可定义为：判断输入图片(或视频帧)是否包含行人，如果有，给出位置信息。它是车辆辅助驾驶、智能视频监控和人体行为分析等应用中的第一步，近年来也应用在航拍图像、受害者营救等新兴领域中.行人兼具刚性和柔性物体的特性，外观易受穿着、尺度、遮挡、姿态和视角等影响，使得行人检测成为智能视频监控的研究难点与热点。

目前常用的行人检测方法主要有背景差法、帧差法、光流法，模版匹配和基于机器学习的方法等。前四种检测方法都是常规的基于图像处理技术的人体检测方法，然而这些方法不能解决人体形状和外貌各式各样的难点，人体的不同运动方式的问题，受天气以及光照的随机变化，行人的服饰和姿态改变影响，较大。基于机器学习的方法从样本集中学习人体的不同变化，具有较好的鲁棒性，而且合理的选择训练样本和特征，结合结构合理的分类算法，可以较好地克服许多不利条件，如行人多样性、场景多样性、光照环境多样性等的影响，从而有很好的推广性和广泛的适用范围。由于基于机器学习的行人检测方法的优点，它已经成为目前行人检测的一种主流的方法。

基于机器学习的方法一般包括特征提取和训练机器学习分类器，检测三个部分。用于行人检测的特征有：Haar特征，Hog特征，Edgelet特征，FDF特征等。用于行人检测的机器学习算法有：支持向量机(SVM)、各种类型的神经网络(NN)以及其他基于统计的学习分类器(如Adaboost、级联分类器)等。行人检测除了具有一般人体检测具有的服饰变化、姿态变化等难点外，由于其特定的应用领域还具有以下难点：摄像机是运动的，这样广泛应用于智能监控领域中检测动态目标的方法便不能直接使用；行人检测面临的是一个开放的环境，要考虑不同的路况、天气和光线变化，对算法的鲁棒性提出了很高的要求；实时性是系统必须满足的要求，这就要求采用的图像处理算法不能太复杂。由于传统的算法对以上问题的适应性都不好，所以要提出一种新的方法来解决上述问题。

发明内容

本发明所要解决的技术问题是：提供一种鲁棒性较佳、检测准确率高的基于深度卷积网络的行人检测方法及装置。

为了解决上述技术问题，本发明采用的技术方案为：提供一种基于深度卷积网络的行人检测方法，包括卷积神经网络训练步骤和行人检测步骤；

所述卷积神经网络训练步骤包括如下步骤：

S10、从图像库中选取多组样本图像数据；

S11、将一组样本图像数据送入多层神经卷积网络的输入层，并给定输出层正确的输出结果，其中，所述多层神经网络是基于神经元模型而构建，每个神经元包括输入层、中间层及输出层；

S12、计算卷积神经网络的中间层的输出矢量以及输出层的实际输出矢量后，将中间层的输出矢量以及输出层的实际输出矢量中的元素分别与正确输出矢量中的元素比较，得出中间层误差以及输出层误差；

S13、根据中间层误差以及输出层误差分别调整输出层矢量元素到中间层输出矢量元素的权值以及中间层输出矢量元素到输出层矢量元素的权值；

S14、判断总误差函数值是否小于或等于误差阈值，若是，则卷积神经网络训练完成，并储存输出层矢量元素到中间层输出矢量元素的权值以及中间层输出矢量元素到输出层矢量元素的权值；若否，则返回步骤S11。

所述行人检测步骤包括如下步骤：

S20、采集待检测的视频图像；

S21、提取多组待测目标矢量，并选择一组待测目标矢量输入卷积神经网络，并利用卷积神经网络对待测目标矢量进行判断，当待测目标矢量的总误差函数值小于或等于误差阈值，则为行人图像，否则，继续处理下一组待测目标矢量。

为了解决上述技术问题，本发明采用的另一技术方案为：提供一种基于深度卷积网络的行人检测装置，包括卷积神经网络训练模块和行人检测模块，所述卷积神经网络训练模块包括依次电连接的图像选择模块、图像导入模块、计算模块以及判断模块；所述行人检测识别模块包括电连接的图像采集模块以及图像识别模块；所述图像选择模块，用于从图像库中选取多组样本图像数据；所述图像导入模块，用于将一组样本图像数据送入多层神经卷积网络的输入层，并给定输出层的理想输出矢量，其中，所述多层神经网络基于神经元模型而构建，每层神经元包括输入层、中间层及输出层；所述计算模块，用于计算神经卷积网络的中间层的输出矢量以及输出层的实际输出矢量后，将中间层的输出矢量以及输出层的实际输出矢量中的元素分别与正确输出矢量中的元素比较，得出中间层误差以及输出层误差；以及根据中间层误差以及输出层误差分别调整输出层矢量元素到中间层输出矢量元素的权值以及中间层输出矢量元素到输出层矢量元素的权值；所述判断模块，用于判断总误差函数值是否小于或等于误差阈值，若是，则卷积神经网络训练完成，并储存输出层矢量元素到中间层输出矢量元素的权值以及中间层输出矢量元素到输出层矢量元素的权值；所述图像采集模块，用于采集待检测的视频图像；所述图像识别模块，用于提取多组待测目标矢量，并选择一组待测目标矢量输入卷积神经网络，并利用卷积神经网络对待测目标矢量进行判断，当待测目标矢量的总误差函数值小于或等于误差阈值，则为行人图像，否则，继续处理下一组待测目标矢量。

本发明的有益效果在于：基于深度卷积网络的行人检测方法先通过构建卷积神经网络并对神经网络进行训练，其训练得出输出层矢量元素到中间层输出矢量元素的权值以及中间层输出矢量元素到输出层矢量元素的权值，并根据总误差函数来与误差阈值的关系来判断进一步调整权值得到良好的分类器，并利用该分类器对采集的视频图像进行分析进而检测出行人目标。具有计算简单、鲁棒性较佳、行人检测准确率高的优点。

附图说明

图1是本发明基于深度卷积网络的行人检测方法的方法流程图。

具体实施方式

为详细说明本发明的技术内容、构造特征、所实现目的及效果，以下结合实施方式并配合附图详予说明。

本发明最关键的构思在于:本发明先通过构建卷积神经网络并对神经网络进行训练得到一个良好的分类器，然后利用该分类器对采集的视频图像进行分析进而检测行人目标，具有鲁棒性较佳、检测准确率高的优点。

请参阅图1，一种基于深度卷积网络的行人检测方法，包括卷积神经网络训练步骤和行人检测步骤；

所述卷积神经网络训练步骤包括如下步骤：

S10、从图像库中选取多组样本图像数据；

S11、将一组样本图像数据送入多层神经卷积网络的输入层，并给定输出层的理想输出矢量，其中，所述多层神经网络基于神经元模型而构建，每层神经元包括输入层、中间层及输出层；

S12、计算神经卷积网络的中间层的输出矢量以及输出层的实际输出矢量后，将中间层的输出矢量以及输出层的实际输出矢量中的元素分别与理想输出矢量中的元素比较，得出中间层误差以及输出层误差；

所述行人检测步骤包括如下步骤：

S20、采集待检测的视频图像；

从上述描述可知，本发明的有益效果在于：基于深度卷积网络的行人检测方法先通过构建卷积神经网络并对神经网络进行训练，其训练得出输出层矢量元素到中间层输出矢量元素的权值以及中间层输出矢量元素到输出层矢量元素的权值，并根据总误差函数来与误差阈值的关系来判断进一步调整权值得到良好的分类器，并利用该分类器对采集的视频图像进行分析进而识别行人图像。具有计算简单、鲁棒性较佳、检测准确率高的优点。

本方案中的输出矢量按照常用的Bootstrap处理方法，可以从大量的图像中收集这些边界样本，同时根据卷积神经网络的特点，做出一些改进，降低随机性，提高了效率。在获得图像数据后，通过一些归一化和预处理步骤，减小图像噪声的影响和消除图像亮度及对比度的差异，提高数据的针对性和鲁棒性，得到统计的方法进行学习处理样本的最基本的特征向量。

具体的训练过程：

首先假设输入层、中间层和输出层的单元数分别是N、L和M。X＝(x0,x1,…,xN)是加到网络的输入矢量，H＝(h0,h1,…,hL)是中间层输出矢量，Y＝(y0,y1,…,yM)是网络的实际输出矢量，并且用D＝(d0,d1,…,dM)来表示训练组中各模式的目标输出矢量输出单元i到隐单元j的权值是Vij，而隐单元j到输出单元k的权值是Wjk。另外用θk和φj来分别表示输出单元和隐含单元的阈值。

于是，中间层各单元的输出为：

而输出层各单元的输出式为：

在上述条件下，网络的训练过程如下：

1)选定训练组，从样本集中分别随机地选取300个样本作为训练组；

2)将各权值V_ij，W_jk和阈值θ_k置成小的接近于0的随机值，并初始化误差阈值ε和学习率α；

3)从训练组中取一个输入模式X加到卷积神经网络，并给定它的理想输出矢量D；

4)计算出一个中间层输出矢量H以及卷积神经网络的实际输出矢量Y；

5)将输出矢量中的元素y_k与目标矢量中的元素d_k进行比较，计算出M个输出误差项式：

δ_k＝(d_k-y_k)y_k(1-y_k)

对中间层的隐单元也计算出L个误差项式：

6)依次计算出各权值的调整量式：

ΔW_jk(n)＝(α/(1+L))*(ΔW_jk(n-1)+1)*δ_k*h_j

ΔV_ij(n)＝(α/(1+N))*(ΔV_ij(n-1)+1)*δ_k*h_j

计算出阈值的调整量式：

Δθ_k(n)＝(α/(1+L))*(Δθ_k(n-1)+1)*δ_k

Δφ_j(n)＝(α/(1+L))*(Δφ_j(n-1)+1)*δ_j

7)调整权值：

W_jk(n+1)＝W_jk(n)+ΔW_jk(n)

Vi_j(n+1)＝V_ij(n)+ΔVi_j(n)

调整阈值式：

θ_k(n+1)＝θ_k(n)+Δθ_k(n)

φ_j(n+1)＝φ_j(n)+Δφ_j(n)

8)当k每经历1至M后，判断指标是否满足精度要求：E≤ε，其中E是

总误差函数，如果不满足，就返回(3)，继续迭代。如果满足就进入下一步。

9)训练结束，将权值和阈值保存在文件中。这时可以认为各个权值已经达稳定，分类器形成。再一次进行训练时，直接从文件导出权值和阈值进行训练，不需要进行初始化。

进一步的，所述卷积神经网络的层数为三层。第一层卷积神经网络用于粗略的预测，第二层及第三层卷积神经网络用于精细判断，通过三层卷积神经网络合理优化计算量，能够使行人检测的误差最小。

进一步的，所述总误差函数值为累加的中间层的输出矢量元素与输出层的实际输出矢量元素的差的平方和，记作：

其中，k表示第k-1个目标矢量元素，d_k表示中间层的输出矢量的第k个元素，y_k表示输出层的实际输出矢量的第k个元素。

进一步的，所述中间层包括三个级联的卷积层、子抽样层以及激活函数层，所述卷积层对图像进行卷积运算；所述子抽样层对卷积后的图像进行抽样得到矢量元素；所述激活函数层对抽样后的矢量元素进行判断。在卷基层中本方案选定的四个卷积核，分别为两个拉普拉斯算子和两个Sobel边缘算子。输入图像分别经过这四个卷积核的卷积得到四个18×18的待测图像。其中拉普拉斯算子是图像的整体特征增强。而Sobel边缘算子则强化了边缘特征。在子抽样层中，利用图像局部相关性的原理，对图像进行子抽样，可以减少数据处理量同时保留有用信息。本层把卷积层输出的四个图像作为输入，分别进行子抽样运算后输出四个9×9图像。而该图像保留了原图像的绝大部分有用信息。子抽样点的值是原图像相邻四个点的平均值。激活函数层分为两层激活函数层，一层为通过与抽样层输出的四个图像分别进行全连结，得到四个中间输出。第二层为有四个中间结果连接的四个激活函数并与输出层连接，得出网络判断结果。

综上所述，本发明提供的基于深度卷积网络的行人检测方法先通过构建卷积神经网络并对神经网络进行训练，其训练得出输出层矢量元素到中间层输出矢量元素的权值以及中间层输出矢量元素到输出层矢量元素的权值，并根据总误差函数来与误差阈值的关系来判断进一步调整权值得到良好的分类器，并利用该分类器对采集的视频图像进行分析进而检测行人目标。具有计算简单、鲁棒性较佳、检测准确率高的优点。卷积神经网络主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于卷积神经网络的特征检测层通过训练数据进行学习，所以在使用卷积神经网络时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

本发明还提供了一种基于深度卷积网络的行人检测装置，包括卷积神经网络训练模块和行人检测识别模块，所述卷积神经网络训练模块包括依次电连接的图像选择模块、图像导入模块、计算模块以及判断模块；所述行人检测识别模块包括电连接的图像采集模块以及目标检测模块；所述图像选择模块，用于从图像库中选取多组样本图像数据；所述图像导入模块，用于将一组样本图像数据送入多层神经卷积网络的输入层，并给定输出层的理想输出矢量，其中，所述多层神经网络基于神经元模型而构建，每层神经卷积网络包括输入层、中间层及输出层；所述计算模块，用于计算神经卷积网络的中间层的输出矢量以及输出层的实际输出矢量后，将中间层的输出矢量以及输出层的实际输出矢量中的元素分别与理想输出矢量中的元素比较，得出中间层误差以及输出层误差；以及根据中间层误差以及输出层误差分别调整输出层矢量元素到中间层输出矢量元素的权值以及中间层输出矢量元素到输出层矢量元素的权值；所述判断模块，用于判断总误差函数值是否小于或等于误差阈值，若是，则卷积神经网络训练完成，并储存输出层矢量元素到中间层输出矢量元素的权值以及中间层输出矢量元素到输出层矢量元素的权值；所述图像采集模块，用于采集待检测的视频图像；所述目标检测模块，用于提取多组待测目标矢量，并选择一组待测目标矢量输入卷积神经网络，并利用卷积神经网络对待测目标矢量进行判断，当待测目标矢量的总误差函数值小于或等于误差阈值，则为行人图像，否则，继续处理下一组待测目标矢量。

综上所述，本发明提供的基于深度卷积网络的行人检测装置，先通过卷积神经网络装置构建卷积神经网络并对神经网络进行训练，其训练得出输出层矢量元素到中间层输出矢量元素的权值以及中间层输出矢量元素到输出层矢量元素的权值，并根据总误差函数来与误差阈值的关系来判断进一步调整权值得到良好的分类器，最后行人识别装置利用该分类器对采集的视频图像进行分析进而检测行人目标，具有计算简单、鲁棒性较佳、检测准确率高的优点。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度卷积网络的行人检测方法，其特征在于，包括卷积神经网络训练步骤和行人检测步骤；

所述卷积神经网络训练步骤包括如下步骤：

S10、从图像库中选取多组样本图像数据；

S11、将一组样本图像数据送入多层神经卷积网络的输入层，并给定输出层的理想输出矢量，其中，所述多层神经网络基于神经元模型而构建，所述卷积神经网络的层数为三层，每层神经卷积网络包括输入层、中间层及输出层；

S13、根据中间层误差以及输出层误差分别调整输出层矢量元素到中间层输出矢量元素的权值以及中间层输出矢量元素到输出层矢量元素的权值；所述中间层包括三个级联的卷积层、子抽样层以及激活函数层，所述卷积层对图像进行卷积运算；所述子抽样层对卷积后的图像进行抽样得到矢量元素；所述激活函数层对抽样后的矢量元素进行判断；

S14、判断总误差函数值是否小于或等于误差阈值，若是，则卷积神经网络训练完成，并储存输出层矢量元素到中间层输出矢量元素的权值以及中间层输出矢量元素到输出层矢量元素的权值；若否，则返回步骤S11；

所述行人检测步骤包括如下步骤：

S20、采集待检测的视频图像；

2.根据权利要求1所述的一种基于深度卷积网络的行人检测方法，其特征在于，所述总误差函数值为累加的中间层的输出矢量元素与输出层的实际输出矢量元素的差的平方和，记作：

<mrow> <mi>E</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>M</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>k</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>

3.一种基于深度卷积网络的行人检测装置，其特征在于，包括卷积神经网络训练模块和行人检测模块，

所述卷积神经网络训练模块包括依次电连接的图像选择模块、图像导入模块、计算模块以及判断模块；所述行人检测识别模块包括电连接的图像采集模块以及目标检测模块；

所述图像选择模块，用于从图像库中选取多组样本图像数据；

所述图像导入模块，用于将一组样本图像数据送入多层神经卷积网络的输入层，并给定输出层的理想输出矢量，其中，所述多层神经网络基于神经元模型而构建，每层神经卷积网络包括输入层、中间层及输出层；

所述计算模块，用于计算神经卷积网络的中间层的输出矢量以及输出层的实际输出矢量后，将中间层的输出矢量以及输出层的实际输出矢量中的元素分别与理想输出矢量中的元素比较，得出中间层误差以及输出层误差；以及根据中间层误差以及输出层误差分别调整输出层矢量元素到中间层输出矢量元素的权值以及中间层输出矢量元素到输出层矢量元素的权值；所述中间层包括三个级联的卷积层、子抽样层以及激活函数层，所述卷积层对图像进行卷积运算；所述子抽样层对卷积后的图像进行抽样得到矢量元素；所述激活函数层对抽样后的矢量元素进行判断；

所述判断模块，用于判断总误差函数值是否小于或等于误差阈值，若是，则卷积神经网络训练完成，并储存输出层矢量元素到中间层输出矢量元素的权值以及中间层输出矢量元素到输出层矢量元素的权值；

所述图像采集模块，用于采集待检测的视频图像；

所述目标检测模块，用于提取多组待测目标矢量，并选择一组待测目标矢量输入卷积神经网络，并利用卷积神经网络对待测目标矢量进行判断，当待测目标矢量的总误差函数值小于或等于误差阈值，则为行人图像，否则，继续处理下一组待测目标矢量。