CN105335716B

CN105335716B - 一种基于改进udn提取联合特征的行人检测方法

Info

Publication number: CN105335716B
Application number: CN201510716692.4A
Authority: CN
Inventors: 王立春; 葛绪飞; 孔德慧
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-10-29
Filing date: 2015-10-29
Publication date: 2019-03-26
Anticipated expiration: 2035-10-29
Also published as: CN105335716A

Abstract

本发明公开了一种基于改进UDN提取联合特征的行人检测方法，其能够有效降低行人检测的平均漏检率。该方法包括步骤：(1)图像预处理：对原始输入图像中的人体的整体特征和头部特征进行不同的预处理，使图像的边缘和颜色特征更加突出，便于神经网络进行特征提取；(2)基于卷积神经网络CNN模型对预处理的图像提取人体整体特征；(3)基于卷积神经网络CNN模型对预处理的图像的上1/3部分提取局部特征；(4)对步骤(2)和(3)输出的类别概率进行加权平均得到最终概率值，根据最终概率值判断原始输入图像是否包含行人。

Description

一种基于改进UDN提取联合特征的行人检测方法

技术领域

本发明属于计算机视觉的技术领域，具体地涉及一种基于改进UDN提取联合特征的行人检测方法，主要用于车辆辅助驾驶、智能视频监控和人体行为分析等行业。

背景技术

近年来，随着深度学习的发展，深度学习中的卷积神经网络(ConvolutionalNeural Networks，CNN)在行人检测中取得了很好的效果。CNN的特点在于，直接基于图像检测行人区域，避免了传统识别算法中复杂的特征提取过程；卷积层利用局部感受视野策略获取的特征与对象的平移、缩放和旋转无关，因此所获得的特征具有较好的鲁棒性；卷积核的权值共享结构减少了权值的数量进而降低了网络模型的复杂度，这一点在输入特征图是高分辨率图像时表现的更为明显；同时，下采样阶段利用图像局部相关性原理对特征图进行的子抽样在保留有用结构信息的同时，有效地减少了数据的处理量，因此CNN被广泛应用于特征提取。

Pierre Sermanet等人在2013年提出无监督多级特征学习的行人检测模型ConvNet。该网络包含三个卷积层，并将第二层卷积下采样后获得的特征与第三次卷积得到特征进行融合，最后通过全连接实现行人检测。在训练方法上，提出了无监督卷积稀疏自编码方法对网络参数进行预训练，然后采用end-to-end的有监督方法进行微调，该方法在Caltech上的平均漏检率为77.20％。

同年Wanli Ouyang等人结合CNN和DBN构建了UDN(Unified Deep Net，统一深度模型)，将行人检测的平均漏检率降到了39.32％。但是，UDN在进行分类时，容易把树木、电线杆等与行人有相似整体轮廓的非行人物体误判为行人，因此行人检测的平均漏检率还是比较高。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供了一种基于改进UDN提取联合特征的行人检测方法，所提方法能够有效降低行人检测的平均漏检率。

本发明的技术解决方案是：这种基于改进UDN提取联合特征的行人检测方法，该方法包括以下步骤：

(1)图像预处理：对原始输入图像中人体的整体特征和头部特征进行不同的预处理，使图像的边缘和颜色特征更加突出，便于神经网络的特征提取；

(2)基于卷积神经网络CNN模型对预处理的图像提取人体整体特征；

(3)基于卷积神经网络CNN模型对预处理的图像的上1/3部分提取局部特征；

(4)对步骤(2)和(3)输出的类别概率进行加权平均得到最终概率值，根据最终概率值判断原始输入图像是否包含行人。

由于行人检测场景主要是针对户外道路交通图像/视频，而该场景下最容易与人体图像混淆的是树木、电线杆等柱状物体，而这些物体与人体图像相比在头部区域位置的特征差别较大，因此提出联合人体整体图像特征和头部图像特征来进行行人检测，并且以图像的上1/3部分作为头部图像，因此能够降低行人检测的平均漏检率。

附图说明

图1是根据本发明的步骤(1)图像预处理的流程图。

图2是根据本发明的步骤(2)-(4)的结构示意图。

图3是本发明在Caltech数据库上的检测结果。

具体实施方式

这种基于改进UDN提取联合特征的行人检测方法,该方法包括以下步骤：

优选地，所述步骤(1)中将原图像转换到YUV颜色空间，对转换后的图像提取边缘特征，利用原图像和边缘图像组合得到CNN输入的三个通道；其中对于人体的整体特征，第一个通道是原图的Y通道；第二个通道被均分为四个block，分别是Y通道，U通道，V通道，和全0；第三个通道是对原图像进行高斯滤波后提取的边缘特征图像，也是分为四个block，其中前三个block是利用sobel算子针对原图像YUV三个通道分别计算的图像边缘，第四个block是YUV三个通道的边缘的最大值；其中对于人体的头部特征，第一个通道是原图的Y通道；第二个通道是输入图像的HOG特征；第三个通道被均分为4个block，前三个block是利用sobel算子针对源图像YUV三个通道分别计算出图像边缘，第四个block是YUV三个通道的边缘的最大值。

优选地，在所述步骤(1)中还包括：将预处理后的图像作为正样本，对正样本进行镜像翻转，并将翻转后得到的图像标定为训练集的正样本的扩充。

优选地，所述步骤(2)包括：卷积层特征提取、进行形变计算、通过分类估计模型进行分类估计。

优选地，所述步骤(3)包括：第一次卷积、池化、第二次卷积。

现在给出一个本发明的详细实施例。

本发明主要涉及基于多特征的行人检测方法。行人检测的关键点是找到可能包含人体的图像区域。考虑到人体头部相对于多变的人体姿势而言具有更好的不变性和相对于树、电线杆等物体具有很好的区分性，本发明通过提取人体头部图像区域的特征辅助行人检测。

本发明所用到的基础数据来自Caltech数据库，训练和测试样本图像均为WanliOuyan等人利用HOG+CSS+SVM对Caltech数据库中的图像进行区域划分和分类后得到的图像集，每张图像是数据库中原图像分割得到的84×28大小的区域图像，正样本图像是包含行人的图像，负样本是不包含行人的图像。

本发明提出的行人检测网络模型包含两个子网，分别用于提取行人的整体特征和区域特征，行人的整体特征提取采用类似于UDN的网络结构。基于两个子网提取的特征分别计算该图像属于行人类别的得分，对两部分得分进行加权求和求出该样本是行人类别的概率。

1、图像预处理

适当的图像预处理方法，可以消除原始图像中的天气、光照等环境影响，使图像的边缘和颜色特征更加突出，便于神经网络的特征提取。由于人体的整体特征和头部特征的分布不同，我们对这两个特征图的原始输入进行不同的预处理。

1.1卷积网络输入数据

本发明首先将源图像转换到YUV颜色空间，对转换后的图像提取边缘特征，利用源图像和边缘图像组合得到CNN输入的三个通道(如图1)。

整体特征CNN:第一个通道是原图的Y通道；第二个通道被均分为四个block，分别是Y通道，U通道，V通道，和全0；第三个通道是对源图像进行高斯滤波后提取的边缘特征图像，也是分为四个block，其中前三个block是利用sobel算子针对源图像YUV三个通道分别计算的图像边缘，第四个block是YUV三个通道的边缘的最大值。

局部特征CNN：该网络使用的源图像是整体特征CNN网络所用源图像的上1/3区域图像。网络输入第一个通道是原图的Y通道；第二个通道是输入图像的HOG特征；第三个通道被均分为4个block，前三个block是利用sobel算子针对源图像YUV三个通道分别计算出图像边缘，第四个block是YUV三个通道的边缘的最大值。

1.2训练样本扩充

由于所用数据集为车载摄像头拍摄的街景视频，正样本数量较少，为了提高算法的泛化能力，本发明采用对正样本进行镜像翻转并将反转后得到的图像标定为训练集的正样本的扩充方法。网络训练时，输入样本为随机选择得到，每组实验输入60个样本，包括50个负样本和10个正样本。

2、行人检测网络模型

本发明的网络结构联合考虑图像区域整体特征与图像上1/3区域的局部特征，网络结构如图2所示。

2.1待检测区域整体特征提取

基于图像提取人体整体特征是指将源图像作为网络的输入，提取行人特征，便于行人与非行人的判别。

2.1.1卷积层特征提取

本发明中整体特征提取由2个卷积层和1个池化层交替完成。卷积操作实现输入信号在特定模式下的观测。第一层卷积操作的输入x_i是84×28大小的图像，卷积核大小为9×9，输出特征图y_j的计算公式如式(2.1)所示：

y_j＝b_j+∑_iw_ij*x_i (2.1)

其中，i表示输入特征图的数量，j表示输出特征图的数量，w_ij为待求的卷积核参数，b_j是偏置参数，w_ij和b_j在实验开始时采用随机初始化的方式获取。

接下来对卷积阶段得到的特征按照一定的原则进行筛选，通常采用非线性变换函数作为筛选策略。本发明采用的非线性变换函数是softplus，因为softplus与神经学领域提出的脑神经元激活频率函数有相似的特性，且在训练梯度下降时，softplus比传统的sigomid等饱和非线性函数有更快的收敛速度，其公式如式(2.2)所示：

softplus:y＝log(1+e^x) (2.2)

其中，x表示卷积阶段得到的特征，y表示激活函数的输出结果。池化阶段采用的是平均池化方式，通过计算每4×4邻域内像素的均值减少特征图的大小，但仍能较好的保持高分辨率特征图描述的特征。

第二层卷积操作针对人体的头部、躯干等部件区域提取特征，鉴于不同部件所属图像区域尺寸不一样，第二层卷积操作中卷积核的大小是20个不同大小的滤波器，模板的样式是按照人体的part进行划分，以此来解决行人检测中的遮挡问题。模板的样式与人体的part对应，可能的遮挡情况，分为3个等级，滤波器大小分别为：

Level 1：3×3，3×3，6×3，6×3，7×2，7×2，

Level 2：3×5，9×2，9×2，6×5，12×2，12×2，7×5，

Level 3：3×5，9×5，15×2，15×2，19×5，15×5，15×5

2.1.2形变层

经过第二个卷积层，对于一幅图像可以得到20张特征图，每一张特征图代表不同的遮挡情况。对这20张特征图进行下采样，得到20个part的得分。

首先，对每一张特征图，根据式(2.3)求出它的summed map B_p，p＝20，省略下角标p，对于每一个part，

B＝M+c₁D₁+c₂D₂+c₃D₃+c₄D₄+c₅·[1] (2.3)

其中[1]代表全1矩阵，M是卷积层输出的特征图；B是对M进行形变计算得到的新特征图；c是需要学习的参数；D_n(n＝1...4)是特征形变参数。特征图B中位置(x,y)处的元素用b^(x,y)表示；D_n中(x,y)处的值根据式2.4的定义计算得到，式(2.4)中(a_x,a_y)是预先定义的part的标准位置，

根据式(2.5)所示计算第p个part的score S_p

2.1.3分类估计

针对已经求得的20个遮挡情况特征图，利用形变层求得关于part的一组得分s＝{s₁……s₂₀}，按式(2.6)所示的方法进行计算，最终可以得到该输入包含行人的概率值

其中σ代表激活函数softplus。

2.2待检测区域局部特征提取

道路交通场景中电线杆、树等物体的图像与行人图像有相似柱状轮廓，因此包含这类物体的图像整体特征与行人图像整体特征相近，是影响行人漏检率的主要因素之一。因此本发明提出了联合整体-局部特征的行人检测，对待检测区域上1/3部分提取局部特征表达头部信息，联合这两类特征进行判断以降低行人检测的漏检率。

2.2.1图像上1/3区域特征提取

本发明提出的局部特征提取网络模型与2.1中整体特征提取模型类似，网络参数如图2“局部特征CNN”所示。首先根据经验，人体的头部区域在图像的上半区域，因此选择图像的上1/3区域作为局部特征提取区域，该区域大小为28×28。对正样本而言，该区域即是行人头部图像；对于负样本，该区域则是不包含行人头部特征的图像。然后按照图2的网络结构所示依次进行第一次卷积、池化、第二次卷积。第一次卷积时，卷积核大小为9×9，池化时计算每4×4邻域内像素的均值作为池化层特征，第二个卷积层的卷积核大小固定为3×5。卷积操作中，两个子网络的卷积核数量一致。

2.2.2多特征融合

对两个网络输出的类别概率进行加权平均，根据求得的最终概率值判断该原始输入图像是否包含行人。

对上述方法进行了实验验证，并取得了明显的效果。评价指标采用Dollar等人09年在CVPR上发表的针对行人检测提出的log-average miss rate，该指标对多轮测试的miss rate取平均值，而FPPI(false positives per image)值是在log(FPPI)的空间中均匀选取，选择的FPPI的值范围是10^-2～10⁰。

第一组实验采用Caltech数据库，其训练集为set00-set05，测试集为set06-set10。该数据集标注了约250000帧(约137分钟)中的350000个标注矩形框，其中包括2300个行人；第二组实验的训练集为INRIA，测试集为ETH数据库。

由于Caltech数据样本的数量较大，近年来，行人检测一般采用Caltech数据库进行效果比较。本发明在Caltech数据库上的检测结果如图3所示。

由图3数据可知，基于本发明提出方法的行人检测相对于UDN方法中单一的基于整体特征的行人检测，log-average miss rate由39.32％下降到38.51％。这说明，联合行人的整体特征与头部特征进行行人检测是有效的。

本发明的方法与其他深度学习方法在Caltech和ETH上的测试结果比较如表1所示：

表1与其他深度学习网络模型的比较

ConvNet

DBN-ISOL

DBN-Mut

UDN

本发明

SDN

Caltech

77.20％

53.29％s

48.22％

39.32％

38.51％

37.87％

ETH

50.27％

47.01％

41.07％

45.32％

45.18％

40.63％

表1中各列数据代表不同网络模型在caltech和ETH上的测试结果，值越低表示检测效果越好。

ConvNet网络包含3个卷积层，并将第二层卷积下采样后获得的特征与第三次卷积得到特征进行融合，最后通过全连接实现行人检测。在训练方法上使用无监督卷积稀疏自编码方法预训练网络参数结合end-to-end的有监督方法进行微调。

DBN-ISOL是首先提出Part detection的网络结构，对人体part设置不同大小的卷积模板，对存在遮挡情况的行人检测有很好的检测效果。

DBN-Mut是在DBN-ISOL的基础上提出的基于相互可见性的深度学习网络，用来解决行人检测时一个行人被另一个行人部分遮挡的情况，利用两个行人的共同可见的部分和每个行人的part之间的关系，提高存在遮挡的行人的遮挡部分的可视化得分。

UDN是利用CNN、Part detection、Deformation model和Visibility reasoning构建的网络结构，联合CNN和DBN共同进行行人检测。

SDN在传统CNN之上引入一个可切换的RBM层，对行人图像分别提取三类局部特征,融合三类局部特征与整体特征给出最终识别结果。

表1实验结果表明，与基于整体特征的CNN识别方法相比，融合整体与局部特征的本发明与SDN方法，行人漏检率有较大幅度降低；本发明提出的方法行人漏检率略高于SDN方法，但用于识别的网络结构复杂性远低于SDN方法。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种基于改进UDN提取联合特征的行人检测方法，其特征在于，该方法包括以下步骤：

(4)对步骤(2)和(3)输出的类别概率进行加权平均得到最终概率值，根据最终概率值判断原始输入图像是否包含行人；

所述步骤(1)中将原图像转换到YUV颜色空间，对转换后的图像提取边缘特征，利用原图像和边缘图像组合得到CNN输入的三个通道；其中对于人体的整体特征，第一个通道是原图的Y通道；第二个通道被均分为四个block，分别是Y通道，U通道，V通道，和全0；第三个通道是对原图像进行高斯滤波后提取的边缘特征图像，也是分为四个block，其中前三个block是利用sobel算子针对原图像YUV三个通道分别计算的图像边缘，第四个block是YUV三个通道的边缘的最大值；其中对于人体的头部特征，第一个通道是原图的Y通道；第二个通道是输入图像的HOG特征；第三个通道被均分为4个block，前三个block是利用sobel算子针对源图像YUV三个通道分别计算出图像边缘，第四个block是YUV三个通道的边缘的最大值。

2.根据权利要求1所述的基于改进UDN提取联合特征的行人检测方法，其特征在于，在所述步骤(1)中还包括：将预处理后的图像作为正样本，对正样本进行镜像翻转，并将翻转后得到的图像标定为训练集的正样本的扩充。

3.根据权利要求2所述的基于改进UDN提取联合特征的行人检测方法，其特征在于，所述步骤(2)包括：卷积层特征提取、进行形变计算、通过分类估计模型进行分类估计。

4.根据权利要求3所述的基于改进UDN提取联合特征的行人检测方法，其特征在于，所述步骤(3)包括：第一次卷积、池化、第二次卷积。