CN108399361A

CN108399361A - 一种基于卷积神经网络cnn和语义分割的行人检测方法

Info

Publication number: CN108399361A
Application number: CN201810063724.9A
Authority: CN
Inventors: 尚晓航; 霍智勇
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2018-08-14

Abstract

本发明公开了一种基于卷积神经网络CNN和语义分割的行人检测方法，具体如下：获取训练图像数据；对训练图像数据做预处理后输入卷积神经网络CNN训练网络参数得到网络模型；将需要检测行人位置的图像输入基于梯度方向直方图和颜色自相似特征的行人检测器得到行人候选区域，和训练图像数据做相同的预处理操作，将预处理后的行人候选区域输入得到的网络模型做分类得到行人初步位置及位置得分；同时，将需要检测行人位置的图像输入语义分割网络得到行人语义遮罩位置；根据行人语义遮罩位置修正行人初步位置的位置得分，得到最终行人位置和位置得分。本发明结合卷积神经网络和语义分割的优势，充分利用现有数据，具有鲁棒性较佳，检测准确率高的优点。

Description

一种基于卷积神经网络CNN和语义分割的行人检测方法

技术领域

本发明涉及计算机视觉的目标检测技术领域，特别是一种基于卷积神经网络CNN和语义分割的行人检测方法。

背景技术

目标检测是机器视觉的重要分支，行人检测作为目标检测的一种，在无人驾驶、行人再识别、智能视频监控和机器人学中应用广泛。作为一个研究热点，行人检测的目标是尽可能准确的将图像中的行人位置标注出来，即给定一张图像，判断图像中是否存在行人，如果存在，则标注出行人在图像中的位置。但是行人检测问题由于光照、行人姿态、遮挡和复杂背景的影响变得难以解决。

在深度学习得到迅速发展以前，行人检测算法主要利用人工设计特征，Dalal等人提出的方向梯度直方图(Histogram of Oriented Gradient,HOG)特征利用图像梯度的统计信息描述图像中局部目标的表象和形状，对于图像的几何和光学形变有较强的鲁棒性，是最具有泛化能力的特征之一，特征表达能力较强，后续很多方法都是在此基础上做了改进。利用人体结构具有相对稳定性这一特性，Walk等人提出了颜色自相似性(Color Self-Similarity,CSS)和HOG特征结合用于行人检测，出发点是行人身体区域是颜色自相似特征的重要区域，但是对于遮挡和姿态多样的行人，效果不太理想。因此，Wang等人将局部二值模式(Local Binary Pattern,LBP)特征与HOG特征相结合处理部分遮挡，当背景覆盖着凌乱的噪声边缘时，HOG处理效果很差，而LBP可以处理，它可以过滤出噪声。结合局部形状信息还有纹理信息，能够很好的捕捉到人的外表。而Felzenswalb等人改进HOG特征，使用多个部件子模型，通过描述每一部分和部分间的位置关系来表示物体，构成形变部件模型(Deformable Parts Model,DPM)，解决了视角和行人姿态的多样性，进一步提高了行人检测性能。但上述这些方法的检测性能取决于所设计特征的优劣，鲁棒性较差。

随着近几年深度学习的不断发展，深度学习成为计算机视觉研究的热点，利用深度学习，目标检测在检测性能方面取得重大突破，同时，行人检测领域也越来越重视深度学习的应用。

Ouyang提出的JointDeep结构通过设计部件滤波器，在一个网络中实现特征提取、变形处理、遮挡和分类，虽然使用的经过特殊设计的网络结构，由于网络深度较浅，对于图像本身的更深层次的信息不能有效利用，在一定程度上限制了该算法的检测性能。PingLuo等人提出的SDN在网络结构中增加额外的选择层自动学习浅层特征和高层的部件特征，虽然也是结合人体各部分的特征，但是每个部分的特征都是经过选择层选择之后再进行结合，即首先使用卷积层对图像做了特征提取，然后再通过选择层对各部分特征进行融合，同时也提出了一个针对于可切换层的预训练算法。Jianan Li等人提出的SAF R-CNN关注行人检测中的尺度问题，注意到对行人检测而言，图像中的小尺度行人的检测效果对最终的检测性能影响较大，因为小尺度目标往往带有边框模糊和外观模糊，并且小尺度目标和大尺度目标在外观表现上也不一样，而单一的网络往往不能兼顾两者，所以提出一个统一网络，融合了针对大尺度目标的网络和针对小尺度目标的网络，分别对应数据集中尺度不同的行人训练两个模型并赋予相应的权重值，实现对尺度变化的高度鲁棒性。

综上所述，深度学习特征可以避免由于人工设计特征区分性不强而带来的决定性影响，可以通过深度卷积神经网络提取图像深度特征来达到提升行人检测性能的效果。但是，基于深度学习的行人检测仍然需要进一步的研究，如网络深度对检测结果是否有决定性的影响，能否通过网络结构设计兼顾目标尺度、遮挡、形变等问题，能否结合其他视觉任务如语义分割、上下文信息等改善检测性能。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种基于卷积神经网络CNN和语义分割的行人检测方法，结合深度学习和语义分割任务提升行人检测的准确性和鲁棒性。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种基于卷积神经网络CNN和语义分割的行人检测方法，包括以下步骤：

步骤1、获取训练图像数据；

步骤2、对步骤1中得到的训练图像数据做预处理，提取多种手工设计特征构成预处理后的训练图像数据；

步骤3、将步骤2得到的预处理后的训练图像数据输入建立的卷积神经网络CNN进行训练，得到网络模型；

步骤4、获取需要检测行人位置的图像，对该图像使用基于梯度方向直方图和颜色自相似特征的行人检测器做初步检测得到行人候选区域，对行人候选区域做与训练图像数据相同的预处理操作，输入步骤3训练得到的网络模型获得行人初步位置和位置得分；

步骤5、同时，对需要检测行人位置的图像，输入语义分割网络，得到该图像的行人语义遮罩位置；

步骤6、计算步骤4得到的行人初步位置和步骤5得到的行人语义遮罩位置的重叠率，根据得到的重叠率为行人初步位置的位置得分添加惩罚项，修正行人初步位置的位置得分，根据修正后的位置得分使用非极大值抑制算法从行人初步位置中滤除位置得分低于预设阈值的，得到最终行人位置。

作为本发明所述的一种基于卷积神经网络CNN和语义分割的行人检测方法进一步优化方案，步骤2具体如下：

(2.1)、对训练图像数据做灰度化处理，得到训练图像数据的灰度图像；

(2.2)、对(2.1)得到的灰度图像，使用Sobel算子计算各像素点的梯度值，得到其梯度图；

(2.3)、对(2.1)得到的灰度图像，计算其局部二值模式图；

(2.4)、上述得到的灰度图像、梯度图和局部二值模式图作为三个通道构成预处理后的训练图像数据。

作为本发明所述的一种基于卷积神经网络CNN和语义分割的行人检测方法进一步优化方案，步骤3具体如下：

(3.1)网络结构设计和初始化：基网络选用VGG16网络结构，整个网络包括13个卷积层，3个完全连接层和若干池化层，修改输出层的输出类别为二分类并随机初始化，其他层使用在ImageNet中训练得到的VGG16模型进行模型参数初始化；

(3.2)网络训练：将(3.1)得到的初始化后模型在步骤2得到的预处理后的训练图像数据上进行参数微调，且训练中利用随机梯度下降法SGD对卷积神经网络CNN中的参数进行训练。

作为本发明所述的一种基于卷积神经网络CNN和语义分割的行人检测方法进一步优化方案，步骤3中还包括利用数据集扩充方法对训练图像数据做样本扩充，所用数据集扩充方法包括旋转、颜色变换和平移。

作为本发明所述的一种基于卷积神经网络CNN和语义分割的行人检测方法进一步优化方案，步骤3还包括对所获取训练图像数据减去其像素平均值的步骤。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)本发明提供的基于卷积神经网络CNN和语义分割的行人检测方法，图像经过预处理后得到包含多种人工设计特征的特征图作为训练和测试数据，有效利用深度学习特征进行行人检测任务，同时结合语义分割任务在一定程度上降低了复杂背景对检测性能的影响；

(2)在检测阶段，使用基于梯度方向直方图和颜色自相似特征的行人检测器得到行人候选区域，和选择性搜索算法相比，每张图像上的行人候选区域数量从2000个减少到25个，降低了后续工作的计算量；

(3)网络结构在现有网络基础上做参数微调，高效利用了已有可用数据，充分发挥了卷积神经网络的优势。

附图说明

图1为本发明基于卷积神经网络CNN和语义分割的行人检测方法的原理示意图。

图2为本发明基于卷积神经网络CNN和语义分割的行人检测方法所述步骤2对样本预处理效果图；其中，(a)为原图，(b)为预处理效果图。

图3为本发明基于卷积神经网络CNN和语义分割的行人检测方法所述步骤5对测试图像语义分割效果图；其中，(a)为测试图像，(b)为分割效果图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明进行详细描述。

如图1所示，本发明设计了一种基于卷积神经网络CNN和语义分割的行人检测方法，基于卷积神经网络，结合语义分割训练得到一个行人检测模型，提升检测准确度和鲁棒性。本方法具体包括以下步骤：

(1)、获取训练图像数据。

卷积神经网络的训练建立在大规模数据的基础上，训练数据不足会导致网络收敛不充分，影响检测性能，所以需要准备的训练数据量要达到一定的量级要求。对于行人检测任务，一般选用Caltech行人数据集，以此为基础生成最终的训练图像数据。Caltech行人数据集是由车载摄像头拍摄的城市街道视频，包含11个子数据集set00～set10，其中，set00～set05作为训练集，set06～set10作为测试集，测试集中的行人目标是图像中遮挡小于35％的行人目标。测试评价标准是P.Dollár提出的MissRate，是目前行人检测通用的评价标准，表示为如下形式：

其中，FalseNeg表示实际为正样本，预测为负样本；TruePos表示实际为正样本，预测为正样本。

对于训练集，根据Caltech数据集中提供的标注文件提取正负样本共64468个，其中正样本4396个，负样本60072个，正负样本比例差别较大，为了避免网络过拟合，需要通过小角度图像旋转、颜色变换和随机水平翻转等方法进行数据集扩充。通过数据集扩充，正负样本的比例达到可用范围内，并能通过扩充训练样本量，增加样本多样性，使得训练得到的网络模型鲁棒性更强。优选的，还应包括对样本图像数据集减去其均值。

(2)、对步骤1中得到的训练图像数据做预处理，提取多种手工设计特征构成预处理后的训练图像数据。

对数据进行预处理的目的是提取图像中对行人特征表达能力强的人工设计特征，效果图如图2所示，图2中的(a)为原图，图2中的(b)为预处理效果图。具体过程为：

(2.1)对训练图像数据像做灰度化处理，得到训练图像数据的灰度图像。从整幅图像的整体和局部的色彩以及亮度等级分布特征来看，灰度图像的描述与原图的描述是一致的，灰度图像保留了原图中的全局信息和亮度信息。

(2.2)对(2.1)得到的灰度图像，使用Sobel算子计算各像素点的梯度值，得到其梯度图。图像梯度反映了图像灰度值的变化，而目标边缘灰度变化最明显，梯度图能够描述原图的的边缘和形状信息。

(2.3)对(2.1)得到的灰度图像，计算其局部二值模式图。局部二值模式图描述图像的局部纹理特征，有灰度不变性的特点，在图像发生光照变化时，局部二值模式图也不会有很大变化，避免了行人检测中由于光照变化导致的误检。

(2.4)上述得到的灰度图像、梯度图和局部二值模式图作为三个通道构成预处理后的训练图像数据。预处理后的训练图像数据保留了原图像中的全局信息、边缘和纹理信息等有利于表现行人特征的信息。

(3)、将步骤2中得到的预处理后的训练图像数据输入建立的卷积神经网络CNN进行训练。首先，建立卷积神经网络CNN的框架结构，基础网络为ImageNet竞赛中VGG16网络，修改最后的输出层为二分类softmax层，整个网络结构包括13个卷积层，3个完全连接层和若干池化层。其次，将步骤2得到的预处理后的训练图像数据输入建立的卷积神经网络结构进行训练，过程如下：整个训练和测试过程均在深度学习框架Caffe下进行，卷积神经网络输入图像尺寸规定为224×224，网络结构中卷积核大小均使用3×3尺寸，激活函数层使用ReLu函数，训练过程中利用随机梯度下降法SGD对卷积神经网络中参数进行训练，训练图像数据通过步骤2已经准备完毕，在训练时将图像减去整个训练集的平均值再输入网络。训练开始之前，需要利用已有数据对网络参数进行初始化，以减少训练时间，对于除输出层外的其他层的参数，使用在ImageNet数据集上训练得到的VGG16模型的网络参数进行初始化，输出层使用随机初始化。训练过程中，训练时的批量大小设置为128，并训练50个周期，网络的整体基础学习率base_lr设置为0.001，最后一层的层次权重学习率lr_mult设置为10，层次偏置学习率设置为20，而其他层的层次权重学习率和层次偏置学习率设为默认1和2，以在微调整个网络的同时，加快输出层的学习速度。之后经过训练10个周期后网络整体学习率逐渐减小，变为前一次学习率的0.1倍，直到训练完所有周期，得到网络模型。

(4)、和目标检测不同的是，行人检测是单目标检测任务，使用选择性搜索等方式产生的候选区域中有很多非行人目标，影响检测效果，所以获取需要检测行人位置的图像后，将该图像首先输入基于梯度方向直方图和颜色自相似特征的行人检测器得到行人候选区域，这些候选区域中要么是背景，要么是行人目标，而且几乎包括了图像中的所有行人位置；然后对所有的候选区域做与训练图像数据相同的预处理，最后将预处理后的候选区域输入到步骤3训练得到的网络模型做进一步筛选和确认，得到行人初步位置和位置得分。

(5)、同时，对需要检测行人位置的图像，输入语义分割网络，得到需要检测行人位置图像的行人语义遮罩位置，效果图如图3所示，图3中的(a)为测试图像，图3中的(b)为分割效果图。语义分割网络采用Fisher Yu提出的膨胀卷积网络，膨胀卷积网络的训练需要像素级数据标签，而Caltech行人数据集并没有提供这些标签，CityScapes数据集场景和Caltech行人数据集类似，同时提供了像素级标签，所以可以在CityScapes数据集上训练膨胀卷积网络得到语义分割模型。然后将需要检测行人位置的图像输入得到的语义分割模型，得到行人语义遮罩位置。

(6)、计算步骤4得到的行人初步位置和步骤5得到的行人语义遮罩位置的重叠率，对行人位置的位置得分添加惩罚项，修正行人初步位置的位置得分，根据修正后的位置得分使用非极大值抑制算法从行人初步位置中滤除位置得分低于预设阈值的，得到最终行人位置。对步骤4得到的行人初步位置，如果和步骤5得到的行人语义遮罩位置重叠率较高，则证明相应的行人位置是行人的概率更高，反之，则是行人的概率更低。结合行人初步位置和行人语义遮罩位置修正行人位置得分可以表示为如下形式：

式中，S_final表示行人位置的最后位置得分；S_ori表示行人初步位置的位置得分；B_ori表示行人初步位置；B_ss表示行人语义遮罩位置；a表示当行人初步位置和行人语义遮罩位置重叠率较低时的惩罚项因子，值为4；b表示修正项因子，防止由于行人初步位置和行人语义遮罩位置重叠率较过低导致的行人位置丢失。对测试集所有图像根据最终行人位置和位置得分使用P.Dollár提供的评价程序得到整个模型在测试集上的检测性能标准。

综上，本发明提供的基于卷积神经网络CNN和语义分割的行人检测方法，图像经过预处理得到的包含多种人工设计特征的特征图作为训练和测试数据，有效利用深度学习特征进行行人检测任务。在检测阶段，使用基于梯度方向直方图和颜色自相似特征的行人检测器得到候选区域以减少候选区域的数量，降低后续工作的计算量。网络结构在现有网络基础上做参数微调，高效利用了已有可用数据，充分发挥了卷积神经网络的优势，同时结合语义分割任务在一定程度上降低了复杂背景对检测性能的影响。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

1.一种基于卷积神经网络CNN和语义分割的行人检测方法，其特征在于，包括以下步骤：

步骤1、获取训练图像数据；

2.根据权利要求1所述的一种基于卷积神经网络CNN和语义分割的行人检测方法，其特征在于：步骤2具体如下：

（2.1）、对训练图像数据做灰度化处理，得到训练图像数据的灰度图像；

（2.2）、对（2.1）得到的灰度图像，使用Sobel算子计算各像素点的梯度值，得到其梯度图；

（2.3）、对（2.1）得到的灰度图像，计算其局部二值模式图；

（2.4）、上述得到的灰度图像、梯度图和局部二值模式图作为三个通道构成预处理后的训练图像数据。

3.根据权利要求1所述的一种基于卷积神经网络CNN和语义分割的行人检测方法，其特征在于，步骤3具体如下：

（3.1）网络结构设计和初始化：基网络选用VGG16网络结构，整个网络包括13个卷积层，3个完全连接层和若干池化层，修改输出层的输出类别为二分类并随机初始化，其他层使用在ImageNet中训练得到的VGG16模型进行模型参数初始化；

（3.2）网络训练：将（3.1）得到的初始化后模型在步骤2得到的预处理后的训练图像数据上进行参数微调，且训练中利用随机梯度下降法SGD对卷积神经网络CNN中的参数进行训练。

4.根据权利要求1所述的一种基于卷积神经网络CNN和语义分割的行人检测方法，其特征在于，步骤3中还包括利用数据集扩充方法对训练图像数据做样本扩充，所用数据集扩充方法包括旋转、颜色变换和平移。

5.根据权利要求1所述的一种基于卷积神经网络CNN和语义分割的行人检测方法，其特征在于，步骤3还包括对所获取训练图像数据减去其像素平均值的步骤。