CN109919045A

CN109919045A - 基于级联卷积网络的小尺度行人检测识别方法

Info

Publication number: CN109919045A
Application number: CN201910120676.7A
Authority: CN
Inventors: 刘艳霞; 张姗
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2019-06-21

Abstract

本文提出基于级联卷积网络的小尺度行人检测识别方法。该方法包括：提出一种新的正样本采集方法，基于anchors聚类结果随机选择样本尺寸，在标记样本中采集正样本训练集，增加正样本数量，提升检测性能；使用级联深度卷积神经网络，通过多任务学习来联合训练识别和定位这；设计轻量级CNN架构，在保持大尺度行人识别精度基础上提升小尺度行人识别准确性。本发明致力于提高小尺度行人的检测识别率，使得行人检测能够适应多种尺度变化和复杂环境。

Description

基于级联卷积网络的小尺度行人检测识别方法

技术领域

本发明属于图像视觉领域。尤指特定目标小尺度行人检测及定位。

背景技术

视频监控下行人检测为视频数据分析的一大分支，对图像序列中的多尺度行人进行检测，在公安嫌疑人检索、交通管制、以及军事侦察、战场监视等诸多领域有着广阔的应用前景。面向视频监控的多尺度行人检测研究是最活跃的研究领域之一。

面向视频监控的多尺度行人检测问题存在许多方面的限制因素，使得序列图像中多尺度行人目标识别技术的研究在理论方法和技术实施上都面临着巨大的挑战。视频监控中行人尺度具有多样性，不同检测场景中的行人具有不同的尺度、不同姿态等特征，难以利用统一的外观特征模型来描述。

由于不同尺度、距离和姿势的影响，在无约束的自然环境中背景的复杂性，场景中光照的变化、大气状况的变化以及天气等的影响会对检测目标造成严重干扰，检测出不同空间尺度的目标物体就更加具有挑战性。

直观地说，大尺寸目标物体的轮廓更加清晰，为检测提供了更丰富的信息；而小尺寸目标物体通常具有边框模糊、外观模糊等特点，很难将它们与杂乱的背景和其他重叠物体区分开，这导致小尺寸目标物体识别困难。

由于场景中存在不同尺度的行人，这严重影响了行人检测模型的性能。面对这些可能存在的问题，精确且实时性强的行人检测算法可以在视频监控方面提供更加准确有效的信息。

因此，为解决以上弊端，本发明提出基于级联框架的神经网络以粗略到精细的方式来检测多尺度目标，能够更加准确地定位目标的位置信息；在跟踪过程中，三个小型的神经网络可以更好地对目标实现实时性的跟踪。

发明内容

本发明的目的是提供一种针对小尺度行人的检测识别方法，旨在提高视频监控中多尺度行人检测精度。在检测识别过程中保证对目标检测和定位的准确性和成功率。为完成本发明的目的，本发明提供描述基于级联的深度卷积网络的行人识别和定位方法

本方法步骤如下：

第一步，anchors聚类：

因为Caltech训练数据集中存在行人遮挡面积超过50％，高度小于30像素或者宽度小于15像素的行人，首先过滤掉上述情况的样本标记，对筛选后的Caltech训练数据集标注样本进行IOU聚类。通过聚类结果，选择出Caltech Dataset的anchors。

第二步，样本采集：

通过上一步anchors聚类选择出anchors，在Caltech Dataset标记图片中的标记位置上随机选择级联网络输入比例的样本大小分别为24x12,48x24，96x48。包括负样本、正样本、部分行人样本，并生成其label信息。采用不同的样本组合训练不同的任务。

第三步，训练行人检测的级联网络：

级联卷积网络结构，包括Rough Network，即R-Net为生成候选框的网络，Considerate-Net，即C-Net为筛选候选框的网络，Verify-Net，即V-Net为确认最后检测结果的网络。三个网络输入大小设计为：24x12,48x24,96x48。

分别用采集到24x12,48x24，96x48不同比例的样本训练R-Net，C-Net，V-Net三个网络。并且在训练过程中采用Online Hard sample mining，自动适应训练过程。选择Hardsample，只反向传播这些样本的梯度。

第四步，测试行人检测的级联网络：

对给定待检测图像，首先将其调整到不同的比例，构建图像金字塔。输入全卷积网络R-Net，用于获取行人的候选窗口及其边界框的回归向量。并在候选边界框的回归向量基础上进行校准，再利用非最大抑制(NMS)过滤候选框；对上述所有候选框都输入到C-Net，进一步过滤掉R-Net识别错误的候选框，并校准边界框的回归向量进行NMS；使用V-Net进一步识别目标区域，并输出最后的识别概率和回归向量。

本发明的有益效果是：提出了一种基于多任务的级联卷积神经网络模型框架，使用统一的级联CNN通过多任务学习来联合训练识别和定位这两个任务。精心设计的级联卷积神经网络框架,采用小尺度网络输入，利用金字塔图片在R-Net产生的候选框，继续细化输出，经过更复杂的C-Net过滤掉非行人窗口来细化窗口；最后，利用更强大的V-Net再次细化结果，并输出预测概率和位置信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1筛选过后的采集样本图，其中红色为标记目标区域

图2(1)为采集V-Net网络负样本训练集结果图(部分样本图)

图2(2)为采集V-Net网络部分行人样本训练集结果图(部分样本图)

图2(3)为采集V-Net网络正样本训练集结果图(部分样本图)

图3为生成的部分样本label信息

图4为multi-conv3*2R-Net，C-Net和V-Net的体系结构

图5为multi-conv3*3R-Net，C-Net和V-Net的体系结构

图6为级联框架的预测和回归过程，包括三个多任务深度卷积网络

图7为级联卷积神经网络检测行人效果图

图8为级联卷积神经网络对复杂背景下小尺度行人检测效果图

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

在以下的描述中，将描述本发明的多个不同的方面，然而，对于本领域内的普通技术人员而言，可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言，阐述了特定的数目、配置和顺序，但是很明显，在没有这些特定细节的情况下也可以实施本发明。在其它情况下，为了不混淆本发明，对于一些众所周知的特征将不再进行详细阐述。

针对现有行人检测技术难以平衡不同尺度行人检测的速度与精度，且检测算法适应能力不强，检测效果易受到自然环境中背景，光照的变化、大气状况的变化以及天气等的影响，本发明提出一种基于级联卷积网络的小尺度行人检测的方法。通过精心设计的级联卷积网络，依靠卷积网络不同任务的级联式训练，并应用级联网络以粗略到细致的方式对图像进行检测，最终实现高精度、高速度、环境适应性强的不同尺度行人的自动检测。

(一)anchors聚类：

首先在Caltech Dataset上对标注样本进行筛选，过滤掉在训练中高度小于30或者宽度小于15像素的标记框和行人遮挡面积超过50％的标记框。在筛选后的Caltech数据集标记样本中，借鉴YOLO9000中的anchors聚类思想，对筛选后的Caltech训练数据集标注样本进行IOU聚类。

使用KMEANS++方式选择初始聚类中心，并改进传统聚类方式中利用anchors平均尺寸更新聚类中心，利用簇中样本尺寸的中位数更新聚类中心。

通过聚类结果，选择出Caltech Dataset的anchors。

(二)样本采集：

基于聚类结果anchors大小，在Caltech Dataset标记图片中的标记位置上随机选择网络输入大小的样本(大小分别为24x12,48x24，96x48)。包括负样本、正样本、部分行人样本。

其中负样本：与图片种每一个真实标记的行人框IOU都小于0.3的区域；正样本：与图片中任意一个真实标记的行人框IOU高于0.65的区域；部分行人：与图片中任意一个真实标记的行人框IOU在0.4和0.65之间的区域。并将正样本标记为1，负样本标记为0，且记录正样本和部分行人样本中目标相对于整张图片的位置信息(左上角坐标和右下角坐标)。

负样本(非行人)和正样本(行人)用于行人识别任务，正样本(行人)和部分行人用于边界框回归。总训练数据由3：1：2(非行人/行人/部分行人)数据组成。

(三)训练行人检测的级联网络：

为达到在网络中的每一层更少的卷积核，并且需要深层的网络获取更具有语义特征的信息。本发明设计轻量级网络，采用小卷积核减少计算量。由于在网络中产生的特征图接近行人比例，会提取到符合人眼视觉的行人特征信息；因此，本发明设计了两种级联卷积网络结构，分别为multi-conv3*2网络结构和multi-conv3*3网络结构。

级联卷积网络包括三个小网络，分别为：Rough Network，即R-Net(生成候选框的网络)，Considerate-Net，即C-Net(筛选候选框的网络)，Verify-Net，即V-Net(确认最后检测结果的网络)。

R-Net网络作为候选框的生成网络，考虑到行人检测中的高宽比例，并满足小尺度行人检测的需求，设计R-Net网络的输入为24x12。C-Net，V-Net网络作为候选框的精修网络，首先要适应候选框的输入比例，所以C-Net，V-Net网络中输入分别设计为48x24，96x48。本发明将三个阶段的网络输入设计为高宽比为2：1，即(24x12,48x24,96x48)，同时增加网络深度以获得更好的性能。网络结构首先尝试3x2卷积核。本发明将网络结构设计为multi-conv3*2

用3x3和2x1卷积核取代两个3x2卷积核，在长度上感受野的范围发生改变很小，在宽度上相当于将感受野范围从2个像素扩大到3个像素。因此扩大卷积核为3x3，有利于扩大感受野范围。本发明将网络结构设计为multi-conv3*3。在卷积和完全连接层之后应用非线性激活函数PReLU。

利用行人样本和部分行人样本训练回归任务，行人样本和非行人样本训练分类任务。

分类任务是二类分类问题。行人识别数据集训练使用交叉熵损失，公式如下，其中为分类损失，p_i为将图片输入网络后经过网络结构输出的概率，表明样本x_i是行人的可能性大小，符号表示样本的真实标签。：

回归任务将网络输出候选框与真实标记框之间的偏移量学习视为回归问题，应用欧几里德损失损失函数，即如下公式中的其中为回归损失，是样本x_i回归的真实位置信息，其中R⁴表示left,top和height,width四个信息，是网络对于样本x_i预测的位置信息：

由于在每一个网络中都训练不同的任务，而且在学习过程中存在不同类型的训练样本行人，部分行人，非行人即背景。利用行人样本和部分行人样本训练回归任务，行人样本和背景样本训练分类任务，不同的训练样本应用在不同的任务训练上。对于回归任务，仅应用公式二，计算而分类损失权重设置为0。整体学习损失函数可以表述为：

其中N代表训练样本的总数，α_j代表不同训练任务的权重系数，在级联网络的三个阶段上使用α_det＝1，α_box＝0.5，是不同类型样本的标记，在分类任务中的行人样本为0，非行人样本为1，在回归任务中是标记样本i的左上角坐标和右下角坐标。在训练过程中选择AdamOptimizer训练级联网络。

在训练过程中采用Online Hard sample mining，自动适应训练过程。在每个小批量中计算正样本数量，并将识别出的所有负样本按照网络输出值进行从大到小排序，并顺序选择3倍正样本数量的负样本作为Hard sample，然后只反向传播这些样本的梯度。

(四)测试行人检测的级联网络

对给定待检测图像，首先将其调整到不同的比例，构建图像金字塔。输入全卷积网络R-Net，用于获取行人的候选窗口及其边界框的回归向量。并在候选边界框的回归向量基础上进行校准，再利用非最大抑制(NMS)过滤候选框；对上述所有候选框都输入到C-Net，进一步过滤掉R-Net网络识别错误的候选框，并校准边界框的回归向量进行NMS；使用V-Net进一步识别目标区域，并输出最后的识别概率和回归向量。

实施例

图1为筛选后的样本采集标记图片。

实施例采用Caltech Dataset中在高速公路上车载摄像头采集的图片，分辨率为640*480，文件大小一般在52KB左右。初始获得的样本采集图像25867张，筛选后的样本采集图片为14757张。如图所示，其中红框为标记行人区域。

首先根据步骤一，过滤掉在训练中高度小于30或者宽度小于15像素的标记框和行人遮挡面积超过50％的标记框，在筛选后的Caltech数据集样本中进行IOU聚类，通过聚类结果，选择出Caltech Dataset的anchors。表1为本发明anchors聚类算法和Yolo-9000中anchors聚类算法在生成不同种类anchors与数据集中标记样本的平均IOU的对比结果。

根据步骤二，基于步骤一中anchors聚类结果，在Caltech Dataset标记图片中的标记位置上随机选择网络输入大小的样本(大小分别为24x12,48x24，96x48)。包括负样本、正样本、部分行人样本，生成其label信息。采用不同的样本组合训练不同的任务。样本采集部分结果如图2所示，生成的标记信息txt如图3所示。在14757张图片中,获得正样本123643张，获得负样本537926张，部分行人样本347685张。

根据步骤三，首先将选择正样本训练集有123643张，负样本训练集有123643*3张，中间样本训练集有123643*2张，然后将他们转换成tensorflow平台需要的record文件类型并送入R-Net网络进行模型训练。批量大小(Batch size)设定为128，初始学习率设定为0.0001，迭代次数为300个epoch，每2000个batch保存一次模型参数；然后将训练好的R-Net网络作为测试模型，并记录hard-samples用于C-Net网络的负样本进行训练，正样本训练集有195486张，负样本训练集有195486*3张，中间样本训练集有195486*2张，然后将他们转换成tensorflow平台需要的record文件类型并送入C-Net网络进行模型训练。网络设置参数和R-Net网络一致；最后将训练好的R-Net和C-Net网络作为测试网络，并记录hard-samples用于V-Net网络的负样本进行训练，正样本训练集有173421张，负样本训练集有173421*3张，中间样本训练集有173421*2张，然后将他们转换成tensorflow平台需要的record文件类型并送入V-Net网络进行模型训练，网络设置参数和R-Net网络一致。

图4为multi-conv3*2R-Net，C-Net和V-Net的体系结构，图5为multi-conv3*3R-Net，C-Net和V-Net的体系结构。经过表2multi-conv3*2和multi-conv3*3的级联卷积神经网络在Caltech Dataset数据集上的性能比较结果，本发明最终选择multi-conv3*3的级联卷积神经网络。

根据步骤四，输入待检测的图片进入级联网络，网络级联框架的预测和回归过程如图6所示。图7为级联卷积神经网络检测行人效果图，图8为级联卷积神经网络对复杂背景下小尺度行人检测效果图。

最后应说明的是：本方法所设计的各种参数需要根据实际应用的具体兴趣进行调整。以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

表1为生成不同种类anchors与数据集中标记样本的平均IOU

表2为multi-conv3*2和multi-conv3*3的级联卷积神经网络在Caltech Dataset数据集上的性能比较表1

表2

Claims

1.基于级联卷积网络的小尺度行人检测识别方法，其特征在于步骤如下：

一.anchors聚类

因为Caltech训练数据集中存在行人遮挡面积超过50％，高度小于30像素或者宽度小于15像素的行人，首先过滤掉上述情况的样本标记，对筛选后的Caltech训练数据集标注样本进行IOU聚类；通过聚类结果，选择出Caltech Dataset的anchors；

二.样本采集

通过上一步anchors聚类选择出anchors，在Caltech Dataset标记图片中的标记位置上随机选择级联网络输入比例的样本大小分别为24x12,48x24，96x48；包括负样本、正样本、部分行人样本，并生成其label信息；

三.训练行人检测的级联网络

级联卷积网络结构，包括Rough Network，即R-Net为生成候选框的网络，Considerate-Net，即C-Net为筛选候选框的网络，Verify-Net，即V-Net为确认最后检测结果的网络；三个网络输入大小设计为：24x12,48x24,96x48；

分别用采集到24x12,48x24，96x48不同比例的样本训练R-Net，C-Net，V-Net三个网络；

四.测试行人检测的级联网络

对给定待检测图像，首先将其调整到不同的比例，构建图像金字塔；输入全卷积网络R-Net，用于获取行人的候选窗口及其边界框的回归向量；并在候选边界框的回归向量基础上进行校准，再利用非最大抑制NMS进行候选框过滤；

对上述所有候选框都输入到C-Net，进一步过滤掉大量错误的候选框，并校准边界框的回归向量进行NMS；使用V-Net进一步识别目标区域，并输出最后的识别概率和回归向量。

2.根据权利要求1所述的方法，其特征在于anchors聚类具体步骤如下：

(1)首先在Caltech Dataset上对标注样本进行筛选，过滤掉在训练中高度小于30或者宽度小于15像素的标记框和行人遮挡面积超过50％的标记框；

(2)在筛选后的Caltech数据集标记样本中，借鉴YOLO9000中的anchors聚类思想，对筛选后的Caltech训练数据集标注样本进行IOU聚类；

(3)使用KMEANS++方式选择初始聚类中心，利用簇中样本尺寸的中位数更新聚类中心；

(4)通过anchors聚类结果，选择出Caltech Dataset的anchors，在anchors大小范围内随机选择网络输入比例的正样本大小，获取正样本训练集。

3.根据权利要求1所述的方法，其特征在于样本采集具体步骤如下：

(1)基于聚类结果anchors大小，在Caltech Dataset标记图片中的标记位置上随机选择24x12,48x24，96x4的样本；

(2)负样本：与图片中每一个真实标记的行人框IOU都小于0.3的区域；正样本：与图片中任意一个真实标记的行人框IOU高于0.65的区域；部分行人：与图片中任意一个真实标记的行人框IOU在0.4和0.65之间的区域；

(3)记录不同样本的label信息为txt：将正样本标记为1，负样本标记为0，且记录正样本和部分行人样本中目标相对于整张图片的位置信息；

(4)负样本即非行人和正样本即行人用于行人识别任务，正样本和部分行人用于边界框回归；总训练数据由非行人/行人/部分行人数据组成。

4.根据权利要求1所述的方法，其特征在于训练行人检测的级联网络具体步骤如下：

全卷积网络Rough Network即R-Net作为候选框的生成网络，设计R-Net网络的输入为24x12；Considerate-Net即C-Net，Verify-Net即V-Net网络作为候选框的精修网络，C-Net，V-Net网络中输入分别设计为48x24，96x48；将三个阶段的网络输入设计为高宽比为2：1，即24x12,48x24,96x48；网络结构设计为multi-conv3*3；

在卷积和完全连接层之后应用非线性激活函数PReLU；

利用行人样本和部分行人样本训练回归任务，行人样本和非行人样本训练分类任务；分类任务是二类分类问题；行人识别数据集训练使用交叉熵损失，公式如下，其中为分类损失，p_i为将图片输入网络后经过网络结构输出的概率，表明样本x_i是行人的可能性大小，符号表示样本的真实标签：

由于在每一个网络中都训练不同的任务，而且在学习过程中存在不同类型的训练样本行人，部分行人，非行人即背景；利用行人样本和部分行人样本训练回归任务，行人样本和背景样本训练分类任务，不同的训练样本应用在不同的任务训练上；对于回归任务，仅应用公式二，计算而分类损失权重设置为0；整体学习损失函数表述为：

其中N代表训练样本的总数，α_j代表不同训练任务的权重系数，在级联网络的三个阶段上使用α_det＝1，α_box＝0.5，是不同类型样本的标记，在分类任务中β_i ^det的行人样本为0，非行人样本为1，在回归任务中β_i ^box是标记样本i的左上角坐标和右下角坐标，是不同类型样本的损失函数，表示为公式一分类损失函数，表示为公式二回归损失函数；在训练过程中选择AdamOptimizer训练级联网络。

5.根据权利要求1所述的方法，其特征在于：在训练过程中选择AdamOptimizer训练级联网络具体为：

在训练过程中采用Online Hard sample mining，自动适应训练过程；在每个小批量中计算正样本数量，并将识别出的所有负样本按照网络输出值进行从大到小排序，并顺序选择3倍正样本数量的负样本作为Hard sample，然后只反向传播这些样本的梯度。

6.根据权利要求1所述的方法，其特征在于：

首先将选择正样本，负样本，中间样本训练集转换成tensorflow平台需要的record文件类型并送入R-Net网络进行模型训练；批量大小设定为128，初始学习率设定为0.0001，迭代次数为300个epoch，每2000个batch保存一次模型参数；然后将训练好的R-Net网络作为测试模型，并记录hard-samples用于C-Net网络的负样本进行训练，将正样本，负样本，中间样本训练集转换成record文件类型并送入C-Net网络进行模型训练；网络设置参数和R-Net网络一致；最后将训练好的R-Net和C-Net网络作为测试网络，并记录hard-samples用于V-Net网络的负样本进行训练，正样本，负样本，中间样本训练集转换成record文件类型并送入V-Net网络进行模型训练，网络设置参数和R-Net网络一致；V-Net网络迭代300个epoch后，整个级联网络训练结束。