CN106022237A

CN106022237A - 一种端到端的卷积神经网络的行人检测方法

Info

Publication number: CN106022237A
Application number: CN201610315688.1A
Authority: CN
Inventors: 李鸿升; 范峻铭; 周辉; 胡欢; 曹滨
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-05-13
Filing date: 2016-05-13
Publication date: 2016-10-12
Anticipated expiration: 2036-05-13
Also published as: CN106022237B

Abstract

本发明公开了一种端到端的卷积神经网络的行人检测方法，用以解决现有行人检测算法检测精度不高、算法复杂和多模块融合困难等问题。采用了一种新的端到端的卷积神经网络，通过构建带有标注的训练样本集，采用端到端训练，得到一个能预测行人候选框和相应框的置信度的卷积神经网络模型。测试时，将测试图片输入训练好的模型内，即可得到相应的行人检测框和置信度。最后进行非极大值抑制和阀值筛选，得到最佳行人区域。本发明与以往发明相比，具有两大优势：一是端到端训练和测试，使整个模型训练和测试都极为容易；二是本发明通过构建候选框回归网络，解决了行人尺度和比例问题，不需要以往的发明采用的金字塔技术，极大的节约了计算资源。

Description

一种端到端的卷积神经网络的行人检测方法

技术领域

本发明属于模式识别技术领域，尤其涉及一种端到端的卷积神经网络的行人检测方法。

背景技术

模式识别是人工智能和图像处理领域的一个重要交叉学科，是近年来研究热点所在。早期的任务的解决方法主要依靠人类的专业领域知识，来设计某个算法或者构建某个系统，问题解决效果受人类的知识水平所限制。随着人工智能的发展，卷积神经网络于90年代由Lecun正式提出。Hinton在2012年对原始的卷积神经网络进行了改进，在ImageNet大赛上取得了第一的成绩。从此以后，卷积神经网络开始广泛应用于计算机视觉、自然语言处理和智能搜索等领域。卷积神经网络由于其层间联系和参数共享等优势，使其广泛运用在图像处理中。

经过对现有技术的检索发现，中国专利文献号CN105335716A公开( 公告) 日2016.02.17，公开了一种基于改进UDN提取联合特征的行人检测方法，包含：图像预处理；基于卷积神经网络对预处理的图像提取人体整体特征和局部特征；对步骤整体特征和局部特征输出的类别概率进行加权得到最终概率值，根据最终概率值判断原始输入图像是否包含行人，该技术虽然实现了与以前模型相比较低的漏检率，但实际漏检率还是偏高，而且该技术并没有做到端到端的训练，必须依靠于HOG+CSS++SVM算法来获得行人的初始候选区域。该技术需要进行模块级联，使整个系统偏复杂。

发明内容

本发明的目的就在于为了解决上述问题而提供一种端到端的卷积神经网络的行人检测方法。本发明最终在加州理工测试集上实现了18.66%的漏检率。

本发明通过以下技术方案来实现上述目的：

一种端到端的卷积神经网络的行人检测方法，其包括以下步骤：

通过构建带有标注图片库作为训练样本集，直接端到端训练，得到一个能预测行人候选框和行人候选框置信度的卷积神经网络模型;

测试时，将测试图片输入卷积神经网络模型，得到相应的行人检测框和置信度;

最后进行非极大值抑制筛选，压缩重复的行人检测框；

阀值筛选，根据置信度选出最佳的行人检测框。

上述技术方案中，所述标注是指记录下行人在整张图像中的左上角点和右下角点的坐标。

上述技术方案中，所述端到端是指除了数据预处理外的所有操作，都可以包含在一个卷积神经网络的框架内。

上述技术方案中，所述的卷积神经网络模型是由16个卷积层，和一个上采样层和一个Softmax层构成，前13个卷积层按顺序依次级联，将上采样层接到第13个卷积层上，然后上采样层输出与第10个卷积层进行级联，并将级联后的特征接入到第14个卷积层上，第15个卷积层和第16个卷积层均直接连接到第14个所述卷积层上，Softmax层连接到第15个卷积层上；其中，上采样层负责对第13个卷积层进行插值放大2倍；第15个卷积层输出行人检测框包含行人的置信度，第16个卷积层输出行人检测框的位置参数，Softmax层负责对置信度进行归一化处理。

上述技术方案中，训练卷积神经网络的具体步骤如下：

A1：构建卷积神经网络；

A2：对网络进行初始化，对于18层网络架构：卷积层1到卷积层13参数finetune自ImageNet的VGG16模型，并将前4层学习率设置为0。其它层由高斯分布生成的小随机数初始化网络中待训练参数；

A3：对输入的样本图像每一点计算锚点框，并与原始的标注区域计算偏移量，将图像、图像标签和偏移量输入到网络中，进行前向传播。

A4：利用SmoothL1和SoftMaxwithLoss作为损失函数，得到误差项。使用反向传播算法，利用SGD调整网络参数，使误差项最小。

上述技术方案中，所述的非极大值抑制是指，多个互相重合的行人检测框中，按照输出的置信度，选出置信度最大的那个行人检测框，其它行人检测框舍弃。

上述技术方案中，所述的阀值选择是指，在输出的行人检测框中，选择置信度大于一定数值的行人检测框，作为最佳行人检测框。

本发明的有益效果在于：

采用了一种新的端到端的卷积神经网络，通过构建带有标注的训练样本集和端到端训练，得到一个能预测行人候选框和相应框的置信度的卷积神经网络模型。测试时，将测试图片输入训练好的模型内，即可得到相应的行人检测框和置信度。最后进行非极大值抑制和阀值筛选。本发明与以往发明相比，具有两大优势：一是端到端训练和测试，使整个模型训练测试都极为容易；二是本发明通过构建候选框回归网络，解决了行人尺度和比例问题，不需要以往的发明采用的金字塔技术，极大的节约了计算资源。本发明最终实现了较好的回召率和较低的漏检率。

附图说明

图1是本发明所述行人检测方法的流程图；

图2 为本发明所述18层网络的示意图。

具体实施方式

下面结合附图对本发明作进一步说明：

本发明中的一些术语解释如下：

术语1 ：BP 算法

BP算法是一种反向传播算法，分为前向过程、反向过程两部分，其中前向过程是指将数据输入到网络中得到最终结果的过程，反向过程是指将前向过程和样本实际数值的差值作为误差，对网络权重进行更新的过程。

如图1所示，本发明通过构建带有标注图片库作为训练样本集，直接端到端训练，得到一个能预测行人候选框和相应框的置信度的卷积神经网络模型。测试时，将测试图片输入训练好的模型内，即可得到相应的行人检测框和置信度。最后进行非极大值抑制和阀值筛选。

其中，标注是指记录下行人在一整张图像中的左上角点和右下角点的坐标。

在具体操作中，采用了Caltech的训练集，不同天气情况、不同场景下，通过行车记录仪拍摄的行人照片( 包括背景)，从拍摄照片中标出行人位置，通过ignore label进行训练样本选择，得到包含行人彩色图片9100 张，并做镜像变换来增大样本数量，把所得到的图像短边尺寸归一化为800，之后构建卷积神经网络，并将训练样本集送入模型进行训练。

如图2所示，卷积神经网络中的卷积层1到卷积层13串联，即Conv1-Conv13依次串联，然后将上采样层（Dconv）接到Conv13上，并将上采样层的输出和Conv10的输出级联，然后级联后的特征输入到Conv14中，卷积层15和卷积层16直接连接到卷积层14上，即将Conv15 和Conv16均直接与Conv14相连接，Softmax层直接连接到卷积层15上。其中，前13个卷积层（Conv1-Conv13）作为特征提取，上采样层负责对特征图进行放大2倍，第14个卷积层（Conv14）作为特征映射，剩余2个卷积层（Conv15 和Conv16）分别输出回归框包含行人的置信度和回归框的位置参数, Softmax层负责对置信度进行归一化调整，其中四个卷积层（Conv2 、Conv4、Conv7和Conv10）后面跟了ReLU和pool操作，其它卷积层后面跟了ReLU操作，其中pool操作的核大小为2，偏移量为2。网络参数如表1所示。

表1

构建锚点框大小为（32*32,48*48,64*64,80*80）像素和1个比较典型的行人比例（2.4）基准框，共4个基准框，具体偏移量为[-1,-15,18,32],[-11,-39,28,56],[-31,-87,48,104],[-71,-183,88,200]。

卷积神经网络训练和测试步骤：

1、样本准备，来自于caltech数据集的9000张图片并进行镜像翻转，图像插值使图像短边为800个像素点，并准备好所有图片的标注，即行人的左上角和右下角的坐标。

2、构建如图二所示的卷积神经网络的模型，参数设置如表一所示，对网络进行初始化，前四层参数finetune于ImageNet的VGG16模型，其它层用标注差为0.01的高斯分布随机初始化网络中待训练参数；

3、向初始化后的网络中输入18000个训练样本来进行训练，先对样本图像的每一个像素点赋予4个基本框，即左上点和右下点的坐标加上基本框的偏移量，然后根据基本框与标注框之间的重合比例（IOU），当大于0.5时设置标签为1，其它时候设置为0，然后进行前向传播，计算预测的置信度和标签的Softmax损失值，计算预测的框和标注框的SmoothL1损失值，使用反向传播BP算法，调整卷积神经网络参数，使SmoothL1和Softmax损失函数值和最小；

4、得到最终模型。

5、将准备好的图片输入训练模型中，图像插值使图像短边为800个像素点，即可得到行人的候选框和输出行人的候选框置信度。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围内。

Claims

1.一种端到端的卷积神经网络的行人检测方法，其特征在于：

最后进行非极大值抑制筛选，压缩重复的行人检测框；

阀值筛选，根据置信度选出最佳的行人检测框。

2.根据权利要求1所述的一种端到端的卷积神经网络的行人检测方法，其特征在于：所述标注是指记录下行人在整张图像中的左上角点和右下角点的坐标。

3.根据权利要求1所述的一种端到端的卷积神经网络的行人检测方法，其特征在于：所述端到端是指除了数据预处理外的所有操作，都可以包含在一个卷积神经网络的框架内。

4.根据权利要求1所述的一种端到端的卷积神经网络的行人检测方法，其特征在于：所述的卷积神经网络模型是由16个卷积层，和一个上采样层和一个Softmax层构成，前13个卷积层按顺序依次级联，将上采样层接到第13个卷积层上，然后上采样层输出与第10个卷积层进行级联，并将级联后的特征接入到第14个卷积层上，第15个卷积层和第16个卷积层均直接连接到第14个所述卷积层上，Softmax层连接到第15个卷积层上；其中，上采样层负责对第13个卷积层进行插值放大2倍；第15个卷积层输出行人检测框包含行人的置信度，第16个卷积层输出行人检测框的位置参数，Softmax层负责对置信度进行归一化处理。

5.根据权利要求1所述的一种端到端的卷积神经网络的行人检测方法，其特征在于，训练卷积神经网络的具体步骤如下：

A1：构建卷积神经网络；

A2：对网络进行初始化，对于18层网络架构：卷积层1到卷积层13参数finetune自ImageNet的VGG16模型，并将前4层学习率设置为0；

其它层由高斯分布生成的小随机数初始化网络中待训练参数；

A3：对输入的样本图像每一点计算锚点框，并与原始的标注区域计算偏移量，将图像、图像标签和偏移量输入到网络中，进行前向传播；

A4：利用SmoothL1和SoftMaxwithLoss作为损失函数，得到误差项；

使用反向传播算法，利用SGD调整网络参数，使误差项最小。

6.根据权利要求1所述的一种端到端的卷积神经网络的行人检测方法，其特征在于：所述的非极大值抑制是指，多个互相重合的行人检测框中，按照输出的置信度，选出置信度最大的那个行人检测框，其它行人检测框舍弃。

7.根据权利要求1所述的一种端到端的卷积神经网络的行人检测方法，其特征在于：所述的阀值选择是指，在输出的行人检测框中，选择置信度大于一定数值的行人检测框，作为最佳行人检测框。