CN107330387B

CN107330387B - 基于图像数据的行人检测方法

Info

Publication number: CN107330387B
Application number: CN201710475390.1A
Authority: CN
Inventors: 叶允明; 李旭涛; 李彦良; 夏武
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2021-04-23
Anticipated expiration: 2037-06-21
Also published as: CN107330387A

Abstract

本发明提供了一种基于图像数据的行人检测方法，包括以下步骤：（1）对于数据的预处理，在网络结构的第一层添加一层用来将数据读入；（2）YOLO原来的全连接层用卷积层替代，每个卷积层后面加一个ReLU层，然后用Reshape层改变输入的维度；（3）对于Loss Function的实现。本发明的有益效果是：将Fast YOLO实现为基于Caffe接口和GoogLeNet的网络，原网络中的全连接层改成卷积层实现，这不仅可以加快检测速度，而且实验结果表明还可以提升检测率。

Description

基于图像数据的行人检测方法

技术领域

本发明涉及行人检测方法，尤其涉及一种基于图像数据的行人检测方法。

背景技术

基于HOG和SVM的行人检测是非常经典的检测模型，HOG已经被证明是一种对人体检测非常有效的描述子。

当今流行的物体检测很多是基于神经网络的，基于神经网络的检测对窗口尺寸不敏感。RCNN、DeepPed检测行人时都是使用一种称为SelectiveSearch的方法先对输入图像进行一些处理后，将处理后的结果送入神经网络。这些图像检测网络在人脸识别领域具有比较高的地位。

基于HOG和SVM的行人检测方法，对于检测窗口的大小比较敏感，基于低空飞行平台拍摄的视频有时在行人大小上差距很大，该方法并不适用。

RCNN、DeepPed检测行人用到的Selective Search方法在一张图片中提取几千个候选框，每一个候选框都要送入神经网络进行判断，因此这种方法十分慢。在进行行人检测时，实时性问题还是比较重要的。

发明内容

为了解决现有技术中的问题，本发明提供了一种基于图像数据的行人检测方法。

本发明提供了一种基于图像数据的行人检测方法，包括以下步骤：

(1)对于数据的预处理，在网络结构的第一层添加一层用来将数据读入；(2)YOLO原来的全连接层用卷积层替代，每个卷积层后面加一个ReLU层，然后用Reshape层改变输入的维度；

(3)对于Loss Function的实现，首先在layers中添加detection_loss_layer层和eval_detection_layer层，然后在用于训练的网络配置文件中，在网络结构的最后添加DetectionLoss层来实现原YOLO网络中的Loss Function，以调整网络参数；在用于预测的网络配置文件中，在DetectionLoss层的后面添加最后一层EvalDetection层，用于实现最后的向量输出，包括对各个类的可信度的预测以及对坐标位置的预测。

作为本发明的进一步改进，在步骤(1)中，在数据输入时，将图片正则化成448×448像素的图片，存成lmdb格式然后供网络读取。

作为本发明的进一步改进，通过利用Caffe提供的工具convert_box_data，将图片正则化成448×448像素的图片，存成lmdb格式然后供网络读取。

本发明的有益效果是：将Fast YOLO实现为基于Caffe接口和GoogLeNet的网络，原网络中的全连接层改成卷积层实现，这不仅可以加快检测速度，而且实验结果表明还可以提升检测率。

附图说明

图1是本发明一种基于图像数据的行人检测方法的网络结构图。

具体实施方式

下面结合附图说明及具体实施方式对本发明作进一步说明。

如图1所示，一种基于图像数据的行人检测方法，主要是结合了传统的HOG(方向梯度直方图，Histogram of Oriented Gradient)+SVM(支持向量机SVM，Support VectorMachine)行人检测方法以及低秩稀疏矩阵分解的方法。其中，低秩稀疏矩阵分解采用GoDec模型解决这一问题。GoDec模型的目的是对于一个矩阵来说，可以通过算法处理，将它分为三部分：低秩的部分，离散的部分以及噪声：

本发明对Fast YOLO最主要的修改有三部分：数据的预处理，Fast YOLO网络结构的修改以及最终的Loss Function的实现。

首先，GoogLeNet的网络结构如表4-1所示。

表4-1 GoogLeNet结构

GoogLeNet的最主要的动机以及改进的部分是在保持计算代价是常量的同时，增加了网络结构的宽度和深度，而实现这一点的关键在于GoogLeNet使用了创新性的感知层(Inception Module)。相比而言，原FastYOLO是一个只有9层卷积层的网络，层数较少，可能会有宽度及深度不足的情况，导致网络在参数方面有所丢失。因此，本文改用GoogLeNet网络结构，并将Fast YOLO的思想用在GoogLeNet上，以提高原网络结构在宽度和深度上不足的问题。

修改过后的网络结构如图1所示，省略了中间部分与GoogLeNet相似的结构。

对于Fast YOLO的网络结构的修改，本文基于GoogLeNet原来结构进行修改，一共分为以下几个部分：

(1)对于数据的预处理，由于GoogLeNet处理的是从lmdb获取的数据，而在程序中使用Caffe封装好的BoxData可以完成从lmdb到BoxData的转变，因此在训练时，网络结构的第一层首先要添加一层用来将数据读入。

(2)YOLO原来的全连接层用卷积层替代，每个卷积层后面加一个ReLU层，然后用Reshape层改变输入的维度。

(3)对于Loss Function的实现，首先在layers中添加detection_loss_layer层和eval_detection_layer层。然后在用于训练的网络配置文件中，在网络结构的最后添加DetectionLoss层来实现原YOLO网络中的Loss Function，以调整网络参数；在用于预测的网络配置文件中，在DetectionLoss层的后面添加最后一层EvalDetection层，用于实现最后的向量输出，包括对各个类的可信度的预测以及对坐标位置的预测。

在数据输入时，需要将图片正则化成448×448像素的图片，存成lmdb格式然后供网络读取，可通过利用Caffe提供的工具convert_box_data方便的完成这一操作。

修改过后的YOLO网络一共有24层卷积层，并且包含原GoogLeNet的感知层(inception module)，与Fast YOLO的网络结构相比，虽然修改过后的网络层数变多，但是由于去掉了全连接层，因此速度相差预期没有很多。

本发明提供的一种基于图像数据的行人检测方法，主要研究现有的FastYOLO网络，并对其网络结构进行改进，将Fast YOLO实现为基于Caffe接口和GoogLeNet的网络，原网络中的全连接层改成卷积层实现，这不仅可以加快检测速度，而且实验结果表明还可以提升检测率。在训练神经网络结构时，由于数据库图像中的特殊性，将采用重新标定的一万多个正样本。本发明将基于改进的Fast YOLO网络设计实现一个行人检测图像处理系统，该系统能实现捕捉图像，检测行人，控制摄像头位置等功能。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于图像数据的行人检测方法，其特征在于，包括以下步骤：

(1)对于数据的预处理，在网络结构的第一层添加一层用来将数据读入；

(2)YOLO原来的全连接层用卷积层替代，每个卷积层后面加一个ReLU层，然后用Reshape层改变输入的维度；

(3)对于Loss Function的实现，首先在layers中添加detection_loss_layer层和eval_detection_layer层，然后在用于训练的网络配置文件中，在网络结构的最后添加DetectionLoss层来实现原YOLO网络中的Loss Function，以调整网络参数；在用于预测的网络配置文件中，在DetectionLoss层的后面添加最后一层EvalDetection层，用于实现最后的向量输出，包括对各个类的可信度的预测以及对坐标位置的预测；

其中，

在步骤(1)中，在数据输入时，将图片正则化成448×448像素的图片，存成lmdb格式然后供网络读取；

通过利用Caffe提供的工具convert_box_data，将图片正则化成448×448像素的图片，存成lmdb格式然后供网络读取；

改用GoogLeNet网络结构，并将Fast YOLO的思想用在GoogLeNet上，以提高原网络结构在宽度和深度上不足的问题；

GoogLeNet的网络结构如下所示：

GoogLeNet结构