CN111967287A

CN111967287A - 一种基于深度学习的行人检测方法

Info

Publication number: CN111967287A
Application number: CN201910417337.5A
Authority: CN
Inventors: 陈进; 王林; 杨刚; 郭诚俊
Original assignee: Jiangsu Jin Xin Information Technology Co ltd
Current assignee: Jiangsu Jin Xin Information Technology Co ltd
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2020-11-20

Abstract

本发明公开了一种基于深度学习的行人检测方法，主要是在SSD网络结构中引入手工设计的模块方法（RFBNet)对行人进行检测。具体如下：获取训练图像数据；对训练图像数据做预处理后输入改进后的SSD训练网络参数得到网络模型；将训练图像数据做相同的预处理操作输入到改进的SSD模型中进一步对行人进行精定位并通过分类判别得到行人的位置信息。本发明整体上因为是基于SSD网络进行改进，所以检测速度还是比较快，同时精度也有一定的保证。

Description

一种基于深度学习的行人检测方法

技术领域

本发明涉及行人技术检测领域，具体涉及一种将SSD算法与多分支卷积模块结合的行人检测方法。

背景技术

近年来计算机视觉作为一个研究热点受到众多研究者的关注。计算机视觉的任务是模拟人的视觉系统理解所拍摄的图像中的内容，行人检测作为计算机视觉中的一个重要的研究方向，在众多学者的努力下得到大力发展并广泛地应用于现代生活的方方面面。人们日常生活中很多场景都会用到行人检测技术，例如智能交通、智能视频监控、人机交互、智能汽车驾驶辅助系统等。良好的行人检测算法可以为这些应用提供有力的支持。

发明内容

本发明要解决的技术问题之一在于提供一种行人检测技术方法，以实现一种结合多分支卷积模块（RFB）和SSD网络相结合的行人检测方法，其可以在保证较快速度的前提下，提高行人检测的准确率。

为了实现上述目的，本发明采用了如下的技术方案：

步骤S1：构建带有标注和标签的图片库作为训练样本集和测试样本集；

步骤S2：将RFB结构加入SSD模型构建改进的SSD模型；

步骤S3：利用训练图像学习出构建模型的网络参数，获得用于测试过程的模型；

步骤S4：输入测试样本，通过训练好的SSD模型对不同尺度范围内的行人进行检测，预测出图像中行人的位置框图。

进一步地，步骤 S2 还包括：

步骤S2a：网络结构设计及初始化：基网络选用SSD网络结构，在主干网上用两个RFB结构替换原来新增的两层并在conv4_3和conv7_fc在接预测层之前分别接RFB-s和RFB结构；

步骤S2b:网络训练：将步骤S2a得到的初始化后模型在预处理后的训练图像数据上进行参数微调；

进一步地，步骤S2a 中还包括如下步骤：

（a）SSD基网络使用VGG16网络，将fc6和fc7层转换成卷积层用于下采样参数，并且将pool5从2x2-s2改成3x3-s1，膨胀卷积用来填充空缺和所有dropout层，并移除fc8层；

（b）RFB整体结构上借鉴了Inception的思想，主要不同点在于引入3个dilated卷积层（比如3*3conv, rate=1），用来增大感受野；而RFB-s是对RFB的改进，一方面用3*3卷积层代替5*5卷积层，另一方面用1*3和3*1卷积层代替3*3卷积层，主要目的应该是为了减少计算量；

进一步地，步骤S2b中还包括训练过程采用fine-tuing(微调)方法，用已经在ILSVR上训练迭代数十万次的模型作为基础来初始化基础网络的部分参数；

进一步地，步骤S3中还包括利用数据集扩充方法对训练图像数据做样本扩充，所用数据集扩充方法包括旋转、颜色变换和平移。

采用上述技术方案带来的有益效果：

本发明采用了一种结合多分支卷积模块（RFB）和SSD网络结构相结合的行人检测方法，利用RFB通过模拟人类视觉的感受野加强网络的特征提取能力，克服了SSD网络结构对小目标检测准确率不高的缺点。该技术在精度与检测速度之间取得了更好的效果，具有较好的实用性与鲁棒性。

附图说明

图1是算法流程图；

图2是SSD网络结构图；

图3是RFB-Net的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明进行详细描述。如图1所示，本发明基础网络为SSD架构并结合图2 RFB模块训练得到一个行人检测模型，提升检测准确度和鲁棒性。本方法具体包括以下步骤：

步骤S1，构建可配置的基于卷积神经网络的深度模型，利用训练样本学习出构建的网络参数，获得用于测试过程的模型。在本发明具体实施例中，该深度学习网络由SSD网络中的基网络VGG16网络作为基础，后面接着一系列重叠的卷积层，从而得到一系列空间分辨率减小而感受野增大的特征图。该模型与原始模型最大的不同在于将图2SSD结构中新增的两层Conv8_2与Conv9_2替换成两个RFB结构，并在conv4_3和conv7_fc在接预测层之前分别接RFB-s和RFB结构。改进后的结构如图3所示。

步骤S2，构建包含行人的图片库作为训练样本集和测试样本集；具体为：从视频中按帧数获取所有图像，并依此从图像中分割出所有行人，并获得所有行人的图片及对应的真实box的坐标和分类标签。

步骤S3，对步骤S2的图片进行预处理，将图片缩放成300×300。

步骤S4，将步骤3中得到的处理后的图像和行人的ground truth box（真实边框）输入改进的SSD网络结构中进行训练预测，可以在多个feature map的每个细胞单元都估计一系列不同长宽比，不同尺寸的default box。然后对每个default box，为要检测的行人做偏移量、准确率的预测。在训练过程如下：先用所有的default box去匹配ground truthbox，匹配的上就是正样本，没有匹配上就是负样本，负样本数量远远大于正样本数量，这时根据行人目标default box的概率，选出概率值较大的负样本，使得正负样本比例为1:3，再将它们用于训练以得到更优化的训练模型。整个训练和测试过程均在深度学习框架Caffe下进行，该SSD网络输入图像尺寸为300×300，网络结构中，Conv4_3的输出尺寸为38×38，Conv7_fc的输出尺寸为19×19。

步骤S5，在测试阶段，直接预测行人目标default box的offsets(偏移)和概率，再通过non-maximum suppression(非最大抑制)来计算最终的结果。

以上对本发明实施例所提供的基于深度学习的行人检测方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度学习的行人检测方法，其特征在于，其包括：

步骤S2：将RFB结构加入SSD模型构建改进的SSD模型，；

2.根据权利要求1所述的基于深度学习的行人检测方法，其特征在于，所述步骤 S2 还包括如下步骤：

（2.1）网络结构设计及初始化：基网络选用SSD网络结构，在主干网上用两个RFB结构替换原来新增的两层并在conv4_3和conv7_fc在接预测层之前分别接RFB-s和RFB结构；

（2.2）网络训练：将（2.1）得到的初始化后模型在预处理后的训练图像数据上进行参数微调。

3.根据权利要求2所述的基于深度学习的行人检测方法，其特征在于，所述步骤（2.1）中还包括如下步骤：

（3.1）SSD基网络使用VGG16网络，将fc6和fc7层转换成卷积层用于下采样参数，并且将pool5从2x2-s2改成3x3-s1，膨胀卷积用来填充空缺和所有dropout层，并移除fc8层；

（3.2）RFB整体结构上借鉴了Inception的思想，主要不同点在于引入3个dilated卷积层（比如3*3conv, rate=1），用来增大感受野；而RFB-s是对RFB的改进，一方面用3*3卷积层代替5*5卷积层，另一方面用1*3和3*1卷积层代替3*3卷积层，主要目的应该是为了减少计算量。

4.根据权利要求2所述的基于深度学习的行人检测方法，其特征在于，所述步骤（2.2）中还包括训练过程采用fine-tuing(微调)方法，用已经在ILSVR上训练迭代数十万次的模型作为基础来初始化基础网络的部分参数。

5.根据权利要求1所述的一种基于深度学习的行人检测方法，其特征在于，步骤S3中还包括利用数据集扩充方法对训练图像数据做样本扩充，所用数据集扩充方法包括旋转、颜色变换和平移。