CN110321818A

CN110321818A - 一种复杂场景中的行人检测方法

Info

Publication number: CN110321818A
Application number: CN201910541000.5A
Authority: CN
Inventors: 叶超; 贠周会; 王欣欣; 应艳丽; 王旭; 吴斌; 黄江林; 谢吉朋; 赖泽伟
Original assignee: Jiangxi Hongdu Aviation Industry Group Co Ltd
Current assignee: Jiangxi Hongdu Aviation Industry Group Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-10-11

Abstract

本发明公开了一种复杂场景中的行人检测方法，包括以下步骤：S1、获取行人正样本；S2、获取负样本；S3、将正样本和负样本进行线性变换，进行多级特征融合网络模型参数训练，得到多级特征融合网络模型；S4、通过多级特征融合网络模型获取正样本和负样本的图像特征矩阵；S5、利用图像特征矩阵训练获得SVM分类模型；S6、从行人数据集中，获取测试数据集，然后框选目标候选区域，将目标候选区域载入训练得到的多级特征融合网络模型提取图像特征，再将图像特征载入SVM分类模型进行识别，从而确认目标候选区域是行人区域还是非行人区域。本发明方法即提升了行人检测算法的准确性，又减少了深度学习在样本训练中的时间。

Description

一种复杂场景中的行人检测方法

技术领域

本发明涉及视觉检测技术领域，具体是一种复杂场景中的行人检测方法。

背景技术

随着经济的快速发展，工业制造技术不断提升，材料科学不断发展，电子产品日新月异，元器件逐步走向小型化，运算速度呈现几何倍数的增长，成千上万的高性能计算设备应运而生，从高端科学实验室走向民用企业，为人工智能技术的创新发展奠定了基础。

作为人工智能技术的一个重要分支，计算机视觉技术也受到了广泛的研究。汽车自动驾驶系统、智能视频监控系统、人机交互系统也进入到大众的眼帘。作为汽车自动驾驶系统、智能视频监控系统、人机交互等系统的关键技术之一—行人检测方法也引起了科学研究人员的重视。行人检测方法的准确性及速度直接关系到行人的安全，一个行之有效的行人检测方法可能避免一场交通事故，相反也可能会带来灾难。

行人检测方法大体分为两类：一类是基于人工设计特征的检测方法，如：HOG、SVM、AdaBoost等。此类方法的优势在于计算性能需求不大，运算速度快，缺点在于准确率不高，尤其是在复杂场景中的应用。二类是基于深度学习的行人检测方法。此类方法的优势在于精度高，可试用复杂场景的应用，但需要极大的计算资源且训练时间长，迭代次数多。

发明内容

为解决上述问题，本发明提供一种复杂场景中的行人检测方法。

本发明采用的技术方案是：一种复杂场景中的行人检测方法，包括以下步骤：

S1、从行人数据集中，获取训练样本集，通过在训练样本集视频序列中截图并标记的方式，获取行人正样本；

S2、在步骤S1的截图中，随机选择生成负样本；

S3、将步骤S1获得的正样本和步骤S2生成的负样本进行线性变换（对图像进行缩放，缩放比例根据目标大小和原图大小的比值确认），进行多级特征融合网络模型参数训练，得到多级特征融合网络模型；

S4、通过步骤S3得到的多级特征融合网络模型获取正样本和负样本的图像特征矩阵；

S5、保持步骤S3训练得到的多级特征融合网络模型的参数不变，在多级特征融合网络模型基础上，添加完全连接层，利用步骤S4获取的图像特征矩阵训练获得SVM分类模型；

S6、从行人数据集中，获取测试数据集，然后框选目标候选区域，将目标候选区域载入步骤S3训练得到的多级特征融合网络模型提取图像特征，再将图像特征载入步骤S5获得的SVM分类模型进行识别，从而确认目标候选区域是行人区域还是非行人区域。

进一步地，所述步骤S1中，在Caltech行人数据集中，选择set00-set05作为训练样本集。

进一步地，所述步骤S2中，正样本与负样本比例为1:5。

进一步地，所述步骤S3中，多级特征融合网络模型的参数配置为：p1-p5分别表示各个完全连接层输出的4096维特征向量， α1-α5为各层特征向量所占的权重，其中α1=0.1，α2=0.2，α3=0.5，α4=0.7，α5=1。

进一步地，所述步骤S4中，图像特征矩阵的提取方法具体为：将VGG16网络架构设置为1000类二分类softmax层，在深度学习Caffe架构下，将正样本和负样本输入至多级特征融合网络模型中，设置训练时批处理的大小为16，训练周期为220000，网络的整体基础学习率设置为0.001，最后一层的层次权重学习率为10，最后一层的偏置学习率设置为20，其他层次的权重学习和偏置学习率设置分别为1和2，每40000个周期后学习率设置前一次的0.1，直至训练完所有周期，获得图像特征矩阵。

进一步地，所述步骤S4中，正样本和负样本输入的图像大小为224×224，多级特征融合网络模型共13个卷积层、5个池化层、卷积核为3×3，激活函数使用线性整流函数激活函数。

进一步地，所述步骤S5中，SVM分类模型的训练方法具体为：在Caffe架构下，设定训练时批处理的大小为16，在训练集上训练周期为110000，网络的整体基础学习率为0.001，所有完全连接层的层次权重学习率设置为10，层次偏置学习率设置为20，而多级特征融合网络模型原有层的层次权重学习率和层次偏置学习率都设置为0，从而获得SVM分类模型，SVM分类模型的核函数为Sigmoid核函数。

进一步地，所述步骤S6中，将Caltech行人数据集的set06-set10设置为测试数据集。

本发明的有益效果是：既具有人工设计特征的行人检测方法检测速度快的优点，又具有基于深度学习的行人检测算法的准确性及适合多场景的优点，实现了复杂场景下的行人检测，更好的提升了行人检测方法的准确性，减少深度学习在样本训练中的时间，加速产品的更新换代，将其应用于汽车驾驶、智能视频监控、人机交互等多个计算机视觉相关领域，可以提高产品的准确率及使用场景，能极大地方便使用者。

附图说明

图1为本发明行人检测方法的工作流程图；

图2为本发明多级特征融合网络模型示意图；

图3 为本发明多级特征融合网络模型中卷积神经网络训练流程图。

具体实施方式

为了加深对本发明的理解，下面将结合实施例和附图对本发明作进一步详述，该实施例仅用于解释本发明，并不构成对本发明保护范围的限定。

数据集的选择：国际常用的数据集有INRIA行人数据集、Caltech行人数据集。根据未来使用的场景主要是视频中行人检测，通过技术验证及测试，选择Caltech行人数据集。

分类器的选择：本发明采用的分类器为支持向量机（SVM）分类器，分类器的核函数为Sigmoid核函数。

实施例

如图1所示，一种复杂场景中的行人检测方法，包括以下步骤：

S1、在Caltech行人数据集中，选择set00-set05作为训练样本集，通过在训练样本集视频序列中截图并标记的方式，获取4396个行人正样本，对其进行多角度旋转，颜色转化平移得到13188个正样本。

S2、在步骤S1的截图中，运用随机选择算法自动生成60072负样本，使得正样本与负样本比例达到1:5左右。

S3、将步骤S1获得的正样本和步骤S2生成的负样本进行线性变换，进行多级特征融合网络模型参数训练（多级特征融合网络模型的架构与基网络 VGG16一样），使其能够达到多级特征融合网络模型参数配置的要求，得到多级特征融合网络模型。多级特征融合网络架构参数配置如图2所示，p1-p5分别表示各个完全连接层输出的4096维特征向量， α1-α5为各层特征向量所占的权重，其中α1=0.1，α2=0.2，α3=0.5，α4=0.7，α5=1。

S4、通过步骤S3得到的多级特征融合网络模型获取正样本和负样本的图像特征矩阵；具体提取方法为：将VGG16网络架构设置为1000类二分类softmax层，在深度学习Caffe架构下，将正样本和负样本输入至多级特征融合网络模型中，输入的图像大小为224×224，多级特征融合网络模型共13个卷积层、5个池化层、卷积核为3×3，激活函数使用线性整流函数（ReLu）激活函数。设置训练时批处理的大小为16，训练周期为220000，网络的整体基础学习率设置为0.001，最后一层的层次权重学习率为10，最后一层的偏置学习率设置为20，其他层次的权重学习和偏置学习率设置分别为1和2，每40000个周期后学习率设置前一次的0.1，直至训练完所有周期，获得图像特征矩阵，训练流程如图3卷积神经网络训练流程一致。

S5、保持步骤S3训练得到的多级特征融合网络模型的参数不变，按照图2，在多级特征融合网络模型基础上，添加完全连接层，完全连接层的参数按照步骤S3的设置进行，利用步骤S4获取的图像特征矩阵训练获得SVM分类模型。具体训练方法为：在Caffe架构下，设定训练时批处理的大小为16，在训练集上训练周期为110000，网络的整体基础学习率为0.001，所有完全连接层的层次权重学习率设置为10，层次偏置学习率设置为20，而多级特征融合网络模型原有层的层次权重学习率和层次偏置学习率都设置为0，从而获得SVM分类模型，SVM分类模型的核函数为Sigmoid核函数。

S6、将Caltech行人数据集的set06-set10设置为测试数据集，然后采用选择性搜索（Selective Search）算法框选目标候选区域，将目标候选区域载入步骤S3训练得到的多级特征融合网络模型提取图像特征，再将图像特征载入步骤S5获得的SVM分类模型进行识别，从而确认目标候选区域是行人区域还是非行人区域。选择性搜索算法在框选候选窗口时，窗口数量更少，而且准确率极高，能够快速得到多尺度、多场景下的候选窗口，从而达到减少计算量的目的。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种复杂场景中的行人检测方法，其特征在于，包括以下步骤：

S2、在步骤S1的截图中，随机选择生成负样本；

S3、将步骤S1获得的正样本和步骤S2生成的负样本进行线性变换，进行多级特征融合网络模型参数训练，得到多级特征融合网络模型；

2.根据权利要求1所述的一种复杂场景中的行人检测方法，其特征在于，所述步骤S1中，在Caltech行人数据集中，选择set00-set05作为训练样本集。

3.根据权利要求1所述的一种复杂场景中的行人检测方法，其特征在于，所述步骤S2中，正样本与负样本比例为1:5。

4.根据权利要求1所述的一种复杂场景中的行人检测方法，其特征在于，所述步骤S3中，多级特征融合网络模型的参数配置为：p1-p5分别表示各个完全连接层输出的4096维特征向量， α1-α5为各层特征向量所占的权重，其中α1=0.1，α2=0.2，α3=0.5，α4=0.7，α5=1。

5.根据权利要求1所述的一种复杂场景中的行人检测方法，其特征在于，所述步骤S4中，图像特征矩阵的提取方法具体为：将VGG16网络架构设置为1000类二分类softmax层，在深度学习Caffe架构下，将正样本和负样本输入至多级特征融合网络模型中，设置训练时批处理的大小为16，训练周期为220000，网络的整体基础学习率设置为0.001，最后一层的层次权重学习率为10，最后一层的偏置学习率设置为20，其他层次的权重学习和偏置学习率设置分别为1和2，每40000个周期后学习率设置前一次的0.1，直至训练完所有周期，获得图像特征矩阵。

6.根据权利要求5所述的一种复杂场景中的行人检测方法，其特征在于，所述步骤S4中，正样本和负样本输入的图像大小为224×224，多级特征融合网络模型共13个卷积层、5个池化层、卷积核为3×3，激活函数使用线性整流函数激活函数。

7.根据权利要求1所述的一种复杂场景中的行人检测方法，其特征在于，所述步骤S5中，SVM分类模型的训练方法具体为：在Caffe架构下，设定训练时批处理的大小为16，在训练集上训练周期为110000，网络的整体基础学习率为0.001，所有完全连接层的层次权重学习率设置为10，层次偏置学习率设置为20，而多级特征融合网络模型原有层的层次权重学习率和层次偏置学习率都设置为0，从而获得SVM分类模型，SVM分类模型的核函数为Sigmoid核函数。

8.根据权利要求1所述的一种复杂场景中的行人检测方法，其特征在于，所述步骤S6中，将Caltech行人数据集的set06-set10设置为测试数据集。