CN109784291B

CN109784291B - 基于多尺度的卷积特征的行人检测方法

Info

Publication number: CN109784291B
Application number: CN201910063790.0A
Authority: CN
Inventors: 邹腾涛; 杨尚明
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2020-10-23
Anticipated expiration: 2039-01-23
Also published as: CN109784291A

Abstract

本发明公开了一种基于多尺度的卷积特征的行人检测方法，其包括获取待识别图像，并将其转换为设定尺寸后存储为转换图像；将转换图像输入VGG16网络模型进行特征提取，并将最后一个下采样层的输出存储为第一特征图，每个下采样层前一个卷积层的输出存储为第二特征图；将第一特征图输入区域推荐网络中，得到前景的推荐区域；截取转换图像与推荐区域对应的区域作为子图像，并将子图像输入VGG16网络模型得到每个子图像的第三特征图；截取第一特征图和所有第二特征图上与第三特征图相对应区域的特征图；将同一第三特征图截取的所有特征图拼接后输入识别网络中进行识别，得到推荐区域是行人的概率。

Description

基于多尺度的卷积特征的行人检测方法

技术领域

本发明涉及图像识别领域，具体涉及一种基于多尺度的卷积特征的行人检测方法。

背景技术

由于公共区域管理和安全的需求，智能视频监控成为计算机视觉的重要应用之一。智能视频监控的关键步骤是目标检测，尤其是行人检测，准确的目标检测为后续的智能分析提供了良好基础，例如，目标跟踪、目标识别、人数统计、行人验证等等。

现有目标检测方法可以分为传统目标检测方法和基于卷积神经网络的目标检测方法。传统目标检测方法的研究重点在于技巧性地设计合适的特征和强大的分类器，例如：HoG+SVM、HoG+DPM、DOT+RF等等。由于设计的特征表达能力不强，导致传统目标检测方法不能取得令人满意的检测结果，因此，为了提高特征的表达能力，研究者提出了基于卷积神经网络的目标检测方法，例如：DCNN、R-CNN、Faster R-CNN等等。

行人检测主要是在目标检测的基础上进行迁移和改进，现在主要用到的是基于深度卷积神经网络的行人检测方法，该方法主要利用了卷积核具有较强的特征提取能力，在提取行人特征后，利用这些特征预测行人位置。

2015年，在International Conference on Neural Information ProcessingSystems第91-99页发表的名叫Faster R-CNN:towards real-time object detectionwith region proposal networks的文章提供了一种基于深度卷积网络的对象检测方法。该方法先训练了一个叫做RPN的深度卷积网络。该卷积网络利用已经标定好的图像和标定框的参数信息来训练。训练完毕后的RPN具有推荐包含前景目标区域的能力。对于这些推荐的区域，我们采用ROI池化层将局部特征图转化为统一尺寸后输入到全连接的深度网络中进行判别，区分目标的类别。

Faster R-CNN改进了原来的Fast R-CNN，用RPN取代了原有的Selective Search方法来推荐区域。把目标区域的推荐全部交给CNN来处理，这不仅利用了CNN特征提取的优势来提高推荐区域的准确度，还可以减少计算时间。

基于Faster R-CNN的行人检测方法采用了RPN网络进行前景对象的推荐，然后用全连接网络来判别是否是行人。但是对于图片中的小图像，经过卷积网络特征提取后，会使产生的特征图分别率不够，因而后面全连接的分类网络不能准确分别出该对象是否是行人，这就导致了远景的行人经常被忽略，从而影响整体的行人识别率。

发明内容

针对现有技术中的上述不足，本发明提供的基于多尺度的卷积特征的行人检测方法解决了现有的行人检测方法对图像中的小目标行人无法识别或识别率不高的缺陷。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种基于多尺度的卷积特征的行人检测方法，其包括：

获取待识别图像，并将其转换为设定尺寸后存储为转换图像；

将转换图像输入VGG16网络模型进行特征提取，并将最后一个下采样层的输出存储为第一特征图，每个下采样层前一个卷积层的输出存储为第二特征图；

将第一特征图输入区域推荐网络中，得到前景的推荐区域；

截取转换图像与推荐区域对应的区域作为子图像，并将子图像输入VGG16网络模型得到每个子图像的第三特征图；

分别截取第一特征图和所有第二特征图上与每张第三特征图相对应区域的特征图作为第四特征图；

将每张第三特征图对应的所有第四特征图拼接后输入识别网络中进行识别，得到推荐区域是行人的概率。

进一步地，VGG16网络模型由重复的卷积层和下采样层组成，其中，卷积层的计算和下采样层的计算分别为：

其中，

为l层的第j张特征图；

为第l层的卷积核；

为第l层的平移参数。

进一步地，将第一特征图输入区域推荐网络中，得到前景的推荐区域进一步包括：

根据预设尺寸将转换图像分割成不重叠的子区域，并以每个子区域内任一点为矩形区块的中心，设置k种长宽不同的矩形区块；

将第一特征图输入区域推荐网络中两个独立的卷积层reg和卷积层cls中；

采用卷积层reg预测得到每个矩形区块的微调参数，采用卷积层cls输出每个矩形区块的特征图；

根据每个矩形区块对应的微调参数，对相应矩形区块的位置进行微调：

x＝x_a+w_a*t_x,y＝y_a+h_a*t_y,

其中，x_a、y_a、h_a和w_a分别为同一个矩形区块的中心横坐标、中心纵坐标，长和宽；t_x、t_y、t_w分别为同一矩形区块中心横坐标、纵坐标的微调参数，宽的微调参数；

采用softmax函数对每个矩形区块的特征图进行处理，得到矩形区块是行人的预判概率：

其中，o为卷积层cls输出的特征图；out_cls为卷积层cls最后输出；xⁱ，x^j均为矩阵最后一维中的一个元素；

为对矩阵最后一维中的每个元素进行e的指数运算后累加求和，e为自然对数；f₁(xⁱ)为softmax函数；

根据计算得到的所有矩形区块是行人的预判概率，删除预判概率低于设定阈值的矩形区块，并将余下的矩形区块作为推荐区域。

进一步地，识别网络中对拼接后的特征图进行识别的方法为：

计算推荐区域是行人的概率：

out₁＝f₂(WF₆+b)，

out₂＝f₃(Wout₁+b)，

其中，W为全连接层的变换矩阵；F₆为同一区域对应的所有特征图拼接在一起后变成的一维向量；b为平移参数；out₁为前一层的输出；f₃是sigmod函数；out₂为推荐区域是行人的概率；x为矩阵中的一个元素；e是自然对数；

根据所有推荐区域是行人的概率，采用NMS算法去除重合率大于预设阈值的推荐区域，余下的推荐区域是行人的概率为最后的检测结果。

进一步地，所述识别网络为3层的全连接神经网络。

进一步地，当设定尺寸为M*N时，预设尺寸为(M/32)*(N/32)。

本发明的有益效果为：本方案采用第一特征图与区域推荐网络结合得到推荐区域，之后将推荐区域截取转换图像部分输入VGG16网络模型得到第三特征图，第三特征图在截取特征图过程中是直接采用的之前输出的第一特征图和第二特征图，之后拼接在一起输入识别网络进行识别。

在整个识别过程中识别网络只共享了VGG16网络模型输出的第一特征图，扩大推荐区域特征图的分辨率。增加了被识别特征图的有用信息，这样就解决了小区域特征图分辨率不足的问题，同时还提高对于小目标行人的识别率和召回率。

本方案在进行行人识别时采用了共享卷积的设计方式，使得在人行检测时计算成本较小，运行时间较短，还是能符合实时检测的要求。

附图说明

图1为基于多尺度的卷积特征的行人检测方法的流程图。

图2为VGG16网络模型的结构图。

图3为对同一区域对应的所有特征图进行拼接的示意图。

图4为识别网络的结构图。

图5为本方案和现有的Faster R-CNN的召回率对比图，其中(a)为在INRIA公开数据集上试验的召回率对比图，(b)为在TUD公开数据集上试验的召回率对比图。

图6为本方案和现有的Faster R-CNN的准确率对比图，其中(a)为在INRIA公开数据集上试验的准确率对比图，(b)为在TUD公开数据集上试验的准确率对比图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

参考图1，图1示出了基于多尺度的卷积特征的行人检测方法的流程图；如图1所示，该方法S包括步骤S1至步骤S6。

在步骤S1中，获取待识别图像，并将其转换为设定尺寸后存储为转换图像。

在步骤S2中，将转换图像输入VGG16网络模型进行特征提取，并将最后一个下采样层的输出存储为第一特征图，每个下采样层前一个卷积层的输出存储为第二特征图；

本方案的VGG16网络模型的结构如图2所示，由图2可以看出VGG16网络模型由重复的卷积计算和下采样计算组成，具体为依次连接的卷积层，卷积层，下采样层，卷积层，卷积层，下采样层，卷积层，卷积层，卷积层，下采样层，卷积层，卷积层，卷积层，下采样层，卷积层，卷积层，卷积层，下采样层组成。

其中，卷积层的计算公式为：

下采样层的计算公式为：

其中，

为l层的第j张特征图；

为第l层的卷积核；

为第l层的平移参数。

本方案采用图2示出来的VGG16网络模型后，在VGG16网络模型模型中会输出5个第二特征图，按先后顺序分别以Feature_map1，Feature_map2，Feature_map3，Feature_map4，Feature_map5的变量名存储，第一特征图以Feature_map6的变量名存储。

在步骤S3中，将将第一特征图输入区域推荐网络中，得到前景的推荐区域。

在本发明的一个实施例中，将第一特征图输入区域推荐网络中，得到前景的推荐区域进一步包括步骤S31至步骤S36：

在步骤S31中，根据预设尺寸将转换图像分割成不重叠的子区域，并以每个子区域内任一点为矩形区块的中心，设置k种长宽不同的矩形区块。

在本方案中，当设定尺寸为M*N时，预设尺寸为(M/32)*(N/32)。

在步骤S32中，将第一特征图(Feature_map6)输入区域推荐网络中的两个独立的卷积层reg和卷积层cls中。

在步骤S33中，采用卷积层reg预测得到每个矩形区块的微调参数，采用卷积层cls输出每个矩形区块的特征图；

其中卷积层reg层具有4k个输出，编码k个边界框的坐标，卷积层cls层输出2k个分数，估计每个矩形区块是目标或不是目标的概率。本方案中提到的卷积层的计算公式均与步骤S2中的卷积计算相同。

在步骤S34中，根据每个矩形区块对应的微调参数，对相应矩形区块的位置进行微调：

x＝x_a+w_a*t_x,y＝y_a+h_a*t_y,

在步骤S35中，采用softmax函数对每个矩形区块的特征图进行处理，得到矩形区块是行人的预判概率：

在步骤S36中，根据计算得到的所有矩形区块是行人的预判概率，删除预判概率低于设定阈值的矩形区块，并将余下的矩形区块作为推荐区域，此处的设定阈值为0.5。

在步骤S4中，截取转换图像与推荐区域对应的区域作为子图像，并将子图像输入VGG16网络模型得到每个子图像的第三特征图。

在步骤S5中，分别截取第一特征图和所有第二特征图上与每张第三特征图相对应区域的特征图作为第四特征图；

在步骤S6中，将每张第三特征图对应的所有第四特征图拼接后输入识别网络中进行识别，得到推荐区域是行人的概率，其中将同一第三特征图截取的所有特征图进行拼接的结构图如图3所示。

实施时，本方案优选识别网络为3层的全连接神经网络，其结构如图4所示，图4中i1，i2，i3，i4...in表示输出层的神经元，h1，h2，h3，h4...hm表示隐藏层的神经元，o1，o2表示输出层的神经元。

在本发明的一个实施例中，识别网络中对拼接后的特征图进行识别的方法为：

计算推荐区域是行人的概率：

out₁＝f₂(WF₆+b)，

out₂＝f₃(Wout₁+b)，

下面结合图5和图6，对本方案的检测方法的召回率和准确率进行说明：

采用INRIA和TUD这两个公开数据集公开的训练集和测试集对本方案的行人检测方法与现有技术中的Faster R-CNN方法进行对比试验。

我们选取INRIA公开数据集中的训练数据集对模型进行训练。在迭代500次后模型接近收敛。我们在INRIA和TUD这两个公开数据集的测试数据集上和Faster R-CNN，对比了miss rate，recall rate，false positive per image(FPPI)，precision等相关参数。上述参数计算如下：先定义一下，TP为识别正确的正样本，TN为识别正确的负样本，FP为识别错误的正样本(系统识别错误的部分)，FN为识别错误的负样本(没有识别出来的正样本)，N为测试集的样本总和。

missrate＝1-recallrate

识别结果参考图5和图6。从图5和图6可以看出，我们的方法无论在召回率，还是准确率上都有较好的体现。