CN109784291B - 基于多尺度的卷积特征的行人检测方法 - Google Patents

基于多尺度的卷积特征的行人检测方法 Download PDF

Info

Publication number
CN109784291B
CN109784291B CN201910063790.0A CN201910063790A CN109784291B CN 109784291 B CN109784291 B CN 109784291B CN 201910063790 A CN201910063790 A CN 201910063790A CN 109784291 B CN109784291 B CN 109784291B
Authority
CN
China
Prior art keywords
feature map
layer
image
feature
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910063790.0A
Other languages
English (en)
Other versions
CN109784291A (zh
Inventor
邹腾涛
杨尚明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910063790.0A priority Critical patent/CN109784291B/zh
Publication of CN109784291A publication Critical patent/CN109784291A/zh
Application granted granted Critical
Publication of CN109784291B publication Critical patent/CN109784291B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度的卷积特征的行人检测方法,其包括获取待识别图像,并将其转换为设定尺寸后存储为转换图像;将转换图像输入VGG16网络模型进行特征提取,并将最后一个下采样层的输出存储为第一特征图,每个下采样层前一个卷积层的输出存储为第二特征图;将第一特征图输入区域推荐网络中,得到前景的推荐区域;截取转换图像与推荐区域对应的区域作为子图像,并将子图像输入VGG16网络模型得到每个子图像的第三特征图;截取第一特征图和所有第二特征图上与第三特征图相对应区域的特征图;将同一第三特征图截取的所有特征图拼接后输入识别网络中进行识别,得到推荐区域是行人的概率。

Description

基于多尺度的卷积特征的行人检测方法
技术领域
本发明涉及图像识别领域,具体涉及一种基于多尺度的卷积特征的行人检测方法。
背景技术
由于公共区域管理和安全的需求,智能视频监控成为计算机视觉的重要应用之一。智能视频监控的关键步骤是目标检测,尤其是行人检测,准确的目标检测为后续的智能分析提供了良好基础,例如,目标跟踪、目标识别、人数统计、行人验证等等。
现有目标检测方法可以分为传统目标检测方法和基于卷积神经网络的目标检测方法。传统目标检测方法的研究重点在于技巧性地设计合适的特征和强大的分类器,例如:HoG+SVM、HoG+DPM、DOT+RF等等。由于设计的特征表达能力不强,导致传统目标检测方法不能取得令人满意的检测结果,因此,为了提高特征的表达能力,研究者提出了基于卷积神经网络的目标检测方法,例如:DCNN、R-CNN、Faster R-CNN等等。
行人检测主要是在目标检测的基础上进行迁移和改进,现在主要用到的是基于深度卷积神经网络的行人检测方法,该方法主要利用了卷积核具有较强的特征提取能力,在提取行人特征后,利用这些特征预测行人位置。
2015年,在International Conference on Neural Information ProcessingSystems第91-99页发表的名叫Faster R-CNN:towards real-time object detectionwith region proposal networks的文章提供了一种基于深度卷积网络的对象检测方法。该方法先训练了一个叫做RPN的深度卷积网络。该卷积网络利用已经标定好的图像和标定框的参数信息来训练。训练完毕后的RPN具有推荐包含前景目标区域的能力。对于这些推荐的区域,我们采用ROI池化层将局部特征图转化为统一尺寸后输入到全连接的深度网络中进行判别,区分目标的类别。
Faster R-CNN改进了原来的Fast R-CNN,用RPN取代了原有的Selective Search方法来推荐区域。把目标区域的推荐全部交给CNN来处理,这不仅利用了CNN特征提取的优势来提高推荐区域的准确度,还可以减少计算时间。
基于Faster R-CNN的行人检测方法采用了RPN网络进行前景对象的推荐,然后用全连接网络来判别是否是行人。但是对于图片中的小图像,经过卷积网络特征提取后,会使产生的特征图分别率不够,因而后面全连接的分类网络不能准确分别出该对象是否是行人,这就导致了远景的行人经常被忽略,从而影响整体的行人识别率。
发明内容
针对现有技术中的上述不足,本发明提供的基于多尺度的卷积特征的行人检测方法解决了现有的行人检测方法对图像中的小目标行人无法识别或识别率不高的缺陷。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种基于多尺度的卷积特征的行人检测方法,其包括:
获取待识别图像,并将其转换为设定尺寸后存储为转换图像;
将转换图像输入VGG16网络模型进行特征提取,并将最后一个下采样层的输出存储为第一特征图,每个下采样层前一个卷积层的输出存储为第二特征图;
将第一特征图输入区域推荐网络中,得到前景的推荐区域;
截取转换图像与推荐区域对应的区域作为子图像,并将子图像输入VGG16网络模型得到每个子图像的第三特征图;
分别截取第一特征图和所有第二特征图上与每张第三特征图相对应区域的特征图作为第四特征图;
将每张第三特征图对应的所有第四特征图拼接后输入识别网络中进行识别,得到推荐区域是行人的概率。
进一步地,VGG16网络模型由重复的卷积层和下采样层组成,其中,卷积层的计算和下采样层的计算分别为:
Figure GDA0002657589450000031
其中,
Figure GDA0002657589450000032
为l层的第j张特征图;
Figure GDA0002657589450000033
为第l层的卷积核;
Figure GDA0002657589450000034
为第l层的平移参数。
进一步地,将第一特征图输入区域推荐网络中,得到前景的推荐区域进一步包括:
根据预设尺寸将转换图像分割成不重叠的子区域,并以每个子区域内任一点为矩形区块的中心,设置k种长宽不同的矩形区块;
将第一特征图输入区域推荐网络中两个独立的卷积层reg和卷积层cls中;
采用卷积层reg预测得到每个矩形区块的微调参数,采用卷积层cls输出每个矩形区块的特征图;
根据每个矩形区块对应的微调参数,对相应矩形区块的位置进行微调:
x=xa+wa*tx,y=ya+ha*ty,
Figure GDA0002657589450000035
其中,xa、ya、ha和wa分别为同一个矩形区块的中心横坐标、中心纵坐标,长和宽;tx、ty、tw分别为同一矩形区块中心横坐标、纵坐标的微调参数,宽的微调参数;
采用softmax函数对每个矩形区块的特征图进行处理,得到矩形区块是行人的预判概率:
Figure GDA0002657589450000041
其中,o为卷积层cls输出的特征图;outcls为卷积层cls最后输出;xi,xj均为矩阵最后一维中的一个元素;
Figure GDA0002657589450000042
为对矩阵最后一维中的每个元素进行e的指数运算后累加求和,e为自然对数;f1(xi)为softmax函数;
根据计算得到的所有矩形区块是行人的预判概率,删除预判概率低于设定阈值的矩形区块,并将余下的矩形区块作为推荐区域。
进一步地,识别网络中对拼接后的特征图进行识别的方法为:
计算推荐区域是行人的概率:
out1=f2(WF6+b),
Figure GDA0002657589450000043
out2=f3(Wout1+b),
Figure GDA0002657589450000044
其中,W为全连接层的变换矩阵;F6为同一区域对应的所有特征图拼接在一起后变成的一维向量;b为平移参数;out1为前一层的输出;f3是sigmod函数;out2为推荐区域是行人的概率;x为矩阵中的一个元素;e是自然对数;
根据所有推荐区域是行人的概率,采用NMS算法去除重合率大于预设阈值的推荐区域,余下的推荐区域是行人的概率为最后的检测结果。
进一步地,所述识别网络为3层的全连接神经网络。
进一步地,当设定尺寸为M*N时,预设尺寸为(M/32)*(N/32)。
本发明的有益效果为:本方案采用第一特征图与区域推荐网络结合得到推荐区域,之后将推荐区域截取转换图像部分输入VGG16网络模型得到第三特征图,第三特征图在截取特征图过程中是直接采用的之前输出的第一特征图和第二特征图,之后拼接在一起输入识别网络进行识别。
在整个识别过程中识别网络只共享了VGG16网络模型输出的第一特征图,扩大推荐区域特征图的分辨率。增加了被识别特征图的有用信息,这样就解决了小区域特征图分辨率不足的问题,同时还提高对于小目标行人的识别率和召回率。
本方案在进行行人识别时采用了共享卷积的设计方式,使得在人行检测时计算成本较小,运行时间较短,还是能符合实时检测的要求。
附图说明
图1为基于多尺度的卷积特征的行人检测方法的流程图。
图2为VGG16网络模型的结构图。
图3为对同一区域对应的所有特征图进行拼接的示意图。
图4为识别网络的结构图。
图5为本方案和现有的Faster R-CNN的召回率对比图,其中(a)为在INRIA公开数据集上试验的召回率对比图,(b)为在TUD公开数据集上试验的召回率对比图。
图6为本方案和现有的Faster R-CNN的准确率对比图,其中(a)为在INRIA公开数据集上试验的准确率对比图,(b)为在TUD公开数据集上试验的准确率对比图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
参考图1,图1示出了基于多尺度的卷积特征的行人检测方法的流程图;如图1所示,该方法S包括步骤S1至步骤S6。
在步骤S1中,获取待识别图像,并将其转换为设定尺寸后存储为转换图像。
在步骤S2中,将转换图像输入VGG16网络模型进行特征提取,并将最后一个下采样层的输出存储为第一特征图,每个下采样层前一个卷积层的输出存储为第二特征图;
本方案的VGG16网络模型的结构如图2所示,由图2可以看出VGG16网络模型由重复的卷积计算和下采样计算组成,具体为依次连接的卷积层,卷积层,下采样层,卷积层,卷积层,下采样层,卷积层,卷积层,卷积层,下采样层,卷积层,卷积层,卷积层,下采样层,卷积层,卷积层,卷积层,下采样层组成。
其中,卷积层的计算公式为:
Figure GDA0002657589450000061
下采样层的计算公式为:
Figure GDA0002657589450000062
其中,
Figure GDA0002657589450000063
为l层的第j张特征图;
Figure GDA0002657589450000064
为第l层的卷积核;
Figure GDA0002657589450000065
为第l层的平移参数。
本方案采用图2示出来的VGG16网络模型后,在VGG16网络模型模型中会输出5个第二特征图,按先后顺序分别以Feature_map1,Feature_map2,Feature_map3,Feature_map4,Feature_map5的变量名存储,第一特征图以Feature_map6的变量名存储。
在步骤S3中,将将第一特征图输入区域推荐网络中,得到前景的推荐区域。
在本发明的一个实施例中,将第一特征图输入区域推荐网络中,得到前景的推荐区域进一步包括步骤S31至步骤S36:
在步骤S31中,根据预设尺寸将转换图像分割成不重叠的子区域,并以每个子区域内任一点为矩形区块的中心,设置k种长宽不同的矩形区块。
在本方案中,当设定尺寸为M*N时,预设尺寸为(M/32)*(N/32)。
在步骤S32中,将第一特征图(Feature_map6)输入区域推荐网络中的两个独立的卷积层reg和卷积层cls中。
在步骤S33中,采用卷积层reg预测得到每个矩形区块的微调参数,采用卷积层cls输出每个矩形区块的特征图;
其中卷积层reg层具有4k个输出,编码k个边界框的坐标,卷积层cls层输出2k个分数,估计每个矩形区块是目标或不是目标的概率。本方案中提到的卷积层的计算公式均与步骤S2中的卷积计算相同。
在步骤S34中,根据每个矩形区块对应的微调参数,对相应矩形区块的位置进行微调:
x=xa+wa*tx,y=ya+ha*ty,
Figure GDA0002657589450000071
其中,xa、ya、ha和wa分别为同一个矩形区块的中心横坐标、中心纵坐标,长和宽;tx、ty、tw分别为同一矩形区块中心横坐标、纵坐标的微调参数,宽的微调参数;
在步骤S35中,采用softmax函数对每个矩形区块的特征图进行处理,得到矩形区块是行人的预判概率:
Figure GDA0002657589450000072
其中,o为卷积层cls输出的特征图;outcls为卷积层cls最后输出;xi,xj均为矩阵最后一维中的一个元素;
Figure GDA0002657589450000073
为对矩阵最后一维中的每个元素进行e的指数运算后累加求和,e为自然对数;f1(xi)为softmax函数;
在步骤S36中,根据计算得到的所有矩形区块是行人的预判概率,删除预判概率低于设定阈值的矩形区块,并将余下的矩形区块作为推荐区域,此处的设定阈值为0.5。
在步骤S4中,截取转换图像与推荐区域对应的区域作为子图像,并将子图像输入VGG16网络模型得到每个子图像的第三特征图。
在步骤S5中,分别截取第一特征图和所有第二特征图上与每张第三特征图相对应区域的特征图作为第四特征图;
在步骤S6中,将每张第三特征图对应的所有第四特征图拼接后输入识别网络中进行识别,得到推荐区域是行人的概率,其中将同一第三特征图截取的所有特征图进行拼接的结构图如图3所示。
实施时,本方案优选识别网络为3层的全连接神经网络,其结构如图4所示,图4中i1,i2,i3,i4...in表示输出层的神经元,h1,h2,h3,h4...hm表示隐藏层的神经元,o1,o2表示输出层的神经元。
在本发明的一个实施例中,识别网络中对拼接后的特征图进行识别的方法为:
计算推荐区域是行人的概率:
out1=f2(WF6+b),
Figure GDA0002657589450000081
out2=f3(Wout1+b),
Figure GDA0002657589450000082
其中,W为全连接层的变换矩阵;F6为同一区域对应的所有特征图拼接在一起后变成的一维向量;b为平移参数;out1为前一层的输出;f3是sigmod函数;out2为推荐区域是行人的概率;x为矩阵中的一个元素;e是自然对数;
根据所有推荐区域是行人的概率,采用NMS算法去除重合率大于预设阈值的推荐区域,余下的推荐区域是行人的概率为最后的检测结果。
下面结合图5和图6,对本方案的检测方法的召回率和准确率进行说明:
采用INRIA和TUD这两个公开数据集公开的训练集和测试集对本方案的行人检测方法与现有技术中的Faster R-CNN方法进行对比试验。
我们选取INRIA公开数据集中的训练数据集对模型进行训练。在迭代500次后模型接近收敛。我们在INRIA和TUD这两个公开数据集的测试数据集上和Faster R-CNN,对比了miss rate,recall rate,false positive per image(FPPI),precision等相关参数。上述参数计算如下:先定义一下,TP为识别正确的正样本,TN为识别正确的负样本,FP为识别错误的正样本(系统识别错误的部分),FN为识别错误的负样本(没有识别出来的正样本),N为测试集的样本总和。
Figure GDA0002657589450000091
missrate=1-recallrate
识别结果参考图5和图6。从图5和图6可以看出,我们的方法无论在召回率,还是准确率上都有较好的体现。

Claims (6)

1.基于多尺度的卷积特征的行人检测方法,其特征在于,包括:
获取待识别图像,并将其转换为设定尺寸后存储为转换图像;
将转换图像输入VGG16网络模型进行特征提取,并将最后一个下采样层的输出存储为第一特征图,每个下采样层前一个卷积层的输出存储为第二特征图;
将第一特征图输入区域推荐网络中,得到前景的推荐区域;
截取转换图像与推荐区域对应的区域作为子图像,并将子图像输入VGG16网络模型得到每个子图像的第三特征图;
分别截取第一特征图和所有第二特征图上与每张第三特征图相对应区域的特征图作为第四特征图;
将每张第三特征图对应的所有第四特征图拼接后输入识别网络中进行识别,得到推荐区域是行人的概率。
2.根据权利要求1所述的基于多尺度的卷积特征的行人检测方法,其特征在于,所述VGG16网络模型由重复的卷积层和下采样层组成,其中,卷积层的计算和下采样层的计算分别为:
Figure FDA0002657589440000011
其中,
Figure FDA0002657589440000012
为l层的第j张特征图;
Figure FDA0002657589440000013
为第l层的卷积核;
Figure FDA0002657589440000014
为第l层的平移参数。
3.根据权利要求1所述的基于多尺度的卷积特征的行人检测方法,其特征在于,将第一特征图输入区域推荐网络中,得到前景的推荐区域进一步包括:
根据预设尺寸将转换图像分割成不重叠的子区域,并以每个子区域内任一点为矩形区块的中心,设置k种长宽不同的矩形区块;
将第一特征图输入区域推荐网络中两个独立的卷积层reg和卷积层cls中;
采用卷积层reg预测得到每个矩形区块的微调参数,采用卷积层cls输出每个矩形区块的特征图;
根据每个矩形区块对应的微调参数,对相应矩形区块的位置进行微调:
x=xa+wa*tx,y=ya+ha*ty,
Figure FDA0002657589440000021
Figure FDA0002657589440000022
其中,xa、ya、ha和wa分别为同一个矩形区块的中心横坐标、中心纵坐标,长和宽;tx、ty、tw分别为同一矩形区块中心横坐标、纵坐标的微调参数,宽的微调参数;
采用softmax函数对每个矩形区块的特征图进行处理,得到矩形区块是行人的预判概率:
Figure FDA0002657589440000023
其中,o为卷积层cls输出的特征图;outcls为卷积层cls最后输出,即预判概率;xi,xj均为矩阵最后一维中的一个元素;
Figure FDA0002657589440000024
为对矩阵最后一维中的每个元素进行e的指数运算后累加求和,e为自然对数;f1(xi)为softmax函数;
根据计算得到的所有矩形区块是行人的预判概率,删除预判概率低于设定阈值的矩形区块,并将余下的矩形区块作为推荐区域。
4.根据权利要求3所述的基于多尺度的卷积特征的行人检测方法,其特征在于,识别网络中对拼接后的特征图进行识别的方法为:
计算推荐区域是行人的概率:
out1=f2(WF6+b),
Figure FDA0002657589440000025
out2=f3(Wout1+b),
Figure FDA0002657589440000026
其中,W为全连接层的变换矩阵;F6为同一区域对应的所有特征图拼接在一起后变成的一维向量;b为平移参数;out1为前一层的输出;f3是sigmod函数;out2为推荐区域是行人的概率;x为矩阵中的一个元素;e是自然对;
根据所有推荐区域是行人的概率,采用NMS算法去除重合率大于预设阈值的推荐区域,余下的推荐区域是行人的概率为最后的检测结果。
5.根据权利要求1-4任一所述的基于多尺度的卷积特征的行人检测方法,其特征在于,所述识别网络为3层的全连接神经网络。
6.根据权利要求1-4任一所述的基于多尺度的卷积特征的行人检测方法,其特征在于,当设定尺寸为M*N时,预设尺寸为(M/32)*(N/32)。
CN201910063790.0A 2019-01-23 2019-01-23 基于多尺度的卷积特征的行人检测方法 Expired - Fee Related CN109784291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910063790.0A CN109784291B (zh) 2019-01-23 2019-01-23 基于多尺度的卷积特征的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910063790.0A CN109784291B (zh) 2019-01-23 2019-01-23 基于多尺度的卷积特征的行人检测方法

Publications (2)

Publication Number Publication Date
CN109784291A CN109784291A (zh) 2019-05-21
CN109784291B true CN109784291B (zh) 2020-10-23

Family

ID=66502202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910063790.0A Expired - Fee Related CN109784291B (zh) 2019-01-23 2019-01-23 基于多尺度的卷积特征的行人检测方法

Country Status (1)

Country Link
CN (1) CN109784291B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340882B (zh) * 2020-02-20 2024-02-20 盈嘉互联(北京)科技有限公司 基于图像的室内定位方法及装置
CN112163499A (zh) * 2020-09-23 2021-01-01 电子科技大学 一种基于融合特征的小目标行人检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017101036A1 (en) * 2015-12-16 2017-06-22 Intel Corporation Fully convolutional pyramid networks for pedestrian detection
CN106934344A (zh) * 2017-01-23 2017-07-07 西北大学 一种基于神经网络的快速行人检测方法
CN107851195A (zh) * 2015-07-29 2018-03-27 诺基亚技术有限公司 利用神经网络进行目标检测
CN108765279A (zh) * 2018-03-19 2018-11-06 北京工业大学 一种面向监控场景的行人人脸超分辨率重建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107851195A (zh) * 2015-07-29 2018-03-27 诺基亚技术有限公司 利用神经网络进行目标检测
WO2017101036A1 (en) * 2015-12-16 2017-06-22 Intel Corporation Fully convolutional pyramid networks for pedestrian detection
CN106934344A (zh) * 2017-01-23 2017-07-07 西北大学 一种基于神经网络的快速行人检测方法
CN108765279A (zh) * 2018-03-19 2018-11-06 北京工业大学 一种面向监控场景的行人人脸超分辨率重建方法

Also Published As

Publication number Publication date
CN109784291A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN106096561B (zh) 基于图像块深度学习特征的红外行人检测方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN109543627B (zh) 一种判断驾驶行为类别的方法、装置、及计算机设备
CN108305260B (zh) 一种图像中角点的检测方法、装置及设备
CN111445459B (zh) 一种基于深度孪生网络的图像缺陷检测方法及系统
CN105930822A (zh) 一种人脸抓拍方法及系统
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN109360179B (zh) 一种图像融合方法、装置及可读存储介质
CN110348357A (zh) 一种基于深度卷积神经网络的快速目标检测方法
CN110781785A (zh) 基于Faster RCNN算法改进的交通场景下行人检测方法
CN113343985B (zh) 车牌识别方法和装置
CN113052039B (zh) 一种交通路网行人密度检测的方法、系统及服务器
CN106557740A (zh) 一种遥感图像中油库目标的识别方法
CN112634368A (zh) 场景目标的空间与或图模型生成方法、装置及电子设备
CN109784291B (zh) 基于多尺度的卷积特征的行人检测方法
CN112101195A (zh) 人群密度预估方法、装置、计算机设备和存储介质
CN113706481A (zh) 精子质量检测方法、装置、计算机设备和存储介质
CN112465854A (zh) 基于无锚点检测算法的无人机跟踪方法
CN111444816A (zh) 一种基于Faster RCNN的多尺度密集行人检测方法
CN113780145A (zh) 精子形态检测方法、装置、计算机设备和存储介质
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN113657196B (zh) Sar图像目标检测方法、装置、电子设备和存储介质
CN114627493A (zh) 一种基于步态特征的身份识别方法及系统
CN113705672A (zh) 图像目标检测的阈值选取方法、系统、装置及存储介质
CN108510517B (zh) 一种自适应的视觉背景提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201023

Termination date: 20220123