CN109784291A - 基于多尺度的卷积特征的行人检测方法 - Google Patents

基于多尺度的卷积特征的行人检测方法 Download PDF

Info

Publication number
CN109784291A
CN109784291A CN201910063790.0A CN201910063790A CN109784291A CN 109784291 A CN109784291 A CN 109784291A CN 201910063790 A CN201910063790 A CN 201910063790A CN 109784291 A CN109784291 A CN 109784291A
Authority
CN
China
Prior art keywords
feature
region
pedestrian
convolutional layer
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910063790.0A
Other languages
English (en)
Other versions
CN109784291B (zh
Inventor
邹腾涛
杨尚明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910063790.0A priority Critical patent/CN109784291B/zh
Publication of CN109784291A publication Critical patent/CN109784291A/zh
Application granted granted Critical
Publication of CN109784291B publication Critical patent/CN109784291B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度的卷积特征的行人检测方法,其包括获取待识别图像,并将其转换为设定尺寸后存储为转换图像;将转换图像输入VGG16网络模型进行特征提取,并将最后一个下采样层的输出存储为第一特征图,每个下采样层前一个卷积层的输出存储为第二特征图;将第一特征图输入区域推荐网络中,得到前景的推荐区域;截取转换图像与推荐区域对应的区域作为子图像,并将子图像输入VGG16网络模型得到每个子图像的第三特征图;截取第一特征图和所有第二特征图上与第三特征图相对应区域的特征图;将同一第三特征图截取的所有特征图拼接后输入识别网络中进行识别,得到推荐区域是行人的概率。

Description

基于多尺度的卷积特征的行人检测方法
技术领域
本发明涉及图像识别领域,具体涉及一种基于多尺度的卷积特征的行人检测方法。
背景技术
由于公共区域管理和安全的需求,智能视频监控成为计算机视觉的重要应用之一。智能视频监控的关键步骤是目标检测,尤其是行人检测,准确的目标检测为后续的智能分析提供了良好基础,例如,目标跟踪、目标识别、人数统计、行人验证等等。
现有目标检测方法可以分为传统目标检测方法和基于卷积神经网络的目标检测方法。传统目标检测方法的研究重点在于技巧性地设计合适的特征和强大的分类器,例如:HoG+SVM、HoG+DPM、DOT+RF等等。由于设计的特征表达能力不强,导致传统目标检测方法不能取得令人满意的检测结果,因此,为了提高特征的表达能力,研究者提出了基于卷积神经网络的目标检测方法,例如:DCNN、R-CNN、Faster R-CNN等等。
行人检测主要是在目标检测的基础上进行迁移和改进,现在主要用到的是基于深度卷积神经网络的行人检测方法,该方法主要利用了卷积核具有较强的特征提取能力,在提取行人特征后,利用这些特征预测行人位置。
2015年,在International Conference on Neural Information ProcessingSystems第91-99页发表的名叫Faster R-CNN:towards real-time object detectionwith region proposal networks的文章提供了一种基于深度卷积网络的对象检测方法。该方法先训练了一个叫做RPN的深度卷积网络。该卷积网络利用已经标定好的图像和标定框的参数信息来训练。训练完毕后的RPN具有推荐包含前景目标区域的能力。对于这些推荐的区域,我们采用ROI池化层将局部特征图转化为统一尺寸后输入到全连接的深度网络中进行判别,区分目标的类别。
Faster R-CNN改进了原来的Fast R-CNN,用RPN取代了原有的Selective Search方法来推荐区域。把目标区域的推荐全部交给CNN来处理,这不仅利用了CNN特征提取的优势来提高推荐区域的准确度,还可以减少计算时间。
基于Faster R-CNN的行人检测方法采用了RPN网络进行前景对象的推荐,然后用全连接网络来判别是否是行人。但是对于图片中的小图像,经过卷积网络特征提取后,会使产生的特征图分别率不够,因而后面全连接的分类网络不能准确分别出该对象是否是行人,这就导致了远景的行人经常被忽略,从而影响整体的行人识别率。
发明内容
针对现有技术中的上述不足,本发明提供的基于多尺度的卷积特征的行人检测方法解决了现有的行人检测方法对图像中的小目标行人无法识别或识别率不高的缺陷。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种基于多尺度的卷积特征的行人检测方法,其包括:
获取待识别图像,并将其转换为设定尺寸后存储为转换图像;
将转换图像输入VGG16网络模型进行特征提取,并将最后一个下采样层的输出存储为第一特征图,每个下采样层前一个卷积层的输出存储为第二特征图;
将第一特征图输入区域推荐网络中,得到前景的推荐区域;
截取转换图像与推荐区域对应的区域作为子图像,并将子图像输入VGG16网络模型得到每个子图像的第三特征图;
截取第一特征图和所有第二特征图上与第三特征图相对应区域的特征图;
将同一第三特征图截取的所有特征图拼接后输入识别网络中进行识别,得到推荐区域是行人的概率。
进一步地,VGG16网络模型由重复的卷积层和下采样层组成,其中,卷积层的计算和下采样层的计算分别为:
其中,为l层的第j张特征图;为第l层的卷积核;为第l层的平移参数。
进一步地,将第一特征图输入区域推荐网络中,得到前景的推荐区域进一步包括:
根据预设尺寸将转换图像分割成不重叠的子区域,并以每个子区域内任一点为矩形区块的中心,设置k种长宽不同的矩形区块;
将第一特征图输入区域推荐网络中两个独立的卷积层reg和卷积层cls中;
采用卷积层reg预测得到每个矩形区块的微调参数,采用卷积层cls输出每个矩形区块的特征图;
根据每个矩形区块对应的微调参数,对相应矩形区块的位置进行微调:
x=xa+wa*tx,y=ya+ha*ty,
其中,xa、ya、ha和wa分别为同一个矩形区块的中心横坐标、中心纵坐标,长和宽;tx、ty、tw和th分别为同一矩形区块中心横坐标、纵坐标、宽和长的微调参数;
采用softmax函数对每个矩形区块的特征图进行处理,得到矩形区块是行人的预判概率:
outcls=f(o),
其中,o为卷积层cls输出的特征图;outcls为卷积层cls最后输出;xi,xj均为矩阵最后一维中的一个元素;为对矩阵最后一维中的每个元素进行e的指数运算后累加求和,e为自然对数;f(xi)为softmax函数;
根据计算得到的所有矩形区块是行人的预判概率,删除预判概率低于设定阈值的矩形区块,并将余下的矩形区块作为推荐区域。
进一步地,识别网络中对拼接后的特征图进行识别的方法为:
计算推荐区域是行人的概率:
out1=f(WF6+b),
out2=f(Wout1+b),
其中,W为全连接层的变换矩阵;F6为同一区域对应的所有特征图拼接在一起后变成的一维向量;b为平移参数;out1为前一层的输出;f是sigmod函数;out2为推荐区域是行人的概率;x为矩阵中的一个元素;e是自然对数;
根据所有推荐区域是行人的概率,采用NMS算法去除重合率大于预设阈值的推荐区域,余下的推荐区域是行人的概率为最后的检测结果。
进一步地,所述识别网络为3层的全连接神经网络。
进一步地,当设定尺寸为M*N时,预设尺寸为(M/32)*(N/32)。
本发明的有益效果为:本方案采用第一特征图与区域推荐网络结合得到推荐区域,之后将推荐区域截取转换图像部分输入VGG16网络模型得到第三特征图,第三特征图在截取特征图过程中是直接采用的之前输出的第一特征图和第二特征图,之后拼接在一起输入识别网络进行识别。
在整个识别过程中识别网络只共享了VGG16网络模型输出的第一特征图,扩大推荐区域特征图的分辨率。增加了被识别特征图的有用信息,这样就解决了小区域特征图分辨率不足的问题,同时还提高对于小目标行人的识别率和召回率。
本方案在进行行人识别时采用了共享卷积的设计方式,使得在人行检测时计算成本较小,运行时间较短,还是能符合实时检测的要求。
附图说明
图1为基于多尺度的卷积特征的行人检测方法的流程图。
图2为VGG16网络模型的结构图。
图3为对同一区域对应的所有特征图进行拼接的示意图。
图4为识别网络的结构图。
图5为本方案和现有的Faster R-CNN的召回率对比图,其中(a)为在INRIA公开数据集上试验的召回率对比图,(b)为在TUD公开数据集上试验的召回率对比图。
图6为本方案和现有的Faster R-CNN的准确率对比图,其中(a)为在INRIA公开数据集上试验的准确率对比图,(b)为在TUD公开数据集上试验的准确率对比图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
参考图1,图1示出了基于多尺度的卷积特征的行人检测方法的流程图;如图1所示,该方法S包括步骤S1至步骤S6。
在步骤S1中,获取待识别图像,并将其转换为设定尺寸后存储为转换图像。
在步骤S2中,将转换图像输入VGG16网络模型进行特征提取,并将最后一个下采样层的输出存储为第一特征图,每个下采样层前一个卷积层的输出存储为第二特征图;
本方案的VGG16网络模型的结构如图2所示,由图2可以看出VGG16网络模型由重复的卷积计算和下采样计算组成,具体为依次连接的卷积层,卷积层,下采样层,卷积层,卷积层,下采样层,卷积层,卷积层,卷积层,下采样层,卷积层,卷积层,卷积层,下采样层,卷积层,卷积层,卷积层,下采样层组成。
其中,卷积层的计算公式为:
下采样层的计算公式为:
其中,为l层的第j张特征图;为第l层的卷积核;为第l层的平移参数。
本方案采用图2示出来的VGG16网络模型后,在VGG16网络模型模型中会输出5个第二特征图,按先后顺序分别以Feature_map1,Feature_map2,Feature_map3,Feature_map4,Feature_map5的变量名存储,第一特征图以Feature_map6的变量名存储。
在步骤S3中,将将第一特征图输入区域推荐网络中,得到前景的推荐区域。
在本发明的一个实施例中,将第一特征图输入区域推荐网络中,得到前景的推荐区域进一步包括步骤S31至步骤S36:
在步骤S31中,根据预设尺寸将转换图像分割成不重叠的子区域,并以每个子区域内任一点为矩形区块的中心,设置k种长宽不同的矩形区块。
在本方案中,当设定尺寸为M*N时,预设尺寸为(M/32)*(N/32)。
在步骤S32中,将第一特征图(Feature_map6)输入区域推荐网络中的两个独立的卷积层reg和卷积层cls中。
在步骤S33中,采用卷积层reg预测得到每个矩形区块的微调参数,采用卷积层cls输出每个矩形区块的特征图;
其中卷积层reg层具有4k个输出,编码k个边界框的坐标,卷积层cls层输出2k个分数,估计每个矩形区块是目标或不是目标的概率。本方案中提到的卷积层的计算公式均与步骤S2中的卷积计算相同。
在步骤S34中,根据每个矩形区块对应的微调参数,对相应矩形区块的位置进行微调:
x=xa+wa*tx,y=ya+ha*ty,
其中,xa、ya、ha和wa分别为同一个矩形区块的中心横坐标、中心纵坐标,长和宽;tx、ty、tw和th分别为同一矩形区块中心横坐标、纵坐标、宽和长的微调参数;
在步骤S35中,采用softmax函数对每个矩形区块的特征图进行处理,得到矩形区块是行人的预判概率:
outcls=f(o),
其中,o为卷积层cls输出的特征图;outcls为卷积层cls最后输出;xi,xj均为矩阵最后一维中的一个元素;为对矩阵最后一维中的每个元素进行e的指数运算后累加求和,e为自然对数;f(xi)为softmax函数;
在步骤S36中,根据计算得到的所有矩形区块是行人的预判概率,删除预判概率低于设定阈值的矩形区块,并将余下的矩形区块作为推荐区域,此处的设定阈值为0.5。
在步骤S4中,截取转换图像与推荐区域对应的区域作为子图像,并将子图像输入VGG16网络模型得到每个子图像的第三特征图。
在步骤S5中,截取第一特征图和所有第二特征图上与第三特征图相对应区域的特征图;
在步骤S6中,将同一第三特征图截取的所有特征图拼接后输入识别网络中进行识别,得到推荐区域是行人的概率,其中将同一第三特征图截取的所有特征图进行拼接的结构图如图3所示。
实施时,本方案优选识别网络为3层的全连接神经网络,其结构如图4所示,图4中i1,i2,i3,i4...in表示输出层的神经元,h1,h2,h3,h4...hm表示隐藏层的神经元,o1,o2表示输出层的神经元。
在本发明的一个实施例中,识别网络中对拼接后的特征图进行识别的方法为:
计算推荐区域是行人的概率:
out1=f(WF6+b),
out2=f(Wout1+b),
其中,W为全连接层的变换矩阵;F6为同一区域对应的所有特征图拼接在一起后变成的一维向量;b为平移参数;out1为前一层的输出;f是sigmod函数;out2为推荐区域是行人的概率;x为矩阵中的一个元素;e是自然对数;
根据所有推荐区域是行人的概率,采用NMS算法去除重合率大于预设阈值的推荐区域,余下的推荐区域是行人的概率为最后的检测结果。
下面结合图5和图6,对本方案的检测方法的召回率和准确率进行说明:
采用INRIA和TUD这两个公开数据集公开的训练集和测试集对本方案的行人检测方法与现有技术中的Faster R-CNN方法进行对比试验。
我们选取INRIA公开数据集中的训练数据集对模型进行训练。在迭代500次后模型接近收敛。我们在INRIA和TUD这两个公开数据集的测试数据集上和Faster R-CNN,对比了miss rate,recall rate,false positive per image(FPPI),precision等相关参数。上述参数计算如下:先定义一下,TP为识别正确的正样本,TN为识别正确的负样本,FP为识别错误的正样本(系统识别错误的部分),FN为识别错误的负样本(没有识别出来的正样本),N为测试集的样本总和。
missrate=1-recallrate
识别结果参考图5和图6。从图5和图6可以看出,我们的方法无论在召回率,还是准确率上都有较好的体现。

Claims (6)

1.基于多尺度的卷积特征的行人检测方法,其特征在于,包括:
获取待识别图像,并将其转换为设定尺寸后存储为转换图像;
将转换图像输入VGG16网络模型进行特征提取,并将最后一个下采样层的输出存储为第一特征图,每个下采样层前一个卷积层的输出存储为第二特征图;
将第一特征图输入区域推荐网络中,得到前景的推荐区域;
截取转换图像与推荐区域对应的区域作为子图像,并将子图像输入VGG16网络模型得到每个子图像的第三特征图;
截取第一特征图和所有第二特征图上与第三特征图相对应区域的特征图;
将同一第三特征图截取的所有特征图拼接后输入识别网络中进行识别,得到推荐区域是行人的概率。
2.根据权利要求1所述的基于多尺度的卷积特征的行人检测方法,其特征在于,所述VGG16网络模型由重复的卷积层和下采样层组成,其中,卷积层的计算和下采样层的计算分别为:
其中,为l层的第j张特征图;为第l层的卷积核;为第l层的平移参数。
3.根据权利要求1所述的基于多尺度的卷积特征的行人检测方法,其特征在于,将第一特征图输入区域推荐网络中,得到前景的推荐区域进一步包括:
根据预设尺寸将转换图像分割成不重叠的子区域,并以每个子区域内任一点为矩形区块的中心,设置k种长宽不同的矩形区块;
将第一特征图输入区域推荐网络中两个独立的卷积层reg和卷积层cls中;
采用卷积层reg预测得到每个矩形区块的微调参数,采用卷积层cls输出每个矩形区块的特征图;
根据每个矩形区块对应的微调参数,对相应矩形区块的位置进行微调:
x=xa+wa*tx,y=ya+ha*ty,
其中,xa、ya、ha和wa分别为同一个矩形区块的中心横坐标、中心纵坐标、长和宽;tx、ty、tw和th分别为同一矩形区块中心横坐标、纵坐标、宽和长的微调参数;
采用softmax函数对每个矩形区块的特征图进行处理,得到矩形区块是行人的预判概率:
outcls=f(o),
其中,o为卷积层cls输出的特征图;outcls为卷积层cls最后输出;xi,xj均为矩阵最后一维中的一个元素;为对矩阵最后一维中的每个元素进行e的指数运算后累加求和,e为自然对数;f(xi)为softmax函数;
根据计算得到的所有矩形区块是行人的预判概率,删除预判概率低于设定阈值的矩形区块,并将余下的矩形区块作为推荐区域。
4.根据权利要求3所述的基于多尺度的卷积特征的行人检测方法,其特征在于,识别网络中对拼接后的特征图进行识别的方法为:
计算推荐区域是行人的概率:
out1=f(WF6+b),
out2=f(Wout1+b),
其中,W为全连接层的变换矩阵;F6为同一区域对应的所有特征图拼接在一起后变成的一维向量;b为平移参数;out1为前一层的输出;f是sigmod函数;out2为推荐区域是行人的概率;x为矩阵中的一个元素;e是自然对数;
根据所有推荐区域是行人的概率,采用NMS算法去除重合率大于预设阈值的推荐区域,余下的推荐区域是行人的概率为最后的检测结果。
5.根据权利要求1-4任一所述的基于多尺度的卷积特征的行人检测方法,其特征在于,所述识别网络为3层的全连接神经网络。
6.根据权利要求1-4任一所述的基于多尺度的卷积特征的行人检测方法,其特征在于,当设定尺寸为M*N时,预设尺寸为(M/32)*(N/32)。
CN201910063790.0A 2019-01-23 2019-01-23 基于多尺度的卷积特征的行人检测方法 Expired - Fee Related CN109784291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910063790.0A CN109784291B (zh) 2019-01-23 2019-01-23 基于多尺度的卷积特征的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910063790.0A CN109784291B (zh) 2019-01-23 2019-01-23 基于多尺度的卷积特征的行人检测方法

Publications (2)

Publication Number Publication Date
CN109784291A true CN109784291A (zh) 2019-05-21
CN109784291B CN109784291B (zh) 2020-10-23

Family

ID=66502202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910063790.0A Expired - Fee Related CN109784291B (zh) 2019-01-23 2019-01-23 基于多尺度的卷积特征的行人检测方法

Country Status (1)

Country Link
CN (1) CN109784291B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340882A (zh) * 2020-02-20 2020-06-26 盈嘉互联(北京)科技有限公司 基于图像的室内定位方法及装置
CN112163499A (zh) * 2020-09-23 2021-01-01 电子科技大学 一种基于融合特征的小目标行人检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017101036A1 (en) * 2015-12-16 2017-06-22 Intel Corporation Fully convolutional pyramid networks for pedestrian detection
CN106934344A (zh) * 2017-01-23 2017-07-07 西北大学 一种基于神经网络的快速行人检测方法
CN107851195A (zh) * 2015-07-29 2018-03-27 诺基亚技术有限公司 利用神经网络进行目标检测
CN108765279A (zh) * 2018-03-19 2018-11-06 北京工业大学 一种面向监控场景的行人人脸超分辨率重建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107851195A (zh) * 2015-07-29 2018-03-27 诺基亚技术有限公司 利用神经网络进行目标检测
WO2017101036A1 (en) * 2015-12-16 2017-06-22 Intel Corporation Fully convolutional pyramid networks for pedestrian detection
CN106934344A (zh) * 2017-01-23 2017-07-07 西北大学 一种基于神经网络的快速行人检测方法
CN108765279A (zh) * 2018-03-19 2018-11-06 北京工业大学 一种面向监控场景的行人人脸超分辨率重建方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340882A (zh) * 2020-02-20 2020-06-26 盈嘉互联(北京)科技有限公司 基于图像的室内定位方法及装置
CN111340882B (zh) * 2020-02-20 2024-02-20 盈嘉互联(北京)科技有限公司 基于图像的室内定位方法及装置
CN112163499A (zh) * 2020-09-23 2021-01-01 电子科技大学 一种基于融合特征的小目标行人检测方法

Also Published As

Publication number Publication date
CN109784291B (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
Luo et al. Fire smoke detection algorithm based on motion characteristic and convolutional neural networks
US10152644B2 (en) Progressive vehicle searching method and device
WO2019232853A1 (zh) 中文模型训练、中文图像识别方法、装置、设备及介质
WO2019140767A1 (zh) 安检识别系统及其控制方法
CN109508671B (zh) 一种基于弱监督学习的视频异常事件检测系统及其方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
WO2019232852A1 (zh) 手写字训练样本获取方法、装置、设备及介质
CN110738647B (zh) 融合多感受野特征映射与高斯概率模型的老鼠检测方法
CN111178208A (zh) 基于深度学习的行人检测方法、装置及介质
CN109284779A (zh) 基于深度全卷积网络的物体检测方法
CN110543906B (zh) 基于Mask R-CNN模型的肤质自动识别方法
CN110245545A (zh) 一种文字识别方法及装置
WO2019232850A1 (zh) 手写汉字图像识别方法、装置、计算机设备及存储介质
CN108734145B (zh) 一种基于密度自适应人脸表征模型的人脸识别方法
Zaidan et al. Image skin segmentation based on multi-agent learning Bayesian and neural network
CN111275010A (zh) 一种基于计算机视觉的行人重识别方法
CN106682681A (zh) 一种基于相关反馈的识别算法自动改进方法
CN109034012A (zh) 基于动态图像和视频子序列的第一人称视角手势识别方法
CN112085072A (zh) 基于时空特征信息的草图检索三维模型的跨模态检索方法
CN109614990A (zh) 一种目标检测装置
Wan et al. LFRNet: Localizing, focus, and refinement network for salient object detection of surface defects
CN113706481A (zh) 精子质量检测方法、装置、计算机设备和存储介质
CN109784291A (zh) 基于多尺度的卷积特征的行人检测方法
Shu et al. Multi-feature fusion target re-location tracking based on correlation filters
CN111241987A (zh) 基于代价敏感的三支决策的多目标模型视觉追踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201023

Termination date: 20220123