CN111967287A - 一种基于深度学习的行人检测方法 - Google Patents

一种基于深度学习的行人检测方法 Download PDF

Info

Publication number
CN111967287A
CN111967287A CN201910417337.5A CN201910417337A CN111967287A CN 111967287 A CN111967287 A CN 111967287A CN 201910417337 A CN201910417337 A CN 201910417337A CN 111967287 A CN111967287 A CN 111967287A
Authority
CN
China
Prior art keywords
network
rfb
ssd
model
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910417337.5A
Other languages
English (en)
Inventor
陈进
王林
杨刚
郭诚俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Jin Xin Information Technology Co ltd
Original Assignee
Jiangsu Jin Xin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Jin Xin Information Technology Co ltd filed Critical Jiangsu Jin Xin Information Technology Co ltd
Priority to CN201910417337.5A priority Critical patent/CN111967287A/zh
Publication of CN111967287A publication Critical patent/CN111967287A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Abstract

本发明公开了一种基于深度学习的行人检测方法,主要是在SSD网络结构中引入手工设计的模块方法(RFBNet)对行人进行检测。具体如下:获取训练图像数据;对训练图像数据做预处理后输入改进后的SSD训练网络参数得到网络模型;将训练图像数据做相同的预处理操作输入到改进的SSD模型中进一步对行人进行精定位并通过分类判别得到行人的位置信息。本发明整体上因为是基于SSD网络进行改进,所以检测速度还是比较快,同时精度也有一定的保证。

Description

一种基于深度学习的行人检测方法
技术领域
本发明涉及行人技术检测领域,具体涉及一种将SSD算法与多分支卷积模块结合的行人检测方法。
背景技术
近年来计算机视觉作为一个研究热点受到众多研究者的关注。计算机视觉的任务是模拟人的视觉系统理解所拍摄的图像中的内容,行人检测作为计算机视觉中的一个重要的研究方向,在众多学者的努力下得到大力发展并广泛地应用于现代生活的方方面面。人们日常生活中很多场景都会用到行人检测技术,例如智能交通、智能视频监控、人机交互、智能汽车驾驶辅助系统等。良好的行人检测算法可以为这些应用提供有力的支持。
发明内容
本发明要解决的技术问题之一在于提供一种行人检测技术方法,以实现一种结合多分支卷积模块(RFB)和SSD网络相结合的行人检测方法,其可以在保证较快速度的前提下,提高行人检测的准确率。
为了实现上述目的,本发明采用了如下的技术方案:
步骤S1:构建带有标注和标签的图片库作为训练样本集和测试样本集;
步骤S2:将RFB结构加入SSD模型构建改进的SSD模型;
步骤S3:利用训练图像学习出构建模型的网络参数,获得用于测试过程的模型;
步骤S4:输入测试样本,通过训练好的SSD模型对不同尺度范围内的行人进行检测,预测出图像中行人的位置框图。
进一步地,步骤 S2 还包括 :
步骤S2a:网络结构设计及初始化:基网络选用SSD网络结构,在主干网上用两个RFB结构替换原来新增的两层并在conv4_3和conv7_fc在接预测层之前分别接RFB-s和RFB结构;
步骤S2b:网络训练:将步骤S2a得到的初始化后模型在预处理后的训练图像数据上进行参数微调;
进一步地,步骤S2a 中还包括如下步骤:
(a)SSD基网络使用VGG16网络,将fc6和fc7层转换成卷积层用于下采样参数,并且将pool5从2x2-s2改成3x3-s1,膨胀卷积用来填充空缺和所有dropout层,并移除fc8层;
(b)RFB整体结构上借鉴了Inception的思想,主要不同点在于引入3个dilated卷积层(比如3*3conv, rate=1),用来增大感受野;而RFB-s是对RFB的改进,一方面用3*3卷积层代替5*5卷积层,另一方面用1*3和3*1卷积层代替3*3卷积层,主要目的应该是为了减少计算量;
进一步地,步骤S2b中还包括训练过程采用fine-tuing(微调)方法,用已经在ILSVR上训练迭代数十万次的模型作为基础来初始化基础网络的部分参数;
进一步地,步骤S3中还包括利用数据集扩充方法对训练图像数据做样本扩充,所用数据集扩充方法包括旋转、颜色变换和平移。
采用上述技术方案带来的有益效果:
本发明采用了一种结合多分支卷积模块(RFB) 和SSD网络结构相结合的行人检测方法,利用RFB通过模拟人类视觉的感受野加强网络的特征提取能力,克服了SSD网络结构对小目标检测准确率不高的缺点。该技术在精度与检测速度之间取得了更好的效果,具有较好的实用性与鲁棒性。
附图说明
图1是算法流程图;
图2是SSD网络结构图;
图3是RFB-Net的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明进行详细描述。如图1所示,本发明基础网络为SSD架构并结合图2 RFB模块训练得到一个行人检测模型,提升检测准确度和鲁棒性。本方法具体包括以下步骤:
步骤S1,构建可配置的基于卷积神经网络的深度模型,利用训练样本学习出构建的网络参数,获得用于测试过程的模型。在本发明具体实施例中,该深度学习网络由SSD网络中的基网络VGG16网络作为基础,后面接着一系列重叠的卷积层,从而得到一系列空间分辨率减小而感受野增大的特征图。该模型与原始模型最大的不同在于将图2SSD结构中新增的两层Conv8_2与Conv9_2替换成 两个RFB结构,并在conv4_3和conv7_fc在接预测层之前分别接RFB-s和RFB结构。改进后的结构如图3所示。
步骤S2,构建包含行人的图片库作为训练样本集和测试样本集;具体为:从视频中按帧数获取所有图像,并依此从图像中分割出所有行人,并获得所有行人的图片及对应的真实box的坐标和分类标签。
步骤S3,对步骤S2的图片进行预处理,将图片缩放成300×300。
步骤S4,将步骤3中得到的处理后的图像和行人的ground truth box(真实边框)输入改进的SSD网络结构中进行训练预测,可以在多个feature map的每个细胞单元都估计一系列不同长宽比,不同尺寸的default box。然后对每个default box,为要检测的行人做偏移量、准确率的预测。在训练过程如下:先用所有的default box去匹配ground truthbox,匹配的上就是正样本,没有匹配上就是负样本,负样本数量远远大于正样本数量,这时根据行人目标default box的概率,选出概率值较大的负样本,使得正负样本比例为1:3,再将它们用于训练以得到更优化的训练模型。整个训练和测试过程均在深度学习框架Caffe下进行,该SSD网络输入图像尺寸为300×300,网络结构中,Conv4_3的输出尺寸为38×38,Conv7_fc的输出尺寸为19×19。
步骤S5,在测试阶段,直接预测行人目标default box的offsets(偏移)和概率,再通过non-maximum suppression(非最大抑制)来计算最终的结果。
以上对本发明实施例所提供的基于深度学习的行人检测方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (5)

1.一种基于深度学习的行人检测方法,其特征在于,其包括:
步骤S1:构建带有标注和标签的图片库作为训练样本集和测试样本集;
步骤S2:将RFB结构加入SSD模型构建改进的SSD模型,;
步骤S3:利用训练图像学习出构建模型的网络参数,获得用于测试过程的模型;
步骤S4:输入测试样本,通过训练好的SSD模型对不同尺度范围内的行人进行检测,预测出图像中行人的位置框图。
2.根据权利要求1所述的基于深度学习的行人检测方法,其特征在于,所述步骤 S2 还包括如下步骤 :
(2.1)网络结构设计及初始化:基网络选用SSD网络结构,在主干网上用两个RFB结构替换原来新增的两层并在conv4_3和conv7_fc在接预测层之前分别接RFB-s和RFB结构;
(2.2)网络训练:将(2.1)得到的初始化后模型在预处理后的训练图像数据上进行参数微调。
3.根据权利要求2所述的基于深度学习的行人检测方法,其特征在于,所述步骤(2.1)中还包括如下步骤:
(3.1)SSD基网络使用VGG16网络,将fc6和fc7层转换成卷积层用于下采样参数,并且将pool5从2x2-s2改成3x3-s1,膨胀卷积用来填充空缺和所有dropout层,并移除fc8层;
(3.2)RFB整体结构上借鉴了Inception的思想,主要不同点在于引入3个dilated卷积层(比如3*3conv, rate=1),用来增大感受野;而RFB-s是对RFB的改进,一方面用3*3卷积层代替5*5卷积层,另一方面用1*3和3*1卷积层代替3*3卷积层,主要目的应该是为了减少计算量。
4.根据权利要求2所述的基于深度学习的行人检测方法,其特征在于,所述步骤(2.2)中还包括训练过程采用fine-tuing(微调)方法,用已经在ILSVR上训练迭代数十万次的模型作为基础来初始化基础网络的部分参数。
5.根据权利要求1所述的一种基于深度学习的行人检测方法,其特征在于,步骤S3中还包括利用数据集扩充方法对训练图像数据做样本扩充,所用数据集扩充方法包括旋转、颜色变换和平移。
CN201910417337.5A 2019-05-20 2019-05-20 一种基于深度学习的行人检测方法 Pending CN111967287A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910417337.5A CN111967287A (zh) 2019-05-20 2019-05-20 一种基于深度学习的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910417337.5A CN111967287A (zh) 2019-05-20 2019-05-20 一种基于深度学习的行人检测方法

Publications (1)

Publication Number Publication Date
CN111967287A true CN111967287A (zh) 2020-11-20

Family

ID=73357760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910417337.5A Pending CN111967287A (zh) 2019-05-20 2019-05-20 一种基于深度学习的行人检测方法

Country Status (1)

Country Link
CN (1) CN111967287A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464822A (zh) * 2020-11-30 2021-03-09 深圳市捷顺科技实业股份有限公司 一种基于特征增强的头盔佩戴检测方法及装置
CN112597801A (zh) * 2020-11-24 2021-04-02 安徽天虹数码科技股份有限公司 一种录播系统中教师检测与跟踪方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090458A (zh) * 2017-12-29 2018-05-29 南京阿凡达机器人科技有限公司 人体跌倒检测方法和装置
CN108399361A (zh) * 2018-01-23 2018-08-14 南京邮电大学 一种基于卷积神经网络cnn和语义分割的行人检测方法
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法
CN109409252A (zh) * 2018-10-09 2019-03-01 杭州电子科技大学 一种基于改进型ssd网络的车辆行人多目标检测方法
CN109655815A (zh) * 2018-11-23 2019-04-19 杭州电子科技大学 基于ssd的声呐目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090458A (zh) * 2017-12-29 2018-05-29 南京阿凡达机器人科技有限公司 人体跌倒检测方法和装置
CN108399361A (zh) * 2018-01-23 2018-08-14 南京邮电大学 一种基于卷积神经网络cnn和语义分割的行人检测方法
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法
CN109409252A (zh) * 2018-10-09 2019-03-01 杭州电子科技大学 一种基于改进型ssd网络的车辆行人多目标检测方法
CN109655815A (zh) * 2018-11-23 2019-04-19 杭州电子科技大学 基于ssd的声呐目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SONGTAO LIU, DI HUANG, AND YUNHONG WANG: ""Receptive Field Block Net for Accurate and Fast Object Detection"", 《ARXIV》, vol. 1711, no. 3, pages 1 - 16 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597801A (zh) * 2020-11-24 2021-04-02 安徽天虹数码科技股份有限公司 一种录播系统中教师检测与跟踪方法及系统
CN112597801B (zh) * 2020-11-24 2023-08-01 安徽天虹数码科技股份有限公司 一种录播系统中教师检测与跟踪方法及系统
CN112464822A (zh) * 2020-11-30 2021-03-09 深圳市捷顺科技实业股份有限公司 一种基于特征增强的头盔佩戴检测方法及装置

Similar Documents

Publication Publication Date Title
CN108665496B (zh) 一种基于深度学习的端到端的语义即时定位与建图方法
CN110728200B (zh) 一种基于深度学习的实时行人检测方法及系统
CN110263706B (zh) 一种雾霾天气车载视频动态目标检测和识别的方法
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN113723377B (zh) 一种基于ld-ssd网络的交通标志检测方法
CN112836597B (zh) 基于级联并行卷积神经网络的多手姿态关键点估计方法
CN110766002B (zh) 一种基于深度学习的船名字符区域检测方法
CN110796018A (zh) 一种基于深度图像和彩色图像的手部运动识别方法
CN109886086B (zh) 基于hog特征和线性svm级联分类器的行人检测方法
CN112801027A (zh) 基于事件相机的车辆目标检测方法
CN112597920A (zh) 基于YOLOv3剪枝网络的实时物体检测系统
CN112861700A (zh) 基于DeepLabv3+的车道线网络识别模型建立及车辆速度检测方法
CN113052106A (zh) 一种基于PSPNet网络的飞机起降跑道识别方法
CN112700476A (zh) 一种基于卷积神经网络的红外船视频跟踪方法
CN111967287A (zh) 一种基于深度学习的行人检测方法
CN116597326A (zh) 一种基于改进YOLOv7算法的无人机航拍小目标检测方法
CN113963333B (zh) 一种基于改进yolof模型的交通标志牌检测方法
CN113850324B (zh) 一种基于Yolov4的多光谱目标检测方法
CN109919215B (zh) 基于聚类算法改进特征金字塔网络的目标检测方法
CN113284185B (zh) 用于遥感目标检测的旋转目标检测方法
CN113255555A (zh) 中国交通标志牌识别方法、系统、处理设备及存储介质
CN115240163A (zh) 一种基于一阶段检测网络的交通标志检测方法及系统
CN114111647A (zh) 一种基于人工智能的绝缘子伞裙破损面积测量方法及测量系统
CN113569650A (zh) 一种基于电力杆塔标牌识别的无人机自主巡检定位方法
CN111985476A (zh) 一种基于ssd算法的交通指示牌目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination