CN111191535A - 基于深度学习的行人检测模型构建方法及行人检测方法 - Google Patents
基于深度学习的行人检测模型构建方法及行人检测方法 Download PDFInfo
- Publication number
- CN111191535A CN111191535A CN201911309623.6A CN201911309623A CN111191535A CN 111191535 A CN111191535 A CN 111191535A CN 201911309623 A CN201911309623 A CN 201911309623A CN 111191535 A CN111191535 A CN 111191535A
- Authority
- CN
- China
- Prior art keywords
- prediction
- network
- pedestrian
- pedestrian detection
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于深度学习的行人检测模型构建方法及行人检测方法,该方法设计了一种深度卷积神经网络结构,联合采用改进的排斥损失来监督深度卷积神经网络的训练,该方法首先利用特征提取网络从图像中提取特征图,然后利用多步预测的方式生成行人预测框,最后利用非极大值抑制策略过滤出最终的行人检测框。本发明提出的方法能够有效减少由于类内遮挡引起的漏检和误检。
Description
技术领域
本发明涉及计算机视觉和模式识别领域,具体涉及一种基于深度学习的行人检测模型构建方法及行人检测方法。
背景技术
计算机视觉近几年来一直是研究的热点和难点,而行人检测作为高层视觉任务的基础,已成为计算机视觉领域中至关重要的研究问题。
计算机视觉即通过机器视觉来模仿人眼的视觉系统,认知心理学和神经生物学的研究发现,人类在识别一个具体的物体是什么之前具有一种很强的感知物体的能力。对一幅复杂的图像来说,人类的视觉系统在一开始的反应时间内只会关注其中的某些部分,并忽略图像中其余不显著的部分。这进一步说明在识别一个具体事物之前,在人类的视觉系统中存在一个简单的视觉注意机制,该机制用来筛选出最有可能含有物体的区域。
近年来,卷积神经网络(CNN)在计算机视觉和模式识别方面表现出了强大的能力。许多基于CNN的物体检测方法已经被提出,这促进了行人检测的学术研究和应用进展。目前最先进的行人检测方法为SSD,SSD是端到端的目标检测算法,SSD框架主要包括两部分:特征提取网络和预测网络。其中,特征提取网络用于提取图像特征,生成特征图,现有的特征提取网络提前到的特征不够丰富,且参数多、计算量大。SSD模型在预测阶段,通过直接预测真实框相对于先验框的偏移量,得到目标检测框,缺少了对预测框的修正过程,导致预测框不能准确定位行人。另外,现有的SSD中使用的损失函数缺少对遮挡行人的特殊处理。
发明内容
本发明目的在于提供一种基于深度学习的行人检测模型构建方法及行人检测方法,以提高SSD模型在行人检测方面的性能。
实现本发明目的的技术方案为:一种基于深度学习的行人检测模型构建方法,包括以下步骤:
步骤A1,对行人数据集做预处理,然后利用特征提取网络,提取行人特征,生成特征图;
步骤A2,将特征图和先验框输入预测网络,生成预测框并作为新的先验框,然后将特征图和新的先验框输入预测网络,生成行人预测框;
步骤A3,利用行人数据集训练用于检测行人的深度卷积神经网络,并输出训练好的用于检测行人的深度卷积神经网络;所述深度卷积神经网络的损失由Focal Loss分类损失和具有吸引和排斥功能的定位损失组成。
一种基于深度学习的行人检测方法,包括如下步骤:
步骤B1,输入待检测行人图像;
步骤B2,利用步骤A2中训练好的特征提取网络提取待检测图像的特征,生成特征图,并通过A3训练好的预测网络生成检测框;
步骤B3,利用非极大值抑制策略对步骤B2中生成的检测框进行筛选,并输出行人检测结果。
与现有技术相比,本发明的显著优点为:(1)本发明采用ResNet-50作为特征提取网络,并生成4个不同尺度的特征图,保证了模型既能检测到较大目标又能有效的发现小目标;(2)本发明采用两步预测的方式,第二次是在第一次预测框的基础上做预测,相当于增加了预测框的修正过程,使预测框定位更加准确;(3)针对行人间的密集遮挡问题,本发明使用GIoU损失替换SmoothL1损失作为新的吸引项,并增加了辅助排斥损失项,能够更好的将遮挡率高的行人区分开来,减少了检测器的漏检和误检,提高了检测器的鲁棒性。
附图说明
图1是基于深度学习的行人检测模型构建方法及行人检测方法流程图。
具体实施方式
本发明所提出的基于深度学习的行人检测模型构建方法及行人检测方法,主要包括将第一步预测的预测框作为新的先验框进行第二步预测、使用新的吸引项和排斥项替换SmoothL1损失并训练SSD模型、使用SSD检测器完成行人检测三个主要部分。
下面结合附图,对本发明的一些示范性实施例加以说明。
一种基于深度学习的行人检测模型构建方法,以克服现有SSD的行人检测方法出现明显误检测的问题。结合图1,该方法包括以下3个步骤:
步骤A1,对行人数据集做预处理,然后利用特征提取网络,提取行人特征,生成特征图;
步骤A2,将特征图和先验框输入预测网络,生成预测框并作为新的先验框,然后将特征图和新的先验框输入预测网络,生成行人预测框;
步骤A3,利用行人数据集训练用于检测行人的深度卷积神经网络,并输出训练好的用于检测行人的深度卷积神经网络;所述深度卷积神经网络的损失由Focal Loss分类损失和具有吸引和排斥功能的定位损失组成。
优选的,所述预处理包括对行人标签的处理和数据增强两部分,其中对行人标签的处理是保留行人高度大于50像素的行人真实框,数据增强包括图像随机裁剪、图像翻转、调节图像亮度和图像扭曲。
优选的,在步骤A3中所述深度卷积神经网络由特征提取网络和预测网络两个子网络构成;
使用ResNet-50网络作为特征提取网络的基础网络,在特征提取网络后面添加若干卷积层作为预测网络。
优选的,使用ResNet-50网络中stage3、stage4和stage5的最后一层作为三个不同尺度的特征图,然后在它们后面分别加一个卷积层作为第四个特征图。另外,预测网络为,在特征提取网络的后面添加一个3*3的卷积层,然后附加两个1*1的分支卷积层。
优选的,利用特征提取网络,可以得到4种不同尺度的特征图,分辨率分别为80*160*512、40*80*1024、20*40*2048和10*20*2048。另外,利用预测网络可以得到预测框和每个预测框对应的分类置信度。
优选的,通过两步预测的方式,预测网络利用特征图和先验框生成预测框和分类置信度,其预测步骤具体为:首先,将特征图和预设的先验框输入预测网络,得到第一步预测的预测框,然后,将第一步预测得到的预测框作为新的先验框,并与特征图共同输入预测网络,得到第二步预测的预测框。
优选的,所述的先验框为预设的候选窗口,对于特征图的每一个位置,输出这个位置上4种尺度和4种长宽比的16个候选窗口。
优选的,所述深度卷积神经网络中的特征提取网络的输入为预处理后的行人数据集,预测网络的输入为特征图和先验框;其中预测网络中的特征图为经过特征提取网络从行人数据集中提取到的行人特征图。
所述深度卷积神经网络的损失函数,其构建方法具体为:使用Focal Loss作为分类损失,定位损失包括具有定位功能的吸引项和具有辅助定位功能的排斥项。
优选的,所述的吸引项能够使预测框尽可能接近真实框,所述的排斥项可以使预测框尽可能远离其它目标的真实框,进而有效减少遮挡造成的漏检。
优选的,吸引项使用GIoU损失函数,排斥项使用改进的Repulsion Loss损失函数:
其中
本发明基于上述基于深度学习的行人检测模型构建方法,还提出了一种基于深度学习的行人检测方法,包括如下步骤:
步骤B1,输入待检测行人图像;
步骤B2,利用步骤A2中训练好的特征提取网络提取待检测图像的特征,生成特征图,并通过A3训练好的预测网络生成检测框;
步骤B3,利用非极大值抑制策略对步骤B2中生成的检测框进行筛选,并输出行人检测结果。
下面结合附图和实施例对本发明进行详细说明。
实施例
步骤C1,在CityPersons训练集上训练本发明提出的模型;
步骤C2,以CityPersons验证集作为输入,利用步骤C1中训练好的模型,生成行人检测框。
步骤C3,利用验证集的真实框和步骤C2输出的行人检测框评估模型的对数平均漏检率。
表1不同阈值下模型在CityPersons验证集上的对数平均漏检率
如表1所示,交叠率阈值为0.5时,本发明提出的模型在验证集的Reasonable子集上的对数平均漏检率为13.15%,而这一指标在原始的SSD上仅为16.41%,漏检率降低了3.26%。因此,本发明提出的模型能够跟有效的降低行人的漏检率。
综上所述,本发明提供基于深度学习的行人检测模型构建方法和行人检测方法。针对监控视频中的行人检测,由于行人尺度变化大和互相遮挡等原因,存在许多漏检、误检的问题,本发明在SSD模型的基础上引入了预测加修正的定位策略,并通过替换新的损失函数,在训练时使两个存在类内遮挡的行人的预测框尽可能远离,从而得到更加精确的行人检测器。具体包括:将第一步预测的预测框作为新的先验框进行第二步预测、使用新的吸引项和排斥项替换SmoothL1损失并训练SSD模型、使用SSD检测器完成行人检测。利用本发明提出的方法,可以提高预测框的定位准确度,降低小目标的漏检率,减少由于类内遮挡造成的漏检和误检。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (10)
1.一种基于深度学习的行人检测模型构建方法,其特征在于,包括以下步骤:
步骤A1,对行人数据集做预处理,然后利用特征提取网络,提取行人特征,生成特征图;
步骤A2,将特征图和先验框输入预测网络,生成预测框并作为新的先验框,然后将特征图和新的先验框输入预测网络,生成行人预测框;
步骤A3,利用行人数据集训练用于检测行人的深度卷积神经网络,并输出训练好的用于检测行人的深度卷积神经网络;所述深度卷积神经网络的损失由Focal Loss分类损失和具有吸引和排斥功能的定位损失组成。
2.根据权利要求1所述的基于深度学习的行人检测模型构建方法,其特征在于,所述预处理包括对行人标签的处理和数据增强两部分,其中对行人标签的处理是保留行人高度大于50像素的行人真实框,数据增强包括图像随机裁剪、图像翻转、调节图像亮度和图像扭曲。
3.根据权利要求1所述的基于深度学习的行人检测模型构建方法,其特征在于,在步骤A3中所述深度卷积神经网络由特征提取网络和预测网络两个子网络构成;
使用ResNet-50网络作为特征提取网络的基础网络,在特征提取网络后面添加若干卷积层作为预测网络。
4.根据权利要求3所述的基于深度学习的行人检测模型构建方法,其特征在于,使用ResNet-50网络中stage3、stage4和stage5的最后一层作为三个不同尺度的特征图,然后在它们后面分别添加一个卷积层作为第四个特征图;预测网络为,在特征提取网络的后面添加一个3*3的卷积层,然后附加两个1*1的分支卷积层。
5.根据权利要求4所述的基于深度学习的行人检测模型构建方法,其特征在于,利用特征提取网络,可以得到4种不同尺度的特征图,分辨率分别为80*160*512、40*80*1024、20*40*2048和10*20*2048;利用预测网络可以得到预测框和每个预测框对应的分类置信度。
6.根据权利要求5所述的基于深度学习的行人检测模型构建方法,其特征在于,通过两步预测的方式,预测网络利用特征图和先验框生成预测框和分类置信度,其预测步骤具体为:
首先,将特征图和预设的先验框输入预测网络,得到第一步预测的预测框,然后,将第一步预测得到的预测框作为新的先验框,并与特征图共同输入预测网络,得到第二步预测的预测框。
7.根据权利要求6所述的基于深度学习的行人检测模型构建方法,其特征在于,所述的先验框为预设的候选窗口,对于特征图的每一个位置,输出这个位置上4种尺度和4种长宽比的16个候选窗口。
8.根据权利要求1中所述的基于深度学习的行人检测模型构建方法,其特征在于,所述深度卷积神经网络的损失函数,其构建方法具体为:使用Focal Loss作为分类损失,定位损失包括具有定位功能的吸引项和具有辅助定位功能的排斥项。
10.一种基于权利要求1~9任意一项所述基于深度学习的行人检测模型构建方法的行人检测方法,其特征在于,包括如下步骤:
步骤B1,输入待检测行人图像;
步骤B2,利用步骤A2中训练好的特征提取网络提取待检测图像的特征,生成特征图,并通过A3训练好的预测网络生成检测框;
步骤B3,利用非极大值抑制策略对步骤B2中生成的检测框进行筛选,并输出行人检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911309623.6A CN111191535B (zh) | 2019-12-18 | 2019-12-18 | 基于深度学习的行人检测模型构建方法及行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911309623.6A CN111191535B (zh) | 2019-12-18 | 2019-12-18 | 基于深度学习的行人检测模型构建方法及行人检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191535A true CN111191535A (zh) | 2020-05-22 |
CN111191535B CN111191535B (zh) | 2022-08-09 |
Family
ID=70710073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911309623.6A Active CN111191535B (zh) | 2019-12-18 | 2019-12-18 | 基于深度学习的行人检测模型构建方法及行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191535B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033478A (zh) * | 2021-04-19 | 2021-06-25 | 曲阜师范大学 | 一种基于深度学习的行人检测方法 |
CN113221744A (zh) * | 2021-05-12 | 2021-08-06 | 天津大学 | 一种基于深度学习的单目图像3d物体检测方法 |
CN115147642A (zh) * | 2022-06-02 | 2022-10-04 | 盛视科技股份有限公司 | 基于视觉的渣土车检测方法、装置、计算机及存储介质 |
CN115393384A (zh) * | 2022-09-14 | 2022-11-25 | 清华大学 | 基于跨相机的多目标跟踪模型的训练方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN109344821A (zh) * | 2018-08-30 | 2019-02-15 | 西安电子科技大学 | 基于特征融合和深度学习的小目标检测方法 |
CN110163369A (zh) * | 2019-05-21 | 2019-08-23 | 北京迈格威科技有限公司 | 图像识别与神经网络模型的训练方法、装置和系统 |
-
2019
- 2019-12-18 CN CN201911309623.6A patent/CN111191535B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN109344821A (zh) * | 2018-08-30 | 2019-02-15 | 西安电子科技大学 | 基于特征融合和深度学习的小目标检测方法 |
CN110163369A (zh) * | 2019-05-21 | 2019-08-23 | 北京迈格威科技有限公司 | 图像识别与神经网络模型的训练方法、装置和系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033478A (zh) * | 2021-04-19 | 2021-06-25 | 曲阜师范大学 | 一种基于深度学习的行人检测方法 |
CN113221744A (zh) * | 2021-05-12 | 2021-08-06 | 天津大学 | 一种基于深度学习的单目图像3d物体检测方法 |
CN115147642A (zh) * | 2022-06-02 | 2022-10-04 | 盛视科技股份有限公司 | 基于视觉的渣土车检测方法、装置、计算机及存储介质 |
CN115393384A (zh) * | 2022-09-14 | 2022-11-25 | 清华大学 | 基于跨相机的多目标跟踪模型的训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111191535B (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191535B (zh) | 基于深度学习的行人检测模型构建方法及行人检测方法 | |
CN108830252B (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
US8792722B2 (en) | Hand gesture detection | |
CN103295016B (zh) | 基于深度与rgb信息和多尺度多方向等级层次特征的行为识别方法 | |
US8750573B2 (en) | Hand gesture detection | |
JP6482195B2 (ja) | 画像認識装置、画像認識方法及びプログラム | |
CN105260749B (zh) | 基于方向梯度二值模式和软级联svm的实时目标检测方法 | |
CN103824070A (zh) | 一种基于计算机视觉的快速行人检测方法 | |
CN104778474A (zh) | 一种用于目标检测的分类器构建方法及目标检测方法 | |
CN102043953A (zh) | 一种实时鲁棒的针对特定场景的行人检测方法 | |
CN109063625A (zh) | 一种基于级联深度网络的人脸关键点检测方法 | |
CN112926522B (zh) | 一种基于骨骼姿态与时空图卷积网络的行为识别方法 | |
CN113763424B (zh) | 基于嵌入式平台的实时智能目标检测方法及系统 | |
CN107729811B (zh) | 一种基于场景建模的夜间火焰检测方法 | |
CN111382606A (zh) | 摔倒检测方法、摔倒检测装置和电子设备 | |
KR101313879B1 (ko) | 기울기 히스토그램을 이용한 사람 검출 추적 시스템 및 방법 | |
CN116912763A (zh) | 一种融合步态人脸模态的多行人重识别方法 | |
CN108985216B (zh) | 一种基于多元logistic回归特征融合的行人头部检测方法 | |
CN107403192B (zh) | 一种基于多分类器的快速目标检测方法及系统 | |
JP5241687B2 (ja) | 物体検出装置及び物体検出プログラム | |
CN112347967B (zh) | 一种复杂场景下融合运动信息的行人检测方法 | |
Fatichah et al. | Optical flow feature based for fire detection on video data | |
TWI736063B (zh) | 物件偵測方法以及電子裝置 | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
CN111191575B (zh) | 一种基于火苗跳动建模的明火检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |