CN111144203A - 一种基于深度学习的行人遮挡检测方法 - Google Patents
一种基于深度学习的行人遮挡检测方法 Download PDFInfo
- Publication number
- CN111144203A CN111144203A CN201911131589.8A CN201911131589A CN111144203A CN 111144203 A CN111144203 A CN 111144203A CN 201911131589 A CN201911131589 A CN 201911131589A CN 111144203 A CN111144203 A CN 111144203A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- feature map
- feature
- stage
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 37
- 238000013135 deep learning Methods 0.000 title claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 238000005070 sampling Methods 0.000 claims abstract description 14
- 230000009466 transformation Effects 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 230000007306 turnover Effects 0.000 abstract 1
- 238000000034 method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种基于深度学习的行人遮挡检测方法,首先采用无锚点的数据预处理方式,并且对于行人数据进行遮挡扩充,还采用了随机色彩变换、水平翻转、随机尺寸变换等数据增强方式;其次是一种新的特征融合方式,对于精炼神经网络(Refinement Neural Network,RefineDet)的特征融合模块(Transfer Connection Block,TCB)进行改进,减少其下采样次数,对于ResNet的不同阶段进行了更为充分的特征融合;最终传入到检测头网络中,得到效果更好的行人遮挡检测算法RefinePedDet。本发明通过实际测试得到漏检率更低的行人遮挡检测算法。
Description
技术领域
本发明涉及计算机视觉中图像处理和模式识别技术领域,具体涉及一种基于深度学习的行人遮挡检测方法。
背景技术
行人检测具有较为广泛的应用领域,可以应用在无人驾驶、视频监控与安防、搜索营救等领域,主要是指对于视频或者图片中的行人目标进行类别判断以及定位的过程。
然而,在实际场景中,行人被遮挡在所难免,主要表现在行人与行人之间的遮挡以及行人被物体的遮挡,从而导致目前已有的行人检测算法在检测行人的时候出现很多漏检,因此,行人遮挡检测是行人检测领域中较为复杂的领域。
发明内容
本发明的目的是提供一种漏检率更低、效果更好的基于深度学习的行人遮挡检测方法。
为了达到上述目的,本发明通过以下技术方案来实现:
一种基于深度学习的行人遮挡检测方法,包括如下步骤:
S1)获取行人坐标
获取带有行人坐标标签的数据集,数据集包括行人的全身部分及可见部分的坐标位置;
S2)数据预处理
S2-1)对于采集的行人数据的全身部分进行无锚点数据预处理;具体地,将行人标注的左上角、右下角坐标进行格式转化,转化为行人的中心点及行人的高度信息,其中,行人的宽度信息可根据高度:宽度=2.44:1来获取;
采用二维高斯掩码的方式对正样本提取中心点,如果中心点有重叠部分,选择重叠部分的最大值,公式为:
S2-2)对于采集的行人数据的可见部分进行遮挡扩充处理;具体地,将行人的身体部位拆分为四个部分:左上半身、右下半身、左腿和右腿,并对这四个部分中的某一个部分以0.5为阈值随机遮挡;
S2-3)数据增强,包括随机色彩变换、水平翻转、随机尺寸变换等处理;
S3)对图像进行特征提取
S3-1)对深度残差网络类中的ResNet50基础网络进行改进;具体地,将原ResNet50的第一到第四阶段每个阶段的特征图都下采样2倍,共下采样16倍,在第五阶段卷积层添加空洞卷积模块,对第五阶段的特征图下采样16倍;
S3-2)对改进的精炼神经网络RefineNet的特征融合模块TCB进一步改进,减少特征融合模块TCB的下采样次数;
对于ResNet50的每个阶段的特征图进行反向相邻阶段的特征融合;具体地,从最深层第五阶段的特征图开始与前一个阶段的特征图进行前向相加融合得到c4特征图,c4特征图进行上采样之后与第三阶段的特征图进行前向相加融合得到c3特征图,c3特征图进行上采样之后与第二阶段的特征图进行前向相加融合得到c2特征图;然后分别将c3上采样2倍,c4上采样4倍,使得c2、c3、c4这三个特征融合之后的特征图相比于原始图像都下采样4倍;完成特征融合的c2、c3、c4这三个特征图传入到检测头中;
S4)检测头网络结构的设计
采用双卷积检测头的方式,在RefineNet的连接特征融合之后引入两个卷积检测头,分别做分类和回归任务;
获取步骤S3)经过特征融合之后的特征图,用来做行人的全身部分的预测;将步骤S3)经过特征融合之后的特征图,经过3*3卷积,再分别采用1*1卷积来预测分类和回归结果;
S5)构造损失函数
总的损失函数由分类损失函数和回归损失函数组成,公式为:
对于分类损失函数,由于正负样本严重不均衡,采用FocalLoss的损失函数,公式为:
其中,K表示所有图片数量,W和H分别表示图片的宽度和高度,r表示下采样的倍数,这
里r=4,表示是否是物体中心的概率值,其取值范围是[0,1],表示正负样本的权重,如公式(1),表示高斯掩码的最大值,将设置为4;正负样本的权重的公式为:
对于回归损失函数,采用Smooth L1 Loss,公式为:
S6)验证结果。
本发明与现有技术相比,具有以下优点:
本发明一种基于深度学习的行人遮挡检测方法,漏检率更低,效果更好。首先,本发明对于行人的全身部分采用无锚点目标检测处理,并对行人全身部分的遮挡数据进行扩充,更有利于遮挡场景下的行人检测;其次,对于ResNet50基础网络进行改进,在最后阶段添加空洞卷积使得该阶段特征图分辨率不再下采样2倍,与此同时,从第五阶段开始进行反向相邻阶段的特征融合,得到c2、c3、c4这三个特征图,将这三个特征图进行concatenate特征融合,传入到检测头中,将传入到检测头的特征图进行全身部分预测,得到最终的行人预测结果。
附图说明
图1是本发明一种基于深度学习的行人遮挡检测方法的多级融合精炼神经网络MFR-NET架构图。
具体实施方式
下面结合附图,对本发明的实施例作进一步详细的描述。
一种基于深度学习的行人遮挡检测方法,包括如下步骤:
S1)获取行人坐标
获取带有行人坐标标签的数据集,数据集包括行人的全身部分及可见部分的坐标位置;
S2)数据预处理
S2-1)对于采集的行人数据的全身部分进行无锚点数据预处理;具体地,将行人标注的左上角、右下角坐标进行格式转化,转化为行人的中心点及行人的高度信息,其中,行人的宽度信息可根据高度:宽度=2.44:1来获取;
采用二维高斯掩码的方式对正样本提取中心点,如果中心点有重叠部分,选择重叠部分的最大值,公式为:
S2-2)对于采集的行人数据的可见部分进行遮挡扩充处理;具体地,将行人的身体部位拆分为四个部分:左上半身、右下半身、左腿和右腿,并对这四个部分中的某一个部分以0.5为阈值随机遮挡;
S2-3)数据增强,包括随机色彩变换、水平翻转、随机尺寸变换等处理;
S3)对图像进行特征提取
S3-1)对深度残差网络类中的ResNet50基础网络进行改进;具体地,将原ResNet50的第一到第四阶段每个阶段的特征图都下采样2倍,共下采样16倍,在第五阶段卷积层添加空洞卷积模块,对第五阶段的特征图下采样16倍;
S3-2)对改进的精炼神经网络RefineNet的特征融合模块TCB进一步改进,减少特征融合模块TCB的下采样次数;
对于ResNet50的每个阶段的特征图进行反向相邻阶段的特征融合;具体地,从最深层第五阶段的特征图开始与前一个阶段的特征图进行前向相加融合得到c4特征图,c4特征图进行上采样之后与第三阶段的特征图进行前向相加融合得到c3特征图,c3特征图进行上采样之后与第二阶段的特征图进行前向相加融合得到c2特征图;然后分别将c3上采样2倍,c4上采样4倍,使得c2、c3、c4这三个特征融合之后的特征图相比于原始图像都下采样4倍;完成特征融合的c2、c3、c4这三个特征图传入到检测头中;
S4)检测头网络结构的设计
采用双卷积检测头的方式,在RefineNet的连接特征融合之后引入两个卷积检测头,分别做分类和回归任务;
获取步骤S3)经过特征融合之后的特征图,用来做行人的全身部分的预测;将步骤S3)经过特征融合之后的特征图,经过3*3卷积,再分别采用1*1卷积来预测分类和回归结果;
S5)构造损失函数
总的损失函数由分类损失函数和回归损失函数组成,公式为:
对于分类损失函数,由于正负样本严重不均衡,采用FocalLoss的损失函数,公式为:
其中,K表示所有图片数量,W和H分别表示图片的宽度和高度,r表示下采样的倍数,这
里r=4,表示是否是物体中心的概率值,其取值范围是[0,1],表示正负样本的权重,如公式(1),表示高斯掩码的最大值,将设置为4;正负样本的权重的公式为:
对于回归损失函数,采用Smooth L1 Loss,公式为:
S6)验证结果。
以上所述仅是本发明优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。
Claims (1)
1.一种基于深度学习的行人遮挡检测方法,其特征在于包括如下步骤:
S1)获取行人坐标
获取带有行人坐标标签的数据集,数据集包括行人的全身部分及可见部分的坐标位置;
S2)数据预处理
S2-1)对于采集的行人数据的全身部分进行无锚点数据预处理;具体地,将行人标注的左上角、右下角坐标进行格式转化,转化为行人的中心点及行人的高度信息,其中,行人的宽度信息可根据高度:宽度=2.44:1来获取;
采用二维高斯掩码的方式对正样本提取中心点,如果中心点有重叠部分,选择重叠部分的最大值,公式为:
S2-2)对于采集的行人数据的可见部分进行遮挡扩充处理;具体地,将行人的身体部位拆分为四个部分:左上半身、右下半身、左腿和右腿,并对这四个部分中的某一个部分以0.5为阈值随机遮挡;
S2-3)数据增强,包括随机色彩变换、水平翻转、随机尺寸变换等处理;
S3)对图像进行特征提取
S3-1)对深度残差网络类中的ResNet50基础网络进行改进;具体地,将原ResNet50的第一到第四阶段每个阶段的特征图都下采样2倍,共下采样16倍,在第五阶段卷积层添加空洞卷积模块,对第五阶段的特征图下采样16倍;
S3-2)对改进的精炼神经网络RefineNet的特征融合模块TCB进一步改进,减少特征融合模块TCB的下采样次数;
对于ResNet50的每个阶段的特征图进行反向相邻阶段的特征融合;具体地,从最深层第五阶段的特征图开始与前一个阶段的特征图进行前向相加融合得到c4特征图,c4特征图进行上采样之后与第三阶段的特征图进行前向相加融合得到c3特征图,c3特征图进行上采样之后与第二阶段的特征图进行前向相加融合得到c2特征图;然后分别将c3上采样2倍,c4上采样4倍,使得c2、c3、c4这三个特征融合之后的特征图相比于原始图像都下采样4倍;完成特征融合的c2、c3、c4这三个特征图传入到检测头中;
S4)检测头网络结构的设计
采用双卷积检测头的方式,在RefineNet的连接特征融合之后引入两个卷积检测头,分别做分类和回归任务;
获取步骤S3)经过特征融合之后的特征图,用来做行人的全身部分的预测;将步骤S3)经过特征融合之后的特征图,经过3*3卷积,再分别采用1*1卷积来预测分类和回归结果;
S5)构造损失函数
总的损失函数由分类损失函数和回归损失函数组成,公式为:
对于分类损失函数,由于正负样本严重不均衡,采用FocalLoss的损失函数,公式为:
其中,K表示所有图片数量,W和H分别表示图片的宽度和高度,r表示下采样的倍数,这
里r=4,表示是否是物体中心的概率值,其取值范围是[0,1],表示正负样本的权重,如公式(1),表示高斯掩码的最大值,将设置为4;正负样本的权重的公式为:
对于回归损失函数,采用Smooth L1 Loss,公式为:
S6)验证结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911131589.8A CN111144203B (zh) | 2019-11-19 | 2019-11-19 | 一种基于深度学习的行人遮挡检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911131589.8A CN111144203B (zh) | 2019-11-19 | 2019-11-19 | 一种基于深度学习的行人遮挡检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144203A true CN111144203A (zh) | 2020-05-12 |
CN111144203B CN111144203B (zh) | 2023-06-16 |
Family
ID=70517088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911131589.8A Active CN111144203B (zh) | 2019-11-19 | 2019-11-19 | 一种基于深度学习的行人遮挡检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144203B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723322A (zh) * | 2021-09-02 | 2021-11-30 | 南京理工大学 | 一种基于单阶段无锚点框架的行人检测方法及系统 |
CN114627292A (zh) * | 2022-03-08 | 2022-06-14 | 浙江工商大学 | 工业遮挡目标检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106910176A (zh) * | 2017-03-02 | 2017-06-30 | 中科视拓(北京)科技有限公司 | 一种基于深度学习的人脸图像去遮挡方法 |
CN108898047A (zh) * | 2018-04-27 | 2018-11-27 | 中国科学院自动化研究所 | 基于分块遮挡感知的行人检测方法及系统 |
CN109711262A (zh) * | 2018-11-28 | 2019-05-03 | 大连理工大学 | 一种基于深度卷积神经网络的智能挖掘机行人检测方法 |
CN110020688A (zh) * | 2019-04-10 | 2019-07-16 | 西安电子科技大学 | 基于深度学习的遮挡行人检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399362B (zh) * | 2018-01-24 | 2022-01-07 | 中山大学 | 一种快速行人检测方法及装置 |
CN109670528B (zh) * | 2018-11-14 | 2023-04-18 | 中国矿业大学 | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 |
-
2019
- 2019-11-19 CN CN201911131589.8A patent/CN111144203B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106910176A (zh) * | 2017-03-02 | 2017-06-30 | 中科视拓(北京)科技有限公司 | 一种基于深度学习的人脸图像去遮挡方法 |
CN108898047A (zh) * | 2018-04-27 | 2018-11-27 | 中国科学院自动化研究所 | 基于分块遮挡感知的行人检测方法及系统 |
CN109711262A (zh) * | 2018-11-28 | 2019-05-03 | 大连理工大学 | 一种基于深度卷积神经网络的智能挖掘机行人检测方法 |
CN110020688A (zh) * | 2019-04-10 | 2019-07-16 | 西安电子科技大学 | 基于深度学习的遮挡行人检测方法 |
Non-Patent Citations (1)
Title |
---|
邢浩强等: "基于改进SSD的行人检测方法", 《计算机工程》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723322A (zh) * | 2021-09-02 | 2021-11-30 | 南京理工大学 | 一种基于单阶段无锚点框架的行人检测方法及系统 |
CN114627292A (zh) * | 2022-03-08 | 2022-06-14 | 浙江工商大学 | 工业遮挡目标检测方法 |
CN114627292B (zh) * | 2022-03-08 | 2024-05-14 | 浙江工商大学 | 工业遮挡目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111144203B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020651B (zh) | 基于深度学习网络的车牌检测定位方法 | |
CN110084850B (zh) | 一种基于图像语义分割的动态场景视觉定位方法 | |
CN103824070B (zh) | 一种基于计算机视觉的快速行人检测方法 | |
CN107016357B (zh) | 一种基于时间域卷积神经网络的视频行人检测方法 | |
CN112949633B (zh) | 一种基于改进YOLOv3的红外目标检测方法 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN114187665B (zh) | 一种基于人体骨架热图的多人步态识别方法 | |
CN111931764B (zh) | 一种目标检测方法、目标检测框架及相关设备 | |
CN110765906A (zh) | 一种基于关键点的行人检测算法 | |
Ye et al. | A two-stage real-time YOLOv2-based road marking detector with lightweight spatial transformation-invariant classification | |
CN111915583B (zh) | 复杂场景中基于车载红外热像仪的车辆和行人检测方法 | |
CN103996198A (zh) | 复杂自然环境下感兴趣区域的检测方法 | |
CN113076891B (zh) | 基于改进高分辨率网络的人体姿态预测方法及系统 | |
CN111144203B (zh) | 一种基于深度学习的行人遮挡检测方法 | |
CN113378675A (zh) | 一种同时检测和特征提取的人脸识别方法 | |
CN113297982A (zh) | 一种面向航拍改进kcf和dsst相结合的目标检测方法 | |
CN112396036A (zh) | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 | |
CN115578418A (zh) | 一种基于双重注意力网络的单目标跟踪方法 | |
CN109711420B (zh) | 基于人类视觉注意机制的多仿射目标的检测与识别方法 | |
CN117593548A (zh) | 基于加权注意力机制去除动态特征点的视觉slam方法 | |
CN112528994A (zh) | 一种自由角度车牌检测方法、车牌识别方法和识别系统 | |
CN115147817B (zh) | 一种姿态引导的实例感知网络的驾驶员分心行为识别方法 | |
CN114820723B (zh) | 一种基于联合检测和关联的在线多目标跟踪方法 | |
CN106778504A (zh) | 一种行人检测方法 | |
CN113837243B (zh) | 基于边缘信息的rgb-d相机动态视觉里程计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |