CN111723786B - 一种基于单模型预测的安全帽佩戴检测方法及装置 - Google Patents

一种基于单模型预测的安全帽佩戴检测方法及装置 Download PDF

Info

Publication number
CN111723786B
CN111723786B CN202010851025.8A CN202010851025A CN111723786B CN 111723786 B CN111723786 B CN 111723786B CN 202010851025 A CN202010851025 A CN 202010851025A CN 111723786 B CN111723786 B CN 111723786B
Authority
CN
China
Prior art keywords
network
safety helmet
wearing
pedestrian
original image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010851025.8A
Other languages
English (en)
Other versions
CN111723786A (zh
Inventor
郑影
徐晓刚
王军
章依依
张文广
张逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202010851025.8A priority Critical patent/CN111723786B/zh
Publication of CN111723786A publication Critical patent/CN111723786A/zh
Application granted granted Critical
Publication of CN111723786B publication Critical patent/CN111723786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于单模型预测的安全帽佩戴检测方法及装置,该方法包括将原始图像输入到一个深度卷积神经网络中,在深度卷积神经网络的不同层中提取出原始图像的表观特征,并采用特征金字塔网络在表观特征上获取不同尺度的特征图;将不同尺度的特征图分别输入到坐标回归网络和行人识别网络中,分别输出在原始图像中检测到的行人目标的位置和识别的置信度,通过非极大值抑制方法找到最佳的目标边界框,并消除冗余的边界框;将不同尺度的特征图输入到基于注意力机制的安全帽佩戴分类网络中,最终得到行人目标是否佩戴安全帽的检测结果。通过单个模型来对监控摄像头拍摄的厂区、工地等作业场所中工作人员是否佩戴安全帽的精准识别。

Description

一种基于单模型预测的安全帽佩戴检测方法及装置
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于单模型预测的安全帽佩戴检测方法及装置。
背景技术
安全帽佩戴在高温、供电线路、厂区和工地等作业场所中属于一项基本的安全防范要求,与施工人员的人身安全密切相关。传统的通过人工监管的方式不仅会耗费过多的人力,而且作业场所的复杂性使得监管难度非常大,这导致由于施工人员不佩戴安全帽而引发的安全事故时有发生。针对这个问题,采用先进的人工智能技术来自动化识别施工人员是否佩戴安全帽具有极大的必要性和实际价值。近些年来,基于深度卷积神经网络的目标检测方法被应用于解决安全帽佩戴检测的问题。这类方法一般将安全帽佩戴与否作为两种独立的目标,继而采用流行的检测方法来直接检测图像中佩戴和未佩戴安全帽的两类人员,并以此作为每个检测出的人是否佩戴安全帽的识别结果。
现有的基于深度卷积神经网络的目标检测方法主要可分为两类:基于锚框的方法和无锚框的方法。其中,基于锚框的方法又包括单阶段和两阶段两种类型。单阶段方法以YOLO、SSD为代表,通过将目标检测看作回归过程直接在输入图像上预测目标类别及坐标信息。两阶段方法以Faster RCNN最为典型,其通过区域生成网络得到候选区域,继而在此基础上进行目标分类和坐标回归。
基于锚框的目标检测方法对所选框的尺寸、长宽比等较为敏感,且在目标形状变化较大时检测效果不佳。针对这些问题,近年来无锚框的方法引起了众多研究人员的关注。其中,代表性的无锚框目标检测方法有FCOS和CenterNet。这类方法不需要预设的锚框,直接在CNN特征图上去预测角点、中心点或中心点到边界的距离来检测图像中的目标。由于没有预设锚框,网络模型不易收敛,训练难度较大。
通过对现有技术方法的分析,发现当前的目标检测方法尽管在部分公开数据集上有良好的效果,但其生成的检测模型还十分粗糙。在实际施工环境下,现有方法容易受到尺度及光照变化等的影响,无法对复杂环境下目标是否佩戴安全帽的视觉语义进行有效表达,这使得现有的检测方法在识别施工人员是否佩戴安全帽时难以取得较高的准确率。
发明内容
本发明实施例的目的是提供了一种基于单模型预测的安全帽佩戴检测方法及装置,以解决现有存在的安全帽佩戴检测精度不高的问题。
为了达到上述目的,本发明所采用的技术方案如下:
第一方面,本发明实施例提供一种基于单模型预测的安全帽佩戴检测方法,包括:
将原始图像输入到一个深度卷积神经网络中,在所述深度卷积神经网络的不同层中提取出所述原始图像的表观特征,并采用特征金字塔网络在所述表观特征上获取不同尺度的特征图;
将所述不同尺度的特征图分别输入到坐标回归网络和行人识别网络中,分别输出在所述原始图像中检测到的行人目标的位置和识别的置信度,通过非极大值抑制方法找到最佳的目标边界框,并消除冗余的边界框;
将所述不同尺度的特征图输入到基于注意力机制的安全帽佩戴分类网络中,得到安全帽佩戴的分类结果,最终得到所述原始图像中每一个检测到的行人目标是否佩戴安全帽的检测结果。
进一步地,将原始图像输入到一个深度卷积神经网络中,在所述深度卷积神经网络的不同层中提取出所述原始图像的表观特征,包括:
采用残差网络作为特征提取的主干网络,将所述原始图像输入到所述残差网络中,提取出conv3、conv4、conv5层的最后一个残差block层输出的表观特征,分别记为{C3、C4、C5}。
进一步地,采用特征金字塔网络在所述表观特征上获取不同尺度的特征图,包括:
特征金字塔网络包括四个层次,分别记为{P3、P4、P5、P6},各个层次的输入通过以下方式得到:
a) 将C5的表观特征输入到P5中;
b) 将P5输出的特征图经过下采样后输入到P6中;
c) 对P5输出的特征图进行上采样,通过相加的方式与C4的表观特征融合输入到P4中;
d) 对P4输出的特征图进行上采样,通过相加的方式与C3的表观特征融合输入到P3中;
采用所述特征金字塔网络,经过四个层次后将输出四个不同尺度的特征图。
进一步地,将所述不同尺度的特征图分别输入到坐标回归网络和行人识别网络中,分别输出在所述原始图像中检测到的行人目标的位置和识别的置信度,包括:
坐标回归网络包含若干个级联的卷积层,在训练过程中采用IOU loss作为回归损失
Figure 526028DEST_PATH_IMAGE001
指导所述坐标回归网络的学习,计算公式如下:
Figure 974327DEST_PATH_IMAGE002
其中,
Figure 285222DEST_PATH_IMAGE003
Figure 211590DEST_PATH_IMAGE004
分别表示预测及真值的目标框坐标,
Figure 557121DEST_PATH_IMAGE005
为以e为底的对数函数,
Figure 412207DEST_PATH_IMAGE006
表示所述目标框的面积;
将所述不同尺度的特征图输入到所述坐标回归网络中,输出在所述原始图像中检测到的行人目标的位置;
行人识别网络包含若干个级联的卷积层,在训练过程中采用Focal loss作为分类损失
Figure 210398DEST_PATH_IMAGE007
指导所述行人识别网络的学习,计算公式如下:
Figure 940457DEST_PATH_IMAGE008
其中,
Figure 140494DEST_PATH_IMAGE009
表示在
Figure 665016DEST_PATH_IMAGE010
坐标位置输出的识别置信度(0-1之间),
Figure 216083DEST_PATH_IMAGE011
表示所述坐标位置上行人目标所属的类别标签;
将所述不同尺度的特征图输入到所述行人识别网络中,输出在所述原始图像中行人目标的识别的置信度。
进一步地,将所述不同尺度的特征图输入到基于注意力机制的安全帽佩戴分类网络中,得到安全帽佩戴的分类结果,包括:
a) 基于注意力机制的安全帽佩戴分类网络包含若干个级联的卷积层和注意力计算层,在训练过程中,采用交叉熵损失作为安全帽佩戴分类损失
Figure 218674DEST_PATH_IMAGE012
指导所述安全帽佩戴分类网络的学习,计算公式如下:
Figure 273218DEST_PATH_IMAGE013
其中,
Figure 735686DEST_PATH_IMAGE014
表示所述安全帽佩戴分类网络在
Figure 508470DEST_PATH_IMAGE010
坐标位置的预测结果,
Figure 580331DEST_PATH_IMAGE015
表示所述坐标位置上行人目标属于佩戴或未佩戴安全帽的类别标签,
Figure 754960DEST_PATH_IMAGE016
为以自然常数e为底的指数函数,
Figure 621285DEST_PATH_IMAGE005
为以e为底的对数函数;
b) 将所述不同尺度的特征图输入所述安全帽佩戴分类网络的卷积层中,提取出针对安全帽分类的特征图,记为
Figure 881365DEST_PATH_IMAGE017
c) 将所述不同尺度的特征图输入所述安全帽佩戴分类网络的注意力计算层中,得到针对安全帽的注意力掩模,记为
Figure 491338DEST_PATH_IMAGE018
,通过如下方式将所述注意力掩模与所述一般特征图进行融合,得到融合后的注意力特征图
Figure 33657DEST_PATH_IMAGE019
Figure 336463DEST_PATH_IMAGE020
其中,
Figure 818260DEST_PATH_IMAGE021
表示逐元素点乘操作,
Figure 231924DEST_PATH_IMAGE022
是逐元素求和操作;
d) 将所述注意力特征图
Figure 115566DEST_PATH_IMAGE019
输入到一个2维卷积层中,输出安全帽佩戴的分类结果。
进一步地,最终得到所述原始图像中每一个检测到的行人目标是否佩戴安全帽的预测结果,包括:
在训练阶段,所述安全帽佩戴检测网络共包含3个损失,即
Figure 589273DEST_PATH_IMAGE007
Figure 558366DEST_PATH_IMAGE001
Figure 510141DEST_PATH_IMAGE012
,通过加权求和的方式得到最终的损失:
Figure 280913DEST_PATH_IMAGE024
其中,
Figure 925521DEST_PATH_IMAGE025
表示正样本的个数,
Figure 381910DEST_PATH_IMAGE026
是一个指示函数,当
Figure 137377DEST_PATH_IMAGE027
时为1,反之则为0,基于计算得到的损失
Figure 730032DEST_PATH_IMAGE028
,对网络进行反向传播操作,并通过梯度下降算法来不断更新网络参数,从而最终让网络的预测值逼近真实值;
在预测阶段,将所述原始图像输入到所述安全帽佩戴检测网络中,输出在所述原始图像中检测到的行人目标的位置、识别的置信度和安全帽佩戴的分类结果,最终得到所述原始图像中每一个检测到的行人目标是否佩戴安全帽的预测结果。
第二方面,本发明实施例提供一种基于单模型预测的安全帽佩戴检测装置,包括:
提取模块,用于将原始图像输入到一个深度卷积神经网络中,在所述深度卷积神经网络的不同层中提取出所述原始图像的表观特征,并采用特征金字塔网络在所述表观特征上获取不同尺度的特征图;
输入输出模块,用于将所述不同尺度的特征图分别输入到坐标回归网络和行人识别网络中,分别输出在所述原始图像中检测到的行人目标的位置和识别的置信度,通过非极大值抑制方法找到最佳的目标边界框,并消除冗余的边界框;
检测模块,用于将所述不同尺度的特征图输入到基于注意力机制的安全帽佩戴分类网络中,得到安全帽佩戴的分类结果,最终得到所述原始图像中每一个检测到的行人目标是否佩戴安全帽的检测结果。
与现有技术相比,采用本发明所述的设计方案,能够取得以下有益效果:
1. 本发明基于单模型预测方法,能够在保证行人目标的检测精度的同时,对行人是否佩戴安全帽进行准确地判断,兼顾了模型在推理过程中对速度和精度的要求。
2. 将安全帽佩戴分类与行人检测独立出来,通过不同的网络分支来完成对应的任务,二者互不干扰,相比于直接检测佩戴和不佩戴安全帽的两类行人目标的方式,能够显著提高安全帽佩戴识别的准确性。
3. 在安全帽佩戴分类网络中,利用注意力机制来更好地关注到安全帽相关的特征区域,能够有效地提高安全帽佩戴分类的准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例提供的一种基于单模型预测的安全帽佩戴检测方法的流程图;
图2是本发明实施例中基于单模型预测的安全帽佩戴检测网络结构图;
图3是本发明实施例中基于注意力机制的安全帽佩戴分类网络结构图;
图4为本发明实施例提供的一种基于单模型预测的安全帽佩戴检测装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1:
图1为本发明实施例提供的一种基于单模型预测的安全帽佩戴检测方法的流程图;本实施例提供的一种基于单模型预测的安全帽佩戴检测方法,包括以下步骤:
步骤S101,将原始图像输入到一个深度卷积神经网络中,在所述深度卷积神经网络的不同层中提取出所述原始图像的表观特征,并采用特征金字塔网络在所述表观特征上获取不同尺度的特征图;具体地,包括以下子步骤:
步骤S1011,采用残差网络作为特征提取的主干网络,将所述原始图像输入到所述残差网络中,提取出conv3、conv4、conv5层的最后一个残差block层输出的表观特征,分别记为{C3、C4、C5}。
步骤S1012,采用特征金字塔网络在所述表观特征上获取不同尺度的特征图,包括:
特征金字塔网络包括四个层次,分别记为{P3、P4、P5、P6},各个层次的输入通过以下方式得到:
a) 将C5的表观特征输入到P5中;
b) 将P5输出的特征图经过下采样后输入到P6中;
c) 对P5输出的特征图进行上采样,通过相加的方式与C4的表观特征融合输入到P4中;
d) 对P4输出的特征图进行上采样,通过相加的方式与C3的表观特征融合输入到P3中;
采用所述特征金字塔网络,经过四个层次后将输出四个不同尺度的特征图;
特征金字塔中这种类似于残差结构的侧向连接,利用了顶层的高语义、低分辨率信息来促进分类任务,还可以利用浅层的、低语义、高分辨率信息来提高目标定位的精度。
步骤S103,将所述不同尺度的特征图分别输入到坐标回归网络和行人识别网络中,分别输出在所述原始图像中检测到的行人目标的位置和识别的置信度,通过非极大值抑制方法找到最佳的目标边界框,并消除冗余的边界框;具体地,包括以下子步骤:
步骤S1031,将所述不同尺度的特征图分别输入到坐标回归网络和行人识别网络中,分别输出在所述原始图像中检测到的行人目标的位置和识别的置信度,包括:
图2为本发明实施例中基于单模型预测的安全帽佩戴检测网络结构图;如图2所示,坐标回归网络包含若干个级联的卷积层,在训练过程中采用IOU loss作为回归损失
Figure 545541DEST_PATH_IMAGE001
指导所述坐标回归网络的学习,计算公式如下:
Figure 489227DEST_PATH_IMAGE002
其中,
Figure 48384DEST_PATH_IMAGE003
Figure 262590DEST_PATH_IMAGE004
分别表示预测及真值的目标框坐标,
Figure 983421DEST_PATH_IMAGE005
为以e为底的对数函数,
Figure 414403DEST_PATH_IMAGE006
表示所述目标框的面积;
将所述不同尺度的特征图输入到所述坐标回归网络中,输出在所述原始图像中检测到的行人目标的位置;
行人识别网络包含若干个级联的卷积层,在训练过程中采用Focal loss作为分类损失
Figure 777251DEST_PATH_IMAGE007
指导所述行人识别网络的学习,计算公式如下:
Figure 344498DEST_PATH_IMAGE008
其中,
Figure 501810DEST_PATH_IMAGE009
表示在
Figure 420088DEST_PATH_IMAGE010
坐标位置输出的识别置信度(0-1之间),
Figure 822512DEST_PATH_IMAGE011
表示所述坐标位置上行人目标所属的类别标签;
将所述不同尺度的特征图输入到所述行人识别网络中,输出在所述原始图像中行人目标的识别的置信度。
步骤S1032,基于步骤S1031输出的所有行人目标的位置和识别的置信度,通过非极大值抑制方法来找到最佳的行人目标,并消除冗余的行人目标,非极大值抑制方法的流程如下:
a) 根据识别的置信度对所有行人目标进行排序;
b) 选择置信度最高的行人目标添加到最终输出列表中,将其从行人目标列表中删除;
c) 计算所有行人目标的区域面积;
d) 计算置信度最高的行人目标与其它行人目标的交并比IOU;
e) 删除IOU大于阈值的行人目标,其中阈值设置为0.6;
重复上述过程,直至行人目标列表为空。
步骤S105,将所述不同尺度的特征图输入到基于注意力机制的安全帽佩戴分类网络中,得到安全帽佩戴的分类结果,最终得到所述原始图像中每一个检测到的行人目标是否佩戴安全帽的检测结果。具体地,包括以下步骤:
图3是本发明实施例中基于注意力机制的安全帽佩戴分类网络结构图,在训练过程中采用交叉熵损失作为安全帽佩戴分类损失
Figure 244266DEST_PATH_IMAGE012
指导所述安全帽佩戴分类网络的学习,计算公式如下:
Figure 572480DEST_PATH_IMAGE029
其中,
Figure 712474DEST_PATH_IMAGE014
表示所述安全帽佩戴分类网络在
Figure 417125DEST_PATH_IMAGE010
坐标位置的预测结果,
Figure 958965DEST_PATH_IMAGE015
表示所述坐标位置上行人目标属于佩戴或未佩戴安全帽的类别标签,
Figure 458079DEST_PATH_IMAGE016
为以自然常数e为底的指数函数,
Figure 85369DEST_PATH_IMAGE005
为以e为底的对数函数;
如图3所示,所述基于注意力机制的安全帽佩戴分类网络包含若干个级联的卷积层和注意力计算层;
将所述不同尺度的特征图输入所述安全帽佩戴分类网络的卷积层中,提取出针对安全帽分类的特征图,记为
Figure 829597DEST_PATH_IMAGE017
将所述不同尺度的特征图输入所述安全帽佩戴分类网络的注意力计算层中,得到针对安全帽的注意力掩模,记为
Figure 225943DEST_PATH_IMAGE018
,通过如下方式将所述注意力掩模与所述一般特征图进行融合,得到融合后的注意力特征图
Figure 895959DEST_PATH_IMAGE019
Figure 10545DEST_PATH_IMAGE020
其中,
Figure 791420DEST_PATH_IMAGE021
表示逐元素点乘操作,
Figure 307851DEST_PATH_IMAGE022
是逐元素求和操作;
将所述注意力特征图
Figure 148769DEST_PATH_IMAGE019
输入到一个2维卷积层中,输出安全帽佩戴的分类结果。
步骤S107,所述安全帽佩戴检测方法分为训练阶段和预测阶段,最终得到所述原始图像中每一个检测到的行人目标是否佩戴安全帽的预测结果,包括:
所述的训练阶段具体包括:
所述安全帽佩戴检测网络的学习过程共包含3个损失,即
Figure 750651DEST_PATH_IMAGE007
Figure 836681DEST_PATH_IMAGE001
Figure 207620DEST_PATH_IMAGE012
,最终通过加权求和的方式得到最终的损失:
Figure 219438DEST_PATH_IMAGE030
其中,
Figure 43037DEST_PATH_IMAGE025
表示正样本的个数,
Figure 696873DEST_PATH_IMAGE026
是一个指示函数,当
Figure 922318DEST_PATH_IMAGE027
时为1,反之则为0,基于计算得到的损失
Figure 105037DEST_PATH_IMAGE028
,对网络进行反向传播操作,并通过梯度下降算法来不断更新网络参数,从而最终让网络的预测值逼近真实值;
所述的预测阶段具体包括:将所述原始图像输入到所述安全帽佩戴检测网络中,输出在所述原始图像中检测到的行人目标的位置、识别的置信度和安全帽佩戴的分类结果,最终得到所述原始图像中每一个检测到的行人目标是否佩戴安全帽的预测结果。
在工厂等复杂作业场景中采集的验证数据集下,本发明能达到69.7%的平均准确率(Mean Average Precision,MAP),在只计算与真实目标框IOU超过50%的检测结果时的指标(AP50)能达到92.7%,相比于现有的方法,有效地提升了安全帽佩戴检测的性能。
实施例2:
本实施例提供一种基于单模型预测的安全帽佩戴检测装置,该装置可以执行任意本发明任意实施例所提供的一种基于单模型预测的安全帽佩戴检测方法,具备执行该方法相应的功能模块和有益效果。如图4所示,该装置包括:包括:
提取模块901,用于将原始图像输入到一个深度卷积神经网络中,在所述深度卷积神经网络的不同层中提取出所述原始图像的表观特征,并采用特征金字塔网络在所述表观特征上获取不同尺度的特征图;
输入输出模块903,用于将所述不同尺度的特征图分别输入到坐标回归网络和行人识别网络中,分别输出在所述原始图像中检测到的行人目标的位置和识别的置信度,通过非极大值抑制方法找到最佳的目标边界框,并消除冗余的边界框;
检测模块905,用于将所述不同尺度的特征图输入到基于注意力机制的安全帽佩戴分类网络中,得到安全帽佩戴的分类结果,最终得到所述原始图像中每一个检测到的行人目标是否佩戴安全帽的检测结果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的设备实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于单模型预测的安全帽佩戴检测方法,其特征在于,包括:
将原始图像输入到一个深度卷积神经网络中,在所述深度卷积神经网络的不同层中提取出所述原始图像的表观特征,并采用特征金字塔网络在所述表观特征上获取不同尺度的特征图;
将所述不同尺度的特征图分别输入到坐标回归网络和行人识别网络中,分别输出在所述原始图像中检测到的行人目标的位置和识别的置信度,通过非极大值抑制方法找到最佳的目标边界框,并消除冗余的边界框;其中将所述不同尺度的特征图分别输入到坐标回归网络和行人识别网络中,分别输出在所述原始图像中检测到的行人目标的位置和识别的置信度,包括:
坐标回归网络包含若干个级联的卷积层,在训练过程中采用IOU loss作为回归损失
Figure DEST_PATH_IMAGE001
指导所述坐标回归网络的学习,计算公式如下:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
分别表示预测及真值的目标框坐标,
Figure DEST_PATH_IMAGE005
为以e为底的对数函数,
Figure DEST_PATH_IMAGE006
表示所述目标框的面积;
将所述不同尺度的特征图输入到所述坐标回归网络中,输出在所述原始图像中检测到的行人目标的位置;
行人识别网络包含若干个级联的卷积层,在训练过程中采用Focal loss作为分类损失
Figure DEST_PATH_IMAGE007
指导所述行人识别网络的学习,计算公式如下:
Figure DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE009
表示在
Figure DEST_PATH_IMAGE010
坐标位置输出的识别置信度,
Figure DEST_PATH_IMAGE011
表示所述坐标位置上行人目标所属的类别标签;
将所述不同尺度的特征图输入到所述行人识别网络中,输出在所述原始图像中行人目标的识别的置信度;
将所述不同尺度的特征图输入到基于注意力机制的安全帽佩戴分类网络中,得到安全帽佩戴的分类结果,最终得到所述原始图像中每一个检测到的行人目标是否佩戴安全帽的检测结果。
2.根据权利要求1所述的一种基于单模型预测的安全帽佩戴检测方法,其特征在于,将原始图像输入到一个深度卷积神经网络中,在所述深度卷积神经网络的不同层中提取出所述原始图像的表观特征,包括:
采用残差网络作为特征提取的主干网络,将所述原始图像输入到所述残差网络中,提取出conv3、conv4、conv5层的最后一个残差block层输出的表观特征,分别记为{C3、C4、C5}。
3.根据权利要求2所述的一种基于单模型预测的安全帽佩戴检测方法,其特征在于,采用特征金字塔网络在所述表观特征上获取不同尺度的特征图,包括:
特征金字塔网络包括四个层次,分别记为{P3、P4、P5、P6},各个层次的输入通过以下方式得到:
a) 将C5的表观特征输入到P5中;
b) 将P5输出的特征图经过下采样后输入到P6中;
c) 对P5输出的特征图进行上采样,通过相加的方式与C4的表观特征融合输入到P4中;
d) 对P4输出的特征图进行上采样,通过相加的方式与C3的表观特征融合输入到P3中;
采用所述特征金字塔网络,经过四个层次后将输出四个不同尺度的特征图。
4.根据权利要求1所述的一种基于单模型预测的安全帽佩戴检测方法,其特征在于,将所述不同尺度的特征图输入到基于注意力机制的安全帽佩戴分类网络中,得到安全帽佩戴的分类结果,包括:
a) 基于注意力机制的安全帽佩戴分类网络包含若干个级联的卷积层和注意力计算层,在训练过程中,采用交叉熵损失作为安全帽佩戴分类损失
Figure DEST_PATH_IMAGE012
指导所述安全帽佩戴分类网络的学习,计算公式如下:
Figure DEST_PATH_IMAGE013
其中,
Figure DEST_PATH_IMAGE014
表示所述安全帽佩戴分类网络在
Figure 387036DEST_PATH_IMAGE010
坐标位置的预测结果,
Figure DEST_PATH_IMAGE015
表示所述坐标位置上行人目标属于佩戴或未佩戴安全帽的类别标签,
Figure DEST_PATH_IMAGE016
为以自然常数e为底的指数函数,
Figure 913963DEST_PATH_IMAGE005
为以e为底的对数函数;
b) 将所述不同尺度的特征图输入所述安全帽佩戴分类网络的卷积层中,提取出针对安全帽分类的特征图,记为
Figure DEST_PATH_IMAGE017
c) 将所述不同尺度的特征图输入所述安全帽佩戴分类网络的注意力计算层中,得到针对安全帽的注意力掩模,记为
Figure DEST_PATH_IMAGE018
,通过如下方式将所述注意力掩模与所述针对安全帽分类的特征图进行融合,得到融合后的注意力特征图
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
其中,
Figure DEST_PATH_IMAGE021
表示逐元素点乘操作,+是逐元素求和操作;
d) 将所述注意力特征图
Figure 523061DEST_PATH_IMAGE019
输入到一个2维卷积层中,输出安全帽佩戴的分类结果。
5.根据权利要求4所述的一种基于单模型预测的安全帽佩戴检测方法,其特征在于,最终得到所述原始图像中每一个检测到的行人目标是否佩戴安全帽的预测结果,包括:
在训练阶段,所述安全帽佩戴检测网络共包含3个损失,即
Figure 246166DEST_PATH_IMAGE007
Figure 529380DEST_PATH_IMAGE001
Figure 430471DEST_PATH_IMAGE012
,通过加权求和的方式得到最终的损失:
Figure DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE023
表示正样本的个数,
Figure DEST_PATH_IMAGE024
是一个指示函数,当
Figure DEST_PATH_IMAGE025
时为1,反之则为0,基于计算得到的损失
Figure DEST_PATH_IMAGE026
,对网络进行反向传播操作,并通过梯度下降算法来不断更新网络参数,从而最终让网络的预测值逼近真实值;
在预测阶段,将所述原始图像输入到所述安全帽佩戴检测网络中,输出在所述原始图像中检测到的行人目标的位置、识别的置信度和安全帽佩戴的分类结果,最终得到所述原始图像中每一个检测到的行人目标是否佩戴安全帽的预测结果。
6.一种基于单模型预测的安全帽佩戴检测装置,其特征在于,包括:
提取模块,用于将原始图像输入到一个深度卷积神经网络中,在所述深度卷积神经网络的不同层中提取出所述原始图像的表观特征,并采用特征金字塔网络在所述表观特征上获取不同尺度的特征图;
输入输出模块,用于将所述不同尺度的特征图分别输入到坐标回归网络和行人识别网络中,分别输出在所述原始图像中检测到的行人目标的位置和识别的置信度,通过非极大值抑制方法找到最佳的目标边界框,并消除冗余的边界框;其中将所述不同尺度的特征图分别输入到坐标回归网络和行人识别网络中,分别输出在所述原始图像中检测到的行人目标的位置和识别的置信度,包括:
坐标回归网络包含若干个级联的卷积层,在训练过程中采用IOU loss作为回归损失
Figure 752696DEST_PATH_IMAGE001
指导所述坐标回归网络的学习,计算公式如下:
Figure DEST_PATH_IMAGE027
其中,
Figure 233487DEST_PATH_IMAGE003
Figure 964682DEST_PATH_IMAGE004
分别表示预测及真值的目标框坐标,
Figure 36675DEST_PATH_IMAGE005
为以e为底的对数函数,
Figure 118900DEST_PATH_IMAGE006
表示所述目标框的面积;
将所述不同尺度的特征图输入到所述坐标回归网络中,输出在所述原始图像中检测到的行人目标的位置;
行人识别网络包含若干个级联的卷积层,在训练过程中采用Focal loss作为分类损失
Figure 59174DEST_PATH_IMAGE007
指导所述行人识别网络的学习,计算公式如下:
Figure DEST_PATH_IMAGE028
其中,
Figure 989084DEST_PATH_IMAGE009
表示在
Figure 497557DEST_PATH_IMAGE010
坐标位置输出的识别置信度,
Figure 942445DEST_PATH_IMAGE011
表示所述坐标位置上行人目标所属的类别标签;
将所述不同尺度的特征图输入到所述行人识别网络中,输出在所述原始图像中行人目标的识别的置信度;
检测模块,用于将所述不同尺度的特征图输入到基于注意力机制的安全帽佩戴分类网络中,得到安全帽佩戴的分类结果,最终得到所述原始图像中每一个检测到的行人目标是否佩戴安全帽的检测结果。
CN202010851025.8A 2020-08-21 2020-08-21 一种基于单模型预测的安全帽佩戴检测方法及装置 Active CN111723786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010851025.8A CN111723786B (zh) 2020-08-21 2020-08-21 一种基于单模型预测的安全帽佩戴检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010851025.8A CN111723786B (zh) 2020-08-21 2020-08-21 一种基于单模型预测的安全帽佩戴检测方法及装置

Publications (2)

Publication Number Publication Date
CN111723786A CN111723786A (zh) 2020-09-29
CN111723786B true CN111723786B (zh) 2020-12-25

Family

ID=72574324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010851025.8A Active CN111723786B (zh) 2020-08-21 2020-08-21 一种基于单模型预测的安全帽佩戴检测方法及装置

Country Status (1)

Country Link
CN (1) CN111723786B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112419237B (zh) * 2020-11-03 2023-06-30 中国计量大学 一种基于深度学习的汽车离合主缸凹槽表面缺陷检测方法
US20220222477A1 (en) * 2021-01-14 2022-07-14 Nvidia Corporation Performing non-maximum suppression in parallel
CN113158772A (zh) * 2021-03-05 2021-07-23 浙江工业大学 一种面向生产实际的安全帽检测方法
CN112990066B (zh) * 2021-03-31 2023-04-07 武汉大学 基于多策略增强的遥感影像固体废弃物识别方法及系统
CN113139437B (zh) * 2021-03-31 2022-09-20 成都飞机工业(集团)有限责任公司 一种基于YOLOv3算法的安全帽佩戴检查方法
CN112990232B (zh) * 2021-04-14 2023-06-23 广东工业大学 面向多种高空作业施工现场的安全带佩戴识别与检测方法
CN113033481B (zh) * 2021-04-20 2023-06-02 湖北工业大学 基于一阶全卷积目标检测算法的手持棍棒的检测方法
CN113313148B (zh) * 2021-05-13 2022-07-26 南京邮电大学 一种安全帽佩戴检测方法、装置及介质
CN113392753B (zh) * 2021-06-10 2022-12-02 中国国家铁路集团有限公司 正面吊人机安全防撞智能预警系统
CN113569727B (zh) * 2021-07-27 2022-10-21 广东电网有限责任公司 遥感影像中施工场地的识别方法、系统、终端及介质
CN114360127B (zh) * 2021-12-16 2023-09-22 三峡大学 一种用于安检系统的行人健康监测方法
CN114463677B (zh) * 2022-01-19 2024-03-22 北京工业大学 一种基于全局注意力的安全帽配戴检测方法
CN114463676A (zh) * 2022-01-19 2022-05-10 北京工业大学 一种基于隐式表达的安全帽配戴检测方法
CN117689985B (zh) * 2023-12-08 2024-08-16 首都医科大学附属北京妇产医院 基于系综投票机制的子宫平滑肌肿瘤识别系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222672B (zh) * 2019-06-19 2022-10-21 广东工业大学 施工现场的安全帽佩戴检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111723786A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111723786B (zh) 一种基于单模型预测的安全帽佩戴检测方法及装置
CN111062429A (zh) 基于深度学习的厨师帽和口罩佩戴的检测方法
WO2019157946A1 (zh) 一种反洗钱方法、装置及设备
CN112446919B (zh) 物体位姿估计方法、装置、电子设备及计算机存储介质
CN113642431B (zh) 目标检测模型的训练方法及装置、电子设备和存储介质
CN116579616B (zh) 一种基于深度学习的风险识别方法
CN112991269A (zh) 一种肺部ct图像的识别分类方法
CN104616002A (zh) 用于年龄段判断的面部识别设备
CN112507912B (zh) 一种识别违规图片的方法及装置
CN113111804B (zh) 一种人脸检测的方法、装置、电子设备及存储介质
CN115346169B (zh) 一种睡岗行为检测方法及系统
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN112215188B (zh) 交警姿态识别方法、装置、设备及存储介质
WO2023143498A1 (zh) 火焰检测方法、装置、设备和存储介质
CN112149665A (zh) 一种基于深度学习的高性能多尺度目标检测方法
CN113780145A (zh) 精子形态检测方法、装置、计算机设备和存储介质
Wani et al. Segmentation of satellite images of solar panels using fast deep learning model
Andersson et al. Towards predicting dengue fever rates using convolutional neural networks and street-level images
CN112528903B (zh) 人脸图像获取方法、装置、电子设备及介质
CN106529455A (zh) 一种基于SoC FPGA的快速人体姿态识别方法
CN113496260A (zh) 基于改进YOLOv3算法的粮库人员不规范作业检测法
CN111832475B (zh) 一种基于语义特征的人脸误检筛除方法
Abdul-Ameer et al. Development smart eyeglasses for visually impaired people based on you only look once
Kajabad et al. YOLOv4 for urban object detection: Case of electronic inventory in St. Petersburg
CN117351409A (zh) 混凝土坝面作业风险智能识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant