CN110210345A - 一种施工人员安全帽佩戴情况实时检测方法 - Google Patents
一种施工人员安全帽佩戴情况实时检测方法 Download PDFInfo
- Publication number
- CN110210345A CN110210345A CN201910421807.5A CN201910421807A CN110210345A CN 110210345 A CN110210345 A CN 110210345A CN 201910421807 A CN201910421807 A CN 201910421807A CN 110210345 A CN110210345 A CN 110210345A
- Authority
- CN
- China
- Prior art keywords
- video frame
- pixel
- frame images
- tracking
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种施工人员安全帽佩戴情况实时检测方法,包括:步骤1:采用物体追踪算法,对追踪目标集合中的追踪目标逐一进行追踪,得到该追踪目标在视频帧图像Ij上的目标位置;所述追踪目标包括戴安全帽的人员与不戴安全帽的人员;步骤2:判断CNN卷积网络是否已完成视频帧图像Ii的预测,得到追踪目标,若已完成,则采用得到的追踪目标对追踪目标集合中的追踪目标进行替换,并进行视频帧图像Ii+t的预测,否则,获取视频帧图像Ij的下一帧视频帧图像Ij+1,执行步骤1,得到各追踪目标在视频帧图像Ij+1上的目标位置;本发明具有准确率高、实时性好等优点,可以快速、准确完成安全帽佩戴情况的实时监测任务。
Description
技术领域
本发明涉及一种施工人员安全帽佩戴情况实时检测方法,属于视频监控技术领域。
背景技术
当前施工、维修等高危险场景,由于作业环境差、安全设备配置不到位、工人安全意识薄弱等众多因素,人员伤亡现象时常发生,因此,保证工人正确佩戴安全帽尤为重要,其能够有效地减少物体坠落对人体的伤害。因此,在施工场地布置完善的监控报警系统格外重要,当发现工人未佩戴安全帽时,能及时报警提醒,直到其佩戴为止。
现有的方式包括两种:一是通过人工监控,安排人员观看监控画面,或者安排人员在场地视察;二是使用计算机视觉技术,利用计算机来处理图像,达到自动检测的目的。前者人力成本较高,可能会带来更多的安全隐患;后者现阶段的各种技术(例如颜色特征)互有优劣,无法做到准确性与实时性双同步。
发明内容
针对准确性和实时性存在的问题,本发明提出一种施工人员安全帽佩戴情况实时检测的方法,解决了施工场地的安全隐患问题,基于计算机视觉、深度学习、物体追踪技术,具有准确率高、实时性好等优势。
本发明公开了一种施工人员安全帽佩戴情况实时检测方法,包括采用CNN 卷积网络对视频帧图像进行预测得到视频帧图像中的追踪目标和采用物体追踪算法对追踪目标进行追踪;
包括以下步骤:
步骤1:采用物体追踪算法,对追踪目标集合中的追踪目标逐一进行追踪,得到该追踪目标在视频帧图像Ij上的目标位置;所述追踪目标包括戴安全帽的人员与不戴安全帽的人员;
步骤2:判断CNN卷积网络是否已完成视频帧图像Ii的预测,得到追踪目标,若已完成,则采用得到的追踪目标对追踪目标集合中的追踪目标进行替换,并进行视频帧图像Ii+t的预测,否则,获取视频帧图像Ij的下一帧视频帧图像Ij+1,执行步骤1,得到各追踪目标在视频帧图像Ij+1上的目标位置;
Ij为视频流中第j帧的视频帧图像,Ii+t为视频流中第i+t帧的视频帧图像,i <j<i+t,t为CNN卷积网络进行一次视频帧图像预测所需时间对应的视频流的帧数。
进一步的,进行CNN卷积网络对视频帧图像进行预测包括以下步骤:
对视频帧图像进行图片缩放并进行归一化处理;
CNN卷积网络对归一化后的视频帧图像进行预测。
进一步的,在进行物体追踪算法步骤之前,将预测得到追踪目标的视频帧图像作为该追踪目标对应的参考图像,在所述CNN卷积网络完成视频帧图像Ii的预测之前,根据物体追踪算法得到视频帧图像Ij...Ii+t-1上的目标位置的追踪目标对应的参考图像均为视频帧图像Ii-t;每完成一次视频帧图像的预测,对参考图像进行替换;
所述物体追踪算法具体包括以下步骤:
利用追踪目标对应的参照图像计算得到追踪目标集合中的每一个追踪目标的光流,进而得到参照图像的光流场;
在参照图像中选择特征点,作为跟踪特征点;
根据参照图像的光流场,获取跟踪特征点在当前获取到的视频帧图像上的位置,完成跟踪。
进一步的,追踪目标像素点(x,y)处的Lucas-Kanade光流表示为:
W=diag(w1,w1,...,w1)
b=[It1,It2,...,Itn]T
像素点(xi,yi)为在像素点(x,y)的邻域Ω内的像素点,像素点(xi,yi)对应的(ui,vi) 满足以下方程:
Ixiu+Iyiv+Iti=0,i=1,2...,n
Ixi为像素点(xi,yi)的图像灰度随x的变化率,Iyi为像素点(xi,yi)的图像灰度随y的变化率,Iti为像素点(xi,yi)的图像灰度随t的变化率;u为目标像素点沿x轴方向的运动速度,v为目标像素点沿y轴方向的运动速度,由u和v来描述每个像素点的速度向量;wi为像素点(xi,yi)的权重;n为在像素点(x,y)的邻域Ω内的像素点数量。
进一步的,在参照图像中选择特征点,作为跟踪特征点的步骤包括:
获取参照图像中每个像素点的矩阵A和矩阵A的最小特征值λm;
根据每个像素点的最小特征值λm,选取其中最大的特征值λmax的像素点;
保留最小特征值λm大于给定的最小特征值阈值的像素点;
保留最小特征值λm大于邻域中其他像素点的最小特征值λm的像素点;
剔除像素点密集区域中的部分像素点,使相邻的像素点的距离大于预先给定的阈值距离;
参考图像中剩余的像素点为选择的特征点,作为跟踪特征点。
进一步的,所述跟踪特征点在物体追踪算法当前获取到的视频帧图像上的对应位置为(x+u,y+v)。
进一步的,所述CNN卷积网络采用卷积层对视频帧图像进行预测。
有益效果:本发明使用卷积神经网络来进行施工人员安全帽佩戴情况的物体检测,得到两类物体——戴安全帽的人与不戴安全帽的人,整个网络使用卷积操作作为主要计算过程,其优势在于可并行、可流水线式计算,充分利用了硬件的并行计算能力,同时每一个目标物体只与YOLO层相对应的预测单元相关,避免了不相关因素的干扰。整个网络从输入图像到得到预测结果是一个端到端 (end-to-end)的过程,无需进行图像分割、合并、筛选等冗余操作。因此神经网络模型预测速度较快、预测结果准确。然后在卷积神经网络检测的基础上使用光流法来进行后续物体追踪。后者相较于神经网络,计算复杂度较小、计算速度明显提升,极大地减少了对硬件性能的要求,同时追踪效果好,不会出现丢失目标的情况。二者相互结合,优势互补:完成一次神经网络预测,能够在其检测基础上进行多次物体追踪。卷积神经网络与物体追踪算法结合,相比单一的模型而言,优势在于:速度更快、准确率更高,满足实时检测的要求。
附图说明
图1为本发明的预测流程图;
图2为本发明的物体追踪流程图;
图3为本发明的检测流程图;
图4为本发明的卷积神经网络结构图;
图5实例图;
图6为实施例2的检测流程框图;
图7为实施例2的视频流示意图。
具体实施方式
下面结合附图和实施例进一步阐述本发明。
实施例1:
步骤1:获取监控摄像采集到的视频流,将视频流同时输入至CNN卷积网络和物体追踪算法;
步骤2:CNN卷积网络对当前获取到的视频流中的视频帧图像进行预测,得到戴安全帽的人员与不戴安全帽的人员在该视频帧图像中的坐标和尺寸参数,并替换追踪目标集合中的追踪目标,将该视频帧图像作为追踪目标对应的参照图像;
步骤3:物体追踪算法当前获取到的视频帧图像结合步骤2得到的参照图像,基于物体追踪算法,对追踪目标集合中的追踪目标进行逐一追踪,得到追踪目标在物体追踪算法当前获取到的视频帧图像上的位置;
步骤4:判断CNN卷积网络是否已完成下一次视频帧图像的预测,若已完成,则CNN卷积网络进行下下次的轮视频帧图像的预测,执行步骤2;否则,物体追踪算法获取下一帧视频帧图像,执行步骤3,得到追踪目标在下一帧视频帧图像上的位置;
为方便理解,现将上述步骤表达为如下:
步骤1:获取监控摄像采集到的视频流,将视频流同时输入至CNN卷积网络和物体追踪算法;
步骤2:采用物体追踪算法,对追踪目标集合中的追踪目标逐一进行追踪,得到该追踪目标在视频帧图像Ij上的目标位置;所述追踪目标包括戴安全帽的人员与不戴安全帽的人员;
步骤3:判断CNN卷积网络是否已完成视频帧图像Ii的预测,得到追踪目标,若已完成,则采用得到的追踪目标对追踪目标集合中的追踪目标进行替换,并进行视频帧图像Ii+t的预测,否则,获取视频帧图像Ij的下一帧视频帧图像Ij+1,执行步骤2,得到各追踪目标在视频帧图像Ij+1上的目标位置;
Ij为视频流中第j帧的视频帧图像,Ii+t为视频流中第i+t帧的视频帧图像,i <j<i+t,t为CNN卷积网络进行一次视频帧图像预测所需时间对应的视频流的帧数。
在进行物体追踪算法步骤之前,将预测得到追踪目标的视频帧图像作为该追踪目标对应的参考图像,在所述CNN卷积网络完成视频帧图像Ii的预测之前,根据物体追踪算法得到视频帧图像Ij…Ii+t-1上的目标位置的追踪目标对应的参考图像均为视频帧图像Ii-t;每完成一次视频帧图像的预测,对参考图像进行替换;
本实施例中,对输入到CNN卷积网络的视频帧图像进行图片缩放并进行归一化处理,CNN卷积网络对归一化后的视频帧图像进行预测,加快CNN卷积网络收敛速度;具体步骤如下:
图像缩放操作为:将CNN卷积网络当前获取到的视频帧图像记为I1,其维度为 RH ×W×C,其存储方式为RGB三通道,H表示图像的高度,W表示图像的宽度,C 表示图像的通道数,在这里由于是RGB图像,故C=3,经缩放后的视频帧图像,记为I2,其维度为R608×608×3;
归一化操作为:将缩放后的视频帧图像I2进行归一化,计算公式如下:
(x,y,z)表示RGB图片上像素的坐标;得到归一化后的视频帧图像I3, I3(x,y,z)∈[0,1];
本实施例的步骤2利用CNN卷积网络进行预测的具体过程如下:
S3.1:对归一化后的视频帧图像I3进行一次卷积操作,设置步长stride=1,卷积核尺寸=3*3,数目为32,SAME方式填充,再使用批标准化,再使用leaky 激活函数,得到特征图M1,其维度为R608×608×32;
S3.2:对S3.1得到的特征图M1进行一次卷积操作,设置步长为2、卷积核尺寸为3*3、数目为64、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M2,其维度为R304×304×64;
S3.3:对S3.2得到的特征图M2进行一次卷积操作,设置步长为1、卷积核尺寸为1*1、数目为32、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M3,其维度为R304×304×32;对特征图M3进行一次卷积操作,设置步长为1、卷积核尺寸为3*3、数目为64、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M4,其维度为R304 ×304×64;对特征图M4与M2进行shortcut(直连)操作,得到特征图M5;
S3.4:对S3.3得到的特征图M5进行一次卷积操作,设置步长为2、卷积核尺寸为3*3、数目为128、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M6,其维度为R152×152×128;
S3.5:对S3.4得到的特征图M6进行一次卷积操作,设置步长为1、卷积核尺寸为1*1、数目为64、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M7,其维度为R152×152×64;对特征图M7进行一次卷积操作,设置步长为1,卷积核尺寸为3*3、数目为128、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M8,其维度为R152 ×152×128;对特征图M8与M6进行直连操作,得到特征图M9。
S3.6:对S3.5得到的特征图M9重复S3.5中的操作,得到特征图M10,其维度为R152 ×152×128;
S3.7:对S3.6得到的特征图M10进行批标准化,再进行一次卷积操作,设置步长为2、卷积核尺寸为3*3、数目为256、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M11,其维度为R76×76×256;
S3.8:对S3.6得到的特征图M10进行一次卷积操作,设置步长为1、卷积核尺寸为1*1、数目为128、SAME方式填充的卷积操作,再使用批标准化,再使用leaky激活函数,得到特征图M12,其维度为R76×76×128;对特征图M12进行一次卷积操作,设置步长为1、卷积核尺寸为3*3、数目为256、SAME方式填充的卷积操作,再使用批标准化,再使用leaky激活函数,得到特征图M13,其维度为R76×76×256;对特征图M13与M11进行直连操作,得到特征图M14;
S3.9:对S3.8得到的特征图M14重复S3.8中的操作,得到特征图M15,其维度为R76 ×76×256;
S3.10:对S3.9得到的特征图M15重复S3.8中的操作,得到特征图M16,其维度为R76 ×76×256;
S3.11:对S3.10得到的特征图M16重复S3.8中的操作,得到特征图M17,其维度为R76 ×76×256;
S3.12:对S3.11得到的特征图M17重复S3.8中的操作,得到特征图M18,其维度为R76 ×76×256;
S3.13:对S3.12得到的特征图M18重复S3.8中的操作,得到特征图M19,其维度为R76 ×76×256;
S3.14:对S3.13得到的特征图M19重复S3.8中的操作,得到特征图M20,其维度为R76 ×76×256;
S3.15:对S3.14得到的特征图M20重复S3.8中的操作,得到特征图M21,其维度为R76 ×76×256;
S3.16:对S3.15得到的特征图M21进行批标准化,再进行一次卷积操作,设置步长为2、卷积核尺寸为3*3、数目为512、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M22,其维度为R38×38×512;
S3.17:对S3.16得到的特征图M22进行一次卷积操作,设置步长为1、卷积核尺寸为1*1、数目为256、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M23,其维度为R38×38×256;对特征图M23进行一次卷积操作,设置步长为1、卷积核尺寸为3*3、数目为512、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M24,其维度为R38 ×38×512;对特征图M24与 M22进行直连操作,得到特征图M25;
S3.18:对S3.17得到的特征图M25重复S3.17中的操作,得到特征图M26,其维度为R38 ×38×512;
S3.19:对S3.18得到的特征图M26重复S3.17中的操作,得到特征图M27,其维度为R38 ×38×512;
S3.20:对S3.19得到的特征图M27重复S3.17中的操作,得到特征图M28,其维度为R38 ×38×512;
S3.21:对S3.20得到的特征图M28重复S3.17中的操作,得到特征图M29,其维度为R38 ×38×512;
S3.22:对S3.21得到的特征图M29重复S3.17中的操作,得到特征图M30,其维度为R38 ×38×512;
S3.23:对S3.22得到的特征图M30重复S3.17中的操作,得到特征图M31,其维度为R38 ×38×512;
S3.24:对S3.23得到的特征图M31重复S3.17中的操作,得到特征图M32,其维度为R38 ×38×512;
S3.25:对S3.24得到的特征图M32进行批标准化,再进行一次卷积操作,设置一次步长为2、卷积核尺寸为3*3、数目为1024、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M33,其维度为R19×19×1024;
S3.26:对S3.25得到的特征图M33进行一次卷积操作,设置步长为1、卷积核尺寸为1*1、数目为512、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M34,其维度为R19×19×512;对特征图M34进行一次卷积操作,设置步长为1、卷积核尺寸为3*3、数目为1024、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M35,其维度为R19 ×19×1024;对特征图M35与M33进行直连操作,得到特征图M36;
S3.27:对S3.26得到的特征图M36重复S3.26中的操作,得到特征图M37,其维度为R19 ×19×1024;
S3.28:对S3.27得到的特征图M37重复S3.26中的操作,得到特征图M38,其维度为R19 ×19×1024;
S3.29:对S3.28得到的特征图M38重复S3.26中的操作,得到特征图M39,其维度为R19 ×19×1024;
S3.30:对S3.29得到的特征图M39进行一次卷积操作,设置步长为1、卷积核尺寸为1*1、数目为512、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M40,其维度为R19×19×512;对特征图M40进行一次卷积操作,设置步长为1、卷积核尺寸为3*3、数目为1024、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M41,其维度为R19 ×19×1024;
S3.31:对S3.30得到的特征图M41重复S3.30中的操作,得到特征图M42,其维度为R19 ×19×1024;
S3.32:对S3.31得到的特征图M42重复S3.30中的操作,得到特征图M43,其维度为R19 ×19×1024;
S3.33:对S3.32得到的特征图M43进行一次卷积操作,设置步长为1、卷积核尺寸为1*1、数目为21、SAME方式填充,再使用linear激活函数,得到特征图M44,其维度为R19×19×21;
S3.34:将S3.32中的中间特征图记为P3(P3∈R19×19×512),对其进行一次卷积操作,设置步长为1、卷积核尺寸为1*1、数目为256、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M45,其维度为R19×19×256;
S3.35:对S3.34得到的特征图M45进行一次步长为2的upsample(上采样),得到特征图M46,其维度为R38×38×256;
S3.36:将S3.35得到的特征图M46与S3.24得到的特征图M32进行矩阵的拼接,得到新的特征图,记为M47(M47∈R38×38×768);
S3.37:对S3.36得到的新的特征图M47进行一次卷积操作,设置步长为1、卷积核尺寸为1*1、数目为256、SAME方式填充,再使用批标准化,再使用leaky 激活函数,得到特征图M48,其维度为R38×38×256;对特征图M48进行一次卷积操作,设置步长为1、卷积核尺寸为3*3、数目为512、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M49,其维度为R38×38×512;
S3.38:对S3.37得到的特征图M49重复S3.37中的操作,得到特征图M50,其维度为R38 ×38×512;
S3.39:对S3.38得到的特征图M50重复S3.37中的操作,得到特征图M51,其维度为R38 ×38×512;
S3.40:对S3.39得到的特征图M51进行一次卷积操作,设置步长为1、卷积核尺寸为1*1、数目为21、SAME方式填充的卷积操作,再使用linear激活函数,得到特征图M52,其维度为R38×38×21;
S3.41:将S3.39中的中间特征图记为P5(P5∈R38×38×256),对其进行一次卷积操作,设置步长为1、卷积核尺寸为1*1、数目为128、SAME方式填充的卷积操作,再使用批标准化,再使用leaky激活函数,得到特征图M53,其维度为 R38×38×128:
S3.42:对S3.41得到的特征图M53进行一次步长为2的上采样,得到特征图 M54,其维度为R76×76×128;
S3.43:将S3.42得到的特征图M54与S3.15得到的特征图M21进行矩阵的拼接,得到新的特征图,记为M55(M55∈R76×76×384);
S3.44:对S3.43得到的特征图M55进行一次卷积操作,设置步长为1、卷积核尺寸为1*1、数目为128、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M56,其维度为R76×76×128;对特征图M56进行一次卷积操作,设置步长为1、卷积核尺寸为3*3、数目为256、SAME方式填充,再使用批标准化,再使用leaky激活函数,得到特征图M57,其维度为R76 ×76×256;
S3.45:对S3.44得到的特征图M57重复S3.44中的操作,得到特征图M58,其维度为R76 ×76×256;
S3.46:对S3.45得到的特征图M58重复S3.44中的操作,得到特征图M59,其维度为R76 ×76×256;
S3.47:对S3.46得到的特征图M60进行一次卷积操作,设置步长为1、卷积核尺寸为1*1、数目为21、SAME方式填充,再使用linear激活函数,得到特征图M61,其维度为R76×76×21;
S3.48:将S3.33、S3.40、S3.47得到的三个特征图M44、M52、M61进行YOLO 层预测,得到目标集合S={s|s=(x,y,w,h)}。
本实施例的卷积操作为:
假设输入图像为X∈KH×W×D为三维矩阵,D为输入图像的深度,将第三维 D拆分为D个二维矩阵,而卷积核大小为h×w×D,卷积核的深度须与输入图像的深度相同,也将卷积核拆分为D个二维矩阵。拆分后的第i个输入图像二维矩阵用xi表示,卷积核用ti表示,它们结构如下:
其中,aij表示输入图像二维矩阵第i行第j列的元素值。bij表示卷积核二维矩阵第i行第j列的元素值。输入特征矩阵有多个二维矩阵,因此我们需要相同层数的卷积层来获得深层次的特征。
输入图像与卷积核的具体计算过程:
假设C是经过卷积后得到的特征图的一张特征面。
Cij表示特征面C第i行第j列的特征值。
输入图像和卷积核对应位置元素相乘再求和,即加权求和,在加上偏置项 (bias)β。用相应的公式表达(步长stride=1)即为
此时,涉及到卷积的填充(Padding):填充有两种方式,SAME与VALID。 SAME会在卷积核二维矩阵移动到图像二维矩阵边缘时在其周围填充0,使图像矩阵边缘的数值能够得到利用,而VALID则不进行此过程。因此,最后的两种方式的输出大小也是不同的。
若使用SAME填充方式,输出高度(height)为(H-h+1)/s,宽度width为 (W-w+1)/s,深度(deepth)为D,其中s即为步长。若使用VALID填充方式输出高度height为H/s,宽度width为W/s,深度仍为D。
池化(Pooling):
主要用于特征降维、压缩参数的数量,防止过拟合现象。池化主要分为最大池化(Max Pooling)与平均池化(Average Pooling)两种。最大池化即对领域内特征点取最大值。平均池化即对领域内特征点只求平均。C是经过卷积后得到的特征图的一张特征面。
经过池化层后,得到特征面E,尺寸降低为原来一半。
其中Eij表示特征面E第i行第j列的特征值。
激励函数:
通常为了增加卷积神经网络的逼近能力,可以加入非线性函数作为激励函数,使深层神经网络表达能力更强。常用的有Relu函数、Sigmoid函数、tanh函数等。
Relu函数解析式:
改进型Leaky Relu函数表达式:
其中a为常数,在本实施例中取0.1。
Sigmoid函数解析式:
Sigmoid函数能够把连续函数变为01之间的值输出。
tanh函数解析式:
Batch Normalization(批标准化)操作:
BN层是一个网络层,和卷积层、池化层一样。BN本质是一个归一化网络层,可以加快网络学习速率。BN层计算步骤如下:
求出批量输入数据均值;
求出批量输入数据方差;
标准化数据:
设置两个可学习的变量γ与β,还原上一层的数据分布,输出通过γ与β的线性变换得到新的值:
本实施例的shortcut(直连)操作的具体过程如下:
假设对第i次卷积、批标准化、激活操作后得到的特征图矩阵Ri,Ri∈RH×W×C进行直连操作。将第i-3次卷积、批标准化、激活操作后的特征图矩阵记为 Ri-3,Ri-3∈RH×W×C,则该次直连操作输出结果为:R=Ri+Ri-3,R∈RH×W×C。
本实施例的upsample(上采样)的具体过程如下:
上采样用于对特征图放大,常用的上采样法有最近邻元法、双线性内插法。
本实施例中采用双线性内插法:利用待求点的四个邻点的值在两个方向作线性内插。将放大后的矩阵记为F,具体过程如下:
假设待求值坐标为(x,y),四邻点坐标分别为(x1,y1)(x1,y2)、(x2,y1)、(x2,y2);
在x方向线性插值:
再在y方向进行插值:
由此可求出矩阵在待求坐标点(x,y)的值。
本实施例的YOLO层预测的具体过程如下:
由S3.33、S3.40、S3.47的三个特征图。它们的维度分别为R19×19×21、R38×38×21、 R76 ×76×21。所以在维度为R19×19×21的特征图中的一个grid cell(网格单元)对应维度为R38×38×21特征图中的4个网格单元,对应维度R76×76×21为特征图中的16 个网格单元。
以维度R19×19×21的特征图为例,用YOLO层检测目标物体时,目标物体的中心点落在某一个网格单元中。YOLO层会产生3个候选框,每一个候选框都包含有7个变量,分别为tx、ty、tw、th、c、a、b。由tx、ty可估计出目标物体中心相对于特征图左上角的位置。计算公式如下:
bx=σ(tx)+Cx
by=σ(ty)+Cy
其中,σ(tx)表示目标物体中心离所在的网格单元左上角的横向距离,σ(ty) 表示标物体中心离所在的网格单元左上角的纵向距离,Cx表示目标物体中心所在的网格单元左上角离整个特征图左上角的横向距离,Cy表示目标物体中心所在的网格单元左上角离整个特征图左上角的纵向距离,bx表示目标物体中心离整个特征图左上角的横向距离,by表示目标物体中心离整个特征图左上角的纵向距离。由tw、th可以得出目标检测物体的大小。计算公式如下:
其中,bw表示目标物体的宽度,bh表示目标物体的高度,pw表示一个候选框的宽度,ph表示该候选框的高度。分别表示候选框与目标物体的宽度比和高度比。变量c表示目标物体中心落在候选框内的置信度,变量a表示目标物体属于第一类的可能性,变量b表示目标物体属于第二类的可能性。
当YOLO层检测到物体中心在维度R19×19×21的特征图的某个网格单元时,产生3个候选框,对应在维度R38×38×21的特征图会产生12个候选框,对应在维度R76×76×21的特征图会产生48个候选框。在这63个候选框中选择其中置信度最高的候选框,并将该候选框的置信度与设定的阈值0.25比较,若大于0.25,则认为在该候选框内存在目标物体,再通过比较该候选框变量a、b的大小,可判断出目标物体属于哪一类物体。
设b′x,b′y,b′w,b′h分别为预测物体在输入图像中的中心坐标x、中心坐标y、宽、高,其计算如下:
(b′x,b′y,b′w,b′h)=(b′x,b′y,b′w,b′h)*K
其中K∈{32,16,8},为候选框所在的特征图I维度决定:
多个物体的(b′x,b′y,b′w,b′h)构成集合S={s|s=(x,y,w,h)}。
本实施例的物体追踪算法的具体过程如下:
S4.1:将参照图像记为I;
S4.2:将物体追踪算法当前获取到的视频帧图像,记为Ic;
S4.3:对于追踪目标集合S中的每一个追踪目标s,利用I和Ic计算得到光流场,具体过程如下:
设参照图像I中目标s区域像素点(x,y)的灰度值为R(x,y),此像素点(x,y)在 dt时刻后运动到位置点(x+dx,y+dy),对应的灰度值为R(x+dx,y+dy);
令dt→0,此时图像的亮度保持不变,即:
I(x,y,t)=I(x+dx,y+dy,t+dt)
将上述右式进行一级泰勒级数展开得到:
由于dt→0,所以ε的大小可以忽略不计。
联立上述两个步骤中的式子可得:
令为图像灰度随x的变化率,为图像灰度随y的变化率,为图像灰度随t的变化率;设为参考点沿x方向的运动速度,为参考点沿y方向的运动速度,由u和v来描述每个像素点的速度向量,即光流。
将该式简化为:
Ixu+Iyv+It=0
设像素点(x,y)的邻域Ω内有n个像素点,每个像素点对应的(u,v)满足n个基本方程:
Ixiu+Iyiv+Iti=0,i=1,2...,n
根据亮度恒定假设中,光流基本约束方程的误差公式,可得出在邻域Ω内,Lucas-Kanade光流的误差为:
ELK(u,v)=∫∫W2(x,y)(Ixu+Iyv+It)2dxdy
其中W2(x,y)={wi|i=1,2,...,n}是邻域Ω内各像素点的权重。
对上述误差式进行离散化处理,得到点(x,y)处的Lucas-Kanade光流为
如令下式成立:
W=diag(w1,w1,...,w1)
b=[It1,It2,...,Itn]T
则将光流简化为:
上式的解为:
对于特征点的选择,为了使得(ATA)-1稳定,需要该矩阵的两个特征值不能太小,所以在进行Lucas-Kanade光流法时只挑选合适的特征点(角点)进行计算:
计算参照图像I中每一个像素的矩阵A和矩阵A的最小特征值λm;
根据每个像素点的最小特征值λm,选取其中最大的特征值λmax的像素点
保留最小特征值λm大于给定阈值的像素点;
保留最小特征值λm局部最大值的像素点:像素特征值λm大于其3x3邻域中其他像素的最小特征值λm的像素点;
剔除像素密集区域中的一些像素,确保图像中相邻像素的距离都大于给定的阈值(常取5~10像素);
上述操作完成后,参照图像I中剩下的像素即为选择的特征点,并作为跟踪特征点。
S4.4:特征跟踪的目的是在物体追踪算法当前获取到的视频帧图像Ic上找到与参照图像I上点(x+dx,y+dy)对应的具体位置,即在物体追踪算法当前获取到的视频帧图像Ic上该点的坐标为(x+u,y+v);
S4.5:重复S4.1-S4.4,完成像素点的跟踪。
实施例2:
如图6所示,箭头表示为视频流,箭头上方的竖线代表一次CNN卷积网络的开始,也是上一次CNN卷积网络的完成,箭头下方的竖线代表一次物体追踪算法的开始;
视频流可以看做由一帧一帧连续的图像组成,因此可以将其按时序分解,可参见图7,第i帧图像用Ii表示(0代表第一张)。
本发明所提到的视频流为:每获取一帧图像,就把它拿掉,不会被重复获取,只能再获取下一帧,像流水一样,流过去的就不能再得到。
本实施例的具体步骤如下:
输入视频流;
按照视频流的特性,CNN卷积网络获取I0,假设在它完成该次计算期间,物体追踪获得I1、I2、I3,由于参照图像以及追踪目标集合为空,物体追踪算法跳过检测,假设就在它获得I4之前,卷积网络完成了I0的检测,得到追踪目标,更新追踪目标集合S0,该追踪目标对应的参照图像,此时为I0;与追踪目标(此时记为S0)均非空。
I4已被物体追踪算法获取,而卷积网络也要开始新的一轮检测,所以对于物体追踪部分而言:当前视频帧为I4,参照图像为I0,目标集合为S0;对于卷积网络而言,获得的当前视频帧为I5。于是,卷积网络又对I5进行检测,在其检测期间,物体追踪算法依次将I4、I6、I7作为当前帧图像,参照图像始终是I0(因为卷积网络对I5的检测正在进行,仍然没有更新参照图像与目标集合),得到三次追踪结果,依次画出。
同理,在物体追踪部分获得I8之前,卷积网络完成了对I5的检测,此时参照图像更新为I5,目标集合更新为S1,它又开始新的一轮,假定获得I9。因此,对物体追踪而言,参照图像为I5,目标集合为S1,又在卷积网络完成下一次检测前,依次对I8、I10、I11(因为I9被卷积网络获取)进行追踪检测。
由上面的分析可得:
1.从I0、I1……直到In,每一帧图像只会获得一次;
2.对于卷积网络而言,它检测的是Ii、Ii+t、Ii+tk……这样的间断的帧,正好对应图6,k为第k次CNN卷积网络计算时间所经历的帧数,本发明也可以严格按照Ii、Ii+t、Ii+2t这样的间断帧进行计算,得到追踪目标。
3.对于物体追踪而言,在Ii完成检测前,也就是卷积网络第一次完成前,都会因为参照图像为空而跳过,假定获得Ij(j应该临近i+t,因为卷积网络获得Ii+t时,意味着已经完成第一次检测,即Ii,)时参照图像非空,那么从Ij开始直到视频流结束,物体追踪就不会因参照图像为空而跳过。
Claims (7)
1.一种施工人员安全帽佩戴情况实时检测方法,其特征在于:包括采用CNN卷积网络对视频帧图像进行预测得到视频帧图像中的追踪目标和采用物体追踪算法对追踪目标进行追踪;
包括以下步骤:
步骤1:采用物体追踪算法,对追踪目标集合中的追踪目标逐一进行追踪,得到该追踪目标在视频帧图像Ij上的目标位置;所述追踪目标包括戴安全帽的人员与不戴安全帽的人员;
步骤2:判断CNN卷积网络是否已完成视频帧图像Ii的预测,得到追踪目标,若已完成,则采用得到的追踪目标对追踪目标集合中的追踪目标进行替换,并进行视频帧图像Ii+t的预测,否则,获取视频帧图像Ij的下一帧视频帧图像Ij+1,执行步骤1,得到各追踪目标在视频帧图像Ij+1上的目标位置;
Ij为视频流中第j帧的视频帧图像,Ii+t为视频流中第i+t帧的视频帧图像,i<j<i+t,t为CNN卷积网络进行一次视频帧图像预测所需时间对应的视频流的帧数。
2.根据权利要求1所述的一种施工人员安全帽佩戴情况实时检测方法,其特征在于:进行CNN卷积网络对视频帧图像进行预测包括以下步骤:
对视频帧图像进行图片缩放并进行归一化处理;
CNN卷积网络对归一化后的视频帧图像进行预测。
3.根据权利要求1所述的一种施工人员安全帽佩戴情况实时检测方法,其特征在于:在进行物体追踪算法步骤之前,将预测得到追踪目标的视频帧图像作为该追踪目标对应的参考图像,在所述CNN卷积网络完成视频帧图像Ii的预测之前,根据物体追踪算法得到视频帧图像Ij...Ii+t-1上的目标位置的追踪目标对应的参考图像均为视频帧图像Ii-t;每完成一次视频帧图像的预测,对参考图像进行替换;
所述物体追踪算法具体包括以下步骤:
利用追踪目标对应的参照图像计算得到追踪目标集合中的每一个追踪目标的光流,进而得到参照图像的光流场;
在参照图像中选择特征点,作为跟踪特征点;
根据参照图像的光流场,获取跟踪特征点在当前获取到的视频帧图像上的位置,完成跟踪。
4.根据权利要求3所述的一种施工人员安全帽佩戴情况实时检测方法,其特征在于:
所述
追踪目标像素点(x,y)处的Lucas-Kanade光流表示为:
W=diag(wi,wi,...,W1)
b=[It1,It2,...,Itn]T
像素点(xi,yi)为在像素点(x,y)的邻域Ω内的像素点,像素点(xi,yi)对应的(ui,vi)满足以下方程:
Ixiu+Iyiv+Iti=0,i=1,2…,n
Ixi为像素点(xi,yi)的图像灰度随x的变化率,Iyi为像素点(xi,yi)的图像灰度随y的变化率,Iti为像素点(xi,yi)的图像灰度随t的变化率;u为目标像素点沿x轴方向的运动速度,v为目标像素点沿y轴方向的运动速度,由u和v来描述每个像素点的速度向量;wi为像素点(xi,yi)的权重;n为在像素点(x,y)的邻域Ω内的像素点数量。
5.根据权利要求4所述的一种施工人员安全帽佩戴情况实时检测方法,其特征在于:
在参照图像中选择特征点,作为跟踪特征点的步骤包括:
获取参照图像中每个像素点的矩阵A和矩阵A的最小特征值λm;
根据每个像素点的最小特征值λm,选取其中最大的特征值λmax的像素点;
保留最小特征值λm大于给定的最小特征值阈值的像素点;
保留最小特征值λm大于邻域中其他像素点的最小特征值λm的像素点;
剔除像素点密集区域中的部分像素点,使相邻的像素点的距离大于预先给定的阈值距离;
参考图像中剩余的像素点为选择的特征点,作为跟踪特征点。
6.根据权利要求5所述的一种施工人员安全帽佩戴情况实时检测方法,其特征在于:
所述跟踪特征点在物体追踪算法当前获取到的视频帧图像上的对应位置为(x+u,y+v)。
7.根据权利要求1所述的一种施工人员安全帽佩戴情况实时检测方法,其特征在于:所述CNN卷积网络采用卷积层对视频帧图像进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910421807.5A CN110210345A (zh) | 2019-05-21 | 2019-05-21 | 一种施工人员安全帽佩戴情况实时检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910421807.5A CN110210345A (zh) | 2019-05-21 | 2019-05-21 | 一种施工人员安全帽佩戴情况实时检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110210345A true CN110210345A (zh) | 2019-09-06 |
Family
ID=67787905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910421807.5A Withdrawn CN110210345A (zh) | 2019-05-21 | 2019-05-21 | 一种施工人员安全帽佩戴情况实时检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110210345A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597985A (zh) * | 2020-05-15 | 2020-08-28 | 全程(上海)智能科技有限公司 | 设备佩戴的动态识别方法、装置和电子设备 |
CN114283485A (zh) * | 2022-03-04 | 2022-04-05 | 杭州格物智安科技有限公司 | 一种安全帽佩戴检测方法、装置、存储介质及安全帽 |
-
2019
- 2019-05-21 CN CN201910421807.5A patent/CN110210345A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597985A (zh) * | 2020-05-15 | 2020-08-28 | 全程(上海)智能科技有限公司 | 设备佩戴的动态识别方法、装置和电子设备 |
CN114283485A (zh) * | 2022-03-04 | 2022-04-05 | 杭州格物智安科技有限公司 | 一种安全帽佩戴检测方法、装置、存储介质及安全帽 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416307B (zh) | 一种航拍图像路面裂缝检测方法、装置及设备 | |
CN113240688A (zh) | 一种一体化洪涝灾害精准监测预警方法 | |
CN110298321B (zh) | 基于深度学习图像分类的道路阻断信息提取方法 | |
Xu et al. | Pavement crack detection algorithm based on generative adversarial network and convolutional neural network under small samples | |
CN110766942B (zh) | 一种基于卷积长短期记忆网络的交通路网拥堵预测方法 | |
CN110425005B (zh) | 矿井下皮带运输人员人机交互行为安全监控与预警方法 | |
CN104166861B (zh) | 一种行人检测方法 | |
CN110502965A (zh) | 一种基于计算机视觉人体姿态估计的施工安全帽佩戴监测方法 | |
Han et al. | Method based on the cross-layer attention mechanism and multiscale perception for safety helmet-wearing detection | |
CN110147743A (zh) | 一种复杂场景下的实时在线行人分析与计数系统及方法 | |
CN111079602A (zh) | 基于多尺度区域特征约束的车辆细粒度识别方法及装置 | |
CN109902677A (zh) | 一种基于深度学习的车辆检测方法 | |
CN104504394A (zh) | 一种基于多特征融合的密集人数估计方法和系统 | |
CN112131731B (zh) | 一种基于空间特征向量滤波的城市生长元胞模拟方法 | |
CN112784736B (zh) | 一种多模态特征融合的人物交互行为识别方法 | |
CN104574439A (zh) | 一种融合卡尔曼滤波与tld算法的目标跟踪方法 | |
CN111179592B (zh) | 基于时空数据流融合分析的城市交通预测方法和系统 | |
CN116258608B (zh) | 融合gis和bim三维技术的水利实时监测信息管理系统 | |
Guo et al. | Evaluation-oriented façade defects detection using rule-based deep learning method | |
CN113065431B (zh) | 一种基于隐马尔可夫模型和循环神经网络的人体违规行为预测方法 | |
CN101303726A (zh) | 基于粒子动态采样模型的红外人体目标跟踪系统 | |
CN110032952A (zh) | 一种基于深度学习的道路边界点检测方法 | |
CN110059667A (zh) | 行人计数方法 | |
Li et al. | Automatic road extraction from remote sensing imagery using ensemble learning and postprocessing | |
CN110210345A (zh) | 一种施工人员安全帽佩戴情况实时检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190906 |
|
WW01 | Invention patent application withdrawn after publication |