CN110210345A

CN110210345A - 一种施工人员安全帽佩戴情况实时检测方法

Info

Publication number: CN110210345A
Application number: CN201910421807.5A
Authority: CN
Inventors: 王瑞琳; 李子铭; 俞科栋; 张雪洁; 朱云
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-09-06

Abstract

本发明公开了一种施工人员安全帽佩戴情况实时检测方法，包括：步骤1：采用物体追踪算法，对追踪目标集合中的追踪目标逐一进行追踪，得到该追踪目标在视频帧图像I_j上的目标位置；所述追踪目标包括戴安全帽的人员与不戴安全帽的人员；步骤2：判断CNN卷积网络是否已完成视频帧图像I_i的预测，得到追踪目标，若已完成，则采用得到的追踪目标对追踪目标集合中的追踪目标进行替换，并进行视频帧图像I_i+t的预测，否则，获取视频帧图像I_j的下一帧视频帧图像I_j+1，执行步骤1，得到各追踪目标在视频帧图像I_j+1上的目标位置；本发明具有准确率高、实时性好等优点，可以快速、准确完成安全帽佩戴情况的实时监测任务。

Description

一种施工人员安全帽佩戴情况实时检测方法

技术领域

本发明涉及一种施工人员安全帽佩戴情况实时检测方法，属于视频监控技术领域。

背景技术

当前施工、维修等高危险场景，由于作业环境差、安全设备配置不到位、工人安全意识薄弱等众多因素，人员伤亡现象时常发生，因此，保证工人正确佩戴安全帽尤为重要，其能够有效地减少物体坠落对人体的伤害。因此，在施工场地布置完善的监控报警系统格外重要，当发现工人未佩戴安全帽时，能及时报警提醒，直到其佩戴为止。

现有的方式包括两种：一是通过人工监控，安排人员观看监控画面，或者安排人员在场地视察；二是使用计算机视觉技术，利用计算机来处理图像，达到自动检测的目的。前者人力成本较高，可能会带来更多的安全隐患；后者现阶段的各种技术(例如颜色特征)互有优劣，无法做到准确性与实时性双同步。

发明内容

针对准确性和实时性存在的问题，本发明提出一种施工人员安全帽佩戴情况实时检测的方法，解决了施工场地的安全隐患问题，基于计算机视觉、深度学习、物体追踪技术，具有准确率高、实时性好等优势。

本发明公开了一种施工人员安全帽佩戴情况实时检测方法，包括采用CNN 卷积网络对视频帧图像进行预测得到视频帧图像中的追踪目标和采用物体追踪算法对追踪目标进行追踪；

包括以下步骤：

步骤1：采用物体追踪算法，对追踪目标集合中的追踪目标逐一进行追踪，得到该追踪目标在视频帧图像I_j上的目标位置；所述追踪目标包括戴安全帽的人员与不戴安全帽的人员；

步骤2：判断CNN卷积网络是否已完成视频帧图像I_i的预测，得到追踪目标，若已完成，则采用得到的追踪目标对追踪目标集合中的追踪目标进行替换，并进行视频帧图像I_i+t的预测，否则，获取视频帧图像I_j的下一帧视频帧图像I_j+1，执行步骤1，得到各追踪目标在视频帧图像I_j+1上的目标位置；

I_j为视频流中第j帧的视频帧图像，I_i+t为视频流中第i+t帧的视频帧图像，i ＜j＜i+t，t为CNN卷积网络进行一次视频帧图像预测所需时间对应的视频流的帧数。

进一步的，进行CNN卷积网络对视频帧图像进行预测包括以下步骤：

对视频帧图像进行图片缩放并进行归一化处理；

CNN卷积网络对归一化后的视频帧图像进行预测。

进一步的，在进行物体追踪算法步骤之前，将预测得到追踪目标的视频帧图像作为该追踪目标对应的参考图像，在所述CNN卷积网络完成视频帧图像I_i的预测之前，根据物体追踪算法得到视频帧图像I_j...I_i+t-1上的目标位置的追踪目标对应的参考图像均为视频帧图像I_i-t；每完成一次视频帧图像的预测，对参考图像进行替换；

所述物体追踪算法具体包括以下步骤：

利用追踪目标对应的参照图像计算得到追踪目标集合中的每一个追踪目标的光流，进而得到参照图像的光流场；

在参照图像中选择特征点，作为跟踪特征点；

根据参照图像的光流场，获取跟踪特征点在当前获取到的视频帧图像上的位置，完成跟踪。

进一步的，追踪目标像素点(x，y)处的Lucas-Kanade光流表示为：

W＝diag(w₁，w₁，...，w₁)

b＝[I_t1，I_t2，...，I_tn]^T

像素点(x_i，y_i)为在像素点(x，y)的邻域Ω内的像素点，像素点(x_i，y_i)对应的(u_i，v_i) 满足以下方程：

I_xiu+I_yiv+I_ti＝0，i＝1，2...，n

I_xi为像素点(x_i，y_i)的图像灰度随x的变化率，I_yi为像素点(x_i，y_i)的图像灰度随y的变化率，I_ti为像素点(x_i，y_i)的图像灰度随t的变化率；u为目标像素点沿x轴方向的运动速度，v为目标像素点沿y轴方向的运动速度，由u和v来描述每个像素点的速度向量；w_i为像素点(x_i，y_i)的权重；n为在像素点(x，y)的邻域Ω内的像素点数量。

进一步的，在参照图像中选择特征点，作为跟踪特征点的步骤包括：

获取参照图像中每个像素点的矩阵A和矩阵A的最小特征值λ_m；

根据每个像素点的最小特征值λ_m，选取其中最大的特征值λ_max的像素点；

保留最小特征值λ_m大于给定的最小特征值阈值的像素点；

保留最小特征值λ_m大于邻域中其他像素点的最小特征值λ_m的像素点；

剔除像素点密集区域中的部分像素点，使相邻的像素点的距离大于预先给定的阈值距离；

参考图像中剩余的像素点为选择的特征点，作为跟踪特征点。

进一步的，所述跟踪特征点在物体追踪算法当前获取到的视频帧图像上的对应位置为(x+u,y+v)。

进一步的，所述CNN卷积网络采用卷积层对视频帧图像进行预测。

有益效果：本发明使用卷积神经网络来进行施工人员安全帽佩戴情况的物体检测，得到两类物体——戴安全帽的人与不戴安全帽的人，整个网络使用卷积操作作为主要计算过程，其优势在于可并行、可流水线式计算，充分利用了硬件的并行计算能力，同时每一个目标物体只与YOLO层相对应的预测单元相关，避免了不相关因素的干扰。整个网络从输入图像到得到预测结果是一个端到端 (end-to-end)的过程，无需进行图像分割、合并、筛选等冗余操作。因此神经网络模型预测速度较快、预测结果准确。然后在卷积神经网络检测的基础上使用光流法来进行后续物体追踪。后者相较于神经网络，计算复杂度较小、计算速度明显提升，极大地减少了对硬件性能的要求，同时追踪效果好，不会出现丢失目标的情况。二者相互结合，优势互补：完成一次神经网络预测，能够在其检测基础上进行多次物体追踪。卷积神经网络与物体追踪算法结合，相比单一的模型而言，优势在于：速度更快、准确率更高，满足实时检测的要求。

附图说明

图1为本发明的预测流程图；

图2为本发明的物体追踪流程图；

图3为本发明的检测流程图；

图4为本发明的卷积神经网络结构图；

图5实例图；

图6为实施例2的检测流程框图；

图7为实施例2的视频流示意图。

具体实施方式

下面结合附图和实施例进一步阐述本发明。

实施例1：

步骤1：获取监控摄像采集到的视频流，将视频流同时输入至CNN卷积网络和物体追踪算法；

步骤2：CNN卷积网络对当前获取到的视频流中的视频帧图像进行预测，得到戴安全帽的人员与不戴安全帽的人员在该视频帧图像中的坐标和尺寸参数，并替换追踪目标集合中的追踪目标，将该视频帧图像作为追踪目标对应的参照图像；

步骤3：物体追踪算法当前获取到的视频帧图像结合步骤2得到的参照图像，基于物体追踪算法，对追踪目标集合中的追踪目标进行逐一追踪，得到追踪目标在物体追踪算法当前获取到的视频帧图像上的位置；

步骤4：判断CNN卷积网络是否已完成下一次视频帧图像的预测，若已完成，则CNN卷积网络进行下下次的轮视频帧图像的预测，执行步骤2；否则，物体追踪算法获取下一帧视频帧图像，执行步骤3，得到追踪目标在下一帧视频帧图像上的位置；

为方便理解，现将上述步骤表达为如下：

步骤2：采用物体追踪算法，对追踪目标集合中的追踪目标逐一进行追踪，得到该追踪目标在视频帧图像I_j上的目标位置；所述追踪目标包括戴安全帽的人员与不戴安全帽的人员；

步骤3：判断CNN卷积网络是否已完成视频帧图像I_i的预测，得到追踪目标，若已完成，则采用得到的追踪目标对追踪目标集合中的追踪目标进行替换，并进行视频帧图像I_i+t的预测，否则，获取视频帧图像I_j的下一帧视频帧图像I_j+1，执行步骤2，得到各追踪目标在视频帧图像I_j+1上的目标位置；

在进行物体追踪算法步骤之前，将预测得到追踪目标的视频帧图像作为该追踪目标对应的参考图像，在所述CNN卷积网络完成视频帧图像I_i的预测之前，根据物体追踪算法得到视频帧图像I_j…I_i+t-1上的目标位置的追踪目标对应的参考图像均为视频帧图像I_i-t；每完成一次视频帧图像的预测，对参考图像进行替换；

本实施例中，对输入到CNN卷积网络的视频帧图像进行图片缩放并进行归一化处理，CNN卷积网络对归一化后的视频帧图像进行预测，加快CNN卷积网络收敛速度；具体步骤如下：

图像缩放操作为：将CNN卷积网络当前获取到的视频帧图像记为I₁,其维度为 R^H ^×W×C,其存储方式为RGB三通道，H表示图像的高度，W表示图像的宽度，C 表示图像的通道数，在这里由于是RGB图像，故C＝3，经缩放后的视频帧图像，记为I₂，其维度为R^608×608×3；

归一化操作为：将缩放后的视频帧图像I₂进行归一化，计算公式如下：

(x，y，z)表示RGB图片上像素的坐标；得到归一化后的视频帧图像I₃， I₃(x，y，z)∈[0，1]；

本实施例的步骤2利用CNN卷积网络进行预测的具体过程如下：

S3.1：对归一化后的视频帧图像I₃进行一次卷积操作，设置步长stride＝1，卷积核尺寸＝3*3，数目为32，SAME方式填充，再使用批标准化，再使用leaky 激活函数，得到特征图M₁，其维度为R^608×608×32；

S3.2：对S3.1得到的特征图M₁进行一次卷积操作，设置步长为2、卷积核尺寸为3*3、数目为64、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₂，其维度为R^304×304×64；

S3.3：对S3.2得到的特征图M₂进行一次卷积操作，设置步长为1、卷积核尺寸为1*1、数目为32、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₃，其维度为R^304×304×32；对特征图M₃进行一次卷积操作，设置步长为1、卷积核尺寸为3*3、数目为64、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₄，其维度为R³⁰⁴ ^×304×64；对特征图M₄与M₂进行shortcut(直连)操作，得到特征图M₅；

S3.4：对S3.3得到的特征图M₅进行一次卷积操作，设置步长为2、卷积核尺寸为3*3、数目为128、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₆，其维度为R^{152×152×128}；

S3.5：对S3.4得到的特征图M₆进行一次卷积操作，设置步长为1、卷积核尺寸为1*1、数目为64、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₇，其维度为R^152×152×64；对特征图M₇进行一次卷积操作，设置步长为1，卷积核尺寸为3*3、数目为128、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₈，其维度为R¹⁵² ^×152×128；对特征图M₈与M₆进行直连操作，得到特征图M₉。

S3.6：对S3.5得到的特征图M₉重复S3.5中的操作，得到特征图M₁₀，其维度为R¹⁵² ^×152×128；

S3.7：对S3.6得到的特征图M₁₀进行批标准化，再进行一次卷积操作，设置步长为2、卷积核尺寸为3*3、数目为256、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₁₁，其维度为R^76×76×256；

S3.8：对S3.6得到的特征图M₁₀进行一次卷积操作，设置步长为1、卷积核尺寸为1*1、数目为128、SAME方式填充的卷积操作，再使用批标准化，再使用leaky激活函数，得到特征图M₁₂，其维度为R^76×76×128；对特征图M₁₂进行一次卷积操作，设置步长为1、卷积核尺寸为3*3、数目为256、SAME方式填充的卷积操作，再使用批标准化，再使用leaky激活函数，得到特征图M₁₃，其维度为R^76×76×256；对特征图M₁₃与M₁₁进行直连操作，得到特征图M₁₄；

S3.9：对S3.8得到的特征图M₁₄重复S3.8中的操作，得到特征图M₁₅，其维度为R⁷⁶ ^×76×256；

S3.10：对S3.9得到的特征图M₁₅重复S3.8中的操作，得到特征图M₁₆，其维度为R⁷⁶ ^×76×256；

S3.11：对S3.10得到的特征图M₁₆重复S3.8中的操作，得到特征图M₁₇，其维度为R⁷⁶ ^×76×256；

S3.12：对S3.11得到的特征图M₁₇重复S3.8中的操作，得到特征图M₁₈，其维度为R⁷⁶ ^×76×256；

S3.13：对S3.12得到的特征图M₁₈重复S3.8中的操作，得到特征图M₁₉，其维度为R⁷⁶ ^×76×256；

S3.14：对S3.13得到的特征图M₁₉重复S3.8中的操作，得到特征图M₂₀，其维度为R⁷⁶ ^×76×256；

S3.15：对S3.14得到的特征图M₂₀重复S3.8中的操作，得到特征图M₂₁，其维度为R⁷⁶ ^×76×256；

S3.16：对S3.15得到的特征图M₂₁进行批标准化，再进行一次卷积操作，设置步长为2、卷积核尺寸为3*3、数目为512、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₂₂，其维度为R^38×38×512；

S3.17：对S3.16得到的特征图M₂₂进行一次卷积操作，设置步长为1、卷积核尺寸为1*1、数目为256、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₂₃，其维度为R^38×38×256；对特征图M₂₃进行一次卷积操作，设置步长为1、卷积核尺寸为3*3、数目为512、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₂₄，其维度为R³⁸ ^×38×512；对特征图M₂₄与 M₂₂进行直连操作，得到特征图M₂₅；

S3.18：对S3.17得到的特征图M₂₅重复S3.17中的操作，得到特征图M₂₆，其维度为R³⁸ ^×38×512；

S3.19：对S3.18得到的特征图M₂₆重复S3.17中的操作，得到特征图M₂₇，其维度为R³⁸ ^×38×512；

S3.20：对S3.19得到的特征图M₂₇重复S3.17中的操作，得到特征图M₂₈，其维度为R³⁸ ^×38×512；

S3.21：对S3.20得到的特征图M₂₈重复S3.17中的操作，得到特征图M₂₉，其维度为R³⁸ ^×38×512；

S3.22：对S3.21得到的特征图M₂₉重复S3.17中的操作，得到特征图M₃₀，其维度为R³⁸ ^×38×512；

S3.23：对S3.22得到的特征图M₃₀重复S3.17中的操作，得到特征图M₃₁，其维度为R³⁸ ^×38×512；

S3.24：对S3.23得到的特征图M₃₁重复S3.17中的操作，得到特征图M₃₂，其维度为R³⁸ ^×38×512；

S3.25：对S3.24得到的特征图M₃₂进行批标准化，再进行一次卷积操作，设置一次步长为2、卷积核尺寸为3*3、数目为1024、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₃₃，其维度为R^19×19×1024；

S3.26：对S3.25得到的特征图M₃₃进行一次卷积操作，设置步长为1、卷积核尺寸为1*1、数目为512、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₃₄，其维度为R^19×19×512；对特征图M₃₄进行一次卷积操作，设置步长为1、卷积核尺寸为3*3、数目为1024、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₃₅，其维度为R¹⁹ ^×19×1024；对特征图M₃₅与M₃₃进行直连操作，得到特征图M₃₆；

S3.27：对S3.26得到的特征图M₃₆重复S3.26中的操作，得到特征图M₃₇，其维度为R¹⁹ ^×19×1024；

S3.28：对S3.27得到的特征图M₃₇重复S3.26中的操作，得到特征图M₃₈，其维度为R¹⁹ ^×19×1024；

S3.29：对S3.28得到的特征图M₃₈重复S3.26中的操作，得到特征图M₃₉，其维度为R¹⁹ ^×19×1024；

S3.30：对S3.29得到的特征图M₃₉进行一次卷积操作，设置步长为1、卷积核尺寸为1*1、数目为512、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₄₀，其维度为R^19×19×512；对特征图M₄₀进行一次卷积操作，设置步长为1、卷积核尺寸为3*3、数目为1024、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₄₁，其维度为R¹⁹ ^×19×1024；

S3.31：对S3.30得到的特征图M₄₁重复S3.30中的操作，得到特征图M₄₂，其维度为R¹⁹ ^×19×1024；

S3.32：对S3.31得到的特征图M₄₂重复S3.30中的操作，得到特征图M₄₃，其维度为R¹⁹ ^×19×1024；

S3.33：对S3.32得到的特征图M₄₃进行一次卷积操作，设置步长为1、卷积核尺寸为1*1、数目为21、SAME方式填充，再使用linear激活函数，得到特征图M₄₄，其维度为R^19×19×21；

S3.34：将S3.32中的中间特征图记为P₃(P₃∈R^19×19×512)，对其进行一次卷积操作，设置步长为1、卷积核尺寸为1*1、数目为256、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₄₅，其维度为R^19×19×256；

S3.35：对S3.34得到的特征图M₄₅进行一次步长为2的upsample(上采样)，得到特征图M₄₆，其维度为R^38×38×256；

S3.36：将S3.35得到的特征图M₄₆与S3.24得到的特征图M₃₂进行矩阵的拼接，得到新的特征图，记为M₄₇(M₄₇∈R^38×38×768)；

S3.37：对S3.36得到的新的特征图M₄7进行一次卷积操作，设置步长为1、卷积核尺寸为1*1、数目为256、SAME方式填充，再使用批标准化，再使用leaky 激活函数，得到特征图M₄₈，其维度为R^38×38×256；对特征图M₄₈进行一次卷积操作，设置步长为1、卷积核尺寸为3*3、数目为512、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₄₉，其维度为R^38×38×512；

S3.38：对S3.37得到的特征图M₄₉重复S3.37中的操作，得到特征图M₅₀，其维度为R³⁸ ^×38×512；

S3.39：对S3.38得到的特征图M₅₀重复S3.37中的操作，得到特征图M₅₁，其维度为R³⁸ ^×38×512；

S3.40：对S3.39得到的特征图M₅₁进行一次卷积操作，设置步长为1、卷积核尺寸为1*1、数目为21、SAME方式填充的卷积操作，再使用linear激活函数，得到特征图M₅₂，其维度为R^38×38×21；

S3.41：将S3.39中的中间特征图记为P₅(P₅∈R^38×38×256)，对其进行一次卷积操作，设置步长为1、卷积核尺寸为1*1、数目为128、SAME方式填充的卷积操作，再使用批标准化，再使用leaky激活函数，得到特征图M₅₃，其维度为 R^38×38×128：

S3.42：对S3.41得到的特征图M₅₃进行一次步长为2的上采样，得到特征图 M₅₄，其维度为R^76×76×128；

S3.43：将S3.42得到的特征图M₅₄与S3.15得到的特征图M₂₁进行矩阵的拼接，得到新的特征图，记为M₅₅(M₅₅∈R^76×76×384)；

S3.44：对S3.43得到的特征图M₅₅进行一次卷积操作，设置步长为1、卷积核尺寸为1*1、数目为128、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₅₆，其维度为R^76×76×128；对特征图M₅₆进行一次卷积操作，设置步长为1、卷积核尺寸为3*3、数目为256、SAME方式填充，再使用批标准化，再使用leaky激活函数，得到特征图M₅₇，其维度为R⁷⁶ ^×76×256；

S3.45：对S3.44得到的特征图M₅₇重复S3.44中的操作，得到特征图M₅₈，其维度为R⁷⁶ ^×76×256；

S3.46：对S3.45得到的特征图M₅₈重复S3.44中的操作，得到特征图M₅₉，其维度为R⁷⁶ ^×76×256；

S3.47：对S3.46得到的特征图M₆₀进行一次卷积操作，设置步长为1、卷积核尺寸为1*1、数目为21、SAME方式填充，再使用linear激活函数，得到特征图M₆₁，其维度为R^76×76×21；

S3.48：将S3.33、S3.40、S3.47得到的三个特征图M₄₄、M₅₂、M₆₁进行YOLO 层预测，得到目标集合S＝{s|s＝(x，y，w，h)}。

本实施例的卷积操作为：

假设输入图像为X∈K^H×W×D为三维矩阵，D为输入图像的深度，将第三维 D拆分为D个二维矩阵，而卷积核大小为h×w×D，卷积核的深度须与输入图像的深度相同，也将卷积核拆分为D个二维矩阵。拆分后的第i个输入图像二维矩阵用x_i表示，卷积核用t_i表示，它们结构如下：

其中，a_ij表示输入图像二维矩阵第i行第j列的元素值。b_ij表示卷积核二维矩阵第i行第j列的元素值。输入特征矩阵有多个二维矩阵，因此我们需要相同层数的卷积层来获得深层次的特征。

输入图像与卷积核的具体计算过程：

假设C是经过卷积后得到的特征图的一张特征面。

C_ij表示特征面C第i行第j列的特征值。

输入图像和卷积核对应位置元素相乘再求和，即加权求和，在加上偏置项 (bias)β。用相应的公式表达(步长stride＝1)即为

此时，涉及到卷积的填充(Padding)：填充有两种方式，SAME与VALID。 SAME会在卷积核二维矩阵移动到图像二维矩阵边缘时在其周围填充0，使图像矩阵边缘的数值能够得到利用，而VALID则不进行此过程。因此，最后的两种方式的输出大小也是不同的。

若使用SAME填充方式，输出高度(height)为(H-h+1)/s，宽度width为 (W-w+1)/s，深度(deepth)为D，其中s即为步长。若使用VALID填充方式输出高度height为H/s，宽度width为W/s，深度仍为D。

池化(Pooling)：

主要用于特征降维、压缩参数的数量，防止过拟合现象。池化主要分为最大池化(Max Pooling)与平均池化(Average Pooling)两种。最大池化即对领域内特征点取最大值。平均池化即对领域内特征点只求平均。C是经过卷积后得到的特征图的一张特征面。

经过池化层后，得到特征面E，尺寸降低为原来一半。

其中E_ij表示特征面E第i行第j列的特征值。

激励函数：

通常为了增加卷积神经网络的逼近能力，可以加入非线性函数作为激励函数，使深层神经网络表达能力更强。常用的有Relu函数、Sigmoid函数、tanh函数等。

Relu函数解析式：

改进型Leaky Relu函数表达式：

其中a为常数，在本实施例中取0.1。

Sigmoid函数解析式：

Sigmoid函数能够把连续函数变为01之间的值输出。

tanh函数解析式：

Batch Normalization(批标准化)操作：

BN层是一个网络层，和卷积层、池化层一样。BN本质是一个归一化网络层，可以加快网络学习速率。BN层计算步骤如下：

求出批量输入数据均值；

求出批量输入数据方差；

标准化数据：

设置两个可学习的变量γ与β，还原上一层的数据分布，输出通过γ与β的线性变换得到新的值：

本实施例的shortcut(直连)操作的具体过程如下：

假设对第i次卷积、批标准化、激活操作后得到的特征图矩阵R_i，R_i∈R^H×W×C进行直连操作。将第i-3次卷积、批标准化、激活操作后的特征图矩阵记为 R_i-3，R_i-3∈R^H×W×C，则该次直连操作输出结果为：R＝R_i+R_i-3，R∈R^H×W×C。

本实施例的upsample(上采样)的具体过程如下：

上采样用于对特征图放大，常用的上采样法有最近邻元法、双线性内插法。

本实施例中采用双线性内插法：利用待求点的四个邻点的值在两个方向作线性内插。将放大后的矩阵记为F，具体过程如下：

假设待求值坐标为(x，y)，四邻点坐标分别为(x₁，y₁)(x₁，y₂)、(x₂，y₁)、(x₂，y₂)；

在x方向线性插值：

再在y方向进行插值：

由此可求出矩阵在待求坐标点(x，y)的值。

本实施例的YOLO层预测的具体过程如下：

由S3.33、S3.40、S3.47的三个特征图。它们的维度分别为R^19×19×21、R^38×38×21、 R⁷⁶ ^×76×21。所以在维度为R^19×19×21的特征图中的一个grid cell(网格单元)对应维度为R^38×38×21特征图中的4个网格单元，对应维度R^76×76×21为特征图中的16 个网格单元。

以维度R^19×19×21的特征图为例，用YOLO层检测目标物体时，目标物体的中心点落在某一个网格单元中。YOLO层会产生3个候选框，每一个候选框都包含有7个变量，分别为t_x、t_y、t_w、t_h、c、a、b。由t_x、t_y可估计出目标物体中心相对于特征图左上角的位置。计算公式如下：

b_x＝σ(t_x)+C_x

b_y＝σ(t_y)+C_y

其中，σ(t_x)表示目标物体中心离所在的网格单元左上角的横向距离，σ(t_y) 表示标物体中心离所在的网格单元左上角的纵向距离，C_x表示目标物体中心所在的网格单元左上角离整个特征图左上角的横向距离，C_y表示目标物体中心所在的网格单元左上角离整个特征图左上角的纵向距离，b_x表示目标物体中心离整个特征图左上角的横向距离，b_y表示目标物体中心离整个特征图左上角的纵向距离。由t_w、t_h可以得出目标检测物体的大小。计算公式如下：

其中，b_w表示目标物体的宽度，b_h表示目标物体的高度，p_w表示一个候选框的宽度，p_h表示该候选框的高度。分别表示候选框与目标物体的宽度比和高度比。变量c表示目标物体中心落在候选框内的置信度，变量a表示目标物体属于第一类的可能性，变量b表示目标物体属于第二类的可能性。

当YOLO层检测到物体中心在维度R^19×19×21的特征图的某个网格单元时，产生3个候选框，对应在维度R^38×38×21的特征图会产生12个候选框，对应在维度R^76×76×21的特征图会产生48个候选框。在这63个候选框中选择其中置信度最高的候选框，并将该候选框的置信度与设定的阈值0.25比较，若大于0.25，则认为在该候选框内存在目标物体，再通过比较该候选框变量a、b的大小，可判断出目标物体属于哪一类物体。

设b′_x，b′_y，b′_w，b′_h分别为预测物体在输入图像中的中心坐标x、中心坐标y、宽、高，其计算如下：

(b′_x，b′_y，b′_w，b′_h)＝(b′_x，b′_y，b′_w，b′_h)*K

其中K∈{32，16，8}，为候选框所在的特征图I维度决定：

多个物体的(b′_x，b′_y，b′_w，b′_h)构成集合S＝{s|s＝(x，y，w，h)}。

本实施例的物体追踪算法的具体过程如下：

S4.1：将参照图像记为I；

S4.2：将物体追踪算法当前获取到的视频帧图像，记为I_c；

S4.3：对于追踪目标集合S中的每一个追踪目标s，利用I和I_c计算得到光流场，具体过程如下：

设参照图像I中目标s区域像素点(x，y)的灰度值为R(x，y)，此像素点(x，y)在 dt时刻后运动到位置点(x+dx，y+dy)，对应的灰度值为R(x+dx，y+dy)；

令dt→0，此时图像的亮度保持不变，即：

I(x，y，t)＝I(x+dx，y+dy，t+dt)

将上述右式进行一级泰勒级数展开得到：

由于dt→0，所以ε的大小可以忽略不计。

联立上述两个步骤中的式子可得：

令为图像灰度随x的变化率，为图像灰度随y的变化率，为图像灰度随t的变化率；设为参考点沿x方向的运动速度，为参考点沿y方向的运动速度，由u和v来描述每个像素点的速度向量，即光流。

将该式简化为：

I_xu+I_yv+I_t＝0

设像素点(x，y)的邻域Ω内有n个像素点，每个像素点对应的(u，v)满足n个基本方程：

I_xiu+I_yiv+I_ti＝0，i＝1，2...，n

根据亮度恒定假设中，光流基本约束方程的误差公式，可得出在邻域Ω内，Lucas-Kanade光流的误差为：

E_LK(u，v)＝∫∫W²(x，y)(I_xu+I_yv+I_t)²dxdy

其中W²(x，y)＝{w_i|i＝1，2，...，n}是邻域Ω内各像素点的权重。

对上述误差式进行离散化处理，得到点(x，y)处的Lucas-Kanade光流为

如令下式成立：

W＝diag(w₁，w₁，...，w₁)

b＝[I_t1，I_t2，...，I_tn]^T

则将光流简化为：

上式的解为：

对于特征点的选择，为了使得(A^TA)^-1稳定，需要该矩阵的两个特征值不能太小，所以在进行Lucas-Kanade光流法时只挑选合适的特征点(角点)进行计算：

计算参照图像I中每一个像素的矩阵A和矩阵A的最小特征值λ_m；

根据每个像素点的最小特征值λ_m，选取其中最大的特征值λ_max的像素点

保留最小特征值λ_m大于给定阈值的像素点；

保留最小特征值λ_m局部最大值的像素点：像素特征值λ_m大于其3x3邻域中其他像素的最小特征值λ_m的像素点；

剔除像素密集区域中的一些像素，确保图像中相邻像素的距离都大于给定的阈值(常取5～10像素)；

上述操作完成后，参照图像I中剩下的像素即为选择的特征点，并作为跟踪特征点。

S4.4：特征跟踪的目的是在物体追踪算法当前获取到的视频帧图像I_c上找到与参照图像I上点(x+dx，y+dy)对应的具体位置，即在物体追踪算法当前获取到的视频帧图像I_c上该点的坐标为(x+u，y+v)；

S4.5：重复S4.1-S4.4，完成像素点的跟踪。

实施例2：

如图6所示，箭头表示为视频流，箭头上方的竖线代表一次CNN卷积网络的开始，也是上一次CNN卷积网络的完成，箭头下方的竖线代表一次物体追踪算法的开始；

视频流可以看做由一帧一帧连续的图像组成，因此可以将其按时序分解，可参见图7，第i帧图像用I_i表示(0代表第一张)。

本发明所提到的视频流为：每获取一帧图像，就把它拿掉，不会被重复获取，只能再获取下一帧，像流水一样，流过去的就不能再得到。

本实施例的具体步骤如下：

输入视频流；

按照视频流的特性，CNN卷积网络获取I₀，假设在它完成该次计算期间，物体追踪获得I₁、I₂、I₃，由于参照图像以及追踪目标集合为空，物体追踪算法跳过检测，假设就在它获得I₄之前，卷积网络完成了I₀的检测，得到追踪目标，更新追踪目标集合S₀，该追踪目标对应的参照图像，此时为I₀；与追踪目标(此时记为S₀)均非空。

I₄已被物体追踪算法获取，而卷积网络也要开始新的一轮检测，所以对于物体追踪部分而言：当前视频帧为I₄，参照图像为I₀，目标集合为S₀；对于卷积网络而言，获得的当前视频帧为I₅。于是，卷积网络又对I₅进行检测，在其检测期间，物体追踪算法依次将I₄、I₆、I₇作为当前帧图像，参照图像始终是I₀(因为卷积网络对I₅的检测正在进行，仍然没有更新参照图像与目标集合)，得到三次追踪结果，依次画出。

同理，在物体追踪部分获得I₈之前，卷积网络完成了对I₅的检测，此时参照图像更新为I₅，目标集合更新为S₁，它又开始新的一轮，假定获得I₉。因此，对物体追踪而言，参照图像为I₅，目标集合为S₁，又在卷积网络完成下一次检测前，依次对I₈、I₁₀、I₁₁(因为I₉被卷积网络获取)进行追踪检测。

由上面的分析可得：

1.从I₀、I₁……直到I_n，每一帧图像只会获得一次；

2.对于卷积网络而言，它检测的是I_i、I_i+t、I_i+tk……这样的间断的帧，正好对应图6，k为第k次CNN卷积网络计算时间所经历的帧数，本发明也可以严格按照I_i、I_i+t、I_i+2t这样的间断帧进行计算，得到追踪目标。

3.对于物体追踪而言，在I_i完成检测前，也就是卷积网络第一次完成前，都会因为参照图像为空而跳过，假定获得I_j(j应该临近i+t，因为卷积网络获得I_i+t时，意味着已经完成第一次检测，即I_i，)时参照图像非空，那么从I_j开始直到视频流结束，物体追踪就不会因参照图像为空而跳过。

Claims

1.一种施工人员安全帽佩戴情况实时检测方法，其特征在于：包括采用CNN卷积网络对视频帧图像进行预测得到视频帧图像中的追踪目标和采用物体追踪算法对追踪目标进行追踪；

包括以下步骤：

I_j为视频流中第j帧的视频帧图像，I_i+t为视频流中第i+t帧的视频帧图像，i＜j＜i+t，t为CNN卷积网络进行一次视频帧图像预测所需时间对应的视频流的帧数。

2.根据权利要求1所述的一种施工人员安全帽佩戴情况实时检测方法，其特征在于：进行CNN卷积网络对视频帧图像进行预测包括以下步骤：

对视频帧图像进行图片缩放并进行归一化处理；

CNN卷积网络对归一化后的视频帧图像进行预测。

3.根据权利要求1所述的一种施工人员安全帽佩戴情况实时检测方法，其特征在于：在进行物体追踪算法步骤之前，将预测得到追踪目标的视频帧图像作为该追踪目标对应的参考图像，在所述CNN卷积网络完成视频帧图像I_i的预测之前，根据物体追踪算法得到视频帧图像I_j...I_i+t-1上的目标位置的追踪目标对应的参考图像均为视频帧图像I_i-t；每完成一次视频帧图像的预测，对参考图像进行替换；

所述物体追踪算法具体包括以下步骤：

在参照图像中选择特征点，作为跟踪特征点；

4.根据权利要求3所述的一种施工人员安全帽佩戴情况实时检测方法，其特征在于：

所述

追踪目标像素点(x,y)处的Lucas-Kanade光流表示为：

W＝diag(w_i,w_i,...，W₁)

b＝[I_t1，I_t2，...，I_tn]^T

像素点(x_i,y_i)为在像素点(x,y)的邻域Ω内的像素点，像素点(x_i,y_i)对应的(u_i,v_i)满足以下方程：

I_xiu+I_yiv+I_ti＝0，i＝1,2…,n

I_xi为像素点(x_i,y_i)的图像灰度随x的变化率，I_yi为像素点(x_i,y_i)的图像灰度随y的变化率，I_ti为像素点(x_i,y_i)的图像灰度随t的变化率；u为目标像素点沿x轴方向的运动速度，v为目标像素点沿y轴方向的运动速度，由u和v来描述每个像素点的速度向量；w_i为像素点(x_i,y_i)的权重；n为在像素点(x,y)的邻域Ω内的像素点数量。

5.根据权利要求4所述的一种施工人员安全帽佩戴情况实时检测方法，其特征在于：

在参照图像中选择特征点，作为跟踪特征点的步骤包括：

保留最小特征值λ_m大于给定的最小特征值阈值的像素点；

6.根据权利要求5所述的一种施工人员安全帽佩戴情况实时检测方法，其特征在于：

所述跟踪特征点在物体追踪算法当前获取到的视频帧图像上的对应位置为(x+u,y+v)。

7.根据权利要求1所述的一种施工人员安全帽佩戴情况实时检测方法，其特征在于：所述CNN卷积网络采用卷积层对视频帧图像进行预测。