CN114821747A

CN114821747A - 一种工地人员异常状态识别方法及装置

Info

Publication number: CN114821747A
Application number: CN202210582519.XA
Authority: CN
Inventors: 马进泉; 郑添屹
Original assignee: Shenzhen Keyong Software Co ltd
Current assignee: Shenzhen Keyong Software Co ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-07-29

Abstract

本发明实施例提供了一种工地人员异常状态识别方法及装置，通过获取工作人员的面部视频数据，并将所述面部视频数据中每帧面部图像分别进行人脸候选框检测生成相对应的带有第一人脸候选框的面部图像；将所述带有第一人脸候选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选确定相对应的带有第二人脸候选框的面部图像；依据所述带有第二人脸候选框的面部图像分别确定相对应的带有人脸框和人脸关键定位点的人脸框图像；依据所述人脸框图像中的人脸关键定位点分别进行人脸补全生成相对应的正脸图像；依据所述正脸图像分别进行特征提取生成相对应的特征提取结果；依据所述特征提取结果生成工地人员的状态；其中，状态包括正常状态和异常状态。

Description

一种工地人员异常状态识别方法及装置

技术领域

本发明涉及工地生产现场安全监测领域，具体涉及一种工地人员异常状态识别方法及装置。

背景技术

安全生产是城市建设和发展过程中永恒的主题。随着社会的进步和经济的发展，施工安全问题正愈来愈多的受到整个社会的关注与重视。搞好安全生产工作，保证施工工人的生命和财产安全，是实现我国国民经济可持续发展的前提和保障。

各行各业对于生产施工安全和保障施工工人生命和财产不受损失的努力一刻也没有松懈，可是我国每年依旧出现成百上千例大大小小的施工安全事件。根据住房和城乡建设部办公厅发布《关于2021年房屋市政工程生产安全事故和建筑施工安全专项治理行动情况的通报》。2021年，全国共发生房屋市政工程生产安全事故734起，冰冷的数字令人触目惊心。

究其原因，一部分安全事故的发生是由于我们对于施工工人生命安全的保护仅停留在规章制度层面，缺乏对工人个体的状态检测及安全保护。

发明内容

鉴于所述问题，提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的一种工地人员异常状态识别方法及装置，包括：

一种工地人员异常状态识别方法，所述方法通过工地人员的面部视频识别出工地人员的异常状态，包括：

获取工作人员的面部视频数据，并将所述面部视频数据中每帧面部图像分别进行人脸候选框检测生成相对应的带有第一人脸候选框的面部图像；

将所述带有第一人脸候选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选确定相对应的带有第二人脸候选框的面部图像；

依据所述带有第二人脸候选框的面部图像分别确定相对应的带有人脸框和人脸关键定位点的人脸框图像；

依据所述人脸框图像中的人脸关键定位点分别进行人脸补全生成相对应的正脸图像；

依据所述正脸图像分别进行特征提取生成相对应的特征提取结果；

依据所述特征提取结果生成工地人员的状态；其中，状态包括正常状态和异常状态。

优选地，所述将所述面部视频数据中每帧面部图像分别进行人脸候选框检测生成相对应的带有第一人脸候选框的面部图像的步骤，包括：

将所述面部视频数据按照帧数进行切分生成面部图像；

将所述面部图像进行缩放分别生成相对应每张面部图像的面部图像缩小集；其中，所述面部缩小集包括至少两张面部缩小的面部图像；

将所述面部图像缩小集输入预设的第一侯选框检测网络中生成相对应带有第一人脸检测框的面部图像；

依据所述带有第一人脸检测框的面部图像中第一人脸检测框的重复度生成相对应所述带有第一人脸候选框的面部图像。

优选地，所述将所述带有第一人脸候选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选确定相对应的带有第二人脸候选框的面部图像的步骤，包括：

将所述带有第一人脸侯选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选生成相对应的带有子人脸候选框的面部图像；

将所述带有子人脸侯选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选生成相对应的带有第二人脸候选框的面部图像。

优选地，所述将所述带有第一人脸侯选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选生成相对应的带有子人脸候选框的面部图像的步骤，包括：

将所述带有第一人脸侯选框的面部图像分别经过三次卷积生成相对应的带有子人脸检测框的面部图像；

依据所述带有子人脸检测框的面部图像中的子人脸检测框的重复生成相对应所述带有子人脸候选框的面部图像。

优选地，将所述带有子人脸侯选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选生成相对应的带有第二人脸候选框的面部图像的步骤，包括：

将所述带有子人脸侯选框的面部图像分别经过三次卷积生成相对应的带有第二人脸检测框的面部图像；

依据所述带有第二人脸检测框的面部图像中的第二人脸检测框的重复生成相对应所述带有第二人脸候选框的面部图像。

优选地，所述将所述带有第一人脸侯选框的面部图像分别经过三次卷积生成相对应的带有子人脸检测框的面部图像的步骤，包括：

将所述带有第一人脸侯选框的面部图像分别进行复制生成带有第一人脸侯选框的第一路面部图像、带有第一人脸侯选框的子路面部图像及带有第一人脸侯选框的第二路面部图像；

依据带有第一人脸侯选框的第一路面部图像、带有第一人脸侯选框的子路面部图像及带有第一人脸侯选框的第二路面部图像生成所述相对应的带有子人脸检测框的面部图像。

优选地，所述依据所述正脸图像进行特征提取生成相对应的特征提取结果的步骤，包括：

将所述正脸图像分别进行灰度化处理生成相对应的正脸灰度图；

依据所述正脸灰度图分别进行特征提取生成所述相对应的特征提取结果。

为实现本申请还包括一种工地人员异常状态识别装置，所述装置通过工地人员的面部视频识别出工地人员的异常状态，包括：

第一人脸候选框模块，用于获取工作人员的面部视频数据，并将所述面部视频数据中每帧面部图像分别进行人脸候选框检测生成相对应的带有第一人脸候选框的面部图像；

第二人脸候选框模块，用于将所述带有第一人脸候选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选确定相对应的带有第二人脸候选框的面部图像；

人脸关键定位点模块，用于依据所述带有第二人脸候选框的面部图像分别确定相对应的带有人脸框和人脸关键定位点的人脸框图像；

正脸图像模块，用于依据所述人脸框图像中的人脸关键定位点分别进行人脸补全生成相对应的正脸图像；

特征提取结果模块，用于依据所述正脸图像分别进行特征提取生成相对应的特征提取结果；

工地人员的状态模块，用于依据所述特征提取结果生成工地人员的状态；其中，状态包括正常状态和异常状态。

为实现本申请还包括一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如所述的工地人员异常状态识别方法的步骤。

为实现本申请还包括一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如所述的工地人员异常状态识别方法的步骤。

本申请具有以下优点：

在本申请的实施例中，通过获取工作人员的面部视频数据，并将所述面部视频数据中每帧面部图像分别进行人脸候选框检测生成相对应的带有第一人脸候选框的面部图像；将所述带有第一人脸候选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选确定相对应的带有第二人脸候选框的面部图像；依据所述带有第二人脸候选框的面部图像分别确定相对应的带有人脸框和人脸关键定位点的人脸框图像；依据所述人脸框图像中的人脸关键定位点分别进行人脸补全生成相对应的正脸图像；依据所述正脸图像分别进行特征提取生成相对应的特征提取结果；依据所述特征提取结果生成工地人员的状态；其中，状态包括正常状态和异常状态。通过本申请提出使用基于注意力机制的多任务卷积神经网络AMTCNN进行人脸定位，AMTCNN同时具有MTCNN的多网络协同处理数据的高效性优势和注意力机制的准确性优势。本申请提出使用生成对抗神经网络GAN来处理非正脸的人脸图像，增加了后续步骤中人脸数据特征提取的可信度。本申请的目的在于提升人脸数据特征提取的准确性。本发明提出使用22层的密集型神经网络DResNet22进行人脸特征提取，提升人脸数据特征提取的准确性。

附图说明

为了更清楚地说明本申请的技术方案，下面将对本申请的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种工地人员异常状态识别方法的步骤流程图；

图2是本申请一实施例提供的一种工地人员异常状态识别方法的整体算法流程示意图；

图3是本申请一实施例提供的一种工地人员异常状态识别方法的AMTCNN整体流程示意图；

图4是本申请一实施例提供的一种工地人员异常状态识别方法的图像缩放过程示意图；

图5是本申请一实施例提供的一种工地人员异常状态识别方法的P-Net网络结构示意图；

图6是本申请一实施例提供的一种工地人员异常状态识别方法的P-Net输出结果图；

图7是本申请一实施例提供的一种工地人员异常状态识别方法的第一次非极大值抑制输出结果图；

图8是本申请一实施例提供的一种工地人员异常状态识别方法的交并比计算方法示意图；

图9是本申请一实施例提供的一种工地人员异常状态识别方法的AR1-Net网络结构图；

图10是本申请一实施例提供的一种工地人员异常状态识别方法的AR1-Net输出结果图；

图11是本申请一实施例提供的一种工地人员异常状态识别方法的第二次非极大值抑制输出结果图；

图12是本申请一实施例提供的一种工地人员异常状态识别方法的AR2-Net网络结构示意图；

图13是本申请一实施例提供的一种工地人员异常状态识别方法的AR2-Net输出结果图；

图14是本申请一实施例提供的一种工地人员异常状态识别方法的第三次非极大值抑制输出结果图；

图15是本申请一实施例提供的一种工地人员异常状态识别方法的AO-Net网络结构示意图；

图16是本申请一实施例提供的一种工地人员异常状态识别方法的AO-Net输出结果图；

图17是本申请一实施例提供的一种工地人员异常状态识别方法的GAN网络结构示意图；

图18是本申请一实施例提供的一种工地人员异常状态识别方法的DResNet22的网络结构示意图；

图19是本申请一实施例提供的一种工地人员异常状态识别方法的DResNet22的支路网络结构示意图；

图20是本申请一实施例提供的一种工地人员异常状态识别方法DResNet22的⊕表示相加运算过程示意图；

图21是本申请一实施例提供的一种工地人员异常状态识别方法摄像头模组安装的位置图；

图22是本申请一实施例提供的一种工地人员异常状态识别方法的移动电源安装的位置图；

图23是本申请一实施例提供的一种工地人员异常状态识别装置的结构框图；

图24是本发明一实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的所述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，示出了本申请一实施例提供的一种工地人员异常状态识别方法的步骤流程图，具体包括如下步骤：

S110、获取工作人员的面部视频数据，并将所述面部视频数据中每帧面部图像分别进行人脸候选框检测生成相对应的带有第一人脸候选框的面部图像；

S120、将所述带有第一人脸候选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选确定相对应的带有第二人脸候选框的面部图像；

S130、依据所述带有第二人脸候选框的面部图像分别确定相对应的带有人脸框和人脸关键定位点的人脸框图像；

S140、依据所述人脸框图像中的人脸关键定位点分别进行人脸补全生成相对应的正脸图像；

S150、依据所述正脸图像分别进行特征提取生成相对应的特征提取结果；

S160、依据所述特征提取结果生成工地人员的状态；其中，状态包括正常状态和异常状态。

下面，将对本示例性实施例中的工地人员异常状态识别方法作进一步地说明。

如上述步骤S110所述，获取工作人员的面部视频数据，并将所述面部视频数据中每帧面部图像分别进行人脸候选框检测生成相对应的带有第一人脸候选框的面部图像。

在本发明一实施例中，可以结合下列描述进一步说明步骤S110所述“获取工作人员的面部视频数据，并将所述面部视频数据中每帧面部图像分别进行人脸候选框检测生成相对应的带有第一人脸候选框的面部图像”的具体过程。

如下列步骤所述，将所述面部视频数据按照帧数进行切分生成面部图像；将所述面部图像进行缩放分别生成相对应每张面部图像的面部图像缩小集；其中，所述面部缩小集包括至少两张面部缩小的面部图像；将所述面部图像缩小集输入预设的第一侯选框检测网络中生成相对应带有第一人脸检测框的面部图像；依据所述带有第一人脸检测框的面部图像中第一人脸检测框的重复度生成相对应所述带有第一人脸候选框的面部图像。

作为一种示例，将所述面部图像进行缩放分别生成相对应每张面部图像的面部图像缩小集；具体地，将所述面部图像分别按照预设缩放因子进行缩小，直至缩小到无法缩小到边长小于预设像素，将面部图像及其缩小的图像形成所述面部缩小集；所述预设缩放因子为0.709，所述预设像素为12。如图4所示。

在一具体实施例中，视频采集，使用安全帽帽檐下安装的高清摄像头对斜下佩戴者的面部区域进行视频录制，并将视频实时传输至计算机。视频切分。将采集到的视频数据进行逐帧切分，得到面部图像；将中逐帧切分后的面部图像以0.709的缩放因子缩小图片，直到图片缩小为边长小于12个像数，这样会得到视频切分后的一张图像对应的许多不同尺度的图片，效果如图4所示。

作为一种示例，将所述面部图像缩小集输入预设的第一侯选框检测网络中生成相对应带有第一人脸检测框的面部图像；具体地，所述第一人脸检测网络为P-Net网络。

在一具体实施例中，将许多不同尺度的图像输入到P-Net(一种目的是识别出图片中可能包含人脸的区域的网络)中，得到带有大量面部候选框的不同尺度的图像，P-Net的网络结构及参数如图5所示。输入为24*24的图像，经过三次卷积后输出该图片的人脸概率、边框回归、标记点。三个结果体现在输出的图像中可表示为带有大量人脸候选框的面部图片，如图6所示。

作为一种示例，依据所述带有第一人脸检测框的面部图像中第一人脸检测框的重复度生成相对应所述带有第一人脸候选框的面部图像。具体地，依据所述带有第一人脸检测框的面部图像中重复度大于预设数值的第一人脸检测框进行删除，生成相对应所述带有人脸侯选框的第一人脸侯选框图像，输出结果如图7所示。

作为一种示例，依据所述带有第一人脸检测框的面部图像通过非极大值抑制计算出每张面部图片的重复度，将重复度大于预设数值的第一人脸检测框进行删除。

在一具体实施例中，将上图所示的带有大量人脸候选框的图片使用非极大值抑制的方法进行候选框的初步筛选，筛选结果的效果图如图7所示。网络输出的图片带有大量人脸候选框，其中会出现重复度比较高的几个候选框，非极大值抑制就是去掉那些重复率比较高的候选框。该方法通过计算两个窗口的交并比IOU值，如果两个窗口的IOU值超过指定的阈值，则会选择保留下分数比较大的窗口，而把分数小的候选框删除。

需要说明的是，IOU(Intersection Over Union交并比)，IOU用来测量两个窗口之间的相关度。IOU为两个窗口的面积的交集比上这两个窗口面积的并集。IOU的值越大，那就代表两个窗口的重合度越高。具体如图8所示。

如上述步骤S120所述，将所述带有第一人脸候选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选确定相对应的带有第二人脸候选框的面部图像。

在本发明一实施例中，可以结合下列描述进一步说明步骤S120所述“将所述带有第一人脸候选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选确定相对应的带有第二人脸候选框的面部图像”的具体过程。

如下列步骤所述，将所述带有第一人脸侯选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选生成相对应的带有子人脸候选框的面部图像；将所述带有子人脸侯选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选生成相对应的带有第二人脸候选框的面部图像。

在本发明一实施例中，可以结合下列描述进一步说明步骤所述“将所述带有第一人脸侯选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选生成相对应的带有子人脸候选框的面部图像”的具体过程。

如下列步骤所述，将所述带有第一人脸侯选框的面部图像分别经过三次卷积生成相对应的带有子人脸检测框的面部图像；依据所述带有子人脸检测框的面部图像中的子人脸检测框的重复生成相对应所述带有子人脸候选框的面部图像。

在本发明一实施例中，可以结合下列描述进一步说明步骤所述“将所述带有第一人脸侯选框的面部图像分别经过三次卷积生成相对应的带有子人脸检测框的面部图像”的具体过程。

如下列步骤所述，将所述带有第一人脸侯选框的面部图像分别进行复制生成带有第一人脸侯选框的第一路面部图像、带有第一人脸侯选框的子路面部图像及带有第一人脸侯选框的第二路面部图像；依据带有第一人脸侯选框的第一路面部图像、带有第一人脸侯选框的子路面部图像及带有第一人脸侯选框的第二路面部图像生成所述相对应的带有子人脸检测框的面部图像。

作为一种示例，所述带有第一人脸候选框的第一路面部图像进行1*1的卷积核进行卷积，将所述带有第一人脸候选框的第二路面部图像进行卷积，将所述带有第一人脸侯选框的子路面部图像直接输入最后的卷积中，生成相对应的带有子人脸检测框的面部图像。

在一具体实施例中，将经过非极大值抑制的图像大小调整为48*48后输入到AR1-Net(网络)中，输出该图片的人脸概率、边框回归、标记点。三个结果体现在输出的图像中可表示为带有大量人脸候选框的面部图片(此时候选框的数量小于上一步输出的图像中候选框的数量)，如图10所示。AR1-Net的网络结构及参数如图9所示，本申请在原版的R-Net基础上加入注意力机制(Attention mechanism)，并且多增加了一层卷积层。具体可解释为将输入图像额外分成两路输入到最后的卷积核中进行卷积，额外两路的其中一路需要经过一次1*1的卷积核进行卷积，另一路则将输入图像直接输入到最后的卷积核中进行卷积。

作为一种示例，依据所述带有子人脸检测框的面部图像中的子人脸检测框的重复生成相对应所述带有子人脸候选框的面部图像。

在一具体实施例中，将上图所示的带有大量人脸候选框的图片使用非极大值抑制的方法进行候选框的第二次筛选，筛选结果的效果图如图11所示。非极大值抑制的原理上述步骤：依据所述带有第一人脸检测框的面部图像中第一人脸检测框的重复度生成相对应所述带有第一人脸候选框的面部图像，具体如图11所示，在此不在重复赘述。

作为一种示例，依据所述带有子人脸检测框的面部图像通过非极大值抑制计算出每张面部图片的重复度，将重复度大于预设数值的带有子人脸检测框的面部图像进行删除，生成相对应所述带有子人脸候选框的面部图像。

在本发明一实施例中，可以结合下列描述进一步说明步骤所述“将所述带有子人脸侯选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选生成相对应的带有第二人脸候选框的面部图像”的具体过程。

如下列步骤所述，将所述带有子人脸侯选框的面部图像分别经过三次卷积生成相对应的带有第二人脸检测框的面部图像；依据所述带有第二人脸检测框的面部图像中的第二人脸检测框的重复生成相对应所述带有第二人脸候选框的面部图像。

如下列步骤所述，将所述带有子人脸侯选框的面部图像分别进行复制生成带有子人脸侯选框的第一路面部图像、带有子人脸侯选框的子路面部图像及带有子人脸侯选框的第二路面部图像；依据带有子人脸侯选框的第一路面部图像、带有子人脸侯选框的子路面部图像及带有子人脸侯选框的第二路面部图像生成所述相对应的带有第二人脸检测框的面部图像。

作为一种示例，所述带有子人脸侯选框的第一路面部图像进行1*1的卷积核进行卷积，将所述带有子人脸侯选框的第二路面部图像进行卷积，将所述带有子人脸侯选框的子路面部图像直接输入最后的卷积中，生成相对应的带有第二人脸检测框的面部图像。

在一具体实施例中，将许多不同尺度的图像输入到AR2-Net(网络)中，得到带有大量面部候选框的不同尺度的图像，AR2-Net的网络结构及参数如图12所示。输入为24*24的图像，经过三次卷积后输出为该图片的人脸概率、边框回归、标记点。三个结果体现在输出的图像中可表示为带有大量人脸候选框的面部图片(此时候选框的数量小于上一步输出的图像中候选框的数量)，如下图所示。AR2-Net的网络结构及参数如图13所示，本专利在原版的R-Net基础上加入注意力机制Attention mechanism，并且多增加了一层卷积层。具体可解释为将输入图像额外分成两路输入到最后的卷积核中进行卷积，额外两路的其中一路需要经过一次1*1的卷积核进行卷积，另一路则将输入图像直接输入到最后的卷积核中进行卷积。

作为一种示例，依据所述带有第二人脸检测框的面部图像通过非极大值抑制计算出每张面部图片的重复度，将重复度大于预设数值的带有第二人脸检测框的面部图像进行删除，生成相对应所述带有第二人脸候选框的面部图像。

在一具体实施例中，将所述带有大量人脸候选框的图片使用非极大值抑制的方法进行候选框的第三次筛选，筛选结果的效果图如图14所示。非极大值抑制的原理如图8所示。

如上述步骤S130所述，依据所述带有第二人脸候选框的面部图像分别确定相对应的带有人脸框和人脸关键定位点的人脸框图像。

在本发明一实施例中，可以结合下列描述进一步说明步骤S130所述“依据所述带有第二人脸候选框的面部图像分别确定相对应的带有人脸框和人脸关键定位点的人脸框图像”的具体过程。

如下列步骤所述，依据所述带有第二人脸候选框的面部图像输入预设AO-Net网络中；具体地，将所述带有第二人脸候选框的面部图像分别进行复制生成带有第二人脸候选框的第一路面部图像、带有第二人脸候选框的子路面部图像及带有第二人脸候选框的第二路面部图像；依据带有第二人脸候选框的第一路面部图像、带有第二人脸候选框的子路面部图像及带有第二人脸候选框的第二路面部图像生成分别确定相对应的带有人脸框和人脸关键定位点的人脸框图像。

在一具体实施例中，将许多不同尺度的图像输入到AO-Net(网络)中，得到带有大量面部候选框的不同尺度的图像，AO-Net的网络结构及参数如图15所示。输入为48*48的图像，经过三次卷积后输出为该图片的人脸概率、边框回归、标记点。三个结果体现在输出的图像中可表示为仅带有一个人脸候选框的面部图片，此外该网络还会输出人脸的五个定位点，如图16所示，至此面部识别定位工作完成。本申请在原版的O-Net基础上加入注意力机制Attention mechanism。具体可解释为将输入图像额外分成两路输入到最后的卷积核中进行卷积，额外两路的其中一路需要经过一次1*1的卷积核进行卷积，另一路则将输入图像直接输入到最后的卷积核中进行卷积。。

如上述步骤S140所述，依据所述人脸框图像中的人脸关键定位点分别进行人脸补全生成相对应的正脸图像。

在本发明一实施例中，可以结合下列描述进一步说明步骤S140所述“依据所述人脸框图像中的人脸关键定位点分别进行人脸补全生成相对应的正脸图像”的具体过程。

在一具体实施例中，由于摄像头的安装位置并非正对人脸，这导致拍摄到的视频数据并非佩戴者正脸。所以为了保证表情分类的准确性和可信度，本发明使用生成对抗网络GAN对上述得到的人脸关键点定位图片进行处理，得到补全后的佩戴者正脸图像。

需要说明的是，GAN包括两个模型，一个是生成模型G(Generator)，一个是判别模型D(Discriminatior)。G负责生成图片，它接收一个随机的噪声z，通过该噪声生成图片，将生成的图片记为G(z)。D负责判别一张图片是不是“真实的”它的输入是x，x表示一张图片，输出D(x)表示x为真实图片的概率，如果为1，代表是真实图片的概率为100％，输出为0则表示不可能是真实的t图片。GAN的网络结构如图17所示

如上述步骤S150所述，依据所述正脸图像分别进行特征提取生成相对应的特征提取结果。

在本发明一实施例中，可以结合下列描述进一步说明步骤S150所述“依据所述正脸图像分别进行特征提取生成相对应的特征提取结果”的具体过程。

如下列步骤所述，将所述正脸图像分别进行灰度化处理生成相对应的正脸灰度图；依据所述正脸灰度图分别进行特征提取生成所述相对应的特征提取结果。

在一具体实施例中，图像灰度化处理。使用下列公式对得到的正脸图像进行处理，得到正脸图像的灰度图。图像灰度化处理：彩色图像由RGB(R：红，G：绿，B：蓝)三个颜色通道组成，彩色图像上的每个像素点都由RGB三个颜色变量表示，将图像每个像素点的RGB三个通道根据公式1算出新的像素值，当图像上的每个像素点的RGB值都相等时，彩色图像就会变为单通道的灰度图像，将三通道的彩色图像转换成单通道的灰度图像可以加快图像的处理。

Gray＝R*0.299+G*0.587+B*0.114

作为一种示例，依据所述正脸灰度图分别进行特征提取生成所述相对应的特征提取结果；具体地，使用密集型残差神经网络DResnet22对正脸灰度图进行特征提取生成相对应的特征提取结果。

在一具体实施例中，人脸图像特征提取。本申请提出使用密集型残差神经网络DResnet22对正脸灰度图进行特征提取，特征提取的结果将作下一个步骤的输入。DResNet22：本申请将DenseNet和ResNet50的设计思路进行融合提出DResNet22。该网络将DenseNet各层之间密集连接的思想和ResNet50中的旁路使用1*1卷积核的方法进行结合，DResNet22网络整体结构如图18所示，该网络的支路网络结构如图19所示，DResNet22网络的全部激活函数为sigmoid。图18中的⊕表示相加，运算过程如图20所示。

将输出的正脸灰度图作为DResNet22的输入，经过7*7的卷积核后进入池化层，输出的内容依次输入4个蓝色、绿色、黄色、粉色、红色的卷积核，由于篇幅有限，某一颜色下的四层网络结构与该颜色的实心方块表示同一含义、同一位置。与此同时，每组颜色的卷积核都会接受其前面所有层作为其额外的输入，输入路径如图18虚线箭头部分所示。值得注意的是，每一个虚线上都存在一个1*1的卷积核，用于减少通道数和恢复通道数，提高网络计算效率。由于图19中虚线支路过于密集，所以支路的1*1卷积核的表示方式如图19所示，虽然该图中每种颜色各仅有一条虚线连接一个卷积核，但是并不代表图18中的各颜色仅有一条虚线连接卷积核，实际情况是图18中每种颜色的所有虚线均有1*1的卷积核相连。并且不同颜色连接着不同数量的卷积核，虚线颜色和卷积核数量的对应关系如图19所示。

如上述步骤S160所述，依据所述特征提取结果生成工地人员的状态；其中，状态包括正常状态和异常状态。

在本发明一实施例中，可以结合下列描述进一步说明步骤S160所述“依据所述特征提取结果生成工地人员的状态；其中，状态包括正常状态和异常状态”的具体过程。

如下列步骤所述，所述依据所述特征提取结果生成工地人员的状态；其中，状态包括正常状态和异常状态的步骤，包括：依据所述特征提取结果进行表情分类；其中，所述表情分为正常、异常闭眼、嘴部大幅张开；当所述表情分类为正常时，所述工地人员的状态为正常状态；当所述表情为异常闭眼或嘴部大幅张开，所述工作人员的状态为异常。

在一具体实施例中，本申请使用支持向量机SVM对上述中提取的特征进行分类并保存分类结果，分类结果为“正常、异常闭眼、嘴部大幅张开”。以上三种的异常情况我们将其定义为：闭眼动作、嘴部大幅张开动作持续3S(36帧)则为异常，未出现两种异常情况时则为正常。

需要说明的是，支持向量机SVM：该方法主要用于解决分类问题，属于有监督学习算法的一种。在二分类问题中，SVM目标是要找到一个超平面，使得两类数据离超平面的距离越大越好。也就是说SVM的决策边界是对样本求解最大边距超平面。对于给定的数据集T和超平面w·x+b＝0，要求得最佳的超平面，超平面参数w和b可以通过下列公式得到。其中c是惩罚系数，ε是误差：

对于非线性分类问题，由于在线性SVM的对偶问题里，只需要获得样本之间的内积，

不需要指定非线性变换，而是用核函数替换当中的内积。假设存在一个从输入空间到特征空间的映射为φ(x)，对任意输入空间中的(x_i,x_j)，都有核函数，如下列公式：

K(x_i,x_j)＝φ(x_i)^Tφ(x_j)

用核函数代替映射后的样本内积，可以有效的解决线性不可分的样本分类问题，如下列公式为SVM的分类函数。其中(x_i,y_i)表示样本点，

为拉格朗日乘子：

输出表情分类结果。SVM得到的表情分类结果在此步骤输出，输出结果为“正常”“异常闭眼”“嘴部大幅张开”。

在一具体实施例中，本申请的步骤如图2和图3所示，步骤1：准备一个常规安全帽。准备一个800万像素的4K高清USB(通用串行总线)摄像头模组。该摄像头模组可采用电池供电，所以还需准备5V的直流移动电源。

步骤2：将摄像头模组固定在安全帽正前方的帽檐下，安装位置如图21中标注所示。将移动电源固定在安全帽内测后方，固定位置如图22中标注所示。

步骤3：将摄像头模组和移动电源进行连接，保证移动电源可以为摄像头模组正常供电。

步骤4：调整摄像头角度，保证摄像头捕捉到的画面可以覆盖安全帽佩戴者的整个面部区域。

步骤5：调试摄像头模组，使其可以与计算机正常通信，保证摄像头拍摄到的佩戴者的面部画面可以实时传输至计算机。

(步骤6为图像采集部分)

步骤6：施工人员佩戴着已经安装设备的安全帽进行正施工，摄像头模组将施工人员在安全帽佩戴期间的表情以视频的形式进行记录，并将其传输至计算机。

(步骤7为人脸检测及关键点定位部分)

步骤7：记录下的视频数据经过逐帧切分后输入AMTCNN(一种卷积神经网络)进行人脸定位，输出人脸定位结果。

(步骤8为人脸补全部分)

步骤8：将步骤7输出的人脸定位结果输入到生成对抗网络GAN中，针对人脸定位结果进行人脸补全，输出人脸补全后的人脸图像。

(步骤9为人脸图像特征提取部分)

步骤9：将补全后的人脸图像输入到密集型残差网络DResNet22中进行人脸图像特征提取，输出特征提取结果。

(步骤10为表情分类部分)

步骤10：将特征提取结果输入到支持向量机SVM中进行表情分类，保存表情分类结果。识别的表情分三类“正常”“异常闭眼”“嘴部大幅张开”。

(步骤11为输出表情分类结果部分)

步骤11：将步骤10得到的表情分类结果中的异常结果“异常闭眼”“嘴部大幅张开”输出至终端计算机中。终端控制台的监管人员根据表情分类结果采取预警或其他安全措施。

在一具体实施例中，本发明目的在于提高人脸识别的准确性。本发明将多任务卷积神经网络MTCNN和注意力机制Attention mechanism进行融合，提出基于注意力机制的多任务卷积神经网络AMTCNN。AMTCNN同时具有MTCNN的多网络协同处理数据的高效性优势和注意力机制的准确性优势。

本申请提出使用生成对抗神经网络GAN来处理非正脸的人脸图像，增加了后续步骤中人脸数据特征提取的可信度。以往的研究中，部分学者或论文均采用诸如仿射变换等方式进行人脸矫正，但是此类方法只能矫正那些原本就是处于正脸状态下的图像，对于那些侧脸或从某一角度拍摄到的图像无法起到人脸补全的效果。所以本文使用GAN进行人脸补全，为后续步骤中提取人脸特征数据做准备。

本申请目的在于提升人脸数据特征提取的准确性。本发明将密集卷积网络DenseNet和卷积神经网络ResNet50进行融合，提出一种22层的密集型神经网络DResNet22。该网络将DenseNet各层之间密集连接的思想和ResNet50中的旁路使用1*1卷积核的方法进行结合，提升人脸数据特征提取的准确性。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图23，示出了本申请一实施例提供的一种工地人员异常状态识别装置，具体包括如下模块，

第一人脸候选框模块231：用于获取工作人员的面部视频数据，并将所述面部视频数据中每帧面部图像分别进行人脸候选框检测生成相对应的带有第一人脸候选框的面部图像；

第二人脸候选框模块232：用于将所述带有第一人脸候选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选确定相对应的带有第二人脸候选框的面部图像；

人脸关键定位点模块233：用于依据所述带有第二人脸候选框的面部图像分别确定相对应的带有人脸框和人脸关键定位点的人脸框图像；

正脸图像模块234：用于依据所述人脸框图像中的人脸关键定位点分别进行人脸补全生成相对应的正脸图像；

特征提取结果模块235：用于依据所述正脸图像分别进行特征提取生成相对应的特征提取结果；

工地人员的状态模块236：用于依据所述特征提取结果生成工地人员的状态；其中，状态包括正常状态和异常状态。

在本发明一实施例中，所述第一人脸候选框模块231包括：

切分子模块：用于将所述面部视频数据按照帧数进行切分生成面部图像；

缩小子模块：用于将所述面部图像进行缩放分别生成相对应每张面部图像的面部图像缩小集；其中，所述面部缩小集包括至少两张面部缩小的面部图像；

第一检测框子模块：用于将所述面部图像缩小集输入预设的第一侯选框检测网络中生成相对应带有第一人脸检测框的面部图像；

第一候选框子模块：用于依据所述带有第一人脸检测框的面部图像中第一人脸检测框的重复度生成相对应所述带有第一人脸候选框的面部图像。

在本发明一实施例中，所述第二人脸候选框模块232包括：

子人脸候选框生成子模块：用于将所述带有第一人脸侯选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选生成相对应的带有子人脸候选框的面部图像；

第二人脸候选框生成子模块：用于将所述带有子人脸侯选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选生成相对应的带有第二人脸候选框的面部图像。

在本发明一实施例中，所述子人脸候选框生成子模块包括：

带有子人脸检测框的面部图像子模块：用于将所述带有第一人脸侯选框的面部图像分别经过三次卷积生成相对应的带有子人脸检测框的面部图像；

带有子人脸候选框的面部图像子模块：用于依据所述带有子人脸检测框的面部图像中的子人脸检测框的重复生成相对应所述带有子人脸候选框的面部图像。

在本发明一实施例中，所述第二人脸候选框生成子模块包括：

带有第二人脸检测框的面部图像子模块：用于将所述带有子人脸侯选框的面部图像分别经过三次卷积生成相对应的带有第二人脸检测框的面部图像；

带有第二人脸候选框的面部图像子模块：用于依据所述带有第二人脸检测框的面部图像中的第二人脸检测框的重复生成相对应所述带有第二人脸候选框的面部图像。

在本发明一实施例中，所述带有子人脸检测框的面部图像子模块包括：

三路子模块：用于将所述带有第一人脸侯选框的面部图像分别进行复制生成带有第一人脸侯选框的第一路面部图像、带有第一人脸侯选框的子路面部图像及带有第一人脸侯选框的第二路面部图像；

三路生成子模块：用于依据带有第一人脸侯选框的第一路面部图像、带有第一人脸侯选框的子路面部图像及带有第一人脸侯选框的第二路面部图像生成所述相对应的带有子人脸检测框的面部图像。

在本发明一实施例中，所述特征提取结果模块包括：

正脸灰度图子模块：用于将所述正脸图像分别进行灰度化处理生成相对应的正脸灰度图；

特征提取结果子模块：用于依据所述正脸灰度图分别进行特征提取生成所述相对应的特征提取结果。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

在本具体实施例与上述具体实施例中有重复的操作步骤，本具体实施例仅做简单描述，其余方案参考上述具体实施例描述即可。

参照图24，示出了本申请的一种工地人员异常状态识别方法的计算机设备，具体可以包括如下：

上述计算机设备12以通用计算设备的形式表现，计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，内存28，连接不同系统组件(包括内存28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、音视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

内存28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图24中未示出，可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块42，这些程序模块42被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信，还可与一个或者多个使得操作人员能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过I/O接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN))，广域网(WAN)和/或公共网络(例如因特网)通信。如图24所示，网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白，尽管图24中未示出，可以结合计算机设备12使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。

处理单元16通过运行存储在内存28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请实施例所提供的一种工地人员异常状态识别方法。

也即，上述处理单元16执行上述程序时实现：获取工作人员的面部视频数据，并将所述面部视频数据中每帧面部图像分别进行人脸候选框检测生成相对应的带有第一人脸候选框的面部图像；将所述带有第一人脸候选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选确定相对应的带有第二人脸候选框的面部图像；依据所述带有第二人脸候选框的面部图像分别确定相对应的带有人脸框和人脸关键定位点的人脸框图像；依据所述人脸框图像中的人脸关键定位点分别进行人脸补全生成相对应的正脸图像；依据所述正脸图像分别进行特征提取生成相对应的特征提取结果；依据所述特征提取结果生成工地人员的状态；其中，状态包括正常状态和异常状态。

在本申请实施例中，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有实施例提供的一种工地人员异常状态识别方法。

也即，给程序被处理器执行时实现：获取工作人员的面部视频数据，并将所述面部视频数据中每帧面部图像分别进行人脸候选框检测生成相对应的带有第一人脸候选框的面部图像；将所述带有第一人脸候选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选确定相对应的带有第二人脸候选框的面部图像；依据所述带有第二人脸候选框的面部图像分别确定相对应的带有人脸框和人脸关键定位点的人脸框图像；依据所述人脸框图像中的人脸关键定位点分别进行人脸补全生成相对应的正脸图像；依据所述正脸图像分别进行特征提取生成相对应的特征提取结果；依据所述特征提取结果生成工地人员的状态；其中，状态包括正常状态和异常状态。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在操作人员计算机上执行、部分地在操作人员计算机上执行、作为一个独立的软件包执行、部分在操作人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到操作人员计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种工地人员异常状态识别方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种工地人员异常状态识别方法，所述方法通过工地人员的面部视频识别出工地人员的异常状态，其特征在于，包括：

2.根据权利要求1所述的工地人员异常状态识别方法，其特征在于，所述将所述面部视频数据中每帧面部图像分别进行人脸候选框检测生成相对应的带有第一人脸候选框的面部图像的步骤，包括：

将所述面部视频数据按照帧数进行切分生成面部图像；

3.根据权利要求1所述的工地人员异常状态识别方法，其特征在于，所述将所述带有第一人脸候选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选确定相对应的带有第二人脸候选框的面部图像的步骤，包括：

4.根据权利要求3所述的工地人员异常状态识别方法，其特征在于，所述将所述带有第一人脸侯选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选生成相对应的带有子人脸候选框的面部图像的步骤，包括：

5.根据权利要求3所述的工地人员异常状态识别方法，其特征在于，将所述带有子人脸侯选框的面部图像分别进行多路径卷积并进行人脸侯选框筛选生成相对应的带有第二人脸候选框的面部图像的步骤，包括：

6.根据权利要求4所述的工地人员异常状态识别方法，其特征在于，所述将所述带有第一人脸侯选框的面部图像分别经过三次卷积生成相对应的带有子人脸检测框的面部图像的步骤，包括：

7.根据权利要求1所述的工地人员异常状态识别方法，其特征在于，所述依据所述正脸图像进行特征提取生成相对应的特征提取结果的步骤，包括：

8.一种工地人员异常状态识别装置，所述装置通过工地人员的面部视频识别出工地人员的异常状态，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的工地人员异常状态识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的工地人员异常状态识别方法的步骤。