CN112598055A

CN112598055A - 头盔佩戴检测方法、计算机可读存储介质和电子设备

Info

Publication number: CN112598055A
Application number: CN202011519641.XA
Authority: CN
Inventors: 匡平; 段其鹏; 李凡; 彭江艳; 刘晨阳; 黄泓毓; 高宇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-04-02
Anticipated expiration: 2040-12-21
Also published as: CN112598055B

Abstract

本发明公开了头盔佩戴检测方法、计算机可读存储介质和电子设备，方法包括以下步骤：将待检测数据输入第四模型，将第四模型的输出进行头盔佩戴检测；其中，第四模型由以下方式得到：利用人头数据对第一模型进行训练，训练完成得到第二模型；利用人头数据和头盔数据的第一混合数据对第二模型进行训练，训练完成得到第三模型；利用人头数据、头盔数据和现场数据的第二混合数据对第三模型进行训练，训练完成得到第四模型。本发明首先采用人头数据集进行训练，再采用头盔+人头的数据集训练，最后在现场数据集上进行训练，让神经网络在能够正确区分头盔和人头的前提下，在超复杂、高密度、小尺度的条件下训练，最终实现高准确率的定位。

Description

头盔佩戴检测方法、计算机可读存储介质和电子设备

技术领域

本发明涉及图像识别领域，尤其涉及头盔佩戴检测方法、计算机可读存储介质和电子设备。

背景技术

安全头盔佩戴关乎生命安全，能够高效，准确，低成本的识别安全头盔佩戴情况对工业生产有着重要的意义。部分现有技术利用神经网络对头盔佩戴进行识别。

神经网络常用手段是混合训练，即一个数据集内有数十种类别(例如coco80类，ImageNet1000类)同时训练让神经网路去辨别，去定位，但这种方式会导致训练损失函数收敛及其缓慢，严重受限于损失函数的设计，没办法达到快速训练和高准确率。类比于人类学习，一次性学习80门功课很有可能最后混淆其中的内容，并且可能什么都学的不精通。这种训练方式极有可能会让神经网络混淆头盔和人头，导致关键点位置不准确类别，判断错误，影响后续的逻辑判断。

因此，针对上述问题，提供一种头盔佩戴检测方法、计算机可读存储介质和电子设备，是本领域亟待解决的技术问题。

发明内容

本发明的目的在于克服现有技术的不足，提供头盔佩戴检测方法、计算机可读存储介质和电子设备。

本发明的目的是通过以下技术方案来实现的：

本发明的第一方面，提供头盔佩戴检测方法，包括以下步骤：

将待检测数据输入第四模型，将第四模型的输出进行头盔佩戴检测；其中，第四模型由以下方式得到：

利用人头数据对第一模型进行训练，训练完成得到第二模型；

利用人头数据和头盔数据的第一混合数据对第二模型进行训练，训练完成得到第三模型；

利用人头数据、头盔数据和现场数据的第二混合数据对第三模型进行训练，训练完成得到第四模型。

进一步地，所述第一模型、第二模型、第三模型和第四模型均为三阶堆叠沙漏网结构，输入为场景图像数据，三个输出分别为中心点热力图、物体类别、包括宽度和长度的物体属性值。

进一步地，所述将第四模型的输出进行头盔佩戴检测包括：

利用中心点热力图和物体类别确定图像中出现的所有人头的位置以及头盔的位置；

通过中心点热力图对整张图片中的头盔和人头进行两两分组，用于进一步区分未佩戴头盔、头盔在头部附近以及正确佩戴头盔这三种情形：对于图中不属于任何一个分组的人头直接判断认为没有佩戴头盔；对于有分组的人头和头盔，根据中心点热力图和物体属性值计算距离和重叠面积，得出头盔佩戴结果。

进一步地，所述方法还包括以下步骤：

在对第一模型、第二模型和第三模型的训练过程中，利用损失函数对对应模型进行优化；其中损失函数的整体构成为：L_all＝λ_confidenceL_confidence+λ_sizeL_size+λ_offsetL_offset，其中为λ_confidence、λ_size、λ_offset分别为三个子损失函数的权值，L_confidence、L_offset、L_size分别表示置信度损失、浮点误差损失和目标大小损失。

进一步地，所述的置信度损失L_confidence具体为：

式中，公式中Yxyc代表GT置信度，

代表网络预测值，N为GT中经过值为1的关键点个数，实现归一化处理；α和β则是Focal loss的超参数。

进一步地，所述浮点误差损失L_offset具体为：

式中，对于每一个中心点，采用了一个偏移误差来进行修正；其中

采用下采样得到的GT位置，

是对像素位置的向下取整坐标位置，

则为预测得到的偏移值；R表示缩放倍数，l表示原图像特征图，N表示GT中经过值为1的关键点个数。

进一步地，所述目标大小损失L_size具体为：

s_o是物体的GT尺寸，这个值在模型训练前就已经计算出来，同时为了减少计算量和网络回归时的难度，计算时采用缩放R倍的经过下采样后的长度和宽度；采用L2损失来进一步在出现误差时提高惩罚程度；

表示代表神经网络预测出来的对象尺寸输出，N表示GT中经过值为1的关键点个数。

进一步地，所述人头数据、头盔数据和现场数据经过预处理后进行训练，所述预处理包括以下一种或者多种：

几何变换，包括随机水平翻转、垂直翻转、旋转、随机遮挡；

光学变换，包括模糊、亮度变换；

动态随机组合，随机选取四张数据集中的图片，选择图片中包含有待检测对象的区域进行固定大小裁剪，然后分别将产生的区域拼接起来形成一张全新的包含有四张场景对象的图片。

本发明的第二方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行所述的头盔佩戴检测方法的步骤。

本发明的第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现所述头盔佩戴检测方法的步骤。

本发明的有益效果是：

(1)在本发明的一示例性实施例中，考虑到人头和头盔在形状上的相似，同时考虑到在颜色上的不同，可以认为人头是较为简单的识别任务，首先采用人头数据集进行训练，神经网络的参数能够稳定学习到人头的特征，这时在采用头盔+人头的数据集训练，神经网络参数变动较小且能够很好的区分出二者在特征上的不同之处，最后在现场数据集上进行训练，相当于磨练，让神经网络在能够正确区分头盔和人头的前提下，在超复杂、高密度、小尺度的条件下训练，最终实现高准确率的定位，使模型具备复杂场景下的泛化能力。

(2)在本发明的又一示例性实施例中，第一模型、第二模型、第三模型和第四模型均为三阶堆叠沙漏网结构，输入为场景图像数据，三个输出分别为中心点热力图、物体类别、包括宽度和长度的物体属性值；而在又一示例性实施例中，根据中心点热力图和物体属性值计算距离和重叠面积，得出头盔佩戴结果。

(3)在本发明的又一示例性实施例中，对于第一模型、第二模型和第三模型的三次训练过程，每次训练均损失函数对对应的模型进行优化。

(4)在本发明的又一示例性实施例中，根据人头和头盔检测这一任务特性以及小尺度、高复杂背景的应用场景做出了一定的改进和针对，相较于现有技术的损失函数，各个损失函数主要解决的是复杂背景小目标判断的问题。

(5)在本发明的又一示例性实施例中，采用了三种预处理数据集方式可以提高模型针对不同场景的泛化能力。

附图说明

图1为本发明一示例性实施例提供的方法流程图；

图2为本发明一实例性实施例提供的三阶堆叠沙漏网结构示意图。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

在现有技术中，神经网络常用手段是混合训练，即一个数据集内有数十种类别(coco80类，ImageNet1000类)同时训练让神经网路去辨别，去定位，但这种方式会导致训练损失函数收敛及其缓慢，严重受限于损失函数的设计，没办法达到快速训练和高准确率。例如可以类比于人类学习，一次性学习80门功课很有可能最后混淆其中的内容，并且可能什么都学的不精通。这种训练方式极有可能会让神经网络混淆头盔和人头，导致关键点位置不准确类别，判断错误，影响后续的逻辑判断。

参见图1，图1示出了本发明一示例性实施例提供头盔佩戴检测方法，包括以下步骤：

在下述任一示例性实施例中，人头数据可以为SCUT-HEAD人头公开数据集中的数据，头盔数据可以为SHWD安全头盔公开数据集中的数据，现场数据可以为现场200个摄像头拍摄的施工现场收集的图片标注形成的数据集(含人头，头盔)中的数据(而在另一示例性实施例中，现场数据为地铁数据集)。

在该示例性实施例中，采用的是多数据集级联学习方式，首先使用纯人头数据集SCUT-HEAD预训练模型，使模型能够学习到人头的特征信息；训练60epoch后在混合使用SHWD头盔数据集训练模型能够识别区分头盔和人头的特征；最后将施工现场数据集加入整个训练数据集，使模型具备复杂场景下的泛化能力。

考虑到人头和头盔在形状上的相似，同时考虑到在颜色上的不同，可以认为人头是较为简单的识别任务，首先采用人头数据集进行训练，神经网络的参数能够稳定学习到人头的特征，这时在采用头盔+人头的数据集训练，神经网络参数变动较小且能够很好的区分出二者在特征上的不同之处，最后在复杂地铁数据集上进行训练，相当于磨练，让神经网络在能够正确区分头盔和人头的前提下，在超复杂、高密度、小尺度的条件下训练，最终实现高准确率的定位。

另外，本申请相较于先头盔数据训练再进行头盔数据+人头数据训练的方式，由于头盔相比于人头在深度学习中属于复杂类别，包含颜色特征以及形状特征，其与人头类别相比变种太多，如果先训练头盔数据集，神经网络的参数受到颜色特征的影响较大，这样在后续使用人头数据集训练时，神经网络参数会剧烈变化，甚至有可能导致损失函数不收敛，导致参数崩塌。

更优地，在一示例性实施例中，如图2所述，所述第一模型、第二模型、第三模型和第四模型均为三阶堆叠沙漏网结构，输入为场景图像数据，三个输出分别为中心点热力图、物体类别、包括宽度和长度的物体属性值。

所述三阶堆叠沙漏网的结构如图2所示，输入为图像数据，先包括三个顺次连接的具有下采样的residual模块，每个residual模均包括：卷积下采样，提取图片的信息特征，然后在经过残差模块组和最大池化，进一步压缩和整合特征信息，但同时，为了获取低维度信息，会在后续每个上采样部分前添加一个basic buildingblock。当特征降到一个很低的分辨率，在每一个最大池化步骤中，网络产生分支并在原来提前池化的分辨率下使用更多的卷积(在该示例性实施例中，包括三次)。当到达最低的分辨率的时候，网络开始上采样并结合不同尺度下的特征，每次相加之间使用一个residual模块提取特征。最后输出得到中心点热力图、物体类别、包括宽度和长度的物体属性值。

由于本申请采用的是三层堆叠，纵向上自下往上，尺寸越来越接近原尺寸，即分别为三分之一、二分之一、原尺寸。

更优地，基于上述内容，在一示例性实施例中，所述将第四模型的输出进行头盔佩戴检测包括：

通过中心点热力图对整张图片中的头盔和人头进行两两分组(表示按照一个头盔对象、一个人头对象进行两两分组，分组依据是模型输出的关键点热力图，根据热力图按照L2距离计算，算出相近的两个对象归为一个组)，用于进一步区分未佩戴头盔、头盔在头部附近以及正确佩戴头盔这三种情形：对于图中不属于任何一个分组的人头直接判断认为没有佩戴头盔；对于有分组的人头和头盔，根据中心点热力图和物体属性值计算距离和重叠面积，得出头盔佩戴结果。

具体地，在该示例性实施例中，首先从神经网络输出后会产生三个输出关键点热力图、类别概率热力图和对象尺寸值(以下简称a，b，c)，对应的大小分别是[1，2，128，128]，[1，1，128，128]，[1，2，128，128]。其中，a代表着人头以及头盔在图像中出现位置的热力图分布，峰值为1按距离远近递减，b代表着神经网络预测前者产生的关键的位置对应物体的类别，c预测出对应关键点物体的长度和宽度值。

在后续根据关键点距离以及重叠面积判断当中：

(1)结合a和b的输出确定图像中出现的所有人头的位置以及头盔的位置。

(2)通过a的输出对整张图片中的头盔和人头进行两两分组(分组的目的是为了进一步区分正在戴头盔，头盔在头部附近，以及正确佩戴头盔这三种情形)。

(3)对于图中不属于任何一个分组的人头直接判断认为没有佩戴头盔。

(4)对于有分组的人头和头盔，根据a和c计算距离和重叠面积，得出结论。

更优地，在一示例性实施例中，所述方法还包括以下步骤：

在对第一模型、第二模型和第三模型的训练过程中，利用损失函数对对应模型进行优化；其中损失函数的整体构成为：L_all＝λ_confidenceL_confidence+λ_sizeL_size+λ_offsetL_offset，其中为λ_{confidence、}λ_size、λ_offset分别为三个子损失函数的权值，L_confidence、L_offset、L_size分别表示置信度损失、浮点误差损失和目标大小损失。

具体地，在该示例性实施例中，对于第一模型、第二模型和第三模型的三次训练过程，每次训练均损失函数对对应的模型进行优化。在一示例性实施例中，λ_confidence、λ_size、λ_offset分别设置为2、0.1、1。

另外，在下述示例性实施例中，根据人头和头盔检测这一任务特性以及小尺度、高复杂背景的应用场景做出了一定的改进和针对，相较于现有技术的损失函数，各个损失函数主要解决的是复杂背景小目标判断的问题：

(1)更优地，在一示例性实施例中，所述的置信度损失L_confidence具体为：

沿用了Focal loss的思想，并根据安全头盔佩戴场景做出了一定的针对性改进。由于采用的开源数据集正负样本不均衡且待检测物体尺寸差异较大我们通过增设预测值的判断条件，在网络预测出现较大误差的情况下对损失函数加大惩罚。式中，公式中Yxyc代表GT置信度，

代表网络预测值，N为GT中经过值为1的关键点个数，实现归一化处理；α和β则是Focalloss的超参数，在本示例性实施例中，分别设定为3和4。

具体地，上式为现有技术中使用的损失函数。由于本申请采用的开源数据集正负样本不均衡且待检测物体尺寸差异较大，因此我们通过增设预测值的判断条件和改变超参数，在网络预测出现较大误差的情况下对损失函数加大惩罚，通过这种方式能够极大的改进神经网络对于模棱两可的判断结果的宽容度，要求神经网络对于结果的分化更为明显，从而更好的区分头盔和人头。

(2)更优地，在一示例性实施例中，所述浮点误差损失L_offset具体为：

对输入图像采用了stride＝3的缩放(R＝3)，这样会使得经过卷积的特征图在重新上采样回到原尺度图像上时带来一定的精度误差(例如由于向下取整，向上取整带来的浮点损失，在feature map上只有1个像素的差距，对应原图是3个像素点的差距)，因此对于每一个中心点，采用了一个偏移误差来进行修正；其中

采用下采样得到的GT位置，

是对像素位置的向下取整坐标位置，

则为预测得到的偏移值；R表示缩放倍数，l表示原图像特征图，N表示GT中经过值为1的关键点个数(其中N是训练数据集的真实存在的关键点个数，和置信损失的相同，都是训练数据的groundtruth)。

具体地，上式为现有技术中使用的损失函数。在这一个损失函数中，由于缩小了对于图像尺度的缩放(即设置R＝3)，更小的缩放能够减少图像信息的丢失，能够更好的保留图像中的特征信息，对于高复杂场景以及小尺度的场景，能够是的神经网络更容易地识别和判断。

(3)更优地，在一示例性实施例中，所述目标大小损失L_size具体为：

s_o是物体的GT尺寸，这个值在模型训练前就已经计算出来，同时为了减少计算量和网络回归时的难度，计算时采用缩放R倍的经过下采样后的长度和宽度；考虑到场景下小目标尺度问题，采用L2损失来进一步在出现误差时提高惩罚程度；

表示代表神经网络预测出来的对象尺寸输出，N表示GT中经过值为1的关键点个数(其中N是训练数据集的真实存在的关键点个数，和置信损失的相同，都是训练数据的groundtruth)。

具体地，上式为现有技术中使用的损失函数。现有技术对于多尺度的问题考虑较为短视，认为关键点网络本身能够解决多尺度问题，但是在实际使用过程中，效果并不理想，因此采用L2损失来强化小尺度目标的识别。

更优地，在一示例性实施例中，所述人头数据、头盔数据和现场数据经过预处理后进行训练，所述预处理包括以下一种或者多种：

光学变换，包括模糊、亮度变换；

采用了三种预处理数据集方式可以提高模型针对不同场景的泛化能力。

基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得装置执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.头盔佩戴检测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的头盔佩戴检测方法，其特征在于：所述第一模型、第二模型、第三模型和第四模型均为三阶堆叠沙漏网结构，输入为场景图像数据，三个输出分别为中心点热力图、物体类别、包括宽度和长度的物体属性值。

3.根据权利要求2所述的头盔佩戴检测方法，其特征在于：所述将第四模型的输出进行头盔佩戴检测包括：

4.根据权利要求1或2所述的头盔佩戴检测方法，其特征在于：所述方法还包括以下步骤：

在对第一模型、第二模型和第三模型的训练过程中，利用损失函数对对应模型进行优化；其中损失函数的整体构成为：Lall＝λ_confidenceL_confidence+λ_sizeL_size+λ_offsetL_offset，其中为λ_confidence、λ_size、λ_offset分别为三个子损失函数的权值，L_confidence、L_offset、L_size分别表示置信度损失、浮点误差损失和目标大小损失。

5.根据权利要求4所述的头盔佩戴检测方法，其特征在于：所述的置信度损失L_confidence具体为：

式中，公式中Yxyc代表GT置信度，

6.根据权利要求4所述的头盔佩戴检测方法，其特征在于：所述浮点误差损失L_offset具体为：

采用下采样得到的GT位置，

是对像素位置的向下取整坐标位置，

7.根据权利要求4所述的头盔佩戴检测方法，其特征在于：所述目标大小损失L_size具体为：

8.根据权利要求1所述的头盔佩戴检测方法，其特征在于：所述人头数据、头盔数据和现场数据经过预处理后进行训练，所述预处理包括以下一种或者多种：

光学变换，包括模糊、亮度变换；

9.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至8中任一项所述的头盔佩戴检测方法的步骤。

10.一种电子设备，其特征在于：包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至8中任一项所述头盔佩戴检测方法的步骤。