CN113553984B

CN113553984B - 一种基于上下文辅助的视频口罩检测方法

Info

Publication number: CN113553984B
Application number: CN202110878803.7A
Authority: CN
Inventors: 孙德亮
Original assignee: China Re Cloud Technology Co ltd
Current assignee: China Re Cloud Technology Co ltd
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2023-10-13
Anticipated expiration: 2041-08-02
Also published as: CN113553984A

Abstract

本发明提供一种基于上下文辅助的监控视频口罩检测方法，包括以下步骤：S1通过摄像头采集视频图像信息；S2标注数据；S3按8:2拆分数据集为训练集和验证集；S4数据增强和归一化训练集；S5计算训练集的RGB平均值和方差；S6训练和验证模型；S7导出模型；S8使用模型进行实时在线口罩检测。本发明通过结合图片中口罩的上下文口罩信息，实现口罩识别，本发明在口罩作为小目标时表现良好。

Description

一种基于上下文辅助的视频口罩检测方法

技术领域

本发明提供一种基于上下文辅助的监控视频口罩检测方法，属于深度学习-机器视觉技术范畴。

背景技术

食品卫生安全是影响公众健康和社会福祉的重要因素，食品卫生安全成为人们茶余饭后谈论的焦点问题，虽然人们的关注逐年提升，但每年由于食用不卫生的食物引起的腹泻等疾病的卫生事故还是源源不断的发生，并且逐年攀升。食品卫生安全监测工作中的检测项目众多，需要的监管和检测人员比较多。随着先进的管理理念和信息技术不断发展，食品安全监督管理和厨房视频监控系统建设为食品监督管理部门和相关机构提供食品卫生安全监督的相对透明化、智能化的信息基础数据，使食品卫生安全监督管理达到新的高度。

在对厨房人员卫生情况智能监控检测的过程中，必然会遇到工作人员脸部口罩遮挡的问题，而怎样解决有遮挡的口罩识别问题则是本研究的关键。口罩遮挡造成的问题不仅仅是某些面部上的器官被不明物体遮挡，最重要的是它会使口罩关键性特征无法完整而精确的提取出来，导致图像信息的丢失。

发明内容

本发明要解决的技术问题是，现有技术不能实现遮挡口罩的识别。

本发明提供一种基于上下文辅助的监控视频口罩检测方法，包括以下步骤：

S1通过摄像头采集视频图像信息；

S2标注数据，其格式为x、y、w、h、label，x表示标注框的横坐标、y表示标注框的纵坐标、w表示标注框的框宽、h表示标注框的框高、label表示框标签；

S3按8:2拆分数据集为训练集和验证集；

S4数据增强和归一化训练集；

S5计算训练集的RGB平均值和方差；

S6训练和验证模型；

S7导出模型；

S8使用模型进行实时在线口罩检测。

进一步的，所述模型采用VGG16卷积神经网络，卷积的填充宽度等于卷积核的大小除以2取整，池化采用最大池化，全连接层替换为全卷积层。

进一步的，所述模型采用第三模型提取图像高层次的上下文的特征和低层次的纹理的特征信息，以语境辅助的形式检测具有相关语义的近似标签；通过第一模型从中间层开始进行自上而下的融合，将高层级特征整合到高分辨率的低层级特征上；通过第二模型结构提高预测网络的表达能力；通过数据增强精细化描述样本，将所有的图片都会被缩放到640x640的尺寸，训练时对图片进行数据增强，包括随机扰动、翻转、裁剪，增加了尺度变换，随机将图片尺度变换到预设范围的尺度。

进一步的，所述第一模型在口罩检测任务中结合高层次的包含更多上下文的特征和低层次的包含更多纹理的特征，高层级特征被用于检测尺寸较大的口罩，而低层级特征被用于检测尺寸较小的口罩；

所述第一模型从中间层开始进行自上而下的融合，所述第一模型计算方式为：

A1首先对VGG16第i个池化层的输入进行1×1的卷积；

A2将第A1步的结果进行2倍上采样；

A3将第A2步的结果与i-1个池化层的输入进行内积计算；

A4输出第一模型计算结果；

进一步的，所述第二模型具体实现方法步骤如下：

B1将第一模型和VGG16后1，3，5层的输出作为输入；

B2对第B 1步的输入进行输出有1024个特征的卷积计算，并返回归一化值；

B3对第B 1步的输入依次进行输出特征为256、256和1024个特征的卷积计算，并返回归一化值；

B4对第B 2步和B3部的结果进行加法计算；

B5对第B 4步的结果进行输出特征为256个的卷积计算；

B6对第B 4步的结果进行输出特征为128个的卷积计算；

B7对第B 6步的结果进行输出特征依次为128、128个的卷积计算；

B8对第B 5、B 6、B 7步的结果进行拼接；

B9输出第二模型的计算结果。

本发明的有益效果是：

1本发明提出第三模型，通过半监督的方法，来学习高层特征的上下文信息，具体的，结合了人脸、人头、身体等信息，以检测出小尺度，模糊，遮挡的口罩，本发明以结合人脸为例。

2本发明提出了低层特征金字塔网络，充分结合高层上下文语义特征和低层口罩特征，使得本发明能够在一张图片中预测所有尺度的口罩。

3本发明引入上下文敏感结构，增加网络的预测能力，提高最终的输出精度。

4本发明还采用数据锚抽样的方法对不同尺度的训练样本进行了扩充，增加了较小口罩的训练数据的多样性。

附图说明

图1为本发明口罩识别模型。

图2位本发明口罩识别流程。

具体实施方式

本发明提供了一种基于上下文辅助的视频口罩检测方法。该方法通过结合图片中口罩的上下文口罩信息，实现口罩识别，本发明在口罩作为小目标时表现良好。发明所用的深度学习模型如图1。

实施例1

VGG16为本发明主干网络，用来提取口罩特征的基础网络，其结构如表格1所示。卷积的填充宽度等于卷积核的大小除以2取整。池化采用最大池化，大小和步长均为2。本发明使用VGG16时，已将传统VGG16结构中的全连接层替换为全卷积层。

VGG16网络是14年牛津大学计算机视觉组和Google DeepMind公司研究员一起研发的深度网络模型，该网络一共有16个训练参数的网络。

第一模型：在口罩检测任务中，第一模型可以充分结合高层次的包含更多上下文的特征和低层次的包含更多纹理的特征。高层级特征被用于检测尺寸较大的口罩，而低层级特征被用于检测尺寸较小的口罩。为了将高层级特征整合到高分辨率的低层级特征上，本发明从中间层开始进行自上而下的融合，构建第一模型。第一模型计算方式为：

A1首先对VGG16第i个池化层的输入进行1×1的卷积；

A2将第A1步的结果进行2倍上采样；

A3将第A2步的结果与i-1个池化层的输入进行内积计算；

A4输出第一模型计算结果；

第二模型：本发明使用了一种上下文敏感结构，提高网络的预测能力。第二模型具体实现方法步骤如下：

B1将第一模型和VGG16后1，3，5层的输出作为输入；

B4对第B 2步和第3部的结果进行加法计算；

B5对第B 4步的结果进行输出特征为256个的卷积计算；

B6对第B 4步的结果进行输出特征为128个的卷积计算；

B8对第B 5、B 6、B 7步的结果进行拼接；

B9输出第二模型的计算结果。

第三模型：本发明使用半监督解决方案来生成与口罩检测相关的具有语义的近似标签，提出一种语境辅助方法，它引入有监督的信息来学习较小的、模糊的和部分遮挡的口罩的语境特征。使用时可以根据标注的口罩标签，按照一定的比例扩充，得到脸部的标签(上下左右各扩充1/2)和头部的标签(可自定义扩充比例)。第三模型实现流程步骤如下：

C1以上述第二模型的输出作为输入；

C2对低层第二模型的结果进行范围正则化、归一化和缩放；

C3对输入生成SSD候选框，得到候选框和候选框方差；

C4对输入做卷积计算输出为8个特征的卷积计算；

C5对C4步的输出按：口罩置信度:口罩置信度:人脸置信度:人脸置信度＝3:1:3:1的比例切分；

C6找出C 5步比例为3的口罩置信度，在维度0上计算最大值；

C7找出第C5步比例为3的人脸置信度，在维度0上计算最大值；

C8对C 5步中比例为1口罩的置信度和C6的结果进行拼接；

C9对C 5步中比例为1人脸的置信度和C7的结果进行拼接；

C10对C 8步得到的结果进行维度转换和调整，得到口罩置信度；

C11对C 9步得到的结果进行维度转换和调整，得到人脸置信度；

C12对输入做卷积计算输出为8个特征的卷积计算；

C13对C 12步的输出按：口罩位置:人脸位置＝1:1的比例切分；

C14对C 13步得到的结果分别进行维度转换和调整，得到口罩位置信息和人脸位置信息。

本发明以增加训练样本在不同尺度上的多样性，该方法改变训练样本的分布，随机将图片尺度变换到一定范围的尺度，大大增强口罩的尺度变化，重点关注较小的口罩。在训练时还会对图片进行数据增强，包括随机扰动、翻转、裁剪等。

在本发明实施过程中对图片进行数据增强步骤包括，

对图片使用一种组合的裁剪方式,包含4种裁剪方式,第1种直接用检测模型检测结果；第2种在检测结果上,随机调整横坐标值,纵坐标固定；第3种在检测结果上,横坐标固定,随机调整纵坐标值；第4种在检测结果上,横纵坐标值都随机调整。一张烟雾图像经过检测模型后得到检测位置,在裁剪时将检测位置随机选择组合裁剪方式中一种变换,用变换后的检测位置得到新的图像。这样添加噪声的目的在于改变原有数据分布,同一角度下得到不同形状的图像,增加同一图像的多尺度,增加样本多样性,让其更好地适应真实场景的烟雾,扩大网络拟合数据真实分布的能力，尽可能减小经验风险，增加泛化性能。

公式中x₁,y₁,x₂,y₂表示检测模型得到的坐标值,w表示图像宽度,即|x₂-x₁|,h表示图像高度,即|y₂-y₁|,r表示随机产生一个[-0.1,0.5]区间内的任意数,p_w表示随机加一个缩放图像宽度w,p_h表示随机加一个缩放图像高度h。r取最小值-0.1,是出于对烟雾区域减小过大导致不能判别为烟雾考虑,r取最大值-0.5已经够用,取更大区域无意义。

在本发明实施过程中中，口罩检测的工作流程如图2，具体流程说明如下：

1.首先通过摄像头采集视频图像信息；

2.标注数据，其格式为x、y、w、h、label，每个字母表示的信息依次为标注框的横坐标、纵坐标、框宽、框高和框标签；

3.按8:2拆分数据集为训练集和验证集；

4.数据增强和归一化训练集

5.计算训练集的RGB平均值和方差；

6.训练和验证模型；

7.导出模型；

8.使用模型进行实时在线口罩检测。

在本发明实施过程中，激活函数采用soft_relu，阈值threshold设置为40.0，其具体公式如下：

ln_e＝e^{max(min(x,threshold),-threshold)}

out＝ln^(1+ln_e)

卷积计算公式如下：

Out＝σ(W×X+b)

其中：σ为激活函数，W为卷积核，X为卷积输入，b为偏置项。

池化公式如下，padding＝0：

Out(i，j)＝(max(X[i:i+2，j:j+2]))

其中：X为输入，i，j为池化起始位置，i+2，j+2位池化终止位置，步长为2。

上采样，双线性插值法：

计算原图坐标，：

srcX＝dstX×(srcW/dstW)

srcY＝dstY×(srcH/dstH)

其中srcX、srcY、srcH、srcW依次为原始图像像素的横坐标、像素的纵坐标、图高、图宽，dstX、dstY、dstH、dstW依次为目标图像像素的横坐标、像素的纵坐标、图高、图宽

坐标向左取整数，获取原始图像中像素的坐标x，y：

x＝math.floor(scrX)

y＝math.floor(scrY)

计算偏移量u、v：

u＝scrX-x

v＝scrY-y

计算上采样中(i，j)位置的结果，其中j∈[0,dstW)，j∈[0,dstH)：

dst[i，j]＝(1-u)×(1-v)×sre[x，y]+u×(1-v)×sre[x+1，y]+(1-u)×v×sre[x，y+1]+u×v×sre[x+1，y+1]

其中sre[x，y]为原图中第x行，第y列像素，dst[i，j]为目标图中第i行，第j列像素。

表格1本发明中VGG16模型参数

input	filters_size	ksize_size	strides	output	MaxPool
						3×640×640	64	3	1	3×640×640	-
3×640×640	64	3	1	64×640×640	64×320×320
						64×320×320	128	3	1	128×320×320	-
128×320×320	128	3	1	128×320×320	128×160×160
						128×160×160	256	3	1	256×160×160	-
256×160×160	256	3	1	256×160×160	-
						256×160×160	256	3	1	256×160×160	256×80×80
256×80×80	512	3	1	512×80×80	-
						512×80×80	512	3	1	512×80×80	-
512×80×80	512	3	1	512×80×80	512×40×40
						512×40×40	512	3	1	512×40×40	-
512×40×40	512	3	1	512×40×40	-
						512×40×40	512	3	1	512×40×40	512×20×20
512×20×20	1024	3	1	1024×20×20	-
						1024×20×20	1024	1	1	1024×20×20	-
1024×20×20	256	1	1	256×20×20	-
						256×20×20	512	3	2	512×10×10	-
512×10×10	128	1	1	128×10×10	-
						128×10×10	256	3	2	256×5×5	-

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于上下文辅助的监控视频口罩检测方法，其特征在于，包括以下步骤：

S1通过摄像头采集视频图像信息；

S3按8:2拆分数据集为训练集和验证集；

S4数据增强和归一化训练集；

S5计算训练集的RGB平均值和方差；

S6训练和验证模型；

S7导出模型；

S8使用模型进行实时在线口罩检测；

所述模型采用第三模型提取图像高层次的上下文的特征和低层次的纹理的特征信息，以语境辅助的形式检测具有相关语义的近似标签；通过第一模型从中间层开始进行自上而下的融合，将高层级特征整合到高分辨率的低层级特征上；通过第二模型结构提高预测网络的表达能力；通过数据增强精细化描述样本，将所有的图片都会被缩放到640x640的尺寸，训练时对图片进行数据增强，包括随机扰动、翻转、裁剪，增加了尺度变换，随机将图片尺度变换到预设范围的尺度；

所述第一模型在口罩检测任务中结合高层次的包含更多上下文的特征和低层次的包含更多纹理的特征，高层级特征被用于检测尺寸较大的口罩，而低层级特征被用于检测尺寸较小的口罩；

A1首先对VGG16第i个池化层的输入进行1×1的卷积；

A2将第A1步的结果进行2倍上采样；

A3将第A2步的结果与i-1个池化层的输入进行内积计算；

A4输出第一模型计算结果；

所述第二模型具体实现方法步骤如下：

B1将第一模型和VGG16后1，3，5层的输出作为输入；

B2对第B1步的输入进行输出有1024个特征的卷积计算，并返回归一化值；

B3对第B1步的输入依次进行输出特征为256、256和1024个特征的卷积计算，并返回归一化值；

B4对第B2步和B3步的结果进行加法计算；

B5对第B4步的结果进行输出特征为256个的卷积计算；

B6对第B4步的结果进行输出特征为128个的卷积计算；

B7对第B6步的结果进行输出特征依次为128、128个的卷积计算；

B8对第B5、B6、B7步的结果进行拼接；

B9输出第二模型的计算结果；

第三模型实现流程步骤如下：

C1以上述第二模型的输出作为输入；

C2对低层第二模型的结果进行范围正则化、归一化和缩放；

C3对输入生成SSD候选框，得到候选框和候选框方差；

C4对输入做卷积计算输出为8个特征的卷积计算；

C6找出C5步比例为3的口罩置信度，在维度0上计算最大值；

C7找出第C5步比例为3的人脸置信度，在维度0上计算最大值；

C8对C5步中比例为1口罩的置信度和C6的结果进行拼接；

C9对C5步中比例为1人脸的置信度和C7的结果进行拼接；

C10对C8步得到的结果进行维度转换和调整，得到口罩置信度；

C11对C9步得到的结果进行维度转换和调整，得到人脸置信度；

C12对输入做卷积计算输出为8个特征的卷积计算；

C13对C12步的输出按：口罩位置:人脸位置＝1:1的比例切分；

C14对C13步得到的结果分别进行维度转换和调整，得到口罩位置信息和人脸位置信息；

激活函数采用soft_relu，阈值threshold设置为40.0，其具体公式如下：

ln_e＝e^{max(min(x,threshold),-threshold)}

out＝ln^(1+ln_e)。

2.如权利要求1所述的一种基于上下文辅助的监控视频口罩检测方法，其特征在于，所述模型采用VGG16卷积神经网络，卷积的填充宽度等于卷积核的大小除以2取整，池化采用最大池化，全连接层替换为全卷积层。