CN115346169A

CN115346169A - 一种睡岗行为检测方法及系统

Info

Publication number: CN115346169A
Application number: CN202210944706.8A
Authority: CN
Inventors: 孙宝忱; 付利红; 孙天姿; 王诗慧; 田季; 王培�
Original assignee: Aerospace Shenzhou Wisdom System Technology Co ltd
Current assignee: Aerospace Shenzhou Wisdom System Technology Co ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-11-15
Anticipated expiration: 2042-08-08
Also published as: CN115346169B

Abstract

本申请公开了一种睡岗行为检测方法及系统，属于图像处理领域，其中方法包括：采集值班室实景图像，经过嵌入式芯片硬件解码后，将解码出的每一帧RGB图像送入目标检测网络；采用目标检测网络对每一帧RGB图像进行目标检测，得到每一帧RGB图像的人体检测框；采用目标跟踪算法对每一帧RGB图像的人体检测框进行目标跟踪，计算T时间内属于同一目标的检测框的中心点变化；采用行为识别网络对所述对应的RGB图像中目标进行图像分类，判定是否属于睡岗行为。本申请的方法大大减少网络权重以及计算量，提高了在边缘设备上目标检测速度和准确度。

Description

一种睡岗行为检测方法及系统

技术领域

本发明属于图像处理领域，具体涉及一种睡岗行为检测方法及系统。

背景技术

如何检测员工睡岗行为一直以来都是许多管理人员思考的问题，因为一些特定场景需要员工时刻保持专注，如加油值班员、塔台管理员等，是严厉禁止随意离岗睡岗的，因为此类行为可能会引起重大事故。而此类岗位24小时安全监督管理又有一定困难，因此促生了值班室视频监控系统的出现。

传统的视频监控系统是以人工为前提。但采用人工监管的方式同样会存在监管人员疏忽、怠惰的问题。因此采用自动化的智能分析系统才是一种行之有效的安全监管方式。

人体行为检测是智能视频监控的关键应用领域之一。如今人类行为检测技术广泛应用于多个领域，如智能视频监控、视频搜索与检索、虚拟现实(VR)技术、人机交互以及自动驾驶等。传统的人体行为检测技术先使用手工设计特征提取模型，如HOG特征、Haar特征；而后利用提取的特征进行行为分类，如支持向量机(Support Vector Machine，SVM)、随机森林(Random Forest，RF)等。但传统的机器学习方式由于手工设计特征、泛化能力较差等原因，在实际使用中效果较差。近年来，目标检测领域涌现一大批优秀的算法，如Faster-RCNN、YOLO、SSD等，这些目标检测算法的出现为行为检测问题提供了一种新的思路。即先使用目标检测算法进行人体目标捕捉，而后结合性能优秀的图像分类网络进行行为分类，识别出指定行为的图像。

在行为检测方面如今有两种常用的检测算法：目标检测算法以及人体姿态估计算法。从具体实现上看，姿态估计算法将生成人体姿态如头部、肩部和膝盖等部位的关键点。然而，在实际工作场景下，员工的身体经常被遮挡，造成很多关键点遗失。此外，由于睡岗姿势多变，如头朝下睡觉、侧趴着睡觉、仰着睡觉等，几乎找不到一个可以准确表示人体关键点与特定姿势的映射关系，因此这种方法同样具有较大的局限性。

与此同时，在许多实际工业生产环境下，将相关深度学习算法移植到功耗较低、数据保密性高、维护成本较低的嵌入式设备已成为一种潮流。但由于嵌入式设备计算性能、内存空间、算子兼容性等多方面的限制，一些学术上提出的神经网络拥有较好的性能，但却因为睡岗检测算法计算量大、模型复杂，通常难以将其移植到嵌入式设备中。

发明内容

为解决现有技术中的不足，本申请提出一种睡岗行为检测方法及系统。

第一方面，本申请提出一种睡岗行为检测方法，包括如下步骤：

步骤S1：采集值班室实景图像，经过嵌入式芯片硬件解码后，将解码出的每一帧RGB图像送入目标检测网络；

步骤S2：采用目标检测网络对每一帧RGB图像进行目标检测，得到每一帧RGB图像的人体检测框；

步骤S3：采用目标跟踪算法对每一帧RGB图像的人体检测框进行目标跟踪，计算T时间内属于同一目标的检测框的中心点变化；

步骤S4：判断中心点变化是否小于第一阈值；

步骤S5：当中心点变化小于第一阈值时，将对应的RGB图像传递给行为识别网络，转到步骤S7；

步骤S6：当中心点大于等于第一阈值时，则输出识别结果为未发现睡岗行为；

步骤S7:采用行为识别网络对所述对应的RGB图像中目标进行图像分类，判定是否属于睡岗行为，若识别为睡岗行为，则输出识别结果为发现睡岗行为并展示睡岗行为对应的RGB图像，若识别为不是睡岗行为，则输出识别结果为未发现睡岗行为。

所述目标检测网络是对YOLO V3算法(You Only Look Once V3只看一次目标检测算法版本3)进行改进，包括40层卷积层以及4个残差层。

所述卷积层包括：具有16个卷积核的第一卷积层、具有16个卷积核的第二卷积层、具有16个卷积核的第三卷积层、2个第一组合卷积层、具有48个卷积核的第八卷积层、4个第二组合卷积层、具有64个卷积核的第十七卷积层、4个第三组合卷积层、具有96个卷积核的第二十六卷积层、7个第四组合卷积层；将所述第三组合卷积层的输出结果输入到Route层，将所述第四组合卷积层的输出结果输入到第三十九卷积层，将所述第三十九卷积层的输出结果输入到上采样层，将上采样层输出结果输入到Route层，将所述Route层输出结果输入到第四十卷积层，所述第三十九卷积层与第四十层卷积层的输出之和确定为改进后的YOLOV3算法的网络输出；

所述第一组合卷积层包括：2个具有32个卷积核的卷积层以及第一残差层；

所述第二组合卷积层包括：2个具有48个卷积核的卷积层以及第二残差层；

所述第三组合卷积层包括：2个具有64个卷积核的卷积层以及第三残差层；

所述第四组合卷积层包括：2个具有96个卷积核的卷积层以及第四残差层。

所述第一残差层、第二残差层、第三残差层以及第四残差层均包括：第一残差单元、第二残差单元；

所述第一残差单元、第二残差单元、第一加和单元依次顺序相连接；残差单元的输入分别与第一残差单元、第一加和单元相连接，残差单元的输出与第一加和单元相连接；

残差单元的输入经过第一残差单元、第二残差单元与所述残差单元的输入同时经过第一加和单元，得到残差单元的输出。

所述第一残差单元、第二残差单元均包括：卷积子单元、批标准化层、激活函数子单元；

所述卷积子单元、批标准化层、激活函数子单元依次顺序相连接；

卷积子单元的输入依次经过卷积子单元、批标准化层、激活函数子单元，得到激活函数的输出，即为所述第一残差单元或第二残差单元的输出。

所述激活函数子单元设置为ReLU激活函数。

所述目标检测网络采用CIoU损失函数Loss_CIoU，公式如下：

其中，iou表示计算真实框与检测框的交并比；b表示预测框，b^gt表示真实框，ρ²(b,b^gt)表示计算检测框和真实框的中心点的欧式距离；c是最小包围两个框的对角线长度；υ衡量两个框的相对比例一致性，α是权重系数。

所述目标检测网络还包括采用Mosaic数据增强对RGB图像进行数据增强，步骤如下：

采集值班室实景图像，经过嵌入式芯片硬件解码后，将解码出的每一帧RGB图像；

取出一批次数据，所述一批次数据包括M帧RGB图像；

从所述批次中抽取4张图片，随机产生裁剪位置cut_x和cut_y，而后将四个裁剪部分拼接成新的图像；

将所述拼接成新的图像与所有解码出的每一帧RGB图像送入目标检测网络。

所述目标跟踪算法采用IOU Tracker目标跟踪算法进行目标跟踪，包括如下步骤：

将每一帧RGB图像的人体检测框作为预选目标；

计算前后两帧RGB图像中的人体检测框重叠度IOU；

当重叠度IOU大于第二阈值，则前后两帧RGB图像中的人体检测框属于同一个目标，否则，前后两帧RGB图像中的人体检测框不属于同一个目标。

所述计算T时间内属于同一目标的检测框的中心点变化，包括如下步骤：

设定T时间内n个同一目标的检测框的中心点坐{(x₁,y₁),(x₂,y₂)……(x_n,y_n)}，其中，x_i为第i个同一目标的检测框中心点x轴坐标，等同于同一目标的检测框所在RGB图像的图像高度h；y_i为第i个同一目标的检测框中心点y轴坐标，等同于同一目标的检测框所在RGB图像的图像宽度w；

分别对一组同一目标的检测框的中心点的x坐标值和y坐标值计算平均值，得到平均值坐标

计算T时间内属于同一目标的检测框的中心点变化s²，公式如下：

所述行为识别网络采用MobileNetV2网络，在瓶颈块中后添加注意力模块；

所述注意力模块包括：压缩单元、激励单元、第二加和单元；

瓶颈块的输出与压缩单元的输出作为激励单元的输入，行为识别网络的输入与激励单元的输出作为第二加和单元的输入，第二加和单元的输出为行为识别网络的输出；

所述压缩单元用于将特征图进行压缩，获取各通道的权重，所述特征图即为瓶颈块的输出，包括：全局平均池化层、第一全连接层、第一ReLU函数、第二全连接层、第二ReLU函数；

所述全局平均池化层、第一全连接层、第一ReLU函数、第二全连接层、第二ReLU函数依次顺序相连接；

所述激励单元用于将获取的各通道的权重与特征图相乘，得到激励单元的输出。

第二方面，本申请提出一种睡岗行为检测系统包括：采集解码模块、目标检测模块、目标跟踪模块、判断输出模块、图像分类模块；

所述采集解码模块、目标检测模块、目标跟踪模块、判断输出模块、图像分类模块依次顺序相连接，所述图像分类模块与所述判断输出模块的输出相连接；

所述采集解码模块用于采集值班室实景图像，经过嵌入式芯片硬件解码后，将解码出的每一帧RGB图像送入目标检测网络；

所述目标检测模块用于采用目标检测网络对每一帧RGB图像进行目标检测，得到每一帧RGB图像的人体检测框；

所述目标跟踪模块用于采用目标跟踪算法对每一帧RGB图像的人体检测框进行目标跟踪，计算T时间内属于同一目标的检测框的中心点变化；

所述判断输出模块用于判断中心点变化是否小于第一阈值，当中心点变化小于第一阈值时，将对应的RGB图像传递给行为识别网络，转到图像分类模块；当中心点大于等于第一阈值时，则输出识别结果为未发现睡岗行为；

所述图像分类模块用于采用行为识别网络对所述对应的RGB图像中目标进行图像分类，判定是否属于睡岗行为，若识别为睡岗行为，则输出识别结果为发现睡岗行为并展示睡岗行为对应的RGB图像，若识别为不是睡岗行为，则输出识别结果为未发现睡岗行为。

本申请所达到的有益效果：

本申请提出一种睡岗行为检测方法及系统，大大减少神经网络参数个数，降低了对嵌入式设备计算能力、内存空间的需求；基于该轻量级目标检测网络框架，实现一种适用于值班室等场景下的轻量级睡岗检测算法，该方法可与互联网技术相结合，应用于相应的监控系统中，当发现有值班人员出现睡岗行为时，立即通知相关管理人员进行处理，从而保证工业生产环境的安全性。实验数据表明：本申请的方法大大减少网络权重以及计算量，在边缘设备上目标检测速度可达13ms，在实际场景数据集上，睡岗检测的准确度可达95.9％。

附图说明

图1为本申请实施例的一种睡岗行为检测方法流程图；

图2为本申请实施例的YOLOv3改进后网络结构示意图；

图3为本申请实施例的残差层内部结构示意图；

图4为本申请实施例的残差单元内部结构示意图；

图5为本申请实施例的数据增强原理示意图；

图6为本申请实施例的坐标与图像的长宽关系示意图；

图7为本申请实施例的对瓶颈块修改示意图；

图8为本申请实施例的模型移植流程图；

图9为本申请实施例的损失函数曲线图；

图10为本申请实施例的一种睡岗行为检测系统原理框图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

本申请提出一种睡岗行为检测方法及系统，分别对现有技术中目标检测方法、目标跟踪算法、行为识别算法进行改进。如下描述现有技术中目标检测算法、目标跟踪算法、行为识别算法在本申请提出的应用背经下的不足之处：

1.目标检测方法

目前基于卷积神经网络的目标检测方法主要分为two-stage(两步检测)和one-stage(单步检测)，其中，两步检测的网络基本都存在参数量大，推理速度慢的问题，难以应用于实时性场景以及嵌入式设备。单步检测的代表网络为YOLO和SSD系列网络。最新的YOLO算法在检测速度和精度上都优于SSD算法。YOLO是由Joseph Redmon等人提出的单步检测网络，该网络将目标检测问题作为一个回归问题进行求解，具有较高检测精度与实时计算的能力。如今YOLO的最新版本为YOLO V5，但YOLO V3在检测精度和检测速度上具有较好的平衡性，且其端到端的训练方式和预测手段灵活方便，并且其算子在绝大部分嵌入式设备都具有良好的支持性，所以YOLO V3是工程上首选的目标检测模型。

2.目标跟踪算法：

目标跟踪是计算机视觉中被广为研究的一类任务，它是指将时间维度上的检测框按照所属目标进行分类，比如在多人体的场景下，通过目标跟踪算法可以记录各个人体目标的移动轨迹。

当前对目标跟踪的研究与实现大都是基于检测的跟踪，首先通过目标检测算法得到目标的定位框，然后根据定位框进行下一步的跟踪。实际上就是前后帧的目标定位框的匹配问题，将相邻帧图像中物体的定位框一一对应起来，这种对应关系拓展到整个视频流中就形成了视频中多个物体的跟踪轨迹。

IOU Tracker是Erik等人提出的一种简单高效的目标跟踪模型,速度快且不需要额外的图像信息。检测前先滤除得分过低的检测框，对每一个激活状态的轨迹，在当前帧找到对应的最大IOU的检测框，并用预设阈值限制其是否可以加入该轨迹。对于当前帧的未匹配检测框，将其作为新的轨迹，设为激活状态。

该算法基于两个假设，一是检测器性能足够好；二是视频帧率足够高。当满足上述两个假设时，目标跟踪就可以简单地实现为计算前后两帧图像中目标检测框的IOU重合度。由于本申请在嵌入式设备上可以达到40+FPS的帧率和良好的目标检测精度，所以这两个假设都成立。

3.行为识别算法

本申请中行为识别算法等同于图像分类问题，其核心是从给定的分类集合中给图像分配一个标签的任务，即识别输入图像所属类别。如今图像分类算法典型代表有VGG系列、Resnet系列、Inception系列、Mobilenet系列网络。

VGG、Resnet、Inception系列网络都具有极好的图像分类性能。但是这些网络模型参数量大，甚至有的算子在嵌入式设备不支持，因此难以应用于实时性的图像分类任务。

MobileNet系列网络是专注于移动端和嵌入式设备的轻量级CNN网络模型，MobileNetV1引入深度可分离卷积，大大降低网络参数量。MobileNetV2在V1的基础上引入了倒残差模块(Inverted Residuals)和线性瓶颈(Linear Bottlenecks)，通过反转残差块来使提取的特征更充分，使用线性激活函数替换Relu激活函数从而避免对特征的破坏，整体具有参数模型小、计算速度快的优点，在移动端和嵌入式设备上表现出极强的竞争力。

如上面所述YOLO V3算法以及MobileNet V2算法具有移植至嵌入式设备的潜力，为尽可能提高睡岗检测算法的速度并保证其精度，本申请对两种算法进一步优化并提出一种轻量级的睡岗检测算法。

第一方面，本申请提出一种睡岗行为检测方法，如图1所示，包括如下步骤：

步骤S4：判断中心点变化是否小于第一阈值；

在步骤S2中对于目标检测网络优化：

经实验发现使用YOLOv3模型在嵌入式设备不到10FPS(Frames Per Second，每秒传输帧数)，不足以支持后续的算法，因此需要对其网络结构进行轻量化。为方便行文，现将本申请基于YOLOv3进行优化过的网络称为MINI-YOLO。

(1)特征提取网络修改

YOLOv3网络之所以在嵌入式设备上速度较慢，在于其网络层数较深，并且通道数较大，最大通道数已达1024，推理计算耗时较长。针对值班室场景下的目标检测问题，由于场景较为固定，且仅需要检测人体，其实不需要如此复杂的网络，因此对其原本的特征提取网络进行轻量化。轻量化后的特征提取网络借鉴了YOLO v3原版特征提取网络Darknet53的优点，采取多个残差块进行特征提取。新的特征提取网络仅有40层卷积层，同时，YOLO v3采用多尺度特征融合预测(FPN)的方式来提高对大中小目标的检测精度，这在一定程度上增加了推理耗时，而人体目标单一，且不需要检测小目标，因此仅保留两层特征图进行预测即可，网络结构如图2所示。

网络通道数与网络性能与推理速度密切联系，为寻找合适的网络通道数，本申请通过实验将通道数从YOLOv3原本的1024进行裁剪，并观察网络性能的变化。在实际使用中，推理速度与网络精度这两个指标是最直观的，因此选择以上两个指标进行裁剪网络的评判依据，具体的实验结果如表1所示。

通过表1可以发现，单纯通过修改网络层数，保持最高通道数为1024时，MINI-YOLO的mAP为94％，推理耗时为83ms。随着通道数从1024降低为512时，网络推理速度提高了近一倍，但精度下降仅1％，这说明原本的网络结构具有较大的冗余度，可以通过缩减通道数来提高速度。最终当通道数从96下降为64时，精度有较大下降，且速度提升不明显，因此将MINI-YOLO的通道数设定为96。

表1 MINI-YOLO通道数与网络性能的关系

故本申请的改进如下：所述目标检测网络对YOLO V3算法(You Only Look OnceV3只看一次目标检测算法版本3)进行改进，包括40层卷积层以及4个残差层。

所述第一残差层、第二残差层、第三残差层以及第四残差层均包括：第一残差单元、第二残差单元，第一加和单元，如图3所示；

所述第一残差单元、第二残差单元均包括：卷积子单元、批标准化层、激活函数子单元，如图4所示；

(2)更改激活函数

相比于ReLU激活函数，YOLO v3所使用的激活函数LeakyReLU在负值区域赋予一个非零斜率，这在一定程度上解决ReLU激活函数可能造成神经元“死亡”的问题。其数学函数公式为1。

其中，a_i为(1,+∞)区间内的固定参数，x_i表示第i个输入值，y_i表示第i个输出值。实验对比发现在嵌入式设备上Relu的处理速度比LeakyReLU更快，并且精度几乎一样，因此将网络的激活函数LeakyReLU修改为ReLU。

(3)改进损失函数

YOLO v3所使用的损失函数由三部分组成，分别为边框回归损失、置信度损失与检测类别损失，如公式2所示。

其中，

对第i个数据检测框的坐标与长宽进行均方误差的计算，

表示第i个数据置信度的误差值，

表示目标检测类别误差值。但实际上这种方式只关注了预测框与真实框的距离，而且对目标尺度相当敏感。

IoU交并比更能够体现出检测框的质量，而且IoU在目标尺度上具有很高的鲁棒性。因此可以基于IoU进行损失函数的修改，CIoU Loss函数不仅考虑到检测框与真实框中心店的距离，还增加了长宽比的考量，能够加快收敛并提高检测框质量，其计算公式如3所示。

其中，iou表示计算真实框与检测框的交并比；ρ²(b,b^gt)表示计算检测框和真实框的中心点的欧式距离；c是最小包围两个框的对角线长度；υ衡量两个框的相对比例一致性，α是权重系数，它们的计算公式见4-5所示。

(4)Mosaic数据增强

为了进一步提高网络的泛化能力以及特征提取能力，采用Mosaic数据增强。Mosaic数据增强具体步骤是：

取出一批次数据，所述一批次数据包括M帧RGB图像；

从所述批次中抽取4张图片，随机产生裁剪位置cut_x和cut_y，而后将四个裁剪部分拼接成新的图像；示意图如图5所示。

在步骤S3中对目标跟踪算法的改进：

睡岗行为具有时间属性，如果仅对单帧的图像的目标检测结果进行图像分类，将会造成较大的误检率。为了解决这个问题，本申请引入IOU Tracker目标跟踪算法来进行目标的跟踪，实现目标时间属性的获取。IOU Tracker算法基本思想是将每一帧的人体检测框作为预选目标，通过计算前后两帧图像中的人体检测框重叠度IOU。当该IOU大于某个阈值(实验设为0.5)时，则两个人体检测框属于同一个目标，否则，两个人体检测框不属于同一个目标。

经实验分析得知，若视频中人体目标存在睡岗行为，则在一定时间之内身体波动较小，对应的检测框目标轨迹“中心点变化”小于一定阈值的检测框则为可疑目标。“中心点变化”的计算过程如下。

将每一帧RGB图像的人体检测框作为预选目标；

计算前后两帧RGB图像中的人体检测框重叠度IOU；

设定T时间内n个同一目标的检测框的中心点坐{(x₁,y₁),(x₂,y₂)……(x_n,y_n)}，其中，x_i为第i个同一目标的检测框中心点x轴坐标，等同于同一目标的检测框所在RGB图像的图像高度h；y_i为第i个同一目标的检测框中心点y轴坐标，等同于同一目标的检测框所在RGB图像的图像宽度w，如图6所示；

当中心点变化小于第一阈值时，表示该目标可能处于睡岗状态，将对应的RGB图像传递给行为识别网络进行睡岗行为的识别。

本实施例中：对每一帧的人体检测框进行目标跟踪，而后统计计算3min内属于同一目标的检测框的中心点变化。当“中心点变化”小于阈值(实验设为10)时，则表明人体目标可能处于睡岗状态，将该目标图像传递给后续算法，否则未发现疑似睡岗行为。

在步骤S7中改进识别网络，详述如下：

在获取可疑目标的人体图像之后，需要对其进行判断是否处于睡岗状态。综合考虑嵌入式平台的算子兼容性、计算能力与计算速度，本申请采用MobileNetV2网络作为行为识别网络。

为尽可能提高行为识别网络的速度和精度，在保留MobileNet v2主干网络的基础上，借鉴了MobileNet V3的做法，在瓶颈块网络中引入了注意力模块，并将优化过后的分类网络命名为MobileNet-SE。

其中，注意力模块由Squeeze和Excitation两个部分组成。其中Squeeze模块是指对通道权重进行计算，可以使用全局平均池化(Global pooling)将输入特征层进行压缩，从而获取各通道的权重。Excitation是指根据通道权重对原特征图进行相应抑制或增大，可以将Squeeze获取的权重与原特征图相乘(scale)来实现。将注意力模块加入瓶颈块，如表2所示。其中，由于加入注意力模块会增加一定的参数量和计算量，表2中N/Y表示是否在瓶颈块中嵌入注意力模块，嵌入的示意图如图7所示。

表2本申请对瓶颈块修改示意图

故，改进识别网络完整描述如下：

本实施例中：利用行为识别网络对可疑的目标进行图像分类，判定是否属于睡岗行为，若有则叠加至原图进行结果展示，否则未发现睡岗行为。为提高算法准确性和鲁棒性，获取多张(本实施例设为10)图像进行行为识别，以次数最多的判别结果为最终结果。

第二方面，本申请提出一种睡岗行为检测系统，如图10所示，包括：采集解码模块、目标检测模块、目标跟踪模块、判断输出模块、图像分类模块；

本实施例的实验详述如下：

1.数据集制作与实验环境

(1)目标检测数据集

目标检测模型训练时所采用的数据集图像包括实际监控场景下的值班室场景图像和自行拍摄的实验室、办公室图像。为增加算法的鲁棒性和泛化能力，利用爬虫技术从网上获取不同场景下的值班室场景图片。

图片中选取7000幅清晰、有效的值班室图像进行训练，并随机选取5000幅图像用于训练目标检测模型，剩下的2000幅图像作为验证集，用来测试算法的速度以及准确性。

(2)行为识别数据集

行为识别模型训练时所采用的数据集图片是由目标检测模型数据集经过处理所得到的，具体处理方式如下：

1)使用训练之后的目标检测模型MINI-YOLO对数据集进行目标检测，截取检测的人体区域并resize到224*224；

2)人工对第一步截取的图片进行筛选，保留人体区域完整、清晰的图片；

3)将第二步保留的图片根据其目标是否睡岗进行分类。

经过上述处理得到的图片共有10500张，选择其中8000张作为训练集，余下2500张作为验证集。

通过上述方式制作的数据集，基本涵盖了值班室各类常见图像，而网上图片又增强了该数据集的泛化性，因此该数据集可以作为本实施例的标准数据集。

(3)实验环境

本实施例所使用的环境包括本地计算机以及实际使用的嵌入式设备。其基本配置如下：

本地计算机：操作系统为ubuntu16.04；处理器为英特尔酷睿I5-7400；内存8GB；GPU为NVIDIA GeForce GTX1080 Ti，显存11GB。

嵌入式设备：本实施例选用的嵌入式设备为Hi3559A，其详细参数见表3。

表3 Hi3559A参数表

2.评价标准

本实施例选用嵌入式设备比较关注的几个指标作为评价标准：精确率(AP)、检测速度、模型大小。

AP是目标检测常用的性能指标，它表示检测器的性能，计算公式如(5)，表示预测正确的目标数占总的正类预测个数的比例。本申请所有实验中目标检测交并比大于0.5视为真目标。

其中，TP为目标检测网络预测出的真目标数；FN为未能成功预测出的真目标数；TP+FP即n为预测的目标中是正类目标的数目；检测速度代表检测器的检测速度，其定义为对一张输入图像进行目标检测算法所消耗的时间，单位为毫秒(ms)。模型大小从一定程度上代表着网络的参数量，用MB表示。

3.实验结果分析

(1)本申请改进的目标检测算法(命名为MINI-YOLO)

由于本申请算法重点在于嵌入式设备上目标检测算法的性能，因此选取YOLOv3、Tiny-YOLOv3、与MINI-YOLO进行对比。

训练的实验参数设置如下：batchsize设置为16，最大迭代步数设置为100000。学习率为0.01，权重衰减设置为0.001，动量设置为0.9。采用开源深度学习框架Darknet作为网络的训练平台。

直接训练MINI-YOLO，网络收敛速度较慢，因此先使用COCO数据集进行预训练，再使用制作的数据集进行训练。

将测试模型统一移植到嵌入式设备Hi3559A上进行测试。Hi3559A的模型移植过程如图8所示。

各网络模型在Hi3559A上测试结果如表4所示。

表4目标检测结果对比

上述结果表明，YOLO v3算法具有最高的准确度，同时推理耗时也最长。推理速度最快的是TINY-YOLO v3，但是由于的特征提取层过于粗糙，虽然速度有很大的提升，但是精准度明显下降。本申请所提出的MINI-YOLO算法相比于YOLO v3下降了7个点，但是速度提升了近8倍。另外，采用CIOU Loss损失函数提升明显，并且由于仅在训练时生效，对于速度和权重没有影响。

上述实验结果有一个反常的地方：即MINY-YOLO的参数量比TINY-YOLO v3更小，但是速度却比它慢，而且精度更高。这是由于TINY-YOLOv3的主干网络最高通道数达1024，但网络深度仅有8层。GPU或深度学习嵌入式设备在网络模型同一层可以进行并行计算，但层级之间只能串行运算，这就造成TINY-YOLOv3参数量更大，且速度更快。

相比之下，本申请所提出的MINI-YOLO特征提取层为40层，最高通道数仅为96，参数量更小，速度较慢，但性能提升明显。

(2)本申请改进的行为识别网络(命名为MobileNet-SE)

MobileNet-SE的训练过程先使用ImageNet数据集进行网络预训练，而后在实验数据集上进行训练。训练框架采用Caffe，batchsize设为8，epoch次数设置为400，初始学习率设置为0.001。训练过程中的Loss曲线如图9所示：

为防止过拟合，选定epoch次数为350的模型作为最终的模型。为了验证L_MobileNet的效果，将在Hi3359A上进行对比，实验结果如表5所示。

表5行为分类结果对比

(3)睡岗检测效果

睡岗行为是一个时间持续性事件，为了验证本申请所提出的睡岗检测算法的实用性及准确性，利用现场录制、网络视频截取的方式一共获取了198段睡岗视频及62段未睡岗视频，每段视频时长3min～4min。对于睡岗视频，若算法在视频中人体处于睡岗状态3min上输出睡岗信息，则认为算法正确，否则为漏检。

最终的睡岗检测结果如表6所示。

表6睡岗检测结果

测量内容	判定睡岗	未判定睡岗
			睡岗视频	190	4
未睡岗视频	8	58

由表6可知，对于睡岗视频，该睡岗检测的准确度可达95.9％；对于未睡岗视频，误判率仅有6.4％。在表3中MINY-YOLO的mAP为90％，但是睡岗检测算法的准确度可达95.9％。这是由于睡岗检测算法是一个时序性问题，在本申请所提出的算法中，目标跟踪阶段具有一定的稳定性，单一帧的目标检测出错并不会影响整体的睡岗行为判定。

经过分析出现错误的视频得知，漏检的原因在于检测器输出的检测框波动，会造成目标跟踪算法将对应的睡岗目标漏检。误检的原因在于原视频人体坐姿与睡岗姿势具有较大的相似度，造成行为判定网络出现错判。这两个问题将在以后的工作中寻找解决的措施。

4.实验结果

本申请通过对YOLO V3与MobileNet V2进行改进，并结合两者提出了一种适用于嵌入式设备的轻量级睡岗检测算法。

实验结果表明，本申请提出的算法在睡岗检测上具有较高的准确率，可以为值班室的睡岗行为检测提供可靠的算法支持。今后的工作重点是优化目标检测网络结构，进一步提高其检测准确率。另一方面，需要对最后的行为判定网络进行优化，使其对睡岗行为具有更高的识别精度，从而使得整体算法可以更好的应用到实际的睡岗检测中。除此之外，这种目标检测与行为识别算法相结合的模式，可以进一步拓展，如增加行为类别、大小目标混合场景等。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种睡岗行为检测方法，其特征在于，包括以下步骤：

步骤S4：判断中心点变化是否小于第一阈值；

2.根据权利要求1所述的睡岗行为检测方法，其特征在于，所述目标检测网络是对YOLOV3算法进行改进，包括40层卷积层以及4个残差层；

所述卷积层包括：具有16个卷积核的第一卷积层、具有16个卷积核的第二卷积层、具有16个卷积核的第三卷积层、2个第一组合卷积层、具有48个卷积核的第八卷积层、4个第二组合卷积层、具有64个卷积核的第十七卷积层、4个第三组合卷积层、具有96个卷积核的第二十六卷积层、7个第四组合卷积层；将所述第三组合卷积层的输出结果输入到Route层，将所述第四组合卷积层的输出结果输入到第三十九卷积层，将所述第三十九卷积层的输出结果输入到上采样层，将上采样层输出结果输入到Route层，将所述Route层输出结果输入到第四十卷积层，所述第三十九卷积层与第四十层卷积层的输出之和确定为改进后的YOLO V3算法的网络输出；

3.根据权利要求2所述的睡岗行为检测方法，其特征在于，所述第一残差层、第二残差层、第三残差层以及第四残差层均包括：第一残差单元、第二残差单元；

残差单元的输入经过第一残差单元、第二残差单元与所述残差单元的输入同时经过第一加和单元，得到残差单元的输出；

4.根据权利要求3所述的睡岗行为检测方法，其特征在于，所述激活函数子单元设置为ReLU激活函数。

5.根据权利要求1所述的睡岗行为检测方法，其特征在于，所述目标检测网络采用CIoU损失函数Loss_CIoU，公式如下：

6.根据权利要求1所述的睡岗行为检测方法，其特征在于，所述目标检测网络还包括采用Mosaic数据增强对RGB图像进行数据增强，步骤如下：

取出一批次数据，所述一批次数据包括M帧RGB图像；

7.根据权利要求1所述的睡岗行为检测方法，其特征在于，所述目标跟踪算法采用IOUTracker目标跟踪算法进行目标跟踪，包括如下步骤：

将每一帧RGB图像的人体检测框作为预选目标；

计算前后两帧RGB图像中的人体检测框重叠度IOU；

8.根据权利要求1所述的睡岗行为检测方法，其特征在于，所述计算T时间内属于同一目标的检测框的中心点变化，包括如下步骤：

9.根据权利要求1所述的睡岗行为检测方法，其特征在于，所述行为识别网络采用MobileNetV2网络，在瓶颈块中后添加注意力模块；

所述激励单元用于将获取的各通道的权重与所述特征图相乘，得到激励单元的输出。

10.一种睡岗行为检测系统，其特征在于，第二方面，本申请提出一种睡岗行为检测系统包括：采集解码模块、目标检测模块、目标跟踪模块、判断输出模块、图像分类模块；