CN111191576B

CN111191576B - 人员行为目标检测模型构建方法、智能分析方法及系统

Info

Publication number: CN111191576B
Application number: CN201911374930.2A
Authority: CN
Inventors: 宋焕生; 梁浩翔; 云旭; 孙士杰; 侯景严; 贾金明; 雷琪; 刘莅辰; 唐心瑶
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2023-04-25
Anticipated expiration: 2039-12-27
Also published as: CN111191576A

Abstract

本发明公开了一种人员行为目标检测模型构建方法、智能分析方法及系统，行为目标检测模型构建方法包括利用办公场景采集的监控视频，利用深度学习方法进行人员、手机等相关目标的检测；人员行为智能分析方法根据检测结果，使用多种逻辑判断方法获取人员行为事件，智能分析当前办公环境中的离岗、睡觉、玩手机行为。该方法能够对当前办公场景中的行为事件进行准确的检测与判断，排除了人为因素的干扰，且可以长时间稳定的对行为事件进行获取。本发明的方法在多种办公场景中使用都具有较高的适应性，具有一定的实用价值与广阔的市场潜力。

Description

人员行为目标检测模型构建方法、智能分析方法及系统

技术领域

本发明属于智能安全生产和数字图像处理领域，具体涉及一种人员行为目标检测模型构建方法、智能分析方法及系统。

背景技术

安全生产已成为了近年来的热点话题，由于我国经济的飞速发展，参与到工业生产中的人员越来越多。然而，在生产的各个环节之中，安全事故频发，造成了巨大的经济损失和人身伤害。因此，利用计算机视觉技术对办公岗位的人员行为进行智能分析，对办公人员进行管理，自动获取当前岗位人员的情况是十分必要的。采用计算机视觉技术，智能分析办公场景监控视频数据，向相关安全管控部门发布岗位的安全提示与预警，达到了安全生产的智能化、科技化发展的目的。

使用办公场景监控视频数据获取当前人员在岗位中的行为并分析当前人员的行为事件，与传统的仅凭上下班打卡、通过监控视频人工检测人员安全情况相比，成本较低且精度较高，可实现实时传输人员的行为事件到管理端，拥有广阔的应用前景。目前，传统的人员安全监测方法的判别依赖于人的主观因素，且存在疏忽等情况，获取的安全事件信息有限且容易误报漏报，从而存在一定的应用缺陷。

发明内容

针对现有技术中的缺陷和不足，本发明提供了一种人员行为目标检测模型构建方法、智能分析方法及系统，解决目前传统方法精度不够高，获取的安全事件有限且容易误报漏报，存在一定的应用缺陷的问题。

为达到上述目的，本发明采取如下的技术方案：

一种人员行为目标检测模型构建方法，包括：

采集办公场景的视频图像，使用标注工具标注所述视频图像，将视频图像中的内容划分为不同目标类别(人、手机、玩手机)，保存目标类别、目标的图像位置及对应的视频图像，构建行为目标数据集；

对构建的行为目标数据集，将其作为训练深度网络的输入数据，对深度网络进行训练，训练结束后输出行为目标检测模型。

一种人员行为智能分析方法，该方法使用行为目标检测模型以及多种逻辑判断方法，获取当前的行为事件，智能分析人员行为，得到当前岗位人员离岗、睡觉、玩手机的行为事件，完成对办公环境下的监控视频的智能分析；该方法包括如下步骤：

S1，采集办公场景视频图像，对该办公场景视频图像设置办公场景感兴趣区域，该办公场景感兴趣区域为人在办公岗位上活动的区域；

S2，使用行为目标检测模型，对办公场景感兴趣区域进行目标检测，得到行为目标检测结果，行为目标检测结果包括目标类别(人、手机、玩手机)、该目标的图像位置、该目标的置信度；

S3，对一段办公场景的视频重复多次步骤三的检测，根据得到的连续多帧视频图像的行为目标检测结果，使用多种逻辑判断方法进行离岗、睡觉、玩手机行为的分析与判断，获取视频中完整的离岗事件、完整的睡觉事件、完整的玩手机事件；

S4，获得的完整的离岗事件、完整的睡觉事件、完整的玩手机事件，进行数据发布。

本发明还包括如下技术特征：

具体的，所述S3中使用多种逻辑判断方法进行进行离岗、睡觉、玩手机行为的分析与判断，获取视频中完整的离岗事件、完整的睡觉事件、完整的玩手机事件，包括以下步骤：

步骤S3.1，对连续多帧视频图像的行为目标检测结果，进行离岗的分析与判断，获取完整的离岗事件；

步骤S3.2，对连续多帧视频图像的行为目标检测结果，进行睡觉的分析与判断，获取完整的睡觉事件；

步骤S3.3，对连续多帧视频图像的行为目标检测结果，进行玩手机的分析与判断，获取完整的玩手机事件。

具体的，进行离岗的分析与判断，获取完整的离岗事件，所述步骤S3.1的具体实现方式包括：

步骤S3.1.1，对于连续多帧的办公场景感兴趣区域的检测结果，查询该检测结果中是否有未检测到人这类目标的情况；若连续多帧的检测结果中都没有目标类别人，则认为发生离岗事件；发生离岗事件时，记录连续多帧无人检测结果中第一帧图像的对应的时间戳，执行步骤S3.1.2；没有发生离岗事件，则重复执行步骤S3.1.1；

步骤S3.1.2，发生离岗事件后，继续统计办公场景感兴趣区域的检测结果中是否有目标类别人；若没有目标类别人，则离岗事件持续，重复步骤S3.1.2；当办公场景感兴趣区域的检测结果中有连续的有目标类别人大于一定帧数阈值且每一个目标类别人的置信度大于一定目标人的置信度阈值，则认为该离岗事件结束；离岗事件结束时，记录帧数阈值对应的有人检测结果中第一帧图像的帧号对应的时间戳，执行步骤S3.1.3；

步骤S3.1.3，对于发生离岗事件后再发生离岗事件结束的连续视频帧，为一个完整的离岗事件；记录该离岗事件的持续时长。

具体的，进行睡觉的分析与判断，获取完整的睡觉事件，所述步骤S3.2的具体实现方式包括：

步骤S3.2.1，对于连续多帧的办公场景感兴趣区域的检测结果，筛选出该检测结果中有目标类别为人且人的置信度大于人的置信度阈值的视频帧，对筛选出的视频帧序列进行睡觉事件的分析与判断，执行步骤S3.2.2；

步骤S3.2.2，对筛选出的视频帧序列，每隔15张取一张图像，取够两幅图像后，进行两幅图像间的相似度判断；对两幅图像中目标类别人的矩形框的相交区域进行灰度化处理；再取这两个区域的绝对值差，再进行二值化处理；接着使用小卷积核对差值图像做腐蚀操作；使用大卷积核对处理后的图像做膨胀操作，得到相似度对比二值图；执行步骤S3.2.3；

步骤S3.2.3，统计相似度对比二值图中像素值为0的黑色像素数占整个相似度对比二值图总像素数的比值，该比值越大，表明该像素位置在两幅图像中未发生变化，即目标类别人在相邻帧中保持静止，其疑似睡觉；执行步骤S3.2.4；

步骤S3.2.4，当步骤S3.2.3中计算得到的比值大于相似度阈值时，累加睡觉判断计数器；当睡觉判断计数器中值大于睡觉可能性阈值时，认为发生睡觉事件；发生睡觉事件时，记录睡觉判断计数器中第一帧图像的帧号对应的时间戳，执行步骤S3.2.5；没有发生睡觉事件，则重复执行步骤S3.2.4；

步骤S3.2.5，发生睡觉事件后，继续计算步骤S3.2.3中的比值；当该比值连续多次均小于未睡觉可能性阈值时，则认为该睡觉事件结束；睡觉事件结束时，记录连续多次中第一帧图像的帧号对应的时间戳，执行步骤S3.2.6；

步骤S3.2.6，对于发生睡觉事件后再发生睡觉事件结束的连续视频帧，为一个完整的睡觉事件；记录该睡觉事件的持续时长。

具体的，进行玩手机的分析与判断，获取完整的玩手机事件，所述步骤S3.3的具体实现方式包括：

步骤S3.3.1，对于连续多帧的办公场景感兴趣区域的检测结果，筛选出该检测结果中有目标类别为手机、玩手机的视频帧进行分析；对于目标类别为玩手机的，累加玩手机判断计数器；对于目标类别为手机的，使用步骤S3.3.2分析手机屏幕的亮灭情况；

步骤S3.3.2，对于目标类别为手机且该手机目标置信度大于手机置信度阈值的，取该手机目标的矩形框；以该矩形框的中心点为中心，向四周扩充一定像素大小的区域，以该像素大小的区域作为手机屏幕区域，分析该像素大小区域的手机屏幕亮灭情况；若手机目标矩形框小于该像素大小区域，则取手机目标矩形框像素大小区域分析手机屏幕亮灭情况；

使用HSL(色相、饱和度、亮度)色彩空间计算的亮度值，同时计算像素点RGB色彩空间转换到灰度空间计算得到的亮度值；对以上两个亮度值分配不同权重，结合手机屏幕区域的大小，计算最终亮度值；

若最终亮度值小于亮度判断阈值，则认为手机处于灭屏状态；若最终亮度值大于等于亮度判断阈值，则认为手机处于亮屏状态，累加手机判断计数器；

步骤S3.3.3，对于步骤S3.3.1和步骤S3.3.2得到的玩手机判断计数器以及手机判断计数器，对其分配不同权重，结合用于分析玩手机行为的连续视频帧的总数，计算当前玩手机可能性值；当玩手机可能性值大于玩手机阈值则认为玩手机事件发生；当玩手机事件发生时，记录该连续视频帧的第一帧图像的帧号对应的时间戳，执行步骤S3.3.4；

步骤S3.3.4，发生玩手机事件后，若连续多帧的检测结果中都没有目标类别玩手机，则认为当前玩手机事件结束；玩手机事件结束时，记录上述连续多帧中第一帧图像的帧号对应的时间戳，执行步骤S3.3.5；

步骤S3.3.5，对于发生玩手机事件后再发生玩手机事件结束的连续视频帧，为一个完整的玩手机事件；记录该玩手机事件的持续时长。

具体的，将S4获得的完整的离岗事件、完整的睡觉事件、完整的玩手机事件，进行数据发布；具体实现方法包括：将上述事件及对应的事件的开始、结束时间戳、事件持续时长整理为统一的txt格式文件，按行存储当前的行为事件、对应的事件的开始、结束时间戳、事件持续时长，并保存至本地。

一种人员行为智能分析系统，包括：

采集模块，用于采集办公场景视频图像，对该办公场景视频图像设置办公场景感兴趣区域，该办公场景感兴趣区域为人在办公岗位上活动的区域；

行为目标检测模块，用于使用行为目标检测模型，对办公场景感兴趣区域进行目标检测，得到行为目标检测结果，行为目标检测结果包括目标类别、该目标的图像位置、该目标的置信度；

逻辑判断模块，用于对一段办公场景的视频重复多次行为目标检测，根据得到的连续多帧视频图像的行为目标检测结果，使用多种逻辑判断方法进行离岗、睡觉、玩手机行为的分析与判断，获取视频中完整的离岗事件、完整的睡觉事件、完整的玩手机事件；

结果输出模块，用于将获得的完整的离岗事件、完整的睡觉事件、完整的玩手机事件，进行数据发布。

本发明与现有技术相比，有益的技术效果是：

本发明对于多种办公场景及环境都有较好的适应性，同时，获取的行为事件信息丰富，打破了传统技术无法长时间连续监测办公工位安全状况且使用人工方式判定行为事件的劣势。实际办公场景使用时，系统工作稳定，可持续稳定地获取各种行为检测结果并判断当前的行为事件，且操作简便，具有较高的正确率等优势，应用前景广阔。

附图说明

图1为摄像机架设示意图；

图2为摄像机拍摄的一帧图像，以及选取的感兴趣区域(图中矩形框区域)；

图3为建立的行为目标数据集；

图4为一帧图像的感兴趣区域行为目标检测的结果(检测到的目标用矩形框框出)；

图5为相似度对比二值图的获取与图像处理分析；

图6为不同的手机目标中手机屏幕区域(图中区域A)选取的示意图；

图7为手机屏幕亮灭情况图像处理示意图；

图8是本发明的目标检测模型构建方法、智能分析方法流程图。

具体实施方式

本发明公开了一种人员行为目标检测模型构建方法、智能分析方法及系统，使用办公场景的监控视频进行基于深度学习方法的人员及相关目标的检测，通过行为目标检测结果，使用多种逻辑判断方法获取当前的行为事件，智能分析人员行为，提供当前岗位人员离岗、睡觉、玩手机的行为事件检测，完成对办公环境下的监控视频的智能分析。参见图8，本发明的人员行为目标检测模型构建方法具体包括：

采集办公场景的视频图像13655张，视频图像分辨率为1920*1080，使用标注工具将每张图像中的目标用矩形框标出，并划分为三类：人、手机、玩手机，将标注信息(目标类别、目标的图像位置(以矩形框在图像上表示))保存，完成行为目标数据集的构建。

对构建的行为目标数据集，使用YOLOv3(You Only Look Once vision 3)深度网络进行目标数据集图片的训练，此时深度网络训练的关键参数设置如下：迭代次数48000次、第1至10000次迭代时学习率0.01，第10001至48000次迭代时学习率0.001。当深度网络训练的Loss误差值下降至0.1时，停止训练，保存此时的深度网络模型，作为后续步骤的行为目标检测模型使用。其中，Loss值的计算方式为：

Loss＝L_(x,y)+L_(w,h)+L_(c)+L_(noc)+L_(p)， (1)

各项值的函数表示为：

其中，S²表示图片网格数量，B表示每个网格预测边界框的个数，C表示能检测识别的类别总数。具体包含以下4部分：

(1)边界框x，y的偏移预测误差L_(x,y)

公式(2)是对预测边界框的中心坐标x，y计算损失值。该公式计算每一个网格单元i＝(0,1,...,S²)对应的每一个预测边界框j＝(0,1,...,B)的总和。其中(x,y)是边界框的位置，

是训练数据集中标注样本的实际位置。此外，，λ_coord为坐标损失系数，取1，

用来判断第i个网格中的第j个边界框是否负责该目标，

表示第i个网格存在目标，且第j个边界框对该预测有效，

表示第i个网格不存在目标。

(2)边界框w，h的预测误差L_(w,h)

公式(3)是对边界框的宽高w，h计算损失值。λ_coord为坐标损失系数，取1。目标检测时，如果检测位置相对于真实位置发生较小偏移，尺寸较小的目标在图像上的误差直观上要大于尺寸较大的目标。在训练过程中，边界框的w，h预测值误差针对于不同大小的框，尺寸较大框的误差要小于尺寸较小框的误差。为此，在计算Loss时，不直接使用w和h，而是对其求平方根。

(3)边界框置信度(confidence)的预测误差L_(c)+L_(noc)

公式(4)和(5)是对边界框confidence计算误差值。其中，c是置信度得分，

是预测边界框与真实标注目标框的交叉部分。图像被划分为S*S个网格，而其中绝大部分网格不包含目标，因此绝大部分边界框的置信度conficence＝0。在计算边界框置信度的预测误差时，如果同等对待包含目标和不包含目标的边界框，会导致网络模型不稳定。因此，对于包含目标的边界框，其置信度的预测误差利用公式(4)计算，对于不包含目标的边界框，在计算置信度的预测误差时引入惩罚权重λ_noobj＝0.5，记为公式(5)。

除此之外，公式(2)和公式(3)中的λ_coord引入也是为了提高模型的稳健性，其惩罚权重λ_coord＝5。

(4)边界框分类预测误差L_(p)

公式(6)是对预测框的类别计算误差值。p是训练中实际类别概率，

是预测边界框的类别概率。每一个网格仅预测一次类别，即默认每个网格对应的B个边界框都属于同一类别。对于没有对象的网格单元，不进行分类误差的惩罚。

本发明还提供一种人员行为智能分析方法，该方法使用得到的行为目标检测模型以及多种逻辑判断方法，获取当前的行为事件，智能分析人员行为，得到当前岗位人员离岗、睡觉、玩手机的行为事件，完成对办公环境下的监控视频的智能分析；该方法包括如下步骤：

S1，采集办公场景视频图像，包括各类监控摄像机所拍摄的办公场景视频图像，不仅限于本发明中所使用的办公场景视频图像。对待测办公场景视频图像中设置办公场景感兴趣区域，该办公场景感兴趣区域为人在办公岗位上活动的区域。

S2，使用行为目标检测模型，对待测的办公场景感兴趣区域中的相关目标进行检测。行为目标检测结果包括目标类别(人、手机、玩手机)、该目标的图像位置(以矩形框在图像上表示)、该目标的置信度。

S3，对一段办公场景的视频重复多次步骤三的检测，得到连续多帧图像的行为目标检测结果，对其进行离岗、睡觉、玩手机行为的分析与判断，获取视频中完整的离岗事件、完整的睡觉事件、完整的玩手机事件，具体实现方法包括以下步骤：

步骤S3.1，对连续多帧图像的行为目标检测结果，进行离岗的分析与判断，获取完整的离岗事件，具体实现方法如下：

步骤S3.1.1，对于连续多帧的办公场景感兴趣区域的检测结果，查询该检测结果中是否有未检测到人这类目标的情况。若连续100帧的检测结果中都没有目标类别人，则认为发生离岗事件，如公式7所示，其中count_{non_people}指连续帧检测结果中无人的帧数。发生离岗事件时，记录连续100帧无人检测结果中第一帧图像的对应的时间戳Time_{leave_begin}，执行步骤S3.1.2。没有发生离岗事件，则重复执行步骤S3.1.1。

count_{non_people}>100 (7)

步骤S3.1.2，发生离岗事件后，继续统计办公场景感兴趣区域的检测结果中是否有目标类别人。若没有目标类别人，则离岗事件持续，重复步骤S3.1.2。当办公场景感兴趣区域的检测结果中有连续的有目标类别人大于50帧且每一个目标类别人的置信度大于0.5，则认为该离岗事件结束，如公式8所示，其中count_people指连续帧检测结果中有人的帧数，prob_people指目标人的置信度。离岗事件结束时，记录连续50帧有人检测结果中第一帧图像的帧号对应的时间戳Time_{leave_end}，执行步骤S3.1.3。

(count_people>50)||(prob_people>0.5) (8)

步骤S3.1.3，对于发生离岗事件后再发生离岗事件结束的连续视频帧，认为该为一个完整的离岗事件。记录该离岗事件的持续时长Time_leave,如公式9所示。

Time_leave＝Time_{leave_end}-Time_{leave_begin} (9)

步骤S3.2，对连续多帧图像的行为目标检测结果，进行睡觉的分析与判断，获取完整的睡觉事件，具体实现方法如下：

步骤S3.2.1，对于连续多帧的办公场景感兴趣区域的检测结果，筛选出该检测结果中有目标类别为人且人的置信度prob_people大于0.5的视频帧，对筛选出的视频帧序列进行睡觉事件的分析与判断，执行步骤S3.2.2。

步骤S3.2.2，对筛选出的视频帧序列，每隔15张取一张图像，取够两幅图像后，进行两幅图像间的相似度判断。对两幅图像中目标类别人的矩形框的相交区域IoU_{people_first_frame}与IoU_{people_last_frame}进行灰度化处理，综合图像的RGB信息；再取这两个区域的绝对值差，再进行二值化处理；接着使用小卷积核对差值图像做腐蚀操作，消除图像的噪声等微小变化对算法造成的影响；使用大卷积核对处理后的图像做膨胀操作，对变化区域内部进行填充，增大变化区域的权重，得到相似度对比二值图IoU_sleep。执行步骤S3.2.3。

步骤S3.2.3，统计相似度对比二值图IoU_sleep中像素值为0的黑色像素数占整个IoU_sleep图像像素数的比值rate_sleep，如公式10所示。rate_sleep越大，说明黑色像素值占据了整幅相似度对比二值图IoU_sleep的大多数区域，表明该像素位置在两幅图像中未发生变化，即目标类别人在相邻帧中保持静止，其疑似睡觉。执行步骤S3.2.4。

公式(10)中，IoU_sleepij代表IoU_sleep图像中第i行j列的像素值，w与h为IoU_sleep的行列数。

步骤S3.2.4，当rate_sleep大于相似度阈值0.98时，累加睡觉判断计数器count_sleep。当count_sleep大于睡觉可能性阈值30时，认为发生睡觉事件，如公式11所示。发生睡觉事件时，记录连续30帧睡觉帧中第一帧图像的帧号对应的时间戳Time_{sleep_begin}，执行步骤S3.2.5。没有发生睡觉事件，则重复执行步骤S3.2.4。

count_sleep>30 (11)

步骤S3.2.5，发生睡觉事件后，继续计算连续视频帧的rate_sleep。当rate_sleep小于未睡觉可能性阈值0.98连续20次时，则认为该睡觉事件结束，如公式12所示，其中count_{no_sleep}指视频帧中rate_sleep连续小于0.98的次数。睡觉事件结束时，记录连续20次中第一帧图像的帧号对应的时间戳Time_{sleep_end}，执行步骤S3.2.6。

count_{no_sleep}>20 (12)

步骤S3.2.6，对于发生睡觉事件后再发生睡觉事件结束的连续视频帧，认为该为一个完整的睡觉事件。记录该睡觉事件的持续时长Time_sleep,如公式13所示。

Time_sleep＝Time_{sleep_end}-Time_{sleep_begin} (13)

步骤S3.3，对连续多帧图像的行为目标检测结果，进行玩手机的分析与判断，获取完整的玩手机事件，具体实现方法如下：

步骤S3.3.1，对于连续多帧的办公场景感兴趣区域的检测结果，筛选出该检测结果中有目标类别为手机、玩手机的视频帧进行分析。对于目标类别为玩手机的，累加玩手机判断计数器count_playphone。对于目标类别为手机的，使用步骤S3.3.2分析手机屏幕的亮灭情况。

步骤S3.3.2，对于目标类别为手机且该手机目标置信度大于0.5的，取该手机目标的矩形框，该矩形框基本集中于手机屏幕部位。以该矩形框的中心点为中心，向四周扩充50*50像素大小的区域，以该50*50像素大小的区域作为手机屏幕区域，分析该50*50像素大小区域的手机屏幕亮灭情况。若手机目标矩形框小于50*50像素大小区域，则取手机目标矩形框像素大小区域分析手机屏幕亮灭情况。使用公式14判断当前手机屏幕的亮灭。

在公式14中，λ_hsl为HSL(色相、饱和度、亮度)色彩空间计算的亮度值，其由每一个像素点的RGB三通道值中最大最小值取平均计算得来；λ_gray为像素点RGB()色彩空间转换到灰度空间计算得到的亮度值，k₁、k₂、k₃取标准值，分别为0.299、0.587、0.114。利用公式8计算出的值Light若小于亮度判断阈值90，则认为手机处于灭屏状态；若Light值大于等于90，则认为手机屏幕亮，累加手机判断计数器count_phone。

步骤S3.3.3，对于步骤S3.3.1和步骤S3.3.2得到的count_playphone以及count_phone，使用玩手机可能性值T_play判断当前是否存在玩手机行为，T_play的计算如公式15。

在公式15中，B为用于分析玩手机行为的连续视频帧的总数，λ_playphone为玩手机目标的权重，λ_phone为手机目标的权重，且λ_playphone与λ_phone为[0,1]的实数，λ_playphone+λ_phone＝1。当B取20，λ_playphone取0.7，λ_phone取0.3时，当T_play大于0.9则认为玩手机事件发生。当玩手机事件发生时，记录该连续视频帧的第一帧图像的帧号对应的时间戳Time_{play_begin}，执行步骤S3.3.4。

步骤S3.3.4，发生玩手机事件后，若连续50帧的检测结果中都没有目标类别玩手机，则认为当前玩手机事件结束，如公式16所示，其中count_{no_playphone}指连续视频帧中没有目标类别玩手机的帧数。玩手机事件结束时，记录连续50帧中第一帧图像的帧号对应的时间戳Time_{play_end}，执行步骤S3.3.5。

count_{no_playphone}>50 (16)

步骤S3.3.5，对于发生玩手机事件后再发生玩手机事件结束的连续视频帧，认为该为一个完整的玩手机事件。记录该玩手机事件的持续时长Time_play,如公式17所示。

Time_play＝Time_{play_end}-Time_{play_begin} (17)

步骤S4，获得的完整的离岗事件、完整的睡觉事件、完整的玩手机事件，进行数据发布。具体实现方法包括：将上述事件及对应的事件的开始、结束时间戳、事件持续时长整理为统一的txt格式文件，按行存储当前的行为事件、对应的事件的开始、结束时间戳、事件持续时长，并保存至本地。

本发明的整个过程结束后，即完成了人员行为的智能分析。

本发明还提供一种人员行为智能分析系统，包括：

遵从上述技术方案，以下给出本发明的具体实施例，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。下面结合实施例对本发明做进一步详细说明。

实施例1：

实施例采用办公场景中的监控视频，视频帧率为15FPS，视频图像大小为1920*1080。

图1为摄像机架设示意图，摄像机架设于办公岗位的正前上方，能够以俯视的视角拍摄到完整的办公人员在岗位上的活动区域；

图2为摄像机拍摄的一帧图像，以及选取的感兴趣区域(图中矩形框区域)，该感兴趣区域覆盖了完整的办公人员在岗位上的活动区域；

图3为行为目标数据集的建立，本实施例中将目标划分为“人”、“手机”、“玩手机”三类进行标注，目标“人”标注了各种在办公岗位中各种姿态的人，目标“手机”标注了亮屏灭屏状态下的手机，目标“玩手机”标注了单手或双手持手机时，使用手机的动作；

图4为一帧图像的感兴趣区域进行行为目标检测的结果(检测到的目标用矩形框框出)，矩形框左上角写有“person”的代表目标“人”，矩形框左上角写有“cell-phone”的代表目标“手机”，矩形框左上角写有“play-phone”的代表目标“玩手机”；

图5为步骤S3.2.2与S3.2.3中相似度对比二值图IoU_sleep的获取与图像处理分析，首先，计算IoU_{people_first_frame}与IoU_{people_first_frame}两幅图像中目标类别人的矩形框的相交区域并分别取出，分别进行灰度化处理，综合图像的RGB信息；再取这两个区域的绝对值差，再进行二值化处理，接着使用小卷积核对差值图像做腐蚀操作，消除图像的噪声等微小变化对算法造成的影响，使用大卷积核对处理后的图像做膨胀操作，对变化区域内部进行填充，增大变化区域的权重，得到相似度对比二值图IoU_sleep，计算相似比(IoU_sleep中黑色像素数与总像素数的比值)；

图6为步骤S3.3.2中不同摆放位置的手机目标矩形框中心点周围50*50像素大小的区域作为手机屏幕区域(图中区域A)的示意图；

图7为步骤S3.3.2中手机屏幕亮灭情况图像处理示意图，对于检测到的手机目标，提取手机目标矩形框中心点周围50*50像素大小的区域作为手机屏幕区域，计算该区域的亮度值，结合步骤S3.3.2中后续的公式分析，最终判断手机屏幕的亮灭。

Claims

1.一种人员行为智能分析方法，其特征在于，该方法使用行为目标检测模型以及多种逻辑判断方法，获取当前的行为事件，智能分析人员行为，得到当前岗位人员离岗、睡觉、玩手机的行为事件，完成对办公环境下的监控视频的智能分析；该方法包括如下步骤：

S2，使用行为目标检测模型，对办公场景感兴趣区域进行目标检测，得到行为目标检测结果，行为目标检测结果包括目标类别、该目标的图像位置、该目标的置信度；

所述行为目标检测模型的构建方法包括：

采集办公场景的视频图像，使用标注工具标注所述视频图像，将视频图像中的内容划分为不同目标类别，保存目标类别、目标的图像位置及对应的视频图像，构建行为目标数据集；所述目标类别包括人、手机和玩手机；

对构建的行为目标数据集，将其作为训练深度网络的输入数据，对深度网络进行训练，训练结束后输出行为目标检测模型；

S3，对一段办公场景的视频重复多次S2的检测，根据得到的连续多帧视频图像的行为目标检测结果，使用多种逻辑判断方法进行离岗、睡觉、玩手机行为的分析与判断，获取视频中完整的离岗事件、完整的睡觉事件、完整的玩手机事件；

所述步骤S3包括以下步骤：

步骤S3.3，对连续多帧视频图像的行为目标检测结果，进行玩手机的分析与判断，获取完整的玩手机事件；

所述步骤S3.1的具体实现方式包括：

步骤S3.1.3，对于发生离岗事件后再发生离岗事件结束的连续视频帧，为一个完整的离岗事件；记录该离岗事件的持续时长；

2.如权利要求1所述的人员行为智能分析方法，其特征在于，进行睡觉的分析与判断，获取完整的睡觉事件，所述步骤S3.2的具体实现方式包括：

3.如权利要求1所述的人员行为智能分析方法，其特征在于，进行玩手机的分析与判断，获取完整的玩手机事件，所述步骤S3.3的具体实现方式包括：

使用HSL色彩空间计算的亮度值，同时计算像素点RGB色彩空间转换到灰度空间计算得到的亮度值；对以上两个亮度值分配不同权重，结合手机屏幕区域的大小，计算最终亮度值；

4.如权利要求1所述的人员行为智能分析方法，其特征在于，将步骤S4获得的完整的离岗事件、完整的睡觉事件、完整的玩手机事件，进行数据发布；具体实现方法包括：将上述事件及对应的事件的开始、结束时间戳、事件持续时长整理为统一的txt格式文件，按行存储当前的行为事件、对应的事件的开始、结束时间戳、事件持续时长，并保存至本地。

5.一种人员行为智能分析系统，其特征在于，包括：

行为目标检测模块，用于使用行为目标检测模型，对办公场景感兴趣区域进行目标检测，得到行为目标检测结果，行为目标检测结果包括目标类别、该目标的图像位置、该目标的置信度；所述行为目标检测模型的构建方法包括：采集办公场景的视频图像，使用标注工具标注所述视频图像，将视频图像中的内容划分为不同目标类别，保存目标类别、目标的图像位置及对应的视频图像，构建行为目标数据集；所述目标类别包括人、手机和玩手机；对构建的行为目标数据集，将其作为训练深度网络的输入数据，对深度网络进行训练，训练结束后输出行为目标检测模型；

逻辑判断模块，用于对一段办公场景的视频重复多次行为目标检测，根据得到的连续多帧视频图像的行为目标检测结果，使用多种逻辑判断方法进行离岗、睡觉、玩手机行为的分析与判断，获取视频中完整的离岗事件、完整的睡觉事件、完整的玩手机事件；包括：对连续多帧视频图像的行为目标检测结果，进行离岗的分析与判断，获取完整的离岗事件；对连续多帧视频图像的行为目标检测结果，进行睡觉的分析与判断，获取完整的睡觉事件；对连续多帧视频图像的行为目标检测结果，进行玩手机的分析与判断，获取完整的玩手机事件；