CN111753648A

CN111753648A - 人体姿态监控方法、装置、设备及存储介质

Info

Publication number: CN111753648A
Application number: CN202010396645.7A
Authority: CN
Inventors: 张书伟; 王祥雪; 林焕凯; 刘双广
Original assignee: Gosuncn Technology Group Co Ltd
Current assignee: Gosuncn Technology Group Co Ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2020-10-09

Abstract

本发明公开了一种人体姿态监控方法，包括：获取人体的姿态图像，并对姿态图像进行预处理；将进行完预处理后的姿态图像输入到预设的人体检测网络中，以输出所述姿态图像的人体坐标信息；将进行完预处理后的姿态图像输入到预设的行为识别网络中，以输出姿态图像中的人体姿态；当人体姿态符合预设的预警姿态时，获取相隔预设时间的人体检测网络输出的两张姿态图像的人体坐标信息；根据人体坐标信息计算两张姿态图像中人体区域的重叠程度；当重叠程度大于预设的百分比阈值时，更新与姿态图像对应的人物的姿态维持时间。本发明还公开了一种人体姿态监控装置、设备和存储介质。采用本发明实施例，能有效检测人体姿态，实时反馈员工在岗工作情况。

Description

人体姿态监控方法、装置、设备及存储介质

技术领域

本发明涉及人体姿态检测技术领域，尤其涉及一种人体姿态监控方法、装置、设备及存储介质。

背景技术

近年来，由于互联网和人工智能技术地迅速发展，智能监控、智能安防以及人员智能化管理越来越受到大众的关注。在一些涉及安全生产的企业和军事化管理的军队或公安部门，人员行为分析在人员智能化管理中发挥着至关重要的作用。一个具有较高召回率和精确率的人体检测算法，对于提高人员视频监控系统的识别精度和效率至关重要。当前，政府和企业已经实现了视频监控的全方位覆盖，但是在岗值班人员很难保证一直处于正常的工作状态，容易出现在岗睡觉，尤其是夜间，疏于职守会给企业或部门带来巨大的安全隐患。目前常见的方法是安排巡查人员，不定期检查各个岗位的工作情况。但是这种做法耗时耗力，不仅增加企业运营成本，而且耗费时间，不能实时反馈员工在岗工作情况。

发明内容

本发明实施例的目的是提供一种人体姿态监控方法、装置、设备及存储介质，能有效检测人体姿态，实时反馈员工在岗工作情况。

为实现上述目的，本发明实施例提供了一种人体姿态监控方法，包括：

获取人体的姿态图像，并对所述姿态图像进行预处理；

将进行完预处理后的所述姿态图像输入到预设的人体检测网络中，以使所述人体检测网络输出所述姿态图像的人体坐标信息；

将进行完预处理后的所述姿态图像输入到预设的行为识别网络中，以使所述行为识别网络输出所述姿态图像中的人体姿态；

当所述人体姿态符合预设的预警姿态时，获取相隔预设时间的所述人体检测网络输出的两张所述姿态图像的人体坐标信息；

根据所述人体坐标信息计算两张所述姿态图像中人体区域的重叠程度；

当所述重叠程度大于预设的百分比阈值时，更新与所述姿态图像对应的人物的姿态维持时间。

作为上述方案的改进，所述更新与所述姿态图像对应的人物的姿态维持时间后，还包括：

当所述姿态维持时间大于预设的预警时间阈值时，发出预警信息。

作为上述方案的改进，所述人体检测网络为改进后的RefineDet网络，所述改进后的RefineDet网络通过将图像金字塔与原始RefineDet网络中的特征金字塔使用拼接的方式融合得到。

作为上述方案的改进，所述图像金字塔中每一个层级的网络结构均采用两个3*3和两个1*1的轻量化的组合形式；所述图像金字塔的下采样采用最大池化的方式。

作为上述方案的改进，所述行为识别网络为改进后的ResNet-18网络，所述改进后的ResNet-18网络通过删除原始ResNet-18网络中的归一化层、基础模块中恒等映射分支的卷积模块得到。

作为上述方案的改进，所述改进后的ResNet-18网络采用Combined Margin Loss损失函数。

为实现上述目的，本发明实施例还提供了一种人体姿态监控装置，包括：

预处理模块，用于获取人体的姿态图像，并对所述姿态图像进行预处理；

人体检测网络模块，用于将进行完预处理后的所述姿态图像输入到预设的人体检测网络中，以使所述人体检测网络输出所述姿态图像的人体坐标信息；

行为识别网络模块，用于将进行完预处理后的所述姿态图像输入到预设的行为识别网络中，以使所述行为识别网络输出所述姿态图像中的人体姿态；

人体坐标信息获取模块，用于当所述人体姿态符合预设的预警姿态时，获取相隔预设时间的所述人体检测网络输出的两张所述姿态图像的人体坐标信息；

重叠程度计算模块，用于根据所述人体坐标信息计算两张所述姿态图像中人体区域的重叠程度；

姿态维持时间更新模块，用于当所述重叠程度大于预设的百分比阈值时，更新与所述姿态图像对应的人物的姿态维持时间。

作为上述方案的改进，所述装置还包括：

预警模块，用于当所述姿态维持时间大于预设的预警时间阈值时，发出预警信息。

为实现上述目的，本发明实施例还提供了一种人体姿态监控设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一实施例所述的人体姿态监控方法。

为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的人体姿态监控方法。

与现有技术相比，本发明实施例公开的人体姿态监控方法、装置、设备及存储介质，通过将进行完预处理后的姿态图像分别输入到人体检测网络和行为识别网络中，以输出姿态图像的人体坐标信息和人体姿态；当人体姿态符合预设的预警姿态时，获取相隔预设时间的人体坐标信息，并计算人体区域的重叠程度；当重叠程度大于预设的百分比阈值时，则认定为同一人员，此时更新人物的姿态维持时间，能有效检测人体姿态，实时反馈员工在岗工作情况。

附图说明

图1是本发明实施例提供的一种人体姿态监控方法的流程图；

图2是本发明实施例提供的图像金字塔模块的结构示意图；

图3是本发明实施例提供的人体检测网络结构示意图；

图4是本发明实施例提供的ResNet-18网络中残差模块的结构示意图；

图5是本发明实施例提供的行为识别网络的结构示意图；

图6是本发明实施例提供的一种人体姿态监控装置的结构示意图；

图7是本发明实施例提供的一种人体姿态监控设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种人体姿态监控方法的流程图；所述人体姿态监控方法包括：

S1、获取人体的姿态图像，并对所述姿态图像进行预处理；

S2、将进行完预处理后的所述姿态图像输入到预设的人体检测网络中，以使所述人体检测网络输出所述姿态图像的人体坐标信息；

S3、将进行完预处理后的所述姿态图像输入到预设的行为识别网络中，以使所述行为识别网络输出所述姿态图像中的人体姿态；

S4、当所述人体姿态符合预设的预警姿态时，获取相隔预设时间的所述人体检测网络输出的两张所述姿态图像的人体坐标信息；

S5、根据所述人体坐标信息计算两张所述姿态图像中人体区域的重叠程度；

S6、当所述重叠程度大于预设的百分比阈值时，更新与所述姿态图像对应的人物的姿态维持时间。

值得说明的是，本发明实施例所述的人体姿态监控方法可以由监控终端中的处理器执行实现，所述监控终端是监控系统的前端设备，集成了数据处理和数据通信等多项功能，具有强大的业务调度功能和数据处理能力。

具体地，在步骤S1中，通过视频监控设备获取视频，所述视频监控设备与所述监控终端预先建立通信连接，所述视频监控设备将所述视频发送给所述监控终端，所述监控终端分析实时的视频流数据，对数据解码得到序列帧数据，再对帧数据进行图像处理得到人体的姿态图像。最后对所述姿态图像进行预处理，所述预处理为增加光强、调节对比度等图像处理操作。

具体地，在步骤S2中，所述人体检测网络为改进后的RefineDet网络，所述改进后的RefineDet网络通过将图像金字塔与原始RefineDet网络中的特征金字塔使用拼接的方式融合得到。

示例性的，由于原始RefineDet网络只适用于常见目标检测，并不适合室内场景下的人体检测要求，且容易造成小目标物体的漏检，故针对室内场景下值班室人员的活动特点，对人体检测网络做了如下改进：首先，引入轻量级特征的图像金字塔模块(见图2)，将图像金字塔模块与原始RefineDet的特征金字塔使用拼接的方式融合，让网络自动学习最优的融合特征，这样原始RefineDet中的ARM模块的特征选择也会为主干网络融合图像金字塔的特征；其次，图像金字塔分支对于每一个层级的网络结构采用两个3*3和两个1*1的轻量化的组合形式，图像金字塔的下采样采用最大池化的方式；此外，除主干网络外，其余层均增加使用BN层；最后，使用在ImageNet数据集上预训练的模型初始化主干网络，其余层均使用Xavier随机初始化。本发明实施例所采用的人体检测网络结构示意图可参考图3。

进一步地，本发明实施例中对所述原始RefineDet网络中的锚点框的数量和宽高比进行了针对性的修改。室内场景下的图像中主要包含了人体的站立、坐和趴三种姿势，这些不同类型的姿势在视频图像中呈现的宽高比变化不大，例如站立姿势的宽高比接近1:3，而坐姿和卧姿的宽高比基本分布在1:2附近。由于针对不同的实验数据集，且待检测目标是人体，故将原始RefineDet网络中的锚点框数量和比例进行合理的修改。因此，将所述原始RefineDet网络中ARM模块的4个特征图对应的锚点框的数量全部设为4，宽高比包含了1、2、3、1/2、1/3，以使得每一个标注框都有尽可能多的锚点框与之匹配，并且匹配的效果更好。

具体地，在步骤S3中，所述行为识别网络为改进后的ResNet-18网络，所述改进后的ResNet-18网络通过删除原始ResNet-18网络中的归一化层、基础模块中恒等映射分支的卷积模块得到。

示例性的，所述行为识别网络部分主要是对值班人员在岗的行为进行分类，即睡岗或非睡岗，主网络经过实验后，选用ResNet-18网络，该网络结构以residual block(残差模块)为基础堆叠而成，如图4所示。对原始ResNet-18网络进行网络结构上的改进，为了降低模型运行显存和加快前向速度，而做了优化，例如去除原始ResNet-18网络中BN layer(归一化层)，去除buildingblock(基础模块)中恒等映射分支的卷积block(模块)，减少卷积神经元的个数，减少building block的个数，并将一部分eltwise(元素方式)操作替换成了concat(拼接方式)操作。本发明实施例所采用的行为识别网络的结构示意图可参考图5。

另一方面，在损失函数上的改进，使用Combined Margin Loss(合并边缘损失)，其由基于分类算法常用的SoftMax损失改进而来。将角度空间的损失引入，分类结果以概率的形式获得最终的分类标签，并与真实标签做对比计算损失。实验证明，这类损失函数可以提高值班人员睡岗行为分类的精度。

进一步地，由于实际室内睡岗场景中，人体姿势呈现出多元的变化，还存在一些人体遮挡的情形，因此为了使深度神经网络算法具有鲁棒性，采集不同场景的室内岗位图像数据，包括企业办公室场景、公安案管区场景及其它场景，以丰富图像背景信息；采集不同遮挡程度和不同姿态的人体睡姿和非睡姿数据；筛选并使用VOC和COCO数据集中部分数据扩增实验训练数据集，增加网络对图像特征的提取能力。另外，还通过对原始数据进行随机翻转、随机裁剪及镜像等操作，增加高斯模糊，椒盐噪声和增强直方图均衡化，随机色彩抖动，其中包括了以0.5的概率进行亮度[-32,32]、对比度[0.5,1.5]、色调[-18,18]、饱和度[0.5,1.5]变化，归一化输入图像大小为320*320，来扩充训练数据集。

具体地，在步骤S4中，所述预警姿态为睡姿，当所述人体姿态符合睡姿时，获取相隔预设时间的所述人体检测网络输出的两张所述姿态图像的人体坐标信息。示例性的，所述预设时间可以根据具体情况设定，在此不做具体限定。

具体地，在步骤S5～S6中，根据所述人体坐标信息计算两张所述姿态图像中人体区域的重叠程度，当所述重叠程度大于预设的百分比阈值时，则认定为同一人物，此时更新与所述姿态图像对应的人物的姿态维持时间。示例性的，所述百分比阈值为75％。

进一步地，在更新与所述姿态图像对应的人物的姿态维持时间后，还包括：

S7、当所述姿态维持时间大于预设的预警时间阈值时，发出预警信息。

示例性的，所述预警信息为监控系统发出的声音警报信息/指示灯闪烁信息，或者，所述预警信息为所述监控系统发送的短信通知，通过将所述短信通知发送到监控人员的手机中，能够实时通知值班人和管理人员，实现在室内场景下的睡岗实时检测与预警。

更进一步地，针对室内场景下的睡岗行为识别任务，本发明实施例中用于参考的评价指标包括精确率、召回率、mAP和FPS，其中精确率为所有检出的目标中正确检测的比例，召回率为总检数中正确检测的比例，其中总检数包括正检数、漏检数和误检数，如式(1)和式(2)所示。mAP即平均精度均值，FPS为每秒处理的图片数量，IoU表示产生的候选框与真实标注框的重叠程度，即二者的交集与并集的比值，IoU越高，两者的相关程度越高，表明算法模型检测的越准确。

精确率＝正检数/(正检数+误检数) (1)；

召回率＝正检数/(正检数+漏检数+误检数) (2)；

其中，评价指标均考虑当IOU阈值为0.5的map，而精确率和召回率为当IOU大于0.5且置信度大于0.9时被认为正确。FPS仅考虑模型前向传播和输出识别结果的时间(不考虑图像读取和归一化)。

与现有技术相比，本发明实施例公开的人体姿态监控方法，通过将进行完预处理后的姿态图像分别输入到人体检测网络和行为识别网络中，以输出姿态图像的人体坐标信息和人体姿态；当人体姿态符合预设的预警姿态时，获取相隔预设时间的人体坐标信息，并计算人体区域的重叠程度；当重叠程度大于预设的百分比阈值时，则认定为同一人员，此时更新人物的姿态维持时间，能有效检测人体姿态，实时反馈员工在岗工作情况。

本发明实施例公开的人体姿态监控方法，基于RefineDet网络的改进，引入轻量级特征图像金字塔，增强网络特征提取能力，提升算法的检测精确率，同时保证算法的效率；基于ResNet-18网络的改进，引入新的损失函数，使网络更加轻量化，增加了睡岗行为分类的准确率，而且减少了行为识别时间，提高了算法的效率；针对睡岗人体检测图像的宽高比等特性，对算法的数据增强模块进行改进的策略及锚点框个数和宽高比设置，以达到对人体检测更高的召回率和更低的误检率；对于判定是否同一人员睡岗行为的方法以及时间阈值等设计，实现了睡岗行为分析的实时检测及告警。

参见图6，图6是本发明实施例提供的一种人体姿态监控装置10的结构示意图；所述人体姿态监控装置10包括：

预处理模块11，用于获取人体的姿态图像，并对所述姿态图像进行预处理；

人体检测网络模块12，用于将进行完预处理后的所述姿态图像输入到预设的人体检测网络中，以使所述人体检测网络输出所述姿态图像的人体坐标信息；

行为识别网络模块13，用于将进行完预处理后的所述姿态图像输入到预设的行为识别网络中，以使所述行为识别网络输出所述姿态图像中的人体姿态；

人体坐标信息获取模块14，用于当所述人体姿态符合预设的预警姿态时，获取相隔预设时间的所述人体检测网络输出的两张所述姿态图像的人体坐标信息；

重叠程度计算模块15，用于根据所述人体坐标信息计算两张所述姿态图像中人体区域的重叠程度；

姿态维持时间更新模块16，用于当所述重叠程度大于预设的百分比阈值时，更新与所述姿态图像对应的人物的姿态维持时间；

预警模块17，用于当所述姿态维持时间大于预设的预警时间阈值时，发出预警信息。

具体的所述人体姿态监控装置10中各个模块的工作过程请参考上述实施例所述的人体姿态监控方法的工作过程，在此不再赘述。

本发明实施例公开的人体姿态监控装置，基于RefineDet网络的改进，引入轻量级特征图像金字塔，增强网络特征提取能力，提升算法的检测精确率，同时保证算法的效率；基于ResNet-18网络的改进，引入新的损失函数，使网络更加轻量化，增加了睡岗行为分类的准确率，而且减少了行为识别时间，提高了算法的效率；针对睡岗人体检测图像的宽高比等特性，对算法的数据增强模块进行改进的策略及锚点框个数和宽高比设置，以达到对人体检测更高的召回率和更低的误检率；对于判定是否同一人员睡岗行为的方法以及时间阈值等设计，实现了睡岗行为分析的实时检测及告警。

参见图7，图7是本发明实施例提供的一种人体姿态监控设备20的结构示意图。该实施例的人体姿态监控设备20包括：处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述人体姿态监控方法实施例中的步骤，例如图1所示的步骤S1～S6。或者，所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如预处理模块11。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述人体姿态监控设备20中的执行过程。例如，所述计算机程序可以被分割成预处理模块11、人体检测网络模块12、行为识别网络模块13、人体坐标信息获取模块14、重叠程度计算模块15、姿态维持时间更新模块16和预警模块17，各模块具体功能请参考上述实施例所述的人体姿态监控装置10的具体工作过程，在此不再赘述。

所述人体姿态监控设备20可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述人体姿态监控设备20可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，所述示意图仅仅是人体姿态监控设备20的示例，并不构成对人体姿态监控设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述人体姿态监控设备20还可以包括输入输出设备、网络接入设备、总线等。

所述处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器21也可以是任何常规的处理器等，所述处理器21是所述人体姿态监控设备20的控制中心，利用各种接口和线路连接整个人体姿态监控设备20的各个部分。

所述存储器22可用于存储所述计算机程序和/或模块，所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现所述人体姿态监控设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述人体姿态监控设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器21执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种人体姿态监控方法，其特征在于，包括：

获取人体的姿态图像，并对所述姿态图像进行预处理；

2.如权利要求1所述的人体姿态监控方法，其特征在于，所述更新与所述姿态图像对应的人物的姿态维持时间后，还包括：

3.如权利要求1所述的人体姿态监控方法，其特征在于，所述人体检测网络为改进后的RefineDet网络，所述改进后的RefineDet网络通过将图像金字塔与原始RefineDet网络中的特征金字塔使用拼接的方式融合得到。

4.如权利要求3所述的人体姿态监控方法，其特征在于，所述图像金字塔中每一个层级的网络结构均采用两个3*3和两个1*1的轻量化的组合形式；所述图像金字塔的下采样采用最大池化的方式。

5.如权利要求1所述的人体姿态监控方法，其特征在于，所述行为识别网络为改进后的ResNet-18网络，所述改进后的ResNet-18网络通过删除原始ResNet-18网络中的归一化层、基础模块中恒等映射分支的卷积模块得到。

6.如权利要求5所述的人体姿态监控方法，其特征在于，所述改进后的ResNet-18网络采用Combined Margin Loss损失函数。

7.一种人体姿态监控装置，其特征在于，包括：

8.如权利要求7所述的人体姿态监控装置，其特征在于，所述装置还包括：

9.一种人体姿态监控设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的人体姿态监控方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的人体姿态监控方法。