CN116884088A

CN116884088A - 一种监控场景睡岗识别方法

Info

Publication number: CN116884088A
Application number: CN202310872022.6A
Authority: CN
Inventors: 胡胤; 王涛; 张提; 周靖轩
Original assignee: Shenzhen Vclusters Information Technology Co ltd
Current assignee: Shenzhen Vclusters Information Technology Co ltd
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-10-13

Abstract

本发明公开一种监控场景睡岗识别方法，包括如下步骤：采集监控场景视频流数据，选取人体目标识别视频片段；对视频片段进行人体目标检测以及骨骼关键点抓取；根据人体目标检测结果以及关键点抓取结果，判断视频片段中的人体目标运动状态；若人体目标为静止状态，则结合关键点抓取结果，判断人体目标是否为睡岗状态，通过上述步骤，本发明可针对监控场景下的趴姿和躺姿，利用人体骨骼关键点的空间位置关系以及时间维度的相关性，以对人员睡觉状态进行有效识别，从而及时的起到报警提醒作用，减少生产安全事故。

Description

一种监控场景睡岗识别方法

技术领域

本发明涉及睡岗识别技术领域，尤其涉及一种监控场景睡岗识别方法。

背景技术

目前睡岗识别在安全生产作业区域被广泛应用，而现有的大多是监控场景的摄像头，无法有效的监测到工作人员的面部表情、眼睛状态等细微动作，如监控室、办公室等场所等，这将导致摄像头无法有效的对工作人员是否处于睡岗状态进行有效的监控，增加了生产安全事故的隐患，进一步地，为了能捕捉到人体面部细微表情，则需要使用专业的高清摄像设备，无疑又增加了设备使用成本，使得睡岗识别精度和节省成本之间无法两存。

发明内容

本发明的目的是针对背景技术中现有睡岗识别方法存在的“现有监控场景的摄像头，无法有效的监测到工作人员的面部表情、眼睛状态等细微动作，将导致监测无法有效的对工作人员是否处于睡岗状态进行有效的监控，增加了生产安全事故的隐患”的技术问题，提出一种监控场景睡岗识别方法。

具体地，本发明的一种监控场景睡岗识别方法包括如下步骤：

采集监控场景视频流数据，选取人体目标识别视频片段；

对视频片段进行人体目标检测以及骨骼关键点抓取；

根据人体目标检测结果以及关键点抓取结果，判断视频片段中的人体目标运动状态；

若人体目标为静止状态，则结合关键点抓取结果，判断人体目标是否为睡岗状态。

进一步地，所述“采集监控场景视频流数据，选取人体目标识别视频片段”包括如下步骤：

设定选取视频片段的采集时长；

根据采集时长，于监控场景视频流数据中选取人体目标识别视频片段；

将视频片段分为若干计时段；

于各个计时段中采集固定数量的视频帧。

进一步地，所述“对视频片段进行人体目标检测以及骨骼关键点抓取”包括如下步骤：

使用yolov5模型，对各计时段采集的视频帧进行人体目标检测，并形成人体目标检测框；

以COCO2017作为训练数据，使用Lite-HRNet算法，对人体目标检测框关键点进行检测，以形成若干关键点。

进一步地，所述“根据人体目标检测结果以及关键点抓取结果，判断视频片段中的人体目标运动状态”包括如下步骤：

根据人体目标检测结果以及关键点抓取结果对人体目标检测框进行分析，以判断视频片段中的人体目标是否处于静止状态；

若人体目标状态判断为非静止，则于监控场景视频流数据中重新选取视频片段，并判断该视频片段中的人体目标是否处于静止状态，直至人体目标状态判断为静止；

当视频片段中的人体目标状态判断为静止时，对人体目标进行误检操作；

若误检操作判断结果为“误检”，则误检操作不通过，并重复上述“于监控场景视频流数据中重新选取视频片段，并判断该视频片段中的人体目标是否处于静止状态，直至人体目标状态判断为静止”以及“当视频片段中的人体目标状态判断为静止时，对人体目标进行误检操作”的步骤，直至误检操作通过。

进一步地，所述“根据人体目标检测结果以及关键点抓取结果对人体目标检测框进行分析，以判断视频片段中的人体目标是否处于静止状态”包括如下步骤：

判断计时段内的人体目标是否静止；

判断断视频片段中的人体目标是否静止。

进一步地，所述“判断计时段内的人体目标是否静止”包括如下步骤：

以计时段的第一视频帧为起始视频帧，将该视频帧的人体目标检测框的感兴趣区域作为该计时段的比对基准；

设定ssim结构相似度阈值以及第一静止临界值；

将比对基准分别与计时段剩余视频帧人体目标检测框的感兴趣区域进行ssim结构相似度计算，并记录各个视频帧的相似度值；

将各个视频帧的相似度值与相似度阈值进行大小比对，记录大于相似度阈值视频帧的个数；

若大于相似度阈值视频帧的个数不小于第一静止临界值，则判断计时段的人体目标为静止状态。

进一步地，所述“判断断视频片段中的人体目标是否静止”包括如下步骤：

设定第二静止临界值；

计算上述人体目标判断为静止状态的计时段个数；

若上述计时段个数不小于第二静止临界值，则判断视频片段中的人体目标为静止状态。

进一步地，所述“当视频片段中的人体目标状态判断为静止时，对人体目标进行误检操作”包括如下步骤：

设定误判临界值；

计算视频片段中最后一个计时段的最后一个视频帧的人体目标检测框中的关键点个数；

若关键点个数小于误判临界值，则误检操作判断结果为“误检”。

进一步地，所述“若人体目标为静止状态，则结合关键点抓取结果，判断人体目标是否为睡岗状态”包括如下步骤；

判断人体目标是否为趴姿睡岗状态；

判断人体目标是否为躺姿睡岗状态；

输出睡岗状态结果。

进一步地，所述关键点包括“鼻部关键点、肩部关键点、肘部关键点、胯部关键点、膝部关键点”；

所述“判断人体目标是否为趴姿睡岗状态”包括如下步骤；

设定第一临界夹角以及第二临界夹角；

取两肩部关键点的中点为肩部中点；

将肩部中点分别与鼻部关键点以及肘部关键点连线以形成第一夹角；

取两胯部关键点的中点为胯部中点；

将胯部中点分别与肩部中点以及膝部关键点连线以形成第二夹角；

若第一夹角小于第一临界夹角，且第二夹角小于第二临界夹角，则判定人体目标是趴姿睡岗状态；

所述“判断人体目标是否为躺姿睡岗状态”包括如下步骤；

设定第三临界夹角；

取两膝部关键点的中点为膝部中点；

将胯部中点分别与肩部中点以及与膝部中点连线，以形成第三夹角；

若第三夹角小于第三临界夹角，则判定人体目标是躺姿睡岗状态。

与现有技术相比，本发明具有如下有益的技术效果：可以理解，因监控场景下工作人员的睡觉姿势一般为两种：趴姿和躺姿，即通过上述步骤，本发明可针对监控场景下的趴姿和躺姿，利用人体骨骼关键点的空间位置关系以及时间维度的相关性，能够对人员睡觉状态有效的进行识别，以及时的起到报警提醒作用，减少生产安全事故，进一步地，因上述睡岗识别方法主要是通过人体骨骼关键点，以对人体是否为睡岗进行识别判断，并不依赖于对人脸面部表情、眼睛状态等细微的动作的捕捉，解决了“因大多数的监控场景的摄像头拍摄，无法有效的监测到人员的面部表情、眼睛状态等细微的动作，如监控室、办公室等场所，导致无法判断人员是否在睡觉”的技术问题，降低了睡岗检测对较高精度监控设备的依赖性，变相节省了监控成本，能较好的适应不同的应用环境，且识别精度高。

附图说明

图1为本发明的流程图；

图2为步骤S1的流程图；

图3为步骤S2的流程图；

图4为步骤S3的流程图；

图5步骤S31的流程图；

图6为步骤S311的流程图；

图7为步骤S312的流程图；

图8为步骤S33的流程图；

图9为步骤S4的流程图；

图10为步骤S41的流程图；

图11为步骤S42的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或组件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一具体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个组件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明的具体实施例做详细说明。

如图1-图11所示，本发明提出的一种监控场景睡岗识别方法，包括如下步骤：

S1：采集监控场景视频流数据，选取人体目标识别视频片段；

S2：对视频片段进行人体目标检测以及骨骼关键点抓取；

S3：根据人体目标检测结果以及关键点抓取结果，判断视频片段中的人体目标运动状态；

S4：若人体目标为静止状态，则结合关键点抓取结果，判断人体目标是否为睡岗状态。

可以理解，在本实施例中，步骤S1中的视频流数据为实时监控数据，用以对监控场景进行实时监控，输入视频流数据后，即可于视频流数据中实时选取用于人体目标识别视频片段，用于后续的检测、识别，步骤S2用以形成各种检测参数，如通过视频片段进中的人体目标进行检测，以形成人体目标检测框、再通过关键点抓取于人体目标检测框中形成若干人体骨骼关键点等，用以检测目标人体的运动状态。

在本实施例中，关键点的抓取可包括17个人体骨骼关键点，具体地，可以是鼻部关键点、左、右耳部关键点、左、右眼部关键点、左、右肩部关键点、左、右肘部关键点、左、右腕部关键点、左、右胯部关键点、左、右膝部关键点以及左、右踝部关键点。

在步骤S3中，经检测识别后，若目标人体的运动状态为非静止状态，则重复上述步骤S1、S2、S3，直至检测出目标人体为静止状态，此时，再结合人体各个部位骨骼关键点之间的空间位置关系，以进一步分析判断在某一时间维度下，人体目标是否为睡岗状态。

可以理解，因监控场景下工作人员的睡觉姿势一般为两种：趴姿和躺姿，即通过上述步骤，本发明可针对监控场景下的趴姿和躺姿，利用人体骨骼关键点的空间位置关系以及时间维度的相关性，能够对人员睡觉状态有效的进行识别，以及时的起到报警提醒作用，减少生产安全事故，进一步地，上述睡岗识别方法主要是通过人体骨骼关键点，以对人体是否为睡岗进行识别判断，并不依赖于对人脸面部表情、眼睛状态等细微的动作的捕捉，解决了“因大多数的监控场景的摄像头拍摄，无法有效的监测到人员的面部表情、眼睛状态等细微的动作，如监控室、办公室等场所，导致无法判断人员是否在睡觉”的技术问题，降低了睡岗检测对较高精度监控设备的依赖性，变相节省了监控成本，能较好的适应不同的应用环境，且识别精度高。

具体地，本实施例的步骤“S1：采集监控场景视频流数据，选取人体目标识别视频片段”还包括如下步骤：

S11：设定选取视频片段的采集时长；

S12：根据采集时长，于监控场景视频流数据中选取人体目标识别视频片段；

S13：将视频片段分为若干计时段；

S14：于各个计时段中采集固定数量的视频帧。

可以理解，在本实施例中，在选取视频片段时，可设定一目标采集时长，并以该时长为标准，对监控场景视频流数据进行视频片段的实时采集，作为一种实施方式，视频片段的采集时长为2min，进一步地，视频片段选取完成后，将视频片段分为若干计时段，在本实施例中，视频片段将随机分割成5个计时段，每个计时段选取连续的11个视频帧，用于供后续判断人体运动状态进行分析。

进一步地，在判断人体运动状态之前，需结合各种检测模型以对视频片段的中的数据参数进行采集，因此，在本实施例中步骤“S2：对视频片段进行人体目标检测以及骨骼关键点抓取”还包括如下步骤；

S21：使用yolov5模型，对各计时段采集的视频帧进行人体目标检测，并形成人体目标检测框；

S22：以COCO2017作为训练数据，使用Lite-HRNet算法，对人体目标检测框关键点进行检测，以形成若干关键点。

具体地，步骤S21的人体检测是基于yolov5目标检测算法，其中backbone使用较为轻量化的yolov5s结构，输入尺寸根据1080p的监控图片尺寸比例调整为[w,h]＝[704,416]，分析室内场景人物的特点可知，室内人体目标都是较大的目标，较小的人体目标对后续的睡姿识别算法并无太多参考意义，故这部分可排除，原始的yolov5s结构的检测头在下采样倍数为s＝8,16,32三个特征层，提供小、中、大目标的检测，本专利将小目标在s＝8的检测头进行移除，将所有层的channel减半，进一步加速模型的推理，并且在监控场景下的人体检测精度损失在3％以内。

进一步地，步骤S22的关键点抓取是以COCO2017作为训练数据，结合轻量化的人体关键点算法Lite-HRNet，输入尺寸为[w,h]＝[192,256]，具体地，是为了适应不同的人体的长宽比，使用对原图进行补边的操作缩放到[192,256]尺寸，最终对每个关键点的heatmap取最大值，其所在的位置则为关键点在原图对应所在的位置，对关键点的分数设置阈值score＝0.5，低于阈值的关键点为不可见关键点被过滤。

进一步地，在本实施例中，步骤“S3：根据人体目标检测结果以及关键点抓取结果，判断视频片段中的人体目标运动状态”还包括如下步骤：

S31：根据人体目标检测结果以及关键点抓取结果对人体目标检测框进行分析，以判断视频片段中的人体目标是否处于静止状态；

S32：若人体目标状态判断为非静止，则于监控场景视频流数据中重新选取视频片段，并判断该视频片段中的人体目标是否处于静止状态，直至人体目标状态判断为静止；

S33：当视频片段中的人体目标状态判断为静止时，对人体目标进行误检操作；

S34：若误检操作判断结果为“误检”，则误检操作不通过，并重复上述“于监控场景视频流数据中重新选取视频片段，并判断该视频片段中的人体目标是否处于静止状态，直至人体目标状态判断为静止”以及“当视频片段中的人体目标状态判断为静止时，对人体目标进行误检操作”的步骤，直至误检操作通过。

可以理解，在获得视频片段后、检测目标人体是否为睡岗前，需先对目标人体进行是否处于静止状态的判断，具体地，在对步骤“S31：根据人体目标检测结果以及关键点抓取结果对人体目标检测框进行分析，以判断视频片段中的人体目标是否处于静止状态”进行判断时，作为一种实施方式，还需将步骤S31分成如下步骤：

S311：判断计时段内的人体目标是否静止；

S312：判断断视频片段中的人体目标是否静止。

具体地，针对步骤S311的判断如下：

S3111：以计时段的第一视频帧为起始视频帧，将该视频帧的人体目标检测框的感兴趣区域作为该计时段的比对基准；

S3112：设定ssim结构相似度阈值以及第一静止临界值；

S3113：将比对基准分别与计时段剩余视频帧人体目标检测框的感兴趣区域(即roi)进行ssim结构相似度计算，并记录各个视频帧的相似度值；

S3114：将各个视频帧的相似度值与相似度阈值进行大小比对，记录大于相似度阈值视频帧的个数；

S3115：若大于相似度阈值视频帧的个数不小于第一静止临界值，则判断计时段的人体目标为静止状态。

具体地，在本实施例中，视频片段中共有5个计时段，每个计时段中包含11个视频帧，ssim结构相似度阈值取0.92，第一静止临界值取8，即以初始视频帧为基准，将后10帧的roi与初始帧的roi进行ssim结构相似度计算，相似度高于阈值的视频帧表示该目标人体前后状态比对结果为静止不动，有8张或者8张以上都静止不动的视频帧则可认为该计时段内，目标人体是为静止状态。

进一步地，在对计时段内的人体目标运动状态判断完毕后，需要进一步对视频片段中的人体目标运动状态进行判断，作为一种实施方式，步骤“S312：判断视频片段中的人体目标是否静止”还包括如下步骤：

S3121：设定第二静止临界值；

S3122：计算上述人体目标判断为静止状态的计时段个数；

S3123：若上述计时段个数不小于第二静止临界值，则判断视频片段中的人体目标为静止状态。

具体地，在本实施例中，第二静止临界值为4，即5个计时段中有4个小计时段中的目标人体都达到静止不动的状态则可判断在视频片段中，目标人体为静止不动的状态。

在判断目标人体于视频片段中为静止状态后，则需要对人体目标进行误检操作，该操作是为了排除人体检测框是误检框或者静止姿态不能作为判定为是否睡觉姿势的人体姿势，以提高识别精度，若误检操作判断结果为“误检”时，则误检操作不通过，并重复上述“于监控场景视频流数据中重新选取视频片段，并判断该视频片段中的人体目标是否处于静止状态，直至人体目标状态判断为静止”以及“当视频片段中的人体目标状态判断为静止时，对人体目标进行误检操作”的步骤，直至误检操作通过。

具体地，为了识别是否为误检，步骤“S33：当视频片段中的人体目标状态判断为静止时，对人体目标进行误检操作”还包括如下步骤：

S331：设定误判临界值；

S332：计算视频片段中最后一个计时段的最后一个视频帧的人体目标检测框中的关键点个数；

S333：若关键点个数小于误判临界值，则误检操作判断结果为“误检”。

可以理解，在本实施例中，人体位于头部附近的关键点具有7个，分别为鼻部关键点、左、右眼部关键点、左、右耳部关键点、左、右肩部关键点，若视频片段中最后一个计时段的最后一个视频帧的人体目标检测框中少于5个可见关键点，则认为该人体目标检测框是误检框或者不能作为判定为是否睡觉姿势的人体姿势，即为“误检”，需要被过滤。

进一步地，在本实施例中，所述关键点还包括“鼻部关键点、肩部关键点、肘部关键点、胯部关键点、膝部关键点”。

当误检操作通过后，则需要进一步地判断目标人体是否为睡岗姿态，具体地，步骤“S4：若人体目标为静止状态，则结合关键点抓取结果，判断人体目标是否为睡岗状态。”还包括如下步骤：

S41：判断人体目标是否为趴姿睡岗状态；

S42：判断人体目标是否为躺姿睡岗状态；

S43：输出睡岗状态结果。

具体地，步骤“S41：判断人体目标是否为趴姿睡岗状态”具体如下：

S411：设定第一临界夹角以及第二临界夹角；

S412：取两肩部关键点的中点为肩部中点；

S413：将肩部中点分别与鼻部关键点以及肘部关键点连线以形成第一夹角；

S414：取两胯部关键点的中点为胯部中点；

S415：将胯部中点分别与肩部中点以及膝部关键点连线以形成第二夹角；

S416：若第一夹角小于第一临界夹角，且第二夹角小于第二临界夹角，则判定人体目标是趴姿睡岗状态。

需要注意的是因肘部关键点会有2个，故肩部中点分别与鼻部关键点以及肘部关键点连线形成的夹角存在2个，取其中较小的夹角视为第一夹角。同理，胯部中点分别与肩部中点以及膝部关键点连线的2个夹角中，取其中较小的夹角视为第二夹角。

作为一种实施方式，本实施例的第一临界夹角为90度、第二临界夹角为120度，即当肩部中点分别与鼻部关键点以及肘部关键点连线形成的第一夹角小于90度，且胯部中点分别与肩部中点以及膝部关键点连线形成的第二夹角小于120度时，则可判定人体目标是趴姿睡岗状态，即发出睡岗警报。

进一步地，步骤“S42：判断人体目标是否为躺姿睡岗状态”具体如下：

S421：设定第三临界夹角；

S422：取两膝部关键点的中点为膝部中点；

S423：将胯部中点分别与肩部中点以及与膝部中点连线，以形成第三夹角；

S424：若第三夹角小于第三临界夹角，则判定人体目标是躺姿睡岗状态。

作为一种实施方式，本实施例的第三临界夹角为120度，当胯部中点分别与肩部中点以及与膝部中点连线的第三夹角小于120度时，则可判定人体目标是躺姿睡岗状态，即发出睡岗警报。

如上是结合具体内容提供的一种或多种实施方式，并不认定本发明的具体实施只局限于这些说明。凡与本发明的方法、结构等近似、雷同，或是对于本发明构思前提下做出若干技术推演或替换，都应当视为本发明的保护范围。

Claims

1.一种监控场景睡岗识别方法，其特征在于，包括如下步骤：

采集监控场景视频流数据，选取人体目标识别视频片段；

对视频片段进行人体目标检测以及骨骼关键点抓取；

2.根据权利要求1所述的一种监控场景睡岗识别方法，其特征在于，所述“采集监控场景视频流数据，选取人体目标识别视频片段”包括如下步骤：

设定选取视频片段的采集时长；

将视频片段分为若干计时段；

于各个计时段中采集固定数量的视频帧。

3.根据权利要求2所述的一种监控场景睡岗识别方法，其特征在于，所述“对视频片段进行人体目标检测以及骨骼关键点抓取”包括如下步骤：

4.根据权利要求3的一种监控场景睡岗识别方法，其特征在于，所述“根据人体目标检测结果以及关键点抓取结果，判断视频片段中的人体目标运动状态”包括如下步骤：

5.根据权利要求4所述的一种监控场景睡岗识别方法，其特征在于，所述“根据人体目标检测结果以及关键点抓取结果对人体目标检测框进行分析，以判断视频片段中的人体目标是否处于静止状态”包括如下步骤：

判断计时段内的人体目标是否静止；

判断断视频片段中的人体目标是否静止。

6.根据权利要求5的一种监控场景睡岗识别方法，其特征在于，所述“判断计时段内的人体目标是否静止”包括如下步骤：

设定ssim结构相似度阈值以及第一静止临界值；

7.根据权利要求6所述的一种监控场景睡岗识别方法，其特征在于，所述“判断断视频片段中的人体目标是否静止”包括如下步骤：

设定第二静止临界值；

计算上述人体目标判断为静止状态的计时段个数；

8.根据权利要求7所述的一种监控场景睡岗识别方法，其特征在于，所述“当视频片段中的人体目标状态判断为静止时，对人体目标进行误检操作”包括如下步骤：

设定误判临界值；

9.根据权利要求1所述的一种监控场景睡岗识别方法，其特征在于，所述“若人体目标为静止状态，则结合关键点抓取结果，判断人体目标是否为睡岗状态”包括如下步骤；

判断人体目标是否为趴姿睡岗状态；

判断人体目标是否为躺姿睡岗状态；

输出睡岗状态结果。

10.根据权利要求9所述的一种监控场景睡岗识别方法，其特征在于，所述关键点包括“鼻部关键点、肩部关键点、肘部关键点、胯部关键点、膝部关键点”；

所述“判断人体目标是否为趴姿睡岗状态”包括如下步骤；

设定第一临界夹角以及第二临界夹角；

取两肩部关键点的中点为肩部中点；

取两胯部关键点的中点为胯部中点；

所述“判断人体目标是否为躺姿睡岗状态”包括如下步骤；

设定第三临界夹角；

取两膝部关键点的中点为膝部中点；