CN113569771B

CN113569771B - 视频分析方法及装置、电子设备和存储介质

Info

Publication number: CN113569771B
Application number: CN202110877987.5A
Authority: CN
Inventors: 蔡晓聪; 侯军; 伊帅
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2024-05-24
Anticipated expiration: 2041-07-30
Also published as: CN113569771A

Abstract

本申请提供了一种视频分析方法及装置、电子设备和存储介质，其中，该方法包括：对视频的相邻帧进行目标检测和目标追踪，得到相邻帧中目标对象的检测追踪结果；根据检测追踪结果对目标对象进行人体分割，得到人体分割掩码图；获取人体分割掩码图中人体掩码的统计量；根据人体掩码的统计量确定目标对象是否存在懒岗行为。本申请实施例有利于提升视频分析方法对场景的鲁棒性。

Description

视频分析方法及装置、电子设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种视频分析方法及装置、电子设备和存储介质。

背景技术

随着城市化进程的加快，物业管理的模式已经大范围普及，然而，高速发展的同时物业服务行业也面临着一系列问题：一方面物业费用升值空间有限，另一方面人力成本居高不下。为了走出费用和成本的困境，计算机视觉技术被广泛应用于物业管理中，依托计算机视觉中的视频分析技术，可对物业场景中的人或物进行智能检测，其检测结果可用于辅助物业管理。对物业工作人员工作状态的检测是物业管理中的尤为重要的部分，工作状态检测主要关注的是工作人员是否有离岗或懒岗行为，所谓懒岗是指工作人员长时间处于同一种行为状态，比如长时间趴睡、发呆等。目前主要通过在连续的长时间段上对人体属性进行识别，以判断工作人员是否处于懒岗状态，但是人体属性识别需要大量场景数据做支撑，较少的场景数据会导致识别方案对场景的鲁棒性较低。

发明内容

针对上述问题，本申请提供了一种视频分析方法及装置、电子设备和存储介质，有利于提升视频分析对场景的鲁棒性。

为实现上述目的，本申请实施例提供了一种视频分析方法，该方法包括：

对视频的相邻帧进行目标检测和目标追踪，得到所述相邻帧中目标对象的检测追踪结果；

根据所述检测追踪结果对所述目标对象进行人体分割，得到人体分割掩码图；

获取所述人体分割掩码图中人体掩码的统计量；

根据所述人体掩码的统计量确定所述目标对象是否存在懒岗行为。

在一种可能的实施方式中，所述相邻帧中包括第一视频帧和第二视频帧，所述第二视频帧为所述第一视频帧的下一帧，所述人体分割掩码图包括对所述第一视频帧中的所述目标对象进行人体分割得到的第一人体分割掩码图和对所述第二视频帧中的所述目标对象进行人体分割得到的第二人体分割掩码图，所述人体掩码的统计量包括所述第一人体分割掩码图中的第一人体掩码与所述第二人体分割掩码图中的第二人体掩码的交并比。

在一种可能的实施方式中，所述根据所述人体分割掩码的统计量确定所述目标对象是否存在懒岗行为，包括：

若根据连续的至少一组相邻帧得到的至少一个交并比均小于预设交并比阈值，则确定所述目标对象存在懒岗行为；

其中，所述至少一组相邻帧与所述至少一个交并比一一对应，所述至少一组相邻帧包括所述相邻帧，所述至少一个交并比包括所述第一人体掩码与所述第二人体掩码的交并比。

在一种可能的实施方式中，所述检测追踪结果中包括对所述第一视频帧进行目标检测得到的所述目标对象的第一检测框和对所述第二视频帧进行目标检测得到的所述目标对象的第二检测框；

所述根据所述检测追踪结果对所述目标对象进行人体分割，得到人体分割掩码图，包括：

根据所述第一检测框在所述第一视频帧中的位置信息从所述第一视频帧中截取出第一待分割图像；

对所述第一待分割图像进行人体分割，得到所述第一人体掩码；

基于所述第一人体掩码得到所述第一人体分割掩码图；

根据所述第二检测框在所述第二视频帧中的位置信息从所述第二视频帧中截取出第二待分割图像；

对所述第二待分割图像进行人体分割，得到所述第二人体掩码；

基于所述第二人体掩码得到所述第二人体分割掩码图。

在一种可能的实施方式中，所述获取所述人体分割掩码图中人体掩码的统计量，包括：

将所述第二人体分割掩码图与所述第一人体分割掩码图重叠；

获取所述第二人体掩码与所述第一人体掩码的交集的第一像素点数量；

获取所述第二人体掩码与所述第一人体掩码的并集的第二像素点数量；

采用所述第一像素点数量和所述第二像素点数量计算得到所述第一人体掩码与所述第二人体掩码的交并比，将所述第一人体掩码与所述第二人体掩码的交并比确定为所述人体掩码的统计量。

若所述第一检测框的尺寸小于所述第二检测框的尺寸，则保持所述第一检测框的中心点不动对所述第一检测框进行缩放，得到与所述第二检测框的尺寸一致的第三检测框；

根据所述第三检测框在所述第一视频帧中的位置信息从所述第一人体分割掩码图中截取出第一矩形区域，所述第一矩形区域中包括所述第一人体掩码；

根据所述第二检测框在所述第二视频帧中的位置信息从所述第二人体分割掩码图中截取出第二矩形区域，所述第二矩形区域中包括所述第二人体掩码；

将所述第二矩形区域与所述第一矩形区域重叠；

本申请另一些实施例提供了一种视频分析装置，该装置包括获取单元和处理单元；

获取单元，用于对视频的相邻帧进行目标检测和目标追踪，得到所述相邻帧中目标对象的检测追踪结果；

处理单元，用于根据所述检测追踪结果对所述目标对象进行人体分割，得到人体分割掩码图；

处理单元，还用于获取所述人体分割掩码图中人体掩码的统计量；

处理单元，还用于根据所述人体掩码的统计量确定所述目标对象是否存在懒岗行为。

本申请另一些实施例提供了一种电子设备，该电子设备包括输入设备和输出设备，还包括处理器，适于实现一条或多条指令；以及，计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行以下步骤：

获取所述人体分割掩码图中人体掩码的统计量；

本申请另一些实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行以下步骤：

获取所述人体分割掩码图中人体掩码的统计量；

可以看出，本申请实施例通过对视频的相邻帧进行目标检测和目标追踪，得到相邻帧中目标对象的检测追踪结果；根据检测追踪结果对目标对象进行人体分割，得到人体分割掩码图；根据人体掩码的统计量确定目标对象是否存在懒岗行为。这样在视频分析中，只需采集目标检测模型、目标追踪模型和人体分割模型的训练数据即可，而目标对象是否存在懒岗行为通过视频帧中人体掩码的统计量进行判断，无需采集大量场景数据训练属性识别模型，从而降低了对场景数据的依赖，提升了方案的可用性，进而有利于提升视频分析方法对场景的鲁棒性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用环境的示意图；

图2为本申请实施例提供的一种视频分析方法的流程示意图；

图3为本申请实施例提供的一种人体掩码的可视化的示意图；

图4为本申请实施例提供的另一种视频分析方法的流程示意图；

图5为本申请实施例提供的一种视频分析装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同的对象，而并非用于描述特定的顺序。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

本申请实施例提出一种视频分析方法，可基于图1所示的应用环境实施，如图1所示，该应用环境包括电子设备101和图像采集设备102，其中，电子设备101和图像采集设备102通过网络进行交互。

具体的，图像采集设备102用于对视频采集区域进行视频采集，并将采集的视频进行编码以视频流的形式发送到电子设备101，电子设备101可对对视频流进行解码得到视频帧，对相邻帧进行目标检测、目标追踪和人体分割，并基于人体分割掩码图计算人体掩码的统计量，比如人体掩码的交并比，然后根据连续多次得到的交并比确定目标对象是否存在懒岗状态。并可将最终的分析结果返回到相应终端进行展示。由于本申请提供的视频分析方法无需采集大量场景数据训练属性识别模型，从而降低了对场景数据的依赖，提升了方案的可用性，进而有利于提升视频分析方法或系统对场景的鲁棒性。

其中，电子设备101可以是独立的物理服务器、视频结构化服务器，也可以是服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，进一步还可以是端侧设备，比如具有视频处理能力的嵌入式设备。图像采集设备102可以是安防系统中的摄像头、摄像机、抓拍机等，即本申请实施例可以应用于智慧社区等实际安防场景中，当然，也可以应用于人工智能编程教学、算法开发等场景中。

以下结合相关附图对本申请实施例提供的视频分析方法进行详细阐述。

请参见图2，图2为本申请实施例提供的一种视频分析方法的流程示意图，应用于电子设备，如图2所示，包括步骤201-204：

步骤201：对视频的相邻帧进行目标检测和目标追踪，得到相邻帧中目标对象的检测追踪结果。

本申请实施例中，视频可以是图像采集设备采集的实时视频，也可以是用户通过终端上传的本地视频。其中，目标检测可采用预先训练的人体检测模型实现，比如该人体检测模型可以是常见的两阶段检测网络结构Faster RCNN，也可以是单阶段检测网络结构RetinaNet。其中，目标追踪可以采用卡尔曼滤波等追踪算法。其中，目标对象可因场景而不同，比如在物业管理场景中，目标对象可以是物业工作人员。应理解，视频处理领域中相邻帧通常是指两帧连续的视频帧，比如视频的第1帧和第2帧、第2帧和第3帧。

步骤202：根据检测追踪结果对目标对象进行人体分割，得到人体分割掩码图。

本申请实施例中，相邻帧中包括第一视频帧和第二视频帧，所述第二视频帧为所述第一视频帧的下一帧，人体分割掩码图包括对第一视频帧中的目标对象进行人体分割得到的第一人体分割掩码图和对所述第二视频帧中的所述目标对象进行人体分割得到的第二人体分割掩码图，检测追踪结果中包括对第一视频帧进行目标检测得到的目标对象的第一检测框和对第二视频帧进行目标检测得到的目标对象的第二检测框。

示例性的，根据检测追踪结果对目标对象进行人体分割，得到人体分割掩码图，包括：

根据第一检测框在第一视频帧中的位置信息从第一视频帧中截取出第一待分割图像；

对第一待分割图像进行人体分割，得到第一人体掩码；

基于第一人体掩码得到第一人体分割掩码图；

根据第二检测框在第二视频帧中的位置信息从第二视频帧中截取出第二待分割图像；

对第二待分割图像进行人体分割，得到第二人体掩码；

基于第二人体掩码得到第二人体分割掩码图。

其中，人体分割可采用预先训练的人体分割模型实现，比如该人体分割模型的网络结构可以是Mask RCNN，第一检测框和第二检测框的位置信息可以是检测框的坐标、宽度和高度等信息。对于截取出的第一待分割图像，通过人体分割模型的特征提取网络提取出用于掩码(Mask)预测的特征，该特征与第一待分割图像的大小一致，可以理解为特征提取网络在每个像素位置给出的特征向量，该特征的通道数可以是256，电子设备通过网络将提取出的特征输入类别分类器，以调用类别分类器基于每个像素位置的特征向量预测每个像素位置的类别，比如像素位置是人体则类别为1，非人体则类别为0，为1的部分即表示第一人体掩码，如此将第一视频帧转换为0/1矩阵，便得到第一人体分割掩码图，第一人体分割掩码图可以理解为与第一视频帧大小一致的矩阵。按照上述方式，同样可根据第二待分割图像得到第二人体分割掩码图，对于第一视频帧和第二视频帧中表示目标对象的人体掩码，其可视化后可如图3所示。

该实施方式中，基于第一检测框的位置信息和第二检测框的位置信息分别从第一视频帧和第二视频帧中截取出第一待分割图像和第二待分割图像，然后使用第一待分割图像和第二待分割图像进行人体分割，相较于采用整个视频帧进行人体分割的方案，有利于提升人体分割的效率，节省处理时间。

步骤203：获取人体分割掩码图中人体掩码的统计量。

本申请实施例中，人体掩码的统计量包括所述第一人体分割掩码图中的第一人体掩码与所述第二人体分割掩码图中的第二人体掩码的交并比。示例性的，获取人体分割掩码图中人体掩码的统计量，包括：

将第二人体分割掩码图与第一人体分割掩码图重叠；

获取第二人体掩码与所述第一人体掩码的交集的第一像素点数量；

获取第二人体掩码与第一人体掩码的并集的第二像素点数量；

采用第一像素点数量和第二像素点数量计算得到第一人体掩码与第二人体掩码的交并比，将第一人体掩码与第二人体掩码的交并比确定为人体掩码的统计量。

应理解，掩码的交并比(Intersection over Union，IOU)计算，通常需要掩码的高度和宽度一致，因此可以将第二人体分割掩码图与第一人体分割掩码图重叠，计第一人体掩码为A，第二人体掩码为B，则二者相交的像素点数量为第一像素点数量，用|A∩B|表示，二者的并集的像素点数量为第二像素点数量，用|A∪B|表示，则第一人体掩码与第二人体掩码的交并比J(A,B)采用如下公式计算得到：J(A,B)＝|A∩B|/|A∪B|，其中，J(A,B)的范围为(0,1)。

该实施方式中，通过计算两帧视频中第一人体掩码和第二人体掩码的交并比来确定目标对象是否存在懒岗行为，相较于对目标对象进行属性识别的方案更为精简，无需训练属性识别模型，资源消耗更低。

示例性的，获取人体分割掩码图中人体掩码的统计量，包括：

若第一检测框的尺寸小于第二检测框的尺寸，则保持第一检测框的中心点不动对第一检测框进行缩放，得到与第二检测框的尺寸一致的第三检测框；

根据第三检测框在第一视频中的位置信息从第一人体分割掩码图中截取出第一矩形区域，第一矩形区域中包括第一人体掩码；

根据第二检测框在第二视频帧中的位置信息从第二人体分割掩码图中截取出第二矩形区域，第二矩形区域中包括第二人体掩码；

将第二矩形区域与第一矩形区域重叠；

获取第二人体掩码与第一人体掩码的交集的第一像素点数量；

采用第一像素点数量和第二像素点数量计算得到第一人体掩码与第二人体掩码的交并比，将第一人体掩码与第二人体掩码的交并比确定为人体掩码的统计量；

或者，

若第二检测框的尺寸小于第一检测框的尺寸，则保持第二检测框的中心点不动对第二检测框进行缩放，得到与第一检测框的尺寸一致的第四检测框；

根据第一检测框在第一视频帧中的位置信息从第一人体分割掩码图中截取出第三矩形区域，第三矩形区域中包括第一人体掩码；

根据第四检测框在第二视频帧中的位置信息从第二人体分割掩码图中截取出第四矩形区域，第四矩形区域中包括第二人体掩码；

将第四矩形区域与第三矩形区域重叠；

具体的，由于第一检测框的尺寸和第二检测框的尺寸有可能不一致，则电子设备通过比对第一检测框和第二检测框，确定出较小的一者，若第一检测框小于第二检测框，则将第一检测框的尺寸缩放到与第二检测框一致。对于缩放后得到的第三检测框，基于其在第一视频帧中的位置信息，可从第一视频帧中确定出一个矩形区域，由于第一人体分割掩码图与第一视频帧的大小一致，则可从第一人体分割掩码图中确定出该矩形区域对应的一个区域，即第一矩形区域。基于第二检测框在第二视频帧中的位置信息可从第二视频帧中确定出一个矩形区域，由于第二人体分割掩码图与第二视频帧的大小一致，则可从第二人体分割掩码图中确定出该矩形区域对应的一个区域，即第二矩形区域。如此可以保证第一矩形区域与第二矩形区域的宽度和高度一致，由于第一矩形区域中包括第一人体掩码，第二矩形区域中包括第二人体掩码，则可截取出第一矩形区域和第二矩形区域，然后根据第一像素点数量和第二像素点数量计算第一人体掩码与第二人体掩码的交并比。

若第二检测框小于第一检测框，则同样可将第二检测框的尺寸缩放到与第一检测框一致，对于缩放后得到的第四检测框，根据第四检测框在第二视频帧中的位置信息同样可从第二人体分割掩码图中截取出第四矩形区域，根据第一检测框在第一视频帧中的位置信息同样可从第一人体分割掩码图中截取出第三矩形区域。如此可以保证第三矩形区域与第四矩形区域的宽度和高度一致，由于第三矩形区域中包括第一人体掩码，第四矩形区域中包括第二人体掩码，则可基于截取出的第三矩形区域和第四矩形区域计算第一人体掩码与第二人体掩码的交并比。

该实施方式中，将第一检测框和第二检测框进行比较，然后将较小的检测框缩放到与较大检测框一致，有利于保证截取出的两个矩形区域的宽度和高度一致，以适应两帧视频检测框大小不一致的场景。另外，采用截取出的矩形区域进行第一人体掩码和第二人体掩码的交并比的计算，相较于采用整个视频帧进行交并比计算的方案，能够降低计算资源的开销。

步骤204：根据人体掩码的统计量确定目标对象是否存在懒岗行为。

本申请实施例中，对于连续的至少一组相邻帧，按照步骤201-203，得到至少一个交并比，该至少一组相邻帧与至少一个交并比一一对应，即根据每组相邻帧均得到唯一的交并比，若该至少一个交并比均小于预设交并比阈值，则可以确定目标对象存在懒岗行为。比如，根据连续的n组相邻帧得到的n个交并比均小于差分统计量阈值t，则可确定目标对象存在懒岗行为，其中，n为大于或等于1的整数，n和t可根据经验值设定。其中，至少一组相邻帧包括步骤201中的相邻帧，至少一个交并比包括步骤203中得到的人体掩码的统计量，即第一人体掩码与第二人体掩码的交并比。该实施方式中，基于至少一组相邻帧的至少一个交并比确定目标对象存在懒岗行为，该至少一组相邻帧的数量n可根据实际工作场景进行调整，场景适应性更强。

示例性的，由于目标追踪通常会产生追踪ID(Identity document，唯一编码)，根据检测追踪结果中的追踪ID还可进一步确认出存在懒岗行为的目标对象是谁，比如，在物业管理中，可根据追踪标识确定是哪一位工作人员存在懒岗行为。

示例性的，假设视频包括100帧，则第1帧与第2帧为一组相邻帧，第2帧与第3帧为一组相邻帧，第3帧与第4帧为一组相邻帧……，由此，连续的至少一组相邻帧是指(第1帧，第2帧)、(第2帧，第3帧)、(第3帧，第4帧)……，当然，该连续的至少一组相邻帧可以不是从第1帧开始，以上仅为一种示例。

请参见图4，图4为本申请实施例提供的另一种视频分析方法的流程示意图，如图4所示，包括步骤401-404：

步骤401：对视频的相邻帧进行目标检测和目标追踪，得到相邻帧中目标对象的检测追踪结果；

其中，相邻帧中包括第一视频帧和第二视频帧，所述第二视频帧为所述第一视频帧的下一帧，检测追踪结果中包括对第一视频帧进行目标检测得到的目标对象的第一检测框和对第二视频帧进行目标检测得到的目标对象的第二检测框。

步骤402：根据检测追踪结果对目标对象进行人体分割，得到人体分割掩码图；

其中，人体分割掩码图包括对第一视频帧中的目标对象进行人体分割得到的第一人体分割掩码图和对第二视频帧中的目标对象进行人体分割得到的第二人体分割掩码图。

对第一待分割图像进行人体分割，得到第一人体掩码；

基于第一人体掩码得到第一人体分割掩码图；

对第二待分割图像进行人体分割，得到第二人体掩码；

基于第二人体掩码得到第二人体分割掩码图。

步骤403：获取人体分割掩码图中人体掩码的统计量，人体掩码的统计量包括第一人体分割掩码图中的第一人体掩码与第二人体分割掩码图中的第二人体掩码的交并比；

将第二矩形区域与第一矩形区域重叠；

或者，

将第四矩形区域与第三矩形区域重叠；

步骤404：若根据连续的至少一组相邻帧得到的至少一个交并比均小于预设交并比阈值，则确定目标对象存在懒岗行为。

其中，至少一组相邻帧与至少一个交并比一一对应，至少一组相邻帧包括上述相邻帧，至少一个交并比包括第一人体掩码与第二人体掩码的交并比。

其中，上述步骤401-404的具体实施方式，可参见图2所示实施例中的相关描述。

可以看出，本申请实施例通过对视频的相邻帧进行目标检测和目标追踪，得到相邻帧中目标对象的检测追踪结果；根据检测追踪结果对目标对象进行人体分割，得到人体分割掩码图；获取人体分割掩码图中人体掩码的统计量，人体掩码的统计量包括第一人体分割掩码图中的第一人体掩码与第二人体分割掩码图中的第二人体掩码的交并比；若根据连续的至少一组相邻帧得到的至少一个交并比均小于预设交并比阈值，则确定目标对象存在懒岗行为。这样在视频分析中，只需采集目标检测模型、目标追踪模型和人体分割模型的训练数据即可，而目标对象是否存在懒岗行为通过视频帧中人体掩码的交并比进行判断，无需采集大量场景数据训练属性识别模型，从而降低了对场景数据的依赖，提升了方案的可用性，进而有利于提升视频分析方法对场景的鲁棒性。

基于图2或图4所示方法实施例的描述，本申请实施例还提供一种视频分析装置，请参见图5，图5为本申请实施例提供的一种视频分析装置的结构示意图，如图5所示，该装置包括获取单元501和处理单元502；

获取单元501，用于对视频的相邻帧进行目标检测和目标追踪，得到相邻帧中目标对象的检测追踪结果；

处理单元502，用于根据检测追踪结果对目标对象进行人体分割，得到人体分割掩码图；

处理单元502，还用于获取人体分割掩码图中人体掩码的统计量；

处理单元502，还用于根据人体掩码的统计量确定目标对象是否存在懒岗行为。

可以看出，在本申请实施例提供的视频分析装置中，通过对视频的相邻帧进行目标检测和目标追踪，得到相邻帧中目标对象的检测追踪结果；根据检测追踪结果对目标对象进行人体分割，得到人体分割掩码图；根据人体掩码的统计量确定目标对象是否存在懒岗行为。这样在视频分析中，只需采集目标检测模型、目标追踪模型和人体分割模型的训练数据即可，而目标对象是否存在懒岗行为通过视频帧中人体掩码的统计量进行判断，无需采集大量场景数据训练属性识别模型，从而降低了对场景数据的依赖，提升了方案的可用性，进而有利于提升视频分析方法对场景的鲁棒性。

在一种可能的实施方式中，相邻帧中包括第一视频帧和第二视频帧，第二视频帧为第一视频帧的下一帧，人体分割掩码图包括对第一视频帧中的目标对象进行人体分割得到的第一人体分割掩码图和对第二视频帧中的目标对象进行人体分割得到的第二人体分割掩码图，人体掩码的统计量包括第一人体分割掩码图中的第一人体掩码与第二人体分割掩码图中的第二人体掩码的交并比。

在一种可能的实施方式中，在根据人体分割掩码的统计量确定目标对象是否存在懒岗行为方面，处理单元502具体用于：

若根据连续的至少一组相邻帧得到的至少一个交并比均小于预设交并比阈值，则确定目标对象存在懒岗行为；

在一种可能的实施方式中，检测追踪结果中包括对第一视频帧进行目标检测得到的目标对象的第一检测框和对第二视频帧进行目标检测得到的目标对象的第二检测框；

在根据检测追踪结果对目标对象进行人体分割，得到人体分割掩码图方面，处理单元502具体用于：

对第一待分割图像进行人体分割，得到第一人体掩码；

基于第一人体掩码得到第一人体分割掩码图；

对第二待分割图像进行人体分割，得到第二人体掩码；

基于第二人体掩码得到第二人体分割掩码图。

在一种可能的实施方式中，在获取所述人体分割掩码图中人体掩码的统计量方面，处理单元502具体用于：

将第二人体分割掩码图与第一人体分割掩码图重叠；

采用第一像素点数量和第二像素点数量计算得到第一人体掩码与第二人体掩码的交并比，将第一人体掩码与所述第二人体掩码的交并比确定为人体掩码的统计量。

在一种可能的实施方式中，在获取人体分割掩码图中人体掩码的统计量方面，处理单元502具体用于：

根据第三检测框在第一视频帧中的位置信息从第一人体分割掩码图中截取出第一矩形区域，第一矩形区域中包括第一人体掩码；

将第二矩形区域与第一矩形区域重叠；

根据本申请的一个实施例，图5所示的视频分析装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，视频分析装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图5中所示的视频分析装置设备，以及来实现本申请实施例的视频分析方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例和装置实施例的描述，本申请实施例还提供一种电子设备。请参见图6，该电子设备至少包括处理器601、输入设备602、输出设备603以及计算机存储介质604。其中，电子设备内的处理器601、输入设备602、输出设备603以及计算机存储介质604可通过总线或其他方式连接。

计算机存储介质604可以存储在电子设备的存储器中，所述计算机存储介质604用于存储计算机程序，所述计算机程序包括程序指令，所述处理器601用于执行所述计算机存储介质604存储的程序指令。处理器601(或称CPU(Central Processing Unit，中央处理器))是电子设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

在一个实施例中，本申请实施例提供的电子设备的处理器601可以用于进行一系列视频分析处理：

对视频的相邻帧进行目标检测和目标追踪，得到相邻帧中目标对象的检测追踪结果；

根据检测追踪结果对目标对象进行人体分割，得到人体分割掩码图；

获取人体分割掩码图中人体掩码的统计量；

根据人体掩码的统计量确定目标对象是否存在懒岗行为。

可以看出，在本申请实施例提供的电子设备中，通过对视频的相邻帧进行目标检测和目标追踪，得到相邻帧中目标对象的检测追踪结果；根据检测追踪结果对目标对象进行人体分割，得到人体分割掩码图；根据人体掩码的统计量确定目标对象是否存在懒岗行为。这样在视频分析中，只需采集目标检测模型、目标追踪模型和人体分割模型的训练数据即可，而目标对象是否存在懒岗行为通过视频帧中人体掩码的统计量进行判断，无需采集大量场景数据训练属性识别模型，从而降低了对场景数据的依赖，提升了方案的可用性，进而有利于提升视频分析方法对场景的鲁棒性。

再一个实施例中，相邻帧中包括第一视频帧和第二视频帧，第二视频帧为第一视频帧的下一帧，人体分割掩码图包括对第一视频帧中的目标对象进行人体分割得到的第一人体分割掩码图和对第二视频帧中的目标对象进行人体分割得到的第二人体分割掩码图，人体掩码的统计量包括第一人体分割掩码图中的第一人体掩码与第二人体分割掩码图中的第二人体掩码的交并比。

再一个实施例中，处理器601执行根据人体分割掩码的统计量确定目标对象是否存在懒岗行为，包括：

再一个实施例中，检测追踪结果中包括对第一视频帧进行目标检测得到的目标对象的第一检测框和对第二视频帧进行目标检测得到的目标对象的第二检测框；

处理器601执行根据检测追踪结果对目标对象进行人体分割，得到人体分割掩码图，包括：

对第一待分割图像进行人体分割，得到第一人体掩码；

基于第一人体掩码得到第一人体分割掩码图；

对第二待分割图像进行人体分割，得到第二人体掩码；

基于第二人体掩码得到第二人体分割掩码图。

再一个实施例中，处理器601执行获取所述人体分割掩码图中人体掩码的统计量，包括：

将第二人体分割掩码图与第一人体分割掩码图重叠；

再一个实施例中，处理器601执行获取人体分割掩码图中人体掩码的统计量，包括：

将第二矩形区域与第一矩形区域重叠；

示例性的，电子设备可包括但不仅限于处理器601、输入设备602、输出设备603以及计算机存储介质604，输入设备602可以是键盘、触摸屏等，输出设备603可以是扬声器、显示器、射频发送器等。本领域技术人员可以理解，所述示意图仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

需要说明的是，由于电子设备的处理器601执行计算机程序时实现上述的视频分析方法中的步骤，因此上述视频分析方法的实施例均适用于该电子设备，且均能达到相同或相似的有益效果。

本申请实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是电子设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器601加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器601的计算机存储介质。在一个实施例中，可由处理器601加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关视频分析方法的相应步骤。

示例性的，计算机存储介质的计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，由于计算机存储介质的计算机程序被处理器执行时实现上述的视频分析方法中的步骤，因此上述视频分析方法的所有实施例均适用于该计算机存储介质，且均能达到相同或相似的有益效果。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频分析方法，其特征在于，所述方法包括：

获取所述人体分割掩码图中人体掩码的统计量；

根据连续多组相邻帧得到的所述人体掩码的统计量确定所述目标对象是否存在懒岗行为；

所述相邻帧中包括第一视频帧和第二视频帧，所述第二视频帧为所述第一视频帧的下一帧，所述人体分割掩码图包括对所述第一视频帧中的所述目标对象进行人体分割得到的第一人体分割掩码图和对所述第二视频帧中的所述目标对象进行人体分割得到的第二人体分割掩码图，所述人体掩码的统计量包括所述第一人体分割掩码图中的第一人体掩码与所述第二人体分割掩码图中的第二人体掩码的交并比；

所述检测追踪结果中包括对所述第一视频帧进行目标检测得到的所述目标对象的第一检测框和对所述第二视频帧进行目标检测得到的所述目标对象的第二检测框；

基于所述第一人体掩码得到所述第一人体分割掩码图；

基于所述第二人体掩码得到所述第二人体分割掩码图；

所述获取所述人体分割掩码图中人体掩码的统计量，包括：

将所述第二矩形区域与所述第一矩形区域重叠；

2.根据权利要求1所述的方法，其特征在于，所述根据所述人体分割掩码的统计量确定所述目标对象是否存在懒岗行为，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述获取所述人体分割掩码图中人体掩码的统计量，包括：

4.一种视频分析装置，其特征在于，所述装置包括获取单元和处理单元；

所述获取单元，用于对视频的相邻帧进行目标检测和目标追踪，得到所述相邻帧中目标对象的检测追踪结果；

所述处理单元，用于根据所述检测追踪结果对所述目标对象进行人体分割，得到人体分割掩码图；

所述处理单元，还用于获取所述人体分割掩码图中人体掩码的统计量；

所述处理单元，还用于根据连续多组相邻帧得到的所述人体掩码的统计量确定所述目标对象是否存在懒岗行为；

在根据所述检测追踪结果对所述目标对象进行人体分割，得到人体分割掩码图方面，所述处理单元具体用于：

基于所述第一人体掩码得到所述第一人体分割掩码图；

基于所述第二人体掩码得到所述第二人体分割掩码图；

在获取所述人体分割掩码图中人体掩码的统计量方面，所述处理单元具体用于：

将所述第二矩形区域与所述第一矩形区域重叠；

5.一种电子设备，包括输入设备和输出设备，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-3任一项所述的方法。

6.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-3任一项所述的方法。