CN117690057A

CN117690057A - 一种目标工作状态的识别方法及装置

Info

Publication number: CN117690057A
Application number: CN202311695500.7A
Authority: CN
Inventors: 林鹏威; 郑影; 杨恒; 李志涛; 吕逸良; 王杨俊杰; 杨艳鑫
Original assignee: Zhongdian Jinxin Software Co Ltd
Current assignee: Zhongdian Jinxin Software Co Ltd
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-03-12

Abstract

本申请提供了一种目标工作状态的识别方法及装置，利用目标检测模型在当前帧视频图像中标注出多个目标检测对象；针对每个目标检测对象，利用该目标检测对象的位置状态数据，匹配出多帧历史帧视频图像；利用卡尔曼滤波模型，预测该目标检测对象的预测运动状态；通过确定该目标检测对象在当前帧视频图像中的卡尔曼增益系数，更新该目标检测对象的预测运动状态，确定该目标检测对象的实际运动状态；基于该目标检测对象在每帧视频图像中的实际运动状态，确定该目标检测对象在特定时间范围内是否存在异常工作状态。这样，可通过确定每个目标检测对象的实际运动状态，实现每个目标检测对象的工作状态的准确判断及跟踪，可提高目标检测对象的工作效率。

Description

一种目标工作状态的识别方法及装置

技术领域

本申请涉及目标追踪技术领域，尤其是涉及一种目标工作状态的识别方法及装置。

背景技术

目标检测技术是指依靠于设置的摄像装置对目标检测对象在一定时间区间内所存在的行为进行检测。通过在摄像装置采集到的拍摄图像的基础上标注检测框，记录每个检测框在拍摄图像中的坐标信息，通过判断检测框在特定时间内的移动状态，确定目标检测对象的工作状态。

目前，通常是采取单人单摄像装置的方式对目标检测对象进行检测与跟踪；若拍摄图像中出现了多人的情况时，则无法准确地从拍摄图像中区分出目标检测对象，进而，导致无法准确地对目标检测对象的工作状态进行判断，使得目标检测对象容易在工作中出现睡岗等异常工作状态，导致目标检测对象的工作效率下降。

发明内容

有鉴于此，本申请的目的在于提供一种目标工作状态的识别方法及装置，可以利用采集到的视频流数据，准确地标注出需要进行追踪的多个目标检测对象，并根据每个目标检测对象在每帧视频图像中的实际运动状态，实现每个目标检测对象的工作状态的准确判断及目标检测对象的跟踪，进而，可以间接地提高目标检测对象的工作效率。

本申请实施例提供了一种目标工作状态的识别方法，所述识别方法包括：

对采集到的视频流数据进行分帧处理，获得多帧视频图像；

逐一标注所述多帧视频图像，针对处于标注阶段的当前帧视频图像，利用目标检测模型，对所述当前帧视频图像进行推理标注，在所述当前帧视频图像中标注出多个目标检测对象；

针对于每个目标检测对象，利用该目标检测对象在所述当前帧视频图像中所表征出的位置状态数据，匹配出检测到该目标检测对象的多帧历史帧视频图像；

利用卡尔曼滤波模型，通过分析该目标检测对象在所述多帧历史帧视频图像中的历史运动状态，预测出该目标检测对象在当前帧视频图像中的预测运动状态；

通过确定该目标检测对象在所述当前帧视频图像中的卡尔曼增益系数，更新该目标检测对象的预测运动状态，跟踪确定该目标检测对象在当前帧视频图像中的实际运动状态；

基于该目标检测对象在每帧视频图像中的实际运动状态，确定该目标检测对象在特定时间范围内是否存在异常工作状态。

在一种可能的实施方式中，所述针对处于标注阶段的当前帧视频图像，利用目标检测模型，对所述当前帧视频图像进行推理标注，在所述当前帧视频图像中标注出多个目标检测对象，包括：

针对于当前帧视频图像，利用所述目标检测模型，在所述当前帧视频图像中标注出每个目标检测对象对应的多个候选检测框；

针对于每个目标检测对象，采用非极大抑制算法，滤除该目标检测对象对应的多个候选检测框中的冗余检测框，确定用于标注该目标检测对象的目标检测框；

直至完成每个目标检测对象的冗余检测框的滤除为止，通过每个目标检测对象的目标检测框，在所述当前帧视频图像中标注出多个目标检测对象。

在一种可能的实施方式中，所述针对于当前帧视频图像，利用所述目标检测模型，在所述当前帧视频图像中标注出每个目标检测对象对应的多个候选检测框，包括：

针对于当前帧视频图像，利用所述目标检测模型，对所述当前帧视频图像中的检测对象进行标注，在所述当前帧视频图像中标注出多个候选检测框；

按照每个候选检测框所标注的目标检测对象，对所述多个候选检测框进行分类处理，确定出每个目标检测对象对应的、单独的多个候选检测框。

在一种可能的实施方式中，所述针对于每个目标检测对象，利用该目标检测对象在所述当前帧视频图像中所表征出的位置状态数据，匹配出检测到该目标检测对象的多帧历史帧视频图像，包括：

针对于每个目标检测对象，通过预训练的特征学习模型，提取出该目标检测对象在当前帧视频图像中所表征出的位置状态数据；

通过确定该目标检测对象的位置状态数据与历史帧视频图像中对应的目标检测对象的位置状态数据之间的误差协方差矩阵，匹配出存在该目标检测对象的多帧历史帧视频图像。

在一种可能的实施方式中，所述利用卡尔曼滤波模型，通过分析该目标检测对象在所述多帧历史帧视频图像中的历史运动状态，预测出该目标检测对象在当前帧视频图像中的预测运动状态，包括：

借助于为该目标检测对象所分配的对象标识，在所述多帧历史帧视频图像关联该目标检测对象，确定该目标检测对象在每帧历史帧视频图像中的历史运动速度和历史运动轨迹；

利用卡尔曼滤波模型，基于该目标检测对象在每帧历史帧视频图像中的历史运动速度和历史运动轨迹，预测出该目标检测对象在当前帧视频图像中的预测运动状态。

在一种可能的实施方式中，在跟踪确定该目标检测对象在当前帧视频图像中的实际运动状态之后，所述识别方法还包括：

在当前帧视频图像中，跟踪确定用于标注该目标检测对象的目标检测框的框运动状态，并利用为该目标检测对象所分配的对象标识关联所述目标检测框；其中，所述框运动状态包括框位置和框轨迹。

在一种可能的实施方式中，通过以下步骤确定该目标检测对象在所述当前帧视频图像中的卡尔曼增益系数：

确定在所述当前帧视频图像中用于标注该目标检测对象的目标检测框的测量矩阵、预测状态协方差以及测量噪声协方差矩阵；

基于所述测量矩阵、所述预测状态协方差以及所述测量噪声协方差矩阵，确定所述目标检测框在所述当前帧视频图像中所产生的卡尔曼增益系数。

在一种可能的实施方式中，所述识别方法还包括：

基于所述卡尔曼增益系数和所述测量矩阵，更新所述预测状态协方差。

在一种可能的实施方式中，所述基于该目标检测对象在每帧视频图像中的实际运动状态，确定该目标检测对象在特定时间范围内是否存在异常工作状态，包括：

基于该目标检测对象在每帧视频图像中的实际运动状态，确定该目标检测对象在特定时间范围内的位置偏移量；

若所述位置偏移量小于偏移量阈值的持续时间大于所述特定时间范围，确定该目标检测对象在特定时间范围内处于异常工作状态；

否则，确定该目标检测对象在特定时间范围内处于正常工作状态。

在一种可能的实施方式中，所述识别方法还包括：

拼接利用目标检测框标注出目标检测对象的每帧视频图像，得到标注视频数据。

本申请实施例还提供了一种目标工作状态的识别装置，所述识别装置包括：

分帧模块，用于对采集到的视频流数据进行分帧处理，获得多帧视频图像；

对象标注模块，用于针对于当前帧视频图像，利用目标检测模型，对所述当前帧视频图像进行推理标注，在所述当前帧视频图像中标注出多个目标检测对象；

图像匹配模块，用于针对于每个目标检测对象，利用该目标检测对象在所述当前帧视频图像中所表征出的位置状态数据，匹配出检测到该目标检测对象的多帧历史帧视频图像；

运行状态估计模块，用于利用卡尔曼滤波模型，通过分析该目标检测对象在所述多帧历史帧视频图像中的历史运动状态，预测出该目标检测对象在当前帧视频图像中的预测运动状态；

运行状态调整模块，用于通过确定该目标检测对象在所述当前帧视频图像中的卡尔曼增益系数，更新该目标检测对象的预测运动状态，跟踪确定该目标检测对象在当前帧视频图像中的实际运动状态；

工作状态诊断模块，用于基于该目标检测对象在每帧视频图像中的实际运动状态，确定该目标检测对象在特定时间范围内是否存在异常工作状态。

在一种可能的实施方式中，所述对象标注模块在用于逐一标注所述多帧视频图像，针对处于标注阶段的当前帧视频图像，利用目标检测模型，对所述当前帧视频图像进行推理标注，在所述当前帧视频图像中标注出多个目标检测对象时，所述对象标注模块用于：

在一种可能的实施方式中，所述对象标注模块在用于针对于当前帧视频图像，利用所述目标检测模型，在所述当前帧视频图像中标注出每个目标检测对象对应的多个候选检测框时，所述对象标注模块用于：

在一种可能的实施方式中，所述图像匹配模块在用于针对于每个目标检测对象，利用该目标检测对象在所述当前帧视频图像中所表征出的位置状态数据，匹配出检测到该目标检测对象的多帧历史帧视频图像时，所述图像匹配模块用于：

在一种可能的实施方式中，所述运行状态估计模块在用于利用卡尔曼滤波模型，通过分析该目标检测对象在所述多帧历史帧视频图像中的历史运动状态，预测出该目标检测对象在当前帧视频图像中的预测运动状态时，所述运行状态估计模块用于：

在一种可能的实施方式中，在跟踪确定该目标检测对象在当前帧视频图像中的实际运动状态之后，所述识别装置还包括关联模块，所述关联模块用于：

在一种可能的实施方式中，所述识别装置还包括系数计算模块，所述系数计算模块用于通过以下步骤确定该目标检测对象在所述当前帧视频图像中的卡尔曼增益系数：

在一种可能的实施方式中，所述识别装置还包括方差调整模块，所述方差调整模块用于：

在一种可能的实施方式中，所述工作状态诊断模块在用于基于该目标检测对象在每帧视频图像中的实际运动状态，确定该目标检测对象在特定时间范围内是否存在异常工作状态时，所述工作状态诊断模块用于：

在一种可能的实施方式中，所述识别装置还包括图像拼接模块，所述图像拼接模块用于：

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的目标工作状态的识别方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的目标工作状态的识别方法的步骤。

本申请实施例提供的目标工作状态的识别方法及装置，对采集到的视频流数据进行分帧处理，获得多帧视频图像；逐一标注多帧视频图像，针对处于标注阶段的当前帧视频图像，利用目标检测模型，对当前帧视频图像进行推理标注，在当前帧视频图像中标注出多个目标检测对象；针对于每个目标检测对象，利用该目标检测对象在当前帧视频图像中所表征出的位置状态数据，匹配出检测到该目标检测对象的多帧历史帧视频图像；利用卡尔曼滤波模型，通过分析该目标检测对象在多帧历史帧视频图像中的历史运动状态，预测出该目标检测对象在当前帧视频图像中的预测运动状态；通过确定该目标检测对象在当前帧视频图像中的卡尔曼增益系数，更新该目标检测对象的预测运动状态，确定该目标检测对象在当前帧视频图像中的实际运动状态；基于该目标检测对象在每帧视频图像中的实际运动状态，确定该目标检测对象在特定时间范围内是否存在异常工作状态。这样，可以利用采集到的视频流数据，准确地标注出需要进行追踪的多个目标检测对象，并根据每个目标检测对象在每帧视频图像中的实际运动状态，实现每个目标检测对象的工作状态的准确判断及目标检测对象的跟踪，进而，可以间接地提高目标检测对象的工作效率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种目标工作状态的识别方法的流程图；

图2为本申请实施例所提供的一种检测框过滤过程示意图；

图3为本申请实施例所提供的一种检测框标注过程示意图；

图4为本申请实施例所提供的一种目标工作状态的识别装置的结构示意图；

图5为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

经研究发现，目前，通常是采取单人单摄像装置的方式对目标检测对象进行检测与跟踪；若拍摄图像中出现了多人的情况时，则无法准确地从拍摄图像中区分出目标检测对象，进而，导致无法准确地对目标检测对象的工作状态进行判断，使得目标检测对象容易在工作中出现睡岗等异常工作状态，导致目标检测对象的工作效率下降。

基于此，本申请实施例提供了一种目标工作状态的识别方法，可以利用采集到的视频流数据，准确地标注出需要进行追踪的多个目标检测对象，并根据每个目标检测对象在每帧视频图像中的实际运动状态，实现每个目标检测对象的工作状态的准确判断及目标检测对象的跟踪，进而，可以间接地提高目标检测对象的工作效率。

请参阅图1，图1为本申请实施例所提供的一种目标工作状态的识别方法的流程图。如图1中所示，本申请实施例提供的目标工作状态的识别方法，包括：

S101、对采集到的视频流数据进行分帧处理，获得多帧视频图像。

S102、逐一标注所述多帧视频图像，针对处于标注阶段的当前帧视频图像，利用目标检测模型，对所述当前帧视频图像进行推理标注，在所述当前帧视频图像中标注出多个目标检测对象。

S103、针对于每个目标检测对象，利用该目标检测对象在所述当前帧视频图像中所表征出的位置状态数据，匹配出检测到该目标检测对象的多帧历史帧视频图像。

S104、利用卡尔曼滤波模型，通过分析该目标检测对象在所述多帧历史帧视频图像中的历史运动状态，预测出该目标检测对象在当前帧视频图像中的预测运动状态。

S105、通过确定该目标检测对象在所述当前帧视频图像中的卡尔曼增益系数，更新该目标检测对象的预测运动状态，跟踪确定该目标检测对象在当前帧视频图像中的实际运动状态。

S106、基于该目标检测对象在每帧视频图像中的实际运动状态，确定该目标检测对象在特定时间范围内是否存在异常工作状态。

本申请实施例所提供的一种目标工作状态的识别方法，对采集到的视频流数据进行分帧处理，以获得多帧视频图像；逐一标注多帧视频图像，针对处于标注阶段的当前帧视频图像，利用目标检测模型，在当前帧视频图像中标注出多个目标检测对象；并针对每个目标检测对象，利用该目标检测对象的位置状态数据，匹配出存在该目标检测对象的多帧历史帧视频图像；借助于匹配出的多帧历史帧视频图像，通过对目标检测对象在当前帧视频图像中的标注位置进行预测及校正，以更加准确地在当前帧视频图像中标注出目标检测对象；利用目标检测对象在每张视频图像中的实际运动状态，分析确定该目标检测对象在特定时间范围内是否存在异常工作状态。这样，可以利用采集到的视频流数据，准确地标注出需要进行追踪的多个目标检测对象，并根据每个目标检测对象在每帧视频图像中的实际运动状态，实现每个目标检测对象的工作状态的准确判断，进而，可以间接地提高目标检测对象的工作效率。

这里，在后续的检测过程中，需实现对目标检测对象在特定时间范围内的工作状态的追踪，因此，需采集目标检测对象的视频流数据；并且，考虑到后续过程中需采用逐帧分析的方式，对目标检测对象在每帧视频图像中的位置进行标注及追踪，因此，还需对采集到的视频流数据进行分帧处理。

在步骤S101中，对采集到的视频流数据进行分帧处理，将视频流数据进行逐帧切分，以此，获得多帧视频图像。

其中，视频流数据是由设置在办公区域中的摄像装置采集得到；所述摄像装置用于采集身处办公区域内、处于工作状态下的工作人员的工作情况视频流数据。

在切分出多帧视频图像之后，利用目标检测模型逐一在每帧视频图像中识别出需要检测的多个目标检测对象，并实现对目标检测对象的标注。

在步骤S102中，逐一标注切分得到的多帧视频图像，针对正处于标注阶段的当前帧视频图像，利用预先训练的目标检测模型，对当前帧视频图像中对潜在的目标检测对象进行推理标注，并逐一完成每个目标检测对象的标注，以此，在当前帧视频图像中标注出多个目标检测对象。

这里，目标检测模型在对目标检测对象进行标注时，会在同一目标检测对象上标注出大量的候选检测框，为了能够更加精细的在当前帧视频图像中标注出目标检测对象，还需对目标检测模型初步标注出的候选检测框进行筛选，以滤除标注位置不准确的冗余检测框。

在一种实施方式中，步骤S102包括：

S1021、针对于当前帧视频图像，利用所述目标检测模型，在所述当前帧视频图像中标注出每个目标检测对象对应的多个候选检测框。

该步骤中，将当前帧视频图像输入至预训练的目标检测模型中，以通过目标检测模型对该当前帧视频图像中所出现的、潜在的目标检测对象进行初步标注，以针对于每个目标检测对象，确定出用于标注该目标检测对象的多个候选检测框。

在一种实施方式中，步骤S1021包括：

S10211、针对于当前帧视频图像，利用所述目标检测模型，对所述当前帧视频图像中的检测对象进行标注，在所述当前帧视频图像中标注出多个候选检测框。

S10212、按照每个候选检测框所标注的目标检测对象，对所述多个候选检测框进行分类处理，确定出每个目标检测对象对应的、单独的多个候选检测框。

该步骤中，针对于标注出的多个候选检测框，按照每个候选检测框所标注的目标检测对象，对当前帧视频图像中所标注出多个候选检测框进行聚类处理，以将用于标注同一目标检测对象的候选检测框聚为一类，以此，可在当前帧视频图像中，针对于每个目标检测对象，确定出用于标注该目标检测对象的、单独的多个候选检测框。

这里，为了保证标注的准确性，在对目标检测对象进行初步标注时，尽可能多地标注出了存在目标检测对象的多个候选检测框，但是，对于一个目标检测对象来说，对其进行标注的多个候选检测框中，仅存在一个对其进行精准标注的检测框，除此之外的其他检测框，均可视为冗余检测框，冗余检测框会对目标检测对象的追踪过程造成干扰，进而，无法准确地实现对目标检测对象的追踪，因此，还需进一步的滤除多个识别检测结果中的冗余检测框。

S1022、针对于每个目标检测对象，采用非极大抑制算法，滤除该目标检测对象对应的多个候选检测框中的冗余检测框，确定用于标注该目标检测对象的目标检测框。

该步骤中，针对于每个目标检测对象，采用非极大抑制算法，通过将用于标注该目标检测对象对应的多个候选检测框的置信度，与为该目标检测对象所设置的置信度阈值和交并比阈值进行比较，滤除该目标检测对象对应的多个候选检测框中的冗余检测框，以确定对该目标检测对象进行精准标注的目标检测框。

S1023、直至完成每个目标检测对象的冗余检测框的滤除为止，通过每个目标检测对象的目标检测框，在所述当前帧视频图像中标注出多个目标检测对象。

该步骤中，逐一完成每个目标检测对象的冗余检测框的滤除，直至全部的目标检测对象的冗余检测框均完成滤除为止，利用每个目标检测对象的目标检测框，在当前帧视频图像中实现各个目标检测对象的标注，以此，实现当前帧视频图像中多个目标检测对象的准确标注。

请参阅图2，图2为本申请实施例所提供的一种检测框过滤过程示意图。如图2所示，对当前帧视频图像进行图像预处理；对预处理后的当前帧视频图像中进行特征提取；利用提取出的特征，在当前帧视频图像中标注出多个候选检测框；按照候选检测框所标注的目标检测对象，对多个候选检测框进行分类处理；采用非极大值抑制方法，过滤多个候选检测框中的冗余检测框；输出标注有目标检测框的当前帧视频图像。

这里，为了实现对目标检测对象的追踪，需借助于存在有目标检测对象的历史帧视频图像，以通过分析目标检测对象的历史帧视频图像，准确地确定目标检测对象在当前帧视频图像中的实际运动状态。

在步骤S103中，针对于在当前帧视频图像中标注出的每个目标检测对象，通过对该目标检测对象的位置状态数据进行提取，以利用该目标检测对象在当前帧视频图像中所表征出的位置状态数据，在大量的历史帧视频图像中，匹配出检测到该目标检测对象的多帧历史帧视频图像。

这里，可以借助于预先训练的特征学习模型(例如，卷积神经网络等深度学习模型)，实现目标检测对象在当前帧视频图像中的位置状态数据的提取。

在一种实施方式中，步骤S103包括：

S1031、针对于每个目标检测对象，通过预训练的特征学习模型，提取出该目标检测对象在当前帧视频图像中所表征出的位置状态数据。

该步骤中，将当前帧视频图像输入至预训练的特征学习模型中，针对于当前帧视频图像中所出现的每个目标检测对象，通过预训练的特征学习模型，在当前帧视频图像中进行高维特征嵌入，以提取出该目标检测对象在当前帧视频图像中的所表征出的外观信息，得到该目标检测对象的位置状态数据。

S1032、通过确定该目标检测对象的位置状态数据与历史帧视频图像中对应的目标检测对象的位置状态数据之间的误差协方差矩阵，匹配出存在该目标检测对象的多帧历史帧视频图像。

该步骤中，可通过计算特征数据之间的余弦相似度或欧几里德距离的方式，即，通过计算该目标检测对象的位置状态数据与历史帧视频图像中对应的目标检测对象的位置状态数据之间的余弦相似度或欧几里德距离，确定该目标检测对象的位置状态数据与历史帧视频图像中每个目标检测对象的位置状态数据之间的误差协方差矩阵，进而，在大量的历史帧视频图像中匹配出同样检测到该目标检测对象的多帧历史帧视频图像。

这里，为了避免由于视频帧图像丢失的问题，无法准确地确定出目标检测对象的运动状态，采用卡尔曼滤波的方式，通过预测和校正两个步骤，以准确地实现目标检测对象的运动状态的估计。

在步骤S104中，利用卡尔曼滤波模型，通过分析该目标检测对象在多帧历史帧视频图像中的历史运动状态，对该目标检测对象在当前帧视频图像中的运动状态进行预测，以预测出该目标检测对象在当前帧视频图像中的预测运动状态。

其中，运动状态是指目标检测对象的运动速度和运动轨迹。

在一种实施方式中，步骤S104包括：

S1041、借助于为该目标检测对象所分配的对象标识，在所述多帧历史帧视频图像关联该目标检测对象，确定该目标检测对象在每帧历史帧视频图像中的历史运动速度和历史运动轨迹。

该步骤中，在多帧历史帧视频图像之间，为了能够准确地在每帧历史帧视频图像中定位出该目标检测对象的所在位置，利用为该目标检测对象所分配的对象标识(ID信息)，在每帧历史帧视频图像中关联出该目标检测对象，并确定出该目标检测对象在每帧历史帧视频图像中的历史运动速度和历史运动轨迹。

S1042、利用卡尔曼滤波模型，基于该目标检测对象在每帧历史帧视频图像中的历史运动速度和历史运动轨迹，预测出该目标检测对象在当前帧视频图像中的预测运动状态。

该步骤中，利用卡尔曼滤波模型，利用该目标检测对象在每帧历史帧视频图像中的历史运动速度和历史运动轨迹，对该目标检测对象在当前帧视频图像中应存在的运动状态(即，运动轨迹和运动速度)进行预测，得到该目标检测对象在当前帧视频图像中的预测运动状态(即，预测运动轨迹和预测运动速度)。

为了减小对目标检测状态的运动状态的估计误差，在预测出的该目标检测对象的预测运动状态的基础上，结合于目标检测对象在当前帧视频图像中所产生的卡尔曼增益系数，通过对预测运行状态进行调整，以实现目标检测对象的实际运动状态的准确估计。

在步骤S105中，通过确定该目标检测对象在当前帧视频图像中的卡尔曼增益系数，利用确定出的卡尔曼增益系数更新该目标检测对象的预测运动状态，以确定该目标检测对象在当前帧视频图像中的实际运动状态。

这里，通过更新预测运动状态所获得的实际运动状态，相较于目标检测对象的预测运动状态和在当前帧视频图像中的当前运动状态，更加符合于目标检测对象在空间中的运动趋势；即使是在当前帧视频图像与历史帧视频图像不连续的情况下，仍旧能够准确地确定出目标检测对象的实际运动状态。

在一种实施方式中，在跟踪确定该目标检测对象在当前帧视频图像中的实际运动状态之后，所述识别方法还包括：

在当前帧视频图像中，跟踪确定用于标注该目标检测对象的目标检测框的框运动状态，并利用为该目标检测对象所分配的对象标识关联所述目标检测框。

该步骤中，在从当前帧视频图像中确定出目标检测对象之后，跟踪确定用于标注该目标检测对象的目标检测框的框运动状态，并利用为该目标检测对象所分配的对象标识关联该目标检测框，以可在后续过程中利用对象标识实现目标检测对象的追踪。

其中，所述框运动状态包括框位置和框轨迹。

在一种实施方式中，通过以下步骤确定该目标检测对象在所述当前帧视频图像中的卡尔曼增益系数：

步骤1、确定在所述当前帧视频图像中用于标注该目标检测对象的目标检测框的测量矩阵H、预测状态协方差P’以及测量噪声协方差矩阵R。

步骤2、基于所述测量矩阵H、所述预测状态协方差P’以及所述测量噪声协方差矩阵R，确定所述目标检测框在所述当前帧视频图像中所产生的卡尔曼增益系数。

该步骤中，通过以下公式计算目标检测框在当前帧视频图像中所产生的卡尔曼增益系数K：

K＝P′*H^T*(H*P′*H^T+R)^-1；

其中，K为卡尔曼增益系数。

这里，为了辅助模型更改地估计出目标检测对象的运动状态，提高运动状态预测结果的准确性，在确定出目标检测对象的卡尔曼增益系数之后，还可通过卡尔曼增益系数反向调节预测状态协方差P’。

在一种实施方式中，所述识别方法还包括：基于所述卡尔曼增益系数和所述测量矩阵，更新所述预测状态协方差。

该步骤中，通过以下公式实现预测状态协方差的更新：

P＝(I-K*H)*P′；

其中，P为更新后的预测状态协方差。

这里，若目标检测对象在视频图像中出现暂时性的“消失”的情况，若在后续的视频图像中重新出现，还可借助于为该目标检测对象所分配的对象标识，与历史视频图像进行关联。

若目标检测对象为初次出现在视频图像中，则为该目标检测对象分配初始运动状态。

这里，可以通过预先标注有数据标签的样本视频训练得到卡尔曼滤波模型；具体的，对样本视频进行数据标注，首先，结合样本视频的实际情况，为样本视频分配数据标签；其中，数据标签包括异常标签(即，睡岗标签)和正常标签(即，非睡岗标签)；其次，将已标注的样本视频转换成YOLO格式的文件；最后，将已标注的样本视频划分成训练集、测试集和验证集；以利用训练集、测试集和验证集完成卡尔曼滤波模型的训练。

在步骤S106中，分析该目标检测对象在每帧视频图像中的实际运动状态，通过确定该目标检测对象在特定时间范围内的偏移量，确定该目标检测对象在特定时间范围内是否存在异常工作状态(例如，睡岗状态)。

这里，异常工作状态是指目标检测对象在特定时间内始终处于未出现偏移，此时可认为目标检测对象进入了“睡眠状态”，因此，可认为目标检测对象处于异常工作状态。

在一种实施方式中，步骤S106包括：

S1061、基于该目标检测对象在每帧视频图像中的实际运动状态，确定该目标检测对象在特定时间范围内的位置偏移量。

该步骤中，基于该目标检测对象在每帧视频图像中的实际运动状态(即，实际运动轨迹和实际运行速度)，确定该目标检测对象在特定时间范围内所处位置上的位置偏移量。

S1062、若所述位置偏移量小于偏移量阈值的持续时间大于所述特定时间范围，确定该目标检测对象在特定时间范围内处于异常工作状态。

该步骤中，在目标检测对象存在位置偏移量的情况下，将位置偏移量与预设的偏移量阈值进行比较，若目标检测对象在多种视频图像中所产生的位置偏移量小于偏移量阈值的持续时间大于特定时间范围，则说明该目标检测对象在视频图像对应的特定时间范围(即，多种视频图像的采集时间范围)内未出现位置上的改变，此时，可认为目标检测对象进入了“睡眠状态”，确定该目标检测对象在特定时间范围内处于异常工作状态。

S1063、否则，确定该目标检测对象在特定时间范围内处于正常工作状态。

在一种实施方式中，所述识别方法还包括：若确定该目标检测对象处于异常工作状态，改变视频图像中用于标注该目标检测对象的目标检测框的显示颜色，以通过显示颜色提示监控人员该目标检测对象处于异常工作状态；并向监控人员发送异常提示信息。

在一种实施方式中，所述识别方法还包括：拼接利用目标检测框标注出目标检测对象的每帧视频图像，得到标注视频数据。

请参阅图3，图3为本申请实施例所提供的一种检测框标注过程示意图。如图3所示，步骤301、获取视频流数据；步骤302、从视频流数据中提取出多帧视频图像；步骤303、在当前帧视频图像中标注出目标检测对象，并提取出目标检测对象的位置状态数据；步骤304、关联出现目标检测对象的历史帧视频图像；步骤305、利用卡尔曼滤波模型确定目标检测对象在当前帧视频图像中的实际运动状态；步骤306、若目标检测对象存在视频图像中存在“消失”情况，对目标检测对象进行消失处理或初始运行状态赋值；步骤307、组合标注有目标检测框标的每帧视频图像；步骤308、输出标注有目标检测框标的视频数据。

本申请实施例提供的目标工作状态的识别方法，对采集到的视频流数据进行分帧处理，获得多帧视频图像；逐一标注多帧视频图像，针对处于标注阶段的当前帧视频图像，利用目标检测模型，对当前帧视频图像进行推理标注，在当前帧视频图像中标注出多个目标检测对象；针对于每个目标检测对象，利用该目标检测对象在当前帧视频图像中所表征出的位置状态数据，匹配出检测到该目标检测对象的多帧历史帧视频图像；利用卡尔曼滤波模型，通过分析该目标检测对象在多帧历史帧视频图像中的历史运动状态，预测出该目标检测对象在当前帧视频图像中的预测运动状态；通过确定该目标检测对象在当前帧视频图像中的卡尔曼增益系数，更新该目标检测对象的预测运动状态，确定该目标检测对象在当前帧视频图像中的实际运动状态；基于该目标检测对象在每帧视频图像中的实际运动状态，确定该目标检测对象在特定时间范围内是否存在异常工作状态。这样，可以利用采集到的视频流数据，准确地标注出需要进行追踪的多个目标检测对象，并根据每个目标检测对象在每帧视频图像中的实际运动状态，实现每个目标检测对象的工作状态的准确判断及目标检测对象的跟踪，进而，可以间接地提高目标检测对象的工作效率。

请参阅图4，图4为本申请实施例所提供的一种目标工作状态的识别装置的结构示意图。如图4中所示，所述识别装置400包括：

分帧模块410，用于对采集到的视频流数据进行分帧处理，获得多帧视频图像；

对象标注模块420，用于逐一标注所述多帧视频图像，针对处于标注阶段的当前帧视频图像，利用目标检测模型，对所述当前帧视频图像进行推理标注，在所述当前帧视频图像中标注出多个目标检测对象；

图像匹配模块430，用于针对于每个目标检测对象，利用该目标检测对象在所述当前帧视频图像中所表征出的位置状态数据，匹配出检测到该目标检测对象的多帧历史帧视频图像；

运行状态估计模块440，用于利用卡尔曼滤波模型，通过分析该目标检测对象在所述多帧历史帧视频图像中的历史运动状态，预测出该目标检测对象在当前帧视频图像中的预测运动状态；

运行状态调整模块450，用于通过确定该目标检测对象在所述当前帧视频图像中的卡尔曼增益系数，更新该目标检测对象的预测运动状态，跟踪确定该目标检测对象在当前帧视频图像中的实际运动状态；

工作状态诊断模块460，用于基于该目标检测对象在每帧视频图像中的实际运动状态，确定该目标检测对象在特定时间范围内是否存在异常工作状态。

进一步的，所述对象标注模块420在用于针对处于标注阶段的当前帧视频图像，利用目标检测模型，对所述当前帧视频图像进行推理标注，在所述当前帧视频图像中标注出多个目标检测对象时，所述对象标注模块420用于：

进一步的，所述对象标注模块420在用于针对于当前帧视频图像，利用所述目标检测模型，在所述当前帧视频图像中标注出每个目标检测对象对应的多个候选检测框时，所述对象标注模块420用于：

进一步的，所述图像匹配模块430在用于针对于每个目标检测对象，利用该目标检测对象在所述当前帧视频图像中所表征出的位置状态数据，匹配出检测到该目标检测对象的多帧历史帧视频图像时，所述图像匹配模块430用于：

进一步的，所述运行状态估计模块440在用于利用卡尔曼滤波模型，通过分析该目标检测对象在所述多帧历史帧视频图像中的历史运动状态，预测出该目标检测对象在当前帧视频图像中的预测运动状态时，所述运行状态估计模块440用于：

进一步的，所述识别装置400还包括系数计算模块(图中未示出)，所述系数计算模块用于通过以下步骤确定该目标检测对象在所述当前帧视频图像中的卡尔曼增益系数：

进一步的，在跟踪确定该目标检测对象在当前帧视频图像中的实际运动状态之后，所述识别装置400还包括关联模块(图中未示出)，所述关联模块用于：

进一步的，所述识别装置400还包括方差调整模块(图中未示出)，所述方差调整模块用于：

进一步的，所述识别装置400还包括图像拼接模块(图中未示出)，所述图像拼接模块用于：

本申请实施例提供的目标工作状态的识别装置，对采集到的视频流数据进行分帧处理，获得多帧视频图像；逐一标注多帧视频图像，针对处于标注阶段的当前帧视频图像，利用目标检测模型，对当前帧视频图像进行推理标注，在当前帧视频图像中标注出多个目标检测对象；针对于每个目标检测对象，利用该目标检测对象在当前帧视频图像中所表征出的位置状态数据，匹配出检测到该目标检测对象的多帧历史帧视频图像；利用卡尔曼滤波模型，通过分析该目标检测对象在多帧历史帧视频图像中的历史运动状态，预测出该目标检测对象在当前帧视频图像中的预测运动状态；通过确定该目标检测对象在当前帧视频图像中的卡尔曼增益系数，更新该目标检测对象的预测运动状态，确定该目标检测对象在当前帧视频图像中的实际运动状态；基于该目标检测对象在每帧视频图像中的实际运动状态，确定该目标检测对象在特定时间范围内是否存在异常工作状态。这样，可以利用采集到的视频流数据，准确地标注出需要进行追踪的多个目标检测对象，并根据每个目标检测对象在每帧视频图像中的实际运动状态，实现每个目标检测对象的工作状态的准确判断及目标检测对象的跟踪，进而，可以间接地提高目标检测对象的工作效率。

请参阅图5，图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示，所述电子设备500包括处理器510、存储器520和总线530。

所述存储器520存储有所述处理器510可执行的机器可读指令，当电子设备500运行时，所述处理器510与所述存储器520之间通过总线530通信，所述机器可读指令被所述处理器510执行时，可以执行如上述图1所示方法实施例中的目标工作状态的识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的目标工作状态的识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式表征出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标工作状态的识别方法，其特征在于，所述识别方法包括：

对采集到的视频流数据进行分帧处理，获得多帧视频图像；

2.根据权利要求1所述的识别方法，其特征在于，所述针对处于标注阶段的当前帧视频图像，利用目标检测模型，对所述当前帧视频图像进行推理标注，在所述当前帧视频图像中标注出多个目标检测对象，包括：

3.根据权利要求2所述的识别方法，其特征在于，所述针对于当前帧视频图像，利用所述目标检测模型，在所述当前帧视频图像中标注出每个目标检测对象对应的多个候选检测框，包括：

4.根据权利要求1所述的识别方法，其特征在于，所述针对于每个目标检测对象，利用该目标检测对象在所述当前帧视频图像中所表征出的位置状态数据，匹配出检测到该目标检测对象的多帧历史帧视频图像，包括：

5.根据权利要求1所述的识别方法，其特征在于，所述利用卡尔曼滤波模型，通过分析该目标检测对象在所述多帧历史帧视频图像中的历史运动状态，预测出该目标检测对象在当前帧视频图像中的预测运动状态，包括：

6.根据权利要求1所述的识别方法，其特征在于，在跟踪确定该目标检测对象在当前帧视频图像中的实际运动状态之后，所述识别方法还包括：

7.根据权利要求1所述的识别方法，其特征在于，通过以下步骤确定该目标检测对象在所述当前帧视频图像中的卡尔曼增益系数：

8.根据权利要求1所述的识别方法，其特征在于，所述基于该目标检测对象在每帧视频图像中的实际运动状态，确定该目标检测对象在特定时间范围内是否存在异常工作状态，包括：

9.根据权利要求1所述的识别方法，其特征在于，所述识别方法还包括：

10.一种目标工作状态的识别装置，其特征在于，所述识别装置包括：

对象标注模块，用于逐一标注所述多帧视频图像，针对处于标注阶段的当前帧视频图像，利用目标检测模型，对所述当前帧视频图像进行推理标注，在所述当前帧视频图像中标注出多个目标检测对象；