CN112561957B

CN112561957B - 一种目标对象的状态跟踪方法及装置

Info

Publication number: CN112561957B
Application number: CN202011376048.4A
Authority: CN
Inventors: 杨仁凤
Original assignee: Ruijie Networks Co Ltd
Current assignee: Ruijie Networks Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2023-05-16
Anticipated expiration: 2040-11-30
Also published as: CN112561957A

Abstract

本公开涉及图像处理技术领域，尤其涉及一种目标对象的状态跟踪方法及装置，解决对于不规范状态的监管耗费成本过高，且无法对不规范状态进行有效跟踪的问题，方法为：采用训练完成的图像识别模型，识别一个处理批次中首帧图像包括的各个目标对象的位置信息和状态信息，再生成所述各个目标对象在对应的状态信息下的运动轨迹，再将不同处理批次中图像重叠度达到设定阈值的目标对象的运动轨迹进行合并，能够在对图像中存在的目标对象进行识别的同时，确定各个目标对象的状态，并跟踪各个目标对象的运动轨迹，避免现有技术中存在的借助于人力监管的弊端，实现对各个目标对象的状态的持续跟踪，从根本上杜绝了人工监管和抽检的缺陷。

Description

一种目标对象的状态跟踪方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种目标对象的状态跟踪方法及装置。

背景技术

为了实现对不同场景下，目标对象的状态的跟踪，进而实现对目标对象行为的监督和管理，通常需要专门的监管人员，对不同场景下采集的视频图像进行查看，依赖于人力发现存在的不规范状态。

但是，人工监管的操作，需要极大地耗费人力成本，而且人工抽查采集的视频图像时，存在极大的随机性，极容易漏看存在不规范状态的内容，使得目标对象不规范的行为无法被察觉，而且，无法实现对不规范行为的持续跟踪，再者，为保证监控视频的成功上报需要投入大量的系统建设成本，且视频拍摄需要部署专用的图像采集设备，增加了对目标对象的状态跟踪成本。

例如，在监督食品卫生安全的场景下，相关监管部门通常对各餐饮单位后厨进行远程集中监控，以监督相关作业人员进行规范作业。具体的，通过在食品生产的不同区域和环境特点，部署专用摄像机，拍摄后厨操作的各后厨人员的作业情况、后厨物品的摆放状态，以及后厨环境，进而上报拍摄的监控视频至监管设备，使得监管人员能够查看后厨的实时画面，并支持监管人员的随机抽查以及监管截图的操作，一旦发现存在违法违规操作时可以截图并记录时间信息存档。这样，无法避免的会造成对于部分目标对象的状态信息的漏查看，且无法跟踪各个目标对象的运动轨迹，极大限制了对于采集的视频流中存在的各个目标对象的有效跟踪监测。

发明内容

本发明实施例提供一种存在违规检测的对象的检测方法及装置，用以解决现有技术中存在对于不规范状态的监管耗费成本过高，且无法对不规范状态进行有效跟踪的问题。

本发明实施例提供的具体技术方案如下：

第一方面，提出一种目标对象的状态跟踪方法，包括：

获取采集的视频流，并按照采集时间顺序，依次将指定帧数的图像，作为一个处理批次，以及针对各个处理批次内的图像，分别执行以下操作：

对首帧图像进行对象识别和状态识别处理，获得所述首帧图像中包括的各个目标对象的位置信息和状态信息；

针对除所述首帧图像以外的任一图像，根据该图像的前一帧图像中各个目标对象的位置信息，跟踪所述各个目标对象在所述图像中的位置信息；并根据所述各个目标对象在各帧图像中的位置信息，生成所述各个目标对象在对应的状态信息下的运动轨迹；

依次获取相邻两个处理批次内，在先处理批次的末帧图像中各个第一目标对象的位置信息，以及获取在后处理批次的首帧图像中各个第二目标对象的位置信息，针对所述各个第一目标对象中的任意一个第一目标对象，计算该第一目标对象与所述各个第二目标对象之间的图像重叠度，并将所述第一目标对象的运动轨迹，与图像重叠度达到设定阈值的第二目标对象的运动轨迹进行合并。

可选的，所述按照采集时间顺序，依次将指定帧数的图像，作为一个处理批次，包括：

按照所述视频流中各帧图像的采集时间顺序，依次获取各帧图像，并删除所述各帧图像帧中图像质量满足设定条件的图像帧，以及按照所述采集时间顺序，将指定帧数的图像作为一个处理批次的图像。

可选的，删除所述各帧图像帧中图像质量满足设定条件的图像帧，包括：

将获取的图像转换为对应的灰度图，并计算所述图像中各像素的灰度均值，确定所述灰度均值高于亮度阈值时，删除所述图像；或者，

将获取的图像转换为对应的灰度值，并计算所述图像中各像素的灰度均值，确定所述灰度均值低于暗度阈值时，删除所述图像；或者，

计算获取的图像的雪花噪声率，确定所述雪花噪声率高于设定门限值，删除所述图像；或者，

将获取的图像划分为指定个数的区域，计算所述图像中各个区域的平均对比率，作为所述图像的模糊率，确定所述模糊率高于预设值时，删除所述图像。

可选的，所述对首帧图像进行对象识别和状态识别处理，获得所述首帧图像中包括的各个目标对象的位置信息和状态信息，包括：

确定首帧图像中的待识别区域，并从所述首帧图像中裁剪出所述待识别区域，以及对所述待识别区域进行对象识别和状态识别处理，获得所述待识别区域中包括的各个目标对象的位置信息和状态信息。

可选的，所述计算该第一目标对象与所述各个第二目标对象之间的图像重叠度之后，进一步包括：

确定不存在与该第一目标对象的图像重叠度达到设定阈值的第二目标对象时，确定该第一目标对象的运动轨迹持续时长，并在确定所述运动轨迹持续时长低于设定时间阈值时，将该第一目标对象以及该第一目标对象的运动轨迹删除。

可选的，所述将所述第一目标对象的运动轨迹，与图像重叠度达到设定阈值的第二目标对象的运动轨迹进行合并，包括：

确定与所述第一目标对象的图像重叠度达到设定阈值的第二目标对象，并在确定所述第一目标对象的状态信息与所述第二目标对象的状态信息相同时，将所述第一目标对象的运动轨迹，与所述第二目标对象的运动轨迹进行合并。

可选的，采用完成训练的图像识别模型对首帧图像进行对象识别和状态识别处理时，基于将CSPDarknet53主干网替换成剪枝后的Mobilenet网络的Yolo4算法搭建所述图像处理模型。

第二方面，提出一种目标对象的状态跟踪装置，包括：

处理单元，获取采集的视频流，并按照采集时间顺序，依次将指定帧数的图像，作为一个处理批次，以及针对各个处理批次内的图像，分别执行以下操作：

针对除所述首帧图像以外的任一图像，根据该图像的前一帧图像中各个目标对象的位置信息，跟踪所述各个目标对象在所述图像中的位置信息；并根据所述各个目标对象在各帧图像中的位置信息，生成所述各个目标对

象在对应的状态信息下的运动轨迹；

合并单元，依次获取相邻两个处理批次内，在先处理批次的末帧图像中各个第一目标对象的位置信息，以及获取在后处理批次的首帧图像中各个第二目标对象的位置信息，针对所述各个第一目标对象中的任意一个第一目标对象，计算该第一目标对象与所述各个第二目标对象之间的图像重叠度，并将所述第一目标对象的运动轨迹，与图像重叠度达到设定阈值的第二目标对象的运动轨迹进行合并。

可选的，所述按照采集时间顺序，依次将指定帧数的图像，作为一个处理批次时，所述处理单元具体用于：

可选的，所述删除所述各帧图像帧中图像质量满足设定条件的图像帧时，所述处理单元具体用于：

可选的，所述对首帧图像进行对象识别和状态识别处理，获得所述首帧图像中包括的各个目标对象的位置信息和状态信息时，所述处理单元具体用于：

可选的，所述计算该第一目标对象与所述各个第二目标对象之间的图像重叠度之后，所述合并单元还用于：

可选的，所述将所述第一目标对象的运动轨迹，与图像重叠度达到设定阈值的第二目标对象的运动轨迹进行合并时，所述合并单元具体用于：

可选的，所述处理单元还用于：采用完成训练的图像识别模型对首帧图像进行对象识别和状态识别处理时，基于将CSPDarknet53主干网替换成剪枝后的Mobilenet网络的Yolo4算法搭建所述图像处理模型。

第三方面，提出一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于读取并执行存储器中存储的可执行指令，以实现上述任一项所述的目标对象的状态跟踪方法。

第四方面，提出一种计算机可读存储介质，当所述存储介质中的指令由电子设备执行时，使得所述电子设备能够执行上述任一项所述的目标对象的状态跟踪方法。

本发明有益效果如下：

本公开实施例中，获取采集的视频流，并按照采集时间顺序，依次将指定帧数的图像，作为一个处理批次，以及针对各个处理批次内的图像，分别执行以下操作：对首帧图像进行对象识别和状态识别处理，获得所述首帧图像中包括的各个目标对象的位置信息和状态信息；针对除所述首帧图像以外的任一图像，根据该图像的前一帧图像中各个目标对象的位置信息，跟踪所述各个目标对象在所述图像中的位置信息；并根据所述各个目标对象在各帧图像中的位置信息，生成所述各个目标对象在对应的状态信息下的运动轨迹，然后，依次获取相邻两个处理批次内，在先处理批次的末帧图像中各个第一目标对象的位置信息，以及获取在后处理批次的首帧图像中各个第二目标对象的位置信息，针对所述各个第一目标对象中的任意一个第一目标对象，计算该第一目标对象与所述各个第二目标对象之间的图像重叠度，并将所述第一目标对象的运动轨迹，与图像重叠度达到设定阈值的第二目标对象的运动轨迹进行合并。这样，能够在对图像中存在的目标对象进行识别的同时，确定各个目标对象的状态，并跟踪各个目标对象的运动轨迹，实现对采集的视频流中，各个目标对象的状态跟踪，避免现有技术中存在的借助于人力监管的弊端，实现对各个目标对象的状态的持续跟踪，从根本上杜绝了人工监管和抽检的缺陷。

附图说明

图1为本公开实施例中目标对象的状态跟踪的流程示意图；

图2为本公开实施例中后厨监管场景下对目标对象的识别和跟踪示意图；

图3为本公开实施例中对一个处理批次内的部分帧图像的处理示意图；

图4为本公开实施例中呈现给用户的操作界面示意图；

图5为本公开实施例中呈现不同来源的视频流的处理结果示意图；

图6为本公开实施例中获取远端的视频流并呈现违规目标对象示意图；

图7为本公开实施例中目标对象的状态跟踪装置的逻辑结构示意图；

图8为本公开实施例中目标对象的状态跟踪装置的实体结构示意图。

具体实施方式

为了使本公开的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本公开进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本公开，并不用于限定本公开。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

为了解决现有技术中存在的对于不规范状态的监管耗费成本过高，且无法对不规范状态进行有效跟踪的问题，本公开提出获取采集的视频流，并按照采集时间顺序，依次将指定帧数的图像，作为一个处理批次，以及针对各个处理批次内的图像，分别执行以下操作：对首帧图像进行对象识别和状态识别处理，获得所述首帧图像中包括的各个目标对象的位置信息和状态信息，再针对除所述首帧图像以外的任一图像，根据该图像的前一帧图像中各个目标对象的位置信息，跟踪所述各个目标对象在所述图像中的位置信息；并根据所述各个目标对象在各帧图像中的位置信息，生成所述各个目标对象在对应的状态信息下的运动轨迹，然后，依次获取相邻两个处理批次内，在先处理批次的末帧图像中各个第一目标对象的位置信息，以及获取在后处理批次的首帧图像中各个第二目标对象的位置信息，针对所述各个第一目标对象中的任意一个第一目标对象，计算该第一目标对象与所述各个第二目标对象之间的图像重叠度，并将所述第一目标对象的运动轨迹，与图像重叠度达到设定阈值的第二目标对象的运动轨迹进行合并。

这样，能够在对图像中存在的目标对象进行识别的同时，确定各个目标对象的状态，并跟踪各个目标对象的运动轨迹，实现对采集的视频流中，各个目标对象的状态跟踪，避免现有技术中存在的借助于人力监管的弊端，实现对各个目标对象的状态的持续跟踪，从根本上杜绝了人工监管和抽检的缺陷。

本公开的一些实施例中，可以应用于餐饮卫生监控的场景下，对后厨人员的行为进行监控，选择性的将后厨人员和后厨环境下需要跟踪识别的对象，诸如，人、垃圾桶等等，作为目标对象，跟踪拍摄的视频流中各个目标对象的状态，确定各个目标对象的运动轨迹，使得能够对违规状态和合规状态进行同时跟踪，实现对后厨卫生的有效监控，且降低管理成本。而且，无需使用专有的拍摄设备，使得处理设备能够接入现有的采集系统中，本地即可实现状态检测和跟踪。

本公开的另一些实施例中，可以应用于医疗卫生，以及其他需要监督监管的场景下，根据拍摄的视频流，识别视频流中存在的各个需要跟踪的目标对象，并对各个目标对象的状态进行跟踪。

需要说明的是，执行目标对象的状态跟踪的处理设备，在一些实施例中，可以与拍摄设备部署在一起，实时接收拍摄设备采集的视频流并进行识别处理，在一些实施例中，可以接收用户远程上报的视频流，按照实际的处理需要，对视频流中的目标对象进行识别和跟踪，在另一些实施例中，可以暂存获取的视频流，并以设定的时长为周期，周期性的对拍摄设备采集的视频流进行处理。

本公开实施例中，对于处理设备的算力要求不高，故处理设备可以采用诸如(Advanced RISC Machines，ARM)处理器，或者，网络处理器(Neural-network ProcessingUnit，NPU)进行处理，极大降低了处理成本。

下面结合附图，对本公开实施例优选的实施方式进行进一步详细说明：

下面结合附图1，对本公开实施例中，目标对象的状态跟踪流程进行进一步详细说明。

步骤101：获取采集的视频流，并按照采集时间顺序，依次将指定帧数的图像，作为一个处理批次。

处理设备接收拍摄设备采集的视频流，并按照采集时间顺序，依次获取图像帧，将获取的指定帧数的图像作为一个处理批次，具体的，所述处理设备按照所述视频流中各帧图像的采集时间顺序，依次获取各帧图像，并删除所述各帧图像帧中图像质量满足设定条件的图像帧，以及按照所述采集时间顺序，将指定帧数的图像作为一个处理批次的图像，其中，所述采集时间为图像被拍摄的时间，指定帧数的具体取值根据实际情况而定，本公开在此不做具体限定，所述处理设备接收视频流的方式可以是实时接收并处理，也可以是周期性的接收并处理。

本公开实施例中，删除所述各帧图像帧中图像质量满足设定条件的图像帧时，所述设定条件至少包括以下任意一种或组合：

A、将获取的图像转换为对应的灰度图，并计算所述图像中各像素的灰度均值，确定所述灰度均值高于亮度阈值时，删除所述图像。

具体的，处理设备将图像转换成对应的灰度图，确定各个像素点的灰度值，并计算所述图像中各像素点的灰度均值，使得根据灰度均值确定图像的亮度，并将灰度均值高于亮度阈值的图像删除，也就是说，为保证对图像的正常识别，删除过亮的图像。

B、将获取的图像转换为对应的灰度值，并计算所述图像中各像素的灰度均值，确定所述灰度均值低于暗度阈值时，删除所述图像。

具体的，处理设备将图像转换成对应的灰度图，确定各个像素点的灰度值，并计算所述图像中各像素点的灰度均值，使得根据灰度均值确定图像的亮度，并将灰度均值低于暗度阈值的图像删除，也就是说，根据设定阈值限定图像的亮度，使得为保证对图像的正常识别，删除过暗的图像。

这样，保留灰度均值处于亮度阈值和暗度阈值之间的图像，使得保留的图像明暗度满足要求，保证对图像的有效识别处理。

C、计算获取的图像的雪花噪声率，确定所述雪花噪声率高于设定门限值，删除所述图像。

需要说明的是，雪花噪声即椒盐噪声，以前黑白电视常见的噪声现象。处理设备对雪花噪声的处理原理为，首先，准备0°，45°，90°，135°4个方向的卷积模板。再用图像先和四个模板做卷积，用四个卷积绝对值最小值Min来检测噪声点。然后，求灰度图gray与其中值滤波图median。再判断噪声点：fabs(median-gray)>10&&min>0.1。最后，计算噪声点占整幅图像的比例即为雪花噪声率。

进一步的，处理设备基于计算得到的雪花噪声率对图像进行筛选，当确定图像的雪花噪声率高于设定门限值时，直接将该图像删除。

D、将获取的图像划分为指定个数的区域，计算所述图像中各个区域的平均对比率，作为所述图像的模糊率，确定所述模糊率高于预设值时，删除所述图像。

图像的模糊一般是拍摄设备失焦造成的，处理设备针对图像模糊率的确定方式如下：首先，把图像分割成N*M的区域。然后，计算每个区域的对比度：(max-min)/max，其中，max为该区域中灰度值最大的像素点的灰度值，min为该区域中灰度值最小的像素点的灰度值，再计算总的平均对比度即为模糊率。

进一步的，在确定图像的模糊率高于预设值时，则直接将所述图像删除。

例如，以实时接收视频流并处理为例，处理设备安装在拍摄设备上，实时接收拍摄设备采集的视频流，假设指定帧数为K，则处理设备逐一读取视频流中的图像帧，并判定图像质量是否符合要求，所述质量的衡量指标为亮度、暗度、雪花率，以及模糊率等等，进一步的，依次处理图像，按照图像的采集时间顺序，直至获取图像质量符合要求的K张图像，作为一个处理批次的图像。

步骤102：针对任意一个处理批次的图像，对首帧图像进行对象识别和状态识别处理，获得所述首帧图像中包括的各个目标对象的位置信息和状态信息。

处理设备获取视频流之后，针对任意一个处理批次的图像，对该处理批次的首帧图像进行对象识别和状态识别处理，进而得到图像中的目标对象，以及目标对象的位置信息和状态信息，在一些实施例中，根据实际的处理需要，还可以识别出目标对象的大小信息，其中，进行对象识别和状态识别的方式可以应用现有的图像识别方式进行处理，或者，可以采用训练完成的图像识别模型对首帧图像进行对象识别和状态识别处理，输出所述首帧图像中包括的各个目标对象的位置信息和状态信息，其中，所述图像识别模型是基于Yolo4网络构建的，其中，所述状态识别具体是指对各个对象的状态特征的识别，如，已对后厨拍摄的视频流进行处理为例，按照实际的配置需要，当意图识别人戴口罩和戴帽子的情况时，状态识别是对图像中的各个人的戴帽子和戴口罩的特征的识别。

需要说明的是，在对目标对象和目标对象的状态进行识别的过程中，可以采用现有的其他能够进行目标检测的方式，包括但不限于基于Yolo_v3等快速轻量级算法进行操作，本公开在此不再赘述。

本公开实施例中，为保证对图像的准确识别，处理设备可以确定首帧图像中的待识别区域，并从所述首帧图像中裁剪出所述待识别区域，以及对所述待识别区域进行对象识别和状态识别处理，获得所述待识别区域中包括的各个目标对象的位置信息和状态信息。

需要说明的是，当采用图像识别模型对首帧图像进行处理时，为保证适应于图像识别模型的处理需要，可以针对性的对待识别区域的大小进行调整，也就是将裁剪后的各个待识别区域的尺寸，变换为图像识别模型可处理的尺寸。

这样，考虑到图像采集设备拍摄的区域内，有些部分必然与待识别的内容无关，也就是图像中的背景部分，故为了避免背景部分的干扰，所述处理设备可以裁剪出图像中的待识别区域，实现对图像的针对性处理。

例如，假设继续以对后厨拍摄的视频流进行处理为例，处理设备对获取的感兴趣区域(region of interest，ROI)裁剪，对每帧图片视频帧进行ROI矩形区域进行裁图，过滤掉一些后厨其他设备的背景干扰。若设置的图像识别模型处理的图像大小为416*416，且裁剪后的ROI图像大小超过416*416，那么将裁剪后的ROI图像进行缩放到416*416，并利用已经训练好的图像识别模型yolo4-mobilenet进行识别和检测。

需要说明的是，本公开实施例中，当采用图像识别模型对首帧图像进行处理时，在采用图像识别模型进行识别处理之前，首先需要对图像识别模型进行训练，具体训练过程如下：

S1：获取预设的训练样本集合，其中，所述训练样本集合中的每个训练样本包含一帧原始图像，以及对所述原始图像中存在的对象及对象的状态信息，进行标注后得到的标注信息。

具体的，一些实施例中处理设备训练图像识别模型后，使用图像识别模型进行图像的识别，在另一些实施例中，处理设备直接获取其他诸如服务器的设备训练完成的图像识别模型，并采用获得的图像识别模型进行图像的处理操作。下面以处理设备训练图像识别模型为例进行说明。

处理设备建立用于训练图像识别模型的训练样本集合，其中，所述处理设备获取不同场景下的原始图像，并对各个原始图像进行标注，标注出原始图像中存在的目标对象，以及各个目标对象的状态信息，进而将原始图像和标注后得到的标注信息，作为一个训练样本。

需要说明的是，本公开实施例中，可以针对实际的处理需要，增加识别的目标对象种类，增加可识别目标对象的状态，以及增加对目标对象大小的识别，在确定有增加识别内容的需要时，重新针对识别的内容对图形识别模型进行训练。

假设以对后厨拍摄的视频流进行处理为例，识别的目标对象包括垃圾桶和人，希望识别出的状态包括：垃圾桶盖盖，垃圾桶未盖盖，人戴口罩、人未戴口罩、人戴帽子、人未戴帽子、人戴帽子戴口罩、人戴帽子未戴口罩、人未戴帽子戴口罩，以及人未戴帽子未戴口罩。则在生成训练样本时，应获取后厨拍摄的场景下得到的图像，作为原始图像，进而对原始图像中存在的上述目标对象的位置和大小，以及目标对象的状态进行标注，进而基于原始图像和标注后的结果生成训练样本。

S2：读取所述训练样本集合中的训练样本，并执行以下操作，直至图像识别模型满足预设的收敛条件。

S21：采用预设的图像识别模型，对一个训练样本中包含的原始图像进行对象识别处理，输出各个目标对象的位置信息和状态信息，其中，所述图像识别模型是基于Yolo4网络搭建的。

采用完成训练的图像识别模型对首帧图像进行对象识别和状态识别处理时，基于将主干特征提取网络CSPDarknet53替换成剪枝后的Mobilenet网络的Yolo4算法搭建所述图像处理模型。

具体的，将原始Yolo4的主干特征提取网络CSPDarknet53替换成剪枝后的Mobilenet网络，DarkNet53网络是由53层神经网络构成，将Darknet53替换为MobileNet网络，使得网络层由53层降至21层，网络参数大小也大幅下降，网络模型参数下降了50％以上，使得检测速度到极大提升，无需很强的算力即可支撑图像识别模型的运行。

处理设备基于训练样本集合中的各个训练样本，对图像识别模型进行训练，以对一个训练样本的处理为例，将训练样本中包括的原始图像输入图像识别模型，依次通过进行非极大值抑制(Non-Maximum Suppression，NMS)处理，并进行阈值的过滤，使得能够得到所有目标对象的位置信息，以及各个目标对象的状态信息。

S22：采用预设的损失函数，基于所述图像识别模型输出的各个目标对象的位置信息和状态信息，与所述训练样本中包含标注信息之间的信息差异，计算所述图像识别模型的损失值，并基于所述损失值调整所述图像识别模型中，生成位置信息和状态信息的网络参数。

具体的，处理设备获取图像识别模型输出的目标对象的位置信息和目标对象的状态信息后，采用预设的损失函数，基于所述各个目标对象的位置信息，与标注的位置信息之间的差异，以及各个目标对象的状态信息与标注的状态信息之间的差异，计算所述图像识别模型的损失值，并基于所述损失值调整所述图像识别模型中生成位置信息和状态信息的网络参数。

需要说明的是，本公开实施例中，损失函数包括有三类，分别为表征对象分类的损采函数：二值交叉熵损失函数，表征对象位置的损失函数：基于yolov4提出的ciou损失函数，表征置信度的损失函数：交叉熵损失函数，其中，所述置信度表征正确识别出各个目标对象的可能性。

进一步的，所述处理器在确定图像识别模型的训练满足预设的收敛条件时，输出训练完成的图像识别模型，其中，所述收敛条件包括但不限于，图像识别模型的损失值持续低于损失值阈值的次数，达到设定的损失值门限值；或者，图像识别模型的训练次数，达到设定的训练次数阈值。

进一步的，所述处理设备基于训练完成的图像识别模型，对当前处理批次的图像中的首帧图像进行图像识别处理，识别出首帧图像中包括的各个目标对像的位置信息和状态信息。

例如，继续以对拍摄的后厨视频的处理为例，将拍摄的后厨视频输入图像识别模型进行处理后，得到表格1所示意的识别结果，Box表征根据识别过程中的框选所确定的目标对象的位置信息和大小，Label对应目标对象的状态信息，在将人和垃圾桶作为目标对象，识别人是否戴帽子和口罩，以及垃圾桶是否盖盖的情况下，状态信息包括：戴帽子戴口罩、不戴帽子戴口罩、戴帽子不带口罩、不戴帽子不带口罩、垃圾桶盖盖、垃圾桶未盖盖，Prob表征各个状态信息对应的概率值，表征该目标对象的实际状态信息为该状态信息的可能性。

表1

这样，借助于图像识别模型，能够实现对首帧图像中存在的目标对象的识别，确定图像中包括的各个目标对象，便于后续对各个目标对象的状态跟踪。

步骤103：针对当前处理批次内，除所述首帧图像以外的任一图像，根据该图像的前一帧图像中各个目标对象的位置信息，跟踪所述各个目标对象在所述图像中的位置信息；并根据所述各个目标对象在各帧图像中的位置信息，生成所述各个目标对象在对应的状态信息下的运动轨迹。

处理设备获取当前处理批次的首帧图像中，包括的各个目标对象和目标对象的状态信息后，针对当前处理批次的图像，除首帧图像以外的任意一张图像，根据该图像的前一帧图像中各个目标对象的位置信息，跟踪所述各个目标对象在所述图像中的位置信息，具体的，可以采用目标跟踪算法(Distractor-Aware Tracker，DAT)，根据前一帧图像中各个目标对象的位置信息，确定所述各个目标对象当前图像中的位置信息。

需要说明的是，对于跟踪目标对象在不同图像中的位置的实现方式，还可以采用深度简单的在线和实时跟踪(Deep Simple online and realtime tracking,Deep SORT)等现有的能够实现多目标跟踪的处理方式，本公开在此不再赘述。

进一步的，根据所述各个目标对象在各帧图像中的位置信息，生成所述各个目标对象在对应的状态信息下的运动轨迹，使得能够跟踪当前处理批次下的各个图像中，所述各个目标对象的位置信息，进而生成所述各个目标对象在当前处理批次的图像中的运动轨迹。

例如，以K帧图像作为一个处理批次为例，识别出首帧图像中包括的各个目标对象的位置后，在识别第2帧图像时，根据首帧中出现的各个目标对象的位置，确定第2帧中存在的各个目标对象的位置信息，进而依次确定各帧图像中目标对象的位置信息，进而形成各个目标对象在当前处理批次的图像中的运动轨迹。

需要说明的是，DAT算法的处理逻辑为，统计图像中的前景目标和背景区域的颜色直方图并归一化，分别建立前景和背景的概率模型，进而根据每帧线性插值更新颜色直方图。针对监测区域每个像素，根据其颜色值贝叶斯模型判别这个像素属于前景的概率，得到像素级颜色概率图，并使用高斯权值函数抑制边缘相似颜色的物体，进而得到跟踪目标的区域。DAT算法基于颜色直方图的统计特征，利用贝叶斯分类器分别建立了对象环绕ObjectSurrouding模型和对象干扰物Object distractor模型，再将两个模型的输出结果合并，得到最终结果。

例如，参阅表2所示，当采用DAT跟踪各个目标对象的位置信息时，记录有表2所示意的数据，包括目标对象在视频流中初始出现的图像帧，以及目标对象在视频流中最后出现的图像帧，以及各个目标对象的位置信息和大小，以及识别得到的目标对象在不同状态信息下的概率。

表2

检测列表	识别出的目标对象的位置信息和大小
		跟踪列表	目标对象在各帧中的位置信息
Label	目标对象的状态信息
		Prob	目标对象在不同状态信息下的概率
路径起始帧	目标对象出现的初始帧
		路径终止帧	目标对象出现的终止帧

这样，通过对一个批次内的首帧图像中，存在的目标对象的识别，以及对后续图像中目标对象位置的跟踪，能够准确地确定出各个目标对象的运动轨迹，保证对目标对象的运动轨迹的有效把握，且本公开中，针对不同处理批次的首帧图像进行目标对象的识别，能够及时发现新增的目标对象，避免出现漏检测的问题。

步骤104：依次获取相邻两个处理批次内，在先处理批次的末帧图像中各个第一目标对象的位置信息，以及获取在后处理批次的首帧图像中各个第二目标对象的位置信息，针对所述各个第一目标对象中的任意一个第一目标对象，计算该第一目标对象与所述各个第二目标对象之间的图像重叠度，并将所述第一目标对象的运动轨迹，与图像重叠度达到设定阈值的第二目标对象的运动轨迹进行合并。

处理设备确定各处理批次中，首帧图像中包括的各个目标对象的运动轨迹后，依次获取两个相邻处理批次内，在先处理批次的末帧图像中各个第一目标对象的位置信息，以及获取在后处理批次的首帧图像中各个第二目标对象的位置信息，进而针对所述各个第一目标对象中的任意一个第一目标对象，计算该第一目标对象与所述各个第二目标对象之间的图像重叠度，并确定与该第一目标对象之间的图像重叠度高于设定阈值的第二目标对象，则该第二目标对象可视为与所述第一目标对象指代的对象相同，进而将该第一目标对象的运动轨迹与所述第二目标对象的运动轨迹进行合并。

需要说明的是，本公开实施例中，确定与所述第一目标对象的图像重叠度达到设定阈值的第二目标对象，并在确定所述第一目标对象的状态信息与所述第二目标对象的状态信息相同时，将所述第一目标对象的运动轨迹，与所述第二目标对象的运动轨迹进行合并。使得能够避免状态信息不同的目标对象的运动轨迹被误合并。

进一步的，处理设备针对后续后的各处理批次内，同样采用上述处理方式，合并同一目标对象的不同处理批次内，得到的运动轨迹。

需要说明的是，本公开实施例中，对于以下任意一种情况，直接删除得到的运动轨迹。

A1、根据得到的视频流中目标对象的运动，确定目标对象的出现时长低于时长阈值。

具体的，处理设备得到各个目标对象在视频流中的运动轨迹时，若确定运动轨迹持续的时长低于时长阈值，则说明该目标对象在监控区域的活动时间低于时长阈值，故认为识别出的目标对象可能是无效目标对象，则直接过滤该目标对象的运动轨迹。再者，在针对任意一个第一目标对象，确定不存在与该第一目标对象的图像重叠度达到设定阈值的第二目标对象时，确定该第一目标对象的运动轨迹持续时长，并在确定所述运动轨迹持续时长低于设定时间阈值时，将该第一目标对象以及该第一目标对象的运动轨迹删除。

例如，在后厨监测场景下，各个目标对象在视频中出现的时长不应小于2S，故将时长阈值设置为2S，且已知1S中有25帧图像，则当确定该目标的运动轨迹持续的帧数小于50帧时，判定该目标对象无效，删除其运动轨迹。

这样，对于在视频监控范围内出现时间极短的目标对象，可以直接忽略该目标对象的运动轨迹，不作为轨迹跟踪的对象，保证对持续出现在视频监控范围内的目标对象的针对性跟踪。

A2、在确定对应第一目标对象的状态信息，与第二目标对象的状态信息不一致时，删除对应第一目标对应的运动轨迹，以及删除第二目标对应的运动轨迹。

对于不同批次内识别出不同状态信息的目标对象，说明对该目标对象的识别有误，故应该删除该目标对象的运动轨迹。

A3、在特定场景下识别时，根据识别出的目标对象的大小，确定目标对象的大小超过设定门限值时，直接删除该目标对象的运动轨迹。

具体的，本公开的一些实施例中，在对图像进行识别时，得到目标对象的位置信息、大小，以及状态信息，在特定场景下，考虑到目标对象距离拍摄设备的距离与成像的大小之间的关系，通过设定门限值，表征某类目标对象最大能够达到的大小，进而确定识别出的目标对象的大小远超此设定门限值时，则可认为该目标对象识别错误，故删除该目标对象的运动轨迹。

A4、确定对于目标对象的识别存在漏检状态信息时，删除该目标对象的运动轨迹。

具体的，在针对目标对象进行识别时，对于应检测出多个指标的状态信息的目标对象，仅显示一个指标的状态信息，则认为对于该目标对象，存在漏检的情况，故对于该目标对象的识别不完整，无法根据目前得到的识别结果确定该目标对象的状态，因而，直接删除该目标对象的运动轨迹。

这样，在确定对目标对象的识别有误的情况下，直接删除目标对象的运动估计，避免存留误检测的数据使得对目标对象的错误跟踪，造成的目标对象的轨迹跟踪错误，无法达到预期的效果。

进一步的，处理设备可以根据具体的输出指示，输出具有特定状态信息的目标对象，以及目标对象的运动轨迹。具体的，可以预先将目标对象的状态信息确定为规范状态和不规范状态，并根据实际的输出需要，输出规范状态对应的目标对象，以及规范的状态信息对应的目标对象的运动轨迹，或者，根据实际的输出需要，输出不规范的状态信息对应的目标对象，以及不规范的目标对象的运动轨迹。

下面结合附图2，对后厨监管的场景下，对视频流进行目标对象的识别和跟踪，进而输出违规状态的目标对象的运动轨迹的完整过程进行说明。

对应图2所示意的第1列，得到视频流后，对视频流进行解码，得到视频流中按照采集时间顺序排布的各个视频帧，对应的帧序号为1、2、3…，假设每个批次的帧数为25帧，具体为1S内拍摄的图像，也就是每1S进行一次图像识别，识别出图像中包括的各个目标对象的位置信息和状态信息。首先在第1帧进行了图像识别，输出每个目标对象的(box，label，prob)参数，接着跟踪第2帧图像，将第1帧输出的目标对象的(box，label，prob)参数连同第2帧图像一起进行目标对象的位置跟踪，跟踪上一帧检测到的目标对象在当前帧的位置信息和状态信息，仍然输出目标对象的(box，label)参数，同理，在第3帧，将第2帧输出的目标对象的(box，label)参数与第3帧图像一起作为跟踪的依据，继续跟踪目标对象。如此循环，一直到第K帧图像，完成了这K帧图像的识别/跟踪的循环。到了第K+1帧，开始一轮新的识别/跟踪。

例如，参阅图3所示，假设目标对象为人，每个处理批次中包括25帧图像，识别的状态信息为：戴帽子，以及未戴帽子，那么，对于帧序号为24725-24733的9帧图像，在对帧序号为24725的图像进行识别后，在待识别区域内识别出一个未戴帽子目标对象，并继续对帧序号24726-24733的图中进行目标对象的跟踪。

对应图2中的第二列中，对每一帧图像都进行了识别或者跟踪，于是对每帧图像都得到了该帧图像中的目标对象的(box，label，prob)参数。因此就得到了图2中第三列所示意的运动轨迹，针对每一个目标对象生成一条运动轨迹，这条运动轨迹包含了该目标对象的状态信息，在每一帧图像中的位置信息，在视频中的起始帧和终止帧等参数。

参阅图2第四列所示意的，开始对所有运动轨迹进行处理，处理的目的是去除错误和冗余的运动轨迹。此类运动轨迹产生的原因有：识别出错误的目标对象、跟踪到错误的位置、跟踪的目标对象发生中断等等，导致同一个目标对象产生多条路径等，进而通过尽可能去除这些错误和冗余，减少误检。进一步的，输出每个违规目标对象的状态信息及单张图像或图像序列作为证据存档，当获得处理违规状态的目标对象的运动轨迹时，可以选择性的从运动轨迹中任意抽取一张图像作为证据，或者，获取运动轨迹对应的图像序列，进而选取部分或全部图像序列，作为该目标对象违规的证据存档。

需要说明的是，参阅图4-5所示，应用于后厨监控的场景下，可以向用户提供可操作界面，并根据用户的选择，确定识别的目标对象，以及识别的目标对象的状态信息，而且支持用户自定义的提供其他目标对象，进而能够针对用户实际需要进行个性化的配置。进而根据传输得到的用户希望识别的视频流，进行针对性的识别和检测。

进一步的，参阅图5所示，可以按照根据得到的状态跟踪结果，确定检测状态，并呈现针对不同摄像头拍摄的不同内容的呈现结果，如图5所示意的，还可以根据实际配置需要，增加对洗手情况的检测，进而以页面的形式，展示对不同地点的后厨监测结果。

下面结合附图6对于接收用户远程上传的视频流，并进行处理的过程进行示意性说明，远端的图像采集设备采集后厨的视频，并借助于网关和传输网络，传输至处理设备，处理设备存储获得的视频流，并识别视频流中包括的目标对象，识别出目标对象的位置信息和状态信息，并对目标对象进行跟踪，最终获得目标对象的运动轨迹，并确定目标对象的状态信息符合违规状态时，获取所述目标对象的运动轨迹所对应的图像，并呈现在显示墙上作为警示，其中，传输网络可以是共用网络，或是，配置的专用网络。

基于同一发明构思，参阅图7所示，本公开实施例中，提出一种目标对象的状态跟踪装置，包括：

处理单元701，获取采集的视频流，并按照采集时间顺序，依次将指定帧数的图像，作为一个处理批次，以及针对各个处理批次内的图像，分别执行以下操作：

针对除所述首帧图像以外的任一图像，根据该图像的前一帧图像中各个目标对象的位置信息，跟踪所述各个目标对象在所述图像中的位置信息；并

根据所述各个目标对象在各帧图像中的位置信息，生成所述各个目标对象在对应的状态信息下的运动轨迹；

合并单元702，依次获取相邻两个处理批次内，在先处理批次的末帧图像中各个第一目标对象的位置信息，以及获取在后处理批次的首帧图像中各个第二目标对象的位置信息，针对所述各个第一目标对象中的任意一个第一目标对象，计算该第一目标对象与所述各个第二目标对象之间的图像重叠度，并将所述第一目标对象的运动轨迹，与图像重叠度达到设定阈值的第二目标对象的运动轨迹进行合并。

可选的，所述按照采集时间顺序，依次将指定帧数的图像，作为一个处理批次时，所述处理单元701具体用于：

可选的，所述删除所述各帧图像帧中图像质量满足设定条件的图像帧时，所述处理单元701用于：

可选的，所述对首帧图像进行对象识别和状态识别处理，获得所述首帧图像中包括的各个目标对象的位置信息和状态信息时，所述处理单元701具体用于：

可选的，所述计算该第一目标对象与所述各个第二目标对象之间的图像重叠度之后，所述合并单元702还用于：

可选的，所述将所述第一目标对象的运动轨迹，与图像重叠度达到设定阈值的第二目标对象的运动轨迹进行合并时，所述合并单元702具体用于：

可选的，所述处理单元701还用于：采用完成训练的图像识别模型对首帧图像进行对象识别和状态识别处理时，基于将主干特征提取网络CSPDarknet53替换成剪枝后的Mobilenet网络的Yolo4算法搭建所述图像处理模型。

基于同一发明构思，参阅图8所示，本公开实施例提出一种电子设备，装置800，装置800可以为服务器或具有处理功能的终端设备。参照图8，装置800包括处理组件822，其进一步包括一个或多个处理器，以及由存储器832所代表的存储器资源，用于存储可由处理组件822的执行的指令，例如应用程序。存储器832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件822被配置为执行指令，以执行上述开发设备侧的方法。

装置800还可以包括一个电源组件826被配置为执行装置800的电源管理，一个有线或无线网络接口850被配置为将装置800连接到网络，和一个输入输出(I/O)接口858。装置800可以操作基于存储在存储器832的操作系统。

基于同一发明构思，本公开实施例中基于目标对象的状态跟踪的实施例中提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备执行时，使得所述电子设备能够执行上述目标对象的状态跟踪方法。

综上所述，本公开实施例中，获取采集的视频流，并按照采集时间顺序，依次将指定帧数的图像，作为一个处理批次，以及针对各个处理批次内的图像，分别执行以下操作：对首帧图像进行对象识别和状态识别处理，获得所述首帧图像中包括的各个目标对象的位置信息和状态信息；针对除所述首帧图像以外的任一图像，根据该图像的前一帧图像中各个目标对象的位置信息，跟踪所述各个目标对象在所述图像中的位置信息；并根据所述各个目标对象在各帧图像中的位置信息，生成所述各个目标对象在对应的状态信息下的运动轨迹，然后，依次获取相邻两个处理批次内，在先处理批次的末帧图像中各个第一目标对象的位置信息，以及获取在后处理批次的首帧图像中各个第二目标对象的位置信息，针对所述各个第一目标对象中的任意一个第一目标对象，计算该第一目标对象与所述各个第二目标对象之间的图像重叠度，并将所述第一目标对象的运动轨迹，与图像重叠度达到设定阈值的第二目标对象的运动轨迹进行合并。这样，能够在对图像中存在的目标对象进行识别的同时，确定各个目标对象的状态，并跟踪各个目标对象的运动轨迹，实现对采集的视频流中，各个目标对象的状态跟踪，避免现有技术中存在的借助于人力监管的弊端，实现对各个目标对象的状态的持续跟踪，从根本上杜绝了人工监管和抽检的缺陷。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种目标对象的状态跟踪方法，其特征在于，包括：

基于预先训练的图像识别模型对首帧图像进行对象识别和状态识别处理，获得所述首帧图像中包括的各个目标对象的位置信息和状态信息；其中，所述状态信息为违规状态信息；

2.如权利要求1所述的方法，其特征在于，所述按照采集时间顺序，依次将指定帧数的图像，作为一个处理批次，包括：

3.如权利要求2所述的方法，其特征在于，删除所述各帧图像帧中图像质量满足设定条件的图像帧，包括：

4.如权利要求1-3任一项所述的方法，其特征在于，所述对首帧图像进行对象识别和状态识别处理，获得所述首帧图像中包括的各个目标对象的位置信息和状态信息，包括：

5.如权利要求1所述的方法，其特征在于，所述计算该第一目标对象与所述各个第二目标对象之间的图像重叠度之后，进一步包括：

6.如权利要求1所述的方法，其特征在于，所述将所述第一目标对象的运动轨迹，与图像重叠度达到设定阈值的第二目标对象的运动轨迹进行合并，包括：

7.如权利要求1所述的方法，其特征在于，采用完成训练的图像识别模型对首帧图像进行对象识别和状态识别处理时，基于将主干特征提取网络CSPDarknet53替换成剪枝后的Mobilenet网络的Yolo4算法搭建所述图像处理模型。

8.一种目标对象的状态跟踪装置，其特征在于，包括：

处理单元，用于获取采集的视频流，并按照采集时间顺序，依次将指定帧数的图像，作为一个处理批次，以及针对各个处理批次内的图像，分别执行以下操作：

合并单元，用于依次获取相邻两个处理批次内，在先处理批次的末帧图像中各个第一目标对象的位置信息，以及获取在后处理批次的首帧图像中各个第二目标对象的位置信息，针对所述各个第一目标对象中的任意一个第一目标对象，计算该第一目标对象与所述各个第二目标对象之间的图像重叠度，并将所述第一目标对象的运动轨迹，与图像重叠度达到设定阈值的第二目标对象的运动轨迹进行合并。

9.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于读取并执行存储器中存储的可执行指令，以实现如权利要求1至7中任一项所述的目标对象的状态跟踪方法。

10.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的目标对象的状态跟踪方法。