CN111931654A

CN111931654A - 一种人员跟踪智能监测方法、系统和装置

Info

Publication number: CN111931654A
Application number: CN202010800202.XA
Authority: CN
Inventors: 龚大立; 朱晓宁; 吴喆峰; 赵珊珊
Original assignee: Jingying Digital Technology Co Ltd
Current assignee: Jingying Digital Technology Co Ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-11-13

Abstract

本申请提供一种人员跟踪智能监测方法、系统和装置，所述方法包括：通过对视频的当前帧对应的图像中的区域框中的图像进行人员图像识别，并通过预测掩模调整区域框在下一帧的图像中的位置，能够实现在视频的帧对应的图像的特定区域对特定目标人员进行人员图像识别跟踪，而无需识别视频的帧对应的整个图像，提高了识别跟踪的速度，提高了效率。同时，由于仅需对人员图像进行识别跟踪，目标明确，提高了识别跟踪的精度。

Description

一种人员跟踪智能监测方法、系统和装置

技术领域

本发明属于智能监控领域，具体涉及一种人员跟踪智能监测方法、系统和装置。

背景技术

随着视频监控在各行各业的应用，对视频中的人员进行跟踪识别的要求也越来越高，不仅需要掌握人员的流动状态及其规律，并且能够及时识别并跟踪人员，能够对人员进行有效管理。

现有技术需要一种能够对人员进行识别跟踪的技术，不仅需要有较高的识别和处理效率，使得人员位置变化时能够得到流畅的人员跟踪的视频信息，并且具有识别得的高精度。

发明内容

本申请提供一种人员跟踪智能监测方法、系统和装置，能够在视频的帧对应的图像的特定区域对特定目标人员进行人员图像识别跟踪，从而提高识别跟踪的效率和精度。

本申请提供了一种人员跟踪智能监测方法，包括：

获取视频流；

获取视频流的当前帧的图像中的区域框；

对当前帧的区域框中的图像进行人员图像识别，并获得人员掩模；

对掩模的变化进行预测得到预测掩模，并计算得到该预测掩模的特征点；

根据所述预测掩模特征点在图像中的位置调整所述区域框在图像中的位置。

上述方法中，得到预测掩模后，还包括：

按照预置的算法计算所述预测掩模的置信度，若小于预置的门限，则舍弃当前人员图像识别结果；扩大所述区域框的范围，并对区域框中的图像重新进行人员识别。

上述方法中，所述对当前帧的区域框中的图像进行人员图像识别，具体为：

通过图像识别模型执行人员图像识别；

以及，预先利用DAVIS2016、DAVIS2017和YouTube-VOS数据集中的人员数据对所述图像识别模型进行训练。

上述方法中，所述获取视频流的当前帧的图像中的区域框，具体为：

获取用户在视频流的当前帧的图像中选定的区域框。

上述方法中，所述计算得到该预测掩模的特征点，具体为：

按照预置的算法计算识别人员图像的中心点。

上述方法中，所述对掩模的变化进行预测得到预测掩模，具体为：

逐帧对掩模的变化进行预测得到预测掩模。

上述方法中，还包括：

对不同目标人员的识别图像进行着色。

上述方法中，还包括获取不同人员的识别图像集，并转换成视频帧序列。

本申请还提供一种人员跟踪智能监测系统，包括：

处理器；以及，

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述方法。

本申请还提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

本申请提供的技术方案可以包括以下有益效果：通过对视频的当前帧对应的图像中的区域框中的图像进行人员图像识别，并通过预测掩模调整区域框在下一帧的图像中的位置，能够实现在视频的帧对应的图像的特定区域对特定目标人员进行人员图像识别跟踪，而无需识别视频的帧对应的整个图像，提高了识别跟踪的速度，提高了效率。同时，由于仅需对人员图像进行识别跟踪，目标明确，提高了识别跟踪的精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请实施例示出的一种人员跟踪智能监测方法的流程示意图；

图2是本申请实施例示出的一种人员图像识别结果示意图；

图3是本申请实施例示出的掩模生成的一种上面的人员剪影示意图；

图4是本申请实施例示出的掩模生成的一种下面的人员剪影示意图；

图5是本申请实施例示出的掩模生成的一种中间的人员剪影示意图。

具体实施方式

下面将参照附图更详细地描述本申请的优选实施方式。虽然附图中显示了本申请的优选实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

本申请提供一种人员跟踪智能监测方法、系统和装置，在视频的帧对应的图像的特定区域对特定目标人员进行人员图像识别跟踪，从而提高识别跟踪的效率和精度。

本申请实施例公开了一种人员跟踪智能监测方法，具体步骤包括：

(1)获取视频流，本实施例具体公开了将高清摄像机安装于现场，用于清晰拍摄视频流，并将视频流上传到服务器。

(2)获取视频流的当前帧的图像中的区域框，在一种实现方式中，是通过用户在视频流的当前帧的图像中选定区域框。

通过用户对当前帧的图像的区域框进行选定，不仅对需要跟踪的目标人员进行了标注，同时，选定了需要识别的区域，从而实现在特定区域对特定目标人员进行识别，提高人员识别跟踪的效率和精度。

(3)对当前帧的区域框中的图像进行人员图像识别，并获得人员掩模，本申请的一个实施例是通过图像识别模型执行人员图像识别；以及，预先利用DAVIS2016、DAVIS2017和YouTube-VOS数据集中的人员数据对所述图像识别模型进行训练。

通过人员数据训练过的图像识别模型只对人员图像进行识别，而不会对图像中的非人员图像例如物品等进行识别，识别的目标精确，从而提高了识别的精度和速度。

(4)对掩模的变化进行预测得到预测掩模，并计算得到该预测掩模的特征点。

在本申请的优选实施例中，按照预置的算法计算识别人员图像的中心点。

在另一个实施例中，对掩模的变化进行预测得到预测掩模是逐帧对掩模的变化进行预测得到预测掩模。

(5)根据所述预测掩模特征点在图像中的位置调整所述区域框在图像中的位置。

在当前帧的区域框位置基础上，以当前帧识别的人员图像的中心点为基准，对人员运动方向进行预测，根据人员运行方向预测结果对下一帧掩摸变化进行预测，并根据掩摸变化预测结果调整下一帧的区域框的位置，使得区域框跟随人员图像移动的方向进行移动，再对一下帧的区域框中的图像进行人员图像识别，从而实现每个帧的图像识别都是在图像中的特定区域对特定目标人员进行识别，提高了识别的效率和精度。

上述方法中，所述人员图像的中心点可以通过计算掩模在X轴的最大之和最小值取得平均值作为中心点的X轴坐标，以及掩模在Y轴的最大之和最小值取得平均值作为中心点的Y轴坐标，进而确定人员图像的中心点。

同时，在上述过程当中，通过跟踪区域框的移动轨迹达到跟踪人员图像路径移动信息的目的，从而实现人员运动轨迹跟踪。

在本申请的优选实施例中，得到预测掩模后，按照预置的算法计算所述预测掩模的置信度，若小于预置的门限，则舍弃当前人员图像识别结果；扩大所述区域框的范围，并对区域框中的图像重新进行人员识别。

(6)对不同目标人员的识别图像进行着色。

(7)获取不同人员的识别图像集，并转换成视频帧序列，并生成人员的跟踪视频，从而实现人员的实时跟踪。

本优选实施例中，通过逐帧进行跟踪识别得到的人员的识别图像集，因此生成的跟踪视频更加流畅。

以下结合附图详细描述本申请另一个优选实施例的技术方案。

本申请另一个实施例提供一种人员识别跟踪智能监测方法，图1是根据本申请实施例示出的一种人员跟踪智能监测方法的流程示意图。参见图1，以下对其各步骤进行详细说明。

(1)获取视频流S01，将高清摄像机安装于生产现场的待巡检设备上方，用于清晰拍摄整个巡检的区域，并将视频流上传到分析服务器。

(2)通过相似性编码器S03和显著性编码器S04，进行人员图像识别，并生成人员掩模预测S02。

本实施例中，图像识别模型利用了半监督视频对象分割和人体状态感知技术。

其中，半监督视频对象分割模型是一种视频分割技术，是一种对视频中的目标人员进行实时跟踪的算法。半监督视频对象分割模型是利用帧间一致性，将视频中目标人员作为小轨迹进行处理，在特定的区域将每个目标人员开辟对应的分支进行单独地处理，高效率的将目标人员图像识别出来，获取目标人员的移动路径信息，实现对目标人员进行高效、精准的实时跟踪识别。

在本实施方式中，获取半监督视频对象分割模型方法如下：

1)根据摄像机拍摄的人员视频，制作包含检测目标人员的图像样本。

2)对图像样本中的目标人员进行标注，制作成训练样本。本实施方式中，利用人员对象的掩码数据集中的样本作为训练集和测试集，其中，掩码数据集中的人员包含已分割的图像文件，用以表征人员的不同姿势。

3)利用上述训练样本对半监督视频对象分割算法进行训练和改进，获得半监督视频对象分割模型。

4)利用丰富的DAVIS2016、DAVIS2017和YouTube-VOS数据集对半监督视频对象分割模型进行训练，从而对半监督视频对象分割模型进行广泛的实验和消融研究。

较佳地，为了将目标人员对象与背景和干扰因素区分开，基于在线学习的方法在第一帧上对半监督视频对象分割模型的分割网络进行微调。

较佳地，半监督视频对象分割模型采用逐帧的方式对图像中的目标进行跟踪识别。

本实施例中，半监督视频对象分割模型是由相似性编码器，显著性编码器、状态估计器组成。具体的过程如下：

首先，由用户在视频流的某一帧的图像中选定区域框，上述区域框由相似性编码器生成，此步骤的操作，不仅完成了特定识别区域的选定，同时完成了对需要识别跟踪的目标人员的标注。

然后，通过显著编码器和状态估计器对当前帧的图像中的区域框中的图像进行人员图像识别，识别结果如图2所示，并根据人员图像识别结果生成对应的人员掩摸。

接着，利用帧间一致性，将视频中的目标人员作为小轨迹进行处理，也就是由相似性编码器以当前帧识别的人员图像为基准，对下一帧中人员的运动方向进行预测，生成人员的运动预测图像，并据此进行人员掩模预测，生成人员的预测掩模，并计算上述预测掩模的特征点，本实施例中，以人员图像的中心点为特征点。

接着，由相似编码器根据预测掩摸和人员图像的中心点，调整区域框在下一帧中的位置，使得区域框的移动方向与人员图像移动的方向一致。

最后，通过显著编码器和状态估计器对上述下一帧的区域框中的人员图像进行识别。实现视频的帧中的图像识别都是在图像中的特定区域对特定目标人员进行识别，提高了识别的效率和精度。且，通过跟踪区域框的移动轨迹达到跟踪人员图像路径移动信息的目的，从而实现人员运动轨迹跟踪。

上述实施例中的相似性编码器是利用人体SAT(STATE-AWARE TRACEKER)状态估计器，并联合半监督视频对象分割模型融合训练过的比对真实与预测运动的编码器。相似性编码器把每个人员开辟对应的分支进行单独地处理，提高了处理的效率。

其中，显著性编码器是在限定的区域中将人员轮廓分割出来的网络模型，通过对显著性编码器进行预训练，得到网络的各种参数，这些参数就会按照训练阶段的输入、输出，相应地输出图像中的人体轮廓。显著性编码器能够在相似性编码器限定的区域框范围内对人员轮廓进行识别。

上述实施例中的显著性编码器的主干在ImageNet上进行了预训练。显著性编码器将裁剪的人员图像作为输入。

在一种实施方式中，半监督视频对象分割模型采用逐帧的方式对视频图像中的人员图像进行识别跟踪。

(3)状态估计器判断是否异常S05。

本实施例中，通过状态估计器计算上述预测掩模的置信度，若小于预置的门限，则舍弃当前人员图像识别结果；由相似性编码器扩大区域框的范围，从而扩大图像识别范围，并对区域框中的图像重新进行人员识别。

状态估计器获取人员掩模预测后，通过状态值描述当前状态，并评估状态异常与否；用置信值表示人员掩模预测的置信度，用集中度表示人员掩模预测的几何集中程度。其中，

表示人员掩膜预测的置信度，

表示位置(i,j)处的人员掩模预测分数，

表示位置(i,j)处的人员掩膜预测的二进制掩码，当(i,j)处的像素被预测为前景时，

为1，否则为0，如等式1所示：

然后，把集中度值定义为最大连接区域和已预测的二值掩膜的整个区域的比率，其中

表示集中度值，

表示预测掩模的第i个连接区域的像素数，见等式2：

最后，计算状态值，如果S_state>T判定当前状态为正常状态,否则是异常状态；其中

表示计算的状态值，本实施例中，设置T＝0.85，见等式3：

若判断为异常时，舍弃此帧的当前人员图像识别结果；由相似性编码器扩大区域框的范围，从而扩大图像识别范围，并对此帧的图像中区域框的图像重新进行人员图像识别。

若判断为正常时，则输出识别的人员图像，如图2所示，也就是能够表征人员运动姿态的人员图像。

(4)根据人员识别图像生成人员剪影S07，根据识别的人员图像如图2所示，生成人员剪影如图3、图4、图5，其中，图3是图2上面人员剪影结果，图4是图2下面人员剪影结果，图5是图2中间人员剪影结果。

进一步地，建立姿态数据库S08用于存储人员运动姿态图像，并将人员剪影扩充到姿态数据库中，为进一步对人员运动姿态信息进行识别、分析和提取打下基础。

(5)人员跟踪视频序列帧S11

识别得到人员图像之后，通过半监督视频对象分割模型将识别的人员图像的掩码和原视频的图像进行匹配，获得精确匹配之后，将不同人员的识别图像进行不同的，能够相互区别的颜色进行着色处理，如图2所示，一个实施例中是对人员A着绿色，对人员B着蓝色。之后，汇聚成不同人员的识别图像集，转换成关键视频帧序列。

(6)实时人员跟踪识别S12

根据不同人员的跟踪视频序列帧，生成实时跟踪视频，从而实现对不同的人员进行实时地跟踪识别。

较佳地，可记录人员从视频中出现到消失的整个过程，生成人员运动姿态数据集，跟踪识别人员，从而实现智能化跟踪识别。

作为较佳的实施例，本发明进一步利用人员识别的结果作为输入，进一步优化半监督视频对象分割模型，从而使得模型达到自适应的程度。

具体的，构建两个反馈回路，针对不同状态进行自适应，从而检测视频图像中的人员并跟踪。

其中一个回路是转换剪裁策略优化跟踪器S09，对相似性编码器S03进行优化，以使跟踪过程越发稳定；另一个回路是全局建模特征改进跟踪S10，对显著性编码器S04进行优化，以提升人员图像识别分割的质量。

所述转换剪裁策略优化跟踪器S09是一个优化器，其主要功能是，如果当前帧中识别出来的人员图像有遮挡或者弯腰等情况发生，就剔除掉该帧，这样可以使半监督视频对象分割模型效果更好、更稳定。

在缺少转换剪裁策略优化跟踪器的情况下，一种方式是，如果所有视频图像的人员识别均利用掩膜预测得到区域框，那么在异常状态出现时，比如人员被遮挡或者形状发生变化，将无法进行人员识别跟踪。另一种方式是若所有视频图像保持使用回归框，当目标人员较好展示或背景有干扰因素时，人员跟踪预测精度将下降。

针对这种情况的出现，换剪裁策略优化跟踪器对相似编码器进行了优化，在正常状态下选择掩膜框作为区域框，在异常状态时选择回归框作为区域，两者之间的转换使得半监督视频对象分割模型可以自适应不同状态。因而，利用转换剪裁策略优化跟踪器与相似编码器相互配合，适应性地采取不同方法预测人员识别的区域框，且当前帧中识别出来的人员图像有遮挡或者弯腰等情况发生，就剔除掉该帧。从而，使得半监督视频对象分割模型的人员跟踪过程更加精确和稳定。

其中，所述回归框是在目标检测过程中对产生的候选框以标注好的真实框为目标进行逼近的过程。由于一幅图像上的框可以由中心点坐标唯一确定，所以这种逼近的过程可以建模为回归问题。通过对候选框做边框回归，可以使最终检测到的目标定位更加接近真实值，提高定位准确率。

其中，所述掩膜框是用选定的图像、图形或物体，对处理的图像的全部或局部进行遮挡，来控制图像处理的区域或处理过程。获取掩膜框的常用方法包括：(1)用预先制作的感兴趣区掩膜与待处理图像相乘，得到感兴趣区图像，感兴趣区内图像值保持不变；(2)用掩膜对图像上某些区域作屏蔽，使其不参加处理或不参加处理参数的计算，或仅对屏蔽区作处理或统计；(3)用相似性变量或图像匹配方法检测和提取图像中与掩膜相似的结构特征；(4)特殊形状图像的制作。当然，获取掩膜框的方法不限于上述列举的方法。

所述全局建模特征改进跟踪S10是通过算法计算视频的每个帧的高级特征评分，动态更新目标人员的全局特征，并通过更新目标人员的全局特征，对显著性编码器S04进行优化，以提升人员图像识别分割的质量，将半监督视频对象分割模型从最简单的基准版逐步升级到完整版。

本实施例中，全局建模特征改进跟踪S10使用状态估计器生产的状态值S_state对每个帧的高级特征进行评分，从而减轻了异常情况或劣质人员图像造成的不利影响，其中

表示上一帧的全局特征表示，

表示当前帧的全局特征表示，F_t表示经过背景滤波的图像的高级特征。在本实施例中，μ表示步长为0.5的超参数，其中，超参数的值可以根据效果进行设置。如下式4。

通过以上公式得知，一方面，全局建模特征改进跟踪S10增强了联合细分网络的高级特征S_state，动态地更新视频的每一帧的全局特征

该功能对于随时间变化的视觉变体具有鲁棒性。另一方面，全局建模特征改进跟踪S10选择识别的目标图像作为输入，使用掩码对目标图像的背景F_t进行过滤，以训练全局建模特征改进跟踪S10的循环，对DAVIS2017验证数据集进行了广泛的消融，从而，提升半监督视频对象分割模型的人员图像识别分割的质量，将半监督视频对象分割模型从最简单的基准版逐步升级到完整版。

其中，所述联合细分网络，是半监督视频对象分割模型在进行图像识别分割时，将每个人员开辟对应的分支进行单独地处理，并将显著性编码器S04和解码器组合在一起以构建的细分网络。半监督视频对象分割模型根据这些联合细分网络，精准地获取人员的路径移动信息，将人员识别出来。

综上所述，利用转换剪裁策略优化跟踪器S09对相似性编码器S03的优化，以及利用全局建模特征改进跟踪S10对显著性编码器S04的优化，使得随着人员识别的不断进行，半监督视频对象分割模型的人员识别准确度不断提高，达到自适应学习的目的。

根据本公开的方法还可以实现为一种人员跟踪智能监测系统，包括：处理器；以及，存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行本公开的上述方法的各个步骤的部分或全部。

本公开还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本公开的上述方法的各个步骤的部分或全部。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

上文中已经参考附图详细描述了本申请的方案。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。本领域技术人员也应该知悉，说明书中所涉及的动作和步骤并不一定是本申请所必须的。另外，可以理解，本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种人员跟踪智能监测方法，其特征在于，包括：

获取视频流；

获取视频流的当前帧的图像中的区域框；

2.根据权利要求1所述的方法，其特征在于，得到预测掩模后，还包括：

计算所述预测掩模的置信度，以及所述预测掩膜的几何集中度；

根据所述置信度以及集中度获得状态值，若所述状态值小于预置的门限，则舍弃当前人员图像识别结果；扩大所述区域框的范围，并对区域框中的图像重新进行人员图像识别。

3.根据权利要求2所述的方法，其特征在于，所述对当前帧的区域框中的图像进行人员图像识别，具体为：

通过半监督视频对象分割模型执行人员图像识别；

以及，预先利用DAVIS2016、DAVIS2017和YouTube-VOS数据集中的人员数据对所述半监督视频对象分割模型进行训练。

4.根据权利要求3所述的方法，其特征在于，获得人员识别图像后，进一步利用所述人员识别图像通过转换剪裁优化跟踪算法对所述半监督视频对象分割模型行优化；

以及，利用所述人员识别图像通过全局建模特征改进跟踪算法对所述半监督视频对象分割模型进行优化。

5.根据权利要求1所述的方法，其特征在于，所述获取视频流的当前帧的图像中的区域框，具体为：

获取用户在视频流的当前帧的图像中选定的区域框。

6.根据权利要求5所述的方法，其特征在于，所述计算得到该预测掩模的特征点，具体为：

按照预置的算法计算识别人员图像的中心点。

7.根据权利要求6所述的方法，其特征在于，所述对掩模的变化进行预测得到预测掩模，具体为：

逐帧对掩模的变化进行预测得到预测掩模。

8.根据权利要求1至7任一项所述的方法，其特征在于，还包括：

对不同目标人员的识别图像进行着色。

9.根据权利要求8所述的方法，其特征在于，还包括：

获取不同人员的识别图像集，并转换成视频帧序列。

10.一种人员跟踪智能监测系统，其特征在于，包括：

处理器；以及，

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-8中任一项所述的方法。