CN113160276A

CN113160276A - 一种目标跟踪方法、目标跟踪装置及计算机可读存储介质

Info

Publication number: CN113160276A
Application number: CN202110464711.4A
Authority: CN
Inventors: 张树琪; 吴玉香; 张海松
Original assignee: Zhuhai Jinrui Electric Power Technology Co ltd
Current assignee: Zhuhai Jinrui Electric Power Technology Co ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-23
Anticipated expiration: 2041-04-28
Also published as: CN113160276B

Abstract

本发明提供一种目标跟踪方法、目标跟踪装置及计算机可读存储介质，目标跟踪方法包括：获取目标视频流，目标视频流包括多帧图像；确定图像中人员与检测嵌入模型的匹配性，并从检测嵌入模型中获取图像中人员的匹配头肩数据，头肩数据包括头肩位置信息和头肩外观特征信息；判断图像是否为第一帧图像，如是，则将第一帧图像的人员头肩数据初始化为初始跟踪数据；若否，对上一帧图像的头肩数据进行预测操作并获取当前帧图像的跟踪预测数据，确定当前帧图像的跟踪预测数据与损失矩阵cost_i,j的匹配性，并将匹配结果进行更新操作获取当前帧图像的实时跟踪结果。本发明目标跟踪方法对目标识别精确度高，鲁棒性高，且实时高效。

Description

一种目标跟踪方法、目标跟踪装置及计算机可读存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其是涉及一种基于视频流且适用于电力线路施工现场人员跟踪的目标跟踪方法、实现这种方法的目标跟踪装置以及计算机可读存储介质。

背景技术

随着信息化时代的高速发展，计算机视觉在各个领域越来越凸显其重要性。计算机视觉技术在很多场景下发挥着重要的角色，大致包含目标检测、图像分割、目标跟踪、分类识别和重识别等多个领域，其中目标跟踪作为一个重要的研究领域，越来越多的研究者投入到其中。

在电力线路施工现场应用中，电力线路施工现场人员姿态多变，经常存在施工人员相互遮挡、被障碍物遮挡和姿态变化等情况，遮挡会让目标的外观丢失很多特征信息，并且导致漏检率增高。现有电力线路施工现场人员跟踪是采用对整个人体信息特征进行跟踪，极大降低人员跟踪精度，而且目标识别准确率低，实时效率低下。

发明内容

本发明的第一目的是提供一种目标识别精确度高、鲁棒性高且实时高效的目标跟踪方法。

本发明的第二目的是提供一种实现上述目标跟踪方法的目标跟踪装置。

本发明的第三目的是提供一种实现上述目标跟踪方法的计算机可读存储介质。

为了实现本发明的第一目的，本发明提供一种目标跟踪方法，包括：

获取目标视频流，目标视频流包括多帧图像；

确定图像中人员与检测嵌入模型的匹配性，并从检测嵌入模型中获取图像中人员的匹配头肩数据，头肩数据包括头肩位置信息和头肩外观特征信息；

判断图像是否为第一帧图像，如是，则将第一帧图像的人员头肩数据初始化为初始跟踪数据；若否，对上一帧图像的头肩数据进行预测操作并获取当前帧图像的跟踪预测数据，确定当前帧图像的跟踪预测数据与损失矩阵cost_i,j的匹配性，并将匹配结果进行更新操作获取当前帧图像的实时跟踪结果；

损失矩阵cost_i,j＝ε·l⁽¹⁾ _i,j(a_i,b_j)+(1-ε)·l⁽²⁾ _i,j(p_i,q_j)，ε为权重系数，0<ε<1，l⁽¹⁾ _i,j(a_i,b_j)＝min{1-CosSim(a_i,b_j)}，

a_i和b_j分别是当前帧图像的第i个人员和上一帧图像的第j个人员的头肩外观特征信息，a_i和b_j从检测嵌入模型中获取；

p_i和q_j分别是当前帧图像的第i个人员和上一帧图像的第j个人员的头肩位置信息，p_i和q_j从检测嵌入模型中获取。

由上述方案可见，本发明目标跟踪方法利用头肩位置信息和头肩外观特征信息共同组成损失矩阵cost_i,j用于跟踪相似度匹配，此损失矩阵cost_i,j中的元素代表当前帧图像的待跟踪头肩数据和上一帧图像的已跟踪头肩数据之间的差异，由它们之间的外观匹配程度和运动位置距离进行加权求和组成，从而提高目标识别的精确度，鲁棒性更高。同时，本发明目标跟踪方法应用在电力线路施工现场对人员进行跟踪，电力线路施工现场人员工作时会经常发生互相遮挡和姿态变化，如果采用对整个人体进行跟踪，会极大降低人员跟踪精度，而选择施工人员的头肩部位作为跟踪目标，相比于以整个人体作为跟踪目标来说，头肩目标不易形变和遮挡，鲁棒性更高，可提高跟踪精确度。而且，本发明目标跟踪方法采用检测嵌入模型构建头肩跟踪数据系统，从而提高跟踪方法的实时性，实时高效，更具备工程实际应用价值。

一个优选的方案是，头肩位置信息包括四个参数(x,y,w,h)，x和y代表头肩的中心坐标，w和h分别代表头肩的宽度和高度，p_i和q_j分别是头肩位置信息中的一个元素。

更进一步的方案是，构建头肩跟踪数据集，并对头肩跟踪数据集进行训练得到检测嵌入模型。

更进一步的方案是，在构建头肩跟踪数据集时，通过DarkLabel工具对头肩跟踪数据集的头肩数据进行身份信息标注，并利用具有身份信息的头肩跟踪数据集进行训练得到检测嵌入模型。

更进一步的方案是，将具有身份信息的头肩跟踪数据集放入深度卷积神经网络中进行训练得到检测嵌入模型。

更进一步的方案是，深度卷积神经网络包括分类分支、回归分支和外观特征分支，分类分支输出头肩的类别概率，回归分支输出头肩的位置信息，外观特征分支输出头肩的外观特征信息。

更进一步的方案是，将具有身份信息的头肩跟踪数据集进行外观特征分支训练时，在外观特征分支中添加一个全连接层且使用交叉熵损失函数进行训练，外观特征分支训练完成后，去掉全连接层。

进一步的方案是，判断图像是否为第一帧图像，若否，对上一帧图像的头肩数据通过卡尔曼滤波进行预测操作并获取当前帧图像的跟踪预测数据，确定当前帧图像的跟踪预测数据与损失矩阵cost_i,j的匹配性，并将匹配结果通过卡尔曼滤波进行更新操作获取当前帧图像的实时跟踪结果。

为了实现本发明的第二目的，本发明提供一种目标跟踪装置，包括壳体，壳体内设置有电路板，电路板上设置有处理器及存储器，存储器存储有计算机程序，计算机程序被处理器执行时实现上述目标跟踪方法的各个步骤。

为了实现本发明的第三目的，本发明提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述目标跟踪方法的各个步骤。

附图说明

图1是本发明目标跟踪方法实施例的流程图。

图2是本发明目标跟踪方法实施例中深度卷积神经网络的结构图。

图3是本发明目标跟踪方法实施例中Convolutional Set模块的结构图。

图4是本发明目标跟踪方法实施例中Convolutional模块的结构图。

图5是本发明目标跟踪方法实施例中深度卷积神经网络输出端的示意图。

以下结合附图及实施例对本发明作进一步说明。

具体实施方式

目标跟踪方法实施例：

本发明的目标跟踪方法应用在电力线路施工现场对人员进行跟踪，参见图1，目标跟踪方法的具体实施步骤如下。

首先执行步骤S1，构建头肩跟踪数据集。具体地，在电力线路施工现场收集被跟踪人员的头肩图片集，从而构建头肩跟踪数据集，并通过DarkLabel工具对头肩图片集进行身份信息标注，即给每个头肩图片集对象赋予单独的身份信息,不同人员的头肩图片集的身份信息不同。其中，头肩跟踪数据集的格式与多目标跟踪公开数据集MOT16的格式一致。在电力线路施工现场，人员工作时会经常发生互相遮挡和姿态变化的情况，如果采用对整个人体进行跟踪，会极大降低人员跟踪精度，而选择施工人员的头肩部位作为跟踪目标，相比于以整个人体作为跟踪目标来说，头肩目标不易形变和遮挡，鲁棒性更高，可提高系统的检测与跟踪精度。

随后执行步骤S2，对头肩跟踪数据集进行训练得到检测嵌入模型。具体地，将具有身份信息的头肩跟踪数据集放入深度卷积神经网络中进行训练得到检测嵌入模型，检测嵌入模型内具有每个跟踪人员的头肩数据，该头肩数据包括头肩位置信息和头肩外观特征信息。

参见图2至图5，本实施例深度卷积神经网络的主干网络使用Darknet-53，Conv2d代表图像卷积操作，1×1和3×3代表卷积核的大小，网络中Up Sampling和Concat分别代表上采样和特征拼接。本实施例深度卷积神经网络具有三个尺度的输出端，分别为分类分支、回归分支和外观特征分支，分类分支输出头肩的类别概率，回归分支输出头肩的位置信息，外观特征分支输出头肩的外观特征信息。给深度卷积神经网络输入具有身份信息的头肩跟踪数据集的图像并将图像固定为640×640分辨率，经过深度卷积神经网络训练后可得到三个尺度的特征图输出，分别为头肩的类别概率20×20×134、头肩的位置信息40×40×134和头肩的外观特征信息80×80×134。其中，头肩的位置信息(x,y,w,h)具有四个基本参数，x和y代表头肩的中心坐标，w和h分别代表头肩的宽度和高度，通过这四个基本参数就可以确定出一个头肩目标在视频流图片中的位置。头肩的类别概率具有两个基本参数，分别表示头肩概率和前景概率，头肩的外观特征信息维度大小为128，所以输出的第三个维度大小为134。本实施例深度卷积神经网络在训练时，头肩位置信息和头肩外观特征信息提取同时进行训练，但需要在外观特征分支中添加一个全连接层，将头肩外观特征信息提取任务作为分类任务来训练，损失函数使用交叉熵损失函数，训练完毕后去掉这个全连接层，从而得到头肩联合检测嵌入模型。

具体地，由于每个人员的头肩跟踪数据都具有一个身份信息，不同人员的头肩跟踪数据的身份信息不同，因此利用人员的头肩跟踪数据的身份信息作为类别，在外观特征分支添加一个全连接层，将头肩外观特征信息提取任务作为分类任务来训练，在训练后能够将相同身份信息的头肩跟踪数据归为同一类，将不同身份信息的头肩跟踪数据区分开。然后去掉全连接层，对深度卷积神经网络输入目标视频流中图像数据，外观特征分支便可输出头肩的外观特征信息，良好的外观特征具备可判别性，即相同身份信息的头肩外观特征信息距离较近，不同身份信息的头肩外观特征信息距离较远。

本发明目标跟踪方法采用头肩联合检测嵌入模型，仅通过一个深度卷积神经网络即可实现目标人员的头肩位置信息和头肩外观特征信息的提取，并将串行工作变为并行工作，减小模型的时间开销，提高目标跟踪的实时性。

接着执行步骤S3，获取目标视频流，该目标视频流包括多帧图像，其中该目标视频流即为电力线路施工现场人员的跟踪视频流。

进一步执行步骤S4，确定图像中人员与检测嵌入模型的匹配性，并从检测嵌入模型中获取图像中人员的匹配头肩数据。本实施例头肩数据包括头肩位置信息和头肩外观特征信息，该头肩数据已经通过步骤S1和步骤S2对头肩跟踪数据集训练构建在头肩联合检测嵌入模型中，通过确定图像中人员与头肩联合检测嵌入模型的匹配性，头肩联合检测嵌入模型可实时检测并输出图像中人员的头肩数据，便可有效提取出用于头肩相似度匹配的外观特征信息和头肩位置信息。

进一步执行步骤S5，判断目标视频流中图像是否为第一帧图像，如是，执行步骤S6，将第一帧图像的头肩数据初始化为初始跟踪数据，随后执行步骤S9，将初始跟踪数据进行更新操作获取第一帧图像的实时跟踪结果。具体地，第一帧图像的初始跟踪数据通过卡尔曼滤波进行更新操作，给第一帧图像内的跟踪对象赋予单独的身份信息，从而获取第一帧图像的实时跟踪结果，并输出。其中，采用卡尔曼滤波进行更新操作，卡尔曼滤波是一种用于线性系统的递归滤波器，将模型预测值和观测值进行融合得到一个输出值，分为两个阶段，第一个阶段为预测阶段，对目标建立线性运动模型，推算目标的状态变量，计算误差的协方差，第二个阶段为观测更新阶段，首先计算卡尔曼增益，根据观测值更新目标状态估计，最后更新误差协方差，卡尔曼滤波反复迭代这两个阶段；具体来说，使用目标检测网络的输出值作为卡尔曼滤波的观测值，针对线性运动进行建模得到状态模型，此状态模型的输出值作为卡尔曼滤波的预测值，卡尔曼滤波最终得到的输出值作为目标在当前帧中的位置。

若否，执行步骤S7，对上一帧图像的头肩数据进行预测操作并获取当前帧图像的跟踪预测数据；接着执行步骤S8，确定当前帧图像的跟踪预测数据与损失矩阵cost_i,j的匹配性，并将匹配结果进行更新操作获取当前帧图像的实时跟踪结果。具体地，对上一帧图像的头肩数据通过卡尔曼滤波进行预测操作并获取当前帧图像的跟踪预测数据，利用匈牙利匹配算法确定当前帧图像的跟踪预测数据与损失矩阵cost_i，j的匹配性，并将匹配结果通过卡尔曼滤波进行更新操作获取当前帧图像的实时跟踪结果，并输出。

本实施例损失矩阵cost_i，j＝ε·l⁽¹⁾ _i,j(a_i,b_j)+(1-ε)·l⁽²⁾ _i，j(p_i,q_j)，ε参数为权重系数，0<ε<1，根据此式子可求出损失矩阵cost：

其中，l⁽¹⁾ _i,j(a_i,b_j)＝min{1-CosSim(a_i,b_j)}，

a_i和b_j分别是当前帧图像的第i个人员和上一帧图像的第j个人员的头肩外观特征信息，a_i和b_j从头肩联合检测嵌入模型中获取。p_i和q_j分别是当前帧图像的第i个人员和上一帧图像的第j个人员的头肩位置信息，p_i和q_j从头肩联合检测嵌入模型中获取。本实施例头肩位置信息包括多个元素(x,y,w,h)，x和y代表头肩的中心坐标，w和h分别代表头肩的宽度和高度，p_i和q_j分别是所述头肩位置信息中的某一个元素。

l⁽¹⁾ _i,j(a_i,b_j)用来衡量当前帧图像的待跟踪头肩数据和上一帧图像的已跟踪头肩数据的外观匹配程度，值越小说明外观匹配程度越大。而l⁽²⁾ _i,j(p_i,q_j)用来计算当前帧图像的待跟踪头肩和上一帧图像的已跟踪头肩之间的运动位置距离，衡量运动位置匹配程度。利用头肩位置信息和头肩外观特征信息共同组成损失矩阵cost_i,j用于跟踪相似度匹配，此损失矩阵cost_i,j中的元素代表当前帧图像的待跟踪头肩数据和上一帧图像的已跟踪头肩数据之间的差异，由它们之间的外观匹配程度和运动位置距离进行加权求和组成，从而提高目标识别的精确度，鲁棒性更高。

当目标视频流的下一帧图像输入，重复执行步骤S5至步骤S8，直到目标视频流输入结束。

本发明目标跟踪方法应用在电力线路施工现场对人员进行跟踪，电力线路施工现场人员工作时会经常发生互相遮挡和姿态变化，如果采用对整个人体进行跟踪，会极大降低人员跟踪精度，而选择施工人员的头肩部位作为跟踪目标，相比于以整个人体作为跟踪目标来说，头肩目标不易形变和遮挡，鲁棒性更高，可提高跟踪精确度。同时，本发明目标跟踪方法采用检测嵌入模型构建头肩跟踪数据系统，从而提高跟踪方法的实时性，实时高效，更具备工程实际应用价值。

本发明目标跟踪方法可用于实现人员头肩的跟踪与监控，适用于电力线路施工现场，需要注意的是，如果摄像头不是静止的，则需要去掉头肩位置信息特征，仅利用头肩目标的外观特征即可。

目标跟踪装置实施例：

本实施例的目标跟踪装置具有壳体，壳体内设置有电路板，电路板上设置有处理器以及存储器，存储器中存储有可在处理器上运行的计算机程序，且处理器执行计算机程序时实现上述目标跟踪方法的各个步骤。

例如，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明的各个模块。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程。

本发明所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是电器的控制中心，利用各种接口和线路连接整个电器的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现电器的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据电器的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart MediaCard,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

计算机可读存储介质实施例：

目标跟踪装置的存储器所存储的计算机程序如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述目标跟踪方法的各个步骤。

其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例，只是本发明的较佳实例，并非来限制本发明实施范围，故凡依本发明申请专利范围的构造、特征及原理所做的等效变化或修饰，均应包括于本发明专利申请范围内。

Claims

1.一种目标跟踪方法，其特征在于，包括：

获取目标视频流，所述目标视频流包括多帧图像；

确定所述图像中人员与检测嵌入模型的匹配性，并从所述检测嵌入模型中获取所述图像中人员的匹配头肩数据，所述头肩数据包括头肩位置信息和头肩外观特征信息；

判断所述图像是否为第一帧图像，如是，则将所述第一帧图像的人员头肩数据初始化为初始跟踪数据；若否，对上一帧图像的头肩数据进行预测操作并获取当前帧图像的跟踪预测数据，确定当前帧图像的跟踪预测数据与损失矩阵cost_i,j的匹配性，并将匹配结果进行更新操作获取所述当前帧图像的实时跟踪结果；

所述损失矩阵cost_i,j＝ε·l⁽¹⁾ _i,j(a_i,b_j)+(1-ε)·l⁽²⁾ _i,j(p_i,q_j)，ε为权重系数，0<ε<1，l⁽¹⁾ _i,j(a_i,b_j)＝min{1-CosSim(a_i,b_j)}，

a_i和b_j分别是当前帧图像的第i个人员和上一帧图像的第j个人员的头肩外观特征信息，a_i和b_j从所述检测嵌入模型中获取；

p_i和q_j分别是当前帧图像的第i个人员和上一帧图像的第j个人员的头肩位置信息，p_i和q_j从所述检测嵌入模型中获取。

2.根据权利要求1所述的目标跟踪方法，其特征在于：

所述头肩位置信息包括四个参数(x,y,w,h)，x和y代表头肩的中心坐标，w和h分别代表头肩的宽度和高度；

p_i和q_j分别是所述头肩位置信息中的一个元素。

3.根据权利要求1所述的目标跟踪方法，其特征在于：

构建头肩跟踪数据集，并对所述头肩跟踪数据集进行训练得到所述检测嵌入模型。

4.根据权利要求3所述的目标跟踪方法，其特征在于：

在构建所述头肩跟踪数据集时，通过DarkLabel工具对所述头肩跟踪数据集的头肩数据进行身份信息标注，并利用具有身份信息的所述头肩跟踪数据集进行训练得到所述检测嵌入模型。

5.根据权利要求4所述的目标跟踪方法，其特征在于：

将具有身份信息的所述头肩跟踪数据集放入深度卷积神经网络中进行训练得到所述检测嵌入模型。

6.根据权利要求5所述的目标跟踪方法，其特征在于：

所述深度卷积神经网络包括分类分支、回归分支和外观特征分支，所述分类分支输出头肩的类别概率，所述回归分支输出头肩的位置信息，所述外观特征分支输出头肩的外观特征信息。

7.根据权利要求6所述的目标跟踪方法，其特征在于：

将具有身份信息的所述头肩跟踪数据集进行所述外观特征分支训练时，在所述外观特征分支中添加一个全连接层且使用交叉熵损失函数进行训练；

所述外观特征分支训练完成后，去掉所述全连接层。

8.根据权利要求1至7任一项所述的目标跟踪方法，其特征在于：

判断所述图像是否为第一帧图像，若否，对上一帧图像的头肩数据通过卡尔曼滤波进行预测操作并获取当前帧图像的跟踪预测数据，确定当前帧图像的跟踪预测数据与损失矩阵cost_i,j的匹配性，并将匹配结果通过卡尔曼滤波进行更新操作获取所述当前帧图像的实时跟踪结果。

9.目标跟踪装置，其特征在于，包括壳体，所述壳体内设置有电路板，所述电路板上设置有处理器及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现上述权利要求1至8任一项所述的目标跟踪方法的各个步骤。

10.计算机可读存储介质，其上存储有计算机程序，其特征在于：

所述计算机程序被处理器执行时实现上述权利要求1至8任一项所述的目标跟踪方法的各个步骤。