CN111882586B

CN111882586B - 一种面向剧场环境的多演员目标跟踪方法

Info

Publication number: CN111882586B
Application number: CN202010583994.XA
Authority: CN
Inventors: 陈书界; 颜城城; 张鎏锟
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2022-09-13
Anticipated expiration: 2040-06-23
Also published as: CN111882586A

Abstract

本发明公开了一种面向剧场环境的多演员目标跟踪方法。该方法首先构建并训练目标分类器，以对具有相似特征的演员进行分类；然后将视频帧送入目标检测器中，得到各个演员的检测框；将检测框送入训练好的目标分类器中进行演员ID预测；最后联合目标分类器预测得到的演员ID与轨迹关联算法形成多演员的跟踪轨迹。本发明在数据关联与轨迹初始化上加入目标类别预测，一定程度上解决了演员ID变化问题；在目标分类器上引入了三元组损失和交叉熵损失相结合的损失函数，增加了分类器对演员表观特征的辨识度；在预处理阶段引入了模板匹配和距离度量的方法，一定程度上解决了剧场、舞台等复杂光照环境对演员识别跟踪的影响，提高了检测、跟踪算法的准确率。

Description

一种面向剧场环境的多演员目标跟踪方法

技术领域

本发明属于多目标跟踪技术领域，尤其涉及一种面向剧场环境的多演员目标跟踪方法。

背景技术

多目标跟踪在目前的学术界和工程界均有很广泛的应用，其在商业、安防等领域有着广泛的应用前景，是否能够准确快速的实现特定目标的识别并跟踪决定着算法的优劣。传统的多目标跟踪算法在实际应用中无法达到性能的平衡，在精度和稳定性方面都无法满足实际要求；但基于深度学习的多目标跟踪算法能够很好的满足实际需求。

目前的多目标跟踪关联方法大致分为两类，分别为Detection-Based Tracking(DBT)和Detection-Free Tracking(DFT)。如图2所示，对于第一类DBT方法，其核心思想是首先使用目标检测算法检测出多个目标，然后使用数据关联算法将前面检测出来的多个目标关联到各个目标运动轨迹中；此类方法也可被称为“Tracking by detection”。在具体的视频应用场景中，首先给定一个完整的视频序列，然后对每个视频帧运用目标检测算法得到对应的所有目标的Bounding Box，然后采用数据关联算法，自动初始化各个目标的ID，将视频序列前后帧目标ID值进行连接，最终组成了各个目标的运动轨迹。目前此类方法在学术上应用较为广泛，因为能够实时更新跟踪目标的相关特征，维持跟踪器的稳定性；但DBT方法需要提前训练好目标检测器，跟踪器的性能很大程度上依赖目标检测器的性能。

而对于第二类DFT方法，同样对于一个视频序列，此类方法需要在首帧框选多个目标，再通过模板匹配、运动匹配或其他算法在后续帧持续定位这些目标，最终达到多目标跟踪的目的。DFT方法虽然不需要提前训练目标检测器，但其无法在跟踪过程中处理新出现的目标和消失的目标。相比而言，第一类DBT能够处理上述问题，更加适合实际需求。

现存的多目标跟踪算法仅限于对多个Bench mark数据集进行测试，暂未完全推广到线下场景，虽然能够满足学术界的要求，但是无法完全应对特殊场景(例如剧场)的多个演员目标进行跟踪。演员目标相当于其他类别的目标识别与跟踪具有表观特征差异小，较难辨别的特点；同时目标遇到遮挡时会造成的ID变化；这些是目前剧场环境下多演员目标跟踪的主要难点。

此外，现存的目标跟踪算法在一定程度上依赖原始视频帧的质量，良好的光照条件，画面清晰度等其他要求是保证目标跟踪算法的基础；目前针对光照多变性而提出的改进算法主要分为三类：第一类为采用图像增强的方法对原始图像进行预处理，通过调整原始图像的直方图信息，来期待原始图像能够达到模板帧的效果；第二类为采用不变特征进行图像预处理，例如寻求图像中若干个对光照不变或者光照鲁棒的特征，以此为突破口来进行处理，通过这些特征中的几何特征(例如梯度和尺度)与模板匹配相结合，来进一步约束光照变换带来的影响；第三类为采用场景建模的方式，利用目标形状或者其他有形信息进行建模，利用三维信息对光照变化进行抑制。而面对舞台场景，由于剧场舞台灯光的多变性与场景的复杂性，目前的方案并不能很好的解决实际需求。

发明内容

为了解决剧场等特殊场景下的特定演员跟踪困难的问题，本发明提供了一种面向剧场环境的多演员目标跟踪方法。

本发明的目的是通过以下技术方案来实现的：一种面向剧场环境的多演员目标跟踪方法，该方法包括以下步骤：

(1)收集特定剧场环境的表演视频数据，将其分解成视频帧图像；

(2)采用单目标跟踪算法分割视频帧中各个演员目标图像，并按照演员ID分成P类，每个类存储K张图片，构成演员数据集；

(3)构建目标分类网络，网络的损失函数采用三元组损失和交叉熵损失结合的策略，利用步骤(2)制作好的演员数据集对目标分类网络进行训练，得到训练好的目标分类器；

(4)将当前帧T送入目标检测器，框选出所有演员目标，采用卡尔曼滤波单目标跟踪器对T帧检测出的各目标分别进行运动预测，得到各目标T+1帧的预测框位置；然后将T+1帧送入目标检测器，将得到的检测框与运动预测得到的预测框位置做交并比(IOU)计算，构成T+1帧对应的IOU矩阵；

(5)基于步骤(4)得到的IOU矩阵，若当前帧出现新目标或者原有目标出现丢失，则将T帧框选出的所有目标输入步骤(3)训练好的目标分类器，得到演员ID；并使用匈牙利分配算法基于步骤(4)得到的IOU矩阵进行目标匹配，最后结合目标分类器生成的演员ID，得到各目标的跟踪轨迹。

进一步地，所述步骤(1)中，对表演视频数据进行基于直方图匹配的预处理，基于预处理得到的视频帧用于后续多目标跟踪，具体包括以下子步骤：

(1.1)在预表演场景中选取若干光照理想的舞台照作为模板帧；

(1.2)将选取好的若干模板帧与测试视频帧均下采样到合适尺度，同时按时间序列标定模板帧的顺序；

(1.3)将降采样后的当前视频帧与当前模板帧、当前模板帧相邻两帧分别进行直方图匹配，得到三个匹配帧；

(1.4)将匹配帧分别与对应模板帧进行KL距离度量运算，选择差异度最小的匹配帧作为预处理得到的视频帧，并将其对应的模板帧作为当前模板帧；

(1.5)基于预处理得到的视频帧用于多目标跟踪。

进一步地，所述步骤(1.3)具体如下：

(1.3.1)确定当前视频帧，按此时该帧出现的时间点与标定过顺序的模板帧索引；

(1.3.2)按照在当前帧时间点相邻三个模板帧进行索引选择，然后分别进行匹配操作，最终得到各个模板帧对应的匹配结果。

进一步地，所述步骤(1.4)具体如下：

(1.4.1)将原始视频帧与相邻三帧的模板帧进行直方图匹配，得到三个相邻匹配帧；

(1.4.2)对相邻三个模板帧进行映射处理，即采用512个bin对原有RGB像素值按其频次分布进行排列；

(1.4.3)将采取同样映射处理后的三个匹配帧与对应模板帧进行KL距离度量运算，取三个相邻帧度量结果最小的匹配帧作为最佳匹配帧。

进一步地，所述步骤(2)包括：

对单目标跟踪算法得到的多个演员目标进行在线裁剪到本地、制作标签ID、并规定到统一尺寸，得到原始数据集；

将原始数据集采用水平翻转、随机擦除的方法进行数据增强，防止训练出现过拟合现象，最终形成训练目标分类网络所用的演员数据集。

进一步地，所述步骤(3)中，所述目标分类网络采用MobileNetV2作为基本网络骨架，在网络骨架的第16层新建一个分支，这个分支的结构是一个简单的全连接层(即常规的全连接层的操作，它的功能就是将16层的卷积特征图三维(width，height，channel)转成一维(width x height x channel)；最终输出的是128维的向量)；然后将此处得到的全连接层特征接入三元组损失函数，以此来度量各目标演员特征向量之间的相似度；另一个分支则按原有网络结构连接全连接层，最终接入交叉熵损失函数；在训练过程中，将两类损失按照不同权重进行分配求和，最后进行反向传播更新网络参数。

进一步地，判断出现新目标及目标出现丢失的标准为：当T-1帧的目标在T帧上运动预测的预测框数目小于T帧的目标检测框时，判定为出现新目标；当T-1帧运动预测得到的T帧的目标预测框数目大于T帧的目标检测框时，判定为目标出现丢失。

进一步地，首帧各个演员目标ID使用目标分类器预测得到；

在跟踪过程中，如果出现新目标或者原有目标出现丢失，则触发目标分类器对当前帧T的所有框选出的目标预测得到演员ID；

其中，当出现新目标时，将当前帧T的所有目标送入训练好的目标分类器得到演员ID，再使用卡尔曼滤波单目标跟踪器预测当前帧T所有目标在T+1帧的预测框位置；最后结合T+1帧的检测框位置，组成最终的IOU矩阵，使用匈牙利算法进行ID匹配关联；

当目标出现丢失时，将T帧的所有目标送入目标分类器预测得到的演员ID，再使用卡尔曼滤波单目标跟踪器预测当前帧T所有目标在T+1帧的预测框位置；最后结合T+1帧的检测框位置，组成最终的IOU矩阵，使用匈牙利算法进行ID匹配关联；

通过这种在目标丢失、新出现情况下，利用训练好的目标分类器进行重新初始化预测当前T帧的各个演员目标ID的方式，使用运动预测与匈牙利匹配关联算法进行后续的跟踪，以此达到轨迹重连目的，避免了ID的频繁切换导致跟踪不准的问题；

如果后续场景中，没有出现新目标或者没有出现目标丢失，则不需要触发目标分类器去预测演员ID，沿用之前预测出的演员ID，结合IOU矩阵使用匈牙利分配算法进行ID匹配，关联前后帧目标的轨迹。

进一步地，所述步骤(5)中，采用匈牙利算法将T帧的各目标检测框与T+1帧的各目标检测框关联起来，具体实现为：拒绝T+1帧的检测框与T帧预测得到的预测框的IOU值小于固定阈值的数据关联请求，否则接受并初始化两帧间两个目标间的轨迹。

进一步地，所述步骤(5)在关联过程中，当T帧预测得到的T+1的预测框与T+1帧检测得到的检测框计算得到的IOU值小于固定阈值时，则认为此时该目标的轨迹变得不可靠，应当重现调用目标分类器重新初始化T+1帧的所有目标ID，再后续使用匈牙利分配算法进行匹配关联。

与现有技术相比，本发明具有如下有益效果：

1.本发明利用基于深度学习的目标分类算法，结合轨迹关联算法，实现了对剧场环境中的多个演员目标的在线数据关联及跟踪，一定程度上解决了跟踪过程中演员ID变化的问题；能够为线下实际场景的相关跟踪需求提供行之有效的思路。

2.本发明利用基于直方图匹配的在线处理算法，在面对舞台光照多变的条件下，能够动态的调整因舞台灯光导致的场景剧变，在线辅助修正光照，能够为线下实际场景的演员识别与跟踪提高保障。

附图说明

图1为本发明的面向剧场环境的多演员目标跟踪方法流程图；

图2为目前多目标跟踪方法的两种不同的逻辑实现示意图；

图3(a)为本发明优化后的数据关联原理图；

图3(b)为跟踪算法中目标分类网络的结构示意图；

图3(c)为本发明多目标跟踪方法工程实现整体结构图；

图3(d)为跟踪过程中目标分类器的作用图；

图4为本发明的直方图匹配中模板帧的选择策略示意图；

图5为本发明的直方图匹配中的匹配帧选择方法示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明提出的一种面向剧场环境的多演员目标跟踪方法，如图1、图3(a)、图3(c)所示，包括以下步骤：

(2)采用Mosse单目标跟踪算法分割视频帧中各个演员目标图像，并按照演员ID分成P类，每个类存储K张图片，构成演员数据集；

(3)构建目标分类网络，以对具有相似特征的演员进行分类，网络的损失函数采用三元组损失(Triplet Loss)和交叉熵损失(Softmax Loss)结合的策略，利用步骤(2)制作好的演员数据集，可以随机打乱每个类别数据，使用80％作为训练集，20％作为测试集对目标分类网络进行训练，得到训练好的目标分类器；

(5)基于步骤(4)得到的IOU矩阵，若当前帧出现新目标或者原有目标出现丢失，则将T帧框选出的所有目标输入步骤(3)训练好的目标分类器，得到演员ID；并使用匈牙利分配算法基于步骤(4)得到的IOU矩阵进行目标匹配，最后结合目标分类器生成的演员ID，得到各目标的跟踪轨迹。其中IOU的计算公式为：

IOU＝(A∩B)/(A∪B)

进一步地，所述步骤(2)包括：对Mosse单目标跟踪算法得到的多个演员目标进行在线裁剪到本地、制作标签ID、并规定到统一尺寸，得到原始数据集；将原始数据集采用水平翻转、随机擦除的方法进行数据增强，防止训练出现过拟合现象，最终形成训练目标分类网络所用的演员数据集。

进一步地，如图3(b)所示，目标分类网络采用MobileNetV2作为基本网络骨架，在本发明中借鉴了行人重识别(ReID)的相关思路，为了解决剧场场景中演员的表观特征过于相似，目标分类器无法准确识别，引入了在线三元组损失函数来对相似特征的演员目标进行分辨，这能够很大程度上增加目标分类器的准确率。具体实现如下：

(1)将从现有剧场视频数据中裁剪得到的数据集尺寸均缩放至384x128，并按照P个类，每个类K张图片批次送入目标分类网络中训练；

(2)网络结构细节为：在网络骨架的第16层新建一个分支，这个分支的结构是一个简单的全连接层(即常规的全连接层的操作，它的功能就是将16层的卷积特征图三维(width，height，channel)转成一维(width x height x channel)；最终输出的是128维的向量)。然后将此处得到的全连接层特征接入三元组损失函数，以此来度量各目标演员特征向量之间的相似度；另一个分支则按原有网络结构连接全连接层，最终接入交叉熵损失函数；在训练过程中，本发明将两类Loss按照不同权重进行分配求和，最后进行反向传播更新网络参数；

(3)在实际嵌入轨迹关联算法时，轨迹关联算法会首先判断目标是否丢失、是否存在新出现目标、是否出现目标断开；当目标没有出现在已有轨迹中时，则将该目标按边界框进行裁剪送入目标分类器，并将最终预测得到的演员ID赋给当前目标，以此来快速稳定跟踪过程的ID变化。

如图3(d)所示，根据本发明优化后的轨迹关联方法，能够在实际应用中取得较好的效果；如果多个目标在跟踪过程中出现长时间的遮挡或者其他状况导致的目标ID变换，则可以根据预训练好的目标分类器及时纠正ID错误，保证多演员目标跟踪轨迹的正确创建。

进一步地，首帧各个演员目标ID使用目标分类器预测得到；

进一步地，所述步骤(5)中，采用匈牙利算法将T帧的各目标检测框与T+1帧的各目标检测框关联起来，具体实现为：拒绝T+1帧的检测框与T帧预测得到的预测框的IOU值小于固定阈值(取0.4)的数据关联请求，否则接受并初始化两帧间两个目标间的轨迹，这样保证仅有IOU值较高的关联能够进行，提高了跟踪的准确率。

进一步地，所述步骤(5)在关联过程中，当T帧预测得到的T+1的预测框与T+1帧检测得到的检测框计算得到的IOU值小于固定阈值(取0.4)时，则认为此时该目标的轨迹变得不可靠，应当重现调用目标分类器重新初始化T+1帧的所有目标ID，再后续使用匈牙利分配算法进行匹配关联。

此外，针对剧场、舞台等复杂光照环境下的多演员目标识别与跟踪困难问题，本发明还提出了一种预处理方法，对表演视频数据进行基于直方图匹配的预处理，基于预处理得到的视频帧用于后续多目标跟踪；整个流程的思路是当前帧在匹配过程中，为避免出现匹配结果的偶然性，应采用多个模板帧共同度量，找到当前帧对应的时间节点应当存在的最好匹配结果，以此来解决因固定模板帧与当前帧中存在的场景差异导致直方图匹配失效造成的跟踪效果不佳问题。如图4、5所示，具体包括以下步骤：

(1)在舞台预表演阶段，人工选取各个时间段的光照条件理想的舞台照作为模板帧供后续使用；模板帧的时间节点可选择为每个实际演出光照突变点；

(2)为了加快计算效率，将选取好的若干模板帧与原始视频帧均下采样到合适尺度；同时按时间序列标定模板帧的顺序；

(3)将降采样后的当前视频帧与当前模板帧、当前模板帧相邻两帧分别进行直方图匹配，得到三个匹配帧；

(4)将匹配帧分别与对应模板帧进行KL距离度量运算，选择差异度最小的匹配帧作为预处理得到的视频帧，并将其对应的模板帧作为当前模板帧；

(5)基于预处理得到的视频帧用于多目标跟踪。

进一步地，所述步骤(3)具体如下：

(3.1)确定当前视频帧，按此时该帧出现的时间点与标定过顺序的模板帧索引；

(3.2)按照在当前帧时间点相邻三个模板帧进行索引选择，然后分别进行匹配操作，最终得到各个模板帧对应的匹配结果。

进一步地，所述步骤(4)具体如下：

(4.1)将原始视频帧与相邻三帧的模板帧进行直方图匹配，得到三个相邻匹配帧；

(4.2)对相邻三个模板帧进行映射处理，即采用512个bin对原有RGB像素值按其频次分布进行排列；其具体表示为：

对于每个视频帧，RGB图像均含有3个通道，每个通道对应为255个灰度级，所以每个通道对应8个bin(每32个灰度级划分到一个bin内)，一个视频帧即为8×8×8＝512bin；此时对应的频次分布概率就是三个通道灰度级对应的索引(1,1,1)、(1,1,2)、(1,1,3)…(8,8,8)这512个bin的概率分布值；

(4.3)将采取同样映射处理后的三个匹配帧与对应模板帧进行KL距离度量运算，计算公式如下：

计算方式为：对应概率分布，将模板帧的(1,1,1)与匹配帧的(1,1,1)按照上述公式进行计算，得到D_(1,1,1)(P||Q)，然后将后续对应的bin值进行同样的计算，最终依次进行求和，得到两帧间的度量值；

由于KL距离满足非负性和不对称性，本发明规定P一般为模板帧的直方图概率分布，而Q为匹配帧的概率分布；

对于三个匹配帧对应得到的度量值，取三个相邻帧度量结果最小的匹配帧作为最佳匹配帧。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种面向剧场环境的多演员目标跟踪方法，其特征在于，包括以下步骤：

(1)收集特定剧场环境的表演视频数据，将其分解成视频帧图像；对表演视频数据进行基于直方图匹配的预处理，基于预处理得到的视频帧用于后续多目标跟踪，包括：

(1.5)基于预处理得到的视频帧用于多目标跟踪；

(4)将当前帧T送入目标检测器，框选出所有演员目标，采用卡尔曼滤波单目标跟踪器对T帧检测出的各目标分别进行运动预测，得到各目标T+1帧的预测框位置；然后将T+1帧送入目标检测器，将得到的检测框与运动预测得到的预测框位置做交并比IOU计算，构成T+1帧对应的IOU矩阵；

2.根据权利要求1所述的一种面向剧场环境的多演员目标跟踪方法，其特征在于，所述步骤(1.3)具体如下：

3.根据权利要求1所述的一种面向剧场环境的多演员目标跟踪方法，其特征在于，所述步骤(1.4)具体如下：

4.根据权利要求1所述的一种面向剧场环境的多演员目标跟踪方法，其特征在于，所述步骤(2)包括：

5.根据权利要求1所述的一种面向剧场环境的多演员目标跟踪方法，其特征在于，所述步骤(3)中，所述目标分类网络采用MobileNetV2作为基本网络骨架，在网络骨架的第16层新建一个分支，这个分支的结构是一个全连接层，它的功能是将16层的卷积特征图三维转成一维，最终输出128维的向量，然后将此处得到的全连接层特征接入三元组损失函数，以此来度量各目标演员特征向量之间的相似度；另一个分支则按原有网络结构连接全连接层，最终接入交叉熵损失函数；在训练过程中，将两类损失按照不同权重进行分配求和，最后进行反向传播更新网络参数。

6.根据权利要求1所述的一种面向剧场环境的多演员目标跟踪方法，其特征在于，判断出现新目标及目标出现丢失的标准为：当T-1帧的目标在T帧上运动预测的预测框数目小于T帧的目标检测框时，判定为出现新目标；当T-1帧运动预测得到的T帧的目标预测框数目大于T帧的目标检测框时，判定为目标出现丢失。

7.根据权利要求1所述的一种面向剧场环境的多演员目标跟踪方法，其特征在于，首帧各个演员目标ID使用目标分类器预测得到；

8.根据权利要求1所述的一种面向剧场环境的多演员目标跟踪方法，其特征在于，所述步骤(5)中，采用匈牙利算法将T帧的各目标检测框与T+1帧的各目标检测框关联起来，具体实现为：拒绝T+1帧的检测框与T帧预测得到的预测框的IOU值小于固定阈值的数据关联请求，否则接受并初始化两帧间两个目标间的轨迹。

9.根据权利要求8 所述的一种面向剧场环境的多演员目标跟踪方法，其特征在于，所述步骤(5)在关联过程中，当T帧预测得到的T+1的预测框与T+1帧检测得到的检测框计算得到的IOU值小于固定阈值时，则认为此时该目标的轨迹变得不可靠，应当重现调用目标分类器重新初始化T+1帧的所有目标ID，再后续使用匈牙利分配算法进行匹配关联。