CN110910427B

CN110910427B - 一种交互式视频数据标注方法及装置

Info

Publication number: CN110910427B
Application number: CN201911227929.7A
Authority: CN
Inventors: 王铎; 齐红威; 王大亮; 刘丹枫; 何鸿凌
Original assignee: Datang Beijing Intelligent Technology Co ltd
Current assignee: Datang Beijing Intelligent Technology Co ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2022-08-12
Anticipated expiration: 2039-12-04
Also published as: CN110910427A

Abstract

本发明提供了一种交互式视频数据标注方法及装置，通过对目标视频数据初始化处理得到待标注的目标图像帧，进一步通过预先离线训练的目标检测模型对目标图像帧进行目标检测得到目标图像帧中当前目标的类别和包围框，更进一步通过预先离线训练的目标重识别模型对当前目标进行特征提取得到当前目标的重识别特征，最后通过当前目标的重识别特征对当前目标进行轨迹匹配从而输出当前目标的类别、包围框和所匹配轨迹的标识，且通过交互学习可以在线优化目标检测模型和目标重识别模型以适应当前标注视频场景。基于本发明，通过重识别特征做轨迹匹配大幅降低跟踪过程中目标标识频繁跳变的概率，实现低成本、高效率、大规模的视频多目标跟踪训练数据的标注。

Description

一种交互式视频数据标注方法及装置

技术领域

本发明涉及图像处理技术领域，更具体地说，涉及一种交互式视频数据标注方法及装置。

背景技术

视频数据的数量目前呈现出爆发式增长，对视频数据中多个目标进行跟踪和大规模标注，需要耗费大量的人力和时间。如何进行高效大规模的视频数据标注，降低生产成本，是一个亟待解决的难题。

现有基于多目标跟踪的标注技术，通过对视频数据提取特征并进行检测识别，完成对目标的标识和包围框信息的标注，成为大规模视频数据标注的主要解决方案。但在实际应用中经常出现目标轨迹标识频繁跳变等问题，仍然不能很好满足实际生产需求。

发明内容

有鉴于此，为解决上述问题，本发明提供一种交互式视频数据标注方法及装置。技术方案如下：

一种交互式视频数据标注方法，所述方法包括：

获取目标视频数据，并对所述目标视频数据初始化处理得到待标注的目标图像帧；

加载预先离线训练的目标检测模型，并基于所述目标检测模型对所述目标图像帧进行目标检测得到所述目标图像帧中当前目标的类别和包围框；其中，所述目标检测模型是以标定有目标的类别标注和包围框标注的图像帧为第一训练样本，以通用检测模型对所述第一训练样本中目标的类别和包围框的预测结果趋近于所述第一训练样本所标定的类别标注和包围框标注为训练目标，对所述通用检测模型训练得到的，并且所述目标检测模型在发生交互时被第一新训练样本在线训练，所述第一新训练样本是根据所述当前目标的包围框真值生成的；

加载预先离线训练的目标重识别模型，并基于所述目标重识别模型对所述当前目标进行特征提取得到所述当前目标的重识别特征；其中，所述目标重识别模型是以标定有目标的重识别特征标注的图像帧为第二训练样本，以通用重识别模型对所述第二训练样本中目标的重识别特征的预测结果趋近于所述第二训练样本所标定的重识别特征标注为训练目标，对所述通用重识别模型训练得到的，并且所述目标重识别模型在发生交互时被第二新训练样本在线训练，所述第二新训练样本是根据所述当前目标所匹配轨迹的标识的真值生成的；

基于所述当前目标的重识别特征对所述当前目标进行轨迹匹配，并输出所述当前目标的类别、包围框和所匹配轨迹的标识。

优选的，对所述目标视频数据初始化处理得到待标注的目标图像帧，包括：

从所述目标视频数据中抽取初始图像帧；

对所述初始图像帧进行下采样得到目标图像帧。

优选的，所述目标检测模型包括第一主干模型和回归模型，所述回归模型包括区域候选网络和包围框优化网络，所述第一主干模型的输出端分别与所述区域候选网络的输入端、所述包围框优化网络的第一输入端连接，所述区域候选网络的输出端与所述包围框优化网络的第二输入端连接；

所述基于所述目标检测模型对所述目标图像帧进行目标检测得到所述目标图像帧中当前目标的类别和包围框，包括：

基于所述第一主干模型提取所述目标图像帧的第一特征图；

基于所述区域候选网络识别所述第一特征图中的候选包围框；

基于所述包围框优化网络对所述候选包围框的特征子图进行目标检测和包围框回归得到所述目标图像帧中当前目标的类别和包围框，所述候选包围框的特征子图为所述特征图中所述候选包围框所在的子区域，所述当前目标的包围框为置信度高于预设的置信度阈值的候选包围框。

优选的，所述根据所述当前目标的包围框的真值生成所述第一新训练样本的过程，包括：

在所述当前目标的包围框的真值所在区域周边的指定区域内生成多个包围框；

将所述多个包围框中与所述当前目标的包围框的真值的交并比大于等于指定交并比阈值的包围框作为正样本，以及将所述多个包围框中与所述当前目标的包围框的真值的交并比小于所述指定交并比阈值的包围框作为负样本，所述正样本的数量和所述负样本的数量符合预设数量均衡条件。

优选的，所述目标重识别模型包括第二主干模型和特征融合模型，所述第二主干模型的输出端与所述特征融合模型的输入端连接，所述特征融合模型中具有增强残差连接和可变形卷积；

所述基于所述目标重识别模型对所述当前目标进行特征提取得到所述当前目标的重识别特征，包括：

基于所述第二主干模型提取所述当前目标的子图像的第二特征图，所述当前目标的子图像为所述目标图像帧中所述当前目标的包围框所在的子区域；

基于所述特征融合模型对所述第二特征图的特征进行融合得到所述当前目标的重识别特征。

优选的，所述根据所述当前目标所匹配轨迹的标识的真值生成所述第二新训练样本的过程，包括：

根据所述当前目标所匹配轨迹的标识的真值确定待提取样本的目标轨迹的标识；

选取与所述目标轨迹的标识相对应的多个具有重识别特征的图像帧作为第二新训练样本。

优选的，所述基于所述当前目标的重识别特征对所述当前目标进行轨迹匹配，包括：

加载已标注的历史轨迹的属性信息，并根据所述属性信息计算所述历史轨迹的优先级，所述属性信息中包含所述历史轨迹中已标注的历史目标的重识别特征；

按照所述历史轨迹的优先级依次确定待匹配的当前历史轨迹；

根据所述当前目标的重识别特征和所述当前历史轨迹中历史目标的重识别特征计算所述当前目标和所述当前历史轨迹的特征相似度矩阵，并利用二分图匹配优化算法处理所述特征相似度矩阵以匹配所述当前目标和所述当前历史轨迹。

优选的，所述方法还包括：

针对所述当前目标中未匹配到轨迹的目标和所述历史轨迹中未匹配到目标的轨迹，获取所述目标的包围框和所述轨迹的包围框；

根据所述目标的包围框和所述轨迹的包围框计算所述目标和所述轨迹的包围框交并比矩阵，并利用所述二分图匹配优化算法处理所述包围框交并比矩阵以匹配所述目标和所述轨迹。

一种交互式视频数据标注装置，所述装置包括：

数据获取模块，用于获取目标视频数据，并对所述目标视频数据初始化处理得到待标注的目标图像帧；

目标检测模块，用于加载预先离线训练的目标检测模型，并基于所述目标检测模型对所述目标图像帧进行目标检测得到所述目标图像帧中当前目标的类别和包围框；其中，所述目标检测模型是以标定有目标的类别标注和包围框标注的图像帧为第一训练样本，以通用检测模型对所述第一训练样本中目标的类别和包围框的预测结果趋近于所述第一训练样本所标定的类别标注和包围框标注为训练目标，对所述通用检测模型训练得到的，并且所述目标检测模型在发生交互时被第一新训练样本在线训练，所述第一新训练样本是根据所述当前目标的包围框真值生成的；

目标重识别模块，用于加载预先离线训练的目标重识别模型，并基于所述目标重识别模型对所述当前目标进行特征提取得到所述当前目标的重识别特征；其中，所述目标重识别模型是以标定有目标的重识别特征标注的图像帧为第二训练样本，以通用重识别模型对所述第二训练样本中目标的重识别特征的预测结果趋近于所述第二训练样本所标定的重识别特征标注为训练目标，对所述通用重识别模型训练得到的，并且所述目标重识别模型在发生交互时被第二新训练样本在线训练，所述第二新训练样本是根据所述当前目标所匹配轨迹的标识的真值生成的；

轨迹匹配模块，用于基于所述当前目标的重识别特征对所述当前目标进行轨迹匹配，并输出所述当前目标的类别、包围框和所匹配轨迹的标识。

优选的，用于基于所述当前目标的重识别特征对所述当前目标进行轨迹匹配的所述轨迹匹配模块，具体用于：

加载已标注的历史轨迹的属性信息，并根据所述属性信息计算所述历史轨迹的优先级，所述属性信息中包含所述历史轨迹中已标注的历史目标的重识别特征；按照所述历史轨迹的优先级依次确定待匹配的当前历史轨迹；根据所述当前目标的重识别特征和所述当前历史轨迹中历史目标的重识别特征计算所述当前目标和所述当前历史轨迹的特征相似度矩阵，并利用二分图匹配优化算法处理所述特征相似度矩阵以匹配所述当前目标和所述当前历史轨迹。

本申请提供的交互式视频数据标注方法及装置，通过对目标视频数据初始化处理得到待标注的目标图像帧，进一步通过预先离线训练的目标检测模型对目标图像帧进行目标检测得到目标图像帧中当前目标的类别和包围框，更进一步通过预先离线训练的目标重识别模型对当前目标进行特征提取得到当前目标的重识别特征，最后通过当前目标的重识别特征对当前目标进行轨迹匹配从而输出当前目标的类别、包围框和所匹配轨迹的标识，且通过交互学习可以在线优化目标检测模型和目标重识别模型以适应当前标注视频场景。基于本发明，通过重识别特征做轨迹匹配大幅降低跟踪过程中目标标识频繁跳变的概率，实现低成本、高效率、大规模的视频多目标跟踪训练数据的标注。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的交互式视频数据标注方法的方法流程图；

图2为本发明实施例公开的交互式视频数据标注装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为方便理解本申请，首先对相关术语名称进行简单介绍，请参见以下表1：

术语名称	解释
		多目标跟踪	给出图像序列中运动物体在不同帧的标识和运动轨迹
目标检测	从图像中定位目标，给出类别和矩形包围框坐标信息
		目标重识别	判断图像或者视频序列中是否存在特定目标的技术
交互式	标注人员和系统之间存在交互作用的信息处理方式
		轨迹	目标在一个时间段内的位置序列
轨迹优先级	一个轨迹在当前帧所在时刻的匹配优先级

表1

本发明实施例提供一种交互式视频数据标注方法，该方法的方法流程图如图1所示，包括如下步骤：

S10，获取目标视频数据，并对目标视频数据初始化处理得到待标注的目标图像帧。

本实施例中，可以按照指定策略对目标视频数据进行帧抽取，该指定策略包括但不局限于逐帧帧抽取、固定间隔帧抽取和指定时间范围帧抽取中的一个或多个。

而在实际应用中，为保证目标图像帧的格式符合视频处理的要求，在按照上述指定策略从目标视频数据中抽取初始图像帧后，进一步对初始图像帧进行下采样得到目标图像帧。在下采样的过程中，根据目标视频数据的数据头信息对初始图像帧进行尺寸控制，对大于指定尺寸的初始图像帧进行诸如2倍的下采样，直到小于该指定尺寸，以此来降低计算量。

当然，受限于目标视频数据以时间戳为标记的特性，在目标视频数据初始化处理的过程中需要对目标图像帧进行帧号与时间戳的互映射，得到包含所有目标图像帧的帧号与时间戳的互映射表。

S20，加载预先离线训练的目标检测模型，并基于目标检测模型对目标图像帧进行目标检测得到目标图像帧中当前目标的类别和包围框；其中，目标检测模型是以标定有目标的类别标注和包围框标注的图像帧为第一训练样本，以通用检测模型对第一训练样本中目标的类别和包围框的预测结果趋近于第一训练样本所标定的类别标注和包围框标注为训练目标，对通用检测模型训练得到的，并且目标检测模型在发生交互时被第一新训练样本在线训练，第一新训练样本是根据当前目标的包围框真值生成的。

本实施例中，目标检测模型可以以诸如神经网络模型作为通用检测模型训练得到。

另外，当前目标的包围框的真值是通过与用户的交互操作获得的。为增强目标检测模型对目标的检测性能，当标注人员发现目标检测模型的检测结果有偏移时，可以通过终端与目标检测模型进行交互以实现对目标检测模型的参数进行指定迭代次数的更新。在获取到当前目标的包围框的真值的情况下，根据当前目标的包围框的真值生成第一新训练样本在线训练目标检测模型。

优选的，根据当前目标的包围框的真值生成第一新训练样本的过程，包括：

在当前目标的包围框的真值所在区域周边的指定区域内生成多个包围框；将多个包围框中与当前目标的包围框的真值的交并比大于等于指定交并比阈值的包围框作为正样本，以及将多个包围框中与当前目标的包围框的真值的交并比小于指定交并比阈值的包围框作为负样本，正样本的数量和负样本的数量符合预设数量均衡条件。

本实施例中，先在当前目标的包围框的真值所在区域内随机生成一定数量的包围框，将其中与当前目标的包围框的真值的交并比(IOU)大于等于指定交并比阈值的包围框作为正样本、与当前目标的包围框的真值的交并比小于指定交并比阈值的包围框作为负样本，且正样本和负样本的数量相均衡，也就是正样本的数量和负样本的数量相差不大、在一定的数量允许范围内。

而在在线训练目标检测模型的过程中，将将正负样本特征随机打乱，输入目标检测模型做前馈来计算目标检测模型的损失，再做后馈更新目标检测模型的参数，以此完成样本集的一次迭代，而前馈和后馈的次数则可以根据正负样本的数量来确定。

优选的，为提高目标检测的性能，目标检测模型包括第一主干模型和回归模型，回归模型包括区域候选网络和包围框优化网络，第一主干模型的输出端分别与区域候选网络的输入端、包围框优化网络的第一输入端连接，区域候选网络的输出端与包围框优化网络的第二输入端连接。

本实施例中，第一主干模型可以选取VGG、Google-Net、Resnet等系列的网络，网络层可以是卷积层、池化层、激活层和批归一化层等不同网络层通过并联、或者串联、或者短路连接、或者其他连接方式的叠加所构建的。在模型训练阶段，利用公共数据集(即业界内开源的大规模的图像数据集)对该第一主干模型进行训练，以实现提取图像的公共特征。

此外，回归模型可以选取Selective-Search、RPN和线性回归、全连接层相结合的架构形式。

相应的，步骤S20中“基于目标检测模型对目标图像帧进行目标检测得到目标图像帧中当前目标的类别和包围框”，包括如下步骤：

基于第一主干模型提取目标图像帧的第一特征图；基于区域候选网络识别第一特征图中的候选包围框；基于包围框优化网络对候选包围框的特征子图进行目标检测和包围框回归得到目标图像帧中当前目标的类别和包围框，候选包围框的特征子图为特征图中候选包围框所在的子区域，当前目标的包围框为置信度高于预设的置信度阈值的候选包围框。

本实施例中，区域候选网络可以以第一卷积层作为通用模型训练得到，通过训练后的第一卷积层可以识别第一特征图中的候选包围框。

包围框优化网络可以以softmax层、第二卷积层、全连接层和第三卷积层作为通用模型训练得到。训练后的softmax层判断候选包围框内的图像属于前景还是背景，并确定属于前景的候选包围框的坐标信息；训练后的第二卷积层基于第一特征图和该坐标信息提取属于前景的候选包围框的特征子图；训练后的全连接层识别特征子图的目标的类别，并选择置信度高于预设置信度阈值的候选包围框作为高置信度候选包围框；训练后的第三卷积层对高置信度候选包围框做回归确定位置精确的包围框。

进一步，为增强目标检测模型对目标的检测性能，当标注人员发现目标检测模型的检测结果有偏移时，可以通过终端与目标检测模型进行交互以实现对目标检测模型的参数进行指定迭代次数的更新。在交互时，第一主干模型的参数固定不变，只更新回归模型的参数。

在在线训练回归模型的过程中，将正负样本特征随机打乱，输入回归模型做前馈来计算回归模型的损失，再做后馈更新回归模型的参数，以此完成样本集的一次迭代，而前馈和后馈的次数则可以根据正负样本的数量来确定。其中，回归模型所使用的损失函数如以下公式(1)所示：

其中，L_loc为平滑L1(Smoothed L1)位置损失函数，f(x,b)为回归器函数，x_i为候选包围框内的图像，b_i为回归模型输出的包围框，g_i为包围框的真值，L_cls为交叉熵损失函数，h(x)＝p(y＝k|x)为预测概率值，y_i为类标签真值。

在实际应用中，目标检测模型的相关启动参数如下表2所示：

参数名	简称	参考值
			图像测试尺度	SCALES	600
非极大值抑制阈值	NMS	0.3
			候选网络样本数量	POST_NMS_top_N	300
包围框置信度阈值	CONF	0.6
			正样本交并比	POSITIVE_OVERLAP	0.7
负样本交并比	NEGATIVE_OVERLA	0.3
			正样本比例	FG_FRACTION	0.5
总样本数	TOTAL_EXAMS	512

表2

以上参数的使用说明如下：

对于一目标图像帧，可以将其最长边缩放至SCALES，送入第一主干模型提取第一特征图；区域候选网络选取POST_NMS_TOP_N个置信度大于CONF的候选包围框，送入包围框优化网络获得位置精确的包围框；包围框优化网络对位置精确的包围框做非极大值抑制，阈值为NMS。

S30，加载预先离线训练的目标重识别模型，并基于目标重识别模型对当前目标进行特征提取得到当前目标的重识别特征；其中，目标重识别模型是以标定有目标的重识别特征标注的图像帧为第二训练样本，以通用重识别模型对第二训练样本中目标的重识别特征的预测结果趋近于第二训练样本所标定的重识别特征标注为训练目标，对通用重识别模型训练得到的，并且目标重识别模型在发生交互时被第二新训练样本在线训练，第二新训练样本是根据当前目标所匹配轨迹的标识的真值生成的。

本实施例中，目标重识别模型可以以诸如神经网络模型作为通用检测模型训练得到。

另外，当前目标所匹配轨迹的标识的真值是通过与用户的交互操作获得的。当标注人员发现轨迹匹配的结果有偏移时，可以通过终端与目标重识别模型进行交互以实现对目标重识别模型进行指定迭代次数的更新。在获取到当前目标所匹配轨迹的标识的真值的情况下，根据当前目标所匹配轨迹的标识的真值生成第二新训练样本在线训练目标重识别模型。

优选的，根据当前目标所匹配轨迹的标识的真值生成第二新训练样本的过程，包括：

根据当前目标所匹配轨迹的标识的真值确定待提取样本的目标轨迹的标识；选取与目标轨迹的标识相对应的多个具有重识别特征的图像帧作为第二新训练样本。

本实施例中，用来做样本提取的目标轨迹的选择策略如下：

若新轨迹标识被修改为已标注的历史轨迹的标识，选择所有历史轨迹进行样本提取；若一历史轨迹的标识被修改为其他历史轨迹的标识，选择被修改的历史轨迹提取样本；若一历史轨迹的标识被修改为一个新轨迹的标识，选择该新轨迹和被修改的历史轨迹提取样本。

进一步，选取目标轨迹的标识相对应的最近N帧的具有重识别特征的图像帧作为第二新训练样本。当然，若第二新训练样本不足N个，则进行数据增强(有N种图像增强方式)，若轨迹的样本充足，则不进行增强操作，

而在在线训练目标重识别模型的过程中，将第二新训练样本的重识别特征随机打乱，输入目标重识别模型做前馈来计算目标重识别模型的损失，再做后馈更新目标重识别模型的参数，以此完成样本集的一次迭代，而前馈和后馈的此时则可以根据第二新训练样本的数量来确定。优选的，为提高目标重识别的性能，目标重识别模型包括第二主干模型和特征融合模型，第二主干模型的输出端与特征融合模型的输入端连接，特征融合模型中具有增强残差连接和可变形卷积。

本实施例中，第二主干模型可以选取Mobile-Net、ZFNet等系列的网络，特征融合模型可以选取Dense-Net、FPN等网络。在模型训练阶段，利用公共数据集对该第二主干模型进行训练，以实现提取图像的公共特征。第二主干模型的网络层类型和连接方式与第一主干模型一致，但相较于第一主干模型，其网络层数和参数的数量相对较少。

此外，特征融合模型中加入增强残差连接和可变形卷积，来提高对非刚性目标特征的表达能力。增强残差连接可以更好地对梯度变化小的参数进行训练和优化，且其融合了低层特征和高层特征，使提取的特征具有更好的融合性。可变形卷积通过给每个取样点加上偏置值，使卷积操作的取样范围不再局限于规则格点中，能够在规则取样点附近进行取样，提高了模型对几何形变特征的提取能力。

增强残差连接的定义如以下公式(2)所示：

y＝F(x,{W_i})+x+x' (2)

其中，x为输入特征，x'表示增强残差连接，y表示输出特征，F(x,{W_i})代表将要拟合的残差映射，W_i为需要学习的权重。

可变形卷积的定义如以下公式(3)所示：

y(p₀)＝∑w(p_n)·x(p₀+p_n+Δp_n) (3)

其中，x为输入特征图，p_n列举了卷积核中的位置，Δp_n为感受野的偏置值，w为对应的权重，y为输出特征图，p₀为y上每个位置的坐标值。

相应的，步骤S30中“基于目标重识别模型对当前目标进行特征提取得到当前目标的重识别特征”包括如下步骤：

基于第二主干模型提取当前目标的子图像的第二特征图，当前目标的子图像为目标图像帧中当前目标的包围框所在的子区域；基于特征融合模型对第二特征图的特征进行融合得到当前目标的重识别特征。

本实施例中，第二主干模型提取当前目标的公共特征，特征融合模型从公共特征中提取具有更好融合性和更强表达能力的目标特征，也就是重识别特征。

进一步，为增强目标重识别模型对目标的重识别性能，当标注人员发现轨迹匹配的结果有偏移时，可以通过终端与目标重识别模型进行交互以实现对目标重识别模型进行指定迭代次数的更新。在交互时，第二主干模型的参数固定不变，只更新特征融合模型的参数。在在线训练特征融合模型的过程中，将第二新训练样本的重识别特征随机打乱，输入特征融合模型中做前馈来计算特征融合模型的损失，再做后馈更新特征融合模型的参数，以此完成样本集的一次迭代，而前馈和后馈的此时则可以根据第二新训练样本的数量来确定。其中，特征融合模型所使用的损失函数如以下公式(4)所示：

其中，x为输入特征，p为轨迹的标识的真值，q为输出特征，H(p,q)为交叉熵损失函数。

在实际应用中，目标重识别模型的相关启动参数如下表3所示：

参数名	简称	参考值
			单类样本数	CLASS_SAMPLES	32
样本批大小	BATCH_SIZE	8
			目标特征维度	FEAT_DIM	128

表3

以下参数的使用说明如下：

目标重识别模型获得目标检测输出的目标图像帧中的所有目标的包围框，按批次送入第二主干模型和特征融合模型中来获得每个目标的重识别特征，批大小为BATCH_SIZE，所得重识别特征的维度为FEAT_DIM。

在线训练目标重识别特征时，每类目标轨迹所选取的最近N帧的具有重识别特征的图像帧作为第二新训练样本，N为单类样本数CLASS_SAMPLES。

需要说明的是，在进行交互时，定义两种交互方式：人主动交互、机器提示交互。人主动交互可以随时发生，而机器提示交互的条件为目标的轨迹标识对应的置信度低于指定阈值。

根据交互的密度和次数，进行交互状态维护。当交互平均次数和密度呈平滑下降趋势且小于指定阈值时，交互状态维持在接受状态，根据交互信息持续更新对应的模型参数。当交互平均次数和密度大于指定阈值时，交互状态维持在拒绝状态，终止交互并直接采用系统的标注结果。

S40，基于当前目标的重识别特征对当前目标进行轨迹匹配，并输出当前目标的类别、包围框和所匹配轨迹的标识。

本实施例中，可以通过依次计算历史轨迹和当前目标的特征相似度矩阵来为当前目标匹配轨迹。

而为降低稳定轨迹被短暂虚警中断的概率，本实施例考虑所有历史轨迹的优先级，依次降低目标标识跳变和无规则漂移现象的发生次数。具体实现过程中，步骤S40中“基于当前目标的重识别特征对当前目标进行轨迹匹配”，包括如下步骤：

加载已标注的历史轨迹的属性信息，并根据属性信息计算历史轨迹的优先级，属性信息中包含历史轨迹中已标注的历史目标的重识别特征；按照历史轨迹的优先级依次确定待匹配的当前历史轨迹；根据当前目标的重识别特征和当前历史轨迹中历史目标的重识别特征计算当前目标和当前历史轨迹的特征相似度矩阵，并利用二分图匹配优化算法处理特征相似度矩阵以匹配当前目标和当前历史轨迹。

本实施例中，属性信息包括但不局限于轨迹标识、轨迹中各目标对应包围框的尺寸、轨迹年龄(目标第一次出现到当前帧的帧数)、轨迹上次更新时间(最近一次匹配到目标时所在帧的帧号)、轨迹中断次数(上一帧匹配到、当前帧未匹配到称为中断一次)、轨迹命中次数(匹配到目标的次数)、轨迹中各目标的重识别特征、轨迹当前状态(包括试验、确认、删除等)、轨迹样本池大小等。

在计算历史轨迹的优先级时，可以采用如下公式(5)计算：

其中，u为上次更新时间，a为轨迹年龄，b为轨迹中断次数，η为轨迹当前状态，λ为平衡权重。定义轨迹的三种状态——试验状态(1)、确认状态(2)、删除状态(0)。

对于目标图像帧中检测到的所有当前目标{T1}，根据当前目标的重识别特征计算其与已标注的所有轨迹{G1}中所有样本的距离集合{D1}，进一步根据距离度量策略对距离集合{D1}进行处理，得到特征相似度矩阵S¹＝[s_ij]，其中，i∈G¹、j∈T¹、s_ij∈D¹。并且距离的计算方式可以是欧式距离、余弦距离、马氏距离、切比雪夫距离等。距离度量策略通常包括最小值策略、平均值策略等。

根据每个历史轨迹的优先级，将所有历史轨迹划分为U个集合，其中U为优先级深度(即距上次更新后所经过的最大允许时间)。按照轨迹集合的优先级，以从高到低的方式进行优先级匹配，具体通过当前轨迹集合中的轨迹和未被匹配命中的目标从上述特征相似度矩阵S¹中获取子相似度矩阵

进一步利用二分图匹配优化算法进行匹配，其中，u∈U、

二分图匹配优化算法可以是最大流算法、匈牙利算法、KM算法等。

此时可以输出目标与历史轨迹的匹配对、未匹配到目标的历史轨迹和未匹配到历史轨迹的目标三种结果。在其他一些实施例中，为减少未匹配对象和虚警轨迹的数量，降低轨迹发生中断的次数，提高跟踪的稳定性，本实施例还可以进一步进行尺度匹配，包括如下步骤：

针对当前目标中未匹配到轨迹的目标和历史轨迹中未匹配到目标的轨迹，获取目标的包围框和轨迹的包围框；根据目标的包围框和轨迹的包围框计算目标和轨迹的包围框交并比矩阵，并利用二分图匹配优化算法处理包围框交并比矩阵以匹配目标和轨迹。

本实施例中，轨迹的包围框为该轨迹中目标最近一次所在的包围框。

根据当前目标中所有未匹配到轨迹的目标{T2}，计算其与历史轨迹中未匹配到目标的轨迹{G2}中所有样本的包围框的包围框交并比矩阵S2，利用二分图匹配优化算法进行匹配，二分图匹配优化算法可以是最大流算法、匈牙利算法、KM算法等。

因此，本实施例中采用基于优先级匹配和尺度匹配的方法逐帧生成所有目标所匹配轨迹的标识，此时可以动态更新所有历史轨迹的属性信息、以及生成新轨迹并初始化。具体的：

对于匹配对中包含的历史轨迹和目标，将目标加入对应历史轨迹中，并更新历史轨迹的属性信息。若属性信息中上次更新时间u的值大于U，则其状态转换为删除状态；若属性信息中轨迹年龄a的值大于I，则其状态转换为确认状态，通常I＝3。

对于未匹配到轨迹的目标，将其初始化为新轨迹，为其分配新标识，状态为试验状态，上次更新时间u、轨迹年龄a、轨迹中断次数b均为0。

对于未匹配到目标的轨迹，更新其属性信息，包括上次更新时间u、轨迹年龄a、轨迹中断次数b、轨迹当前状态η等。

在实际应用中，轨迹匹配的相关启动参数如下表3所示：

参数名	简称	参考值
			检测包围框置信度	MIN_CONF	0.4
检测包围框最小高度	MIN_DET_HEIGHT	200
			非极大值抑制阈值	NMS_MAX_OVERLAP	0.8
距离门控阈值	MAX_DISTANCE	0.2
			轨迹样本池大小	NN_BUDGET	100

表4

以上参数的使用说明如下：

获取目标图像帧所有目标的类别、包围框和重识别特征，根据类别的置信度和高度对包围框进行过滤，类别置信度阈值和最小高度阈值分别为MIN_CONF和MIN_DET_HEIGHT。同时，进行非极大值抑制操作，阈值为NMS_MAX_OVERLAP。轨迹样本池用于存储轨迹中已标注的历史目标的重识别特征，大小为NN_BUDGET。

在优先级匹配中，计算历史轨迹和目标图像帧中所有目标的相似度矩阵时，若相似度矩阵中某个值大于距离门控阈值MAX_DISTANCE，则将该值设置为一个较大值(如100000)。

本发明实施例提供的视频数据标注方法，通过重识别特征做轨迹匹配大幅降低跟踪过程中目标标识频繁跳变的概率，实现低成本、高效率、大规模的视频多目标跟踪训练数据的标注。

基于上述实施例提供的交互式视频数据标注方法，本发明实施例则对应提供执行上述交互式视频数据标注方法的装置，该装置的结构示意图如图2所示，包括：

数据获取模块10，用于获取目标视频数据，并对目标视频数据初始化处理得到待标注的目标图像帧；

目标检测模块20，用于加载预先离线训练的目标检测模型，并基于目标检测模型对目标图像帧进行目标检测得到目标图像帧中当前目标的类别和包围框；其中，目标检测模型是以标定有目标的类别标注和包围框标注的图像帧为第一训练样本，以通用检测模型对第一训练样本中目标的类别和包围框的预测结果趋近于第一训练样本所标定的类别标注和包围框标注为训练目标，对通用检测模型训练得到的，并且目标检测模型在发生交互时被第一新训练样本在线训练，第一新训练样本是根据当前目标的包围框真值生成的；

目标重识别模块30，用于加载预先离线训练的目标重识别模型，并基于目标重识别模型对当前目标进行特征提取得到当前目标的重识别特征；其中，目标重识别模型是以标定有目标的重识别特征标注的图像帧为第二训练样本，以通用重识别模型对第二训练样本中目标的重识别特征的预测结果趋近于第二训练样本所标定的重识别特征标注为训练目标，对通用重识别模型训练得到的，并且目标重识别模型在发生交互时被第二新训练样本在线训练，第二新训练样本是根据当前目标所匹配轨迹的标识的真值生成的；

轨迹匹配模块40，用于基于当前目标的重识别特征对当前目标进行轨迹匹配，并输出当前目标的类别、包围框和所匹配轨迹的标识。

可选的，用于对目标视频数据初始化处理得到待标注的目标图像帧的数据获取模块10，具体用于：

从目标视频数据中抽取初始图像帧；对初始图像帧进行下采样得到目标图像帧。

可选的，目标检测模型包括第一主干模型和回归模型，回归模型包括区域候选网络和包围框优化网络，第一主干模型的输出端分别与区域候选网络的输入端、包围框优化网络的第一输入端连接，区域候选网络的输出端与包围框优化网络的第二输入端连接；

可选的，用于基于目标检测模型对目标图像帧进行目标检测得到目标图像帧中当前目标的类别和包围框的目标检测模块20，具体用于：

可选的，目标检测模块20根据当前目标的包围框的真值生成第一新训练样本的过程，包括：

可选的，目标重识别模型包括第二主干模型和特征融合模型，第二主干模型的输出端与特征融合模型的输入端连接，特征融合模型中具有增强残差连接和可变形卷积；

用于基于目标重识别模型对当前目标进行特征提取得到当前目标的重识别特征的目标重识别模块30，具体用于：

可选的，目标重识别模块30根据当前目标所匹配轨迹的标识的真值生成第二新训练样本的过程，包括：

可选的，用于基于当前目标的重识别特征对当前目标进行轨迹匹配的轨迹匹配模块40，具体用于：

可选的，轨迹匹配模块40，还用于：

本发明实施例提供的交互式视频数据标注装置，通过重识别特征做轨迹匹配大幅降低跟踪过程中目标标识频繁跳变的概率，实现低成本、高效率、大规模的视频多目标跟踪训练数据的标注。

以上对本发明所提供的一种交互式视频数据标注方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素，或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种交互式视频数据标注方法，其特征在于，所述方法包括：

基于所述当前目标的重识别特征对所述当前目标进行轨迹匹配，并输出所述当前目标的类别、包围框和所匹配轨迹的标识；

所述基于所述当前目标的重识别特征对所述当前目标进行轨迹匹配，包括：

根据所述当前目标的重识别特征和所述当前历史轨迹中历史目标的重识别特征计算所述当前目标和所述当前历史轨迹的特征相似度矩阵，并利用二分图匹配优化算法处理所述特征相似度矩阵以匹配所述当前目标和所述当前历史轨迹；

所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，对所述目标视频数据初始化处理得到待标注的目标图像帧，包括：

从所述目标视频数据中抽取初始图像帧；

对所述初始图像帧进行下采样得到目标图像帧。

3.根据权利要求1所述的方法，其特征在于，所述目标检测模型包括第一主干模型和回归模型，所述回归模型包括区域候选网络和包围框优化网络，所述第一主干模型的输出端分别与所述区域候选网络的输入端、所述包围框优化网络的第一输入端连接，所述区域候选网络的输出端与所述包围框优化网络的第二输入端连接；

基于所述第一主干模型提取所述目标图像帧的第一特征图；

4.根据权利要求1所述的方法，其特征在于，所述根据所述当前目标的包围框的真值生成所述第一新训练样本的过程，包括：

5.根据权利要求1所述的方法，其特征在于，所述目标重识别模型包括第二主干模型和特征融合模型，所述第二主干模型的输出端与所述特征融合模型的输入端连接，所述特征融合模型中具有增强残差连接和可变形卷积；

6.根据权利要求1所述的方法，其特征在于，所述根据所述当前目标所匹配轨迹的标识的真值生成所述第二新训练样本的过程，包括：

7.一种交互式视频数据标注装置，其特征在于，所述装置包括：

轨迹匹配模块，用于基于所述当前目标的重识别特征对所述当前目标进行轨迹匹配，并输出所述当前目标的类别、包围框和所匹配轨迹的标识；

具体用于：