CN114693979A

CN114693979A - 一种基于伪标签修正的多目标跟踪无监督域适应方法

Info

Publication number: CN114693979A
Application number: CN202210368119.9A
Authority: CN
Inventors: 王润发; 于慧敏; 齐国栋; 卢朝晖; 顾建波
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-07-01

Abstract

本发明公开了一种基于伪标签修正的多目标跟踪无监督域适应方法。该方法首先使用对抗生成网络对源数据域的图像进行向目标数据域的风格转换；然后在域适应模型训练的过程中，在每一轮训练结束后使用当前模型在目标数据域生成伪标签，并对伪标签进行修正后加入到域适应训练当中；最后训练结束获得最终的跟踪网络。该方法可以通过不断调优修正目标域的伪标签监督信息加入域适应训练，使得跟踪模型更好的学习到具备域不变性质的特征，在无监督信息的目标数据域获得接近监督学习的性能。

Description

一种基于伪标签修正的多目标跟踪无监督域适应方法

技术领域

本发明属于计算机视觉、智能识别技术领域，特别地涉及到一种基于伪标签修正的多目标跟踪无监督域适应方法。

背景技术

多目标跟踪作为计算机视觉领域一项重要的基础任务，通过分析视频帧图像序列的视觉、运动等信息，完成对感兴趣目标的定位和身份确认，其在工程上有着广泛的应用，如自动驾驶、视频监控、行为预测、交通管理等。随着深度学习技术的快速发展，得益于深度网络对图像目标强大的特征表示能力，多目标跟踪技术也得到进一步发展。

多目标跟踪系统通常包含目标检测和数据关联两个部分，其中目标检测部分可以对图像中出现的目标进行定位，数据关联部分则依据目标轨迹在外形、运动等信息上的连续性，为检测出的目标赋予身份ID，完成轨迹与检测结果的数据关联。基于此流程的多种实现形式，多目标跟踪方法可分为基于外观特征距离的跟踪方法、基于运动信息的跟踪方法、基于视频片段的跟踪方法等。本发明所描述的无监督域适应方法以较为流行的基于外观特征距离的跟踪框架为例，但并不限于该种形式，而是适用于所有以深度网络为基础的多目标跟踪范式。

通过使用包含监督信息的数据集在深度网络上的训练，多目标跟踪模型可以在当前数据集(源数据域)上拟合到较为良好的性能，但当应用到其他场景的数据(目标数据域)上时，由于数据间分布的差异(例如季节的变化、虚拟合成与现实拍摄、相机参数不同等)，模型不能很好发挥其性能。由于多目标跟踪所需要的身份级别的监督信息标注是一项复杂而耗时的工作，现实应用中的大多数应用场景并没有真值标注，如果可以通过使用无监督域适应的方法，将深度跟踪模型在有监督信息的数据集上训练获得的性能，更好的迁移到没有标注的应用场景数据集，将极大的节省人工复杂标注的成本，提升工作效率。

无监督域适应方法经过长期的研究和发展，已经在图像分类、目标检测、行人重识别等领域取得了一定成果，但尚未有在多目标跟踪领域相关的工作；与本发明较为相关的无监督多目标跟踪方法，旨在于完全没有监督信息的数据集上进行多目标跟踪的施行，其问题的设定和实现的方式与无监督域适应跟踪存在差异，并不能直接应用到当前问题中来。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于伪标签修正的多目标跟踪无监督域适应方法。

本发明的目的是通过以下技术方案来实现的：一种基于伪标签修正的多目标跟踪无监督域适应方法。包括以下步骤：

为实现上述目的，本发明采用如下技术方案：先输入包含完整监督信息的源域数据D_s{x_s，(Box_s，ID_s)}、不包含标签的目标域数据D_t{x_t}，进行以下步骤处理：

步骤1：使用图像风格转换模型G进行源域数据D_s{x_s，(Box_s，ID_s)}向目标域数据D_t{x_t}的风格迁移，获得转换后的数据集

转换后数据x_s经过风格迁移成为x_s′，但标签信息(Box_s，ID_s)保持不变。合并D′_s和D_t形成域适应训练数据集。

步骤2：对数据集进行随机采样，使得训练每个批次包含等数量的D′_s和D_t来源数据；

步骤3：为原始的多目标跟踪模型添加域适应训练所需的模块，具体改动为：给模型中的特征提取深度网络F添加梯度反转层GRL和域分类器D，其中梯度反转层负责在训练过程中对梯度取负再进行回传，域分类器负责对特征提取网络进行域的分类(源域、目标域)，域适应训练的目标为：

其中，x表示输入数据，err表示域分类器对特征分类的错误概率，该min-max问题的优化通过在特征提取网络和域分类器中间添加梯度反转层，进行对抗训练来实现；

步骤4：进行一个阶段的多目标跟踪模型的域适应训练，获得当前训练阶段的模型M_curr；

步骤5：使用当前训练阶段的跟踪模型M_curr和目标域数据集D_t{x_t}，获得粗糙的伪标签(Box_p，ID_p)；

步骤5：将目标域数据集D_t{x_t}以及粗糙的伪标签(Box_p，ID_p)送入伪标签修正模块，通过正向和反向遍历帧序列的单目标跟踪器预测来补全目标轨迹，以获得修正后的更为准确的伪标签(Box_p′，ID_p′)，具体步骤如下：

步骤5.1：正向遍历目标域数据的帧图像，使用粗糙的伪标签(Box_p，ID_p)在每张帧图像上，对于每张图像上新出现的目标，建立基于视觉信息的单目标跟踪器，基于视觉特征在帧间的连续性进行后续帧的位置预测；

步骤5.2：对于已经建立单目标跟踪器的目标，在之后的每一帧中进行预测结果与伪标签位置的交叠覆盖度匹配，如果达成匹配则继续跟踪，不能达成匹配则标记暂时丢失，并在之后的帧中继续运行单目标跟踪器，尝试进行匹配；

步骤5.3：对于步骤5.2描述中标记暂时丢失的目标，若持续匹配失败超过一定帧数，则认为该目标已经离开帧图像视野，删除该单目标跟踪器，停止匹配。若标记暂时丢失的目标在之后的帧中达成了匹配，则以单目标跟踪器预测的位置为结果，补全中间匹配失败的几帧的目标轨迹，加入伪标签{Box_p，ID_p}中；

步骤5.4：反向遍历目标域数据的帧图像，重复步骤5.1至步骤5.3的标签修正步骤；

步骤5.5：将正向遍历和反向遍历获得的伪标签结果进行融合，对目标轨迹取并集，输出修正完成后的伪标签(Box_p′，ID_p′)。

步骤6：将修正后的伪标签作为目标域数据的监督信息，组合当前的目标域数据D_t{x_t，(Box_p′，ID_p′)}和风格转换后的源域数据D′_s{x_s′，(Box_s，ID_s)}形成新的数据集，重复步骤2～步骤6，直至域适应模型的训练收敛，结束训练获取最终的域适应模型M_out；

与现有技术相比，本发明的有益效果是：本发明是一种基于伪标签修正的多目标跟踪无监督域适应方法，首先使用图像风格转换模型拉近源域数据与目标域数据在原始图像上的分布差异，再通过使用基于添加梯度反转层和域分类器的对抗训练来进行模型域适应能力的学习，最后在训练过程中不断加入修正后的目标域数据伪标签，从而提升多目标跟踪模型在目标域上的泛化性能。本发明可以极大降低多目标跟踪模型在实际应用场景中的人工打标成本，提升模型在开放环境下包含差异的数据域中的泛化性能，更好的应用到实际场景。

附图说明

图1为本发明基于伪标签修正的无监督域适应训练流程图；

图2为本发明伪标签修正流程图；

图3为本发明域适应训练模型网络架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述可以完全理解本发明。

参考图1，所示为本发明实施例的基于伪标签修正的多目标跟踪无监督域适应方法步骤流程图。

输入包含完整监督信息的源域数据D_s{x_s，(Box_s，ID_s)}、不包含标签的目标域数据D_t{x_t}，其中x_s、x_t表示视频帧图像序列，Box_s表示跟踪目标的包围框标注信息，ID_s表示每个跟踪目标的身份信息。进行以下步骤处理：

步骤1：训练由源域数据D_s{x_s，(Box_s，ID_s)}向目标域数据D_t{x_t}的风格迁移模型G。模型G采用CycleGAN模型，其训练不需要源域数据和目标域数据的一一对应，模型损失函数L_G设置为：

其中D_s为源域数据，D_t为目标域数据，L_GAN为对抗生成损失，包含从源域向目标域转换的损失和从目标域向源域转换的损失；L_cyc表示循环一致性loss；

分别表示源域向目标域、目标域向源域的生成器；B_s、B_t表示上述两者的鉴别器。以源域向目标域转换的损失为例，具体为：

其中

表示在D_s和D_t上的期望。L_cyc表示循环一致性loss，表示源域数据和目标域数据相互转换的一致性损失，具体表示为：

使用训练好的模型G进行源域数据的风格转换，获得转换后的数据集

合并D′_s和D_t形成域适应训练数据集。

步骤3：参考图3多目标跟踪模块，本发明使用较为流行的端到端基于目标检测和重识别特征reid匹配的多目标跟踪模型，图像输入模型后，首先经过特征提取网络F1和F2得到视觉特征图，经过特征组合增强后输入预测分支可以得到用于目标定位的分类回归信息和用于数据关联的外观特征向量。

多目标跟踪网络的损失函数L_track包含前景分类预测损失l_cls、包围框回归预测损失的l_reg和重识别特征预测的分类损失l_reid，具体表示形式为：

l_track＝l_cls+l_reg+l_reid

l_reg＝1-IoU(box_gt，box_pred)

其中，l_cls为分类分支的交叉熵损失，H、W为特征图的宽和高，p_i为特征图上一点为前景的真值概率，

为特征图上一点为前景的预测概率；l_reg为回归分支的IoU(交叠覆盖度)损失，其中box_gt为真值包围框位置，box_pred为预测包围框所在位置；l_reid为重识别特征的分类交叉熵损失，其中N为当前图像上目标的个数，e_i为一个目标的真值分类向量，

为一个目标的预测分类向量。

参考图3域适应模块，对多目标跟踪模型的具体改动为：给模型中的特征提取深度网络F1、F2输出处分别添加梯度反转层GRL和域分类器D1、D2，其中梯度反转层负责在训练过程中对梯度取负再进行回传，域分类器负责对特征提取网络进行域的分类(源域、目标域)。域分类器D1输入为浅层网络传入的低级别视觉特征，为像素级别的域分类；域分类器D2输入为经过池化的高级别特征，为特征的整体域分类。域适应部分训练的目标为：

其中x表示输入图像，err表示域分类器对特征分类的错误概率，该min-max问题的优化通过在特征提取网络和域分类器中间添加梯度反转层，进行对抗训练来实现。

步骤4：进行1个epoch的多目标跟踪域适应训练，获得当前训练阶段的模型Mc_urr；

步骤5：将目标域数据集D_t{x_t}以及粗糙的伪标签(Box_p，ID_p)送入伪标签修正模块，通过正向和反向遍历帧序列的单目标跟踪器预测来补全目标轨迹，以获得修正后的更为准确的伪标签(Box_p′，ID_p′)具体步骤如下：

步骤5.1：正向遍历目标域数据的帧图像，使用粗糙的伪标签(Box_p，ID_p)在每张帧图像上，对于每张图像上新出现的目标，建立基于孪生网络的单目标跟踪器，基于视觉特征在帧间的连续性进行后续帧的位置预测；

步骤5.3：对于步骤5.2描述中标记暂时丢失的目标，若持续匹配失败10帧，则认为该目标已经离开帧图像视野，删除该单目标跟踪器，停止匹配。若标记暂时丢失的目标在之后的帧中达成了匹配，则以单目标跟踪器预测的位置为结果，补全中间匹配失败的几帧的目标轨迹，加入伪标签{Box_p，ID_p}中，获得正向补全轨迹标签{Box_fwd，ID_fwd}；

步骤5.4：反向遍历目标域数据的帧图像，重复步骤5.1至步骤5.3的标签修正步骤，获得反向补全轨迹标签{Box_bkd，ID_bkd}

步骤5.5：将正向遍历和反向遍历获得的伪标签结果获得正向补全轨迹标签{Box_fwd，ID_fwd}、{Box_bkd，ID_bkd}取并集，输出修正完成后的伪标签(Box_p′，ID_p′)。

步骤6：将修正后的伪标签作为目标域数据的监督信息，组合当前的目标域数据D_t{x_t，(Box_p′，ID_p′)}和风格转换后的源域数据D′_s{x_s，，(Box_s，ID_s)}形成新的数据集，重复步骤2～步骤6，进行域适应模型的训练收敛，直至模型达到损失函数低于固定阈值，结束训练获取最终的域适应模型M_out；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于伪标签修正的多目标跟踪无监督域适应方法，其特征在于，具体包括如下步骤：

(1)形成域适应训练数据集：使用图像风格转换模型G进行源域数据D_s{x_s，(Box_s，ID_s)}向目标域数据D_t{x_t}的风格迁移，获得转换后的数据集

合并D′_s和D_t形成域适应训练数据集；

(2)训练获得跟踪模型：使用并D′_s和D_t形成的训练数据集，进行一个阶段的多目标跟踪模型的域适应训练，获得当前训练阶段的跟踪模型M_curr；

(3)获得粗糙的伪标签：使用当前训练阶段的跟踪模型M_curr和目标域数据集D_t{x_t}，获得粗糙的伪标签(Box_p，ID_p)；

(4)修正粗糙的伪标签：将目标域数据集D_t{x_t}以及粗糙的伪标签(Box_p，ID_p)送入伪标签修正模块，获得修正后的更为准确的伪标签(Box_p′，ID_p′)；

(5)组合数据：将修正后的伪标签作为目标域数据的监督信息，组合当前的目标域数据D_t{x_t，(Box_p′，ID_p′)}和风格转换后的源域数据D′_s{x_s″(Box_s，ID_s)}形成新的数据集；

(6)重复和收敛：重复(2)～(5)步骤，进行域适应模型的训练收敛，直至模型达到损失函数低于固定阈值，结束训练获取最终的域适应模型M_out。

2.根据权利要求1所述的基于伪标签修正的多目标跟踪无监督域适应方法，其特征在于，所述的步骤(1)中所述图像风格转换模型G，采用对抗生成网络进行源域和目标域数据分布距离的拉近。

3.根据权利要求1所述的基于伪标签修正的多目标跟踪无监督域适应方法，其特征在于，所述的步骤(2)中所述的多目标跟踪模型，可以为任何由目标检测部分、数据关联部分组成的深度网络多目标跟踪模型，其中目标检测部分获取当前帧的目标位置，数据关联部分利用视觉特征等关联性信息完成轨迹与检测结果的身份匹配。

4.根据权利要求1所述的基于伪标签修正的多目标跟踪无监督域适应方法，其特征在于，步骤(2)中所述的多目标跟踪模型域适应训练采用了以下技术：为模型中的特征提取深度网络F添加梯度反转层GRL和域分类器D，其中梯度反转层负责在训练过程中对梯度取负再进行回传，域分类器负责对特征提取网络进行源域和目标域的分类，域适应训练的目标函数为：

其中，x表示输入数据，err表示域分类器对特征分类的错误概率，该min-max问题的优化通过在特征提取网络和域分类器中间添加梯度反转层，进行对抗训练来实现。

5.根据权利要求1所述的基于伪标签修正的多目标跟踪无监督域适应方法，其特征在于，步骤(5)所述的伪标签修正步骤为：

(1)正向遍历目标域数据的帧图像，对于每张图像上的粗糙的伪标签(Box_p，ID_p)结果，若为新出现的目标，则对该目标进行基于视觉信息的建模，用于之后帧的位置预测；

(2)若某一目标的视觉模型预测位置没有存在于粗糙的伪标签(Box_p，ID_p)中，且预测结果合理，则使用视觉模型的预测结果补全伪标签(Box_p，ID_p)；

(3)反向遍历目标域数据的帧图像，重复步骤(1)至(2)，获得反向遍历的伪标签补全结果；

(4)将正向遍历和反向遍历获得的伪标签结果求取并集，输出修正完成后的伪标签(Box_p′，ID_p′)。