CN117541625B

CN117541625B - 一种基于域适应特征融合的视频多目标跟踪方法

Info

Publication number: CN117541625B
Application number: CN202410017672.7A
Authority: CN
Inventors: 刘雪莉; 卢湖川; 尹宝才; 齐恒
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-03-29
Anticipated expiration: 2044-01-05
Also published as: CN117541625A

Abstract

一种基于域适应特征融合的视频多目标跟踪方法，属于计算机视觉中的目标跟踪领域，要点是包括向基于域适应特征融合的视频多目标跟踪模型中输入待进行跟踪的红外视频；得到每个目标的位置信息和类别信息；得到每个目标的预测位置信息和预测类别信息；通过级联匹配方法进行匹配；更新匹配成功的目标在卡尔曼滤波器的状态，并增加匹配成功的目标的轨迹的长度；匹配失败的目标进行IOU匹配，判断匹配失败的目标是新出现的目标还是遗失的目标，为新出现的目标分配一个新轨迹，为遗失的目标增加遗失的目标丢失次数，丢失次数超过阈值后终止遗失的目标的轨迹；输出视频中所有目标的跟踪轨迹。本发明跟踪精度较高，且适用于多种目标跟踪的情况。

Description

一种基于域适应特征融合的视频多目标跟踪方法

技术领域

本发明属于计算机视觉中的目标跟踪领域，具体公开了一种基于域适应特征融合的视频多目标跟踪方法。

背景技术

随着经济和科技的飞速发展，红外热成像系统的体积和成本都有所下降，逐渐被民用化，无人汽车驾驶、无人飞机巡检和红外全景监测等多个民用领域也开始广泛采用红外目标检测与跟踪技术。无人驾驶的车辆在行车途中，除了捕捉静态信息之外，同时需要联合其他传感器，如红外传感器，根据目标的历史轨迹进行合理的轨迹预测，制定用于避障的策略。红外热成像仪搭载在多旋翼无人机上被用于跟踪输电线路，采用红外热成像仪对线路特征较清晰的红外图像进行分析处理后，调整控制信号，以保证持续跟踪输电线目标。油田监控预警也采用了全景红外成像来达到准确可靠、搜跟一体、全天候和全方位的安防要求。因此，红外目标智能检测跟踪技术的发展具有非常重要的理论意义和应用价值，有助于丰富军事侦察手段，提高军事侦察能力，具有较为广阔的应用前景。红外目标的检测跟踪技术中，已有传统算法很难适用于所有情况，且检测跟踪精度较低，因此应用深度学习理论优化红外地面目标智能检测跟踪技术是一个值得研究的方向，也是一项十分紧迫的任务。

发明内容

本发明为解决现有目标跟踪领域中传统算法很难适用于所有情况，且跟踪精度较低的问题提出了一种基于域适应特征融合的视频多目标跟踪方法。

本发明提供了一种基于域适应特征融合的视频多目标跟踪方法，包括如下步骤：

S1. 向基于域适应特征融合的视频多目标跟踪模型中输入待进行多目标跟踪的红外视频；

S2. 通过所述基于域适应特征融合的视频多目标跟踪模型对所述红外视频每帧中的每个目标分别进行检测，得到每帧中的每个目标的位置信息和类别信息；

S3. 对于每帧中的每个目标，使用卡尔曼滤波器预测每帧中的每个目标在下一帧的位置信息，得到每帧中的每个目标的预测位置信息和预测类别信息；

S4. 通过级联匹配方法将当前帧中的每个目标的位置信息和类别信息与下一帧中的每个目标的预测位置信息和预测类别信息进行匹配，得到匹配结果；

S5. 对于匹配成功的目标，更新匹配成功的目标在卡尔曼滤波器的状态，并增加匹配成功的目标的轨迹的长度；

S6. 对于匹配失败的目标，进行IOU匹配，判断匹配失败的目标是新出现的目标还是遗失的目标，如果是新出现的目标，则为新出现的目标分配一个新的轨迹，如果是遗失的目标，则增加遗失的目标的丢失次数，在所述丢失次数超过设定的阈值后终止遗失的目标的轨迹；

S7. 所述红外视频跟踪结束后，输出所述红外视频中所有目标的跟踪轨迹；

所述基于域适应特征融合的视频多目标跟踪模型包括输入模块、傅里叶风格迁移模块、学生网络模块、教师网络模块和输出模块；

所述输入模块用于进行视频流的输入，将所述视频流分割为由源域图像组成的源域图像数据集和由目标域图像组成的目标域图像数据集，并将所述源域图像数据集和目标域图像数据集传输给所述傅里叶风格迁移模块，将所述目标域图像数据集传输给所述学生网络模块；

所述傅里叶风格迁移模块用于将所述源域图像数据集和目标域图像数据集进行风格迁移，生成由类源域图像组成的类源域图像数据集和由类目标域图像组成的类目标域图像数据集，并将所述类源域图像数据集传输给所述教师网络模块，将所述类目标域图像数据集传输给所述学生网络模块；

所述学生网络模块用于根据输入的所述目标域图像数据集和类目标域图像数据集进行渐进式域对齐训练，生成学生原型，并将得到的所述指数移动平均权重和学生原型传输给所述教师网络模块；

所述教师网络模块通过所述指数移动平均权重进行参数更新，并根据输入的所述类源域图像数据集生成伪目标域标签和教师原型，将所述伪目标域标签传输给所述学生网络模块，通过所述伪目标域标签对所述学生网络模块进行监督，通过所述学生原型和教师原型对所述学生网络模块进行训练；

所述学生网络模块训练完成后，向所述基于域适应特征融合的视频多目标跟踪模型输入所述红外视频，所述输出模块输出所述红外视频中每个目标的位置信息和类别信息。

根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法，所述傅里叶风格迁移模块中傅里叶变换如公式（1）所示：

（1）

其中，x为给定图像，所述给定图像来自所述源域图像数据集或目标域图像数据集，，/>表示图像的宽，/>表示图像的高，/>表示图像的通道数，(w，h)表示图像中的坐标位置，(i，j)表示傅里叶变换后的坐标位置，

所述傅里叶风格迁移模块通过傅里叶风格迁移，将全局源域风格信息替换目标域图像振幅的低频部分，并通过反傅里叶变换，生成所述类源域图像，如公式（2）所示：

（2）

其中，表示类源域图像，/>，/>表示目标域图像，/>表示目标域图像数据集，/>为反傅里叶变换，/>表示傅里叶变换F的振幅分量，/>表示傅里叶变换F的相位分量，∘表示元素相乘，/>表示全局源域风格信息，m表示时序，/>表示掩码，定义了交换区域的大小，其中/>，

所述全局源域风格信息如公式（3）所示：

（3）

其中，为超参数，/>，

所述掩码如公式（4）所示：

（4）

将所述目标域图像数据集中的目标域图像依次进行傅里叶风格迁移，得到类源域图像数据集；

所述傅里叶风格迁移模块通过傅里叶风格迁移，将全局目标域风格信息替换源域图像振幅的低频部分，生成所述类目标域图像，如公式（5）所示：

（5）

其中，表示类目标域图像，/>，/>表示源域图像，/>表示源域图像数据集，/>表示全局目标域风格信息，

所述全局目标域风格信息如公式（6）所示：

（6）

将所述源域图像数据集中的源域图像依次进行傅里叶风格迁移，得到类目标域图像数据集。

根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法，所述学生网络模块包括学生特征提取网络、注意力特征融合模块、图像级对抗特征对齐模块和实例级原型对齐模块；所述学生特征提取网络用于对输入的所述目标域图像数据集和类目标域图像数据集进行特征提取，得到目标域图像特征集和类目标域图像特征集，所述目标域图像特征集包括高阶语义目标域特征图和低阶语义目标域特征图，所述类目标域图像特征集包括高阶语义类目标域特征图和低阶语义类目标域特征图；所述注意力特征融合模块用于对所述高阶语义目标域特征图和低阶语义目标域特征图的信息进行融合，得到目标域特征图，对所述高阶语义类目标域特征图和低阶语义类目标域特征图进行融合，得到类目标域特征图；所述图像级对抗特征对齐模块用于进行图像级对抗特征对齐训练；所述实例级原型对齐模块用于进行实例级原型对齐训练。

根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法，所述注意力特征融合模块对所述高阶语义目标域特征图和低阶语义目标域特征图的信息进行融合得到目标域特征图包括：在通道方向上将高阶语义目标域特征图P1和低阶语义目标域特征图P0连接得到特征图，将所述特征图/>传入1×1卷积实施通道和3×3卷积实施通道并整合跨通道信息获得初步合成目标域特征图/>，如公式（7）所示：

（7）

其中，表示1×1卷积运算，/>表示3×3卷积运算，/>表示沿通道维度拼接，/>表示按元素加合，

沿通道方向上将所述初步合成目标域特征图和高阶语义目标域特征图P1连接得到特征图/>，通过压缩激励网络使所述特征图/>融合有用的信息，通过全连接层进行通道的数据交互得到融合权重/>，如公式（8）所示：

（8）

其中，表示全连接层，/>表示全局平均池化，

将融合权重与所述特征图/>按元素相乘后输至1×1卷积，得到所述目标域特征图/>，如公式（9）所示：

（9）

其中，表示按元素相乘；

所述注意力特征融合模块对所述高阶语义类目标域特征图和低阶语义类目标域特征图进行融合得到类目标域特征图包括：在通道方向上将高阶语义类目标域特征图P3和低阶语义类目标域特征图P2连接得到特征图，将所述特征图/>传入1×1卷积实施通道和3×3卷积实施通道并整合跨通道信息获得初步合成类目标域特征图/>，如公式（10）所示：

（10）

沿通道方向上将所述初步合成类目标域特征图和高阶语义类目标域特征图P3连接得到特征图/>，通过压缩激励网络使所述特征图/>融合有用的信息，通过全连接层进行通道的数据交互得到融合权重/>，如公式（11）所示：

（11）

其中，表示全连接层，

将融合权重与所述特征图/>按元素相乘后输至1×1卷积，得到所述类目标域特征图/>，如公式（12）所示：

（12）

其中，表示按元素相乘。

根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法，所述图像级对抗特征对齐模块包括梯度反转层和域分类网络，所述梯度反转层用于使所述学生特征提取网络与域分类网络之间形成对抗的关系；所述域分类网络用于利用卷积神经网络鉴别所述目标域图像特征集和类目标域图像特征集中的特征是来自源域图像数据集还是目标域图像数据集；

所述图像级对抗特征对齐训练的对抗学习损失函数如公式（13）所示：

（13）

其中，为特征图，d为0或1，d=0表示特征图为类目标域特征图，d=1表示特征图为目标域特征图，/>表示位于特征图/>处的域分类网络的输出。

根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法，所述实例级原型对齐模块包括学生检测网络和学生全连接网络；所述学生检测网络用于利用卷积神经网络对输入的所述目标域图像特征集和类目标域图像特征集中包含的目标进行定位和分类，输出实例特征、目标位置信息和目标类别信息；所述学生全连接网络用于将所述实例特征映射到另一个特征空间，得到目标域原型、类目标域原型和学生原型；

所述目标域原型如公式（14）所示：

（14）

其中，表示实例特征个数，/>表示目标域的分类概率分数，/>表示目标域中候选区域i的实例特征，

所述类目标域原型如公式（15）所示：

（15）

其中，表示类目标域的分类概率分数，/>表示类目标域中候选区域i的细化特征，

所述学生原型P^stu如公式（16）所示：

（16）

通过三元组损失来训练所述学生网络模块，将与锚定原型处于不同域但属于同一类别的原型选为正样本原型/>，将与锚定原型/>处于同一域且最接近锚定原型/>的原型选为负样本原型/>，所述实例级原型对齐训练的损失函数/>如公式（17）所示：

（17）

其中，表示目标类别数，/>，当i为目标域时，/>为类目标域，当i为类目标域时，/>为目标域，/>为边界值，/>，/>表示与锚定原型处于同一域且最接近锚定原型的原型类别号，/>。

根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法，所述教师网络模块包括教师特征提取网络、教师检测网络和教师全连接网络；所述教师网络模块用于对输入的所述类源域图像数据集进行特征提取，得到类源域图像特征集；所述教师检测网络用于对所述类源域图像特征集中包含的源域信息进行定位和分类，输出伪目标域标签和实例特征；所述教师全连接网络用于将所述实例特征映射到另一个特征空间，得到教师原型。

根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法，所述教师网络模块通过所述指数移动平均权重进行参数更新包括通过指数移动平均法在时间上通过学生网络模块的指数移动平均权重更新教师网络模块的网络参数，

所述网络参数更新如公式（18）所示：

（18）

其中，表示教师网络模块更新后的网络参数，/>表示教师网络模块更新前的网络参数，/>表示学生网络模块的网络参数，/>为超参数，/>。

根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法，所述学生网络模块得到伪目标域标签后，所述学生网络模块通过检测一致性损失更新所述学生网络模块的参数，所述检测一致性损失的损失函数如公式（19）所示：

（19）

其中，表示伪目标域标签，/>表示学习区域执行边界框分类的损失函数，使用二元交叉熵损失，/>表示兴趣区域执行边界框回归的损失函数，/>使用二元交叉熵损失。

根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法，所述通过所述学生原型和教师原型对所述学生网络模块进行训练的原型一致性损失函数如公式（20）所示：

（20）

其中，P^stu表示学生原型，P^tea表示教师原型，

所述教师原型P^tea如公式（21）所示：

（21）

其中，表示源域的分类概率分数，/>表示源域中候选区域i的细化特征。

本发明提出的一种基于域适应特征融合的视频多目标跟踪方法，通过基于域适应特征融合的视频多目标跟踪模型对红外视频每帧中的每个目标分别进行检测，基于域适应特征融合的视频多目标跟踪模型首先提出傅里叶风格迁移，通过全局目标域风格信息与全局源域风格信息对齐来减少域差距；其次提出渐进式域对齐算法，渐进式域对齐算法是一个从粗到细的域对齐算法，通过图像级对抗特征对齐模块和实例级原型对齐模块分别执行图像级对齐和实例级对齐，使目标跟踪结果更加准确；最后利用教师网络模型生成的伪目标域标签对学生网络模型进行有监督的训练，充分利用目标域数据，从而生成更精确的学生原型，基于域适应特征融合的视频多目标跟踪模型对红外视频每帧中的每个目标的检测精度较高，且可以对多个目标同时进行检测，所以本方法不仅跟踪精度较高，且可以适用于多种目标跟踪的情况。

附图说明

图1是本发明实施例一种基于域适应特征融合的视频多目标跟踪方法流程示意图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

本实施例提供了一种基于域适应特征融合的视频多目标跟踪方法，如图1所示，包括如下步骤：

S2. 通过基于域适应特征融合的视频多目标跟踪模型对红外视频每帧中的每个目标分别进行检测，得到每帧中的每个目标的位置信息和类别信息；

S6. 对于匹配失败的目标，进行IOU匹配，判断匹配失败的目标是新出现的目标还是遗失的目标，如果是新出现的目标，则为新出现的目标分配一个新的轨迹，如果是遗失的目标，则增加遗失的目标的丢失次数，在丢失次数超过设定的阈值后终止遗失的目标的轨迹；

S7. 红外视频跟踪结束后，输出红外视频中所有目标的跟踪轨迹；

基于域适应特征融合的视频多目标跟踪模型包括输入模块、傅里叶风格迁移模块、学生网络模块、教师网络模块和输出模块；

输入模块用于进行视频流的输入，将视频流分割为由源域图像组成的源域图像数据集和由目标域图像组成的目标域图像数据集，并将源域图像数据集和目标域图像数据集传输给傅里叶风格迁移模块，将目标域图像数据集传输给学生网络模块；优选的，本实施例中目标域图像为红外图像，源域图像为可见光图像；

傅里叶风格迁移模块用于将源域图像数据集和目标域图像数据集进行风格迁移，生成由类源域图像组成的类源域图像数据集和由类目标域图像组成的类目标域图像数据集，并将类源域图像数据集传输给教师网络模块，将类目标域图像数据集传输给学生网络模块；

傅里叶风格迁移模块中傅里叶变换如公式（1）所示：

（1）

其中，x为给定图像，给定图像来自源域图像数据集或目标域图像数据集，，/>表示图像的宽，/>表示图像的高，/>表示图像的通道数，(w，h)表示图像中的坐标位置，(i，j)表示傅里叶变换后的坐标位置，

傅里叶频谱的相位分量保留了原始信号的高层次语义，而傅里叶频谱的振幅分量则包含了低层次的统计数据。因此，本实施例交换目标域图像和源域图像的振幅分量，具体的为交换红外图像和可见光图像的振幅分量，然而，由于振幅分量还包含少量的高频信息，如图像边缘，直接交换两幅图像的全部振幅分量不可避免地会带来额外的伪影，从而降低图像质量，进而影响后续目标检测的训练。因此，本实施例仅交换部分振幅。

傅里叶风格迁移模块通过傅里叶风格迁移，将全局源域风格信息替换目标域图像振幅的低频部分，并通过反傅里叶变换，生成类源域图像，如公式（2）所示：

（2）

其中，表示类源域图像，/>，/>表示目标域图像，/>表示目标域图像数据集，/>为反傅里叶变换，/>表示傅里叶变换F的振幅分量，/>表示傅里叶变换F的相位分量，∘表示元素相乘，/>表示全局源域风格信息，m表示时序，/>表示掩码，定义了交换区域的大小，其中/>，优选的，/>为0.1，

全局源域风格信息如公式（3）所示：

（3）

其中，为超参数，/>，优选的，/>为0.05

掩码如公式（4）所示：

（4）

将目标域图像数据集中的目标域图像依次进行傅里叶风格迁移，得到类源域图像数据集；

傅里叶风格迁移模块通过傅里叶风格迁移，将全局目标域风格信息替换源域图像振幅的低频部分，生成类目标域图像，如公式（5）所示：

（5）

全局目标域风格信息如公式（6）所示：

（6）

将源域图像数据集中的源域图像依次进行傅里叶风格迁移，得到类目标域图像数据集。

学生网络模块用于根据输入的目标域图像数据集和类目标域图像数据集进行渐进式域对齐训练，生成学生原型，并将得到的指数移动平均权重和学生原型传输给教师网络模块；

学生网络模块包括学生特征提取网络、注意力特征融合模块、图像级对抗特征对齐模块和实例级原型对齐模块；学生特征提取网络用于对输入的目标域图像数据集和类目标域图像数据集进行特征提取，得到目标域图像特征集和类目标域图像特征集，目标域图像特征集包括高阶语义目标域特征图和低阶语义目标域特征图，类目标域图像特征集包括高阶语义类目标域特征图和低阶语义类目标域特征图；注意力特征融合模块用于对高阶语义目标域特征图和低阶语义目标域特征图的信息进行融合，得到目标域特征图，对高阶语义类目标域特征图和低阶语义类目标域特征图进行融合，得到类目标域特征图，

注意力特征融合模块可以通过学习不同阶语义的特征图通道间的相关性来加强学生网络模块对关键信息的专注度，从而最大化融合不同级别特征的有用信息，提升基于域适应的红外视频多目标跟踪的目标识别能力；图像级对抗特征对齐模块用于进行图像级对抗特征对齐训练；实例级原型对齐模块用于进行实例级原型对齐训练。

注意力特征融合模块对高阶语义目标域特征图和低阶语义目标域特征图的信息进行融合得到目标域特征图包括：在通道方向上将高阶语义目标域特征图P1和低阶语义目标域特征图P0连接得到特征图，将特征图/>传入1×1卷积实施通道和3×3卷积实施通道并整合跨通道信息获得初步合成目标域特征图/>，如公式（7）所示：

（7）

沿通道方向上将初步合成目标域特征图和高阶语义目标域特征图P1连接得到特征图/>，通过压缩激励网络使特征图/>融合有用的信息，压缩激励网络是通过全局平均池化技术来获得通道层次的信息，通过全连接层进行通道的数据交互得到融合权重/>，如公式（8）所示：

（8）

其中，表示全连接层，/>表示全局平均池化，

将融合权重与特征图/>按元素相乘后输至1×1卷积，得到目标域特征图/>，如公式（9）所示：

（9）

其中，表示按元素相乘；

注意力特征融合模块对高阶语义类目标域特征图和低阶语义类目标域特征图进行融合得到类目标域特征图包括：在通道方向上将高阶语义类目标域特征图P3和低阶语义类目标域特征图P2连接得到特征图，将特征图/>传入1×1卷积实施通道和3×3卷积实施通道并整合跨通道信息获得初步合成类目标域特征图/>，如公式（10）所示：

（10）

沿通道方向上将初步合成类目标域特征图和高阶语义类目标域特征图P3连接得到特征图/>，通过压缩激励网络使特征图/>融合有用的信息，通过全连接层进行通道的数据交互得到融合权重/>，如公式（11）所示：

（11）

其中，表示全连接层，

将融合权重与特征图/>按元素相乘后输至1×1卷积，得到类目标域特征图/>，如公式（12）所示：

（12）

其中，表示按元素相乘。

图像级对抗特征对齐模块包括梯度反转层和域分类网络，梯度反转层用于使学生特征提取网络与域分类网络之间形成对抗的关系；域分类网络用于利用卷积神经网络鉴别目标域图像特征集和类目标域图像特征集中的特征是来自源域图像数据集还是目标域图像数据集；

图像级对抗特征对齐训练的对抗学习损失函数如公式（13）所示：

（13）

实例级原型对齐模块包括学生检测网络和学生全连接网络；学生检测网络用于利用卷积神经网络对输入的目标域图像特征集和类目标域图像特征集中包含的目标进行定位和分类，输出实例特征、目标位置信息和目标类别信息；学生检测网络基于Faster R-CNN框架，学生全连接网络用于将实例特征映射到另一个特征空间，得到目标域原型、类目标域原型和学生原型；

目标域原型如公式（14）所示：

（14）

其中，表示实例特征个数，/>表示目标域的分类概率分数，/>表示目标域中候选区域i的实例特征，/>

类目标域原型如公式（15）所示：

（15）

学生原型P^stu如公式（16）所示：

（16）

通过三元组损失来训练学生网络模块，将与锚定原型处于不同域但属于同一类别的原型选为正样本原型/>，将与锚定原型/>处于同一域且最接近锚定原型/>的原型选为负样本原型/>，实例级原型对齐训练的损失函数/>如公式（17）所示：

（17）

其中，表示目标类别数，/>，当i为目标域时，/>为类目标域，当i为类目标域时，/>为目标域，/>为边界值，/>，优选的，γ为0.1，/>表示与锚定原型处于同一域且最接近锚定原型的原型类别号，/>。

教师网络模块通过指数移动平均权重进行参数更新，并根据输入的类源域图像数据集生成伪目标域标签和教师原型，与目标域图像相比，类源域图像引入了源域信息，这使得教师网络模块能够在不受特定域信息干扰的情况下生成更可靠的伪目标域标签，将伪目标域标签传输给学生网络模块，通过伪目标域标签对学生网络模块进行监督，通过学生原型和教师原型对学生网络模块进行训练；

学生网络模块训练完成后，向基于域适应特征融合的视频多目标跟踪模型输入红外视频，输出模块输出红外视频中每个目标的位置信息和类别信息。

教师网络模块包括教师特征提取网络、教师检测网络和教师全连接网络；教师网络模块用于对输入的类源域图像数据集进行特征提取，得到类源域图像特征集；教师检测网络用于对类源域图像特征集中包含的源域信息进行定位和分类，输出伪目标域标签和实例特征，教师检测网络同样基于Faster R-CNN 框架；教师全连接网络用于将实例特征映射到另一个特征空间，得到教师原型。

教师网络模块通过指数移动平均权重进行参数更新包括通过指数移动平均法在时间上通过学生网络模块的指数移动平均权重更新教师网络模块的网络参数，

网络参数更新如公式（18）所示：

（18）

其中，表示教师网络模块更新后的网络参数，/>表示教师网络模块更新前的网络参数，/>表示学生网络模块的网络参数，/>为超参数，/>，优选的，/>为0.999。

学生网络模块得到伪目标域标签后，学生网络模块通过检测一致性损失更新学生网络模块的参数，检测一致性损失的损失函数如公式（19）所示：

（19）

为了进一步提高教师模型和学生模型的特征对齐的效果，本实施例提出了原型一致性算法，通过将教师网络模块生成的教师原型与学生网络模块生成的教师原型对齐，本实施例允许教师网络模块监督学生网络模块生成学生原型，从而生成更准确的学生原型。这样做有两个好处：一是从实例层面加强教师网络模块-学生网络模块训练框架的有效性，能够训练出更好的学生网络。二是能够使学生网络模块更加适应多种跟踪情况。通过学生原型和教师原型对学生网络模块进行训练的原型一致性损失函数如公式（20）所示：

（20）

其中，P^stu表示学生原型，P^tea表示教师原型，

教师原型P^tea如公式（21）所示：

（21）

下面，将本实施的基于域适应特征融合的视频多目标跟踪方法与现有的方法进行对比，现有方法包括：强弱分布对齐方法SWDA(CVPR’ 19)、多层次的熵注意力对齐方法MEAA(ACM MM’ 20)、分类正则化方法CRDA(CVPR’ 20)、图引导的原型对齐方法GPA(CVPR’ 20)、针对域不变性的矢量分解纠缠方法VDD(ICCV’ 21)、基于不确定性感知的方法UaDAN(TMM’21)和针对特等任务的不一致性对齐方法TIA(CVPR’ 22)，本实施例所使用的的数据集为FLIR数据集，FLIR数据集是一个具有目标检测数据集，由一天中不同时间拍摄的成对可见光图像和红外图像组成。FLIR数据集共包含5142对已正确配准的可见光图像和红外图像。其中4129对可见光图像和红外图像用于训练，1013对可见光图像和红外图像用于评估。本实施例应用了数据集中人和汽车的目标类别，实验结果如表所示：

表1 不同跟踪方法的实验结果对比

方法	人	汽车	mAP
				SWDA(CVPR’ 19)	35.7	53.3	44.50
MEAA(ACM MM’ 20)	35.5	58.6	47.05
				CRDA(CVPR’ 20)	39.5	58.0	48.75
GPA(CVPR’ 20)	49.5	65.8	57.65
				VDD(ICCV’ 21)	39.0	58.7	48.85
UaDAN(TMM’ 21)	40.8	61.7	51.25
				TIA(CVPR’ 22)	39.8	63.1	51.45
本实施例方法	52.2	69.7	60.95

由表1可知，本实施例的基于域适应特征融合的视频多目标跟踪方法无论在人的目标跟踪还是在汽车的目标跟踪中，都取得了最佳性能，在人的目标跟踪中，准确率为52.2%，在车的目标跟踪中准确率为69.7%，在总体性能上，mAP为60.95%，超过了所有现有的方法，并且在mAP方面比目前mAP最高的现有方法TIA(CVPR’ 22)提高了3.3%。由上清楚地表明了本实施例的方法在处理跨领域跟踪任务时的有效性，尤其是在处理多个对象类别时的准确率仍然较高。值得注意的是，本实施例的方法在跟踪“人”和“车”两个类别时都取得了最高的性能，这表明本实施例的方法在跟踪这些具有挑战性的关键对象类别时是非常有效的。

本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于域适应特征融合的视频多目标跟踪方法，其特征在于，包括如下步骤：

所述学生网络模块训练完成后，向所述基于域适应特征融合的视频多目标跟踪模型输入所述红外视频，所述输出模块输出所述红外视频中每个目标的位置信息和类别信息；

所述傅里叶风格迁移模块中傅里叶变换如公式（1）所示：

（1）

（2）

所述全局源域风格信息如公式（3）所示：

（3）

其中，为超参数，/>，

所述掩码如公式（4）所示：

（4）

（5）

所述全局目标域风格信息如公式（6）所示：

（6）

将所述源域图像数据集中的源域图像依次进行傅里叶风格迁移，得到类目标域图像数据集；

所述学生网络模块包括学生特征提取网络、注意力特征融合模块、图像级对抗特征对齐模块和实例级原型对齐模块；所述学生特征提取网络用于对输入的所述目标域图像数据集和类目标域图像数据集进行特征提取，得到目标域图像特征集和类目标域图像特征集，所述目标域图像特征集包括高阶语义目标域特征图和低阶语义目标域特征图，所述类目标域图像特征集包括高阶语义类目标域特征图和低阶语义类目标域特征图；所述注意力特征融合模块用于对所述高阶语义目标域特征图和低阶语义目标域特征图的信息进行融合，得到目标域特征图，对所述高阶语义类目标域特征图和低阶语义类目标域特征图进行融合，得到类目标域特征图；所述图像级对抗特征对齐模块用于进行图像级对抗特征对齐训练；所述实例级原型对齐模块用于进行实例级原型对齐训练。

2.根据权利要求1所述的一种基于域适应特征融合的视频多目标跟踪方法，其特征在于，所述注意力特征融合模块对所述高阶语义目标域特征图和低阶语义目标域特征图的信息进行融合得到目标域特征图包括：在通道方向上将高阶语义目标域特征图P1和低阶语义目标域特征图P0连接得到特征图，将所述特征图/>传入1×1卷积实施通道和3×3卷积实施通道并整合跨通道信息获得初步合成目标域特征图/>，如公式（7）所示：

（7）

（8）

其中，表示全连接层，/>表示全局平均池化，

（9）

其中，表示按元素相乘；

所述注意力特征融合模块对所述高阶语义类目标域特征图和低阶语义类目标域特征图进行融合得到类目标域特征图包括：在通道方向上将高阶语义类目标域特征图P3和低阶语义类目标域特征图P2连接得到特征图，将所述特征图/>传入1×1卷积实施通道和3×3卷积实施通道并整合跨通道信息获得初步合成类目标域特征图，如公式（10）所示：

（10）

（11）

其中，表示全连接层，

（12）

其中，表示按元素相乘。

3.根据权利要求2所述的一种基于域适应特征融合的视频多目标跟踪方法，其特征在于，所述图像级对抗特征对齐模块包括梯度反转层和域分类网络，所述梯度反转层用于使所述学生特征提取网络与域分类网络之间形成对抗的关系；所述域分类网络用于利用卷积神经网络鉴别所述目标域图像特征集和类目标域图像特征集中的特征是来自源域图像数据集还是目标域图像数据集；

（13）

4.根据权利要求3所述的一种基于域适应特征融合的视频多目标跟踪方法，其特征在于，所述实例级原型对齐模块包括学生检测网络和学生全连接网络；所述学生检测网络用于利用卷积神经网络对输入的所述目标域图像特征集和类目标域图像特征集中包含的目标进行定位和分类，输出实例特征、目标位置信息和目标类别信息；所述学生全连接网络用于将所述实例特征映射到另一个特征空间，得到目标域原型、类目标域原型和学生原型；

所述目标域原型如公式（14）所示：

（14）

所述类目标域原型如公式（15）所示：

（15）

所述学生原型P^stu如公式（16）所示：

（16）

（17）

5.根据权利要求4所述的一种基于域适应特征融合的视频多目标跟踪方法，其特征在于，所述教师网络模块包括教师特征提取网络、教师检测网络和教师全连接网络；所述教师网络模块用于对输入的所述类源域图像数据集进行特征提取，得到类源域图像特征集；所述教师检测网络用于对所述类源域图像特征集中包含的源域信息进行定位和分类，输出伪目标域标签和实例特征；所述教师全连接网络用于将所述实例特征映射到另一个特征空间，得到教师原型。

6.根据权利要求5所述的一种基于域适应特征融合的视频多目标跟踪方法，其特征在于，所述教师网络模块通过所述指数移动平均权重进行参数更新包括通过指数移动平均法在时间上通过学生网络模块的指数移动平均权重更新教师网络模块的网络参数，

所述网络参数更新如公式（18）所示：

（18）

7.根据权利要求1所述的一种基于域适应特征融合的视频多目标跟踪方法，其特征在于，所述学生网络模块得到伪目标域标签后，所述学生网络模块通过检测一致性损失更新所述学生网络模块的参数，所述检测一致性损失的损失函数如公式（19）所示：

（19）

其中，表示伪目标域标签，/>表示学习区域执行边界框分类的损失函数，/>使用二元交叉熵损失，/>表示兴趣区域执行边界框回归的损失函数，/>使用二元交叉熵损失。

8.根据权利要求7所述的一种基于域适应特征融合的视频多目标跟踪方法，其特征在于，所述通过所述学生原型和教师原型对所述学生网络模块进行训练的原型一致性损失函数如公式（20）所示：

（20）

其中，P^stu表示学生原型，P^tea表示教师原型，

所述教师原型P^tea如公式（21）所示：

（21）