CN113313188A

CN113313188A - 一种跨模态融合目标跟踪方法

Info

Publication number: CN113313188A
Application number: CN202110650615.9A
Authority: CN
Inventors: 左劼; 杨勇; 郭际香; 魏骁勇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-27
Anticipated expiration: 2041-06-10
Also published as: CN113313188B

Abstract

本发明涉及计算机信息技术领域，提供了一种跨模态融合目标跟踪方法。目的在于解决跨模态目标之间的差异过于巨大，单纯使用基于特征的匹配难以获得较好的效果的问题。主要方案包括构建生成由像素对齐模块、特征对齐模块、联合判别模块组成的对抗神经网络，在数据集上训练生成对抗网络，从不同摄像头采集的视频中提取待识别目标，并输入训练好的联合判别模块，得到目标和所有待识别目标之间的特征相似度；使用标注的目标在摄像头之间的转移时间数据集，训练出一个根据转移时间预测目标之间的时间相似度的逻辑回归模型，利用该模型计算出两目标之间的时间相似度；特征相似度和时间相似度相加得到总相似度，总相似度最高的目标对即为同一目标。

Description

一种跨模态融合目标跟踪方法

技术领域

本发明涉及计算机信息技术领域，提供了一种跨模态融合目标跟踪方法。

背景技术

RGB图像具有包含可见光的颜色信息的三个通道，而IR图像具有包含不可见光信息的一个通道。因此，即使是人类，也难以通过使用颜色信息来很好地识别人。为了解决这个问题，现有的跨模态re-id方法主要致力于通过特征对齐来弥合RGB和IR图像之间的间隙，如图2所示。基本思想就是通过特征表示学习来匹配真实的RGB和IR图像。由于两个模态之间存在较大的交叉模态差异，因此很难在共享特征空间中直接匹配RGB和IR图像。

与通过直接匹配RGB和IR图像的现有方法不同，启发式方法是通过像素对齐模块基于真实RGB图像生成伪IR图像，然后通过特征对齐模块将生成的伪IR 图像和真实IR图像进行匹配，如图1所示，采用生成的伪IR图像来弥合RGB和 IR图像之间的间隙。这个基本思想可以通过使用图3中的模型来实现，此模型通过使用像素对齐和特征对齐来设计用于RGB-IR交叉模态Re-ID，这与图2中仅使用特征对齐的模型不同。但是，这两种对齐策略是分别采用的，它们可能无法很好地相互补充和增强，以获得一致的特征。这是因为在ReID中，训练和测试集的任务标签是未共享的。对齐的特征无法通过在训练集中安装标签来保持身份一致性。例如，人A可能与人B对齐。

发明内容

本发明的目的在于解决跨模态目标之间的差异过于巨大，单纯使用基于特征的匹配难以获得较好的效果的问题。

未解决上述技术问题，本发明采用以下技术手段：

一种跨模态融合目标跟踪方法,包括以下步骤：

步骤1：构建生成对抗神经网络，对抗神经网络包括以下三个模块：

像素对齐模块：使用多个卷积层将可见光图片转换成红外风格的图片即伪红外图片；

特征对齐模块：使用一个卷积神经网络将红外图片和伪红外图片转换到同一个特征空间以减少模态内的差异；

联合判别模块：一个基于卷积层的分类器作用是促使像素对齐模块和特征对齐模块互相学习；

步骤2：在数据集上训练生成对抗网络

采用标签标识一对红外图片和可见光图片上的同一个目标，得到标记图片组，将标记图片组，输入步骤1构建好的生成对抗神经网络中，将生成对抗神经网络输出的结果与输入图片组中的图片在数据集中的标签带入损失函数进行计算，然后通过反向传播更新网络完成一次训练过程，重复上述过程直到网络性能达到预期即停止训练；

步骤3：使用目标检测算法从不同摄像头采集的视频中提取待识别目标，构成目标和待识别目标集；

步骤4：将目标和待识别目标先后输入训练后的生成对抗神经网络，提取特征对齐模块的输出然后使用余弦距离计算目标向量与待识别目标向量之间的距离，得到目标和所有待识别目标之间的特征相似度；

步骤5：根据摄像头的位置关系建立摄像头之间目标转移的时间空间转移网络模型，使用大量标注的目标在摄像头之间的转移时间数据集，训练出一个可以根据转移时间预测目标之间的时间相似度的逻辑回归模型，利用该模型根据目标出现的时间间隔计算出两目标之间的时间相似度；

步骤6：特征相似度和时间相似度相加得到总相似度，总相似度最高的目标对即为同一目标。

步骤7：由步骤6可以得到同一个目标在不同摄像头中的目标id，根据目标 id串联出目标跨摄像头的轨迹从而实现跨模态跨摄像头的跟踪。

上述技术方案中，步骤5包括以下步骤：

步骤5-1：人工标注大量的两个摄像头之间转移目标的转移时间，得到转移时间和转移目标数量的对应关系；

步骤5-2：将转移目标转换成转移概率，即将各时间对应的转移目标数除以总的转移目标数，得到转移时间和转移概率的对应关系；

步骤5-3：构建一个逻辑回归模型，将转移时间和转移概率输入模型进行训练，得到训练后的逻辑回归模型；

步骤5-4：将目标和待识别目标之间的转移时间输入逻辑回归模型，得到目标的转移概率即时间相似度。

本发明因为采用上述技术方案，因此具备以下有益效果：

一、本提案使用一种新型的对齐生成对抗网络(AlignGAN)，以同时缓解像素空间中的跨模态变化，特征空间中的模态内变化，并在RGB-IR跨模态Re-ID 任务中保持同一性。为了减少跨模态变化，我们采用像素生成器Gp来基于RGB 图像生成身份保持的伪造的IR图像。然后，为减轻内部模态变化，我们使用特征生成器Gf将伪造的和真实的IR图像编码到共享的特征空间中。但是由于跨模态目标之间的差异过于巨大，单纯使用基于特征的匹配难以获得较好的效果，本提案针对性的提出了时间相似度，通过在摄像头之间建立时间转移概率模型获取目标的时间相似度，综合特征相似度和时间相似度进行跨模态跨摄像头的重识别。

二、以前的这些可见光红外融合方法，它主要是希望学习到两个模态之间的对齐关系，但是是采用真实存在样本图片对来做训练。而这种真实存在的样本对，数量是比较小的。这样的话，学习到的这种映射关系，是不全面的。

而我们采用的这种对抗神经网络，如步骤一中所述，像素对齐模块会根据原来的分布生成伪红外图片，一方面增加了图片对的可能情形，使得学习对应关系时有更丰富的样本，另一方面则是转换了学习目的，不再是学习可见光图片和红外图片的对应关系，而是伪红外图片和红外图片的对应关系，由于伪红外图片可以认为是红外图片，就使得在学习这种对应关系的时候更容易，以上两点使得学习到的关系更加全面，更加可靠。

附图说明

图1为不同模态图像之间的操作；

图2为通过特征对齐进行跨模态重识别方法的流程图；

图3为一般的通过启发式方法进行跨模态重识别方法的流程图；

图4为本提案生成对抗网络各模块的耦合图；

图5为像素对齐模块的网络结构；

图6为特征对齐模块的网络结构；

图7为联合判别模块的网络结构；

图8为本提案生成对抗网络的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明提供了一种跨模态融合目标跟踪方法，包括以下步骤：

步骤1：构建生成对抗神经网络。

如图2所示，网络分为三个部分：像素对齐模块、特征对齐模块和联合判别模块，像素对齐模块由多个卷积层构成以将可见光图片转换成红外风格的图片即伪红外图像，特征对齐模块是一个卷积神经网络用于将红外图片和伪红外图片转换到同一个特征空间以减少模态内的差异，联合判别模块是一个基于卷积层的分类器作用是促使像素对齐模块和特征对齐互相学习。跨模态图片存在很多差异，有模态间的差异，然后还有同模态间的各种差异如光照、角度、遮挡等，将可见光图片通过像素对齐模块可得到伪红外图片，即可认为此时的伪红外图片和红外图片是同模态图片，此时即克服了跨模态图片间的模态间差异，然后将伪红外图片和红外图片输入到特征对齐模块，将图片转换到另一个空间，可以认为在这个空间中的图片没有同模态之间的各种差异，即此时也克服了同模态图片间的差异，联合判别模块的作用是在训练过程促使像素对齐模块和特征对齐学习到正确的转换关系。下面介绍各模块的具体组成：

像素对齐模块：像素对齐模块的网络结构如图5所示，输入图像为三通道彩色图像，先经过三层卷积、像素归一化和ReLU激活函数，后接4个残差块，然后是两层转置卷积、像素归一化和ReLU激活函数，最后是一个3通道输出的卷积和正切激活函数。

特征对齐模块：特征对齐模块的网络结构如图6，数据先经过一层卷积，然后进行批量归一化、ReLU激活和最大值池化，此后再经过由三层卷积组成的 Bottleneck块，随后是一个1x1卷积进行下采样，一个Bottleneck块和一个 1x1卷积构成Bottleneck0块，后续网络由12个Bottleneck块和3个 Bottleneck0块组成。

联合判别模块：联合判别模块的网络结构如图7，网络主体是三层全连接层，在全连接之前先进行两次自适应均值池化，网络总体实现了一个二分类的功能。

步骤2：在数据集上训练网络；

数据集是一对红外和可见光图片，并且有相应的标签标示这一对图片是否是同一个目标，一次将一对或多对图片输入到步骤一构建的网络中，将网络输出的结果和输入图片在数据集中的标签带入损失函数进行计算，然后通过反向传播更新网络完成一次训练过程，重复上述过程直到网络性能达到预期即停止训练。经过此步骤后，生成对抗网络的像素对齐模块和特征对齐模块已经学得正确的对应关系，像素对齐模块可以将可见光图片转换成伪红外图片而与红外图片之间无模态间差异，特征对齐模块可以克服图片间的同模态差异将图片转换到另一空间，后续步骤不需要用到联合判别模块。

步骤3：使用目标检测算法从不同摄像头采集的视频中提取待识别目标，得到目标集和待识别目标集；

步骤4：将目标和待识别目标先后输入训练后的网络，提取特征对齐模块的输出然后使用余弦距离计算目标向量和待识别向量之间的距离，得到目标和所有待识别目标之间的特征相似度；

步骤5：根据摄像头的位置关系建立摄像头之间目标转移的时间空间转移网络模型，使用大量标注的目标在摄像头之间的转移时间数据集，训练出一个可以根据转移时间预测目标之间的时间相似度的逻辑回归模型，利用该模型根据目标出现的时间间隔计算出两者之间的时间相似度；

步骤5-3：构建一个逻辑回归模型，将转移时间和转移概率输入模型进行训练，得到训练后的逻辑回归模型，此时的模型可以给一个时间然后输出一个概率；

步骤5-4：将目标和待识别目标之间的转移时间输入逻辑回归模型，得到目标的转移概率即时间相似度；

步骤7：由步骤6可以得到同一个目标在不同摄像头中的目标id，根据目标id串联出目标跨摄像头的轨迹从而实现跨模态跨摄像头的跟踪。

跨模态数据的转化方法：通过生成对抗网络，先将可见光图像通过像素对齐模块转换成伪红外图像，然后使用特征对齐模块将红外图像和伪红外图像转到特征空间，最后根据特征向量计算两者的相似度。

时间空间转移的模型建立：统计目标在摄像头之间的转移时间，计算出不同转移时间下的概率，然后将数据投入逻辑回归模型训练，训练好的模型即可通过转移时间预测是同一目标的概率。

跨模态跨摄像头重识别的方法：综合特征相似度和时间相似度进行跨模态跨摄像头重识别。特征相似度方面，不同于以往的跨模态重识别，期望直接学到红外图片和可见光图片之间的对应关系，本提案基于启发式的方法，通过生成器生成伪红外图片，然后学习伪红外图片和红外图片之间的对应关系，学习到的对应关系更为可靠且匹配成功率更高。此外，本提案额外补充了时间相似度进一步提高了识别的精度。

Claims

1.一种跨模态融合目标跟踪方法，其特征在于，包括以下步骤：

步骤2：在数据集上训练生成对抗网络

步骤6：特征相似度和时间相似度相加得到总相似度，总相似度最高的目标对即为同一目标；

2.根据权利要求1所述的一种跨模态融合目标跟踪方法，其特征在于，步骤5包括以下步骤：