CN116824625A

CN116824625A - 基于生成式多模态图像融合的目标重识别方法

Info

Publication number: CN116824625A
Application number: CN202310616550.5A
Authority: CN
Inventors: 金�一; 亓佳; 梁腾飞; 王旭; 李浥东; 王涛
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-09-29
Anticipated expiration: 2043-05-29
Also published as: CN116824625B

Abstract

本发明提供了一种基于生成式多模态图像融合的目标重识别方法。该方法包括：利用跨模态图像生成网络生成输入图像的另一模态的图像，得到成对图像，所述输入图像包括可见光图像或者红外图像；构建并训练基于分块的双重多模态特征融合模块，将所述成对图像输入到训练好的双重多模态特征融合模块中，得到所述成对图像的融合特征；基于所述成对图像的融合特征利用余弦距离测量所述成对图像之间的差异特征，对所述差异特征进行补偿。本发明利用了丢失的模态特定特征的信息，利用对比学习来关联输入与输出图像对应位置的信息，保留了行人的身份信息，从而可以有效地对多模态图像进行行人目标重识别。

Description

基于生成式多模态图像融合的目标重识别方法

技术领域

本发明涉及目标重识别技术领域，尤其涉及一种基于生成式多模态图像融合的目标重识别方法。

背景技术

目标重识别是一种计算机视觉任务，旨在匹配不同场合下由不同相机拍摄的同一目标的图像。跨模态行人重识别(Cross-Modality Person Re-identification)主要研究红外图像与可见光图像之间的匹配：给定一个行人的可见光(红外)图像，需要从另一模态中搜索相应的红外(可见光)图像。

近些年来，随着公共安全需求的提升，目标重识别已成为视频监控领域研究的热点之一，具有重大的研究意义。但是在大多数现实场景下，仅仅检索白天得到的图像是不够的，得益于现有的大多数摄像头都支持在可见光和红外模式之间自动切换，跨模态的目标重识别得到越来越多的关注，它旨在匹配由可见光和红外相机拍摄的人的图像，但是由于不同模态图像间的差异太大，在实际应用是很难实现的。

因此，现有的解决方法主要分为两类：基于非生成的方法和基于生成的方法。大多数现有模型都是基于非生成的模型，主要通过表征学习和度量学习来缩小模态间的差异性，通过提取模态共享特征，将不同模态的信息映射到相同的特征空间后学习出具有判别性的特征，通常这些方法使用双流结构提取特征，虽然这些方法已经取得了很大提升，但它们只关注了模态共享特征部分，忽略了单一模态中的模态特定信息，它们也对识别行人身份具有重要价值。第二类方法是基于生成的方法，该类方法主要基于GAN(GenerativeAdversarial Network，生成对抗网络)的模型进行图像转换，将可见光图像转换为对应的红外图像或者将红外图像转换为对应的可见光图像，通过像素对齐和特征对齐来有效缓解模态差异，大部分方法虽然实现了模态转换，但并未利用模态中特定信息，未能充分利用和融合各个模态的信息。同时由于可见光图像和近红外图像具有数据独立且分布不同的特点，导致其相互转换的图像与真实图像之间存在数据差异，通过生成对抗网络生成的图像会不可避免地存在噪声，影响后续网络的特征提取，特别是红外图像到可见光图像的转换。因此，如何消除跨模态差异、学习到更为准确的特征表示是我们要解决的主要问题。

目标重识别问题作为一项具有重要应用价值的研究问题，引起了工业界图像领域的广泛关注，尤其是基于近几年快速发展的深度学习技术，涌现出了很多使用卷积神经网络的模型算法。

现有技术中的一种目标重识别方法JSIA-ReID的模型结构包括两部分：跨模态成对图像生成模块和特征对齐模块。在跨模态成对图像生成模块中，图像可以被分解表示为模态不变特征和模态特定特征。对于没有配对的图像，通过分离和交换它们的风格信息，可以生成配对图像，生成的两个图像具有相同的内容信息(如姿势等)和不同的风格样式(如服装颜色等)。生成模块包括三个编码器和两个解码器，用三个编码器来进行特征分离，将可见光和红外图像分解为模态不变和可见光(红外)模态特定特征，之后解码器将模态不变特征和模态特定特征作为输入，通过对特征进行解码，可以生成跨模态成对图像。在特征对齐模块中，首先使用一个编码器，权重与模态不变编码器共享，保留模态不变特征，但是仅在整个可见光和红外集合之间执行全局集合级别的对齐可能会导致某些实例的不对齐，为了克服这个问题，使用生成模块生成的跨模态成对图像来执行实例级对齐，最小化KL散度将两个模态的成对图像进行对齐，通过最小化每对图像的距离进一步缩小模态差异。通过对生成模块和特征对齐模块进行联合训练，学习模态对齐和身份判别特征。

上述现有技术中的目标重识别方法JSIA-ReID的缺点包括：

1.该方法生成的图像缺乏真实性，同时还会丢失行人的身份信息，模型生成的图像存在颜色不一致的现象。

2.该方法模型虽然生成了跨模态的成对图像，但并未利用其模态特定特征，丢失了信息。

3.该方法并未好好利用生成模型生成的成对图像，即使有少数研究实现可见光和红外图像的结合弥合跨模态差异，也是使用直接相加等简单的融合方式，使得生成图像中的噪声被更明显地引入，对生成图像的质量更为敏感。

发明内容

本发明的实施例提供了一种基于生成式多模态图像融合的目标重识别方法，以实现有效地对多模态图像进行行人目标重识别。

为了实现上述目的，本发明采取了如下技术方案。

一种基于生成式多模态图像融合的目标重识别方法，包括：

利用跨模态图像生成网络生成输入图像的另一模态的图像，得到成对图像，所述输入图像包括可见光图像或者红外图像；

构建并训练基于分块的双重多模态特征融合模块，将所述成对图像输入到训练好的双重多模态特征融合模块中，得到所述成对图像的融合特征；

基于所述成对图像的融合特征利用余弦距离测量所述成对图像之间的差异特征，对所述差异特征进行补偿。

优选地，所述的利用跨模态图像生成网络生成输入图像的另一模态的图像，得到成对图像，所述输入图像包括可见光图像或者红外图像，包括：

所述基于对比学习的跨模态图像生成网络用编码器来分离特征，用两个解码器生成成对图像，将可见光图像或者红外图像作为输入图像，将所述输入图像输入到跨模态图像生成网络，跨模态图像生成网络使用编码器得到输入图像的模态特定特征和模态共享特征，再分别将所述模态特定特征和模态共享特征输入到两个解码器中，将两个解码器的输出图像进行融合，得到输入图像的另一模态的图像；

当所述输入图像为可见光图像时，利用可见光图像的模态特定特征和模态共享特征用来生成另一模态的红外图像；当所述输入图像为红外图像时，利用红外图像的模态特定特征和模态共享特征用来另一模态的可见光图像，将所述输入图像和输入图像的另一模态的图像组成成对图像。

优选地，所述的方法还包括：

通过基于patch的跨模态对比损失来约束所述输入图像的另一模态的图像的生成过程，通过计算基于patch的跨模态对比损失来在相应的位置匹配输入与输出图像；

基于patch的跨模态对比损失如公式4所示，

L是特征图的空间位置的数量，生成图像对应的输入图像的相关位置特征为无关位置特征为/>使用噪声对比估计框架来关联输入和输出，l表示交叉熵损失，变量是/>的空间位置，/>被认为是正样本，/>这些位置被认为是负样本。

优选地，所述的构建并训练基于分块的双重多模态特征融合模块，包括：

在所述基于分块的双重多模态特征融合模块中输入训练集的多模态行人图像，经过一些图像预处理操作之后，将数据通过设计的网络模型的前向传播，得到图像的分类结果，接着计算损失，使用损失进行反向传播，更新模型权重，重复这个过程直至达到设定的迭代轮数，得到初步训练好的双重多模态特征融合模块；

在测试阶段，加载测试集的数据，通过训练好的双重多模态特征融合模块，去掉分类部分的神经网络层，直接得到测试样本特征，计算比较特征相似度，完成检索过程，之后计算评估指标，进行模型性能的判定，若不满足预期要求，则重新回到训练环节，进行进一步的调整训练，若已经达到预期的性能，则保存双重多模态特征融合模块权重，得到最终的训练好的双重多模态特征融合模块。

优选地，所述的将所述成对图像输入到训练好的双重多模态特征融合模块中，得到所述成对图像的融合特征，包括：

将所述成对图像输入到训练好的双重多模态特征融合模块中，双重多模态特征融合模块将所述成对图像等分为P个部分，每部分首先通过第一个多分支通道注意力模块M，其中M结合全局和局部特征的通道注意力，成对图像相加后被送入两个分支中，两个分支分别提取全局和局部的注意力，局部注意力分支采用两层1×1的卷积操作，全局注意力的分支相比局部注意力分支增加了全局平均池化操作，将全局和局部的注意力相加后进行Sigmoid运算，得到一个初始的融合权重，利用该初始的融合权重计算得到初级的融合特征PF；

使用第二重注意力模块来融合输入的部分级的图像，将所述初级的融合特征PF输入到第二重注意力模块，得到部分级融合特征FF，将P个部分级融合特征FF拼接起来，得到所述成对图像的融合特征。

由上述本发明的实施例提供的技术方案可以看出，本发明利用了丢失的模态特定特征的信息，从根本上解决了模态差异问题。在图像生成模块除了关注图像风格的转换，利用对比学习来关联输入与输出图像对应位置的信息，保留了行人的身份信息，从而可以有效地对多模态图像进行行人目标重识别。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于生成式多模态图像融合的方法的处理流程图；

图2为本发明实施例提出的一种跨模态图像生成网络的结构图；

图3为本发明实施例提供的一种多模态图像融合模型的训练流程图；

图4为本发明实施例提供的一种基于分块的双重多模态特征融合模块的结构图；

图5为本发明实施例提供的一种基于多模态信息补齐的测试模式示意图；

图6为本发明实施例提供的一种基于生成式多模态图像融合的图像行人目标重识别方法的处理流程图；

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明的目的在于从根本上解决跨模态目标重识别的模态差异问题，通过模态补偿的思想，设计了一种基于生成式多模态图像融合的方法，该方法使用设计的基于对比学习的跨模态图像生成网络，通过提取的模态特定特征和模态共享特征来生成另一模态的对应图像，引入了基于patch的跨模态对比损失，以确保生成的图像和输入图像之间的对应位置信息的一致性，同时设计了一个基于分块的双重多模态特征融合模块来充分融合生成图像和原始图像的信息，对图像进行水平分割，实现图像的细粒度融合，通过结合局部和全局特征来融合多尺度特征，并采用注意力机制来增强图像的判别特征，最终实现统一的特征表示。

本发明实施例提供的一种基于生成式多模态图像融合的方法的处理流程如图1所示，包括如下的处理步骤：

步骤S10、利用跨模态图像生成网络生成输入图像的另一模态的图像，得到成对图像。所述输入图像包括可见光图像或者红外图像。

利用基于对比学习的跨模态图像生成网络来生成成对图像，设计了基于patch的跨模态对比损失，在图像空间，为某一模态的图像补齐另一模态的成对图像信息。

步骤S20、构建并训练基于分块的双重多模态特征融合模块，将所述成对图像输入到训练好的双重多模态特征融合模块中，得到所述成对图像的融合特征。

基于分块的双重多模态特征融合模块采用1×1的系列卷积操作实现，使用了空间和通道维度的多分支融合策略，提取成对图像的更丰富的融合特征表示。

步骤S30、基于所述成对图像的融合特征利用余弦距离测量所述成对图像之间的差异特征，对所述差异特征进行补偿。

实现了基于多模态信息补齐的测试方法，在进行匹配的过程中，可以为查询图像(query)以及搜索库图像(gallery)进行跨模态图像生成，对齐信息表示，消除跨模态匹配的语义鸿沟。

具体的，上述步骤S10包括：本发明实施例提出了一种跨模态图像生成网络的结构如图2所示。上述跨模态图像生成网络用三个编码器来分离特征，用两个解码器生成成对图像。

在基于对比学习的跨模态图像生成网络中，输入图像为可见光图像或者红外图像，首先分别使用编码器得到输入图像的模态特定特征和模态共享特征，之后分别将从两个模态提取的模态特定特征和模态共享特征分别输入到两个解码器中，将两个解码器的输出图像进行融合，得到输入图像的另一模态的图像。

如图2右下所示，本发明实施例为图像生成设计了一种新的基于patch的跨模态对比损失(patch-based cross-modality contrastive(PCMC)

loss)来约束图像生成过程，对于行人图像，相比背景部分，生成图像身体部位的信息与输入中相应位置的身体部位关联性更强，对于生成的图像和原始图像，我们将其输入到前面相应生成器的编码器中提取特征，再通过一个两层MLP(Multi-LayerPerceptron，多层感知器)网络生成特征，之后得到相关位置特征与无关位置特征，通过计算基于patch的跨模态对比损失来在相应的位置匹配输入与输出图像。

以生成红外图像的彩色图像为例，表示生成的彩色图像，公式一的输入数据为原始图像和对应的跨模态生成图像。/>用于提取可见图像的模态特定特征(/>用于提取红外图像的模态特定特征)。F是双层MLP网络，我们使用MLP网络(F)来提取特征。通过F获得的新特征图中的每个空间位置都是一个维度等于通道数量的向量。

基于patch的跨模态对比损失如公式4所示，L是特征图的空间位置的数量，生成图像对应的输入图像的相关位置特征为无关位置特征为/>我们使用噪声对比估计框架来关联输入和输出，l表示交叉熵损失，采用交叉熵损失(公式3)进行计算来关联输入输出数据。变量/>是/>的空间位置。/>被认为是正样本，而/>这些位置被认为是负样本。随后，基于这些样本来计算PCMC损失。公式4的输入为这些样本特征，合并了采样点进行计算。在VI-ReID中，行人图像翻译需要确保身份一致性，而对比学习可以帮助保持内容一致性并减少噪声。因此我们设计了PCMC损失，对生成过程施加特定的约束。这个模块的意义在于使得生成的图像具有原始的身份信息而不引入噪声信息，能够解决颜色不一致问题。

跨模态图像生成网络的输出图像是输入图像的另一模态的图像，即得到成对的图像，真实可见光图像和生成的伪红外图像，真实红外图像和生成的伪可见光图像。

具体的，上述步骤S20包括：本发明实施例提供的一种生成式双重多模态特征融合模块的训练流程如图3所示，包括如下的处理过程：

首先是模型训练阶段，输入训练集的多模态行人图像，经过一些图像预处理操作，包括数据的标准化、图片尺寸的改变、随机水平翻转、随机裁剪和随机擦除等，之后将数据通过设计的网络模型的前向传播，得到图像的分类结果，接着计算损失，使用损失进行反向传播，更新模型权重，重复这个过程直至达到设定的迭代轮数。在测试阶段，加载测试集的数据，通过训练好的模型，去掉分类部分的神经网络层，直接得到测试样本特征，计算比较特征相似度，完成检索过程，之后计算评估指标，进行模型性能的判定，若不满足预期要求，则重新回到训练环节，进行进一步的调整训练，若已经达到预期的性能，则保存模型权重，完成整个技术发明的流程，得到最终的解决方案。

当多模态特征融合模块融合两个成对的图像时，不同于之前简单的通道拼接或者直接相加的方式，本发明的融合策略可以通过引入通道注意力来克服语义不一致问题，并帮助学习更多的判别性特征。图4为本发明实施例提供的一种基于分块的双重多模态特征融合模块的结构图，如图4所示，首先将上述跨模态图像生成网络得到的成对图像等分为P个部分，每部分首先通过第一个多分支通道注意力模块M，用来改善第二重注意力模块的输入质量，其中M结合全局和局部特征的通道注意力，成对图像相加后被送入两个分支中，分别提取全局和局部的注意力，局部注意力分支采用两层1×1的卷积操作，全局注意力的分支相比局部注意力分支增加了全局平均池化操作，将全局和局部的注意力相加后进行Sigmoid运算，得到一个初始的融合权重，利用该初始的融合权重可以计算得到初级的融合特征PF，之后，使用另一个相同的注意力模块来融合输入的部分级的图像，即第二重注意力模块，将上述初级的融合特征PF输入到第二重注意力模块，最终得到部分级融合特征FF，将P个部分的融合特征FF拼接起来，得到上述成对图像的融合特征。

具体的，上述步骤S30包括：图5为本发明实施例提供的一种基于多模态信息补齐的测试模式示意图，在不改变数据集的测试模式的情况下，实现了一种基于多模态信息补偿的测试方式。如图5下侧(b)所示，与传统的跨模态目标重识别测试方式(图5(a))不同的是，我们让查询集和搜索库图像中的所有图像都经过跨模态图像生成网络和基于分块的双重多模态特征融合模块，实现数据的补偿和统一，基于所述成对图像的融合特征利用余弦距离测量所述成对图像之间的差异特征，对所述差异特征进行补偿，从而解决模态差异问题。

基于上述生成式多模态图像融合模型，本发明实施例提供的一种基于生成式多模态图像融合的图像行人目标重识别方法的处理流程图如图6所示，包含下面这样几个阶段，分别是图像预处理阶段、跨模态图像生成阶段、多模态特征融合阶段、特征提取阶段、模型迭代优化阶段和模型测试评估阶段等。下面对各个阶段的具体操作进行详细的讲解。

算法的输入：

1.跨模态图像数据：包括训练图像(train)、查询图像(query)以及搜索库(gallery)。训练图像用于训练上述生成式多模态图像融合模型提取特征的能力，搜索图像和搜索库用于验证上述生成式多模态图像融合模型的性能。

2.模型算法超参数：包括图像的裁剪尺寸、训练中的批量大小、迭代轮数及学习率，图像像分块的数量P，基于patch的跨模态对比损失的平衡系数λ等。

算法的输出：

得到训练好的达到性能评估标准的生成式多模态图像融合模型的参数权重。模型测试过程：模型的输入为查询图像，通过生成式多模态图像融合模型，我们可以获得图像成对图像，并对得到的成对图像进行特征融合以实现数据补偿和统一，输出最终得到的特征嵌入。

执行步骤：

一：图像预处理阶段

步骤1-1：将跨模态数据集的图像数据(包括训练集和测试集)，加载到GPU显存中；上述训练集和测试集中的图像数据包括可见光图像和红外图像。

步骤1-2：对训练集和测试集的图像做标准化操作，将图像的像素数值范围缩放到0到1之间，根据设置的大小对图像进行裁剪，并适当使用随机水平翻转、随机裁剪等数据增强操作；

步骤1-3：根据设置好的批量大小将图像数据组成批量的形式，用于后期模型算法的输入。

二、跨模态成对图像生成阶段

步骤2-1：对预处理后的训练集中的可见光图像和红外图像，利用不同的编码器提取它们的模态特定特征和模态共享特征；

步骤2-2：将得到的模态特定特征和模态共享特征送入到不同的解码器中，生成相应的可见光图像和红外图像；

步骤2-3：计算对抗性损失、重建损失、循环一致性损失、跨模态对比损失(公式4)，对这几种损失进行加权融合，得到损失值；

步骤2-4：利用PyTorch深度学习框架，可以从最终计算的损失值出发进行反向传播，自动计算模型中参数的梯度值，并使用优化器(例如Pytorch的Adam优化器)对模型算法的可学习参数值进行更新操作，在模型达到超参数设定的轮数之前重复上述所有执行步骤，达到训练轮数后停止模型的训练过程，最终得到生成的跨模态成对图像。

三、多模态特征融合阶段

步骤3-1：将得到的成对图像分别划分为P个部分图像；

步骤3-2：分别将划分得到的每部分图像输入到第一个多分支通道注意力模块，得到初步的融合特征；

步骤3-3：将得到的初步的融合特征输入到第二重相同的注意力模块，得到最终部分级的融合特征；

步骤3-4：对不同部分的融合特征拼接，得到最终图像的融合特征。

四、特征提取阶段

步骤4-1：将融合特征输入到跨模态行人重识别的主干网络进行特征提取；

步骤4-2：计算分类损失(ID loss)；

步骤4-3：计算三元组损失(Triplet loss)；

步骤4-4：将损失相加，得到总损失的值。

五、模型迭代优化阶段

步骤5-1：代码实现基于PyTorch深度学习框架，可以从最终计算的损失值出发进行反向传播，自动计算模型中参数的梯度值；

步骤5-2：利用前面步骤中计算的梯度，使用优化器(例如Pytorch的Adam优化器)对模型算法的可学习参数值进行更新操作；

步骤5-3：在模型达到超参数设定的轮数之前重复上述所有执行步骤，达到训练轮数后停止模型的训练过程。

六、测试评估阶段

步骤6-1：读取测试集的行人图像，加载至GPU显存，并进行和训练环节相同的标准化操作(注意测试时不需要进行随机水平翻转等数据增强操作)；

步骤6-2：采用行人重识别常用的Cumulative Matching Characteristics(CMC)以及Mean Average Precsion(mAP)评价指标，通过评估计算的指标值，初步进行模型优劣的评价。

步骤6-3：若评估结果未达到要求，则需要调整模型的超参数，回到执行步骤的第一步，重新进行模型的训练环节，若评估结果达到要求，则可以保存模型权重，得到本次可见光红外跨模态行人重识别任务的解决方案。

在使用当前技术发明之前，需要技术人员进行相关环节的配置工作，其中包括安装Linux操作系统、Python 3.7(及以上版本)的开发环境、PyTorch1.7(及以上版本)的深度框架，因为本发明所使用的算法为基于深度学习的模型算法，推荐在GPU(graphicsprocessing unit，图形处理器)环境中进行模型的训练过程，需要安装GPU版本的Pytorch1.7(及以上版本)以及对应版本的CUDA并行计算架构。

通过以上的实施方式的描述可知，本实施例的目标重识别模型的训练方法的执行主体可以为目标重识别模型的训练装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。本实施例中的多个图像可以具有可见光模态和红外模态。在实际应用中，可以采用图像采集装置(例如：摄像头)在白天采集可见光图像或者视频帧，夜晚采集红外图像或者视频帧，从而可以得到具有多种模态的多个图像。本实施例中，通过获取分别具有对应的多种模态和对应的多个标注目标类别的多个图像，此训练的重识别模型能够充分挖掘多种模态图像中的特征，能够增强不同模态下图像匹配的准确度，从而提升跨模态的目标重识别的效果。本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁盘、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

综上所述，本发明实施例方法相比于现有的提取模态共享特征的跨模态目标重识别方法，利用了丢失的模态特定特征的信息，从根本上解决了模态差异问题。

在图像生成模块，本发明实施例方法除了关注图像风格的转换，利用对比学习来关联输入与输出图像对应位置的信息，保留了行人的身份信息。

在多模态特征融合阶段，本发明实施例方法基于分块的思想，实现细粒度的融合，同时引入通道注意来克服语义不一致问题，学习更具有区分性的特征表示。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于生成式多模态图像融合的目标重识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述的利用跨模态图像生成网络生成输入图像的另一模态的图像，得到成对图像，所述输入图像包括可见光图像或者红外图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述的方法还包括：

基于patch的跨模态对比损失如公式4所示，

4.根据权利要求2或者3所述的方法，其特征在于，所述的构建并训练基于分块的双重多模态特征融合模块，包括：

5.根据权利要求4所述的方法，其特征在于，所述的将所述成对图像输入到训练好的双重多模态特征融合模块中，得到所述成对图像的融合特征，包括：