CN114743162A

CN114743162A - 一种基于生成对抗网络的跨模态行人重识别方法

Info

Publication number: CN114743162A
Application number: CN202210364290.2A
Authority: CN
Inventors: 产思贤; 杜锋; 白琮
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-07-12

Abstract

本发明公开了一种基于生成对抗网络的跨模态行人重识别方法，通过生成对抗网络生成跨模态图像进行像素对齐，然后将同一ID下的真实图像和生成的跨模态图像输入主干网络Resnet‑50进行特征提取和特征对齐。通过创建的联合损失函数来筛选模态共有特征中具有身份区别性的特征，对网络模型进行优化。本发明利用生成对抗网络以及对传统Resnet‑50进行修改，在跨模态行人重识别任务取得了不错的效果。

Description

一种基于生成对抗网络的跨模态行人重识别方法

技术领域

本申请属于计算机视觉技术领域，尤其涉及一种基于生成对抗网络的跨模态行人重识别方法。

背景技术

ReID是图像检索的一类基本问题，它的目的是将查询集query中的目标图像匹配到由不同相机捕获的数据库集gallery中的图像。这是一个挑战，由于变化的拍摄视角，目标形态，光照和背景。目前大多数存在的方法都聚焦在可见光相机捕获的目标ReID问题，即单一模态ReID问题。然而，在某些照明不足的场景下(如黑夜，暗光室内)，需要借助红外线摄像头拍摄行人图像。因此，在这种跨通道条件下，ReID问题变得极具挑战性，这本质上是一个跨通道检索问题。

跨模态行人重识别，主流的技术方案有通过特征对齐来弥合RGB和IR图像之间的差距的特征学习方法和通过生成对抗网络来消除模态差异或特征解缠的方法。特征学习的主流算法如Two-stream系列，通过网络在双流网络上附加一些操作直接学习特征，算法精度较高，速度快，但当行人外观改变较大时，对细节捕获能力不强。生成对抗网络的方法旨在利用网络学习生成另一模态图像或解缠模态无关特征，但由于大量模态相关特征的存在，导致图像生成的质量并不理想。

发明内容

本申请的目的是提供一种基于生成对抗网络的跨模态行人重识别方法，在现有技术方案中引入生成对抗网络进行像素对齐，将自然图像生成跨模态的红外图像，使用Resnet-50进行特征提取并加入注意力机制和模态缓解模块，克服了图像在不同模态下和不同姿态下的跨模态检索问题。

为了实现上述目的，本申请技术方案如下：

一种基于生成对抗网络的跨模态行人重识别方法，包括：

获取训练数据集，所述训练数据集中每个训练样本为带有身份标注的第一图像和第二图像，所述第一图像和第二图像分别为自然光图像和红外线图像中的一种，将训练样本输入到生成对抗网络训练生成器；

训练样本中的第一图像经过所述生成器生成伪第二图像，将生成的伪第二图像与训练样本中真实第二图像输入到构建的特征对齐网络，提取伪第二图像特征和真实第二图像特征；

将伪第二图像与伪第二图像特征组成伪图像特征对，将训练样本中真实第二图像与真实第二图像特征组成真实图像特征对，送入联合鉴别器进行判别；

计算生成对抗网络、特征对齐网络和联合鉴别器的联合损失，完成网络训练；

将数据库中图像输入到训练好的生成对抗网络中的生成器，所述生成器输出伪图像与待识别图像输入到特征对齐网络，分别提取对应的图像特征，通过图像特征的比对，完成待识别图像的识别。

进一步的，所述特征对齐网络的主干网络采用Resnet-50，包括第一卷积层、第二卷积层、第三卷积层和第四卷积层，每个卷积层之后设置有NAM注意力机制模块，并且第三卷积层和第四卷积层的NAM注意力机制模块之后还设置了MAM模态缓解模块。

进一步的，所述第一卷积层、第二卷积层、第三卷积层和第四卷积层去除了池化层。

进一步的，所述NAM注意力机制模块位于每个卷积层的批量归一化层之后。

进一步的，所述联合损失表示如下：

其中，L^pix表示生成对抗网络损失，L^feat表示特征对齐网络损失，L^D表示联合鉴别器损失，

表示生成对抗网络的对抗损失，

表示特征对齐网络的对抗损失，L_cyc表示生成对抗网络的循环一致性损失，λ_cyc、

表示对应损失函数的权重，

表示生成对抗网络中对生成图片的分类损失，

表示生成对抗网络对生成图像计算三元组损失，

表示特征对齐阶段对特征计算分类损失，

表示特征对齐阶段对特征计算三元组损失，

表示生成对抗网络的权重，

表示联合鉴器别器鉴别图像—特征对为真时的损失，

表示联合鉴别器鉴别图像特征对为假时的损失；

其中，(x,m)表示输入到联合鉴别器的图像特征对，X′_ir表示生成的伪第二图像，X_ir表示真实第二图像，M_ir表示真实第二图像经过特征对齐网络提取的特征图，M′_ir表示伪第二图像经过特征对齐网络提取的特征图，D_j(x,m)表示联合鉴别器的输出；

其中，联合鉴别器损失计算公式如下：

其中，

表示联合鉴器别器鉴别图像特征对为真，

表示联合鉴别器鉴别图像特征对为假，D_j(x,m)为联合鉴别器的输出，当鉴别为真时输出1，鉴别为假时输出0，E为求数学期望，(X_ir,M_ir)表示同一身份下的真实图像特征对，

是与(X_ir,M_ir)的身份相同的伪图像特征对，

是与(X_ir,M_ir)不同身份下的真实图像特征对；

其中，

表示对从特征对齐网络提取的X_ir和X′_ir特征计算分类损失，p()对输入图像正确分类到其真实身份的预测概率，

表示对生成图像计算三元组损失；

L_cyc＝||G_p′(G_p(X_rgb))-X_rgb||₁+||G_p(G_p′(X_ir))-X_ir||₁；

其中，G_p代表生成器，将第一图像生成伪第二图像，G_p′也是生成器，将伪第二图像生成回第一图像，

代表对生成图像X′_ir进行分类损失计算，

代表对生成图像X′_ir和真实红外图像X_ir计算三元组损失，L_cyc表示循环损失函数，L_tri表示三元组损失函数。

本申请提出的一种基于生成对抗网络的跨模态行人重识别方法，引入生成对抗网络进行像素对齐，将自然图像生成跨模态的红外图像，使用Resnet-50进行特征提取并加入注意力机制和模态缓解模块，从而达到像素对齐和特征对齐的目的，克服了图像在不同模态下和不同姿态下的跨模态检索问题。

附图说明

图1为本申请基于生成对抗网络的跨模态行人重识别方法流程图；

图2为本申请网络示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提出了一种基于生成对抗网络的跨模态行人重识别方法，包括：

步骤S1、获取训练数据集，所述训练数据集中每个训练样本为带有身份标注的第一图像和第二图像，所述第一图像和第二图像分别为自然光图像和红外线图像中的一种，将训练样本输入到生成对抗网络训练生成器。

本申请采用数据集SYSU-MM01作为训练数据集，训练数据集为带有身份标注的红外线图像和自然光图像数据集。同一身份ID的红外线图像和自然光图像作为一个训练样本。

训练样本送入生成对抗网络进行像素对齐，在一个具体的实施例中，如图2所示，G_p代表生成器，生成器目标是将自然光图像生成跨模态的伪红外线图像。在生成对抗网络中，生成器学习从自然光图像到红外线图像的一种映射，令输入自然光图像为X_rgb，输入红外线图像为X_ir，X_rgb由G_p生成伪红外线图像X′_ir，另外生成对抗网络中还包括生成对抗网络辨别器D_p(生成对抗网络是比较成熟的技术，图2中未示出完整的生成对抗网络，仅示出了生成器G_p，不包括另一个生成器G_p′以及生成对抗网络辨别器D_p)，其输入是X′_ir和X_ir，用于辨别生成的图像与真实的红外图像是否一致。生成器与判别器进行对抗训练，达到平衡，以此达到跨模态图像的生成。

容易理解的是，生成对抗网络中，自然光图像(RGB图像)输入到生成器中生成伪红外线图像(伪IR图像)，为了保证生成质量，生成对抗网络还具有另一个生成器G_p′(生成对抗网络是比较成熟的技术，图2中未示出)，将伪IR图像再生成回RGB图像，与真实RGB图像计算L1损失来训练生成器。需要说明的是，对于IR图像也进行同样操作，本实施例第一图像和第二图像分别为自然光图像和红外线图像中的一种，当第一图像是自然光图像时，第二图像为红外线图像；当第一图像是红外线图像时，第二图像为自然光图像。

步骤S2、训练样本中的第一图像经过所述生成器生成伪第二图像，将生成的伪第二图像与训练样本中真实第二图像输入到构建的特征对齐网络，提取伪第二图像特征和真实第二图像特征。

如图2所示的实施例中，RGB图像经过生成器后生成伪IR图像，也称为跨模态图像，然后与训练样本中真实IR图像输入到特征对齐网络，以提取图像特征。

在一个具体的实施例中，特征对齐网络的主干网络采用Resnet-50，包括第一卷积层、第二卷积层、第三卷积层和第四卷积层，每个卷积层之后设置有NAM注意力机制模块，并且第三卷积层和第四卷积层的NAM注意力机制模块之后还设置了MAM模态缓解模块。

本实施例将生成的跨模态图像X′_ir以及真实红外线图像X_ir线性插分成384*192大小，输入到主干网络Resnet-50，Resnet-50包括第一卷积层Conv layer1、第二卷积层Convlayer2、第三卷积层Conv layer3和第四卷积层Conv layer4。尽管Resnet-50可以减少模态间(inter-modality)差异，但是这里仍然存在着很大的模态内(intra-modality)差异，这些差异主要是由于姿态，视角以及光照等因素造成的。

为了解决这个问题，本实施例构建的特征对齐网络，在Resnet-50网络中对layer1、layer2、layer3、layer4去掉池化层，池化层减少了信息并产生了负面影响，本实施例移除池化层以进一步保留特征图。

本实施例在主干网络resnet-50中加入注意力机制，采用加权的方式让网络关注更具有辨别性特征，具体细节是在layerl层、layer2层、layer3层和layer4层中的每个批量归一化层后加入NAM注意力机制模块。

此外，本实施例为了缓解不同模态下的特征差异，本实施例layer3和layer4层后加入MAM模态缓解模块，让网络学习图像的共同特征表示。

步骤S3、将伪第二图像与伪第二图像特征组成伪图像特征对，将训练样本中真实第二图像与真实第二图像特征组成真实图像特征对，送入联合鉴别器进行判别。

如图2所示，本实施例还将伪第二图像与伪第二图像特征组成伪图像特征对，将训练样本中真实第二图像与真实第二图像特征组成真实图像特征对，然后送入联合鉴别器进行判别。

为了能够更好的保持身份一致性，本实施例提出了一个联合判别模块，来学习图像特征对的联合数据分布。具体来说，它的输入为图像-特征对，只有真实的图像和特征，且来自同一个身份ID，才会被判别为真，否则为假。

步骤S4、计算生成对抗网络、特征对齐网络和联合鉴别器的联合损失，完成网络训练。

本步骤计算生成对抗网络、特征对齐网络和联合鉴别器的联合损失，联合损失表示如下：

表示生成对抗网络的对抗损失，

表示对应损失函数的权重，

表示生成对抗网络中对生成图片的分类损失，

表示生成对抗网络对生成图像计算三元组损失，

表示特征对齐阶段对特征计算分类损失，

表示特征对齐阶段对特征计算三元组损失，

表示生成对抗网络的权重，

表示联合鉴器别器鉴别图像特征对为真时的损失，

表示联合鉴别器鉴别图像特征对为假时的损失。

在上述公式中：

表示生成对抗网络的对抗损失，(x，m)表示输入到联合鉴别器的图像特征对，X′_ir表示生成的伪第二图像，X_ir表示真实第二图像，M_ir表示真实第二图像经过特征对齐网络提取的特征图，M′_ir表示伪第二图像经过特征对齐网络提取的特征图，D_j(x，m)表示联合鉴别器的输出。

表示特征对齐网络的生成对抗损失，其他字母含义和上述相同。

其中，联合鉴别器损失计算公式如下：

其中，

表示联合鉴器别器鉴别图像特征对为真时的损失函数，

表示联合鉴别器鉴别图像特征对为假时的损失函数，D_j(x，m)为联合鉴别器的输出，当鉴别为真时输出1，鉴别为假时输出0，E为求数学期望，(X_ir，M_ir)表示同一身份下的真实图像特征对，

是与(X_ir，M_ir)的身份相同的伪图像特征对，

是与(X_ir，M_ir)不同身份下的真实图像特征对。

其中

表示对从特征对齐网络提取的X_ir和X′_ir特征计算分类损失(交叉熵损失)，p()对输入图像正确分类到其真实身份的预测概率，

表示对生成图像计算三元组损失。

生成对抗网络的损失函数包含一个循环一致性损失(cycle-consistency loss)以及一个ID损失(分类损失+三元组损失)。其中，循环一致性损失使得生成的图片能够保持原有的结构和内容(比如姿态、角度等)，ID损失使得合成的图片尽可能和原始图片保持相同的身份信息。这些损失函数分别如下：

L_cyc＝||G_p′(G_p(X_rgb))-X_rgb||₁+||G_p(G_p′(X_ir))-X_ir||₁；

其中，G_p代表生成器，将RGB生成伪IR图像，G_p′也是生成器，将伪IR图像生成回RGB图像，

代表对生成图像X′_ir进行分类损失计算，

步骤S5、将数据库中图像输入到训练好的生成对抗网络中的生成器，所述生成器输出伪图像与待识别图像输入到特征对齐网络，分别提取对应的图像特征，通过图像特征的比对，完成待识别图像的识别。

具体实施方法为：将数据库中图像(即保存在数据库中已标注行人身份的已知图像，通常为一个数据集)输入到训练好的生成对抗网络中的生成器，所述生成器输出伪图像。将伪图像与待识别图像输入到特征对齐网络，分别提取对应的图像特征，将提取的特征保存，并对伪图像与待识别图像保存的特征之间计算余弦相似度(Cosine Similarity)进行匹配，根据余弦相似度按照从大到小排序得到重识别结果。

余弦相似度计算公式如下：

其中A，B分别为真实IR图像特征和伪图像特征，被表示为n维向量，·表示向量内积，||||表示对向量求模。余弦相似度衡量两个向量的相似度，余弦相似度越大，代表特征越匹配。

需要说明的是，在训练时，生成对抗网络是完整的网络，并且在特征对齐网络之后还加入了联合鉴别器，训练好生成器和特征对齐网络。在训练完成之后进行行人重识别时，则只需要用到生成器和特征对齐网络。在进行行人重识别时，将数据库中RGB图像输入生成器，生成伪IR图像，然后通过特征对齐网络提取出伪IR图像特征。将待识别IR真实图像输入到特征对齐网络得到待识别IR图像的图像特征。然后进行比对，寻找出同一身份下的RGB图像，从而达到行人重识别的结果。

本申请将把真实的红外图像和生成的红外图像映射到同一个特征空间，并使用基于身份标签的分类和三元组损失来监督特征，经过网络提取特征后与真实的自然图像进行损失计算，对网络参数进行优化，当行人姿态发生改变时，网络仍能很好的提取出相似特征。

本申请将生成图像和真实图像送入生成对抗网络判别器中，利用循环一致性损失对生成对抗网络进行参数更新，将生成图像和真实图像输入Resnet-50中进行特征提取，为了使网络更加关注区别性特征在每层加入注意力机制，同时在深层中layer3，layer4层加入模态缓解模块，使用ID Loss与TripletLoss的组合训练全局特征，cycle-Loss训练生成器和辨别器，通过loss的反向传播对生成对抗网络和主干网络Resnet-50参数进行优化从而达到像素对齐和特征对齐的目的。将图像和特征联合输入联合鉴别器，能提高鉴别器的鉴别能力，提高图片生成质量。

在一个具体的实施例中，NAM注意力机制模块，采用公式表示如下：

M_c＝sigmoid(W_r(BN(F₁)))

M_s＝sigmoid(W_λ(BN_s(F₂)))

NAM注意力机制是在CBAM机制上改进的一种成熟的注意力机制，它包含通道注意力和空间注意力两个模块，能使网络更加关注图像辨别性特征，且具有很少的参数量，易于网络训练。

其中μ_β和σ_β是小批量B的平均值和标准差，γ和β是可训练的仿射变换参数，其中Mc表示输出特征。γ是每个通道的例因子，权重由W_γ＝γ_i/∑_j＝0γ_j获得。x表示输入，y是输出，W代表网络权重，L()是损失函数，g()是L1损失函数，p是平衡g(γ)和g(λ)的阀值。

NAM注意力机制的目标是设计一种减少信息并放大全局维度交互特征的机制，采用CBAM注意力机制的顺序，通道和空间注意机制并重新设计子模块，给定输入特征图，

中间状态F2和输出F3定义为：

其中Mc和Ms是通道和空间注意力图，

表示逐元素乘法。通道注意力子模块使用3D排列来跨三个维度保留信息。然后它使用两层MLP放大跨维度通道空间依赖关系，在空间注意力子模块中，为了关注空间信息，使用两个卷积层进行空间信息融合。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于生成对抗网络的跨模态行人重识别方法，其特征在于，所述基于生成对抗网络的跨模态行人重识别方法，包括：

2.根据权利要求1所述的基于生成对抗网络的跨模态行人重识别方法，其特征在于，所述特征对齐网络的主干网络采用Resnet-50，包括第一卷积层、第二卷积层、第三卷积层和第四卷积层，每个卷积层之后设置有NAM注意力机制模块，并且第三卷积层和第四卷积层的NAM注意力机制模块之后还设置了MAM模态缓解模块。

3.根据权利要求2所述的基于生成对抗网络的跨模态行人重识别方法，其特征在于，所述第一卷积层、第二卷积层、第三卷积层和第四卷积层去除了池化层。

4.根据权利要求2所述的基于生成对抗网络的跨模态行人重识别方法，其特征在于，所述NAM注意力机制模块位于每个卷积层的批量归一化层之后。

5.根据权利要求1所述的基于生成对抗网络的跨模态行人重识别方法，其特征在于，所述联合损失表示如下：