CN115063832A

CN115063832A - 一种基于全局与局部特征的对抗学习跨模态行人重识别方法

Info

Publication number: CN115063832A
Application number: CN202210493056.XA
Authority: CN
Inventors: 吴飞; 帅子珍; 高广谓; 马永恒; 周宏�; 季一木
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2022-09-16

Abstract

本发明公开了一种基于全局与局部特征的对抗学习跨模态行人重识别方法，包括：将选定的可见光图像样本集X^v和红外图像样本集X^t作为训练数据；将可见光图像样本和红外图像样本输入所构建的具有注意力机制的特征提取网络获取特征；将从具有注意力机制的特征提取网络获得的可见光特征f_i ^v、红外特征f_i ^t输入局部特征学习模块进行操作；将从具有注意力机制的特征提取网络获得的可见光特征f_i ^v、红外特征f_i ^t输入预测一致性模块进行操作；将可见光拼接特征f_i ^v′和红外拼接特征f_i ^t′输入对抗学习模块进行处理。本发明可有效减小可见光和红外特征的模态差异，大大提高了跨模态行人重识别的检索率。

Description

一种基于全局与局部特征的对抗学习跨模态行人重识别方法

技术领域

本发明属于计算机视觉技术领域，涉及到特征提取与处理以及减小模态差异的方法，尤其涉及一种基于全局与局部特征的对抗学习跨模态行人重识别方法。

背景技术

行人重识别(Re-ID)是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，被认为是一个图像检索的子问题。由于行人重识别在计算机视觉领域和实际视频监控应用中具有广泛的应用前景，因此受到了学者们越来越多的关注。近年来，单模态行人重识别得到了快速发展，并取得了良好的识别性能。单模态行人重识别一般拍摄可见光图像，主要解决相机带来的视图变化，以及行人姿势和背景不同造成的模态内差异问题。单模态行人重识别所检索的图像大多为白天所拍摄的图像，但现实生活中往往很多场景都是在夜晚或者黑暗环境下发生，例如许多犯罪事件往往在晚上发生。单模态行人重识无法满足这部分场合的要求。

跨模态行人重识别由可见光相机和红外相机拍摄可见光图像和红外图像。由于可见光相机和红外相机光谱的波长不同会带来两种图像之间的模态差异。跨模态行人重识别既要解决单模态行人重识别的模态内差异问题，又要解决可见光图像和红外图像两种不同模态的异质数据模态间差异问题。为此，研究者们提出一系列的解决方案。如Zhu等人利用一种双通道局部特征网络学习局部特征，并提出异中心损失约束两种异构模态的中心，以此监督网络学习模态不变的信息表示(Neurocomputing,2020,386:97-109)。Wei等人使用一种自适应分割策略进行分块得到局部特征，同时将全局特征与局部特征结合学习判别特征和模态不变特征(IEEE Transactions on Neural Networks and Learning Systems,2021,pp.1-12)。但是，这些方法仍然存在下述缺陷：不能充分提取全局与局部特征，对特征的鉴别性差，无法有效消除模态差异。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种基于全局与局部特征的跨模态行人重识别方法，通过引入的注意力机制提取深层特征、局部特征与全局特征进行身份匹配以及生成对抗网络来减小模态差异。

为解决上述技术问题，本发明采用以下技术方案。

一种基于全局与局部特征的对抗学习模态行人重识别方法，包括以下步骤：

S1.将选定的可见光图像样本集X^v和红外图像样本集X^t作为训练数据。其中，可见光图像样本集为

红外图像的样本集为

每个样本集包含M个行人，标签集为Y＝{y_i|i＝1,2,…,N}，N代表可见光图像或红外图像的数量；

S2.在卷积神经网络的基础上，加入注意力机制模块，以此构建具有注意力机制的特征提取网络；将可见光图像样本和红外图像样本输入具有注意力机制的特征提取网络获取特征；所述的具有注意力机制的特征提取网络，包括模态特定子模块和模态共享子模块

模态特定子模块包含可见光子模块

和红外子模块

模态共享子模块

包含

3个卷积块；

S3.将从具有注意力机制的特征提取网络获得的可见光特征f_i ^v，红外特征f_i ^t输入局部特征学习模块进行操作，得到可见光局部特征f_i ^vp和红外局部特征f_i ^tp、可见光局部降维特征f_i ^vp′和红外局部降维特征f_i ^tp′、可见光局部标签特征f_i ^vp″和红外局部标签特征f_i ^tp″、可见光拼接特征f_i ^v′和红外拼接特征f_i ^t′；

S4.将从具有注意力机制的特征提取网络获得的可见光特征f_i ^v、红外特征f_i ^t输入预测一致性模块进行操作，得到可见光全局特征f_i ^vg和红外全局特征f_i ^tg、可见光全局标签特征f_i ^vg′和红外全局标签特征f_i ^tg′；

S5.将可见光拼接特征f_i ^v′和红外拼接特征f_i ^t′输入对抗学习模块进行处理。

具体的，所述步骤S2的过程包括：

步骤S2.1.获取通道注意力模块的输出特征F_i ^v′：将可见光中层特征F_i ^v作为通道注意力模块的输入，对可见光中层特征F_i ^v在空间维度上进行最大池化和平均池化操作得到特征

和

然后将特征

和

输入到两层全连接神经网络中进行维度压缩，再将进行维度压缩后的特征

和特征

逐元素求和合并，最后得到1维的通道注意力特征M_c∈R^C ^*1*1：

式中，σ(·)表示Sigmoid激活函数，MLP表示两层全连接神经网络，AvgPool(·)表示平均池化，MaxPool(·)表示最大池化，W₁，W₀表示两层神经网络的权重参数；

最后将通道注意力特征M_c与可见光中层特征F_i ^v进行乘积得到通道注意力模块的输出特征F_i ^v′：

式中

为两个矩阵对应位置元素进行乘积；

步骤S2.2.获取可见光特征f_i ^v和红外特征f_i ^t：将通道注意力模块的输出特征F_i ^v′作为空间注意力模块的输入特征，首先对空间注意力模块的输入特征F_i ^v′在通道维度上进行最大池化和平均池化操作得到特征

和

然后将得到的特征

和特征

在通道维度上进行拼接，再经过卷积核为7×7的卷积操作后通过Sigmoid激活层得到2维的空间注意力特征M_s∈R^1*H*W：

式中，F^7×7表示卷积核为7×7的卷积操作，[；]表示对特征进行拼接；

最后将空间注意力特征M_s与特征F_i ^v′做乘法得到空间注意力模块的输出特征F_i ^v″：

再将空间注意力模块的输出特征F_i ^v″输入卷积块

得到可见光特征f_i ^v；对红外中层特征F_i ^t进行和可见光中层特征F_i ^v相同的操作，得到红外特征f_i ^t。

具体的，所述步骤S3包括：

S3.1.对可见光特征f_i ^v在水平方向上进行均匀划分，得到P个大小相同的可见光局部特征f_i ^vp，p＝1,2,…,6；然后对可见光局部特征f_i ^vp先采用广义平均池化；再采用1×1的卷积核进行卷积得到可见光局部降维特征f_i ^vp′，对红外特征f_i ^t进行对应的操作得到红外局部降维特征f_i ^tp′；

S3.2.对每部分可见光局部降维特征f_i ^vp′、红外局部降维特征f_i ^tp′采用基于异质中心的三元组损失以提高局部特征的鉴别性，损失如下：

式中，min||·||₊函数表示难样本挖掘，[·]₊＝max(·,0)，ρ为间隔参数，||·||₂为两个特征中心之间的欧式距离，

表示从m＝1到m＝M之间的结果进行求和；

分别为当前训练批次中第m个行人的可见光图像局部特征中心和红外图像局部特征中心；

分别为当前训练批次中第m个行人的第k张可见光图像局部特征的第p部分和第k张红外图像局部特征的第p部分；共有M个可见光局部特征中心

和M个红外局部特征中心

S3.3.对局部可见光降维特征f_i ^vp′进行分类得到可见光局部标签特征f_i ^vp″，通过相同的操作得到红外局部标签特征f_i ^tp″；基于可见光局部标签特征f_i ^vp″和红外局部标签特征f_i ^tp″的分类损失为：

式中，p_i(f_i ^vp″)表示可见光局部标签特征f_i ^vp″生成的概率分布，p_i(f_i ^tp″)表示红外局部标签特征f_i ^tp″生成的概率分布；y_i为对应图像的真实标签，log为对数运算；

S3.4.可见光拼接特征f_i ^v′由每部分可见光局部降维特征f_i ^vp′进行拼接([f_i ^v1′；f_i ^v2′；f_i ^v3′；f_i ^v4′；f_i ^v5′；f_i ^v6′])得到，红外拼接特征f_i ^t′由每部分红外局部降维特征f_i ^tp′进行拼接得到，对可见光拼接特征f_i ^v′、红外拼接特征f_i ^t′采用基于异质中心的三元组损失：

式中，

基于可见光拼接特征f_i ^v′得到，为第m个行人的P个可见光拼接特征的中心，

基于红外拼接特征f_i ^t′得到，为第m个行人的P个红外拼接特征的中心。

具体的，所述步骤S4包括：

S4.1.将从具有注意力机制的特征提取网络得到的可见光特征f_i ^v通过平均池化转换为可见光全局特征f_i ^vg，然后将可见光全局特征f_i ^vg通过由三层全连接神经网络和分类器构成的全局特征身份预测模块，得到第三层全连接层输出的可见光全局标签特征f_i ^vg′、以及分类器输出的身份类别概率

为第i个可见光全局特征的身份类别概率；对红外特征f_i ^t进行与可见光特征f_i ^v相同的操作得到红外全局特征f_i ^tg和红外全局标签特征f_i ^tg′；其

如下：

式中，p^g(f_i ^vg′)表示可见光全局标签特征f_i ^vg′生成的概率分布，exp()指以自然常数e为底的指数函数，

为全局特征身份预测模块中身份标签为y_i的行人的分类器参数，

为全局特征身份预测模块中第m个行人的分类器参数；

同理可得到

局部特征挖掘模块中第i张可见光图像和红外图像对应的身份类别概率分别为

使用KL散度损失L_KL来减少两个预测分布之间的距离：

式中，

测量分布

和分布

之间的相互关系散度；

S4.2.对可见光全局特征f_i ^vg以及红外全局特征f_i ^tg采用基于异质中心的三元组损失以提高全局特征的鉴别性，其损失为：

式中，

为第m个行人的可见光全局特征的中心，

为第m个行人的红外全局特征的中心；

和

分别基于可见光全局特征f_i ^vg和红外全局特征f_i ^tg得到；共有M个可见光特征中心

和M个红外特征中心

基于可见光全局标签特征f_i ^vg′和红外全局标签特征f_i ^tg′的分类损失为：

式中，p^g(f_i ^vg′)表示可见光全局标签特征f_i ^vg′生成的概率分布，p^g(f_i ^tg′)表示红外全局标签特征f_i ^tg′生成的概率分布。

具体的，所述步骤S5包括：

S5.1.模态判别器D包括两层全连接神经网络，其目标是区分输入图像的特征是可见光模态或红外模态；生成器G包括局部特征挖掘模块和预测一致性模块，其目标是在学习鉴别特征的同时让可见光特征和红外特征的模态差异最小化；模态判别器的分类损失为：

式中θ_D是判别器的参数；

生成器G的生成损失为：

L_gen(θ_id,θ_tri,θ_kl)＝L_id(θ_id)+αL_{hc_tri}(θ_tri)+βL_KD(θ_kl) (13)

式中，α、β为超参数，θ_id、θ_tri、θ_kl为生成器参数；

S5.2.生成器和模态判别器执行极大极小的博弈，判别器的参数在生成模型的阶段被固定，反之亦然；平衡生成模型和判别模型之间的训练过程，优化的总体目标为：

公式(14)中

表示函数取最小值时此时变量θ_id和θ_tri的取值；公式(15)中

表示函数取最大值时此时变量θ_D的取值。

与现有技术相比，本发明具有以下优点和有益效果：

1.本发明使用注意力模块加强深层特征的提取能力。该注意力模块包括通道注意力模块与空间注意力模块，是一种轻量级的通用模块，可以将其融入到各种卷积神经网络中进行端到端的训练。注意力模块使网络更加关注目标行人本身，能够把握重点信息。

2.本发明使用预测一致性模块使全局特征与局部特征进行身份匹配。预测一致性模块通过KL散度损失使全局特征的身份预测来监督局部特征的学习，从而保持全局特征和局部特征的可判别一致性。

3.本发明使用对抗学习模块减小可见光特征和红外特征的模态差异，通过对抗学习中的极大极小博弈策略将可见光特征和红外特征的模态差异最小化。

4.本发明通过采取上述有效措施，可使跨模态行人重识别检索率大大提高。

附图说明

图1为本发明的一种实施例方法的流程图。

图2为本发明的一种实施例的注意力模块整体图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

本发明的一种基于全局与局部特征的对抗学习模态行人重识别方法，如图1、图2所示，采用具有注意力机制的特征提取网络提取特征，该网络包括模态特定子模块、模态共享子模块以及注意力机制模块(包括通道注意力模块和空间注意力模块)，然后通过局部特征学习模块、预测一致性模块和对抗学习模块共同处理特征。所述的通道注意力模块包含最大池化层、平均池化层、两层全连接神经网络以及Sigmoid激活函数。

其方法包括以下步骤：

红外图像的样本集为

每个样本集包含M个行人，标签集为Y＝{y_i|i＝1,2,…,N}，N代表可见光图像(红外图像)的数量。

S2.在卷积神经网络的基础上，加入注意力机制模块，以此构建具有注意力机制的特征提取网络，并将可见光图像样本和红外图像样本输入具有注意力机制的特征提取网络，从而获取特征。具有注意力机制的特征提取网络，包括模态特定子模块(包含可见光子模块

和红外子模块

)和模态共享子模块

(

包含

3个卷积块)，将从训练数据集中选取的可见光图像样本

和红外图像样本

输入具有注意力机制的特征提取网络进行操作，将

输出的可见光中层特征F_i ^v输入注意力模块，得到注意力模块的可见光输出特征F_i ^v″，最后将特征F_i ^v″输入卷积块

得到可见光特征f_i ^v，相同的，对红外中层特征F_i ^t进行和可见光中层特征F_i ^v相同的操作，能够得到红外特征f_i ^t。在卷积块

和

之间加入通道注意力模块和空间注意力模块，加强深层特征的提取能力。

所述步骤S2的具体过程包括：

步骤S2.1.获取通道注意力模块的输出特征F_i ^v′。其中，所述步骤S2中对于

输出的可见光中层特征F_i ^v∈R^C*H*W(C为通道数，H和W是空间维度)，将可见光中层特征F_i ^v作为通道注意力模块的输入，首先对可见光中层特征F_i ^v在空间维度上进行最大池化和平均池化操作得到特征

和

然后将特征

和

和特征

逐元素求和合并，最后得到1维的通道注意力特征M_c∈R^C*1*1。如下所示：

式中，σ(·)表示Sigmoid激活函数，MLP表示两层全连接神经网络，AvgPool(·)表示平均池化，MaxPool(·)表示最大池化，W₁，W₀表示两层神经网络的权重参数。最后将通道注意力特征M_c与可见光中层特征F_i ^v进行乘积得到通道注意力模块的输出特征F_i ^v′，如下所示：

式中

为两个矩阵对应位置元素进行乘积。

步骤S2.2.获取可见光特征f_i ^v和红外特征f_i ^t。其中，所述步骤S2中将通道注意力模块的输出特征F_i ^v′作为空间注意力模块的输入特征，首先对空间注意力模块的输入特征F_i ^v′在通道维度上进行最大池化和平均池化操作得到特征

和

然后将得到的特征

和特征

在通道维度上进行拼接，再经过卷积核为7×7的卷积操作后通过Sigmoid激活层得到2维的空间注意力特征M_s∈R^1*H*W，如下所示：

式中，F^7×7表示卷积核为7×7的卷积操作，[；]表示对特征进行拼接。最后将空间注意力特征M_s与特征F_i ^v′做乘法得到空间注意力模块的输出特征F_i ^v″，如下所示：

再将空间注意力模块的输出特征F_i ^v″输入卷积块

得到可见光特征f_i ^v。相同的，对红外中层特征F_i ^t进行和可见光中层特征F_i ^v相同的操作(先对红外中层特征F_i ^t在通道维度上进行最大池化和平均池化操作，并对最大池化和平均池化操作得到的特征进行拼接，后经过卷积核为7×7的卷积操作后通过Sigmoid激活层)，能够得到红外特征f_i ^t。

S3.将从具有注意力机制的特征提取网络获得的可见光特征f_i ^v，红外特征f_i ^t输入局部特征学习模块进行操作，得到可见光局部特征f_i ^vp和红外局部特征f_i ^tp，可见光局部降维特征f_i ^vp′和红外局部降维特征f_i ^tp′，可见光局部标签特征f_i ^vp″和红外局部标签特征f_i ^tp″，可见光拼接特征f_i ^v′和红外拼接特征f_i ^t′。

所述步骤S3的具体过程包括：

S3.1.对可见光特征f_i ^v，红外特征f_i ^t进行相应的操作。其中，所述步骤S3中对可见光特征f_i ^v在水平方向上进行均匀划分，得到P个大小相同的可见光局部特征f_i ^vp，p＝1,2,…,6。然后对可见光局部特征f_i ^vp先采用广义平均池化，再采用1×1的卷积核进行卷积得到可见光局部降维特征f_i ^vp′。相同的，对红外特征f_i ^t进行与可见光特征f_i ^v相同的操作(先在水平方向进行均匀划分、再进行广义平均池化、最后采用1×1的卷积核进行卷积)得到红外局部降维特征f_i ^tp′。

S3.2.对可见光局部降维特征f_i ^vp′，红外局部降维特征f_i ^tp′求基于异质中心的三元组损失。其中，所述步骤S3中对每部分可见光局部降维特征f_i ^vp′，红外局部降维特征f_i ^tp′采用基于异质中心的三元组损失以提高局部特征的鉴别性，损失如下：

表示从m＝1到m＝M之间的结果进行求和。

分别为当前训练批次中第m个行人的可见光图像局部特征中心和红外图像局部特征中心。

分别为当前训练批次中第m个行人的第k张可见光图像局部特征的第p部分和第k张红外图像局部特征的第p部分。共有M个可见光局部特征中心

和M个红外局部特征中心

S3.3.对可见光局部标签特征f_i ^vp″，红外局部标签特征f_i ^tp″求分类损失。其中，所述步骤S3中对局部可见光降维特征f_i ^vp′进行分类得到可见光局部标签特征f_i ^vp″，对红外降维特征f_i ^tp′进行分类得到红外局部标签特征f_i ^tp″。基于可见光局部标签特征f_i ^vp″和红外局部标签特征f_i ^tp″的分类损失为：

p_i(f_i ^vp″)表示可见光局部标签特征f_i ^vp″生成的概率分布，p_i(f_i ^tp″)表示红外局部标签特征f_i ^tp″生成的概率分布。y_i为对应图像的真实标签，log为对数运算。

S3.4.对可见光拼接特征f_i ^v′，红外拼接特征f_i ^t′求基于异质中心的三元组损失。其中，所述步骤S3中可见光拼接特征f_i ^v′由每部分可见光局部降维特征f_i ^vp′进行拼接([f_i ^v1′；f_i ^v2′；f_i ^v3′；f_i ^v4′；f_i ^v5′；f_i ^v6′])得到，红外拼接特征f_i ^t′由每部分红外局部降维特征f_i ^tp′进行拼接得到，对可见光拼接特征f_i ^v′，红外拼接特征f_i ^t′采用基于异质中心的三元组损失，损失如下：

式中，

S4.将从具有注意力机制的特征提取网络获得的可见光特征f_i ^v，红外特征f_i ^t输入预测一致性模块进行操作，得到可见光全局特征f_i ^vg和红外全局特征f_i ^tg，可见光全局标签特征f_i ^vg′和红外全局标签特征f_i ^tg′。

所述步骤S4的具体过程包括：

S4.1.预测一致性操作。其中，所述步骤S4中将从具有注意力机制的特征提取网络得到的可见光特征f_i ^v通过平均池化转换为可见光全局特征f_i ^vg，然后将可见光全局特征f_i ^vg通过由三层全连接神经网络和分类器构成的全局特征身份预测模块，得到第三层全连接层输出的可见光全局标签特征f_i ^vg′，以及分类器输出的身份类别概率

对红外特征f_i ^t进行与可见光特征f_i ^v相同的操作得到红外全局特征f_i ^tg和红外全局标签特征f_i ^tg′。

如下：

为全局特征身份预测模块中第m个行人的分类器参数。同样的，可以得到

其中，所述步骤S4中使用KL散度损失L_KL来减少两个预测分布之间的距离，L_KL损失为：

式中，

测量分布

和分布

之间的相互关系散度。

S4.2.对可见光全局特征f_i ^vg，红外全局特征f_i ^tg求基于异质中心的三元组损失。其中，所述步骤S4中对可见光全局特征f_i ^vg以及红外全局特征f_i ^tg采用基于异质中心的三元组损失以提高全局特征的鉴别性，损失如下：

式中，

为第m个行人的可见光全局特征的中心，

为第m个行人的红外全局特征的中心。

和

分别基于可见光全局特征f_i ^vg和红外全局特征f_i ^tg得到。共有M个可见光特征中心

和M个红外特征中心

所述步骤S5的具体过程包括：

S5.1.对生成器和判别器进行介绍。其中，所述步骤S5中，模态判别器D包括两层全连接神经网络，生成器G包括局部特征挖掘模块和预测一致性模块。判别器的目标是区分输入图像的特征是可见光模态或红外模态。生成器的目标是在学习鉴别特征的同时让可见光特征和红外特征的模态差异最小化。模态判别器的分类损失为：

式中θ_D是判别器的参数。生成器的生成损失为：

L_gen(θ_id,θ_tri,θ_kl)＝L_id(θ_id)+αL_{hc_tri}(θ_tri)+βL_KD(θ_kl) (13)

式中，α，β为超参数，θ_id，θ_tri，θ_kl为生成器参数。

S5.2.对生成器和判别器进行优化。其中，所述步骤S5中生成器和模态判别器执行极大极小的博弈，判别器的参数在生成模型的阶段被固定，反之亦然。平衡生成模型和判别模型之间的训练过程，优化的总体目标为：

公式(14)中

表示函数取最小值时此时变量θ_id和θ_tri的取值，公式(15)中

表示函数取最大值时此时变量θ_D的取值。

总之，本发明使用注意力模块加强深层特征的提取能力，通过预测一致性模块使全局特征与局部特征进行身份匹配，从而保持全局特征和局部特征的可判别一致性，并通过对抗学习模块减小可见光和红外特征的模态差异，大大提高了跨模态行人重识别的检索率。

Claims

1.一种基于全局与局部特征的对抗学习模态行人重识别方法，其特征在于，包括以下步骤：

S1.将选定的可见光图像样本集X^v和红外图像样本集X^t作为训练数据；其中，可见光图像样本集为

红外图像的样本集为

S2.在卷积神经网络的基础上，加入注意力机制模块，构建具有注意力机制的特征提取网络；将可见光图像样本和红外图像样本输入具有注意力机制的特征提取网络获取特征；所述的具有注意力机制的特征提取网络，包括模态特定子模块和模态共享子模块

模态特定子模块包含可见光子模块

和红外子模块

模态共享子模块

包含

3个卷积块；

2.根据权利要求1所述的一种基于全局与局部特征的对抗学习模态行人重识别方法，其特征在于，所述步骤S2的具体过程包括：

和

然后将特征

和

和特征

逐元素求和合并，最后得到1维的通道注意力特征M_c∈R^C*1*1：

式中

为两个矩阵对应位置元素进行乘积；

和

然后将得到的特征

和特征

再将空间注意力模块的输出特征F_i ^v″输入卷积块

3.根据权利要求1所述的一种基于全局与局部特征的对抗学习模态行人重识别方法，其特征在于，所述步骤S3具体包括：

S3.1.对可见光特征f_i ^v在水平方向上进行均匀划分，得到P个大小相同的可见光局部特征f_i ^vp，p＝1,2,…,6；然后对可见光局部特征f_i ^vp先采用广义平均池化；再采用1×1的卷积核进行卷积得到可见光局部降维特征f_i ^vp′，对红外特征f_i ^t进行相应的操作得到红外局部降维特征f_i ^tp′；