CN113158881A

CN113158881A - 一种基于注意力机制的跨域行人重识别方法

Info

Publication number: CN113158881A
Application number: CN202110417945.3A
Authority: CN
Inventors: 殷光强; 贾召钱; 王文超; 候少麒; 王治国
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-07-23
Anticipated expiration: 2041-04-19
Also published as: CN113158881B

Abstract

本发明公开了一种基于注意力机制的跨域行人重识别方法，其技术方案是在基于ResNet50构造的神经网络模型中对输入图像进行处理，通过空间注意力模块和注意力权重融合模块能够将不同阶段的注意力信息进行融合，从而充分了利用不同阶段的语义和位置信息来增强行人显著性特征的提取并抑制背景干扰，由此达到提升模型跨域行人重识别效果的目的。

Description

一种基于注意力机制的跨域行人重识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于注意力机制的跨域行人重识别方法。

背景技术

行人重识别(Person re-identification，简称ReID)也称行人再识别，是利用计算机视觉技术在跨设备、时间和地点的条件下判断图像或者视频序列中是否存在特定行人的技术。因其能够对特定人员进行大范围跟踪监控，当前广泛应用于智能监控，智能安保等领域。

得益于深度学习算法的快速发展和大规模行人重识别数据集的出现，行人重识别技术在一些标准公开数据集上的测试准确率已经得到了显著提高。但是目前大多数行人重识别模型普遍面临同样一个问题，由于不同摄像头下的行人图像存在遮挡、光照、角度、背景差异等比较多的干扰因素，同时同一行人的外观信息也会因各种原因发生剧烈变化。因此，当训练模型的训练集和评估模型的测试集来自不同的域时，将极大地干扰模型对行人显著性特征的提取，并导致模型的表现明显下降，这意味着把在一个场景下训练得到的模型迁移到另一个新的场景中进行测试时往往难以得到令人满意的效果。进一步的，训练好的模型无法从背景风格完全不同的行人图像中很好地判别行人特征，也会导致跨域行人重识别效果的急剧下降。因此，增强模型对行人显著性特征的提取对跨域行人重识别至关重要。

研究表明，抑制背景干扰可以有效提高模型的泛化能力并提高跨域识别率。一方面，将行人与背景分割可有效抑制背景干扰。现有技术中提出了使用行人前景掩膜作为辅助，结合三元组损失和对比损失，使得模型更加关注于前景人体区域，忽略背景区域，以此达到分离行人与背景的目的。但若想得到高质量的分割效果，需要大量高质量的行人图像进行网络训练，数据集成本难以接受。另一方面，一些方法利用注意机制获取显著性特征。然而，许多注意力机制的实现没有深入挖掘特征内部信息的关联性，并且模型中不同阶段的注意力信息相互独立。

另外，公开号为CN111738143A的文献于2020年10月2日就公开了一种基于期望最大化的行人重识别方法，其先利用残差卷积神经网络ResNet50作为特征提取的骨干网络对输入行人进行中间特征的提取；构建注意力模块，特征经过模块中Non-Local操作中的协方差运算捕获不同区域间的关联信息，再采用EM算法对特征进行注意力稀疏重构，在对特征中潜在变量进行挖掘的过程中来减小特征的冗余程度，增强有效特征信息的表征能力；采用三元组损失函数、交叉熵损失函数和中心损失函数对网络进行联合训练。该方法能够捕获具有较强辨识度的特征，并能够很好地减少特征的冗余程度，得到具有低秩特征的注意力特征图，进一步提高识别率。但该方法在实际应用中仍然存在如下技术问题：

1、其注意力模块的EM算法需要迭代求解，导致注意力计算方式复杂。

2、其采用的多分支结构增加了网络复杂度和训练难度。

3、其未在整个特征提取过程中使用注意力机制，只是简单地针对某一阶段特征提取注意力，也未考虑不同阶段注意力信息的关联性。

因此，有必要进一步对现有技术进行优先改进。

发明内容

本发明的目的在于克服现有技术存在的上述技术问题，提供了一种基于注意力机制的跨域行人重识别方法，本发明将不同阶段的注意力信息进行融合，充分利用了不同阶段的语义和位置信息，增强行人显著特征的提取并抑制背景干扰，由此达到提升跨域行人重识别效果的目的。

为实现上述目的，本发明采用的技术方案如下：

一种基于注意力机制的跨域行人重识别方法，其技术方案为：在基于ResNet50构造的神经网络模型中对输入图像进行特征提取和抑制背景干扰，具体包括如下步骤：

步骤1：对输入图像进行卷积和池化处理，提取输入图像的特征数据；

步骤2：将特征数据输入到第一残差块中进行处理得到第一输出特征x₁，使用残差连接的Instance Normalization层对第一输出特征x₁进行归一化处理并得到归一化的特征f₁，使用空间注意力模块提取出第一个注意力权重w₁，再根据第一个注意力权重w₁与使用残差连接得到的特征A得出第二输入特征i₁；

步骤3：将第二输入特征i₁输入到第二残差块中进行处理得到第二输出特征x₂，使用残差连接的Instance Normalization层对第二输出特征x₂进行归一化处理并得到归一化的特征f₂，使用空间注意力模块提取出第二个注意力权重w₂，使用注意力权重融合模块将第二个注意力权重w₂与第一个注意力权重w₁进行融合得到第一融合权重w₁₂，再根据第一融合权重w₁₂与使用残差连接得到的特征B得出第三输入特征i₂；

步骤4：将第三输入特征i₂输入到第三残差块中进行处理得到第三输出特征x₃，使用残差连接的Instance Normalization层对第三输出特征x₃进行归一化处理，使用空间注意力模块提取出第三个注意力权重w₃，使用注意力权重融合模块将第三个注意力权重w₃与第一融合权重w₁₂进行融合得到第二融合权重w₂₃，再根据第二融合权重w₂₃与使用残差连接得到的特征C得出第四输入特征i₃；

步骤5：将第四输入特征i₃输入到第四残差块中进行处理，得到第四输出特征，再将第四输出特征输入到Head层中处理，处理后即得到抑制了背景干扰的行人特征。

所述的方法中，使用Instance Normalization层进行归一化处理的方法如下：

其中x_i，i∈1，2，3分别为第一输出特征x₁、第二输出特征x₂和第三输出特征x₃，μ(·)和σ(·)分别表示每个特征在其各个通道内计算所得的平均值和标准差，γ和β是通过数据训练所学习到的参数。

所述的方法中，设定空间注意力模块的输入特征为f∈R^c*h*w，提取出对应的注意力权重为w∈R^1*h*w，c、h、w分别为输入特征f的通道数、高度和宽度，则使用空间注意力模块提取出注意力权重的方法如下：

S1：沿通道维度分别计算输入特征f的最大值和平均值，生成两个2D特征图，计算平均值得到的2D特征图更关注于全局特征信息，计算最大值得到的2D特征图更关注于显著的特征信息；

S2：将生成的两个2D特征图分别沿h维度和w维度计算对应的最大值和平均值，共得到8个特征向量；

S3：将8个特征向量两两组合进行矩阵乘法并进行softmax操作得到4个空间注意力掩码，softmax使得每个掩码内部数值和为1，增加了行人区域和背景区域的注意力权重差异，然后在通道维度上将4个空间注意力掩码进行拼接；

S5：通过3x3卷积和sigmoid将拼接得到的注意力掩码进行融合，融合后得到最终的空间注意力权重为w∈R^1*h*w；该空间注意力权重仅关注于原特征中的行人显著性区域。

步骤3中，使用注意力权重融合模块进行融合的方法为：

先将第二个注意力权重w₂进行上采样并与第一个注意力权重w₁按通道维度进行拼接，同时保留高层的语义信息和低层的位置信息，再利用卷积操作对拼接后的特征进行融合和下采样，最后将下采样后的特征与第二个注意力权重w₂进行逐元素相加，保证特征信息完整性的同时避免梯度消失，即得到融合后的第一融合权重w₁₂，计算公式如下：

w₁₂＝(ds(cat(us(w₂)，w₁))+w₂)/2

其中，us(·)代表双线性插值上采样，ds(·)代表通过卷积核大小为3×3，步长为2的卷积操作进行下采样，cat(·)代表按通道维度进行拼接操作。

步骤4中，使用注意力权重融合模块进行融合的方法为：

先将第三个注意力权重w₃进行上采样并与第一融合权重w₁₂按通道维度进行拼接，同时保留高层的语义信息和低层的位置信息，再利用卷积操作对拼接后的特征进行融合和下采样，最后将下采样后的特征与第三个注意力权重w₃进行逐元素相加，保证特征信息完整性的同时避免梯度消失，即得到融合后的第二融合权重w₂₃，计算公式如下：

w₂₃＝(ds(cat(us(w₃)，w₁₂))+w₃)/2

步骤2中，特征A由第一输出特征x₁与特征f₁相加得出，第二输入特征i₁由第一个注意力权重w₁与特征A相乘得出，其计算公式为：

i₁＝w₁×(f₁+x₁)。

步骤3中，特征B由第二输出特征x₂与特征f₂相加得出，第三输入特征i₂由第一融合权重w₁₂与特征B相乘得出，其计算公式为：

i₂＝w₁₂×(f₂+x₂)。

步骤4中，特征C由第三输出特征x₃与特征f₃相加得出，第四输入特征i₃由第二融合权重w₂₃与特征C相乘得出，其计算公式为：

i₃＝w₂₃×(f₃+x₃)。

采用本发明的优点在于：

1、本发明采用空间注意力模块与注意力权重融合模块相配合，能够形成金字塔模式的空间注意力权重融合流程，进而能够将不同阶段的空间注意力信息进行融合，而不是使模型中不同阶段的注意力信息相互独立，充分利用了不同阶段的语义和位置信息，增强行人显著特征的提取并能够有效抑制背景干扰，由此达到了提升跨域行人重识别效果的目的。

2、本发明采用的空间注意力模块考虑了其输入特征之间不同信息的关联性，能提取出更有效的空间注意力权重。且该模块即插即用，可以与任何backbone相结合以提高其特征定位能力。

3、本发明整体跨域行人重识别模型结构简单，参数量更少，推理速度更快，且不需要多余的分支结构和特征融合。

4、本发明使用Instance Normalization层进行归一化处理，其优点在于可对行人图像进行风格归一化，抑制不同域图像之间的差异，且不会增加模型参数量。

5、本发明在空间注意力模块中使用特定方法提取注意力权重，其优点在于在注意力权重的计算过程中同时考虑了输入特征中的全局信息和显著信息，使计算的注意力权重能更加准确定位感兴趣区域，且计算方式简单，无需迭代求解。

附图说明

图1为本发明中神经网络模型的网络结构示意图；

图2为本发明中ResNet50的结构示意图；

图3为本发明中空间注意力模块的结构示意图；

图4为本发明中注意力权重融合模块的结构示意图；

图5为本发明中融合注意力权重时的结构示意图。

具体实施方式

本发明提供了一种基于注意力机制的跨域行人重识别方法，其技术方案为：先基于ResNet50构造神经网络模型，再在构造的神经网络模型中对输入图像进行特征提取和抑制背景干扰。如图1、2所示，构造的神经网络模型包括卷积+池化处理层(Conv+Pooling)、残差块(ResNet Conv Block)、Instance Normalization层(IN层)、空间注意力模块SAB(Spatial Attention Block)、注意力权重融合模块AWF(Attention Weights Fusion)和Head层(Classifier Head层)；残差块包括第一残差块Stage1、第二残差块Stage2、第三残差块Stage3和第四残差块Stage4。

本发明借鉴了FPN的思想，采用三个空间注意力模块SAB和两个注意力权重融合模块AWF组合构成了空间注意力金字塔权重融合模块AEPM(Attention Embedded PyramidModule)，该模块用于对得到的注意力权重进行融合。其中，第四残差块Stage4的卷积步长为1，Head层用于对输入图像进行分类，其包括一个全局最大值池化层、一个BatchNormalization层(BN层)和一个线性层(分类器)。Instance Normalization层用于对数据进行归一化处理，以消除跨场景下行人图片的风格差异。空间注意力模块SAB用于精确定位行人显著性特征。空间注意力金字塔权重融合模块AEPM用于将高层语义信息和低层细节信息相融合，提高特征图的丰富度和增强行人特征的全局表达能力。

基于上述内容，神经网络模型的连接关系为：卷积+池化处理层、第一残差块Stage1、第二残差块Stage2、第三残差块Stage3、第四残差块Stage4和Head层依次连接，Instance Normalization层采用残差连接的方式分别连接在第一残差块Stage1、第二残差块Stage2和第三残差块Stage3之后，残差连接为现有常规技术，具体可参见https：//blog.csdn.net/lrt366/article/details/84566834。空间注意力金字塔权重融合模块AEPM分别通过空间注意力模块SAB连接在各Instance Normalization层之后。

在上述构造的神经网络模型中，如图1所示，本发明具体包括如下步骤：

步骤1：使用卷积+池化处理层对输入图像进行卷积和池化处理，处理后提取出输入图像的特征数据。

步骤2：将特征数据输入到第一残差块Stage1中进行处理，处理后得到第一输出特征x₁；之后，先使用残差连接在第一残差块Stage1后的Instance Normalization层对第一输出特征x₁进行归一化处理，得到归一化的特征f₁；再将归一化处理得到的特征f₁送入空间注意力模块SAB中，由空间注意力模块SAB提取出第一个注意力权重w₁，最后再根据第一个注意力权重w₁与使用残差连接得到的特征A得出第二输入特征i₁。

本步骤中使用残差连接得到的特征A由第一输出特征x₁与特征f₁相加得出，第二输入特征i₁由第一个注意力权重w₁与特征A相乘得出，其计算公式为：

i₁＝w₁×(f₁+x₁)。

其中，我们期望神经网络模型最终所得到的特征仅仅专注于行人细节信息而不包含背景噪声。因此，我们通过空间注意力模块SAB利用特征间的空间关系生成空间注意力权重，以此在空间维度上定位所关注的行人信息。其作用是对于输入特征提取出对应的空间注意力权重。基于此，设定空间注意力模块的输入特征为f∈R^c*h*w，提取出对应的注意力权重为w∈R^1*h*w，c、h、w分别为输入特征f的通道数、高度和宽度；则如图3所示，使用空间注意力模块提取出注意力权重的方法如下：

S1：沿通道维度分别计算输入特征f的最大值和平均值，生成两个2D特征图，计算平均值得到的2D特征图更关注于全局特征信息，计算最大值得到的2D特征图更关注于显著的特征信息。

S2：将生成的两个2D特征图分别沿h维度和w维度计算对应的最大值和平均值，共得到8个特征向量。

S3：将8个特征向量两两组合进行矩阵乘法并进行softmax操作得到4个空间注意力掩码，softmax使得每个掩码内部数值和为1，增加了行人区域和背景区域的注意力权重差异，然后在通道维度上将4个空间注意力掩码进行拼接。

步骤3：将第二输入特征i₁输入到第二残差块Stage2中进行处理，处理之后得到第二输出特征x₂；之后，先使用残差连接在第二残差块Stage2后的Instance Normalization层对第二输出特征x₂进行归一化处理，得到归一化的特征f₂，再将归一化处理得到的特征f₂送入空间注意力模块SAB中，由空间注意力模块SAB中提取出第二个注意力权重w₂，再使用注意力权重融合模块AWF将第二个注意力权重w₂与第一个注意力权重w₁进行融合得到第一融合权重w₁₂，最后根据第一融合权重w₁₂与使用残差连接得到的特征B得出第三输入特征i₂。

本步骤中使用残差连接得到的特征B由第二输出特征x₂与特征f₂相加得出，第三输入特征i₂由第一融合权重w₁₂与特征B相乘得出，其计算公式为：

i₂＝w₁₂×(f₂+x₂)。

本步骤中使用注意力权重融合模块AWF进行融合的方法为：

如图4所示，先将第二个注意力权重w₂进行上采样并与第一个注意力权重w₁按通道维度进行拼接，同时保留高层的语义信息和低层的位置信息，再利用卷积操作对拼接后的特征进行融合和下采样，最后将下采样后的特征与第二个注意力权重w₂进行逐元素相加，保证特征信息完整性的同时避免梯度消失，即得到融合后的第一融合权重w₁₂；计算公式如下：

w₁₂＝(ds(cat(us(w₂)，w₁))+w₂)/2

步骤4：将第三输入特征i₂输入到第三残差块Stage3中进行处理，处理之后得到第三输出特征x₃；之后，先使用残差连接在第三残差块Stage3后的Instance Normalization层对第三输出特征_x3进行归一化处理，得到归一化的特征f₃，再将归一化处理得到的特征f₃送入空间注意力模块SAB中，由空间注意力模块SAB提取出第三个注意力权重w₃，再使用注意力权重融合模块AWF将第三个注意力权重w₃与第一融合权重w₁₂进行融合得到第二融合权重w₂₃，最后根据第二融合权重w₂₃与使用残差连接得到的特征C得出第四输入特征i3。

本步骤中使用残差连接得到的特征C由第三输出特征x₃与特征f₃相加得出，第四输入特征i₃由第二融合权重w₂₃与特征C相乘得出，其计算公式为：

i₃＝w₂₃×(f₃+x₃)。

本步骤中使用注意力权重融合模块AWF进行融合的方法为：

如图5所示，先将第三个注意力权重w₃进行上采样并与第一融合权重w₁₂按通道维度进行拼接，同时保留高层的语义信息和低层的位置信息，再利用卷积操作对拼接后的特征进行融合和下采样，最后将下采样后的特征与第三个注意力权重w₃进行逐元素相加，保证特征信息完整性的同时避免梯度消失，即得到融合后的第二融合权重w₂₃，计算公式如下：

w₂₃＝(ds(cat(us(w₃)，w₁₂))+w₃)/2

需要说明的是，由于在融合时的注意力权重分辨率大小不一，重叠起来像一个金字塔，因此将空间注意力模块SAB与注意力权重融合模块AWF组合的模块称之为空间注意力金字塔权重融合模块AEPM。

步骤5：将第四输入特征i₃输入到第四残差块Stage4中进行处理，得到第四输出特征，再将第四输出特征输入到Head层中，第四输出特征依次经全局最大值池化层、BatchNormalization层和线性层处理后即得到抑制了背景干扰的行人特征。

本发明的步骤2-4中，使用Instance Normalization层进行归一化处理的方法如下：

其中x_i，i∈1，2，3分别为第一输出特征x₁、第二输出特征x₂和第三输出特征x₃，μ(·)和σ(·)分别表示每个样本特征在其各个通道内计算所得的平均值和标准差，γ和β是通过数据训练所学习到的参数。

进一步的，为了证明本发明具有更优的效果，申请人对本发明所述方法进行消融试验，实验说明和数据如下所示：

表1消融实验

其中，Baseline表示ResNet50模型。

Baseline-IN表示分别在ResNet50模型的Stage1、Stage2和Stage3后添加IN层。

Baseline-IN-A表示在Baseline-IN的基础上添加SAB。

SPAN(Saptial Attention Pyramid Network)表示在Baseline-IN-A的基础上搭建AEPM，即构建的神经网络模型。

Source表示源域数据集，Target表示目标域数据集。Market1501简写为M，DukeMTMC简写为D，MSMT17简写为MS。

从表1可以看出，当网络包含所有组件时，模型在跨域条件下获得了行人重识别最佳性能。通过依次添加组件，我们评估了各组件的性能，并发现各组件都有效提升了模型的跨域重识别效果。对于不同跨域场景，在基线上添加IN层有效提升了跨域行人重识别性能。跨域mAP获得了1.3％-3.9％不等的提升。然后，在Baseline-IN的基础上我们又添加了SAB模块，M到D以及MS到M的跨域mAP分别进一步提升了1.9％和2.7％，然而D到M和MS到D的跨域mAP并无明显提升。造成这种现象的原因可能是数据集差异所导致的行人特征定位困难。为此我们在Baseline-IN-A的基础上进一步搭建金字塔网络结构，实验表明模型的跨域行人重识别性能得到了进一步提升。SAPN有效提取了行人的显著性特征，并抑制了背景差异，以此提升了域泛化能力。

更进一步的，申请人进行了对比实验，如下所示：

表2对比实验

其中，NL表示在主干网络中添加Non-local结构。

SE表示在主干网络中添加Squeeze-and-Excitation结构。

CBAM表示在主干网络中添加CBAM。

Non-local结构、Squeeze-and-Excitation结构和CBAM是计算机视觉领域常用的三种注意力实现方式。从表2可以看出，在多种跨域条件下对比其他注意力，本发明所提出的SAPN取得了全面的领先。由此可见，本文提出的SAPN更能精确定位行人的显著性特征，抑制背景差异对行人重识别性能造成的影响。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于注意力机制的跨域行人重识别方法，其技术方案为：在基于ResNet50构造的神经网络模型中对输入图像进行特征提取和抑制背景干扰，具体包括如下步骤：

2.根据权利要求1所述的一种基于注意力机制的跨域行人重识别方法，其特征在于：使用Instance Normalization层进行归一化处理的方法如下：

3.根据权利要求1或2所述的一种基于注意力机制的跨域行人重识别方法，其特征在于：设定空间注意力模块的输入特征为f∈R^c*h*w，提取出对应的注意力权重为w∈R^1*h*w，c、h、w分别为输入特征f的通道数、高度和宽度，则使用空间注意力模块提取出注意力权重的方法如下：

S1：沿通道维度分别计算输入特征f的最大值和平均值，生成两个2D特征图；

S5：通过3x3卷积和sigmoid将拼接得到的注意力掩码进行融合，融合后得到最终的空间注意力权重为w∈R^1*h*w。

4.根据权利要求1所述的一种基于注意力机制的跨域行人重识别方法，其特征在于：步骤3中，使用注意力权重融合模块进行融合的方法为：

先将第二个注意力权重w₂进行上采样并与第一个注意力权重w₁按通道维度进行拼接，同时保留高层的语义信息和低层的位置信息，再利用卷积操作对拼接后的特征进行融合和下采样，最后将下采样后的特征与第二个注意力权重w₂进行逐元素相加，即得到融合后的第一融合权重w₁₂，计算公式如下：

w₁₂＝(ds(cat(us(w₂)，w₁))+w₂)/2

5.根据权利要求1所述的一种基于注意力机制的跨域行人重识别方法，其特征在于：步骤4中，使用注意力权重融合模块进行融合的方法为：

先将第三个注意力权重w₃进行上采样并与第一融合权重w₁₂按通道维度进行拼接，同时保留高层的语义信息和低层的位置信息，再利用卷积操作对拼接后的特征进行融合和下采样，最后将下采样后的特征与第三个注意力权重w₃进行逐元素相加，即得到融合后的第二融合权重w₂₃，计算公式如下：

w₂₃＝(ds(cat(us(w₃)，w₁₂))+w₃)/2

6.根据权利要求1所述的一种基于注意力机制的跨域行人重识别方法，其特征在于：步骤2中，特征A由第一输出特征x₁与特征f₁相加得出，第二输入特征i₁由第一个注意力权重w₁与特征A相乘得出，其计算公式为：

i₁＝w₁×(f₁+x₁)。

7.根据权利要求1所述的一种基于注意力机制的跨域行人重识别方法，其特征在于：步骤3中，特征B由第二输出特征x₂与特征f₂相加得出，第三输入特征i₂由第一融合权重w₁₂与特征B相乘得出，其计算公式为：

i₂＝w₁₂×(f₂+x₂)。

8.根据权利要求1所述的一种基于注意力机制的跨域行人重识别方法，其特征在于：步骤4中，特征C由第三输出特征x₃与特征f₃相加得出，第四输入特征i₃由第二融合权重w₂₃与特征C相乘得出，其计算公式为：

i₃＝w₂₃×(f₃+x₃)。