CN113158881A - 一种基于注意力机制的跨域行人重识别方法 - Google Patents
一种基于注意力机制的跨域行人重识别方法 Download PDFInfo
- Publication number
- CN113158881A CN113158881A CN202110417945.3A CN202110417945A CN113158881A CN 113158881 A CN113158881 A CN 113158881A CN 202110417945 A CN202110417945 A CN 202110417945A CN 113158881 A CN113158881 A CN 113158881A
- Authority
- CN
- China
- Prior art keywords
- attention
- weight
- characteristic
- feature
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000007246 mechanism Effects 0.000 title claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 59
- 238000003062 neural network model Methods 0.000 claims abstract description 11
- 238000010606 normalization Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 30
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 18
- 241000282326 Felis catus Species 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 7
- 238000000605 extraction Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制的跨域行人重识别方法,其技术方案是在基于ResNet50构造的神经网络模型中对输入图像进行处理,通过空间注意力模块和注意力权重融合模块能够将不同阶段的注意力信息进行融合,从而充分了利用不同阶段的语义和位置信息来增强行人显著性特征的提取并抑制背景干扰,由此达到提升模型跨域行人重识别效果的目的。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于注意力机制的跨域行人重识别方法。
背景技术
行人重识别(Person re-identification,简称ReID)也称行人再识别,是利用计算机视觉技术在跨设备、时间和地点的条件下判断图像或者视频序列中是否存在特定行人的技术。因其能够对特定人员进行大范围跟踪监控,当前广泛应用于智能监控,智能安保等领域。
得益于深度学习算法的快速发展和大规模行人重识别数据集的出现,行人重识别技术在一些标准公开数据集上的测试准确率已经得到了显著提高。但是目前大多数行人重识别模型普遍面临同样一个问题,由于不同摄像头下的行人图像存在遮挡、光照、角度、背景差异等比较多的干扰因素,同时同一行人的外观信息也会因各种原因发生剧烈变化。因此,当训练模型的训练集和评估模型的测试集来自不同的域时,将极大地干扰模型对行人显著性特征的提取,并导致模型的表现明显下降,这意味着把在一个场景下训练得到的模型迁移到另一个新的场景中进行测试时往往难以得到令人满意的效果。进一步的,训练好的模型无法从背景风格完全不同的行人图像中很好地判别行人特征,也会导致跨域行人重识别效果的急剧下降。因此,增强模型对行人显著性特征的提取对跨域行人重识别至关重要。
研究表明,抑制背景干扰可以有效提高模型的泛化能力并提高跨域识别率。一方面,将行人与背景分割可有效抑制背景干扰。现有技术中提出了使用行人前景掩膜作为辅助,结合三元组损失和对比损失,使得模型更加关注于前景人体区域,忽略背景区域,以此达到分离行人与背景的目的。但若想得到高质量的分割效果,需要大量高质量的行人图像进行网络训练,数据集成本难以接受。另一方面,一些方法利用注意机制获取显著性特征。然而,许多注意力机制的实现没有深入挖掘特征内部信息的关联性,并且模型中不同阶段的注意力信息相互独立。
另外,公开号为CN111738143A的文献于2020年10月2日就公开了一种基于期望最大化的行人重识别方法,其先利用残差卷积神经网络ResNet50作为特征提取的骨干网络对输入行人进行中间特征的提取;构建注意力模块,特征经过模块中Non-Local操作中的协方差运算捕获不同区域间的关联信息,再采用EM算法对特征进行注意力稀疏重构,在对特征中潜在变量进行挖掘的过程中来减小特征的冗余程度,增强有效特征信息的表征能力;采用三元组损失函数、交叉熵损失函数和中心损失函数对网络进行联合训练。该方法能够捕获具有较强辨识度的特征,并能够很好地减少特征的冗余程度,得到具有低秩特征的注意力特征图,进一步提高识别率。但该方法在实际应用中仍然存在如下技术问题:
1、其注意力模块的EM算法需要迭代求解,导致注意力计算方式复杂。
2、其采用的多分支结构增加了网络复杂度和训练难度。
3、其未在整个特征提取过程中使用注意力机制,只是简单地针对某一阶段特征提取注意力,也未考虑不同阶段注意力信息的关联性。
因此,有必要进一步对现有技术进行优先改进。
发明内容
本发明的目的在于克服现有技术存在的上述技术问题,提供了一种基于注意力机制的跨域行人重识别方法,本发明将不同阶段的注意力信息进行融合,充分利用了不同阶段的语义和位置信息,增强行人显著特征的提取并抑制背景干扰,由此达到提升跨域行人重识别效果的目的。
为实现上述目的,本发明采用的技术方案如下:
一种基于注意力机制的跨域行人重识别方法,其技术方案为:在基于ResNet50构造的神经网络模型中对输入图像进行特征提取和抑制背景干扰,具体包括如下步骤:
步骤1:对输入图像进行卷积和池化处理,提取输入图像的特征数据;
步骤2:将特征数据输入到第一残差块中进行处理得到第一输出特征x1,使用残差连接的Instance Normalization层对第一输出特征x1进行归一化处理并得到归一化的特征f1,使用空间注意力模块提取出第一个注意力权重w1,再根据第一个注意力权重w1与使用残差连接得到的特征A得出第二输入特征i1;
步骤3:将第二输入特征i1输入到第二残差块中进行处理得到第二输出特征x2,使用残差连接的Instance Normalization层对第二输出特征x2进行归一化处理并得到归一化的特征f2,使用空间注意力模块提取出第二个注意力权重w2,使用注意力权重融合模块将第二个注意力权重w2与第一个注意力权重w1进行融合得到第一融合权重w12,再根据第一融合权重w12与使用残差连接得到的特征B得出第三输入特征i2;
步骤4:将第三输入特征i2输入到第三残差块中进行处理得到第三输出特征x3,使用残差连接的Instance Normalization层对第三输出特征x3进行归一化处理,使用空间注意力模块提取出第三个注意力权重w3,使用注意力权重融合模块将第三个注意力权重w3与第一融合权重w12进行融合得到第二融合权重w23,再根据第二融合权重w23与使用残差连接得到的特征C得出第四输入特征i3;
步骤5:将第四输入特征i3输入到第四残差块中进行处理,得到第四输出特征,再将第四输出特征输入到Head层中处理,处理后即得到抑制了背景干扰的行人特征。
所述的方法中,使用Instance Normalization层进行归一化处理的方法如下:
其中xi,i∈1,2,3分别为第一输出特征x1、第二输出特征x2和第三输出特征x3,μ(·)和σ(·)分别表示每个特征在其各个通道内计算所得的平均值和标准差,γ和β是通过数据训练所学习到的参数。
所述的方法中,设定空间注意力模块的输入特征为f∈Rc*h*w,提取出对应的注意力权重为w∈R1*h*w,c、h、w分别为输入特征f的通道数、高度和宽度,则使用空间注意力模块提取出注意力权重的方法如下:
S1:沿通道维度分别计算输入特征f的最大值和平均值,生成两个2D特征图,计算平均值得到的2D特征图更关注于全局特征信息,计算最大值得到的2D特征图更关注于显著的特征信息;
S2:将生成的两个2D特征图分别沿h维度和w维度计算对应的最大值和平均值,共得到8个特征向量;
S3:将8个特征向量两两组合进行矩阵乘法并进行softmax操作得到4个空间注意力掩码,softmax使得每个掩码内部数值和为1,增加了行人区域和背景区域的注意力权重差异,然后在通道维度上将4个空间注意力掩码进行拼接;
S5:通过3x3卷积和sigmoid将拼接得到的注意力掩码进行融合,融合后得到最终的空间注意力权重为w∈R1*h*w;该空间注意力权重仅关注于原特征中的行人显著性区域。
步骤3中,使用注意力权重融合模块进行融合的方法为:
先将第二个注意力权重w2进行上采样并与第一个注意力权重w1按通道维度进行拼接,同时保留高层的语义信息和低层的位置信息,再利用卷积操作对拼接后的特征进行融合和下采样,最后将下采样后的特征与第二个注意力权重w2进行逐元素相加,保证特征信息完整性的同时避免梯度消失,即得到融合后的第一融合权重w12,计算公式如下:
w12=(ds(cat(us(w2),w1))+w2)/2
其中,us(·)代表双线性插值上采样,ds(·)代表通过卷积核大小为3×3,步长为2的卷积操作进行下采样,cat(·)代表按通道维度进行拼接操作。
步骤4中,使用注意力权重融合模块进行融合的方法为:
先将第三个注意力权重w3进行上采样并与第一融合权重w12按通道维度进行拼接,同时保留高层的语义信息和低层的位置信息,再利用卷积操作对拼接后的特征进行融合和下采样,最后将下采样后的特征与第三个注意力权重w3进行逐元素相加,保证特征信息完整性的同时避免梯度消失,即得到融合后的第二融合权重w23,计算公式如下:
w23=(ds(cat(us(w3),w12))+w3)/2
其中,us(·)代表双线性插值上采样,ds(·)代表通过卷积核大小为3×3,步长为2的卷积操作进行下采样,cat(·)代表按通道维度进行拼接操作。
步骤2中,特征A由第一输出特征x1与特征f1相加得出,第二输入特征i1由第一个注意力权重w1与特征A相乘得出,其计算公式为:
i1=w1×(f1+x1)。
步骤3中,特征B由第二输出特征x2与特征f2相加得出,第三输入特征i2由第一融合权重w12与特征B相乘得出,其计算公式为:
i2=w12×(f2+x2)。
步骤4中,特征C由第三输出特征x3与特征f3相加得出,第四输入特征i3由第二融合权重w23与特征C相乘得出,其计算公式为:
i3=w23×(f3+x3)。
采用本发明的优点在于:
1、本发明采用空间注意力模块与注意力权重融合模块相配合,能够形成金字塔模式的空间注意力权重融合流程,进而能够将不同阶段的空间注意力信息进行融合,而不是使模型中不同阶段的注意力信息相互独立,充分利用了不同阶段的语义和位置信息,增强行人显著特征的提取并能够有效抑制背景干扰,由此达到了提升跨域行人重识别效果的目的。
2、本发明采用的空间注意力模块考虑了其输入特征之间不同信息的关联性,能提取出更有效的空间注意力权重。且该模块即插即用,可以与任何backbone相结合以提高其特征定位能力。
3、本发明整体跨域行人重识别模型结构简单,参数量更少,推理速度更快,且不需要多余的分支结构和特征融合。
4、本发明使用Instance Normalization层进行归一化处理,其优点在于可对行人图像进行风格归一化,抑制不同域图像之间的差异,且不会增加模型参数量。
5、本发明在空间注意力模块中使用特定方法提取注意力权重,其优点在于在注意力权重的计算过程中同时考虑了输入特征中的全局信息和显著信息,使计算的注意力权重能更加准确定位感兴趣区域,且计算方式简单,无需迭代求解。
附图说明
图1为本发明中神经网络模型的网络结构示意图;
图2为本发明中ResNet50的结构示意图;
图3为本发明中空间注意力模块的结构示意图;
图4为本发明中注意力权重融合模块的结构示意图;
图5为本发明中融合注意力权重时的结构示意图。
具体实施方式
本发明提供了一种基于注意力机制的跨域行人重识别方法,其技术方案为:先基于ResNet50构造神经网络模型,再在构造的神经网络模型中对输入图像进行特征提取和抑制背景干扰。如图1、2所示,构造的神经网络模型包括卷积+池化处理层(Conv+Pooling)、残差块(ResNet Conv Block)、Instance Normalization层(IN层)、空间注意力模块SAB(Spatial Attention Block)、注意力权重融合模块AWF(Attention Weights Fusion)和Head层(Classifier Head层);残差块包括第一残差块Stage1、第二残差块Stage2、第三残差块Stage3和第四残差块Stage4。
本发明借鉴了FPN的思想,采用三个空间注意力模块SAB和两个注意力权重融合模块AWF组合构成了空间注意力金字塔权重融合模块AEPM(Attention Embedded PyramidModule),该模块用于对得到的注意力权重进行融合。其中,第四残差块Stage4的卷积步长为1,Head层用于对输入图像进行分类,其包括一个全局最大值池化层、一个BatchNormalization层(BN层)和一个线性层(分类器)。Instance Normalization层用于对数据进行归一化处理,以消除跨场景下行人图片的风格差异。空间注意力模块SAB用于精确定位行人显著性特征。空间注意力金字塔权重融合模块AEPM用于将高层语义信息和低层细节信息相融合,提高特征图的丰富度和增强行人特征的全局表达能力。
基于上述内容,神经网络模型的连接关系为:卷积+池化处理层、第一残差块Stage1、第二残差块Stage2、第三残差块Stage3、第四残差块Stage4和Head层依次连接,Instance Normalization层采用残差连接的方式分别连接在第一残差块Stage1、第二残差块Stage2和第三残差块Stage3之后,残差连接为现有常规技术,具体可参见https://blog.csdn.net/lrt366/article/details/84566834。空间注意力金字塔权重融合模块AEPM分别通过空间注意力模块SAB连接在各Instance Normalization层之后。
在上述构造的神经网络模型中,如图1所示,本发明具体包括如下步骤:
步骤1:使用卷积+池化处理层对输入图像进行卷积和池化处理,处理后提取出输入图像的特征数据。
步骤2:将特征数据输入到第一残差块Stage1中进行处理,处理后得到第一输出特征x1;之后,先使用残差连接在第一残差块Stage1后的Instance Normalization层对第一输出特征x1进行归一化处理,得到归一化的特征f1;再将归一化处理得到的特征f1送入空间注意力模块SAB中,由空间注意力模块SAB提取出第一个注意力权重w1,最后再根据第一个注意力权重w1与使用残差连接得到的特征A得出第二输入特征i1。
本步骤中使用残差连接得到的特征A由第一输出特征x1与特征f1相加得出,第二输入特征i1由第一个注意力权重w1与特征A相乘得出,其计算公式为:
i1=w1×(f1+x1)。
其中,我们期望神经网络模型最终所得到的特征仅仅专注于行人细节信息而不包含背景噪声。因此,我们通过空间注意力模块SAB利用特征间的空间关系生成空间注意力权重,以此在空间维度上定位所关注的行人信息。其作用是对于输入特征提取出对应的空间注意力权重。基于此,设定空间注意力模块的输入特征为f∈Rc*h*w,提取出对应的注意力权重为w∈R1*h*w,c、h、w分别为输入特征f的通道数、高度和宽度;则如图3所示,使用空间注意力模块提取出注意力权重的方法如下:
S1:沿通道维度分别计算输入特征f的最大值和平均值,生成两个2D特征图,计算平均值得到的2D特征图更关注于全局特征信息,计算最大值得到的2D特征图更关注于显著的特征信息。
S2:将生成的两个2D特征图分别沿h维度和w维度计算对应的最大值和平均值,共得到8个特征向量。
S3:将8个特征向量两两组合进行矩阵乘法并进行softmax操作得到4个空间注意力掩码,softmax使得每个掩码内部数值和为1,增加了行人区域和背景区域的注意力权重差异,然后在通道维度上将4个空间注意力掩码进行拼接。
S5:通过3x3卷积和sigmoid将拼接得到的注意力掩码进行融合,融合后得到最终的空间注意力权重为w∈R1*h*w;该空间注意力权重仅关注于原特征中的行人显著性区域。
步骤3:将第二输入特征i1输入到第二残差块Stage2中进行处理,处理之后得到第二输出特征x2;之后,先使用残差连接在第二残差块Stage2后的Instance Normalization层对第二输出特征x2进行归一化处理,得到归一化的特征f2,再将归一化处理得到的特征f2送入空间注意力模块SAB中,由空间注意力模块SAB中提取出第二个注意力权重w2,再使用注意力权重融合模块AWF将第二个注意力权重w2与第一个注意力权重w1进行融合得到第一融合权重w12,最后根据第一融合权重w12与使用残差连接得到的特征B得出第三输入特征i2。
本步骤中使用残差连接得到的特征B由第二输出特征x2与特征f2相加得出,第三输入特征i2由第一融合权重w12与特征B相乘得出,其计算公式为:
i2=w12×(f2+x2)。
本步骤中使用注意力权重融合模块AWF进行融合的方法为:
如图4所示,先将第二个注意力权重w2进行上采样并与第一个注意力权重w1按通道维度进行拼接,同时保留高层的语义信息和低层的位置信息,再利用卷积操作对拼接后的特征进行融合和下采样,最后将下采样后的特征与第二个注意力权重w2进行逐元素相加,保证特征信息完整性的同时避免梯度消失,即得到融合后的第一融合权重w12;计算公式如下:
w12=(ds(cat(us(w2),w1))+w2)/2
其中,us(·)代表双线性插值上采样,ds(·)代表通过卷积核大小为3×3,步长为2的卷积操作进行下采样,cat(·)代表按通道维度进行拼接操作。
步骤4:将第三输入特征i2输入到第三残差块Stage3中进行处理,处理之后得到第三输出特征x3;之后,先使用残差连接在第三残差块Stage3后的Instance Normalization层对第三输出特征x3进行归一化处理,得到归一化的特征f3,再将归一化处理得到的特征f3送入空间注意力模块SAB中,由空间注意力模块SAB提取出第三个注意力权重w3,再使用注意力权重融合模块AWF将第三个注意力权重w3与第一融合权重w12进行融合得到第二融合权重w23,最后根据第二融合权重w23与使用残差连接得到的特征C得出第四输入特征i3。
本步骤中使用残差连接得到的特征C由第三输出特征x3与特征f3相加得出,第四输入特征i3由第二融合权重w23与特征C相乘得出,其计算公式为:
i3=w23×(f3+x3)。
本步骤中使用注意力权重融合模块AWF进行融合的方法为:
如图5所示,先将第三个注意力权重w3进行上采样并与第一融合权重w12按通道维度进行拼接,同时保留高层的语义信息和低层的位置信息,再利用卷积操作对拼接后的特征进行融合和下采样,最后将下采样后的特征与第三个注意力权重w3进行逐元素相加,保证特征信息完整性的同时避免梯度消失,即得到融合后的第二融合权重w23,计算公式如下:
w23=(ds(cat(us(w3),w12))+w3)/2
其中,us(·)代表双线性插值上采样,ds(·)代表通过卷积核大小为3×3,步长为2的卷积操作进行下采样,cat(·)代表按通道维度进行拼接操作。
需要说明的是,由于在融合时的注意力权重分辨率大小不一,重叠起来像一个金字塔,因此将空间注意力模块SAB与注意力权重融合模块AWF组合的模块称之为空间注意力金字塔权重融合模块AEPM。
步骤5:将第四输入特征i3输入到第四残差块Stage4中进行处理,得到第四输出特征,再将第四输出特征输入到Head层中,第四输出特征依次经全局最大值池化层、BatchNormalization层和线性层处理后即得到抑制了背景干扰的行人特征。
本发明的步骤2-4中,使用Instance Normalization层进行归一化处理的方法如下:
其中xi,i∈1,2,3分别为第一输出特征x1、第二输出特征x2和第三输出特征x3,μ(·)和σ(·)分别表示每个样本特征在其各个通道内计算所得的平均值和标准差,γ和β是通过数据训练所学习到的参数。
进一步的,为了证明本发明具有更优的效果,申请人对本发明所述方法进行消融试验,实验说明和数据如下所示:
表1消融实验
其中,Baseline表示ResNet50模型。
Baseline-IN表示分别在ResNet50模型的Stage1、Stage2和Stage3后添加IN层。
Baseline-IN-A表示在Baseline-IN的基础上添加SAB。
SPAN(Saptial Attention Pyramid Network)表示在Baseline-IN-A的基础上搭建AEPM,即构建的神经网络模型。
Source表示源域数据集,Target表示目标域数据集。Market1501简写为M,DukeMTMC简写为D,MSMT17简写为MS。
从表1可以看出,当网络包含所有组件时,模型在跨域条件下获得了行人重识别最佳性能。通过依次添加组件,我们评估了各组件的性能,并发现各组件都有效提升了模型的跨域重识别效果。对于不同跨域场景,在基线上添加IN层有效提升了跨域行人重识别性能。跨域mAP获得了1.3%-3.9%不等的提升。然后,在Baseline-IN的基础上我们又添加了SAB模块,M到D以及MS到M的跨域mAP分别进一步提升了1.9%和2.7%,然而D到M和MS到D的跨域mAP并无明显提升。造成这种现象的原因可能是数据集差异所导致的行人特征定位困难。为此我们在Baseline-IN-A的基础上进一步搭建金字塔网络结构,实验表明模型的跨域行人重识别性能得到了进一步提升。SAPN有效提取了行人的显著性特征,并抑制了背景差异,以此提升了域泛化能力。
更进一步的,申请人进行了对比实验,如下所示:
表2对比实验
其中,NL表示在主干网络中添加Non-local结构。
SE表示在主干网络中添加Squeeze-and-Excitation结构。
CBAM表示在主干网络中添加CBAM。
Non-local结构、Squeeze-and-Excitation结构和CBAM是计算机视觉领域常用的三种注意力实现方式。从表2可以看出,在多种跨域条件下对比其他注意力,本发明所提出的SAPN取得了全面的领先。由此可见,本文提出的SAPN更能精确定位行人的显著性特征,抑制背景差异对行人重识别性能造成的影响。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (8)
1.一种基于注意力机制的跨域行人重识别方法,其技术方案为:在基于ResNet50构造的神经网络模型中对输入图像进行特征提取和抑制背景干扰,具体包括如下步骤:
步骤1:对输入图像进行卷积和池化处理,提取输入图像的特征数据;
步骤2:将特征数据输入到第一残差块中进行处理得到第一输出特征x1,使用残差连接的Instance Normalization层对第一输出特征x1进行归一化处理并得到归一化的特征f1,使用空间注意力模块提取出第一个注意力权重w1,再根据第一个注意力权重w1与使用残差连接得到的特征A得出第二输入特征i1;
步骤3:将第二输入特征i1输入到第二残差块中进行处理得到第二输出特征x2,使用残差连接的Instance Normalization层对第二输出特征x2进行归一化处理并得到归一化的特征f2,使用空间注意力模块提取出第二个注意力权重w2,使用注意力权重融合模块将第二个注意力权重w2与第一个注意力权重w1进行融合得到第一融合权重w12,再根据第一融合权重w12与使用残差连接得到的特征B得出第三输入特征i2;
步骤4:将第三输入特征i2输入到第三残差块中进行处理得到第三输出特征x3,使用残差连接的Instance Normalization层对第三输出特征x3进行归一化处理,使用空间注意力模块提取出第三个注意力权重w3,使用注意力权重融合模块将第三个注意力权重w3与第一融合权重w12进行融合得到第二融合权重w23,再根据第二融合权重w23与使用残差连接得到的特征C得出第四输入特征i3;
步骤5:将第四输入特征i3输入到第四残差块中进行处理,得到第四输出特征,再将第四输出特征输入到Head层中处理,处理后即得到抑制了背景干扰的行人特征。
3.根据权利要求1或2所述的一种基于注意力机制的跨域行人重识别方法,其特征在于:设定空间注意力模块的输入特征为f∈Rc*h*w,提取出对应的注意力权重为w∈R1*h*w,c、h、w分别为输入特征f的通道数、高度和宽度,则使用空间注意力模块提取出注意力权重的方法如下:
S1:沿通道维度分别计算输入特征f的最大值和平均值,生成两个2D特征图;
S2:将生成的两个2D特征图分别沿h维度和w维度计算对应的最大值和平均值,共得到8个特征向量;
S3:将8个特征向量两两组合进行矩阵乘法并进行softmax操作得到4个空间注意力掩码,softmax使得每个掩码内部数值和为1,增加了行人区域和背景区域的注意力权重差异,然后在通道维度上将4个空间注意力掩码进行拼接;
S5:通过3x3卷积和sigmoid将拼接得到的注意力掩码进行融合,融合后得到最终的空间注意力权重为w∈R1*h*w。
4.根据权利要求1所述的一种基于注意力机制的跨域行人重识别方法,其特征在于:步骤3中,使用注意力权重融合模块进行融合的方法为:
先将第二个注意力权重w2进行上采样并与第一个注意力权重w1按通道维度进行拼接,同时保留高层的语义信息和低层的位置信息,再利用卷积操作对拼接后的特征进行融合和下采样,最后将下采样后的特征与第二个注意力权重w2进行逐元素相加,即得到融合后的第一融合权重w12,计算公式如下:
w12=(ds(cat(us(w2),w1))+w2)/2
其中,us(·)代表双线性插值上采样,ds(·)代表通过卷积核大小为3×3,步长为2的卷积操作进行下采样,cat(·)代表按通道维度进行拼接操作。
5.根据权利要求1所述的一种基于注意力机制的跨域行人重识别方法,其特征在于:步骤4中,使用注意力权重融合模块进行融合的方法为:
先将第三个注意力权重w3进行上采样并与第一融合权重w12按通道维度进行拼接,同时保留高层的语义信息和低层的位置信息,再利用卷积操作对拼接后的特征进行融合和下采样,最后将下采样后的特征与第三个注意力权重w3进行逐元素相加,即得到融合后的第二融合权重w23,计算公式如下:
w23=(ds(cat(us(w3),w12))+w3)/2
其中,us(·)代表双线性插值上采样,ds(·)代表通过卷积核大小为3×3,步长为2的卷积操作进行下采样,cat(·)代表按通道维度进行拼接操作。
6.根据权利要求1所述的一种基于注意力机制的跨域行人重识别方法,其特征在于:步骤2中,特征A由第一输出特征x1与特征f1相加得出,第二输入特征i1由第一个注意力权重w1与特征A相乘得出,其计算公式为:
i1=w1×(f1+x1)。
7.根据权利要求1所述的一种基于注意力机制的跨域行人重识别方法,其特征在于:步骤3中,特征B由第二输出特征x2与特征f2相加得出,第三输入特征i2由第一融合权重w12与特征B相乘得出,其计算公式为:
i2=w12×(f2+x2)。
8.根据权利要求1所述的一种基于注意力机制的跨域行人重识别方法,其特征在于:步骤4中,特征C由第三输出特征x3与特征f3相加得出,第四输入特征i3由第二融合权重w23与特征C相乘得出,其计算公式为:
i3=w23×(f3+x3)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110417945.3A CN113158881B (zh) | 2021-04-19 | 2021-04-19 | 一种基于注意力机制的跨域行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110417945.3A CN113158881B (zh) | 2021-04-19 | 2021-04-19 | 一种基于注意力机制的跨域行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158881A true CN113158881A (zh) | 2021-07-23 |
CN113158881B CN113158881B (zh) | 2022-06-14 |
Family
ID=76868561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110417945.3A Active CN113158881B (zh) | 2021-04-19 | 2021-04-19 | 一种基于注意力机制的跨域行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158881B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522569A (zh) * | 2017-09-19 | 2019-03-26 | 浙江大学 | 一种基于Weibull方程和残余变形的混凝土疲劳寿命预测方法和装置 |
CN110874575A (zh) * | 2019-11-01 | 2020-03-10 | 天津大学 | 一种脸部图像处理方法及相关设备 |
CN111291679A (zh) * | 2020-02-06 | 2020-06-16 | 厦门大学 | 一种基于孪生网络的目标特定响应注意力目标跟踪方法 |
CN112069940A (zh) * | 2020-08-24 | 2020-12-11 | 武汉大学 | 一种基于分阶段特征学习的跨域行人重识别方法 |
CN112149563A (zh) * | 2020-09-23 | 2020-12-29 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种注意力机制人体图像关键点姿态估计方法及系统 |
CN112232231A (zh) * | 2020-10-20 | 2021-01-15 | 城云科技(中国)有限公司 | 行人属性的识别方法、系统、计算机设备和存储介质 |
CN112418176A (zh) * | 2020-12-09 | 2021-02-26 | 江西师范大学 | 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法 |
CN112464861A (zh) * | 2020-12-10 | 2021-03-09 | 中山大学 | 用于智能人机交互的行为早期识别方法、系统及存储介质 |
-
2021
- 2021-04-19 CN CN202110417945.3A patent/CN113158881B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522569A (zh) * | 2017-09-19 | 2019-03-26 | 浙江大学 | 一种基于Weibull方程和残余变形的混凝土疲劳寿命预测方法和装置 |
CN110874575A (zh) * | 2019-11-01 | 2020-03-10 | 天津大学 | 一种脸部图像处理方法及相关设备 |
CN111291679A (zh) * | 2020-02-06 | 2020-06-16 | 厦门大学 | 一种基于孪生网络的目标特定响应注意力目标跟踪方法 |
CN112069940A (zh) * | 2020-08-24 | 2020-12-11 | 武汉大学 | 一种基于分阶段特征学习的跨域行人重识别方法 |
CN112149563A (zh) * | 2020-09-23 | 2020-12-29 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种注意力机制人体图像关键点姿态估计方法及系统 |
CN112232231A (zh) * | 2020-10-20 | 2021-01-15 | 城云科技(中国)有限公司 | 行人属性的识别方法、系统、计算机设备和存储介质 |
CN112418176A (zh) * | 2020-12-09 | 2021-02-26 | 江西师范大学 | 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法 |
CN112464861A (zh) * | 2020-12-10 | 2021-03-09 | 中山大学 | 用于智能人机交互的行为早期识别方法、系统及存储介质 |
Non-Patent Citations (3)
Title |
---|
CXH0519: ""全局相关性注意力机制RGA"", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/272213037》 * |
PO-HENG CHEN: ""MVSNet++: Learning Depth-Based Attention Pyramid Features for Multi-View Stereo"", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
盖成远: ""基于特征金字塔结构的目标检测算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113158881B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ruan et al. | Devil in the details: Towards accurate single and multiple human parsing | |
Hsu et al. | Ratio-and-scale-aware YOLO for pedestrian detection | |
Li et al. | In ictu oculi: Exposing ai created fake videos by detecting eye blinking | |
Piao et al. | Depth-induced multi-scale recurrent attention network for saliency detection | |
Purohit et al. | Bringing alive blurred moments | |
Liang et al. | Gaitedge: Beyond plain end-to-end gait recognition for better practicality | |
Zhao et al. | Defocus blur detection via multi-stream bottom-top-bottom network | |
Chen et al. | Detection evolution with multi-order contextual co-occurrence | |
Kim et al. | Edge and identity preserving network for face super-resolution | |
Cho et al. | Deep convolutional neural network for natural image matting using initial alpha mattes | |
Lee et al. | Real-time depth estimation using recurrent CNN with sparse depth cues for SLAM system | |
Huang et al. | Joint cross-modal and unimodal features for RGB-D salient object detection | |
Liu et al. | Recurrent conditional generative adversarial network for image deblurring | |
Lu et al. | Rethinking prior-guided face super-resolution: A new paradigm with facial component prior | |
Gao et al. | Co-saliency detection with co-attention fully convolutional network | |
Niloy et al. | CFL-Net: image forgery localization using contrastive learning | |
Chen et al. | Single depth image super-resolution using convolutional neural networks | |
Wu et al. | Single-shot face anti-spoofing for dual pixel camera | |
Duan et al. | Develop then rival: A human vision-inspired framework for superimposed image decomposition | |
Patil et al. | Multi-frame recurrent adversarial network for moving object segmentation | |
Liu et al. | Component semantic prior guided generative adversarial network for face super-resolution | |
Chen et al. | Sjdl-vehicle: Semi-supervised joint defogging learning for foggy vehicle re-identification | |
Wang et al. | Effective light field de-occlusion network based on Swin transformer | |
CN113763417B (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
Yuan et al. | Smoke semantic segmentation with multi-scale residual paths and weighted middle surveillances |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |