CN114005142A

CN114005142A - 基于多尺度和注意特征聚合的行人重识别模型及识别方法

Info

Publication number: CN114005142A
Application number: CN202111364988.6A
Authority: CN
Inventors: 符祥; 徐莉
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-02-01

Abstract

本发明公开了一种基于多尺度和注意特征聚合的行人重识别模型及识别方法，行人重识别模型包括卷积神经网络主干模型、自动特征筛选模块、多层特征融合模块和多监督模块；卷积神经网络主干模型包括输入层、多个Block和全局平局池化层，从第二个Block开始，每个Block后面均设有一个自动特征筛选模块，用于精炼对应的Block提取到的特征；全局平均池化层对多个自动特征筛选模块的输出进行全局平均池化；每个自动特征筛选模块的输出还与多层特征融合模块连接，多层特征融合模块对其进行融合；多层特征融合模块和全局平局池化层均连接有多监督模块，用于对提取到的特征进行监督学习。本发明可以提取行人图片中更多的显著特征和隐含特征，增加特征多样性。

Description

基于多尺度和注意特征聚合的行人重识别模型及识别方法

技术领域

本发明涉及计算机视觉图像处理技术领域，尤其涉及一种行人重识别模型及其识别方法。

背景技术

行人重识别(Person re-identification，Re-ID)作为视频监控技术中的核心环节，利用图像处理、计算机视觉、模式识别和机器学习等相关技术解决跨摄像机跨场景下的行人检索问题。基于视觉特征的识别方法比基于生物信息的识别方法更加可靠，比如携带的物品或者行人的衣服，可以更可靠地利用在行人重新识别。基于特征的提取可以更好的利用视觉特性，提取纹理特征、形状特征和语义特征，识别更多有利的信息。在行人外观相似的时候，通过特征的多样性提取，可以提高识别准确率。行人重识别技术可以跟人脸识别做补充，在看不到相对清晰的人脸照或者完全没有人脸的情况下使用，可以延长行人在摄像头连续跟踪的时空延续性。行人重识别技术还可以用在智能安防和大型公共场所的智能寻人系统上，对社会的安定有帮助。另外，无人超市也应用到该项技术，不仅优化客户体验，还可以了解到用户的购物行为，提升社会生活的便利性。

虽然当前有许多学者对行人重识别方法进行改进，并取得了非常好的效果。但是在处理不同的视觉点、低图像分辨率，光照变化，无约束姿态变化和遮挡等难点时，识别效果并不理想。在标准的卷积神经网络(CNNs)进行行人重识别时，通常每一层的神经元的接受域被设计成具有相同的大小。因此,在复杂的行人重识别任务中,利用标准的卷积神经网络对行人图像提取全局特征无法获得令人满意的结果。而局部特征学习方法虽然有助于获取更丰富的特征，但是他们关注的是局部最显著的特征，忽略了人体各部分特征间的相关性，不仅训练出来的网络存在泛化能力不足的问题，而且丢失了人体各部分信息关联性；细粒度信息学习方法，在有些行人的外观的差异十分细微的情况下，效果并不理想；注意力机制学习方法，提取的是最显著的特征，抑制不明显特征，减少了特征的多样性，出现特征提取不足的情况。

因此，目前亟需发展一项能够快速、准确地识别行人的技术，可为智能安防、无人超市、寻人系统提供理论和技术支撑。

发明内容

针对上述存在的问题，本发明旨在提供一种行人重识别模型及其识别方法，基于多尺度参考辅助注意力特征聚合机制，不仅可以有效的提取全局特征和局部特征，而且将全局特征和局部特征进行融合，提取更多的显著特征和隐含特征，增加特征多样性。

为了实现上述目的，本发明所采用的技术方案如下：

基于多尺度和注意特征聚合的行人重识别模型，其特点在于：所述行人重识别模型包括卷积神经网络主干模型、自动特征筛选模块、多层特征融合模块和多监督模块；

所述卷积神经网络主干模型用于提取输入图像中的行人特征，且所述卷积神经网络主干模型包括输入层、多个Block和全局平局池化层，每个Block中包含多个卷积层；

从卷积神经网络主干模型的第二个Block开始，每个Block后面均设有一个自动特征筛选模块，用于精炼对应的Block提取到的特征，并将提取出来的特征作为下一个Block的输入；全局平均池化层对多个Block对应的自动特征筛选模块的输出进行全局平均池化；

每个所述自动特征筛选模块的输出还与多层特征融合模块连接，多层特征融合模块对多个自动特征筛选模块中的信息进行提取，并进行融合；

所述多层特征融合模块和全局平局池化层均连接有多监督模块，用于对提取到的特征进行监督学习。

进一步的，基于多尺度和注意特征聚合的行人重识别模型的识别方法，包括以下步骤，

S1：将行人图片F输入基于多尺度参考辅助注意特征聚合的行人重识别模型中；

S2：卷积神经网络主干模型中的Block提取行人图片中的行人特征，令其表达为X∈R^C×H×W，也即宽度为W、高度为H、通道数为C的中间特征张量；

S3：每个Block对应的自动特征筛选模块利用注意力机制自动筛选中间特征张量X∈R^C×H×W中的有效信息，通过卷积计算和矩阵运算获得输入该自动，并使用该权重和对应的输入特征进行相乘，得到一个新的特征图

其大小为C×H×W；

S4：全局平局池化层对所有Block对应的自动特征筛选模块输出的特征图

进行全局平均池化，得到卷积神经网络主干模型的输出特征；

S5：多层特征融合模块对每个自动特征筛选模块形成的特征图

进行提取和融合操作，得到权值特征V；

S6：多监督模块对卷积神经网络主干模型每个Block输出的特征图

和多层特征融合模块输出的特征V进行监督学习；

S7：将卷积神经网络主干模型的输出特征与多层特征融合模块输出的权值特征中的特征元素进行相加，形成一个新的特征Xcat∈R^2C×H×W；

S8：使用1×1卷积将Xcat通道数量由2C改为C，输出最终的行人特征。

进一步的，步骤S3中自动特征筛选模块利用注意力机制自动筛选中间特征张量X∈R^C×H×W中的有效信息，形成新的特征图

的具体操作包括以下步骤，

S301：自动特征筛选模块将行人图片F每个空间位置的c维特征向量作为特征节点，每个特征节点使用相似关系函数f＝R(x，y)来获取其他位置节点的特征之间的相似度，形成栅格数据；

S302：通过空间位置的栅格扫描，将N个特征节点表示为特征集S＝{X_i∈RC，i＝1，…，N}，集合S中任意两个节点i和j之间的相似关系R_i，j可定义为节点之间的点积相似度，也即R_i，j＝f(x_i，x_j)＝α(x_i)^T·ω·β(x_j)；式中，α和β是两个特征节点共享的嵌入函数，ω是改变图像大小的运算函数；

S303：自动特征筛选模块获取各空间位置的c维特征向量的局部信息，表示为

其中α为1×1卷积函数，

为自适应平均池函数，运算后，则输入张量X^C ^×H×W变为X^2C×1×1，输出局部特征；

S304：将中间特征张量X∈R^C×H×W变换为X1∈R^C×W×H，然后实现1×1卷积和BN层，最后激活ReLU函数对X1进行变换；

S305：使用亲和矩阵R_i，i∈RC×C×1表示所有节点的可对关系，并对可对关系进行变换，得到全局特征；

S306：将步骤S203中得到的局部特征和步骤S205中得到的全局特征进行堆叠，得到第i个特征节点G_i的空间关注值Gi＝Sigmoid(α·B·R)，式中，B为BN函数，R为ReLU运算，sigmoid函数使输出的值在0到1之间；

S307：为了学习第i和j个特征节点的关系，对输入的特征进行相应的矩阵运算，之后对输入特征Xi进行全局平均池化来获取输入图像的全局信息，将全局信息与获取到的特征点关系进行融合，并获得一个新的特征向量，最后将该特征向量与原始的输入特征进行矩阵运算，该操作主要是更好的建模行人的有效信息F，表示为

进一步的，步骤S5的具体操作包括以下步骤，

S501：令P₂到P₅表示卷积神经网络主干模型第二block至第五block对应的自动特征筛选模块输出的特征；

S502：将P₂到P₅的特征分别通过卷积操作改变通道数和特征图大小，使输出特征具有统一的大小，输出特征分别标记为C_i(i＝2，3，4，5)；

S503：卷积神经网络主干模型第二block的输出为P2，P₂∈R^C×H×W，则C₂＝Relu(W₁·Maxpool2d·W₂·P₂)，C₃＝Relu(W₁·W₂·P₃)，C₄＝Relu(W₂·P₄)，C₅＝Relu(W₂·P₅)；其中，W₁和W₂是通过自动特征筛选模块中的卷积和BN来实现的，C_i的最终大小与P₄的大小相同，因此以P₄的大小为标准得到特征映射张量C_i∈R^C×H×W；

S504：将C₂、C₃、C₄、C₅进行融合，生成特征L∈R^C×H×W；

S505：多层特征融合模块的全连接层FC1自动获取输入特征L每个通道权重，输出特征的维度为^C×1×1；FC1中输入特征L每个通道权重通过压缩L的空间维数来计算，也即

S506：创建紧凑的特征FC2∈R^d×1，FC2＝α·B(R·FC1^d×c)，其中，α为1×1卷积，B为BN，R为ReLU运算；d通过降维比r来进行控制，d＝maX(C/r，m)，m表示d的最小值，r为4；

S507：通过softmax运算得到每个信道的权值FC_i，然后，将FC_i与原始特征C_i相乘，得到各通道的特征权重；

S508：将步骤S508得到的各通道的特征权重相加，得到多层特征融合模块最终要输出的权值特征V，也即V＝Cat(Ci*fc_i)，i＝2，3，4，5。

进一步的，所述多监督模块中包括识别损失函数和三重损耗函数；

所述识别损失函数得到图像的预测logit值，与分类损失相似，定义为

式中，y和P_i分别表示分类的真实ID标签和预测logit值；N表示类数，q_i为所提出的平滑标号，ε＝0.1；

所述三重损耗函数用来提高最终的排序性能，定义为Ltp＝∑B[dpos-dneg]+，其中，d_pos为同一恒等式的特征距离，d_neg为不同恒等式的距离，B为三联体样品的批量大小，[·]+为Max(·，0)；模型的最终总损失为这两种损失之和，可表示为Loss＝Lid_i+Ltp_i，(i＝1，2)，其中i表示第I个有监督学习。

本发明的有益效果是：

本发明中的行人重识别模型在标准卷积神经网络的基础上，设计了自动选择模块和多层特征融合模块，自动选择模块可以将结构信息和空间关系堆叠起来，形成新的特征，便于提取局部最显著特征和加强人体各部分特征间的相关性；多层特征融合模块能够使模型能够挖掘被显著性特征掩盖的隐含特征，更好地进行特征学习，从而进一步对多分支进行多尺度的特征融合，增加特征多样性。经过大量的消融研究表明，本发明中提出的行人重识别模型可以显著增强特征表示能力，并在几个流行的基准上实现最先进的性能。

附图说明

图1为本发明基于多尺度和注意特征聚合的行人重识别模型流程框图；

图2为本发明自动选择模块流程框图；

图3为本发明多层特征融合模块流程框图；

图4为本发明三重损耗函数解析图；

图5为本发明仿真实验可视化对比结果。

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合附图和实施例对本发明的技术方案做进一步的描述。

基于多尺度和注意特征聚合的行人重识别模型，所述行人重识别模型包括卷积神经网络主干模型、自动特征筛选模块、多层特征融合模块和多监督模块，如附图1所示。

所述卷积神经网络主干模型用于提取输入图像中的行人特征，且所述卷积神经网络主干模型包括输入层、五个Block和全局平局池化层，每个Block中包含多个卷积层；

进一步的，S2：卷积神经网络主干模型中的Block提取行人图片中的行人特征，令其表达为X∈R^C×H×W，也即宽度为W、高度为H、通道数为C的中间特征张量；

其大小为C×H×W，如附图2所示。自动选择模块中，ψ_a，ψ_b，ψ_c，ψ_d和ψ_e理论上都是1×1卷积，可以灵活地改变数据的维度。将ψ_a的尺寸改为C×W×H后，ψ_b和ψ_c的尺寸改为C×H×W，ψ_d的尺寸改为1×C×1，ψ_e的尺寸改为3C×1×1。1×1卷积在不同的位置有不同的效果。其主要目的是将相同输入的特征相乘或相加，增加相似度并提取特征。在模块输出的最后添加了sigmoid激活函数，增加了模块的非线性表达能力，使模型与数据更加一致。

具体的，S301：自动特征筛选模块将行人图片F每个空间位置的c维特征向量作为特征节点，每个特征节点使用相似关系函数f＝R(x，y)来获取其他位置节点的特征之间的相似度，形成栅格数据；

其中α为1×1卷积函数，

S305：使用亲和矩阵R_i，j∈RC×C×1表示所有节点的可对关系，并对可对关系进行变换，得到全局特征；

进行提取和融合操作，得到权值特征V，如附图3所示。

多层特征融合模块(MFFM)是一个可以动态选择特征的非线性模块。它允许多个不同大小的神经元输入，每个神经元根据信息规模调整其接受域的大小，然后输出大小一致的特征。

具体的，S501：令P₂到P₅表示卷积神经网络主干模型第二block至第五block对应的自动特征筛选模块输出的特征；

S504：将C₂、C₃、C₄、C₅进行融合，生成特征L∈R^C×H×W；

和多层特征融合模块输出的特征V进行监督学习；

具体的，所述多监督模块中包括识别损失函数和三重损耗函数；

式中，y和P_i分别表示分类的真实ID标签和预测logit值；N表示类数，q_i为所提出的平滑标号，ε＝0.1；所述三重损耗函数用来提高最终的排序性能，定义为L_tp＝∑_B[d_pos-d_neg]+，其中，d_pos为同一恒等式的特征距离，d_neg为不同恒等式的距离，B为三联体样品的批量大小，[·]+为Max(·，0)，其解析图如附图4所示。模型的最终总损失为这两种损失之和，可表示为Loss＝Lid_i+Ltp_i，(i＝1，2)，其中i表示第I个有监督学习。

仿真实验一：

考虑到网络参数量会影响计算速率，又要求性能不能差，因此本发明使用RestNet50作为骨干网络。RestNet50网络模型第一层输出的特征图很大(7×7卷积)，包含的信息很杂，参数量和计算量很大。因此，本发明在使用自动模块时，没有在第一层后面加入，只在后面四层加入了自动选择模块(即包含conv2_x,conv3_x,conv4_x和conv5_x)。本发明的总batch_size设置为64，共用两块GPU显卡，每块显卡上的batch_size是自动均分总batch_size的值。

训练：训练使用常用的数据增强策略:随机裁剪、水平翻转和随机擦除。所有数据集的输入统一更改为大小为256×128的图像，骨干网在ImageNet上进行预训练。采用Adam优化器，所有模型共进行600个epoch的训练，并且记录参数的文件从epoch＝320开始记录，每增加40个epoch记录一个新的文件。学习率为8×10^-4，权重衰减为5×10^-4。

数据集：本实验共在三个公开重新识别数据集上进行了实验：CUHK03，Market1501和DukeMTMC-ReID(DukeMTMC数据集的子集)，数据集的具体信息如下表1所示。

表1数据集统计信息

Dataset	cuhk03	Market1501	DukeMTMC-ReID
				Training-IDs	767	751	702
Querry-IDs	700	750	702
				Gallery-IDs	700	751	1110
Camera	2	6	8
				Images	28192	32668	36411

为了比较本方法与现有的Re-ID方法的性能，本仿真实验中分别采用CumulativeMatching Characteristics(CMC)中的rank指标和mean Average Precision(mAP)作为每个查询图像的评价指标。

下表2显示了不同的方法在Market1501数据集上的结果，其中，表格中列举的都是基于RestNet50骨干网络的方法之间的比较。从表2中可以看出，无论是mAP还是Rank-1，本发明中的方法实验结果都优于其他方法，本发明中的方法的mAP值为89.1％，Rank-1的值为95.8％，mAP值比Baseline高出5.4％，而Rank-1比Baseline高出1.6％。

表2 Market1501数据集上不同行人重新识别方法结果对比(％)

Method	mAp	Rank-1
			FC(AAAI，2019)	86.2	95.2
NL(CVPR，2018)	87.4	95.6
			CBAM(ECCV，2018)	85.6	94.8
SE(CVPR，2018)	86.0	95.2
			SNL(April，2019)	87.3	95.7
MHN-6(PCB)(ICCV，19)	85.0	95.1
			BAT-net(ICCV，19)	84.7	95.1
MGN(w flip)(MM，19)	86.9	95.7
			JDGL(CVPR，19)	86.0	94.8
DSA-reID(CVPR，19)	87.6	95.7
			OSNet(ICCV，19)	84.9	94.8
RGA(IEEE，2020)	87.5	96.0
			SCSN(CVPR，2020)	88.5	95.7
sAN(AAAI，2020)	88.0	96.1
			ISP(ECCV，2020)	88.6	95.3
INTACT(CVPR，2020)	-	88.1
			M<sup>3</sup>+ResNet50(IEEE，2020)	82.6	95.4
HOReID(CVPR，2020)	84.9	94.2
			Baseline	83.7	94.2
MS-RAFA(ours)	89.1	95.8

下表3显示了不同的方法在CUHK03(labeled和detected)数据集上的结果。从表3中可以看出：本发明中的方法无论是mAP还是Rank-1，实验结果都明显优于其他方法。Labeled数据集的mAP和Rank-1的值分别为79.6％和83.9％，比Baseline的结果分别高出10.6％和10.1％。Detected数据集的mAP和Rank-1的值分别为77.2％和82.2％，比Baseline的mAP和Rank-1均高出11.7％。

表3 CUHK03数据集上不同行人重新识别方法结果对比(％)

表4显示了不同的方法在DukeMTMC-ReID数据集上的结果。为了进一步验证本发明方法的有效性，在同一数据集上选择多种不同的方法进行对比验证，同时，还采用5种不同的骨干网络进行验证，分别为ResNet50、ResNet101、ResNet152、SEResNet101和HA-CNN，从表4中可以看出，无论是mAP还是Rank-1，本发明中方法的实验结果都明显优于其他方法。值得注意的是，虽然SCSN(CVPR,2020)方法的Rank-1略微高于本发明的方法0.6％，但是其mAP值却低于本发明方法的0.9％，依然可以说明本发明方法的有效性。

表4 DukeMTMC-ReID数据集上不同行人重新识别方法结果对比(％)

Method	Backbone	mAP	Rank-1
				MHN(PCB)(ICCV，19)	ResNet50	77.2	89.1
BFE(ICCV，19)	ResNet50	75.9	88.9
				CASN(PCB)(CVPR，19)	ResNet50	73.7	87.7
DCDS(ICCV，19)	ResNet101	75.5	87.5
				AANet(CVPR，19)	ResNet152	74.2	87.6
PSE+ECN(CVPR，18)	ResNet50	75.7	84.5
				IANet(CVPR，19)	ResNet50	73.4	83.1
VPM(CVPR，19)	ResNet50	72.6	83.6
				SPReID(CVPR，18)	ResNet152	73.3	85.9
Tricks(CVPRW，19)	SEResNet101	78.0	87.5
				SCSN(CVPR，2020)	ResNet50	79.0	90.1
SAN(AAAI，2020)	ResNet50	75.5	87.9
				INTACT(CVPR，2020)	ResNet50	-	81.2
M<sup>3</sup>+ResNet50(IEEE，2020)	HA-CNN	72.2	87.1
				HOReID(CVPR，2020)	ResNet50	75.6	86.9
Baseline	ResNet50	71.8	85.9
				MS-RAFA(ours)	RestNet50	79.9	89.5

通过三个实验数据集的结果，以及与其他方法的对比，可以看出本发明提出的方法是最有效的。

仿真实验二：

为了展示本发明中提出的多尺度参考辅助注意力特征聚合(Multi-ScaleReference-aided Attentive Feature Aggregation，MS-RAFA)的实验效果，在Market1501数据集上对模块进行增量评估。该数据集场景复杂，信息包含多，实验结果更有说服力。该仿真实验仍然把ResNet50作为骨干网络，采用ID损失和Triplet损失，具体的消融实验结果如下。

多尺度参考辅助注意力特征聚合(MS-RAFA)机制是由自动选择模块(ASM)和多层特征融合模块(MFFM)组成的，为了验证这两个模块的有效性，设置去掉部分模块的消融实验进行对比，如下表5所示，在表5中，“Only-ASM”代表的是只用ASM模块进行实验，“Only-MFFM”表示只用MFFM模块实验，“All”指的是ASM和MFFM都用。从表5中可以看出，虽然只用部分模块的结果也不错，可是两个模块结合之后的实验结果更好，从而验证了两个模块的有效性。

表5消融实验对比结果

Method	mAP	Rank-1	Rank-5	Rank-10
					Only-ASM	88.2％	95.5％	98.6％	99.1％
Only-MFFM	87.7％	95.2％	98.5％	99.2％
					Baseline	83.7％	94.2％	-	-
All	89.1％	95.8％	98.7％	99.1％

为了进一步的验证MFFM模块的有效性，本仿真实验还设置了内部细节变化的实验，本发明中MFFM模块是从ASM模块输出后的四层进行融合，内部细节变化实验中去掉部分融合分支，以验证MFFM模块融合低层特征和高层特征的有效性。结果如下表6所示，在表6中，“Miss_conv5，Miss_conv54，Miss_conv543”是依次去掉融合的层数，例如：“Miss_conv54”是第五层和第四层两个分支不进入MFFM模块进行融合，“Only_ASM”相当于是“Miss_conv5432”，“No Miss”指的是完整的实验结构网络。从表6中可以看出随着融合的分支的减少，评价指标也在不断的减少，说明MFFM模块可以有效的利用低层特征和高层特征，并实现很好的效果。

表6内部细节变化实验结果

Method	mAP	Rank-1	Rank-5	Rank-10
					Miss_conv5	87.8％	95.2％	98.2％	98.9％
Miss_cony54	87.2％	95.2％	98.6％	99.1％
					Miss_conv543	87.0％	95.3％	98.6％	99.1％
Only_ASM	88.2％	95.5％	98.6％	99.1％
					Baseline	83.7％	94.2％	-	-
No miss	89.1％	95.8％	98.7％	99.1％

进一步的，为了验证V特征与X特征融合，以及两次ID+Triplet Loss的监督的有效性，本仿真实验还设置了一个对比实验，结果如表7所示，在表7中，“Miss_VLoss”和“Miss_Xloss”分别代表的是只用一个分支。“Miss_xvCat”代表用两个分支，但是去除图2中的“cat”操作，即X与V不进行信息交互，“No miss”指的是完整的实验结构网络。从表7中可以看出，采用两个分支进行Loss监督以及信息融合的方法是最有效的，mAP和Rank-1值是对比实验中最好的结果。

表7不同监督学习方法效果对比

Method	mAP	Rank-1	Rank-5	Rank-10
					Miss_VLoss	87.3％	95.2％	98.5％	99.2％
Miss_Xloss	87.7％	95.4％	98.6％	99.3％
					Miss_xvCat	88.8％	95.8％	98.7％	99.2％
No miss	89.1％	95.8％	98.7％	99.1％

仿真实验三：

仿真实验三为可视化实验，与RGA类似，本仿真实验中将Gradient-weightedClass Activation Mapping(Grad-CAM)工具应用于基线模型和我们的模型进行定性分析，Grad-CAM工具可以识别网络认为重要的区域，附图5显示了对比结果。从图5中可以清楚地看到，本发明提出的模型的Grad-CAM masks比基线模型更好地覆盖了人的区域，使得网络关注身体的更多的不同部位。与利用空间注意力和通道注意力机制的RGA注意方法相比，我们的方法更清楚地体现在提取更多的显著特征和隐含特征，这受益于从全局范围结构信息中进行多尺度注意力特征的聚合与挖掘。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于多尺度和注意特征聚合的行人重识别模型，其特点在于：所述行人重识别模型包括卷积神经网络主干模型、自动特征筛选模块、多层特征融合模块和多监督模块；

2.如权利要求1所述的基于多尺度和注意特征聚合的行人重识别模型的识别方法，其特征在于，包括以下步骤，

S2：卷积神经网络主干模型中的Block提取行人图片中的行人特征，令其表达为X∈R^C ^×H×W，也即宽度为W、高度为H、通道数为C的中间特征张量；

S3：每个Block对应的自动特征筛选模块利用注意力机制自动筛选中间特征张量X∈R^C ^×H×W中的有效信息，通过卷积计算和矩阵运算获得输入该自动，并使用该权重和对应的输入特征进行相乘，得到一个新的特征图

其大小为C×H×W；

进行提取和融合操作，得到权值特征V；

和多层特征融合模块输出的特征V进行监督学习；

3.根据权利要求2所述的基于多尺度和注意特征聚合的行人重识别模型的识别方法，其特征在于，步骤S3中自动特征筛选模块利用注意力机制自动筛选中间特征张量X∈R^C×H×W中的有效信息，形成新的特征图

的具体操作包括以下步骤，

其中α为1×1卷积函数，

4.根据权利要求3所述的基于多尺度和注意特征聚合的行人重识别模型的识别方法，其特征在于，步骤S5的具体操作包括以下步骤，

S504：将C₂、C₃、C₄、C₅进行融合，生成特征L∈R^C×H×W；

S505：多层特征融合模块的全连接层FC1自动获取输入特征L每个通道权重，输出特征的维度为C×1×1；FC1中输入特征L每个通道权重通过压缩L的空间维数来计算，也即

S508：将步骤S508得到的各通道的特征权重相加，得到多层特征融合模块最终要输出的权值特征V，也即V＝Cat(Ci*fci)，i＝2，3，4，5。

5.根据权利要求4所述的基于多尺度和注意特征聚合的行人重识别模型的识别方法，其特征在于：所述多监督模块中包括识别损失函数和三重损耗函数；

所述三重损耗函数用来提高最终的排序性能，定义为Ltp＝∑_B[d_pos-d_neg]+，其中，d_pos为同一恒等式的特征距离，d_neg为不同恒等式的距离，B为三联体样品的批量大小，[·]+为Max(·，0)；模型的最终总损失为这两种损失之和，可表示为Loss＝Lidi+Ltpi，(i＝1，2)，其中i表示第I个有监督学习。