CN113723366A

CN113723366A - 一种行人重识别方法、装置及计算机设备

Info

Publication number: CN113723366A
Application number: CN202111237443.9A
Authority: CN
Inventors: 张凯; 黄瑾; 宫永顺; 逯天斌
Original assignee: Shandong Liju Robot Technology Co ltd
Current assignee: Shandong Liju Robot Technology Co ltd
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2021-11-30
Anticipated expiration: 2041-10-25
Also published as: CN113723366B

Abstract

本发明公开了一种行人重识别方法、装置及计算机设备。该方法包括：获取输入图像X，对X进行图像全局特征提取，得到全局特征图G；基于注意力机制，对G进行图像局部特征提取，得到局部特征图X ₁；对X _i‑1进行图像局部特征提取，得到局部特征图X _i，i=2、…、N；对G和X ₁进行非局部特征融合，得到非局部特征图

；将X _j‑1和X _j进行非局部特征融合，得到非局部特征图

，j=2、…、N；利用卷积运算对

、…、

进行融合，得到融合特征图F _f；基于F _f，利用全连接层预测X对应的行人编号。该方法本发明实施例不仅提高了行人重识别的精度。

Description

一种行人重识别方法、装置及计算机设备

技术领域

本发明实施例涉及多媒体信号处理领域，尤其涉及一种行人重识别方法、装置及计算机设备。

背景技术

近年来，人工智能与社会的方方面面联系越来越紧密，人工智能也为民众的生活提供了更多的便利。随着人工智能领域深度学习的快速发展，许多计算机视觉技术取得了重大突破，其中就包括行人重识别技术。

行人重识别技术又名行人再识别技术，是指利用计算机资源判断图像集中是否存在特定行人的技术，即从图库中检索出最有可能属于同一行人的图像或者图像集。行人重识别技术通常用于解决跨摄像机跟踪和监视安全性等问题，一般来说行人重识别可以视为图像检索问题。在监控视频中，受限于相机的分辨率和拍摄角度，通常无法获得高质量的人脸图像，因此在这种人脸识别失效的环境中，行人重识别技术就显得尤为重要。

大多数行人重识别方法为了得到更好的效果，往往专注于学习区分性和鲁棒性，以完成包括变换视角、不同身体姿势以及不同光照强度等挑战。所以考虑到利用深度学习所提取的全局特征对于空间位置变换以及外观变化具有一定的鲁棒性，因此，行人重识别技术依赖全局特征来检索图像。但是，仅凭借全局特征无法充分利用细粒度特征，并且全局特征可能会使注意力集中于一些干扰信息上，导致重识别的效果是无法预期的。

发明内容

本发明提供一种行人重识别方法、装置及计算机设备，以解决现有技术中存在的上述问题。

第一方面，本发明实施例提供了一种行人重识别方法。该方法包括：

S10：获取输入图像X，对X进行图像全局特征提取，得到全局特征图G；

S20：基于注意力机制，将G作为待提取特征图，对所述待提取特征图进行图像局部特征提取，得到局部特征图X ₁；基于注意力机制，将X _i-1作为待提取特征图，对所述待提取特征图进行图像局部特征提取，得到局部特征图X _i，其中，i为整数，i=2、…、N，N为大于或等于2的整数；

S30：将G作为高层特征图

，将X ₁作为低层特征图

，对

和

进行非局部特征融合，得到非局部特征图

；将X _j-1作为

，将X _j作为

，对

和

进行非局部特征融合，得到非局部特征图

，其中，j为整数，j=2、…、N；

S40：利用卷积运算对

、…、

进行融合，得到融合特征图F _f；基于F _f，利用全连接层（Full Connected layer，简称为“FC”）预测X对应的行人编号（IDentity，简称“ID”）。

第二方面，本发明实施例还提供了一种行人重识别装置。该装置包括：

全局特征提取模块，用于获取输入图像X，对X进行图像全局特征提取，得到全局特征图G；

局部特征提取模块，用于基于注意力机制，将G作为待提取特征图，对所述待提取特征图进行图像局部特征提取，得到局部特征图X ₁；基于注意力机制，将X _i-1作为待提取特征图，对所述待提取特征图进行图像局部特征提取，得到局部特征图X _i，其中，i为整数，i=2、…、N，N为大于或等于2的整数；

非局部特征融合模块，用于将G作为高层特征图

，将X ₁作为低层特征图

，对

和

进行非局部特征融合，得到非局部特征图

；将X _j-1作为

，将X _j作为

，对

和

进行非局部特征融合，得到非局部特征图

，其中，j为整数，j=2、…、N；

编号预测模块，用于利用卷积运算对

、…、

进行融合，得到融合特征图F _f；基于F _f，利用FC预测X对应的行人编号。

第三方面，本发明实施例还提供了一种计算机设备。该设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现本发明任一实施例提供的行人重识别方法。

本发明可以实现以下有益效果：

使用带残差的空间维度注意力机制提取空间维度的注意力特征图，引入了残差网络的思想，通过提取融合多步空间注意力获取更丰富的空间维度的注意力图；采用非局部特征融合方法，在保证了含有丰富信息的高层特征不被噪音影响的同时，增加了来自低层特征的粗粒度信息，所融合得到的特征能够显著提升结果的准确率。

附图说明

图1为本发明实施例提供的一种行人重识别方法的流程图。

图2为本发明实施例提供的另一种行人重识别方法的流程图。

图3为本发明实施例提供的一种局部特征提取的流程图。

图4为本发明实施例提供的一种非局部特征融合的流程图。

图5为本发明实施例提供的一种空间金字塔池化的流程图。

图6为本发明实施例提供的一种行人重识别装置的结构示意图。

图7为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

大多数行人重识别方法为了得到更好的效果，往往专注于学习区分性和鲁棒性，以完成包括变换视角、不同身体姿势以及不同光照强度等挑战。所以考虑到利用深度学习所提取的全局特征对于空间位置变换以及外观变化具有一定的鲁棒性，因此，行人重识别技术依赖全局特征来检索图像。但是，仅凭借全局特征无法充分利用细粒度特征，造成小区域信息缺失，并且全局特征可能会使注意力集中于一些干扰信息上，导致重识别的效果是无法预期的。为了尽可能避免这种结果，引入注意力机制以捕获有强区分性的人体局部特征并减少背景中的不同变化所带来的的噪音干扰，对于提升行人重识别技术的性能尤为重要。

随着注意力机制的应用领域不断延展，众多学者开始研究如何更好的利用注意力机制提升行人重识别任务的性能。但是，通过一些基础的注意力机制学习到的辨别性强的人体局部特征，有时不能很好地提升行人重识别任务的性能。这可能是因为：一方面，基础的注意力机制大概率只能学习到最简单的特征，这些特征只关注于图像的表面分布，不能很好地学习更有价值的局部特征；另一方面，使用基础的注意力机制的行人重识别方法没有考虑到不同局部特征之间的联系，导致一些有用的信息丢失，造成性能下降。

本发明提出了行人重识别方法，通过强注意力机制提取出更有价值的局部特征，并将全局特征和不同层提取到的局部特征进行融合以减少信息损失，从而提升行人重识别技术的检测精度。

实施例一

图1为本发明实施例提供的一种行人重识别方法的流程图。该方法引入了注意力机制，并将不同层的特征进行融合，包括步骤S10-S50。

S10：获取输入图像X，对X进行图像全局特征提取，得到全局特征图G。

S20：基于注意力机制，将G作为待提取特征图，对所述待提取特征图进行图像局部特征提取，得到局部特征图X ₁；基于注意力机制，将X _i-1作为待提取特征图，对所述待提取特征图进行图像局部特征提取，得到局部特征图X _i，其中，i为整数，i=2、…、N，N为大于或等于2的整数。

S30：将G作为高层特征图

，将X ₁作为低层特征图

，对

和

进行非局部特征融合，得到非局部特征图

；将X _j-1作为

，将X _j作为

，对

和

进行非局部特征融合，得到非局部特征图

，其中，j为整数，j=2、…、N。

S40：利用卷积运算对

、…、

进行融合，得到融合特征图F _f；基于F _f，利用FC预测X对应的行人ID。

图2为本发明实施例提供的另一种行人重识别方法的流程图。图2以N =4为例，更直观地显示了整个行人重识别的流程。首先，对输入图像X进行了一次图像全局特征提取，得到了全局特征图G；进行了4次图像局部特征提取，分别得到了局部特征图X ₁、X ₂、X ₃和X ₄。将G、X ₁、X ₂、X ₃和X ₄进行非局部融合，再经过一个1×1卷积，得到融合特征图F _f。基于F _f，预测X对应的行人ID。

在一实施例中，S10中，所述对X进行图像全局特征提取，得到全局特征图G包括：使用CNN作为骨干网络，将X输入所述CNN中进行图像全局特征提取，得到G。

图像全局特征提取是为了将输入图像转换为全局特征图，突出图像的全局信息。可选地，使用CNN作为骨干网络，CNN包括卷积层、池化层以及全连接层，将输入图像依次通过一个或多个卷积层、池化层以及全连接层等，最终得到图像的全局特征图。卷积层用于提取输入图像的不同特征，某些卷积层可能只能提取一些低级的特征（如边缘、线条和角等的层级），使用更多卷积层的网络能从低级特征中迭代提取更复杂的特征。池化层用于对卷积层学习到的特征图进行亚采样处理，能有效降低后续网络层的输入维度，缩减模型大小，并提高了特征图的鲁棒性。全连接层把所有局部特征结合起来变成全局特征，用来计算模型任务（分类、回归）的得分。

在CNN中，将输入图像中的每个像素以及其邻域使用卷积核卷积，再使用池化层池化，使特征图能够代表的区域变大，逐步扩大感受野。最后得到的特征图则包含了图像的全局特征。

CNN中的卷积层、池化层以及全连接层的数量和链接顺序可以根据需求进行设计。本实施例中，可以使用Resnet50作为骨干网络。

在一实施例中，S20中，所述对所述待提取特征图进行图像局部特征提取，得到局部特征图包括步骤S21-S23。

S21：利用通道维度的注意力机制，将所述待提取特征图在通道维度分别进行最大值池化以及平均值池化，将池化结果进行通道维度的整合，得到通道维度的特征图；将所述通道维度的特征图进行非线性激活，得到多个通道的权重；将所述多个通道的权重与所述待提取特征图在通道维度上相乘，得到带有通道维度注意力的特征图A _c。

S22：利用空间维度的注意力机制，将A _c在空间维度分别进行最大值池化以及平均值池化，将池化结果进行空间位置的整合，得到空间维度的特征图；对所述空间维度的特征图进行n步迭代计算，在每一步迭代计算中进行残差融合，将第n步残差融合后的特征图进行非线性激活，得到多个空间位置的权重；将所述多个空间位置的权重与A _c在空间维度进行乘法运算，得到带有空间维度注意力的特征图

，其中，n为大于或等于2的整数。

S23：将

作为所述局部特征图。

在一实施例中，S22包括：S221-S223。

S221：利用空间维度的注意力机制，将A _c在空间维度进行最大值池化，得到特征图

；将A _c在空间维度进行平均值池化，得到特征图

；将

和

通过空间维度的卷积层进行空间位置的整合，得到空间维度的特征图

：

，其中，W ₁表示所述空间维度的卷积层的参数。

S222：对所述空间维度的特征图进行n步迭代计算，在每一步迭代计算中，通过可学习的残差保留系数λ将当前步的第一中间特征图

与上一步输出的空间维度的特征图

进行残差融合，得到当前步的第二中间特征图F _l：

，其中，l为整数，l=2、…、n。

S223：将第n步的第二中间特征图F _n作为所述第n步残差融合后的特征图，进行非线性激活，得到所述多个空间位置的权重；将所述多个空间位置的权重与A _c在空间维度进行乘法运算，得到

：

，其中，

表示激活函数，

表示所述多个空间位置的权重。

图像局部特征提取是为了利用注意力机制分别提取每一层的局部特征，突出不同颗粒尺度图像的细节信息。图3为本发明实施例提供的一种局部特征提取的流程图。在本实施例中，进行了多次图像局部特征提取，如图3所示，每一次图像局部特征提取包括以下两个阶段。

1.通道维度的注意力机制阶段：将待提取的特征图F在通道维度进行最大值池化，得到特征图

；将F在通道维度平均值池化，得到特征图

。将

和

分别输入第一全连接层（Fully Connected layer，FC），第一FC后连接有一个激活函数

（图3中未显示），

后连接有第二FC。

依次经过第一FC、

和第二FC后，得到中间特征图

。

依次经过第一FC、

和第二FC后，得到中间特征图

。将

和

进行融合，得到通道维度的特征图F _ch。第二FC后连接有一个激活函数

，F _ch经过

后，得到各个通道的权重。

和

为非线性激活函数，用于增加特征图的非线性能力，其中，

为sigmod操作，

为relu操作。将各个通道的权重与待提取特征图在通道维度进行乘法运算，即各个通道维度的权重与相应通道的二维特征图相乘，得到带有通道维度注意力的特征图。

以上过程可以用公式（1）来表示：

（1）

其中， A _c表示带有通道维度注意力的特征图，

和

表示第一FC和第二FC的参数，

和

表示激活函数，

和

分别表示平均值池化后的特征图以及最大值池化后的特征图。

需要说明的是，在本实施例中，图像的特征图可以理解为一个立方体，立方体的宽W和高H可以理解为二维特征图的长和宽，即一个二维特征图的横向维度和纵向维度；而立方体的长C就是特征图的通道。在本实施例中，由于输入图像通过卷积层后得到了多张二维特征图，由多张二维特征图组成了图像最终的特征图，因此可以将每一个卷积层得到二维特征图理解为对应一个通道。

计算机视觉中的注意力机制的主要是想让系统学会把注意力放在感兴趣的地方。一方面，具备注意力机制的神经网络能够自主学习注意力机制，另一方面，注意力机制能够反过来帮助我们去理解神经网络看到的世界。在本实施例中，通过通道维度的注意力机制，可以学习不同通道的权重，给对于图像识别更有价值的通道赋予更高的权重，反之赋予更低的权重。这样操作的结果会提升图像识别的准确率。

2.空间维度的注意力机制阶段：将A _c在空间维度分别进行最大值池化，得到特征图

；将A _c在空间维度进行平均值池化，得到特征图

。将

和

：

，其中，W ₁表示所述空间维度的卷积层的参数。对所述多个空间位置的权重进行n步迭代计算，并进行残差融合，以探索更多的信息。在每一步迭代计算中，通过可学习的残差保留系数λ将当前步的第一中间特征图

与上一步输出的空间维度的特征图QUOTE

进行残差融合，得到当前步的第二中间特征图F _l：

，其中，l为整数，l=2、…、n。将第n步的第二中间特征图F _n作为所述第n步残差融合后的特征图，进行非线性激活，增加特征图的非线性能力。将激活后的权重与A _c在空间维度进行乘法运算，得到带有空间维度注意力的特征图。

以上过程可以用公式（2）来表示：

（2）

其中，

表示第n步的带有通道维度注意力特征图， W _n表示第n步的卷积层（conv）的参数，

表示激活函数，

和

分别表示A _c平均值池化后的特征图以及最大值池化后的特征图，λ表示可学习的残差保留系数。可选地，

为sigmoid运算。

参照公式（2），特征图的计算同样经过了n步迭代，每一步迭代的过程如下。首先，将某次迭代的输入特征图进行最大值池化和平均值池化，再将两种池化的结果加起来得到池化值之和。然后，经过一个卷积层得到该步迭代的中间值。最后，将该步的中间值与前一步迭代的结果，通过残差保留系数进行加权相加，然后将加权相加的结果送入激活函数激活得到该轮迭代的输出的特征图。

需要说明的是，空间维度的注意力机制是一个迭代的过程，共进行了n步迭代，而“残差融合”是指该步所得到的结果不仅与该步有关，还使用了前一步的结果。例如，第n步的结果

除了与第n步中的

有关，还与第（n-1）步的结果

有关。公式（1）为一步迭代的过程，每一步迭代中都采用了残差融合，在反复的凝练中充分利用了图像信息。

在一实施例中，S30中，所述对

和

进行非局部特征融合，得到非局部特征图，包括：步骤S31-S35。

S31：将

通过一个卷积，得到卷积后的高层特征图

，其中，

表示所述一个卷积的卷积核。

S32：将分别通过两个卷积，得到两个卷积后的低层特征图：

和

，其中，

和

分别表示所述两个卷积的卷积核。

S33：将

作为待池化特征图，对所述待池化特征图进行金字塔池化，得到池化后的特征向量

；将

。

S34：将

与

进行矩阵乘法，再进行softmax激活，得到相似性矩阵M；

S35：将

与M进行矩阵乘法，将相乘后的结果与

拼接，再经过一个卷积，得到所述非局部特征图。

在一实施例中，S33中，所述对所述待池化特征图进行金字塔池化，得到池化后的特征图，包括：步骤S331-S333。

S331：四个池化层分别以N ₁×N ₁、N ₂×N ₂、N ₃×N ₃和N ₄×N ₄四种不同尺度的网格，将所述待池化特征图划分为

、

、

和

块，其中，N ₁、N ₂、N ₃和N ₄均为正整数。

S332：所述四个池化层在各自划分得到的块上进行最大池化操作，分别提取到维度为

、

、

和

的四个特征向量。

S333：将所述四个特征向量进行融合，得到所述池化后的特征向量，其中，所述池化后的特征向量的维度为S，

。

非局部特征融合是为了汇总各层局部特征以及全局特征，得到非局部特征。图4为本发明实施例提供的一种非局部特征融合的流程图。参考图4，融合的具体过程如下。

1.在本发明中将融合前的高层特征图记为

。

表示高层特征图的通道数，

包括

个二维高层特征图。

表示每个二维高层特征图的维度，

，其中，

表示每个二维高层特征图的宽，

表示每个二维高层特征图的高。将

通过一个

卷积，该卷积核为

，得到卷积后的高层特征

。

需要说明的是，1×1卷积的作用是实现通道的升维和降维，也可以看作是实现了多个特征图的线性组合，实现了跨通道的信息整合。具体来说， 1×1卷积的输入、输出都是立方体（即多通道的的特征图），1×1卷积核实际上是对特征图中的每个像素点在不同通道上线性组合（信息整合），且保留了图片的原有平面结构。因此，1×1卷积仅仅是改变了通道的数量，进而达到升维和降维的功能，其中，C表示卷积之前的通道数，C’表示卷积之后的通道数，C’与后续操作的通道数相匹配。

2.在本发明中将融合前的特征记为

。

表示低层特征图的通道数，

包括

个二维低层特征图。

表示每个二维低层特征图的维度，

，其中，

表示每个二维低层特征图的宽，

表示每个二维低层特征图的高。将

分别通过两个1×1卷积，卷积核分别为

和

，得到卷积后的低层特征图分别为

和

。

3.将卷积后的特征图

和

分别进行金字塔池化，得到池化后的特征向量

和

。图5为本发明实施例提供的一种空间金字塔池化的流程图。如图5所示，空间金字塔池化由4个最大池化层组成。对于输入任意大小的特征图，4个最大池化层分别以大小为8×8、6×6、3×3和1×1的网格将特征图分为64、36、9和1块，然后在每个块上进行最大池化操作，提取相应特征。第1个池化层提取64 维特征向量，第2个池化层提取36 维特征向量，第3个池化层提取9维特征向量，第4个池化层提取1维特征向量，最后将4个池化层提取的特征融合，得到64+36+9+1=110维特征向量，从而使任意大小特征图都能转化为110维的特征向量。使用空间金字塔池化操作的主要目的是为了获取场景语境信息，获取上下文的联系。

4.将其中一个池化后的特征

与卷积后的高层特征F _q进行矩阵乘法，之再进行softmax激活，得到相似性矩阵

，其中，M表征池化后的特征

与卷积后的高层特征F _q间的相似性，矩阵乘法即第一个矩阵的行乘第二个矩阵的列的运算。

5.将剩余的池化后的特征

与相似性矩阵M进行矩阵乘法，之后再将得到的结果与融合前的高层特征

拼接，最后使用卷积进行卷积操作，得到最后的融合的非局部特征结果

，其中，

为融合后的通道数，N _h表示融合后的特征维度数。融合后的非局部特征包含了更多的信息，

与

和

，N _h与N _high和N _low可根据需要进行设计，以保持前后步骤之间的通道维度数量统一。该步骤的主要目的就是合理利用高层特征和低层特征，从而提取更多有用的信息。

需要说明的是，这里的“拼接”是指剩余的池化后的特征

与相似性矩阵M进行矩阵乘法的结果是一个C’×N _high的矩阵，F _high是一个C _high×N _high的矩阵，由于二者的维度中都有N _high，所以按N _high维度拼接，可以得到一个（C’+C _high）×N _high的矩阵。

在S20中，基于注意力机制得到了全局特征图以及不同的局部特征图。在S30中，对全局特征图以及不同的局部特征图进行融合，得到了非局部特征

、

……

，其中，k=N，即非局部特征提取模块的层数。非局部特征融合也是一个重复多次的步骤，如X ₁与G融合、X ₂与X ₁融合，X ₃与X ₂融合……，所对应的结果就是

，

，

……。

在一实施例中，S50中，所述基于F _f，利用全连接层预测X对应的行人编号，包括：步骤S51-S52。

S51：利用所述全连接层，将F _f映射为预测向量。

S52：选取所述预测向量中数值最大的元素，将所述数值最大的元素对应的行人编号作为预测的行人编号。

在该编号预测阶段，融合所有的非局部特征，并利用融合后的特征预测行人的编号。

下面结合一个应用实施例，对本发明实施例的行人重识别方法的实际应用进行说明。

在实际应用中，该方法可以包括一下几个阶段。

（1）图像采集

在图像采集阶段，根据实际的应用需要，使用相应采集设备获取。

（2）神经网络全局特征提取

在神经网络全局特征提取阶段，自适应地提取图像全局特征。据实际的应用需要，可以CNN来提取特征。

（3）局部特征提取

在局部特征提取阶段，利用本发明实施例提出的注意力机制，分别提取每一层的局部特征，突出不同颗粒尺度图像的细节信息。

（4）非局部特征融合

在非局部特征融合阶段，汇总各层局部特征以及全局特征，加权生成非局部特征，实现多层特征融合。

（5）编号预测

在生成预测行人编号阶段，通过真实行人编号信息等来建立优化目标函数，本发明还提出一个优化的损失函数：

（3）

其中，损失函数

共包含2项，分别是：

ID预测损失：

，Nu表示总的行人数量，y表示行人标签，

表示给定的错误率，p _i表示网络预测该行人属于标签i行人的概率。

用于计算预测的ID与真值的差别，即计算分类损失。

加强三元损失：

，其中，d _p表示正样本对的绝对差别，d _n表示负样本对的绝对差别，

表示正样本对与负样本对的相对差别。

用于计算正样本对与负样本对的相对差别，并添加正样本对的绝对差别。

为超参数。在本实施例中，可以将

设置为1。训练过程中，可以采用随机梯度下降实现优化，初始学习率可以设置为

，可以使用大小为8的批量处理，使用权重衰减迭代120轮。

评价指标选取行人重识别工作的通用指标平均精度均值，平均精度均值用于评估被比较的准确性，还可以使用Rank1精度来表明行人重识别时最高返回值的精度。

本发明实现了基于强注意力机制多层融合的神经网络的行人重识别方法，充分利用了注意力机制提取图像中的局部信息，并将不同层的局部特征与全局特征融合，形成了包含更多信息的特征，提高了预测行人编号的准确性。

本发明实施例提供的行人重识别方法可以实现以下有益效果。

1.本发明实施例使用通道维度注意力机制提取通道维度的注意力特征图。不同于基础的通道维度注意力机制，本发明在基础的通道维度注意力机制上使用了全局平均值化和最大值池化两种池化方法提取通道维度的信息，更全面地提取了通道维度的注意力图。

2.本发明实施例使用带残差的空间维度注意力机制提取空间维度的注意力特征图。不同于基础的空间维度注意力机制，本发明引入了残差网络的思想，通过提取融合多步空间注意力获取更丰富的空间维度的注意力图。

3. 本发明实施例采用非局部特征融合方法，在保证了含有丰富信息的高层特征不被噪音影响的同时，还增加了来自低层特征的粗粒度信息，所融合得到的特征能够显著提升结果的准确率。

4.本发明实施例采用空间金字塔池化操作，不同于基础的池化操作，空间金字塔池化能够解决输入尺寸不一致的问题，并固定输出尺寸。即空间金字塔池化可以使用同一特征不同尺寸作为输入，得到同样长度的池化特征。

5. 本发明实施例实现了端到端的基于强注意力机制多层融合的行人重识别，充分利用了各层局部信息与全局信息，不仅提高了行人重识别的精度，还使得深度网络的可解释性更强。通常，深度网络是一个黑盒，无法解释每一层的具体功能。而在本发明实施例中，可以对深度网络中各项操作的目的进行很好的解释。

实施例二

图6为本发明实施例提供的一种行人重识别装置的结构示意图。该装置用于实现实施例一提供的行人重识别方法，包括全局特征提取模块610、局部特征提取模块620、非局部特征融合模块630和编号预测模块640。

全局特征提取模块610用于获取输入图像X，对X进行图像全局特征提取，得到全局特征图G。

局部特征提取模块620用于基于注意力机制，将G作为待提取特征图，对所述待提取特征图进行图像局部特征提取，得到局部特征图X ₁；基于注意力机制，将X _i-1作为待提取特征图，对所述待提取特征图进行图像局部特征提取，得到局部特征图X _i，其中，i为整数，i=2、…、N，N为大于或等于2的整数。

非局部特征融合模块630用于将G作为高层特征图

，将X ₁作为低层特征图

，对

和

进行非局部特征融合，得到非局部特征图

；将X _j-1作为，将X _j作为

，对

和

进行非局部特征融合，得到非局部特征图

，其中，j为整数，j=2、…、N。

编号预测模块640用于利用卷积运算对

、…、

进行融合，得到融合特征图F _f；基于F _f，利用全连接层预测X对应的行人编号。

在一实施例中，全局特征提取模块610是用于通过如下方式对X进行图像全局特征提取，得到全局特征图G：使用CNN作为骨干网络，将X输入所述CNN中进行图像全局特征提取，得到G。

在一实施例中，局部特征提取模块620是用于通过如下方式对所述待提取特征图进行图像局部特征提取，得到局部特征图：

S21：利用通道维度的注意力机制，将所述待提取特征图在通道维度分别进行最大值池化以及平均值池化，将池化结果进行通道维度的整合，得到通道维度的特征图；将所述通道维度的特征图进行非线性激活，得到多个通道的权重；将所述多个通道的权重与所述待提取特征图在通道维度上相乘，得到带有通道维度注意力的特征图A _c；

，其中，n为大于或等于2的整数；

S23：将

作为所述局部特征图。

在一实施例中，局部特征提取模块620是用于通过如下方式实现S22：

；将A _c在空间维度进行平均值池化，得到特征图

；将

和

：

，其中，W ₁表示所述空间维度的卷积层的参数；

S222：对所述空间维度的特征图进行n步迭代计算，在每一步迭代计算中，通过可学习的残差保留系数

将当前步的第一中间特征图

与上一步输出的空间维度的特征图

进行残差融合，得到当前步的第二中间特征图F _l：

，其中，l为整数，l=2、…、n；

S223：将第n步的第二中间特征图F _n作为所述第n步残差融合后的特征图，进行非线性激活，得到所述多个空间位置的权重；将所述多个空间位置的权重与在空间维度进行乘法运算，得到

：

，其中，

表示激活函数，

表示所述多个空间位置的权重。

在一实施例中，非局部特征融合模块630是用于通过如下方式对

和

进行非局部特征融合，得到非局部特征图：

S31：将

通过一个卷积，得到卷积后的高层特征图

，其中，

表示所述一个卷积的卷积核；

S32：将

分别通过两个卷积，得到两个卷积后的低层特征图：

和

，其中，

和

分别表示所述两个卷积的卷积核；

S33：将

；将

；

S34：将

与

进行矩阵乘法，再进行softmax激活，得到相似性矩阵M；

S35：将

与M进行矩阵乘法，将相乘后的结果与

拼接，再经过一个卷积，得到所述非局部特征图。

在一实施例中，非局部特征融合模块630是用于通过如下方式对所述待池化特征图进行金字塔池化，得到池化后的特征图：

、

、

和

块，其中，N ₁、N ₂、N ₃和N ₄均为正整数；

、

、

和

的四个特征向量；

。

在一实施例中，编号预测模块640是用于通过如下方式基于F _f，利用全连接层预测X对应的行人编号：

S41：利用所述全连接层，将F _f映射为预测向量；

S42：选取所述预测向量中数值最大的元素，将所述数值最大的元素对应的行人编号作为预测的行人编号。

本发明实施例提出的行人重识别装置可以实现以下有益效果。

4. 本发明实施例采用空间金字塔池化操作，不同于基础的池化操作，空间金字塔池化能够解决输入尺寸不一致的问题，并固定输出尺寸。即空间金字塔池化可以使用同一特征不同尺寸作为输入，得到同样长度的池化特征。

本发明实施例的行人重识别装置与实施例一中的行人重识别方法具有相同的技术原理和有益效果。未在本实施例中详尽描述的技术细节，请参照实施例一中的行人重识别方法。

值得注意的是，上述装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例三

图7为本发明实施例提供的一种计算机设备的结构示意图。如图7所示，该设备包括处理器710和存储器720。处理器710的数量可以是一个或多个，图7中以一个处理器710为例。

存储器720作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的行人重识别方法的程序指令/模块。处理器710通过运行存储在存储器720中的软件程序、指令以及模块，实现上述行人重识别方法。

存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器720可进一步包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。