CN113239784B

CN113239784B - 一种基于空间序列特征学习的行人重识别系统及方法

Info

Publication number: CN113239784B
Application number: CN202110509285.1A
Authority: CN
Inventors: 黄德双; 张焜; 伍永; 元昌安
Original assignee: Guangxi Academy of Sciences
Current assignee: Guangxi Academy of Sciences
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2022-09-30
Anticipated expiration: 2041-05-11
Also published as: CN113239784A; JP2022174707A

Abstract

本发明公开了一种基于空间序列特征学习的行人重识别系统及方法，包括：Res2Net网络、全局特征模块、空间序列特征学习模块；全局特征模块包括平局池化模块和全连接层模块；Res2Net网络分别与全局特征模块和空间序列特征学习模块连接；所述空间序列特征学习模块包括卷积层、随机掩膜模块、最大池化模块和自注意力模块。本发明提出基于自注意机制的空间序列特征学习模块，构造水平和垂直两个方向的空间序列特征，学习其空间语义联系，提取有效的局部特征；提出随机批次特征擦除训练策略，通过随机掩膜块对特征图谱的局部区域进行遮挡，以此迫使模型学习被抑制的低频局部特征。

Description

一种基于空间序列特征学习的行人重识别系统及方法

技术领域

本发明涉及行人重识别领域，特别是涉及一种基于空间序列特征学习的行人重识别系统及方法。

背景技术

行人重识别是计算机视觉领域中一个重要的研究方向，随着民众对公共安全的需求日益增长和公开摄像头的普及，行人重识别技术在智能安防领域中的作用也越来越重要。传统的行人重识别研究主要是基于手工方式构造行人特征，随着深度学习技术的发展，行人重识别模型的性能有了显著的提高，但是行人分辨率低，图像存在遮挡，数据集规模小等因素都制约着模型性能的提升。现阶段，许多研究在学习局部特征时，忽略了局部特征间的空间语义关系。

早期的行人重识别研究都是基于全局特征进行，然而行人图像获取困难，常常无法获得行人正面图像，或是行人部分躯体被障碍物遮挡。当行人的服饰相似且关键部位被遮挡时，不同行人图像会十分相似，仅仅依靠全局特征无法分辨，因此近年来许多研究都基于局部特征进行改进。常用的获取局部特征的方式有两种，一种是通过多尺度特征提取模型，提取模型局部的、细粒度的特征，这种方法也被广泛应用于图像识别的多个领域中，研究较为成熟。第二种方式是通过人工或者自动化的方式将行人图像划分为多个区域，分别提取空间特征然后融合，Varior等人就将图像按水平方向划分为六个区域分别提取特征，由于行人在各个图像中的位置和姿态不一致，按空间进行分割会产生局部区域不对齐的问题，有研究者通过目标检测的方式引入姿态信息辅助局部特征进行对齐，也取得了一定的提升。

但是现有技术中基于空间区域特征学习的方法存在着两个弊端：

(1)大部分研究者基于生物学上的观点，将人按照头部、四肢和躯干的方式进行分类，然后按照水平方向对图像进行分割。但是神经网络并非按生物学的方式进行特征提取，按照垂直方向分割也能获得有效的特征，特别是当行人被墙壁、电线杆等垂直障碍物遮挡时，按照垂直方向分割能够更好地将遮挡区域分离。

(2)通过目标检测的方法引入姿态等信息虽然有助于提升模型效果，但是流程较为繁琐，增加了算法复杂度。而且在行人图像上进行高精度的姿态检测本身就是一个较为困难的任务，如果引入错误的姿态信息，反而会对模型进行干扰。

故现实社会中亟需一种能够解决现有技术中存在的问题的方法。

发明内容

本发明的目的是提供一种基于空间序列特征学习的行人重识别系统及方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了如下方案：

本发明提供一种基于空间序列特征学习的行人重识别系统，包括：Res2Net网络、全局特征模块、空间序列特征学习模块；

其中所述Res2Net网络用于对输入的图像进行特征提取，并输出特征图谱；

所述全局特征模块包括平局池化模块和全连接层模块，以用于对所述特征图谱提取全局特征；

所述空间序列特征学习模块包括卷积层、随机掩膜模块、最大池化模块和自注意力模块；

所述Res2Net网络分别与所述全局特征模块和所述空间序列特征学习模块连接；

所述平局池化模块与全连接层模块连接；

所述卷积层和所述随机掩膜模块分别与所述最大池化模块连接，所述最大池化模块与所述自注意力模块连接。

优选地，所述Res2Net网络包括多组卷积核分层为3*3的卷积，其中每组卷积均为残差连接结构。

优选地，所述Res2Net网络还包括：SE模块，以用于计算通道注意力。

优选地，所述全连接层模块包括第一全连接层和第二全连接层，所述第一全连接层用于减少通道数，激活函数为ReLU；所述第二全连接层用于恢复通道数，激活函数为sigmoid。

优选地，所述随机掩膜模块用于通过大小、位置均随机的掩膜对特征图谱进行遮挡，以抑制高频特征的出现概率。

优选地，所述最大池化模块用于对所述特征图谱在水平和垂直两个方向进行池化。

优选地，所述自注意力模块包括：多头自注意力子模块和融合了残差结构的前馈神经网络，其中所述多头自注意力子模块用于在多个子空间计算多方面注意力。

一种基于空间序列特征学习的行人重识别方法，包括以下步骤：

构建行人重识别模型并采集图像数据，所述行人重识别模型包括：Res2Net网络、全连接层、随机掩膜和自注意力模块，采集行人原始图像，将三张所述行人原始图像作为一组输入图像；

获得特征图谱，将一组输入图像输入所述Res2Net网络，所述Res2Net网络提取所述行人原始图像的特征，以获得所述特征图谱，

全局特征提取，将所述特征图谱通过平均池化进行降维，以获得第一特征图谱，将所述第一特征图谱输入到所述全连接层，并映射到分类空间中，以计算损失函数；

空间序列特征提取，将所述特征图谱先通过卷积层降维，获得第二特征图谱，通过所述随机掩膜对所述第二特征图谱部分区域进行抑制，在水平方向和垂直方向进行最大池化，获取不同空间维度上的特征向量，再分别输入到所述自注意力模块中学习空间序列特征，并计算损失函数。

优选地，所述损失函数包括：排序损失函数和AM-Softmax损失函数。

本发明公开了以下技术效果：

本发明针对模型难以提取有效的局部特征的问题，提出了基于空间序列特征学习的行人重识别模型，基于多尺度特征网络学习全局特征，使用自注意力机制和随机批次特征擦除策略来学习序列特征间的空间语义关系，进行局部特征提取，并结合数据增强技术进行训练；

提出基于自注意机制的空间序列特征学习模块，构造水平和垂直两个方向的空间序列特征，学习其空间语义联系，提取有效的局部特征；

提出随机批次特征擦除训练策略，通过随机掩膜块对特征图谱的局部区域进行遮挡，以此迫使模型学习被抑制的低频局部特征。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中的Res2Net网络结构示意图；

图2为本实施例中的Res2Net Block结构示意图；

图3为本实施例中的自注意力模块(左)和多头自注意力模块(右)的对比示意图。

具体实施方式

现详细说明本发明的多种示例性实施方式，该详细说明不应认为是对本发明的限制，而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

应理解本发明中所述的术语仅仅是为描述特别的实施方式，并非用于限制本发明。另外，对于本发明中的数值范围，应理解为还具体公开了该范围的上限和下限之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

除非另有说明，否则本发明使用的所有技术和科学术语具有本发明所属领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料，但是在本发明的实施或测试中也可以使用与本发明所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入，用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时，以本说明书的内容为准。

在不背离本发明的范围或精神的情况下，可对本发明说明书的具体实施方式做多种改进和变化，这对本领域技术人员而言是显而易见的。由本发明的说明书得到的其他实施方式对技术人员而言是显而易见的。本申请说明书和实施例仅是示例性的。

关于本发明中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

本发明中所述的“份”如无特别说明，均按质量份计。

实施例1

本发明使用的网络框架如图1所示，采用三元组图像作为输入，使用Res2Net-50网络进行特征提取，将stage4提取得到的特征图谱分别经输入全局特征分支和空间序列特征学习分支。在全局特征分支中，特征向量先经过平均池化操作降维，再输入到全连接层映射到分类空间中，计算Ranked List Loss和AM-Softmax Loss。而在空间序列特征学习分支中，先通过1*1卷积层降维到1024，再通过随机掩膜对特征图谱部分区域进行抑制，然后在行和列方向分别进行最大池化，得到不同空间维度上的特征向量。再分别输入到自注意力模块中学习空间序列特征，并计算损失。

多尺度特征提取：

本发明采用Res2Net网络作为主干网络结构，Res2Net对ResNet中的瓶颈模块进行了重构，在保留残差连接的基础上，使用多组3*3的卷积核分层进行多尺度特征提取，其中每组卷积仍然保持了残差连接结构。并且在模块的最后增加了SE模块，计算通道注意力。相比于原始的ResNet结构通过不同的模块逐渐提取细粒度特征的方式，Res2Net在模块内部引入分层卷积在多个尺度上提取特征，增大感受野，并且加入了注意力机制，有效提高了模型对特征的提取能力。

图2展示了Res2Net的模块结构，首先将输入的特征x经过一组1*1卷积后，按照通道将x划分为s个不同的子特征图x_i，i∈{1，2，...，s}。每个子特征图x_i都拥有相同的空间尺度，但是通道数量都只有x的1/s。本发明定义使用卷积核大小为3*3的卷积操作为K(·)。除了x₁外，所有的x_i都要经过对应的卷积层K_i(·)，得到输出特征y_i，并且将y_i和x_i+1进行拼接，输入到K_i+1(·)中，将所有的y_i按空间方向进行拼接再通过一组1*1卷积核作用，就得到了多尺度特征y。

对于K_i(·)来说，其输入包含了之前几层的x_j(j≤i)的信息，因此其输出也拥有比x_j更大的感受野，随着s增大，感受野也将增大，特征包含的信息也更加丰富。

而SE模块通过两个步骤计算通道注意力，分别是压缩和激活。压缩的方法有很多种，本发明采用全局平均池化的方式，用y_c表示特征y在第c个通道上的特征图，z表示压缩后的向量。由于需要计算通道注意力，因此需要对每个特征图上的特征都进行压缩。

而之后的激活操作是通过两个全连接层实现的。第一个全连接层减少通道数，使用ReLU作为激活函数。而第二个全连接层恢复通道数，并使用sigmoid激活函数，将输出限制在[0，1]区间内，表示各个通道的权重。所以，最后输出权重α的计算公式为：

α＝F_ex(z，W)＝σ(W₂δ(W₁z)) (3)

其中σ和δ分别表示Sigmoid激活函数和ReLU激活函数。使用全连接层的目的是为了通过全连接层的参数保留整个数据集上所有数据的信息，从而计算每个通道的重要性，而不是仅仅根据某个批次的数据。

空间序列特征学习：

本发明主要介绍空间序列特征学习模块。如同上文提到，不同于与将原始图像按照水平方向进行切割来获取空间序列的方式，本发明使用Res2Net输出的特征图谱在水平和垂直方向进行池化来获取序列输入，对于原始图像在水平和垂直方向上的特征。相比于对原始图像进行切割，这样能使得序列输入的感受野更大，而且缓解了由于切割导致的重要信息丢失的现象，并将能够有效地学习空间序列特征间的语义关系。

对于池化后得到的序列输入，本发明通过多头自注意力机制提取序列特征。多头自注意力机制出自Google提出的Transformer模型，其最大创新点是使用使用注意力机制替代RNN结构来处理序列输入数据，并且能在提高参数量的同时保证计算速度和网络的收敛性。本发明首先介绍自注意力机制，以垂直方向上的空间序列输入X＝(x₁，x₂，...，x_n)为例，自注意力机制是利用键值匹配的思想，将输入映射到索引(query)、(键)key和(值)value三个空间中，根据索引和键计算值的权重，然后对值进行加权相加。具体计算过程如下：

其中W^Q，W^K和W^V分别表示全连接矩阵的权重，d表示x_i的维度。需要注意的是，使用softmax函数归一化权重之前，先通过d对其输入进行了缩放，这样做是为了避免在高维情况下数值过大导致softmax函数的输出过于平缓，使得各个位置问的注意力权重过于相近。

相比于RNN，自注意力结构可以并行地处理序列输入，降低了计算复杂度，大大提高了网络的计算效率，并且还能保留长距离依赖。本发明所使用的多头注意力模块如图3所示，使用了多个自注意力机制合并，并且加入前馈神经网络和残差结构。

多头注意力同时计算多组自注意力，通过线性层将输入序列映射到多个子空间上分别计算自注意力，然后再拼接。使用多组注意力通过不同的初始化参数，可以将输入映射到多个不同的子空间上，让模型去关注不同方面的特征信息，从而发掘那些已被忽略的细节特征。使用多头注意力提取特征后，本发明再通过残差模块，将特征和输入拼接，使用层标准化(layer normalization)对其进行标准化操作，再输入到前馈神经网络中。

需要注意的，本发明中使用的前馈神经网络也融合了残差结构，并且是逐元素计算的，即对于其输入序列X′＝(x₁′，x₂′，...，x_n′)中的每个x_i都单独进行如下计算：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂ (6)

以上就是Transformer模块的基本结构，本发明使用N个Transformer模块组合成特征提取器，分别对水平和垂直方向的空间序列进行特征学习，得到特征向量f_v和f_h并计算损失。

随机批次特征擦除策略：

深度网络学习特征往往容易聚焦于高频重复出现的特征，而使用注意力机制更容易加重这种现象。当本发明使用注意力机制对空间序列特征进行提取时，模型容易对高频特征赋予更高的权重，一旦由于遮挡或是角度问题无法获得这些特征，模型的识别能力就会明显下降。为了缓解这种现象，本发明使用随机批次特征擦除策略，在通过大小位置随机的掩膜对特征图谱进行遮挡，减少高频特征，让模型关注于那些被抑制的、低频的局部信息。随机批次特征擦除算法的具体流程如算法1所示，本发明通过随机批次特征擦除算法为Res2Net输出的特征F添加位置随机的掩膜，并抑制被掩膜遮挡区域的特征，即将被掩膜遮挡区域的值设置为0，得到输出特征F′。

随机批次特征擦除策略有如下几个优点：

(1)不引入额外的参数，可以轻便地与各种结构融合，在不提高计算成本的情况下提升网络效果。

(2)对于批次内的每个样本都随机抑制部分区域，避免模型过度依赖高频特征。

(3)一定程度上模拟了特征被遮挡场景，通过对抗训练的方式提升模型的鲁棒性。

损失函数：

本发明使用排序损失函数(Ranked List Loss)和AM-Softmax损失函数融合作为分支的损失函数，即：

L＝λ₁L_AMS+λ₂L_RRL (7)

其中

表示查询样本，f为特征表示函数，W为网络最后一层全连接层的参数。

而排序列表损失的作用与三元组损失函数类似，也是为了拉近同类样本，拉开异类样本的距离。列表中任意两个样本间x_i、x_j间距离函数如公式(7)所示，其中Y_ij表示x_i、x_j是否为同类样本，d_ij表示f(x_i)、f(x_j)间的距离。

L_m(x_i，x_j；f)＝(1-Y_ij)[α-d_ij]₊+Y_ij[d_ij-(α-m_RLL)]₊ (9)

可以看到，公式(7)希望使得负样本间的距离大于α，正样本间的距离小于α-m_RLL。本发明在训练时可以在线构建样本

对应的困难正样本集台

和困难负样本集合

为了拉近同类样本间的距离，本发明需要最小化公式(7)，同理，为了拉开异类样本间的距离，需要最小化式(8)，其中w_ij＝exp(T·(α-d_ij))，表示样本的权重系数。

排序损失函数的最终表达式为：

实施例2

实验设置：

实验环境：代码使用Pytorch框架编写，在配置两块Nvidia TITAN Xp显卡的服务器上运行。

Res2Net：主干网络使用在ImageNet上预训练的Res2Net-50网络，其结构与Res2Net-50类似，仅对残差模块进行替换，子特征图数量s＝4。最后输出特征图的尺寸为16*8*2048。

空间序列特征学习模块：自注意力模块部分，模块个数N＝4，单个模块内模块维度d＝1024，多头注意力头数h＝8。而随机掩膜部分，R_h在集合{0，0.1，0.2，0.3}内随机选择，R_w＝1。

GAN网络：

由于GAN网络仅仅生成图像，需要在行人识别模型才能进行数据增强。本发明使用Densenet-121网络作为识别模型的基线，网络后接全连接层进行分类。基于多尺度条件生成对抗网络，使用改进后的MPRL方法进行标签分配。

损失函数：AM Softmax损失对应的权重λ₁＝1，缩放系数s＝10，间隔m_AMS＝0.35。而排序列表损失的权重λ₂＝1，温度系数T＝10，负样本距离α＝1.2，间隔m_RLL＝0.4。

训练策略：网络训练时，输入图像尺寸缩放为224*224，BatchSize设为64，包含16个行人，每个行人4张图像。优化器为Adam,，初始化学习率为0.001，共训练150个轮次，在前50个轮次使用线性Warm up策略，第100轮后每隔10轮次学习率衰减0.5。

实验结果：

本发明将展示本发明提出的方法在多个数据集上的实验结果，并与以下先进的方法进行比较：PNGAN、KPM、FDGAN、DaRe、PSE、G2G、DeepCRF、SPReID、PABR、PCB+RPP、SGGNN、Mancs、MGN、AANet、CAMA、IANet、DGNet、CASN、BNNeck、MMGA、MuDee、OSNet、ABDNet、Auto-ReID、BDB+Cut、P²-Net、MHN-6。

Market-1501数据集上的实验结果如表1所示，可以看到，在mAP和Rank-1，Rank-5分别达到了89.7％、95.2％和98.4％，相比于之前方法的最高指标，mAP和Rank-1分别提升了0.9％(MMGA，87.2％)和0.2％(ABDNet，95.6％)。

表1

DukeMTMC-reID数据集上的实验结果如表2所示，mAP和Rank-1，Rank-5分别达到了79.2％、89.1％和94.9％，相比于之前方法的最高指标，mAP提升了0.6％(ABDNet，78.6％)，Rank-1基本持平(MMGA，89.5％)。

表2

CUHK03数据集上的实验结果如表3和表4所示，在CUHK03(Labeled)和CUHK03(Detected)上都达到了先进水平。其中在CUHK03(Labeled)数据集上，mAP和Rank-1分别达到了78.3％、81.2％，相比于之前方法的最高指标，mAP提升了1.6％(BDB+Cut，76.7％)，Rank-1提升了2.8％(BDB+Cut，79.4％)。

而在CUHK03(Detected)数据集上，mAP和Rank-1分别达到了74.8％、76.9％，相比于之前方法的最高指标，mAP提升了1.3％(BDB+Cut，73.5％)，Rank-1提升了0.5％(BDB+Cut，76.4％)。

表3

表4

方法	mAP	Rank-1
			DaRe	59.0	63.3
MLFN	47.8	52.8
			HA-CNN	38.6	41.7
MGN	66.0	66.8
			Mancs	60.5	65.5
CAMA	57.5	63.7
			CASN	64.2	66.6
Auto-ReID	64.4	71.5
			BDB+Cut	67.8	72.3
MHN-6	69.3	73.3
			P<sup>2</sup>-Net	73.5	76.4
DaRe	65.4	71.7
			MLFN	68.9	74.9
Ours	74.8	76.9

消融分析：

为了验证本发明提出的结构的有效性，本发明还在Market-1501数据集进行了消融分析。

(1)自注意力模块：

为了验证基于自注意力的空间序列特征学习模块对于模型识别性能的影响，本发明删去空间序列特征学习分支进行实验，实验结果如表5所示，其中Ours/V，Ours/H和Ours/(V+H)分别表示只去除水平序列特征分支、只去除垂直序列分支和去除整个空间序列特征学习分支。

表5

方法	mAP	Rank-1
			Ours/V	88.4	94.7
Ours/H	89.0	95.2
			Ours/(V+H)	85.1	93.7
Ours	89.7	95.8

可以看到，删除了自注意力模块后，模型的识别能力有明显下降，其中删除整个空间序列特征学习分支的效果下降最明显，mAP和Rank-1分别下降了4.6％和2.1％。而相比于删除垂直空间序列特征分支，删除水平空间序列特征分支的效果下降更明显，说明在模型层面上，水平空间序列特征包含了更多的信息。

(2)随机批次特征擦除策略：

为了验证随机批次特征擦除策略的有效性，本发明不采用该策略进行了实验，实验结果如表6所示。

表6

不使用随机批次特征擦除策略后，模型的识别性能有所下降，其中mAP指标下降明显。说明该方法可以帮助模型学习低频信息，提升模型的整体鲁棒性。

本发明首先对现有的基于空间特征学习的方法进行分析，并将本发明所提出的方法和传统方法进行对比。接着，从多尺度特征提取、空间序列特征学习、随机批次特征擦除策略和损失函数四个方面对本发明提出的基于空间序列特征学习的行人重识别方法进行详细介绍。之后在多个公开数据集上进行实验并进行消融分析，最后证明了本发明所提出的方法的有效性。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于空间序列特征学习的行人重识别系统，其特征在于：包括：Res2Net网络、全局特征模块、空间序列特征学习模块；

所述全局特征模块包括平均池化模块和全连接层模块，用于对所述特征图谱提取全局特征；

所述平均池化模块与全连接层模块连接；

2.根据权利要求1所述的基于空间序列特征学习的行人重识别系统，其特征在于：所述Res2Net网络包括多组卷积核分层为3*3的卷积，其中每组卷积均为残差连接结构。

3.根据权利要求1所述的基于空间序列特征学习的行人重识别系统，其特征在于：所述Res2Net网络还包括：SE模块，用于计算通道注意力。

4.根据权利要求1所述的基于空间序列特征学习的行人重识别系统，其特征在于：所述全连接层模块包括第一全连接层和第二全连接层，所述第一全连接层用于减少通道数，激活函数为ReLU；所述第二全连接层用于恢复通道数，激活函数为sigmoid。

5.根据权利要求1所述的基于空间序列特征学习的行人重识别系统，其特征在于：所述随机掩膜模块用于通过大小、位置均随机的掩膜对特征图谱进行遮挡，抑制高频特征的出现概率。

6.根据权利要求1所述的基于空间序列特征学习的行人重识别系统，其特征在于：所述最大池化模块用于对所述特征图谱在水平和垂直两个方向进行池化。

7.根据权利要求1所述的基于空间序列特征学习的行人重识别系统，其特征在于：所述自注意力模块包括：多头自注意力子模块和融合了残差结构的前馈神经网络，其中所述多头自注意力子模块用于在多个子空间计算多方面注意力。

8.一种基于空间序列特征学习的行人重识别方法，其特征在于：包括以下步骤：

获得特征图谱，将一组输入图像输入所述Res2Net网络，所述Res2Net网络提取所述行人原始图像的特征，以获得所述特征图谱；

9.根据权利要求8所述的基于空间序列特征学习的行人重识别方法，其特征在于：所述损失函数包括：排序损失函数和AM-Softmax损失函数。