CN112818790A

CN112818790A - 一种基于注意力机制与空间几何约束的行人重识别方法

Info

Publication number: CN112818790A
Application number: CN202110096021.8A
Authority: CN
Inventors: 马淼; 王云涛; 潘海鹏
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-05-18

Abstract

本发明属于计算机视觉领域，特别涉及一种基于注意力机制与空间几何约束的行人重识别方法，包括如下步骤：S1、获取行人图像并输入到上位机中；S2、建立和训练行人重识别模型，行人重识别模型包括ResNet50+SEnet网络和特征处理模块，特征处理模块包括全局特征分支和局部特征分支；S3、行人重识别并输出结果。本发明分析并设计了一种ResNet50网络与SEnet注意力机制分组结合的行人身份重识别网络，通过优化SEnet注意力机制的作用位置，深度挖掘行人身份的显著性特征，有效提高了行人身份重识别网络的判别能力。

Description

一种基于注意力机制与空间几何约束的行人重识别方法

技术领域

本发明属于计算机视觉领域，特别涉及一种基于注意力机制与空间几何约束的行人重识别方法。

背景技术

行人重识别(Person re-identification)也称行人再识别，指在多个摄像头中，给定一张某摄像头拍摄的待识别行人图像，在不同的摄像头中检索出与待识别行人具有相同身份的行人图像。随着人工智能技术的发展，计算机视觉已广泛应用于诸如智能家居，视频监控和智能交通等人类日常生活中，行人重识别是这些领域的关键问题之一。在行人重识别任务中，通常伴随着相机角度、场景变化、行人姿态变化等问题，从而影响行人重识别的准确率。

早期的行人重识别方法主要是一些基于手工构造的特征和距离度量，手工构造的特征是人为设计出一些具有较强鲁棒性的特征提取方法用来获取行人的外观特征，距离度量是运用或设计距离计算方法，使得不同身份行人图像之间的距离尽可能远，相同身份行人图像之间的距离尽可能近，但是这些方法难以满足如今行人重识别对准确率的高要求。随着深度学习的迅猛发展，其在行人重识别领域也起到了重要的推动作用，为了提高行人重识别的准确率，并有效针对行人重识别任务中相机角度、场景变化、行人姿态变化等问题，因此需要一种基于注意力机制与空间几何约束的行人重识别方法。

发明内容

本发明要解决的技术问题是提供一种基于注意力机制与空间几何约束的行人重识别方法，本发明能有效提高行人身份重识别网络的判别能力。

为了解决上述技术问题，本发明提供一种基于注意力机制与空间几何约束的行人重识别方法，包括步骤如下：

S1、获取行人图像并输入到上位机中；

S2、建立和训练行人重识别模型，行人重识别模型包括ResNet50+SEnet网络和特征处理模块，特征处理模块包括全局特征分支和局部特征分支；

S3、行人重识别并输出结果

S3.1、在行人图像中指定目标行人图像，然后将行人图像，包括指定的目标行人图像，输入到行人重识别模型；

S3.2、通过ResNet50+SEnet网络提取行人图像的空间特征，将空间特征输入特征处理模块；

S3.3、空间特征通过全局特征分支得到256维全局特征，同时空间特征通过局部特征分支得到15个256维局部特征，然后将256维全局特征和15个256维局部特征相互融合计算得到目标行人的身份特征与各行人图像对应的行人身份特征；

S3.4、计算目标行人的身份特征与各行人图像对应的行人身份特征的欧氏距离，并从低到高排序，排序过程中去除与目标行人图像同一相机拍摄的行人图像的计算结果，将排序结果作为行人重识别结果并在上位机中输出。

作为本发明一种基于注意力机制与空间几何约束的行人重识别方法的改进：

S2.1、所述建立行人重识别模型包括建立行人重识别模型和训练使用的行人重识别模型，训练使用的行人重识别模型包括ResNet50+SEnet网络和训练使用的特征处理模块：

S2.1.1、建立ResNet50+SEnet网络

输入的行人图像先经过第1组卷积，然后经过4组卷积+注意力模块的组合输出行人的空间特征；

5组卷积均为残差卷积神经网络ResNet50的卷积，第1组卷积有1个卷积层且不含残差结构，后4组卷积+注意力模块的组合中的卷积分别有9、12、18、9个卷积层及对应的残差结构；

注意力模块为注意力机制SEnet，计算过程如下：

s₁＝GAP(F)，

s₂＝ReLU(W₁s₁)，

s₃＝Sigmoid(W₂s₂)，

F'＝s₂·F，

其中

表示输入的大小为C×H×W的特征图，GAP表示全局平均池化，

表示全局平均池化后的输出，

表示全连接层FC1的参数，

表示经过FC1和ReLU函数处理后的输出，

表示全连接层FC2的参数，

表示经过FC2和Sigmoid函数处理后的输出的通道权重，

表示注意力机制SEnet的输出；

S2.1.2、建立特征处理模块

所述全局特征分支计算过程如下：

f_g'＝GAP(f_g)

其中f_g表示空间特征，大小为2048×24×12，GAP表示全局平均池化，f_g'表示全局特征，大小为2048维，

表示全连接层FC1的参数，

表示经过全连接层FC1压缩后的256维全局特征；

所述局部特征分支计算过程如下：

f_i'＝GAP(f_i)i＝1,2,3,4,5,6

f_l ^k＝c(f_i',f_j')k＝1,2,...,14,15,i＜j,j＝2,3,4,5,6

其中f_i表示空间特征分解后的6个子特征块，大小为2048×4×12，GAP表示全局平均池化，f_i'表示6个子特征块经过平均池化后输出的子空间特征，大小为2048维，c表示组合操作，f_l ^k表示局部特征，大小为4096维，

表示全连接层FC1的参数，

表示经过全连接层FC1压缩后的15个256维局部特征；

S2.1.3、建立训练使用的特征处理模块

训练使用的特征处理模块包括训练使用的全局特征分支和训练使用的局部特征分支，所述全局特征分支增加全连接层FC2成为训练使用的全局特征分支，计算过程如下：

f′_g＝GAP(f_g)，

其中，

表示全连接层FC2的参数，N为训练集行人身份的数量，y_g表示全连接层FC2输出的N维全局特征；

所述局部特征分支中增加全连接层FC2建立训练使用的局部特征分支，计算过程如下：

f′_i＝GAP(f_i)i＝1,2,3,4,5,6，

f_l ^k＝c(f′_i,f′_j)k＝1,2,...,14,15,i＜j,j＝2,3,4,5,6

其中，

表示全连接层FC2的参数，N为训练集行人身份的数量，

表示全连接层FC2的输出的N维局部特征；然后将训练使用的全局特征分支输出的N维全局特征和训练使用的局部特征分支输出的N维局部特征相互融合计算行人身份预测结果，其计算过程为：

其中，ID表示行人身份预测结果，Softmax表示归一化指数函数；

S2.2、所述训练行人重识别模型为从训练使用的行人重识别模型获得pth配置文件，去除pth配置文件中所包含的训练使用的特征处理模块中全连接层FC2及全连接层FC2之后部分的参数，然后载入到行人重识别模型中获得训练好的行人重识别模型；

S2.2.1、训练行人重识别模型

1)、建立训练集、查询集、测试集

将Market-1501数据集中和DukeMTMC-reID数据集中的行人图像及对应的标签分为训练集、查询集和测试集，标签包括行人身份编号、摄像机编号、所在帧的索引；查询集由待重识别的行人组成，测试集包括查询集中的行人图像和不属于查询集中的行人图像；

2)、训练

将训练集中的所有图片进行数据增强后作为训练使用的行人重识别模型的训练输入，数据增强方式采用水平翻转，随机裁剪和随机擦除；训练的批量大小为32，优化器算法采用随机梯度下降SGD，所有全连接层的初始学习率设为0.05，所有卷积层的初始学习率设为0.005，并且每经过40次迭代，学习率调整为原来的0.1倍，权重衰减为5×10^-4，训练共迭代100次；在训练过程中，使用交叉熵损失函数分别计算训练使用的全局特征分支与训练使用的局部特征分支的损失，每张行人图像的总损失为训练使用的特征处理模块的损失之和；

训练结束后，将ResNet50+SEnet网络和训练使用的特征处理模块的参数保存为pth配置文件，去除pth配置文件中所包含的训练使用的特征处理模块中全连接层FC2及全连接层FC2之后部分的参数，然后载入到行人重识别模型中获得训练好的行人重识别模型；

S2.2.2、测试行人重识别模型

将查询集中的行人图像作为目标行人图像，查询集和测试集的行人图像通过训练好的行人重识别模型进行测试，测试结果达到了行人重识别准确率的要求。

作为本发明一种基于注意力机制与空间几何约束的行人重识别方法的进一步改进：

所述步骤S1获取行人图像为由摄像头以及其它监控设备在室外或室内采集获得视频图像文件，使用行人检测器检测视频图像文件中每一帧图像中的行人，将检测得到的行人图像大小调整为384×192并保存为图片，图片以身份编号、摄像机编号和所在帧索引的组合命名。

本发明的有益效果主要体现在：

1.本发明分析并设计了一种ResNet50网络与SEnet注意力机制分组结合的行人身份重识别网络，通过优化SEnet注意力机制的作用位置，深度挖掘行人身份的显著性特征，有效提高了行人身份重识别网络的判别能力；

2.为了充分利用行人身份的空间信息，本发明提出一种基于空间几何约束的全局-局部并行运算的计算结构，充分考虑和利用局部空间信息，更有针对性地对行人身份信息进行提取和计算，从而提高了行人重识别的准确率。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细说明。

图1为本发明一种基于注意力机制与空间几何约束的行人重识别方法的过程示意图；

图2为图1中ResNet50+SEnet网络的结合方式的示意图；

图3为本发明一种基于注意力机制与空间几何约束的行人重识别方法的的训练结构示意图；

图4为图3中训练使用的特征处理模块的结构示意图；

图5为图1中特征处理模块的结构示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例1、一种基于注意力机制与空间几何约束的行人重识别方法，如图1-5所示，包括以下步骤：

步骤1、获取行人图像

由多个摄像头以及其它监控设备在室外或室内进行采集获得视频图像文件，视频文件包括的每一帧视频图像，使用行人检测器检测每一帧图像中的行人，将检测得到的行人保存为图片，图片以身份编号，摄像机编号，所在帧索引等信息命名，将保存好的行人图片大小调整为384×192，输入到上位机中作为行人重识别模型的输入图像；

步骤2、建立和训练行人重识别模型

行人重识别模型包括ResNet50+SEnet网络和特征处理模块，ResNet50+SEnet网络输出为特征处理模块的输入，ResNet50+SEnet网络用以从输入的行人图像提取获得空间特征；特征处理模块包括全局特征分支与局部特征分支，将全局特征分支输出的全局特征和局部特征分支输出的局部特征相互融合计算获得行人身份预测结果；训练行人重识别模型时，为了准确预测行人的身份编号，在全局特征分支与局部特征分支中各增加一个全连接层FC2，形成训练使用的特征处理模块，即训练使用的行人重识别模型包括ResNet50+SEnet网络和训练使用的特征处理模块；训练行人重识别模型是从训练使用的行人重识别模型获得pth配置文件，然后去除pth配置文件中所包含的训练使用的特征处理模块中全连接层FC2及全连接层FC2之后部分的参数，然后载入到行人重识别模型中获得训练好的行人重识别模型。

步骤2.1建立ResNet50+SEnet网络

通过残差卷积神经网络ResNet50(Residual network)与注意力模块相结合建立ResNet50+SEnet网络，用以提取获得行人图像的空间特征，如图2所示，输入的行人图像先经过第1组卷积，第1组卷积为残差卷积神经网络ResNet50的卷积，有1个卷积层且不含残差结构，然后分别经过第2组残差卷积神经网络ResNet50的卷积(有9个卷积层及对应的残差结构)+注意力模块的组合、第3组残差卷积神经网络ResNet50的卷积(有12个卷积层及对应的残差结构)+注意力模块的组合、第4组残差卷积神经网络ResNet50的卷积(有18个卷积层及对应的残差结构)+注意力模块的组合和第5组残差卷积神经网络ResNet50的卷积(有9个卷积层及对应的残差结构)+注意力模块的组合；建立的ResNet50+SEnet网络可以学习行人图像的显著性特征，提升网络的判别能力，注意力机制SEnet通过学习，不断调整特征图的通道权重，起到加强特征图中具有判别力的特征，抑制特征图中无关特征的作用；

注意力模块为注意力机制SEnet(Squeeze-and-Excitation Networks)输入为上一组卷积计算得到的特征图F，特征图F的大小为C×H×W，首先经过全局平均池化层，得到C维大小的特征，然后将该特征依次输入两个维数不同的全连接层，其中全连接层FC1将特征图的通道数量压缩为C/16，经过ReLU函数后输入全连接层FC2，FC2将特征图的通道数量还原为C，经过Sigmoid函数后得到特征图F的通道权重，最后将通道权重与输入特征图F每个元素相乘得到注意力机制SEnet的输出，注意力机制SEnet的计算过程如下所示：

s₁＝GAP(F)

s₂＝ReLU(W₁s₁)

s₃＝Sigmoid(W₂s₂)

F'＝s₂·F

其中

表示输入特征图，GAP表示全局平均池化，

表示全局平均池化后的输出，

表示全连接层FC1的参数，

表示经过FC1和ReLU函数处理后的输出，

表示全连接层FC2的参数，

表示经过FC2和Sigmoid函数处理后的输出，即通道权重，

表示注意力机制SEnet的输出。

步骤2.2、建立特征处理模块

特征处理模块包括全局特征分支与局部特征分支，如图5所示；在全局特征分支中，将空间特征通过全局平均池化处理得到全局特征，并使用全连接层FC1进一步压缩其特征维数，得到压缩后的全局特征，其计算过程如下：

f_g'＝GAP(f_g)

表示全连接层FC1的参数，

表示经过全连接层FC1压缩后的256维全局特征；

在局部特征分支中，先将空间特征分解为6个子特征块，然后每一个子特征块通过平均池化处理得到子特征，随后将子特征做组合操作得到15个局部特征，最后使用全连接层FC1进一步压缩每个局部特征的维数，得到压缩后的局部特征，其计算过程如下：

f_i'＝GAP(f_i)i＝1,2,3,4,5,6

f_l ^k＝c(f′_i,f′_j)k＝1,2,...,14,15,i＜j,j＝2,3,4,5,6

表示全连接层FC1的参数，

表示经过全连接层FC1压缩后的15个256维局部特征；

步骤2.3、建立训练使用的特征处理模块

训练使用的特征处理模块包括训练使用的全局特征分支与训练使用的局部特征分支，如图4所示，ResNet50+SEnet网络提取的行人图像的空间特征分别输入到训练使用的全局特征分支与训练使用的局部特征分支中进行处理，然后通过将训练使用的全局特征分支输出的N维全局特征和训练使用的局部特征分支输出的N维局部特征相互融合，从而计算获得行人身份预测结果；

在训练使用的全局特征分支中，利用空间几何约束先将输入的空间特征做平均池化处理得到2048维全局特征，然后该全局特征通过全连接层FC1压缩维数，得到256维全局特征，最后该256维全局特征通过全连接层FC2计算后得到N维全局特征，即长度为N的向量(N为训练集行人身份的数量)，其计算过程如下所示：

f′_g＝GAP(f_g)

其中f_g表示空间特征，大小为2048×24×12，GAP表示全局平均池化，f′_g表示全局特征，大小为2048维，

表示全连接层FC1的参数，

表示过全连接层FC1压缩后的256维全局特征，

表示全连接层FC2的参数(N为训练集行人身份的数量)，y_g表示FC2的输出，即N维全局特征(N为训练集行人身份的数量)；

在训练使用的局部特征分支中，利用空间几何约束先将空间特征分解为6个子特征块，每个子特征块的大小均为2048×4×12；然后每个子特征块均经过平均池化处理后得到6个大小为2048维的子空间特征(从上至下依次标记为1，2，3，4，5，6)；将子空间特征两两组合，组合顺序为(1，2)，(1，3)，(1，4)，(2，3)，(2，4)，(3，4)，……，(14，15)共15个描述不同空间关系的局部特征，每个局部特征大小为4096维；随后将15个局部特征分别输入全连接层FC1压缩成256维局部特征，并在全连接层FC1之后附加了批标准化Batch Normalize层和dropout层，避免数据过拟合；最后将15个大小为256维的局部特征分别输入全连接层FC2，其输出结果为N维局部特征，即长度为N的向量(N为训练集行人身份的数量)；其计算过程如下所示：

f_i'＝GAP(f_i)i＝1,2,3,4,5,6

f_l ^k＝c(f_i',f_j')k＝1,2,...,14,15,i＜j,j＝2,3,4,5,6

表示全连接层FC1的参数，δ表示BatchNormalize层，ε表示dropout层，

表示经过全连接层FC1压缩以及批标准化BatchNormalize层和dropout层处理的输出，

表示全连接层FC2的参数(N为训练集行人身份的数量)，

表示FC2的输出，即N维局部特征；

训练使用的全局特征分支输出的N维全局特征和训练使用的局部特征分支输出的N维局部特征相互融合计算行人身份预测结果，其计算过程为：

其中，ID表示行人身份预测结果，Softmax表示归一化指数函数。

空间几何约束的全局-局部并行运算的计算结构，充分考虑和利用局部空间信息，更有针对性地对行人身份信息进行提取和计算，利用空间几何约束学习行人的局部特征，对相机角度、场景变化、行人姿态变化等问题有较强的鲁棒性。

步骤2.4、训练行人重识别模型

1)、建立训练集、查询集、测试集

训练集在测试阶段使用，用来训练行人重识别模型；查询集和测试集(即图片库)都是在测试阶段使用，查询集是提供待识别的行人图像，测试集中包括不同摄像机拍摄的与查询集中身份相同的行人图像，同时还包括大量其他非查询集中的行人图像，训练和测试使用的行人图像均基于通用数据集Market-1501和DukeMTMC-reID而获得；

Market-1501数据集由6个摄像头拍摄的1501个行人共32668张图片组成，行人图像的标签主要由行人身份编号、摄像机编号、所在帧的索引、以及所在帧的行人检测框编号组成；将Market-1501数据集中的751位行人共12,936张图像及对应的标签作为训练集，查询集由待重识别的750位行人组成，共3368张图像及对应的标签，测试集由查询集中的750位行人组成，其他摄像头采集的共19,732张图像及对应的标签。

DukeMTMC-reID数据集由8个摄像头拍摄的1812个行人共36411张图片组成，行人图像的标签主要由行人身份编号、摄像机编号、所在帧的索引组成；该数据集的训练集由702位行人组成，共16522张图像及对应的标签；查询集由待重识别的的702位行人组成，共2228张图像及对应的标签；测试集由1110位行人组成，其中408位行人不属于查询集，起到干扰的作用，共17661张图像及对应的标签。

2)、训练

训练时对S2.1建立的ResNet50+SEnet网络和S2.3建立的训练使用的特征处理模块进行训练，将训练集中的所有图片进行数据增强后作为训练模型的输入，数据增强方式采用水平翻转，随机裁剪和随机擦除；其中训练的批量大小为32，优化器算法采用随机梯度下降(SGD)，所有全连接层的初始学习率设为0.05，所有卷积层的初始学习率设为0.005，并且每经过40次迭代，学习率调整为原来的0.1倍，权重衰减为5×10^-4，训练共迭代100次；在训练过程中，使用交叉熵损失函数计算训练使用的全局特征分支与训练使用的局部特征分支的损失，每张行人图像的总损失为训练使用的全局特征分支与训练使用的局部特征分支的损失之和；训练结束后，将网络(ResNet50+SEnet网络、训练使用的特征处理模块)参数保存为pth配置文件。

步骤2.5、测试行人重识别模型

使用行人重识别模型(即，S2.1建立的ResNet50+SEnet网络和S2.2建立的特征处理模块)进行测试，读取保存的pth配置文件，去除pth配置文件中训练使用的特征处理模块所包含的全连接层FC2及全连接层FC2之后部分的参数；将查询集和测试集作为输入图像，在行人重识别模型的测试过程中，查询集中的行人图像作为目标行人图像，测试集作为图片库使用，查询集里的目标行人最终要在图片库里找到对应的行人，行人图像通过ResNet50+SEnet和特征处理模块获得4096维行人身份特征，计算目标行人的身份特征与测试集中的各行人图像对应行人身份特征的欧氏距离，并从低到高排序，排名越靠前，相似性越高，将排序结果作为行人重识别结果；排序过程中，通过图像标签中的摄像机编号，需去除同一相机拍摄的目标行人图像与测试集中的各行人图像的计算结果。

在排序结果中，第一个重识别结果就是匹配成功的概率，记为Rank-1，采用Rank-1指标行人重识别模型的测试结果进行评价，在Market-1501数据集上Rank-1达到94.1％，在DukeMTMC-reID数据集上Rank-1达到86.8％，达到了行人重识别准确率的要求，从而验证了训练好的行人重识别模型。

步骤3、行人重识别并输出结果

步骤3.1、在S1获得的行人图像中指定目标行人图像，然后将S1获得的行人图像(包括指定的目标行人图像)输入S2训练好的行人重识别模型；

步骤3.2、通过ResNet50+SEnet网络提取行人图像的空间特征，将空间特征输入特征处理模块；

步骤3.3、在全局特征分支中，将空间特征通过平均池化处理得到全局特征，并使用全连接层FC1进一步压缩其特征维数，得到压缩后的256维全局特征；在局部特征分支中，先将空间特征分解为6个子特征块，然后每一个子特征块通过全局平均池化处理得到子特征，随后将子特征做组合操作得到15个局部特征，再使用全连接层FC1进一步压缩每个局部特征的维数，得到压缩后的15个256维局部特征；然后将256维全局特征和15个256维局部特征相互融合计算得到行人身份特征(包括目标行人的身份特征)；

步骤3.4、然后计算目标行人的身份特征与各行人图像对应的行人身份特征的欧氏距离，并从低到高排序，排序过程中通过图片名称中的摄像机编号信息去除与目标行人图像同一相机拍摄的行人图像的计算结果，排名越靠前，相似性越高，将排序结果作为行人重识别结果并在上位机中输出。

实验1：

实验基于深度学习框架Pytorch实现，采用RTX2080进行GPU加速，CPU为I7-9700KF@3.6GHz。实验使用行人重识别领域中两种普遍运用的指标评价算法的性能：累计匹配特征(CMC)曲线和平均精度均值(mAP)，累计匹配特征(CMC)指标是指重识别结果中最靠前(置信度最高)的K张图有正确结果的概率，通常使用K取1时作为主要评价指标，即第一个重识别结果就是匹配成功的概率，记为Rank-1；平均精度均值(mAP)指标是指计算所有样本准确率-召回率曲线下的面积平均值，能够反映重识别结果中所有正确图片排名的靠前程度。

将实施例1的行人重识别模块在Market-1501数据集上进行验证，为了验证SEnet注意力机制的有效性，建立了一个不使用SEnet的网络模型作为对比网络，即只包含行人重识别模块中的ResNet50网络+特征处理模块作为对比网络，测试结果统计如表1：

表1、SEnet注意力机制有效性验证结果

由表1中可见，在添加SEnet后的行人重识别模块，Rank-1提高了1.5％，mAP提高了2.5％，表明本发明中SEnet的作用位置可以提高行人重识别模块的判别能力。

实验2：

DaRe算法通过融合ResNet50网络各层输出的特征共同预测行人的身份，是一种基于特征融合的方法。DuATM算法采用双重关注机制学习上下文感知特征序列，并同步执行序列对比，是一种基于注意力机制的算法。PCB是一种基于局部特征的方法，将行人图像分为6块分别预测行人的身份。将上述三种算法与实施例1的行人重识别模块在Market-1501数据集和DukeMTMC-reID数据集上分别进行对比测试，获得的结果分别如表2和表3：

表2、在Market-1501数据集上的对比测试结果

表3、在DukeMTMC-reID数据集上的对比测试结果

由表2和表3可见，本发明行人重识别模块的Rank-1和mAP均为最佳，表明本发明行人重识别模块的方法提高了行人重识别的准确率，具有实际使用的效果。

最后，还需要注意的是，以上列举的仅是本发明的若干个具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。