CN113392740B

CN113392740B - 一种基于双重注意力机制的行人重识别系统

Info

Publication number: CN113392740B
Application number: CN202110618743.5A
Authority: CN
Inventors: 李玲; 沈欣怡; 郭润北
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2022-06-28
Anticipated expiration: 2041-06-03
Also published as: CN113392740A

Abstract

本发明属于图像处理技术领域，具体涉及一种基于双重注意力机制的行人重识别系统；在strongbaseline网络中引入注意力机制，包含通道注意力机制和空间注意力机制，其中通道注意力机制可以通过空间维度上进行压缩促进模型以专注于关键通道；空间注意力机制可以通过聚合所有通道的类似特征来突出语义像素；注意机制的本质是强调对学习目标有用的重要位置，并通过将权重系数分配给图像特征信息来抑制无关信息；将注意力机制插入到人员重识别模型中，减小相机角度、身体姿势的变化、身体未对齐和图片多样化等问题，在不显著增加计算量和参数量的前提下能提升网络模型的特征提取能力，提升网络性能。

Description

一种基于双重注意力机制的行人重识别系统

技术领域

本发明属于图像处理技术领域，具体涉及一种基于双重注意力机制的行人重识别系统。

背景技术

近年来，研究者对人物重识别(Person re-identification)进行了广泛的研究，人重新识别旨在验证非重叠摄像机捕获的图像序列中的行人身份，在公共安全视频监控中有许多应用，对安全和刑事调查具有巨大的现实意义。近年来，随着深度学习的发展，卷积神经网络已成功用于人物重识别。当背景相对简单并且情况相对固定时，这些方法取得了良好的结果。然而，在许多现实生活场景中，情况通常更复杂，由于存在视野变化，如空间未对齐，背景干扰和行人姿势改变，人物重识别是一个具有挑战性的任务。传统的卷积神经网络不能自适应地关注特征图的有用通道和区域，这限制了行人重识别的准确性。

发明内容

针对现有技术的不足，为了获得更高的准确性，本发明提出一种基于双重注意力机制的行人重识别系统，具有通道和空间双重注意力机制，专注于重要的特征和抑制不必要的特征，在不显著增加计算量和参数量的前提下能提升网络模型的特征提取能力。

本发明采用如下技术方案：

一种基于双重注意力机制的行人重识别系统，在strongbaseline网络中引入注意力机制，包含通道注意力机制和空间注意力机制，其中通道注意力机制可以通过空间维度上进行压缩促进模型以专注于关键通道；空间注意力机制可以通过聚合所有通道的类似特征来突出语义像素；注意机制的本质是强调对学习目标有用的重要位置，并通过将权重系数分配给图像特征信息来抑制无关信息。

一种基于双重注意力机制的行人重识别系统，在strongbaseline网络基础上插入双重注意力机制模块；其中具体结构如下：

第一层为卷积层，第二层为归一化层，第三层为激活函数层，第四层为池化，接下来是Stage结构，包含Stage1、Stage2、Stage3、Stage4；其中：

在Stage1的Conv Block中第一分支的第三层后面插入双重注意力机制模块，在Stage1的每个Identity Block中第三卷积层后面插入双重注意力机制模块；

在Stage2的Conv Block中第一分支的第三层后面插入双重注意力机制模块，在Stage2的每个Identity Block中第三卷积层后面插入双重注意力机制模块；

在Stage3的Conv Block中第一分支的第三层后面插入双重注意力机制模块，在Stage3的每个Identity Block中第三卷积层后面插入双重注意力机制模块；

在Stage4的Conv Block中第一分支的第三层后面插入双重注意力机制模块，在Stage4的每个Identity Block中第三卷积层后面插入双重注意力机制模块；

最后依次为池化层、归一化层、全连接层和SoftMax分类器。

所述双重注意力机制模块中通道注意力机制的构建具体步骤为：

步骤一：对于双重注意力机制模块插入位置处block得到的特征图F，分别进行平均池化和最大值池化操作，得到两个C维池化特征图：

和

步骤二：将

和

送入包含一个隐层的多层感知器MLP里，得到两个大小为1*1*C的通道注意力图；其中，为了减少参数量，MLP的隐层神经元的个数为C/r，r为压缩比；

步骤三：将经过多层感知器MLP得到的两个通道注意力图进行对应元素相加，再经过激活函数，其中激活函数采用Sigmoid激活函数，得到最终的通道注意力机制Mc(F)，将Mc(F)作用于特征图F得到最终的通道注意力图F’。

所述双重注意力机制模块中空间注意力机制构建具体步骤为：

步骤一：对于最终的通道注意力图F′首先沿着通道方向进行最大池化和平均池化，得到两个二维的特征图

和

大小都是1*H*W，将得到的两个二维特征图进行concat维度拼接，得到拼接后的特征图；

步骤二：对于拼接后的特征图，经过卷积核大小为7*7的卷积层，生成空间注意力机制Ms(F’)，将Ms(F’)作用于特征图F’得到最终的空间注意力图F”。

所述一种基于双重注意力机制的行人重识别系统，其具体结构为：

第一层为卷积层，卷积核数量为64，每个卷积核大小为7*7，第二层为归一化层，第三层为激活函数层，其中激活函数采用Relu激活函数，第四层为池化层，采用最大值池化，池化大小为3*3；

接下来是Stage结构，包含Stage1、Stage2、Stage3、Stage4；其中：

Stage1由Conv Block和2个Identity Block组成，其中Conv Block包含两个分支，第一个分支的第一层为卷积层，卷积核数量为64，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为64，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为256，每个卷积核大小为1*1，将双重注意力机制模块插入该层后面，第二个分支为一层卷积层，卷积核数量为256，每个卷积核大小为1*1；每个分支的每个卷积层后都加入BN层，将得到的特征图进行融合，得到新的输入特征图；Identity Block的第一层为卷积层，卷积核数量为64，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为64，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为256，每个卷积核大小为1*1，且每个卷积层后都加入BN层；将双重注意力机制模块插入每个Identity Block的第三层后面，将该Identity Block的特征图与上一个Block特征进行融合，得到新的输入特征图；

Stage2由Conv Block和3个Identity Block组成，其中Conv Block包含两个分支，第一个分支的第一层为卷积层，卷积核数量为128，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为128，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为512，每个卷积核大小为1*1，将双重注意力机制模块插入该层后面，第二个分支为一层卷积层，卷积核数量为512，每个卷积核大小为1*1；每个分支的每个卷积层后都加入BN层，将特征图进行融合，得到新的输入特征图；Identity Block的第一层为卷积层，卷积核数量为128，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为128，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为512，每个卷积核大小为1*1，且每个卷积层后都加入BN层；将双重注意力机制模块插入每个Identity Block层的第三层后面，将该Identity Block的特征图与上一个Block特征进行融合，得到新的输入特征图；

Stage3由Conv Block和5个Identity Block组成，其中Conv Block包含两个分支，第一个分支的第一层为卷积层，卷积核数量为256，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为256，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为1024，每个卷积核大小为1*1，将双重注意力机制模块插入该层后面，第二个分支为一层卷积层，卷积核数量为1024，每个卷积核大小为1*1；每个分支的每个卷积层后都加入BN层，将两个分支的特征图进行融合，得到新的输入特征图；Identity Block的第一层为卷积层，卷积核数量为256，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为256，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为1024，每个卷积核大小为1*1，且每个卷积层后都加入BN层；将双重注意力机制模块插入每个Identity Block层的第三层后面，将该Identity Block的特征图与上一个Block特征进行融合，得到新的输入特征图；

Stage4由Conv Block和2个Identity Block组成，其中Conv Block包含两个分支，第一个分支的第一层为卷积层，卷积核数量为512，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为512，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为2048，每个卷积核大小为1*1，将双重注意力机制模块插入该层后面，第二个分支为一层卷积层，卷积核数量为2048，每个卷积核大小为1*1；每个分支的每个卷积层后都加入BN层，将两个分支的特征图进行融合，得到新的输入特征图；Identity Block的第一层为卷积层，卷积核数量为512，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为512，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为2048，每个卷积核大小为1*1，且每个卷积层后都加入BN层；将双重注意力机制模块插入每个Identity Block层的第三层后面，将该Identity Block的特征图与上一个Block特征进行融合，得到新的输入特征图；

将得到的特征图依次经过池化层、归一化层、全连接层和SoftMax分类器，SoftMax分类器根据特征进行分类，获得图像所属类别。

所述池化层采用全局平均池化，池化大小为3*3。

所述一种基于双重注意力机制的行人重识别系统的训练过程如下：

步骤一，获取公开的行人重识别数据集，并将数据集中的图片尺寸进行归一化操作，使得每张图片的像素尺寸均为256*128；

步骤二，采用ImageNet预训练网络参数初始化基于双重注意力机制的行人重识别系统中strongbaseline网络的参数，引入的双重注意力机制模块则随机初始化参数；

步骤三，将经步骤一处理后的数据集作为训练集输入基于双重注意力机制的行人重识别系统，并让该系统采用反向传播算法和随机梯度下降方法学习训练集中每个行人的特征，最后通过mAP和Rank1这两个指标来评估该系统在行人重识别中的有效性，当mAP和Rank1同时达到最优值时，得到训练好的系统。

本发明的有益效果：

本发明结合行人中识别模型和注意力机制，将注意力机制插入到人员重识别模型中，减小相机角度、身体姿势的变化、身体未对齐和图片多样化等问题，在不显著增加计算量和参数量的前提下能提升网络模型的特征提取能力，提升网络性能，更准确识别出相同类别的行人，更好的辅助安全和刑事调查等其他领域。

附图说明

图1是本发明系统的结构示意图；

图2是本发明双重注意力机制模块结构示意图；

图3是本发明通道注意力机制的示意图；

图4是本发明空间注意力机制的示意图。

具体实施方式

本发明基于双重注意力机制的行人重识别算法，是在一种strongbaseline网络中插入注意力机制模块，包含通道注意力机制和空间注意力机制，将注意力图和输入特征图相乘，进行自适应特征细化，其中：

通道注意力机制利用特征的通道间关系，生成通道注意图即权重，对经过卷积得到的特征图的每一层，乘以不同的权重，表示该层表示的特征对于关键信息的关联程度和重要程度，相应的，权重越大，表示该层表示的信息对于关键信息越重要，关联程度越高；权重越小，表示该层表示的信息对于关键信息越不重要，得到每一维的权重，对应乘到不同通道的值上，得到新的特征。

空间注意力机制利用特征间的空间关系生成空间注意图，通过注意力机制，更关注的是位置特性，将原始图片中的空间信息通过空间转换模块，变换到另一个空间中并保留关键信息。

最后依次为池化层、归一化层、全连接层和SoftMax分类器。

将得到的特征图依次经过池化层、归一化层、全连接层和SoftMax分类器，SoftMax分类器根据特征对行人类别进行分类。

步骤一：对于双重注意力机制模块插入位置处block得到的特征图F，分别进行平均池化和最大值池化操作，聚合了空间信息，得到两个C维池化特征图：

和

步骤二：将

和

和

步骤二：对于拼接后的特征图，经过卷积核大小为7*7的卷积层生成空间注意力机制Ms(F’)，将Ms(F’)作用于特征图F’得到最终的空间注意力图F”。

未经过通道注意力机制的特征图为F,F经过通道注意力机制后得到F’，F’经过空间注意力机制后得到F”。

所述一种基于双重注意力机制的行人重识别系统，有2个基本的block，一个是Identity Block，输入和输出的维度是一样的，所以可以串联多个；另外一个基本block是Conv Block，输入和输出的维度不一样，不能连续串联，其具体结构为：

接下来是Stage结构，包含Stage1、Stage2、Stage3、Stage4；其中：

Stage1由Conv Block和2个Identity Block组成，其中Conv Block包含两个分支，第一个分支的第一层为卷积层，卷积核数量为64，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为64，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为256，每个卷积核大小为1*1，将双重注意力机制模块插入该层后面，第二个分支为一层卷积层，卷积核数量为256，每个卷积核大小为1*1；每个分支的每个卷积层后都加入BN层，将得到的两个分支的特征图进行融合，得到新的输入特征图；Identity Block的第一层为卷积层，卷积核数量为64，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为64，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为256，每个卷积核大小为1*1，且每个卷积层后都加入BN层；将双重注意力机制模块插入每个Identity Block的第三层后面，将该Identity Block的特征图与上一个Block特征进行融合，得到新的输入特征图；

第一个Identity Block是与上一个Conv Block特征进行融合，第二个IdentityBlock是与上一个Identity Block特征进行融合；

Stage2由Conv Block和3个Identity Block组成，其中Conv Block包含两个分支，第一个分支的第一层为卷积层，卷积核数量为128，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为128，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为512，每个卷积核大小为1*1，将双重注意力机制模块插入该层后面，第二个分支为一层卷积层，卷积核数量为512，每个卷积核大小为1*1；每个分支的每个卷积层后都加入BN层，将两个分支的特征图进行融合，得到新的输入特征图；Identity Block的第一层为卷积层，卷积核数量为128，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为128，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为512，每个卷积核大小为1*1，且每个卷积层后都加入BN层；将双重注意力机制模块插入每个Identity Block层的第三层后面，将该Identity Block的特征图与上一个Block特征进行融合，得到新的输入特征图；

所述池化层采用全局平均池化，池化大小为3*3。

行人重识别数据集里面是不同的行人的照片，用不同编号表示不同行人类别，每个行人又有多张不同照片；

步骤二，采用ImageNet预训练网络参数(是公知的一个.pth类型的文件，参数都是预训练好的，下载之后直接使用)初始化基于双重注意力机制的行人重识别系统中strongbaseline网络的参数，引入的双重注意力机制模块则随机初始化参数；

本发明通过mAP和Rank1指标来评估该模型在行人重识别任务中的有效性，设置1000个epoch训练模型，当训练到660个epoch时，mAP和Rank1达到最优值，得到训练好的模型，其中loss采用Triplet loss、center loss和ID loss。

整个过程是模型优化的过程，目的是要得到一个效果好的模型。这个模型优化的过程需要用到反向传播算法和梯度下降方法，模型训练的时候会算出一个loss值，根据前向传播的Loss值的大小,来进行反向传播迭代更新每一层的权重，反向传播根据loss值来不断优化模型，使模型找到很好的参数。

实施例2

如图1所示，所述双重注意力机制的行人重识别系统，是在strongbaseline基础上插入注意力机制模块。双重注意力机制的行人重识别模型有2个基本的block，一个是Identity Block，输入和输出的维度是一样的，所以可以串联多个；另外一个基本block是Conv Block，输入和输出的维度不一样，不能连续串联，其具体结构为：

第一层为卷积层，卷积核数量为64，每个卷积核大小为7*7，第二层为归一化层，第三层激活函数层，其中激活函数采用Relu激活函数，第四层为池化层，采用最大值池化，池化大小为3*3；

接下来是Stage结构，包含Stage1、Stage2、Stage3、Stage4。

Stage1由Conv Block和2个Identity Block组成，其中Conv Block包含两个分支，第一个分支的第一层为卷积层，卷积核数量为64，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为64，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为256，每个卷积核大小为1*1，将双重注意力机制模块插入该层后面，第二个分支为一层卷积层，卷积核数量为256，每个卷积核大小为1*1，每个分支的每个卷积层后都加入BN层，将得到的两个分支的特征图进行融合，得到新的输入特征图。其中Identity Block的第一层为卷积层，卷积核数量为64，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为64，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为256，每个卷积核大小为1*1，且每个卷积层后都加入BN层；将双重注意力机制模块插入每个Identity Block层的第三层后面，将该分支的特征图与上一个Block特征进行融合，得到新的输入特征图；

Stage2由Conv Block和3个Identity Block组成，其中Conv Block包含两个分支，第一个分支的第一层为卷积层，卷积核数量为128，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为128，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为512，每个卷积核大小为1*1，将双重注意力机制模块插入该层后面，第二个分支为一层卷积层，卷积核数量为512，每个卷积核大小为1*1，每个分支的每个卷积层后都加入BN层，将两个分支的特征图进行融合，得到新的输入特征图。其中Identity Block的第一层为卷积层，卷积核数量为128，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为128，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为512，每个卷积核大小为1*1，每个卷积层后都加入BN层；将双重注意力机制模块插入每个Identity Block层的第三层后面，将该分支的特征图与上一个Block特征进行融合，得到新的输入特征图；

Stage3由Conv Block和5个Identity Block组成，其中Conv Block包含两个分支，第一个分支的第一层为卷积层，卷积核数量为256，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为256，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为1024，每个卷积核大小为1*1，将双重注意力机制模块插入该层后面，第二个分支为一层卷积层，卷积核数量为1024，每个卷积核大小为1*1，每个分支的每个卷积层后都加入BN层，将两个分支的特征图进行融合，得到新的输入特征图。其中Identity Block的第一层为卷积层，卷积核数量为256，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为256，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为1024，每个卷积核大小为1*1，每个卷积层后都加入BN层；将双重注意力机制模块插入每个Identity Block层的第三层后面，将该分支的特征图与上一个Block特征进行融合，得到新的输入特征图；

Stage4由Conv Block和2个Identity Block组成，其中Conv Block包含两个分支，第一个分支的第一层为卷积层，卷积核数量为512，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为512，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为2048，每个卷积核大小为1*1，将双重注意力机制模块插入该层后面，第二个分支为一层卷积层，卷积核数量为2048，每个卷积核大小为1*1，每个分支的每个卷积层后都加入BN层，将两个分支的特征图进行融合，得到新的输入特征图。其中Identity Block的第一层为卷积层，卷积核数量为512，每个卷积核大小为1*1，第二层为卷积层，卷积核数量为512，每个卷积核大小为3*3，第三层为卷积层，卷积核数量为2048，每个卷积核大小为1*1，每个卷积层后都加入BN层；将双重注意力机制模块插入每个Identity Block层的第三层后面，将该分支的特征图与上一个Block特征进行融合，得到新的输入特征图；

将得到的特征图依次经过池化层，采用全局平均池化，池化大小为3*3；归一化层；网络最后采用全连接层的深度卷积方式提取图像特征，得到维度特征后使用SoftMax分类器，根据特征进行分类，获得图像类别。

所述双重注意力机制的行人重识别算法训练过程如下：

步骤一，获取公开的行人重识别数据集，将图片尺寸进行归一化操作，使得每张图片的像素尺寸均为256*128；

步骤二，采用ImageNet预训练网络参数初始化双重注意力机制的行人重识别模型参数，引入的注意力机制模块随机初始化参数；

步骤三，将数据集输入双重注意力机制的行人重识别模型进行训练，让双重注意力机制的行人重识别模型学习训练集中每个行人的特征，训练双重注意力机制的行人重识别采用反向传播算法和随机梯度下降方法,根据前向传播的Loss值的大小,来进行反向传播迭代更新每一层的权重。本发明通过mAP和Rank1来评估该模型在行人重识别任务中的有效性，设置1000个epoch训练模型，当训练到660个epoch时，mAP和Rank1达到最优值，得到训练好的模型，其中loss采用Triplet loss、center loss和ID loss。

如图2所示双重注意力机制模块，首先将strongbaseline网络每个block提取的特征F在空间维度上进行压缩，压缩采用全局最大池化和全局平均池化，得到两个一维矢量以后再进行操作，得到通道注意力Mc，将F与Mc融合为特征F′。将F′在在通道上进行压缩，压缩采用全局最大池化和全局平均池化，得到两个一维矢量以后再进行操作，得到通道注意力Ms，将F′与Ms融合为特征F″。将F″与F结合，得到最终特征。全局平均池化对特征图上的每一个像素点都有反馈，而全局最大池化在进行梯度反向传播计算时，只在特征图中响应最大的地方有梯度的反馈，能作为全局平均池化的一个补充。

如图3所示，通道注意力机制结构图，所述通道注意力机制构建具体步骤为：

步骤一：对于每一个block得到的特征图F，分别进行平均池化和最大值池化操作，聚合空间信息，得到两个C维池化特征图：

和

步骤二：将

和

送入包含一个隐层的多层感知器MLP里，得到两个1*1*C的通道注意力图。其中，为了减少参数量，隐层神经元的个数为C/r，r称作压缩比。

步骤三：将经过MLP得到的两个通道注意力图进行对应元素相加，经过激活函数，其中激活函数采用Sigmoid激活函数，得到最终的通道注意力机制Mc(F)，将Mc(F)作用于特征图F得到最终的通道注意力图F’，公式表示如下：

其中最终的通道注意力机制Mc(F)表示如下：

其中W₀和W₁分别表示隐层权重和输出层权重，AvgPool(F)和MaxPool(F)分别为

和

如图4所示，空间注意力机制结构图，所述空间注意力机制构建具体步骤为：

步骤一：对于F′首先沿着通道方向进行最大池化和平均池化，得到两个二维的特征图

和

属性都是1*H*W，将得到的两个特征图进行concat维度拼接，得到拼接后的特征图

步骤二：对于拼接后的特征图，经过7*7的卷积层生成空间注意力机制Ms(F’)，将Ms(F’)作用于特征图F’得到最终的空间注意力图F”。

公式表示如下:

其中空间注意力机制Ms(F’)表示如下：

其中σ表示Sigmoid函数，f^7*7表示7*7的卷积操作，AvgPool(F′)；MaxPool(F′)分别为

和

本发明研究通道之间的关系和空间位置之间的关系，将它们与关注网络相结合，专注于重要的特征和抑制不必要的特征，在公开行人重识别数据集上进行了验证，该系统可以有效匹配到相同行人，在不显著增加计算量和参数量的前提下能提升网络模型的特征提取能力，模型泛化能力和推广能力可靠性较强。