CN114663974A

CN114663974A - 一种融入位置感知注意力的行人重识别方法

Info

Publication number: CN114663974A
Application number: CN202210247905.3A
Authority: CN
Inventors: 吴晓富; 陈江萍; 张索非; 颜俊
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-24

Abstract

本发明提供一种融入位置感知注意力的行人重识别方法：在ResNet50网络中引入一种位置感知注意力模块，该模块是非局部注意力模块的一种有效改进，通过将位置信息嵌入捕获长范围特征依赖关系的非局部注意力模块，有效提升了所提取特征的表达能力。本发明提出的位置感知注意力模块属于轻量级结构，该模块融入ResNet50网络能有效抽取行人的可区分特征，同时抑制了与行人识别任务关联度小的特征，在多个流行行人重识别标准数据集上取得了比传统网络模型和其他相关方法更好的识别效果。

Description

一种融入位置感知注意力的行人重识别方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种融入位置感知注意力的行人重识别方法。

背景技术

行人重识别(Person Re-identification)是指在多个非重叠摄像头的场景下，在行人图像数据库中检索出与给定的查询图像身份相同的行人图像。行人重识别可以广泛应用于智能安防以及视频监控等领域。

行人重识别可以被认为是一个特征嵌入(feature-embedding)问题，理想情况下类内距离(同一个人的不同图片)应小于类间距离(不同人的图片)，不幸的是大多数现有的特征嵌入解决方案要求以成对的方式对样本进行分组，这通常是计算密集型的。在实践中，由于分类任务在训练的实现复杂性上具有明显的优势，因此经常使用分类方法作为特征嵌入解决方案。如今，大多数用于行人重识别的最新方法已从单一的度量学习问题或单一的分类问题演变为多任务问题，即同时采用分类损失和三元组损失。由于每个样本图像仅用人员ID进行标记，因此，如果不对底层神经网络进行精心设计并进一步使用某些正则化技术，则端到端训练方法通常很难学习多样且丰富的特征。

近年来，许多基于注意力机制以及位置编码的算法被应用于计算机视觉。Wang等人(Wang,Xiaolong,et al.Non-local neural networks.//Proceedings of the IEEEconference on computer vision and pattern recognition.2018.)提出将非局部注意力模块插入网络模型中，通过注意力机制使模型聚焦于任务相关的特征，忽略大量无用信息；Dosovitskiy等人(Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image isworth16×16words:Transformers for image recognition at sacle[J].arXiv:2010.11929,2020.)提出的算法(Vision Transformer，ViT)，通过加入位置编码，充分利用特征出现的位置作为先验知识提升特征的代表性，能够高效地完成图像分类任务；作为一种典型的应用位置编码的方法，ViT算法已被证明对计算机视觉任务有显著效果，但是ViT中的位置编码是直接加在输入图片上，参数量过多，网络在学习相应特征时可能会遇到困难。减少参数量的一种方法是在图片尺寸较小时加入位置编码，同时为了充分利用注意力提取关键特征的能力，本方法提出了位置感知注意力模块。

本方法通过非局部注意力模块获得长范围的特征依赖关系，有效提高了ResNet50网络的行人识别准确度。为解决图像特征间缺乏位置关系问题，本发明提出了位置感知注意力模块，将其融入到ResNet50网络中进行训练和测试，通过距离度量获得相似性排序，得到更为精准的行人重识别结果。

发明内容

本发明的实施例提供了一种融入位置感知注意力的行人重识别方法，用于解决现有技术中的如下问题：

在ResNet50网络行人重识别方法中，模型认为特征图中每个子特征的重要性都是相同的，需要考虑所有特征，从而导致训练速度慢且无法高效地提取出对任务有帮助的关键特征；

在训练过程中，注意力模块只能帮助模型提取出与任务相关的关键特征，没有特征间位置关系的概念，可能会使得特征间关系错乱问题。

为了解决上述问题，本发明采取了如下技术方案：

一种融入位置感知注意力的行人重识别方法，包括将原始输入经过ResNet50网络前两层得到的输出特征图输入到位置感知注意力模块中进行处理和将位置感知注意力模块融入到ResNet50网络中进行训练和测试；

所述的将原始图片经过ResNet50网络前两层得到的输出特征图输入到位置感知注意力模块中进行处理包括：

S1：获取输入特征图，通过卷积滤波器提取出三个不同的特征图，对其中两个特征图进行池化操作得到特征图φ和特征图g，特征图θ保持不变；然后将上述三维特征图θ、φ、g分别按通道维度展平拉直为二维特征矩阵，对三维特征图θ和g对应的二维特征矩阵进行转置得到二维特征矩阵θ和g，二维特征矩阵φ保持不变；

S2：基于位置感知编码特征图中不同位置的特征，构建二维位置编码矩阵PE；将所述二维特征矩阵θ与二维特征矩阵φ相乘，获得特征和特征之间的关系矩阵R_θ，φ；将二维位置编码矩阵PE与所述二维特征矩阵θ相乘，获得特征与位置之间关系矩阵R_θ，PE；

S3：将S2中所述两个关系矩阵R_θ，φ和R_θ，PE相加实现位置信息嵌入，归一化指数函数(Softmax函数)，得到含位置信息的归一化自相关权重系数矩阵f_c＝Softmax(R_θ，PE+R_θ，φ)；

S4：将所述含位置信息的归一化自相关权重系数矩阵f_c与代表特征图的二维特征矩阵g相乘，获得二维空间位置关键信息矩阵，再将其按通道还原为三维空间位置关键信息特征图，并使用卷积滤波器升维，最后使用类似残差结构，将输入和升维后的三维空间位置关键信息特征图相加得到位置感知注意力模块的输出；

所述的将位置感知注意力模块融入到ResNet50网络中进行训练和测试包括：

S5：将位置感知注意力模块插入到ResNet50网络第二层的输出位置，采用交叉熵和三元组损失函数加权形式作为总损失函数随着网络一起训练，输入测试图片获得行人匹配识别结果。

优选地，步骤S1具体包括：

S1.1将输入特征图X∈R^b×c×h×w分别通过三个具有不同权重系数且输出通道数为输入通道数

的1×1卷积滤波器，获得三个不同的特征图，分别记为θ、φ、g，其中b、c、h、w、r分别为每批次图片的张数、通道数、高、宽、通道数降维因子；

S1.2从三个不同特征图中选取特征图φ和g进行池化操作，得到特征图

和

无池化操作的特征图记为

S1.3将上述三个特征图按通道维度展平拉直为二维特征矩阵，并对三维特征图θ和g对应的二维特征矩阵进行转置得到二维特征矩阵

和二维特征矩阵

二维特征矩阵

保持不变；

优选地，步骤S2包括：

S2.1对不同的位置随机初始化不同的位置嵌入向量

每个位置嵌入向量的初始化值从均值为0，方差为1的正态分布中随机取值，所有的位置嵌入向量按行排开构成二维位置编码矩阵

PE中所有参数随着训练过程更新；

S2.2将代表两张不同特征图的二维特征矩阵

与

相乘得到特征间的关系矩阵R_θ，φ＝θ×φ，其中

S2.3将所述的二维特征矩阵

与代表特征位置关系的矩阵

相乘得到特征与位置间的关系矩阵R_θ，PE＝θ×PE，其中

优选地，步骤S3具体包括：

S3.1将特征间的关系矩阵R_θ，φ和特征与位置间的关系矩阵R_θ，PE相加，实现位置信息的嵌入，得到含位置信息的自相关权重系数矩阵

此时

中包含了特征图中子特征间的位置关系；

S3.2将含位置信息的自相关权重系数矩阵f经过归一化指数函数(Softmax函数)，得到含位置信息的归一化自相关权重系数矩阵f_c＝Softmax(R_θ，PE+R_θ，φ)，其中

优选地，步骤S4具体包括：

S4.1将所述含位置信息的归一化自相关权重系数矩阵f_c与代表特征图的二维特征矩阵

相乘，得到二维空间位置关键信息矩阵g_f＝f_c×g，其中

S4.2将二维空间位置关键信息矩阵转置后按通道还原为三维空间位置关键信息特征图

使用1×1卷积滤波器升维，使之与输入特征图的通道数维度相同，输出记为g_fc∈R^b×c×h×w；

S4.3将输入特征图X∈R^b×c×h×w和升维后的三维空间位置关键信息特征图g_fc∈R^b ^×c×h×w相加，得到位置感知注意力模块的输出Y＝X+g_fc，其中Y∈R^b×c×h×w。

与现有技术相比，本发明的技术方案具有以下有益效果：

1.本发明提供的一种融入位置感知注意力的行人重识别方法，在ResNet50网络中引入一种位置感知注意力模块，该模块是非局部注意力模块的一种有效改进，通过将位置信息嵌入捕获长范围特征依赖关系的非局部注意力模块，有效提升了所提取特征的表达能力。

2.本发明提出的位置感知注意力模块属于轻量级结构，该模块融入ResNet50网络能有效抽取行人的可区分特征，同时了抑制了与行人识别任务关联度小的特征，在多个流行行人重识别标准数据集上取得了比传统网络模型和其他相关方法更好的识别效果。

附图说明

图1为本发明提供的一种融入位置感知注意力的行人重识别方法的处理流程图；

图2为非局部注意力模块的基本架构图；

图3为本发明提供的一种融入位置感知注意力的行人重识别方法中提出的位置感知注意力模块基本架构图；

图4为本发明提供的一种融入位置感知注意力的行人重识别方法中ResNet50网络的总体架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下实施例将结合附图对本发明进行作进一步的说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，以下对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

实施例1

参见图1，本发明提供的一种融入位置感知注意力的行人重识别方法，主要包括将原始图片经过ResNet50网络前两层得到的输出特征图输入到位置感知注意力模块中进行处理和将位置感知注意力模块融入到ResNet50网络中进行训练和测试两个过程。

其中的将原始图片经过ResNet50网络前两层得到的输出特征图输入到位置感知注意力模块中进行处理包括：

S1：获取输入特征图，通过卷积滤波器提取出三个不同的特征图，对其中两个特征图进行池化操作得到特征图φ和g，特征图θ保持不变；然后将上述三维特征图θ、φ、g分别按通道维度展平拉直为二维特征矩阵，对三维特征图θ和g对应的二维特征矩阵进行转置得到二维特征矩阵θ和二维特征矩阵g，二维特征矩阵φ保持不变；

S2：基于位置感知编码特征图中不同位置的特征，构建二维位置编码矩阵PE，将其与所述二维特征矩阵θ相乘，获得特征与位置之间关系矩阵R_θ，PE；将所述二维特征矩阵θ与二维特征矩阵φ相乘，获得特征和特征之间的关系矩阵R_θ，φ；

S3：将S2中所述两个关系矩阵相加实现位置信息嵌入，经过Softmax，得到含位置信息的归一化自相关权重系数矩阵f_c＝Softmax(R_θ，PE+R_θ，φ)；

S4：将所述含位置信息的归一化自相关权重系数矩阵f_c与代表特征图的二维特征矩阵g相乘，获得二维空间位置关键信息矩阵，再将其按通道还原为三维空间位置关键信息特征图，并使用卷积滤波器升维，最后使用类似残差结构，将输入和升维后的三维空间位置关键信息特征图相加得到位置感知注意力模块的输出。

在本发明提供的实施例中，采用了一种位置感知注意力模块。位置感知注意力模块主要由非局部注意力模块和位置编码机制融合而成，其中非局部注意力模块基本架构如图2所示，位置感知注意力模块基本架构如图3所示。位置编码会编码不同特征的位置信息，基于此，再利用注意力模块不仅可以学习到特征图中哪部分区域是关键特征，还可以学习到关键特征之间的位置关系，加强图像判别性特征的获取，并对特征进行自适应性的细化功效。

卷积神经网络深层特征图中的子特征可以看作是对不同语义特征的响应，并且之间相互关联，非局部注意力可以挖掘特征图中各个子特征之间的依赖关系。事实上，特种图中各个子特征重要性是不一样的，通过赋予权值的方式提取每个子特征对关键信息的重要程度，有选择性的去关注权重值大的信息，增强判别性语义的特征表示，提升特征分类性能。

实施例2

发明人发现，在ResNet50网络行人重识别方法中，模型认为特征图中每个子特征的重要性都是相同的，需要考虑所有特征，从而导致训练速度慢且无法高效地提取出对任务有帮助的关键性特征。为了解决上述问题，在本发明的优选实施例中，提供了非局部注意力模块，其基本架构如图2所示，具体步骤如下：

的1×1卷积滤波器，获得三个不同的特征图，分别记为θ、φ、g，其中b、c、h、w、r分别为每批次图片张数、通道数、高、宽、通道数降维因子；

和

无池化操作的特征图记为

和二维特征矩阵

二维特征矩阵

保持不变。

S2将代表两张不同特征图的二维特征矩阵

与

相乘得到特征间的关系矩阵R_θ，φ＝θ×φ，其中

S3将特征间的关系矩阵R_θ，φ经过Softmax，得到归一化自相关权重系数矩阵R′_θ，φ＝Softmax(R_θ，φ)，其中

S4.1将归一化自相关权重系数矩阵R′_θ，φ和代表特征图的二维特征矩阵g相乘，得到二维空间关键信息矩阵g_R＝R′_θ，φ×g，其中

S4.2将二维空间关键信息矩阵转置后按通道还原为三维空间关键信息特征图

使用1×1卷积滤波器升维，使之与输入特征图的通道数维度相同，输出记为g_Rc∈R^b×c×h×w；

S4.3将输入特征图X∈R^b×c×h×w和升维后的三维空间关键信息特征图g_Rc∈R^b×c×h×w相加，得到非局部注意力模块的输出Y＝X+g_Rc，其中Y∈R^b×c×h×w。

在本发明提供的实施例中，采用的非局部注意力基本架构如图2所示，在训练过程中，注意力模块只能帮助模型提取出与任务相关的关键特征，没有特征间位置关系的概念，可能会使得特征间关系错乱问题。针对此弊端，本发明将位置编码机制融入到非局部注意力模块当中，在上述S2中加入步骤：将代表特征图的二维特征矩阵

与二维位置编码矩阵

相乘，得到特征与位置间的关系矩阵

然后在上述S3中加入步骤：将特征间的关系矩阵

与特征与位置间的关系矩阵

相加，实现位置信息嵌入，从而解决了模型缺乏特征间位置关系的概念。

本发明的具体实施步骤如下：

和特征图

无池化操作的特征图记为

和二维特征矩阵

二维特征矩阵

保持不变。

S2.1对不同的位置随机初始化不同的位置嵌入向量

PE中所有参数随着训练过程更新；

S2.2将代表两张不同特征图的二维特征矩阵

与

相乘得到特征间的关系矩阵R_θ，φ＝θ×φ，其中

S2.3将所述的二维特征矩阵

与二维位置编码矩阵

相乘得到特征与位置间的关系矩阵R_θ，PE＝θ×PE，其中

S3：将S2中所述两个关系矩阵R_θ，PE和R_θ，φ相加实现位置信息嵌入，经过Softmax，得到含位置信息的归一化自相关权重系数矩阵f_c＝Softmax(R_θ，PE+R_θ，φ)；

此时

中包含了特征图中子特征间的位置关系；

S3.2将含位置信息的自相关权重系数矩阵f经过Softmax，得到含位置信息的归一化自相关权重系数矩阵f_c＝Softmax(R_θ，PE+R_θ，φ)，其中

相乘，得到二维空间位置关键信息矩阵g_f＝f_c×g，其中

S5将位置感知注意力模块插入到ResNet50网络第二层的输出位置，采用交叉熵和三元组损失函数加权形式作为总损失函数随着网络一起训练，输入测试图片获得行人匹配识别结果。

实施例3

本发明还提供一个实施例，用于显示本发明提供的方法的一个具体实验过程。

在本实施例中，采用Market1501、DukeMTMC-ReID、CUHK03三种数据集来进行训练和测试。Market1501于2015年夏采集自清华大学校园内，包含1501个行人ID，通过6个摄像头采集共32668张图片，其中训练集包含751个行人ID共12936张图片，测试集包含余下750个ID，3368个检索图片，15913张待检图片；DukeMTMC-reID于2015年冬采集自杜克大学校园内，包含1812个行人ID，共有36411张图片，其中训练集包含702个行人ID共16522张图片，测试集包含余下的702个行人ID图片。CUHK03数据集包含人工标记的14096张图像，和检测标记的14097张图像，这些图像由两个相机视图捕获，总共具有1467个ID，其中767个ID的图片用于训练，其余用于测试。

在训练阶段，采用数据增强的方法将图片切割为384×128大小的行人图像，并将图片进行随机镜像和正则化，然后送入网络模型训练。在测试阶段，将全局分支特征和局部分支特征拼接起来，通过距离度量获得相似性排序结果。

在训练参数设置上，根据GPU显存将训练过程中批量大小设置为64(包含16个行人ID，每个ID4张图片)，训练周期设置为160，选用Adam优化器，初始学习率为3.5×10^-5，采用WarmUp策略经过10个epoch将学习率提升到3.5×10^-4，分别再经过30个epoch和60个epoch时学习率降至3.5×10^-5和3.5×10^-6。训练过程中每个Epoch结束后会通过测试集对模型进行评估和保存，完成所有轮次训练后，把识别效果最好的权值保存成最后的模型文件。通过保存的模型测试对每批次行人图片的识别效果，最后观察并记录实验数据。

综上所述，本发明提供一种融入位置感知注意力的行人重识别方法：在ResNet50网络中引入一种位置感知注意力模块，该模块是非局部注意力模块的一种有效改进，通过将位置信息嵌入捕获长范围特征依赖关系的非局部注意力模块，有效提升了所提取特征的表达能力。本发明提出的位置感知注意力模块属于轻量级结构，该模块融入ResNet50网络能有效抽取行人的可区分特征，同时了抑制了与行人识别任务关联度小的特征，在多个流行行人重识别标准数据集上取得了比传统网络模型和其他相关方法更好的识别效果。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。