CN116580428A

CN116580428A - 一种基于多尺度通道注意力机制的行人重识别方法

Info

Publication number: CN116580428A
Application number: CN202310845111.1A
Authority: CN
Inventors: 罗谦; 党婉丽; 邵杰; 耿龙; 潘野; 曹利波; 王朝; 郑怀宇; 牛杰; 王江; 张涛; 刘劲超
Original assignee: Civil Aviation Electronic Technology Co ltd; Second Research Institute of CAAC
Current assignee: Civil Aviation Electronic Technology Co ltd; Second Research Institute of CAAC
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2023-08-11

Abstract

本发明提供了一种基于多尺度通道注意力机制的行人重识别方法，包括以下步骤：采集行人图像，并构建注意力层，利用注意力层获取行人图像的最终通道权重值；基于行人图像的最终通道权重值，利用注意力层构建行人重识别模型；采集行人重识别数据集，并利用行人重识别数据集对行人重识别模型进行训练；利用训练后的行人重识别模型进行行人重识别。本发明提出的基于多尺度注意力机制的行人重识别方法在一定程度上，解决了现实场景中行人被遮挡和行人外观相似等问题，同时提升了在行人重识别方面的准确率。

Description

一种基于多尺度通道注意力机制的行人重识别方法

技术领域

本发明涉及行人识别技术领域，具体而言，涉及一种基于多尺度通道注意力机制的行人重识别方法。

背景技术

行人重识别技术通过对与视频监控场景中的行人进行监测，对于特定行人进行寻找。但在现实场景中，行人重识别任务仍面临着行人被遮挡、外观相似和背景干扰等挑战。现已有部分方案解决这些挑战。

（1）基于手工提取特征的行人重识别方法，利用手工提取特征与目标行人特征进行相似度度量以确定是否为要寻找的行人。

（2）基于深度学习的行人重识别方法，通过建立分层模型结构从大量样本数据中自动提取由低层到高层特征。

（3）基于注意力机制的行人重识别方法，通过嵌入注意机制来关注行人区域的特征。

在上述三种主流解决方案中，主要存在以下不足：

（1）第一种方案依赖手工设计特征提取算子来挖掘行人的视觉特征，但单纯的手工特征提取方法不具有适用性。在数据量足够大的情况下，其效率低下，并且精度无法满足要求。

（2）第二种方案使得模型的复杂度较高和计算耗费较大，同时仍存在无法有效提取判别性特征导致模型泛化能力较弱和适用性不强的问题。

（3）第三种方案一般都是通过局部卷积来学习注意力，而忽略了从全局结构上进行信息挖掘，并且没有利用不同尺度上的特征信息。

上述三种方案在一定程度上均可以实现对行人的重新识别，但是在精度上还达不到现实场景中的要求。

发明内容

本发明的目的在于提供一种基于多尺度通道注意力机制的行人重识别方法。

本发明的实施例通过以下技术方案实现：

一种基于多尺度通道注意力机制的行人重识别方法包括以下步骤：

采集行人图像，并构建注意力层，利用注意力层获取行人图像的最终通道权重值；

基于行人图像的最终通道权重值，利用注意力层构建行人重识别模型；

采集行人重识别数据集，并利用行人重识别数据集对行人重识别模型进行训练；

利用训练后的行人重识别模型进行行人重识别。

本发明实施例的技术方案至少具有如下优点和有益效果：

（1）本发明的多尺度通道注意力层是一种轻量级的网络结构，具有高效性和普遍适用性，可以即插即用，使用较少的参数关注行人区域特征，在不增加模型复杂度的情况下提升了模型性能；

（2）本发明通过将多尺度通道注意力层嵌入到网络的不同尺度中，能够使网络有效关注到行人的判别性特征，增强了特征提取网络的鲁棒性；

（3）本发明提出的基于多尺度注意力机制的行人重识别方法在一定程度上，解决了现实场景中行人被遮挡和行人外观相似等问题，同时提升了在行人重识别方面的准确率。

进一步地，利用注意力层获取行人图像的最终通道权重值，包括以下步骤：

提取行人图像的中间特征，并提取中间特征对应的最大池化特征和平均池化特征；

分别对最大池化特征和平均池化特征进行一维卷积操作，生成最大池化权重和平均池化权重；

连接最大池化权重和平均池化权重，生成初步通道权重；

对初步通道权重进行卷积操作，并利用ReLU激活函数对进行卷积操作后的初步通道权重进行激活操作，生成最终通道权重值。

进一步地，最大池化特征的计算公式为：

式中，表示对行人图像进行最大池化操作，/>表示特征图的长，/>表示特征图的宽，/>表示中间特征，/>表示中间特征/>第/>行第/>列的特征值；

平均池化特征的计算公式为：

式中，表示对行人图像进行平均池化操作。

进一步地，最大池化权重的计算公式为：

式中，表示大小为/>的一维卷积操作，/>表示对行人图像特征进行最大池化操作，/>表示中间特征，/>表示最大池化特征；

平均池化权重的计算公式为：

式中，表示对行人图像特征进行平均池化操作，/>表示平均池化特征。

进一步地，初步通道权重的计算公式为：

式中，表示两个张量沿着第/>维连接操作，/>表示最大池化通道权重，/>表示平均池化通道权重。

进一步地，最终通道权重值的计算公式为：

式中，表示ReLU激活函数，/>表示对进行卷积操作后的初步通道权重，/>表示/>大小的卷积操作，/>表示初步通道权重。

进一步地，基于行人图像的最终通道权重值，利用注意力层构建行人重识别模型，包括以下步骤：

将中间特征与最终通道权重值相乘，生成注意力特征；

将注意力层嵌入到ResNet-50网络的各卷积层中，得到行人重识别模型，并将注意力特征与中间特征相加，作为行人重识别模型的输出特征。

进一步地，注意力特征的计算公式为：

式中，表示中间特征，/>表示最终通道权重值，/>表示克罗内克积运算；

输出特征的计算公式为：

。

进一步地，利用行人重识别数据集对行人重识别模型进行训练的具体方法为：利用联合损失函数对行人重识别模型进行训练。

进一步地，联合损失函数的表达式为：

式中，表示交叉熵损失函数，/>表示三元组损失函数，/>表示中心损失函数，表示中心损失函数的权重值。

附图说明

图1为本发明实施例提供的基于多尺度通道注意力机制的行人重识别方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

本发明提供了一种基于多尺度通道注意力机制的行人重识别方法，如图1所示，包括以下步骤：

利用训练后的行人重识别模型进行行人重识别。

本发明涉及如何通过有效的多尺度通道注意力机制使行人重识别更加准确，从而提升行人重识别系统的寻人效率。具体涉及到在行人重识别任务中，通过在行人重识别模型的主干网络中嵌入多尺度通道注意力机制以解决行人被遮挡和行人外观相似等问题，最终实现一种更加高效准确的行人重识别方法。

在本发明实施例中，行人重识别任务的关注目标是专注于与人物特征相关的特征，所以需要对与人物相关的特征进行增强。提出一种多尺度通道注意力方法，由局部跨通道交互模块和通道权重整合模块组成。构建局部跨通道交互模块来执行局部跨通道操作以聚合局部通道信息，并且同使用平均池化特征和最大池化特征。

利用注意力层获取行人图像的最终通道权重值，包括以下步骤：

连接最大池化权重和平均池化权重，生成初步通道权重；

在本发明实施例中，最大池化特征的计算公式为：

式中，表示对行人图像进行最大池化操作，/>表示特征图的长，/>表示特征图的宽，/>表示中间特征，/>表示中间特征/>第/>行第/>列的特征值；/>，；

平均池化特征的计算公式为：

式中，表示对行人图像进行平均池化操作。

在本发明实施例中，最大池化权重的计算公式为：

式中，表示大小为/>的一维卷积操作，/>表示对行人图像特征进行最大池化操作，/>表示中间特征，/>表示最大池化特征；/>；通过一维卷机适当地捕获本地跨通道交互来保证效率和有效性。

平均池化权重的计算公式为：

式中，表示对行人图像进行平均池化操作，/>表示平均池化特征，。

在本发明实施例中，为了有效利用和/>中的权重信息，构建通道权重整合模块，它从两个通道权重中提取出语义信息更全面和更具判别性的通道权重。通过连接最大池化通道权重/>和平均池化通道权重/>得到连接后的通道权重，初步通道权重/>的计算公式为：

式中，表示两个张量沿着第/>维连接操作，/>表示最大池化通道权重，/>表示平均池化通道权重，/>。

在本发明实施例中，为了整合出更具判别性的通道权重，将连接后的通道权重经过/>大小的卷积层得到/>，再经过ReLU激活函数，以提取更加丰富的通道权重/>，最终通道权重值/>的计算公式为：

在本发明实施例中，根据多尺度通道注意力机制捕获了通道的注意力权重，将其嵌入到行人重识别的网络模型之中，使模型能够关注到更具判别性的行人特征。模型采用ResNet-50为模型的主干网络，将注意力机制嵌入到网络的不同层中，输入中间层特征到注意力机制，在注意力机制捕获通道权重/>之后，使其与输入特征相乘以获得注意力特征，在获取注意力特征/>后，使用残差连接，即使注意力特征/>与输入特征/>进行相加得到更具判别性的输出特征/>。残差连接是为了在任何预训练模型中插入一个新块，而不会破坏其初始性能。

基于行人图像的最终通道权重值，利用注意力层构建行人重识别模型，包括以下步骤：

将中间特征与最终通道权重值相乘，生成注意力特征；

在本发明实施例中，注意力特征的计算公式为：

输出特征的计算公式为：

。

在本发明实施例中，利用行人重识别数据集对行人重识别模型进行训练的具体方法为：利用联合损失函数对行人重识别模型进行训练。

在本发明实施例中，获取公开的行人重识别数据集包括Market1501、DukeMTMC-ReID、CUHK03和MSMT7等，然后数据进行相应的预处理（如：旋转和裁剪等）。联合损失函数的表达式为：

在行人重识别数据集的测试集上进行测试，根据训练出来的网络模型，提取出行人的特征信息；根据所提取的特征，利用相似度进行描述，把特征相似度高的视作同一身份的行人。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多尺度通道注意力机制的行人重识别方法，其特征在于，包括以下步骤：

利用训练后的行人重识别模型进行行人重识别。

2.根据权利要求1所述的基于多尺度通道注意力机制的行人重识别方法，其特征在于：所述利用注意力层获取行人图像的最终通道权重值，包括以下步骤：

连接最大池化权重和平均池化权重，生成初步通道权重；

3.根据权利要求2所述的基于多尺度通道注意力机制的行人重识别方法，其特征在于：所述最大池化特征的计算公式为：

所述平均池化特征的计算公式为：

式中，表示对行人图像进行平均池化操作。

4.根据权利要求2所述的基于多尺度通道注意力机制的行人重识别方法，其特征在于：所述最大池化权重的计算公式为：

所述平均池化权重的计算公式为：

式中，表示对行人图像进行平均池化操作，/>表示平均池化特征。

5.根据权利要求2所述的基于多尺度通道注意力机制的行人重识别方法，其特征在于：所述初步通道权重的计算公式为：

式中，表示两个张量沿着第/>维连接操作，/>表示最大池化通道权重，表示平均池化通道权重。

6.根据权利要求2所述的基于多尺度通道注意力机制的行人重识别方法，其特征在于：所述最终通道权重值的计算公式为：

式中，表示ReLU激活函数，/>表示对进行卷积操作后的初步通道权重，表示/>大小的卷积操作，/>表示初步通道权重。

7.根据权利要求2所述的基于多尺度通道注意力机制的行人重识别方法，其特征在于：所述基于行人图像的最终通道权重值，利用注意力层构建行人重识别模型，包括以下步骤：

将中间特征与最终通道权重值相乘，生成注意力特征；

8.根据权利要求7所述的基于多尺度通道注意力机制的行人重识别方法，其特征在于：所述注意力特征的计算公式为：

所述输出特征的计算公式为：

。

9.根据权利要求1所述的基于多尺度通道注意力机制的行人重识别方法，其特征在于：所述利用行人重识别数据集对行人重识别模型进行训练的具体方法为：利用联合损失函数对行人重识别模型进行训练。

10.根据权利要求9所述的基于多尺度通道注意力机制的行人重识别方法，其特征在于：所述联合损失函数的表达式为：

式中，表示交叉熵损失函数，/>表示三元组损失函数，/>表示中心损失函数，/>表示中心损失函数的权重值。