CN116403237A

CN116403237A - 一种基于关联信息与注意力机制的遮挡行人重识别方法

Info

Publication number: CN116403237A
Application number: CN202310205016.5A
Authority: CN
Inventors: 周书仁; 资帅; 张萍萍; 雷南方
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-07-07

Abstract

本发明公开了一种基于关联信息与注意力机制的遮挡行人重识别方法，结合关联信息与注意力机制设计了一种用于遮挡行人重识别的网络模型，通过对图像通道间的关系进行建模，获取通道间关联信息，再结合通道注意力与空间注意力，使模型关注非遮挡的区域获取显著性的特征。最后结合三元组损失与交叉熵损失优化模型，提升模型准确度。同时，本发明用实验验证了该模型在遮挡行人重识别上的效果，与多种他人所提方法相比，该模型实现了最好的效果，有效的利用了关联信息与注意力机制获取了更具鲁棒性与关联性的特征，解决了遮挡行人重识别准确率不高的问题，为遮挡行人重识别在实际的落地应用中提供了一种更具优势的框架。

Description

一种基于关联信息与注意力机制的遮挡行人重识别方法

本发明涉及计算机视觉技术领域，尤其是一种基于关联信息与注意力机制的遮挡行人重识别方法。

背景技术

行人重识别是计算机视觉方向的一个重要领域，行人重识别即跨摄像头识别图片或者视频中行人是否为同一人。随着科技的发展，监控摄像头数量不断开始增加，人们对于公共安全的需求也不断增加，行人重识别在智能安防，智能商业等方面发挥着极大的作用，具有不可忽视的研究意义与现实意义。然而由于现实条件下摄像头拍摄的图片或者视频中行人经常被遮挡，易导致行人重识别的准确率下降。为了解决遮挡这一问题对行人重识别造成的影响，本发明通过获取通道间关联信息结合注意力机制提取鲁棒性特征。

在深度学习领域，研究者通常在空间维度上对网络进行改进从而获取更具鲁棒性的特征。本发明不是在空间维度改进，而是在在通道上进行改进，发掘通道间的关联信息，通过设计关联信息获取模块对通道之间的关系进行建模，获取通道之间的关联信息。并且通过深度学习网络自动学习通道间的关联信息，赋予重点信息更高的权重，提取更具显著性的特征。

注意力机制起源于对人类视觉的研究，现如今，计算机也能实现注意力机制，一种常用的方法就是对图像的重点关注部分赋予较高的权重，使得计算机提取该重点区域的特征。注意力机制极大的提升了大部分计算机视觉任务的性能水平。注意力机制一般分为通道注意力、空间注意力、时间注意力、分支注意力等等。本发明使用通道注意力与空间注意力结合的混合注意力机制使得模型更加关注行人未被遮挡的区域，提取更具显著性的特征。

发明内容

针对上述现有技术的不足，本发明提供了一种基于关联信息与注意力机制的遮挡行人重识别方法。其目的在于解决由于遮挡问题所导致的行人特征提取鲁棒性与显著性较弱的问题。

为了实现上述目的，本发明提供了一种基于关联信息与注意力机制的遮挡行人重识别方法，包括以下步骤；

S1、构建网络框架，该网络的主干网络由Vision Transformer组成，主要分为关联信息获取模块与注意力机制两部分；

S2、给定行人图像X作为输入，经过关联信息获取模块获得通道关联性特征；

S3、给定行人图像X作为输入，经过通道注意力模块与空间注意力模块获取注意力特征；

S4、融合步骤S2的得到的关联性特征与步骤S3得到的注意力特征形成具有关联性与显著性的特征，称之为融合特征，使用Vision Transformer网络架构用于加强特征间的相互关联性，并将融合特征作为输入送入投影层与多层深度自注意力网络层；

S5、最后依据步骤S4输出的特征计算交叉熵损失与三元组损失，取两种损失之和作为总损失，并据总损失持续优化迭代模型。

本发明提供了一种基于关联信息与注意力机制的遮挡行人重识别方法。与现有技术相比，具备以下有益效果：

本发明对遮挡导致提取的行人特征具有噪声以及显著性较差这一问题进行研究，不仅利用关联信息模块获取图片内各通道之间的关联信息，而且利用通道注意力与空间注意力使得模型更加关注于行人未被遮挡的部分，在行人被遮挡的情况下提取更具鲁棒性与显著性的特征，从而有效解决遮挡导致提取的行人特征具有噪声以及显著性较差这一问题，进一步提升了遮挡行人重识别的识别准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明专利中一种基于关联信息与注意力机制的遮挡行人重识别方法总的网络结构图。

图2是本发明专利中关联信息获取模块的结构图。

图3是本发明专利中通道注意力模块的结构图。

图4是本发明专利中空间注意力模块的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

下面结合说明书附图以及具体的实施方式对本发明作详细说明。一种基于关联信息与注意力机制的遮挡行人重识别方法包含步骤S1～S5：

S1、构建网络框架，该网络的主干网络由Vision Transformer组成,主要分为关联信息获取模块与注意力机制两部分；

下面对各个步骤进行详细描述。

在步骤S1中，构建网络架构，如图1所示，该网络主要由关联信息获取模块与注意力机制两部分组成。其步骤具体为：

S101、构建一个基于Vision Transformer的框架，主要由关联信息模块与注意力机制两个分支组成。

S102、将行人图像进行预处理，并将其转换为数字信息。

在步骤S2中，给定行人图像X作为输入。如图2所示，经过关联信息获取模块获得通道关联性特征。其步骤具体为：

S201、关联信息获取模块的特征提取使用了多层的卷积神经网络，主要包括全局平均池化层与全连接层。首先图片经过全局平均池化层压缩，随后再重塑得到一个通道描述符D_c：

D_c(X)＝View(Avgpool(X)) (1)

其中X表示行人图像，

B表示一次输入的图片数量，C表示图片的通道数，H表示图片的高度，W表示图片的宽度。Avgpool代表一个全局平均池化层，View表示将通道描述符重塑为B×C的二维特征，经过全局平均池化以及重塑后的通道描述符

S202、将通道描述符送入两个全连接层以构建通道间关联信息，得到通道相关性权重Y：

Y(D_c)＝View(σ(FC2(ReLU(FC1(D_c))))) (2)

其中FC1表示输入通道为C且输出通道为C/3的全连接层，FC2表示输入通道为C/3且输出通道为C的全连接层，ReLU表示ReLU激活函数,σ表示Sigmoid激活函数，View函数的作用是将通道相关性权重

重塑为/>

S203、将通道相关性权重Y扩展后，以便于与原始图片相乘，输出通道关联性特征T_c：

其中Expand函数表示将Y扩展至与X相同维度，*表示两矩阵各对应元素相乘。

在步骤S3中，需要给定行人图像X作为输入，经过通道注意力模块与空间注意力模块获取注意力特征。

S301、首先，经过通道注意力模块的得到通道注意力特征T_chanel，如图3所示，通道注意力模块包括平均池化层，最大池化层以及多层感知机等，首先将行人图片通过平均池化层再通过多层感知机得到T_A，同时通过最大池化层再通过多层感知机得到T_M，随后将得到的T_A与T_M相加，之后通过激活函数再乘行人图片X得到通道注意力特征T_chanel：

其中MLP(Multilayer Perceptron)表示多层感知机，Avgpool表示平均池化，Maxpool表示最大池化，σ表示Sigmoid激活函数，

S302、其次，将S301得到的通道注意力特征送入空间注意力模块得到通道空间混合注意力T_cas,如图4所示，空间注意力模块包括平均池化层、最大池化层以及卷积层等，首先将行人图片通过平均池化层与最大池化层，将得到的特征连接起来后送入一个卷积核为7的卷积层，随后经过Sigmoid激活函数，再与行人图像X相乘得到通道空间混合注意力特征T_cas：

其中，

表示拼接操作，作用是将两个矩阵连接起来，*、σ、Maxpool以及Avgpool与上文相同，不再赘述，Conv表示卷积层，/>

在步骤S4中，融合步骤S2的得到的关联性特征与步骤S3得到的注意力特征形成具有关联性与显著性的特征，称之为融合特征，使用Vision Transformer网络架构用于加强特征间的相互关联性，并将融合特征作为输入送入投影层与多层深度自注意力网络层。

S401、将步骤S2获取的通道关联性特征T_c再加上步骤S3获取的通道空间混合注意力特征T_cas得到融合特征T_fuse：

T_fuse＝T_c+T_cas (6)

其中T_fuse表示融合了与关联信息与注意力机制的融合特征，

S402、将融合特征T_fuse送入自注意力层得到特征映射，再经过投影层投影获得第一层深度自注意力网络的输出

其中，Attention表示自注意力模块，用于发掘融合特征之间的关联信息，Projection表示投影模块，用于将特征重塑为Vision Trasnformer需要的输入维度。

S403、随后将步骤S402得到的输出送入Vision Transformer的L层深度自注意力网络层得到具有鲁棒性与显著性的最终特征

其中，

表示第一层深度自注意力网络的输出，/>

表示上一层深度自注意力网络的输出，LN表示LayerNomal层，用于保留不同特征之间的大小关系以及特征之间的时序关系，MSA(Multi-head Self-Attention)表示多头自注意力，用于获取特征之间的上下文信息。

S5、其具体步骤为：根据输出的特征计算交叉熵损失以及三元组损失，并根据损失持续优化模型

S501、该网络结构模型的损失函数包括交叉熵损失以及三元组损失。交叉熵损失是一种常用的机器学习损失函数，对于一个批次(batch)的n类行人图片，用于行人分类的交叉熵函数L_CrossEntropy定义如下：

其中，batch表示一次输入多少张行人图片，n表示有多少位(类)行人，log表示数学上的取对数操作，y_ji表示是该批次该行人的真实概率，y′_ji表示是该批次该行人的预测概率。总的来说，交叉熵损失函数的作用是使模型获得的预测值与真实值无限的趋近，能够评估模型的准确性，迭代多次之后使预测更加的准确且更加接近真实值。

除交叉熵损失函数之外，还使用了三元组损失函数，用于训练集中的三元组，即三个实体或实体对计算损失，以改进机器学习模型的准确性。它主要用于推理和关系建模的任务，其中需要预测三元组之间的关系。三元组损失函数可以帮助模型训练，从而提高模型的准确性。三元组损失L_triplet其定义如下：

其中，

表示样本的特征表达，/>

表示正样本的特征表达，/>

表示负样本的特征表达，/>

表示负样本对(样本与负样本)的欧式距离，即目标图像与最不相似的图像这一样本对的距离，/>

表示正样本对(样本与负样本)的距离。即目标图像与最相似的图像这一样本对的距离。λ是一个必须的参数，表示负样本对与正样本对之间的距离要有一个最小的间隔。

最终模型总损失为部分三元组损失与交叉熵损失之和：

Loss＝L_CrossEntropy+αL_triplet (11)

其中，α表示一个参数。

S502、机器学习中的网络模型损失优化是一种用于调整模型参数以最小化损失函数的方法。是一个通过减少损失不断优化迭代的过程，它有助于模型更有效地拟合数据，以获得更好的预测结果。具体过程是在训练一轮后，将这一轮获得的损失反馈至模型之中，随后进行下一轮的训练，在进行多次反复迭代之后达到降低损失的效果，使得预测结果越来越接近真实值，即行人重识别效果越来越好。

为了验证本发明方法的有效性，实验在Market1501这个常用于行人识别的数据集与DukeMTMC这个常用于遮挡行人重识别的数据集上进行。

(1)Market1501数据集是由清华大学校园内的六个不同摄像头采集总计1501人的32668张的图像。该数据集使用DPM和手动注释对行人图片进行标注。有两种评价模式：单人查询和多人查询。单人查询是指用一张行人图片进行查询，本发明使用单人查询进行实验。

(2)DukeMTMC数据集是由杜克大学的八个不同摄像头采集总计1812人的36411张图像。与Market1501不同的是，该数据集行人标记采用手动标记的方法。该数据集对于行人重识别来说是一个具有挑战性的数据集，因为该数据集不仅在不同行人之间存在高度的相似性，而且即使是同一行人的不同图片也存在较大的差异。

本发明进行实验所使用的操作系统为Ubuntu 20.04.1LTS，使用两张显存为12G的GPU(型号为GeForce GTX TITAN X)。此外，实现一种基于关联信息与注意力机制的遮挡行人重识别方法采用的开源深度学习框架是Pytorch。

本发明对公式(11)中α进行实验，将其设置为0.6-1.4之间，经过了一系列实验，最终发现在α＝1.0时效果最好。

表1总损失α参数设置对行人重识别效果的影响

α的值	mAP(％)	Rank-1(％)
			0.6	86.57	93.82
0.7	87.01	94.66
			0.8	86.93	94.15
0.9	87.09	94.21
			1.0	87.57	94.80
1.1	87.26	94.60
			1.2	87.25	94.66
1.3	87.38	94.69
			1.4	87.49	94.54

α参数设置的实验结果如表1所示，该实验在行人重识别通用数据集Market1501上进行，mAP是平均准确度均值，Rank-1是第一命中率，表示模型返回排序图片列表中第一个结果正确匹配的概率，两者都是行人重识别的评价指标(越高越好)。在α设置为1.0时，评价指标mAP与Rank-1皆比将α设置为其他值要高，故本发明将α参数设置为1.0。

本发明方法与一些主流的行人重识别方法进行了性能比较：CBN+Bot、DG-Net、IS-GAN、CAP、SPReID、SGGNN、GPS、APDR、SONA2+3、P2-Net、ISP。为了对比本发明方法与其它基于深度学习的行人重识别方法的检索性能，本发明采用了平均准确度均值(mAP)、第一命中率(Rank-1)、第五命中率(Rank-5)与第十命中率(Rank-10)来作为评估标准，在Market1501上的实验效果表现如表2所示：

表2本发明方法与其他方法在数据集Market1501上实验效果比较

方法	mAP(％)	Rank-1(％)	Rank-5(％)	Rank-10(％)
					CBN+Bot	83.6	94.3	97.9	98.7
DG-Net	86.7	90.9	-	-
					IS-GAN	87.1	95.2	-	-
CAP	85.1	93.3	97.5	98.4
					SPReID	81.3	92.5	97.2	81.3
SGGNN	82.8	92.3	96.1	97.4
					Ours	87.31	94.77	98.28	98.87

本发明在DukeMTMC上的实验效果表现如表3所示：

表3本方法与其他方法在数据集DukeMTMC上实验效果比较

方法	mAP(％)	Rank-1(％)	Rank-5(％)	Rank-10(％)
					CAP	67.3	81.1	89.3	91.8
GPS	78.7	88.2	95.2	96.7
					APDR	69.7	84.3	92.4	94.7
SONA2+3	78.3	89.4	95.4	96.6
					P2-Net	73.1	86.5	931	95.0
ISP	80.0	89.6	95.5	-
					Ours	80.09	89.77	95.83	97.4

表中加粗的结果表示在一众行人重识别方法中表现最好的结果，从表2可以看出，在Market1501数据集上本发明方法的效果达到了较好的水平，四个评价指标中有三个(mAP，Rank-5，Rank-10)都是第一。

从表3可见，本发明方法在DukeMTMC数据集上本发明的效果达到了极好的水平，DukeMTMC数据集是常用于遮挡行人重识别的数据集，在此数据集上实验，本发明的四个评估指标与其他行人重识别方法相比都达到了最好的效果。

显然，本方法与其他方法相比具有较大优势，不论是在行人重识别数据集上还是遮挡行人重识别数据集上，都具有不俗的表现。

本发明方法利用关联信息与注意力机制解决遮挡下的行人重识别问题，并通过实验验证了其较好的效果，得到的实验结果相比其它行人重识别的深度学习方法都要更好。

本发明还提出一种计算机设备，包括存储器和处理器，所述存储器有存储计算机程序，所述处理器执行所述计算机程序时实现上述所述方法的步骤。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于关联信息与注意力机制的遮挡行人重识别方法，其特征在于，所述方法由计算机执行，包括以下步骤：

2.如权利要求1所述的基于关联信息与注意力机制的遮挡行人重识别方法，其特征在于，S1的具体实现过程如下：

S101、构建一个基于Vision Transformer的框架，主要由关联信息模块与注意力机制两个分支组成；

S102、将行人图像进行预处理，并将其转换为数字信息。

3.如权利要求1所述的基于关联信息与注意力机制的遮挡行人重识别方法，其特征在于，S2的具体实现过程如下：

S201、关联信息获取模块的特征提取使用了多层的卷积神经网络，主要包括全局平均池化层与全连接层，首先图片经过全局平均池化层压缩，随后再重塑得到一个通道描述符D_c：

D_c(X)＝View(Avgpool(X)) (1)

其中X表示行人图像，

B表示一次输入的图片数量，C表示图片的通道数，H表示图片的高度，W表示图片的宽度，Avgpool代表一个全局平均池化层，View表示将通道描述符重塑为B×C的二维特征，经过全局平均池化以及重塑后的通道描述符/>

Y(D_c)＝View(σ(FC2(ReLU(FC1(D_c))))) (2)

重塑为/>

4.如权利要求1所述的基于关联信息与注意力机制的遮挡行人重识别方法，其特征在于，S3的具体实现过程如下：

S301、首先，经过通道注意力模块的得到通道注意力特征T_chanel，通道注意力模块包括平均池化层，最大池化层以及多层感知机等，首先将行人图片通过平均池化层再通过多层感知机得到T_A，同时通过最大池化层再通过多层感知机得到T_M，随后将得到的T_A与T_M相加，之后通过激活函数再乘行人图片X得到通道注意力特征T_chanel：

T_chanel(X)＝X*σ(T_A+T_M)

＝X*σ(MLP(Avgpool(X))+MLP(Maxpool(X))) (4)

S302、其次，将S301得到的通道注意力特征送入空间注意力模块得到通道空间混合注意力T_cas，空间注意力模块包括平均池化层、最大池化层以及卷积层等，首先将行人图片通过平均池化层与最大池化层，将得到的特征连接起来后送入一个卷积核为7的卷积层，随后经过Sigmoid激活函数，再与行人图像X相乘得到通道空间混合注意力特征T_cas：

T_cas(T_chanel)＝X*σ(Conv(Maxpool(T_chanel)⊕Avgpool(T_chanel))) (5)

其中，⊕表示拼接操作，作用是将两个矩阵连接起来，*、σ、Maxpool以及Avgpool与上文相同，不再赘述，Conv表示卷积层，

5.如权利要求1所述的基于关联信息与注意力机制的遮挡行人重识别方法，其特征在于，S4的具体实现过程如下：

T_fuse＝T_c+T_cas (6)

其中T_fuse表示融合了与关联信息与注意力机制的融合特征，

其中，Attention表示自注意力模块，用于发掘融合特征之间的关联信息，Projection表示投影模块，用于将特征重塑为Vision Trasnformer需要的输入维度；

其中，

表示第一层深度自注意力网络的输出，/>

6.如权利要求1所述的基于关联信息与注意力机制的遮挡行人重识别方法，其特征在于，S5的具体实现过程如下：

S501、该网络结构模型的损失函数包括交叉熵损失以及三元组损失，交叉熵损失是一种常用的机器学习损失函数，对于一个批次(batch)的n类行人图片，用于行人分类的交叉熵函数L_CrossEntropy定义如下：

其中，batch表示一次输入多少张行人图片，n表示有多少位(类)行人，log表示数学上的取对数操作，y_ji表示是该批次该行人的真实概率，y′_ji表示是该批次该行人的预测概率，除交叉熵损失函数之外，还使用了三元组损失函数，用于训练集中的三元组，即三个实体或实体对计算损失，以改进机器学习模型的准确性，三元组损失主要用于推理和关系建模的任务，三元组损失函数可以帮助模型训练，从而提高模型的准确性，三元组损失L_triplet其定义如下：

其中，

表示样本的特征表达，/>

表示正样本的特征表达，/>

表示负样本的特征表达，/>

表示正样本对(样本与负样本)的距离，即目标图像与最相似的图像这一样本对的距离，λ是一个必须的参数，表示负样本对与正样本对之间的距离要有一个最小的间隔，最终模型总损失为部分三元组损失与交叉熵损失之和：

Loss＝L_CrossEntropy+αL_triplet (11)

其中，α表示一个参数；

S502、机器学习中的网络模型损失优化是一种用于调整模型参数以最小化损失函数的方法，是一个通过减少损失不断优化迭代的过程，它有助于模型更有效地拟合数据，以获得更好的预测结果，具体过程是在训练一轮后，将这一轮获得的损失反馈至模型之中，随后进行下一轮的训练，在进行多次反复迭代之后达到降低损失的效果，使得预测结果越来越接近真实值，即行人重识别效果越来越好。