CN113158905A

CN113158905A - 一种基于注意力机制的行人重识别方法

Info

Publication number: CN113158905A
Application number: CN202110441436.4A
Authority: CN
Inventors: 史扬艺; 陈颖聪; 黄坤山
Original assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Current assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-23

Abstract

本发明提供了一种基于注意力机制的行人重识别方法，其特征在于，包括如下步骤：准备数据集，数据清洗、预处理以及数据增强；特征提取器的设计；特征优化器的设计；特征融合器的设计；特征分类器的设计；注意力机制在通道域上的设计；注意力机制在空间域上的设计；合成网络对输入数据进行训练；在上下文感知的基础上增加模态之间的特征感知，学习得到不同特征间的关联权重参数值，从而提高特征的有效区分能力；该方法达不仅较好地保留了低质量图像的细节信息，还提升了特征的表征能力，增强了网络行人识别任务的判别能力。

Description

一种基于注意力机制的行人重识别方法

技术领域

本发明涉及目标检测技术领域，尤其涉及一种基于注意力机制的行人重识别方法。

背景技术

现代社会高速发展，社会安防措施和人们的安全意识与日俱增，监控技术的应用也渗透进生活的各个方面，不管是在人群密集的场所，还是在需要安保的场所，一般监控都是全方位覆盖。在监控领域，计算机通过监控摄像头来获取巨量的视觉信息，同时利用相关算法来完成识别任务。目标检测算法用于定位和识别监控视频中的行人、机动车、非机动车等目标。通过该算法完成监控任务，包括监控目标跟踪、行为识别和重识别等。考虑到单个摄像头覆盖范围有限，可以将多个摄像头联动，组合实现对目标跨摄像头的跟踪，行人重识别技术是实现多摄像头跟踪的重要技术之一。

行人重识别技术用于识别不同视角下、不同监控拍摄的特定行人，给定由某个监控捕获的特定目标的图像，行人重识别系统在其他监控中重新识别该对象。表现出不同摄像头拍摄同一个目标的差异情况以及拍摄不同目标时在视觉上表现相似的情况，不同监控拍摄得到的画面可能存在光线、视角、姿态等变化以及遮挡等问题，不同摄像头由于视角和拍摄时间不同导致得到的相同目标的图像也存在明显区别；有时，因为不同目标由于存在某种相似性也会干扰行人重识别系统的判断，此时同一个监控中的不同行人对象也在视觉分布上具有相似性。

行人重识别的研究可以追溯到多摄像头追踪研究分支，在早期，行人重识别任务的模型基于多摄像头间使用几何校正，1997年提出贝叶斯公式，该公式用来估计出现在给定摄像头中的行人为其他摄像头所拍摄行人的后验概率。模型使用的特征为多态时空特征，包括颜色，车辆的长、宽、高，速度以及观察到的时间等。2005年研究人员正式提出行人重识别这个概念，对一个离开拍摄区域，一段时间后又重新回到原拍摄视野的行人目标进行重新识别，假设每个被观测对象都存在唯一的潜在标签，定义一种描述动态贝叶斯网络编码标签和所拍摄特征间关系的概率模型。在深度学习未引入行人重识别之前，传统的行人重识别方法大致分为两大类：使用手工特征以及度量学习。 2014年深度学习首次引入到行人重识别领域，Yi等人使用孪生网络判定监控图像中是否为同一个目标。在最近几年的研究中，基于深度学习的行人重识别方法在某些方面重新开始使用手工特征。例如Li等人从图像块中提取局部颜色特征，之后使用分层高斯方法对特征执行聚类操作来获得空间信息。除此之外，手工选择特征时还可以选择使用基于属性的特征，基于属性的特征具有更强鲁棒性。Liu等人在无监督方法中使用一般属性的手工特征来获取行人目标原型，根据原型自适应学习得到不同行人目标相应的权重值。在手动提取特征的行人重识别系统中，由于视觉特征这类手工属性具有高维的特点，无法在不断变化的样本中捕捉得到不变的因子，因此不同的距离度量方式产生不同的性能表现。在行人重识别领域，广泛使用的是基于全局监督的度量学习，全局度量学习的目标是最小化同类对象特征向量之间的距离，最大化异类对象特征向量之间的距离，广泛使用的度量方式是马氏距离。在研究初期，基于深度学习的行人重识别方法的最大瓶颈在于训练数据匮乏。目前基于卷积神经网络的行人重识别方法一般选择使用孪生模型，但是孪生网络存在的问题是在网络训练过程中可能仅学习到图像对或者三元图像的标签信息，不能充分利用行人目标的注释信息，学习到的特征表征可能存在偏差。行人重识别任务需要关注不同尺度的特征，2017年，Li等人使用膨胀率不同的膨胀卷积提取多尺度特征后实现行人重识别任务；2018年，Song等人为了解决行人重识别背景杂乱，将行人掩码信息引入行人重识别任务中，根据二值掩码，移除杂乱的背景，将人体目标从整张图像中分割出来，从而完成行人重识别任务。

虽然行人重识别领域经历了多轮的技术更迭，但是仍然存在一些亟待解决的问题，第一点，由于摄像机得到的监控视频流无法表现出序列特征的相关性，因此视频特征的重要性也无法得到有效区分，在行人重识别任务中影响了目标特征的表征效果；第二点，从不同维度描述监控图像时，缺乏从跨维度、跨模态的全局视野去捕捉更具整体判别效果的关键特征。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于注意力机制的行人重识别方法。

本发明的目的通过下述技术方案实现：

一种基于注意力机制的行人重识别方法，该方法主要包括如下具体步骤：

S1、准备数据集，数据清洗、预处理以及数据增强；

S2、特征提取器的设计；

S3、特征优化器的设计；

S4、特征融合器的设计；

S5、特征分类器的设计；

S6、注意力机制在通道域上的设计；

S7、注意力机制在空间域上的设计；

S8、合成网络对输入数据进行训练。

进一步地，所述步骤S1还包括：对收集到的数据样本进行清洗以及预处理，把图像序列以及光流序列全部缩小到128×256大小，然后以0.2的概率进行水平翻转来增强训练集。

进一步地，所述步骤S2还包括：特征提取器提取模态的基本特征，光流输入模态经过特征提取器后获得特征X和特征F，然后输入到特征优化器进行后续处理，在提取特征时，通过叠加神经网络来增加网络深度，实现远距离的信息提取任务，越高层的卷积神经网络层具有更大的感受野，从而可以捕获更多图像特征信息。

进一步地，所述步骤S3还包括：在网络架构中，所述特征优化器通过神经元的串联结构来捕捉视频序列流中的上下文信息，在感知信息的监督下，采用门结构的形式来学习权重参数，对模态数据进行优化处理，具体表现为：模态每一帧的信息都具有前后相邻帧中的连续信息以及模态的全局感知能力。

进一步地，所述步骤S4还包括：特征融合器将特征优化器的输出特征沿着通道方向进行融合处理，得到整个视频段的最终表征向量，将得到的特征加权拼接，特征融合器采用改进后的残差网络，不同层的特征具有不同的图像信息表征能力，在低维阶段，输出特征图中缺乏语义信息，在高维阶段，输出特征图具有更多上下文信息及语义信息。

进一步地，所述步骤S5还包括：特征分类器的输入为特征融合器输出的表征向量，传送到全连接层用于分类，最终实现行人重识别的任务。

进一步地，所述步骤S6还包括：通道注意力建模出不同通道即不同特征图之间的联系，通过网络学习自动获取每个特征通道的重要程度，最后再为每个通道赋予相应的权重系数，借助权重参数来强化重要特征以及抑制无关特征。

进一步地，所述步骤S7还包括：空间注意力机制嵌入到原始网络中，计算每个位置单独的特征时需要对所有位置执行加权的操作，从而建立起多帧特征间的联系，每个分支的基础特征分别利用自注意力进行全局优化，利用帧级优化的特征生成全局注意力掩码，使得段级的特征优化具有双模态的全局感知信息。

进一步地，所述步骤S8还包括：在网络的实际训练过程中，根据以ResNet50为基础提取网络的ImageNet预训练模型对本发明中构建的网络进行参数初始化，采用批量梯度下降进行训练，其中batch size的大小设置为8，在训练过程中随机失活率设置为0.5，学习率初始值设置为0.001，学习率每经过10个epoch就衰减10％。

与现有技术相比，本发明还具有以下优点：

(1)本发明所提供的基于注意力机制的行人重识别方法与传统技术相比实践条件更宽松且性能更优越，本发明提出的算法不仅达到了很好的图像增强效果，同时也较好地保留了低质量图像的细节信息；传统的注意力机制通过全局平均池化计算出一个权值系数，然后利用该系数对原始输入特征图执行统一缩放的操作，全局平均池化在二维空间层面上对输入张量进行分解，浓缩为单个系数值，可能导致空间细节信息的缺失，而且只基于通道操作，可能忽略掉空间中的关键信息。本发明构建的模型生成带有多模态全局感知效果的权重矩阵，相比过去用于行人重识别任务的网络具有提升全局特征的优化效果，网络各层的特征在视频表征上互补，因此增强了网络最终行人识别的判别能力。

(2)本发明所提供的基于注意力机制的行人重识别方法通过神经元的串联结构来捕捉序列上下文的联系，在上下文感知的基础上增加模态间的特征感知，学习不同特征之间的关联权重，提高特征的有效区分能力。

附图说明

图1是本发明所提供的基于注意力机制的行人重识别方法的流程图；

图2是本发明所提供的网络模型的整体架构示意图；

图3是本发明所提供的空间注意力机制嵌入到网络后的示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明作进一步说明。

以下首先就本发明的技术术语进行解释与说明：

感受野：感受野表示输入空间中一个特定CNN特征的范围区域。一个特征的感受野可以采用区域的中心位置和特征大小进行描述。 CNN中每层的Feature Map上的像素点在原始图像中映射的区域大小，相当于高层的特征图中的像素点受原图多大区域的影响。

上采样：上采样又称为放大图像或图像插值，主要目的是放大原图像，从而可以显示在更高分辨率的显示设备上。图像放大几乎都是采用内插值方法，即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。

下采样：即缩小图像，主要目的有两个：使得图像符合显示区域的大小以及生成对应图像的缩略图。

数据增强：图像增强的方式有很多，如裁剪、翻转、旋转、缩放、扭曲等几何变换，还有像素扰动、添加噪声、光照调节、对比度调节、样本加和或插值、分割补丁等。数据增强可以提高模型性能，原因在于：增强的样本和原来的样本存在强相关性，数据增强扩充了数据集，并且可以带来某种正则化作用，因为模型会更集中地观测数据总的普遍模式，而消除了某些和普遍模式无关的数据，进而可以减小模型的结构风险。

卷积层：是深度学习提取特征的基本网络层，卷积是一种过滤器，是通过矩阵之间对应元素相乘并累加的结果，迭代移动的矩阵称为卷积核，卷积核一般是较小的矩阵，因此卷积具有局部性，迭代地对图像特征矩阵进行卷积操作，可以得到矩阵的局部感知和局部特征；除此之外，卷积核具有共享参数的作用，所以在训练过程中减少参数量。

池化层：增加模型感受野的关键层，池化是一种局部区域特征描述的方式，将局部特征融合得到一个特征值作为整个局部的表征，分为最大池化和平均池化，体现在RoIPooling中；全局平均池化指的是将最后一层网络层得到的每个通道特征图平均池化得到通道的特征，每个通道特征代表模型提取出的一个图形信号分量，在网络设计时把全局平均池化层取代全连接层是一个常用技巧。

激活函数层：卷积核池化都是线性操作，所以需要激活函数来进行非线性地变换，使得网络能够去拟合非线性的环境。其中激活函数 sigmoid还可以用于模型特征图归一化，是常见的归一化函数。

全连接层：每个神经元都与上层所有神经元紧密相连，对上一层网络的特征加权，从而将特征空间线性映射到样本空间，全连接层可以看做是分类器，缺点是全连接设计导致参数量巨大；因为全连接还具有关联通道特征的作用，所以也会使用在网络设计时的注意力机制中。

循环神经网络：在时序上传递的网络，与全连接网络和卷积神经网络是完全不同的设计架构。循环神经网络的前向传播计算需要综合当前节点的输入和上一隐藏层的值，反向传播时也是类似的。

卷积神经网络：由卷积层、池化层、激活函数层、全连接层等相关网络层构建得到，通过网络层的堆叠设计，网络模型感受野的增加，提取图像的下层特征、中层特征以及上层特征，实现图像表征。

实施例一

如图1至图3所示，本实施例公开了一种基于注意力机制的行人重识别方法，包括如下具体实施步骤：

S1、准备数据集，数据清洗、预处理以及数据增强；在网上筛选两个摄像头的视频序列监控数据，收集了其中200个用户实例，得到的视频序列有400份。

模型的整体架构设计，主要包括四个模块：特征提取器、特征优化器、特征融合器、特征分类器。除了基础架构外，还要在结构中引入注意力机制，注意力机制的引入需要结合两个模态，一个是基于通道域的模态，另一个是基于空间域的模态，之所以考虑两个模态是因为在不同模态上具有不同表征。注意力机制是模型设计中最重要的部分，许多功能的实现都与注意力机制相耦合。

S2、特征提取器的设计；视频流相较于图像数据而言，具有更丰富的特征信息，但同时引入的冗余信息也会增加，所以需要在设计特征提取器时考虑降低网络中的特征冗余程度。

S3、特征优化器的设计；在网络架构中，借助神经元串联的结构设计来捕捉视频序列流中的上下文信息。

S4、特征融合器的设计；将低维和高维上不同表征的特征相融合。

S5、特征分类器的设计；

S6、注意力机制在通道域上的设计；输入是特征融合器输出的表征向量，传送到全连接层用于分类，最终实现了行人重识别的任务。

S7、注意力机制在空间域上的设计；通道注意力将一个通道内的信息直接进行全局处理，忽略空间上的信息交换。

注意力机制在空间域上的设计，空间注意力通过学习视觉特征的全局相关性，辅助完成时空特征的区分任务。

S8、合成网络对输入数据进行训练；用合成网络训练预处理后的数据集，训练过程中使用ResNet50作为基础网络的ImageNet预训练模型。

步骤S1还包括：对收集到的数据样本进行清洗以及预处理，把图像序列以及光流序列全部缩小到128×256大小，然后以0.2的概率进行水平翻转来增强训练集。

注意力机制的本质是通过网络自主学习得到一组权重系数，以动态加权的方式来强调输入中感兴趣的区域，同时抑制输入中不相关的背景区域；注意力机制分为两类：强注意力和软注意力；强注意力是一种随机的预测，注重的是动态变化，并且是不可微的，所以使用场景受到限制；软注意力是可微的，基于梯度下降法训练的神经网络中可以获得软注意力，正因为软注意力是可微的，所以在使用场景上相对不会受到限制。软注意力按照不同维度，例如通道、空间、时间等，将软注意力分为通道注意力、空间注意力以及自注意力。

步骤S2还包括：视频流相较于图像数据而言，具有更丰富的特征信息，但也会在网络中引入过多的冗余信息，所以需要在设计特征提取器时考虑降低网络中特征信息的冗余程度。特征提取器提取模态的基本特征，光流输入模态经过特征提取器后获得特征X和F，然后输入到特征优化器进行后续的处理操作。在提取特征时，通过叠加神经网络来增加网络深度，实现长远距离的信息提取任务，越高层的卷积神经网络层具有更大的感受野，从而可以捕获更多图像特征信息。在进行特征提取时，卷积神经网络的窗口滑动过程没有先后顺序，不同卷积核的卷积过程相互独立。视频流相对于图像数据来说信息更丰富，但同时在视频的单个序列中也会存在过多的冗余信息，所以特征提取器在提取特征时需要聚焦于关键帧，降低信息冗余度，在相似特征中保留一个特征即可。

步骤S3还包括：特征优化器由两个对称的注意力模块而构成，根据全局注意力感知方式，由帧级优化特征生成权重掩码，对原始基础特征的变换进行加权，得到对应模态的优化特征。特征优化器通过神经元的串联结构来捕捉视频序列流中的上下文联系，在感知信息的监督下，采用门结构的形式来学习权重参数，对模态数据进行特征的优化操作，使得模态每一帧信息中都具有前后相邻帧中的连续信息以及模态的全局感知能力。

步骤S4还包括：特征融合器是将特征优化器的输出特征图沿通道方向进行融合处理，得到整个视频段的最终表征向量。在特征融合网络的设计过程中，考虑了多种设计方案，第一种方案是把每个分支网络输出特征向量的权重值均设置为1，即平均分配重要程度，然后再送入后续网络中进行训练，模型自适应学习得到各自真实权重值；第二种方案是手动设置每个分支网络输出特征向量融合时的权重值，然后再送入后续网络，在训练过程中进行参数的微调；本发明在设计网络过程或者采用第二种特征加权拼接方式，特征融合器由改进后的 52层残差网络构成，不同网络层的特征具有不同的图像信息表征能力，在低维阶段，由于感受野比较小，所以输出特征图缺乏语义信息，在高维阶段，感受野较大，此时网络输出特征图具有了更多的上下文信息以及语义信息。

步骤S5还包括：特征分类器的输入是特征融合器输出的表征向量，传送到全连接层用于分类，最终实现了行人重识别任务。

步骤S6还包括：通道注意力建模出不同通道即不同特征图之间的联系，网络自适应学习获取每个特征通道的重要程度，为每个通道赋予不同的权重系数，借助权重参数强化重要特征以及抑制无关特征。 SENet网络借助特征重标定自适应调整通道之间的特征响应，SENet 网络结构中对输入图像先降维再升维，利用两个多层感知机学习不同通道间的联系，当前每个特征图都与其他特征图交互，属于密集型连接。基础卷积网络提取特征，随着网络层数高度增加，输出通道数也会增加，每个通道都可以看做是图像信号的部分分量，即图像的某个特征，最后经过全局平均池化操作得到基础的特征表征。在输出的每个特征通道上设置参数，通过附加不同参数引入相应的监督信息，实现在特征通道上对注意力加权的操作。可以将全局平均池化操作泛化表示为2维的离散余弦变换，借助离散余弦变换在模型中引入更多频率分量，通过频域来弥补现有通道注意力方法中特征信息不足的缺点，每个特征通道图都等效于输入图片在不同卷积核上对应的不同分量。

从特征通道本身出发，不同特征表示不同信息，全局平均池化这类操作极大抑制图像特征的多样性，全局平均池化操作等价于离散余弦变换的最低频率分量，若在网络设计过程中仅使用全局平均池化操作，则会忽略输入图像中大量有用的频率分量，导致输出特征图中信息丰富度不理想。

步骤S7还包括：空间注意力机制嵌入到网络中，在每个位置上执行加权的操作来获取每个位置单独的特征，从而建立起多帧特征间的联系。每个分支网络的基础特征利用自注意力机制进行全局优化的操作，利用帧级优化的特征生成全局注意力掩码，从而在段级特征上具有双模态的全局感知。空间注意力机制提升输入图像关键区域的特征表示，将原始图像中的空间信息通过空间转换模块变换到另一个空间域并保留关键信息，在每个位置生成权重掩膜，执行加权操作后输出，从而增强输入中的感兴趣区域以及弱化背景区域。CBAM在通道注意力机制的基础上，在原始网络中引入空间注意力模块，该模块在通道上执行全局平均池化操作以及全局最大池化操作，两个操作分别输出代表不同信息的特征图，将输出特征图合并，再借助具有较大感受野的7×7卷积核来执行特征融合的操作，最后输入sigmoid激活函数层，生成权重图并且与原始输入特征图相叠加，空间注意力机制针对每个通道中的特征都做相同程度的处理，在处理过程中忽略通道之间的交互，增强了原始输入中目标区域的特征。

步骤S8还包括：网络实际训练过程中，根据ResNet50为基础特征提取网络的ImageNet预训练模型对本发明中构建的网络进行参数初始化，网络训练时采用批量梯度下降算法，其中batch size设置为8，训练过程中随机失活率设置为0.5，学习率初始值为0.001，学习率每经过10个epoch就衰减10％。

本发明的工作过程和原理是：本发明提供了一种基于注意力机制的行人重识别方法，针对仍然在行人重识别领域尚未解决的两大问题，包括不能完整获取监控视频流序列的特征相关性，以至于无法准确得到目标特征的表征效果；以及缺少基于维度和模态的全局视野去捕捉更具有整体判别效果的关键特征。本发明构建出的模型从帧级别上得到一个上下文感知模块以及一个多模态感知的特征优化网络结构，模型采用卷积神经网络提取基础特征，通过循环神经网络实现特征间的串联，除此之外，引入自注意力机制到行人重识别的双流网络上，双流段级注意力感知网络通过上一阶段的帧级优化特征生成关联权重掩码，获取多模态的感知信息。本发明构建的网络架构从两个级别上对视频双流特征进行了优化，监控视频流在帧级别和段级别的特征沿通道融合，输出视频流的最终表征，提升网络的整体表达能力。

本发明设计的模型是一种基于注意力机制学习视频段特征关联的监督学习模型，基于双流基础，考虑视频段不同特征间的关联关系，区分每帧视频中不同特征的重要性，通过空间注意力机制学习基于段的特征，与传统空间注意力机制区别在于，本发明通过帧优化特征生成注意力权重，使得视频段的全局感知具有多模态的监督信息。本发明构建的网络生成携带多模态全局感知效果的权重矩阵，相比过去用于行人重识别任务的网络，本发明构建的网络中各层特征在视频表征上互补，因此增强了网络行人重识别的判别能力。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的行人重识别方法，其特征在于，包括如下步骤：

S1、准备数据集，数据清洗、预处理以及数据增强；

S2、特征提取器的设计；

S3、特征优化器的设计；

S4、特征融合器的设计；

S5、特征分类器的设计；

S6、注意力机制在通道域上的设计；

S7、注意力机制在空间域上的设计；

S8、合成网络对输入数据进行训练。

2.根据权利要求1所述的基于注意力机制的行人重识别方法，其特征在于，所述步骤S1还包括：对收集到的数据样本进行清洗以及预处理，把图像序列以及光流序列全部缩小到128×256大小，然后以0.2的概率进行水平翻转来增强训练集。

3.根据权利要求1所述的基于注意力机制的行人重识别方法，其特征在于，所述步骤S2还包括：特征提取器提取模态的基本特征，光流输入模态经过特征提取器后获得特征X和特征F，然后输入到特征优化器进行后续处理，在提取特征时，通过叠加神经网络来增加网络深度，实现远距离的信息提取任务，越高层的卷积神经网络层具有更大的感受野，从而可以捕获更多图像特征信息。

4.根据权利要求1所述的基于注意力机制的行人重识别方法，其特征在于，所述步骤S3还包括：在网络架构中，所述特征优化器通过神经元的串联结构来捕捉视频序列流中的上下文信息，在感知信息的监督下，采用门结构的形式来学习权重参数，对模态数据进行优化处理，具体表现为：模态每一帧的信息都具有前后相邻帧中的连续信息以及模态的全局感知能力。

5.根据权利要求1所述的基于注意力机制的行人重识别方法，其特征在于，所述步骤S4还包括：特征融合器将特征优化器的输出特征沿着通道方向进行融合处理，得到整个视频段的最终表征向量，将得到的特征加权拼接，特征融合器采用改进后的残差网络，不同层的特征具有不同的图像信息表征能力，在低维阶段，输出特征图中缺乏语义信息，在高维阶段，输出特征图具有更多上下文信息及语义信息。

6.根据权利要求1所述的基于注意力机制的行人重识别方法，其特征在于，所述步骤S5还包括：特征分类器的输入为特征融合器输出的表征向量，传送到全连接层用于分类，最终实现行人重识别的任务。

7.根据权利要求1所述的基于注意力机制的行人重识别方法，其特征在于，所述步骤S6还包括：通道注意力建模出不同通道即不同特征图之间的联系，通过网络学习自动获取每个特征通道的重要程度，最后再为每个通道赋予相应的权重系数，借助权重参数来强化重要特征以及抑制无关特征。

8.根据权利要求1所述的基于注意力机制的行人重识别方法，其特征在于，所述步骤S7还包括：空间注意力机制嵌入到原始网络中，计算每个位置单独的特征时需要对所有位置执行加权的操作，从而建立起多帧特征间的联系，每个分支的基础特征分别利用自注意力进行全局优化，利用帧级优化的特征生成全局注意力掩码，使得段级的特征具有双模态的全局感知信息。

9.根据权利要求1所述的基于注意力机制的行人重识别方法，其特征在于，所述步骤S8还包括：在网络的实际训练过程中，根据以ResNet50为基础提取网络的ImageNet预训练模型对本发明中构建的网络进行参数初始化，采用批量梯度下降进行训练，其中batch size的大小设置为8，在训练过程中随机失活率设置为0.5，学习率初始值设置为0.001，学习率每经过10个epoch就衰减10％。