CN115393788A

CN115393788A - 一种基于增强全局信息注意力的多尺度监控行人重识别方法

Info

Publication number: CN115393788A
Application number: CN202210927259.5A
Authority: CN
Inventors: 朱容波; 郭志达; 刘浩; 李松泉
Original assignee: Huazhong Agricultural University
Current assignee: Huazhong Agricultural University
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-11-25
Anticipated expiration: 2042-08-03
Also published as: CN115393788B

Abstract

本发明公开了一种基于增强全局信息注意力的多尺度监控行人重识别方法，包括以下步骤：构建行人监控的数据集，划分为训练集和测试集；构建基于增强全局信息注意力的多尺度行人重识别网络模型，该模型以多分支深度网络模型为基础架构提取局部特征，引入增强全局信息注意力机制，通过多尺度网络提取局部特征并使用注意力为局部特征赋予全局信息；输入训练集对模型进行训练，通过多次的目标函数计算，反向传播后调整参数，直到目标函数完成收敛；通过测试集进行测试；输入待识别的查询集，通过多尺度行人重识别网络模型进行识别，得到行人重识别的结果。本发明能够有效应用于安防场景下的行人重识别，解决安防监控下行人数据所带来的问题。

Description

一种基于增强全局信息注意力的多尺度监控行人重识别方法

技术领域

本发明涉及计算机视觉应用领域，尤其涉及一种基于增强全局信息注意力的多尺度监控行人重识别方法。

背景技术

近年来，随着深度学习在计算机视觉领域取得重大突破，基于深度学习的计算机视觉技术在文物防护、智能监控等安防领域得到了广泛应用。安防产生的海量监控视频若仅仅依靠人工进行分析，会消耗大量的人力物力，因此人脸识别、行人重识别等智能视觉监控技术在安防应用发挥着越来越重要的作用。人脸识别虽然能够在查询集中精准的检索目标，但在现实安防监控下，人脸常常会因遮挡、分辨率低等问题导致出错，不符合安防应用的实际需求，因而行人重识别技术成为安防场景中的关键技术。

行人重识别也称行人再识别，目的是对一个摄像头下感兴趣的行人图像提取特征，从而通过特征相似度检索到该行人在其他摄像头下出现的所有图像。目前行人重识别研究主要都是在理想数据集下进行的，但在实际安防的监控场景下，由于摄像头安装位置的特殊性，可能存在更多不同于理想数据集所能体现问题，因此这些行人重识别研究大部分在实际应用场景下重识别效果并不理想。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷：(1)监控摄像头下的行人常常以俯视角度被录制：在实际安防场景中，因为摄像头位置装于高处，行人图片一般都会呈现俯视角度，这会导致行人的全局特征变形、模糊、丢失，从而进一步导致重识别精度降低；(2)安防场景中的图片常出现跨光照、背景复杂等问题：安防摄像头常装于不同场景，容易出现跨光照、背景复杂等情况，这会使得行人特征中的关键信息权重下降，从而引起重识别精度降低。提供一种基于增强全局信息注意力的多尺度监控行人重识别方法。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种基于增强全局信息注意力的多尺度监控行人重识别方法，该方法包括以下步骤：

步骤1、构建行人监控的数据集，对数据集进行预处理和数据增强后，将其划分为训练集和测试集；

步骤2、构建基于增强全局信息注意力的多尺度行人重识别网络模型，该模型以多分支深度网络模型MGN为基础架构提取局部特征，引入增强全局信息注意力机制，通过多尺度网络提取局部特征并使用注意力为局部特征赋予全局信息，加强关键特征权重；其中，融合全局信息注意力机制RGA和卷积块注意力模块CBAM，将RGA的空间特征提取模块和通道特征提取模块中加入CBAM注意力相应机制，构建了增强全局空间信息注意力模块和增强全局通道信息注意力模块，两者组成增强全局信息注意力机制；

步骤3、输入训练集对多尺度行人重识别网络模型进行训练，通过多次的目标函数计算，反向传播后调整参数，直到目标函数完成收敛，得到训练好的多尺度行人重识别网络模型；

步骤4、通过测试集对训练好的多尺度行人重识别网络模型进行测试；

步骤5、输入待识别的查询集，通过多尺度行人重识别网络模型进行识别，得到行人重识别的结果。

进一步地，本发明的所述步骤1中构建行人监控的数据集的方法为：

行人监控的数据集包括采集的多张行人图像，每张行人图像对应一个行人ID，行人图像通过多台监控摄像头进行拍摄采集，包括至少2个拍摄俯视角度的摄像头、1个拍摄低光照条件的摄像头和1个平行视角的常态摄像头，每个行人至少被2个摄像头捕获；行人图像通过行人检测算法Yolov5进行裁剪边框；并向划分的测试集中加入一定数量的干扰图像。

进一步地，本发明的所述步骤2中基于增强全局信息注意力的多尺度行人重识别网络ERG-MGN模型具体为：

ERG-MGN模型以MGN为基础架构，图片输入到ERG-MGN模型前先统一进行resize操作，提取其RGB通道特征转换成一定像素大小的特征图；特征图输入模型后，特征图先后经过resnet50的conv1、conv2、conv3、conv4_2，其中在conv2和conv3层中间加入提出的Enhanced RGA注意力机制模块；

引入Enhanced RGA注意力机制后，特征图在Enhanced RGA机制模块中进行了一系列的计算后获取到了响应的注意力并与原输入特征图进行加权，然后后进入conv3、conv4_2；在特征图从conv4_2输出后，模型分成了2条支路：

分支1提取的是全局特征，使用的是resnet50的conv5，随后进行全局最大池化和1×1的卷积获取输出；

分支2提取的是局部特征，首先使输入特征图通过resnet50的conv5，不进行下采样，并进行全局最大池化，随后的特征图又进入2个分支：part2分支、part3分支，即2次局部切割：part2分支为输入特征切割成2部分，并对2部分进行1×1的卷积获得相应输出；part3分支为输入特征切割成3部分，并对2部分进行1×1的卷积获得相应输出；

最后，ERG-MGN模型共得到8个输出的特征模块，将这8个特征模块进行模块间拼接即为模型提取的行人特征。

进一步地，本发明的所述步骤2中的增强全局空间信息注意力模块具体为：

将卷积注意力模块CBAM的空间模块和RGA的空间模块的相结合，提出了增强全局空间信息注意力模块，该模块的输入特征图F，高度为H，宽度为W，通道数为C；

首先将输入特征图F的每个空间位置的C维通道特征向量作为一个特征结点，获得一个含有N个结点(N＝W×H)的图G，这N个特征结点表示x_i(x_i∈R^C,i＝1,2......N)；

定义卷积操作θ₁来获取每个结点的特征表示，其定义如下：

θ₁(x_ij)＝Relu(BN(Conv₁(x_ij)))

其中Conv₁表示进行卷积核为1×1的卷积操作；BN为归一化操作，表示进行对每一特征通道进行normalize，因此计算出所有样本每一通道的均值和方差，具体为：

其中x表示输入，E(x)表示x的均值，Var(x)表示x的方差，ε取常用默认值为0.00001；最外层为了克服训练中的梯度消失问题，加快训练速度，加入了Relu激活函数；

然后将结点i和结点j的相关信息计算定义为：

r_i,j＝(θ₁(x_i)^Tθ₁(x_j))

计算中G所有特征结点的成对关系，组成了一个含有N×N个相关信息值的关系矩阵M，其中M_ij＝r_i,j；M中，结点i与其他N-1个结点之间的关系信息为[M[i,:],M[:i,]]；

随后对关系矩阵M进行reshape操作，reshape表示对多维矩阵进行维度重组，即对M矩阵中的每一行拿出来，按顺序组成一个W×H×N的关系特征图F₁，以此表示结点z对其他结点的空间特征联系信息；对M中的每一列拿出来，按顺序组成一个W×H×N的关系特征图F₂，以此表示其他结点对结点z的空间特征联系信息；其次，为了学习第i个特征节点的空间特征注意力，除了两两关系项r外，还需要考虑原特征本身F₃，从而充分利用全局信息和原始信息特征，因为得到这三种特征维度不同，在神经网络计算中使用compose操作，将这三种特征信息嵌入在同一特征图中；其中，F₃是原特征进行全局最大池化后，通道维度降维为1的特征图，F₃用于获取全局信息。

进一步地，本发明的所述增强全局空间信息注意力模块的计算公式具体为：

将得到的F₁、F₂、F₃进行连接操作后，获得了Spatial Feature，公式如下：

其中row表示将矩阵按行划分，column表示将矩阵按列划分，reshape表示对多维矩阵按行或列顺序进行矩阵重组，

表示将多维特征矩阵在通道维度上进行连接，M表示对应特征图F的关系矩阵；

随后对获取的Spatial Feature进行通道降维，获得一个1×H×W的特征图表示，具体方式如下：

θ₂(SF)＝Relu(BN(Conv₂(SF)))

其中Conv₂为卷积核1x1，输出维度为1xHxW的卷积操作；

最后的特征图表示与原特征进行相乘获得全局信息特征加权的原特征图，在最后输出中加入sam进行计算，sam计算表达式如下：

sam(F)＝Sigmoid(conv_7×7([AvgPool(F)；MaxPool(F)]))

其中conv_7×7表示卷积核为7x 7大小的卷积操作，[AvgPool(F)；MaxPool(F)]表示沿着通道轴应用平均池化和最大池化操作，并将它们连接，最外层套入激活函数Sigmoid计算后输出；

最后增强全局空间信息注意力计算的总计算公式如下：

进一步地，本发明的所述步骤2中的增强全局通道信息注意力模块具体为：

增强全局通道信息注意力模块与增强全局空间信息注意力模块计算方法区别在于计算Channel Feature时，是以每个通道的H×W大小的空位特征作为结点；

全局通道信息注意力模块的输入特征图F，高度为H，宽度为W，通道数为C：首先将输入特征图的F每个通道位置的H×C大小的空间特征向量作为一个特征结点，获得一个含有N个结点(N＝C)的图G，这N个特征结点表示x_i(x_i∈R^H×W,i＝1,2......N)；仍然然使用θ₁来计算每个结点的特征表示，并计算中G所有特征结点的成对关系，组成了一个含有N×N个相关信息值的关系矩阵M；

随后对关系矩阵M进行reshape操作，即对M矩阵中的每一行拿出来，按顺序组成一个C×C×1的关系特征图F₁，以此表示结点z对其他结点的通道特征联系信息；对M中的每一列拿出来，按顺序组成一个C×C×1的关系特征图F₂，以此表示其他结点对结点z的通道特征联系信息；其次，为了学习第i个特征节点的通道特征注意力，除了两两关系项r外，还需要考虑原特征本身F₃，从而充分利用全局信息和原始信息特征，因为得到得这三种特征维度不同，在神经网络计算中使用compose操作，将这三种特征信息嵌入在同一特征图中。其中，F₃是原特征进行全局最大池化后，空间维度降维为1的特征图，F₃用于获取全局信息。

进一步地，本发明的所述增强全局通道信息注意力模块的计算公式具体为：

将得到的F₁、F₂、F₃进行连接操作后，获得了Channel Feature，公式如下：

随后对获取的Channel Feature进行通道降维，获得一个1×1×C的特征图表示；最后的特征图表示与原特征进行相乘获得全局相关信息特征加权的原特征图，在最后输出中加入cam进行计算，cam计算表达式如下：

cam(F)＝Sigmoid(MLP(AvgPool(F))+MLP(MaxPool(F)))

其中MLP表示一个两层的神经网络，第一层神经元个数为C/r，r为减少率，激活函数为Relu，第二层神经元个数为C；

最后全局通道信息注意力计算的总计算公式如下：

进一步地，本发明的所述步骤3中计算目标函数的方法具体为：

目标函数为：所计算的损失函数的值为最小；

本模型的训练损失函数策略结合Softmax Loss和Triplet Loss作为损失函数；

损失函数计算中，part2、part3分支的局部切割特征的输出只采用Softmax Loss作为损失函数，其他输出模块使用Softmax Loss结合Triplet Loss作为损失；

在ERG-MGN模型训练时，分支1将得到的输出通过全连接操作后计算Tripletloss和Softmax Loss；分支2的part2的损失函数是将2个局部特征输出通过全连接操作后分别计算Softmax Loss，并加入分支2的全局特征输出的Triplet Loss和Softmax Loss；分支2的part3的损失函数是将3个局部特征输出通过全连接操作后分别计算Softmax Loss,并加入分支2的全局特征输出的Triplet Loss和Softmax Loss，因此，训练时每轮反向传播一共需要计算11个损失函数。

进一步地，本发明的所述步骤3中目标函数的具体公式为：

本模型的总损失函数计算如下公式所示：

其中，其中S表示本模型中所需计算的Softmax loss的集合，包含S_i(i＝1...8)，T表示本文模型中所需计算的Triplet Loss的集合，包含T₁,T₂,T₃；进一步的，可以推出以下公式：

其中，f1,...f8表示本模型各个模块提取行人图片的特征向量；N为训练时batchsize的大小；C表示训练时的总类别数量，即行人数量；y(m)表示训练集中图片m的标签类别；

表示训练过程中本模型在计算第i个softmax loss所输入的特征向量中代表k类别的多维特征向量；P表示训练过程中每个batch所包含的行人数量，K为这些行人所占有的图片数量；d为马氏距离的计算；

表示训练过程中batch所包含的行人j的第k张图片，在计算第i个Triplet Loss所输入的特征向量；α是一个大于0的常数；

目标是经过训练，行人图片经过本模型能够有效提取特征，所计算的损失函数能够尽可能小，因此，目标函数如下：

argmin(Target(f))。

本发明产生的有益效果是：本发明的基于增强全局信息注意力的多尺度监控行人重识别方法，构建了安防监控类型数据集Scufn1250，提出了增强全局信息注意力(Enhanced RGA)，提出了基于增强全局信息注意力的多尺度行人重识别网络(ERG-MGN)。本发明的方法能够有效应用于安防场景下的行人重识别，解决安防监控下行人数据所带来的问题。不同方法对比实验结果表明，在Scufn1250数据集和其他两个公共数据集(Market1501、CUKE03)上，本发明的方法相比于其他先进的模型，性能最优。消融实验和注意力对比实验表明，在Scufn1250数据集上，增强全局信息注意力机制能够有效提高重识别精度。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的Scufn1250数据集示例；

图2是本发明实施例的算法流程图；

图3是本发明实施例的基于增强全局信息注意力的多尺度行人重识别网络(ERG-MGN)模型结构图；

图4是本发明实施例的增强全局空间信息注意力模块(Enhanced RGA_S)；

图5是本发明实施例的增强全局通道信息注意力模块(Enhanced RGA_C)；

图6是本发明实施例的ERG-MGN消融实验Map指标对比(Scufn1250)；

图7是本发明实施例的ERG-MGN与消融实验Rank指标对比(Scufn1250)；

图8是本发明实施例的注意力机制对比的Map训练变化图(Scufn1250)。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一：

如图1和图2所示，本发明实施例的基于增强全局信息注意力的多尺度监控行人重识别方法，该方法包括以下步骤：

实施例二：

本发明实施例的基于增强全局信息注意力的多尺度监控行人重识别方法，该方法包括以下步骤：

1)构建Scufn1250数据集

目前行人重识别领域已有数据集都是在封闭世界(理想状态)的条件下进行获取和标注，很少有人从现实应用上进行研究。在实际安防场景下，大部分监控摄像头都存在以下几个问题：首先，监控摄像头是装在高墙角上的，拍摄的视频有一部分是俯视视角，然而大部分现有数据集的图片并没有俯视视角的条件；其次，不同的监控摄像头安装位置的光照条件不一样，而大部分现有数据集的图片并不存在跨光照条件；最后，若监控安装于野外，难免会存在背景复杂等挑战，去除复杂背景的干扰任然是行人重识别的一个难点。分析以上提到的几点问题，大部分现有数据集并没有综合体现出来，导致现有方法很少有针对这些复合问题进行研究的。

因此针对现有数据集缺少俯视视角、跨光照条件、背景复杂等挑战，在安防监控背景下构建了一个包含这些挑战条件的行人重识别数据集：Scufn1250。Scufn1250包含自行采集的1250个行人ID，这些ID在学校教学楼的监控摄像头下进行拍摄采集，共计4台像素为300万的摄像头，这些摄像头的拍摄区间存在重叠，每个行人至少被2个摄像头捕获，以此保证跨摄像头检索功能的执行。Scufn1250数据集共包含31856张图片，自行采集的训练集和测试集各包含625个ID，查询集共2288张来自不同ID且不一样摄像头的行人图片，其中为了增加数据集的泛化能力，也加入了两千余张干扰数据照片和从开源数据集Market1501中随机抽取125个行人ID图片序列到测试集中。总而言之，Scufn1250相比于其他现有数据集(表1)，具有以下特点：

表1 Scufn1250比较其他现有数据集

首先，目前大多数据集使用手工、DPM检测器等手段裁剪边框，但这些方法在检测行人时经常裁剪出低质量图片，因此Scufn1250使用了最新的行人检测算法Yolov5进行裁剪边框，使得数据集的图片质量更高。

第二，Scufn1250相较于大部分开源数据集而言，为摄像头的摄像条件进行了限制：包含了2个拍摄俯视角度的摄像头、1个拍摄低光照条件的摄像头和1个平行视角的常态摄像头，因此Scufn1250数据集的行人图片含有跨光照，俯视视角，背景复杂等特点。如图1为2个外形特征较为相似的行人，其中左1列和左2列为俯视视角摄像头，右1列为低光照条件摄像头。

第三，除了自行标注的1250个行人ID图片外，Scufn1250还在测试集中添加了干扰图片，从而增加了数据集的泛化能力。

2)基于增强全局信息注意力的多尺度行人重识别网络(ERG-MGN)

本发明实施例提出了一种基于增强全局信息注意力的多尺度行人重识别网络模型，在MGN网络的基础上融合了增强全局信息注意力机制。以多分支深度网络模型MGN为基础架构通过多尺度网络提取局部特征，增强因俯视角度而模糊的行人细节特征；随后引入了本发明提出的增强全局信息注意力机制，为局部特征赋予全局信息，加强局部特征之间的关联，增强关键信息特征权重，以此解决安防监控数据的跨光照、俯视角等问题。

MGN局部切割的方法中，全局分支捕捉到的是整体性的、稀疏的特征；而局部分支作用在人体部分的图片上提取局部特征，更集中关注行人的局部信息。MGN以多分支进行局部特征提取的方式，加强了局部细节信息的表征，弥补了全局特征稀疏不足，在一定程度上解决了因俯视角度产生的行人全局特征变形、模糊而导致的模型特征提取能力下降问题。但MGN不同的局部分支是以图像切割的形式生成的，这会使得局部图像特征对全局图像特征的信息产生缺失，局部特征之间没有相关性，从而对模型提取特征的能力造成影响。

RGA通过其特殊的机制计算特征结点之间的成对关系，使得各个特征结点获取了全局关系信息，加强了不同特征结点之间的联系。因此，在MGN的图像切割前加入了RGA，可以加强模型全局特征信息的表征，以及不同局部特征信息的联系，有效的克服了MGN的局部特征没有全局信息和相关性的缺点。虽然RGA机制的引入虽然能够解决MGN因切割图像获取局部特征带来的缺陷，但是RGA对于整体的全局特征，只是通过简单的全局最大池化进行将降维，就和提取的全局信息特征进行合并，并没有重视特征图的有效信息部分。因此RGA空间模块可能会因为计算空间的全局信息而忽略了空间所注重的有效信息；而RGA通道模块可能会因为计算通道的全局信息而忽略了通道所注重的有效信息。

CBAM注意力机制广泛的应用于图像分类和检测，可以加强空间域和通道域中整体特征的关键信息权重，更有利于对目标的有效特征提取，并且由于CBAM是轻量级的通用模块,因此还可以忽略该模块视角和空间的开销，所以融合了RGA和CBAM作为新的注意力模块：增强全局信息注意力。增强全局信息注意力加强全局特征抑制无关特征的作用，进一步减弱了安防监控下背景复杂、跨光照等的影响。

图2是本发明算法的计算流程，首先对数据集进行预处理和数据增强，对模型的resnet50的部分进行预训练。然后开始正式进行训练，通过多次的目标函数计算，反向传播后调整参数，以达到收敛目标函数的目的。最后对训练好的模型进行测试，选择合适的检索策略(主要选择Rank检索以及reRank检索作为检索策略)，后进行指标评估，输出结果。

ERG-MGN的网络结构如图3所示。本发明模型以MGN为基础架构，网络结构从左到右进行，图片输入到模型前先统一进行resize操作，提取其RGB通道特征转换成3×384×128的特征块。特征块输入模型后，模型特征先后经过resnet50的conv1、conv2、conv3、conv4_2，其中在conv2和conv3层中间加入本发明提出的增强全局信息注意力机制。引入增强全局信息注意力模块后，特征在模块中进行了一系列的计算后获取到了相应的注意力并与原输入特征进行加权，然后后进入conv3、conv4_2。在特征从conv4_2输出后，模型分成了2条支路:分支1提取的是全局特征，使用的是resnet50的conv5，随后进行全局最大池化和1×1的卷积获取输出；分支2提取的是局部特征，首先使输入特征通过resnet50的conv5(不进行下采样)并进行全局最大池化，随后的特征图又进入2个分支：part2分支、part3分支，即2次局部切割：part2分支为输入特征切割成2部分，并对2部分进行1×1的卷积获得相应输出；part3分支为输入特征切割成3部分，并对2部分进行1×1的卷积获得相应输出。最后，的模型共8个输出的特征模块(局部特征输出为256维，全局特征输出的为2048维)，如图3中，将这8个特征模块进行模块间拼接即为用于测试集的模型提取的行人特征。

损失函数(Loss Function)是模型训练过程中用来评测模型的预测值f(x)与真实值Y的相似程度，损失函数越小，就代表模型的鲁棒性越好，损失函数指导模型学习，根据损失函数来做反向传播修改模型参数。本发明模型的训练损失函数策略是结合Softmax Loss和Triplet Loss作为损失函数。原因是Softmax Loss可以评测模型的预测值f(x)与真实值Y的相似程度，损失函数越小，就代表模型的鲁棒性越好，常用于分类，且训练时容易收敛，可以利用Softmax Loss指导模型学习，但对于相似样本的话，softmax loss就没用那么好的效果。而Triplet Loss在训练差异性较小的样本时有很好的效果，输入是一个三元组，包括目标样本、正样本、负样本，通过优化目标样本与正样本的距离小于目标样本与负样本的距离，实现样本之间的相似性计算。

本发明的损失函数计算中，part2、part3分支的局部切割特征的输出只采用Softmax Loss作为损失函数，其他输出模块使用Softmax Loss结合Triplet Loss作为损失，原因是Triplet Loss使得模型在训练时学到行人图像的embedding，相似的图像在embedding空间里是相近的，但若将其用于计算局部切割图像，如果局部切割图像恰好是没有切割到行人，或者行人特征稀缺，这些干扰数据容易让Triplet Loss去计算与行人图像无关的距离，会使得模型学习到无关紧要的信息，降低模型的精度。在ERG-MGN模型训练时，分支1会将得到的输出通过全连接操作后计算Tripletloss和Softmax Loss；分支2的part2的损失函数是将2个局部特征输出通过全连接操作后分别计算Softmax Loss,并加入分支2的全局特征输出的Triplet Loss和Softmax Loss；分支2的part3的损失函数是将3个局部特征输出通过全连接操作后分别计算Softmax Loss,并加入分支2的全局特征输出的Triplet Loss和Softmax Loss，因此，训练时每轮反向传播一共需要计算11个损失函数，则本发明的模型的总损失函数计算如下公式(1)所示：

其中，其中S表示本发明模型中所需计算的Softmax Loss的集合(包含S_i(i＝1...8))，T表示本发明模型中所需计算的Triplet Loss的集合(包含T₁,T₂,T₃)，进一步的，可以推出公式(2)：

其中,f1,...f8表示本发明模型各个模块提取行人图片的特征向量；B为训练时batch size的大小；u表示训练时的总类别数量(行人数量)；y(m)表示训练集中图片m的标签类别；

表示训练过程中，本发明模型在计算第i个softmax loss所输入的特征向量中(局部特征为(256，C)，全局特征为(2048，C))，代表k类别的多维特征向量((256，1)or(2048，1))；P表示训练过程中每个batch所包含的行人数量，K为这些行人所占有的图片数量；d为马氏距离的计算；

表示训练过程中batch所包含的行人j的第k张图片，在计算第i个Triplet Loss所输入的特征向量；α是一个大于0的常数，在三原组损失计算中，可以确保目标对正样本、负样本的区分，根据人为经验，取常用值0.3。

的目标是经过训练，行人图片经过本发明模型能够有效提取特征，因此训练中每个epoch计算的损失函数都应该尽可能小，因此，的目标函数如下：

arg min(Target(f)) 公式(3)

3)增强全局信息注意力机制

1、增强全局空间信息注意力模块：

如图4所示，将CBAM得空间模块(SAM)和RGA的空间模块的相结合，提出了增强全局空间信息注意力模块，该模块的输入特征图F，高度为H，宽度为W，通道数为C(图中以H为2，W为2为例)：首先将输入特征图的F每个空间位置的C维通道特征向量作为一个特征结点，获得一个含有N个结点(N＝W×H)的图G，这N个特征结点表示x_i(x_i∈R^C,i＝1,2......N)。

定义卷积操作θ₁来获取每个结点的特征表示，其定义如下:

θ₁(x_ij)＝Relu(BN(Conv₁(x_ij))) 公式(4)

其中Conv₁表示进行卷积核为1×1的卷积操作；BN为归一化操作批评了表示进行对每一特征通道进行normalize，因此会计算出所有样本每一通道的均值和方差，具体为：

其中x表示输入，E(x)表示x的均值，Var(x)表示x的方差，ε取常用默认值为0.00001。最外层为了克服训练中的梯度消失问题，加快训练速度，加入了Relu激活函数。

然后将结点i和结点j的相关信息计算定义为：

r_i,j＝(θ₁(x_i)^Tθ₁(x_j)) 公式(5)

计算中G所有特征结点的成对关系，组成了一个含有N×N个相关信息值的关系矩阵M，其中M_ij＝r_i,j。M中，结点i与其他N-1个结点之间的关系信息为[M[i,:],M[:i,]]。

随后对关系矩阵M进行reshape操作(reshape表示对多维矩阵进行维度重组)，即对M矩阵中的每一行拿出来，按顺序组成一个W×H×N的关系特征图F₁，以此表示结点z对其他结点的空间特征联系信息；对M中的每一列拿出来，按顺序组成一个W×H×N的关系特征图F₂，以此表示其他结点对结点z的空间特征联系信息。其次，为了学习第i个特征节点的空间特征注意力，除了两两关系项r外，还需要考虑原特征本身F₃，从而充分利用全局信息和原始信息特征，因为得到这三种特征维度不同，在神经网络计算中使用compose操作，将这三种特征信息嵌入在同一特征图中。其中，F₃是原特征进行全局最大池化后，通道维度降维为1的特征图，F₃用于获取全局信息。因此，将得到的F₁、F₂、F₃进行连接操作后，获得了Spatial Feature，公式如下：

其中row表示将矩阵按行划分，column表示将矩阵按列划分，reshape表示对多维矩阵按行(或列)顺序进行矩阵重组，

表示将多维特征矩阵在通道维度上进行连接，M表示对应特征图F的关系矩阵。随后对获取的Spatial Feature进行通道降维，获得一个1×H×W的特征图表示，具体方式如下：

θ₂(SF)＝Relu(BN(Conv₂(SF))) 公式(7)

其中Conv₂为卷积核1x1，输出维度为1xHxW的卷积操作。

最后的特征图表示与原特征进行相乘获得全局信息特征加权的原特征图。同时需要注意的是，与原始的RGA注意力不同，为了增强了全局信息在空间域中突出部分的权重，防止在计算全局信息的过程中，原始信息在空间域中突出部分的权重丢失，在最后输出中加入sam进行计算，SAM计算表达式如下：

sam(F)＝Sigmoid(conv_7×7([AvgPool(F)；MaxPool(F)])) 公式(8)

其中conv_7×7表示卷积核为7x 7大小的卷积操作，[AvgPool(F)；MaxPool(F)]表示沿着通道轴应用平均池化和最大池化操作，并将它们连接，最外层套入激活函数Sigmoid计算后输出。

最后增强全局空间信息注意力计算的总计算公式如下：

2、增强全局通道信息注意力模块：

同理，增强全局通道信息注意力模块与增强全局空间信息注意力模块计算方法类似，主要区别在于计算Channel Feature时，是以每个通道的H×W大小的空位特征作为结点。

如图5所示，全局通道信息注意力模块的输入特征图F，高度为H，宽度为W，通道数为C(图中以C等于5为例)：首先将输入特征图的F每个通道位置的H×C大小的空间特征向量作为一个特征结点，获得一个含有N个结点(N＝C)的图G，这N个特征结点表示x_i(x_i∈R^H×W,i＝1,2......N)。仍然然使用公式(4)θ₁来计算每个结点的特征表示，通过公式(5)计算中G所有特征结点的成对关系，组成了一个含有N×N个相关信息值的关系矩阵M。

随后对关系矩阵M进行reshape操作，即对M矩阵中的每一行拿出来，按顺序组成一个C×C×1的关系特征图F₁，以此表示结点z对其他结点的通道特征联系信息；对M中的每一列拿出来，按顺序组成一个C×C×1的关系特征图F₂，以此表示其他结点对结点z的通道特征联系信息。其次，为了学习第i个特征节点的通道特征注意力，除了两两关系项r外，还需要考虑原特征本身F₃，从而充分利用全局信息和原始信息特征，因为得到得这三种特征维度不同，在神经网络计算中使用compose操作，将这三种特征信息嵌入在同一特征图中。其中，F3是原特征进行全局最大池化后，空间维度降维为1的特征图，F3用于获取全局信息。因此，将得到的F1、F2、F3进行连接操作后，获得了Channel Feature，公式如下：

随后对获取的Channel Feature进行通道降维，获得一个1×1×C的特征图表示。最后的特征图表示与原特征进行相乘获得全局相关信息特征加权的原特征图。同时需要注意的是，与原始的RGA注意力不同，为了增强了全局相关信息在通道域中突出部分的权重，防止在计算全局信息的过程中，原始信息在通道域中突出部分的权重丢失，在最后输出中加入cam进行计算，CAM计算表达式如下：

cam(F)＝Sigmoid(MLP(AvgPool(F))+MLP(MaxPool(F))) 公式(11)

其中MLP表示一个两层的神经网络，第一层神经元个数为C/r(r为减少率，常用默认值设为16)，激活函数为Relu，第二层神经元个数为C，这个两层的神经网络是共享的。最后全局通道信息注意力计算的总计算公式如下：

测试实施例：

1)模型对比实验(公共流行数据集)

在数据集Market1501上的实验结果如表2所示，本发明模型在其中表现出色。在其他对比模型中，DSA在评估指标上Map和Rank1取得了最好的发布结果。而的ERG-MGN在Map取得了88.4％的好成绩，比前者高了0.8％，而Rank1虽然略低于DSA，但是也优于大部分其他模型。

出现这种情况的主要原因一方面是Maket1501的数据集比较单调，出现的行人数据较为稳定，如多角度、跨光照等问题的行人图片不多，不容易体现本发明模型在针对俯视角度、跨光照等监控应用场景问题所能发挥的优势。另一方面，因为相比于DSA模型提取的基于语义的局部特征，本发明模型在提取局部特征上考虑到了全局信息，加入了增强全局信息注意力来强化局部特征的表征能力，在提取行人特征上发挥更稳定，不会因为某个局部(语义)特征不明显导致图像检索鲁棒性降低，因此Map(平均精度)更高。

表2 Market1501实验结果

在数据集CUHK03上，的实验结果取得出色的成绩，如表3、表4所示：在机器标记集上(CUHK03-detected)，模型的Map和Rank1获得了77.5％和80.7％的结果，相比于其他模型中性能最高的RGA-SC，Map和Rank1分别高了3％和1.1％；在人工标记集上(CUHK03-labeled)更是取得了80.0％和82.3％的好成绩，优于最先进的模型ADC+2O-IB和PAR的发布结果，在Map和Rank1上高出0.7％和0.8％。

CUHK03数据集与Market1501相比，虽然数据量少，但包含有一个俯视角摄像头。本发明模型ERG-MGN与RGA-SC、ADC+2O-IB相比：能够通过等比例切割获取局部特征，又通过增强全局信息注意力加强了局部特征中的全局信息并突出重点部分的权重，使得模型在提取俯视视角下变形、扭曲的行人特征时，更重点关注行人的局部细节，因此能够在CUHK03数据集进行指标评估时获得更大提升。

表3 CUHK03-detected实验结果

表4 CUHK03-labeled实验结果

2)模型对比实验(Scufn1250数据集)

表5展示模型在Scufn1250数据集与一些现有模型的对比，由于Scufn1250数据集是首次应用行人重识别领域。因此主要选取了几个基线(baseline)来与本发明模型对比。的模型相比于其他baseline，在这个数据集上具有优越的性能，在Map、Rank1、Rank3、Rank5、Rank10上，分别达到了76.9％、86.3％、81.6、93.0％、95.0％的好成绩。同时，本发明模型也适用于排序策略下的检索,如在重排序检索策略(re-Rank)下仍可取得高成绩。

与基于全局特征的baseline模型相比(如resnet18、renset50)，本发明方法的主要优点在于：ERG-MGN模型的全局分支可以获取行人整体性的、稀疏的特征；而局部分支则可以更关注行人的局部特征，获取到一些难以从全局获取的特征，在一定程度上解决安防监控下俯视角度产生局部特征分散、扭曲问题。与其他的基于局部特征的方法相比(如：PCB_RPP、MGN)，本发明比起精度最高的MGN模型在Map指标上高了2％，优点在于：ERG-MGN模型使用了增强全局信息注意力机制，给模型的局部特征加入全局信息，强化了行人特征重要部分的权重，因此模型能够提取更有区分度行人特征，使得安防监控下的行人背景复杂、跨光照问题得到很好的改善。

如上所述，ERG-MGN模型相比与其他行人重识别方法，能够更好的应用于安防场景的监控数据。

表5 scufn1250数据集与一些baseline的结果对比，“RK”是指实施重新排序操作

3)模型消融实验

在本节中，讨论消融研究，在安防监控数据集Scufn1250上对ERG-MGN模型上每个部分的组合都在相同实验配置下进行实验，以说明每个单独成分的影响。如表6所示，主要对在MGN模型上结合的2种变量进行比对：(1)单独使用MGN网络进行特征提取；(2)在MGN网络上结合RGA注意力机制；(3)在MGN结合增强全局信息注意力机制，也就是本发明模型。

表6在数据集Scufn1250上，ERG-MGN不同成分的消融实验结果

如表6所示，MGN+RGA相比于单独的MGN，在各项指标上均有所提升，Map和Rank1上分别提升了0.75％和0.79％，该实验结果说明了RGA注意力机制可以有效的使MGN等比切割出来的局部特征获得全局信息，解决了局部图像特征因对全局图像特征的信息缺失，而导致精度不高的问题。而在此基础上，的模型(MGN+ERGA)对RGA注意力的空间和通道模块分别加入CAM和SAM，加强整体特征中有效信息的权重，实验表明，MGN+ERGA相比于MGN+RGA获得了巨大的提升，在Map、Rank1指标上，分别提升了1.32％、1.30％。

图6展示了消融实验中3个模型的Map变化情况，可以看出，在模型训练到50个epoch后，3个模型的结果曲线有了明显的分化,ERG-MGN明显领先于前2个模型。充分证明了，本发明模型的有效性。

图7展示了消融实验中3个模型的RankN变化情况，可以观察到从Rank1，Rank3，甚至到了Rank10，本发明模型都能在最后训练中收敛于其他2个模型上方，充分说明了本发明方法在安防监控数据中进行行人重识别的有效性和鲁棒性。

4)注意力对比实验

本节主要目的是证明本发明提出的增强全局信息注意力机制能够解决MGN网络架构中局部分割后的局部特征缺乏全局信息的问题，及其在安防监控数据中能够更好的提取行人特征的作用。在这里做了与其他目前较流行的视觉注意力机制的对比实验，数据集选取本发明构建的Scufn1250，注意力插入位置与本发明模型所插入位置一致。

实验结果详细数据如表7所示,可以看到本发明提出的增强全局信息注意力与多尺度网络结合效果在Map、Rank1、Rank3、Rank15、Rank10上分别比其他注意力中最高的数值高出了1.32％、0.7％、0.74％、0.26％、0.05％。这个结果充分证明了本发明提出的增强全局信息注意力能够有效的应用与多尺度网络中，发挥了加强局部特征全局信息和重要部分特征权重的功能。

表7注意力机制对比(Scufn1250)

图8展示了不同注意力机制与多尺度网络结合后，平均精度(Map)指标随着训练次数的变化情况。从图中可以观察到，实验中所有模型的平均精度都在200个epoch后趋于收敛，而本发明模型从50epoch之后，总体一直遥遥领先于其他模型，以此可以证明，本发明提出的增强全局信息注意力结合多尺度网络(MGN)在训练中的鲁棒性和稳定性。

本发明做出了以下成果：

1)构建安防监控类型数据集Scufn1250

针对安防场景下行人重识别存在的问题，本发明在实际安防监控视频中进行图片采集与标注，构建了一种符合实际安防应用需求的行人重识别数据集Scufn1250。该数据集的录制设备包含有2个俯视视角摄像头、1个低光照摄像头、1个水平摄像头。Scufn1250中的行人数据能够充分体现了我们上述所提到的监控场景下，行人数据存在俯视视角、跨光照、背景复杂等问题。

2)提出了增强全局信息注意力(Enhanced RGA)

融合全局信息注意力机制(RGA)和卷积块注意力模块(CBAM)，提出了新的注意力机制：增强全局信息注意力机制。考虑到RGA和CBAM注意力的各自优缺点可以互补，将RGA的空间特征提取模块和通道特征提取模块中加入CBAM注意力相应机制，RGA在给局部特征添加全局信息的同时，CBAM注意力又加强关键信息部分的表征。大部分重识别方法通过等比例切割图像的方式来收集局部特征，使得局部特征缺乏全局信息，但若将增强全局信息注意力机制作为新的注意力模块加入，即能为互不相干的局部特征赋予全局信息，又加强了关键特征的权重，抑制无关表征，减弱了安防监控下背景复杂、跨光照等问题的影响。

3)提出了基于增强全局信息注意力的多尺度行人重识别网络(ERG-MGN)

针对安防场景下行人重识别存在的问题，提出了一种新的行人重识别网络模型：ERG-MGN。该模型以多分支深度网络模型MGN为基础架构提取局部特征，从而增强因俯视角度而模糊的行人细节特征，同时引入了本发明提出的增强全局信息注意力机制，为局部特征赋予全局信息，加强关键特征权重，以此解决安防监控数据的跨光照、俯视角等问题。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于增强全局信息注意力的多尺度监控行人重识别方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于增强全局信息注意力的多尺度监控行人重识别方法，其特征在于，所述步骤1中构建行人监控的数据集的方法为：

3.根据权利要求1所述的基于增强全局信息注意力的多尺度监控行人重识别方法，其特征在于，所述步骤2中基于增强全局信息注意力的多尺度行人重识别网络ERG-MGN模型具体为：

4.根据权利要求3所述的基于增强全局信息注意力的多尺度监控行人重识别方法，其特征在于，所述步骤2中的增强全局空间信息注意力模块具体为：

首先将输入特征图F的每个空间位置的C维通道特征向量作为一个特征结点，获得一个含有N个结点的图G，N＝W×H，这N个特征结点表示x_i，x_i∈R^C,i＝1,2......N；

θ₁(x_ij)＝Relu(BN(Conv₁(x_ij)))

然后将结点i和结点j的相关信息计算定义为：

r_i,j＝(θ₁(x_i)^Tθ₁(x_j))

5.根据权利要求4所述的基于增强全局信息注意力的多尺度监控行人重识别方法，其特征在于，所述增强全局空间信息注意力模块的计算公式具体为：

将得到的F₁、F₂、F₃进行连接操作后，获得了SpatialFeature，公式如下：

θ₂(SF)＝Relu(BN(Conv₂(SF)))

其中Conv₂为卷积核1x1，输出维度为1xHxW的卷积操作；

sam(F)＝Sigmoid(conv_7×7([AvgPool(F)；MaxPool(F)]))

其中conv_7×7表示卷积核为7x7大小的卷积操作，[AvgPool(F)；MaxPool(F)]表示沿着通道轴应用平均池化和最大池化操作，并将它们连接，最外层套入激活函数Sigmoid计算后输出；

最后增强全局空间信息注意力计算的总计算公式如下：

6.根据权利要求4所述的基于增强全局信息注意力的多尺度监控行人重识别方法，其特征在于，所述步骤2中的增强全局通道信息注意力模块具体为：

增强全局通道信息注意力模块与增强全局空间信息注意力模块计算方法区别在于计算Channel Feature时，是以每个通道的H×W大小的空间特征作为结点；

全局通道信息注意力模块的输入特征图F，高度为H，宽度为W，通道数为C：首先将输入特征图的F每个通道位置的H×C大小的空间特征向量作为一个特征结点，获得一个含有N个结点的图G，N＝C，这N个特征结点表示x_i，x_i∈R^H×W,i＝1,2......N；仍然然使用θ₁来计算每个结点的特征表示，并计算中G所有特征结点的成对关系，组成了一个含有N×N个相关信息值的关系矩阵M；

7.根据权利要求6所述的基于增强全局信息注意力的多尺度监控行人重识别方法，其特征在于，所述增强全局通道信息注意力模块的计算公式具体为：

将得到的F₁、F₂、F₃进行连接操作后，获得了ChannelFeature，公式如下：

cam(F)＝Sigmoid(MLP(AvgPool(F))+MLP(MaxPool(F)))

其中MLP表示一个两层的神经网络，第一层神经元个数为C/r，r为减少率，激活函数为Relu，第二层神经元个数为C，C即为输入特征的通道维度；

最后全局通道信息注意力计算的总计算公式如下：

8.根据权利要求3所述的基于增强全局信息注意力的多尺度监控行人重识别方法，其特征在于，所述步骤3中计算目标函数的方法具体为：

目标函数为：所计算的损失函数的值为最小；

9.根据权利要求8所述的基于增强全局信息注意力的多尺度监控行人重识别方法，其特征在于，所述步骤3中目标函数的具体公式为：

本模型的总损失函数计算如下公式所示：

其中，f表示本模型提取行人图片的特征向量；N为训练时batch size的大小；u表示训练时的总类别数量，即行人数量；y(m)表示训练集中图片m的标签类别；

表示训练过程中本模型在计算第i个softmaxloss所输入的特征向量中代表k类别的多维特征向量；P表示训练过程中每个batch所包含的行人数量，K为这些行人所占有的图片数量；d为马氏距离的计算；

argmin(Target(f))。