CN114821631A

CN114821631A - 基于注意力机制与多尺度特征融合的行人特征提取方法

Info

Publication number: CN114821631A
Application number: CN202210226785.9A
Authority: CN
Inventors: 孙晓明; 段彦; 陈言; 王永亮; 张微风
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-07-29
Anticipated expiration: 2042-03-09
Also published as: CN114821631B

Abstract

本发明基于注意力机制与多尺度特征融合的行人特征提取方法属于计算机视觉、机器视觉和深度学习技术领域；该方法依次执行以下步骤：构建自上而下渐进式交互模块；构建M‑Convolution注意力机制模块；设置评价指标；评价行人特征提取方法的有效性；本发明在数据集上通过Resnet50+FPN、Resnet50+FPN+M‑convolution、Resnet50+MPN三种行人特征提取方法进行训练，经过对比mAP、Rank‑1和Rank‑5三个衡量指标，本发明构建的两个模块在三个指标上的表现均有不同程度的提高，验证了基于注意力机制与多尺度特征融合的行人特征提取方法的有效性，具有较大的实用价值。

Description

基于注意力机制与多尺度特征融合的行人特征提取方法

技术领域

本发明基于注意力机制与多尺度特征融合的行人特征提取方法属于计算机视觉、机器视觉和深度学习技术领域。

背景技术

近年来，行人重识别技术发展的越来越成熟，对建设智能安防系统和构建智慧城市做出的巨大贡献，行人重识别技术主要依赖于行人特征提取。

早期研究中，行人特征提取依赖于单一手工特征设计方式，Gheissari N等人在实验中对HOG特征向量使用加权的方法提取的行人特征信息并进行数据增强，使用MIT数据集进行模型训练以及算法验证，达到了77％的识别精度。然而，手工特征设计方式较为复杂，而且在背景遮挡、人物遮挡等复杂场景下，模型特征表达能力明显不足，降低了行人特征提取精确度。

随着深度学习的发展，卷积神经网络凭借强大的特征提取能力以及模型扩展能力在行人检测、识别、跟踪方面发挥着强大的生命力，之后大量基于卷积神经网络的衍生算法被提出，进一步提高了该框架在行人检测任务中的准确度。然而，这些行人特征提取方法仍然受到背景遮挡、人物遮挡等因素的影响，行人重识别的检测精确度表现仍然不太理想。

可见，为了提高行人重识别的识别精确度，有必要对行人特征提取方法进行改进升级。

发明内容

为了实现上述目的，本发明公开了一种基于注意力机制与多尺度特征融合的行人特征提取方法，提出了一种基于注意力机制与多尺度特征融合的行人特征提取网络，包括自上而下渐进式交互模块和M-Convolution注意力机制模块，提高了行人识别的准确率，具有较大的实用价值。

本发明的目的是这样实现的：

基于注意力机制与多尺度特征融合的行人特征提取方法，包括以下步骤：

步骤a、构建自上而下渐进式交互模块；

步骤b、构建M-Convolution注意力机制模块；

步骤c、设置评价指标；

步骤d、评价行人特征提取方法的有效性。

上述基于注意力机制与多尺度特征融合的行人特征提取方法，步骤a具体步骤如下：

步骤a1、输入行人图像，采用残差网络Resnet50完成特征卷积计算，生成的四个特征图，{C₂,C₃,C₄,C₅}表示所述四个特征图；

步骤a2、将较低层次相邻的特征图{C₄,C₅}进行跨尺度非局部特征操作，将重复出现的行人特征信息进行融合得到特征图

所述跨尺度非局部特征操作公式如下：

f(Fⁱ)＝W_fFⁱ

g(G^j)＝W_gG^j

θ＝W_θG^j

其中，F、G为两个行人特征图；i,j为特征图F、G、y的位置索引；∑为求和符号；φ为点乘进行相似度计算函数；θ为行人特征转换函数；G^j为生成新的行人特征图；yⁱ为行人特征信息；σ(F,G)为标量函数；r*r为斑块区域的大小；δ(r)为邻域大小；W_f、W_g、W_θ为线性嵌入函数实现从向量到标量的转化；e为自然常数；T为转置符号；f(Fⁱ)^Tg(G^j)为点乘相似度计算公式；

步骤a3、将特征图

和特征图{C₃}再次进行跨尺度非局部特征操作，将重复出现的行人特征信息再次进行融合得到特征图

步骤a4、将得到的特征图进行级联操作和上采样操作之后，输入到注意力机制模块。

上述基于注意力机制与多尺度特征融合的行人特征提取方法，步骤b具体步骤如下：

步骤b1、在通道和空间两个维度通过CBAM网络模型结构进行特征捕捉，得到特征图A；具体步骤如下：

步骤b1-1、在CBAM网络通道注意力子模块上进行特征捕捉；

步骤b1-2、在CBAM网络空间注意力子模块上进行特征捕捉；

步骤b2、计算特征图之间的关联性并且增添注意力权重K，输出行人特征图，所述行人特征包含检索行人图像数量、输出通道的数量、输出行人特征图的高度和宽度；

所述输出行人特征公式如下：

AK＝F₂(A,K)＝K+A⊙K

其中，I、K和O分别代表在行人重识别卷积网络中的输入行人特征、权值和输出行人特征；l＝0,...,N-1；m＝0,...,H-1；n＝0,...,W-1；o＝0,...,c₁-1；p＝0,...,c₂-1；

为输入特征；N、c₁、H和W分别为检索行人图像数量、输入通道数量、输入特征的高度和宽度；

为权重；

为输出特征；c₂、h和w分别是输出通道的数量、输出行人特征图的高度和宽度；

为注意力机制行人特征；⊙表示哈达玛乘积；

表示卷积运算；∑为求和符号；

F₁、F₂为函数；

步骤b3、将经过注意力机制模块处理之后的特征图进行0.5倍下采样操作，最终得到预测特征图{P₂,P₃,P₄,P₅,P₆}。

上述基于注意力机制与多尺度特征融合的行人特征提取方法，步骤c具体步骤如下：

步骤c1、绘制累积匹配曲线CMC图；

步骤c2、采用累积匹配曲线CMC中的平均精度均值mAP、首位命中率Rank-1和第五位命中率Rank-5作为特征提取方法的衡量指标；具体步骤如下：

步骤c2-1、计算每个查询行人图像的准确率P(k,A)；计算公式如下：

其中，k表示返回的前k个行人排序结果；k_c表示k个行人中正例样本的数目；A为查询的图像；P为准确率；

步骤c2-2、计算每个查询行人图像的平均值AP(A)；计算公式如下：

其中，M为候选行人图库中与查询的图像A同标签的行人图片数目；j为M个正例行人样本在返回的排序结果中的位置索引；

步骤c2-3、计算平均精度均值mAP；计算公式如下：

其中，N为检索行人图像的数量；

步骤c2-4、计算首位命中率Rank-1和第五位命中率Rank-5；计算公式如下：

其中，cn-1表示N次查询中，排在第一位的检测结果是正确行人对象的次数；cn-5表示N次查询中，排在第五位的检测结果是正确行人对象的次数。

上述基于注意力机制与多尺度特征融合的行人特征提取方法，步骤d具体步骤如下：

步骤d1、使用难样本采样三元组损失调整网络；计算公式如下：

其中，L_ID为标签平滑分类损失；L_trihard为难样本采样三元组损失；b表示每批次训练样本数；||f_Hi-f_Pi||₂表示两个行人特征之间的距离；H和P是同一行人的样本；H和N代表不同行人的样本；α表示距离间隔；

步骤d2、在Market-1501和DukeMTMC-reID两个数据集上通过Resnet50+特征图金字塔网络FPN、Resnet50+特征图金字塔网络FPN+M-convolution、Resnet50+MPN三种行人特征提取方法进行训练；

步骤d3、对比平均精度均值mAP、首位命中率Rank-1和第五位命中率Rank-5三个衡量指标来评价行人特征提取方法的有效性。

有益效果：

本发明设计了一种基于注意力机制与多尺度特征融合的行人特征提取方法，提出了一种基于注意力机制与多尺度特征融合的行人特征提取网络，包括自上而下渐进式交互模块和M-Convolution注意力机制模块，提高了行人识别的准确率，具有较大的实用价值。

附图说明

图1为自上而下渐进式交互模块结构图。

图2为残差网络Resnet50结构图。

图3为双线性插值法示意图。

图4为M-Convolution注意力机制模块结构图。

图5为CBAM网络模型结构图。

图6为通道注意力子模块结构图。

图7为空间注意力子模块结构图。

图8为特征图金字塔网络FPN工作原理示意图。

图9为三种提取方法在Market-150数据集上训练得到的累积匹配曲线CMC图。

图10为三种提取方法在DukeMTMC-reID数据集上训练得到的累积匹配曲线CMC图。

具体实施方式

下面结合附图对本发明具体实施方式作进一步详细描述。

本发明基于注意力机制与多尺度特征融合的行人特征提取方法，包括以下步骤：

步骤a、构建自上而下渐进式交互模块；

步骤b、构建M-Convolution注意力机制模块；

步骤c、设置评价指标；

步骤d、评价行人特征提取方法的有效性。

其中，自上而下渐进式交互模块结构图如图1所示，步骤a具体步骤如下：

步骤a1、输入行人图像，采用如图2所示的残差网络Resnet50完成特征卷积计算，生成的四个特征图，{C₂,C₃,C₄,C₅}表示所述四个特征图；

所述跨尺度非局部特征操作公式如下：

f(Fⁱ)＝W_fFⁱ

g(G^j)＝W_gG^j

θ＝W_θG^j

步骤a3、将特征图

步骤a4、将得到的特征图进行级联操作和上采样操作之后，输入到注意力机制模块；

其中，级联操作可以理解为通道数的合并，通过级联操作之后图像本身的特征增加了，但是每一特征下的信息是没有增加；计算公式如下：

c＝c_A+c_B

上采样操作通过如图3所示的双线性插值的方式完成，首先进行x方向的插值，计算公式如下：

然后进行y方向的插值，计算得到P点的灰度值，计算公式如下：

在步骤a4中，f(Q_xx)为代表某一点的灰度值；Q₁₂坐标为(x₁,y₂)；Q₂₂坐标为(x₂,y₂)；Q₁₁坐标为(x₁,y₁)；Q₂₁坐标为(x₂,y₁)；f(R_x)为进行x方向插值得到的灰度值；f(x,y)为经过双线性插值得到的灰度值；c_A为特征图A的通道数，c_B为特征图B的通道数，c为级联之后特征图的通道数。

其中，M-Convolution注意力机制模块结构图如图4所示，步骤b具体步骤如下：

步骤b1、在通道和空间两个维度通过如图5所示的CBAM网络模型结构进行特征捕捉，得到特征图A；具体步骤如下：

步骤b1-1、在CBAM网络通道注意力子模块上进行特征捕捉；

将输入的特征图分别经过全局最大池化操作和全局平均池化操作，得到两个特征图，之后输入两层的神经网络MLP，最后经过element-wise操作和sigmoid激活操作输出图6所示的通道注意力特征图；

步骤b1-2、在CBAM网络空间注意力子模块上进行特征捕捉；

将通道注意力子模块的输出特征图作为本子模块的输入特征图，首先依次经过全局最大池化操作和全局平均池化操作，得到两个特征图，之后经过级联操作，然后经过卷积操作生成通道数为1的特征图，然后经过sigmoid激活操作输出如图7所示的空间注意力特征图，最后将空间注意力子模块的输入的特征图和输出的特征图进行逐元素相乘，输出特征图A；

所述输出行人特征公式如下：

AK＝F₂(A,K)＝K+A⊙K

为权重；

为注意力机制行人特征；⊙表示哈达玛乘积；

表示卷积运算；∑为求和符号；

F₁、F₂为函数；

步骤b3、将经过注意力机制模块处理之后的特征图进行0.5倍下采样操作，最终得到预测特征图{P₂,P₃,P₄,P₅,P₆}；

其中，下采样操作通过卷积操作完成，例如对于一幅图像尺寸为M*N，对其进行s倍下采样，即得到(M/s)*(N/s)尺寸的得分辨率图像。

步骤c具体步骤如下：

步骤c1、绘制累积匹配曲线CMC图；

步骤c2-3、计算平均精度均值mAP；计算公式如下：

其中，N为检索行人图像的数量；

步骤d具体步骤如下：

其中，特征图金字塔网络FPN通过对顶层行人特征进行上采样操作后和低层特征融合，此外每一个层级的特征预测是分别进行。其中自底向上部分主要是经过卷积操作完成降采样过程；自顶向下是经过反卷积操作完成上采样；横向连接部分实现高分辨率但语义表达弱的特征和低分辨率语义表达强的特征融合后进行预测输出，其工作原理如图8所示；对于特征图金字塔网络FPN+M-convolution的方法则在横向连接部分加入注意力机制模块M-convolution，减少无用特征，提高有效特征的表达能力；

本实施例在Market-1501、DukeMTMC-reID两个数据集下，通过Resnet50+FPN、Resnet50+FPN+M-convolution、Resnet50+MPN三种行人特征提取方法进行训练，之后绘制CMC曲线图，三种方法在Market-150数据集上的表现如图9所示，在DukeMTMC-reID数据集上的表现如图10所示。

从实验结果来看，Resnet50+特征图金字塔网络FPN+M-convolution、Resnet50+MPN表现较好，说明MPN网络采用了自上而下渐进式交互模块，有效利用了行人图像多尺度信息，提高了行人检测的精确度。而且在不同的数据集上，Resnet50+MPN结果并没有比另外两种网络结构低，说明M-Convolution注意力机制模块并没有因为网络参数量增多导致特征提取速度变慢，反而因为对注意力图个数的抑制使得特征提取速度加快的同时也提高了行人检测的精确度。

为了验证M-Convolution注意力机制模块和构建自上而下渐进式交互模块的有效性，计算平均精度均值mAP、Rank-1和Rank-5三个衡量指标，如表1所示：

表1对比衡量指标

结合Rank-1、mAP和Rank-5的定义，验证了基于注意力机制与多尺度特征融合的行人特征提取方法的有效性，具有较大的实用价值。