CN117935299A

CN117935299A - 基于多阶特征分支和局部注意力的行人重识别模型

Info

Publication number: CN117935299A
Application number: CN202311670083.0A
Authority: CN
Inventors: 任丹萍; 何婷婷; 赵继军; 魏忠诚; 陈湘国; 王超
Original assignee: Hebei University of Engineering
Current assignee: Hebei University of Engineering
Priority date: 2023-12-07
Filing date: 2023-12-07
Publication date: 2024-04-26

Abstract

本发明公开了基于多阶特征分支和局部注意力的行人重识别模型，涉及图像识别技术领域，包括以下步骤，对训练集中的行人图像进行数据增强预处理操作，输出行人特征图；经过广义平均池化操作计算对应的特征向量，得到多阶特征分支；全局特征向量与加权聚合的局部特征共同得到最终特征向量；使用难样本三元组损失函数、交叉熵损失函数和改进的中心损失函数来训练特征提取网络；计算待查询行人特征和测试集中所有行人特征的欧氏距离，得到查询行人的近邻列表，完成行人重识别。本发明采用上述步骤，通过可变的注意力参数引导融合图像不同区域之后的特征作为最终的特征向量对图像进行表示，有利于自适应的挖掘行人各身体部位之间的上下文信息。

Description

基于多阶特征分支和局部注意力的行人重识别模型

技术领域

本发明涉及图像识别技术领域，特别是涉及基于多阶特征分支和局部注意力的行人重识别模型。

背景技术

行人重识别也称为行人再识别，是图像检索领域的一个子问题。行人重识别旨在从跨摄像头领域中实现对特定目标行人的识别和跟踪，即给定一个监控视频或视频序列中特定的行人图像，利用计算机视觉相关技术，在不同监控设备下的其他图像或者视频中寻找该行人，判定在图像库或者视频序列中该行人是否存在。行人重识别技术在智能安防、公共安全以及智能商业等领域具有重要的积极意义。

然而，在实际场景中，行人重识别技术的识别效果常常受到外界环境的影响。例如行人姿态变换，光照变换和遮挡等因素都会影响模型提取显著性特征信息，进而造成提取信息不充分，识别率低的问题。因此，如何设计一个能够充分提取行人图像特性信息的行人重识别模型成为主要问题。

目前，在计算机视觉领域涌现出大量的特征融合模型来解决特征提取不充分的问题。不过大多数的特征融合方式仅使用不同层级的特征进行对应元素的相加操作或者在仅在通道维度上进行拼接，并不能对图像的特征进行充分表达。

发明内容

本发明的目的是提供基于多阶特征分支和局部注意力的行人重识别模型，为了减少不同摄像设备下拍摄到的图像由于背景杂波影响造成提取细节特征不充分的问题。

为实现上述目的，本发明提供了基于多阶特征分支和局部注意力的行人重识别模型，包括以下步骤，

S1、对数据集中的行人图像进行数据增强预处理操作，提取特征后得到中间特征图，对图像像素进行维度的变换，再对行人图像进行增强后输入特征提取网络中，输出行人特征图；

S2、将S1中得到的行人特征图中的特征在空间维度上分为全局特征、二阶局部特征以及三阶局部特征，经过广义平均池化操作计算得到P个对应的特征向量，得到多阶特征分支；

S3、将S2中的多阶特征分支经过线性变换后输入由注意力机制引导的加权聚合模块中，得到注意力增强的局部特征向量，将其与初始化的动态权值矩阵相乘后得到加权聚合的局部特征，全局特征向量与加权聚合的局部特征共同得到最终特征向量；

S4、将S3中的最终特征向量使用难样本三元组损失函数、交叉熵损失函数和改进的中心损失函数来训练特征提取网络，计算特征提取网络中参数的梯度，反向更新特征提取网络中的参数，完成特征提取网络的训练；

S5、测试阶段时，在S4中的特征提取网络中输入待查询的行人图像和测试集中的所有行人图像，得到测试集中所有行人特征，计算待查询行人特征和图库中所有行人特征的欧氏距离，按照距离的大小递增排序，得到查询行人的近邻列表，完成行人重识别。

优选的，S1中，S11、数据增强预处理

在行人重识别数据集上对训练图像进行数据增强，输入训练集行人图片到特征提取网络，得到大小为H*W*C的中间特征图，其中，H、W、C分别代表其高度、宽度、通道数；

对图像像素进行维度变换，特征提取网络的最后一个模块不进行下采样，对图像进行归一化操作；

S12、提取行人特征

通过对图像采取随机裁剪、水平翻转和随机擦除操作对图像进行数据增强处理，将增强后的图像输入特征提取网络中，训练特征提取网络。

优选的，S2中，S21、行人图像整体特征

从全局特征提取图像整体特征，进行广义平均池化操作后，得到对行人图像整体的特征表示；

S22、构建局部特征分支

将经过特征提取网络得到的图像特征在空间维度上分别进行二等分与三等分操作，得到二阶局部特征和三阶局部特征，经过广义平均池化计算得到对应的二阶局部特征向量和三阶局部特征向量，构建图像的局部特征分支。

优选的，S3中，S31、卷积操作特征向量并计算注意力权重

将S2中的P个特征向量送入三个不同的卷积层，得到的局部特征向量为F^P，

经过卷积操作后的x(f_i ^P)、y(f_i ^P)和z(f_i ^P)，将x(f_i ^P)和y(f_i ^P)相乘后得到大小为P*P的矩阵，使用归一化操作计算矩阵中每一个块的注意力权重值；

S32、计算加权聚合的局部特征

将S31中的矩阵与z(f_i ^P)做点乘运算，得到注意力增强的局部特征，随机初始化一个可学习权重，经过激活函数与注意力增强的局部特征做矩阵相乘，得到加权聚合的局部特征；

S33、计算全局特征向量

将原始行人图像输入特征提取网络输出的特征向量做广义平均池化操作后的特征向量经过BN层做归一化操作，得到全局特征向量；

S34、计算最终特征向量

将S33中的全局特征向量与S32中加权聚合的局部特征相加，得到最终特征向量。

优选的，S4中，S41、难样本三元组损失函数L_Triplet：

其中，为目标图片，/>为正样本图片，/>为负样本图片，N为同一批训练批次中不同身份的行人图像个数，K为同一批训练数据中同一身份行人的实例数，α为正样本和负样本之间的间隔距离；

S42、含有标签平滑的交叉熵损失函数L_CE

其中，N为每批次行人的图像个数，H表示每个身份的行人个数，f_i为图像的最终特征向量，y_i为f_i对应的真实标签，W为权重向量，ε为标签平滑参数；

S43、基于难样本挖掘的改进的中心损失函数L_Center

其中，为标签y_i的行人图像平均特征值，/>为同一身份行人与其对应身份的平均特征的最大欧几里得距离，/>为不同身份的行人类内平均特征的最小欧几里得距离，f_j″为最终特征向量；

S44、联合难样本三元组损失函数L_Triplet、交叉熵损失函数L_CE和改进的中心损失函数L_Center的总体损失函数L对特征提取网络进行训练，

L＝L_Triplet+L_CE+L_Center。

优选的，S5中，S51、将行人图像输入网络模型中提取行人全局特征，对数据集中的行人图像裁剪后与图像库中所有行人图像特征做距离度量；

S52、根据已经得到的欧式距离大小进行递增排序，取前排行人样本作为查询行人的近邻列表，输出最终结果。

因此，本发明采用上述步骤，其有益效果为：

1、本发明设计的加权聚合特征模块使模型在训练和测试时具有很高的计算效率，对背景杂波有较强的鲁棒性，对加权聚合后的最终特征表示中自适应地关注行人局部特征，提高模型的识别能力；

2、本发明使用特征提取网络ResNet50提取不同粒度的图像特征。粗粒度特征稳定性和鲁棒性较强，细粒度局部特征消除背景杂波的影响，联合全局特征、二阶局部特征和三阶局部特征对行人图像表示，不仅更全面的对行人图像进行特征表达，而且很好地弥补局部特征分割导致的语义信息的丢失，在特征提取网络ResNet50的启发下，经过归一化操作的全局特征残差连接结构的表现优于直接连接全局特征，增强了模型对存在大量噪声下的行人的表征能力；

3、本发明联合难样本三元组损失函数、交叉熵损失函数和改进中心损失函数三种损失函数优化空间中的差异，引入难样本三元组损失中使得类内之间特征距离更加紧凑，类间特征距离更加远离，通过最小化网络损失，找到一个可以将图像特征向量映射到最优特征空间的深度卷积模型；

4、交叉熵损失函数将行人重识别当做分类问题来解决，将最终得到的特征向量映射到与训练集中行人身份类别个数同等维度的高维空间上，对每个行人身份预测一个相应的概率，根据概率得到相应的损失；

5、改进的中心损失在关注类内距离的同时也关注类间距离，在三元组损失函数建立样本之间距离关系的基础上，调节不同身份类别特征之间的关系，增强同一身份行人的特征聚簇能力；

6、本发明通过可变的注意力参数引导融合图像不同部位之后的特征作为最终的特征向量对图像进行表示，当注意力机制与多分支图像特征相结合，有利于自适应的挖掘身体各部位之间的上下文信息。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是本发明基于多阶特征分支和局部注意力的行人重识别模型的结构图；

图2是本发明中多阶特征分支模块示意图；

图3是本发明中局部加权注意力聚合模块示意图。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

通过下面的实施例可以更详细的解释本发明，公开本发明的目的旨在保护本发明范围内的一切变化和改进，本发明并不局限于下面的实施例。

实施例1

S1、对数据集中的行人图像进行数据增强预处理操作，提取特征后得到中间特征图，对图像像素进行维度的变换，再对行人图像进行增强后输入特征提取网络中，输出行人特征图。

S1中，S11、数据增强预处理

如图1所示，在行人重识别数据集Market-1501上对训练图像进行数据增强，输入训练集行人图片到特征提取网络ResNet50，得到大小为H*W*C的中间特征图，其中，H、W、C分别代表其高度、宽度、通道数。

对图像像素进行维度变换，输出后图像的长宽分别为384和128。在特征提取网络ResNet50的最后一个模块不进行下采样，对图像进行均值为[0.5,0.5,0.5]，标准差为[0.5,0.5,0.5]的归一化操作。

S12、提取行人特征

通过对图像进行概率为0.5的随机裁剪和水平翻转操作。设定0.5的擦除比率，执行随机擦除操作后，通过在图像上生成一个黑色矩形框形成的图像的遮挡，缓解了网络模型训练过程中出现的过拟合现象。将增强后的图像输入特征提取网络ResNet50中，训练特征提取网络ResNet50。

S2、将S1中得到的行人特征图中的特征在空间维度上分割为全局特征、二阶局部特征以及三阶局部特征，经过广义平均池化操作计算对应的特征向量，得到多阶特征分支。

S2中，S21、行人图像整体特征

如图2所示，从全局特征提取行人图像整体特征，进行广义平均池化GeM操作后，得到对行人图像整体的特征表示。

S22、构建局部特征分支

为了增强对图像中更细节特征的提取，将经过特征提取网络ResNet50得到的图像特征在空间维度上分别进行二等分与三等分操作，得到二阶局部特征和三阶局部特征，经过广义平均池化GeM计算得到对应的二阶局部特征向量和三阶局部特征向量，构建图像的局部特征分支。

S3、将S2中的多阶特征分支经过线性变换后输入由注意力机制引导的加权聚合模块中，得到注意力增强的局部特征向量，将其与初始化的动态权值矩阵相乘后得到加权聚合的局部特征，全局特征向量与加权聚合的局部特征共同得到最终特征向量。

S3中，S31、卷积操作特征向量并计算注意力权重

如图3所示，将特征图f_i ^P通过两种等分操作在空间维度上水平分割，局部特征向量和全局特征向量共形成P个水平特征向量，特征向量通道维度为2048，通过使用广义平均池化GeM用于提取P个特征向量。将得到的P个局部特征向量和全局特征向量送入三个不同的卷积层，得到局部特征向量为F^P，

经过卷积操作后的x(f_i ^P)、y(f_i ^P)和z(f_i ^P)，将x(f_i ^P)和y(f_i ^P)相乘后得到大小为P*P的矩阵，softmax归一化操作后计算矩阵中每一个块的注意力权重值；

x(f_i ^P)＝W_xf_i ^P

y(f_i ^P)＝W_yf_i ^P

z(f_i ^P)＝W_zf_i ^P

其中，为f_i ^P和/>局部特征之间的关系，/>为局部注意力权重。

为了增大局部特征之间的差异，通过指数函数映射计算，其计算公式如下：

其中，为第j个局部特征，/>为将经过卷积操作的特征向量做转置操作。

S32、计算加权聚合的局部特征

将S31中的矩阵与z(f_i ^P)做点乘运算，得到注意力增强的局部特征，

其中，为局部注意力权重值。

随机初始化一个可学习权重，经过Softmax激活函数与注意力增强的局部特征做矩阵相乘，得到加权聚合的局部特征，

其中，表示处理身体不同部位的一个可学习权重向量。

S33、计算全局特征向量

将原始行人图像输入特征提取网络ResNet50输出的特征向量做广义平均池化GeM操作后的特征向量f^O经过BN层做归一化操作，得到全局特征向量。

S34、计算最终特征向量

将S33中的全局特征向量看成残差模块与S32中加权聚合的局部特征相加，得到最终特征向量f″。

f″＝BN(f^O)+f′

其中，f′为加权聚合的局部特征。

S4中，S41、难样本三元组损失函数L_Triplet：使用与f_a距离最远的f_P以及与f_a距离最近的f_n作为训练数据。

其中，为目标图片，/>为正样本图片，/>为负样本图片，N为同一批训练批次中不同身份的行人图像个数，K为同一批训练数据中同一身份行人的实例数，α为正样本和负样本之间的间隔距离。

S42、含有标签平滑的交叉熵损失函数L_C

其中，N为每批次行人的图像个数，H表示每个身份的行人个数，f_i为图像的最终特征向量，y_i为f_i对应的真实标签，W为权重向量，ε为标签平滑参数。

三元组损失和交叉熵损失在计算的过程中，没有考虑同一类内之间的绝对距离，对于相同身份行人在高维空间中的特征向量之间的距离约束力较弱。为了增加同一身份图像内特征的内聚性，联合改进的中心损失、交叉熵损失和难样本三元组损失共同对模型进行优化，改进中心损失在三元组建立样本之间距离关系的基础上，调节了不同身份类特征之间的关系。

S43、基于难样本挖掘的改进的中心损失函数L_Center，为了使特征提取网络ResNet50在训练的过程中更快的收敛，提出了难样本挖掘降低计算的复杂度，在训练过程中只需考虑最难样本，减少收敛过程中需要迭代计算的次数。

其中，为标签y_i的行人图像平均特征值，/>为同一身份行人与其对应身份的平均特征的最大欧几里得距离，/>为不同身份的行人类内平均特征的最小欧几里得距离，f_j″为最终特征向量，P表示同一批数据中的行人身份总数。

L＝L_Triplet+L_CE+L_Center。

联合难样本三元组损失函数、交叉熵损失函数和改进的中心损失函数对特征提取网络ResNet50进行训练，计算各网络参数的梯度，使用反向传播梯度下降的方法更新局部加权注意力聚合模块的参数，当损失函数收敛到一定程度时，完成对特征提取网络ResNet50的训练。

S5、测试阶段时，在S4中的特征提取网络中输入待查询的行人图像和数据集中的所有行人图像，得到数据集中所有行人特征，计算待查询行人特征和图库中所有行人特征的欧氏距离，按照距离的大小递增排序，得到查询行人的近邻列表，完成行人重识别。

S5中，S51、已经训练完成的特征提取网络ResNet50，固定其参数保持不变，对现公开数据集Market-1501的行人图像进行裁剪，尺寸大小长为384，宽为128，将行人图像输入网络模型中提取行人全局特征，对行人图像裁剪后与图像库中所有行人图像特征做距离度量。

S52、在距离度量时，使用常见的欧式距离进行距离的测量。根据已经得到的欧式距离大小进行递增排序，取前10个行人样本作为查询行人的近邻列表，输出最终结果。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.基于多阶特征分支和局部注意力的行人重识别模型，其特征在于：包括以下步骤，

2.根据权利要求1所述的基于多阶特征分支和局部注意力的行人重识别模型，其特征在于：S1中，S11、数据增强预处理

S12、提取行人特征

3.根据权利要求1所述的基于多阶特征分支和局部注意力的行人重识别模型，其特征在于：S2中，S21、行人图像整体特征

S22、构建局部特征分支

4.根据权利要求1所述的基于多阶特征分支和局部注意力的行人重识别模型，其特征在于：S3中，S31、卷积操作特征向量并计算注意力权重

S32、计算加权聚合的局部特征

S33、计算全局特征向量

S34、计算最终特征向量

5.根据权利要求1所述的基于多阶特征分支和局部注意力的行人重识别模型，其特征在于：S4中，S41、难样本三元组损失函数L_Triplet

S42、含有标签平滑的交叉熵损失函数L_CE

S43、基于难样本挖掘的改进的中心损失函数L_Center

L＝L_Triplet+L_CE+L_Center。

6.根据权利要求1所述的基于多阶特征分支和局部注意力的行人重识别模型，其特征在于：S5中，S51、将行人图像输入网络模型中提取行人全局特征，对数据集中的行人图像裁剪后与图像库中所有行人图像特征做距离度量；