CN114973317B

CN114973317B - 一种基于多尺度邻接交互特征的行人重识别方法

Info

Publication number: CN114973317B
Application number: CN202210526758.3A
Authority: CN
Inventors: 产思贤; 戚梦赞; 吴周检
Original assignee: Hangzhou Pixel Technology Co ltd
Current assignee: Hangzhou Pixel Technology Co ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2023-04-28
Anticipated expiration: 2042-05-13
Also published as: CN114973317A

Abstract

本发明公开了一种基于多尺度邻接交互特征的行人重识别方法，它涉及图像识别技术领域。获取采集的视频文件，裁剪目标图像，配对同一目标，将ResNet50作为主干网络，获取初始多尺度特征；将目标特征从第三层开始依次使用SOA；将各层的目标特征输入到Bottleneck提取局部信息，对齐空间大小；将特征图输入到Transformer网络，得到全局特征；将局部特征和全局特征按照特征维度联合，并将联合特征切片，经同尺度特征交互和跨尺度特征交互操作得目标的多尺度邻接特征表示，最后通过损失函数训练得到行人重识别模型。本发明提高行人重识别的鲁棒性，有效抑制目标被密集地划分而导致得语义信息模糊和背景干扰问题。

Description

一种基于多尺度邻接交互特征的行人重识别方法

技术领域

本发明涉及的是图像识别技术领域，具体涉及一种基于多尺度邻接交互特征的行人重识别方法。

背景技术

行人重识别(Personre-identification，简称Re-ID)也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，被广泛认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限，并可与行人检测和行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。在监控视频中，由于相机分辨率和拍摄角度的缘故，通常无法得到质量非常高的人脸图片。当人脸识别失效的情况下，Re-ID就成为了一个非常重要的替代品技术。在尺度变换、遮挡和换装等复杂情况下，重识别精度会大幅降低。如何提高行人重识别的鲁棒性，仍存在一些挑战。

深度学习方法中，根据训练损失函数的不同可以分为基于表征学习的方法和基于度量学习的方法。根据方法原理不同，可以将近几年行人重识别的研究分为区域、注意力、姿势和生成对抗性网络四类方法。当前效果最为先进的当选基于切片的行人重识别，能够提取细粒度信息。为了符合人体结构特征，切片方式通常将图片或特征图水平等分割。考虑到切片会产生信息损失，部分研究将部分特征和全局特征整合，同时学习局部切片特征和全局特征，动态对齐局部信息。然而过度的切片会造成目标被密集的划分，从而引发目标语义信息模糊以及抗背景干扰能力下降。

为了解决上述的目标语义信息模糊以及抗背景干扰能力下降的问题，开发一种基于多尺度邻接交互特征的行人重识别方法尤为必要。

发明内容

针对现有技术上存在的不足，本发明目的是在于提供一种基于多尺度邻接交互特征的行人重识别方法，能够有效抑制目标被密集地划分而导致得语义信息模糊和背景干扰问题，提高行人重识别的鲁棒性，易于推广使用。

为了实现上述目的，本发明是通过如下的技术方案来实现：一种基于多尺度邻接交互特征的行人重识别方法，其步骤为：

(1)获取采集的视频文件，将其中包含人的目标图像裁剪出来，将不同摄像头的同一目标配对；考虑到ResNet50的强大特征表示，将ResNet50作为主干网络，同一目标的多张图片输入主干网络来获取初始多尺度特征；

(2)将主干网络生成的第三层、第四层和第五层目标特征提取作为多尺度特征的基础，从第三层开始依次使用SOA，利用上下文信息来提高感受野的同时达到同一尺度内特征聚合的效果；

(3)将第三层、第四层和第五层的目标特征分别输入到Bottleneck提取局部信息同时增强特征表示能力，利用最大池化方式对齐空间大小；

(4)将得到空间对齐后的特征沿着空间通道进行连接到的聚合后的特征图输入到Transformer网络，得到全局特征；

(5)将步骤(2)中得到的基于CNN的局部特征和步骤(4)得到基于Transformer的全局特征按照特征维度联合起来；

(6)将上述步骤得到的联合特征进行切片，然后经过同尺度特征交互和跨尺度特征交互这两种特征交互操作，得到目标的多尺度邻接特征表示；

(7)最后通过损失函数训练得到基于多尺度邻接交互特征的行人重识别模型。

作为优选，所述的步骤(1)的具体方法为：涉及网络的主干由ResNet50构建，其中ResNet50最后一层的stride设置为1；在输入ResNet50之前，将重新定义所有图像尺寸为256×128，同时进行数据增强操作(随机裁剪、水平翻转和随机删除)；设定batchsize为64，其中共16个不同的人，每个人4张不同的照片。

作为优选，所述的步骤(2)对于Resnet50的第l层，提取到特征图

其中C_l、H_l、W_l分别表示通道数、特征图高度、特征图宽度；首先，介绍同一尺度内特征聚合方案，启发于SOA能够利用上下文信息提高感受野，对于ResNet50中的第l层，利用SOA模块对第l层特征对齐：X_l＝SOA(X_l)。

作为优选，所述的步骤(3)考虑到不同尺度下的特征图空间大小不同、CNN注重局部特征而Transformer更注重全局特征这两个因素，综合两者的优势，利用Bottleneck提取局部信息同时增强特征学习能力，利用最大池化的方式对齐空间大小：

X_j＝MaxPooling(Bottleneck(X_j))

其中，Bottleneck是ResNet中的模块；

然后，利用堆叠的方式融合不同尺度的特征：

F＝Concat(X₁，X₂，...X_n)

其中，

作为优选，所述的步骤(4)中通过步骤(3)中得到空间对齐特征F后，输入到Transformer中进行全局特征的提取；根据Vision Transformer中的设计方式，聚合不同尺度的特征信息；给定一个上述特征图F，将其切成(R，R)大小的图像块，得到N＝(h×w)/R²个图像块；将每个块通过线性投影到D维向量上，同时将可学习参数class token嵌入以提取全局特征信息；得到向量序列Z∈R^L×D，其中L＝N+1，也将可学习位置参数加入向量序列Z中；标准的Transformer层包含堆叠的多头自注意力模块(MSA)和多层感知机模块(MLP)；一共设计d个Transformer层，对于第l层的输入：

F^(l)＝Transformer(F^l-1)

其中Transformer模块中，F⁰由公式F＝Concat(X₁，X₂，…X_n)得到，F^d∈R^c’×N；根据公式F^(l)＝Transformer(F^l-1)，由class token得到全局特征信息f_gl∈R^c’×1，同时获得全局特征图X_gl∈R^c’×h×w；然后，利用堆叠的方式合并CNN提取的特征X₅(由公式X_l＝SOA(X_l)得出)和Transformer得到的特征X_gl，得到

其中c_f＝C₅+c’。

作为优选，所述的步骤(6)中涉及基于切片的联合交互特征提取：该联合特征提取模块共分为同尺度特征交互子模块和跨尺度特征相关子模块，两者均建立在切片的基础上；切片方案DIVISION(1，2，...N)＝{D₁，D₂，...D_N}，其中D_i表示将特征图片X_f水平切成同等大小的i块，分别用{D_i，1，D_i，2，...D_i，j}表示。

基于切片的联合交互特征提取针对同尺度特征交互，定义一种切片方案D_d，可以获得到d块大小相同的特征图，分别用{D_d，1，D_d，2，...D_d，d}表示；首先，对于每个小块D_d，j进行最大池化操作，得到

考虑到人体身体结构中，相邻块特征能够提取到更好的肢体信息：对于相邻两块特征{D′_d，j-1，D′_d，j}，采取最大池化的方式将其合并，被表示为MaxPooling(D′_d，j-1，D′_d，j)；对所有相邻两块都进行上述操作，通过张量形状变换后得到

对于每一种切片方案，使用全连接层提取同尺度特征

其中d表示切片的数量。

基于切片的联合交互特征提取针对跨尺度特征交互，考虑到不同身体部位的大小比例不同，关联不同尺度的肢体信息，设计一种基于建图的交叉注意力模块：首先，建立一张图G＝(V，E)，将所有切片方案DIVISION(1，2...N)得到的块v_ij作为节点集合V，点权定义为

对于边集合E，如果两个节点(V_i1j1，V_i2j2)的边界框(B_i1j1，B_i2j2)交集不为空则建边，即

在softmax的基础上，引用一种基于图的节点特征聚合方式：

其中，Nei(V_i)表示节点V_i的相邻节点集合，W表示权重矩阵；综上，基于建图的交叉注意力被描述为：

其中，

表示正则化项，Query，Key和Value都从向量序列D′使用不同的线性变换矩阵得到：Q＝D′W_Q，K＝D′W_K，V＝D′W_V；为了网络捕捉到更丰富的特征，同样采取多头的方式，与同尺度交互模块相似，同样使用全连接层提取跨尺度特征

其中d表示切片数量。

作为优选，所述的步骤(7)中行人Re-ID常用损失函数是将Cross-entropy Loss和Hard Triplet Loss的组合，交叉熵损失函数能够提高模型分类效果。为了提高模型的泛化能力，设计基于label smooth的分类损失。

其中k表示行人类别数量，p表示预测值，q表示为真实值，label smooth中的参数ξ设定为0.1；难样采样三元组损失函数能够更好提取区分特征，拉近相同类距离，拉远不同类距离：

其中

和

分别表示正样本和负样本，[·]₊＝max(·，0)，α为设定的阈值距离，结合label smooth和难样采样三元组损失函数，得到损失函数L_reid：

L_reid＝L_CE+L_Tri

利用行人特征f_gl，

和

得到总损失函数：

本发明的有益效果：本方法提高行人重识别的鲁棒性，能够有效抑制目标被密集地划分而导致得语义信息模糊和背景干扰问题，应用前景广阔。

附图说明

下面结合附图和具体实施方式来详细说明本发明；

图1为本发明的流程图；

图2为本发明的整体框架图；

图3为本发明的同尺度特征相关模块示意图；

图4为本发明的跨尺度特征相关模块示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

参照图1-4，本具体实施方式采用以下技术方案：一种基于多尺度邻接交互特征的行人重识别方法，其步骤为：

(1)获取采集的视频文件，将其中包含人的目标图像裁剪出来，将不同摄像头的同一目标配对。

考虑到ResNet50的强大特征表示，将ResNet50作为主干网络，涉及网络的主干由ResNet50构建，其中ResNet50最后一层的stride设置为1；在输入ResNet50之前，将重新定义所有图像尺寸为256×128，同时进行数据增强操作(随机裁剪、水平翻转和随机删除)；设定batchsize为64，其中共16个不同的人，每个人4张不同的照片。同一目标的多张图片输入主干网络来获取初始多尺度特征。

(2)将主干网络生成的第三层、第四层和第五层目标特征提取作为多尺度特征的基础(X₃，X₄，X₅)，从第三层开始依次使用SOA，利用上下文信息来提高感受野的同时达到同一尺度内特征聚合的效果。

对于Resnet50的第l层，提取到特征图

其中C_l、H_l、W_l分别表示通道数、特征图高度、特征图宽度；首先，介绍同一尺度内特征聚合方案，启发于SOA能够利用上下文信息提高感受野，对于ResNet50中的第l层，利用SOA模块对第l层特征对齐：X_l＝SOA(X_l)，(l∈{3，4，5})，最后获得原始特征X₃：512*32*16，X₄：1024*16*8，X₅：2048*16*8。

(3)将第三层、第四层和第五层的目标特征分别输入到Bottleneck提取局部信息同时增强特征表示能力，利用最大池化方式对齐空间大小。考虑到不同尺度下的特征图空间大小不同、CNN注重局部特征而Transformer更注重全局特征这两个因素，综合两者的优势，利用Bottleneck提取局部信息同时增强特征学习能力，利用最大池化的方式对齐空间大小：

X_j＝MaxPooling(Bottleneck(X_j))

其中，Bottleneck是ResNet中的模块；X₄，X₅维度不变，X₃：512*16*8。

然后，利用堆叠的方式融合不同尺度的特征：

F＝Concat(X₁，X₂，...X_n)

其中，

F的维度：3584*16*8。

本步骤通过步骤(3)中得到空间对齐特征F后，输入到Transformer中进行全局特征的提取；根据Vision Transformer中的设计方式，聚合不同尺度的特征信息；给定一个上述特征图F，将其切成(R，R)大小的图像块，得到N＝(h×w)/R²个图像块，将R设置为1；将每个块通过线性投影到D：2048维向量上，同时将可学习参数class token嵌入以提取全局特征信息；得到向量序列

其中L＝N+1，N为16*8；也将可学习位置参数加入向量序列Z中；标准的Transformer层包含堆叠的多头自注意力模块(MSA)和多层感知机模块(MLP)；一共设计d个Transformer层，对于第l层的输入：

F^(l)＝Transformer(F^l-1)

其中Transformer模块中，F⁰由公式F＝Concat(X₁，X₂，...X_n)得到，

根据公式F^(l)＝Transformer(F^l-1)，由class token得到全局特征信息

同时获得全局特征图

然后，利用堆叠的方式合并CNN提取的特征X₅：2048*16*8(由公式X_l＝SOA(X_l)得出)和Transformer得到的特征X_gl：2048*16*8，得到

4096*16*8，其中c_f＝C₅+c′。

(6)将上述步骤得到的联合特征进行切片，然后经过同尺度特征交互和跨尺度特征交互这两种特征交互操作，得到目标的多尺度邻接特征表示。

涉及基于切片的联合交互特征提取：该联合特征提取模块共分为同尺度特征交互子模块(图3)和跨尺度特征相关子模块(图4)，两者均建立在切片的基础上；切片方案DIVISION(1，2，...N)＝{D₁，D₂，...D_N}，其中D_i表示将特征图片X_f水平切成同等大小的i块，分别用{D_i，1，D_i，2，...D_i，j}表示，若提供四种切成方式，则对应切片数量1、3、5、7片。

①针对同尺度特征交互，定义一种切片方案D_d，可以获得到d块大小相同的特征图，分别用{D_d，1，D_d，2，...D_d，d}表示；首先，对于每个小块D_d，j进行最大池化操作，得到

考虑到人体身体结构中，相邻块特征能够提取到更好的肢体信息：例如，对于相邻两块特征{D′_d，j-1，D′_d，j}，采取最大池化的方式将其合并，可以被表示为MaxPooling(D′_d，j-1，D′_d，j)；对所有相邻两块都进行上述操作，通过张量形状变换后得到

对于每一种切片方案，使用全连接层提取同尺度特征

其中d表示切片的数量。

②针对跨尺度特征交互，考虑到不同身体部位的大小比例不同，有必要关联不同尺度的肢体信息，设计一种基于建图的交叉注意力模块：首先，建立一张图G＝(V，E)，将所有切片方案DIVISION(1，2...N)得到的块v_ij作为节点集合V，点权定义为

在softmax的基础上，引用一种基于图的节点特征聚合方式：

其中，

其中d表示切片数量。

行人Re-ID常用损失函数是将Cross-entropy Loss和Hard Triplet Loss的组合，交叉熵损失函数能够提高模型分类效果。为了提高模型的泛化能力，设计基于labelsmooth的分类损失。

其中

和

L_reid＝L_CE+L_Tri

利用行人特征f_gl，

和

得到总损失函数：

在训练阶段，利用Adam优化器训练MGF模型共300轮。利用10个epoch将学习率线性增加到4×10^-4作为warmup策略。从第50个epoch开始，每隔30轮下调学习率，下调因子为0.4。对于超参，设定切片方案DIVISION＝{1，3，5，7}。

本具体实施方式将多尺度交互设计为特征提取阶段和特征聚合阶段两个阶段。首先，将CNN和Transformer结构相结合，设计了多尺度特征提取MFE模块，以获得具有鉴别能力的特定特征，作为邻接特征聚合阶段的基础；其次，提出了一种基于部件的联合特征聚合JPFA机制来实现不同尺度的相邻特征聚合，联合特征聚合JPFA包含相同尺度特征相关SFC和交叉尺度特征相关CFC子模块。该方法提取更加鲁棒的行人特征来有效抑制目标被密集的划分而导致得语义信息模糊和背景干扰问题，具有广阔的市场应用前景。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于多尺度邻接交互特征的行人重识别方法，其特征在于，其步骤为：

(1)获取采集的视频文件，将其中包含人的目标图像裁剪出来，将不同摄像头的同一目标配对；将ResNet50作为主干网络，同一目标的多张图片输入主干网络来获取初始多尺度特征；

(6)将上述步骤(1)-(5)得到的联合特征进行切片，然后经过同尺度特征交互和跨尺度特征交互这两种特征交互操作，得到目标的多尺度邻接特征表示；

(7)最后通过损失函数训练得到基于多尺度邻接交互特征的行人重识别模型；

所述的步骤(1)的具体方法为：涉及网络的主干由ResNet50构建，其中ResNet50最后一层的stride设置为1；在输入ResNet50之前，将重新定义所有图像尺寸为256×128，同时进行数据增强操作；设定batchsize为64，其中共16个不同的人，每个人4张不同的照片；

所述的步骤(2)对于Resnet50的第l层，提取到特征图

其中C₁、H₁、W₁分别表示通道数、特征图高度、特征图宽度；对于ResNet50中的第l层，利用SOA模块对第l层特征对齐：X_l＝SOA(X_l)。

2.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法，其特征在于，所述的步骤(3)利用Bottleneck提取局部信息，利用最大池化的方式对齐空间大小：

X_j＝MaxPooling(Bottleneck(X_j))

其中，Bottleneck是ResNet中的模块；

然后，利用堆叠的方式融合不同尺度的特征：

F＝Concat(X₁,X₂,…X_n)

其中，

3.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法，其特征在于，所述的步骤(4)中通过步骤(3)中得到空间对齐特征F后，输入到Transformer中进行全局特征的提取；根据Vision Transformer中的设计方式，聚合不同尺度的特征信息；给定一个特征图F，将其切成(R，R)大小的图像块，得到N＝(h×w)/R2个图像块；将每个块通过线性投影到D维向量上，同时将可学习参数class token嵌入以提取全局特征信息；得到向量序列

其中L＝N+1，也将可学习位置参数加入向量序列Z中；标准的Transformer层包含堆叠的多头自注意力模块(MSA)和多层感知机模块(MLP)；一共设计d个Transformer层，对于第l层的输入：

F^(l)＝Transformer(F^l-1)

其中Transformer模块中，F⁰由公式F＝Concat((₁,X₂,…X_n)得到，

根据公式F^(l)＝Transformer(F^l-1)，由class token得到全局特征信息

同时获得全局特征图

然后，利用堆叠的方式合并CNN提取的特征X₅和Transformer得到的特征X_gl，得到

其中c_f＝C₅+c′。

4.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法，其特征在于，所述的步骤(6)中涉及基于切片的联合交互特征提取：该联合特征提取模块共分为同尺度特征交互子模块和跨尺度特征相关子模块，两者均建立在切片的基础上；切片方案GIVISION(1,2,...N)＝{G₁,G₂,...G_A}，其中G_i表示将特征图片X_D水平切成同等大小的i块，分别用{G_i,1,G_i,2,...G_i,J}表示。

5.根据权利要求4所述的一种基于多尺度邻接交互特征的行人重识别方法，其特征在于，所述的基于切片的联合交互特征提取针对同尺度特征交互，定义一种切片方案G_d，获得到d块大小相同的特征图，分别用{G_d,1,G_d,2,...G_d,d}表示；首先，对于每个小块G_d,J进行最大池化操作，得到

考虑到人体身体结构中，相邻块特征能够提取到更好的肢体信息：对于相邻两块特征{G_d ^′ _,j-1,G_d ^′ _,j}，采取最大池化的方式将其合并，被表示为MaxPooling(G_d ^′ _,j-1,G_d ^′ _,j)；对所有相邻两块都进行上述操作，通过张量形状变换后得到

对于每一种切片方案，使用全连接层提取同尺度特征

其中d表示切片的数量。

6.根据权利要求4所述的一种基于多尺度邻接交互特征的行人重识别方法，其特征在于，所述的基于切片的联合交互特征提取针对跨尺度特征交互，考虑到不同身体部位的大小比例不同，关联不同尺度的肢体信息，设计一种基于建图的交叉注意力模块：首先，建立一张图G＝(V,E)，将所有切片方案GIVISION(1,2...N)得到的块v_ij作为节点集合V，点权定义为