CN114612927A

CN114612927A - 一种基于图像文本双通道联合的行人重识别方法

Info

Publication number: CN114612927A
Application number: CN202011425821.1A
Authority: CN
Inventors: 何小海; 齐宝光; 刘强; 陈洪刚; 吴晓红; 吴小强; 滕奇志
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2022-06-10
Anticipated expiration: 2040-12-09
Also published as: CN114612927B

Abstract

本发明公开了一种基于图像文本双通道联合的行人重识别方法，使用文本通道对图像通道进行辅助学习完成行人重识别的任务。在图像通道设计了局部特征分支和全局特征分支，使用局部特征注意到更多的细节信息，比如非遮挡区域，使用全局特征加强网络对图像整体的关注力；在文本通道提取出文本特征计算ID损失，并且将其与图像的全局特征进行联合训练，计算三元组损失，以实现文本特征对视觉特征的辅助。最后得到能够提取出更多细节信息的重识别网络，测试时仅使用图像通道即可得到较优的检索结果，证明了文本特征对视觉特征辅助的有效性。该方法适用于智能安防领域和智慧商业领域，例如人员追踪、顾客轨迹分析、景区人流分析。

Description

一种基于图像文本双通道联合的行人重识别方法

技术领域

本发明涉及一种基于图像文本双通道联合的行人重识别方法，属于计算机视觉与智能信息技术领域。

背景技术

2006年，Gheissari等人第一次提出了行人重识别的概念，其被当作跨摄像头多目标跟踪下的子问题进行研究，即如何在跨摄像头中利用行人特征的相似度进行轨迹关联。目前重识别的方法大都使用表征学习和度量学习。典型的重识别中通常使用全局特征表示行人特征表征，计算其ID损失，并通过度量特征之间的距离对行人进行排序。

在现实场景中，由于行人可能具有相似的外观，以及存在视角不同和遮挡的问题，导致检索的准确率并不高，为了提高模型性能，就要求行人重识别模型能够捕捉到充足的细节信息。然而基于全局特征的特征表征表现力有限，很难突出更具有价值的细节信息，面对遮挡、分辨率低等问题时检索效果通常不太理想，因此一些基于局部特征的方法被提出来解决这些问题。另外由于真实场景中，视角变化、配饰变化显著，需要更多额外的信息进行补充以实现对模型的优化，因此也有一些基于辅助学习的研究，比如属性信息辅助、文本信息辅助、视角信息辅助。但是属性信息通常不能像自然语言描述一样良好的覆盖整个图像信息，所以检索效果一般。另外目前数据集含有的多视角样本数量稀少，多视角建模比较困难，对视角信息的研究欠缺定量、稳定的分析手段。而文本描述覆盖了行人的整体信息，补充了视角变化和配饰变化的信息，表现出较好的性能。因此，为了在遮挡、视角变化、配饰变化等问题下，捕捉到更充足的细节信息，得到更可靠的特征表达，提出了图像文本双通道联合的行人重识别网络，将全局特征融合局部特征，并使用文本特征对全局特征进行辅助学习。

发明内容

本发明提出了一种基于图像文本双通道联合的行人重识别方法，目的在于设计一个图像文本双通道联合的网络，使用文本特征对视觉特征进行辅助训练，然后利用辅助优化过的视觉特征进行行人重识别。

本发明通过以下技术方案来实现上述目的：

(1)构建图像通道，使用Resnet50作为图像通道的骨架网络提取视觉特征，将骨架网络得到的最终特征分别送入全局特征分支和局部特征分支，提取全局特征和局部特征，最后对全局特征和局部特征分别计算ID Loss；

(2)构建文本通道，使用Simple Recurrent Units(SRU)作为文本通道的骨架网络提取文本特征，文本特征经过BN层归一化后用于ID损失的计算，并将图像通道的全局特征与文本特征共享ID Loss；

(3)将经过BN层前的文本特征与视觉特征进行Concat得到联合特征，并送入全连接层得到最后的融合特征，实现文本特征对视觉特征的辅助优化；

(4)联合多种任务的损失函数更新网络，利用局部特征增强图像通道对局部细节的关注度，使用文本特征辅助优化视觉特征，促进视觉特征学习到更多与文本特征互补的细节信息。不断训练迭代得到较优的模型，最终只使用图像通道进行检索。

附图说明

图1为本发明图像文本双通道联合的行人重识别方法框架图。

具体实施方式

下面结合附图对本发明作进一步说明：

构建图像通道的方法如下：

当行人图像通过骨架网络Resnet50的最后一层得到特征f_h后，使用两个分支对特征f_h进行后续处理，一个分支进行全局特征处理称为全局特征分支，另一个分支进行局部特征处理称为局部特征分支。

在全局特征分支，首先将特征f_h通过全局平均池化得到特征f_g，将f_g用于三元组损失的计算，之后令f_g进行归一化操作取得归一化特征f_j用于全局特征的ID损失。采用归一化操作，使得ID损失和三元组损失在不同的嵌入空间中分别使用余弦距离和欧式距离进行模型优化，减少了ID损失对f_g的约束，更利于三元组损失的收敛。对于输入图像及其标签

全局特征的ID损失由多分类交叉熵l_ce来表示，使用软交叉熵损失函数-qlogp进行监督，其计算公式为：

式中，F(x_i∣θ)代表特征提取网络，C代表分类器。在局部特征分支，首先将特征f_h分割为6块局部特征，并分别通过全连接层计算独自的ID损失

而不是采用权重共享的同一个ID损失。

构建文本通道的方法如下：

将文本输入使用Simple Recurrent Units(SRU)网络进行编码得到文本特征，将SRU网络提取出的文本特征f_d通过BNNeck进行归一化操作得到特征f_t。将f_d和f_t分别用于不同的任务。对于f_t计算ID损失，对于f_d将其与视觉特征进行关联计算三元组损失。对于输入文本及其标签

联合图像文本信息的新特征：

将视觉特征和相应的文本特征投影到相同的特征空间，并且使用图像三元组损失对新的融合特征f_it进行学习。将给定图像的视觉特征f_g和其对应的文本特征f_t进行Concat操作，并送入全连接层得到最后的融合特征f_it，其计算公式为：

m＝Concat(f_g,f_t) (5)

式中，h(·)为激活函数，在全连接层采用激活函数并且使用了Dropout来防止网络过拟合，将丢弃率设置为0.5。

之后使用三元组损失训练融合特征f_it，使得相同身份的图像样本距离更加接近并将不同身份的样本推远。三元组损失由固定图片(Anchor)、正样本图片(Positive)、负样本图片(Negative)三张图片组成，其中Anchor是数据集中随机抽取的图片，Positive是与Anchor相同类别的图片，Negative是与Anchor不同类别的图片。分别使用

和

表示

的正样本和负样本，‖·‖表示欧氏距离。其计算公式为：

式中，

为Positive与Anchor之间的欧式距离，

为Negative与Anchor之间的欧式距离，α为

和

距离与

和

距离的最小间隔。从目标函数可以看出，当

和

的距离小于

和

距离时，加上α损失为零，当

和

的距离大于

和

距离时，加上α就会产生损失，最终的目标就是将损失降低的越小越好，使得相同样本的距离更加接近并将不同样本推远。

最终联合多种任务的损失函数更新网络，得到较优的模型。图像通道通过融合局部特征增强了对局部细节的关注度，并且在文本特征的辅助下视觉特征会注意到更多被忽略掉的细节信息，使视觉特征提取网络更具有鲁棒性，得到更强的特征表征能力。多任务加权的总损失函数

的输出梯度受到局部特征和文本特征的影响，其计算公式为：

式中，

为全局特征的ID损失，

为局部特征的ID损失，

为文本特征的ID损失，

为三元组损失，λ_t，λ_pi是平衡参数，λ_t＝0.2，λ_pi＝0.1。这种多任务加权的训练方式更有利于得到较优的视觉特征提取网络。

为了验证本发明所述基于图像文本双通道联合的行人重识别方法的有效性，在Market1501、CUHK03数据集中开展实验。本文的实验平台为：Ubuntu 20.04,Nvidia RTX2080Ti GPU,Intel(R)Core(TM)i7-9700 CPU。采用的深度学习框架为Pytorch，采用的精度评价指标为mAP(mean average precision)和Rank-1，即首位准确率。Market1501数据集分为两部分，用于训练的具有751个身份的12936幅图像和用于测试的具有750个身份的19732幅图像。CUHK03包含1467个被标记人员的8765张图像，其中训练集具有767个身份，测试集具有700个身份。所有的实验在Resnet50基准网络中进行预训练。使用Cosine方式来调整学习率，即在前40epochs中学习率设置为10^-2，随后80epochs中学习率分别设置为10^-3。输入图片尺寸为256×128，训练时batch size设置为64，测试时batch size设置为128，GPU数量为1。本发明实验结果如表1和表2所示：

表1不同算法在Market1501数据集上的测试结果

表2不同算法在CUHK03数据集上的测试结果

Claims

1.一种基于图像文本双通道联合的行人重识别方法，其特点包括以下步骤：

(1)构建图像通道，使用Resnet50作为基准网络提取特征，并在最后一层提取出特征后构建图像通道的全局分支和局部分支，分别计算全局分支和局部分支的ID损失；

(2)构建文本通道，使用Simple Recurrent Units(SRU)作为骨架网络提取文本特征，将文本特征经过BN层归一化后用于ID损失的计算；

(3)将经过BN层前的文本特征与视觉特征进行Concat得到联合特征，对联合特征进行优化，计算其三元组损失，实现文本特征对视觉特征的辅助优化；

(4)联合多种任务的损失函数更新网络，利用局部特征增强图像通道对局部细节的关注度，使用文本特征辅助优化视觉特征，促进视觉特征学习到更多与文本特征互补的细节信息。

2.根据权利要求1所述的方法，其特点在于步骤(1)中构建具有全局分支和局部分支的图像通道，构建方法如下：

使用在ImageNet上进行了预训练的CNN模型，CNN模型的主干网络由ResNet50网络构成，将Resnet50的最后一个下采样模块的步幅由2变为1，得到具有更多信息的特征f_h，将特征f_h送入局部特征分支进行分割得到六块局部特征，对这六块局部特征分别计算其ID损失；将f_h送入全局特征分支，通过全局平均池化后得到用于计算三元组损失的特征f_g，对f_g进行归一化操作得到f_j用于全局特征的ID损失计算。

3.根据权利要求1所述的方法，其特点在于步骤(2)中构建文本通道，构建方法如下：

使用Simple Recurrent Units(SRU)作为文本通道的骨架网络提取文本特征f_d用于三元组损失的计算，之后对f_d进行归一化操作得到f_t用于文本特征的ID损失计算，对于输入图像或文本以及其标签使用