CN114821770A

CN114821770A - 文本到图像的跨模态行人再识别方法、系统、介质和设备

Info

Publication number: CN114821770A
Application number: CN202210371007.9A
Authority: CN
Inventors: 丁泽锋; 丁长兴; 邵智寅
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-07-29
Anticipated expiration: 2042-04-11
Also published as: CN114821770B

Abstract

本发明公开了一种文本到图像的跨模态行人再识别方法、系统、介质和设备，该方法包括下述步骤：构建基于人体组件的文本网络模型和图像网络模型，提取多个粗糙对齐的图像局部人体组件特征；将多个粗糙对齐的图像局部人体组件特征作为监督，引导单词注意力模型分类，得到文本局部人体组件特征；使用像素注意模型，结合交互训练策略，将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征；构建身份损失和排序损失进行训练；训练完成后，输入测试文本和图像库图像，计算测试文本和图像库图像之间的余弦相似度，输出识别结果。本发明无需借助额外的工具或者手工标注，具有更好的泛化性能和更小的成本。

Description

文本到图像的跨模态行人再识别方法、系统、介质和设备

技术领域

本发明涉及文本描述的行人重识别技术领域，具体涉及一种文本到图像的跨模态行人再识别方法、系统、介质和设备。

背景技术

行人重识别(Person Re-Identification)指的是给定特定行人的图像、视频或者文本描述，算法模型在图像库或者视频库中寻找到该行人对应的图像或者视频。

根据给定的检索内容，行人重识别可分为：基于图像的行人重识别、基于属性的行人重识别和基于文本描述的行人重识别。在实际应用中，基于文本描述的行人重识别的效果往往比另外两种行人重识别技术好。一方面，由于现实场景中，目标对象实时的图像往往不容易获得，而目标对象的文本描述更容易获得。例如，有个小孩或者老人走丢时，寻人启事中往往只给了走丢时的衣着外貌的描述和过去的生活照，基于图像的行人重识别对于这种换衣的场景下往往难以有很好的效果，而此时基于文本描述的行人重识别在这种追踪场景下可以轻松使用文本描述进行检索并且保证性能不会明显下降。另一方面，虽然基于属性的行人重识别在上述场景同样也能发挥效果，但是基于属性的行人重识别往往受限于训练数据属性的设置，而基于文本描述的行人重识别具有更好的自由度和更丰富的信息，在实际中具有更好的性能。因此，基于文本描述的行人重识别技术具有更好的亲和性和灵活度。

主流的方法往往采取提取跨模态对齐的组件特征来建模该问题。然而，由于文本和图像存在模态间的差异，现有算法很难自动提取跨模态对齐的组件特征，往往存在以下两种问题：

1.提取文本组件特征的困难：现有算法使用额外的名词短语提取器或者手工标注的方式来提取文本组件特征，导致了模型的泛化性能下降和模型的成本增加。

2.跨模态组件特征对齐的困难：由于文本描述具有主观性，导致无法得知网络所得的文本组件属于人体哪个组件。因此，现有算法使用两个模态相互交互的方式或者手工标注的方式来提取到对齐的局部特征。然而，模态交互的做法在提升了算法有限的性能的同时带来了模型复杂度过高的问题，这和手工标注一样，使得模型的成本增加了。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种文本到图像的跨模态行人再识别方法，通过利用行人图像中粗对齐的人体组件作为监督，引导文本网络模型自动提取文本中关于人体组件的特征，进而提出一种交互训练策略，将文本中提取到的人体组件特征作为新的监督来引导图像网络模型提取更细粒度的图像中关于人体组件的特征，从而得到对齐的跨模态组件特征。

本发明的第二目的在于提供一种文本到图像的跨模态行人再识别系统。

本发明的第三目的在于提供一种计算机可读存储介质。

本发明的第四目的在于提供一种计算设备。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种文本到图像的跨模态行人再识别方法，包括下述步骤：

构建基于人体组件的文本网络模型和图像网络模型，以Bi-LSTM网络作为文本特征提取的主干网络，文本经过Bi-LSTM处理得到文本特征，以ResNet-50网络作为图像特征提取的主干网络，行人图像经过ResNet-50处理得到图像特征图；

将图像特征图进行水平划分，分别经过全局最大池化和卷积层，得到多个粗糙对齐的图像局部人体组件特征；

将多个粗糙对齐的图像局部人体组件特征作为监督，引导单词注意力模型分类，得到文本局部人体组件特征；

使用像素注意模型，结合交互训练策略，将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征；

所述单词注意力模型和像素注意模型采用由多个卷积层构成的分类器实现；

构建身份损失和排序损失进行训练；

固定文本网络模型和单词注意力模型参数，利用文本网络模型提取的文本局部人体组件特征作为监督，约束文本局部人体组件特征和图像中更细粒度的人体组件特征相近，固定像素注意力模型参数，交替训练单词注意力模型和像素注意力模型；

放开模型所有参数，同时训练单词注意力模型和像素注意力模型；

训练完成后，输入测试文本和图像库图像，计算测试文本和图像库图像之间的余弦相似度，输出识别结果。

作为优选的技术方案，所述以Bi-LSTM网络作为文本特征提取的主干网络，文本经过Bi-LSTM处理得到文本特征，具体步骤包括：

将文本中的单词编码成词典，并构建随机初始化的单词编码嵌入矩阵；

给定一个行人的文本描述，按词典将每个单词转换为编码，并送入单词编码嵌入矩阵得到每个单词的嵌入特征x_i；

将所有单词的嵌入特征送入Bi-LSTM网络，从第一个单词x₁到最后一个单词x_n和从最后一个单词x_n到第一个单词x₁两个方向进行处理，具体表示为：

其中，

和

分别表示第i个单词的向前和向后的隐藏状态，用于表示第i个单词的特征，定义如下：

文本的特征表示为所有单词特征并联得到的行向量特征，具体表示如下：

E＝[e₁,e₂,…,e_n]。

作为优选的技术方案，所述以ResNet-50网络作为图像特征提取的主干网络，具体将在imageNet2012预训练好的ResNet-50网络去除最后的分类器和全局最大池化作为图像特征提取的主干网络。

作为优选的技术方案，所述将多个粗糙对齐的图像局部人体组件特征作为监督，引导单词注意力模型分类，得到文本局部人体组件特征，具体步骤包括：

通过给定文本特征向量输入到单词注意力模型，对单词特征按照其所属的行人组件进行分类，得到每个单词归属于第k个行人组件的概率

具体计算公式为：

其中，

表示卷积层，σ表示sigmoid函数，e_i表示单词特征，

概率

加权文本特征向量得到参量E_k，具体表示为：

将参量E_k经过行向量最大池化和卷积层，得到文本局部人体组件特征。

作为优选的技术方案，所述将文本中提取到的人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征，具体步骤包括：

给定图像特征图输入到像素注意力模型，计算图像特征图上每个像素特征F(i,j)归属于第k个行人组件的概率

具体计算公式表示为：

其中，

表示卷积层，σ表示sigmoid函数；

概率

加权图像特征图得到参量F_k，具体表示为：

将参量F_k经过全局最大池化和卷积层，最终得到图像中更细粒度的人体组件特征。

作为优选的技术方案，所述构建身份损失和排序损失进行训练；

份损失具体表示如下：

其中，L_ce表示交叉熵损失，

表示第k个组件特征共享的映射矩阵，

表示粗糙对齐的图像局部人体组件特征，t_k表示文本局部人体组件特征，

表示图像中更细粒度的人体组件特征，

和

分别表示应用于粗糙对齐的图像局部人体组件特征、文本局部人体组件特征和图像中更细粒度的人体组件特征的身份损失；

排序损失具体计算公式表示为：

其中，

和

分别表示应用于文本局部人体组件特征和粗糙对齐的图像局部人体组件特征之间，以及文本局部人体组件特征和图像中更细粒度的人体组件特征之间的排序损失，I_p和D_p来自匹配的图像-文本对，D_n和I_p分别表示在一个训练批次中I_p的最难分辨的错误文本和D_p的最难分辨的错误图像，S(·)表示将文本局部人体组件特征串联得到的文本特征和粗糙对齐的图像局部人体组件特征或图像中更细粒度的人体组件特征串联得到的图像特征的余弦相似度；

训练单词注意力模型时，训练损失为：

训练像素注意力模型时，训练损失为：

最终放开所有参数，同时训练单词注意力模型和像素注意力模型时，训练损失为：

为了达到上述第二目的，本发明采用以下技术方案：

一种文本到图像的跨模态行人再识别系统，包括：文本网络模型和图像网络模型构建单元、图像局部人体组件特征提取单元、文本局部人体组件特征提取单元、细粒度人体组件特征提取单元、训练单元和识别结果输出单元；

所述文本网络模型和图像网络模型构建单元用于构建基于人体组件的文本网络模型和图像网络模型，以Bi-LSTM网络作为文本特征提取的主干网络，文本经过Bi-LSTM处理得到文本特征，以ResNet-50网络作为图像特征提取的主干网络，行人图像经过ResNet-50处理得到图像特征图；

所述图像局部人体组件特征提取单元用于将图像特征图进行水平划分，分别经过全局最大池化和卷积层，得到多个粗糙对齐的图像局部人体组件特征；

所述文本局部人体组件特征提取单元用于将多个粗糙对齐的图像局部人体组件特征作为监督，引导单词注意力模型分类，得到文本局部人体组件特征；

所述细粒度人体组件特征提取单元用于使用像素注意模型，结合交互训练策略，将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征；

所述训练单元用于构建身份损失和排序损失进行训练；

所述识别结果输出单元用于在训练完成后输入测试文本和图像库图像，计算测试文本和图像库图像之间的余弦相似度，输出识别结果。

为了达到上述第三目的，本发明采用以下技术方案：

一种计算机可读存储介质，存储有程序，所述程序被处理器执行时实现如上述文本到图像的跨模态行人再识别方法。

为了达到上述第四目的，本发明采用以下技术方案：

一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现如上述文本到图像的跨模态行人再识别方法。

本发明与现有技术相比，具有如下优点和有益效果：

本发明提出跨模态组件特征自对齐模型，利用图像存在的对齐先验知识作为引导，自动提取出文本中关于行人不同的组件描述的组件特征，由于无需借助额外的工具或者手工标注，本发明的提出的模型具有更好的泛化性能和更小的成本。

附图说明

图1为本发明文本到图像的跨模态行人再识别方法的流程示意图；

图2为本发明文本到图像的跨模态行人再识别方法的实现构架示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

如图1、图2所示，本实施例提供一种文本到图像的跨模态行人再识别方法，包括以下步骤：

S1：构建基于人体组件的文本网络模型和图像网络模型，用于提取两个模态的特征；

在本实施例中，以Bi-LSTM网络作为文本特征提取的主干网络，给定一个含有n个单词的文本，Bi-LSTM处理该文本得到文本特征E，其中每个单词的特征表示为e_i；以ResNet-50网络作为图像特征提取的主干网络，给定一张行人图像，ResNet-50处理该图像得到图像特征图F。

具体步骤包括：

将在imageNet2012预训练好的ResNet-50网络去除最后的分类器和全局最大池化作为图像的骨干网络；

将训练数据集中单词出现频次大于等于两次的单词进行编码成词典，并构建随机初始化的单词编码嵌入矩阵(维度为V和U，分别代表字典的长度和单词的嵌入特征的维数)，并连接Bi-LSTM，作为文本的骨干网络；

给定一张行人图像，训练阶段进行随机裁剪和翻转(推理阶段不需要)，并且将图像缩放至384×128像素大小，通过图像骨干网络运算得到该图像的特征图F；

给定一个行人的文本描述，按词典将每个单词转换为编码，并送入单词编码的嵌入矩阵得到每个单词的嵌入特征x_i，接着所有单词的嵌入特征送入Bi-LSTM网络。该网络从第一个单词x₁到最后一个单词x_n和从最后一个单词x_n到第一个单词x₁两个方向进行处理。具体公式如下：

其中，

和

最后，文本的特征表示为所有单词特征并联得到的行向量特征，具体表示如下：

E＝[e₁,e₂,…,e_n]

S2：提取利用行人图像中粗对齐的人体组件作为监督，引导文本网络模型自动提取文本中关于人体组件的特征；

具体步骤包括：

利用行人图像之间具有粗对齐的特点，将图像经过步骤S1中的图像主干网络提取的特征图F水平划分为K份(通常K取值为6，第一个对应人体头部，第二、第三个对应上半身，第四、第五个对应下半身，第六个对应脚)，再分别经过全局最大池化和1×1卷积层，得到P个粗糙对齐的图像局部人体组件特征

通过给定文本特征向量E到单词注意力模型，对单词特征e_i按其所属的行人组件(如hair属于头部，shirt属于上半身)进行分类，得到每个单词归属于第k个行人组件的概率

具体公式如下：

其中

为1×1卷积层，σ表示sigmoid函数。则文本描述的第k个的人体组件特征则可通过

加权文本特征向量E得到，具体公式如下：

最终，将E_k经过行向量最大池化和1×1卷积层，得到第k个文本行人组件特征t_k；

将K个粗糙对齐的图像局部人体组件特征作为监督，引导单词注意力模型做出合理的分类，从而能得到K个文本局部人体组件特征。

在本实施例中，单词注意力模块由六个1×1卷积层构成的分类器实现。

S3：使用像素注意模型，结合交互训练策略，将文本中提取到的人体组件特征作为新的监督来引导图像网络模型提取图像中更细粒度的人体组件特征；

在本实施例中，像素注意力模型由六个1×1卷积层构成的分类器实现。

具体步骤包括：

提出像素注意力模型，给定图像骨干网络得到的定宽度为W，高度为H和通道数为C的特征图F，该像素注意力模型得到特征图上每个像素特征F(i,j)归属于第k个行人组件的概率，公式如下：

其中

为1×1卷积层，σ表示sigmoid函数。则一个行人图像的第k个的人体组件特征可通过

加权特征图F得到：

最终，将F_k经过全局最大池化和1×1卷积层，最终得到第k个细粒度的图像行人组件特征

S4:为避免单词注意力模型和像素注意模型退化成为提取全局特征的模型，提出交互训练的策略来训练单词注意力模型和像素注意注意力模型。

按步骤S2训练多轮，使得文本网络能够得到K个文本局部人体组件特征；

固定文本网络和单词注意力模型参数，利用文本网络提取的文本局部特征作为监督，通过约束

和t_k相近，从而引导像素注意力模型做出合理的分类。通过上述操作，不同于水平划分特征图得到的粗糙人体组件特征

像素注意力模型能够从整个特征图上获取更完整的人体组件特征；

固定像素注意力模型参数，按步骤S2训练单词注意力模型，从而保证单词注意力模型获得的特征为文本中关于行人的组件特征表示；

重复多轮上述操作，交替训练单词注意力模型和像素注意力模型；

放开模型所有参数，同时训练单词注意力模型和像素注意力模型。

S5：采用步骤S4的训练策略，构建身份损失和排序损失来训练模型。

具体步骤包括：

身份损失具体表示如下：

其中，L_ce表示交叉熵损失，

表示第k个组件特征共享的映射矩阵，

和

分别表示应用于步骤S2和S3得到的粗糙图像组件特征、文本组件特征和细粒度图像组件特征的身份损失。

排序损失具体公式表示如下：

其中，

和

分别表示应用于步骤S2和S3得到的文本组件特征和粗糙图像组件特征之间，以及文本组件特征和细粒度图像组件特征之间的排序损失。α表示固定边距。I_p和D_p来自匹配的图像-文本对。D_n和I_p分别表示在一个训练批次中I_p的最难分辨的错误文本和D_p的最难分辨的错误图像。S(·)表示将文本组件特征串联得到的文本特征和粗糙/细粒度图像组件特征串联得到的图像特征的余弦相似度。

训练单词注意力模型时，训练损失为：

训练像素注意力模型时，训练损失为：

S6：采用上述网络、训练策略和损失训练网络。具体设置为：超参数K和α取值为6和0.2。采用端对端的训练方式，批尺寸为64，采用随机翻转、随机裁剪的方式增强模型训练的鲁棒性。初始学习率设置为0.01，训练60个epoch。每20个epoch学习率下降为之前的0.1。交替训练策略中预训练单词注意力模型的epoch数为5。

S7：使用训练好的网络进行测试：对测试的全部图像和文本进行与训练集的图像和文本相同的预处理操作；将测试集中的文本(probe文本)和测试集图像库图像(gallery图像)分别通过训练好的网络得到6×1024维的特征，串联得到6144维特征；计算测试文本和图像库图像之间的余弦相似度；

具体的，将测试文本的特征向量表示为p，图像库图像的特征向量表示为q，则按照如下公式计算它们的余弦相似度为：

最终，判断方法为：余弦相似度数值分布在-1和1之间，数值越接近1说明测试文本和图像库图像越相似，越接近-1则说明越不相似。

为验证本发明方法的有效性，在CUHK-PDES和ICFG-PDES两个跨模态行人重识别数据集上进行了实验，进行了定量和定性的分析。

如下表1所示，表一中包含CUHK-PDES和ICFG-PDES两个数据集的部分训练结果。第一个模型的结果表示提取全局特征的基准模型的实验结果，后面若干模型的结果分别表示添加了WAM(单词注意力模型)，PAM(像素注意力模型)和ISG(交互训练策略)这些模块的实验结果。实验结果表明了各部分的有效性。

表1 CUHK-PDES和ICFG-PDES上的自对比实验结果。

如表2所示，本发明与当前效果最好的已发表的方法在CUHK-PDES和ICFG-PDES的结果进行了比较。总体来说，本发明的方法明显高于其他方法的准确率。

表2本发明与其他方法在CUHK-PDES,ICFG-PDES的对比数据表

如表3所示，在相同实验设置下，本发明与当前效果最好的两个的已发表的基于组件提取三个个方法的推理速度进行比较。总体来说，一方面，本发明的方法高于跨模态交互的方法的速度，且本方法的速度在图像数目增长时基本保持不变。另一方面，本发明的方法与基于手工标注的组件提取方法ViTAA的速度相仿，但发明的方法无需额外的手工标注。

表3本发明与其他方法的速度对比数据表

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。