CN117312592A

CN117312592A - 基于模态不变特征学习的文本-行人图像检索方法

Info

Publication number: CN117312592A
Application number: CN202311596803.3A
Authority: CN
Inventors: 杨社丹; 吴婉银; 詹均; 林旭; 杨延华; 杨二昆
Original assignee: Yunnan United Visual Technology Co ltd
Current assignee: Yunnan United Visual Technology Co ltd
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2023-12-29
Anticipated expiration: 2043-11-28
Also published as: CN117312592B

Abstract

本发明涉及基于模态不变特征学习的文本‑行人图像检索方法，属于行人重识别技术领域。本发明包括步骤：获取文本描述和行人图像数据，并对图像进行预处理；构建特征提取网络，将预处理好的文本和行人图像分别送入各自模态的特征提取网络；构建图文互翻译模块，图像和文本分别经过多层编码器向对立模态特征靠近，获得模态差距小的特征；构建特征增强模块，对单模态内的多层编码器输出特征进行特征增强；特征编码器分别提取的图像和文本特征输入图文互翻译和特征增强模块，得到图像和文本的最终特征，使用图像和文本的最终特征进行跨模态检索。本发明通过图文互翻译的方式获得模态不变特征，提升了文本‑行人图像的检索性能。

Description

基于模态不变特征学习的文本-行人图像检索方法

技术领域

本发明涉及基于模态不变特征学习的文本-行人图像检索方法，属于行人重识别技术领域。

背景技术

文本-行人图像检索是指利用文本描述来检索具有特定外观的行人图像。在某些场景下，无法获取可靠的待搜索对象视觉信息，这就需要算法和模型在训练中能对文本和视觉这两种信息进行恰当地处理，以求在只有文本作为检索信息的情况下，模型能够搜索到对应的行人图像。然而，现有方法仍存在一些问题，比如不能有效地缩小文本和图像两种模态间的巨大差异。针对以上问题，提出了基于模态不变特征学习的文本-行人图像检索方法。

发明内容

为了解决现有方法的不足，本发明针对现有方法难以有效缩小模态间的差异，提出了基于模态不变特征学习的文本-行人图像检索方法，缓解了模态特有的身份相关信息丢失的问题，提升了文本-行人图像的检索性能。

本发明的技术方案是：基于模态不变特征学习的文本-行人图像检索方法，所述方法的具体步骤如下：

Step1：获取行人文本描述和行人图像数据，并对图像进行预处理；

Step2：构建文本和图像的特征提取网络，分别提取图像和文本的原始特征；

Step3：构建图文互翻译模块，学习图像和文本模态不变特征，用于提升检索性能；

Step4：构建特征增强模块，利用单模态内的特征对多层编码器输出的特征进行增强，用于以防模态特有的身份相关信息丢失；

Step5：训练特征提取网络、图文互翻译模块和特征增强模块；

Step6：训练好的特征提取网络中的特征编码器分别提取图像和文本特征，将得到的图像和文本特征输入训练好的图文互翻译和特征增强模块，得到图像和文本的最终特征，使用图像和文本的最终特征进行跨模态检索。

所述Step5具体包括为：

Step51、利用Adam优化器对特征提取网络、图文互翻译模块以及特征增强模块中的参数进行优化；

Step52、采用CMPM和CMPC损失函数优化图像和文本的特征提取网络，所述损失函数如下：

其中，和分别表示CMPM和CMPC损失函数，和分别表示图像和文本特征提取网络输出特征和的分类 token特征。

Step53、使用L2损失函数优化图文互翻译模块的参数，所述损失函数为：

其中，表示平均池化,表示正向路径中第i个编码层输出的图像特征，表示逆向路径中第n-i个编码层输出的文本特征，式中的和分别表示图像原始特征和文本原始特征,通过这种优化方法能实现图像特征逐渐靠近文本特征，文本特征逐渐靠近图像特征。

Step54、训练特征提取网络、图文互翻译模块以及特征增强模块时定义一个损失函数，该函数对整个网络的最终输出特征进行匹配约束，拉近图像和文本匹配对，以及推远图像和文本不匹配对；

采用CMPM和CMPC损失函数优化整个网络：

其中，和分别是图像最终输出特征和文本最终输出特征的分类 token 特征，和分别表示CMPM和CMPC损失。

总损失为：

。

进一步地，所述Step1中，将所有输入图像调整为224x224的大小，并采用随机水平翻转进行数据增强。

进一步地，所述Step2中的特征提取网络包括文本编码器和图像编码器，分别提取文本和图像原始特征。

进一步地，所述Step2中特征提取网络具体操作过程如下：

预处理好的行人图像首先被划分为尺寸大小相等且互不重叠的N个图像块；对每个图像块进行向量化，再经过线性映射，然后与一个分类 token拼接得到，并将其作为图像编码器的输入，经过图像编码器后得到图像的原始特征记为； d表示token的维度；

给定一个文本描述，先将每个单词编码为one-hot向量，即独热编码向量，再经过单词嵌入变换，然后与分类 token拼接得到；将输入文本编码器得到的文本原始特征表示为，m是文本中包含的单词个数。

进一步地，所述Step3中，图文互翻译是双向翻译路径，包括图像到文本的正向翻译路径和文本到图像的逆向翻译路径，正向翻译路径中含有n个transformer编码层，逆向翻译路径同样包含n个transformer编码层，且逆向路径和正向路径的编码层是参数共享的，只是特征经过编码层的顺序刚好相反。

进一步地，所述Step3中，图文互翻译模块具体操作步骤如下：

图文互翻译模块以图像原始特征和文本原始特征为输入，构建n个 transformer编码层，图像特征按照正向顺序依次经过n个transformer层：

文本特征按照逆向顺序依次经过n个transformer层：

然后将正向路径中所有编码层输出的图像特征进行拼接，逆向路径中所有编码层输出的文本特征进行拼接，得到的特征分别为图像和文本的模态不变特征。在拼接前先经过一个特征增强模块，利用单模态内的特征进行特征增强。

为了实现文本到图像、图像到文本的翻译过程，本发明使用L2损失拉近最后一个编码层输出的图像（文本）特征和文本（图像）原始特征，同时拉近正向路径第i个编码层输出的图像特征和逆向路径中第n-i个编码层输出的文本特征，例如拉近正向路径中第1个编码层输出的图像特征和逆向路径中第n-1个编码层输出的文本特征。

进一步地，所述Step4中，特征增强模块包括图像模态的特征增强和文本模态的特征增强，在处理两个模态的特征时网络的参数共享。

进一步地，所述Step4中，特征增强模块具体操作步骤如下：

特征增强模块以Step3中每一个编码层的输出的图像特征和文本特征为输入，使用最后一层输出特征，引导前面所有n-1个编码层输出特征以及原始特征增强相关特征，从而在模态内进行特征增强，图像模态的特征增强具体过程公式化为：

其中，，，，，其中均表示线性映射矩阵；

同样，文本模态的特征增强具体过程公式化为：

其中，，，，；

最后，将特征增强后的原始特征与所有层的输出特征进行拼接，然后经过一个全连接层，得到的结果作为图像和文本最终输出特征：

其中、分别表示拼接操作和全连接层。使用匹配损失CMPM和 CMPC损失约束图像和文本最终输出特征和。

本发明的有益效果是：

1、在文本-行人图像检索中，获取文本和图像的判别性特征是关键的，本发明采用预训练CLIP中的图像和文本编码器分别提取图像和文本特征，CLIP采用视觉信息和文本信息进行预训练，二者对于视觉特征和文本特征具有强大的提取能力，这利于后续特征的操作。

2、对于文本和图像输入，通过各自的特征提取网络得到的特征之间会存在较大模态差异，本发明加入的图文互翻译模块，通过图像到文本、文本到图像的翻译路径，将路径中每个编码层输出的特征进行拼接，分别得到图像和文本的模态不变特征，可缩小图像和文本间的模态差异。

3、只考虑学习模态不变特征，可能会导致两个模态各自独有的身份相关信息丢失，本发明提出特征增强模块，在单模态内利用相同模态的特征进行特征增强和优化，可缓解模态特有的身份相关信息丢失的问题。

附图说明

图1为本发明方法的流程结构示意图；

图2为本发明方法的特征增强模块结构图。图2中和/>分别表示拼接操作和全连接层。

具体实施方式

实施例1：如图1-图2所示，基于模态不变特征学习的文本-行人图像检索方法，所述方法的具体步骤如下：

Step1：获取行人文本描述和行人图像数据，并对图像进行预处理：将所有输入图像调整为224x224的大小，并采用随机水平翻转进行数据增强。

Step2：构建文本和图像的特征提取网络，分别提取图像和文本的原始特征。

所述Step2中的特征提取网络包括文本编码器和图像编码器，分别提取文本和图像原始特征。

所述Step2中特征提取网络具体操作过程如下：

Step3：构建图文互翻译模块，学习图像和文本模态不变特征，提升检索性能。

所述Step3中，图文互翻译是双向翻译路径，包括图像到文本的正向翻译路径和文本到图像的逆向翻译路径，正向翻译路径中含有n个transformer编码层，逆向翻译路径同样包含n个transformer编码层，且逆向路径和正向路径的编码层是参数共享的，只是特征经过编码层的顺序刚好相反。

所述Step3中，图文互翻译模块具体操作步骤如下：

文本特征按照逆向顺序依次经过n个transformer层：

Step4：构建特征增强模块，利用单模态内的特征对多层编码器输出的特征进行增强，以防模态特有的身份相关信息丢失。

所述Step4中，特征增强模块包括图像模态的特征增强和文本模态的特征增强，在处理两个模态的特征时网络参数共享。

所述Step4中，特征增强模块具体操作步骤如下：

其中，，，，，其中均表示线性映射矩阵；

同样，文本模态的特征增强具体过程公式化为：

其中，，，，；

Step5：训练特征提取网络、图文互翻译模块和特征增强模块。所述Step5具体包括为：

采用CMPM和CMPC损失函数优化整个网络：

总损失为：

。

进一步地，为验证本发明方法的有效性，在CUHK-PEDES数据集上评估了提出方法的性能，该数据集包含了13003个行人的40206张图片和80412条文字描述。每张图片都有人工标注的两条文本描述，而每条文本描述的平均长度都不少于23个词。按照数据集划分规则，该数据集可划分为训练集、验证集和测试集。本发明算法是在Pytorch框架下开发的，并在一张NVIDIA GTX3090显卡上进行了训练。在训练中，使用Adam优化器来对模型进行参数优化。在此过程中，batch size设置为64，学习率设置为0.00001。学习率采用余弦退火算法进行调整，warmup设置为10，学习率分别在20、30和40轮按0.1的衰减率衰减，总共训练了60轮。

进一步地，本发明采用Rank-K（Rank-K，数值越高越好）的召回率以及mAP(meanAverage Precision)作为衡量不同方法检索性能的指标。Rank-K指标表示在给定查询条件下，模型能够在前K个检索结果中正确地匹配到查询样本的能力。在评估过程中，报告了Rank-1、Rank-5和Rank-10的准确性。mAP(mean Average Precision)值越大，表示检索性能越好。

进一步地，在CUHK-PEDES数据集上，本发明方法和TextReID，SAF，TIPCB，CAIBC，AXM-Net，LGUR和IVT等文本-行人图像检索方法进行了性能比较，实验结果如表1所示。从此可以看出，本发明方法在准确率Rank-1、Rank-5和Rank-10上分别达到了68.13%，86.40%和91.59%，mAP值达到了61.20%。这证明了本发明方法在文本-行人图像检索任务上的有效性。

表1为不同方法在CUHK-PEDES数据集上的客观评价比较

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于模态不变特征学习的文本-行人图像检索方法，其特征在于：所述方法的具体步骤如下：

2.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法，其特征在于：所述Step1中，将所有输入图像调整为224x224的大小，并采用随机水平翻转进行数据增强。

3.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法，其特征在于，所述Step2中的特征提取网络包括文本编码器和图像编码器，分别提取文本和图像原始特征。

4.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法，其特征在于，所述Step2中特征提取网络具体操作过程如下：

预处理好的行人图像首先被划分为尺寸大小相等且互不重叠的N个图像块；对每个图像块进行向量化，再经过线性映射，然后与一个分类 token/>拼接得到，并将其作为图像编码器的输入，经过图像编码器后得到图像的原始特征记为/>； d表示token的维度；

给定一个文本描述，先将每个单词编码为one-hot向量，即独热编码向量，再经过单词嵌入变换，然后与分类 token/>拼接得到/>；将/>输入文本编码器得到的文本原始特征表示为/>，m是文本中包含的单词个数。

5.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法，其特征在于，所述Step3中，图文互翻译是双向翻译路径，包括图像到文本的正向翻译路径和文本到图像的逆向翻译路径，正向翻译路径中含有n个transformer编码层，逆向翻译路径同样包含n个transformer编码层，且逆向路径和正向路径的编码层是参数共享的，只是特征经过编码层的顺序刚好相反。

6.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法，其特征在于，所述Step3中，图文互翻译模块具体操作步骤如下：

图文互翻译模块以图像原始特征和文本原始特征/>为输入，构建n个transformer编码层/>，图像特征按照正向顺序依次经过n个transformer层：

；

文本特征按照逆向顺序依次经过n个transformer层：

；

然后将正向路径中所有编码层输出的图像特征进行拼接，逆向路径中所有编码层输出的文本特征进行拼接，得到的特征分别为图像和文本的模态不变特征；在拼接前先经过一个特征增强模块，利用单模态内的特征进行特征增强；

使用L2损失拉近最后一个编码层输出的图像或文本特征和文本或图像原始特征，同时拉近正向路径第i个编码层输出的图像特征和逆向路径中第n-i个编码层输出的文本特征。

7.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法，其特征在于，所述Step4中，特征增强模块包括图像模态的特征增强和文本模态的特征增强，在处理两个模态的特征时网络的参数共享。

8.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法，其特征在于，所述Step4中，特征增强模块具体操作步骤如下：

特征增强模块以Step3中每一个编码层的输出的图像特征和文本特征为输入，使用最后一层输出特征/>，/>引导前面所有n-1个编码层输出特征以及原始特征增强相关特征，从而在模态内进行特征增强，图像模态的特征增强具体过程公式化为：

；

其中，/>，/>，/> ，/>，其中均表示线性映射矩阵；

同样，文本模态的特征增强具体过程公式化为：

；

其中，/>，/>，/> ，/>；

；

其中、/>分别表示拼接操作和全连接层；使用匹配损失CMPM和CMPC损失约束图像和文本最终输出特征/>和/>。

9.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法，其特征在于，所述Step5具体包括为：

；

其中，和/>分别表示CMPM和CMPC损失函数，/>和/>分别表示图像和文本特征提取网络输出特征/>和/>的分类 token特征；

；

其中，表示平均池化,/>表示正向路径中第i个编码层输出的图像特征，/>表示逆向路径中第n-i个编码层输出的文本特征，式中的/>和/>分别表示图像原始特征和文本原始特征/>,通过这种优化方法能实现图像特征逐渐靠近文本特征，文本特征逐渐靠近图像特征；

采用CMPM和CMPC损失函数优化整个网络：

；

其中，和/>分别是图像最终输出特征/>和文本最终输出特征/>的分类 token特征，/>和/>分别表示CMPM和CMPC损失；

总损失为：

。