CN113221680B

CN113221680B - 基于文本动态引导视觉特征提炼的文本行人检索方法

Info

Publication number: CN113221680B
Application number: CN202110454724.3A
Authority: CN
Inventors: 王鹏; 牛凯; 高丽颖; 马泽红; 矫炳亮; 谭同昊
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2024-05-28
Anticipated expiration: 2041-04-26
Also published as: CN113221680A

Abstract

本发明公开了一种基于文本动态引导视觉特征提炼的文本行人检索方法，构建了一个文本动态引导的视觉特征精炼网络，包括特征提取模块、特征交互模块和跨模态特征匹配模块，系统首先将每个视觉特征水平划分成多个条带区域用于进一步的精炼，随后使用一个基于文本的过滤器生成器生成特定描述的过滤器，用于指示文本输入中对所提到的图像区域的重要程度，之后再运用一个文本动态引导的视觉特征精炼器动态地对每个文本描述进行部分视觉特征的融合，最终对文本特征向量和最终视觉特征进行跨模态特征匹配，实现通过文本对行人图像的检索。本发明能够实现跨模态信息之间的交互，进一步提高行人检索任务的准确率。

Description

基于文本动态引导视觉特征提炼的文本行人检索方法

技术领域

本发明属于模式识别技术领域，具体涉及一种文本行人检索方法。

背景技术

近年来，行人检索受到了广泛的关注，在智能监视等多个领域都有着广泛应用。该任务是指，给定一个查询，如一张行人的照片或者对行人的句子描述，从数据库中检索出相应的行人图像。根据查询的类型，行人检索可以分为两种类型：基于图像的行人检索和基于文本的行人检索。其中，基于图像的行人检索至少需要一张特定的行人照片作为查询，而这种照片在某些实际场景中难以获得。比如在刑侦领域，有时监控摄像头没有捕捉到嫌疑犯的照片。但是，我们却能得到目击者对嫌疑犯的描述。因此，研究基于文本描述的行人检索具有重大的场景需求和应用价值。

该任务当前最具有挑战性的难题是如何跨越文本和图像两种不同模态的差异，从而匹配出对应的行人。现有的方法致力于运用跨模态信号来引导视觉和文本信息的特征提取，从而降低模态之间的差异，以此在一个共同的映射空间中计算相似度。虽然这些方法在效果上取得了一定的提升，但其出发点却存在一些不合理性，比如使用视觉特征作为引导信号对文本信息进行特征提取，导致在测试时使用检索库中的样本特征引导查询信息的提取，这样的引导方向是不合理的。此外，基于相似度的跨模态注意力机制对行人图像特定区域的选择造成一定的干扰。

发明内容

为了克服现有技术的不足，本发明提供了一种基于文本动态引导视觉特征提炼的文本行人检索方法，构建了一个文本动态引导的视觉特征精炼网络，包括特征提取模块、特征交互模块和跨模态特征匹配模块，系统首先将每个视觉特征水平划分成多个条带区域用于进一步的精炼，随后使用一个基于文本的过滤器生成器生成特定描述的过滤器，用于指示文本输入中对所提到的图像区域的重要程度，之后再运用一个文本动态引导的视觉特征精炼器动态地对每个文本描述进行部分视觉特征的融合，最终对文本特征向量和最终视觉特征进行跨模态特征匹配，实现通过文本对行人图像的检索。本发明能够实现跨模态信息之间的交互，进一步提高行人检索任务的准确率。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：构建文本动态引导的视觉特征精炼网络；

所述视觉特征精炼网络包括特征提取模块、特征交互模块和跨模态特征匹配模块；

步骤1-1：所述特征提取模块包括文本特征提取支路和视觉特征提取支路；

所述文本特征提取支路使用Bi-LSTM，用于处理文本输入和生成全局文本特征；对于每个文本输入，首先将输入文本中的每个单词用预定义词汇表中的单词下标表示，再使用look-up嵌入方法将单词下标嵌入到一个512维的特征向量；Bi-LSTM的隐含层和输出向量的维度设定为512，Bi-LSTM中的前向隐含层和后向隐含层用1024维的文本表示向量连接；所述全局文本特征用Bi-LSTM生成的所有单词的隐含层的平均值表示；

所述视觉特征提取支路，使用MobileNet在ImageNet上预训练后作为骨架，用于提取视觉特征；视觉特征提取支路的输入为与文本特征提取支路匹配的行人图像，将输入图像从上至下划分为k个水平带，对每个水平带提取部分特征部分特征的大小设定为(C,H/k,W)，其中C和(H,W)分别表示通道维度和特征映射大小；

步骤1-2：所述特征交互模块包括并行的基于文本的过滤器生成器和文本动态引导的视觉特征精炼器；

步骤1-2-1：所述基于文本的过滤器生成器由多层感知机MLP模块生成，输入为输入文本的全局文本特征，对输入文本描述中提到的视觉物体在水平带中的位置赋予不同的权重，由下式描述：

π(x)＝δ(ω₂(σ(N(ω₁x+β₁))+β₂)

其中，π(·)表示MLP模块，σ(·)和δ(·)分别表示ReLU和Sigmoid激活函数，N表示批归一化，β₁、β₂、ω₁、ω₂是全连接层的训练参数；

步骤1-2-2：所述文本动态引导的视觉特征精炼器的输入为视觉特征提取支路输出的每个水平带的部分特征，将每个部分特征分别先通过卷积神经网络，再分别进行平均池化，然后再分别通过多个不共享参数的全连接层，生成输出维度与全局文本特征维度相同的部分级别视觉特征；

在每个部分级别视觉特征中插入身份分类损失函数；

再将每个水平带的部分特征通过全局平均池化层和一个全连接层生成全局视觉特征；

将部分级别视觉特征与基于文本的过滤器生成器输出的结果进行融合，融合的结果与全局视觉特征再进行计算，得到最终视觉特征V_final，计算过程见下式：

其中，V_global表示全局视觉特征，表示第i个水平条带区域的部分级别视觉特征，αⁱ是文本动态引导的第i个视觉水平条带区域对应的权重得分，i＝1,2,…,k；

步骤1-3：跨模态特征匹配模块；

将全局文本特征通过一个全连接层，生成一个512维的文本特征向量；

文本特征向量和最终视觉特征用于计算文本和图像之间的相似度和损失函数；

步骤2：采用跨模态投影匹配损失函数CMPM和跨模态投影分类损失函数CMPC，使得相匹配的文字图像对之间的相似度最大，非匹配的文字图像对之间的差异达到最大；

总体损失函数用下式表示：

其中，表示跨模态投影匹配损失函数，/>表示跨模态投影分类损失函数，/>表示步骤1-2-2中的身份分类损失函数，λ是控制身份分类损失函数权重的超参数；

步骤3：使用基于文本的行人检索任务的数据集训练网络，设置训练参数，使用Adam优化器完成训练；

测试网络时，使用正弦距离作为相似度的评估指标对文本特征向量和最终视觉特征进行距离计算；

步骤4：在完成训练的网络中输入文本和待检索行人图像，网络输出与文本内容匹配的行人图像。

优选地，所述C,H,W和k分别设定为1024、12、4和6。

优选地，所述网络训练时学习率设定为2×10^-4，epoch＝60。

本发明的有益效果如下：

本发明可以根据文本输入中的特定物体描述匹配行人图像中的特定区域，通过基于文本的过滤器生成器和一个文本动态引导的视觉特征精炼器，将文本特征视作控制信号来动态提取特定文本描述的视觉特征，从而实现跨模态信息之间的交互，进一步提高行人检索任务的准确率。

附图说明

图1为本发明方法中文本动态引导的视觉特征精炼网络结构示意图。

图2为本发明实施例中几组含有相同视觉属性的行人实例。

图3为本发明基于文本的过滤器生成器图解。

图4为本发明基于文本的过滤器生成器的可视化结果与基于相似度的过滤器结果对比结果。

图5为本发明进行基于文本的行人检索的结果。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提供了一种基于文本动态引导视觉特征提炼的文本行人检索方法，该方法能够使用文本作为索引，动态地匹配部分级别的视觉特征和文本特征来进行特定的行人检索。

如图1所示，一种基于文本动态引导视觉特征提炼的文本行人检索方法，包括以下步骤：

步骤1：构建文本动态引导的视觉特征精炼网络(Text-based Visual FeatureRefinement Networks,TVFRN)；

本特征提取支路即是图1中的上半分支，使用Bi-LSTM，用于处理文本输入和生成全局文本特征；对于每个文本输入，首先将输入文本中的每个单词用预定义词汇表中的单词下标表示，再使用look-up嵌入方法将单词下标嵌入到一个512维的特征向量；Bi-LSTM的隐含层和输出向量的维度设定为512，Bi-LSTM中的前向隐含层和后向隐含层用1024维的文本表示向量连接；所述全局文本特征用Bi-LSTM生成的所有单词的隐含层的平均值表示，用于捕捉全局的文本输入内容信息；

步骤1-2：所述特征交互模块包括并行的基于文本的过滤器生成器(Text-BasedFilter Generation Module,TBFGM)和文本动态引导的视觉特征精炼器(Text-basedVisual Feature Refinement Module,TVFRM)；

基于文本的行人搜索任务的最大的挑战之一就是跨模态的特征匹配。没有信息交互，仅仅独立地提取属于不同模态的特征是很难解决此问题。为了解决此问题，设计了一个特征交互模块，包含一个基于文本的过滤器生成器和一个文本动态引导的视觉特征精炼器，将文本特征视作控制信号来动态提取特定文本描述的视觉特征。目前大多数的相关算法忽略了任务的相关设定，因而设计了并不适合于任务的特征交互模块。相比而言，本发明认为语言描述在基于文本描述的行人检索作为检索起到了关键的先验作用，因此使用文本特征来引导视觉特征的提取是非常合理的。为了跨模态之间的差异，设计了一个能够基于每个文本输入来动态调整视觉特征的模块。大体上说，对于某一特定行人的描述往往集中在一些明显的物体上。如图2所示，“一个白色的帽子”，“粉色的鞋子”和“蓝色的牛仔裤”，这些来源于不同行人图像的相同视觉属性往往位于图像中的相同条带区域中。因此，可以合理地分析文本输入来推断文本中描述的视觉属性的可能位置。

基于这个观察结果，设计了基于文本的过滤器生成模块。该模块通过分析文本输入中的信息，生成定制化的过滤器来捕捉明显的视觉区域。

步骤1-2-1：所述基于文本的过滤器生成器由多层感知机(MLP)模块生成，如图3所示，为每个文本输入生成一个定制的过滤器来捕捉文本描述中提到的视觉物体的位置；其输入为输入文本的全局文本特征，对输入文本描述中提到的视觉物体在水平带中的位置赋予不同的权重，由下式描述：

π(x)＝δ(ω₂(σ(N(ω₁x+β₁))+β₂)

其中，π(·)表示MLP模块，σ(·)和δ(·)分别表示ReLU和Sigmoid激活函数，N表示批归一化(Batch Normalization)，β₁、β₂、ω₁、ω₂是全连接层的训练参数；

图4的上半部分展示了使用基于文本的过滤器生成模块生成的过滤器的可视化结果，和基于相似度的过滤器结果对比，可以发现基于文本的过滤器能够准确地捕捉文本描述中提到的视觉物体的位置。

步骤1-2-2：所述文本动态引导的视觉特征精炼器的输入为视觉特征提取支路输出的每个水平带的部分特征，将每个部分特征分别先通过CNN网络，CNN网络包括多个不共享参数的1×1卷积层，再分别进行平均池化，然后再分别通过多个不共享参数的全连接层，生成输出维度与全局文本特征维度相同的部分级别视觉特征；

在每个部分级别视觉特征中插入身份分类损失函数；

使用文本动态引导过滤器精炼水平带的部分特征，如图1右半部分所示，将每个水平带的部分特征通过全局平均池化层和一个全连接层生成全局视觉特征；

步骤1-3：跨模态特征匹配模块；

总体损失函数用下式表示：

具体实施例：

1、数据集及数据增强

使用CUHK-PEDES数据集，CUHK-PEDES是目前唯一的大规模基于文本的行人检索任务的数据集。该数据集中包含13,003个行人的40,206张照片，每张照片平均有两条文本描述。数据集被分成训练集、验证集和测试集，其中训练集包含11,003个行人的34,054张图片，验证集包含1,000个行人的3,078张照片，测试集包含1,000个行人的3,074张照片。将所有图像的大小调整为(384，128)。之后将每个输入的图像进行归一化，使其值分布于[0，1]，随后减去0.5再乘以2，将其转换到[-1,1]后输入进骨架模块。在测试阶段，使用0.5的可能性将每张图片水平翻转使数据增强。

2、模型训练和测试

所有模型由TensorFlow实现并在NVIDIA GEFORCE GTX 2080Ti CPU上运行计算。在视觉分支中，使用在ImageNet上预训练的MobileNet作为骨架。在文本分支中，使用Bi-LSTM提取文本特征，其中隐含层的特征大小设定为512，批大小设定为16。采用Adam优化器，其学习率设定为2×10^-4。在实验中，所有模型均训练60个epoch。联合嵌入空间的视觉特征和文本特征的维度设定为512。在测试阶段，使用正弦距离作为相似度的评估指标来对全局文本特征和融合视觉特征进行距离计算。

3、实验结果

表1在CUHK-PEDES数据集上的各种最新方法的比较结果

表1展示了本发明方法和其他最新方法在CUHK-PEDES数据集上的结果。可以看出本发明方法在R@1，R@5和R@10准确率上都超过了所有其他方法。其中最有力的竞争者，即MIA中提出的多粒度图文对齐方法，其由三个不同的粒度对齐组成，即全局-全局对齐，全局-局部对齐，局部-局部对齐。与使用三个不同对齐模块的MIA相比，本发明方法通过捕捉必要的视觉文本关系就能使得任务的表现有了一定的提高。此外，Dual-Path使用了实例损失和跨模态匹配损失函数，CMPM+CMPC提出了高效跨模态投射损失函数。然而，这两种方法都忽略了视觉特征和文本特征之间的交互。PWM-ATH和GNA-RNN分别使用了精细的图像块-单词匹配和单词-图像匹配，但均缺少用于过滤无关信息的全局对齐模块。相比而言，尽管本发明方法的结构仅仅是个简单的两分支模型，但由于仔细选取并设计了合适的损失函数，合理推断视觉信息和文本信息之间的关系，展现出了相当的竞争力。在R@1中达到了53.87的准确率，在R@5中达到了75.25的准确率，在R@1中达到了83.47的准确率，均超过了其他方法。

4、案例分析

图5展示了使用本发明方法进行基于文本的行人检索的两个例子。从中可以看出基于文本的过滤器生成模块(TBFGM)生成的过滤器能够捕捉到文本描述中的特定视觉区域，如图5左侧的彩色条形区域。其中展示了在基于文本的过滤器生成模块(TBFGM)生成的过滤器的引导下，文本动态引导的视觉特征精炼网络(TVFRN)准确地检索出相应的行人图像。

Claims

1.一种基于文本动态引导视觉特征提炼的文本行人检索方法，其特征在于，包括以下步骤：

步骤1：构建文本动态引导的视觉特征精炼网络；

π(x)＝δ(ω₂(σ(N(ω₁x+β₁))+β₂)

在每个部分级别视觉特征中插入身份分类损失函数；

步骤1-3：跨模态特征匹配模块；将全局文本特征通过一个全连接层，生成一个512维的文本特征向量；文本特征向量和最终视觉特征用于计算文本和图像之间的相似度和损失函数；

总体损失函数用下式表示：

其中，表示跨模态投影匹配损失函数，/>表示跨模态投影分类损失函数，表示步骤1-2-2中的身份分类损失函数，λ是控制身份分类损失函数权重的超参数；

步骤3：使用基于文本的行人检索任务的数据集训练视觉特征精炼网络，设置训练参数，使用Adam优化器完成训练；

测试视觉特征精炼网络时，使用正弦距离作为相似度的评估指标对文本特征向量和最终视觉特征进行距离计算；

步骤4：在完成训练的视觉特征精炼网络中输入文本和待检索行人图像，视觉特征精炼网络输出与文本内容匹配的行人图像。

2.根据权利要求1所述的一种基于文本动态引导视觉特征提炼的文本行人检索方法，其特征在于，所述C,H,W和k分别设定为1024、12、4和6。

3.根据权利要求1所述的一种基于文本动态引导视觉特征提炼的文本行人检索方法，其特征在于，所述视觉特征精炼网络训练时学习率设定为2×10^-4，epoch＝60。