CN115858847B

CN115858847B - 基于跨模态注意力保留的组合式查询图像检索方法

Info

Publication number: CN115858847B
Application number: CN202310149787.7A
Authority: CN
Inventors: 沈复民; 李申珅; 徐行; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-06-23
Anticipated expiration: 2043-02-22
Also published as: CN115858847A

Abstract

本发明公开了基于跨模态注意力保留的组合式查询图像检索方法，涉及计算机视觉中的跨模态检索领域，解决现有模型学习到的保留和修改的图像特征不够精细、模型学习到的保留和修改图像部分存在交叠、缺乏充分利用不同语义信息等的技术问题；本发明先使用图像特征提取器提取不同语义层级的图像特征，和通过文本特征提取器提取文本特征，并进一步通过跨层交互模块融合不同语义层级的图像特征，然后通过自对比学习获得相对准确的目标图像中的保留和修改区域，最后通过计算余弦相似度并从高到低排序完成组合式查询图像检索,通过这种方式可以更加充分地利用不同语义层级的图像和文本特征来进行组合式查询图像检索。

Description

基于跨模态注意力保留的组合式查询图像检索方法

技术领域

本发明涉及计算机视觉中的跨模态检索领域，更具体地是涉及基于跨模态注意力保留的组合式查询图像检索方法技术领域。

背景技术

组合式查询图像检索是图像检索的子任务。其目标是给定参考图像和修改文本，根据修改文本去修改参考图像的特定区域，在数据库的所有候选图像中找出与修改文本相对应且同时和参考图像类似的目标图像。和传统的图像检索不同，组合式查询图像检索包含图像和文本两个模态的输入作为查询，而不是单模态的输入。组合式查询图像检索允许用户灵活地通过图像和文本表达搜索意图，并利用视觉语言信息迭代地优化检索结果。组合式查询图像检索在产品推荐，时尚图像检索，交互式检索等领域都有广泛的应用。

现如今，前沿的深度神经网络技术可以有效地改善模型的特征提取能力，基于深度学习的组合式查询图像检索技术不断涌现。相较于人工标注和设计的特征，深度神经网络方法可以自动学习数据的特征表示，因此具有更高的鲁棒性。其中，基于深度神经网络的组合式查询图像检索方法主要有以下三种技术路线：

1)基于特征融合的组合式查询图像检索方法：基于特征融合的组合式查询图像检索方法首先通过特征提取器生成图像和文本的特征表示，利用设计的注意力模块筛选重要的特征，然后融合图像特征和文本特征成一个统一的特征表示，最后使用融合后的特征预测匹配分数，来度量候选图像和融合后的特征表示之间的相似性。

2)基于预训练模型的组合式查询图像检索方法：基于预训练模型的组合式查询图像检索方法利用从其他大规模图像文本数据集中学习到的先验知识，来帮助模型预测与参考图像和修改文本对应的目标图像。该类方法利用大规模图像文本语料库和来自不同语义层级的图像特征提升模型性能。

3)基于联合训练的组合式查询图像检索方法：为了解决组合式查询图像检索的效率和可扩展性问题，基于联合训练的组合式查询图像检索方法通过图文匹配的方法去选择目标图像中被修改的区域，通过视觉检索的方法学习需要从参考图像保留的图像特征，而不需要学习经过融合后的统一特征表示。这类方法在空间和时间效率上有较大的优势。

目前组合式查询图像检索采用的方法主要为基于特征融合的组合式查询图像检索方法。相较于其他方法，该类方法可以有效地提升模型的性能。

但现有的组合式查询图像检索方法仍有很大的不足，如：模型学习到的保留和修改的图像特征不够精细、模型学习到的保留和修改图像部分存在交叠、缺乏充分利用不同语义信息等。以上缺点均会导致图像检索准确率的降低。

发明内容

本发明的目的在于解决现有技术存在的问题，提供一种基于跨模态注意力保留的组合式查询图像检索方法，更加充分地利用不同语义层级的图像和文本特征来进行组合式查询图像检索。同时，使用基于跨模态注意力保留的组合式查询图像检索方法完成图像检索，利用自对比学习保证模型学习到的保留的图像区域不包括修改的图像区域，优化了模型学习到的保留信息，从而提高检索结果的准确性。

本发明通过下述技术方案实现：一种基于跨模态注意力保留的组合式查询图像检索方法，先使用图像特征提取器提取不同语义层级的图像特征，和通过文本特征提取器提取文本特征，并进一步通过跨层交互模块融合不同语义层级的图像特征，然后通过自对比学习获得相对准确的目标图像中的保留和修改区域，最后通过计算余弦相似度并从高到低排序完成组合式查询图像检索：

一种基于跨模态注意力保留的组合式查询图像检索方法，该方法采用基于跨模态注意力保留的组合式查询图像检索模型实现，所述的基于跨模态注意力保留的组合式查询图像检索模型包括图像特征提取模块，文本特征提取模块，跨层交互模块，用于保留的自对比学习模块，

该方法包括以下步骤：

步骤S1：选择训练数据集；

步骤S2：构建图像特征提取模块的网络结构，对于步骤S1中训练数据集中的每一张参考图像，使用深度卷积神经网络从不同卷积层生成图像特征，所述深度卷积神经网络为ResNet50；

步骤S3：构建文本特征提取模块的网络结构，对于步骤S1中训练数据集中的修改文本，使用文本特征提取模块生成文本特征；

步骤S4：构建跨层交互模块，利用步骤S2中的从不同卷积层提取到的多层级语义图像特征，通过跨层交互模块生成融合了不同语义层级的图像特征；

步骤S5：构建用于保留的自对比学习模块，通过定义第一损失函数对模型学习到的需要保留的图像特征进行约束，从而获得优化后的图像的保留和修改区域；

步骤S6：构建跨模态注意力保留结构，用步骤S3中的文本特征和步骤S4中的图像特征来保留和修改特定区域的图像特征，然后计算相似度得分；

步骤S7：采用AdamW优化器，根据步骤S6得到的相似度得分定义第二损失函数，然后对基于跨模态注意力保留的组合式查询图像检索模型进行训练；

步骤S8：使用训练完成的基于跨模态注意力保留的组合式查询图像检索模型进行图像检索，以验证训练完成的基于跨模态注意力保留的组合式查询图像检索模型的效果。

作为一种可选的技术方案，所述步骤S2具体包括：

步骤S21：将步骤S1中训练数据集中的参考图像和目标图像用白色像素填充以获得正方形，然后将它们调整为256×256像素并且使用随机水平翻转和224×224像素大小的随机裁剪进行数据增强；

步骤S22：构建预训练深度卷积神经网络，并加载预训练深度卷积神经网络在ImageNet数据集上训练得到的参数；

步骤S23：将步骤S21中经过数据增强的每一个参考图像和对应的目标图像输入到预训练深度卷积神经网络，通过从预训练深度卷积神经网络的不同卷积层提取得到不同语义层级的图像特征。

作为一种可选的技术方案，所述步骤S3具体包括：

步骤S31：将步骤S1中训练数据集中的文本用空格替换特殊字符，然后删除除字母之外的所有其他字符；

步骤S32：将步骤S31中经过预处理的文本通过分词操作分解为单独的单词，并使用300 维GloVe词汇表将单词编码为词向量；

步骤S33：将步骤S32中的词向量输入到双向门控循环网络或者长短时记忆网络获得文本特征，双向门控循环网络或者长短时记忆网络后接一个平均池化层和全连接层；

步骤S34：将步骤S33中生成的文本向量输入到三个不同的可学习的线性层，以获得三个不同语义层级的文本特征。

作为一种可选的技术方案，所述步骤S4具体包括：

步骤S41：构建跨层交互子模块，利用步骤S2中不同层级的图像特征进行融合，得到包含高层语义的图像特征；

步骤S42：使用一个3×3的卷积将步骤S41中得到的包含不同语义层级的图像特征进行平滑，得到消除混叠效应后的图像特征；

步骤S43：将步骤S42中混合后的图像特征输入到广义平均池化层和一个全连接层，得到最终的图像特征。

作为一种可选的技术方案，所述步骤S41的跨层交互子模块的操作具体包括以下步骤：

步骤S411：将S2中包含高层级语义的图像特征通过1×1卷积操作改变图像特征的通道数，得到与低层级语义特征通道数相同的高层级语义图像特征；

步骤S412：使用双线性插值作为我们的下采样函数，将下采样后得到的包含低层级语义的图像特征和S411中得到的包含高层级语义的图像特征相叠加，得到混合后的包含不同语义层级的图像特征。

作为一种可选的技术方案，所述步骤S5具体包括：

步骤S51：将步骤S3中得到的文本特征输入到两个多层感知器中，经过softmax操作得到用于筛选需要保留和修改的图像区域的注意力；

步骤S52：将步骤 S51中用于筛选需要保留的图像区域的注意力进行反转，得到反转后的用于保留的注意力权重；

步骤S53：使用步骤S51中生成的注意力权重和参考图像特征和目标图像特征进行点乘操作，得到需要保留和修改的图像区域的特征；

步骤S54：使用步骤S52中生成的反转后的用于保留的注意力权重和目标图像特征进行点乘操作，得到反转后的需要保留的图像区域的特征；

步骤S55：使用步骤S53中生成的保留的目标图像特征和步骤S54中生成的反转后的保留的目标图像特征构建第一损失函数，用于减少保留和修改的图像区域之间的交叠。

作为一种可选的技术方案，所述步骤S52的反转操作具体包括以下步骤：

步骤S521：根据步骤S51中得到的用于筛选需要保留的图像区域的注意力求出该注意力权重的均值；

步骤S522：将步骤S521获得的均值翻倍后，减去原先的注意力权重得到反转后的注意力权重，低于0的设为0；

所述步骤S55中的第一损失函数表示为

，具体如下所示:

其中Sim（.）表示用于计算余弦相似度，t_i表示文本语义信息，

表示目标图像的图像特征中根据修改文本和参考图像语义信息保留的区域特征，/>

表示将/>

各个位置的特征值反转后的特征，/>

表示间隔大小，i表示特征所在语义层级的层数，min(.)表示最小化，计算时取括号中逗号左侧和右侧相比小的那个数值。

作为一种可选的技术方案，所述步骤S6具体包括：所述跨模态注意力保留结构由3个跨层交互模块和3个用于保留的自对比学习模块组成，所述跨模态注意力保留结构执行的操作具体包括：

步骤S61：构建三个步骤S5得到的用于保留的自对比学习模块；

步骤S62：将步骤S3中得到的文本特征和经过三个不同可学习线性层得到的文本特征，和步骤S4中得到的三个不同语义层级的图像特征，按层级分别输入到步骤S5构建的用于保留的自对比学习模块中得到保留和修改的目标图像区域；

步骤S63：计算步骤S62得到的每一个语义层级中的目标图像中修改的区域特征和步骤S4中经过可学习线性层得到的文本特征的相似度，以及目标图像中保留的区域和参考图像中保留的区域的相似度，然后将两个相似度相加得到一个语义层级的相似度得分；

步骤S64：将步骤S63得到的三个不同语义层级的相似度得分相加，得到最终的相似度得分。

作为一种可选的技术方案，所述步骤S7中Adam优化器的学习率初始设置为0.0005，使用权重衰减，每10轮训练衰减一半，超过20轮训练后，每5轮训练衰减一半，整个模型在训练集上训练100个周期；

所述步骤S7中的第二损失函数表示为

，具体如下所示:

其中，

表示第j个训练样本的目标图像中需要修改的图像特征、文本特征、参考图像中需要被保留的图像特征和目标图像中需要被保留的图像特征相似度得分之和，/>

依次表示第j个训练样本的目标图像中需要修改的图像特征、文本特征、参考图像中需要被保留的图像特征和目标图像中需要被保留的图像特征；

其中

表示目标图像中需要修改的图像特征、文本特征、参考图像中需要被保留的图像特征和目标图像中需要被保留的图像特征的相似度得分之和，/>

依次表示目标图像中需要修改的图像特征、文本特征、参考图像中需要被保留的图像特征和目标图像中需要被保留的图像特征；

表示文本特征和第i个语义层级的目标图像中需要修改的图像特征相似度得分之和；

表示第i个语义层级的参考图像中需要被保留的图像特征和目标图像中需要被保留的图像特征相似度得分之和,

表示一个可学习的参数，j表示第j个训练样本，i表示特征所在语义层级的层数,B表示分批训练时每批中样本的个数。

作为一种可选的技术方案，所述步骤S8具体包括：

使用训练完成的基于跨模态注意力保留的组合式查询图像检索模型进行图像检索，以验证训练完成的基于跨模态注意力保留的组合式查询图像检索模型的效果；

该步骤具体将步骤S6中得到的相似度得分从大到小排序，选择相似度得分最高的候选图像作为输出结果。

本发明的有益效果如下：

1.本发明将不同语义层级的图像特征融合后用于组合式查询图像检索，可以更充分地挖掘不同粒度的视觉语义信息，获得更精确的图像特征表示；

2.本发明设计了跨模态注意力保留的组合式查询图像检索方法来进行图像检索，该跨模态注意力保留可优化模型学习到的需要保留的信息，从而获得更加准确的检索结果；

3.现有授权专利文献记载：CN112784092B《一种混合融合模型的跨模态图像文本检索方法》，通过结合早期融合和晚期融合策略，实现早期融合在跨模态学习层面和晚期融合在模态内学习层面的互补，从而实现图像和文本模态之间的潜在对齐；

而本发明记载的方案相较于这一文献又更突出的改进，首先《一种混合融合模型的跨模态图像文本检索方法》处理的场景是给定文本检索图像或图像检索文本的普通跨模态检索任务，而本发明处理的场景是给定图像和修改文本，根据文本的语义去修改图像，得到目标图像的组合式查询检索任务。本发明研究的这个任务更符合应用场景，支持用户去根据自己的意愿可以迭代的不断优化检索结果，并且可以同时利用图像和文本两个模态的数据表达用户的需求，而前者只能通过文本或者图像表达。

《一种混合融合模型的跨模态图像文本检索方法》需要消耗更多的标注数据，由于任务的query（查询）只包括一种模态（图像或文本），所以需要做的仅仅是利用图结构的网络把图像和文本对齐就行，然后计算图像和文本的相似度，最后选出最优结果。

而本发明任务的query同时包括两个模态（图像和修改文本），所以就更加复杂难度更大，我们就要通过学习到图像中需要保留的信息，以及修改文本的语义信息，就是让模型知道保留图像中的哪些特征和根据修改文本知道修改哪些特征。具体的就是通过我们提出的跨模态注意力保留结构，分别学习两个特征（需要保留的特征和修改的特征，而不是混合是分别学习），最后利用这两个特征和目标图像分别计算相似度后加起来，就能选出最优结果。

附图说明

图1为具体实施方式中，设置基于跨模态注意力保留的组合式查询图像检索模型的实现流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，一种基于跨模态注意力保留的组合式查询图像检索方法，先使用预训练深度网络提取不同语义层级的图像特征，和利用文本特征提取模块提取文本特征，然后构建跨模态注意力保留结构，利用跨层交互模块融合不同语义层级的图像特征，接着通过用于保留的自对比学习模块优化用于保留和修改的图像区域特征，最后通过计算相似度得到检索结果。

本实施例的一个核心内容在于融合不同语义层级的图像特征用于组合式查询图像检索，可以进一步完善视觉内容信息，获得更准确的特征表示。同时，本方法设计了一种跨模态注意力保留结构来获得保留和修改后的目标图像特征，该跨模态注意力保留结构可优化图像特征中需要保留的信息，从而获得更加准确的查询结果。相较于目前已有的方法，该方法充分利用了不同语义层级的图像和文本特征，同时缩小了不同语义层级的图像特征之间存在的语义鸿沟，并通过自对比学习方式极大的提高了模型学习到的需要保留的图像特征的精细程度，进一步提升了图像检索结果的准确性。

实施例2：

一种基于跨模态注意力保留的组合式查询图像检索方法：具体包括以下步骤：

步骤S1：选择训练数据集；

实施例3：

一种基于跨模态注意力保留的组合式查询图像检索方法，先使用预训练深度网络提取不同语义层级的图像特征，和利用文本特征提取模块提取文本特征，然后构建跨模态注意力保留结构，利用跨层交互模块融合不同语义层级的图像特征，接着通过用于保留的自对比学习模块优化用于保留和修改的图像区域特征，最后通过计算相似度得到检索结果。主要包括步骤S1-步骤S8：

步骤S1：选择训练数据集；

本实施例选取FashionIQ数据集、Shoes数据集和Fashion200K数据集进行实验。

FashionIQ包含三个类别的数据，分别是裙子、T恤和上衣，每一个训练三元组包括一个参考图像、修改文本和一个对应的目标图像。修改文本由两个人工标注的文本描述构成，用于描述目标图像相对于参考图像的改动。在本实施例训练阶段使用了46，609个图像，验证阶段使用了15，373个图像。

Shoes数据集包含从互联网上搜集得到的各种鞋类的图像，并对图像做了详细的语言描述。该数据集中共包含有14，658个图像，其中训练数据集中包含10，000个图像和测试数据集中包含4,658个图像。

Fashion200K数据集是一个大型的时尚检索数据集，这个数据集共包含205，529个图像，它由172，049个用于训练的图像和33，480个用于测试的图像组成，并把文本描述只有一个单词不同的一对图像作为参考图像和目标图像。

该步骤具体内容如下：

步骤S21：将步骤S1中训练数据集中的参考图像和目标图像用白色像素填充以获得正方形。然后将它们调整为 256×256像素并且使用随机水平翻转和224×224像素大小的随机裁剪进行数据增强。

步骤S23：将步骤S21中经过数据增强的每一个参考图像和对应的目标图像输入到预训练深度卷积神经网络，通过从预训练深度卷积神经网络的不同卷积层提取得到不同语义层级的图像特征；

该步骤具体内容如下：

步骤S33：将步骤S32中的词向量输入到双向门控循环网络或者长短时记忆网络，获得文本特征；双向门控循环网络或者长短时记忆网络后接一个平均池化层和全连接层。

步骤S34：将步骤S33中生成的文本向量输入到三个不同的可学习的线性层，以获得三个不同语义层级的文本特征；

该步骤具体内容如下：

其中，所述步骤S41的跨层交互子模块的操作具体包括以下步骤：

步骤S412：使用双线性插值作为我们的下采样函数，将下采样后得到的包含低层级语义的图像特征和S411中得到的包含高层级语义的图像特征相叠加，得到混合后的包含不同语义层级的图像特征；

该步骤具体内容如下：

步骤S55：使用步骤S53中生成的保留的目标图像特征和步骤S54中生成的反转后的保留的目标图像特征构建第一损失函数，用于减少保留和修改的图像区域之间的交叠；

其中，所述步骤S52的反转操作具体包括以下步骤：

所述步骤S55中的第一损失函数表示为

，具体如下所示:

表示将/>

各个位置的特征值反转后的特征，/>

该步骤具体内容如下：

步骤S64：将步骤S63得到的三个不同语义层级的相似度得分相加，得到最终的相似度得分；

进一步地，所述步骤S7中的第二损失函数表示为

，具体如下所示:

其中，

其中

步骤S7：采用AdamW优化器，根据步骤S6得到的相似度得分定义第二损失函数，对跨模态注意力保留的组合式查询图像检索模型进行训练；

Adam优化器的学习率初始设置为0.0005，使用权重衰减，每10轮训练衰减一半，超过20轮训练后，每5轮训练衰减一半，整个模型在训练集上训练100个周期。

实施例4：

本实施例在FashionIQ数据集、Shoes数据集和Fashion200K数据集上采用Recall@K指标来评估我们的模型。Recall@K指标被定义为在前K个相似度得分最高的图像检索结果中正确的组合式查询检索结果的百分比。在FashionIQ数据集上，我们使用Recall@10、Recall@50、mR这三个指标来评估我们的结果。在Shoes和Fashion200K数据集上，我们使用Recall@1、Recall@10、Recall@50、mR这四个指标来评估我们的结果。

我们的模型CMAP和其他模型在FashionIQ数据集上的测试结果如表1所示。

在Shoes数据集上的测试结果如表2所示：

在Fashion200K数据集上的测试结果如表3所示：

综上所述，本申请文件在FashionIQ数据集和Shoes数据集中，在所有的高精度指标上明显优于目前的所有方法。对于大型数据集，在Fashion200K数据集上，我们的发明也在所有高精度指标上都明显优于目前的方法。这证明本发明提出的基于跨模态注意力保留的组合式查询图像检索方法，充分提取了图像特征中不同层级的语义信息，并利用自对比学习方法很好地优化了学习到的图像特征，提高了组合式查询图像检索的准确率。

关于表1、表2和表3中的模型解释：

TRIG：是组合式查询任务的首个方法；

VAL：通过视觉语言学注意学习进行文本反馈的图像搜索方法；

ARTEMIS：基于注意力机制的文本显式匹配和隐式相似性检索；

ComposeAE：图像检索的图像文本查询的组合学习；

CoSMo：内容风格调制的图像检索与文本反馈；

DCNet：交互式图像检索中的双方向学习；

SAC：用于文本条件下的图像检索的语义注意组合；

TCIR:利用风格和内容功能进行文本条件下的图像检索；

CIRPLANT:使用预先训练好的视觉和语言模型对现实生活中的图像进行图像检索；CIRPLANT*代表使用预训练模型的方法；

FashionVLP*:用于时尚检索和反馈的视觉语言转换器预训练模型的方法；

CLVC-Net:综合的图像检索的语言-视觉合成网络；

GSCMR:基于组合查询的图像检索的几何敏感跨模态推理；

CMAP:表示本申请文件提出的一种基于跨模态注意力保留的组合式查询图像检索方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。