CN114741487A

CN114741487A - 基于图文语义嵌入的图文检索方法及系统

Info

Publication number: CN114741487A
Application number: CN202210231146.1A
Authority: CN
Inventors: 邹腊梅; 乔森; 连志祥; 李广磊; 严青; 王皓; 谢佳
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-07-12

Abstract

本发明公开了一种基于图文语义嵌入的图文检索方法及系统，属于多模态深度学习领域，方法包括：利用图文语义嵌入模型对待检索目标以及数据库中各相应的待匹配对象进行特征提取；特征提取包括：图像侧特征嵌入网络以分组卷积的方式对图像进行特征提取，通过动态最大最小池化对提取到的图像特征进行编码，对编码结果进行标准化处理得到图像特征嵌入向量；文本侧特征嵌入网络对文本进行特征提取，得到文本特征嵌入向量；对图像特征嵌入向量和文本特征嵌入向量进行向量拼接与交叉后输入联合嵌入网络，以得到相应图像文本对的相似度；将相似度最高的预设数量个待匹配对象作为检索结果，并输出检索结果及相应的相似度。

Description

基于图文语义嵌入的图文检索方法及系统

技术领域

本发明属于多模态深度学习领域，更具体地，涉及一种基于图文语义嵌入的图文检索方法及系统。

背景技术

近年来，基于深度神经网络的图像文本语义理解迅速发展，其通过监督或非监督的训练方式，对海量的数据分布进行联合建模。通过网络编码的数据能够嵌入到高维空间中并表征几何级数的语义关系，为下游任务提供充分特征表达。

现有的语义嵌入范式通常采用双塔结构，以分别处理图像和文本信息。在图像侧，基于神经网络从图像中提取多语义的特征向量，其网络训练依赖于传统的图像识别或图像处理任务。在文本侧，基于神经网络将词汇和语句编码为可以在嵌入空间中度量的向量表示。之后通过联合嵌入层网络结合匹配损失进行度量学习。然而，现有方法依赖离线训练的特征嵌入向量，不能实现端到端训练。同时，由于图像和文本语义之间存在歧义，直接使用匹配损失函数进行度量学习会破坏图像和文本的部分信息。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于图文语义嵌入的图文检索方法及系统，其目的在于利用动态最大最小池化解决图文语义歧义、稀疏的问题，基于特征交叉和联合嵌入进行相似度表征，解决度量学习损失函数造成的语义信息破坏问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于图文语义嵌入的图文检索方法，包括：S1，利用图文语义嵌入模型对待检索目标以及数据库中各相应的待匹配对象进行特征提取，所述待检索目标为图像和文本中的一种，所述待匹配对象为图像和文本中的另一种，所述图文语义嵌入模型包括图像侧特征嵌入网络、文本侧特征嵌入网络和联合嵌入网络；所述特征提取包括：所述图像侧特征嵌入网络以分组卷积的方式对图像进行特征提取，通过动态最大最小池化对提取到的图像特征进行编码，对编码结果进行标准化处理得到图像特征嵌入向量；所述文本侧特征嵌入网络对文本进行特征提取，得到文本特征嵌入向量；S2，对所述图像特征嵌入向量和所述文本特征嵌入向量进行向量拼接与交叉后输入所述联合嵌入网络，以得到相应图像文本对的相似度；S3，将相似度最高的预设数量个待匹配对象作为检索结果，并输出所述检索结果及相应的相似度。

更进一步地，所述动态最大最小池化包括：将提取到的图像特征展开为一维向量，将所述一维向量中最大的M个值作为前景特征，并将最小的N个值作为背景特征，M和N均为预先设定的参数；利用残差网络计算前景特征权重和背景特征权重，所述残差网络的分支部分由两个瓶颈层和全局平均池化层组成；根据所述前景特征权重和背景特征权重对所述前景特征和背景特征进行加权求和，得到动态最大最小池化后的编码结果。

更进一步地，所述S2中向量拼接与交叉操作包括：对所述图像特征嵌入向量和所述文本特征嵌入向量进行维度对齐，并对相应维度的元素分别进行相加、相减、相乘和相除，得到相应的特征交叉结果；将各所述特征交叉结果、所述图像特征嵌入向量和所述文本特征嵌入向量进行联合拼接，得到交叉特征向量。

更进一步地，所述文本侧特征嵌入网络包含简单递归单元，所述简单递归单元的记忆门中添加有隐含状态单元，用于分离输出以及输出的部分计算，以并行计算多个时间步的输出。

更进一步地，所述S1之前还包括：采用配对方式构建训练样本，并以最小化三元组先验损失函数为目标，利用所述训练样本训练所述图文语义嵌入模型，所述三元组先验损失函数为：

其中，

为所述三元组先验损失函数，Θ为训练参数，

为训练样本组成的集合，

I_n、S_n分别为第n对训练样本中的图像、文本，N为训练样本的总对数，C_n为多个与第n个图像无关的文本的集合，D_n为多个与第n个文本无关的图像的集合，T(x_n,v_n,v_m)为三元组损失，x_n、x_m分别为第n、m个图像的图像特征嵌入向量，v_n、v_m分别为第n、m个文本的文本特征嵌入向量。

更进一步地，所述S1之前训练所述图文语义嵌入模型包括：初始化并固定文本侧特征嵌入网络的训练参数，训练图像侧特征嵌入网络的训练参数；固定图像侧特征嵌入网络的训练参数，调节文本侧特征嵌入网络的训练参数；同时调节图像侧特征嵌入网络的训练参数和文本侧特征嵌入网络的训练参数。

更进一步地，所述训练样本包括正样本和负样本；所述正样本包括图像样本以及用于描述所述图像样本的多个文本样本，以及包括文本样本和用于描述所述文本样本的多个图像样本；所述负样本包括所述图像样本以及与所述图像样本描述不符的文本样本，以及包括文本样本和与所述文本样本描述不符的图像样本。

按照本发明的另一个方面，提供了一种基于图文语义嵌入的图文检索系统，包括：特征提取模块，用于利用图文语义嵌入模型对待检索目标以及数据库中各相应的待匹配对象进行特征提取，所述待检索目标为图像和文本中的一种，所述待匹配对象为图像和文本中的另一种，所述图文语义嵌入模型包括图像侧特征嵌入网络、文本侧特征嵌入网络和联合嵌入网络；所述特征提取包括：所述图像侧特征嵌入网络以分组卷积的方式对图像进行特征提取，通过动态最大最小池化对提取到的图像特征进行编码，对编码结果进行标准化处理得到图像特征嵌入向量；所述文本侧特征嵌入网络对文本进行特征提取，得到文本特征嵌入向量；交叉及计算模块，用于对所述图像特征嵌入向量和所述文本特征嵌入向量进行向量拼接与交叉后输入所述联合嵌入网络，以得到相应图像文本对的相似度；输出模块，用于将相似度最高的预设数量个待匹配对象作为检索结果，并输出所述检索结果及相应的相似度。

更进一步地，还包括训练模块，用于采用配对方式构建训练样本，并以最小化三元组先验损失函数为目标，利用所述训练样本训练所述图文语义嵌入模型，所述三元组先验损失函数为：

其中，

为所述三元组先验损失函数，Θ为训练参数，

为训练样本组成的集合，

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)结合图文检索任务中由于图像文本模态之间存在语义歧义、以及图文检索时效性要求较高的特点，设计基于双塔结构的图文语义嵌入模型，提升图文检索速度；动态最大最小池化使用残差网络建模前景背景特征注意力权重，得到最终动态最大最小池化后的图像特征嵌入向量，缓解了图文语义稀疏性不一致的歧义；同时采用特征交叉方式，将图像语义与文本语义自适应融合，有效缓解图像文本模态之间存在的语义歧义；通过联合嵌入网络直接预测图文之间的相似度，避免了在嵌入空间直接进行相似度计算而导致的语义损失；

(2)采用简单递归单元实现并行化的循环神经网络，加速文本特征向量编码，同时结合图像侧语义嵌入网络对图像特征进行编码，实现端到端的模型训练，有效提升预测精度。

附图说明

图1为本发明实施例提供的基于图文语义嵌入的图文检索方法的流程图；

图2为本发明实施例提供的图文语义嵌入模型的网络结构示意图；

图3为本发明实施例提供的图文语义嵌入模型的训练、测试示意图；

图4为本发明实施例提供的文本侧特征嵌入网络的网络结构示意图；

图5为本发明实施例提供的动态最大最小池化层的网络结构示意图；

图6为本发明实施例提供的基于图文语义嵌入的图文检索系统的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图1为本发明实施例提供的基于图文语义嵌入的图文检索方法的流程图。参阅图1，结合图2-图5，对本实施例中基于图文语义嵌入的图文检索方法进行详细说明，方法包括操作S1-操作S3。

根据本发明的实施例，在执行操作S1之前，需要基于图像文本配对样本以及对应的匹配标签对图文语义嵌入模型进行监督训练，如图3所示。将样本图像数据集MSCOCO按照一定比例划分为训练集与测试集，并将样本图像数据集对应的文本描述标注数据进行划分作为标签数据。其中对图像与其对应的多条文本描述构成多个正样本，随机采样图像与其非对应的文本描述构成随机负样本。采用验证集对所述图文语义嵌入模型进行图像-文本召回率以及文本-图像召回率验证。

训练图文语义嵌入模型具体包括：采用配对方式构建训练样本，并以最小化三元组先验损失函数为目标，利用训练样本训练图文语义嵌入模型。由于三元组样本构建通常以随机负采样方式从与查询无关的样本中随机抽取，导致计算损失时，平均化计算所有负采样样本与查询样本之间的损失，三元组先验损失函数为：

其中，

为三元组先验损失函数，Θ为训练参数，

为训练样本组成的集合，

I_n、S_n分别为第n对训练样本中的图像、文本，N为训练样本的总对数，C_n为多个与第n个图像无关的文本的集合，D_n为多个与第n个文本无关的图像的集合，T(x_n,v_n,v_m)为三元组损失，x_n、x_m分别为第n、m个图像的图像特征嵌入向量，v_n、v_m分别为第n、m个文本的文本特征嵌入向量。该三元组先验损失函数

使得图像在嵌入空间中与相关文本的相似性大于无关文本，同时使得文本在嵌入空间中与相关图像的相似性大于无关图像。

三元组损失的定义为：

T(a,b,b')＝max{0,α-<a,b>+<a,b'>}

其中，α为边缘损失，α＞0，α原本作为损失函数用于度量学习与排序学习；第一个参数a表示查询；第二个参数b表示相关答案；第三个参数b'表示不相关答案；<a,b>为向量a、b的内积。

根据本发明的实施例，采用端到端的图文联合训练方式训练图像侧特征嵌入网络和文本侧特征嵌入网络，具体包括：初始化并固定文本侧特征嵌入网络的训练参数，训练图像侧特征嵌入网络的训练参数；固定图像侧特征嵌入网络的训练参数，调节文本侧特征嵌入网络的训练参数；同时调节图像侧特征嵌入网络的训练参数和文本侧特征嵌入网络的训练参数。

根据本发明的实施例，训练样本包括正样本和负样本。正样本包括图像样本以及用于描述图像样本的多个文本样本，以及包括文本样本和用于描述文本样本的多个图像样本，该多个文本样本的个数例如为5个；负样本包括图像样本以及与图像样本描述不符的文本样本，以及包括文本样本和与文本样本描述不符的图像样本，该不符的文本样本的个数例如为10个，正样本与负样本的采样比例优选为1:2。

优选地，在将图像样本输入图文语义嵌入模型之前，还可以对图像样本进行预处理，实现数据增强，从而提高图像侧特征嵌入网络的表征能力。优选地，在采用配对样本图像数据和文本数据训练图文语义嵌入模型之前，还包括：基于大量公开样本图像数据集对图像侧特征嵌入网络的特征提取层进行分类任务的预训练，以提高模型的收敛速度，进一步地，在预训练完成之后将特征层进行非线性映射，用以对齐文本特征输出向量维度。

操作S1，利用图文语义嵌入模型对待检索目标以及数据库中各相应的待匹配对象进行特征提取，待检索目标为图像和文本中的一种，待匹配对象为图像和文本中的另一种，图文语义嵌入模型包括图像侧特征嵌入网络、文本侧特征嵌入网络和联合嵌入网络；特征提取包括：图像侧特征嵌入网络以分组卷积的方式对图像进行特征提取，通过动态最大最小池化对提取到的图像特征进行编码，对编码结果进行标准化处理得到图像特征嵌入向量；文本侧特征嵌入网络对文本进行特征提取，得到文本特征嵌入向量。

本实施例中基于图文语义嵌入的图文检索方法是用于检索与待检索图像相似度最高的若干个文本，以及用于检索与待检索文本相似度最高的若干个图像。所采用的图文语义嵌入模型的网络结构如图2所示。

图文语义嵌入模型训练完成之后，将图像、文本输入训练后的模型，经过图像侧特征嵌入网络、文本侧特征嵌入网络后分别输出图像特征嵌入向量、文本特征嵌入向量并落盘存储，数据库中包含该输出图像特征嵌入向量、文本特征嵌入向量。

图像侧特征嵌入网络通过卷积神经网络以及动态最大最小池化得到图像特征嵌入向量，其所采用的动态最大最小池化层使用自注意力机制进行动态池化，如图5所示。优选地，图像侧特征嵌入网络所采用的卷积神经网络为经过ImageNet预训练的ResNeXt-101。

根据本发明的实施例，图像侧特征嵌入网络中动态最大最小池化操作包括：将提取到的图像特征展开为一维向量，将一维向量中最大的M个值作为前景特征，并将最小的N个值作为背景特征，M和N均为预先设定的参数，M和N例如均取值为10；利用残差网络计算前景特征权重和背景特征权重，残差网络的分支部分由两个瓶颈层和全局平均池化层组成；根据前景特征权重和背景特征权重对前景特征和背景特征进行加权求和，得到动态最大最小池化后的编码结果。

文本侧特征嵌入网络通过将预训练词向量输入简单递归单元网络得到文本特征嵌入向量。根据本发明的实施例，文本侧特征嵌入网络包含简单递归单元，简单递归单元的记忆门中添加有隐含状态单元，用于分离输出以及输出的部分计算，以并行计算多个时间步的输出，如图4所示。

具体地，本实施例中，简单递归单元网络在循环神经网络的基础上，进行两个方面的加速设计。一方面，令内部门控单元与输入变换的计算只依赖于当前时间步的输入，因此可以在多个时间步上对这些值进行计算，实现并行化处理；另一方面，将时间步之间相互依赖的逐元素操作全部通过统一计算架构CUDA实现不同维度之间的并行操作，并将整个结构抽象成核函数来进行加速。

操作S2，对图像特征嵌入向量和文本特征嵌入向量进行向量拼接与交叉后输入联合嵌入网络，以得到相应图像文本对的相似度。

根据本发明的实施例，操作S2中向量拼接与交叉操作包括：对图像特征嵌入向量和文本特征嵌入向量进行维度对齐，使用全连接层对图像特征嵌入向量进行映射，使之变换为与文本特征嵌入向量相同维度的特征向量；进一步地，对相应维度的元素分别进行相加、相减、相乘和相除，得到相应的特征交叉结果；将各特征交叉结果、图像特征嵌入向量和文本特征嵌入向量进行联合拼接，得到交叉特征向量。

联合嵌入网络以特征交叉作为输入，融合图文联合语义信息，通过非线性映射输出图文样本对之间的相似度。采用联合嵌入网络对交叉后的图像特征嵌入向量、文本特征嵌入向量进行建模。优选地，联合嵌入网络包含三个全连接层，第一层输出维度为256，第二层输出维度为64，第一层输出维度为2。

操作S3，将相似度最高的预设数量个待匹配对象作为检索结果，并输出检索结果及相应的相似度。

本实施例中基于图文语义嵌入的图文检索方法，结合图文检索任务中由于图像文本模态之间存在语义歧义、以及图文检索时效性要求较高的特点，设计基于双塔结构的图文语义嵌入模型，提升图文检索速度，同时采用特征交叉方式，将图像语义与文本语义自适应融合，有效缓解图像文本模态之间存在的语义歧义，同时通过联合嵌入网络直接预测图文之间的相似度，避免了在嵌入空间直接进行相似度计算而导致的语义损失。最终，通过图文语义嵌入模型可以对图像文本进行检索。

图6为本发明实施例提供的基于图文语义嵌入的图文检索系统的框图。参阅图6，该基于图文语义嵌入的图文检索系统600包括特征提取模块610、交叉及计算模块620以及输出模块630。

特征提取模块610例如执行操作S1，用于利用图文语义嵌入模型对待检索目标以及数据库中各相应的待匹配对象进行特征提取，待检索目标为图像和文本中的一种，待匹配对象为图像和文本中的另一种，图文语义嵌入模型包括图像侧特征嵌入网络、文本侧特征嵌入网络和联合嵌入网络。特征提取包括：图像侧特征嵌入网络以分组卷积的方式对图像进行特征提取，通过动态最大最小池化对提取到的图像特征进行编码，对编码结果进行标准化处理得到图像特征嵌入向量；文本侧特征嵌入网络对文本进行特征提取，得到文本特征嵌入向量。

交叉及计算模块620例如执行操作S2，用于对图像特征嵌入向量和文本特征嵌入向量进行向量拼接与交叉后输入联合嵌入网络，以得到相应图像文本对的相似度。

输出模块630例如执行操作S3，用于将相似度最高的预设数量个待匹配对象作为检索结果，并输出检索结果及相应的相似度。

根据本发明的实施例，基于图文语义嵌入的图文检索系统600还包括训练模块。训练模块用于采用配对方式构建训练样本，并以最小化三元组先验损失函数为目标，利用训练样本训练图文语义嵌入模型，三元组先验损失函数为：

其中，

为三元组先验损失函数，Θ为训练参数，

为训练样本组成的集合，

基于图文语义嵌入的图文检索系统600用于执行上述图1-图5所示实施例中的基于图文语义嵌入的图文检索方法。本实施例未尽之细节，请参阅前述图1-图5所示实施例中的基于图文语义嵌入的图文检索方法，此处不再赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图文语义嵌入的图文检索方法，其特征在于，包括：

S1，利用图文语义嵌入模型对待检索目标以及数据库中各相应的待匹配对象进行特征提取，所述待检索目标为图像和文本中的一种，所述待匹配对象为图像和文本中的另一种，所述图文语义嵌入模型包括图像侧特征嵌入网络、文本侧特征嵌入网络和联合嵌入网络；

所述特征提取包括：所述图像侧特征嵌入网络以分组卷积的方式对图像进行特征提取，通过动态最大最小池化对提取到的图像特征进行编码，对编码结果进行标准化处理得到图像特征嵌入向量；所述文本侧特征嵌入网络对文本进行特征提取，得到文本特征嵌入向量；

S2，对所述图像特征嵌入向量和所述文本特征嵌入向量进行向量拼接与交叉后输入所述联合嵌入网络，以得到相应图像文本对的相似度；

S3，将相似度最高的预设数量个待匹配对象作为检索结果，并输出所述检索结果及相应的相似度。

2.如权利要求1所述的基于图文语义嵌入的图文检索方法，其特征在于，所述动态最大最小池化包括：

将提取到的图像特征展开为一维向量，将所述一维向量中最大的M个值作为前景特征，并将最小的N个值作为背景特征，M和N均为预先设定的参数；

利用残差网络计算前景特征权重和背景特征权重，所述残差网络的分支部分由两个瓶颈层和全局平均池化层组成；

根据所述前景特征权重和背景特征权重对所述前景特征和背景特征进行加权求和，得到动态最大最小池化后的编码结果。

3.如权利要求1所述的基于图文语义嵌入的图文检索方法，其特征在于，所述S2中向量拼接与交叉操作包括：

对所述图像特征嵌入向量和所述文本特征嵌入向量进行维度对齐，并对相应维度的元素分别进行相加、相减、相乘和相除，得到相应的特征交叉结果；

将各所述特征交叉结果、所述图像特征嵌入向量和所述文本特征嵌入向量进行联合拼接，得到交叉特征向量。

4.如权利要求1所述的基于图文语义嵌入的图文检索方法，其特征在于，所述文本侧特征嵌入网络包含简单递归单元，所述简单递归单元的记忆门中添加有隐含状态单元，用于分离输出以及输出的部分计算，以并行计算多个时间步的输出。

5.如权利要求1-4任一项所述的基于图文语义嵌入的图文检索方法，其特征在于，所述S1之前还包括：采用配对方式构建训练样本，并以最小化三元组先验损失函数为目标，利用所述训练样本训练所述图文语义嵌入模型，所述三元组先验损失函数为：

其中，

为所述三元组先验损失函数，Θ为训练参数，

为训练样本组成的集合，

6.如权利要求5所述的基于图文语义嵌入的图文检索方法，其特征在于，所述S1之前训练所述图文语义嵌入模型包括：

初始化并固定文本侧特征嵌入网络的训练参数，训练图像侧特征嵌入网络的训练参数；固定图像侧特征嵌入网络的训练参数，调节文本侧特征嵌入网络的训练参数；同时调节图像侧特征嵌入网络的训练参数和文本侧特征嵌入网络的训练参数。

7.如权利要求5所述的基于图文语义嵌入的图文检索方法，其特征在于，所述训练样本包括正样本和负样本；

所述正样本包括图像样本以及用于描述所述图像样本的多个文本样本，以及包括文本样本和用于描述所述文本样本的多个图像样本；

所述负样本包括所述图像样本以及与所述图像样本描述不符的文本样本，以及包括文本样本和与所述文本样本描述不符的图像样本。

8.一种基于图文语义嵌入的图文检索系统，其特征在于，包括：

特征提取模块，用于利用图文语义嵌入模型对待检索目标以及数据库中各相应的待匹配对象进行特征提取，所述待检索目标为图像和文本中的一种，所述待匹配对象为图像和文本中的另一种，所述图文语义嵌入模型包括图像侧特征嵌入网络、文本侧特征嵌入网络和联合嵌入网络；

交叉及计算模块，用于对所述图像特征嵌入向量和所述文本特征嵌入向量进行向量拼接与交叉后输入所述联合嵌入网络，以得到相应图像文本对的相似度；

输出模块，用于将相似度最高的预设数量个待匹配对象作为检索结果，并输出所述检索结果及相应的相似度。

9.如权利要求8所述的基于图文语义嵌入的图文检索系统，其特征在于，还包括训练模块，用于采用配对方式构建训练样本，并以最小化三元组先验损失函数为目标，利用所述训练样本训练所述图文语义嵌入模型，所述三元组先验损失函数为：

其中，

为所述三元组先验损失函数，Θ为训练参数，

为训练样本组成的集合，