CN113590867B

CN113590867B - 基于分层度量学习的跨模态信息检索方法

Info

Publication number: CN113590867B
Application number: CN202110893943.1A
Authority: CN
Inventors: 王笛; 田玉敏; 王泉; 丁阿强; 万波; 罗雪梅; 王义峰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2024-02-09
Anticipated expiration: 2041-08-05
Also published as: CN113590867A

Abstract

本发明公开了一种基于分层度量学习的跨模态信息检索方法，其实现步骤为：(1)建立训练集；(2)构建分层度量学习网络；(3)训练分层度量学习网络；(4)利用图像检索文本；(5)利用文本检索图像。本发明构建了与标签层数相等的多个分层度量学习子网络组成分层度量学习网络，采用了特征嵌入模块对图像样本和文本样本进行实值特征表示学习，使得最终分层度量学习网络学习到的特征能包含层次标签的所有标签信息，学习到的图像特征和文本特征具有更高的数值精度，提高了跨模态信息检索的精度，增强了跨模态信息检索过程中数据特征结构的稳定性。

Description

基于分层度量学习的跨模态信息检索方法

技术领域

本发明涉及信息检索技术领域，更进一步涉及图像文本信息检索技术领域的一种基于分层度量学习的跨模态信息检索方法。本发明可应用于图像、文本两种模态数据的信息检索，实现具有层次标签数据模态内部及模态间的精确检索。

背景技术

近些年来，多模态数据量飞速增长，由多层标签所标注的跨模态数据的数量也在不断增加。然而目前很多的跨模态信息检索方法只针对具有单层标签数据，在对不同模态数据进行相似性度量的时候只能利用最底层的标签信息，其上层的标签信息将会被舍弃从而丢失一部分的先验信息，使得生成的图像和文本特征缺少一部分的类间判别信息。传统的哈希方法在解决具有层次标签数据的跨模态信息检索问题时会出现在二值化的过程中有精度损失的问题。如何针对上述问题建立模型，在度量数据之间相似度时能最大程度地利用其层次标签信息以及最大程度地提高检索精度是当前信息检索技术领域亟需解决的问题。

Venice Erin Liong，Jiwen Lu，Yap-Peng Tan，Jie Zhou在其发表的论文“DeepCoupled Metric Learning for Cross-Modal Matching”(IEEE TRANSACTIONS ONMULTIMEDIA，2017)中提出了一种用于跨模态信息检索领域的度量学习方法。该方法利用两个两层的深度网络分别将原始的图像特征和文本特征映射到同一个嵌入空间，并且对映射后的特征进行相似度的约束，使得学习到的特征具有以下特点：同一类别数据的嵌入特征之间的距离小于一个阈值，不同类别数据的嵌入特征之间的距离大于一个阈值。但是，该方法仍然存在的不足之处是，该方法在对具有多层标签的数据集进行处理的时候只能利用最底层的标签，无法利用上层标签的先验信息，生成的特征缺少一部分的类间判别信息，使得该方法应用到多层标签数据的检索情形时检索性能不佳。

山东大学在其申请的专利文献“利用标签层次信息的多媒体数据跨模态信息检索方法及系统”(申请号：2020107717010，申请公布号：CN 111930972 A)中提出了一种利用标签层次信息的多媒体数据跨模态信息检索方法。该方法具体步骤如下：首先利用预先训练好的卷积神经网络CNN对图像数据进行特征提取，得到图像数据对应的哈希码。然后利用预先训练好的多层感知器MLP模型对文本数据进行特征提取，得到文本数据对应的哈希码。最后将第一模态哈希码与预存储的第二模态的所有多媒体数据对应的已知哈希码进行距离计算；选择距离最近的若干个哈希码对应的第二模态的多媒体数据，作为检索结果输出。该方法存在的不足之处是，该方法将图像和文本的特征进行了哈希映射，在哈希映射的过程中将特征中的高精度的值映射成-1、0和1这三种值，原有数据特征结构被破坏、损失了映射前数据的精度，从而导致信息检索精度降低的问题。

综上所述，对于信息检索领域的应用，目前已有的方法仍然存在由于无法利用具有层次标签的跨模态数据的全部标签层次而导致生成的特征缺少部分的类间判别信息，由于使用哈希方法而导致二值化的过程中原有数据特征结构被破坏，出现了精度损失等问题。

发明内容

本发明的目的在于针对上述现有技术的不足，提供一种基于分层度量学习的跨模态信息检索方法。用于解决目前很多的跨模态信息检索方法在处理具有层次标签数据的时候无法使用全部层次标签信息以及传统的哈希方法在解决具有层次标签数据的跨模态信息检索问题时会在二值化的过程中有精度损失的问题。

实现本发明的技术思路是，构建多个分层度量学习子网络，其数量与层次标签的层数相同，每一个分层度量学习子网络对应一层标签；每一个分层度量学习子网络训练过程中使用当前层的标签信息，使得最终分层度量学习网络学习到的特征能包含层次标签的所有标签信息，解决现有技术跨模态信息检索方法无法利用层次标签的全部标签信息的问题。本发明采用了特征嵌入模块对图像样本和文本样本进行实值特征表示学习，学习到的图像特征和文本特征具有更高的数值精度，解决了现有技术采用了哈希方法解决层次标签数据的跨模态信息检索问题时在二值化过程中原有数据特征结构被破坏、损失了映射前数据精度的问题。

实现本发明的具体步骤包括如下：

(1)建立训练集；

(1a)选取至少15000个图像文本对组成训练样本集；

(1b)对训练样本集中的每对图像文本中的图像和文本分别进行层次标签的标注，标签层数至少两层；

(1c)将标注后的图像样本裁剪成大小为224×224像素值的图像；

(1d)将标注后的文本样本生成对应的文本特征样本；

(1e)将层次标签标注后的已裁剪图像样本和文本特征样本组成训练集；

(2)构建分层度量学习网络；

(2a)搭建一个图像特征嵌入模块，其结构依次为，第一卷积层，第一最大池化层，第二卷积层，第二最大池化层，第三卷积层，第四卷积层，第五卷积层，第三最大池化层，第一全连接层，第二全连接层，第三全连接层，第四全连接层，第五全连接层；设置图像特征嵌入模块各层的参数如下：将第一至第五卷积层的卷积核大小分别设置为：11×11×3×64、5×5×64×256、3×3×256×256、3×3×256×256、3×3×256×256，步长分别设置为：4、1、1、1、1；将第一至第五全连接层的神经元数目分别设置为：4096、4096、2048、1024、100；第一至第三最大池化层的窗口大小均设置为3×3；

(2b)搭建一个由两个卷积层串联的文本特征嵌入模块；将第一至第二卷积层的卷积核大小分别设置为：1×m×1×8192、1×1×8192×100，步长均设置为1，其中，m表示文本特征的维度；

(2c)搭建一个由三个全连接层串联组成的模态分类模块；将第一至第三全连接层的神经元数目分别设置为：50、25、2；

(2d)将图像特征嵌入模块的第五全连接层分别与全连接层和模态分类模块相连，将文本特征嵌入模块的第二卷积层分别与全连接层和模态分类模块相连，构成分层度量学习子网络；其中全连接层神经元的总数与其对应标签维度数相等；

(2e)构建与标签层数相等的多个分层度量学习子网络组成分层度量学习网络；

(3)训练分层度量学习网络；

(3a)从训练集中随机选取64个由图像样本和文本特征样本组成的样本对输入到分层度量学习网络中，使用Adam优化算法，优化更新分层度量学习网络的网络参数；

(3b)判断分层度量学习网络的总损失函数的值是否收敛；若是，则得到训练好的分层度量学习网络后执行步骤(4)，否则，执行步骤(3a)；

(4)利用图像检索文本；

(4a)采用与步骤(1c)相同的方法，对每个待检索的图像样本进行处理后输入到训练好的分层度量学习网络中，输出该图像样本的图像特征；

(4b)采用与步骤(1d)相同的方法，对每个与待检索的图像相似的被检索的文本样本进行处理后输入到训练好的分层度量学习网络中，输出该文本样本的文本特征；

(4c)计算待检索的每个图像特征和被检索的每个文本特征的欧几里得距离，将所有的欧几里得距离按照升幂排序后提取前k个文本样本作为图像检索文本的检索结果；其中，k的取值为在[10,50]区间且小于被检索的文本样本的数量；

(5)利用文本检索图像；

采用与步骤(4)相同的方法，利用待检索的文本样本和被检索的图像样本得到文本检索图像的检索结果。

本发明与现有技术相比有以下优点：

第一，本发明构建了与标签层数相等的多个分层度量学习子网络组成分层度量学习网络，通过为每一个标签层次构建一个分层学习子网络将层次标签信息融入到特征学习过程中，使得最终分层度量学习网络学习到的特征能包含层次标签的所有标签信息，解决了现有技术跨模态信息检索方法无法利用层次标签的全部标签信息的问题，使得本发明提高了跨模态信息检索的精度。

第二，本发明构建了图像特征嵌入模块和文本特征嵌入模块，学习到的图像特征和文本特征由精度更高的浮点值组成，相比哈希方法学习到的二值特征表示，实值特征嵌入表示能够表示出特征之间更加复杂的相似度关系，解决了现有技术采用了哈希方法在二值化过程中原有数据特征结构被破坏、损失了映射前数据精度的问题，使得本发明增强了跨模态信息检索过程中数据特征结构的稳定性。

附图说明

图1是本发明的流程图。

图2是本发明的图像特征嵌入模块的结构示意图。

图3是本发明的分层度量学习子网络的结构示意图。

具体实施方式

下面结合附图对本发明做进一步的详细描述。

参照附图1，对本发明的实现步骤做进一步的详细描述。

步骤1，建立训练集。

第一步，选取至少15000个图像文本对组成训练样本集。

第二步，对训练样本集中的每对图像文本中的图像和文本分别进行层次标签的标注，标签层数至少两层。

第三步，将标注后的图像样本裁剪成大小为224×224像素值的图像。

第四步，将标注后的文本样本利用bag-of-words模型生成对应的文本特征样本。

第五步，将层次标签标注后的已裁剪图像样本和文本特征样本组成训练集。

步骤2，构建分层度量学习网络。

第一步，搭建一个图像特征嵌入模块，其结构依次为，第一卷积层，第一最大池化层，第二卷积层，第二最大池化层，第三卷积层，第四卷积层，第五卷积层，第三最大池化层，第一全连接层，第二全连接层，第三全连接层，第四全连接层，第五全连接层；设置图像特征嵌入模块各层的参数如下：将第一至第五卷积层的卷积核大小分别设置为：11×11×3×64、5×5×64×256、3×3×256×256、3×3×256×256、3×3×256×256，步长分别设置为：4、1、1、1、1；将第一至第五全连接层的神经元数目分别设置为：4096、4096、2048、1024、100；第一至第三最大池化层的窗口大小均设置为3×3。

第二步，搭建一个由两个卷积层串联的文本特征嵌入模块；将第一至第二卷积层的卷积核大小分别设置为：1×m×1×8192、1×1×8192×100，步长均设置为1，其中，m表示文本特征的维度。

第三步，搭建一个由三个全连接层串联组成的模态分类模块；将第一至第三全连接层的神经元数目分别设置为：50、25、2。

下面结合图2对本发明构建的图像特征嵌入模块做进一步的描述。

图2是本发明构建的图像特征嵌入模块结构示意图，包括5层卷积层、5层全连接层和3层最大池化层，矩形块上方的参数表示卷积层的卷积核的大小、全连接层的神经元数目和图像特征的维度。图像特征嵌入模块的输入为224×224像素值大小的图像，输出为维度大小为100的图像特征。

第四步，将图像特征嵌入模块的第五全连接层分别与全连接层和模态分类模块相连，将文本特征嵌入模块的第二卷积层分别与全连接层和模态分类模块相连，构成分层度量学习子网络；其中全连接层神经元的总数与其标签维度数相等。

第五步，构建与标签层数相等的多个分层度量学习子网络组成分层度量学习网络。

下面结合图3对本发明构建的分层度量学习子网络做进一步的描述。

图3是本发明构建的分层度量学习子网络结构示意图，包括四个模块，分别为图像特征嵌入模块、文本特征模块、全连接层和模态分类模块。网络的输入为图像样本和文本样本的bag-of-words向量，其中图像样本为图像特征嵌入模块的输入，文本样本的bag-of-words向量为文本特征嵌入模块的输入。图像特征嵌入模块和文本特征嵌入模块的输出分别为图像特征和文本特征，两者作为全连接层和模态分类模块的输入。图3包括三个损失值，分别为特征嵌入损失值、标签预测损失值和模态分类损失值。图像特征嵌入模块和文本特征嵌入模块的输出用于计算特征嵌入损失值，全连接层的输出用于计算标签预测损失值，模态分类模块用于计算模态分类损失值。

步骤3，训练分层度量学习网络。

第一步，从训练集中随机选取64个由图像样本和文本特征样本组成的样本对输入到分层度量学习网络中，使用Adam优化算法，优化更新分层度量学习网络的网络参数。

第二步，判断分层度量学习网络的总损失函数的值是否收敛；若是，则得到训练好的分层度量学习网络后执行步骤4，否则，执行本步骤的第一步。

所述的分层度量学习网络的总损失函数L为：

其中，K表示分层度量学习子网络的总个数，k表示第k个分层度量学习子网络，分别表示第k个分层度量学习子网络的特征嵌入损失函数、标签预测损失函数和模态分类损失函数。

所述特征嵌入损失函数如下:

其中，表示第k个分层度量学习子网络的特征嵌入损失函数；/>和/>分别表示第k个分层度量学习子网络的图像特征嵌入模块的参数和文本特征嵌入模块的参数，n表示样本对的总数，Σ表示求和操作，i和j分别表示样本对的序号；ξ_ij表示判别参数，当第i个样本对和第j个样本对的类别相同时ξ_ij＝1，否则，ξ_ij＝0；/>分别表示第i个样本对输入到第k个分层度量学习子网络中后网络的图像特征嵌入模块和文本特征嵌入模块的输出，max{·}表示取大值操作，D(·)表示取欧几里得距离符号。

所述标签预测损失函数如下：

其中，表示第k个分层度量学习子网络的标签预测损失函数，/>表示步骤2第四步中第k个分层度量学习子网络的全连接层的参数，Lk(i)表示第i个样本对的第k层标签；·表示点乘操作，log表示以自然常数e为底的对数操作，/>和/>分别表示第i个样本对的图像特征和第i个样本对的文本特征输入到步骤(2d)中第k个分层度量学习子网络的全连接层全连接层后的输出。

所述模态分类损失函数如下：

其中，表示第k个分层度量学习子网络的模态分类损失函数，/>表示第k个分层度量学习子网络对应的模态分类模块的参数，M^k(i)表示第i个样本对的模态类别标签，/>分别表示第i个样本对的图像特征和文本特征输入到第k个分层度量学习子网络的模态分类模块后的输出。

步骤4，利用图像检索文本。

采用与步骤1第三步相同的方法，对每个待检索的图像样本进行处理后输入到训练好的分层度量学习网络中，输出该图像样本的图像特征。

采用与步骤1第四步相同的方法，对每个与待检索的图像相似的被检索的文本样本进行处理后输入到训练好的分层度量学习网络中，输出该文本样本的文本特征。

计算待检索的每个图像特征和被检索的每个文本特征的欧几里得距离，将所有的欧几里得距离按照升幂排序后提取前k个文本样本作为图像检索文本的检索结果；其中，k的取值为在[10,50]区间且小于被检索的文本样本的数量。

所述的欧几里得距离由下式得到：

其中，D(a，b)表示待检索的第a个图像特征和被检索的第b个文本特征之间的欧几里得距离，μ_k表示第k个分层度量学习子网络的权重参数，且满足||·||₂表示取L2范数操作。

步骤5，利用文本检索图像。

采用与步骤4相同的方法，利用待检索的文本样本和被检索的图像样本得到文本检索图像的检索结果。

下面结合仿真实验，对本发明的效果做进一步说明。

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为Intel Core i3-2120 CPU，主频为3.3GHz，内存16GB，显卡为Nvidia GeForce GTX 1080。

本发明的仿真实验的软件平台为：Windows10操作系统和python 3.6。

本发明仿真实验的数据集平台为：FashionVC数据集，包含19862个图像文本对，图像样本为已裁剪成224×224像素值的图像，文本样本为bag-of-words向量；并且每一个图像文本对由层次标签所标注，层次标签的层数为两层，第一层标签类别为8类，第二层标签类别为27类。随机选取3000个图像文本对为测试集，剩余的16862个图像文本对作为训练集和检索集。

2.仿真内容及其结果分析：

本发明的仿真实验是采用本发明方法和七个现有技术(CCA、DeepCCA、ACMR、MAN、DSCMR、HiCHNet和SHDCH)分别构建的八个跨模态信息检索网络，通过相同的训练集数据分别训练八个网络，再将相同的测试集数据作为待检索样本测试每个跨模态信息检索网络的检索精度，分别计算了八个跨模态信息检索网络的平均精度均值mAP作为评价跨模态信息检索网络检索精度的指标，其结果如表1所示。

在仿真实验中，采用的七个现有技术是指：

现有技术CCA是指，Rasiwasia N等人在“A new approach to cross-modalmultimedia retrieval，Proceedings of the 18th ACM international conference onMultimedia.ACM，2010:251-260.”中提出的跨模态信息检索算法，简称CCA。

现有技术DeepCCA是指，Andrew等人在“Deep canonical correlation analysis，30th International Conference on Machine Learning,ICML 2013,n PART 3,p 2284-2292,2013,30th International Conference on Machine Learning,ICML 2013”中提出的跨模态信息检索方法，简称DeepCCA。

现有技术ACMR是指，Wang等人在“Adversarial cross-modal retrieval，25thACM International Conference on Multimedia,MM 2017,October 23,2017-October27,2017”中提出的跨模态信息检索方法，简称ACMR。

现有技术MAN是指，Peng等人在“Multimodal adversarial network for cross-modal retrieval，Knowledge-Based Systems,v 180,p 38-50,15September 2019”中提出的跨模态信息检索方法，简称MAN。

现有技术DSCMR是指，Zhen等人在“Deep supervised cross-modal retrieval，Proceedings of the IEEE Computer Society Conference on Computer Vision andPattern Recognition,v 2019-June,p 10386-10395,June 2019,Proceedings-2019IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2019”中提出的跨模态信息检索方法，简称DSCMR。

现有技术HiCHNet是指，Sun等人在“Supervised hierarchical cross-modalhashing，42nd International ACM SIGIR Conference on Research and Developmentin Information Retrieval,SIGIR 2019,July 21,2019-July 25,2019”中提出的跨模态信息检索方法，简称HiCHNet。

现有技术SHDCH是指，Zhan等人在“Supervised Hierarchical Deep Hashing forCross-Modal Retrieval，MM 2020-Proceedings of the 28th ACM InternationalConference on Multimedia,p 3386-3394,October 12,2020,MM 2020-Proceedings ofthe 28th ACM International Conference on Multimedia”中提出的跨模态信息检索方法，简称SHDCH。

所述平均检索精度是对所有待检索样本的检索精度取平均值mAP。

待检索样本的检索精度计算公式如下：

其中，AP(q)表示第q个待检索样本的检索精度，T表示待检索样本的总数，R表示检索到的样本的总数，Σ表示求和操作，P(r)表示第r个样本的检索准确率，ξ(r)是一个指标函数，ξ(r)＝1表示第r个检索样本与待检索样本相关，ξ(r)＝0表示第r个检索样本与待检索样本无关。

表1：FashionVC数据集上的平均检索精度结果

方法	图像检索文本结果	文本检索图像结果
			CCA	0.449	0.550
DeepCCA	0.494	0.525
			ACMR	0.618	0.889
MAN	0.274	0.408
			DSCMR	0.650	0.916
HiCHNet	0.699	0.894
			SHDCH	0.705	0.931
本发明方法	0.734	0.937

结合表1可以看出，本发明方法在图像检索文本结果和文本检索图像结果的mAP分别为0.734和0.937，均高于七种现有技术方法，较于七种现有技术中精度最好的跨模态信息检索方法SHDCH，本发明方法的图像检索文本精度提高了3.4％，本发明方法的文本检索图像精度提高了0.6％；证明本方法可以得到更高的跨模态检索精度。

以上仿真实验表明：本发明通过为每一个标签层次构建一个分层学习子网络将层次标签信息融入到特征学习的方法和采用了特征嵌入模块对图像样本和文本样本进行实值特征表示学习，解决了现有大部分跨模态信息检索方法无法使用全部的层次标签信息的问题和采用了哈希方法在二值化过程中原有数据特征结构被破坏、损失了映射前数据精度的问题，提高了跨模态信息检索的精度。

Claims

1.一种基于分层度量学习的跨模态信息检索方法，其特征在于，构建分层度量学习网络，将层次标签的信息输入到网络中进行特征学习；该检索方法的步骤包括如下：

步骤1，建立训练集：

(1a)选取至少15000个图像文本对组成训练样本集；

(1c)将标注后的图像样本裁剪成大小为224×224像素值的图像；

(1d)将标注后的文本样本生成对应的文本特征样本；

步骤2，构建分层度量学习网络：

步骤3，训练分层度量学习网络：

所述的分层度量学习网络的总损失函数为：

其中，L表示分层度量学习网络的总损失函数，K表示分层度量学习子网络的总个数，k表示第k个分层度量学习子网络，分别表示第k个分层度量学习子网络的特征嵌入损失函数、标签预测损失函数和模态分类损失函数；

所述特征嵌入损失函数如下：

其中，表示第k个分层度量学习子网络的特征嵌入损失函数；/>和/>分别表示第k个分层度量学习子网络的图像特征嵌入模块的参数和文本特征嵌入模块的参数，n表示样本对的总数，Σ表示求和操作，i和j分别表示样本对的序号；ξ_ij表示判别参数，当第i个样本对和第j个样本对的类别相同时，ξ_ij＝1，否则，ξ_ij＝0；/>分别表示第i个样本对输入到第k个分层度量学习子网络中后网络的图像特征嵌入模块和文本特征嵌入模块的输出，max{·}表示取大值操作，D(·)表示取欧几里得距离符号；

所述标签预测损失函数如下：

其中，表示第k个分层度量学习子网络的标签预测损失函数，/>表示步骤(2d)中第k个分层度量学习子网络的全连接层的参数，L^k(i)表示第i个样本对的第k层标签；·表示点乘操作，log表示以自然常数e为底的对数操作，/>和/>分别表示第i个样本对的图像特征和第i个样本对的文本特征输入到步骤(2d)中第k个分层度量学习子网络的全连接层全连接层后的输出；

所述模态分类损失函数如下：

其中，表示第k个分层度量学习子网络的模态分类损失函数，/>表示第k个分层度量学习子网络对应的模态分类模块的参数，M^k(i)表示第i个样本对的模态类别标签，分别表示第i个样本对的图像特征和文本特征输入到第k个分层度量学习子网络的模态分类模块后的输出；

步骤4，利用图像检索文本：

步骤5，利用文本检索图像：

2.根据权利要求1所述的基于分层度量学习的跨模态信息检索方法，其特征在于，步骤(4c)中所述的欧几里得距离由下式得到：

其中，D(a,b)表示待检索的第a个图像特征和被检索的第b个文本特征之间的欧几里得距离，μ_k表示第k个分层度量学习子网络的权重参数，且满足||·||₂表示取L2范数操作。