CN114239730A

CN114239730A - 一种基于近邻排序关系的跨模态检索方法

Info

Publication number: CN114239730A
Application number: CN202111564321.0A
Authority: CN
Inventors: 曾焕强; 刘晓庆; 陈婧; 朱建清; 张联昌; 廖昀
Original assignee: Xiamen Yealink Network Technology Co Ltd; Huaqiao University
Current assignee: Xiamen Yealink Network Technology Co Ltd; Huaqiao University
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-03-25
Anticipated expiration: 2041-12-20
Also published as: CN114239730B

Abstract

本发明公开了一种基于近邻排序关系的跨模态检索方法，包括：构建用于图像模态数据以及文本模态数据的深度语义特征提取的深度神经网络模型；将图像数据与文本数据对分别输入到所述深度神经网络模型中进行训练；结合近邻样本排序损失函数和语义相似度度量损失函数，计算语义对齐的损失值，通过训练缩小损失值，得到训练好的深度神经网络模型；通过训练好的深度神经网络模型提取到图像数据和文本数据间的公共语义表达，并将图像的深度语义特征与文本的深度语义特征转化到公共语义空间中，实现语义相似度的度量和检索。本发明方法能够有效地实现图像和文本两种不同模态数据间的跨模态检索。

Description

一种基于近邻排序关系的跨模态检索方法

技术领域

本发明涉及人工智能领域以及信息检索领域，特别是涉及一种基于近邻排序关系的跨模态检索方法。

背景技术

随着多媒体、大数据以及人工智能的充分发展和融合，对于多媒体数据，包括图像、文本、视频等多模态数据逐渐爆炸式增长，其不仅仅内容多样化、所表达的方式也越来越多样化，图、文、音三种主要方式，包含了多种传输与传播媒介，多模态的数据能帮助人对周围世界的感知与理解，因为人们很容易做到不同形式信息对齐与互补，从而更加全面准确地学习知识。

在基于深度学习的跨模态检索领域，其目标是做到类似人脑地对不同形式的信息进行语义对齐与信息互补的功能。跨模态检索作为跨模态理解中最为基础的任务，它以一种类型的数据作为查询去检索另一种类型的数据，这是一个很具有挑战性的任务，主要是由于“异构鸿沟”以及“语义鸿沟”。以图像和文本两种模态为例，异构鸿沟是指由于图像和文本的表示形式不一致，两者数据处于不同的分布空间，无法直接度量相似性。如何依据图像与文本的内容衡量两种模态数据之间的相似性，是实现跨模态检索的关键以及难点。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于近邻排序关系的跨模态检索方法，充分利用数据样本之间的相似度排序关系，将图文两种不同的模态数据特征映射到公共的语义空间中，实现两种模态数据之间的语义相关以及语义的可度量，能有效实现图像和文本两种不同的模态间的数据检索。

本发明的技术方案如下：

一种基于近邻排序关系的跨模态检索方法，包括：

构建用于图像模态数据以及文本模态数据的深度语义特征提取的深度神经网络模型；

将图像数据与文本数据对分别输入到所述深度神经网络模型中进行训练；

结合近邻样本排序损失函数和语义相似度度量损失函数，计算语义对齐的损失值，通过训练缩小所述损失值，得到训练好的深度神经网络模型；

通过训练好的深度神经网络模型提取到图像数据和文本数据间的公共语义表达，并将图像的深度语义特征与文本的深度语义特征转化到公共语义空间中，实现语义相似度的度量和检索。

优选的，将图像数据与文本数据对分别输入到所述深度神经网络模型中进行训练，包括：

将图像数据集

输入到图像特征提取网络，其中n表示图像数量；具体为将图像数据输入到VGG-19卷积网络，再通过全连接网络后获得图像数据的深度语义特征；所述VGG-19卷积网络通过ILSVRC-ImageNet数据集进行预训练；

将文本数据集

输入到文本特征提取网络；具体为将文本数据的内容输入Glove语言模型，将生成的词向量通过全连接网络后获得文本数据的深度语义特征；所述Glove语言模型通过Google News数据集进行预训练。

优选的，图像数据的深度语义特征表示如下：

X_f＝Net_img(X)

其中，X_f表示图像数据的深度语义特征；Net_img表示图像特征提取网络；

文本数据的深度语义特征表示如下：

Y_f＝Net_txt(Y)

其中，Y_f表示文本数据的深度语义特征；Net_txt表示文本特征提取网络。

优选的，所述近邻样本排序损失函数的定义如下：

σ函数定义如下：

t_ij的定义如下：

其中，

k表示当前第k个检索样本；i和j分别表示被检索的第i和j个样本；m表示被检索数据集；

表示第i个被检索数据与第k个检索数据之间的特征相似度；

表示第j个被检索数据与第k个检索数据之间的特征相似度；

表示第i个被检索数据与第k个检索数据之间的相似排序关系；

表示第j个被检索数据与第k个检索数据之间的相似排序关系。

优选的，所述语义相似度度量损失函数的定义如下：

其中，

表示数据集中图像与文本数据的数目，数目相同；

表示图像模态特征的第p张图像的深度语义特征向量；Y_f(j*)表示文本模态第q个文本数据的深度语义特征列向量；B^x与B^y分别表示图像模态和文本模态数据期望最优的哈希码；X与Y分别表示图像与文本数据量化后的哈希码；

表示F范数；η表示量化损失的优化权重；S_pq表示第p个图像数据与第q个文本数据之间的相似关系。

优选的，结合近邻样本排序损失函数和语义相似度度量损失函数获得联合损失函数，如下：

其中，α为近邻样本排序损失函数的影响因子比例；β为语义相似度度量损失函数的影响因子比例；所述α和β为对于网络优化的贡献权重；B^x,y表示网络模型期望学习的统一哈希码；θ^x,y表示神经网络模型要被学习并优化的参数。

优选的，语义相似度排序关系根据图像数据与文本数据的深度语义特征获得，如下：

其中，X_f(i)与Y_f(i)分别表示图像数据和文本数据提取到的第i个特征输出；

表示图像模态数据第j个样本的特征输出；

表示表示文本模态数据第j个样本的特征输出。

优选的，不同模态数据之间的相似度排序关系基于图像数据与文本数据之间的标签信息获得，如下：

其中，l_i与l_j分别表示图像模态和文本模态的标签信息，针对于多标签数据，根据不同数据之间的标签相似距离计算得到两个模态数据之间的相似排序关系

优选的，两个模态数据之间的相似关系表示如下：

其中，相似关系是由相似矩阵表示，表示了两个数据之间相似或不相似的对应关系。

采用上述技术方案后，本发明一种基于近邻排序关系的跨模态检索方法具有以下有益效果：

(1)本发明一种基于近邻排序关系的跨模态检索方法，将图像和文本两种不同的模态数据特征映射到公共的语义空间中，实现两种模态数据之间的语义关联以及语义对齐，使其能够在公共语义空间上实现度量；首先利用深度神经网络进行图像和文本模态数据的深度语义特征提取，学习两种模态数据间的公共语义表达，并且设计近邻样本排序损失函数以及语义相似度度量损失函数，对输入的图像与文本进行相似性度量，根据语义的相似度度量实现跨模态数据之间的内容检索；本发明方法能有效实现图像、文本两种不同的模态间的信息检索。

(2)本发明一种基于近邻排序关系的跨模态检索方法，考虑了图像与文本两种模态数据间的公共语义空间构建，依据相邻数据样本之间的相似度排序关系以及语义对齐关系，促使模型更好地实现深层语义对齐，实现高效准确地跨模态检索。

以下结合附图及实施例对本发明作进一步详细说明，但本发明的一种基于近邻排序关系的跨模态检索方法不局限于实施例。

附图说明

图1为本发明实施例提供的基于近邻排序关系的跨模态检索方法流程图；

图2为本发明实施例提供的基于近邻排序关系的跨模态检索方法的框架示意图。

具体实施方式

为了进一步解释本发明的技术方案，下面通过具体实施例对本发明进行详细阐述。

本发明提供了一种基于近邻排序关系的跨模态检索方法，首先构建深度神经网络用以进行图像数据和文本数据的深度语义特征提取，并学习两种模态数据间的公共语义表达，设计近邻样本排序损失函数和语义相似度度量损失函数，对输入的图像数据与文本数据进行相似性度量，能有效实现图像和文本两种不同的模态间的信息检索。

参见图1所示，一种基于近邻排序关系的跨模态检索方法，具体步骤包括：

S10：构建深度神经网络模型，用于图像数据与文本数据的深度语义特征提取；

S20：将图像与文本数据对z_i＝(x_i,y_i,l_i)分别输入到深度神经网络模型中进行训练；其中z_i表示第i对图像-文本对数据以及对应的标签，x_i，y_i与l_i分别表示第i个图像数据、文本数据以及对应的标签数据；通过损失函数学习图像和文本数据间的公共语义表达，并将图像与文本特征转化到公共语义空间中。

步骤S20，具体包括：

S201：将输入的图像数据集

输入到图像特征提取网络，其中x_i表示第i张图像数据，一共有n张图像，将图像数据输入到VGG卷积网络，通过全连接网络后得到图像数据信息的高级特征语义信息X_f，长度为c。

X_f＝Net_img(X)

S202：将文本数据

输入到文本特征提取网络，通过全连接网络后得到文本数据信息的高级特征语义信息Y_f，长度为c；

Y_f＝Net_txt(Y)

S203：依据标签信息生成排序监督信息，依据高级语义特征计算深层语义排序信息，并根据相似性矩阵计算跨模态间的语义相似损失，具体包括：

S203-1：基于图像与文本数据之间的标签信息计算不同模态数据之间的相似度排序关系

其中，l_i与l_j分别是两个模态的标签信息，针对于多标签数据，可以根据不同数据之间的标签相似距离计算得到两个模态数据之间的相似排序关系

S203-2：依据相似度语义矩阵SSM可以得到两个模态数据之间的相似关系，如下：

相似关系则是由相似矩阵表示，其表示了两个数据之间相似或不相似的对应关系。

S203-3:根据深层语义信息计算语义相似度矩阵，计算语义相似度排序关系的损失。

其中，σ函数定义如下：

t_ij的定义如下：

其中，

表示第i个被检索数据与第k个检索数据之间的特征相似度；

表示第j个被检索数据与第k个检索数据之间的特征相似度；

语义相似度排序关系根据图像数据与文本数据的深度语义特征获得，如下：

表示图像模态数据第j个样本的特征输出；

表示表示文本模态数据第j个样本的特征输出。

S203-4:根据深层特征输出计算跨模态间的语义相似度；具体损失函数定义为：

其中，

表示数据集中图像与文本数据的数目，数目相同；

S204:结合排序损失以及语义相似度损失，联合优化模型缩小损失值，得到效果良好的跨模态检索模型，其损失函数具体定义如下：

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。