CN114817596A

CN114817596A - 融合语义相似性嵌入和度量学习的跨模态图文检索方法

Info

Publication number: CN114817596A
Application number: CN202210390000.1A
Authority: CN
Inventors: 曾焕强; 阮海涛; 朱建清; 曹九稳; 侯军辉; 王勇涛; 施一帆
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-07-29

Abstract

本发明提出一种融合语义相似性嵌入和度量学习的跨模态图文检索方法，具体包括：首先构建特征嵌入模块抽取每个模态的深度特征，然后在图像和文本的单模态表征空间和跨模态公共表征空间通过标签域监督信息和语义一致性监督信息分别进行表征学习。同时，设计一个深度相似性度量网络对融合后的图像文本对进行相似性比较，得到相似性得分，通过语义相似性矩阵监督相似性学习。通过损失函数将模型统一到一个整体的框架内，训练可得到端到端的跨模态图文检索模型。通过实验表明，本发明能够有效解决跨模态图文检索中精确度不高的问题。

Description

融合语义相似性嵌入和度量学习的跨模态图文检索方法

技术领域

本发明涉及计算机视觉和模式识别领域，特别是指融合语义相似性嵌入和度量学习的跨模态图文检索方法。

背景技术

随着多模态数据的爆炸式增长，如何有效挖掘海量数据背后丰富的有价值信息成为研究热点。跨模态检索旨在于在不同模态的数据间(图像、文本、语音、视频等)进行检索，如图像检索文本、文本检索音频、音频检索视频等等，具有非常重要的研究价值。其应用场景也非常广泛，例如视频网站的精彩片段检索、个性化语义短视频检索、智能搜索系统等。

然而不同模态的数据间往往呈现底层特征异构而高层语义相关的强异构特性。例如老虎这一语义，在图像特征的表示上有SIFT、LBP等，但是文本特征的表示是字典向量等，可以看出从特征的描述上同一语义在不同模态数据的表达类型完全不同。因此，跨模态检索的研究十分具有挑战性。

在跨模态图文检索中大多数方法采用固定的预先定义好的的距离度量(如欧氏距离或余弦距离)去优化特征嵌入学习或者针对固定特征维度学习传统的线性度量(如马氏距离)，这种方法虽然简单易实施，但是此类方法将相似性计算限制在固定维度且无法对不等长维度的特征对的相似性进行有效度量，具有局限性。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种融合语义相似性嵌入和度量学习的跨模态图文检索方法，首先构建特征嵌入模块抽取每个模态的深度特征，然后在图像和文本的单模态表征空间和跨模态公共表征空间通过标签域监督信息和语义一致性监督信息分别进行表征学习，同时，设计一个深度相似性度量网络对融合后的图像文本对进行相似性比较，得到相似性得分，通过语义相似性矩阵监督相似性学习。通过损失函数将模型统一到一个整体的框架内，训练可得到端到端的跨模态图文检索模型，本发明能够有效解决跨模态图文检索中精确度不高的问题。

本发明采用如下技术方案：

融合语义相似性嵌入和度量学习的跨模态图文检索方法，步骤如下：

输入图像文本对

其中x_i是输入图像数据，x_j是输入的文本数据，其中n表示图像文本对数；

根据图像特征提取网络

提取图像的深度特征表征向量

根据文本特征提取网络g_φ提取文本的特征表征向量g_φ(x_j)，其中

图像特征提取网络中的参数代表，φ表示文本特征提取网络中的参数代表；

在图像特征提取网络和文本特征提取网络末端分别引入线性分类层，将图像深度特征表征向量

和文本的特征表征向量g_φ(x_j)映射到标签空间得到预测图像特征向量

预测文本特征向量txt_p＝P(g_φ(x_j))；

将图像深度特征表征向量

和文本的特征表征向量g_φ(x_j)进行拼接得到拼接向量

其中C(·,·)表示在深度上对特征进行拼接；

将拼接向量

输入相似性度量网络R_Ψ中得到相似性分数矩阵

其中n_image、n_text分别表示图像和文本样本集总数；

最后将图像深度特征表征向量

文本的特征表征向量g_φ(x_j)、预测特征向量

预测文本特征向量txt_p＝P(g_φ(x_j))和相似性分数矩阵S_i,j在单模态表征空间、跨模态公共表征空间和相似性度量学习空间中进行训练学习，得到最后的检索网络模型。

具体地，所述的图像数据x_i是图像的原始像素特征，文本数据x_j是通过Word2Vec自然语言模型抽取的特征矢量。

具体地，所述的图像特征提取网络

包括：Vgg19网络和若干层全连接神经网络组成，其中Vgg19网络初始参数在Imagenet上进行预训练和微调得到，全连接神经网络的隐藏层单元数目分别为4096、1024、1024、256和c；其中隐藏层采用RELU激活函数，c为数据集的总类别数；

所述的文本特征提取网络包括：TextCNN网络和若干层全连接层组成，其中全连接层隐含层单元数分别为300、1024、1024、256和c，其中隐含层采用RELU激活函数，c为数据集的总类别数。

具体地，所述的相似性度度量网络由三层全连接神经网络构成，其中每一层隐藏神经元个数分别为512、1024、1，所有层都采用RELU激活函数，最后一层输出层采用Sigmoid函数得到相似性分数矩阵S_i,j。

具体地，其所述的单模态表征空间的标签域监督损失L₁，定义为：

其中L＝[y₁,y₂,...,y_n]，L表示标签向量，||||_F表示Frobenius范数。

具体地，其所述的跨模态公共表征空间的损失L₂，定义为：

其中||||_F表示Frobenius范数。

具体地，其所述的度量学习空间的损失L₃为：

这里令相似性得分回归逼近真实的样本对之间的语义一致性，1表示图像文本样本对之间的相似性矩阵，其元素{0,1}如果两个输入样本对属于同一类则为1，不是同一类则为0；

最终得目标函数为：L＝L₁+λL₂+L₃，其中λ＝0.1。

具体地，所述训练采用ADAM优化器，设置学习率为10^-4，迭代训练500次，得到最终的检索网络模型。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

(1)本发明提出一种融合语义相似性嵌入和度量学习的跨模态图文检索方法，首先构建特征嵌入模块抽取每个模态的深度特征，然后在图像和文本的单模态表征空间和跨模态公共表征空间通过标签域监督信息和语义一致性监督信息分别进行表征学习，同时，设计一个深度相似性度量网络对融合后的图像文本对进行相似性比较，得到相似性得分，通过语义相似性矩阵监督相似性学习。通过损失函数将模型统一到一个整体的框架内，训练可得到端到端的跨模态图文检索模型，本发明能够有效解决跨模态图文检索中精确度不高的问题。

(2)本发明提供了一种融合语义相似性嵌入和度量学习的跨模态图文检索方法，该方法着重于充分嵌入学习和非线性度量函数学习有效性，充分利用语义信息的相似性和深度卷积神经网络的非线性逼近特性更高的保留了跨模态数据之间的相似性，进一步提高了跨模态检索的精度。

附图说明

图1为本发明融合语义相似性嵌入和度量学习的跨模态图文检索方法的框架示意图；

以下结合附图和具体实施例对本发明作进一步详述。

具体实施方式

本发明提出一种融合语义相似性嵌入和度量学习的跨模态图文检索方法，首先构建特征嵌入模块抽取每个模态的深度特征，然后在图像和文本的单模态表征空间和跨模态公共表征空间通过标签域监督信息和语义一致性监督信息分别进行表征学习，同时，设计一个深度相似性度量网络对融合后的图像文本对进行相似性比较，得到相似性得分，通过语义相似性矩阵监督相似性学习。通过损失函数将模型统一到一个整体的框架内，训练可得到端到端的跨模态图文检索模型，本发明能够有效解决跨模态图文检索中精确度不高的问题。

参见图1所示，本发明一种融合语义相似性嵌入和度量学习的跨模态图文检索方法，其特征在于，步骤如下：

1)设计图像特征提取网络和文本特征提取网络接收图像文本对

其中x_i是输入图像数据，x_j是输入的文本数据，其中n表示图像文本对数，每个图像文本对都有一个与之对应的标签向量

c是数据集中的类别数，且定义若第i个实例属于第j类，则y_ji＝1，否则y_ji＝0；

(2)分别用图像特征提取网络

和文本特征提取网络g_φ提取图像的深度特征表征向量

和文本的特征表征向量g_φ(x_j)，其中

φ表示需要学习图像和文本子网络的网络参数；

(3)在图像网络和文本网络末端分别引入线性分类层将图像和文本表征向量

g_φ(x_j)映射到标签空间得到预测特征向量

txt_p＝P(g_φ(x_j))；

(4)将

和g_φ(x_j)进行融合

其中C(·,·)表示在深度上对特征进行拼接；

(5)将拼接之后的特征

送入相似性度量网络R_Ψ中得到相似性分数矩阵

i∈{1,n_image},j∈{1,n_text}，其中n_image、n_text分别表示图像和文本样本集总数；

(6)最后将

g_φ(x_j)、

txt_p＝P(g_φ(x_j))和S_i,j在单模态表征空间，跨模态公共表征空间和相似性度量学习空间中进行训练学习，得到最后的网络模型算法。

进一步的，步骤1)中，所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法，其特征在于，所述的x_i是图像的原始像素特征，x_j是通过Word2Vec自然语言模型抽取的特征矢量，且Word2Vec模型在Google News上进行预训练。

进一步的，步骤2)中，所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法，其特征在于，所述的图像特征提取网络Vgg19网络和若干层全连接神经网络组成，其中Vgg19网络初始参数在Imagenet上进行预训练和微调得到，全连接神经网络的隐藏层单元数目分别为4096、1024、1024、256和c。其中所有层都采用RELU激活函数，c为数据集的总类别数；所述的文本特征提取网络为TextCNN网络和若干层全连接层组成，其中全连接层隐含层单元数分别为300、1024、1024、256和c，其中所有层都采用RELU激活函数，c为数据集的总类别数。

进一步的，步骤3)中，所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法，其特征在于，所述的相似性度度量网络由三层全连接神经网络构成，其中每一层隐藏神经元个数为512、1024、1，所有层都采用RELU激活函数，最后一层输出层采用Sigmoid得到相似性得分S_i,j。

进一步的，步骤4)中，所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法，其特征在于，其所述的单模态标签域监督损失L₁，其定义为：

进一步的，步骤5)中，所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法，其特征在于，其所述的跨模态公共表征空间损失L₂，其定义为：

其中||||_F表示Frobenius范数。

进一步的，步骤6)中，所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法，其特征在于，其所述的相似性度量学习空间损失L₃为：

这里令相似性得分回归逼近真实的样本对之间的语义一致性，1表示图像文本样本对之间的相似性矩阵，其元素{0,1}如果两个输入样本对属于同一类则为1，不是同一类则为0。

进一步的，步骤7)中，所述的最终得目标函数为：L＝L₁+λL₂+L₃，其中λ＝0.1。

进一步的，步骤8)中，所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法，其特征在于，所述的训练过程采用ADAM优化器，设置学习率为10^-4，并迭代训练500次，得到最终的检索模型。

本发明提供了一种融合语义相似性嵌入和度量学习的跨模态图文检索方法，该方法着重于充分嵌入学习和非线性度量函数学习有效性，充分利用语义信息的相似性和深度卷积神经网络的非线性逼近特性更高的保留了跨模态数据之间的相似性，进一步提高了跨模态检索的精度。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。