CN113641790A

CN113641790A - 一种基于区分表示深度哈希的跨模态检索模型

Info

Publication number: CN113641790A
Application number: CN202110922625.3A
Authority: CN
Inventors: 段友祥; 陈宁; 孙歧峰
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-11-12

Abstract

本发明提出了一种基于区分表示深度哈希的跨模态检索模型，损失函数监督模型训练过程在保留相似性的同时生成更加具有区分性的表示。其中，成对损失，用于保留原始跨模态数据的语义相似性；量化损失：用于减少量化损失，使得生成的哈希码也可以保留跨模态相似性；三元组监督损失：用于在训练过程中，监督模型保留原模态数据相似性的同时生成更加具有区分性的表示。所提出的损失函数，使得生成的哈希码更加有效以及更加的具有区分性，这进一步提高了跨模态哈希模型的性能，使得检索任务的准确度得到了进一步的提升。

Description

一种基于区分表示深度哈希的跨模态检索模型

技术领域

本发明涉及跨模态哈希检索领域，特别是图像与文本的跨模态检索。

背景技术

近年来随着互联网的蓬勃发展以及智能设备和社交网络的普及，多媒体数据在互联网上呈现出爆炸式增长的趋势。这些海量的数据包括多种形式，如图像、文本、视频、音频等。此外这些多模态数据往往描述同一件事物，即在形式上异构多源、在语义上相互关联。

为从海量数据中获取信息，传统的单模态检索已经难以满足如今的应用场景。与此同时，跨模态方法成为人们越来越关注的话题。另一方面，考虑到多模态数据的高维性以及海量性，大多数跨模态检索方法都存在高计算成本以及低检索效率的问题。因此如何实现实时检索，仍是我们所期望的。哈希方法由于在大规模数据上存在低存储需求以及高检索速度的特点，被结合用于跨模态检索方法，称之为跨模态哈希方法。

在跨模态哈希中，如何有效地利用语义的一致性和相关性以及生成更具区分性的哈希码，同时保持原始的语义相似性，仍然是一个具有挑战性的问题。在这项工作中，本发明所提出的损失函数可以有效地利用语义信息，同时产生更具有的区别性表示。

发明内容

针对上述问题以及现有技术中存在的缺点以及不足，本发明提供一种基于区分表示深度哈希的跨模态检索模型，结合成对损失、量化损失与三元组监督损失，监督模型训练过程在保留相似性的同时生成更加具有区分性的表示，进一步提高了跨模态哈希模型的性能，使得检索任务的准确度得到了进一步的提升。

具体地，本申请提出了一种基于区分表示深度哈希的跨模态检索模型，包括，关键在于所提出的损失函数监督模型学习过程，使得表现出更好的性能，具体包括：

成对损失

通过优化该损失，可以将F_i*与G_j*的相似性保留在语义矩阵S当中。；

量化损失

通过优化该项，减少量化损失，使得生成的哈希码B^(x)和B^(y)同样被期望保留S中的跨模态相似性；

三元组监督损失：

用于监督模型保留原模态数据相似性的同时生成更加具有区分性的表示。

模型包括特征学习部分与哈希码学习部分，所提损失函数

作用于模型的整个学习过程，在保留相似性的同时生成更加具有区分性表示的哈希码。

本发明基于深度学习与哈希学习技术。

本申请所提出的模型带来的有益效果是：

基于区分表示深度哈希的跨模态检索模型，相较于大多数现有的工作，可以生成更加有效和具有区分性的哈希码。

充分挖掘了原始数据中的语义相关性与语义一致性，进一步提升了模型的检索精度。

不仅可以获得优异的检索精度，在计算效率与检索性能之间也获得了良好的平衡。

附图说明

图1为本发明整体原理的框架图；

图2为本发明所提出模型的三元组监督损失带来的效果图。

具体实施方式

下面结合附图对本发明的实施例进行详细说明。

实施例1

如图1所示，一种基于区分表示深度哈希的跨模态检索模型，该模型包括两个哈希码映射网络，分别为图像与文本网络。每个网络包括特征学习部分与哈希码学习部分，最终将原始图像文本对映射为汉明空间中的哈希码。成对损失、量化损失与三元组监督损失作用于模型的整个学习过程。

对于每个训练数据点，经过特征学习与哈希码学习，输出维指定k长度的哈希码，计算损失函数θ对于数据点的梯度，采用反向传播算法使用梯度更新网络的参数。

实施例2

对于原始数据点anchor，其相似实例为positive，不相似实例为negative。anchor与positive之间的距离远，而与negative之间距离却近。相似实例之间距离远，不相似实例却接近。这样生成的哈希码往往不具有区分性，难以辨别数据点之间的相似性。

而经过三元组监督损失进行监督训练之后的数据点变化为：anchor与 positive之间距离拉近，与negative之间的距离变远。即相似实例之间更加接近，不相似实例之间更加远离。这与跨模态哈希的保留相似性原则是相符的，即生成的哈希码保留了原始模态数据之间的语义关系。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于区分表示深度哈希的跨模态检索模型，其特征在于，损失函数监督模型训练过程在保留相似性的同时生成更加具有区分性的表示，其中损失函数包括：

1)成对损失(pairwise loss)，用于保留原始跨模态数据的语义相似性；

2)量化损失(quantization loss)：用于减少量化损失，使得生成的哈希码也可以保留跨模态相似性，这与保留相似性的原则是相符的；

3)三元组监督损失(triple-supervised losss)：用于在训练过程中，监督模型保留原模态数据相似性的同时生成更加具有区分性的表示。

2.如权利要求1所述的一种基于区分表示深度哈希的跨模态检索模型，其特征在于：所提出损失函数可以适用于各种基于深度哈希的跨模态检索模型，监督模型的训练过程中，在保留原始数据语义的相似性同时可以生成更具有区分性的哈希码，这使得模型的性能可以进一步的提高。

3.如权利要求1所述的一种基于区分表示深度哈希的跨模态检索模型，其中损失函数的相关符号定义为：以X与Y分别表示图像模态与文本模态，给出跨模态检索的定义。训练数据定义为D＝{X,Y}，其中

表示图像模态数据，这里的n表示训练样本实例的数据量，d_x表示图像数据的维度，

表示来自图像模态的第i个样本实例的特征向量。同样地，定义

其中d_y表示文本数据的维度，

来自文本模态的第j个样本实例的特征向量。L∈{0，1}^n×m表示标签矩阵，其由0和1元素组成，0表示该标签不含有，1表示含有该标签，其中m表示标签的类别数。

表示跨模态相似矩阵，相应地，如果

与

共享至少一个标签，则认为它们相似，此时，S_ij＝1，否则，S_ij＝0。

由于不同模态的数据的特征向量

与

位于不同的特征表示空间，并且通常具有不同的统计属性，因此它们不能直接进行比较。因此跨模态哈希针对每种模态学习一个转换函数：对于X模态，

对于Y模态，

其中，d为哈希码的程度，γ_X与γ_Y为两个模态数据的训练的参数。转换函数将来自不同特征空间的数据

与

映射成为汉明空间中的哈希码B^(x)与B^(y)。使得来自不同模态的数据可以直接进行比较，并且在汉明空间中，相同类别的样本相似度大于不同类别的样本的相似度。

4.如权利要求1所述的一种基于区分表示深度哈希的跨模态检索模型，其中成对损失(pairwise loss)定义为：

其中

与

分别是图像和文本模型的输出(注意还没有映射为哈希码)，θ_p为负对数似然函数。优化该项等价于最大化似然函数，其使得当S_ij＝1时，

与

的相似性(内积)最大，S_ij＝0时，相似性最小。因此，通过优化成对损失，可以将

与

的相似性保留在语义矩阵S当中。

5.如权利要求1所述的一种基于区分表示深度哈希的跨模态检索模型，其中量化损失(quantization loss)定义为：

图像模态：

其中B^(x)＝sign(F)。

文本模态：

其中B^(y)＝sign(G)。

我们认为F和G分别是B^(x)和B^(y)的连续替代，因此由于F和G可以保留跨模态相似性于S中，则B^(x)和B^(y)同样被期望保留S中的跨模态相似性，这与跨模态哈希方法的保留相似性原则是相符的。需要注意的是，在训练过程中我们设置两个模态训练实例的哈希码是相同，B^(x)＝B^(y)＝B，但是在训练结束后，针对不同模态的查询实例仍然生成不同的哈希码。

6.如权利要求1所述的一种基于区分表示深度哈希的跨模态检索模型，其中三元组监督损失(triple-supervised losss)定义为：

图像模态：