CN111639197B

CN111639197B - 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统

Info

Publication number: CN111639197B
Application number: CN202010466838.5A
Authority: CN
Inventors: 许信顺; 王永欣; 罗昕
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2021-03-12
Anticipated expiration: 2040-05-28
Also published as: CN111639197A

Abstract

本发明公开了标签嵌入在线哈希的跨模态多媒体数据检索方法及系统，根据多媒体训练数据，获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵；基于多媒体训练标签矩阵，构建标签语义相似块矩阵；将标签语义相似块矩阵，嵌入到海明空间中求取多媒体训练数据的哈希编码；根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵，求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵；根据投影矩阵和待检索样本不同模态的特征矩阵，得到待检索样本的哈希编码；计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离，从多媒体训练数据中获取与待检索样本相似的样本。

Description

标签嵌入在线哈希的跨模态多媒体数据检索方法及系统

技术领域

本公开涉及多媒体数据处理技术领域，特别是涉及标签嵌入在线哈希的跨模态多媒体数据检索方法及系统。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

最近邻检索(NN)就是根据数据的相似性，从数据库中寻找与目标数据最相似的项目。这种相似性通常被量化到数据之间的欧式距离或曼哈顿距离。然而，随着互联网多媒体数据在尺度和维度上的爆炸式增长，NN变得不可计算。近似最近邻搜索(ANN)作为一种效率和精度折中的方案，逐渐代替NN被用于大规模多媒体检索任务中。其中，哈希学习作为一种典型的ANN算法被广泛关注。它旨在将高维的数据映射到能够保持原始相似性的低维海明空间中，然后通过计算海明距离进行高效的搜索。根据是否利用监督信息，现有的哈希方法大致可以分为无监督哈希、半监督哈希、监督哈希。其中，监督哈希利用高层次语义信息，解决了多媒体数据的语义鸿沟问题，因此总是能取得比无监督方法好的性能。

互联中的多媒体数据通常包含多个异构的模态(图像、文本等)，用户对不同模态数据间的检索需求与日俱增，例如用图像检索文本、用文本检索图像。跨模态检索旨在将不同模态的数据映射到一个公共空间，然后进行相似搜索。结合哈希学习，有许多跨模态哈希方法被提出。

在实际应用中，数据通常是以数据流的形式收集到的。当新数据到来后，传统的基于批处理的哈希方法(所有训练数据必须一次性到位)只能用所有数据重新训练模型，这显然是非常低效的。而且，随着时间的流逝，数据库的规模越来越大，批处理哈希的计算复杂度也变得不可接受。所以，研究在线哈希方法在跨模态检索领域有非常大的意义。然而，现有的哈希方法大多是基于批处理的，很少有在线哈希方法被提出，导致跨模态的多媒体数据检索效率低下且准确率也比较低。

发明内容

为了解决现有技术的不足，本公开提供了标签嵌入在线哈希的跨模态多媒体数据检索方法及系统；该方法提高了模型的泛化能力，而且对数据流的搜索在效率和准确率上有很大的提高。

第一方面，本公开提供了标签嵌入在线哈希的跨模态多媒体数据检索方法；

标签嵌入在线哈希的跨模态多媒体数据检索方法，包括：

获取多媒体训练数据；根据多媒体训练数据，获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵；

基于多媒体训练标签矩阵，构建标签语义相似块矩阵；将标签语义相似块矩阵，嵌入到海明空间中，求取多媒体训练数据的哈希编码；

根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵，求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵；

根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵，和待检索样本不同模态的特征矩阵，得到待检索样本的哈希编码；

计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离，根据计算出的距离，从多媒体训练数据中获取与待检索样本相似的样本。

第二方面，本公开提供了标签嵌入在线哈希的跨模态多媒体数据检索系统；

标签嵌入在线哈希的跨模态多媒体数据检索系统，包括：

获取模块，其被配置为：获取多媒体训练数据；根据多媒体训练数据，获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵；

构建模块，其被配置为：基于多媒体训练标签矩阵，构建标签语义相似块矩阵；将标签语义相似块矩阵，嵌入到海明空间中，求取多媒体训练数据的哈希编码；

映射模块，其被配置为：根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵，求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵；

计算模块，其被配置为：根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵，和待检索样本不同模态的特征矩阵，得到待检索样本的哈希编码；

输出模块，其被配置为：计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离，根据计算出的距离，从多媒体训练数据中获取与待检索样本相似的样本。

第三方面，本公开还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本公开还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本公开的有益效果是：

(1)本公开可以高效地对数据流进行在线哈希学习，大大提高了学习效率，并且降低了计算复杂度；

(2)在更新哈希码和哈希函数时，可以充分利用已有数据和新来数据，可以大大提升哈希编码和哈希函数的判别性和鲁棒性；

(3)在将数据转化为二进制编码时，通过标签嵌入充分考虑丰富的语义相似性，解决了异构模态数据间的鸿沟，可以实现有效的跨模态检索；

(4)使用该方法对数据进行二进制转化后，可以大大提高数据的检索速度，并且降低数据的存储空间。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为第一个实施例的方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了标签嵌入在线哈希的跨模态多媒体数据检索方法；

如图1所示，标签嵌入在线哈希的跨模态多媒体数据检索方法，包括：

S101：获取多媒体训练数据；根据多媒体训练数据，获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵；

S102：基于多媒体训练标签矩阵，构建标签语义相似块矩阵；将标签语义相似块矩阵，嵌入到海明空间中，求取多媒体训练数据的哈希编码；

S103：根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵，求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵；

S104：根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵，和待检索样本不同模态的特征矩阵，得到待检索样本的哈希编码；

S105：计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离，根据计算出的距离，从多媒体训练数据中获取与待检索样本相似的样本。

应理解的，所述S101中，获取多媒体训练数据，包括：通过摄像头采集图像、通过键盘采集文本等。

应理解的，所述S101中，获取待检索样本，例如包括：图像、文本等。

作为一个或多个实施例，所述S101中，根据多媒体训练数据，获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵；具体步骤包括：

对多媒体训练数据进行语义标注，得到多媒体训练标签矩阵；

对多媒体训练数据进行不同模态的特征提取，得到多媒体训练数据不同模态的特征矩阵；对待检索样本进行不同模态的特征提取，得到待检索样本不同模态的特征矩阵。

示例性的，所述语义标注，是指：人工对每个多媒体数据样本的语义类别进行标注。

示例性的，所述多媒体训练标签矩阵，例如：假设多媒体数据总共有2个类别(图像、文本)，每个样本的标签被表示为3维的列向量，如果样本属于某个类，标签向量在对应位置上的值为1，否则为0。两个样本构成3×2的标签矩阵

示例性的，所述不同模态的特征提取，例如：对图像提取图像的颜色特征、纹理特征、灰度特征、像素特征或纹理特征等，对文本进行词向量化处理，提取文本的词频逆向文件频率(TF-IDF)等。

示例性的，所述多媒体训练数据不同模态的特征矩阵，例如：

图像模态的每个样本由4维的列向量表示，构成尺寸为4×2的图像模态特征矩阵

文本模态的每个样本由8维的列向量表示，构成尺寸为8×2的文本模态特征矩阵

作为一个或多个实施例，所述对多媒体训练数据进行语义标注，得到多媒体训练标签矩阵；具体步骤包括：

在第t轮，一个新的多媒体训练数据块到达，该数据块包含n_t个样本；

例如：所述多媒体训练数据块，是指：图像与文本一一对应的多媒体训练数据；

例如：所述样本，是指：图像与文本一一对应的样本；

数据库中已有多媒体训练数据样本N_t-1个，其中，

是前t-1轮到达样本的总个数；

例如：所述已有多媒体训练数据样本，是指：已有图像与文本一一对应的多媒体训练数据样本；

假设已有的多媒体训练数据的标签矩阵是

每个样本的标签信息表示为c×1的向量，如果样本包含某个标签，标签向量中对应位置为1，否则为0；

例如：已有的多媒体训练数据的标签矩阵，是指：已有的图像-文本多媒体训练数据的标签矩阵；

例如：每个样本的标签信息，是指：图像-文本样本包含某个标签；

对新来的多媒体训练数据进行语义标注，得到一个标签矩阵(例如：新来的图像-文本多媒体训练数据进行语义标注，得到一个图像-文本的标签矩阵)：

将新来的多媒体训练数据入库，现在完整数据库的标签矩阵是(例如：新来的图像-文本多媒体训练数据入库，现在完整的图像-文本数据库的标签矩阵是)：

其中，N_t＝N_t-1+n_t。

作为一个或多个实施例，所述对多媒体训练数据进行不同模态的特征提取，得到多媒体训练数据不同模态的特征矩阵；对待检索样本进行不同模态的特征提取，得到待检索样本不同模态的特征矩阵；具体步骤包括：

已有的多媒体训练数据包含l个模态(例：已有的图像-文本多媒体训练数据包含2个模态)，对应图像模态特征矩阵

文本模态特征矩阵

其中，d₁表示图像提取特征的维数，d₂表示文本提取特征的维数；

对新来的多媒体训练数据提取特征(例如：新来的图像-文本多媒体训练数据提取特征)，得到新来图像的特征矩阵

新来文本的特征矩阵

将新来的多媒体训练数据入库，现在完整数据库的特征矩阵(例如：现在完整的图像-文本数据库的特征矩阵)是图像模态特征矩阵

文本模态特征矩阵

对待检索图像样本也提取特征，得到尺寸为d₁×1的图像特征向量x₁；对待检索文本样本提取特征，得到尺寸为d₂×1的文本特征向量x₂。

作为一个或多个实施例，所述S102中，基于多媒体训练标签矩阵，构建标签语义相似块矩阵；将标签语义相似块矩阵，嵌入到海明空间中，求取多媒体训练数据的哈希编码；具体步骤包括：

S1021：通过一个标签嵌入模型将监督信息嵌入到哈希编码中，保持已有数据的哈希编码不变，只更新新来数据的哈希编码；

S1022：通过离散优化算法，求得多媒体训练样本的哈希编码。

作为一个或多个实施例，所述S1021具体步骤包括：

S10211：首先构建一个多媒体训练数据标签语义相似性块矩阵：

其中，每个矩阵块分别是已有图像-文本多媒体训练数据的成对相似性矩阵、已有图像-文本多媒体训练数据与新来图像-文本多媒体训练数据的相似性矩阵、新来图像-文本多媒体训练数据与已有图像-文本多媒体训练数据的相似性矩阵、新来图像-文本多媒体训练数据的成对相似性矩阵。

它们的定义如下：

其中，

和

分别是按列L2范数归一化的已有多媒体训练数据标签矩阵

和新来多媒体训练数据标签矩阵

1是元素全为一的列向量。

S10212：通过非对称相似性嵌入与标签重构分别将图像-文本多媒体训练数据的语义相似性信息和标签信息嵌入到哈希编码中，并且保持已有图像-文本多媒体训练数据的哈希编码不变，只更新新来图像-文本多媒体训练数据的哈希编码。最终的标签嵌入在线哈希模型表示如下：

其中，α和β是平衡系数，γ是正则化项的惩罚系数。

是已经生成的已有多媒体训练数据的二进制哈希编码，

是要学习的新来多媒体训练数据的二进制哈希编码。r是哈希编码的位数。

和

分别是

和

的松弛变量。

是一个用来减小信息损失的旋转矩阵。

是将多媒体训练数据的哈希编码投影到多媒体训练数据标签矩阵的投影矩阵。I是单位矩阵，0是元素全为零的向量。

作为一个或多个实施例，所述S1022具体步骤包括：

S10221：用标准正态分布随机初始化

P^(t)。

S10222：更新变量P^(t)。将公式(3)对P^(t)的导数设为零，求得最优解为：

其中，

S10223：更新变量

当变量

P^(t)、R^(t)保持不变，结合约束条件

I和

公式(3)可简化为矩阵迹的形式：

结合公式(2)中定义的

和

Z可以表达为：

其中，

定义

并且对

进行奇异值分解：

求得最优的

为：

其中，

是正交化的

是正交化的随机矩阵。r′是

的秩，如果r′＝r，

和

为空。

S10224：更新变量R^(t)。当其它变量保持不变，进行如下矩阵分解：

其中，

求得最优的R^(t)为：

S10225：更新变量

固定除

外的所有变量，公式(3)转化为如下问题：

求得最优的

为：

其中，

S10226：重复步骤S10222～步骤S10225，直到收敛；

上述所有的变量

都是在第t-1轮得到的。

作为一个或多个实施例，所述S103中，根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵，求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵；具体步骤包括：

用线性回归模型将多媒体训练数据的特征投影到哈希编码，模型表达为：

其中，

为要学习的哈希函数的投影矩阵，它的解为：

其中，

上述所有的变量

和

都是在第t-1轮得到的。

在第t轮，第m模态多媒体数据的哈希函数为：

作为一个或多个实施例，所述S104中，根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵，和待检索样本不同模态的特征矩阵，得到待检索样本的哈希编码；具体步骤包括：

根据公式(20)的哈希函数求得待检索样本的哈希编码。

作为一个或多个实施例，所述S105中，计算待检索样本的哈希编码，与多媒体训练数据的哈希编码之间的距离，根据计算出的距离，从多媒体训练数据中获取与待检索样本相似的样本；具体步骤包括：

计算待检索图像样本或待检索文本样本的哈希编码与图像-文本多媒体训练集的哈希编码之间的海明距离，并对海明距离按照从小到大进行排序；

最后，按顺序输出图像-文本多媒体训练集中与待检索图像样本一致的文本模态样本或与待检索文本样本一致的图像模态样本，得到检索结果。

计算待检索图像样本或待检索文本样本的哈希编码，与图像-文本多媒体训练数据的哈希编码之间的海明距离，根据计算出的海明距离，从图像-文本多媒体训练数据中获取与待检索图像样本相似的文本样本或与待检索文本样本相似的图像样本。海明距离越小，表示从图像-文本多媒体训练数据中获取的样本与待检索图像样本或待检索文本样本越相似。

实施例二

本实施例提供了标签嵌入在线哈希的跨模态多媒体数据检索系统；

标签嵌入在线哈希的跨模态多媒体数据检索系统，包括：

此处需要说明的是，上述获取模块、构建模块、映射模块、计算模块和输出模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。