CN109446347A

CN109446347A - 一种有监督的快速离散多模态哈希检索方法和系统

Info

Publication number: CN109446347A
Application number: CN201811269039.8A
Authority: CN
Inventors: 张化祥; 芦旭; 李静; 朱磊; 刘丽; 王振华; 郭培莲
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-03-08

Abstract

本发明公开了一种有监督的快速离散多模态哈希检索方法和系统，所述方法包括：接收多模态训练数据集，其中每个样本包含成对的多模态数据特征；利用联合的多模态特征映射，将多模态训练数据集投影为联合多模态中间表示；对于多模态训练数据集的联合多模态中间表示，构造有监督的快速离散多模态哈希目标函数；求解所述目标函数，得到哈希函数；接收多模态检索数据集和多模态测试数据集，将其中的样本均投影为联合多模态中间表示，然后根据哈希函数，投影至海明空间得到哈希码；基于哈希码，针对多模态测试数据集中的样本在多模态检索数据集中进行检索。本发明为异构的多模态数据学习离散的哈希码，同时保证了学习效率和检索的精度。

Description

一种有监督的快速离散多模态哈希检索方法和系统

技术领域

本发明属于跨模态检索技术领域，尤其涉及一种有监督的快速离散多模态哈希检索方法和系统。

背景技术

哈希因其具有快速的相似性计算效率和较低的存储成本，能够显著得提高大规模数据检索的速度。因此，许多研究人员致力于学习哈希技术，尤其是将其应用于单一模态和跨模态检索。

在多媒体检索中，目标数据对象通常是由异构的多模态特征描述的，其中不同模态的特征拥有各自的属性并且能够从不同方面展现出独特的数据特性。例如，一张图像通常由异构的图像和文本特征表示。一个视频可以由多种特征(如图像、文本、音频和时间通道等)来全面得表示。为了支持大规模的多媒体检索，多模态哈希技术突显出其重要作用，其中在训练和检索阶段都需要提供多模态的数据特征。因此，近几年来一些多模态检索的技术受到了人们的关注。一些代表性的模型包括：多重信息源的复合哈希方法(CHMIS)，多重特征的紧密核哈希方法(MFKH)，离散的多视图哈希方法(DMVH)等。然而，现存的多模态哈希方法仍然存在一些不可忽视的问题：

1)有限的语义信息。大多数多模态哈希方法是无监督的。他们没有利用语义标签，而这些语义标签缺能够大大增强哈希吗的判别性。因此，这些方法得到的哈希码只包含有限的语义信息。

2)计算复杂性高。大多数现存的多模态哈希方法是在预训练好的图模型上进行哈希学习，这样的图模型能够描述样本关系。而构造这样一个包含了N个样本的语义图矩阵的时间复杂度是。因此这些方法会产生巨大的计算开销，从而无法进行大规模的多媒体数据检索。

3)松弛优化。从本质上讲，哈希学习是一个离散优化问题。尽管如此，现存的大多数多模态哈希方法采用的是松弛+旋转的哈希优化策略，它们首先将离散约束松弛，进而通过量化计算二值哈希码。这种松弛的哈希优化策略会带来严重的量化损失，产生次优的结果。值得注意的是，现存的离散多模态哈希方法主要采用的是离散的循环坐标下降策略。这意味着这类方法必须逐位学习哈希码，然而在处理大规模数据集时，这样的学习方式会耗费大量时间。

发明内容

为克服上述现有技术的不足，本发明提供了一种有监督的快速离散多模态哈希检索方法和系统，所述方法为异构的多模态数据学习离散的哈希码，同时保证了学习效率和检索的精度，也有效避免了现存方法的局限性。

为实现上述目的，本公开的一个或多个实施例提供了如下技术方案：

一种有监督的快速离散多模态哈希检索方法，包括以下步骤：

接收多模态训练数据集，其中每个样本包含成对的多模态数据特征；

利用联合的多模态特征映射，将多模态训练数据集投影为联合多模态中间表示；

对于多模态训练数据集的联合多模态中间表示，构造有监督的快速离散多模态哈希目标函数；求解所述目标函数，得到哈希函数；

接收多模态检索数据集和多模态测试数据集，将其中的样本均投影为联合多模态中间表示，然后根据哈希函数，投影至海明空间得到哈希码；基于哈希码，针对多模态测试数据集中的样本在多模态检索数据集中进行检索。

进一步地，所述将多模态训练数据集投影为联合多模态中间表示包括：

将多模态训练数据集中每一个模态的数据特征转换为非线性嵌入φ_m(x^(m))：

其中，{x^(m)}_m＝1,...,M为第m个模态的训练数据集，共有M个模态，是相应模态的锚点集合，所述锚点集合包括该模态训练样本中随机选择的一部分；N为该模态训练样本总数，P为所取锚点的数量，σ_m为高斯核参数；

为整个多模态训练数据集X^train得到其带有权重形式的联合多模态中间表示φ(X)：

其中，{μ_m}_m＝1,...,M为每个模态的权重。

进一步地，所述有监督的快速离散多模态哈希目标函数为：

其中，为多模态训练数据集X^train的联合多模态中间表示，为基矩阵，为多模态共享因子，B∈{-1,1}^N×c为多模态训练数据集X^train的哈希码，为旋转矩阵，为成对的相似度矩阵，{μ_m}_m＝1,...,M为每个模态的权重，β、α和θ都为平衡参数，M为模态的总数，P为所取锚点的总数，N为多模态训练数据集X^train中的样本总数，c为哈希码位数。

进一步地，所述目标函数构建包括：

多模态共享因子探测：

非对称的有监督哈希学习：

进一步地，所述目标函数求解过程为：

固定目标函数中的其他变量，依次求解多模态共享因子、基矩阵、旋转矩阵、哈希码和权重；

以求解目标函数得到的哈希码与投影得到的哈希码之间的差异最小化为目标，求解投影矩阵，进而得到哈希函数。

一个或多个实施例提供了一种用于多模态检索的目标函数的构建方法，包括：

对于多模态训练数据集的联合多模态中间表示，探测多模态共享因子，并进行非对称的有监督哈希学习，构造有监督的离散多模态哈希目标函数。

进一步地，所述构造有监督的离散多模态哈希目标函数包括：

探测多模态共享因子：

非对称的有监督哈希学习：

整合得到目标函数：

一个或多个实施例提供了一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的有监督的快速离散多模态哈希检索方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的有监督的快速离散多模态哈希检索方法。

一个或多个实施例提供的技术方案具有以下有益效果：

1、本公开提出了一个用于多媒体数据检索的有监督的快速离散多模态哈希方法，同时考虑了多模态特征的互补性、桥接异构模态之间的鸿沟和快速离散求解方式。

2、本发明提出了联合多模态特征映射，把异构的多模态特征传递给一个统一的联合表示，从而探究多模态特征的互补性，并且保存了多个模态之间的语义关联性。这样的隐含因子能够桥接异构的模态鸿沟，并且去除模态内部的噪声。此外，本公开提出了一个非对称的有监督哈希学习方法，同时考虑低层次数据分布和高层次语义来学习哈希码。这样的设计不仅能够增强学习到的哈希码的判别性，也能够避免对称语义矩阵分解带来的高计算复杂度。本发明将上述两个因素结合进一个统一的哈希框架中，能够以快速离散的方式学习哈希码，具有非常高的学习效率。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例一中有监督的快速离散多模态哈希检索方法的流程图；

图2为本公开实施例一中有监督的快速离散多模态哈希方法的目标函数的构造流程图；

图3为本公开实施例一中求解该目标函数的示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种有监督的快速离散多模态哈希检索方法，包括以下步骤：

步骤1：获取多模态训练数据集O^train，其中每个样本包含成对的多模态数据特征，比如图像和文本；

步骤2：利用联合的多模态特征映射，把多模态训练数据集O^train投影为联合多模态中间表示；

所述步骤2具体包括：

先将多模态训练数据集O^train中每一个模态的数据特征转换为非线性嵌入φ_m(x^(m))：

其中，{x^(m)}_m＝1,...,M为第m个模态的训练数据集，共有M个模态，是锚点集合(我们在相应模态的训练样本中随机选择一部分样本组成该锚点集合)，N为该模态训练样本总数，P为所取锚点的数量，σ_m为高斯核参数。进一步的，我们为整个多模态训练数据集X^train得到其带有权重形式的联合多模态中间表示φ(X)：

其中，{μ_m}_m＝1,...,M为每个模态的权重。

步骤3：对于多模态训练数据集O^train的联合多模态中间表示，构造有监督的快速离散多模态哈希方法的目标函数；

其中，所述目标函数为：

为多模态训练数据集X^train的联合多模态中间表示，为基矩阵，为多模态共享因子，B∈{-1,1}^N×c为多模态训练数据集X^train的哈希码，为旋转矩阵，为成对的相似度矩阵(如果两个训练样本属于同一类，则对应的相似度为1，否则为0)，{μ_m}_m＝1,...,M为每个模态的权重，β、α和θ都为平衡参数，M为模态的总数，P为所取锚点的总数，N为多模态训练数据集X^train中的样本总数，c为哈希码位数。

所述步骤3具体包括：

步骤3-1：多模态共享因子探测。根据步骤2中得到的多模态训练数据集X^train的联合多模态中间表示我们通过矩阵分解来探测其多模态共享因子得到的多模态共享因子能够有效得桥接哈希码、低层多模态数据集特征表示以及高层语义，并且它能够支持后续的快速离散哈希学习过程。在多模态联合中间表示中探测多模态共享因子定义为：

其中，为基矩阵。

步骤3-2：非对称的有监督哈希学习，从成对相似度矩阵矩阵中分解得到哈希码和旋转的多模态共享因子，使得语义传递给哈希码，学习到的哈希码具有更强判别性。首先，我们构造成对相似度矩阵其中的每个元素都表示相应的两个样本之间的语义相关性，如果这两个样本属于同一个予以类别，则该相似度矩阵的元素值为1，否则为0.通过分解成对相似度矩阵得到哈希码B∈{-1,1}^N×c，这样能够把语义传递给哈希码，使其具有更高的判别性：

值得注意的是，在上述问题中，由于对称的矩阵分解，我们无法快速求解离散的哈希码B∈{-1,1}^N×c。因此，为了高效快速的求解离散哈希码，本申请提出了一种非对称的哈希码学习策略，即将上式中的一个B替换为旋转的多模态共享因子RV^T(其中为旋转矩阵)：

步骤3-3：将步骤3-1和步骤3-2整合，得到目标函数：

步骤4：求解所述目标函数中的每个变量，进而，根据求得的目标函数计算得到投影矩阵W，即得到哈希函数，将联合多模态中间表示投影到海明空间，并得到相应的哈希码；

由于目标函数中含有多个未知变量，并且哈希码带有的离散约束，使得目标函数无法进行求解。因此，我们提出了一个快速离散哈希学习方式。所述步骤4目标函数的求解方法为：

步骤4-1：固定目标函数中的其他变量，求解多模态共享因子通过将目标函数对于V的导数设为0，得到V的解：

V＝(φ(X)U+αS^TBR+βBR)(U^TU+αR^TB^TBR+βR^TR)^-1

步骤4-2：固定目标函数中的其他变量，求解基矩阵通过将目标函数对于U的导数设为0，得到U的解：

U＝φ(X)V(VV^T+θI)^-1

步骤4-3：固定目标函数中的其他变量，求解旋转矩阵通过将目标函数对于R的导数设为0，得到R的解：

R＝(αB^TB+βI)^-1(αB^TSV+βV^TB)(V^TV)^-1

步骤4-4：固定目标函数中的其他变量，求解哈希码B∈{-1,1}^N×c。关于哈希码B的目标函数为：

相当于：

s.t.B∈{-1,1}^N×c

其中，Tr(·)为矩阵的迹，Tr(B^TB)＝const，且Tr(BRV^TVR^TB^T)＝Tr(BB^T)＝const。可以得到哈希码B的解：

B＝sgn(αS^TVR+βVR^T)

其中，sgn(·)为符号函数。

步骤4-5：固定目标函数中的其他变量，求解权重{μ_m}_m＝1,...,M。根据联合多模态中间表示和基矩阵的定义，对于权重{μ_m}_m＝1,...,M的目标函数为：

我们取且则上式可转换为：

其拉格朗日函数可构造为：

可得到μ_m的解：

步骤4-6：计算投影矩阵我们需要学习一个哈希函数，将提供的联合多模态中间表示投影到一个海明空间中，并为其产生二值哈希码，用于多媒体数据检索。哈希函数定义为：f(X)＝sgn(Wφ(X))，其中为线性投影矩阵。为了以线性回归模型学习最优的哈希函数，需要令通过训练学习得到的哈希码B∈{-1,1}^N×c与投影得到的哈希码Wφ(X)之间的差异最小化：

其中第一项是通过训练学习得到的哈希码B∈{-1,1}^N×c与投影得到的哈希码Wφ(X)之间的损失项，第二项是用于防止过拟合的正则化项，θ>0是用于平衡这两项的参数。则可得到最优的投影矩阵的解：

W＝B^Tφ^T(X)(φ(X)φ^T(X)+γI)^-1

步骤5：获取多模态检索数据集O^retrieval、多模态测试数据集O^test，根据步骤2，将其中每个样本都投影为联合多模态中间表示；

其中，根据步骤2联合的多模态特征映射方式，分别为多模态检索数据集O^retrieval、多模态测试数据集O^test产生其各自的联合多模态中间表示为：和其中N_retrieval和N_test分别为检索集和测试集中样本的个数。

步骤6：对于多模态检索数据集O^retrieval和多模态测试数据集O^test各自的联合多模态中间表示，根据步骤4求得的投影矩阵W，将每个样本的联合多模态中间表示投影到海明空间，并通过量化得到多模态检索数据集O^retrieval和多模态测试数据集O^test各自的哈希码；

所述步骤6中，根据步骤4-6求得的投影矩阵将多模态检索数据集O^retrieval、多模态测试数据集O^test各自的联合多模态中间表示投影至统一的海明空间，并为其得到各自的哈希码和表示成公式为：B^retrieval＝sgn(Wφ(X^retrieval))，B^test＝sgn(Wφ(X^test))。

步骤7：基于哈希码，进行多媒体数据检索，在所述的多模态检索数据集O^retrieval中检索与多模态测试数据集O^test中带检索样本相关的对象；

其中，利用步骤6中得到的多模态检索数据集的哈希码和多模态测试数据集的哈希码进行多媒体数据检索。在所述的多模态检索数据集的哈希码中检索与多模态测试数据集的哈希码中相关的对象。

所述检索方法还包括：根据多模态数据集自带的类别标记评判检索正确率。这里我们采用常用的平均准确率(MAP)值来评估该方法的检索正确率。给定一个检索样本集合，其中每个检索样本的准确率(AP)定义为：其中是检索样本集中的样本总数，P(r)表示相关样本的数量与全部被检索样本数量的比率，如果第r个检索得到的样本与查询样本相关则δ(r)＝1，否则δ(r)＝0。所有样本的AP值的平均值即MAP。

以Wiki、MIRFlickr和NUS-WIDE三个多模态数据集进行验证，检索准确率如表1所示。表1Wiki、MIRFlickr和NUS-WIDE三种多模态数据集上10种多媒体数据检索方法的检索正确率(MAP)比较(％)

可以看出，本实施例方法为多模态特征的联合多模态中间表示学习哈希函数，将其投影到海明空间，得到哈希码。这一过程同时考虑了结合多模态特征的互补性，桥接异构模态的鸿沟，和快速离散哈希学习。这些操作能够获得良好的多媒体数据检索效果，同时提高学习效率。

实施例二

本实施例的目的是提供一种计算机系统。

一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现：

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行以下步骤：

以上实施例二和三中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

以上一个或多个实施例具有以下技术效果：

本领域技术人员应该明白，上述本申请的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本申请不限制于任何特定的硬件和软件的结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本申请的具体实施方式进行了描述，但并非对本申请保护范围的限制，所属领域技术人员应该明白，在本申请的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本申请的保护范围以内。

Claims

1.一种有监督的快速离散多模态哈希检索方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种有监督的快速离散多模态哈希检索方法，其特征在于，所述将多模态训练数据集投影为联合多模态中间表示包括：

其中，{μ_m}_m＝1,...,M为每个模态的权重。

3.如权利要求1所述的一种有监督的快速离散多模态哈希检索方法，其特征在于，所述有监督的快速离散多模态哈希目标函数为：

4.如权利要求3所述的一种有监督的快速离散多模态哈希检索方法，其特征在于，所述目标函数构建包括：

多模态共享因子探测：

非对称的有监督哈希学习：

5.如权利要求3所述的一种有监督的快速离散多模态哈希检索方法，其特征在于，所述目标函数求解过程为：

6.一种用于多模态检索的目标函数的构建方法，其特征在于，包括：

7.如权利要求6所述的一种有监督的快速离散多模态哈希检索方法，其特征在于，所述构造有监督的离散多模态哈希目标函数包括：

探测多模态共享因子：

非对称的有监督哈希学习：

整合得到目标函数：

8.一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的有监督的快速离散多模态哈希检索方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的有监督的快速离散多模态哈希检索方法。