CN114186084A

CN114186084A - 在线多模态哈希检索方法、系统、存储介质及设备

Info

Publication number: CN114186084A
Application number: CN202111524104.9A
Authority: CN
Inventors: 罗昕; 付婷; 伍晓鸣; 许信顺
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-03-15
Anticipated expiration: 2041-12-14
Also published as: CN114186084B

Abstract

本发明涉及在线多模态哈希检索方法、系统、存储介质及设备，包括以下步骤：获取流式多媒体数据集，将流式多媒体数据集中的训练数据分为t批数据块；当第t批数据到达时，保持前t‑1批数据训练得到的哈希码不变，学习第t批数据的哈希码，并对第t轮的哈希函数进行更新；保存学习到的哈希码与前t‑1批训练数据的哈希码，保存更新后的哈希函数，利用学习到的哈希函数为查询样本生成哈希码表示，获得检索结果。能够处理随流式多媒体数据到达产生的类增量问题，提升检索效率。

Description

在线多模态哈希检索方法、系统、存储介质及设备

技术领域

本发明涉及信息检索技术领域，具体为在线多模态哈希检索方法、系统、存储介质及设备。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

互联网中存在大量的多媒体信息，例如，图像、文本以及视频等，用户对不同类型数据的检索需求与日俱增。基于哈希的检索方法作为一种近似最近邻的检索方法，由于其对大规模数据具有检索效率高、存储成本低等优点，已被广泛应用于多媒体信息的检索任务。

多媒体信息中的不同类型(图像和文本等)被认为是多个异构的模态，根据检索的数据类型，现有的哈希检索方法可大致划分为三类：单模态哈希检索、跨模态哈希检索和多模态哈希检索。单模态哈希检索采用来自同一种模态的查询样本来搜索同一模态中的类似样本数据，例如，使用文本作为查询样本来检索类似的文本；跨模态哈希支持跨模态检索任务，例如，使用文本作为查询样本来检索类似的图像；而多模态哈希检索中，查询和要检索的信息可能包含不止一个模态。

多模态哈希检索是对带有多个模态表示的查询样本进行检索，通过将每个样本点中不同模态的数据从原始特征空间由对应模态的哈希函数映射到一个公共哈希码空间，由此生成哈希码表示，再将查询样本的哈希码与训练数据集的样本的哈希码分别求海明距离来度量两个样本间的相似度，海明距离越小则代表两样本点间的相似度越高，由此来完成检索的过程。

当多媒体数据点以流的形式不断到达时，必须存储(积累)所有的旧数据，并在新数据出现时，基于新旧数据重新训练哈希函数，使得基于批处理的哈希检索方法不仅计算复杂度高、占用内存大，并且查询(检索)效率低下。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供在线多模态哈希检索方法、系统、存储介质及设备，能有效解决在线多模态设置中随着多媒体数据以数据流形式到达时产生的类别增量问题。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供在线多模态哈希检索方法，包括以下步骤：

获取流式多媒体数据集，将流式多媒体数据集中的训练数据分为t批数据块；

当第t批数据到达时，保持前t-1批数据训练得到的哈希码不变，学习第t批数据的哈希码，并对第t轮的哈希函数进行更新；

保存学习到的哈希码与前t-1批训练数据的哈希码，保存更新后的哈希函数，利用学习到的哈希函数为查询样本生成哈希码表示，获得检索结果。

利用学习到的哈希函数为查询样本生成哈希码表示，获得检索结果，包括，获得查询样本的哈希码与存储的所有训练数据的哈希码间的海明距离，对海明距离按照由小到大的顺序进行排序，按顺序输出训练集中的样本作为检索结果。

学习第t批数据的哈希码的过程包括，基于损失函数利用类别级哈希码重构语义向量；优化损失函数，逐行更新类别级哈希码矩阵。学习第t批数据的哈希码的过程还包括，对于类别增量情况下的类别级哈希码的学习，将新类别的类别级哈希码与旧类别的类别级哈希码共同保存形成当前总的类别级哈希码。

学习第t批数据的哈希码的过程还包括，利用更新后的类别级哈希码矩阵生成第t批数据的哈希码。

对第t轮的哈希函数进行更新包括，基于t批数据样本特征中的非线性关系，利用第t批和前第(t-1)批数据的核特征和哈希码，构建哈希函数更新的目标函数，得到哈希函数投影矩阵。

对第t轮的哈希函数进行更新还包括，利用第t批和前(t-1)批数据的核特征、哈希码以及获得的哈希函数投影矩阵，得到样本点中模态权重的辅助投影矩，同时将辅助投影矩阵和查询数据样本点的核特征相结合，作为哈希函数中模态信息的权重，获得更新后的哈希函数

本发明的第二个方面提供实现上述方法的检索系统，包括：

数据采集模块，被配置为：获取流式多媒体数据集，将流式多媒体数据集中的训练数据分为t批数据块；

学习模块，被配置为：当第t批数据到达时，保持前t-1批数据训练得到的哈希码不变，学习第t批数据的哈希码，并对第t轮的哈希函数进行更新；

执行模块，被配置为：保存学习到的哈希码与前t-1批训练数据的哈希码，保存更新后的哈希函数，利用学习到的哈希函数为查询样本生成哈希码表示，获得检索结果。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的在线多模态哈希检索方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的在线多模态哈希检索方法中的步骤。

与现有技术相比，以上一个或多个技术方案存在以下有益效果：

1、能够处理随着流式多媒体数据到达而产生的新的类别的情况，解决了在线多模态哈希检索中的类增量问题，从而提升查询(检索)效率。

2、通过对样本点中不同模态信息的权重进行学习，互补地融合多模态特征，以更好地表示样本的哈希码。

3、哈希码在学习后保持不变，哈希码的长度保持不变，符合在线哈希学习的特性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明一个或多个实施例提供的检索方法的流程示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

基于哈希的检索方法的核心思想是将高维数据集在保持数据相关性的条件下转换为低维哈希码空间中紧凑的二进制码，即哈希码。具体来说，哈希学习的目的是学到数据的二进制哈希码表示，使哈希码尽可能地保持原特征空间中数据的相似性，即在原空间中相似的2个点应当被映射到哈希码空间中相似的2个点。通过这种变换，可以达到降维的目的，也可以有效缩减空间消耗。在进行检索任务时，首先利用学习到的哈希函数对查询样本进行哈希码的学习，然后利用数据哈希码间的海明距离表示数据的相似性，海明距离越小则两个数据点间的相似度越高。

多媒体数据指的是数据具有多种类型，例如“图像”、“文本”、“视频”等，它具有低级表现异质性和高级语义同质性。在多模态数据中，每个样本点包含多个模态的特征表示，例如一个样本同时包含图像和文本模态的信息，通过在训练和查询期间结合异构的多模态特征来生成样本点的哈希码从而进行检索。

正如背景技术中所描述的，现有的方法主要是基于批处理模式下学习哈希函数的，因此当多媒体数据点以流的形式不断到达时，必须存储(积累)所有的旧数据，并在新数据出现时，基于新旧数据重新训练哈希函数，使得基于批处理的哈希检索方法不仅计算复杂度高、占用内存大，并且查询效率低。由于它不能有效地从流式数据中学习，将其用于实际应用程序中还存在一些障碍。为了克服这一限制，在线哈希的研究逐渐兴起，在线哈希是用于在线检索任务，该方法可以只根据新出现的数据进行更新，同时保持从旧数据中学到的知识，在线多模态哈希检索方法能针对海量流式多媒体数据集实现快速高效的检索。

现有的在线多模态哈希方法都无法处理在流式多媒体数据情况下，随着新的数据块不断出现而出现新的(未知的)类别的情况。并且现有的在线哈希问题设置都不能解决类增量问题，主要原因有两点：(1)有些可能会重新学习旧数据的哈希码；2)有些可能会重用旧数据的原始特征。在面对大规模应用程序时，这些设置变得低效。同时，多模态哈希学习过程中使用多种模态的异构特征相互补充是非常重要的，例如，对于一个特定的样本，如果它的图像特征更适合学习哈希码，那么应该加强图像模态的效果来生成哈希码。同样地，如果这个样本的文本模态信息更适合学习哈希码，那么应该让文本模态在生成哈希码中发挥更重要的作用。

因此，以下实施例给出了在线多模态哈希检索方法、系统、存储介质及设备，能有效解决在线多模态设置中随着多媒体数据以数据流形式到达时产生的类别增量问题，同时为了更好地利用来自多模态特征的信息，提出了一种策略来学习每个样本点中不同模态的权重，通过模态信息权衡能学到更好的哈希码，以及提高多模态学习能力；结合在线哈希框架，包括预训练部分和训练部分，不使用传统的迭代优化策略，使在线学习更加有效和高效。

实施例一：

如图1所示，在线多模态哈希检索方法，包括以下步骤：

若有检索需求，则利用学习到的哈希函数为查询样本生成哈希码表示，获得查询样本的哈希码与存储的所有训练数据的哈希码间的海明距离，对海明距离按照由小到大的顺序进行排序，按顺序输出训练集中的样本作为检索结果。

若无检索需求，且有第t+1批数据到达，重复上述更新和保存的过程进行处理。

具体的：

第一步：在线学习过程中，流式多媒体数据以数据流的形式不断到达，因此获取数据集后，将其分为训练集和测试集，并将训练数据集分为t批数据块的形式，用于模拟流式数据的形式进行训练。

第二步：当第t批新数据到达时，保持前t-1批数据训练得到的哈希码不变，对第t批数据的哈希码和最新的哈希函数进行学习

第三步：哈希码的学习：将方法扩展到类增量情况，首先对类别级的哈希码进行学习，然后进一步利用其生成流式多媒体数据的哈希码。

第四步：哈希函数的学习：通过第三步中求得的哈希码，并将样本特征映射到核特征空间，结合新旧数据的核特征和哈希码，求得第t轮中最新的哈希函数的投影矩阵，通过一个简单的线性回归模型得到最新的哈希函数，并在哈希函数中对模态信息进行权衡，使查询样本生成更准确的哈希码。

第五步：第t批数据的学习已完成，把学到的哈希码与之前的t-1批训练数据的哈希码一起储存起来，在检索阶段使用。把当前学到的哈希函数存储起来，丢弃之前批的哈希函数。

第六步：如果此时有查询需求，使用最新的哈希函数为查询样本生成哈希码表示，然后计算查询样本的哈希码与存储的所有训练数据的哈希码间的海明距离，并对海明距离按照由小到大的顺序进行排序，最后按顺序输出训练集中的样本，作为检索结果。如果此时无查询需求，且有新的多媒体数据(即t+1批数据)到达，重复上述的过程进行处理。

具体如下：

本实施例不仅可以针对流式多媒体数据，对类别增量问题进行处理，还能很好地利用来自多模态特征的信息，通过模态信息权衡学到更能准确表示样本点的哈希码。本实施例提出的方法包含了两个主要部分，第一部分学习类别级的哈希码来表示类别，并进一步将其用于生成流式多媒体数据的哈希码；第二部分为模态信息权重的学习和哈希函数的学习。下文将按顺序，把方法分为三部分来具体介绍技术内容。

(1)哈希码的学习

步骤(1.1)：标签名称通常能自然地，并且很好地相互分离，并包含类别特定语义的良好表达，因此使用唯一的哈希码来表示每个类别的方法在在线哈希中被广泛使用。在本实施例中通过从类别的语义信息中学习，提出了一种新的构建类别级哈希码的方式，使用word2vec来生成每个类别的语义向量，word2vec是将类的标签名称转化为可计算、结构化的向量的操作。公式如下：

K_j＝word2vec(Y_j),

其中K_j表示第j个类的语义向量，使用Y＝{Y₁Y₂...Y_c}来表示类别的名称，例如“树”和“天空”，c是类别的个数，Y_j表示第j个类的类别名称。然后可以得到类别向量矩阵

其中k＝300是word2vec向量的维度。

在生成类别语义向量后，可以通过将K作为监督信息来学习类别级的哈希码。利用类别级哈希码来重构语义向量，损失函数可以表述为：

其中，B_c为类别级哈希码矩阵，W_c为变换矩阵，r为哈希码的长度，c是类别的个数，α为控制正则化项的超参数，‖·‖_F代表矩阵的Frobenius范数。

步骤(1.2)：上述步骤(1.1)中损失函数的优化是一个分两步进行的迭代优化过程：

逐行地更新B_c，即每次学习B_c中的一行，并固定其他行。以第j行为例，分别定义B_cj，W_cj为B_c和W_c的第j行的转置，B′_c和W′_c为B_c和W_c除去第j行后的剩余部分，然后对B_c的第j行的更新可以简化为：

其中tr(·)为矩阵的迹，Q＝W_cK，并且Q_j是Q的第j行的转置，const代表常数项，然后可以得到：

通过重复上述操作，可以逐行更新B_c。

对于W_c的更新，直接取步骤(1.1)中损失函数对W_c求导数，并将其等于零，可以得到W_c的更新公式如下：

步骤(1.3)：对于类别增量情况下的类别级哈希码的学习，在网络上，新的类别可能会随着新的数据流到达而不断出现，将本实施例中提出的模型扩展到类别增量场景中也非常简单。首先利用NLP技术将新类别的名称转换为语义向量，定义c_n和c_o为新旧类别的数量，

和

为新类和旧类的语义向量，

和

为新旧类别的哈希码，则可以重新构造损失函数为：

类似于步骤(1.2)中的优化过程，可以得到：

其中

将逐行更新得到的

和旧类别的哈希码

共同存储，可以构建

在每一轮中，训练数据的哈希码一旦被学习，则保持不变。

步骤(1.4)：基于上述预训练过程，可以直接根据类别级的哈希码生成样本的哈希码，公式如下：

其中sign()为符号函数，

是第t轮中到达的新数据的标签矩阵，n^(t)代表到达的新数据的个数，c是类别的个数，

是第t轮中新数据的哈希码，其中r为哈希码的长度。

(2)模态信息权重的学习

步骤(2.1)：首先利用RBF核映射来捕获样本特征中的非线性关系，公式如下：

其中

分别代表

的第i列，

为第t轮中新到达的m模态的数据特征表示，d为特征的维度，

为第t轮中新到达数据的核特征,随机挑选的锚点为

a是RBF内核中的锚点数，

和

是从第一轮到第(t-1)轮到达的旧数据的核特征和哈希码，由此可以得到哈希函数学习的目标函数为：

其中

为模态m的投影矩阵,M为样本点中模态数量，θ平衡了正则化项，此外，值得注意的是，哈希函数的学习过程同时考虑了新旧数据，这确保了过去所学到的知识仍然有助于当前一轮的学习，避免了灾难性遗忘。

步骤(2.2)：通过取步骤(2.1)中目标函数对

求导数取零可以得到：

其中

在上述的

和

的方程中，可以很容易的观察到，在第t轮时，只需要对式子中的第一项进行计算，第二项可以直接从上一轮中获得。

和

是中间变量，它们可以被学习和保存，以供下一轮使用，使第(t+1)中的优化变得高效。

步骤(2.3)：多模态学习过程中使多种模态的异构特征相互补充是很重要的。基于这一想法，本实施例中构造了一种损失函数来学习一个映射，由此来度量在多模态样本点生成哈希码时，样本点中不同模态特征的重要程度，公式如下所示。

其中

是计算样本点中模态m权重的辅助投影，a是RBF内核中的锚点数，δ是参数控制的正则化项，

是从第t轮中新数据和前(t-1)轮中旧数据中共同学习的，以确保过去学到的知识仍然有助于当前一轮的学习，避免知识灾难性遗忘，通过对

进行学习，可以为每个样本中不同模态信息进行权衡，使生成更能准确表示样本信息的哈希码。

步骤(2.4)：通过对步骤(2.3)中目标函数对

求导取零得到

的解为：

其中

通过保存和直接使用中间变量

和

可以使下一轮的优化变得有效和高效。

(3)哈希函数学习

步骤(3.1)：在第t轮时，利用步骤(2.2)中学习到的最新的哈希函数的投影矩阵

并对查询样本点求核特征，同时给模态信息施加一个权重，对每个模态采用一个简单的线性回归模型作为哈希函数，在第t轮时，最新的哈希函数为：

其中

是最新的哈希函数的投影矩阵，X_qm代表查询样本点X_q中第m个模态的查询特征,φ(X_qm)为核特征，

是模态m的权重，⊙为Hadamard积，即将矩阵对应位置元素相乘，M为查询样本点X_q中模态的数量。由此得到查询数据的二进制表示。

步骤(3.2)：若在第t轮进行检索任务时，首先对查询样本点进行哈希码的学习，此时使用第t轮中最新的哈希函数为查询样本生成哈希码表示，由于在前t轮中所有训练数据的哈希码一旦学习，则保持不变并存储下来，因此，此时可以直接将查询样本点和当前所有训练数据的哈希码求海明距离来度量两个数据点间的相似性，海明距离小的实例，可以被认为是相似的实例作为检索结果返回，由此实现快速且高效的多模态检索。

上述过程通过对样本点中不同模态信息的权重进行学习，互补地融合多模态特征，以更好地表示样本的哈希码。

上述过程设计了一种学习类别级哈希码的方法，并将其用于生成流式多媒体数据的哈希码。

上述过程提出的方法能处理随着流式多媒体数据到达而产生的新的类别的情况，解决了在线多模态哈希检索中的类增量问题。

上述过程提出的方法在进行学习时，运用了一种高效、有效的离散在线优化算法，通过利用中间变量使在线学习更加有效和高效。

上述过程所提出的方法中，哈希码在学习后保持不变，哈希码的长度保持不变，符合在线哈希学习的特性。

实施例二：

本实施例提供了实现上述方法的系统，包括：

图像数据采集模块，被配置为：获取基于不同角度采集到的CBCT图像投影数据形成的矩阵；

模型构建模块，被配置为：。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一中提出的在线多模态哈希检索方法中的步骤。

本实施例执行的在线多模态哈希检索方法中，。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时实现如上述实施例一提出的在线多模态哈希检索方法中的步骤。

本实施例处理器执行的在线多模态哈希检索方法中，通。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.在线多模态哈希检索方法，其特征在于：包括以下步骤：

2.如权利要求1所述的在线多模态哈希检索方法，其特征在于：所述利用学习到的哈希函数为查询样本生成哈希码表示，获得检索结果，包括，获得查询样本的哈希码与存储的所有训练数据的哈希码间的海明距离，对海明距离按照由小到大的顺序进行排序，按顺序输出训练集中的样本作为检索结果。

3.如权利要求1所述的在线多模态哈希检索方法，其特征在于：所述学习第t批数据的哈希码的过程包括，基于损失函数利用类别级哈希码重构语义向量；优化损失函数，逐行更新类别级哈希码矩阵。

4.如权利要求3所述的在线多模态哈希检索方法，其特征在于：所述学习第t批数据的哈希码的过程还包括，对于类别增量情况下的类别级哈希码的学习，将新类别的类别级哈希码与旧类别的类别级哈希码共同保存形成当前总的类别级哈希码。

5.如权利要求4所述的在线多模态哈希检索方法，其特征在于：所述学习第t批数据的哈希码的过程还包括，利用更新后的类别级哈希码矩阵生成第t批数据的哈希码。

6.如权利要求1所述的在线多模态哈希检索方法，其特征在于：所述对第t轮的哈希函数进行更新包括，基于t批数据样本特征中的非线性关系，利用第t批和前第(t-1)批数据的核特征和哈希码，构建哈希函数更新的目标函数，得到哈希函数投影矩阵。

7.如权利要求6所述的在线多模态哈希检索方法，其特征在于：所述对第t轮的哈希函数进行更新还包括，利用第t批和前(t-1)批数据的核特征、哈希码以及获得的哈希函数投影矩阵，得到样本点中模态权重的辅助投影矩，同时将辅助投影矩阵和查询数据样本点的核特征相结合，作为哈希函数中模态信息的权重，获得更新后的哈希函数。

8.在线多模态哈希检索系统，其特征在于：包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的在线多模态哈希检索方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的在线多模态哈希检索方法中的步骤。