CN113326289A

CN113326289A - 面向携带新类别的增量数据的快速跨模态检索方法及系统

Info

Publication number: CN113326289A
Application number: CN202110878050.XA
Authority: CN
Inventors: 罗昕; 孙钰; 詹雨薇; 许信顺
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-08-31
Anticipated expiration: 2041-08-02
Also published as: CN113326289B

Abstract

本发明提出了面向携带新类别的增量数据的快速跨模态检索方法及系统，包括：增量哈希学习步骤：从多媒体已知类别数据库存储的已知哈希码中提取已知类别标签的二值表示，然后根据已有类别标签与未知类别标签的相似性关系，获取未知类别标签的二值表示，用来监督增量类别数据库中增量数据的哈希码的生成；哈希函数学习步骤：在哈希函数的学习过程中，从已知类别数据库及增量类别数据库中通过抽样获取锚点集，基于该锚点集采用非对称策略更新深度网络的参数，进行哈希函数的学习，获得所需模型。可以在保持原有数据的哈希码不变的情况下直接学习未知增量类数据的哈希码，从而可以满足快速训练的模式要求。

Description

面向携带新类别的增量数据的快速跨模态检索方法及系统

技术领域

本发明属于跨模态检索、深度学习技术领域，尤其涉及面向携带新类别的增量数据的快速跨模态检索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着互联网的发展，由各种智能终端设备和网站产生的图像、文本、视频、音频等多媒体数据呈现爆炸式增长趋势。面对这些丰富的海量多媒体数据，如何在庞大的数据库中根据用户需求在多模态数据之间进行快速准确的检索，是多媒体信息检索研究的热点。因此，跨模态检索应运而生，其主要目的是使用一种模态的查询数据去检索数据库中与之相似的另一种模态的数据，例如可以使用图片检索文本信息。其中，基于哈希的跨模态检索方法凭借其较小的存储消耗和快速的查询速度可以解决大规模数据检索所面临的问题，它可以将原始空间中的海量高维多媒体数据映射为海明空间中紧凑的二进制哈希码，同时保持数据之间的相似性，即原始空间中相似的样本在海明空间中依然相似。使用二值哈希码表示高维数据不仅有益于压缩存储空间，还可以便于计算机通过简单的异或操作来计算得到两个样本之间的距离，提高检索效率。

通常来说，跨模态哈希方法根据是否使用监督信息可以分为无监督跨模态哈希和有监督跨模态哈希。无监督跨模态哈希方法不使用监督信息，只利用原始数据的结构信息来训练模型；而有监督跨模态哈希方法则通过挖掘人工标注的标签中的语义信息来构建数据之间的相似性，从而具有更好的表现力。此外，随着深度网络的应用和发展，基于深度学习的跨模态哈希方法相继被提出。相较于将特征提取与哈希学习分离的非深度跨模态哈希来说，基于深度网络的跨模态哈希方法利用强大的神经网络将特征学习和非线性哈希函数学习融合到一个端到端的框架中，可以进一步提高模型的性能。

但是，现有的深度跨模态哈希方法不能很好的解决增量学习的问题。也就是说大多数深度跨模态哈希方法不能及时适配新出现的未知类别标签的增量数据，需要将其与原有数据同时喂入网络重新训练模型。这种模式存在以下缺点：首先，将所有数据重新训练意味着完全忽略通过之前训练得到的原有数据的哈希码，浪费了计算资源和训练时间；此外，随着越来越多的未知类别标签的增量数据的产生，将原有数据和增量数据同时喂入网络会提高模型的计算复杂性，违背了大规模多媒体数据下快速精确检索的需求；并且当前存在的增量哈希学习方法不能处理跨模态检索问题。

发明内容

为克服上述现有技术的不足，本发明提供了面向携带新类别的增量数据的快速跨模态检索方法，充分利用已有数据的哈希码，避免重复学习导致的训练时间和计算资源的浪费。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

第一方面，公开了面向携带新类别的增量数据的快速跨模态检索方法，包括：

增量哈希学习步骤：从多媒体已知类别数据库存储的已知哈希码中提取已知类别标签的二值表示，然后根据已有类别标签与未知类别标签的相似性关系，获取未知类别标签的二值表示，用来监督增量类别数据库中增量数据的哈希码的生成；

哈希函数学习步骤：在哈希函数的学习过程中，从已知类别数据库及增量类别数据库中通过抽样获取锚点集，基于该锚点集采用非对称策略更新深度网络的参数，进行哈希函数的学习，获得所需模型；

检索步骤：基于该模型进行生成查询样本的哈希码，然后与存储的哈希码进行比较，寻找海明距离最近的多个样本并将其输出为检索结果。

进一步的技术方案，获取未知类别标签的二值表示之后，通过增量数据的标签矩阵与未知类别标签表示直接学习获取增量数据的哈希码。

进一步的技术方案，从已知类别数据库及增量类别数据库中通过抽样获取锚点集之后，将锚点集中的图像和文本模态分别喂入CNN网络和MLP网络来提取对应的模态特征，经过网络的哈希层得到锚点集合的哈希表示。

进一步的技术方案，采用深度跨模态哈希方法作为基模型获取哈希码。

进一步的技术方案，在增量哈希学习过程中，保持已有的哈希码的不变性，根据哈希码与其标注的标签的二值类别标签表示的相似性，从以下公式中学到已有类别标签的二值表示；

其中，已有哈希码

，已有类别标签的二值表示

，已有数据的标签矩阵

，

是已知类别标签的数量，

是哈希码的长度。

进一步的技术方案，在学得已有类别标签的二值表示和增量类别标签的二值表示后，根据目标函数获取新来的增量数据的哈希码，该目标函数是利用增量数据的哈希码与二值类别标签表示的相似性关系得到的。

进一步的技术方案，目标函数定义为：

其中

和

是权衡参数。

进一步的技术方案，哈希函数学习的过程中，使用CNN-F模型和MLP模型分别作为图像网络ImgNet和文本网络TxtNet的骨干，构建用于解决增量哈希学习问题的端到端的框架。

进一步的技术方案，将CNN-F模型中最后一个全连接层替换为哈希层，用于将倒数第二层多维的输出映射为

维的输出。

进一步的技术方案，哈希函数学习的过程中，针对学习哈希函数的损失进行优化，在优化的过程中，在每一步中都是固定其他变量而优化其中一个变量。

第二方面，公开了面向携带新类别的增量数据的快速跨模态检索方法，包括：

增量哈希学习模块，被配置为：从多媒体已知类别数据库存储的已知哈希码中提取已知类别标签的二值表示，然后根据已有类别标签与未知类别标签的相似性关系，获取未知类别标签的二值表示，用来监督增量类别数据库中增量数据的哈希码的生成；

哈希函数学习模块，被配置为：在哈希函数的学习过程中，从已知类别数据库及增量类别数据库中通过抽样获取锚点集，基于该锚点集采用非对称策略更新深度网络的参数，进行哈希函数的学习，获得所需模型；

检索模块，被配置为：基于该模型进行生成查询样本的哈希码，然后与存储的哈希码进行比较，寻找海明距离最近的多个样本并将其输出为检索结果。

以上一个或多个技术方案存在以下有益效果：

基于用于增量学习的基于深度学习的跨模态哈希方法，可以在保持原有数据的哈希码不变的情况下直接学习未知增量类数据的哈希码，从而可以满足快速训练的模式要求。

本发明使用端到端的框架在深度学习的基础上去解决增量学习的问题，端到端的模式可以充分发挥特征学习和哈希码学习的相互促进作用，提高模型的性能。

本发明所训练模型可以为增量类别标签空间建模，从而能够监督生成未知类别的哈希码，通过实验可以发现本发明设计模型可以基本达到基模型效果，基模型是将原有数据和未知增量类数据重新进行训练的），验证了模型的有效性。

本发明模型具有较高的效率，具体来说，本发明提出的模型只需要大概11分钟就可以达到较好的效果，而对比方法则需要超过4小时才能得到这样的结果。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例设计的模型的工作流程；

图2为本发明实施例整体方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了面向携带新类别的增量数据的快速跨模态检索方法，主要包括两个方面：

1）如何在保持原有哈希码不变的情况下，从已有数据的哈希码中提取不同类别标签的信息来对增量类别标签空间建模，然后使用未知类别标签的表示监督生成增量数据的哈希码，从而避免重复训练，提高模型效率。

2）如何在保证哈希码质量的情况下，进一步缩短模型训练时间。

整体构思为：首先从已知哈希码中提取已知类别标签的二值表示，然后根据已有类别标签与未知类别标签的相似性关系，获取未知类别标签的二值表示用来监督增量数据的哈希码的生成；在哈希函数的学习过程中，模型采用非对称策略更新深度网络的参数，进行哈希函数的学习。

本发明实施例子是以图像和文本模态为例来阐述模型的工作流程，需要说明的是，本发明的方案可以很容易地扩展到其他多媒体模态。

具体的，如图1所示，本发明设计的模型主要由增量哈希学习和高效哈希函数学习两个模块组成。

在增量哈希学习阶段，模型首先提取原始数据库（original database）的已知哈希码

中已有类别标签的表示

，然后定义已知类别标签与增量数据库（incrementaldatabase）中未知类别标签的相似性

来监督生成未知类别标签的表示

，最后通过增量数据的标签矩阵

与未知类别标签表示

直接学习获取增量数据的哈希码

。

在高效哈希函数学习阶段，为了在保证哈希码质量的前提下提高训练速度，模型首先从原始数据库和增量数据库中抽样获取锚点集（anchor set）

，

为锚点集中属于原始数据库的样本集下标，

为锚点集中属于增量数据库的样本集下标，然后将锚点集中的图像和文本模态分别喂入CNN网络和MLP网络提取对应的模态特征，最后经过网络的哈希层（hashing layer）得到锚点集合的哈希表示，在这个过程中，使用已经学得的anchor的哈希码

做回归，更新深度网络的参数。

以下将从五个方面详细介绍本发明设计的模型的工作流程。

1）原有哈希码学习

在使用本发明的模型之前，需要获取原有数据库中多媒体数据的原有哈希码

，其中

是原有数据的大小，

是哈希码的长度。由于对

的生成没有限制，所以可以采用大多数深度跨模态哈希方法作为基模型获取

。本发明以深度跨模态哈希方法中比较有代表性的模型作为基模型用于原有哈希码的生成，值得注意的是，本发明提出的模型的效果取决于

的质量，因此，更强大的基模型可以提高本模型的准确度。

2）增量哈希学习

本发明的主要目的是在保持已有数据库中哈希码

不变的情况下，学习新来的增量数据的哈希码

，其中

是增量数据的大小。具体来说是要通过增量类别标签空间来学得哈希码

和对应的哈希函数。因此，首先要获取已知类别标签

与增量类别标签

的成对相似性关系

，其中

是已知类别标签的数量，

是增量类别标签的数量。由于类别标签之间并没有交集，因此，定义

中的每个元素的值为-1，于是可以得到以下的目标函数：

由于在增量哈希学习过程，希望保持已有的哈希码

的不变性，因此，模型可以从已有哈希码

中进行学习。根据哈希码与其标注的标签的二值类别标签表示的相似性，即已有数据的标签矩阵

，可以从以下公式中学到已有类别标签的二值表示

：

在学得已有类别标签的二值表示

和增量类别标签的二值表示

后，根据以下目标函数获取新来的增量数据的哈希码

，该目标函数是利用增量数据的哈希码

与二值类别标签表示的相似性关系即公式（3）得到的：

其中，

代表增量数据的类别标签表示，

代表增量数据的标签矩阵，

是已知类别的标签矩阵，

是未知类别的标签矩阵。

综合公式(1)(2)(3)的优化函数，本发明的目标函数定义为：

其中

和

是权衡参数。

3）高效哈希函数学习

由于端到端的深度网络框架可以使特征学习和哈希码学习之间起到相互促进的作用，提高模型的效果，因此，本发明使用CNN-F模型和MLP模型分别作为图像网络ImgNet和文本网络TxtNet的骨干，构建了一个用于解决增量哈希学习问题的端到端的框架。CNN-F模型：是一个卷积神经网络，用于生成图片的深度特征表示，MLP模型：是一个全连接网络，用于生成文本的深度特征表示。网络的具体实现如下：

①ImgNet：初始的CNN-F网络由五个卷积层和三个全连接层组成，为了适配哈希学习的需求，在本发明设计的模型中，将CNN-F网络中最后一个全连接层替换为哈希层，用于将倒数第二层4096维的输出映射为r维的输出。定义用于图像模态的哈希函数为：

其中，

是ImgNet网络的参数，

是哈希层的输出，图像模态的哈希函数可以将图像模态的数据映射为哈希码。

②TxtNet:本发明采用的MLP模型包含两个全连接层，第一层包含8192个神经元，第二层包含

个神经元。定义用于文本模态的哈希函数为：

其中，

是TxtNet网络的参数，

是哈希层的输出。文本模态的哈希函数可以将文本模态的数据映射为哈希码。

为了提高网络训练的效率，本发明实施例子采用了非对称策略来更新网络。首先，先随机从原始数据库和增量数据库中抽取样本组成大小为

的锚点集

，

分别表示从原始数据库和增量数据库中抽取到锚点集中的样本的下标，并且

。因此，用于学习哈希函数的损失定义为：

公式7用于学习哈希函数，更新网络的参数

和

其中，第一项表示锚点集样本的哈希码可以通过ImgNet获取，第二项表示锚点集样本的哈希码可以通过TxtNet获取。本发明中采用的非对称策略在于锚点集的哈希码是综合

和

两个损失函数学到的，而其他样本的哈希码仅通过

损失函数就可以学到。由于在非对称策略中只使用数量较少的锚点集样本来更新深度网络的参数，所以，本发明设计的模型能够很快的收敛。

另外，由于

激活函数是不光滑的以及非凸的，非零输入将会导致在反向传播中梯度为零，因此，本发明在实际应用中使用

激活函数代替

函数来放松约束。替换后的损失函数为：

此外，本发明提出的模型还增加了位平衡约束：

4）最终总体目标损失：

其中，

和

为权衡参数。

5）损失函数优化过程

本发明设计的模型采用的是迭代优化的策略来优化参数

，

，

。本发明模型的目的就是来获取使总体损失函数(10)最小化时未知参数的取值，从而得到最优的参数值，以便生成高质量的哈希码用于检索，优化过程主要由以下五个步骤组成，在每一步中都是固定其他变量而优化其中一个变量。

①优化

：

本发明使用随机梯度下降（SGD）通过反向传播（BP）算法来更新

。为了方便起见，定义

,

。那么，损失函数

关于

的导数为：

其中，符号

表示两个向量之间的逐个元素相乘。

②优化

：

与更新

的过程类似，首先定义

,

。那么，损失函数

关于

的导数为：

③优化

：

当其他变量固定，只优化

时，整体的损失函数可写为如下形式：

将上式展开并且省略常数项可得：

其中

。本发明采用DCC优化方法逐位优化

，也就是说每次迭代只更新

中的一列。令

表示

中的第

列，

是

中除去

的部分矩阵。同理，

表示

中的第

列，

是

中除去

的部分矩阵；

表示

中的第

列，

是

中除去

的部分矩阵；

表示

中的第

列，

是

中除去

的部分矩阵；

表示

中的第

列，

是

中除去

的部分矩阵。则公式(14)中的项可转换为：

因此，优化公式(14)等价于在每次迭代中优化

中的一列

，目标函数如下：

以上损失函数存在以下封闭解：

④优化

：

当其他变量固定，只优化

时，整体的损失函数可写为如下形式：

优化

的过程和优化

的过程相似，同样使用DCC优化策略，根据以下目标函数在每次迭代中只优化

中的一列

：

其中

表示

中的第

列，并且

。

⑤优化

：

当其他变量固定，只优化

时，整体的损失函数可写为如下形式：

其中，

，

分别是锚点集中的样本喂入ImgNet和TxtNet之后得到的输出结果；

是增量数据库中下标为

的样本的哈希码。为了能够直接优化所有的

，本发明令

，

，

表示增量数据库中所有样本的下标的集合，具体赋值方式如下：

因此，优化

的损失函数可以转化为以下方式：

同理，以上目标函数可以由DCC优化策略求解，更新

中一列的封闭解为：

其中

表示

中的第

列，并且

。

在更为具体的实施例子中，参见附图2所示，包括训练阶段以及测试阶段：

1）训练阶段：

①根据已知类别数据库的哈希码

和标签

，以及增量类别数据库的标签

进行增量哈希学习，生成增量数据的哈希码

。

③然后从已知类别数据库与增量类别数据库中抽取锚点集，将原始图片和文本的BOW向量信息分别喂入CNN网络和MLP，根据已经获取的增量数据的哈希码

做一个回归操作，对网络进行训练。

在训练的过程中，两个反馈

是直接生成的哈希码

，用于CNN网络和MLP网络训练做回归使用。

③固定模型参数，使用模型得到所有样本对应的哈希码，存入数据库以备使用。

2）测试阶段

将查询集的图像信息和文本的BOW向量分别喂入训练好的CNN网络和MLP，生成查询样本的哈希码，然后与数据库中存储的哈希码进行比较，寻找海明距离最近的

个样本并将其输出为检索结果。

实施例二

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例三

本实施例的目的是提供面向携带新类别的增量数据的快速跨模态检索方法，包括：

以上实施例的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.面向携带新类别的增量数据的快速跨模态检索方法，其特征是，包括：

2.如权利要求1所述的面向携带新类别的增量数据的快速跨模态检索方法，其特征是，获取未知类别标签的二值表示之后，通过增量数据的标签矩阵与未知类别标签表示直接学习获取增量数据的哈希码。

3.如权利要求1所述的面向携带新类别的增量数据的快速跨模态检索方法，其特征是，从已知类别数据库及增量类别数据库中通过抽样获取锚点集之后，将锚点集中的图像和文本模态分别喂入CNN网络和MLP网络来提取对应的模态特征，经过网络的哈希层得到锚点集合的哈希表示。

4.如权利要求1所述的面向携带新类别的增量数据的快速跨模态检索方法，其特征是，采用深度跨模态哈希方法作为基模型获取哈希码。

5.如权利要求1所述的面向携带新类别的增量数据的快速跨模态检索方法，其特征是，在增量哈希学习过程中，保持已有的哈希码的不变性，根据哈希码与其标注的标签的二值类别标签表示的相似性，从以下公式中学到已有类别标签的二值表示；

其中，已有哈希码

，已有类别标签的二值表示

，已有数据的标签矩阵

，

是已知类别标签的数量，

是哈希码的长度。

6.如权利要求1所述的面向携带新类别的增量数据的快速跨模态检索方法，其特征是，在学得已有类别标签的二值表示和增量类别标签的二值表示后，根据目标函数获取新来的增量数据的哈希码，该目标函数是利用增量数据的哈希码与二值类别标签表示的相似性关系得到的。

7.如权利要求1所述的面向携带新类别的增量数据的快速跨模态检索方法，其特征是，哈希函数学习的过程中，使用CNN-F模型和MLP模型分别作为图像网络ImgNet和文本网络TxtNet的骨干，构建用于解决增量哈希学习问题的端到端的框架。

优选的，将CNN-F模型中最后一个全连接层替换为哈希层，用于将倒数第二层多维的输出映射为

维的输出。

优选的，哈希函数学习的过程中，针对学习哈希函数的损失进行优化，在优化的过程中，在每一步中都是固定其他变量而优化其中一个变量。

8.面向携带新类别的增量数据的快速跨模态检索方法，其特征是，包括：

9.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的步骤。