CN110674323B

CN110674323B - 基于虚拟标签回归的无监督跨模态哈希检索方法及系统

Info

Publication number: CN110674323B
Application number: CN201910823366.1A
Authority: CN
Inventors: 朱磊; 王菲; 王彤
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2020-06-30
Anticipated expiration: 2039-09-02
Also published as: CN110674323A

Abstract

本公开提供了一种基于虚拟标签回归的无监督跨模态哈希检索方法及系统，将特征表示和哈希函数学习整合到一个统一的深度框架中，通过多模态深度特征的协同矩阵分解学习共享的哈希码，以保证多个模态共享相同的语义；在此基础上，引入虚拟标签的概念，通过非负谱分析学习虚拟标签，同时将学习到的虚拟标签回归到哈希码中，保证了哈希码和虚拟标签之间的语义一致性；在上述框架中，深度特征的协同矩阵分解和虚拟标签的学习与回归有利于深度特征表示和哈希函数的学习，改进后的深度特征表示和哈希模型有利于协同矩阵分解和虚拟标签的学习与回归，两者相互促进；同时，本公开通过一种新的离散优化策略，直接更新深度哈希函数和哈希码，有效地降低了现有方法中松弛策略的量化误差，提高了跨模态检索的性能。

Description

基于虚拟标签回归的无监督跨模态哈希检索方法及系统

技术领域

本公开涉及跨模态检索技术领域，特别涉及一种基于虚拟标签回归的无监督跨模态哈希检索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

随着移动互联网的快速发展，互联网上的多模态数据呈现出爆炸式的增长趋势，在信息检索领域，多模态数据的快速增长带来了巨大的跨模态检索应用需求。跨模态检索即对不同模态的关系建模，实现模态间的检索，查询数据和待检索数据的模态不必相同，如以文本检索图像，以图像检索文本。探索新的跨模态检索模式是当前信息检索领域亟待解决的问题，哈希方法检索速度快，存储开销小，在该问题上获得越来越广泛的关注和应用。

跨模态哈希检索方法将不同模态的数据映射到公共汉明空间，得到共享的哈希码，并保持数据在原始特征空间的相似性，用二进制哈希码进行数据表示和数据相似性度量，大大降低了存储空间的消耗和计算复杂性。现有的跨模态哈希检索方法可以分为两大类：有监督哈希和无监督哈希。前者利用语义标签指导哈希码和哈希函数的学习，标签中的语义信息得以充分保存，因此学习到的哈希码具有较强的表达能力，但是，获取高质量的语义标签需耗费巨大的人力、物力和财力，此外，过分依赖语义标签会影响检索系统的可扩展性。后者从数据分布中学习哈希函数，不依赖任何监督标签，因此具有更理想的可扩展性，可以支持大规模的跨模态检索。

本公开发明人在研究中发现，虽然已经有多种无监督跨模态哈希检索方法被提出，但仍存在以下问题：(1)现有方法大多基于浅层模型，简单地采用线性或非线性映射进行哈希学习，致使学习到的哈希码表达能力有限；(2)没有语义标签的指导，学习到的哈希码中所包含的语义信息有限，语义信息的不足将直接影响检索精度；(3)大多采用“松弛+量化”两步优化策略求解哈希码，求解过程存在较大的量化误差。

发明内容

为了解决现有技术的不足，本公开提供了一种基于虚拟标签回归的无监督跨模态哈希检索方法及系统，将特征表示和哈希函数学习整合到一个统一的深度框架中，通过多模态深度特征的协同矩阵分解学习共享的哈希码，以保证多个模态共享相同的语义；在此基础上，引入虚拟标签的概念，通过非负谱分析学习虚拟标签，同时将学习到的虚拟标签回归到哈希码中，保证了哈希码和虚拟标签之间的语义一致性，提高了跨模态检索的性能。

为了实现上述目的，本公开采用如下技术方案：

第一方面，本公开提供了一种基于虚拟标签回归的无监督跨模态哈希检索方法，步骤如下：

获取跨模态检索数据集，并将它们划分为训练集、测试集和数据库集，其中每个样本都包括成对的图像和文本两个模态的数据；

构建深度哈希网络模型并进行网络参数初始化，将两个模态的原始数据分别输入到所构建的深度哈希网络中，分别得到两个模态的哈希函数；

利用各模态的哈希函数获取测试集和数据库集中样本的哈希码，计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离，数据库集样本按其对应的汉明距离升序排序，得到检索结果。

作为进一步的限定，计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离，具体为：给定一个测试样本，计算该测试样本的哈希码跟数据库集中的所有样本的哈希码之间汉明距离，然后数据库集样本按照汉明距离排序，跟测试样本距离小的排在前面，距离大的排在后面，从而验证准确度。

作为进一步的限定，对于图像模态，采用VGG-16模型作为深度哈希网络模型，并使用在大规模ImageNet数据集上预先训练的权值对其进行初始化，其中VGG-16是一种深度卷积神经网络模型，16表示其深度，此模型可以达到92.7％的测试准确度；模型的卷积层和前两个全连接层构成特征表示部分，用于获取图像的深度特征，最后一个全连接层的神经元数目设置为哈希码长度，并选择双曲正切函数作为激活函数，得到深度网络的输出。

作为进一步的限定，对于文本模态，首先基于Bag-of-words模型(词袋模型)提取文本特征，然后将文本特征传输到全连接层，前两个全连接层用于获取文本的深度特征，最后一个全连接层的神经元数目设置为哈希码长度，选择双曲正切函数作为激活函数，得到深度网络的输出。

作为可能的一些实现方式，将两个模态的原始数据分别输入到所构建的深度哈希网络中，获取两个模态的深度特征矩阵，所述深度特征矩阵沿着网络继续传输，得到深度哈希网络的输出值。

作为进一步的限定，根据训练集的深度特征矩阵、图像虚拟标签和深度哈希网络的输出值，分别构建深度特征的协同矩阵分解、虚拟标签的学习与回归以及哈希函数学习的损失函数，整合上述损失函数得到整体的目标函数，求解目标函数，分别得到两个模态的哈希函数。

作为更进一步的限定，采用迭代优化方法求解目标函数，利用反向传播和随机梯度下降算法更新网络参数，直至收敛。

作为更进一步的限定，所述整体的目标函数为：

上式左边第一项通过深度特征的协同矩阵分解，分别建立两个模态样本的深度特征和共享哈希码之间的关联；第二项将虚拟标签G回归到哈希码B中，保持了哈希码和虚拟标签之间的语义一致性；第三项通过非负谱分析学习虚拟标签；第四项分别学习两种模态的深度哈希函数。

其中，Z_t表示第t个模态的深度特征矩阵，U_t表示第t个模态的潜在因子矩阵，B是学习到的共享哈希码，α_t是两个模态间的权重因子，η用来控制权重的分布，G表示虚拟标签矩阵，P是语义转换矩阵，L是图拉普拉斯矩阵，F_t(X_t；W_t)是深度哈希网络的输出值，λ、β和μ是正则化参数，I表示单位矩阵。

第二方面，本公开提供了一种基于虚拟标签回归的无监督跨模态哈希检索系统，包括：

图像预处理模块，被配置为：获取跨模态检索数据集，并将它们划分为训练集、测试集和数据库集，其中每个样本都包括成对的图像和文本两个模态的数据；

网络模型构建模块，被配置为：构建深度哈希模型并进行网络参数初始化；

深度特征矩阵及深度网络输出获取模块，被配置为：将两个模态的原始数据分别输入到所构建的深度哈希网络中，获取深度特征矩阵，所述深度特征矩阵沿着网络继续传输，得到深度哈希网络的输出值；

目标函数构建模块，被配置为：根据训练集的深度特征矩阵、图像虚拟标签和深度哈希网络的输出值，分别构建深度特征的协同矩阵分解、虚拟标签的学习与回归，以及哈希函数学习的损失函数，整合上述损失函数得到整体的目标函数；

哈希函数学习模块，采用迭代优化方法求解目标函数，利用反向传播和随机梯度下降算法更新网络参数，直至收敛，分别得到两个模态的哈希函数；

检索模块，利用各模态的哈希函数获取测试集和数据库集中样本的哈希码，计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离，数据库集样本按其对应的汉明距离升序排序，得到检索结果。

第三方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本公开所述的基于虚拟标签回归的无监督跨模态哈希检索方法。

第四方面，本公开提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现本公开所述的基于虚拟标签回归的无监督跨模态哈希检索方法。

与现有技术相比，本公开的有益效果是：

本公开所述的方法及系统，将特征表示和哈希函数学习整合到一个统一的深度框架中，通过多模态深度特征的协同矩阵分解学习共享哈希码，以保证多个模态共享相同的语义。在此基础上，引入虚拟标签的概念，通过非负谱分析学习虚拟标签，同时将学习到的虚拟标签回归到哈希码中，保证了哈希码和虚拟标签之间的语义一致性。

在本公开所述的框架中，深度特征的协同矩阵分解和虚拟标签的学习与回归有利于深度特征表示和哈希函数的学习，改进后的深度特征表示和哈希模型有利于协同矩阵分解和虚拟标签的学习与回归，两者相互促进，提高了跨模态检索的性能。

本公开提出了一种新的离散优化策略，直接更新深度哈希函数和哈希码，有效地降低了现有方法中松弛策略的量化误差。

附图说明

图1为本公开实施例1所述的基于虚拟标签回归的无监督跨模态哈希检索方法的整体网络框架。

图2为本公开实施例1所述的基于虚拟标签回归的无监督跨模态哈希检索方法的流程图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1：

如图1-2所示，本公开实施例1提供了一种基于虚拟标签回归的无监督跨模态哈希检索方法，包括：

S1：获取跨模态检索数据集，并将它们划分为训练集、测试集和数据库集，其中每个样本都包括成对的图像和文本两个模态的数据。

训练集有n个样本，每个样本都包括成对的图像和文本两个模态数据。样本的图像特征矩阵表示为

d₁表示图像特征的维度，样本的文本特征矩阵表示为

d₂表示文本特征的维度，目标是学习共享的哈希码B∈[-1,1]^n×r，r表示哈希码的长度。

S2：构建深度哈希模型并进行网络参数初始化。

深度哈希网络由两部分组成。对于图像模态，采用VGG-16模型作为基本的深度哈希网络模型，并使用在大规模ImageNet数据集上预先训练的权值对其进行初始化。卷积层和前两个全连接层构成特征表示部分，用于获取图像的深度特征，最后一个全连接层的神经元数目设置为哈希码长度，并选择双曲正切函数作为激活函数，得到深度网络的输出。

对于文本模态，首先基于Bag-of-words模型提取文本特征，然后将文本特征传输到全连接层，前两个全连接层用于获取文本的深度特征，同样地，最后一个全连接层的神经元数目设置为哈希码长度，选择双曲正切函数作为激活函数。两个模态中全连接层的网络设置相同。

S3：将两个模态的原始数据分别输入到所构建的深度哈希网络中，获取深度特征矩阵Z_t，Z_t沿着网络继续传输，得到深度哈希网络的输出值F_t(X_t；W_t)，其中，t表示模态信息，t＝1时，代表图像模态，t＝2时，代表文本模态，X_t表示原始数据特征矩阵，W_t表示深度哈希网络的参数。

S4：根据训练集的深度特征矩阵Z_t、图像虚拟标签G和深度哈希网络的输出F_t(X_t；W_t)，分别构深度特征的协同矩阵分解、虚拟标签的学习与回归，以及哈希函数学习的损失函数，整合得到整体的目标函数。

S41：深度特征的协同矩阵分解损失函数获取方法具体为：在跨模态检索中，多模态样本的不同模态都描述相同的样本，因此它们应该具有相同的语义；在汉明空间中，假设具有语义关联的异构模态共享相同的哈希码，则可以通过协同矩阵分解模型来捕获模态间的语义相关性，最小化矩阵分解过程中的重构误差可以表示为：

其中，

表示第t个模态的深度特征矩阵，D_t表示深度特征的维度，n表示训练集样本点的个数，

表示第t个模态的潜在因子矩阵，r表示哈希码的长度，为了避免平凡解，U_t是正交的，I是单位矩阵，B∈R^n×r是学习到的共享哈希码，

是两个模态间的权重因子，η用来控制权重的分布。

S42：虚拟标签的学习与回归损失函数获取方法具体为：有监督哈希方法利用语义标签进行哈希学习，能获得更好的检索性能，然而，获取高质量的语义标签需耗费巨大的人力、物力和财力，影响检索系统的可扩展性；本实施例提出虚拟标签的概念，采用非负谱分析来学习虚拟标签，并将虚拟标签G∈R^n×c返回到哈希码B中，从而保证学习到的哈希码跟虚拟标签保持语义一致性；数学上，将这个联合学习框架表示为：

其中，λ和β是正则化参数，G∈R^n×c表示虚拟标签矩阵，c表示标签的个数，P∈R^c×r是语义转换矩阵，L∈R^n×n为图拉普拉斯矩阵，I是单位矩阵。上述公式将虚拟标签转换到低维汉明空间中，使虚拟标签与相应的哈希码保持语义一致，保证共享相同标签的样本在汉明空间中将具有相同的哈希码，从而使学习到的哈希码具有更强的判别性。虚拟标签的学习过程中，考虑到谱分析的时间复杂度过高，不适用于大数据集，本实施例采用锚点图策略获得近似相似度矩阵S＝AΛ^-1A^T，其中，A∈R^n×m表示n个数据样本和m个锚点间的相似度矩阵，Λ＝diag(A^T1)∈R^m×m，其中diag(·)用于构建对角矩阵，1表示元素全为1的矩阵。此时，公式(2)中的图拉普拉斯矩阵L可以表示为：

L＝I_n-S＝I_n-AΛ^-1A (3)

其中，I_n为n×n的单位矩阵。

S43：哈希函数学习损失函数获取方法具体为：最小化深度神经网络的输出F_t(X_t；W_t)与学习到的哈希码B之间的量化损失，可以得到：

其中，t表示模态信息，t＝1时，代表图像模态，t＝2时，代表文本模态，X_t表示原始数据特征矩阵，W_t表示深度哈希网络的参数，μ≥0是正则化参数。样本外的新的查询样本可以使用上面的公式直接生成哈希码。

S44：综合步骤S41到S43得到基于虚拟标签回归的无监督深度跨模态哈希的目标函数如下：

其中，上式左边第一项通过深度特征的协同矩阵分解，分别建立两个模态样本的深度特征和共享哈希码之间的关联；第二项将虚拟标签G回归到哈希码B中，保持了哈希码和虚拟标签之间的语义一致性；第三项通过非负谱分析学习虚拟标签；第四项分别学习两种模态的深度哈希函数。

S5：采用迭代优化方法求解目标函数，利用反向传播和随机梯度下降算法更新网络参数，直至收敛，分别得到两个模态的哈希函数。

公式(5)中的目标函数的优化求解对所涉及的变量都是非凸的，但如果其它变量是固定，它对于任意一个变量都是凸的，因此，本实施例使用迭代优化算法求解目标函数。

具体优化步骤如下：

S51：固定其他变量更新权重参数

目标函数变为：

对

求偏导，并将其设为零，可以得到：

S52：固定其他变量求解潜在因子矩阵U_t。目标函数变为：

由于U_t是正交矩阵，公式(8)可以简化为：

其中，F_t＝Z_tB。假设Q_t是F_t的左奇异值，V_t是F_t的右奇异值，

是维度为D_t×r的单位矩阵，则U_t可以计算为：

S53：固定其他变量求解语义转换矩阵P，目标函数变为：

对P求偏导，并将其设为零，可以得到P的封闭解：

P＝(λG^TG+δI)^-1λG^TB (12)

S54：固定其他变量求解虚拟标签矩阵G，目标函数变为：

公式(13)中的目标函数不是凸函数，为了使问题可解，放松正交约束，把它重写为：

其中，γ使正交条件的松弛调整参数，受非负矩阵分解的启发，可以得到如下的虚拟标签更新规则：

S55：固定其他变量更新哈希码B。目标函数变为：

求解哈希码B的过程不需要松弛离散约束条件，直接计算可以得到：

其中sgn(·)是符号函数，如果括号内元素为正，其值为1，否则其值为-1。

S56：固定其他变量更新深度哈希网络的参数W_t，目标函数变为：

利用反向传播和随机梯度下降法，可以对深度哈希网络进行微调，训练网络的参数W_t。哈希函数可以根据更新规则学习，直至收敛。当一个新的查询样本到达时，可以使用sgn(F_t(X_t；W_t))获得它的哈希码。

S6：利用各模态的哈希函数获取测试集和数据库集中样本的哈希码，计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离，数据库集样本按其对应的汉明距离升序排序，得到检索结果。

本实施例采用TopK-精度(TopK-precision)和平均精度(Mean AveragePrecision,MAP)作为评价指标，它们的值越大表示检索性能越好。具体定义分别为：

1)TopK-precision

该标准反映了检索精度随着检索到的样本数量的变化而变化的情况。获取检索到前K个样本，TopK-precision表示K个样本中相关样本所占的比例。

2)MAP

给定一个检索样本集合，其中每个检索样本的平均准确率(AP)定义为：

其中，R是返回的检索样本总数，N是返回的与查询相关的样本总数，P(r)表示前r个检索结果的精度，如果第r个检索得到的样本与查询样本相关则δ(r)＝1，否则δ(r)＝0，所有样本的AP值的平均值即MAP。

实施例2：

本公开实施例2提供了一种基于虚拟标签回归的无监督深度跨模态哈希检索系统，包括：

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本公开实施例1所述的基于虚拟标签回归的无监督深度跨模态哈希检索方法。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现本公开实施例1所述的基于虚拟标签回归的无监督深度跨模态哈希检索方法。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于虚拟标签回归的无监督跨模态哈希检索方法，其特征在于，步骤如下：

利用各模态的哈希函数获取测试集和数据库集中样本的哈希码，计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离，数据库集样本按其对应的汉明距离升序排序，得到检索结果；

将两个模态的原始数据分别输入到所构建的深度哈希网络中，获取两个模态的深度特征矩阵，所述深度特征矩阵沿着网络继续传输，得到深度哈希网络的输出值；

根据训练集的深度特征矩阵、虚拟标签矩阵和深度哈希网络的输出值，分别构建深度特征的协同矩阵分解、虚拟标签的学习与回归以及哈希函数学习的损失函数，整合上述损失函数得到整体的目标函数，求解目标函数，分别得到两个模态的哈希函数，所述目标函数，具体为：

上式左边第一项通过深度特征的协同矩阵分解，分别建立两个模态样本的深度特征和共享哈希码之间的关联；第二项将虚拟标签矩阵G回归到哈希码B中，保持了哈希码和虚拟标签之间的语义一致性；第三项通过非负谱分析学习虚拟标签；第四项分别学习两种模态的深度哈希函数，Z_t表示第t个模态的深度特征矩阵，U_t表示第t个模态的潜在因子矩阵，B是学习到的共享哈希码，α_t是两个模态间的权重因子，η用来控制权重的分布，G表示虚拟标签矩阵，P是语义转换矩阵，L是图拉普拉斯矩阵，F_t(X_t；W_t)是深度哈希网络的输出值，λ、β和μ是正则化参数，I表示单位矩阵，n表示训练集样本点的个数，r表示哈希码的长度，X_t表示原始数据特征矩阵，W_t表示整个深度哈希网络的参数。

2.如权利要求1所述的基于虚拟标签回归的无监督跨模态哈希检索方法，其特征在于，采用迭代优化方法求解目标函数，利用反向传播和随机梯度下降算法更新网络参数，直至收敛。

3.如权利要求1所述的基于虚拟标签回归的无监督跨模态哈希检索方法，其特征在于，对于图像模态，采用VGG-16模型作为深度哈希网络模型，并使用在大规模ImageNet数据集上预先训练的权值对其进行初始化，卷积层和前两个全连接层构成特征表示部分，用于获取图像的深度特征，最后一个全连接层的神经元数目设置为哈希码长度，并选择双曲正切函数作为激活函数，得到深度网络的输出。

4.如权利要求1所述的基于虚拟标签回归的无监督跨模态哈希检索方法，其特征在于，对于文本模态，首先基于Bag-of-words模型提取文本特征，然后将文本特征传输到全连接层，前两个全连接层用于获取文本的深度特征，最后一个全连接层的神经元数目设置为哈希码长度，选择双曲正切函数作为激活函数，得到深度网络的输出。

5.如权利要求1所述的基于虚拟标签回归的无监督跨模态哈希检索方法，其特征在于，采用精度和平均精度作为检索评价指标，所述精度和平均精度值越大表示检索性能越好。

6.一种基于虚拟标签回归的无监督跨模态哈希检索系统，其特征在于，包括：

目标函数构建模块，被配置为：根据训练集的深度特征矩阵、虚拟标签和深度哈希网络的输出值，分别构建深度特征的协同矩阵分解、虚拟标签的学习与回归，以及哈希函数学习的损失函数，整合上述损失函数得到整体的目标函数；

检索模块，利用各模态的哈希函数获取测试集和数据库集中样本的哈希码，计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离，数据库集样本按其对应的汉明距离升序排序，得到检索结果；

所述目标函数，具体为：

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一项所述的基于虚拟标签回归的无监督跨模态哈希检索方法。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5任一项所述的基于虚拟标签回归的无监督跨模态哈希检索方法。