CN113656700A

CN113656700A - 基于多相似度一致矩阵分解的哈希检索方法

Info

Publication number: CN113656700A
Application number: CN202110985144.7A
Authority: CN
Inventors: 姚涛; 李艺茹; 王洪刚; 张小峰; 刘莉
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-11-16

Abstract

本发明公开了基于多相似度一致矩阵分解的哈希检索方法，其通过互联网收集图像和文本数据建立数据集，并将数据集划分为训练集和测试集；利用BOW算法分别提取所有图像和文本模态数据的特征；为了更好地挖掘不同模态之间的语义相关性，设计了一个多相似度一致矩阵，该矩阵既能保持数据之间的绝对相似度，又能保持数据之间的相对相似度；利用多相似度一致矩阵和矩阵分解将图像、文本数据分别映射到一个语义子空间；利用类标签衍生出一个语义子空间，并利用该空间对齐图像和文本模态的语义；通过最小化量化损失生成统一的哈希码；本发明具有较高的检索性能，容易应用到大规模数据集，因此具有广阔的应用前景。

Description

基于多相似度一致矩阵分解的哈希检索方法

技术领域

本发明尤其涉及基于多相似度一致矩阵分解的哈希检索方法，属于多媒体检索的跨模态检索技术领域。

背景技术

随着5G网络的到来，社交网络上产生了大量的多媒体数据，如文字、图片、视频等；面对如此庞大的数据量，如何高效地进行检索是一个越来越受到关注的问题；近年来，最近邻检索引起了人们的广泛关注；它可以从候选数据库中选择与查询数据最匹配的数据；然而，随着互联网上数据的爆炸式增长，在大规模数据集上的最近邻检索通常会导致检索速度慢、存储成本大等问题；为了解决上述问题，有研究者提出了哈希技术，将原始空间中的相似点映射到相似的哈希码中，然后用异或运算快速计算的汉明距离测量数据之间的相似性；由于哈希技术计算效率和存储成本都很高，因此在多媒体检索领域引起了广泛的关注。

早期哈希技术在单模态检索中得到了广泛应用；随着网络社会的快速发展，互联网上产生了大量的多媒体数据，使得检索工作日益复杂化，变成更有挑战性的任务；因此，跨模态检索成为一个新的研究热点，跨模态检索的主要目标是建立不同的模态之间的关系，具体来说，当提交一个查询时，类似的对象可以由检索系统以其他方式返回；然而，不同形式之间存在普遍的语义差距；因此，如何尽可能地保持不同模态之间的语义相关性成为跨模态检索的重要目标之一。

矩阵分解可以捕获隐藏在原始数据中的固有的数据结构，它是子空间学习的强有力工具；为了解决跨模态检索的任务，设计了几种基于矩阵分解的哈希方法，获得了较好的检索性能；但是，这些方法普遍存在以下缺点；首先，大多数模型通过使用协同矩阵分解保持模态间相似性，然而，不同模态的数据大多位于完全不同的特征空间，因此，直接对异构的成对数据生成一致表示会导致训练过程的巨大开销，从而导致性能下降；其次，为了生成更具鉴别性的哈希码，一些学者提出在哈希学习过程中保持模态内相似性，然而，它只是试图维护基于语义结构的局部数据结构或类标签，不足以捕获训练数据中的内在结构；第三，大多数方法首先学习一个实值公共空间，然后量化实值表示为简单的离散哈希码，但是，量化过程往往导致量化损失大并且检索性能低。

发明内容

本发明的目的在于克服上述已有技术的不足而提供基于多相似度一致矩阵分解的哈希检索方法。

本发明提供的技术方案如下：基于多相似度一致矩阵分解的哈希检索方法，其特征在于其包括以下步骤：

1)步骤S1，通过互联网收集图像和文本两个模态的数据，并建立图像和文本两个模态的数据集，并将两个模态的数据集划分为训练集和测试集；

2)步骤S2，分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征；

3)步骤S3，构造训练集上的基于多相似度一致矩阵分解的哈希检索的总目标函数，其包括以下步骤：

步骤S31，用

来描述训练集的数据特征，其中

，

和

分别代表两个模态的维度，n为样本对的数量；

，其中

表示第t个模态；

是来自图像和文本两个模态的特征向量；在不丢失一般性的情况下，不同模态的数据均采用零均值化

；

代表类标签矩阵并且

代表第i个标签向量，其中c是全部类别的数量；

表示第i个训练数据属于第q个语义类别，反之

；

表示哈希码，其中，k表示哈希码的长度；

步骤S32，用径向基核函数将两个模态的数据特征映射到核空间：

表示径向基核函数的参数,

(

)表示

个从训练集中随机选取的数据作为锚点；

步骤S33，用

和

分别表示图像和文本模态的核化后的数据，先通过矩阵分解学习独立的子空间：

其中

是一个投影矩阵，

是一个独立的子空间，

是控制图像模态的权重，

是F-范数；

步骤S34，类标签首先被映射到一个语义空间，在这个语义空间中，具有相同类标签的数据具有相同的表示；然后通过语义空间将跨模态语义信息对齐，其目标函数可定义为：

其中Z是一个将类标签映射到语义空间的投影矩阵，

是权重系数；

步骤S35，为每个模态学习一个线性映射矩阵

，其目标函数定义为：

其中

是线性投影正则项的权重系数；

设计一个多相似度一致矩阵，该矩阵既能保持数据之间的绝对相似度，又能保持数据之间的相对相似度；对

，

和

归一化为

，

和

后，通过以下方式计算每个模态和类别标签的相似矩阵：

，

和

；

然后，通过加权求和的方式将它们合并，得到绝对相似矩阵，如下所示：

；

将相对相似度定义如下：

；

其中

是描述文本和标签之间高阶邻域信息重要性的折衷参数，

是描述图片和标签之间高阶邻域信息重要性的折衷参数；

步骤S36，根据绝对相似度和相对相似度的定义，将多相似度一致矩阵表示为：

；

上述公式不仅将类标签嵌入到多相似度矩阵构建中，而且将跨不同模态的高阶领域信息结合起来构建多相似度矩阵；

步骤S37，为了保持哈希码中基于多相似矩阵的相似性，其目标函数可定义为:

其中

，

是一个对角矩阵，对角矩阵的元素是

，

是验证多相似矩阵重要性的平衡参数；

步骤S38，为了从学习的语义表示中生成哈希码，提出通过最小化量化损失来进一步提高哈希码的质量，其目标函数可定义为：

其中

是一个正交旋转矩阵，

是学习哈希码重要性的参数；

步骤S39，构建的总目标函数为：

，

其中

，表示为了避免过拟合，其中

是为了避免过拟合而设置的参数；

4)步骤S4，求解步骤S3所述的总目标函数，得到图像、文本的投影到海明空间的投影矩阵

、图像文本的哈希码

和正交旋转矩阵

，其包括以下步骤：

步骤S41：固定总目标函数中的其他项，求解图像模态的投影矩阵

；

步骤S42：固定总目标函数中的其他项，求解文本模态的投影矩阵

；

步骤S43：固定总目标函数中的其他项，求解哈希码

；

步骤S44：固定总目标函数中的其他项，求解正交旋转矩阵

；由奇异值的方法求解，即：

，则

；

步骤S45: 判断是否达到最大迭代次数或最近两次迭代损失的差小于0.001，如果不是则继续迭代；如果是，则停止循环；

5)步骤S5，对于测试集中的数据，根据步骤S4求得的投影矩阵

和正交旋转矩阵R，给定第t个模态查询数据

，其对应的测试集中数据的哈希码可通过以下方式获得:

；

6)步骤S6，基于测试数据的哈希码，在训练集中检索与测试集中待检索数据距离近的另一模态的数据。

优选地，所述的步骤S1 中，包括从网络上的社交网站收集图像和文本两个模态的样本，并根据图像和文本共现关系构成图像和文本样本，构建数据集；使用NUS-WIDE数据集，其由81类图像及其相应的文本标记组成；从数据集中随机选择80%的图像文本标记对组成训练集，其余的组成测试集。

优选地，所述的S2中，对图像使用由SIFT特征作为视觉单词的词袋模型提取特征，对文本使用传统的词袋模型提取特征。

本发明的有益效果是：本发明将矩阵分解和相似性保持集成到一个统一的框架中；具体来说，首先通过矩阵分解和多相似度一致矩阵生成独立的语义子空间，使学习的语义子空间更具判别性；然后，通过类标签构建语义子空间，以连接不同模态之间的语义相关性；最后，设计了一种直接生成离散统一哈希码的离散优化算法。

本发明在基于哈希的跨模态检索中，充分利用了数据特征的分布，将原始的数据特征映射到两个独立子空间中；它可以有效地利用类标签得到的语义空间来建立由矩阵分解生成的独立子空间之间的关系；因此，在学习到的公共语义空间中，可以很好地保留模态间的相似度，从而提高对语义空间和哈希码的识别；本发明设计了一种多相似度一致矩阵，该矩阵不仅能将不同模态之间的相似度信息进行融合，而且能较好地捕捉数据之间潜在的语义相似度；因此，训练数据的固有局部结构可以在哈希码中得到更好的保留；本发明检索的准确率高，容易应用于大规模数据集，并且具有广阔的应用前景。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做详细说明：

虽然本发明指定了图像和文本两个模态，但是算法很容易的扩展到其他模态和多于两个模态的情况；为了方便描述，本发明只考虑图像和文本两个模态。

如图1所示，基于多相似度一致矩阵分解的哈希检索方法，其包括以下步骤：

1)步骤S1，通过互联网收集图像和文本两个模态的数据，并建立图像和文本两个模态的数据集，并将两个模态的数据集划分为训练集和测试集；包括从网络上的社交网站收集图像和文本两个模态的样本，并根据图像和文本共现关系构成图像和文本样本，构建数据集；使用NUS-WIDE数据集，其由81类图像及其相应的文本标记组成；从数据集中随机选择80%的图像文本标记对组成训练集，其余的组成测试集。

2)步骤S2，分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征；对图像使用由SIFT特征作为视觉单词的词袋模型提取特征，对文本使用传统的词袋模型提取特征。

步骤S31，用

来描述训练集的数据特征，其中

，

和

分别代表两个模态的维度，n为样本对的数量；

，其中

表示第t个模态；

；

代表类标签矩阵并且

代表第i个标签向量，其中c是全部类别的数量；

表示第i个训练数据属于第q个语义类别，反之

；

表示哈希码，其中，k表示哈希码的长度。

表示径向基核函数的参数, 设置

=1；

(

)表示

个从训练集中随机选取的数据作为锚点。

步骤S33，

和

分别表示来自图像和文本模态的核化数据，为了解决异构数据之间的相关性问题，提出了先通过矩阵分解学习独立的子空间：

其中

是一个投影矩阵，

是一个独立的子空间，

是控制图像模态的权重，设置

=0.6；

是F-范数。

其中Z是一个将类标签映射到语义空间的投影矩阵，

是权重系数；其中，

=11。

步骤S35，为每个模态学习一个线性映射矩阵

，其目标函数可定义为：

其中

是线性投影正则项的权重系数；设置

=5。

为了更好地发现不同模态之间的语义相关性，本发明设计了一个多相似度一致矩阵，该矩阵既能保持数据之间的绝对相似度，又能保持数据之间的相对相似度；对

，

和

归一化为

，

和

后，，通过以下方式计算每个模态和类别标签的相似矩阵：

，

和

；

；

然而，仅考虑数据的绝对相似性不足以描述训练集数据的内在局部结构，导致待学习的哈希码无法保持适当的相似性；因此，有必要引入额外的相似信息来产生更优化的哈希码；为此，将相对相似度定义如下：

；

其中

是描述文本和标签之间高阶邻域信息重要性的折衷参数，

是描述图片和标签之间高阶邻域信息重要性的折衷参数，且

均为0.1。

；

上述公式不仅将类标签嵌入到多相似度矩阵构建中，而且将跨不同模态的高阶领域信息结合起来构建多相似度矩阵。

其中

，

是一个对角矩阵，对角矩阵的元素是

，

是验证多相似矩阵重要性的平衡参数，设置

=0.00001。

其中

是一个正交旋转矩阵，

是学习哈希码重要性的参数，设置

=0.1。

步骤S39，构建的总目标函数为：

，

其中

，表示为了避免过拟合，其中

是为了避免过拟合而设置的参数，设置

=0.001。

、图像文本的哈希码

和正交旋转矩阵

；

其包括以下步骤：

；

；

步骤S43：固定总目标函数中的其他项，求解哈希码

；

步骤S44：固定总目标函数中的其他项，求解正交旋转矩阵

；由奇异值的方法求解，即：

，则

；

步骤S45: 判断是否达到最大迭代次数或最近两次迭代损失的差小于0.001，如果不是则继续迭代；如果是，则停止循环。

5)步骤S5，对于测试集中的数据，根据步骤S4求得的投影矩阵

和正交旋转矩阵R，给定第t个模态查询数据

，其对应的测试集中数据的哈希码可通过以下方式获得:

。

6) 步骤S6，基于测试数据的哈希码，在训练集中检索与测试集中待检索数据距离近的另一模态的数据。

实验效果：

本实施例在NUS-WIDE数据集进行验证，此数据集含有269684图像和文本组成的样本对，这些样本对可划分为81个语义类别；随机选取80%的样本对构成训练集，其他的20%构成测试集；将图像用500维的纹理的特征表示，将文本用1000维的词袋特征表示，并对特征做归一化、去均值（零中心）处理；以平均准确率（Mean Average Precision，MAP@50）作为性能的评估标准，其中50表示MAP的值由前50个返回的样本计算，并将本方案和MTFH（X. Liu,Z. Hu, H. Ling, and Y. M. Cheung, “Mtfh: A matrix tri-factorization hashingframework for effificient cross-modal retrieval,” IEEE Transactions onPattern Analysis and Machine Intelligence, vol. 43, no. 3, pp. 964–981,2021.）进行对比，其中16位、24位、32位和64位码长在图像检索文本和文本检索任务上的准确率如表1所示。

以NUS-WIDE数据集进行验证，检索准确率如表1所示。

表1 NUS-WIDE数据集上8中跨模态检索的MAP@50比较

可以看出，本发明设计了一种多相似度一致矩阵，该矩阵不仅能将不同模态之间的相似度信息进行融合，而且能较好地捕捉数据之间潜在的语义相似度；因此，训练集数据的固有局部结构可以在哈希码中得到更好的保留；它可以有效地利用类标签得到的语义空间来建立由矩阵分解生成独立的子空间；因此，在学习到的语义空间中，可以很好地保留模态间的相似度，从而提高对语义空间和哈希码的识别；这些操作使得检索的准确率高，容易应用于大规模数据集，具有广阔的应用前景。

应当理解的是，本说明书未详细阐述的部分都属于现有技术；以上的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明范围进行限定，在不脱离本发明设计精神的前提下，本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.基于多相似度一致矩阵分解的哈希检索方法，其特征在于其包括以下步骤：

步骤S31，用

来描述训练集的数据特征，其中

，

和

分别代表两个模态的维度，n为样本对的数量；

，其中

表示第t个模态；

；

代表类标签矩阵并且

代表第i个标签向量，其中c是全部类别的数量；

表示第i个训练数据属于第q个语义类别，反之

；

表示哈希码，其中，k表示哈希码的长度；

表示径向基核函数的参数,

(

)表示

个从训练集中随机选取的数据作为锚点；

步骤S33，用

和

其中

是一个投影矩阵，

是一个独立的子空间，

是控制图像模态的权重，

是F-范数；

其中Z是一个将类标签映射到语义空间的投影矩阵，

是权重系数；

步骤S35，为每个模态学习一个线性映射矩阵

，其目标函数定义为：

其中

是线性投影正则项的权重系数；

，

和

归一化为

，

和

后，通过以下方式计算每个模态和类别标签的相似矩阵：

，

和

；

；

将相对相似度定义如下：

；

其中

是描述文本和标签之间高阶邻域信息重要性的折衷参数，

是描述图片和标签之间高阶邻域信息重要性的折衷参数；

；

其中

，

是一个对角矩阵，对角矩阵的元素是

，

是验证多相似矩阵重要性的平衡参数；

其中

是一个正交旋转矩阵，

是学习哈希码重要性的参数；

步骤S39，构建的总目标函数为：

，

其中

，表示为了避免过拟合，其中

是为了避免过拟合而设置的参数；

、图像文本的哈希码

和正交旋转矩阵

，其包括以下步骤：

；

；

步骤S43：固定总目标函数中的其他项，求解哈希码

；

步骤S44：固定总目标函数中的其他项，求解正交旋转矩阵

；由奇异值的方法求解，即：

，则

；

5)步骤S5，对于测试集中的数据，根据步骤S4求得的投影矩阵

和正交旋转矩阵R，给定第t个模态查询数据

，其对应的测试集中数据的哈希码可通过以下方式获得:

；

2.根据权利要求1所述的基于多相似度一致矩阵分解的哈希检索方法，其特征在于，所述的步骤S1 中，包括从网络上的社交网站收集图像和文本两个模态的样本，并根据图像和文本共现关系构成图像和文本样本，构建数据集；使用NUS-WIDE数据集，其由81类图像及其相应的文本标记组成；从数据集中随机选择80%的图像文本标记对组成训练集，其余的组成测试集。

3.根据权利要求1所述的基于多相似度一致矩阵分解的哈希检索方法，其特征在于，所述的S2中，对图像使用由SIFT特征作为视觉单词的词袋模型提取特征，对文本使用传统的词袋模型提取特征。