CN115374165A

CN115374165A - 基于三重矩阵分解的数据检索方法、系统及设备

Info

Publication number: CN115374165A
Application number: CN202211298601.6A
Authority: CN
Inventors: 刘兴波; 李佳敏; 聂秀山; 王少华; 尹义龙
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2022-11-22
Anticipated expiration: 2042-10-24
Also published as: CN115374165B

Abstract

本公开提供了一种基于三重矩阵分解的数据检索方法、系统及设备，属于信息检索领域，包括获取待检索的图像和文本两种模态的数据样本，对数据样本进行三重矩阵分解，设定对数据样本进行三重矩阵分解的约束值，构建目标函数；基于目标函数得到哈希函数，再根据哈希函数对数据样本进行投影，对应生成数据样本的哈希编码；计算数据样本的哈希编码和已经训练好的哈希编码之间的汉明距离，并进行排序，得到数据样本的检索结果，有效的挖掘到模态内的多样性和模态间的一致性信息，从而提升哈希函数和哈希编码的判别性，具有训练和检索速度快、检索性能高的特点。

Description

基于三重矩阵分解的数据检索方法、系统及设备

技术领域

本公开涉及信息检索技术领域，具体涉及一种基于三重矩阵分解的数据检索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着互联网、云计算和多媒体等技术的迅速发展，社交媒体中不同模态数据的呈现爆炸式的增长趋势，因此用户不再满足于单一模态数据间的相似性检索，而更多的关注于跨模态数据间相互检索，跨模态检索的任务是给定一个模态的查询对象，期望找到另一模态中的与之语义相似的集合，如文本检索图像、图像检索文本等。

然而，现有的多模态数据具有维度高和样本海量的特点，多数方案中并没有考虑异构性、语义鸿沟和可靠的标签信息数据，并且上述数据也比较难以获取到。

发明内容

本公开为了解决上述问题，提出了基于三重矩阵分解的数据检索方法及系统，利用三重矩阵分解模型将异构数据投影到统一的低维子空间，自适应地学习类属性特征，获得具有语义嵌入信息的公共表示；引入一种鲁棒的损失函数，增强模型对离群点样本的鲁棒性，生成高质量的公共表示和哈希编码；针对样本外扩展问题，提出了一种双重哈希函数策略，期望挖掘到模态内的多样性和模态间的一致性信息，从而提升哈希函数和哈希编码的判别性，具有训练和检索速度快、检索性能高的特点。

根据一些实施例，本公开采用如下技术方案：

基于三重矩阵分解的数据检索方法，包括以下步骤：

获取待检索的图像和文本两种模态的数据样本，并进行预处理；

对数据样本进行三重矩阵分解，设定对数据样本进行三重矩阵分解的约束值，构建目标函数；

基于目标函数得到哈希函数，再根据哈希函数对数据样本进行投影，对应生成数据样本的哈希编码；

计算数据样本的哈希编码和已经训练好的哈希编码之间的汉明距离，并进行排序，得到数据样本的检索结果。

根据另一些实施例，本公开采用如下技术方案：

基于三重矩阵分解的数据检索系统，包括：

数据采集模块，用于获取待检索的图像和文本两种模态的数据样本，并进行预处理；

模型构建模块，用于对数据样本进行三重矩阵分解，设定对数据样本进行三重矩阵分解的约束值，构建目标函数；

哈希码矩阵和哈希函数生成模块，用于基于目标函数得到哈希函数，再根据哈希函数对数据样本进行投影，对应生成数据样本的哈希编码；

检索结果获取模块，用于计算数据样本的哈希编码和已经训练好的哈希编码之间的汉明距离，并进行排序，得到数据样本的检索结果。

根据一些实施例，本公开还采用如下技术方案：

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现所述的基于三重矩阵分解的数据检索方法中的步骤。

与现有技术相比，本公开的有益效果为：

本公开通过整合三重矩阵分解技术、柯西损失函数、线性回归模型和低秩约束，学习潜在的类属性、公共语义表示和双重哈希函数，离散地优化训练数据的哈希码；在检索查询阶段，通过目标函数得到双重哈希函数，生成检索查询样本的哈希编码，有效的实现跨模态检索。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例的基于三重矩阵分解的数据检索方法流程图；

图2是本公开实施例的基于三重矩阵分解的数据检索系统结构示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

本公开的一种实施例中提供了一种基于三重矩阵分解的数据检索方法，包括以下步骤：

S101：获取待检索的图像和文本两种模态的数据样本，并进行预处理；

S102：对数据样本进行三重矩阵分解，设定对数据样本进行三重矩阵分解的约束值，构建目标函数；

S103：基于目标函数得到哈希函数，再根据哈希函数对数据样本进行投影，对应生成数据样本的哈希编码；

S104：计算数据样本的哈希编码和已经训练好的哈希编码之间的汉明距离，并进行排序，得到数据样本的检索结果。

作为一种实施例，对模型进行训练的步骤为：

H1：获取原始数据集，作为训练样本；

具体的，原始数据集中模态也包括图像数据和文本数据这两种模态数据，对原始数据集的训练样本进行中心化和核化处理，得到核化的图像训练数据，简称为图像数据，记为

；核化的文本训练数据，简称为文本数据，记为

。其中，

为锚点数量，

为训练样本的数量。

H2：对数据样本进行三重矩阵分解，设定对数据样本进行三重矩阵分解的约束值，构建目标函数；

具体的，在所述目标函数中，三重矩阵分解的目标为：将高维异构数据投影到低维公共子空间中，保持原空间的相似信息，即每个样本所属类别不变。一般来说，每个类别有自己的类属性特征，因此希望通过探索原始异构空间与低维公共子空间之间共享的类属性特征，学习具有语义嵌入信息的公共表示。同时引入柯西损失函数对原始数据三重矩阵分解模型中的异常值进行约束，目标函数如下：

其中，

为图像模态的基矩阵，

为文本模态的基矩阵，

为类属性矩阵，

为公共表示矩阵，

是一个常数。

进一步的，柯西损失函数定义如下：

其中

是对称的正定函数，

是一个常数参数。

将样本数据的三重矩阵分解模型

带入到柯西损失函数中，可以减少原始数据样本中异常值的干扰，增强模型稳定性，具体过程被描述如下：

这个过程引入柯西损失函数约束三重矩阵分解的重构误差，在一定程度上缓解了异常值和噪声的影响。

在所述目标函数中，通过最小化实值公共表示与哈希编码之间的量化误差，更好地将公共子空间中包含的语义信息传递到汉明空间。这个过程可以被描述如下：

其中，

是训练样本统一的哈希编码，

是超参数。

在具体实施过程中，在所述目标函数中，学习两种哈希函数的目标为:挖掘多模态数据的特定和一致信息，在哈希编码中保持不同模态的多样性和互补信息。同时对一致投影矩阵施加核范数，使其具有低秩性；对特定投影矩阵施加F范数，防止过拟合。表达式如下：

其中，

表示模态特定的映射矩阵，

表示模态间一致的映射矩阵。对于一致映射矩阵，利用核范数对其进行低秩约束，使其保留更多地共有信息；对于模态特定的映射矩阵，利用Frobenius范数对其进行约束，防止训练过程过拟合；

,

和

是超参数。

H3：基于目标函数得到哈希函数，再根据哈希函数对数据样本进行投影，对应生成数据样本的哈希编码；

上一步骤H2学到的映射矩阵和数据样本的特征矩阵进行矩阵相乘运算，然后再进行符号函数运算，得到数据样本的哈希编码;

具体的，将待检索的图像数据右乘以

和

后取符号函数

变为1和-1或者将待检索的文本数据右乘以

和

后取符号函数

，在生成查询样本的哈希码，获取到训练数据的哈希码。

其中，目标函数由四项构成，第一项通过三重矩阵分解得到潜在类属性特征和低维公共表示；第二项最小化公共表示和哈希码之间的量化误差，将公共表示的语义信息嵌入到哈希编码中；第三项学习两种投影矩阵，即模态特定和模态一致的哈希函数，并对分别其进行平滑和低秩约束；第四项是正则化项，避免过拟合问题。

最终生成的目标函数为：

其中，

表示模态特定的映射矩阵，

表示模态间一致的映射矩阵，

,

和

是超参数，

为类属性矩阵，

为公共表示矩阵，

是一个常数，

是训练样本统一的哈希编码，

是超参数，U _i表示基矩阵，

为训练样本的数量。

通过整合三重矩阵分解模型、柯西损失函数、线性回归模型和低秩约束，学习潜在的类属性、公共语义表示和双重哈希函数，离散地优化训练数据的哈希编码；在查询阶段，通过目标函数得到的双重哈希函数，生成查询样本的哈希编码，实现跨模态检索。

作为一种实施例中，具体数据检索方法实现的过程为：

所述预处理包括对两种模态的数据样本进行中心化和核化处理，得到核化的图像数据以及核化的文本数据。

进一步的，对数据样本进行三重矩阵分解，设定对数据样本进行三重矩阵分解的约束值，构建目标函数；在构建的目标函数中，三重矩阵分解的目标为：将异构的数据样本从高维投影到低维公共子空间中，保持原空间的相似信息，使其每个样本所属类型不变。在所述目标函数中，通过引入柯西损失函数来度量重构损失，缓解离群样本的干扰，增强模型的鲁棒性。

作为一种实施方式，在所述目标函数中，通过最小化实值公共表示与哈希编码之间的量化误差，更好地将公共子空间中包含的语义信息传递到汉明空间。

作为一种实施方式，在所述目标函数中，学习两种哈希函数的目标为:挖掘多模态数据的特定和一致信息，在哈希码中保留模态间的多样性和互补信息。同时对一致投影矩阵施加核范数，使其具有低秩性；对特定投影矩阵施加F范数，避免过拟合问题。对一致投影矩阵施加核范数，对特定投影矩阵施加F范数。

计算数据样本的哈希编码和已经训练好的哈希编码之间的汉明距离，并进行排序，得到数据样本的检索结果，具体的采用现有的异或运算进行计算。

为了验证本实施例方法在跨模态检索上的优越性，选择3个公开的数据集上进行实验，其中包括Wiki数据集，MIRFlickr数据集和NUS-WIDE数据集；跨模态检索评价采用平均准确率（Mean Average Precision, mAP）,定义如下：

其中，

为查询集的大小，

表示检索返回的前

个与查询样本相关的检索集样本数量，

表示第

次查询返回的前

项的正确率。如果检索集中第

个样本与第

个查询样本相关，那么

；否则，

。在本实验中，设置R为50；mAP值代表平均准确率。

表1在Wiki数据集上的实验结果

表2在MIRFlickr数据集上的实验结果

表3在NUS-WIDE数据集上的实验结果

通过表1、表2和表3说明：

本实施例方法与现有的7种跨模态检索方法进行比较，即跨视图哈希方法-CVH、跨媒体哈希方法-IMH、协同矩阵分解哈希方法-CMFH、鲁棒跨视图哈希-RCH、融合相似性哈希-FSH、鲁棒灵活离散哈希-RFDH、离散鲁棒矩阵分解哈希-DRMFH这7种跨模态检索方法。

所有方法在如表1、表2和表3这三个数据集上进行了对比实验，图像检索文本和文本检索图像两个任务上哈希码从16比特变化到128比特，本实例方法的平均精度均值-mAP值优于其他对比实验方法，证明了其利用三重矩阵分解、柯西损失函数和双重哈希函数生成哈希码的效果好于其他的方法。

实施例2

本公开的一种实施例中提供了一种基于三重矩阵分解的数据检索系统，包括：

作为一种实施例，具体实现以下方法步骤：

具体的，目标函数由四项构成，第一项通过三重矩阵分解得到潜在类属性特征和低维公共表示；第二项最小化公共表示和哈希码之间的量化误差，将公共表示的语义信息嵌入到哈希编码中；第三项学习两种投影矩阵，即模态特定和模态一致的哈希函数，并对分别其进行平滑和低秩约束；第四项是正则化项，避免过拟合问题。

实施例3

本公开的一种实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现所述的基于三重矩阵分解的数据检索方法中的步骤。

本公开是参照根据本公开实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于三重矩阵分解的数据检索方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于三重矩阵分解的数据检索方法，其特征在于，所述预处理包括对两种模态的数据样本进行中心化和核化处理，得到核化的图像数据以及核化的文本数据。

3.如权利要求1所述的基于三重矩阵分解的数据检索方法，其特征在于，在构建的目标函数中，三重矩阵分解的目标为：将异构的数据样本从高维投影到低维公共子空间中，保持原空间的相似信息，使其每个样本所属类型不变。

4.如权利要求1所述的基于三重矩阵分解的数据检索方法，其特征在于，引入柯西损失函数对数据样本三重矩阵分解中的异常值进行约束。

5.如权利要求1所述的基于三重矩阵分解的数据检索方法，其特征在于，在所述目标函数中，通过最小化实值公共表示与哈希编码之间的量化误差，将公共子空间中包含的语义信息传递到汉明空间。

6.如权利要求1所述的基于三重矩阵分解的数据检索方法，其特征在于，对一致投影矩阵施加核范数，对特定投影矩阵施加F范数。

7.如权利要求1所述的基于三重矩阵分解的数据检索方法，其特征在于，所述目标函数由四项构成，第一项为通过三重矩阵分解得到的潜在类属性特征和低维公共表示；第二项为最小化公共表示和哈希码之间的量化误差，将公共表示的语义信息嵌入到哈希编码；第三项为学习的两种投影矩阵，即模态特定和模态一致的哈希函数，并对分别其进行平滑和低秩约束；第四项是正则化项。

8.如权利要求1所述的基于三重矩阵分解的数据检索方法，其特征在于，最终构建的目标函数为：