CN109255098A

CN109255098A - 一种基于重构约束的矩阵分解哈希方法

Info

Publication number: CN109255098A
Application number: CN201810746141.6A
Authority: CN
Inventors: 陈辉; 王海涛; 武继刚; 孟敏
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2019-01-22
Anticipated expiration: 2038-07-09
Also published as: CN109255098B

Abstract

本发明涉及图像处理方法的技术领域，更具体地，涉及一种基于重构约束的矩阵分解哈希方法，该方法首先使用矩阵因式分解技术来学习图片数据和文本数据的共同潜在语义信息；然后通过计算得到一组通用的映射矩阵；之后利用可获得的数据标签信息，将图拉普拉斯约束引入到潜在语义信息中，以增强本方法的识别力；最后通过原始图片与文本的数据重构，减少冗余信息的干扰。本发明通过对原始数据进行重构分离原始数据中的有效信息和冗余信息，增强矩阵因式分解技术的潜在语义信息的获取能力，从而提高了检索的成功率，同时能够很好地适用于大规模的跨模态检索任务。

Description

一种基于重构约束的矩阵分解哈希方法

技术领域

本发明涉及图像处理方法的技术领域，更具体地，涉及一种基于重构约束的矩阵分解哈希方法。

背景技术

随着互联网的快速发展，互联网中的数据表达变得多样化，例如：一个网页中通常会包含图片、文本、视频、音频等多媒体数据。目前传统的检索方式大多基于单模态，即只对相同类型的数据进行检索，如文本检索、图像检索、视频检索等。用户如何在多模态数据中高效地检索到自己想要的数据成为一个具有挑战性的问题。为了解决这个问题，检索领域的研究热点逐渐倾向于跨模态检索。跨模态检索可以提交任何媒体形式的内容以搜索相关的信息，其主要问题是如何度量不同模态数据之间的语义相似性。

近年来，由于基于矩阵因式分解的哈希方法能够很好的挖掘不同模态数据之间的共同语义，这种方法吸引了大量的关注。然而真实世界中的数据往往存在大量冗余信息，会极大的影响多模态数据的语义相似比较，且目前已有的矩阵因式分解哈希方法不能够很好处理这个问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于重构约束的矩阵分解哈希方法，加入对数据的重构约束，保证原始图片和文本信息在映射到共同的语义空间时尽可能多的保留原有数据的特征信息，能够提高检索的精度。

为解决上述技术问题，本发明采用的技术方案是：

提供一种基于重构约束的矩阵分解哈希方法，包括以下步骤：

S1.通过矩阵因式分解学习图片和文本的共同潜在语义空间矩阵S，通过对所述共同语义空间矩阵S与图片矩阵X和文本矩阵Y进行范数运算，得到用于查询项的映射矩阵P₁和P₂；

S2.对步骤S1中所述共同潜在语义空间矩阵S进行拉普拉斯正则约束；

S3.在步骤S1所述矩阵因式分解框架下，引入数据重构约束，对图片和文本进行重构；所述重构约束表示为X＝Q₁P₁X+E₁和Y＝Q₂P₂Y+E₂，其中Q_*为重构矩阵，P_*为映射矩阵，E_*表示冗余信息，*可取1和2；

S4.对步骤S1、步骤S2、步骤S3进行整理得到统一待优化的目标函数，然后通过增广拉格朗日乘子法对目标变量进行迭代更新得到最优解P₁、P₂、S；

S5.通过符号函数sign(·)对步骤S4中共同潜在语义空间矩阵S进行量化，得到图片和文本统一的哈希码。

本发明通过对原始数据进行重构分离原始数据中的有效信息和冗余信息，增强矩阵因式分解技术的潜在语义信息的获取能力，同时能够减少映射过程中信息的丢失，使得生成的哈希码能包含更多的重要的特征信息，因此在进行检索任务时可以返回更加准确的检索结果。

优选地，步骤S1中图片和文本的共同潜在语义空间矩阵S的学习方法如下：

S11.通过矩阵因式分解，将图片矩阵X和文本矩阵Y分解为两个矩阵相乘的形式：X＝U₁×S,Y＝U₂×S，其中，U₁和U₂分别为X和Y矩阵因式分解的因子矩阵；

S12.使用步骤S11中所述矩阵因式分解，学习X和Y之间的共同潜在语义空间，表达如下式：

式(1)中，mf表示矩阵因式分解，表示矩阵的F范数，α为平衡参数；

S13.学习一组映射矩阵P₁和P₂将X和Y映射到共同潜在语义空间S中,其公式表达如下：

式(2)中，lp表示线性映射，P₁、P₂为分别用于图片矩阵和文本矩阵的映射矩阵。

优选地，步骤S2所述拉普拉斯正则约束方法如下：

O_sc＝tr(SLS^T) (3)

式中，sc表示语义约束，S^T表示共同潜在语义空间矩阵S的转置，tr(·)为矩阵的迹函数，L是为图片和文本标签信息的拉普拉斯矩阵。

优选地，步骤S3中所述中重构约束的表达式如下：

式中，Q表示重构矩阵，Q^T表示重构矩阵的转置，P表示映射矩阵，E表示冗余信息。步骤S3中采用数据重构约束，对原数据X和Y进行重构，将原数据重要的特征信息与冗余信息分离，从而使得映射矩阵P₁和P₂能将原始数据中更多的重要的特征信息映射到潜在语义空间S，而减少冗余信息E的干扰；采用重构矩阵Q代替P^T执行重构操作，在对目标函数进行优化时可分别实现对重构矩阵 Q与P^T的优化，从而使得映射矩阵P具有更强的映射能力，减少映射过程原始数据信息的损失。

优选地，步骤S4中，目标哈希函数由式(1)、式(2)、式(3)、式(4)整理得到：

式中，表示矩阵的F范数的平方，用于防止模型过拟合。α，β，γ，λ为平衡参数，tr(·)为矩阵的迹函数。在这里，本方法将重构约束项X＝Q₁P₁X+E₁和Y＝Q₂P₂Y+E₂、矩阵分解项以及图拉普拉斯约束项tr(SLS^T) 进行联合优化学习完备的潜在语义信息，从而能够准确描述原始数据的本征特征。

与现有技术相比，本发明的有益效果是：

附图说明

图1为本发明的基于重构约束的矩阵分解哈希方法的流程图。

图2为实施例一中基于重构约束的矩阵分解哈希方法的应用示意图。

具体实施方式

下面结合具体实施方式对本发明作进一步的说明。其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例1

如图1所示为本发明的基于重构约束的矩阵分解哈希方法的第一实施例，包括以下步骤：

S1.通过矩阵因式分解学习图片和文本数据的共同潜在语义空间矩阵S，通过对所述共同语义空间矩阵S与图片矩阵X和文本矩阵Y进行范数运算，得到用于查询项的映射矩阵P₁和P₂；

为了度量图片和文本之间的语义相似度，首先需要学习它们的共同潜在语义空间，在这个空间中，两种不同模态的数据可以度量相互之间的语义相似度。本方法通过使用矩阵因式分解，学习图片X与文本Y之间的共同潜在语义空间S，公式表达如下：

学习到共同潜在语义空间S后，对于查询数据，需要学习一组映射矩阵将其映射到共同潜在语义空间S中，与数据库中的数据进行相似度量。映射矩阵的学习公式表示如下：

其中，lp表示线性映射，P₁、P₂为分别用于图片和文本的映射矩阵。

S2.利用图片和文本数据的标签信息，对步骤S1中所述共同潜在语义空间矩阵S进行拉普拉斯正则约束；

为了增强本方法的识别力，即在潜在语义空间中相似的数据样本靠的更近，而不相似的数据样本则相互远离，本方法利用图片和文本的标签信息，对潜在语义空间S进行图拉普拉斯正则，公式表达如下：

O_sc＝tr(SLS^T) (3)

由于真实世界中的图片和文本往往存在大量的冗余信息，会极大地干扰检索的准确度，因此对原始数据执行重构操作，即X_*＝Q_*P_*X_*+E_*，将原始数据X_*分为“重要信息”Q_*P_*X_*和“冗余信息”E_*。保证被映射的部分是“重要信息”，而“冗余信息”则尽可能的少被映射到潜在语义空间，减少冗余信息的干扰。同时，考虑到原始数据映射到潜在语义空间的过程往往是一个降维的过程，在降维的同时，会造成某些重要信息的丢失。通过对原始数据执行重构操作，可以减少这些重要信息的丢失。

整理公式(1)、(2)、(3)、(4)得到目标函数：

其中，tr(·)为迹函数。用于防止模型过拟合。α，β，λ，γ为平衡参数。通过增广拉格朗日乘子法交替迭代目标变量，最终得到一组映射矩阵 P₁、P₂，和共同潜在语义空间S。

完成步骤S1至步骤S4后，开始检索，通过sign(S)得到哈希码作为数据库。当有新的查询项N输入：(1)若输入的为图片，则使用映射矩阵P₁将其映射至共同潜在语义空间，通过sign(P₁N)得到哈希码，然后与数据库中的哈希码进行汉明距离测量，返回与其最汉明距离最小的哈希码，最后通过解码返回查询结果； (2)若输入的为文本，则使用映射矩阵P₂，后面操作与(1)相同。

本实施例所用测试数据集为维基百科图文数据集，它从维基百科特色文章中收集的，共有2866个多媒体文件，每一个媒体文件包含一张图片和至少70个词的文段。每张图片由128维的尺度不变特征直方图表示，每一段文本由10维的主题向量表示。它共包含10大类语义，每一对图文对都属于10大类中的一类。如图2所示，输入文本查询例1、文本查询例2、文本查询例3，列出前5张返回项，其中画叉的图片表示非相关检索项。由返回结果可见，本发明在检索任务时可以返回准确的检索结果。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于重构约束的矩阵分解哈希方法，其特征在于，包括以下步骤：

S1.通过矩阵因式分解学习图片矩阵X和文本矩阵Y的共同潜在语义空间矩阵S，通过对所述共同语义空间矩阵S与图片矩阵X和文本矩阵Y进行范数运算，得到用于查询项的映射矩阵P₁和P₂；

S2.利用图片和文本的标签信息，对步骤S1所述共同潜在语义空间矩阵S进行拉普拉斯正则约束；

S3.在步骤S1、步骤S2所述矩阵因式分解框架下，引入数据重构约束，对图片和文本进行重构；所述重构约束表示为X＝Q₁P₁X+E₁和Y＝Q₂P₂Y+E₂，其中Q_*为重构矩阵，P_*为映射矩阵，E_*表示冗余信息，*可取1和2；

S5.通过符号函数sign(·)对步骤S4中共同潜在语义空间矩阵S进行量化，得到表示图片和文本的统一哈希码。

2.根据权利要求1所述的基于重构约束的矩阵分解哈希方法，其特征在于，步骤S1中图片和文本的共同潜在语义空间矩阵S的学习方法如下：

S11.通过矩阵因式分解，将X和Y分解为两个矩阵相乘的形式：X＝U₁×S,Y＝U₂×S，其中，U₁和U₂分别为X和Y的因子矩阵；

3.根据权利要求2所述的基于重构约束的矩阵分解哈希方法，其特征在于，步骤S2所述拉普拉斯正则约束表达如下：

O_sc＝tr(SLS^T) (3)

4.根据权利要求3所述的基于重构约束的矩阵分解哈希方法，其特征在于，步骤S3中重构约束的表达式如下：

式中，Q表示重构矩阵，Q^T表示重构矩阵的转置，P表示映射矩阵，E表示冗余信息，I表示单位矩阵。

5.根据权利要求4所述的基于重构约束的矩阵分解哈希方法，其特征在于，步骤S4中，目标哈希函数由式(1)、式(2)、式(3)、式(4)整理得到：

式中，表示矩阵的F范数的平方，用于防止模型过拟合。α，β，γ，λ为平衡参数，tr(·)为矩阵的迹函数。