CN109255098A - 一种基于重构约束的矩阵分解哈希方法 - Google Patents
一种基于重构约束的矩阵分解哈希方法 Download PDFInfo
- Publication number
- CN109255098A CN109255098A CN201810746141.6A CN201810746141A CN109255098A CN 109255098 A CN109255098 A CN 109255098A CN 201810746141 A CN201810746141 A CN 201810746141A CN 109255098 A CN109255098 A CN 109255098A
- Authority
- CN
- China
- Prior art keywords
- matrix
- formula
- text
- picture
- mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及图像处理方法的技术领域,更具体地,涉及一种基于重构约束的矩阵分解哈希方法,该方法首先使用矩阵因式分解技术来学习图片数据和文本数据的共同潜在语义信息;然后通过计算得到一组通用的映射矩阵;之后利用可获得的数据标签信息,将图拉普拉斯约束引入到潜在语义信息中,以增强本方法的识别力;最后通过原始图片与文本的数据重构,减少冗余信息的干扰。本发明通过对原始数据进行重构分离原始数据中的有效信息和冗余信息,增强矩阵因式分解技术的潜在语义信息的获取能力,从而提高了检索的成功率,同时能够很好地适用于大规模的跨模态检索任务。
Description
技术领域
本发明涉及图像处理方法的技术领域,更具体地,涉及一种基于重构约束的矩阵分解哈希方法。
背景技术
随着互联网的快速发展,互联网中的数据表达变得多样化,例如:一个网页中通常会包含图片、文本、视频、音频等多媒体数据。目前传统的检索方式大多基于单模态,即只对相同类型的数据进行检索,如文本检索、图像检索、视频检索等。用户如何在多模态数据中高效地检索到自己想要的数据成为一个具有挑战性的问题。为了解决这个问题,检索领域的研究热点逐渐倾向于跨模态检索。跨模态检索可以提交任何媒体形式的内容以搜索相关的信息,其主要问题是如何度量不同模态数据之间的语义相似性。
近年来,由于基于矩阵因式分解的哈希方法能够很好的挖掘不同模态数据之间的共同语义,这种方法吸引了大量的关注。然而真实世界中的数据往往存在大量冗余信息,会极大的影响多模态数据的语义相似比较,且目前已有的矩阵因式分解哈希方法不能够很好处理这个问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于重构约束的矩阵分解哈希方法,加入对数据的重构约束,保证原始图片和文本信息在映射到共同的语义空间时尽可能多的保留原有数据的特征信息,能够提高检索的精度。
为解决上述技术问题,本发明采用的技术方案是:
提供一种基于重构约束的矩阵分解哈希方法,包括以下步骤:
S1.通过矩阵因式分解学习图片和文本的共同潜在语义空间矩阵S,通过对所述共同语义空间矩阵S与图片矩阵X和文本矩阵Y进行范数运算,得到用于查询项的映射矩阵P1和P2;
S2.对步骤S1中所述共同潜在语义空间矩阵S进行拉普拉斯正则约束;
S3.在步骤S1所述矩阵因式分解框架下,引入数据重构约束,对图片和文本进行重构;所述重构约束表示为X=Q1P1X+E1和Y=Q2P2Y+E2,其中Q*为重构矩阵,P*为映射矩阵,E*表示冗余信息,*可取1和2;
S4.对步骤S1、步骤S2、步骤S3进行整理得到统一待优化的目标函数,然后通过增广拉格朗日乘子法对目标变量进行迭代更新得到最优解P1、P2、S;
S5.通过符号函数sign(·)对步骤S4中共同潜在语义空间矩阵S进行量化,得到图片和文本统一的哈希码。
本发明通过对原始数据进行重构分离原始数据中的有效信息和冗余信息,增强矩阵因式分解技术的潜在语义信息的获取能力,同时能够减少映射过程中信息的丢失,使得生成的哈希码能包含更多的重要的特征信息,因此在进行检索任务时可以返回更加准确的检索结果。
优选地,步骤S1中图片和文本的共同潜在语义空间矩阵S的学习方法如下:
S11.通过矩阵因式分解,将图片矩阵X和文本矩阵Y分解为两个矩阵相乘的形式:X=U1×S,Y=U2×S,其中,U1和U2分别为X和Y矩阵因式分解的因子矩阵;
S12.使用步骤S11中所述矩阵因式分解,学习X和Y之间的共同潜在语义空间,表达如下式:
式(1)中,mf表示矩阵因式分解,表示矩阵的F范数,α为平衡参数;
S13.学习一组映射矩阵P1和P2将X和Y映射到共同潜在语义空间S中,其公式表达如下:
式(2)中,lp表示线性映射,P1、P2为分别用于图片矩阵和文本矩阵的映射矩阵。
优选地,步骤S2所述拉普拉斯正则约束方法如下:
Osc=tr(SLST) (3)
式中,sc表示语义约束,ST表示共同潜在语义空间矩阵S的转置,tr(·)为矩阵的迹函数,L是为图片和文本标签信息的拉普拉斯矩阵。
优选地,步骤S3中所述中重构约束的表达式如下:
式中,Q表示重构矩阵,QT表示重构矩阵的转置,P表示映射矩阵,E表示冗余信息。步骤S3中采用数据重构约束,对原数据X和Y进行重构,将原数据重要的特征信息与冗余信息分离,从而使得映射矩阵P1和P2能将原始数据中更多的重要的特征信息映射到潜在语义空间S,而减少冗余信息E的干扰;采用重构矩阵Q代替PT执行重构操作,在对目标函数进行优化时可分别实现对重构矩阵 Q与PT的优化,从而使得映射矩阵P具有更强的映射能力,减少映射过程原始数据信息的损失。
优选地,步骤S4中,目标哈希函数由式(1)、式(2)、式(3)、式(4)整理得到:
式中,表示矩阵的F范数的平方,用于防止模型过拟合。α,β,γ,λ为平衡参数,tr(·)为矩阵的迹函数。在这里,本方法将重构约束项X=Q1P1X+E1和Y=Q2P2Y+E2、矩阵分解项以及图拉普拉斯约束项tr(SLST) 进行联合优化学习完备的潜在语义信息,从而能够准确描述原始数据的本征特征。
与现有技术相比,本发明的有益效果是:
本发明通过对原始数据进行重构分离原始数据中的有效信息和冗余信息,增强矩阵因式分解技术的潜在语义信息的获取能力,同时能够减少映射过程中信息的丢失,使得生成的哈希码能包含更多的重要的特征信息,因此在进行检索任务时可以返回更加准确的检索结果。
附图说明
图1为本发明的基于重构约束的矩阵分解哈希方法的流程图。
图2为实施例一中基于重构约束的矩阵分解哈希方法的应用示意图。
具体实施方式
下面结合具体实施方式对本发明作进一步的说明。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
如图1所示为本发明的基于重构约束的矩阵分解哈希方法的第一实施例,包括以下步骤:
S1.通过矩阵因式分解学习图片和文本数据的共同潜在语义空间矩阵S,通过对所述共同语义空间矩阵S与图片矩阵X和文本矩阵Y进行范数运算,得到用于查询项的映射矩阵P1和P2;
为了度量图片和文本之间的语义相似度,首先需要学习它们的共同潜在语义空间,在这个空间中,两种不同模态的数据可以度量相互之间的语义相似度。本方法通过使用矩阵因式分解,学习图片X与文本Y之间的共同潜在语义空间S,公式表达如下:
式(1)中,mf表示矩阵因式分解,表示矩阵的F范数,α为平衡参数;
学习到共同潜在语义空间S后,对于查询数据,需要学习一组映射矩阵将其映射到共同潜在语义空间S中,与数据库中的数据进行相似度量。映射矩阵的学习公式表示如下:
其中,lp表示线性映射,P1、P2为分别用于图片和文本的映射矩阵。
S2.利用图片和文本数据的标签信息,对步骤S1中所述共同潜在语义空间矩阵S进行拉普拉斯正则约束;
为了增强本方法的识别力,即在潜在语义空间中相似的数据样本靠的更近,而不相似的数据样本则相互远离,本方法利用图片和文本的标签信息,对潜在语义空间S进行图拉普拉斯正则,公式表达如下:
Osc=tr(SLST) (3)
式中,sc表示语义约束,ST表示共同潜在语义空间矩阵S的转置,tr(·)为矩阵的迹函数,L是为图片和文本标签信息的拉普拉斯矩阵。
S3.在步骤S1所述矩阵因式分解框架下,引入数据重构约束,对图片和文本进行重构;所述重构约束表示为X=Q1P1X+E1和Y=Q2P2Y+E2,其中Q*为重构矩阵,P*为映射矩阵,E*表示冗余信息,*可取1和2;
由于真实世界中的图片和文本往往存在大量的冗余信息,会极大地干扰检索的准确度,因此对原始数据执行重构操作,即X*=Q*P*X*+E*,将原始数据X*分为“重要信息”Q*P*X*和“冗余信息”E*。保证被映射的部分是“重要信息”,而“冗余信息”则尽可能的少被映射到潜在语义空间,减少冗余信息的干扰。同时,考虑到原始数据映射到潜在语义空间的过程往往是一个降维的过程,在降维的同时,会造成某些重要信息的丢失。通过对原始数据执行重构操作,可以减少这些重要信息的丢失。
S4.对步骤S1、步骤S2、步骤S3进行整理得到统一待优化的目标函数,然后通过增广拉格朗日乘子法对目标变量进行迭代更新得到最优解P1、P2、S;
整理公式(1)、(2)、(3)、(4)得到目标函数:
其中,tr(·)为迹函数。用于防止模型过拟合。α,β,λ,γ为平衡参数。通过增广拉格朗日乘子法交替迭代目标变量,最终得到一组映射矩阵 P1、P2,和共同潜在语义空间S。
S5.通过符号函数sign(·)对步骤S4中共同潜在语义空间矩阵S进行量化,得到图片和文本统一的哈希码。
完成步骤S1至步骤S4后,开始检索,通过sign(S)得到哈希码作为数据库。当有新的查询项N输入:(1)若输入的为图片,则使用映射矩阵P1将其映射至共同潜在语义空间,通过sign(P1N)得到哈希码,然后与数据库中的哈希码进行汉明距离测量,返回与其最汉明距离最小的哈希码,最后通过解码返回查询结果; (2)若输入的为文本,则使用映射矩阵P2,后面操作与(1)相同。
本实施例所用测试数据集为维基百科图文数据集,它从维基百科特色文章中收集的,共有2866个多媒体文件,每一个媒体文件包含一张图片和至少70个词的文段。每张图片由128维的尺度不变特征直方图表示,每一段文本由10维的主题向量表示。它共包含10大类语义,每一对图文对都属于10大类中的一类。如图2所示,输入文本查询例1、文本查询例2、文本查询例3,列出前5张返回项,其中画叉的图片表示非相关检索项。由返回结果可见,本发明在检索任务时可以返回准确的检索结果。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (5)
1.一种基于重构约束的矩阵分解哈希方法,其特征在于,包括以下步骤:
S1.通过矩阵因式分解学习图片矩阵X和文本矩阵Y的共同潜在语义空间矩阵S,通过对所述共同语义空间矩阵S与图片矩阵X和文本矩阵Y进行范数运算,得到用于查询项的映射矩阵P1和P2;
S2.利用图片和文本的标签信息,对步骤S1所述共同潜在语义空间矩阵S进行拉普拉斯正则约束;
S3.在步骤S1、步骤S2所述矩阵因式分解框架下,引入数据重构约束,对图片和文本进行重构;所述重构约束表示为X=Q1P1X+E1和Y=Q2P2Y+E2,其中Q*为重构矩阵,P*为映射矩阵,E*表示冗余信息,*可取1和2;
S4.对步骤S1、步骤S2、步骤S3进行整理得到统一待优化的目标函数,然后通过增广拉格朗日乘子法对目标变量进行迭代更新得到最优解P1、P2、S;
S5.通过符号函数sign(·)对步骤S4中共同潜在语义空间矩阵S进行量化,得到表示图片和文本的统一哈希码。
2.根据权利要求1所述的基于重构约束的矩阵分解哈希方法,其特征在于,步骤S1中图片和文本的共同潜在语义空间矩阵S的学习方法如下:
S11.通过矩阵因式分解,将X和Y分解为两个矩阵相乘的形式:X=U1×S,Y=U2×S,其中,U1和U2分别为X和Y的因子矩阵;
S12.使用步骤S11中所述矩阵因式分解,学习X和Y之间的共同潜在语义空间,表达如下式:
式(1)中,mf表示矩阵因式分解,表示矩阵的F范数,α为平衡参数;
S13.学习一组映射矩阵P1和P2将X和Y映射到共同潜在语义空间S中,其公式表达如下:
式(2)中,lp表示线性映射,P1、P2为分别用于图片矩阵和文本矩阵的映射矩阵。
3.根据权利要求2所述的基于重构约束的矩阵分解哈希方法,其特征在于,步骤S2所述拉普拉斯正则约束表达如下:
Osc=tr(SLST) (3)
式中,sc表示语义约束,ST表示共同潜在语义空间矩阵S的转置,tr(·)为矩阵的迹函数,L是为图片和文本标签信息的拉普拉斯矩阵。
4.根据权利要求3所述的基于重构约束的矩阵分解哈希方法,其特征在于,步骤S3中重构约束的表达式如下:
式中,Q表示重构矩阵,QT表示重构矩阵的转置,P表示映射矩阵,E表示冗余信息,I表示单位矩阵。
5.根据权利要求4所述的基于重构约束的矩阵分解哈希方法,其特征在于,步骤S4中,目标哈希函数由式(1)、式(2)、式(3)、式(4)整理得到:
式中,表示矩阵的F范数的平方,用于防止模型过拟合。α,β,γ,λ为平衡参数,tr(·)为矩阵的迹函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810746141.6A CN109255098B (zh) | 2018-07-09 | 2018-07-09 | 一种基于重构约束的矩阵分解哈希方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810746141.6A CN109255098B (zh) | 2018-07-09 | 2018-07-09 | 一种基于重构约束的矩阵分解哈希方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109255098A true CN109255098A (zh) | 2019-01-22 |
CN109255098B CN109255098B (zh) | 2023-01-17 |
Family
ID=65051539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810746141.6A Active CN109255098B (zh) | 2018-07-09 | 2018-07-09 | 一种基于重构约束的矩阵分解哈希方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109255098B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059154A (zh) * | 2019-04-10 | 2019-07-26 | 山东师范大学 | 一种基于继承映射的跨模态迁移哈希检索方法 |
TWI799274B (zh) * | 2021-05-24 | 2023-04-11 | 宏達國際電子股份有限公司 | 運算方法以及運算系統 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120179634A1 (en) * | 2010-07-01 | 2012-07-12 | Nec Laboratories America, Inc. | System and methods for finding hidden topics of documents and preference ranking documents |
CN106777318A (zh) * | 2017-01-05 | 2017-05-31 | 西安电子科技大学 | 基于协同训练的矩阵分解跨模态哈希检索方法 |
CN107480688A (zh) * | 2017-06-20 | 2017-12-15 | 广东工业大学 | 基于零样本学习的细粒度图像识别方法 |
-
2018
- 2018-07-09 CN CN201810746141.6A patent/CN109255098B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120179634A1 (en) * | 2010-07-01 | 2012-07-12 | Nec Laboratories America, Inc. | System and methods for finding hidden topics of documents and preference ranking documents |
CN106777318A (zh) * | 2017-01-05 | 2017-05-31 | 西安电子科技大学 | 基于协同训练的矩阵分解跨模态哈希检索方法 |
CN107480688A (zh) * | 2017-06-20 | 2017-12-15 | 广东工业大学 | 基于零样本学习的细粒度图像识别方法 |
Non-Patent Citations (1)
Title |
---|
樊花等: "基于哈希方法的跨模态检索研究进展", 《数据通信》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059154A (zh) * | 2019-04-10 | 2019-07-26 | 山东师范大学 | 一种基于继承映射的跨模态迁移哈希检索方法 |
TWI799274B (zh) * | 2021-05-24 | 2023-04-11 | 宏達國際電子股份有限公司 | 運算方法以及運算系統 |
Also Published As
Publication number | Publication date |
---|---|
CN109255098B (zh) | 2023-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230206000A1 (en) | Data-driven structure extraction from text documents | |
CN103049435B (zh) | 文本细粒度情感分析方法及装置 | |
US10606883B2 (en) | Selection of initial document collection for visual interactive search | |
CN110147457A (zh) | 图文匹配方法、装置、存储介质及设备 | |
CN104866471B (zh) | 一种基于局部敏感哈希策略的实例匹配方法 | |
CN113661487A (zh) | 使用机器训练词条频率加权因子的产生密集嵌入向量的编码器 | |
Staar et al. | Corpus processing service: a knowledge graph platform to perform deep data exploration on corpora | |
CN109255098A (zh) | 一种基于重构约束的矩阵分解哈希方法 | |
Meng et al. | Concept-concept association information integration and multi-model collaboration for multimedia semantic concept detection | |
Krutil et al. | Web page classification based on schema. org collection | |
CN109685103A (zh) | 一种基于广义k均值算法的文本多标记学习方法 | |
Gollapalli et al. | Automated discovery of multi-faceted ontologies for accurate query answering and future semantic reasoning | |
Bollegala et al. | Minimally supervised novel relation extraction using a latent relational mapping | |
Su et al. | Understanding query interfaces by statistical parsing | |
Arasu et al. | Towards a domain independent platform for data cleaning | |
Zhang et al. | Semantics-preserving hashing based on multi-scale fusion for cross-modal retrieval | |
Mengle et al. | Mastering machine learning on Aws: advanced machine learning in Python using SageMaker, Apache Spark, and TensorFlow | |
Templ et al. | Visualization and imputation of missing values | |
Nitsche et al. | Development of an end-to-end deep learning pipeline | |
Liu et al. | Creating descriptive visual words for tag ranking of compressed social image | |
Su et al. | Query interfaces understanding by statistical parsing | |
Zhang et al. | CAE-GReaT: Convolutional-Auxiliary Efficient Graph Reasoning Transformer for Dense Image Predictions | |
Zachariah | A System for Large-Scale Image and Video Retrieval on Everyday Scenes | |
Brask | Evaluating Transfer Learning Models on Synthetic Data for Beverage Label Image Retrieval: A Comparative Study | |
Xia et al. | A review of cross-modal retrieval for image-text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |