CN107256271B - 基于映射字典学习的跨模态哈希检索方法 - Google Patents

基于映射字典学习的跨模态哈希检索方法 Download PDF

Info

Publication number
CN107256271B
CN107256271B CN201710496980.2A CN201710496980A CN107256271B CN 107256271 B CN107256271 B CN 107256271B CN 201710496980 A CN201710496980 A CN 201710496980A CN 107256271 B CN107256271 B CN 107256271B
Authority
CN
China
Prior art keywords
text
image
sample
hash
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710496980.2A
Other languages
English (en)
Other versions
CN107256271A (zh
Inventor
姚涛
孔祥维
付海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ludong University
Original Assignee
Ludong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ludong University filed Critical Ludong University
Priority to CN201710496980.2A priority Critical patent/CN107256271B/zh
Publication of CN107256271A publication Critical patent/CN107256271A/zh
Application granted granted Critical
Publication of CN107256271B publication Critical patent/CN107256271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于映射字典学习的跨模态哈希检索方法。其通过网络收集图像和文本样本建立跨媒体检索数据集,并将数据集分为训练集和测试集;利用BOW算法提取图像和文本的特征;利用映射字典学习分别为图像和文本模态学习一个共享子空间,并同时学习各模态的哈希函数;通过学习一个正交旋转矩阵,最小化量化误差;利用图像和文本模态的哈希函数和正交旋转矩阵计算测试样本的哈希码;将一个模态的测试样本集作为查询,另一模态的训练集作为被检索数据集,计算查询样本与被检索样本的汉明距离并排序,返回排序靠前的样本。本发明具有检索的准确率高,容易应用于大规模数据集,并且实现简单等特点,因此有广阔的应用前景和巨大的市场价值。

Description

基于映射字典学习的跨模态哈希检索方法
技术领域:
本发明涉及跨模态哈希检索方法,尤其涉及基于映射字典学习的跨模态哈希检索方法。
背景技术:
随着计算机网络和信息技术的快速发展,网络上的媒体数据量急剧增长,媒体的表示形式也呈现出多模态性(图像,文本,声音,视频等)。例如:在微博上传照片时,通常会同时上传一段文字描述照片的内容或用一些标签标注图像的内容;在微信的朋友圈分享时,往往也是图文并茂;购物网站,例如淘宝,京东等,在描述产品信息时通常既用图片,又用文字。这些多模态数据虽然表现形式不同,但它们之间存在语义关联。跨媒体检索的目的就是挖掘不同媒体之间存在的语义关系,并按语义关系进行排序,返回跟查询存在较强语义关系的不同模态的数据。随着媒体数据量的急速增长和模态的多样化,传统的检索方法已经不能满足当前跨媒体检索的需求。如何在海量数据中检索不同模态的数据成为一个巨大的挑战。
哈希方法是解决大数据问题的一种有效的方法,它不仅能大大节省存储空间,而且计算效率也大幅提高。例如一张图片用5,000维的BOW(Bag Of Words)表示,假设每维用double数据类型表示,即每维占用8Bytes的存储空间,则需要5,000×8Bytes=40,000Bytes的存储空间。而哈希方法是把样本映射汉明空间,例如用32bits(8bits=1Byte)来表示一张图片,仅需要4Bytes的存储空间,大大节省了存储空间,占用的存储空间仅为原始特征空间的万分之一。在检索过程中,因为样本用二值码表示,因此在计算样本间的距离时,只需要做简单的异或操作即可,大大提升了计算的效率,使检索的时间复杂度远低于传统方法。
由于哈希方法的高效性和节省内存,最近引起了越来越多的关注。跨模态哈希的目标是为不同模态的样本学习一个共享的汉明空间,在这个空间可以实现跨媒体检索(参见文献 [1-5,7,8,10] )。基于相似敏感哈希的跨模态度量学习方法(Cross-modalityMetric learning using Similarity Sensitive Hashing,CMSSH)通过最小化不同模态的相似样本之间的汉明距离,最大化不同模态的不相似样本间的汉明距离,学习哈希函数(参见文献[1])。典型相关分析(Canonical Correlation Analysis,CCA) (参见文献[6])哈希方法,把CCA引入跨媒体哈希方法,提出最大化模态间的相关性,学习一组哈希函数(参见文献[10])。跨视角哈希(Cross-View Hashing,CVH)把谱哈希扩展到跨模态检索,通过最小化加权距离,保持相似样本模态内和模态间的相似性(参见文献[2])。多模态潜在二值嵌入(Multi-modal Latent Binary Embedding,MLBE)提出一个概率生成模型,通过保持多模态样本模态内和模态间的相似度来学习哈希函数(参见文献[8])。协同矩阵分解哈希方法(Collective Matrix Factorization Hashing,CMFH)利用协同矩阵分解保持模态间的相似性,为样本对学习同一表示(参见文献[3])。基于聚类联合矩阵分解哈希(Cluster-basedJoint Matrix Factorization Hashing,CJMFH)提出了首先对各个模态进行聚类运算,再利用矩阵分解同时保持模态内、模态间和基于聚类的相似性(参见文献[7])。以上方法虽然取得了令人满意的结果,但是学习到的哈希码不包含任何语义信息,限制了算法的性能。稀疏哈希(Latent Semantic Sparse Hashing,LSSH)为了缩小图像和文本之间的语义鸿沟,利用稀疏表示学习图像的一些显著结构,利用矩阵分解为文本学习一个潜在的语义空间,并保持模态间的语义相似性(参见文献[4])。稀疏多模态哈希(Sparse Multi-ModalHashing,SMMH)提出利用稀疏表示为图像和文本学习一个共享语义空间,保持模态间的相似性(参见文献[5])。这类方法利用稀疏表示,使哈希码包含语义信息,提升了算法的性能。但是这类算法通常存在以下问题,限制了算法的应用。1)在字典学习算法中,因为稀疏约束项的存在,导致训练和测试过程算法的复杂度高。2)这些哈希算法没有为各模态学习哈希函数。测试样本,通常需要首先解决一个Lasso问题,得到样本的稀疏表示,然后通过量化得到样本的哈希码(如文献[4]),而不能像其他哈希算法直接利用哈希函数得到样本的哈希码。3)样本表示是稀疏的,导致哈希码的-1和1分配不均匀。
针对以上问题,本发明申请提出一种基于映射字典学习的跨模态哈希检索方法。在字典学习过程中,放松了稀疏约束项,不仅降低了时间复杂度和平衡了哈希码的分布,而且在字典学习过程中得到了哈希函数。对于哈希问题的求解,现存的大部分跨模态哈希算法一般先得到问题的连续最优解,再通过量化得到样本的哈希码。但是,这些算法没有考虑量化损失对算法性能的影响。本发明申请通过最小化量化误差,学习一个正交的旋转矩阵,进一步提升算法的性能。
发明内容:
本发明的目的在于克服上述已有技术的不足,提供一种基于映射字典学习的跨模态哈希检索方法。
本发明的目的可以通过如下措施来达到:基于映射字典学习的跨模态哈希检索方法,其特征在于其通过计算机装置实现如下步骤:
1)步骤S1,通过网络收集图像和文本样本,并建立跨媒体检索的图像和文本数据集,并将图像和文本数据集分为训练集和测试集;
2)步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;
3)步骤S3,利用训练集的图像和文本样本,通过映射字典学习为图像和文本模态学习一个共享子空间,并通过保持两个模态的模态间相似度学习图像和文本模态的哈希函数;
其包含以下步骤:
步骤S31,用
Figure 349468DEST_PATH_IMAGE001
Figure 266609DEST_PATH_IMAGE002
分别表示图像和文本模态的特征描述,其中,
Figure 734762DEST_PATH_IMAGE003
Figure 882026DEST_PATH_IMAGE005
分别表示图像和文本模态特征空间的维数,
Figure 891439DEST_PATH_IMAGE006
表示样本对的数量;
Figure 158473DEST_PATH_IMAGE007
表示第
Figure 295056DEST_PATH_IMAGE008
个由图像、文本模态描述构成的样本对;
Figure 963935DEST_PATH_IMAGE009
分别表示图像和文本模态的字典,
Figure 645714DEST_PATH_IMAGE010
分别表示图像和文本模态的哈希函数,
Figure 400043DEST_PATH_IMAGE011
分别表示图像和文本模态的哈希码,其中
Figure 74738DEST_PATH_IMAGE012
表示哈希码的长度;
Figure 598123DEST_PATH_IMAGE013
Figure 214918DEST_PATH_IMAGE014
分别表示第
Figure 456544DEST_PATH_IMAGE008
个图像、文本样本的哈希码;
根据上述所述的变量,利用训练集中样本的特征构建目标函数:
其中
Figure 312822DEST_PATH_IMAGE017
为待定权重参数;一般设置
Figure 336403DEST_PATH_IMAGE018
,表明两个模态同等重要;参数
Figure 65325DEST_PATH_IMAGE019
是模态间相似性保持的权重,设置
Figure 81823DEST_PATH_IMAGE020
;参数
Figure 579800DEST_PATH_IMAGE021
是正则化项的权重,设置
Figure 538398DEST_PATH_IMAGE022
Figure 489036DEST_PATH_IMAGE023
表示字典
Figure 309225DEST_PATH_IMAGE024
的第
Figure 661709DEST_PATH_IMAGE008
个字典原子,
Figure 116891DEST_PATH_IMAGE025
表示字典
Figure 554826DEST_PATH_IMAGE026
的第
Figure 913126DEST_PATH_IMAGE008
个字典原子;
步骤S32,求解步骤S31中的目标函数,得到图像和文本模态的哈希函数;
所述步骤S32进一步包含以下步骤:
步骤S321,为图像和文本两个模态分别引入一个中间变量
Figure 385695DEST_PATH_IMAGE027
Figure 686096DEST_PATH_IMAGE028
,此时目标函数可写为:
Figure 611326DEST_PATH_IMAGE029
其中,参数
Figure 773317DEST_PATH_IMAGE030
为待定权重参数,此参数也具有一定的鲁棒性,设置
Figure 834814DEST_PATH_IMAGE031
步骤S322,初始化字典
Figure 119165DEST_PATH_IMAGE032
、哈希函数
Figure 220107DEST_PATH_IMAGE033
Figure 248106DEST_PATH_IMAGE034
、系数矩阵
Figure 367372DEST_PATH_IMAGE035
Figure 557045DEST_PATH_IMAGE036
,并设置最大迭代次数;
步骤S323, 固定其他变量求解
Figure 643818DEST_PATH_IMAGE036
,则目标函数可以写为:
Figure 147612DEST_PATH_IMAGE037
其中const 表示常数,令:
Figure 137696DEST_PATH_IMAGE038
,则可以得到闭合解:
Figure 498270DEST_PATH_IMAGE039
其中,
Figure 823072DEST_PATH_IMAGE040
表示单位矩阵;
同理:
Figure 192874DEST_PATH_IMAGE041
步骤S324,固定其他变量求解
Figure 270420DEST_PATH_IMAGE033
,则目标函数可写为:
Figure 67475DEST_PATH_IMAGE042
展开上式并对
Figure 613994DEST_PATH_IMAGE033
求导,令其导数为零,可以得到闭合解:
Figure 787486DEST_PATH_IMAGE043
同理:
Figure 486583DEST_PATH_IMAGE044
步骤S325,固定其他变量求解
Figure 454539DEST_PATH_IMAGE045
则目标函数可写为:
Figure 488354DEST_PATH_IMAGE046
该目标函数通过ADMM算法进行计算;
同理,
Figure 199958DEST_PATH_IMAGE047
用求解
Figure 252097DEST_PATH_IMAGE045
的相同方法得到;
步骤S326,判断迭代次数是否小于最大迭代次数,若是,则跳转到步骤S32继续迭代过程;若不是,则停止迭代,得到图像和文本模态的哈希函数
Figure 390954DEST_PATH_IMAGE048
Figure 912065DEST_PATH_IMAGE049
4)步骤S4,为图像和文本样本学习一个正交旋转矩阵,最小化量化误差;
所述步骤S4中为图像和文本样本学习一个正交旋转矩阵的方法,具体包含以下步骤:
步骤S41,通过学习一个旋转矩阵最小化量化误差,量化损失函数定义为:
Figure 161781DEST_PATH_IMAGE050
其中,
Figure 835470DEST_PATH_IMAGE051
为占位符,可以是
Figure 145229DEST_PATH_IMAGE052
Figure 153636DEST_PATH_IMAGE053
Figure 207042DEST_PATH_IMAGE054
表示符号函数;
Figure 233773DEST_PATH_IMAGE055
Figure 714433DEST_PATH_IMAGE056
表示
Figure 944557DEST_PATH_IMAGE057
的均值;
步骤S42,求解步骤S41中的量化损失函数,所述步骤S42进一步包含以下步骤:
步骤S421,初始化旋转矩阵
Figure 801655DEST_PATH_IMAGE058
及最大迭代次数,最大迭代次数一般可设置为50;
步骤S422,固定
Figure 184357DEST_PATH_IMAGE058
,求
Figure 835918DEST_PATH_IMAGE059
:
Figure 818918DEST_PATH_IMAGE060
步骤S423,固定
Figure 214127DEST_PATH_IMAGE059
,求
Figure 949871DEST_PATH_IMAGE058
:
Figure 37912DEST_PATH_IMAGE061
由奇异值分解(SVD)的方法求解,即:
Figure 242629DEST_PATH_IMAGE062
则:
Figure 441529DEST_PATH_IMAGE063
步骤S424,判断是否是最大迭代次数,如果不是则跳转到S422继续迭代;如果是,则停止迭代,得到正交旋转矩阵
Figure 533244DEST_PATH_IMAGE064
步骤S5,利用图像和文本模态的哈希函数和学习的正交旋转矩阵
Figure 792187DEST_PATH_IMAGE064
,通过下式计算所有样本的哈希码:
Figure 484199DEST_PATH_IMAGE065
6)步骤S6,将一个模态的测试集样本作为查询样本,而另一模态的训练集样本作为被检索数据集;计算查询样本与被检索样本的汉明距离,并按照汉明距离进行排序,并返回排序靠前的样本;
所述的查询样本与被检索样本的相似度可以利用汉明距离度量,汉明距离越小说明查询样本与被检索样本的相似度越高,反之亦然。
为了进一步实现本发明的目的,所述的步骤S1 包括从网络上的社交、购物网站分别收集图像和文本样本,并由在同一网页出现的图像和文本构成图像和文本样本对,建立跨媒体检索图像和文本数据集;所述的将图像和文本数据集分为训练集和测试集,随机选择99%的样本对构成训练数据集,剩余的1%构成测试数据集。
为了进一步实现本发明的目的,所述的步骤S2中对图像使用由SIFT(Scale-Invariant Feature Transform)特征作为视觉单词的BOW模型提取特征,对文本使用传统的BOW模型提取特征。
本发明同已有技术相比可产生如下积极效果:
1.利用映射字典学习不仅使哈希码含有语义信息,而且将传统字典学习的计算复杂度由
Figure 221211DEST_PATH_IMAGE066
降低到
Figure 931547DEST_PATH_IMAGE067
,其中
Figure 361391DEST_PATH_IMAGE068
为训练样本的数量。
2.通过学习一个正交旋转矩阵,最小化量化误差,得到了性能更好的哈希函数,并且正交旋转矩阵不会破坏目标函数解的最优性。
3.算法学习了哈希函数,图像和文本样本的哈希码可以通过哈希函数和正交旋转矩阵直接得到,这与现存的基于字典学习的哈希算法不同。
4.本发明检索的准确率高,实现简单,容易应用于大规模数据集,易于在实际中应用,具有广阔的应用前景和巨大的市场价值。
附图说明:
图1为本发明的流程示意图。
具体实施方式:下面结合附图对本发明的具体实施方式做详细说明:
虽然本发明指定了图像和文本两个模态,但是算法很容易的扩展到其他模态和多于两个模态的情况。为了方便描述,本发明只考虑图像和文本两个模态。
参见图1,基于映射字典学习的跨模态哈希检索方法,其通过计算机装置实现如下步骤:
步骤S1,通过网络收集图像和文本样本,并建立跨媒体检索的图像和文本数据集,并将图像和文本数据集分为训练集和测试集;
所述的步骤S1 包括从网络上的社交、购物等网站分别收集图像和文本样本,并由在同一网页出现的图像和文本构成图像和文本样本对,建立跨媒体检索图像和文本数据集;所述的将图像和文本数据集分为训练集和测试集,随机选择99%的样本对构成训练数据集,剩余的1%构成测试样本样本集。
步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;
对图像使用由SIFT(Scale-Invariant Feature Transform)特征作为视觉单词的BOW模型提取特征,对文本使用传统的BOW模型提取特征。
步骤S3,利用训练集的图像和文本样本,通过映射字典学习为图像和文本模态学习一个共享子空间,并通过保持两个模态的模态间相似度学习图像和文本模态的哈希函数;
所述步骤S3进一步包含以下步骤:
步骤S31,用
Figure 275121DEST_PATH_IMAGE001
Figure 815824DEST_PATH_IMAGE002
分别表示图像和文本模态的特征描述,其中,
Figure 147710DEST_PATH_IMAGE003
Figure 149481DEST_PATH_IMAGE005
分别表示图像和文本模态特征空间的维数,
Figure 228296DEST_PATH_IMAGE006
表示样本对的数量。
Figure 913224DEST_PATH_IMAGE007
表示第
Figure 419291DEST_PATH_IMAGE008
个由图像、文本模态描述构成的样本对。
Figure 573192DEST_PATH_IMAGE009
分别表示图像和文本模态的字典,
Figure 455698DEST_PATH_IMAGE010
分别表示图像和文本模态的哈希函数,
Figure 484878DEST_PATH_IMAGE011
分别表示图像和文本模态的哈希码,其中
Figure 365110DEST_PATH_IMAGE012
表示哈希码的长度。
根据上述所述的变量,利用训练集中的样本的特征构建目标函数:
Figure 803044DEST_PATH_IMAGE070
其中为参数
Figure 410612DEST_PATH_IMAGE017
为待定权重参数。一般设置
Figure 883182DEST_PATH_IMAGE018
,表明两个模态同等重要;。参数
Figure 668735DEST_PATH_IMAGE019
是模态间相似性保持的权重,可以设置
Figure 593966DEST_PATH_IMAGE020
。参数
Figure 506689DEST_PATH_IMAGE021
是正则化项的权重,可以设置
Figure 833765DEST_PATH_IMAGE071
Figure 55799DEST_PATH_IMAGE023
表示字典
Figure 468326DEST_PATH_IMAGE072
的第
Figure 417696DEST_PATH_IMAGE008
个字典原子,
Figure 599279DEST_PATH_IMAGE025
表示字典
Figure 992214DEST_PATH_IMAGE026
的第
Figure 892037DEST_PATH_IMAGE008
个字典原子。
步骤S32,求解步骤S31中的目标函数,得到图像和文本模态的哈希函数。
所述步骤S32进一步包含以下步骤:
步骤S321, 为了更容易求解目标函数,为图像和文本两个模态分别引入一个中间变量,
Figure 146563DEST_PATH_IMAGE027
Figure 120335DEST_PATH_IMAGE028
,即字典的系数矩阵,则目标函数可写为:
Figure 746489DEST_PATH_IMAGE073
其中,参数
Figure 320558DEST_PATH_IMAGE030
为待定权重参数,此参数也具有一定的鲁棒性,可以设
Figure 424781DEST_PATH_IMAGE031
步骤S322,初始化字典
Figure 518639DEST_PATH_IMAGE032
、哈希函数
Figure 315693DEST_PATH_IMAGE033
Figure 612945DEST_PATH_IMAGE034
、系数矩阵
Figure 786437DEST_PATH_IMAGE035
Figure 734801DEST_PATH_IMAGE036
,并设置最大迭代次数。
步骤S323, 固定其他变量求解
Figure 702757DEST_PATH_IMAGE036
,则目标函数可以写为:
Figure 985840DEST_PATH_IMAGE074
其中const 表示常数,令:
Figure 431865DEST_PATH_IMAGE038
,则可以得到闭合解:
Figure 500315DEST_PATH_IMAGE076
其中,
Figure 639172DEST_PATH_IMAGE040
表示单位矩阵。
同理:
Figure 911016DEST_PATH_IMAGE041
步骤S324,固定其他变量求解
Figure 98415DEST_PATH_IMAGE033
,则目标函数可写为:
Figure 83688DEST_PATH_IMAGE042
展开上式并对
Figure 580398DEST_PATH_IMAGE033
求导,令其导数为零,可以得到闭合解:
Figure 651122DEST_PATH_IMAGE043
同理:
Figure 642212DEST_PATH_IMAGE044
步骤S325,固定其他变量求解
Figure 481992DEST_PATH_IMAGE045
则目标函数可写为:
Figure 651067DEST_PATH_IMAGE046
该目标函数通过ADMM算法(该算法参见参考文献[11])进行计算;
同理,
Figure 943508DEST_PATH_IMAGE047
用求解
Figure 738289DEST_PATH_IMAGE045
的相同方法得到,在此不累述。
步骤S326,判断迭代次数是否小于最大迭代次数,若是,则跳转到步骤S32继续迭代过程;若不是,则停止迭代,得到图像和文本模态的哈希函数
Figure 432575DEST_PATH_IMAGE048
Figure 271087DEST_PATH_IMAGE049
步骤S4,直接量化图像和文本模态训练样本的表示
Figure 316404DEST_PATH_IMAGE077
Figure 649296DEST_PATH_IMAGE078
得到哈希码,会带来量化误差,会破坏样本的结构。因此本发明提出通过为图像和文本样本学习一个正交旋转矩阵,最小化量化误差。
所述步骤S4中为图像和文本样本学习一个正交旋转矩阵的方法,具体包含以下步骤:
步骤S41,本发明提出通过学习一个旋转矩阵最小化量化误差,量化损失函数定义为:
Figure 198089DEST_PATH_IMAGE050
其中,
Figure 974546DEST_PATH_IMAGE051
为占位符,可以是
Figure 179263DEST_PATH_IMAGE052
Figure 112584DEST_PATH_IMAGE053
Figure 968413DEST_PATH_IMAGE054
表示符号函数。
Figure 227356DEST_PATH_IMAGE079
步骤S42,求解步骤S41中的量化损失函数,所述步骤S42进一步包含以下步骤:
步骤S421,初始化旋转矩阵
Figure 653789DEST_PATH_IMAGE058
及最大迭代次数,最大迭代次数一般可设置为50。
步骤S422,固定
Figure 656380DEST_PATH_IMAGE058
,求
Figure 868181DEST_PATH_IMAGE059
:
Figure 32446DEST_PATH_IMAGE060
步骤S423,固定
Figure 211755DEST_PATH_IMAGE059
,求
Figure 939408DEST_PATH_IMAGE058
:
Figure 317300DEST_PATH_IMAGE061
此问题为典型的Orthogonal Procrustes Problem,由奇异值分解(SVD)的方法求解,即:
Figure 855729DEST_PATH_IMAGE062
则:
Figure 19205DEST_PATH_IMAGE063
步骤S424,判断是否是最大迭代次数,如果不是则跳转到S422继续迭代;如果是,则停止迭代,得到正交旋转矩阵
Figure 363599DEST_PATH_IMAGE064
步骤S5,利用图像和文本模态的哈希函数和学习的正交旋转矩阵
Figure 799260DEST_PATH_IMAGE064
,通过下式计算所有样本的哈希码:
Figure 305327DEST_PATH_IMAGE065
步骤S6,将一个模态的测试集样本作为查询样本,而另一模态的训练集作为被检索数据集。计算查询样本与被检索样本的汉明距离,并按照汉明距离进行排序,并返回排序靠前的样本。
所述的查询样本与被检索样本的相似度可以利用汉明距离度量,汉明距离越小说明查询样本与被检索样本的相似度越高,反之亦然。
为了证明本发明提出方法的有效性,下面将本发明应用于一个跨媒体数据库,该数据库包含186577个样本对,可以划分为10个语义类。其中图像用500维的BOW向量表示,而文本用1000维的BOW向量表示。选取99%的样本构成训练集,剩余的1%的样本构成测试集。将本发明应用于此数据库,具体步骤如下:
1) 提取数据集中图像和文本数据的特征,每副图像提取500维的BOW向量,而每段文本提取1000维的BOW向量,并分别构建图像和文本的特征矩阵;
2)通过最小化目标函数保持数据的相似性,得到图像和文本模态的哈希函数;
3)通过学习一个旋转矩阵最小化量化误差;
4)利用图像和文本的哈希函数和学习的正交旋转矩阵计算查询数据的哈希码;
5)一个模态的测试集作为查询样本,而另一模态的训练集作为被检索样本。给定一个查询样本,计算与被检索数据集中所有样本的相似度,并排序,返回排序靠前的数据。
综上所述,本发明提出的基于映射字典学习的跨媒体检索方法,检索的准确率高,容易应用于大规模数据集,实现简单等特点。本发明提出的方法有效的缩小了异构数据间的语义鸿沟,易于在实际中应用,具有广阔的应用前景和巨大的市场价值。
以上仅仅是对本发明的优选实施方式进行描述,其它优选实施方式在此不一一累述,且并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进,均应落于本发明的权利要求书确定的保护范围内。
参考文献
[1] Bronstein M, Bronstein A, Michel F, et al. Data fusion throughcross-modality metric learning using similarity-sensitive hashing [C]. IEEEConference on Computer Vision and Pattern Recognition, 2010: 3594-3601.
[2]KUMAR S, UDUPA R. Learning hash functions for cross-viewsimilarity search [C]. International Joint Conference on ArtificialIntelligence, 2011:1360-1366.
[3]DING G, GUO Y, ZHOU J. Collective matrix factorization hashing formultimodal data [C]. IEEE Conference on Computer Vision and PatternRecognition, 2014: 2075-2082.
[4]ZHOU J, DING G, GUO Y. Latent semantic sparse hashing for cross-modal similarity search [C].ACM SIGIR Conference on Research and Developmentin Information Retrieval, 2014: 415-424.
[5]ZHUANG Y, WANG Y, WU F, et al. Supervised coupled dictionarylearning with group structures for multi-modal retrieval [C]. AAAI Conferenceon Artificial Intelligence, 2013:1070-1076.
[6]Hotelling H.Relations between two sets of variates.Biometrika[J],1936,28(28):321-377.
[7]RAFAILIDIS D, CRESTANI F. Cluster-based joint matrix factorizationhashing for cross-modal retrieval [C]. ACM SIGIR Conference on Research andDevelopment in Information Retrieval. 2016: 781-784.
[8]ZHEN Y, YEUNG D. A probabilistic model for multimodal hashfunction learning [C]. ACM Conference on Knowledge Discovery and Data Mining,2012: 940-948.
[9]李武军,周志华.大数据哈希学习:现状与趋势.科学通报[J],2015,60(5-6):485-490
[10] GONG Y, LAZEBNIK S, GORDO A, et al. Iterative quantization: Aprocrustean approach to Learning binary codes for large-scale image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12):2916-2929.
[11]GU S, ZHANG L, ZUO W, et al. Projective dictionary pair learningfor pattern classification [C]. Advances in Neural Information ProcessingSystems, 2014: 793-801.

Claims (3)

1.基于映射字典学习的跨模态哈希检索方法,其特征在于其通过计算机装置实现如下步骤:
1)步骤S1,通过网络收集图像和文本样本,并建立跨媒体检索的图像和文本数据集,并将图像和文本数据集分为训练集和测试集;
2)步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;
3)步骤S3,利用训练集的图像和文本样本,通过映射字典学习为图像和文本模态学习一个共享子空间,并通过保持两个模态的模态间相似度学习图像和文本模态的哈希函数;
其包含以下步骤:
步骤S31,用
Figure 749049DEST_PATH_IMAGE001
Figure 887906DEST_PATH_IMAGE002
分别表示图像和文本模态的特征描述,其中,
Figure 533651DEST_PATH_IMAGE003
Figure 332422DEST_PATH_IMAGE005
分别表示图像和文本模态特征空间的维数,
Figure 642181DEST_PATH_IMAGE006
表示样本对的数量;
Figure 775222DEST_PATH_IMAGE007
表示第
Figure 828628DEST_PATH_IMAGE008
个由图像、文本模态描述构成的样本对;
Figure 730725DEST_PATH_IMAGE009
分别表示图像和文本模态的字典,
Figure 211385DEST_PATH_IMAGE010
分别表示图像和文本模态的哈希函数,
Figure 503826DEST_PATH_IMAGE011
分别表示图像和文本模态的哈希码,其中
Figure 423241DEST_PATH_IMAGE012
表示哈希码的长度;
Figure 117527DEST_PATH_IMAGE013
Figure 332870DEST_PATH_IMAGE014
分别表示第
Figure 378187DEST_PATH_IMAGE008
个图像、文本样本的哈希码;
根据上述所述的变量,利用训练集中样本的特征构建目标函数:
Figure 835713DEST_PATH_IMAGE015
其中
Figure 384506DEST_PATH_IMAGE016
为待定权重参数;一般设置
Figure 534864DEST_PATH_IMAGE017
,表明两个模态同等重要;参数
Figure 801898DEST_PATH_IMAGE018
是模态间相似性保持的权重,设置
Figure 797535DEST_PATH_IMAGE019
;参数
Figure 466414DEST_PATH_IMAGE020
是正则化项的权重,设置
Figure 289139DEST_PATH_IMAGE021
Figure 777889DEST_PATH_IMAGE022
表示字典
Figure 842797DEST_PATH_IMAGE023
的第
Figure 366182DEST_PATH_IMAGE008
个字典原子,
Figure 592764DEST_PATH_IMAGE024
表示字典
Figure 834390DEST_PATH_IMAGE025
的第
Figure 437409DEST_PATH_IMAGE008
个字典原子;
步骤S32,求解步骤S31中的目标函数,得到图像和文本模态的哈希函数;
所述步骤S32进一步包含以下步骤:
步骤S321,为图像和文本两个模态分别引入一个中间变量
Figure 815301DEST_PATH_IMAGE026
Figure 968110DEST_PATH_IMAGE027
,此时目标函数可写为:
Figure 431452DEST_PATH_IMAGE028
其中,参数
Figure 838163DEST_PATH_IMAGE029
为待定权重参数,此参数也具有一定的鲁棒性,设置
Figure 336140DEST_PATH_IMAGE030
步骤S322,初始化字典
Figure 904525DEST_PATH_IMAGE031
、哈希函数
Figure 120742DEST_PATH_IMAGE032
Figure 65565DEST_PATH_IMAGE033
、系数矩阵
Figure 418049DEST_PATH_IMAGE034
Figure 658799DEST_PATH_IMAGE035
,并设置最大迭代次数;
步骤S323, 固定其他变量求解
Figure 96734DEST_PATH_IMAGE035
,则目标函数可以写为:
Figure 845247DEST_PATH_IMAGE036
其中const 表示常数,令:
Figure 52237DEST_PATH_IMAGE037
,则可以得到闭合解:
Figure 228004DEST_PATH_IMAGE038
其中,
Figure 153235DEST_PATH_IMAGE039
表示单位矩阵;
同理:
Figure 439859DEST_PATH_IMAGE040
步骤S324,固定其他变量求解
Figure 766936DEST_PATH_IMAGE032
,则目标函数可写为:
Figure 615068DEST_PATH_IMAGE041
展开上式并对
Figure 762016DEST_PATH_IMAGE032
求导,令其导数为零,可以得到闭合解:
Figure 852331DEST_PATH_IMAGE042
同理:
Figure 33914DEST_PATH_IMAGE043
步骤S325,固定其他变量求解
Figure 551483DEST_PATH_IMAGE044
则目标函数可写为:
Figure 451306DEST_PATH_IMAGE045
该目标函数通过ADMM算法进行计算;
同理,
Figure 79733DEST_PATH_IMAGE046
用求解
Figure 115822DEST_PATH_IMAGE044
的相同方法得到;
步骤S326,判断迭代次数是否小于最大迭代次数,若是,则跳转到步骤S32继续迭代过程;若不是,则停止迭代,得到图像和文本模态的哈希函数
Figure 305758DEST_PATH_IMAGE047
Figure 427297DEST_PATH_IMAGE048
4)步骤S4,为图像和文本样本学习一个正交旋转矩阵,最小化量化误差;
所述步骤S4中为图像和文本样本学习一个正交旋转矩阵的方法,具体包含以下步骤:
步骤S41,通过学习一个旋转矩阵最小化量化误差,量化损失函数定义为:
Figure 859416DEST_PATH_IMAGE049
其中,
Figure 15591DEST_PATH_IMAGE050
为占位符,可以是
Figure 874962DEST_PATH_IMAGE051
Figure 483798DEST_PATH_IMAGE052
Figure 454028DEST_PATH_IMAGE053
表示符号函数;
Figure 464709DEST_PATH_IMAGE054
Figure 996447DEST_PATH_IMAGE055
表示
Figure 92579DEST_PATH_IMAGE056
的均值;
步骤S42,求解步骤S41中的量化损失函数,所述步骤S42进一步包含以下步骤:
步骤S421,初始化旋转矩阵
Figure 866500DEST_PATH_IMAGE057
及最大迭代次数,最大迭代次数一般可设置为50;
步骤S422,固定
Figure 997267DEST_PATH_IMAGE057
,求
Figure 198441DEST_PATH_IMAGE058
:
Figure 516290DEST_PATH_IMAGE059
步骤S423,固定
Figure 93902DEST_PATH_IMAGE058
,求
Figure 79176DEST_PATH_IMAGE057
:
Figure 952716DEST_PATH_IMAGE060
由奇异值分解(SVD)的方法求解,即:
Figure 820178DEST_PATH_IMAGE061
则:
Figure 935901DEST_PATH_IMAGE062
步骤S424,判断是否是最大迭代次数,如果不是则跳转到S422继续迭代;如果是,则停止迭代,得到正交旋转矩阵
Figure 775681DEST_PATH_IMAGE063
步骤S5,利用图像和文本模态的哈希函数和学习的正交旋转矩阵
Figure 318658DEST_PATH_IMAGE063
,通过下式计算所有样本的哈希码:
Figure 440460DEST_PATH_IMAGE064
6)步骤S6,将一个模态的测试集样本作为查询样本,而另一模态的训练集样本作为被检索数据集;计算查询样本与被检索样本的汉明距离,并按照汉明距离进行排序,并返回排序靠前的样本;
所述的查询样本与被检索样本的相似度可以利用汉明距离度量,汉明距离越小说明查询样本与被检索样本的相似度越高,反之亦然。
2.根据权利要求1所述的基于映射字典学习的跨模态哈希检索方法,其特征在于所述的步骤S1 包括从网络上的社交、购物网站分别收集图像和文本样本,并由在同一网页出现的图像和文本构成图像和文本样本对,建立跨媒体检索图像和文本数据集;所述的将图像和文本数据集分为训练集和测试集,随机选择99%的样本对构成训练数据集,剩余的1%构成测试数据集。
3.根据权利要求1所述的基于映射字典学习的跨模态哈希检索方法,其特征在于所述的步骤S2中对图像使用由SIFT(Scale-Invariant Feature Transform)特征作为视觉单词的BOW模型提取特征,对文本使用传统的BOW模型提取特征。
CN201710496980.2A 2017-06-27 2017-06-27 基于映射字典学习的跨模态哈希检索方法 Active CN107256271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710496980.2A CN107256271B (zh) 2017-06-27 2017-06-27 基于映射字典学习的跨模态哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710496980.2A CN107256271B (zh) 2017-06-27 2017-06-27 基于映射字典学习的跨模态哈希检索方法

Publications (2)

Publication Number Publication Date
CN107256271A CN107256271A (zh) 2017-10-17
CN107256271B true CN107256271B (zh) 2020-04-03

Family

ID=60023369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710496980.2A Active CN107256271B (zh) 2017-06-27 2017-06-27 基于映射字典学习的跨模态哈希检索方法

Country Status (1)

Country Link
CN (1) CN107256271B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729513B (zh) * 2017-10-25 2020-12-01 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN108334574B (zh) * 2018-01-23 2020-06-12 南京邮电大学 一种基于协同矩阵分解的跨模态检索方法
CN109145080B (zh) * 2018-07-26 2021-01-01 新华三信息安全技术有限公司 一种文本指纹获得方法及装置
CN109271486B (zh) * 2018-09-19 2021-11-26 九江学院 一种相似性保留跨模态哈希检索方法
CN109299216B (zh) * 2018-10-29 2019-07-23 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109376261B (zh) * 2018-10-29 2019-09-24 山东师范大学 基于中级文本语义增强空间的模态独立检索方法和系统
CN109522821A (zh) * 2018-10-30 2019-03-26 武汉大学 一种基于跨模态深度哈希网络的大规模跨源遥感影像检索方法
CN109766455B (zh) * 2018-11-15 2021-09-24 南京邮电大学 一种有鉴别的全相似性保留哈希跨模态检索方法
CN109766469B (zh) * 2018-12-14 2020-12-01 浙江工业大学 一种基于深度哈希学习优化的图像检索方法
CN111460077B (zh) * 2019-01-22 2021-03-26 大连理工大学 一种基于类语义引导的跨模态哈希检索方法
CN111461157B (zh) * 2019-01-22 2022-11-18 大连理工大学 一种基于自学习的跨模态哈希检索方法
CN109871454B (zh) * 2019-01-31 2023-08-29 鲁东大学 一种鲁棒离散监督跨媒体哈希检索方法
CN110059198B (zh) * 2019-04-08 2021-04-13 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN110059154B (zh) * 2019-04-10 2022-04-15 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110110100A (zh) * 2019-05-07 2019-08-09 鲁东大学 基于协同矩阵分解的离散监督跨媒体哈希检索方法
CN111914108A (zh) * 2019-05-07 2020-11-10 鲁东大学 基于语义保持的离散监督跨模态哈希检索方法
CN110210540B (zh) * 2019-05-22 2021-02-26 山东大学 基于注意力机制的跨社交媒体用户身份识别方法及系统
US11651037B2 (en) * 2019-12-20 2023-05-16 Rakuten Group, Inc. Efficient cross-modal retrieval via deep binary hashing and quantization
CN111984800B (zh) * 2020-08-16 2023-11-17 西安电子科技大学 基于字典对学习的哈希跨模态信息检索方法
CN112214623A (zh) * 2020-09-09 2021-01-12 鲁东大学 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法
CN113326289B (zh) * 2021-08-02 2021-11-02 山东大学 面向携带新类别的增量数据的快速跨模态检索方法及系统
CN113407661B (zh) * 2021-08-18 2021-11-26 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN114201972B (zh) * 2021-12-14 2022-07-05 长安银行股份有限公司 一种理财产品数据处理方法
CN113971209B (zh) * 2021-12-22 2022-04-19 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2605158A1 (en) * 2011-12-12 2013-06-19 Sap Ag Mixed join of row and column database tables in native orientation
CN103473307A (zh) * 2013-09-10 2013-12-25 浙江大学 跨媒体稀疏哈希索引方法
CN104317838A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于耦合鉴别性字典的跨媒体哈希索引方法
CN104346440A (zh) * 2014-10-10 2015-02-11 浙江大学 一种基于神经网络的跨媒体哈希索引方法
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106202514A (zh) * 2016-07-21 2016-12-07 北京邮电大学 基于Agent的突发事件跨媒体信息的检索方法及系统
CN106202413A (zh) * 2016-07-11 2016-12-07 北京大学深圳研究生院 一种跨媒体检索方法
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN106649715A (zh) * 2016-12-21 2017-05-10 中国人民解放军国防科学技术大学 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
CN106777318A (zh) * 2017-01-05 2017-05-31 西安电子科技大学 基于协同训练的矩阵分解跨模态哈希检索方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2605158A1 (en) * 2011-12-12 2013-06-19 Sap Ag Mixed join of row and column database tables in native orientation
CN103473307A (zh) * 2013-09-10 2013-12-25 浙江大学 跨媒体稀疏哈希索引方法
CN104317838A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于耦合鉴别性字典的跨媒体哈希索引方法
CN104346440A (zh) * 2014-10-10 2015-02-11 浙江大学 一种基于神经网络的跨媒体哈希索引方法
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106202413A (zh) * 2016-07-11 2016-12-07 北京大学深圳研究生院 一种跨媒体检索方法
CN106202514A (zh) * 2016-07-21 2016-12-07 北京邮电大学 基于Agent的突发事件跨媒体信息的检索方法及系统
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN106649715A (zh) * 2016-12-21 2017-05-10 中国人民解放军国防科学技术大学 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
CN106777318A (zh) * 2017-01-05 2017-05-31 西安电子科技大学 基于协同训练的矩阵分解跨模态哈希检索方法

Also Published As

Publication number Publication date
CN107256271A (zh) 2017-10-17

Similar Documents

Publication Publication Date Title
CN107256271B (zh) 基于映射字典学习的跨模态哈希检索方法
Yu et al. A two‐stream deep fusion framework for high‐resolution aerial scene classification
Isola et al. Learning visual groups from co-occurrences in space and time
Liu et al. Collaborative hashing
Zuo et al. Exemplar based deep discriminative and shareable feature learning for scene image classification
CN109784405B (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
Shi et al. Training DCNN by combining max-margin, max-correlation objectives, and correntropy loss for multilabel image classification
Dai et al. Metric imitation by manifold transfer for efficient vision applications
Niu et al. Knowledge-based topic model for unsupervised object discovery and localization
Liu et al. An indoor scene classification method for service robot Based on CNN feature
CN112163114B (zh) 一种基于特征融合的图像检索方法
Ni et al. Scene classification from remote sensing images using mid-level deep feature learning
Kishorjit Singh et al. Image classification using SLIC superpixel and FAAGKFCM image segmentation
Gao et al. Evaluation of local spatial–temporal features for cross-view action recognition
Wu et al. Optimum pipeline for visual terrain classification using improved bag of visual words and fusion methods
Zhang et al. Image classification based on low-rank matrix recovery and Naive Bayes collaborative representation
Kuang et al. Effective 3-D shape retrieval by integrating traditional descriptors and pointwise convolution
Bai et al. Learning two-pathway convolutional neural networks for categorizing scene images
Dammak et al. Histogram of dense subgraphs for image representation
Zhang et al. Learning a probabilistic topology discovering model for scene categorization
Zhou et al. Learning semantic context feature-tree for action recognition via nearest neighbor fusion
Liu et al. Locality constrained dictionary learning for non‐linear dimensionality reduction and classification
Malik et al. Multimodal semantic analysis with regularized semantic autoencoder
Benuwa et al. Group sparse based locality–sensitive dictionary learning for video semantic analysis
Liu et al. Discriminative self-adapted locality-sensitive sparse representation for video semantic analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Cross modal hash retrieval method based on mapping dictionary learning

Effective date of registration: 20211216

Granted publication date: 20200403

Pledgee: Yantai financing guarantee Group Co.,Ltd.

Pledgor: LUDONG University

Registration number: Y2021980015152

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220317

Granted publication date: 20200403

Pledgee: Yantai financing guarantee Group Co.,Ltd.

Pledgor: LUDONG University

Registration number: Y2021980015152

PC01 Cancellation of the registration of the contract for pledge of patent right