CN107256271A - 基于映射字典学习的跨模态哈希检索方法 - Google Patents

基于映射字典学习的跨模态哈希检索方法 Download PDF

Info

Publication number
CN107256271A
CN107256271A CN201710496980.2A CN201710496980A CN107256271A CN 107256271 A CN107256271 A CN 107256271A CN 201710496980 A CN201710496980 A CN 201710496980A CN 107256271 A CN107256271 A CN 107256271A
Authority
CN
China
Prior art keywords
text
image
sample
hash
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710496980.2A
Other languages
English (en)
Other versions
CN107256271B (zh
Inventor
姚涛
孔祥维
付海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ludong University
Original Assignee
Ludong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ludong University filed Critical Ludong University
Priority to CN201710496980.2A priority Critical patent/CN107256271B/zh
Publication of CN107256271A publication Critical patent/CN107256271A/zh
Application granted granted Critical
Publication of CN107256271B publication Critical patent/CN107256271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于映射字典学习的跨模态哈希检索方法。其通过网络收集图像和文本样本建立跨媒体检索数据集,并将数据集分为训练集和测试集;利用BOW算法提取图像和文本的特征;利用映射字典学习分别为图像和文本模态学习一个共享子空间,并同时学习各模态的哈希函数;通过学习一个正交旋转矩阵,最小化量化误差;利用图像和文本模态的哈希函数和正交旋转矩阵计算测试样本的哈希码;将一个模态的测试样本集作为查询,另一模态的训练集作为被检索数据集,计算查询样本与被检索样本的汉明距离并排序,返回排序靠前的样本。本发明具有检索的准确率高,容易应用于大规模数据集,并且实现简单等特点,因此有广阔的应用前景和巨大的市场价值。

Description

基于映射字典学习的跨模态哈希检索方法
技术领域:
本发明涉及跨模态哈希检索方法,尤其涉及基于映射字典学习的跨模态哈希检索方法。
背景技术:
随着计算机网络和信息技术的快速发展,网络上的媒体数据量急剧增长,媒体的表示形式也呈现出多模态性(图像,文本,声音,视频等)。例如:在微博上传照片时,通常会同时上传一段文字描述照片的内容或用一些标签标注图像的内容;在微信的朋友圈分享时,往往也是图文并茂;购物网站,例如淘宝,京东等,在描述产品信息时通常既用图片,又用文字。这些多模态数据虽然表现形式不同,但它们之间存在语义关联。跨媒体检索的目的就是挖掘不同媒体之间存在的语义关系,并按语义关系进行排序,返回跟查询存在较强语义关系的不同模态的数据。随着媒体数据量的急速增长和模态的多样化,传统的检索方法已经不能满足当前跨媒体检索的需求。如何在海量数据中检索不同模态的数据成为一个巨大的挑战。
哈希方法是解决大数据问题的一种有效的方法,它不仅能大大节省存储空间,而且计算效率也大幅提高。例如一张图片用5,000维的BOW(Bag Of Words)表示,假设每维用double数据类型表示,即每维占用8Bytes的存储空间,则需要5,000×8Bytes=40,000Bytes的存储空间。而哈希方法是把样本映射汉明空间,例如用32bits(8bits=1Byte)来表示一张图片,仅需要4Bytes的存储空间,大大节省了存储空间,占用的存储空间仅为原始特征空间的万分之一。在检索过程中,因为样本用二值码表示,因此在计算样本间的距离时,只需要做简单的异或操作即可,大大提升了计算的效率,使检索的时间复杂度远低于传统方法。
由于哈希方法的高效性和节省内存,最近引起了越来越多的关注。跨模态哈希的目标是为不同模态的样本学习一个共享的汉明空间,在这个空间可以实现跨媒体检索(参见文献 [1-5,7,8,10] )。基于相似敏感哈希的跨模态度量学习方法(Cross-modalityMetric learning using Similarity Sensitive Hashing,CMSSH)通过最小化不同模态的相似样本之间的汉明距离,最大化不同模态的不相似样本间的汉明距离,学习哈希函数(参见文献[1])。典型相关分析(Canonical Correlation Analysis,CCA) (参见文献[6])哈希方法,把CCA引入跨媒体哈希方法,提出最大化模态间的相关性,学习一组哈希函数(参见文献[10])。跨视角哈希(Cross-View Hashing,CVH)把谱哈希扩展到跨模态检索,通过最小化加权距离,保持相似样本模态内和模态间的相似性(参见文献[2])。多模态潜在二值嵌入(Multi-modal Latent Binary Embedding,MLBE)提出一个概率生成模型,通过保持多模态样本模态内和模态间的相似度来学习哈希函数(参见文献[8])。协同矩阵分解哈希方法(Collective Matrix Factorization Hashing,CMFH)利用协同矩阵分解保持模态间的相似性,为样本对学习同一表示(参见文献[3])。基于聚类联合矩阵分解哈希(Cluster-basedJoint Matrix Factorization Hashing,CJMFH)提出了首先对各个模态进行聚类运算,再利用矩阵分解同时保持模态内、模态间和基于聚类的相似性(参见文献[7])。以上方法虽然取得了令人满意的结果,但是学习到的哈希码不包含任何语义信息,限制了算法的性能。稀疏哈希(Latent Semantic Sparse Hashing,LSSH)为了缩小图像和文本之间的语义鸿沟,利用稀疏表示学习图像的一些显著结构,利用矩阵分解为文本学习一个潜在的语义空间,并保持模态间的语义相似性(参见文献[4])。稀疏多模态哈希(Sparse Multi-ModalHashing,SMMH)提出利用稀疏表示为图像和文本学习一个共享语义空间,保持模态间的相似性(参见文献[5])。这类方法利用稀疏表示,使哈希码包含语义信息,提升了算法的性能。但是这类算法通常存在以下问题,限制了算法的应用。1)在字典学习算法中,因为稀疏约束项的存在,导致训练和测试过程算法的复杂度高。2)这些哈希算法没有为各模态学习哈希函数。测试样本,通常需要首先解决一个Lasso问题,得到样本的稀疏表示,然后通过量化得到样本的哈希码(如文献[4]),而不能像其他哈希算法直接利用哈希函数得到样本的哈希码。3)样本表示是稀疏的,导致哈希码的-1和1分配不均匀。
针对以上问题,本发明申请提出一种基于映射字典学习的跨模态哈希检索方法。在字典学习过程中,放松了稀疏约束项,不仅降低了时间复杂度和平衡了哈希码的分布,而且在字典学习过程中得到了哈希函数。对于哈希问题的求解,现存的大部分跨模态哈希算法一般先得到问题的连续最优解,再通过量化得到样本的哈希码。但是,这些算法没有考虑量化损失对算法性能的影响。本发明申请通过最小化量化误差,学习一个正交的旋转矩阵,进一步提升算法的性能。
发明内容:
本发明的目的在于克服上述已有技术的不足,提供一种基于映射字典学习的跨模态哈希检索方法。
本发明的目的可以通过如下措施来达到:基于映射字典学习的跨模态哈希检索方法,其特征在于其通过计算机装置实现如下步骤:
1)步骤S1,通过网络收集图像和文本样本,并建立跨媒体检索的图像和文本数据集,并将图像和文本数据集分为训练集和测试集;
2)步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;
3)步骤S3,利用训练集的图像和文本样本,通过映射字典学习为图像和文本模态学习一个共享子空间,并通过保持两个模态的模态间相似度学习图像和文本模态的哈希函数;
其包含以下步骤:
步骤S31,用 分别表示图像和文本模态的特征描述,其中, 分别表示图像和文本模态特征空间的维数,表示样本对的数量;表示第个由图像、文本模态描述构成的样本对;分别表示图像和文本模态的字典,分别表示图像和文本模态的哈希函数,分别表示图像和文本模态的哈希码,其中表示哈希码的长度;分别表示第个图像、文本样本的哈希码;
根据上述所述的变量,利用训练集中样本的特征构建目标函数:
其中为待定权重参数;一般设置,表明两个模态同等重要;参数是模态间相似性保持的权重,设置;参数是正则化项的权重,设置表示字典的第个字典原子,表示字典的第个字典原子;
步骤S32,求解步骤S31中的目标函数,得到图像和文本模态的哈希函数;
所述步骤S32进一步包含以下步骤:
步骤S321,为图像和文本两个模态分别引入一个中间变量,此时目标函数可写为:
其中,参数为待定权重参数,此参数也具有一定的鲁棒性,设置
步骤S322,初始化字典、哈希函数、系数矩阵,并设置最大迭代次数;
步骤S323, 固定其他变量求解,则目标函数可以写为:
其中const 表示常数,令:,则可以得到闭合解:
其中,表示单位矩阵;
同理:
步骤S324,固定其他变量求解,则目标函数可写为:
展开上式并对求导,令其导数为零,可以得到闭合解:
同理:
步骤S325,固定其他变量求解则目标函数可写为:
该目标函数通过ADMM算法进行计算;
同理,用求解的相同方法得到;
步骤S326,判断迭代次数是否小于最大迭代次数,若是,则跳转到步骤S32继续迭代过程;若不是,则停止迭代,得到图像和文本模态的哈希函数
4)步骤S4,为图像和文本样本学习一个正交旋转矩阵,最小化量化误差;
所述步骤S4中为图像和文本样本学习一个正交旋转矩阵的方法,具体包含以下步骤:
步骤S41,通过学习一个旋转矩阵最小化量化误差,量化损失函数定义为:
其中,为占位符,可以是表示符号函数;表示的均值;
步骤S42,求解步骤S41中的量化损失函数,所述步骤S42进一步包含以下步骤:
步骤S421,初始化旋转矩阵及最大迭代次数,最大迭代次数一般可设置为50;
步骤S422,固定,求:
步骤S423,固定,求:
由奇异值分解(SVD)的方法求解,即:
则:
步骤S424,判断是否是最大迭代次数,如果不是则跳转到S422继续迭代;如果是,则停止迭代,得到正交旋转矩阵
步骤S5,利用图像和文本模态的哈希函数和学习的正交旋转矩阵,通过下式计算所有样本的哈希码:
6)步骤S6,将一个模态的测试集样本作为查询样本,而另一模态的训练集样本作为被检索数据集;计算查询样本与被检索样本的汉明距离,并按照汉明距离进行排序,并返回排序靠前的样本;
所述的查询样本与被检索样本的相似度可以利用汉明距离度量,汉明距离越小说明查询样本与被检索样本的相似度越高,反之亦然。
为了进一步实现本发明的目的,所述的步骤S1 包括从网络上的社交、购物网站分别收集图像和文本样本,并由在同一网页出现的图像和文本构成图像和文本样本对,建立跨媒体检索图像和文本数据集;所述的将图像和文本数据集分为训练集和测试集,随机选择99%的样本对构成训练数据集,剩余的1%构成测试数据集。
为了进一步实现本发明的目的,所述的步骤S2中对图像使用由SIFT(Scale-Invariant Feature Transform)特征作为视觉单词的BOW模型提取特征,对文本使用传统的BOW模型提取特征。
本发明同已有技术相比可产生如下积极效果:
1.利用映射字典学习不仅使哈希码含有语义信息,而且将传统字典学习的计算复杂度由降低到,其中为训练样本的数量。
2.通过学习一个正交旋转矩阵,最小化量化误差,得到了性能更好的哈希函数,并且正交旋转矩阵不会破坏目标函数解的最优性。
3.算法学习了哈希函数,图像和文本样本的哈希码可以通过哈希函数和正交旋转矩阵直接得到,这与现存的基于字典学习的哈希算法不同。
4.本发明检索的准确率高,实现简单,容易应用于大规模数据集,易于在实际中应用,具有广阔的应用前景和巨大的市场价值。
附图说明:
图1为本发明的流程示意图。
具体实施方式:下面结合附图对本发明的具体实施方式做详细说明:
虽然本发明指定了图像和文本两个模态,但是算法很容易的扩展到其他模态和多于两个模态的情况。为了方便描述,本发明只考虑图像和文本两个模态。
参见图1,基于映射字典学习的跨模态哈希检索方法,其通过计算机装置实现如下步骤:
步骤S1,通过网络收集图像和文本样本,并建立跨媒体检索的图像和文本数据集,并将图像和文本数据集分为训练集和测试集;
所述的步骤S1 包括从网络上的社交、购物等网站分别收集图像和文本样本,并由在同一网页出现的图像和文本构成图像和文本样本对,建立跨媒体检索图像和文本数据集;所述的将图像和文本数据集分为训练集和测试集,随机选择99%的样本对构成训练数据集,剩余的1%构成测试样本样本集。
步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;
对图像使用由SIFT(Scale-Invariant Feature Transform)特征作为视觉单词的BOW模型提取特征,对文本使用传统的BOW模型提取特征。
步骤S3,利用训练集的图像和文本样本,通过映射字典学习为图像和文本模态学习一个共享子空间,并通过保持两个模态的模态间相似度学习图像和文本模态的哈希函数;
所述步骤S3进一步包含以下步骤:
步骤S31,用 分别表示图像和文本模态的特征描述,其中, 分别表示图像和文本模态特征空间的维数,表示样本对的数量。表示第个由图像、文本模态描述构成的样本对。分别表示图像和文本模态的字典,分别表示图像和文本模态的哈希函数,分别表示图像和文本模态的哈希码,其中表示哈希码的长度。
根据上述所述的变量,利用训练集中的样本的特征构建目标函数:
其中为参数为待定权重参数。一般设置,表明两个模态同等重要;。参数是模态间相似性保持的权重,可以设置。参数是正则化项的权重,可以设置表示字典的第个字典原子,表示字典的第个字典原子。
步骤S32,求解步骤S31中的目标函数,得到图像和文本模态的哈希函数。
所述步骤S32进一步包含以下步骤:
步骤S321, 为了更容易求解目标函数,为图像和文本两个模态分别引入一个中间变量,,即字典的系数矩阵,则目标函数可写为:
其中,参数为待定权重参数,此参数也具有一定的鲁棒性,可以设
步骤S322,初始化字典、哈希函数、系数矩阵,并设置最大迭代次数。
步骤S323, 固定其他变量求解,则目标函数可以写为:
其中const 表示常数,令:,则可以得到闭合解:
其中,表示单位矩阵。
同理:
步骤S324,固定其他变量求解,则目标函数可写为:
展开上式并对求导,令其导数为零,可以得到闭合解:
同理:
步骤S325,固定其他变量求解则目标函数可写为:
该目标函数通过ADMM算法(该算法参见参考文献[11])进行计算;
同理,用求解的相同方法得到,在此不累述。
步骤S326,判断迭代次数是否小于最大迭代次数,若是,则跳转到步骤S32继续迭代过程;若不是,则停止迭代,得到图像和文本模态的哈希函数
步骤S4,直接量化图像和文本模态训练样本的表示得到哈希码,会带来量化误差,会破坏样本的结构。因此本发明提出通过为图像和文本样本学习一个正交旋转矩阵,最小化量化误差。
所述步骤S4中为图像和文本样本学习一个正交旋转矩阵的方法,具体包含以下步骤:
步骤S41,本发明提出通过学习一个旋转矩阵最小化量化误差,量化损失函数定义为:
其中,为占位符,可以是表示符号函数。
步骤S42,求解步骤S41中的量化损失函数,所述步骤S42进一步包含以下步骤:
步骤S421,初始化旋转矩阵及最大迭代次数,最大迭代次数一般可设置为50。
步骤S422,固定,求:
步骤S423,固定,求:
此问题为典型的Orthogonal Procrustes Problem,由奇异值分解(SVD)的方法求解,即:
则:
步骤S424,判断是否是最大迭代次数,如果不是则跳转到S422继续迭代;如果是,则停止迭代,得到正交旋转矩阵
步骤S5,利用图像和文本模态的哈希函数和学习的正交旋转矩阵,通过下式计算所有样本的哈希码:
步骤S6,将一个模态的测试集样本作为查询样本,而另一模态的训练集作为被检索数据集。计算查询样本与被检索样本的汉明距离,并按照汉明距离进行排序,并返回排序靠前的样本。
所述的查询样本与被检索样本的相似度可以利用汉明距离度量,汉明距离越小说明查询样本与被检索样本的相似度越高,反之亦然。
为了证明本发明提出方法的有效性,下面将本发明应用于一个跨媒体数据库,该数据库包含186577个样本对,可以划分为10个语义类。其中图像用500维的BOW向量表示,而文本用1000维的BOW向量表示。选取99%的样本构成训练集,剩余的1%的样本构成测试集。将本发明应用于此数据库,具体步骤如下:
1) 提取数据集中图像和文本数据的特征,每副图像提取500维的BOW向量,而每段文本提取1000维的BOW向量,并分别构建图像和文本的特征矩阵;
2)通过最小化目标函数保持数据的相似性,得到图像和文本模态的哈希函数;
3)通过学习一个旋转矩阵最小化量化误差;
4)利用图像和文本的哈希函数和学习的正交旋转矩阵计算查询数据的哈希码;
5)一个模态的测试集作为查询样本,而另一模态的训练集作为被检索样本。给定一个查询样本,计算与被检索数据集中所有样本的相似度,并排序,返回排序靠前的数据。
综上所述,本发明提出的基于映射字典学习的跨媒体检索方法,检索的准确率高,容易应用于大规模数据集,实现简单等特点。本发明提出的方法有效的缩小了异构数据间的语义鸿沟,易于在实际中应用,具有广阔的应用前景和巨大的市场价值。
以上仅仅是对本发明的优选实施方式进行描述,其它优选实施方式在此不一一累述,且并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进,均应落于本发明的权利要求书确定的保护范围内。
参考文献
[1] Bronstein M, Bronstein A, Michel F, et al. Data fusion throughcross-modality metric learning using similarity-sensitive hashing [C]. IEEEConference on Computer Vision and Pattern Recognition, 2010: 3594-3601.
[2]KUMAR S, UDUPA R. Learning hash functions for cross-view similaritysearch [C]. International Joint Conference on Artificial Intelligence, 2011:1360-1366.
[3]DING G, GUO Y, ZHOU J. Collective matrix factorization hashing formultimodal data [C]. IEEE Conference on Computer Vision and PatternRecognition, 2014: 2075-2082.
[4]ZHOU J, DING G, GUO Y. Latent semantic sparse hashing for cross-modalsimilarity search [C].ACM SIGIR Conference on Research and Development inInformation Retrieval, 2014: 415-424.
[5]ZHUANG Y, WANG Y, WU F, et al. Supervised coupled dictionary learningwith group structures for multi-modal retrieval [C]. AAAI Conference onArtificial Intelligence, 2013:1070-1076.
[6]Hotelling H.Relations between two sets of variates.Biometrika[J],1936,28(28):321-377.
[7]RAFAILIDIS D, CRESTANI F. Cluster-based joint matrix factorizationhashing for cross-modal retrieval [C]. ACM SIGIR Conference on Research andDevelopment in Information Retrieval. 2016: 781-784.
[8]ZHEN Y, YEUNG D. A probabilistic model for multimodal hash functionlearning [C]. ACM Conference on Knowledge Discovery and Data Mining, 2012:940-948.
[9]李武军,周志华.大数据哈希学习:现状与趋势.科学通报[J],2015,60(5-6):485-490
[10] GONG Y, LAZEBNIK S, GORDO A, et al. Iterative quantization: Aprocrustean approach to Learning binary codes for large-scale image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12):2916-2929.
[11]GU S, ZHANG L, ZUO W, et al. Projective dictionary pair learning forpattern classification [C]. Advances in Neural Information ProcessingSystems, 2014: 793-801。

Claims (3)

1.基于映射字典学习的跨模态哈希检索方法,其特征在于其通过计算机装置实现如下步骤:
1)步骤S1,通过网络收集图像和文本样本,并建立跨媒体检索的图像和文本数据集,并将图像和文本数据集分为训练集和测试集;
2)步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;
3)步骤S3,利用训练集的图像和文本样本,通过映射字典学习为图像和文本模态学习一个共享子空间,并通过保持两个模态的模态间相似度学习图像和文本模态的哈希函数;
其包含以下步骤:
步骤S31,用 分别表示图像和文本模态的特征描述,其中, 分别表示图像和文本模态特征空间的维数,表示样本对的数量;表示第个由图像、文本模态描述构成的样本对;分别表示图像和文本模态的字典,分别表示图像和文本模态的哈希函数,分别表示图像和文本模态的哈希码,其中表示哈希码的长度;分别表示第个图像、文本样本的哈希码;
根据上述所述的变量,利用训练集中样本的特征构建目标函数:
其中为待定权重参数;一般设置,表明两个模态同等重要;参数是模态间相似性保持的权重,设置;参数是正则化项的权重,设置表示字典的第个字典原子,表示字典的第个字典原子;
步骤S32,求解步骤S31中的目标函数,得到图像和文本模态的哈希函数;
所述步骤S32进一步包含以下步骤:
步骤S321,为图像和文本两个模态分别引入一个中间变量,此时目标函数可写为:
其中,参数为待定权重参数,此参数也具有一定的鲁棒性,设置
步骤S322,初始化字典、哈希函数、系数矩阵,并设置最大迭代次数;
步骤S323, 固定其他变量求解,则目标函数可以写为:
其中const 表示常数,令:,则可以得到闭合解:
其中,表示单位矩阵;
同理:
步骤S324,固定其他变量求解,则目标函数可写为:
展开上式并对求导,令其导数为零,可以得到闭合解:
同理:
步骤S325,固定其他变量求解则目标函数可写为:
该目标函数通过ADMM算法进行计算;
同理,用求解的相同方法得到;
步骤S326,判断迭代次数是否小于最大迭代次数,若是,则跳转到步骤S32继续迭代过程;若不是,则停止迭代,得到图像和文本模态的哈希函数
4)步骤S4,为图像和文本样本学习一个正交旋转矩阵,最小化量化误差;
所述步骤S4中为图像和文本样本学习一个正交旋转矩阵的方法,具体包含以下步骤:
步骤S41,通过学习一个旋转矩阵最小化量化误差,量化损失函数定义为:
其中,为占位符,可以是表示符号函数;表示的均值;
步骤S42,求解步骤S41中的量化损失函数,所述步骤S42进一步包含以下步骤:
步骤S421,初始化旋转矩阵及最大迭代次数,最大迭代次数一般可设置为50;
步骤S422,固定,求:
步骤S423,固定,求:
由奇异值分解(SVD)的方法求解,即:
则:
步骤S424,判断是否是最大迭代次数,如果不是则跳转到S422继续迭代;如果是,则停止迭代,得到正交旋转矩阵
步骤S5,利用图像和文本模态的哈希函数和学习的正交旋转矩阵,通过下式计算所有样本的哈希码:
6)步骤S6,将一个模态的测试集样本作为查询样本,而另一模态的训练集样本作为被检索数据集;计算查询样本与被检索样本的汉明距离,并按照汉明距离进行排序,并返回排序靠前的样本;
所述的查询样本与被检索样本的相似度可以利用汉明距离度量,汉明距离越小说明查询样本与被检索样本的相似度越高,反之亦然。
2.根据权利要求1所述的基于映射字典学习的跨模态哈希检索方法,其特征在于所述的步骤S1 包括从网络上的社交、购物网站分别收集图像和文本样本,并由在同一网页出现的图像和文本构成图像和文本样本对,建立跨媒体检索图像和文本数据集;所述的将图像和文本数据集分为训练集和测试集,随机选择99%的样本对构成训练数据集,剩余的1%构成测试数据集。
3.根据权利要求1所述的基于映射字典学习的跨模态哈希检索方法,其特征在于所述的步骤S2中对图像使用由SIFT(Scale-Invariant Feature Transform)特征作为视觉单词的BOW模型提取特征,对文本使用传统的BOW模型提取特征。
CN201710496980.2A 2017-06-27 2017-06-27 基于映射字典学习的跨模态哈希检索方法 Active CN107256271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710496980.2A CN107256271B (zh) 2017-06-27 2017-06-27 基于映射字典学习的跨模态哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710496980.2A CN107256271B (zh) 2017-06-27 2017-06-27 基于映射字典学习的跨模态哈希检索方法

Publications (2)

Publication Number Publication Date
CN107256271A true CN107256271A (zh) 2017-10-17
CN107256271B CN107256271B (zh) 2020-04-03

Family

ID=60023369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710496980.2A Active CN107256271B (zh) 2017-06-27 2017-06-27 基于映射字典学习的跨模态哈希检索方法

Country Status (1)

Country Link
CN (1) CN107256271B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN108334574A (zh) * 2018-01-23 2018-07-27 南京邮电大学 一种基于协同矩阵分解的跨模态检索方法
CN109145080A (zh) * 2018-07-26 2019-01-04 新华三信息安全技术有限公司 一种文本指纹获得方法及装置
CN109271486A (zh) * 2018-09-19 2019-01-25 九江学院 一种相似性保留跨模态哈希检索方法
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109376261A (zh) * 2018-10-29 2019-02-22 山东师范大学 基于中级文本语义增强空间的模态独立检索方法和系统
CN109522821A (zh) * 2018-10-30 2019-03-26 武汉大学 一种基于跨模态深度哈希网络的大规模跨源遥感影像检索方法
CN109766469A (zh) * 2018-12-14 2019-05-17 浙江工业大学 一种基于深度哈希学习优化的图像检索方法
CN109766455A (zh) * 2018-11-15 2019-05-17 南京邮电大学 一种有鉴别的全相似性保留哈希跨模态检索方法
CN109871454A (zh) * 2019-01-31 2019-06-11 鲁东大学 一种鲁棒离散监督跨媒体哈希检索方法
CN110059198A (zh) * 2019-04-08 2019-07-26 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN110059154A (zh) * 2019-04-10 2019-07-26 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110110100A (zh) * 2019-05-07 2019-08-09 鲁东大学 基于协同矩阵分解的离散监督跨媒体哈希检索方法
CN110210540A (zh) * 2019-05-22 2019-09-06 山东大学 基于注意力机制的跨社交媒体用户身份识别方法及系统
CN111461157A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于自学习的跨模态哈希检索方法
CN111460077A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于类语义引导的跨模态哈希检索方法
CN111914108A (zh) * 2019-05-07 2020-11-10 鲁东大学 基于语义保持的离散监督跨模态哈希检索方法
CN111984800A (zh) * 2020-08-16 2020-11-24 西安电子科技大学 基于字典对学习的哈希跨模态信息检索方法
CN112214623A (zh) * 2020-09-09 2021-01-12 鲁东大学 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法
JP2021099803A (ja) * 2019-12-20 2021-07-01 楽天グループ株式会社 ディープバイナリハッシュおよび量子化を介した効率的なクロスモーダル検索
CN113326289A (zh) * 2021-08-02 2021-08-31 山东大学 面向携带新类别的增量数据的快速跨模态检索方法及系统
CN113407661A (zh) * 2021-08-18 2021-09-17 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN113971209A (zh) * 2021-12-22 2022-01-25 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法
CN114201972A (zh) * 2021-12-14 2022-03-18 长安银行股份有限公司 一种理财产品数据处理方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2605158A1 (en) * 2011-12-12 2013-06-19 Sap Ag Mixed join of row and column database tables in native orientation
CN103473307A (zh) * 2013-09-10 2013-12-25 浙江大学 跨媒体稀疏哈希索引方法
CN104317838A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于耦合鉴别性字典的跨媒体哈希索引方法
CN104346440A (zh) * 2014-10-10 2015-02-11 浙江大学 一种基于神经网络的跨媒体哈希索引方法
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106202413A (zh) * 2016-07-11 2016-12-07 北京大学深圳研究生院 一种跨媒体检索方法
CN106202514A (zh) * 2016-07-21 2016-12-07 北京邮电大学 基于Agent的突发事件跨媒体信息的检索方法及系统
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN106649715A (zh) * 2016-12-21 2017-05-10 中国人民解放军国防科学技术大学 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
CN106777318A (zh) * 2017-01-05 2017-05-31 西安电子科技大学 基于协同训练的矩阵分解跨模态哈希检索方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2605158A1 (en) * 2011-12-12 2013-06-19 Sap Ag Mixed join of row and column database tables in native orientation
CN103473307A (zh) * 2013-09-10 2013-12-25 浙江大学 跨媒体稀疏哈希索引方法
CN104317838A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于耦合鉴别性字典的跨媒体哈希索引方法
CN104346440A (zh) * 2014-10-10 2015-02-11 浙江大学 一种基于神经网络的跨媒体哈希索引方法
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106202413A (zh) * 2016-07-11 2016-12-07 北京大学深圳研究生院 一种跨媒体检索方法
CN106202514A (zh) * 2016-07-21 2016-12-07 北京邮电大学 基于Agent的突发事件跨媒体信息的检索方法及系统
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN106649715A (zh) * 2016-12-21 2017-05-10 中国人民解放军国防科学技术大学 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
CN106777318A (zh) * 2017-01-05 2017-05-31 西安电子科技大学 基于协同训练的矩阵分解跨模态哈希检索方法

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN107729513B (zh) * 2017-10-25 2020-12-01 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN108334574A (zh) * 2018-01-23 2018-07-27 南京邮电大学 一种基于协同矩阵分解的跨模态检索方法
CN108334574B (zh) * 2018-01-23 2020-06-12 南京邮电大学 一种基于协同矩阵分解的跨模态检索方法
CN109145080A (zh) * 2018-07-26 2019-01-04 新华三信息安全技术有限公司 一种文本指纹获得方法及装置
CN109145080B (zh) * 2018-07-26 2021-01-01 新华三信息安全技术有限公司 一种文本指纹获得方法及装置
CN109271486A (zh) * 2018-09-19 2019-01-25 九江学院 一种相似性保留跨模态哈希检索方法
CN109271486B (zh) * 2018-09-19 2021-11-26 九江学院 一种相似性保留跨模态哈希检索方法
CN109376261A (zh) * 2018-10-29 2019-02-22 山东师范大学 基于中级文本语义增强空间的模态独立检索方法和系统
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109522821A (zh) * 2018-10-30 2019-03-26 武汉大学 一种基于跨模态深度哈希网络的大规模跨源遥感影像检索方法
CN109766455A (zh) * 2018-11-15 2019-05-17 南京邮电大学 一种有鉴别的全相似性保留哈希跨模态检索方法
CN109766455B (zh) * 2018-11-15 2021-09-24 南京邮电大学 一种有鉴别的全相似性保留哈希跨模态检索方法
CN109766469A (zh) * 2018-12-14 2019-05-17 浙江工业大学 一种基于深度哈希学习优化的图像检索方法
CN109766469B (zh) * 2018-12-14 2020-12-01 浙江工业大学 一种基于深度哈希学习优化的图像检索方法
CN111461157B (zh) * 2019-01-22 2022-11-18 大连理工大学 一种基于自学习的跨模态哈希检索方法
CN111461157A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于自学习的跨模态哈希检索方法
CN111460077A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于类语义引导的跨模态哈希检索方法
CN111460077B (zh) * 2019-01-22 2021-03-26 大连理工大学 一种基于类语义引导的跨模态哈希检索方法
CN109871454A (zh) * 2019-01-31 2019-06-11 鲁东大学 一种鲁棒离散监督跨媒体哈希检索方法
CN109871454B (zh) * 2019-01-31 2023-08-29 鲁东大学 一种鲁棒离散监督跨媒体哈希检索方法
CN110059198A (zh) * 2019-04-08 2019-07-26 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN110059198B (zh) * 2019-04-08 2021-04-13 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN110059154A (zh) * 2019-04-10 2019-07-26 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110059154B (zh) * 2019-04-10 2022-04-15 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN111914108A (zh) * 2019-05-07 2020-11-10 鲁东大学 基于语义保持的离散监督跨模态哈希检索方法
CN110110100A (zh) * 2019-05-07 2019-08-09 鲁东大学 基于协同矩阵分解的离散监督跨媒体哈希检索方法
CN110210540A (zh) * 2019-05-22 2019-09-06 山东大学 基于注意力机制的跨社交媒体用户身份识别方法及系统
CN110210540B (zh) * 2019-05-22 2021-02-26 山东大学 基于注意力机制的跨社交媒体用户身份识别方法及系统
JP2021099803A (ja) * 2019-12-20 2021-07-01 楽天グループ株式会社 ディープバイナリハッシュおよび量子化を介した効率的なクロスモーダル検索
JP7055187B2 (ja) 2019-12-20 2022-04-15 楽天グループ株式会社 ディープバイナリハッシュおよび量子化を介した効率的なクロスモーダル検索
CN111984800B (zh) * 2020-08-16 2023-11-17 西安电子科技大学 基于字典对学习的哈希跨模态信息检索方法
CN111984800A (zh) * 2020-08-16 2020-11-24 西安电子科技大学 基于字典对学习的哈希跨模态信息检索方法
CN112214623A (zh) * 2020-09-09 2021-01-12 鲁东大学 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法
CN113326289A (zh) * 2021-08-02 2021-08-31 山东大学 面向携带新类别的增量数据的快速跨模态检索方法及系统
CN113326289B (zh) * 2021-08-02 2021-11-02 山东大学 面向携带新类别的增量数据的快速跨模态检索方法及系统
CN113407661B (zh) * 2021-08-18 2021-11-26 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN113407661A (zh) * 2021-08-18 2021-09-17 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN114201972B (zh) * 2021-12-14 2022-07-05 长安银行股份有限公司 一种理财产品数据处理方法
CN114201972A (zh) * 2021-12-14 2022-03-18 长安银行股份有限公司 一种理财产品数据处理方法
CN113971209B (zh) * 2021-12-22 2022-04-19 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法
CN113971209A (zh) * 2021-12-22 2022-01-25 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法

Also Published As

Publication number Publication date
CN107256271B (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN107256271B (zh) 基于映射字典学习的跨模态哈希检索方法
Zhu et al. Unsupervised visual hashing with semantic assistant for content-based image retrieval
Zuo et al. Exemplar based deep discriminative and shareable feature learning for scene image classification
CN109784405B (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
Sahbi Imageclef annotation with explicit context-aware kernel maps
Niu et al. Knowledge-based topic model for unsupervised object discovery and localization
Liu et al. An indoor scene classification method for service robot Based on CNN feature
Lin et al. Visual feature coding based on heterogeneous structure fusion for image classification
CN112163114B (zh) 一种基于特征融合的图像检索方法
Ni et al. Scene classification from remote sensing images using mid-level deep feature learning
Kishorjit Singh et al. Image classification using SLIC superpixel and FAAGKFCM image segmentation
Zhang et al. Video copy detection based on deep CNN features and graph-based sequence matching
Wu et al. Optimum pipeline for visual terrain classification using improved bag of visual words and fusion methods
Huang et al. Supervised contrastive learning based on fusion of global and local features for remote sensing image retrieval
Zhang et al. Image classification based on low-rank matrix recovery and Naive Bayes collaborative representation
Kuang et al. Effective 3-D shape retrieval by integrating traditional descriptors and pointwise convolution
Dammak et al. Histogram of dense subgraphs for image representation
Fang Robust multimodal discrete hashing for cross-modal similarity search
Zhou et al. Learning semantic context feature-tree for action recognition via nearest neighbor fusion
Wu et al. Semantics-preserving bag-of-words models for efficient image annotation
Liu et al. Locality constrained dictionary learning for non‐linear dimensionality reduction and classification
Malik et al. Multimodal semantic analysis with regularized semantic autoencoder
Benuwa et al. Group sparse based locality–sensitive dictionary learning for video semantic analysis
Liu et al. Discriminative self-adapted locality-sensitive sparse representation for video semantic analysis
Benuwa et al. Deep locality‐sensitive discriminative dictionary learning for semantic video analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Cross modal hash retrieval method based on mapping dictionary learning

Effective date of registration: 20211216

Granted publication date: 20200403

Pledgee: Yantai financing guarantee Group Co.,Ltd.

Pledgor: LUDONG University

Registration number: Y2021980015152

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220317

Granted publication date: 20200403

Pledgee: Yantai financing guarantee Group Co.,Ltd.

Pledgor: LUDONG University

Registration number: Y2021980015152

PC01 Cancellation of the registration of the contract for pledge of patent right