CN107729513B - 基于语义对齐的离散监督跨模态哈希检索方法 - Google Patents

基于语义对齐的离散监督跨模态哈希检索方法 Download PDF

Info

Publication number
CN107729513B
CN107729513B CN201711004530.3A CN201711004530A CN107729513B CN 107729513 B CN107729513 B CN 107729513B CN 201711004530 A CN201711004530 A CN 201711004530A CN 107729513 B CN107729513 B CN 107729513B
Authority
CN
China
Prior art keywords
samples
image
text
hash
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711004530.3A
Other languages
English (en)
Other versions
CN107729513A (zh
Inventor
姚涛
孔祥维
付海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ludong University
Original Assignee
Ludong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ludong University filed Critical Ludong University
Priority to CN201711004530.3A priority Critical patent/CN107729513B/zh
Publication of CN107729513A publication Critical patent/CN107729513A/zh
Application granted granted Critical
Publication of CN107729513B publication Critical patent/CN107729513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Abstract

本发明公开了一种基于语义对齐的离散哈希(Discrete Semantic Alignment Hahing,DSAH)方法实现跨模态检索。在训练过程中,首先利用图像的属性与本模态对齐语义信息,缩小异构鸿沟;然后,为了减少内存开销和训练时间,利用协同滤波学习一个潜在语义空间,直接构建哈希码和标签之间的内在联系;最后,为了减少量化误差,提出一种离散优化方法,得到性能更好的哈希函数。在线检索过程,首先利用哈希函数将测试集中样本映射到二值空间,然后计算查询样本的二值码与被检索异构样本间的汉明距离,并按从小到大排序返回排序靠前的样本。在两个具有代表性的多模态数据集上的实验结果证明了DSAH的优越性能。

Description

基于语义对齐的离散监督跨模态哈希检索方法
技术领域:
本发明属于多媒体检索技术领域,涉及一种跨模态哈希检索方法,尤其涉及基于语义对齐的离散监督跨模态哈希检索方法。
背景技术:
在Web2.0时代,人们可以通过网络上传各种模态的数据,例如图像、文本和视频等。利用各种模态的数据表示信息,可以让网民更直观、更容易的获取自己所需要的信息。虽然这些不同模态的信息的表示不同,但它们可能包含相同的语义信息,因此,对于用户提交的检索内容,搜索引擎返回多种模态的数据能更生动、更形象的描述用户的检索意图,可以提升网络用户的体验。
不同模态样本的表示是不同的,例如文本通常用BOW或类似的方法表示,而图像通常用底层特征表示,例如GIST特征、SIFT特征等。一方面,对于文本模态而言,文本的关键词是含有语义信息的,例如:老虎、蓝天和女孩等;而对图像模态而言,底层特征一般是通过无监督的方式直接从图像中提取的,因此不包含语义信息,这会导致底层特征非常相似的两幅图像可能包含不同的语义概念,反之底层特征非常不相似的两幅图像可能含有相同的语义概念。甚至一副含有确切语义概念的图像,例如“一只黑色的小狗和两只白色的山羊在草地上奔跑”,对于计算机视觉领域仍然是一个挑战。另一方面,对于文本模态而言,一个受过良好教育的以英语为母语的人大概掌握了17000个单词;而图像的底层特征例如SIFT特征,由于SIFT特征点的表示是连续的,所以图像表示的数量是无数的。因此,会造成图文两种模态的表示与高层语义之间的鸿沟是不同的。但是,已有的哈希方法通常直接把各模态的特征表示放到一个统一的框架,学习各模态的哈希函数,而忽视各模态特征与高层语义之间的语义鸿沟不同的问题(参见文献 [1-5] )。因此需要研究一种新方法来解决此问题。
其次,监督跨媒体哈希方法利用含有语义概念的标签学习哈希函数,由于标签含 有高层语义信息,因此通常可以取得优于无监督跨媒体哈希算法的性能。大部分监督跨媒 体哈希算法一般通过以下两种方法学习哈希函数:(1)利用样本的标签信息构建样本间相 似度矩阵,使哈希码间的相似度逼近样本间相似度矩阵(参见文献 [5] );(2)利用标签构 造正(负)样本对,通过最小化正样本对间的汉明距离、最大化负样本对的汉明距离 学习哈 希函数(参见文献 [1-3] )。但是样本间相似度矩阵的尺寸为
Figure DEST_PATH_IMAGE001
,其中
Figure DEST_PATH_IMAGE002
为训练样本的数 量(构建正、负样本对与构建样本间相似矩阵类似,最多可以构建
Figure DEST_PATH_IMAGE003
个正、负样本对),随 着样本数量的增加,无论是构建两两样本间相似度矩阵还是构造正、负样本对都会导致较 大的内存开销和计算复杂度,限制了算法的应该用,因此需要研究一种新方法来解决此问 题。
此外,在哈希方法中,由于哈希码的二值约束,如何优化目标函数通常是一项挑战性的工作。通常,大部分哈希算法在优化过程中会放松哈希码的离散约束,得到连续解,然后通过量化连续解得到哈希码(参见文献 [5] )。但是量化操作会引入量化误差,会破坏样本的局部结构。文献[6]提出首先通过PCA降维得到样本的连续表示,再学习一个正交旋转矩阵最小化量化误差,得到性能更好的哈希函数。量化相关哈希把哈希函数学习和量化操作纳入一个学习框架,并提出一种联合学习方法得到一个最优解(参见文献 [7])。但是上述方法都没有直接学习离散的哈希码,导致了算法性能的下降,因此需要研究一种新方法来解决此问题。
发明内容:
本发明的目的在于克服上述已有技术的不足而提供一种基于语义对齐的离散监督跨模态哈希检索方法。本发明的方法首先利用含有语义信息的属性表示图像,使文本和图像模态对齐语义信息,缩小异构鸿沟;其次为了减少训练的计算复杂度和内存开销,提出直接利用标签学习样本的哈希码;最后为了减小量化误差,提出一种离散优化算法,直接得到哈希码的离散解。
本发明的目的可以通过如下措施来达到:基于语义对齐的离散监督跨模态哈希检索方法,其特征在于其由两部分组成:离线训练过程和在线检索过程;所述的离线训练过程包括提取训练集中文本模态样本BOW特征、提取训练集中图像模态样本的语义属性以及哈希函数的学习;所述的在线检索过程,首先利用BOW算法或CNN提取测试集中文本模态样本的特征或图像模态样本的语义属性表示,然后通过哈希函数将测试集中文本模态样本或图像模态样本映射到二值空间,最后计算测试集中文本模态样本或图像样本的哈希码与被检索异构样本哈希码的汉明距离,并根据距离从小到大排序返回排序靠前的样本;所述的离线训练过程,首先提取训练集中文本模态样本和图像模态样本的表示,然后将基于矩阵分解的协同滤波引入学习哈希码,并为文本和图像模态学习哈希函数;具体实现包括以下子步骤:
步骤1.1:训练集中样本包括文本模态样本和图像模态样本,提取训练集中样本的表示,其包含以下子步骤:
步骤1.1.1:利用词包模型提取训练集中文本模态样本的BOW特征;
步骤1.1.2:将训练集中图像模态样本送入在ImageNet上训练好的CNN网络,并将CNN网络Fc8层的输出作为语义属性表示训练图像样本;
步骤1.2:引入基于矩阵分解的协同滤波方法,直接利用样本的标签学习哈希码; 具体而言,利用基于矩阵分解的协同滤波算法学习两个低维矩阵,来估计标签矩阵,其中一 个矩阵为潜在语义矩阵,用
Figure DEST_PATH_IMAGE004
表示,
Figure DEST_PATH_IMAGE005
表示训练样本总的类别 数目,
Figure DEST_PATH_IMAGE006
表示哈希码的长度;另外一个矩阵为样本的哈希码,用
Figure DEST_PATH_IMAGE007
表 示,
Figure DEST_PATH_IMAGE008
表示训练样本的数量;算法期望如果第
Figure DEST_PATH_IMAGE009
个训练样本属于第
Figure DEST_PATH_IMAGE010
类,
Figure DEST_PATH_IMAGE011
的值应该小;反 之,如果第
Figure 455670DEST_PATH_IMAGE009
个训练样本不属于第
Figure 435127DEST_PATH_IMAGE010
类,
Figure DEST_PATH_IMAGE012
的值应该大;因此,第
Figure 214864DEST_PATH_IMAGE009
个训练样本和第
Figure 423123DEST_PATH_IMAGE010
个潜 在语义概念间的关联可以用来预测标签矩阵,关系预测损失的定义如下:
Figure DEST_PATH_IMAGE013
其中,
Figure DEST_PATH_IMAGE014
表示Frobenius范数,
Figure DEST_PATH_IMAGE015
为所有样本的标签 矩阵,
Figure DEST_PATH_IMAGE016
表示第
Figure 611396DEST_PATH_IMAGE009
个样本的标签,
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
表示第
Figure 496176DEST_PATH_IMAGE009
个样本不属于第
Figure 576258DEST_PATH_IMAGE010
类,
Figure DEST_PATH_IMAGE019
表示第
Figure DEST_PATH_IMAGE020
个样本属于第
Figure DEST_PATH_IMAGE021
类,用矩阵形式表示,可写为:
Figure DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE023
为正则项,
Figure DEST_PATH_IMAGE024
为权重参数;
步骤1.3:在得到训练文本和图像样本特征表示的基础上,利用线性映射作为哈希函数,其定义如下:
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
其中
Figure DEST_PATH_IMAGE027
Figure DEST_PATH_IMAGE028
分别表示训练集中文本和图像 模态样本的特征描述,
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
表示文本模态特征的维数,
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
分别表示文本和图像模态的哈希函数,
Figure DEST_PATH_IMAGE034
表示符号函 数,当输入为正值时输出为1,输入为负值时输出为-1;哈希函数学习的损失如下:
Figure DEST_PATH_IMAGE035
其中,
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE038
为权重参数;
步骤1.4:因此DSAH算法目标函数定义为:
Figure DEST_PATH_IMAGE039
步骤1.5:求解步骤1.4中目标函数,得到图像和文本模态的哈希函数;提出一种迭代优化算法得到一组局部最优解,其包含以下子步骤:
步骤1.5.1:固定
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
Figure DEST_PATH_IMAGE042
,求解
Figure DEST_PATH_IMAGE043
:当
Figure 647595DEST_PATH_IMAGE040
Figure 316474DEST_PATH_IMAGE041
Figure 372154DEST_PATH_IMAGE042
固定时,这个问题变为简 单的线性回归问题,这个问题存在闭合解,可以通过对求
Figure 126484DEST_PATH_IMAGE043
偏导为0得到:
Figure DEST_PATH_IMAGE044
步骤1.5.2:固定
Figure 676545DEST_PATH_IMAGE040
Figure 199930DEST_PATH_IMAGE043
Figure 629774DEST_PATH_IMAGE042
,求解
Figure 933717DEST_PATH_IMAGE041
:当
Figure 208840DEST_PATH_IMAGE040
Figure 852311DEST_PATH_IMAGE043
Figure 499062DEST_PATH_IMAGE042
固定时,与求解
Figure DEST_PATH_IMAGE045
类似,这 个问题也存在闭合解,可以通过对变量
Figure 290301DEST_PATH_IMAGE041
求偏导为0得到:
Figure DEST_PATH_IMAGE046
与求解
Figure 182164DEST_PATH_IMAGE041
类似,可以通过下式得到
Figure 680142DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE047
步骤1.5.3:固定
Figure 514106DEST_PATH_IMAGE041
Figure 464744DEST_PATH_IMAGE042
Figure 682271DEST_PATH_IMAGE043
,求解
Figure 34755DEST_PATH_IMAGE040
:当
Figure 977304DEST_PATH_IMAGE041
Figure 415238DEST_PATH_IMAGE042
Figure 898172DEST_PATH_IMAGE043
固定时,步骤1.4中目标 函数可以写为:
Figure DEST_PATH_IMAGE048
本发明提出一种离散优化方法,可以直接得到问题的离散解;展开上式并舍弃与
Figure 183791DEST_PATH_IMAGE040
无关的项,上式可写为:
Figure DEST_PATH_IMAGE049
其中
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE051
表示矩阵的迹;本发 明提出固定哈希码的其他位每次只求解一位的方法,直接得到哈希码的离散解;令
Figure DEST_PATH_IMAGE052
表示哈希码的第
Figure 359558DEST_PATH_IMAGE010
位,
Figure DEST_PATH_IMAGE053
表示
Figure 596373DEST_PATH_IMAGE040
除了第
Figure 820681DEST_PATH_IMAGE021
位由其他位组成 的矩阵;类似的,
Figure DEST_PATH_IMAGE054
表示
Figure DEST_PATH_IMAGE055
的第
Figure 944494DEST_PATH_IMAGE010
列,
Figure DEST_PATH_IMAGE056
表示
Figure 41895DEST_PATH_IMAGE055
除了第
Figure 516738DEST_PATH_IMAGE010
位由其他位组 成的矩阵;
Figure DEST_PATH_IMAGE057
表示的第
Figure 856322DEST_PATH_IMAGE010
列,
Figure DEST_PATH_IMAGE058
表示
Figure 100221DEST_PATH_IMAGE043
除了第
Figure 289894DEST_PATH_IMAGE010
位由其他位组成的矩阵; 去除常数项,目标函数变为:
Figure DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE061
的符号不同时,上式取值最小,因此:
Figure DEST_PATH_IMAGE062
步骤1.5.4:判断是否是最大迭代次数或最近两次迭代的损失差小于0.1,如果不是则跳转到步骤1.5.1继续迭代;如果是,则停止迭代,得到两个模态的哈希函数。
为了进一步实现本发明的目的,所述的在线检索过程,利用测试集中包含的文本和图像模态样本测试算法的检索性能,具体实现包含以下子步骤:
步骤2.1:利用词包模型提取测试集中文本模态样本的BOW特征,把测试集中图像模态样本送入在ImageNet上训练好的CNN网络,并把Fc8层输出的1000类分类得分作为语义属性表示图像模态的样本;
步骤2.2:分别利用离线训练过程中为文本和图像模态学习的哈希函数,得到测试集中文本和图像模态样本的哈希码;
步骤2.3:把测试集中文本或图像模态样本作为查询样本,分别计算查询样本哈希码与测试集中图像或文本模态样本哈希码的汉明距离,并根据距离从小到大排序返回排序靠前的样本。
本发明与已有技术相比可产生如下积极效果:
(1)利用含有语义信息的属性表示图像,使文本和图像模态对齐语义信息,缩小异构鸿沟,提升了算法的性能;
(2)直接利用标签学习样本的哈希码,减少了训练的计算复杂度和内存开销;
(3)提出了一种离散优化算法,可以直接得到哈希码的离散解,减小量化误差,提升了算法的性能。
附图说明:
图1为本发明的流程示意图。
具体实施方式:下面对本发明的具体实施方式再详细说明:
本发明的数据集被划分为训练集和测试集,训练集用于训练各模态的哈希函数,测试集用于测试算法的性能;
参见图1,基于语义对齐的离散监督跨模态哈希检索方法,其特征在于其由两部分组成:离线训练过程和在线检索过程;所述的离线训练过程包括提取训练集中文本模态样本BOW特征、提取训练集中图像模态样本的语义属性以及哈希函数的学习;所述的在线检索过程,首先利用BOW算法或CNN提取测试集中文本模态样本的特征或图像模态样本的语义属性表示,然后通过哈希函数将测试集中文本模态样本或图像模态样本映射到二值空间,最后计算测试集中文本模态样本或图像样本的哈希码与被检索异构样本哈希码的汉明距离,并根据距离从小到大排序返回排序靠前的样本。
所述的离线训练过程,首先提取训练集中文本模态样本和图像模态样本的表示,然后将基于矩阵分解的协同滤波引入学习哈希码,并为文本和图像模态学习哈希函数;具体实现包括以下子步骤:
步骤1.1:训练集中样本包括文本模态样本和图像模态样本,提取训练集中样本的表示,其包含以下子步骤:
步骤1.1.1:利用词包模型提取训练集中文本模态样本的BOW特征;
步骤1.1.2:将训练集中图像模态样本送入在ImageNet上训练好的CNN网络,并将CNN网络Fc8层的输出作为语义属性表示训练图像样本;
步骤1.2:为了减少监督哈希算法的运算量,引入基于矩阵分解协同的协同滤波方 法,直接利用样本的标签学习哈希码;具体而言,本发明利用基于矩阵分解的协同滤波算法 学习两个低维矩阵,来估计标签矩阵,其中一个矩阵为潜在语义矩阵,用
Figure DEST_PATH_IMAGE063
表示,
Figure 65083DEST_PATH_IMAGE005
表示训练样本总的类别数目,
Figure 631194DEST_PATH_IMAGE006
表示哈希码的长度; 另外一个矩阵为样本的哈希码,用
Figure 244446DEST_PATH_IMAGE007
表示,
Figure 605021DEST_PATH_IMAGE008
表示训练样本的数 量;算法期望如果第
Figure 992140DEST_PATH_IMAGE009
个训练样本属于第
Figure 361941DEST_PATH_IMAGE010
类,
Figure 314854DEST_PATH_IMAGE011
的值应该小;反之,如果第
Figure 111908DEST_PATH_IMAGE009
个训练样本 不属于第
Figure 533794DEST_PATH_IMAGE010
类,
Figure 707286DEST_PATH_IMAGE012
的值应该大;因此,第
Figure 780284DEST_PATH_IMAGE009
个训练样本和第
Figure 59825DEST_PATH_IMAGE010
个潜在语义概念间的关联可以 用来预测标签矩阵,关系预测损失的定义如下:
Figure 155957DEST_PATH_IMAGE013
其中,
Figure 929878DEST_PATH_IMAGE014
表示Frobenius范数,
Figure 795065DEST_PATH_IMAGE015
为所有样本的标签 矩阵,
Figure 933923DEST_PATH_IMAGE017
Figure 517351DEST_PATH_IMAGE016
表示第
Figure 580116DEST_PATH_IMAGE009
个样本的标签,
Figure 565389DEST_PATH_IMAGE018
表示第
Figure 875148DEST_PATH_IMAGE009
个样本不属于第
Figure 8189DEST_PATH_IMAGE010
类,
Figure 61596DEST_PATH_IMAGE019
表示第
Figure 212960DEST_PATH_IMAGE020
个样本属于第
Figure 755937DEST_PATH_IMAGE010
类,用矩阵形式表示,可写为:
Figure 861427DEST_PATH_IMAGE022
其中,
Figure 718525DEST_PATH_IMAGE023
为正则项,
Figure 412811DEST_PATH_IMAGE024
为权重参数;哈希码直接通过标签矩阵得到,由于标签 矩阵含有高层语义信息,因此哈希码具有很好的区分性能;
步骤1.3:在得到训练文本和图像样本特征表示的基础上,利用线性映射作为哈希函数,其定义如下:
Figure 438274DEST_PATH_IMAGE025
Figure 545907DEST_PATH_IMAGE026
其中
Figure 816483DEST_PATH_IMAGE027
Figure 552226DEST_PATH_IMAGE028
分别表示训练集中文本和图像 模态样本的特征描述,
Figure 640268DEST_PATH_IMAGE029
Figure 969618DEST_PATH_IMAGE030
Figure 480103DEST_PATH_IMAGE031
表示文本模态特征的维数,
Figure 758769DEST_PATH_IMAGE032
Figure 17712DEST_PATH_IMAGE033
分别表示文本和图像模态的哈希函数,
Figure 834358DEST_PATH_IMAGE034
表示符号函 数,当输入为正值时输出为1,输入为负值时输出为-1;哈希函数学习的损失如下:
Figure DEST_PATH_IMAGE064
其中,
Figure 882954DEST_PATH_IMAGE036
Figure 281706DEST_PATH_IMAGE037
Figure 773867DEST_PATH_IMAGE038
为权重参数。
步骤1.4:因此DSAH算法目标函数定义为:
Figure DEST_PATH_IMAGE065
步骤1.5:求解步骤1.4中目标函数,得到图像和文本模态的哈希函数;但是目标函数含有四个变量是非凸的,因此本发明提出一种迭代优化算法得到一组局部最优解,其包含以下子步骤:
步骤1.5.1:固定
Figure 123815DEST_PATH_IMAGE040
Figure 664517DEST_PATH_IMAGE041
Figure 307988DEST_PATH_IMAGE042
,求解
Figure 643155DEST_PATH_IMAGE043
:当
Figure 185126DEST_PATH_IMAGE040
Figure 263940DEST_PATH_IMAGE041
Figure 824234DEST_PATH_IMAGE042
固定时,这个问题变为简 单的线性回归问题,这个问题存在闭合解,可以通过对求
Figure 330302DEST_PATH_IMAGE043
偏导为0得到:
Figure 546520DEST_PATH_IMAGE044
步骤1.5.2:固定
Figure 740610DEST_PATH_IMAGE040
Figure 93094DEST_PATH_IMAGE043
Figure 35642DEST_PATH_IMAGE042
,求解
Figure 535893DEST_PATH_IMAGE041
:当
Figure 831877DEST_PATH_IMAGE040
Figure 304446DEST_PATH_IMAGE043
Figure 463901DEST_PATH_IMAGE042
固定时,与求解
Figure 389132DEST_PATH_IMAGE045
类似,这 个问题也存在闭合解,可以通过对变量
Figure 613440DEST_PATH_IMAGE041
求偏导为0得到:
Figure 2833DEST_PATH_IMAGE046
与求解
Figure 287183DEST_PATH_IMAGE041
类似,可以通过下式得到
Figure 699710DEST_PATH_IMAGE042
Figure 649081DEST_PATH_IMAGE047
步骤1.5.3:固定
Figure 830663DEST_PATH_IMAGE041
Figure 285915DEST_PATH_IMAGE042
Figure 248055DEST_PATH_IMAGE043
,求解
Figure 250384DEST_PATH_IMAGE040
:当
Figure 286473DEST_PATH_IMAGE041
Figure 912626DEST_PATH_IMAGE042
Figure 362062DEST_PATH_IMAGE045
固定时,步骤1.4中目标 函数可以写为:
Figure DEST_PATH_IMAGE066
由于的离散约束,所以这个问题是NP难问题。大部分已有的方法选择放松离散约束得到问题的一个连续解,再通过量化连续解得到离散解。但是由于量化操作引入了量化误差,再由连续解学习哈希函数会导致哈希函数性能的下降。因此本发明提出一种离散优化方法,可以直接得到问题的离散解。展开上式并舍弃与无关的项,DSAH算法的目标函数可写为:
Figure 279334DEST_PATH_IMAGE049
其中
Figure 435509DEST_PATH_IMAGE050
Figure 294880DEST_PATH_IMAGE051
表示矩阵的迹;本发 明提出通过固定哈希码的其他位每次只求解一位的方法,直接得到哈希码的离散解;具体 而言,令
Figure 861907DEST_PATH_IMAGE052
表示哈希码的第
Figure 35399DEST_PATH_IMAGE010
位,
Figure 108398DEST_PATH_IMAGE053
表示
Figure 76354DEST_PATH_IMAGE040
除了第
Figure 172486DEST_PATH_IMAGE021
位由其 他位组成的矩阵;类似的,
Figure 930095DEST_PATH_IMAGE054
表示
Figure 60862DEST_PATH_IMAGE055
的第
Figure 262036DEST_PATH_IMAGE010
列,
Figure 845464DEST_PATH_IMAGE056
表示
Figure 95180DEST_PATH_IMAGE055
除了第
Figure 893503DEST_PATH_IMAGE010
位由 其他位组成的矩阵;
Figure 203261DEST_PATH_IMAGE057
表示的第
Figure 336303DEST_PATH_IMAGE010
列,
Figure 389709DEST_PATH_IMAGE058
表示
Figure 541074DEST_PATH_IMAGE045
除了第
Figure 21734DEST_PATH_IMAGE010
位由其他位组成 的矩阵;去除常数项,目标函数变为:
Figure 314175DEST_PATH_IMAGE059
通过观察可以发现:当
Figure 233589DEST_PATH_IMAGE060
Figure 927876DEST_PATH_IMAGE061
的符号不同时,上式的取值最小,因此:
Figure 579437DEST_PATH_IMAGE062
步骤1.5.4:判断是否是最大迭代次数或最近两次迭代的损失差小于0.1,如果不是则跳转到步骤1.5.1继续迭代;如果是,则停止迭代,得到两个模态的哈希函数。
所述的在线检索过程,利用测试集中包含的文本和图像模态样本测试算法的检索性能,具体实现包含以下子步骤:
步骤2.1:利用词包模型提取测试集中文本模态样本的BOW特征,把测试集中图像模态样本送入在ImageNet上训练好的CNN网络,并把Fc8层输出的1000类分类得分作为语义属性表示图像模态的样本;
步骤2.2:分别利用离线训练过程中为文本和图像模态学习的哈希函数,得到测试集中文本和图像模态样本的哈希码;
步骤2.3:把测试集中文本或图像模态样本作为查询样本,分别计算查询样本哈希码与测试集中图像或文本模态样本哈希码的汉明距离,并根据距离从小到大排序返回排序靠前的样本。
本实施例的数据集为Mirflickr25K[8]和NUS-WIDE数据集[9],这两个数据集由图像和文本模态样本对构成,其中文本模态样本用BOW特征表示,而图像模态样本用CNN特征(Fc7层的输出)表示。
为了对齐文本模态和图像模态的语义信息,本发明方法利用图像模态的语义属性表示图像模态样本,具体而言,利用CNN网络的Fc8层的1000类分类得分作为图像模态的语义属性。对于Mirflickr25K数据集,本实施例随机选取75%的样本对构成训练集,剩余的25%样本对构成测试集,用来测试本发明方法的检索性能;对于NUS-WIDE数据集,本实施例随机选取99%的样本对构成训练集,剩余的1%样本对构成测试集,用来测试本发明方法的检索性能。
本实施例用平均精确率(mean Average Precision,mAP)来评估算法的检索性能。在两个数据集上文本检索图像和图像检索文本两个任务上哈希码长从16比特变化到64比特的实验结果公布在表1中。由于本发明方法利用了图像模态的语义属性与文本模态对齐语义信息和离散优化,本实验的平均准确率要明显优于文献[10-15]的结果。具体而言,在MirFlickr25K数据集上,本发明算法与最好对比算法的实验结果相比在文本检索图像和图像检索文本两个任务上分别得到了3.10%和2.64%的检索性能提升;在NUS-WIDE数据集上,本发明方法与最好对比算法的实验结果相比在文本检索图像和图像检索文本两个任务上分别得到了9.83%和11.26%的检索性能提升。证明了本发明提出方法的有效性。
表1在Mirflickr25K和NUS-WIDE数据集上的实验结果
Figure DEST_PATH_IMAGE067
应当理解的是,本说明书未详细阐述的部分都属于现有技术。上述针对较佳实施例的描述较细致,但不能因此认为是对本发明专利保护范围的限制,本发明的请求保护范围应以所附权利要求为准。
参考文献:
[1] BRONSTEIN M, BRONSTEIN A, MICHEL F, et al. Data fusion throughcross-modality metric learning using similarity-sensitive hashing [C]. IEEEConference on Computer Vision and Pattern Recognition, San Francisco, CA,USA, 2010: 3594-3601.
[2]ZHEN Y, YEUNG D, Co-regularized hashing for multimodal data [C].Advances in Neural Information Processing Systems, Lake Tahoe, Nevada, USA,2012: 1385-1393.
[3]KUMAR S, UDUPA R. Learning hash functions for cross-viewsimilarity search [C]. International Joint Conference on ArtificialIntelligence, Barcelona, Catalonia, Spain, 2011:1360-1366.
[4]DING G, GUO Y, ZHOU J. Collective matrix factorization hashing formultimodal data [C]. IEEE Conference on Computer Vision and PatternRecognition, Columbus, OH, USA, 2014: 2075-2082..
[5] ZHANG D, LI W. Large-scale supervised multimodal hashing withsemantic correlation maximization [C]. AAAI Conference on ArtificialIntelligence, Québec City, Québec, Canada, 2014: 2177-2183.
[6]WU B, YANG Q, ZHENG W. Quantized correlation hashing for fastcross-modal search [C]. International Joint Conference on ArtificialIntelligence, Canberra, ACT, Australia, 2015: 25-31.
[7]GONG Y, LAZEBNIK S, GORDO A, et al. Iterative quantization: Aprocrustean approach to Learning binary codes for large-scale image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12):2916-2929.
[8] HUISKES M, LEW M. The MIR flickr retrieval evaluation[C]. ACMInternational Conference on Multimedia Information Retrieval, 2008: 39-43.
[9] CHUA T, TANG J, HONG R, et al. Nuswide: A real-world web imagedatabase from national university of singapore [C]. ACM Conference on Imageand Video Retrieval, Santorini Island, Greece, 2009: 48-56.
[10] Zhang D, Li W J. Large-scale supervised multimodal hashing withsemantic correlation maximization [C],AAAI Conference on ArtificialIntelligence, 2014, pp. 2177-2183.
[11] Kumar S, Udupa R. Learning hash functions for cross viewsimilarity search [J], International Joint Conference on ArtificialIntelligence, 2011:1360-1365.
[12] Song J, Yang Y, Yang Y, Huang Z, Shen H. T. Inter-media hashingfor large-scale retrieval from heterogenous data sources. ACM InternationalConference on Management of Data, 2013:785-796.
[13] Ding G, Guo, Y, Zhou J. Collective matrix factorization hashingfor multimodal data [C]. IEEE Conference on Computer Vision and PatternRecognition, 2014: 2083–2090.
[14] Tang J, Wang K, Shao L. Supervised matrix factorization hashingfor cross-modal retrieval [J]. IEEE Transactions on Image Processing, 2016:3157:3166.
[15] Ma D, Liang J, Kong. X, He R. Frustratingly easy cross-modalhashing [C].ACM international conference on Multimedia, 2016: 237–241.

Claims (2)

1.基于语义对齐的离散监督跨模态哈希检索方法,其特征在于:其由两部分组成:离线训练过程和在线检索过程;所述的离线训练过程包括提取训练集中文本模态样本BOW特征、提取训练集中图像模态样本的语义属性以及哈希函数的学习;所述的在线检索过程,首先利用BOW算法或CNN提取测试集中文本模态样本的特征或图像模态样本的语义属性表示,然后通过哈希函数将测试集中文本模态样本或图像模态样本映射到二值空间,最后计算测试集中文本模态样本或图像样本的哈希码与被检索异构样本哈希码的汉明距离,并根据距离从小到大排序返回排序靠前的样本;所述的离线训练过程,首先提取训练集中文本模态样本和图像模态样本的表示,然后将基于矩阵分解的协同滤波引入学习哈希码,并为文本和图像模态学习哈希函数;具体实现包括以下子步骤:
步骤1.1:训练集中样本包括文本模态样本和图像模态样本,提取训练集中样本的表示,其包含以下子步骤:
步骤1.1.1:利用词包模型提取训练集中文本模态样本的BOW特征;
步骤1.1.2:将训练集中图像模态样本送入在ImageNet上训练好的CNN网络,并将CNN网络Fc8层的输出作为语义属性表示训练图像样本;
步骤1.2:引入基于矩阵分解的协同滤波方法,直接利用样本的标签学习哈希码;具体 而言,利用基于矩阵分解的协同滤波算法学习两个低维矩阵,来估计标签矩阵,其中一个矩 阵为潜在语义矩阵,用
Figure 142170DEST_PATH_IMAGE001
表示,
Figure 708281DEST_PATH_IMAGE002
表示训练样本总的类别数目,
Figure 9949DEST_PATH_IMAGE003
表示哈希码的长度;另外一个矩阵为样本的哈希码,用
Figure 432840DEST_PATH_IMAGE004
表示,
Figure 819959DEST_PATH_IMAGE005
表示训练样本的数量;算法期望如果第
Figure 189761DEST_PATH_IMAGE006
个训练样本属于第
Figure 188679DEST_PATH_IMAGE007
类,
Figure 985733DEST_PATH_IMAGE008
的值应该小;反之, 如果第
Figure 860148DEST_PATH_IMAGE006
个训练样本不属于第
Figure 33641DEST_PATH_IMAGE007
类,
Figure 44322DEST_PATH_IMAGE009
的值应该大;因此,第
Figure 825328DEST_PATH_IMAGE006
个训练样本和第
Figure 921459DEST_PATH_IMAGE007
个潜在语 义概念间的关联可以用来预测标签矩阵,关系预测损失的定义如下:
Figure 633064DEST_PATH_IMAGE010
其中,
Figure 357306DEST_PATH_IMAGE011
表示Frobenius范数,
Figure 496163DEST_PATH_IMAGE012
为所有样本的标签矩 阵,
Figure 79591DEST_PATH_IMAGE013
表示第
Figure 844154DEST_PATH_IMAGE006
个样本的标签,
Figure 829427DEST_PATH_IMAGE014
Figure 139186DEST_PATH_IMAGE015
表示第
Figure 68965DEST_PATH_IMAGE006
个样本不属于第
Figure 122371DEST_PATH_IMAGE007
类,
Figure 962151DEST_PATH_IMAGE016
表示第
Figure 459123DEST_PATH_IMAGE017
个样本属于第
Figure 751564DEST_PATH_IMAGE018
类,用矩阵形式表示,可写为:
Figure 608662DEST_PATH_IMAGE019
其中,
Figure 302948DEST_PATH_IMAGE020
为正则项,
Figure 16826DEST_PATH_IMAGE021
为权重参数;
步骤1.3:在得到训练文本和图像样本特征表示的基础上,利用线性映射作为哈希函数,其定义如下:
Figure 62143DEST_PATH_IMAGE022
Figure 457352DEST_PATH_IMAGE023
其中
Figure 114467DEST_PATH_IMAGE024
Figure 202509DEST_PATH_IMAGE025
分别表示训练集中文本和图像模态样 本的特征描述,
Figure 469542DEST_PATH_IMAGE026
Figure 934021DEST_PATH_IMAGE027
Figure 337321DEST_PATH_IMAGE028
表示文本模态特征的维数,
Figure 596264DEST_PATH_IMAGE029
Figure 163643DEST_PATH_IMAGE030
分别表示文本和图像模态的哈希函数,
Figure 133610DEST_PATH_IMAGE031
表示符号函数,当输入为正值 时输出为1,输入为负值时输出为-1;哈希函数学习的损失如下:
Figure 656996DEST_PATH_IMAGE032
其中,
Figure 86840DEST_PATH_IMAGE033
Figure 62886DEST_PATH_IMAGE034
Figure 603589DEST_PATH_IMAGE035
为权重参数;
步骤1.4:因此DSAH算法目标函数定义为:
Figure 247060DEST_PATH_IMAGE036
步骤1.5:求解步骤1.4中目标函数,得到图像和文本模态的哈希函数;提出一种迭代优化算法得到一组局部最优解,其包含以下子步骤:
步骤1.5.1:固定
Figure 598538DEST_PATH_IMAGE037
Figure 327460DEST_PATH_IMAGE038
Figure 406274DEST_PATH_IMAGE039
,求解
Figure 966568DEST_PATH_IMAGE040
:当
Figure 472636DEST_PATH_IMAGE037
Figure 688854DEST_PATH_IMAGE038
Figure 679681DEST_PATH_IMAGE039
固定时,这个问题变为简单的 线性回归问题,这个问题存在闭合解,可以通过对求
Figure 32165DEST_PATH_IMAGE040
偏导为0得到:
Figure 974713DEST_PATH_IMAGE041
步骤1.5.2:固定
Figure 678227DEST_PATH_IMAGE037
Figure 98844DEST_PATH_IMAGE040
Figure 571414DEST_PATH_IMAGE039
,求解
Figure 232334DEST_PATH_IMAGE038
:当
Figure 157564DEST_PATH_IMAGE037
Figure 381872DEST_PATH_IMAGE040
Figure 568003DEST_PATH_IMAGE039
固定时,与求解
Figure 852354DEST_PATH_IMAGE042
类似,这个问 题也存在闭合解,可以通过对变量
Figure 264880DEST_PATH_IMAGE038
求偏导为0得到:
Figure 542147DEST_PATH_IMAGE043
与求解
Figure 723730DEST_PATH_IMAGE038
类似,可以通过下式得到
Figure 178982DEST_PATH_IMAGE039
Figure 78805DEST_PATH_IMAGE044
步骤1.5.3:固定
Figure 503970DEST_PATH_IMAGE038
Figure 540059DEST_PATH_IMAGE039
Figure 166212DEST_PATH_IMAGE040
,求解
Figure 569643DEST_PATH_IMAGE037
:当
Figure 673865DEST_PATH_IMAGE038
Figure 830040DEST_PATH_IMAGE039
Figure 689412DEST_PATH_IMAGE040
固定时,步骤1.4中目标函数 可以写为:
Figure 298247DEST_PATH_IMAGE045
本发明提出一种离散优化方法,可以直接得到问题的离散解;展开上式并舍弃与
Figure 471740DEST_PATH_IMAGE037
无 关的项,上式可写为:
Figure 614181DEST_PATH_IMAGE046
其中
Figure 582137DEST_PATH_IMAGE047
Figure 678269DEST_PATH_IMAGE048
表示矩阵的迹;本发明提 出固定哈希码的其他位每次只求解一位的方法,直接得到哈希码的离散解;令
Figure 389873DEST_PATH_IMAGE049
表示哈希码的第
Figure 520640DEST_PATH_IMAGE007
位,
Figure 659497DEST_PATH_IMAGE050
表示
Figure 55975DEST_PATH_IMAGE037
除了第
Figure 305690DEST_PATH_IMAGE007
位由其他位组成的矩阵;类似的,
Figure 290964DEST_PATH_IMAGE051
表示
Figure 459777DEST_PATH_IMAGE052
的第
Figure 530501DEST_PATH_IMAGE007
列,
Figure 583908DEST_PATH_IMAGE053
表示
Figure 938535DEST_PATH_IMAGE052
除了第
Figure 419195DEST_PATH_IMAGE007
位由其他位组成的矩阵;
Figure 711636DEST_PATH_IMAGE054
表示的第
Figure 427788DEST_PATH_IMAGE007
列,
Figure 122074DEST_PATH_IMAGE055
表示
Figure 773636DEST_PATH_IMAGE040
除了第
Figure 835264DEST_PATH_IMAGE007
位由其他位组成的矩阵;去除常数 项,目标函数变为:
Figure 230473DEST_PATH_IMAGE056
Figure 779266DEST_PATH_IMAGE057
Figure 929624DEST_PATH_IMAGE058
的符号不同时,上式取值最小,因此:
Figure 196658DEST_PATH_IMAGE059
步骤1.5.4:判断是否是最大迭代次数或最近两次迭代的损失差小于0.1,如果不是则跳转到步骤1.5.1继续迭代;如果是,则停止迭代,得到两个模态的哈希函数。
2.根据权利要求1所述的基于语义对齐的离散监督跨模态哈希检索方法,其特征在于:所述的在线检索过程,利用测试集中包含的文本和图像模态样本测试算法的检索性能,具体实现包含以下子步骤:
步骤2.1:利用词包模型提取测试集中文本模态样本的BOW特征,把测试集中图像模态样本送入在ImageNet上训练好的CNN网络,并把Fc8层输出的1000类分类得分作为语义属性表示图像模态的样本;
步骤2.2:分别利用离线训练过程中为文本和图像模态学习的哈希函数,得到测试集中文本和图像模态样本的哈希码;
步骤2.3:把测试集中文本或图像模态样本作为查询样本,分别计算查询样本哈希码与测试集中图像或文本模态样本哈希码的汉明距离,并根据距离从小到大排序返回排序靠前的样本。
CN201711004530.3A 2017-10-25 2017-10-25 基于语义对齐的离散监督跨模态哈希检索方法 Active CN107729513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711004530.3A CN107729513B (zh) 2017-10-25 2017-10-25 基于语义对齐的离散监督跨模态哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711004530.3A CN107729513B (zh) 2017-10-25 2017-10-25 基于语义对齐的离散监督跨模态哈希检索方法

Publications (2)

Publication Number Publication Date
CN107729513A CN107729513A (zh) 2018-02-23
CN107729513B true CN107729513B (zh) 2020-12-01

Family

ID=61213580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711004530.3A Active CN107729513B (zh) 2017-10-25 2017-10-25 基于语义对齐的离散监督跨模态哈希检索方法

Country Status (1)

Country Link
CN (1) CN107729513B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595474B (zh) * 2018-03-09 2022-04-12 中山大学 一种带有物体位置感知的多标签图片哈希方法
CN108805157B (zh) * 2018-04-11 2022-02-18 南京理工大学 基于部分随机监督离散式哈希的遥感图像分类方法
CN108664999B (zh) * 2018-05-03 2021-02-12 北京图森智途科技有限公司 一种分类模型的训练方法及其装置、计算机服务器
CN108595688A (zh) * 2018-05-08 2018-09-28 鲁东大学 基于在线学习的潜在语义跨媒体哈希检索方法
CN109558890B (zh) * 2018-09-30 2023-03-31 天津大学 基于自适应权重哈希循环对抗网络的零样本图像分类方法
CN109766455B (zh) * 2018-11-15 2021-09-24 南京邮电大学 一种有鉴别的全相似性保留哈希跨模态检索方法
CN109766481B (zh) * 2019-01-11 2021-06-08 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN111461157B (zh) * 2019-01-22 2022-11-18 大连理工大学 一种基于自学习的跨模态哈希检索方法
CN109885716B (zh) * 2019-02-18 2022-10-14 成都快眼科技有限公司 基于异质多任务学习深度监督离散哈希的图像检索方法
CN109960732B (zh) * 2019-03-29 2023-04-18 广东石油化工学院 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统
CN110059154B (zh) * 2019-04-10 2022-04-15 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110110100A (zh) * 2019-05-07 2019-08-09 鲁东大学 基于协同矩阵分解的离散监督跨媒体哈希检索方法
CN111914108A (zh) * 2019-05-07 2020-11-10 鲁东大学 基于语义保持的离散监督跨模态哈希检索方法
CN110309331B (zh) * 2019-07-04 2021-07-27 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN111368176B (zh) * 2020-03-02 2023-08-18 南京财经大学 基于监督语义耦合一致的跨模态哈希检索方法及系统
CN111522903A (zh) * 2020-04-01 2020-08-11 济南浪潮高新科技投资发展有限公司 一种深度哈希检索方法、设备及介质
CN111639197B (zh) * 2020-05-28 2021-03-12 山东大学 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统
CN112214623A (zh) * 2020-09-09 2021-01-12 鲁东大学 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法
CN112948617B (zh) * 2021-02-07 2022-05-31 武汉工程大学 基于特定类原型的深度哈希网络图像检索方法及装置
CN112966127B (zh) * 2021-04-07 2022-05-20 北方民族大学 一种基于多层语义对齐的跨模态检索方法
CN113157739B (zh) * 2021-04-23 2024-01-09 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113434671A (zh) * 2021-06-23 2021-09-24 平安国际智慧城市科技股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN113487027B (zh) * 2021-07-08 2023-09-22 中国人民大学 基于时序对齐预测的序列距离度量方法、存储介质及芯片
CN113537250B (zh) * 2021-08-17 2022-04-19 天津大学 一种基于离散-连续特征耦合的图像异常检测方法
CN113407661B (zh) * 2021-08-18 2021-11-26 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033426A (zh) * 2015-03-11 2016-10-19 中国科学院西安光学精密机械研究所 一种基于潜在语义最小哈希的图像检索方法
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN107247774A (zh) * 2017-06-08 2017-10-13 西北工业大学 一种面向群智多模态数据的处理方法及系统
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN107273505A (zh) * 2017-06-20 2017-10-20 西安电子科技大学 基于非参数贝叶斯模型的监督跨模态哈希检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033426A (zh) * 2015-03-11 2016-10-19 中国科学院西安光学精密机械研究所 一种基于潜在语义最小哈希的图像检索方法
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN107247774A (zh) * 2017-06-08 2017-10-13 西北工业大学 一种面向群智多模态数据的处理方法及系统
CN107273505A (zh) * 2017-06-20 2017-10-20 西安电子科技大学 基于非参数贝叶斯模型的监督跨模态哈希检索方法
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Semantic Consistency Hashing for Cross-Modal Retrieval;Tao Yao;《Neurocomputing》;20160220;第193卷;第250-259页 *

Also Published As

Publication number Publication date
CN107729513A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN107729513B (zh) 基于语义对齐的离散监督跨模态哈希检索方法
Ding et al. Large-scale cross-modality search via collective matrix factorization hashing
Lin et al. Cross-view retrieval via probability-based semantics-preserving hashing
Zhu et al. Unsupervised visual hashing with semantic assistant for content-based image retrieval
CN104899253B (zh) 面向社会图像的跨模态图像-标签相关度学习方法
Mandal et al. Generalized semantic preserving hashing for cross-modal retrieval
Wang et al. Self-constraining and attention-based hashing network for bit-scalable cross-modal retrieval
CN107526799B (zh) 一种基于深度学习的知识图谱构建方法
CN107832663B (zh) 一种基于量子理论的多模态情感分析方法
Wang et al. Active learning in multimedia annotation and retrieval: A survey
Wang et al. Retrieval-based face annotation by weak label regularized local coordinate coding
Caicedo et al. Multimodal representation, indexing, automated annotation and retrieval of image collections via non-negative matrix factorization
CN111506714A (zh) 基于知识图嵌入的问题回答
CN107256271A (zh) 基于映射字典学习的跨模态哈希检索方法
Zhong et al. Deep discrete cross-modal hashing for cross-media retrieval
Lu et al. Efficient discrete latent semantic hashing for scalable cross-modal retrieval
CN109784405B (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
Xie et al. Cross-modal self-taught hashing for large-scale image retrieval
Niu et al. Spatial-DiscLDA for visual recognition
US20230298630A1 (en) Apparatuses and methods for selectively inserting text into a video resume
US20220043975A1 (en) Disentangle syntax and semantics in sentence representation with decomposable variational autoencoder
Du et al. Prototype-guided feature learning for unsupervised domain adaptation
Ma et al. Multi-label low-dimensional embedding with missing labels
Ma et al. Topic-based algorithm for multilabel learning with missing labels
Wang et al. Asymmetric graph based zero shot learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Discrete supervised cross modal hash retrieval method based on semantic alignment

Effective date of registration: 20211216

Granted publication date: 20201201

Pledgee: Yantai financing guarantee Group Co.,Ltd.

Pledgor: LUDONG University

Registration number: Y2021980015152

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220317

Granted publication date: 20201201

Pledgee: Yantai financing guarantee Group Co.,Ltd.

Pledgor: LUDONG University

Registration number: Y2021980015152

PC01 Cancellation of the registration of the contract for pledge of patent right