CN113407661B - 基于鲁棒矩阵分解的离散哈希检索方法 - Google Patents

基于鲁棒矩阵分解的离散哈希检索方法 Download PDF

Info

Publication number
CN113407661B
CN113407661B CN202110945572.7A CN202110945572A CN113407661B CN 113407661 B CN113407661 B CN 113407661B CN 202110945572 A CN202110945572 A CN 202110945572A CN 113407661 B CN113407661 B CN 113407661B
Authority
CN
China
Prior art keywords
text
image
matrix
hash
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110945572.7A
Other languages
English (en)
Other versions
CN113407661A (zh
Inventor
姚涛
李艺茹
王丽丽
张淑宁
王洪刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ludong University
Original Assignee
Ludong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ludong University filed Critical Ludong University
Priority to CN202110945572.7A priority Critical patent/CN113407661B/zh
Publication of CN113407661A publication Critical patent/CN113407661A/zh
Application granted granted Critical
Publication of CN113407661B publication Critical patent/CN113407661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于鲁棒矩阵分解的离散哈希检索方法,其通过互联网收集图像和文本两个模态的样本建立数据集;利用BOW算法提取图像和文本两个模态的样本的特征;利用矩阵分解算法学习图像和文本两个模态间的一致性和不一致性,其一致性由共享哈希码来表示,其不一致性由最小化共性来约束;所学习的哈希码可以捕捉不同模态的一致性信息,从而提高检索性能。本发明具有较高的检索性能,并容易应用到大规模数据集,具有广阔的应用前景。

Description

基于鲁棒矩阵分解的离散哈希检索方法
技术领域
本发明涉及基于鲁棒矩阵分解的离散哈希检索方法,属于多媒体检索的跨模态检索技术领域。
背景技术
随着计算机技术和社交网络的蓬勃发展,近年来多媒体数据量迅速增加,包括文本、图像和视频。对大规模数据集进行快速相似性检索已成为基本要求之一。哈希技术由于其在大规模应用中的高效性,近年来受到了广泛的关注。哈希技术的关键是通过保留数据结构或语义相似性来寻求高维数据点的紧凑二进制表示。随后,在学习到的海明空间中,通过异或运算可以有效地完成检索任务,这使得哈希技术可以应用于大规模数据集。然而,大多数检索任务仅限于在单模态内检索数据点,其中检索数据的类型与查询相同。由于不同模态之间存在异质性差异,这些方法不能直接应用于待检索数据属于不同类型的情况。
通常,互联网上生成的数据由不同模态表示,例如文本、图像和视频。对于搜索引擎而言,在实际应用中,需要向用户提供各种模态样本作为搜索结果。因此,跨媒体哈希检索技术成为一个研究的热点。跨媒体哈希检索技术将异构样本编码为哈希码,由于其在计算效率和存储开销方面的巨大优势,受到了越来越多的关注。尽管以前的方法有了较大的改进,但发现这些方法有以下缺点。首先,这些方法只关注不同模态之间的一致性部分建模,而忽略了多模态数据之间潜在的不一致性(由噪声或模态特性引起)。虽然它们能够为不同模态的样本学习哈希码,但却无法获得令人满意的检索性能。因此,如何在统一的学习框架中对不同模态间的一致性和不一致性进行联合建模,以提高哈希码的质量仍然是一个有待解决的问题。其次,哈希码的离散约束造成目标函数很难求解,大部分哈希方法首先松弛离散约束得到一个连续解,然后再对连续解进行量化得到样本的哈希码,但这个过程会引入量化误差,导致检索性能的下降。
发明内容
本发明的目的在于克服上述已有技术的不足而提供基于鲁棒矩阵分解的离散哈希检索方法。
本发明提供的技术方案如下:基于鲁棒矩阵分解的离散哈希检索方法,其特征在于,包括如下步骤::
步骤S1,通过互联网收集图像和文本两个模态的样本建立数据集,并将数据集划分为训练集和测试集;
步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;
步骤S3,利用矩阵分解算法学习图像和文本的特征间的一致性和不一致性,其一致性由共享哈希码来表示,其不一致性由最小化共性来约束,并构造总目标函数;
其包括如下步骤:
步骤S31,用
Figure 788037DEST_PATH_IMAGE001
来表示训练集样本的特征,其中n为样本对的数量,
Figure 33073DEST_PATH_IMAGE002
Figure 547231DEST_PATH_IMAGE003
Figure 739178DEST_PATH_IMAGE004
分别表示来自图像和文本模态的数据的零中心特征向量;利用径向基核函数将图像和文本的特征映射到d维的特征空间,其中
Figure 287971DEST_PATH_IMAGE005
Figure 641592DEST_PATH_IMAGE006
分别表示图像和文本的特征的映射后的特征;
步骤S32,将图像和文本模态间的一致性和不一致性融合到一个基于矩阵分解的模型中,其基于矩阵分解的目标函数定义如下:
Figure 206828DEST_PATH_IMAGE007
其中,
Figure 936886DEST_PATH_IMAGE008
为平衡图像和文本权值的平衡参数,
Figure 871344DEST_PATH_IMAGE009
为平衡一致性和不一致性的平衡参数,
Figure 395867DEST_PATH_IMAGE010
Figure 681354DEST_PATH_IMAGE011
分别表示图像和文本模态的潜在因子矩阵,
Figure 746262DEST_PATH_IMAGE012
Figure 4068DEST_PATH_IMAGE013
分别表示图像和文本模态间不一致部分,B表示模态间一致的部分,即图像和文本样本的哈希码,
Figure 997694DEST_PATH_IMAGE014
为不一致性的约束条件,不一致性是样本中存在的噪声或不同模态的特性,
Figure 36058DEST_PATH_IMAGE015
所有元素的和应尽量小,其中
Figure 45602DEST_PATH_IMAGE016
表示矩阵的点乘运算,定义
Figure 485810DEST_PATH_IMAGE014
如下:
Figure 352135DEST_PATH_IMAGE017
其中
Figure 815478DEST_PATH_IMAGE016
表示矩阵的点乘运算,使用矩阵形式,上述公式可以进一步写成:
Figure 691030DEST_PATH_IMAGE018
其中
Figure 923428DEST_PATH_IMAGE019
表示矩阵的迹;
步骤S33,由图像和文本模态的哈希码B学习图像和文本模态的哈希函数的目标函数定义为:
Figure 22971DEST_PATH_IMAGE020
其中
Figure 504768DEST_PATH_IMAGE021
是平衡两个模态哈希函数的参数,
Figure 121694DEST_PATH_IMAGE022
Figure 772381DEST_PATH_IMAGE023
分别表示图像和文本模态的投影矩阵;
步骤S34,因此本发明方法的总目标函数为:
Figure 449350DEST_PATH_IMAGE024
其中
Figure 215180DEST_PATH_IMAGE025
是平衡正则项权重的参数,
Figure 370218DEST_PATH_IMAGE026
表示正则项;
步骤S4,求解步骤S3所述的总目标函数,得到图像和文本样本对的哈希码B,以及图像和文本模态的投影矩阵
Figure 639525DEST_PATH_IMAGE027
;此目标函数是非凸的,因此本发明提出一种迭代优化算法得到问题的局部最优解,其包括以下子步骤:
步骤S41:固定
Figure 284133DEST_PATH_IMAGE028
,求解
Figure 943785DEST_PATH_IMAGE029
Figure 964830DEST_PATH_IMAGE030
Figure 760748DEST_PATH_IMAGE031
是k维单位矩阵;
步骤S42:固定
Figure 576257DEST_PATH_IMAGE032
,求解
Figure 785522DEST_PATH_IMAGE033
Figure 547941DEST_PATH_IMAGE034
步骤S43:固定
Figure 762147DEST_PATH_IMAGE035
,求解
Figure 748558DEST_PATH_IMAGE036
Figure 382802DEST_PATH_IMAGE037
步骤S44:固定
Figure 480071DEST_PATH_IMAGE038
,求解
Figure 578477DEST_PATH_IMAGE039
Figure 673472DEST_PATH_IMAGE040
步骤S45:固定
Figure 857328DEST_PATH_IMAGE041
,求解
Figure 492709DEST_PATH_IMAGE042
Figure 180042DEST_PATH_IMAGE043
Figure 711518DEST_PATH_IMAGE044
是d维单位矩阵;
步骤S46:固定
Figure 851512DEST_PATH_IMAGE045
,求解
Figure 323207DEST_PATH_IMAGE046
Figure 68309DEST_PATH_IMAGE047
步骤S47:固定
Figure 364161DEST_PATH_IMAGE048
,求解哈希码B:
去除与B无关的项,总目标函数可以简化为:
Figure 725872DEST_PATH_IMAGE049
其中
Figure 234214DEST_PATH_IMAGE050
,这是一个离散最小二乘问题,由于B的离散约束导致问题很难求解,本方法采用离散循环坐标下降法直接逐位求解B;
Figure 833823DEST_PATH_IMAGE051
作为哈希码B的第i行,
Figure 769418DEST_PATH_IMAGE052
作为B除去b构成的矩阵;类似地,
Figure 884004DEST_PATH_IMAGE053
表示
Figure 868141DEST_PATH_IMAGE054
第i行,
Figure 384573DEST_PATH_IMAGE055
表示
Figure 726955DEST_PATH_IMAGE054
去除
Figure 594416DEST_PATH_IMAGE053
构成的矩阵,
Figure 382244DEST_PATH_IMAGE056
表示
Figure 549920DEST_PATH_IMAGE057
的第i行,
Figure 561738DEST_PATH_IMAGE058
表示
Figure 588600DEST_PATH_IMAGE059
去除
Figure 976856DEST_PATH_IMAGE060
构成的矩阵,
Figure 467880DEST_PATH_IMAGE061
表示
Figure 650600DEST_PATH_IMAGE062
的第i行,去掉常数项可得:
Figure 430337DEST_PATH_IMAGE063
可得:
Figure 123749DEST_PATH_IMAGE064
首先利用生成的
Figure 406963DEST_PATH_IMAGE065
更新哈希码B的第i行,然后重复执行上式直至更新完所有位哈希码;重复执行上述过程
Figure 26163DEST_PATH_IMAGE066
次后,得到训练集样本的哈希码B;
步骤S48:判断是否达到最大迭代次数或最近两次迭代损失的差小于0.001,如果不是则继续迭代;如果是,则停止循环;
步骤S5,用户提交查询样本时,利用图像模态的投影矩阵
Figure 89934DEST_PATH_IMAGE067
或文本模态的投影矩阵
Figure 23255DEST_PATH_IMAGE068
进行计算,得到查询样本的哈希码,并计算查询样本与数据集中异构模态样本的汉明距离,并按汉明距离从小到大排序返回跨媒体检索结果。
优选地,所述的步骤S1 中,包括从网络上的社交网站收集图像和文本两个模态的样本,并根据图像和文本共现关系构成图像和文本样本,构建数据集。
优选地,所述的步骤S2中,对图像使用由SIFT特征作为视觉单词的词袋模型提取特征,对文本使用传统的词袋模型提取特征。
优选地,所述的步骤S5中,当用户提交查询样本
Figure 754451DEST_PATH_IMAGE069
时,r=1表示图像模态,r=2表示文本模态,根据图像模态的投影矩阵
Figure 747814DEST_PATH_IMAGE070
和文本模态的投影矩阵
Figure 298881DEST_PATH_IMAGE068
,利用
Figure 770314DEST_PATH_IMAGE071
计算查询样本的哈希码,并计算查询样本与数据集中异构模态样本的汉明距离,并按汉明距离从小到大排序返回跨媒体检索结果。
本发明的有益效果是:本发明通过矩阵分解模型消除不同模态之间的不一致性,同时保持生成哈希代码的一致性。因此,该模型能更好地捕捉训练数据的内在结构,而且对噪声具有较强的鲁棒性。此外,与以往大多数放松离散约束的方法不同,离散哈希码可以在优化过程中直接得到。
本发明设计了一个基于矩阵分解的总目标函数,对多模态数据的一致性和不一致性同时进行建模,一致性表示图像和文本样本的一致的哈希码,不一致表示样本中存在的噪声或不同模态的特性。因此,哈希码可以很好地捕获不同模态之间的共性,从而提高生成的哈希码的质量。本发明提出了一种有效的基于迭代的离散优化方案来解决上述总目标函数,可以直接产生离散哈希码,避免量化错误。本发明检索的准确率高,容易应用于大规模数据集,并且具有广阔的应用前景。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式做详细说明:
虽然本发明指定了图像和文本两个模态,但是算法很容易的扩展到其他模态和多于两个模态的情况。为了方便描述,本发明只考虑图像和文本两个模态。
如图1所示,基于鲁棒矩阵分解的离散哈希检索方法,其特征在于其通过计算机装置实现如下步骤:
步骤S1,通过互联网收集图像和文本两个模态的样本建立数据集,并将数据集划分为训练集和测试集;包括从网络上的社交网站收集图像和文本两个模态的样本,并根据图像和文本共现关系构成图像和文本样本,构建数据集,使用Mirflickr25K数据集,其由24类图像及其相应的文本标记组成;从数据集中随机选择75%的图像文本标记对组成训练集,其余的组成测试集。
步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;对图像使用由SIFT特征作为视觉单词的词袋模型提取特征,对文本使用传统的词袋模型提取特征。
步骤S3,利用矩阵分解算法学习图像和文本的特征间的一致性和不一致性,其一致性由共享哈希码来表示,其不一致性由最小化共性来约束,并构造总目标函数;
其包括如下步骤:
步骤S31,用
Figure 824858DEST_PATH_IMAGE072
表示训练集样本的特征,其中n为样本对的数量,
Figure 51440DEST_PATH_IMAGE002
Figure 761907DEST_PATH_IMAGE073
Figure 335233DEST_PATH_IMAGE074
分别表示来自图像和文本模态的数据的零中心特征向量;利用径向基核函数将图像和文本的特征映射到d维的特征空间,设置d=500;其中
Figure 775441DEST_PATH_IMAGE005
Figure 845029DEST_PATH_IMAGE075
分别表示图像和文本的特征;
步骤S32,将图像和文本模态间的一致性和不一致性融合到一个基于矩阵分解的模型中,其基于矩阵分解的目标函数定义如下:
Figure 105109DEST_PATH_IMAGE007
其中,
Figure 980661DEST_PATH_IMAGE008
为平衡图像和文本权值的平衡参数,设置
Figure 213059DEST_PATH_IMAGE008
=0.6;
Figure 515864DEST_PATH_IMAGE009
为平衡一致性和不一致性的平衡参数,设置
Figure 263240DEST_PATH_IMAGE009
=0.1;
Figure 880167DEST_PATH_IMAGE010
Figure 763809DEST_PATH_IMAGE011
分别表示图像和文本模态的潜在因子矩阵,
Figure 535718DEST_PATH_IMAGE076
Figure 504811DEST_PATH_IMAGE013
分别表示图像和文本模态间不一致部分,B表示模态间一致的部分(即图像和文本样本的一致的哈希码),
Figure 191007DEST_PATH_IMAGE014
为不一致性的约束条件,这种不一致性是样本中存在的噪声或不同模态的特性,因此各模态不一致部分的点乘积的和应尽量小,即(
Figure 194735DEST_PATH_IMAGE015
所有元素的和应尽量小,其中
Figure 839343DEST_PATH_IMAGE016
表示矩阵的点乘运算)。其定义
Figure 498995DEST_PATH_IMAGE014
如下:
Figure 520041DEST_PATH_IMAGE077
使用矩阵形式,上述公式可以进一步写成:
Figure 112696DEST_PATH_IMAGE078
其中
Figure 193784DEST_PATH_IMAGE079
表示矩阵的迹;
步骤S33,由图像和文本模态的哈希码B学习图像和文本模态的哈希函数的目标函数定义为:
Figure 340732DEST_PATH_IMAGE020
其中
Figure 135775DEST_PATH_IMAGE021
是平衡两个模态哈希函数的参数,设置
Figure 114095DEST_PATH_IMAGE021
=1000,
Figure 303768DEST_PATH_IMAGE080
Figure 329DEST_PATH_IMAGE081
分别表示图像和文本模态的投影矩阵;
步骤S34,因此本发明方法的总目标函数为:
Figure 97598DEST_PATH_IMAGE082
其中
Figure 664845DEST_PATH_IMAGE025
是平衡正则项权重的参数,设置
Figure 25419DEST_PATH_IMAGE025
=0.1;
Figure 943697DEST_PATH_IMAGE083
表示正则项;
步骤S4,求解步骤S3所述的总目标函数,得到图像和文本样本对的哈希码B,以及图像和文本模态的投影矩阵
Figure 844657DEST_PATH_IMAGE027
;此目标函数是非凸的,因此本发明提出一种迭代优化算法得到问题的局部最优解,其包括以下子步骤:
步骤S41:固定
Figure 531990DEST_PATH_IMAGE084
,求解
Figure 63465DEST_PATH_IMAGE085
Figure 970504DEST_PATH_IMAGE086
Figure 409575DEST_PATH_IMAGE087
是k维单位矩阵;设置k=32;
步骤S42:固定
Figure 216994DEST_PATH_IMAGE088
,求解
Figure 919371DEST_PATH_IMAGE033
Figure 812241DEST_PATH_IMAGE089
步骤S43:固定
Figure 789424DEST_PATH_IMAGE090
,求解
Figure 654612DEST_PATH_IMAGE036
Figure 590207DEST_PATH_IMAGE091
步骤S44:固定
Figure 908056DEST_PATH_IMAGE092
,求解
Figure 688930DEST_PATH_IMAGE039
Figure 470941DEST_PATH_IMAGE093
步骤S45:固定
Figure 515121DEST_PATH_IMAGE094
,求解
Figure 618468DEST_PATH_IMAGE042
Figure 468612DEST_PATH_IMAGE095
Figure 42813DEST_PATH_IMAGE096
是d维单位矩阵;设置d=500;
步骤S46:固定
Figure 851369DEST_PATH_IMAGE097
,求解
Figure 878231DEST_PATH_IMAGE046
Figure 532066DEST_PATH_IMAGE098
步骤S47:固定
Figure 491932DEST_PATH_IMAGE099
,求解哈希码B:
去除与B无关的项,总目标函数可以简化为:
Figure 940231DEST_PATH_IMAGE049
其中
Figure 719968DEST_PATH_IMAGE100
,这是一个离散最小二乘问题,由于B的离散约束导致问题很难求解,本方法采用离散循环坐标下降法直接逐位求解B;
Figure 944538DEST_PATH_IMAGE051
作为哈希码B的第i行,
Figure 227752DEST_PATH_IMAGE052
作为B除去b构成的矩阵;类似地,
Figure 112532DEST_PATH_IMAGE053
表示
Figure 910723DEST_PATH_IMAGE054
第i行,
Figure 578465DEST_PATH_IMAGE055
表示
Figure 778502DEST_PATH_IMAGE054
去除
Figure 834183DEST_PATH_IMAGE053
构成的矩阵,
Figure 57354DEST_PATH_IMAGE056
表示
Figure 387841DEST_PATH_IMAGE057
的第i行,
Figure 442385DEST_PATH_IMAGE058
表示
Figure 341071DEST_PATH_IMAGE059
去除
Figure 615319DEST_PATH_IMAGE060
构成的矩阵,
Figure 952760DEST_PATH_IMAGE061
表示
Figure 65072DEST_PATH_IMAGE062
的第i行,去掉常数项可得:
Figure 462556DEST_PATH_IMAGE101
可得:
Figure 457056DEST_PATH_IMAGE064
首先利用生成的
Figure 535871DEST_PATH_IMAGE065
更新哈希码B的第i行,然后重复执行上式直至更新完所有位哈希码;重复执行上述过程
Figure 830586DEST_PATH_IMAGE066
次后,得到训练集样本的哈希码B;
步骤S48:判断是否达到最大迭代次数或最近两次迭代损失的差小于0.001,如果不是则继续迭代;如果是,则停止循环;
步骤S5,当用户提交查询样本
Figure 602233DEST_PATH_IMAGE069
(r=1表示图像模态,r=2表示文本模态)时,根据图像模态的投影矩阵
Figure 615188DEST_PATH_IMAGE070
和文本模态的投影矩阵
Figure 28852DEST_PATH_IMAGE068
,利用
Figure 413959DEST_PATH_IMAGE102
计算查询样本的哈希码,并计算查询样本与数据集中异构模态样本的汉明距离,并按汉明距离从小到大排序返回跨媒体检索结果。
实验效果:
本实施例在Mirflflickr25K数据集进行验证,此数据集含有20015图像和文本组成的样本对,这些样本对可划分为24个语义类别;随机选取75%的样本对构成训练集,其他的25%构成测试集;将图像用150维的纹理的特征表示,将文本用500维的BOW(Bag OfWords)的特征表示,并对特征做归一化、去均值(零中心)处理;以平均准确率(MeanAverage Precision,MAP@50)作为性能的评估标准,其中50表示MAP的值由前50个返回的样本计算,并将本方案和MTFH(X. Liu, Z. Hu, H. Ling, and Y. M. Cheung, “Mtfh: Amatrix tri-factorization hashing framework for effificient cross-modalretrieval,” IEEE Transactions on Pattern Analysis and Machine Intelligence,vol. 43, no. 3, pp. 964–981, 2021.)进行对比,其中16位、24位、32位和64位码长在图像检索文本和文本检索任务上的准确率如表1所示。
Figure 825349DEST_PATH_IMAGE104
可以看出,本发明设计了一个基于矩阵分解的统一目标函数,对多模态数据的一致性和不一致性同时进行建模,一致性部分表示图像和文本样本的一致的哈希码,不一致的部分表示样本中存在的噪声或不同模态之间的多样性。因此,哈希码可以很好地捕获不同模态之间的共性,从而提高生成的哈希码的质量。提供了一种有效的基于迭代的离散优化方案来解决上述目标函数。因此,可以直接产生离散哈希码,避免量化错误。本发明检索的准确率高,容易应用于大规模数据集,并且具有广阔的应用前景。
应当理解的是,本说明书未详细阐述的部分都属于现有技术。以上的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。

Claims (4)

1.基于鲁棒矩阵分解的离散哈希检索方法,其特征在于,包括如下步骤:
步骤S1,通过互联网收集图像和文本两个模态的样本建立数据集,并将数据集划分为训练集和测试集;
步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;
步骤S3,利用矩阵分解算法学习图像和文本的特征间的一致性和不一致性,其一致性由共享哈希码来表示,其不一致性由最小化共性来约束,并构造总目标函数;
其包括如下步骤:
步骤S31,用
Figure 620530DEST_PATH_IMAGE001
来表示训练集样本的特征,其中n为样本对的数量,
Figure 41147DEST_PATH_IMAGE002
Figure 326766DEST_PATH_IMAGE003
Figure 440215DEST_PATH_IMAGE004
分别表示来自图像和文本模态的数据的零中心特征向量;利用径向基核函数将图像和文本的特征映射到d维的特征空间,其中
Figure 365446DEST_PATH_IMAGE005
Figure 652071DEST_PATH_IMAGE006
分别表示图像和文本的特征的映射后的特征;
步骤S32,将图像和文本模态间的一致性和不一致性融合到一个基于矩阵分解的模型中,其基于矩阵分解的目标函数定义如下:
Figure 713568DEST_PATH_IMAGE007
其中,
Figure 997919DEST_PATH_IMAGE008
为平衡图像和文本权值的平衡参数,
Figure 410446DEST_PATH_IMAGE009
为平衡一致性和不一致性的平衡参数,
Figure 750029DEST_PATH_IMAGE010
Figure 931611DEST_PATH_IMAGE011
分别表示图像和文本模态的潜在因子矩阵,
Figure 121284DEST_PATH_IMAGE012
Figure 83424DEST_PATH_IMAGE013
分别表示图像和文本模态间不一致部分,B表示模态间一致的部分,即图像和文本样本的哈希码,
Figure 649535DEST_PATH_IMAGE014
为不一致性的约束条件,不一致性是样本中存在的噪声或不同模态的特性,
Figure 951203DEST_PATH_IMAGE015
所有元素的和应尽量小,其中
Figure 124827DEST_PATH_IMAGE016
表示矩阵的点乘运算,定义
Figure 511946DEST_PATH_IMAGE014
如下:
Figure 881747DEST_PATH_IMAGE017
其中
Figure 772343DEST_PATH_IMAGE016
表示矩阵的点乘运算,使用矩阵形式,上述公式可以进一步写成:
Figure 631714DEST_PATH_IMAGE018
其中
Figure 240550DEST_PATH_IMAGE019
表示矩阵的迹;
步骤S33,由图像和文本模态的哈希码B学习图像和文本模态的哈希函数的目标函数定义为:
Figure 414042DEST_PATH_IMAGE020
其中
Figure 736308DEST_PATH_IMAGE021
是平衡两个模态哈希函数的参数,
Figure 704264DEST_PATH_IMAGE022
Figure 800396DEST_PATH_IMAGE023
分别表示图像和文本模态的投影矩阵;
步骤S34,因此本发明方法的总目标函数为:
Figure 512000DEST_PATH_IMAGE024
其中
Figure 439505DEST_PATH_IMAGE025
是平衡正则项权重的参数,
Figure 578362DEST_PATH_IMAGE026
表示正则项;
步骤S4,求解步骤S3所述的总目标函数,得到图像和文本样本对的哈希码B,以及图像和文本模态的投影矩阵
Figure 161790DEST_PATH_IMAGE027
;此目标函数是非凸的,因此本发明提出一种迭代优化算法得到问题的局部最优解,其包括以下子步骤:
步骤S41:固定
Figure 224555DEST_PATH_IMAGE028
,求解
Figure 209829DEST_PATH_IMAGE029
Figure 519588DEST_PATH_IMAGE030
Figure 652629DEST_PATH_IMAGE031
是k维单位矩阵;
步骤S42:固定
Figure 706035DEST_PATH_IMAGE032
,求解
Figure 545815DEST_PATH_IMAGE033
Figure 338060DEST_PATH_IMAGE034
步骤S43:固定
Figure 630501DEST_PATH_IMAGE035
,求解
Figure 487598DEST_PATH_IMAGE036
Figure 181885DEST_PATH_IMAGE037
步骤S44:固定
Figure 895763DEST_PATH_IMAGE038
,求解
Figure 941079DEST_PATH_IMAGE039
Figure 336289DEST_PATH_IMAGE040
步骤S45:固定
Figure 698131DEST_PATH_IMAGE041
,求解
Figure 786173DEST_PATH_IMAGE042
Figure 53206DEST_PATH_IMAGE043
Figure 314423DEST_PATH_IMAGE044
是d维单位矩阵;
步骤S46:固定
Figure 717723DEST_PATH_IMAGE045
,求解
Figure 976666DEST_PATH_IMAGE046
Figure 730995DEST_PATH_IMAGE047
步骤S47:固定
Figure 779591DEST_PATH_IMAGE048
,求解哈希码B:
去除与B无关的项,总目标函数可以简化为:
Figure 302977DEST_PATH_IMAGE049
其中
Figure 732821DEST_PATH_IMAGE050
,这是一个离散最小二乘问题,由于B的离散约束导致问题很难求解,本方法采用离散循环坐标下降法直接逐位求解B;
Figure 771184DEST_PATH_IMAGE051
作为哈希码B的第i行,
Figure 311887DEST_PATH_IMAGE052
作为B除去b构成的矩阵;类似地,
Figure 955358DEST_PATH_IMAGE053
表示
Figure 290524DEST_PATH_IMAGE054
第i行,
Figure 832495DEST_PATH_IMAGE055
表示
Figure 911309DEST_PATH_IMAGE054
去除
Figure 409287DEST_PATH_IMAGE053
构成的矩阵,
Figure 977672DEST_PATH_IMAGE056
表示
Figure 193889DEST_PATH_IMAGE057
的第i行,
Figure 76395DEST_PATH_IMAGE058
表示
Figure 740463DEST_PATH_IMAGE059
去除
Figure 683011DEST_PATH_IMAGE060
构成的矩阵,
Figure 120946DEST_PATH_IMAGE061
表示
Figure 541563DEST_PATH_IMAGE062
的第i行,去掉常数项可得:
Figure 76449DEST_PATH_IMAGE063
可得:
Figure 924320DEST_PATH_IMAGE064
首先利用生成的
Figure 849550DEST_PATH_IMAGE065
更新哈希码B的第i行,然后重复执行上式直至更新完所有位哈希码;重复执行上述过程
Figure 886908DEST_PATH_IMAGE066
次后,得到训练集样本的哈希码B;
步骤S48:判断是否达到最大迭代次数或最近两次迭代损失的差小于0.001,如果不是则继续迭代;如果是,则停止循环;
步骤S5,用户提交查询样本时,利用图像模态的投影矩阵
Figure 213984DEST_PATH_IMAGE067
或文本模态的投影矩阵
Figure 498335DEST_PATH_IMAGE068
进行计算,得到查询样本的哈希码,并计算查询样本与数据集中异构模态样本的汉明距离,并按汉明距离从小到大排序返回跨媒体检索结果。
2.根据权利要求1所述的基于鲁棒矩阵分解的离散哈希检索方法,其特征在于,所述的步骤S1 中,包括从网络上的社交网站收集图像和文本两个模态的样本,并根据图像和文本共现关系构成图像和文本样本,构建数据集。
3.根据权利要求1所述的基于鲁棒矩阵分解的离散哈希检索方法,其特征在于,所述的步骤S2中,对图像使用由SIFT特征作为视觉单词的词袋模型提取特征,对文本使用传统的词袋模型提取特征。
4.根据权利要求1所述的基于鲁棒矩阵分解的离散哈希检索方法,其特征在于,所述的步骤S5中,当用户提交查询样本
Figure 910861DEST_PATH_IMAGE069
时,r=1表示图像模态,r=2表示文本模态,根据图像模态的投影矩阵
Figure 735598DEST_PATH_IMAGE070
和文本模态的投影矩阵
Figure 917180DEST_PATH_IMAGE071
,利用
Figure 372433DEST_PATH_IMAGE072
计算查询样本的哈希码,并计算查询样本与数据集中异构模态样本的汉明距离,并按汉明距离从小到大排序返回跨媒体检索结果。
CN202110945572.7A 2021-08-18 2021-08-18 基于鲁棒矩阵分解的离散哈希检索方法 Active CN113407661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110945572.7A CN113407661B (zh) 2021-08-18 2021-08-18 基于鲁棒矩阵分解的离散哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110945572.7A CN113407661B (zh) 2021-08-18 2021-08-18 基于鲁棒矩阵分解的离散哈希检索方法

Publications (2)

Publication Number Publication Date
CN113407661A CN113407661A (zh) 2021-09-17
CN113407661B true CN113407661B (zh) 2021-11-26

Family

ID=77688749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110945572.7A Active CN113407661B (zh) 2021-08-18 2021-08-18 基于鲁棒矩阵分解的离散哈希检索方法

Country Status (1)

Country Link
CN (1) CN113407661B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510236B1 (en) * 2010-05-07 2013-08-13 Google Inc. Semi-supervised and unsupervised generation of hash functions
CN106294859A (zh) * 2016-08-22 2017-01-04 南京邮电大学盐城大数据研究院有限公司 一种基于属性耦合矩阵分解的项目推荐方法
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN109189930A (zh) * 2018-09-01 2019-01-11 网易(杭州)网络有限公司 文本特征提取及提取模型优化方法以及介质、装置和设备
CN110110100A (zh) * 2019-05-07 2019-08-09 鲁东大学 基于协同矩阵分解的离散监督跨媒体哈希检索方法
CN111090765A (zh) * 2019-11-25 2020-05-01 山东师范大学 一种基于缺失多模态哈希的社交图像检索方法及系统
CN111461157A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于自学习的跨模态哈希检索方法
CN111460077A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于类语义引导的跨模态哈希检索方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9020954B2 (en) * 2012-09-28 2015-04-28 International Business Machines Corporation Ranking supervised hashing
US20190171665A1 (en) * 2017-12-05 2019-06-06 Salk Institute For Biological Studies Image similarity search via hashes with expanded dimensionality and sparsification
CN109766481B (zh) * 2019-01-11 2021-06-08 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN110019652B (zh) * 2019-03-14 2022-06-03 九江学院 一种基于深度学习的跨模态哈希检索方法
CN110674323B (zh) * 2019-09-02 2020-06-30 山东师范大学 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
CN110990596B (zh) * 2019-12-04 2020-09-25 山东师范大学 一种基于自适应量化多模态哈希检索方法及系统
CN112214623A (zh) * 2020-09-09 2021-01-12 鲁东大学 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510236B1 (en) * 2010-05-07 2013-08-13 Google Inc. Semi-supervised and unsupervised generation of hash functions
CN106294859A (zh) * 2016-08-22 2017-01-04 南京邮电大学盐城大数据研究院有限公司 一种基于属性耦合矩阵分解的项目推荐方法
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN109189930A (zh) * 2018-09-01 2019-01-11 网易(杭州)网络有限公司 文本特征提取及提取模型优化方法以及介质、装置和设备
CN111461157A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于自学习的跨模态哈希检索方法
CN111460077A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于类语义引导的跨模态哈希检索方法
CN110110100A (zh) * 2019-05-07 2019-08-09 鲁东大学 基于协同矩阵分解的离散监督跨媒体哈希检索方法
CN111090765A (zh) * 2019-11-25 2020-05-01 山东师范大学 一种基于缺失多模态哈希的社交图像检索方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Fast discrete cross-modal hashing with semantic consistency;Tao Yao et al.;《Neural Networks》;20200211;第142-152页 *
MTFH: A Matrix Tri-Factorization Hashing Framework for Efficient Cross-Modal Retrieval;Xin Liu et al;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20190910;第964-981页 *
基于矩阵分解的离散哈希方法研究;李传祥;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190915;第2019年卷(第09期);第I138-1368页 *

Also Published As

Publication number Publication date
CN113407661A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
Wang et al. Cross-batch memory for embedding learning
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
CN106777318B (zh) 基于协同训练的矩阵分解跨模态哈希检索方法
Hu et al. Web-scale responsive visual search at bing
CN112182245B (zh) 一种知识图谱嵌入模型的训练方法、系统和电子设备
CN104899253B (zh) 面向社会图像的跨模态图像-标签相关度学习方法
Wu et al. Semi-supervised nonlinear hashing using bootstrap sequential projection learning
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
CN111753101B (zh) 一种融合实体描述及类型的知识图谱表示学习方法
CN107766555B (zh) 基于软约束无监督型跨模态哈希的图像检索方法
CN108984642B (zh) 一种基于哈希编码的印花织物图像检索方法
CN108595546B (zh) 基于半监督的跨媒体特征学习检索方法
US20190251184A1 (en) Recurrent binary embedding for information retrieval
CN113971209A (zh) 一种基于注意力机制增强的无监督跨模态检索方法
CN114943017B (zh) 一种基于相似性零样本哈希的跨模态检索方法
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
CN109871454A (zh) 一种鲁棒离散监督跨媒体哈希检索方法
CN110598022A (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN110442736B (zh) 一种基于二次判别分析的语义增强子空间跨媒体检索方法
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN115878757A (zh) 一种基于概念分解的混合超图正则化半监督跨模态哈希方法
CN111090765B (zh) 一种基于缺失多模态哈希的社交图像检索方法及系统
Liang et al. Cross-media semantic correlation learning based on deep hash network and semantic expansion for social network cross-media search
CN114596456A (zh) 一种基于聚集哈希学习的图像集分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant