CN113656700A - 基于多相似度一致矩阵分解的哈希检索方法 - Google Patents

基于多相似度一致矩阵分解的哈希检索方法 Download PDF

Info

Publication number
CN113656700A
CN113656700A CN202110985144.7A CN202110985144A CN113656700A CN 113656700 A CN113656700 A CN 113656700A CN 202110985144 A CN202110985144 A CN 202110985144A CN 113656700 A CN113656700 A CN 113656700A
Authority
CN
China
Prior art keywords
data
matrix
similarity
text
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110985144.7A
Other languages
English (en)
Inventor
姚涛
李艺茹
王洪刚
张小峰
刘莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ludong University
Original Assignee
Ludong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ludong University filed Critical Ludong University
Priority to CN202110985144.7A priority Critical patent/CN113656700A/zh
Publication of CN113656700A publication Critical patent/CN113656700A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于多相似度一致矩阵分解的哈希检索方法,其通过互联网收集图像和文本数据建立数据集,并将数据集划分为训练集和测试集;利用BOW算法分别提取所有图像和文本模态数据的特征;为了更好地挖掘不同模态之间的语义相关性,设计了一个多相似度一致矩阵,该矩阵既能保持数据之间的绝对相似度,又能保持数据之间的相对相似度;利用多相似度一致矩阵和矩阵分解将图像、文本数据分别映射到一个语义子空间;利用类标签衍生出一个语义子空间,并利用该空间对齐图像和文本模态的语义;通过最小化量化损失生成统一的哈希码;本发明具有较高的检索性能,容易应用到大规模数据集,因此具有广阔的应用前景。

Description

基于多相似度一致矩阵分解的哈希检索方法
技术领域
本发明尤其涉及基于多相似度一致矩阵分解的哈希检索方法,属于多媒体检索的跨模态检索技术领域。
背景技术
随着5G网络的到来,社交网络上产生了大量的多媒体数据,如文字、图片、视频等;面对如此庞大的数据量,如何高效地进行检索是一个越来越受到关注的问题;近年来,最近邻检索引起了人们的广泛关注;它可以从候选数据库中选择与查询数据最匹配的数据;然而,随着互联网上数据的爆炸式增长,在大规模数据集上的最近邻检索通常会导致检索速度慢、存储成本大等问题;为了解决上述问题,有研究者提出了哈希技术,将原始空间中的相似点映射到相似的哈希码中,然后用异或运算快速计算的汉明距离测量数据之间的相似性;由于哈希技术计算效率和存储成本都很高,因此在多媒体检索领域引起了广泛的关注。
早期哈希技术在单模态检索中得到了广泛应用;随着网络社会的快速发展,互联网上产生了大量的多媒体数据,使得检索工作日益复杂化,变成更有挑战性的任务;因此,跨模态检索成为一个新的研究热点,跨模态检索的主要目标是建立不同的模态之间的关系,具体来说,当提交一个查询时,类似的对象可以由检索系统以其他方式返回;然而,不同形式之间存在普遍的语义差距;因此,如何尽可能地保持不同模态之间的语义相关性成为跨模态检索的重要目标之一。
矩阵分解可以捕获隐藏在原始数据中的固有的数据结构,它是子空间学习的强有力工具;为了解决跨模态检索的任务,设计了几种基于矩阵分解的哈希方法,获得了较好的检索性能;但是,这些方法普遍存在以下缺点;首先,大多数模型通过使用协同矩阵分解保持模态间相似性,然而,不同模态的数据大多位于完全不同的特征空间,因此,直接对异构的成对数据生成一致表示会导致训练过程的巨大开销,从而导致性能下降;其次,为了生成更具鉴别性的哈希码,一些学者提出在哈希学习过程中保持模态内相似性,然而,它只是试图维护基于语义结构的局部数据结构或类标签,不足以捕获训练数据中的内在结构;第三,大多数方法首先学习一个实值公共空间,然后量化实值表示为简单的离散哈希码,但是,量化过程往往导致量化损失大并且检索性能低。
发明内容
本发明的目的在于克服上述已有技术的不足而提供基于多相似度一致矩阵分解的哈希检索方法。
本发明提供的技术方案如下:基于多相似度一致矩阵分解的哈希检索方法,其特征在于其包括以下步骤:
1)步骤S1,通过互联网收集图像和文本两个模态的数据,并建立图像和文本两个模态的数据集,并将两个模态的数据集划分为训练集和测试集;
2)步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;
3)步骤S3,构造训练集上的基于多相似度一致矩阵分解的哈希检索的总目标函数,其包括以下步骤:
步骤S31,用
Figure 194668DEST_PATH_IMAGE001
来描述训练集的数据特征,其中
Figure 174125DEST_PATH_IMAGE002
Figure 953862DEST_PATH_IMAGE003
Figure 349072DEST_PATH_IMAGE004
分别代表两个模态的维度,n为样本对的数量;
Figure 225761DEST_PATH_IMAGE005
,其中
Figure 48223DEST_PATH_IMAGE006
表示第t个模态;
Figure 315257DEST_PATH_IMAGE007
是来自图像和文本两个模态的特征向量;在不丢失一般性的情况下,不同模态的数据均采用零均值化
Figure 514157DEST_PATH_IMAGE008
Figure 245352DEST_PATH_IMAGE009
代表类标签矩阵并且
Figure 238716DEST_PATH_IMAGE010
代表第i个标签向量,其中c是全部类别的数量;
Figure 993046DEST_PATH_IMAGE011
表示第i个训练数据属于第q个语义类别,反之
Figure 792374DEST_PATH_IMAGE012
Figure 315760DEST_PATH_IMAGE013
表示哈希码,其中,k表示哈希码的长度;
步骤S32,用径向基核函数将两个模态的数据特征映射到核空间:
Figure 745604DEST_PATH_IMAGE014
Figure 987229DEST_PATH_IMAGE015
表示径向基核函数的参数,
Figure 324670DEST_PATH_IMAGE016
(
Figure 968141DEST_PATH_IMAGE017
)表示
Figure 303307DEST_PATH_IMAGE018
个从训练集中随机选取的数据作为锚点;
步骤S33,用
Figure 32229DEST_PATH_IMAGE019
Figure 173360DEST_PATH_IMAGE020
分别表示图像和文本模态的核化后的数据,先通过矩阵分解学习独立的子空间:
Figure 671338DEST_PATH_IMAGE021
其中
Figure 442984DEST_PATH_IMAGE022
是一个投影矩阵,
Figure 455940DEST_PATH_IMAGE023
是一个独立的子空间,
Figure 338445DEST_PATH_IMAGE024
是控制图像模态的权重,
Figure 690929DEST_PATH_IMAGE025
是F-范数;
步骤S34,类标签首先被映射到一个语义空间,在这个语义空间中,具有相同类标签的数据具有相同的表示;然后通过语义空间将跨模态语义信息对齐,其目标函数可定义为:
Figure 633477DEST_PATH_IMAGE026
其中Z是一个将类标签映射到语义空间的投影矩阵,
Figure 133729DEST_PATH_IMAGE027
是权重系数;
步骤S35,为每个模态学习一个线性映射矩阵
Figure 554346DEST_PATH_IMAGE028
,其目标函数定义为:
Figure 26915DEST_PATH_IMAGE029
其中
Figure 140365DEST_PATH_IMAGE030
是线性投影正则项的权重系数;
设计一个多相似度一致矩阵,该矩阵既能保持数据之间的绝对相似度,又能保持数据之间的相对相似度;对
Figure 127913DEST_PATH_IMAGE020
Figure 352221DEST_PATH_IMAGE019
Figure 413717DEST_PATH_IMAGE031
归一化为
Figure 760385DEST_PATH_IMAGE032
Figure 172912DEST_PATH_IMAGE033
Figure 200911DEST_PATH_IMAGE034
后,通过以下方式计算每个模态和类别标签的相似矩阵:
Figure 382493DEST_PATH_IMAGE035
Figure 634483DEST_PATH_IMAGE036
Figure 534306DEST_PATH_IMAGE037
然后,通过加权求和的方式将它们合并,得到绝对相似矩阵,如下所示:
Figure 100417DEST_PATH_IMAGE038
将相对相似度定义如下:
Figure 464402DEST_PATH_IMAGE039
其中
Figure 824976DEST_PATH_IMAGE040
是描述文本和标签之间高阶邻域信息重要性的折衷参数,
Figure 212095DEST_PATH_IMAGE041
是描述图片和标签之间高阶邻域信息重要性的折衷参数;
步骤S36,根据绝对相似度和相对相似度的定义,将多相似度一致矩阵表示为:
Figure 581897DEST_PATH_IMAGE042
上述公式不仅将类标签嵌入到多相似度矩阵构建中,而且将跨不同模态的高阶领域信息结合起来构建多相似度矩阵;
步骤S37,为了保持哈希码中基于多相似矩阵的相似性,其目标函数可定义为:
Figure 534809DEST_PATH_IMAGE043
其中
Figure 331864DEST_PATH_IMAGE044
Figure 940700DEST_PATH_IMAGE045
是一个对角矩阵,对角矩阵的元素是
Figure 114192DEST_PATH_IMAGE046
Figure 187190DEST_PATH_IMAGE047
是验证多相似矩阵重要性的平衡参数;
步骤S38,为了从学习的语义表示中生成哈希码,提出通过最小化量化损失来进一步提高哈希码的质量,其目标函数可定义为:
Figure 155146DEST_PATH_IMAGE048
其中
Figure 251278DEST_PATH_IMAGE049
是一个正交旋转矩阵,
Figure 962882DEST_PATH_IMAGE050
是学习哈希码重要性的参数;
步骤S39,构建的总目标函数为:
Figure 890387DEST_PATH_IMAGE051
其中
Figure 29244DEST_PATH_IMAGE052
,表示为了避免过拟合,其中
Figure 612672DEST_PATH_IMAGE053
是为了避免过拟合而设置的参数;
4)步骤S4,求解步骤S3所述的总目标函数,得到图像、文本的投影到海明空间的投影矩阵
Figure 924705DEST_PATH_IMAGE054
、图像文本的哈希码
Figure 909979DEST_PATH_IMAGE055
和正交旋转矩阵
Figure 219737DEST_PATH_IMAGE056
,其包括以下步骤:
步骤S41:固定总目标函数中的其他项,求解图像模态的投影矩阵
Figure 290461DEST_PATH_IMAGE057
Figure 406185DEST_PATH_IMAGE058
步骤S42:固定总目标函数中的其他项,求解文本模态的投影矩阵
Figure 245965DEST_PATH_IMAGE059
Figure 726625DEST_PATH_IMAGE060
步骤S43:固定总目标函数中的其他项,求解哈希码
Figure 19066DEST_PATH_IMAGE055
Figure 938480DEST_PATH_IMAGE061
步骤S44:固定总目标函数中的其他项,求解正交旋转矩阵
Figure 632767DEST_PATH_IMAGE062
;由奇异值的方法求解,即:
Figure 284328DEST_PATH_IMAGE063
,则
Figure 391961DEST_PATH_IMAGE064
步骤S45: 判断是否达到最大迭代次数或最近两次迭代损失的差小于0.001,如果不是则继续迭代;如果是,则停止循环;
5)步骤S5,对于测试集中的数据,根据步骤S4求得的投影矩阵
Figure 787171DEST_PATH_IMAGE065
和正交旋转矩阵R,给定第t个模态查询数据
Figure 335964DEST_PATH_IMAGE066
,其对应的测试集中数据的哈希码可通过以下方式获得:
Figure 424005DEST_PATH_IMAGE067
6)步骤S6,基于测试数据的哈希码,在训练集中检索与测试集中待检索数据距离近的另一模态的数据。
优选地,所述的步骤S1 中,包括从网络上的社交网站收集图像和文本两个模态的样本,并根据图像和文本共现关系构成图像和文本样本,构建数据集;使用NUS-WIDE数据集,其由81类图像及其相应的文本标记组成;从数据集中随机选择80%的图像文本标记对组成训练集,其余的组成测试集。
优选地,所述的S2中,对图像使用由SIFT特征作为视觉单词的词袋模型提取特征,对文本使用传统的词袋模型提取特征。
本发明的有益效果是:本发明将矩阵分解和相似性保持集成到一个统一的框架中;具体来说,首先通过矩阵分解和多相似度一致矩阵生成独立的语义子空间,使学习的语义子空间更具判别性;然后,通过类标签构建语义子空间,以连接不同模态之间的语义相关性;最后,设计了一种直接生成离散统一哈希码的离散优化算法。
本发明在基于哈希的跨模态检索中,充分利用了数据特征的分布,将原始的数据特征映射到两个独立子空间中;它可以有效地利用类标签得到的语义空间来建立由矩阵分解生成的独立子空间之间的关系; 因此,在学习到的公共语义空间中,可以很好地保留模态间的相似度,从而提高对语义空间和哈希码的识别;本发明设计了一种多相似度一致矩阵,该矩阵不仅能将不同模态之间的相似度信息进行融合,而且能较好地捕捉数据之间潜在的语义相似度;因此,训练数据的固有局部结构可以在哈希码中得到更好的保留;本发明检索的准确率高,容易应用于大规模数据集,并且具有广阔的应用前景。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式做详细说明:
虽然本发明指定了图像和文本两个模态,但是算法很容易的扩展到其他模态和多于两个模态的情况;为了方便描述,本发明只考虑图像和文本两个模态。
如图1所示,基于多相似度一致矩阵分解的哈希检索方法,其包括以下步骤:
1)步骤S1,通过互联网收集图像和文本两个模态的数据,并建立图像和文本两个模态的数据集,并将两个模态的数据集划分为训练集和测试集;包括从网络上的社交网站收集图像和文本两个模态的样本,并根据图像和文本共现关系构成图像和文本样本,构建数据集;使用NUS-WIDE数据集,其由81类图像及其相应的文本标记组成;从数据集中随机选择80%的图像文本标记对组成训练集,其余的组成测试集。
2)步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;对图像使用由SIFT特征作为视觉单词的词袋模型提取特征,对文本使用传统的词袋模型提取特征。
3)步骤S3,构造训练集上的基于多相似度一致矩阵分解的哈希检索的总目标函数,其包括以下步骤:
步骤S31,用
Figure 753356DEST_PATH_IMAGE001
来描述训练集的数据特征,其中
Figure 952256DEST_PATH_IMAGE002
Figure 355555DEST_PATH_IMAGE003
Figure 614498DEST_PATH_IMAGE004
分别代表两个模态的维度,n为样本对的数量;
Figure 431145DEST_PATH_IMAGE005
,其中
Figure 168156DEST_PATH_IMAGE006
表示第t个模态;
Figure 691542DEST_PATH_IMAGE007
是来自图像和文本两个模态的特征向量;在不丢失一般性的情况下,不同模态的数据均采用零均值化
Figure 183703DEST_PATH_IMAGE008
Figure 159749DEST_PATH_IMAGE009
代表类标签矩阵并且
Figure 700452DEST_PATH_IMAGE010
代表第i个标签向量,其中c是全部类别的数量;
Figure 343923DEST_PATH_IMAGE011
表示第i个训练数据属于第q个语义类别,反之
Figure 741406DEST_PATH_IMAGE012
Figure 470328DEST_PATH_IMAGE013
表示哈希码,其中,k表示哈希码的长度。
步骤S32,用径向基核函数将两个模态的数据特征映射到核空间:
Figure 549142DEST_PATH_IMAGE014
Figure 47120DEST_PATH_IMAGE015
表示径向基核函数的参数, 设置
Figure 615504DEST_PATH_IMAGE068
=1;
Figure 831722DEST_PATH_IMAGE016
(
Figure 714227DEST_PATH_IMAGE017
)表示
Figure 129028DEST_PATH_IMAGE018
个从训练集中随机选取的数据作为锚点。
步骤S33,
Figure 71576DEST_PATH_IMAGE019
Figure 509511DEST_PATH_IMAGE020
分别表示来自图像和文本模态的核化数据,为了解决异构数据之间的相关性问题,提出了先通过矩阵分解学习独立的子空间:
Figure 930128DEST_PATH_IMAGE069
其中
Figure 465014DEST_PATH_IMAGE022
是一个投影矩阵,
Figure 312885DEST_PATH_IMAGE023
是一个独立的子空间,
Figure 238115DEST_PATH_IMAGE024
是控制图像模态的权重,设置
Figure 462423DEST_PATH_IMAGE070
=0.6;
Figure 851816DEST_PATH_IMAGE025
是F-范数。
步骤S34,类标签首先被映射到一个语义空间,在这个语义空间中,具有相同类标签的数据具有相同的表示;然后通过语义空间将跨模态语义信息对齐,其目标函数可定义为:
Figure 136167DEST_PATH_IMAGE071
其中Z是一个将类标签映射到语义空间的投影矩阵,
Figure 548694DEST_PATH_IMAGE027
是权重系数;其中,
Figure 373430DEST_PATH_IMAGE027
=11。
步骤S35,为每个模态学习一个线性映射矩阵
Figure 555013DEST_PATH_IMAGE072
,其目标函数可定义为:
Figure 10265DEST_PATH_IMAGE073
其中
Figure 910088DEST_PATH_IMAGE074
是线性投影正则项的权重系数;设置
Figure 538516DEST_PATH_IMAGE074
=5。
为了更好地发现不同模态之间的语义相关性,本发明设计了一个多相似度一致矩阵,该矩阵既能保持数据之间的绝对相似度,又能保持数据之间的相对相似度;对
Figure 574605DEST_PATH_IMAGE020
Figure 200758DEST_PATH_IMAGE019
Figure 587877DEST_PATH_IMAGE075
归一化为
Figure 754416DEST_PATH_IMAGE032
Figure 910591DEST_PATH_IMAGE033
Figure 707646DEST_PATH_IMAGE034
后,,通过以下方式计算每个模态和类别标签的相似矩阵:
Figure 378799DEST_PATH_IMAGE035
Figure 552291DEST_PATH_IMAGE036
Figure 562972DEST_PATH_IMAGE037
然后,通过加权求和的方式将它们合并,得到绝对相似矩阵,如下所示:
Figure 530928DEST_PATH_IMAGE076
然而,仅考虑数据的绝对相似性不足以描述训练集数据的内在局部结构,导致待学习的哈希码无法保持适当的相似性;因此,有必要引入额外的相似信息来产生更优化的哈希码;为此,将相对相似度定义如下:
Figure 689377DEST_PATH_IMAGE077
其中
Figure 135402DEST_PATH_IMAGE040
是描述文本和标签之间高阶邻域信息重要性的折衷参数,
Figure 266169DEST_PATH_IMAGE041
是描述图片和标签之间高阶邻域信息重要性的折衷参数,且
Figure 405026DEST_PATH_IMAGE078
均为0.1。
步骤S36,根据绝对相似度和相对相似度的定义,将多相似度一致矩阵表示为:
Figure 50771DEST_PATH_IMAGE042
上述公式不仅将类标签嵌入到多相似度矩阵构建中,而且将跨不同模态的高阶领域信息结合起来构建多相似度矩阵。
步骤S37,为了保持哈希码中基于多相似矩阵的相似性,其目标函数可定义为:
Figure 300487DEST_PATH_IMAGE079
其中
Figure 285761DEST_PATH_IMAGE080
Figure 657836DEST_PATH_IMAGE045
是一个对角矩阵,对角矩阵的元素是
Figure 728560DEST_PATH_IMAGE081
Figure 781967DEST_PATH_IMAGE047
是验证多相似矩阵重要性的平衡参数,设置
Figure 621747DEST_PATH_IMAGE047
=0.00001。
步骤S38,为了从学习的语义表示中生成哈希码,提出通过最小化量化损失来进一步提高哈希码的质量,其目标函数可定义为:
Figure 164724DEST_PATH_IMAGE082
其中
Figure 457165DEST_PATH_IMAGE083
是一个正交旋转矩阵,
Figure 314262DEST_PATH_IMAGE084
是学习哈希码重要性的参数,设置
Figure 8549DEST_PATH_IMAGE084
=0.1。
步骤S39,构建的总目标函数为:
Figure 722427DEST_PATH_IMAGE085
其中
Figure 767743DEST_PATH_IMAGE086
,表示为了避免过拟合,其中
Figure 162953DEST_PATH_IMAGE087
是为了避免过拟合而设置的参数,设置
Figure 774063DEST_PATH_IMAGE087
=0.001。
4)步骤S4,求解步骤S3所述的总目标函数,得到图像、文本的投影到海明空间的投影矩阵
Figure 862104DEST_PATH_IMAGE054
、图像文本的哈希码
Figure 129138DEST_PATH_IMAGE055
和正交旋转矩阵
Figure 62459DEST_PATH_IMAGE056
其包括以下步骤:
步骤S41:固定总目标函数中的其他项,求解图像模态的投影矩阵
Figure 793654DEST_PATH_IMAGE057
Figure 52597DEST_PATH_IMAGE088
步骤S42:固定总目标函数中的其他项,求解文本模态的投影矩阵
Figure 541347DEST_PATH_IMAGE059
Figure 606255DEST_PATH_IMAGE089
步骤S43:固定总目标函数中的其他项,求解哈希码
Figure 129641DEST_PATH_IMAGE055
Figure 293906DEST_PATH_IMAGE061
步骤S44:固定总目标函数中的其他项,求解正交旋转矩阵
Figure 535531DEST_PATH_IMAGE062
;由奇异值的方法求解,即:
Figure 138551DEST_PATH_IMAGE063
,则
Figure 516442DEST_PATH_IMAGE064
步骤S45: 判断是否达到最大迭代次数或最近两次迭代损失的差小于0.001,如果不是则继续迭代;如果是,则停止循环。
5)步骤S5,对于测试集中的数据,根据步骤S4求得的投影矩阵
Figure 117188DEST_PATH_IMAGE065
和正交旋转矩阵R,给定第t个模态查询数据
Figure 642847DEST_PATH_IMAGE066
,其对应的测试集中数据的哈希码可通过以下方式获得:
Figure 987241DEST_PATH_IMAGE090
6) 步骤S6,基于测试数据的哈希码,在训练集中检索与测试集中待检索数据距离近的另一模态的数据。
实验效果:
本实施例在NUS-WIDE数据集进行验证,此数据集含有269684图像和文本组成的样本对,这些样本对可划分为81个语义类别;随机选取80%的样本对构成训练集,其他的20%构成测试集;将图像用500维的纹理的特征表示,将文本用1000维的词袋特征表示,并对特征做归一化、去均值(零中心)处理;以平均准确率(Mean Average Precision,MAP@50)作为性能的评估标准,其中50表示MAP的值由前50个返回的样本计算,并将本方案和MTFH(X. Liu,Z. Hu, H. Ling, and Y. M. Cheung, “Mtfh: A matrix tri-factorization hashingframework for effificient cross-modal retrieval,” IEEE Transactions onPattern Analysis and Machine Intelligence, vol. 43, no. 3, pp. 964–981,2021.)进行对比,其中16位、24位、32位和64位码长在图像检索文本和文本检索任务上的准确率如表1所示。
以NUS-WIDE数据集进行验证,检索准确率如表1所示。
表1 NUS-WIDE数据集上8中跨模态检索的MAP@50比较
Figure 485218DEST_PATH_IMAGE091
可以看出,本发明设计了一种多相似度一致矩阵,该矩阵不仅能将不同模态之间的相似度信息进行融合,而且能较好地捕捉数据之间潜在的语义相似度;因此,训练集数据的固有局部结构可以在哈希码中得到更好的保留;它可以有效地利用类标签得到的语义空间来建立由矩阵分解生成独立的子空间; 因此,在学习到的语义空间中,可以很好地保留模态间的相似度,从而提高对语义空间和哈希码的识别;这些操作使得检索的准确率高,容易应用于大规模数据集,具有广阔的应用前景。
应当理解的是,本说明书未详细阐述的部分都属于现有技术;以上的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。

Claims (3)

1.基于多相似度一致矩阵分解的哈希检索方法,其特征在于其包括以下步骤:
1)步骤S1,通过互联网收集图像和文本两个模态的数据,并建立图像和文本两个模态的数据集,并将两个模态的数据集划分为训练集和测试集;
2)步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;
3)步骤S3,构造训练集上的基于多相似度一致矩阵分解的哈希检索的总目标函数,其包括以下步骤:
步骤S31,用
Figure 253859DEST_PATH_IMAGE001
来描述训练集的数据特征,其中
Figure 470077DEST_PATH_IMAGE002
Figure 352582DEST_PATH_IMAGE003
Figure 767383DEST_PATH_IMAGE004
分别代表两个模态的维度,n为样本对的数量;
Figure 444352DEST_PATH_IMAGE005
,其中
Figure 882287DEST_PATH_IMAGE006
表示第t个模态;
Figure 568483DEST_PATH_IMAGE007
是来自图像和文本两个模态的特征向量;在不丢失一般性的情况下,不同模态的数据均采用零均值化
Figure 837790DEST_PATH_IMAGE008
Figure 951240DEST_PATH_IMAGE009
代表类标签矩阵并且
Figure 876471DEST_PATH_IMAGE010
代表第i个标签向量,其中c是全部类别的数量;
Figure 163095DEST_PATH_IMAGE011
表示第i个训练数据属于第q个语义类别,反之
Figure 490172DEST_PATH_IMAGE012
Figure 774522DEST_PATH_IMAGE013
表示哈希码,其中,k表示哈希码的长度;
步骤S32,用径向基核函数将两个模态的数据特征映射到核空间:
Figure 983787DEST_PATH_IMAGE014
Figure 11786DEST_PATH_IMAGE015
表示径向基核函数的参数,
Figure 193368DEST_PATH_IMAGE016
(
Figure 648620DEST_PATH_IMAGE017
)表示
Figure 610760DEST_PATH_IMAGE018
个从训练集中随机选取的数据作为锚点;
步骤S33,用
Figure 176871DEST_PATH_IMAGE019
Figure 212960DEST_PATH_IMAGE020
分别表示图像和文本模态的核化后的数据,先通过矩阵分解学习独立的子空间:
Figure 901430DEST_PATH_IMAGE021
其中
Figure 22970DEST_PATH_IMAGE022
是一个投影矩阵,
Figure 392771DEST_PATH_IMAGE023
是一个独立的子空间,
Figure 548946DEST_PATH_IMAGE024
是控制图像模态的权重,
Figure 408318DEST_PATH_IMAGE025
是F-范数;
步骤S34,类标签首先被映射到一个语义空间,在这个语义空间中,具有相同类标签的数据具有相同的表示;然后通过语义空间将跨模态语义信息对齐,其目标函数可定义为:
Figure 17154DEST_PATH_IMAGE026
其中Z是一个将类标签映射到语义空间的投影矩阵,
Figure 925067DEST_PATH_IMAGE027
是权重系数;
步骤S35,为每个模态学习一个线性映射矩阵
Figure 998065DEST_PATH_IMAGE028
,其目标函数定义为:
Figure 966021DEST_PATH_IMAGE029
其中
Figure 62153DEST_PATH_IMAGE030
是线性投影正则项的权重系数;
设计一个多相似度一致矩阵,该矩阵既能保持数据之间的绝对相似度,又能保持数据之间的相对相似度;对
Figure 773757DEST_PATH_IMAGE020
Figure 966841DEST_PATH_IMAGE019
Figure 105698DEST_PATH_IMAGE031
归一化为
Figure 423547DEST_PATH_IMAGE032
Figure 1159DEST_PATH_IMAGE033
Figure 986433DEST_PATH_IMAGE034
后,通过以下方式计算每个模态和类别标签的相似矩阵:
Figure 296191DEST_PATH_IMAGE035
Figure 101336DEST_PATH_IMAGE036
Figure 217060DEST_PATH_IMAGE037
然后,通过加权求和的方式将它们合并,得到绝对相似矩阵,如下所示:
Figure 56840DEST_PATH_IMAGE038
将相对相似度定义如下:
Figure 537500DEST_PATH_IMAGE039
其中
Figure 157837DEST_PATH_IMAGE040
是描述文本和标签之间高阶邻域信息重要性的折衷参数,
Figure 749355DEST_PATH_IMAGE041
是描述图片和标签之间高阶邻域信息重要性的折衷参数;
步骤S36,根据绝对相似度和相对相似度的定义,将多相似度一致矩阵表示为:
Figure 709221DEST_PATH_IMAGE042
上述公式不仅将类标签嵌入到多相似度矩阵构建中,而且将跨不同模态的高阶领域信息结合起来构建多相似度矩阵;
步骤S37,为了保持哈希码中基于多相似矩阵的相似性,其目标函数可定义为:
Figure 360782DEST_PATH_IMAGE043
其中
Figure 202836DEST_PATH_IMAGE044
Figure 598046DEST_PATH_IMAGE045
是一个对角矩阵,对角矩阵的元素是
Figure 412418DEST_PATH_IMAGE046
Figure 297197DEST_PATH_IMAGE047
是验证多相似矩阵重要性的平衡参数;
步骤S38,为了从学习的语义表示中生成哈希码,提出通过最小化量化损失来进一步提高哈希码的质量,其目标函数可定义为:
Figure 564231DEST_PATH_IMAGE048
其中
Figure 763131DEST_PATH_IMAGE049
是一个正交旋转矩阵,
Figure 432009DEST_PATH_IMAGE050
是学习哈希码重要性的参数;
步骤S39,构建的总目标函数为:
Figure 487690DEST_PATH_IMAGE051
其中
Figure 242019DEST_PATH_IMAGE052
,表示为了避免过拟合,其中
Figure 244611DEST_PATH_IMAGE053
是为了避免过拟合而设置的参数;
4)步骤S4,求解步骤S3所述的总目标函数,得到图像、文本的投影到海明空间的投影矩阵
Figure 830313DEST_PATH_IMAGE054
、图像文本的哈希码
Figure 994578DEST_PATH_IMAGE055
和正交旋转矩阵
Figure 236203DEST_PATH_IMAGE056
,其包括以下步骤:
步骤S41:固定总目标函数中的其他项,求解图像模态的投影矩阵
Figure 776906DEST_PATH_IMAGE057
Figure 217115DEST_PATH_IMAGE058
步骤S42:固定总目标函数中的其他项,求解文本模态的投影矩阵
Figure 817860DEST_PATH_IMAGE059
Figure 281203DEST_PATH_IMAGE060
步骤S43:固定总目标函数中的其他项,求解哈希码
Figure 687913DEST_PATH_IMAGE061
Figure 920311DEST_PATH_IMAGE062
步骤S44:固定总目标函数中的其他项,求解正交旋转矩阵
Figure 691958DEST_PATH_IMAGE063
;由奇异值的方法求解,即:
Figure 642597DEST_PATH_IMAGE064
,则
Figure 587419DEST_PATH_IMAGE065
步骤S45: 判断是否达到最大迭代次数或最近两次迭代损失的差小于0.001,如果不是则继续迭代;如果是,则停止循环;
5)步骤S5,对于测试集中的数据,根据步骤S4求得的投影矩阵
Figure 939903DEST_PATH_IMAGE066
和正交旋转矩阵R,给定第t个模态查询数据
Figure 882451DEST_PATH_IMAGE067
,其对应的测试集中数据的哈希码可通过以下方式获得:
Figure 382703DEST_PATH_IMAGE068
6)步骤S6,基于测试数据的哈希码,在训练集中检索与测试集中待检索数据距离近的另一模态的数据。
2.根据权利要求1所述的基于多相似度一致矩阵分解的哈希检索方法,其特征在于,所述的步骤S1 中,包括从网络上的社交网站收集图像和文本两个模态的样本,并根据图像和文本共现关系构成图像和文本样本,构建数据集;使用NUS-WIDE数据集,其由81类图像及其相应的文本标记组成;从数据集中随机选择80%的图像文本标记对组成训练集,其余的组成测试集。
3.根据权利要求1所述的基于多相似度一致矩阵分解的哈希检索方法,其特征在于,所述的S2中,对图像使用由SIFT特征作为视觉单词的词袋模型提取特征,对文本使用传统的词袋模型提取特征。
CN202110985144.7A 2021-08-26 2021-08-26 基于多相似度一致矩阵分解的哈希检索方法 Withdrawn CN113656700A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110985144.7A CN113656700A (zh) 2021-08-26 2021-08-26 基于多相似度一致矩阵分解的哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110985144.7A CN113656700A (zh) 2021-08-26 2021-08-26 基于多相似度一致矩阵分解的哈希检索方法

Publications (1)

Publication Number Publication Date
CN113656700A true CN113656700A (zh) 2021-11-16

Family

ID=78482057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110985144.7A Withdrawn CN113656700A (zh) 2021-08-26 2021-08-26 基于多相似度一致矩阵分解的哈希检索方法

Country Status (1)

Country Link
CN (1) CN113656700A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114281950A (zh) * 2022-03-07 2022-04-05 山东建筑大学 基于多图加权融合的数据检索方法与系统
CN115828176A (zh) * 2023-02-09 2023-03-21 山东建筑大学 一种面向智慧工地的跨模态检索方法及系统
CN116541429A (zh) * 2023-07-06 2023-08-04 南方科技大学 一种非对称的哈希检索方法及终端

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114281950A (zh) * 2022-03-07 2022-04-05 山东建筑大学 基于多图加权融合的数据检索方法与系统
CN114281950B (zh) * 2022-03-07 2022-05-06 山东建筑大学 基于多图加权融合的数据检索方法与系统
CN115828176A (zh) * 2023-02-09 2023-03-21 山东建筑大学 一种面向智慧工地的跨模态检索方法及系统
CN115828176B (zh) * 2023-02-09 2023-05-30 山东建筑大学 一种面向智慧工地的跨模态检索方法及系统
CN116541429A (zh) * 2023-07-06 2023-08-04 南方科技大学 一种非对称的哈希检索方法及终端
CN116541429B (zh) * 2023-07-06 2023-09-05 南方科技大学 一种非对称的哈希检索方法及终端

Similar Documents

Publication Publication Date Title
Ke et al. End-to-end automatic image annotation based on deep CNN and multi-label data augmentation
Bai et al. Targeted attack for deep hashing based retrieval
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN112004111B (zh) 一种全域深度学习的新闻视频信息抽提方法
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
CN113177132B (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
CN114329109B (zh) 基于弱监督哈希学习的多模态检索方法及系统
CN108446334B (zh) 一种无监督对抗训练的基于内容的图像检索方法
CN111461175B (zh) 自注意与协同注意机制的标签推荐模型构建方法及装置
Abdul-Rashid et al. Shrec’18 track: 2d image-based 3d scene retrieval
CN113806580B (zh) 基于层次语义结构的跨模态哈希检索方法
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112163114B (zh) 一种基于特征融合的图像检索方法
CN114299321A (zh) 视频分类方法、装置、设备及可读存储介质
CN112214623A (zh) 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法
CN115410199A (zh) 图像内容检索方法、装置、设备及存储介质
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
Cheng et al. Deep attentional fine-grained similarity network with adversarial learning for cross-modal retrieval
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
CN116385946A (zh) 面向视频的目标片段定位方法、系统、存储介质及设备
CN115878757A (zh) 一种基于概念分解的混合超图正则化半监督跨模态哈希方法
Tomei et al. Image-to-image translation to unfold the reality of artworks: an empirical analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211116