CN116383422A - 一种基于锚点的无监督跨模态哈希检索方法 - Google Patents
一种基于锚点的无监督跨模态哈希检索方法 Download PDFInfo
- Publication number
- CN116383422A CN116383422A CN202310369473.8A CN202310369473A CN116383422A CN 116383422 A CN116383422 A CN 116383422A CN 202310369473 A CN202310369473 A CN 202310369473A CN 116383422 A CN116383422 A CN 116383422A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- modal
- mode
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 84
- 238000005457 optimization Methods 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims description 56
- 230000006870 function Effects 0.000 claims description 44
- 230000004913 activation Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于锚点的无监督跨模态哈希检索方法,属于跨模态检索技术领域,该方法包括获取图文对训练集;初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数;根据图文对训练集中得到锚点集和批次图文对;根据锚点集和批次图文对,利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化,得到最优图像模态神经网络和最优文本模态神经网络;根据最优图像模态神经网络和最优文本模态神经网络,完成跨模态检索任务。本发明解决了跨模态哈希检索方法时间复杂度和空间复杂度偏高且二值编码不可微的问题。
Description
技术领域
本发明属于跨模态检索技术领域,尤其涉及一种基于锚点的无监督跨模态哈希检索方法。
背景技术
随着互联网和多媒体技术的飞速发展,网络上迅速产生了大量的多媒体数据。跨模态检索可以从这些海量的多媒体数据中检索到人们感兴趣的知识,具有广泛的应用前景,但同时也是一个巨大挑战。不同模态的数据类型和结构上存在巨大的差异,也称为“异构鸿沟”,导致无法直接度量不同模态间的相似性,现有的跨模态检索方法大多是连续值方法,其在大规模跨模态检索中面临着计算和存储成本高的问题。
近年来,跨模态哈希学习被成功用于压缩特征尺寸和降低检索复杂度。一方面,为降低特征的存储空间,跨模态哈希学习将不同的模态映射到一个公共汉明空间中,在该空间中不同模态的数据可由二进制的编码进行表示。另一方面,为提高检索效率,样本间的相似度可以直接由汉明距离计算得到,而汉明距离可以用位运算,即异或运算,代替浮点运算进行计算。按照是否需要语义监督信息,现有的跨模态哈希学习主要可以分为有监督的跨模态哈希学习方法和无监督的跨模态哈希学习方法。有监督的跨模态哈希学习方法在良好标注的语义信息的指导下将不同的模态映射到一个公共的汉明空间中,由于具有语义信息的指导,这些方法往往可取得良好的检索效果。然而,对大规模的数据进行标注是费时且昂贵的,并且同时标注多个模态将成倍地增加标注成本。因此,无监督的跨模态哈希学习方法近年来受到国内外研究者的密切关注,此类方法可从大量易于获取的未标记数据中学习到跨模态判别信息,其灵活的低成本学习方式具有很高的应用价值。
无监督跨模态哈希学习主要利用图文对中成对的相关信息弥合跨模态差异,进而将不同的模态映射到一个公共的汉明空间。尽管无监督的方法取得了显著进展,然而大多方法主要利用图文对的相关性,往往忽略了多模态数据中潜在的流形结构信息。为了挖掘多模态数据中潜藏的结构信息,近年来一些基于图的跨模态哈希检索算法被提出并取得了较好的性能。但是,这些基于图的跨模态哈希检索方法需要在整个训练集上构建图矩阵,具有很高的时间复杂度和空间复杂度,其中为训练集的图文对个数、为任意点的最近邻个数。因此,现有的基于图的跨模态哈希检索算法难以高效应对大规模多模态数据。此外,由于直接优化二值编码是一个NP难题(NP-hard problem),为解决该问题,现有方法主要采用:①连续值松弛,将二值编码由连续值代替进行优化,该松弛会导致训练的目标与优化方式不一致,使得检索性能下降;②逼近二值编码,虽然该类方法的优化方式与哈希目标一致,但是在优化过程中依然存在松弛问题,即在训练过程中算法的输出依然为连续值参与优化,也同样会使检索性能退化。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于锚点的无监督跨模态哈希检索方法解决了跨模态哈希检索方法学习时间复杂度和空间复杂度偏高且二值编码不可微的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于锚点的无监督跨模态哈希检索方法,包括以下步骤:
S1、获取图文对训练集;
S2、初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数;
S3、从图文对训练集中选择第一图文对集,并根据第一图文对集,得到锚点集;
S4、从图文对训练集中选择第二图文对集,并根据第二图文对集,得到批次图文对;
S5、根据锚点集和批次图文对,利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化,得到最优图像模态神经网络和最优文本模态神经网络;
S6、根据最优图像模态神经网络和最优文本模态神经网络,完成跨模态哈希检索。
本发明的有益效果为:本发明提出一种可微分哈希层,解决了跨模态哈希检索过程中学习的离散值不足的问题,该可微分哈希层能使得神经网络前向传播时采用离散方式进行计算,且可使用反向传播进行神经网络权值更新,可取得更好的检索性能;另外,本发明利用少量的锚点构造子图,从而指导跨模态哈希检索的学习过程,相较传统的基于图的方法,本发明可极大地降低时间与空间开销;本发明还提出一种新的三元排序损失使得在整个跨模态哈希检索过程中考虑跨模态排序,从而使得跨模态哈希检索的学习结果与跨模态哈希检索任务保持一致。
进一步地,所述步骤S2中的图像模态神经网络和文本模态神经网络均为模态神经网络;所述模态神经网络包括可微分哈希层和若干个依次连接的全连接层;所述可微分哈希层与最后一层全连接层连接;除最后一层全连接层外其余各所述全连接层均使用ReLU激活函数;所述可微分哈希层包括依次连接的Tanh激活函数和符号函数;所述Tanh激活函数与最后一层全连接层连接。
上述进一步方案的有益效果为:可微分哈希层能使得神经网络前向传播时采用离散方式进行计算,且可使用反向传播进行神经网络权值更新,解决了跨模态哈希检索过程中学习的离散值不足的问题。
进一步地,所述步骤S5具体为:
S501、根据锚点集和批次图文对,采用K近邻算法计算得到图像相似度图和文本相似度图;
S502、对图像相似度图和文本相似度图进行归一化,得到公共图矩阵:
Gi=(Di)-1Wi
Gt=(Dt)-1Wt
其中,P为公共图矩阵;Gi为归一化后的图像相似度图;Gt为归一化后的文本相似度图;i为图像模态标识;t为文本模态标识;Di为图像模态对角矩阵;Dt为文本模态对角矩阵;(·)-1为逆阵运算;Wi为图像模态下所有图像相似度子图;Wt为文本模态下所有文本相似度子图;
S503、计算批次图文对中跨图像和文本的相关概率:
其中,为跨图像和文本的相关概率,表示图像查询文本情况下第jl个图文对的相关概率;jl为图文对编号;it为图像查询文本标识;exp(·)为以自然常数e为底的指数函数;cos(·)为余弦函数;/>为图像模态下第j个图像输入图像模态神经网络得到的二值表征;i为图像模态标识;j为图像编号;/>为文本模态下第l个文本样本输入文本模态神经网络得到的二值表征;t为文本模态标识;l为文本编号;n为批次图文对大小,表示该批次图文对的数量;p为同批次样本编号;/>为文本模态下第p个样本输入文本模态神经网络得到的二值表征;
S504、根据跨图像和文本的相关概率,利用KL散度得到基于锚点图的跨模态损失:
S505、定义图三元排序损失集和文三元排序损失集,并根据图三元排序损失集和文三元排序损失集得到跨模态三元排序损失;
S506、根据基于锚点图的跨模态损失和跨模态三元排序损失,得到跨模态网络损失函数:
S507、以最小化跨模态网络损失函数为目标函数,采用随机梯度下降法,利用直通估计器分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代更新,得到图像优化参数和文本优化参数:
S508、根据图像优化参数和文本优化参数,得到最优图像模态神经网络和最优文本模态神经网络。
上述进一步方案的有益效果为:提出一种新的三元排序损失使得在整个跨模态哈希检索过程中考虑跨模态排序,从而使得跨模态哈希检索的学习结果与跨模态哈希检索任务保持一致;并且基于锚点图的跨模态损失,使得公共空间中的相似图与数据固有的相似图逼近。
进一步地,所述步骤S501具体为:
S5011、根据锚点集和批次图文对,采用余弦相似度计算图像相似度和文本相似度:
其中,为图像相似度;/>为图像模态下批次图文对中第u个图像所对应的锚点;iv为图像模态下批次图文对中第v个图像;/>为文本相似度;/>为文本模态下批次图文对中第q个文本所对应的锚点;tb为文本模态下批次图文对中第b个文本;Nk(·)为k个最近邻样本集;b和q均为文本编号;v和u均为图像编号;vu和bq均为图文对编号;
S5012、根据图像相似度和文本相似度,得到图像相似度矩阵和文本相似度矩阵:
S5013、根据图像相似度矩阵和文本相似度矩阵,得到图像相似性子图和文本相似性子图:
S5014、根据图像相似性子图和文本相似性子图,得到图像相似度图和文本相似度图。
上述进一步方案的有益效果为:从图文对训练集中选取部分数据,只利用少量的锚点构造子图,从而指导跨模态哈希检索的哈希学习过程,相较传统的基于图的方法,可极大地降低时间与空间开销。
进一步地,所述步骤S505具体为:
S5051、定义图三元排序损失集:
S5052、定义文三元排序损失集:
S5053、根据跨图像和文本的相关概率、图三元排序损失集和文三元排序损失集,得到跨模态三元排序损失:
上述进一步方案的有益效果为:图像模态二值表征和文本模态二值表征限制了相关样本相似度和非相关样本相似度之差,保证了在跨模态排序中相关样本始终在非相关样本之前。
进一步地,所述步骤S6中跨模态检索任务包括以图搜文和以文搜图;
所述以图搜文具体为:以图像作为查询输入,输入到图像模态神经网络得到图像二值表征,根据图像二值表征计算图像与文本检索库中的汉明距离,按汉明距离从小到大对文本进行排序,得到以图搜文检索结果;
所述以文搜图具体为:以文本作为查询输入,输入到文本模态神经网络得到文本二值表征,根据文本二值表征计算文本与图像检索库中的汉明距离,按汉明距离从小到大对图像进行排序,得到以文搜图检索结果。
上述进一步方案的有益效果为:通过计算相似和公共图可高效地从跨模态数据中学到一个公共汉明空间,从而在该空间中实现跨模态检索,提高了检索效率。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,在本发明的一个实施例中,一种基于锚点的无监督跨模态哈希检索方法,包括以下步骤:
S1、获取图文对训练集;
S2、初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数;
S3、从图文对训练集中选择第一图文对集,并根据第一图文对集,得到锚点集;
S4、从图文对训练集中选择第二图文对集,并根据第二图文对集,得到批次图文对;
S5、根据锚点集和批次图文对,利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化,得到最优图像模态神经网络和最优文本模态神经网络;
S6、根据最优图像模态神经网络和最优文本模态神经网络,完成跨模态哈希检索。
本实施例中,图像模态二值表征和文本模态二值表征用以限制相关样本相似度与非相关样本相似度之差,从而保证在跨模态排序中相关样本始终排在非相关样本之前。
所述步骤S2中的图像模态神经网络和文本模态神经网络均为模态神经网络;所述模态神经网络包括可微分哈希层和若干个依次连接的全连接层;所述可微分哈希层与最后一层全连接层连接;除最后一层全连接层外其余各所述全连接层均使用ReLU激活函数;所述可微分哈希层包括依次连接的Tanh激活函数和符号函数;所述Tanh激活函数与最后一层全连接层连接。
本实施例中,采用的神经网络由多层全连接构成,除了最后一层网络,其余每层全连接层之后接一层ReLU。最后一层全连接层接提出的可微分哈希层。该可微分哈希层由Tanh和符号函数构成。具体地,以一个样本为例,将其输入神经网络得到最后一层全连接的输出,再将该输出输入Tanh将其限定到[-1,1]之间,然后再将Tanh输出向量进行归一化后输入符号函数得到二值化的编码。
本实施例中,由于符号函数的不可导使得网络不能直接采用梯度下降法进行优化。为解决该问题,本发明采用直通估计器(Straight-Through Estimator,STE)进行优化。具体地,在网络的前向传播时,直接将符号函数加到网络的输出层后,以二值化网络的输出x,然后利用二值化后的表征sign(x)计算损失以优化网络;其中,sign(x)函数的定义为:在反向传播时,由于sign(x)不能够直接优化,因此令/>以计算梯度,从而可利用梯度下降法更新网络。换言之,在反向传播时,视sign(x)≈x进行梯度计算。
所述步骤S5具体为:
S501、根据锚点集和批次图文对,采用K近邻算法计算得到图像相似度图和文本相似度图;
S502、对图像相似度图和文本相似度图进行归一化,得到公共图矩阵:
Gi=(Di)-1Wi
Gt=(Dt)-1Wt
其中,P为公共图矩阵;Gi为归一化后的图像相似度图;Gt为归一化后的文本相似度图;i为图像模态标识;t为文本模态标识;Di为图像模态对角矩阵;Dt为文本模态对角矩阵;(·)-1为逆阵运算;Wi为图像模态下所有图像相似度子图;Wt为文本模态下所有文本相似度子图;
S503、计算批次图文对中跨图像和文本的相关概率:
其中,为跨图像和文本的相关概率,表示图像查询文本情况下第jl个图文对的相关概率;jl为图文对编号;it为图像查询文本标识;exp(·)为以自然常数e为底的指数函数;cos(·)为余弦函数;/>为图像模态下第j个图像输入图像模态神经网络得到的二值表征;i为图像模态标识;j为图像编号;/>为文本模态下第l个文本样本输入文本模态神经网络得到的二值表征;t为文本模态标识;l为文本编号;n为批次图文对大小,表示该批次图文对的数量;p为同批次样本编号;/>为文本模态下第p个样本输入文本模态神经网络得到的二值表征;
S504、根据跨图像和文本的相关概率,利用KL散度得到基于锚点图的跨模态损失:
S505、定义图三元排序损失集和文三元排序损失集,并根据图三元排序损失集和文三元排序损失集得到跨模态三元排序损失;
S506、根据基于锚点图的跨模态损失和跨模态三元排序损失,得到跨模态网络损失函数:
S507、以最小化跨模态网络损失函数为目标函数,采用随机梯度下降法,利用直通估计器分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代更新,得到图像优化参数和文本优化参数:
S508、根据图像优化参数和文本优化参数,得到最优图像模态神经网络和最优文本模态神经网络。
所述步骤S501具体为:
S5011、根据锚点集和批次图文对,采用余弦相似度计算图像相似度和文本相似度:
其中,为图像相似度;/>为图像模态下批次图文对中第u个图像所对应的锚点;iv为图像模态下批次图文对中第v个图像;/>为文本相似度;/>为文本模态下批次图文对中第q个文本所对应的锚点;tb为文本模态下批次图文对中第b个文本;Nk(·)为k个最近邻样本集;b和q均为文本编号;v和u均为图像编号;vu和bq均为图文对编号;
S5012、根据图像相似度和文本相似度,得到图像相似度矩阵和文本相似度矩阵:
S5013、根据图像相似度矩阵和文本相似度矩阵,得到图像相似性子图和文本相似性子图:
S5014、根据图像相似性子图和文本相似性子图,得到图像相似度图和文本相似度图。
所述步骤S505具体为:
S5051、定义图三元排序损失集:
S5052、定义文三元排序损失集:
S5053、根据跨图像和文本的相关概率、图三元排序损失集和文三元排序损失集,得到跨模态三元排序损失:
所述步骤S6中跨模态检索任务包括以图搜文和以文搜图;
所述以图搜文具体为:以图像作为查询输入,输入到图像模态神经网络得到图像二值表征,根据图像二值表征计算图像与文本检索库中的汉明距离,按汉明距离从小到大对文本进行排序,得到以图搜文检索结果;
所述以文搜图具体为:以文本作为查询输入,输入到文本模态神经网络得到文本二值表征,根据文本二值表征计算文本与图像检索库中的汉明距离,按汉明距离从小到大对图像进行排序,得到以文搜图检索结果。
Claims (6)
1.一种基于锚点的无监督跨模态哈希检索方法,其特征在于,包括以下步骤:
S1、获取图文对训练集;
S2、初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数;
S3、从图文对训练集中选择第一图文对集,并根据第一图文对集,得到锚点集;
S4、从图文对训练集中选择第二图文对集,并根据第二图文对集,得到批次图文对;
S5、根据锚点集和批次图文对,利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化,得到最优图像模态神经网络和最优文本模态神经网络;
S6、根据最优图像模态神经网络和最优文本模态神经网络,完成跨模态哈希检索。
2.根据权利要求1所述基于锚点的无监督跨模态哈希检索方法,其特征在于,所述步骤S2中的图像模态神经网络和文本模态神经网络均为模态神经网络;所述模态神经网络包括可微分哈希层和若干个依次连接的全连接层;所述可微分哈希层与最后一层全连接层连接;除最后一层全连接层外其余各所述全连接层均使用ReLU激活函数;所述可微分哈希层包括依次连接的Tanh激活函数和符号函数;所述Tanh激活函数与最后一层全连接层连接。
3.根据权利要求1所述基于锚点的无监督跨模态哈希检索方法,其特征在于,所述步骤S5具体为:
S501、根据锚点集和批次图文对,采用K近邻算法计算得到图像相似度图和文本相似度图;
S502、对图像相似度图和文本相似度图进行归一化,得到公共图矩阵:
Gi=(Di)-1Wi
Gt=(Dt)-1Wt
其中,P为公共图矩阵;Gi为归一化后的图像相似度图;Gt为归一化后的文本相似度图;i为图像模态标识;t为文本模态标识;Di为图像模态对角矩阵;Dt为文本模态对角矩阵;(·)-1为逆阵运算;Wi为图像模态下所有图像相似度子图;Wt为文本模态下所有文本相似度子图;
S503、计算批次图文对中跨图像和文本的相关概率:
其中,为跨图像和文本的相关概率,表示图像查询文本情况下第jl个图文对的相关概率;jl为图文对编号;it为图像查询文本标识;exp(·)为以自然常数e为底的指数函数;cos(·)为余弦函数;/>为图像模态下第j个图像输入图像模态神经网络得到的二值表征;i为图像模态标识;j为图像编号;/>为文本模态下第l个文本样本输入文本模态神经网络得到的二值表征;t为文本模态标识;l为文本编号;n为批次图文对大小,表示该批次图文对的数量;p为同批次样本编号;/>为文本模态下第p个样本输入文本模态神经网络得到的二值表征;
S504、根据跨图像和文本的相关概率,利用KL散度得到基于锚点图的跨模态损失:
S505、定义图三元排序损失集和文三元排序损失集,并根据图三元排序损失集和文三元排序损失集得到跨模态三元排序损失;
S506、根据基于锚点图的跨模态损失和跨模态三元排序损失,得到跨模态网络损失函数:
S507、以最小化跨模态网络损失函数为目标函数,采用随机梯度下降法,利用直通估计器分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代更新,得到图像优化参数和文本优化参数:
S508、根据图像优化参数和文本优化参数,得到最优图像模态神经网络和最优文本模态神经网络。
4.根据权利要求3所述基于锚点的无监督跨模态哈希检索方法,其特征在于,所述步骤S501具体为:
S5011、根据锚点集和批次图文对,采用余弦相似度计算图像相似度和文本相似度:
其中,为图像相似度;/>为图像模态下批次图文对中第u个图像所对应的锚点;iv为图像模态下批次图文对中第v个图像;/>为文本相似度;/>为文本模态下批次图文对中第q个文本所对应的锚点;tb为文本模态下批次图文对中第b个文本;Nk(·)为k个最近邻样本集;b和q均为文本编号;v和u均为图像编号;vu和bq均为图文对编号;
S5012、根据图像相似度和文本相似度,得到图像相似度矩阵和文本相似度矩阵:
S5013、根据图像相似度矩阵和文本相似度矩阵,得到图像相似性子图和文本相似性子图:
S5014、根据图像相似性子图和文本相似性子图,得到图像相似度图和文本相似度图。
5.根据权利要求3所述基于锚点的无监督跨模态哈希检索方法,其特征在于,所述步骤S505具体为:
S5051、定义图三元排序损失集:
S5052、定义文三元排序损失集:
S5053、根据跨图像和文本的相关概率、图三元排序损失集和文三元排序损失集,得到跨模态三元排序损失:
6.根据权利要求1所述基于锚点的无监督跨模态哈希检索方法,其特征在于,所述步骤S6中跨模态检索任务包括以图搜文和以文搜图;
所述以图搜文具体为:以图像作为查询输入,输入到图像模态神经网络得到图像二值表征,根据图像二值表征计算图像与文本检索库中的汉明距离,按汉明距离从小到大对文本进行排序,得到以图搜文检索结果;
所述以文搜图具体为:以文本作为查询输入,输入到文本模态神经网络得到文本二值表征,根据文本二值表征计算文本与图像检索库中的汉明距离,按汉明距离从小到大对图像进行排序,得到以文搜图检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310369473.8A CN116383422B (zh) | 2023-04-07 | 2023-04-07 | 一种基于锚点的无监督跨模态哈希检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310369473.8A CN116383422B (zh) | 2023-04-07 | 2023-04-07 | 一种基于锚点的无监督跨模态哈希检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116383422A true CN116383422A (zh) | 2023-07-04 |
CN116383422B CN116383422B (zh) | 2023-11-03 |
Family
ID=86976533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310369473.8A Active CN116383422B (zh) | 2023-04-07 | 2023-04-07 | 一种基于锚点的无监督跨模态哈希检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116383422B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116595343A (zh) * | 2023-07-17 | 2023-08-15 | 山东大学 | 基于流形排序学习的在线无监督跨模态检索方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834748A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 一种利用基于深度语义排序哈希编码的图像检索方法 |
CN106649688A (zh) * | 2016-12-16 | 2017-05-10 | 深圳市华尊科技股份有限公司 | 一种图像检索方法及终端 |
US20200073968A1 (en) * | 2018-09-04 | 2020-03-05 | Inception Institute of Artificial Intelligence, Ltd. | Sketch-based image retrieval techniques using generative domain migration hashing |
CN111597298A (zh) * | 2020-03-26 | 2020-08-28 | 浙江工业大学 | 一种基于深度对抗离散哈希学习的跨模态检索方法及装置 |
CN112836068A (zh) * | 2021-03-24 | 2021-05-25 | 南京大学 | 一种基于带噪标签学习的无监督跨模态哈希检索方法 |
CN114155403A (zh) * | 2021-10-19 | 2022-03-08 | 中山大学 | 一种基于深度学习的图像分段哈希排序方法 |
CN114239730A (zh) * | 2021-12-20 | 2022-03-25 | 华侨大学 | 一种基于近邻排序关系的跨模态检索方法 |
WO2022134728A1 (zh) * | 2020-12-25 | 2022-06-30 | 苏州浪潮智能科技有限公司 | 一种图像检索方法、系统、设备以及介质 |
-
2023
- 2023-04-07 CN CN202310369473.8A patent/CN116383422B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834748A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 一种利用基于深度语义排序哈希编码的图像检索方法 |
CN106649688A (zh) * | 2016-12-16 | 2017-05-10 | 深圳市华尊科技股份有限公司 | 一种图像检索方法及终端 |
US20200073968A1 (en) * | 2018-09-04 | 2020-03-05 | Inception Institute of Artificial Intelligence, Ltd. | Sketch-based image retrieval techniques using generative domain migration hashing |
CN111597298A (zh) * | 2020-03-26 | 2020-08-28 | 浙江工业大学 | 一种基于深度对抗离散哈希学习的跨模态检索方法及装置 |
WO2022134728A1 (zh) * | 2020-12-25 | 2022-06-30 | 苏州浪潮智能科技有限公司 | 一种图像检索方法、系统、设备以及介质 |
CN112836068A (zh) * | 2021-03-24 | 2021-05-25 | 南京大学 | 一种基于带噪标签学习的无监督跨模态哈希检索方法 |
CN114155403A (zh) * | 2021-10-19 | 2022-03-08 | 中山大学 | 一种基于深度学习的图像分段哈希排序方法 |
CN114239730A (zh) * | 2021-12-20 | 2022-03-25 | 华侨大学 | 一种基于近邻排序关系的跨模态检索方法 |
Non-Patent Citations (2)
Title |
---|
CHAOQUN ZHENG等: ""Efficient Semi-Supervised Multimodal Hashing With Importance Differentiation Regression"", 《 IEEE TRANSACTIONS ON IMAGE PROCESSING ( VOLUME: 31)》, pages 1 - 12 * |
吴家皋等: ""局部敏感哈希图像检索参数优化方法"", 《计算机技术与发展》, pages 32 - 37 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116595343A (zh) * | 2023-07-17 | 2023-08-15 | 山东大学 | 基于流形排序学习的在线无监督跨模态检索方法及系统 |
CN116595343B (zh) * | 2023-07-17 | 2023-10-03 | 山东大学 | 基于流形排序学习的在线无监督跨模态检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116383422B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649514B (zh) | 用于受人启发的简单问答(hisqa)的系统和方法 | |
CN108334574B (zh) | 一种基于协同矩阵分解的跨模态检索方法 | |
CN110765281A (zh) | 一种多语义深度监督跨模态哈希检索方法 | |
CN112199532B (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN110941734B (zh) | 基于稀疏图结构的深度无监督图像检索方法 | |
CN113177141B (zh) | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 | |
CN109902714B (zh) | 一种基于多图正则化深度哈希的多模态医学图像检索方法 | |
CN110457503B (zh) | 一种快速优化深度哈希图像编码方法及目标图像检索方法 | |
CN112417097B (zh) | 一种用于舆情解析的多模态数据特征提取与关联方法 | |
CN113377981B (zh) | 基于多任务深度哈希学习的大规模物流商品图像检索方法 | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
CN112651940B (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN113806582B (zh) | 图像检索方法、装置、电子设备和存储介质 | |
CN116383422B (zh) | 一种基于锚点的无监督跨模态哈希检索方法 | |
CN109472282B (zh) | 一种基于极少训练样本的深度图像哈希方法 | |
CN112395487A (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
CN113656700A (zh) | 基于多相似度一致矩阵分解的哈希检索方法 | |
CN117034100A (zh) | 基于分层池化架构自适应图分类方法、系统、设备和介质 | |
CN115795065A (zh) | 基于带权哈希码的多媒体数据跨模态检索方法及系统 | |
CN108647295B (zh) | 一种基于深度协同哈希的图片标注方法 | |
CN114170333A (zh) | 基于直推式半监督深度学习的图像哈希编码方法 | |
CN113342922A (zh) | 一种基于标签细粒度自监督的跨模态检索方法 | |
CN111241326B (zh) | 基于注意力金字塔图网络的图像视觉关系指代定位方法 | |
CN116304213B (zh) | 基于图神经网络的rdf图数据库子图匹配查询优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |