CN116383422A - 一种基于锚点的无监督跨模态哈希检索方法 - Google Patents

一种基于锚点的无监督跨模态哈希检索方法 Download PDF

Info

Publication number
CN116383422A
CN116383422A CN202310369473.8A CN202310369473A CN116383422A CN 116383422 A CN116383422 A CN 116383422A CN 202310369473 A CN202310369473 A CN 202310369473A CN 116383422 A CN116383422 A CN 116383422A
Authority
CN
China
Prior art keywords
text
image
modal
mode
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310369473.8A
Other languages
English (en)
Other versions
CN116383422B (zh
Inventor
胡鹏
陆铮
孙元
彭玺
彭德中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202310369473.8A priority Critical patent/CN116383422B/zh
Publication of CN116383422A publication Critical patent/CN116383422A/zh
Application granted granted Critical
Publication of CN116383422B publication Critical patent/CN116383422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于锚点的无监督跨模态哈希检索方法,属于跨模态检索技术领域,该方法包括获取图文对训练集;初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数;根据图文对训练集中得到锚点集和批次图文对;根据锚点集和批次图文对,利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化,得到最优图像模态神经网络和最优文本模态神经网络;根据最优图像模态神经网络和最优文本模态神经网络,完成跨模态检索任务。本发明解决了跨模态哈希检索方法时间复杂度和空间复杂度偏高且二值编码不可微的问题。

Description

一种基于锚点的无监督跨模态哈希检索方法
技术领域
本发明属于跨模态检索技术领域,尤其涉及一种基于锚点的无监督跨模态哈希检索方法。
背景技术
随着互联网和多媒体技术的飞速发展,网络上迅速产生了大量的多媒体数据。跨模态检索可以从这些海量的多媒体数据中检索到人们感兴趣的知识,具有广泛的应用前景,但同时也是一个巨大挑战。不同模态的数据类型和结构上存在巨大的差异,也称为“异构鸿沟”,导致无法直接度量不同模态间的相似性,现有的跨模态检索方法大多是连续值方法,其在大规模跨模态检索中面临着计算和存储成本高的问题。
近年来,跨模态哈希学习被成功用于压缩特征尺寸和降低检索复杂度。一方面,为降低特征的存储空间,跨模态哈希学习将不同的模态映射到一个公共汉明空间中,在该空间中不同模态的数据可由二进制的编码进行表示。另一方面,为提高检索效率,样本间的相似度可以直接由汉明距离计算得到,而汉明距离可以用位运算,即异或运算,代替浮点运算进行计算。按照是否需要语义监督信息,现有的跨模态哈希学习主要可以分为有监督的跨模态哈希学习方法和无监督的跨模态哈希学习方法。有监督的跨模态哈希学习方法在良好标注的语义信息的指导下将不同的模态映射到一个公共的汉明空间中,由于具有语义信息的指导,这些方法往往可取得良好的检索效果。然而,对大规模的数据进行标注是费时且昂贵的,并且同时标注多个模态将成倍地增加标注成本。因此,无监督的跨模态哈希学习方法近年来受到国内外研究者的密切关注,此类方法可从大量易于获取的未标记数据中学习到跨模态判别信息,其灵活的低成本学习方式具有很高的应用价值。
无监督跨模态哈希学习主要利用图文对中成对的相关信息弥合跨模态差异,进而将不同的模态映射到一个公共的汉明空间。尽管无监督的方法取得了显著进展,然而大多方法主要利用图文对的相关性,往往忽略了多模态数据中潜在的流形结构信息。为了挖掘多模态数据中潜藏的结构信息,近年来一些基于图的跨模态哈希检索算法被提出并取得了较好的性能。但是,这些基于图的跨模态哈希检索方法需要在整个训练集上构建图矩阵,具有很高的时间复杂度和空间复杂度,其中为训练集的图文对个数、为任意点的最近邻个数。因此,现有的基于图的跨模态哈希检索算法难以高效应对大规模多模态数据。此外,由于直接优化二值编码是一个NP难题(NP-hard problem),为解决该问题,现有方法主要采用:①连续值松弛,将二值编码由连续值代替进行优化,该松弛会导致训练的目标与优化方式不一致,使得检索性能下降;②逼近二值编码,虽然该类方法的优化方式与哈希目标一致,但是在优化过程中依然存在松弛问题,即在训练过程中算法的输出依然为连续值参与优化,也同样会使检索性能退化。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于锚点的无监督跨模态哈希检索方法解决了跨模态哈希检索方法学习时间复杂度和空间复杂度偏高且二值编码不可微的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于锚点的无监督跨模态哈希检索方法,包括以下步骤:
S1、获取图文对训练集;
S2、初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数;
S3、从图文对训练集中选择第一图文对集,并根据第一图文对集,得到锚点集;
S4、从图文对训练集中选择第二图文对集,并根据第二图文对集,得到批次图文对;
S5、根据锚点集和批次图文对,利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化,得到最优图像模态神经网络和最优文本模态神经网络;
S6、根据最优图像模态神经网络和最优文本模态神经网络,完成跨模态哈希检索。
本发明的有益效果为:本发明提出一种可微分哈希层,解决了跨模态哈希检索过程中学习的离散值不足的问题,该可微分哈希层能使得神经网络前向传播时采用离散方式进行计算,且可使用反向传播进行神经网络权值更新,可取得更好的检索性能;另外,本发明利用少量的锚点构造子图,从而指导跨模态哈希检索的学习过程,相较传统的基于图的方法,本发明可极大地降低时间与空间开销;本发明还提出一种新的三元排序损失使得在整个跨模态哈希检索过程中考虑跨模态排序,从而使得跨模态哈希检索的学习结果与跨模态哈希检索任务保持一致。
进一步地,所述步骤S2中的图像模态神经网络和文本模态神经网络均为模态神经网络;所述模态神经网络包括可微分哈希层和若干个依次连接的全连接层;所述可微分哈希层与最后一层全连接层连接;除最后一层全连接层外其余各所述全连接层均使用ReLU激活函数;所述可微分哈希层包括依次连接的Tanh激活函数和符号函数;所述Tanh激活函数与最后一层全连接层连接。
上述进一步方案的有益效果为:可微分哈希层能使得神经网络前向传播时采用离散方式进行计算,且可使用反向传播进行神经网络权值更新,解决了跨模态哈希检索过程中学习的离散值不足的问题。
进一步地,所述步骤S5具体为:
S501、根据锚点集和批次图文对,采用K近邻算法计算得到图像相似度图和文本相似度图;
S502、对图像相似度图和文本相似度图进行归一化,得到公共图矩阵:
Figure BDA0004168106290000041
Gi=(Di)-1Wi
Gt=(Dt)-1Wt
其中,P为公共图矩阵;Gi为归一化后的图像相似度图;Gt为归一化后的文本相似度图;i为图像模态标识;t为文本模态标识;Di为图像模态对角矩阵;Dt为文本模态对角矩阵;(·)-1为逆阵运算;Wi为图像模态下所有图像相似度子图;Wt为文本模态下所有文本相似度子图;
S503、计算批次图文对中跨图像和文本的相关概率:
Figure BDA0004168106290000042
其中,
Figure BDA0004168106290000043
为跨图像和文本的相关概率,表示图像查询文本情况下第jl个图文对的相关概率;jl为图文对编号;it为图像查询文本标识;exp(·)为以自然常数e为底的指数函数;cos(·)为余弦函数;/>
Figure BDA0004168106290000044
为图像模态下第j个图像输入图像模态神经网络得到的二值表征;i为图像模态标识;j为图像编号;/>
Figure BDA0004168106290000045
为文本模态下第l个文本样本输入文本模态神经网络得到的二值表征;t为文本模态标识;l为文本编号;n为批次图文对大小,表示该批次图文对的数量;p为同批次样本编号;/>
Figure BDA0004168106290000051
为文本模态下第p个样本输入文本模态神经网络得到的二值表征;
S504、根据跨图像和文本的相关概率,利用KL散度得到基于锚点图的跨模态损失:
Figure BDA0004168106290000052
其中,
Figure BDA0004168106290000053
为基于锚点图的跨模态损失;/>
Figure BDA0004168106290000054
为文本查询图像情况下第jl个图文对的相关概率;Pjl为公共图矩阵P中第jl个图文对所对应的元素;ti为文本查询图像标识;log为对数运算;
S505、定义图三元排序损失集和文三元排序损失集,并根据图三元排序损失集和文三元排序损失集得到跨模态三元排序损失;
S506、根据基于锚点图的跨模态损失和跨模态三元排序损失,得到跨模态网络损失函数:
Figure BDA0004168106290000055
其中,
Figure BDA0004168106290000056
为跨模态网络损失函数;/>
Figure BDA0004168106290000057
为跨模态三元排序损失;θ为平衡因子;
S507、以最小化跨模态网络损失函数为目标函数,采用随机梯度下降法,利用直通估计器分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代更新,得到图像优化参数和文本优化参数:
Figure BDA0004168106290000058
Figure BDA0004168106290000059
其中,Θi'为图像优化参数;Θi为图像模态神经网络的网络参数;α为学习率;β为平衡参数;
Figure BDA00041681062900000510
为图像模态梯度下降;Θt'为文本优化参数;Θt为文本模态神经网络的网络参数;/>
Figure BDA00041681062900000511
为文本模态梯度下降;
S508、根据图像优化参数和文本优化参数,得到最优图像模态神经网络和最优文本模态神经网络。
上述进一步方案的有益效果为:提出一种新的三元排序损失使得在整个跨模态哈希检索过程中考虑跨模态排序,从而使得跨模态哈希检索的学习结果与跨模态哈希检索任务保持一致;并且基于锚点图的跨模态损失,使得公共空间中的相似图与数据固有的相似图逼近。
进一步地,所述步骤S501具体为:
S5011、根据锚点集和批次图文对,采用余弦相似度计算图像相似度和文本相似度:
Figure BDA0004168106290000061
Figure BDA0004168106290000062
其中,
Figure BDA0004168106290000063
为图像相似度;/>
Figure BDA0004168106290000064
为图像模态下批次图文对中第u个图像所对应的锚点;iv为图像模态下批次图文对中第v个图像;/>
Figure BDA0004168106290000065
为文本相似度;/>
Figure BDA0004168106290000066
为文本模态下批次图文对中第q个文本所对应的锚点;tb为文本模态下批次图文对中第b个文本;Nk(·)为k个最近邻样本集;b和q均为文本编号;v和u均为图像编号;vu和bq均为图文对编号;
S5012、根据图像相似度和文本相似度,得到图像相似度矩阵和文本相似度矩阵:
Figure BDA0004168106290000067
Figure BDA0004168106290000068
其中,Si为图像相似度矩阵,
Figure BDA0004168106290000069
为图像相似度矩阵的第n个元素;St为文本相似度矩阵;/>
Figure BDA00041681062900000610
为文本相似度矩阵的第n个元素;
S5013、根据图像相似度矩阵和文本相似度矩阵,得到图像相似性子图和文本相似性子图:
Figure BDA0004168106290000071
Figure BDA0004168106290000072
其中,
Figure BDA0004168106290000073
为图像相似性子图;/>
Figure BDA0004168106290000074
为图像相似度矩阵第u列;/>
Figure BDA0004168106290000075
为图像相似度矩阵第v列;/>
Figure BDA0004168106290000076
为文本相似性子图;/>
Figure BDA0004168106290000077
为文本相似度矩阵第b列;/>
Figure BDA0004168106290000078
为文本相似度矩阵第q列;
S5014、根据图像相似性子图和文本相似性子图,得到图像相似度图和文本相似度图。
上述进一步方案的有益效果为:从图文对训练集中选取部分数据,只利用少量的锚点构造子图,从而指导跨模态哈希检索的哈希学习过程,相较传统的基于图的方法,可极大地降低时间与空间开销。
进一步地,所述步骤S505具体为:
S5051、定义图三元排序损失集:
Figure BDA0004168106290000079
Figure BDA00041681062900000710
其中,Rit为图三元排序损失集;
Figure BDA00041681062900000711
为文本模态下第j个图像所对应的文本样本的二值表征;γ为三元排序损失常量;g(·)为样本相似度计算函数;
S5052、定义文三元排序损失集:
Figure BDA00041681062900000712
Figure BDA00041681062900000713
其中,Rti为文三元排序损失集;
Figure BDA00041681062900000714
为图像模态下第l个文本所对应的图像样本的二值表征;
S5053、根据跨图像和文本的相关概率、图三元排序损失集和文三元排序损失集,得到跨模态三元排序损失:
Figure BDA0004168106290000081
其中,
Figure BDA0004168106290000082
为跨模态三元排序损失;Rit为图三元排序损失集;Rti为文三元排序损失集;/>
Figure BDA0004168106290000083
为Rit中第j个图像所对应的元素;/>
Figure BDA0004168106290000084
为Rti中第j个图像所对应的元素。
上述进一步方案的有益效果为:图像模态二值表征和文本模态二值表征限制了相关样本相似度和非相关样本相似度之差,保证了在跨模态排序中相关样本始终在非相关样本之前。
进一步地,所述步骤S6中跨模态检索任务包括以图搜文和以文搜图;
所述以图搜文具体为:以图像作为查询输入,输入到图像模态神经网络得到图像二值表征,根据图像二值表征计算图像与文本检索库中的汉明距离,按汉明距离从小到大对文本进行排序,得到以图搜文检索结果;
所述以文搜图具体为:以文本作为查询输入,输入到文本模态神经网络得到文本二值表征,根据文本二值表征计算文本与图像检索库中的汉明距离,按汉明距离从小到大对图像进行排序,得到以文搜图检索结果。
上述进一步方案的有益效果为:通过计算相似和公共图可高效地从跨模态数据中学到一个公共汉明空间,从而在该空间中实现跨模态检索,提高了检索效率。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,在本发明的一个实施例中,一种基于锚点的无监督跨模态哈希检索方法,包括以下步骤:
S1、获取图文对训练集;
S2、初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数;
S3、从图文对训练集中选择第一图文对集,并根据第一图文对集,得到锚点集;
S4、从图文对训练集中选择第二图文对集,并根据第二图文对集,得到批次图文对;
S5、根据锚点集和批次图文对,利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化,得到最优图像模态神经网络和最优文本模态神经网络;
S6、根据最优图像模态神经网络和最优文本模态神经网络,完成跨模态哈希检索。
本实施例中,图像模态二值表征和文本模态二值表征用以限制相关样本相似度与非相关样本相似度之差,从而保证在跨模态排序中相关样本始终排在非相关样本之前。
所述步骤S2中的图像模态神经网络和文本模态神经网络均为模态神经网络;所述模态神经网络包括可微分哈希层和若干个依次连接的全连接层;所述可微分哈希层与最后一层全连接层连接;除最后一层全连接层外其余各所述全连接层均使用ReLU激活函数;所述可微分哈希层包括依次连接的Tanh激活函数和符号函数;所述Tanh激活函数与最后一层全连接层连接。
本实施例中,采用的神经网络由多层全连接构成,除了最后一层网络,其余每层全连接层之后接一层ReLU。最后一层全连接层接提出的可微分哈希层。该可微分哈希层由Tanh和符号函数构成。具体地,以一个样本为例,将其输入神经网络得到最后一层全连接的输出,再将该输出输入Tanh将其限定到[-1,1]之间,然后再将Tanh输出向量进行归一化后输入符号函数得到二值化的编码。
本实施例中,由于符号函数的不可导使得网络不能直接采用梯度下降法进行优化。为解决该问题,本发明采用直通估计器(Straight-Through Estimator,STE)进行优化。具体地,在网络的前向传播时,直接将符号函数加到网络的输出层后,以二值化网络的输出x,然后利用二值化后的表征sign(x)计算损失以优化网络;其中,sign(x)函数的定义为:
Figure BDA0004168106290000101
在反向传播时,由于sign(x)不能够直接优化,因此令/>
Figure BDA0004168106290000102
以计算梯度,从而可利用梯度下降法更新网络。换言之,在反向传播时,视sign(x)≈x进行梯度计算。
所述步骤S5具体为:
S501、根据锚点集和批次图文对,采用K近邻算法计算得到图像相似度图和文本相似度图;
S502、对图像相似度图和文本相似度图进行归一化,得到公共图矩阵:
Figure BDA0004168106290000103
Gi=(Di)-1Wi
Gt=(Dt)-1Wt
其中,P为公共图矩阵;Gi为归一化后的图像相似度图;Gt为归一化后的文本相似度图;i为图像模态标识;t为文本模态标识;Di为图像模态对角矩阵;Dt为文本模态对角矩阵;(·)-1为逆阵运算;Wi为图像模态下所有图像相似度子图;Wt为文本模态下所有文本相似度子图;
S503、计算批次图文对中跨图像和文本的相关概率:
Figure BDA0004168106290000111
其中,
Figure BDA0004168106290000112
为跨图像和文本的相关概率,表示图像查询文本情况下第jl个图文对的相关概率;jl为图文对编号;it为图像查询文本标识;exp(·)为以自然常数e为底的指数函数;cos(·)为余弦函数;/>
Figure BDA0004168106290000113
为图像模态下第j个图像输入图像模态神经网络得到的二值表征;i为图像模态标识;j为图像编号;/>
Figure BDA0004168106290000114
为文本模态下第l个文本样本输入文本模态神经网络得到的二值表征;t为文本模态标识;l为文本编号;n为批次图文对大小,表示该批次图文对的数量;p为同批次样本编号;/>
Figure BDA0004168106290000115
为文本模态下第p个样本输入文本模态神经网络得到的二值表征;
S504、根据跨图像和文本的相关概率,利用KL散度得到基于锚点图的跨模态损失:
Figure BDA0004168106290000116
其中,
Figure BDA0004168106290000117
为基于锚点图的跨模态损失;/>
Figure BDA0004168106290000118
为文本查询图像情况下第jl个图文对的相关概率;Pjl为公共图矩阵P中第jl个图文对所对应的元素;ti为文本查询图像标识;log为对数运算;
S505、定义图三元排序损失集和文三元排序损失集,并根据图三元排序损失集和文三元排序损失集得到跨模态三元排序损失;
S506、根据基于锚点图的跨模态损失和跨模态三元排序损失,得到跨模态网络损失函数:
Figure BDA0004168106290000121
其中,
Figure BDA0004168106290000122
为跨模态网络损失函数;/>
Figure BDA0004168106290000123
为跨模态三元排序损失;θ为平衡因子;
S507、以最小化跨模态网络损失函数为目标函数,采用随机梯度下降法,利用直通估计器分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代更新,得到图像优化参数和文本优化参数:
Figure BDA0004168106290000124
Figure BDA0004168106290000125
其中,Θi'为图像优化参数;Θi为图像模态神经网络的网络参数;α为学习率;β为平衡参数;
Figure BDA0004168106290000126
为图像模态梯度下降;Θt'为文本优化参数;Θt为文本模态神经网络的网络参数;/>
Figure BDA0004168106290000127
为文本模态梯度下降;
S508、根据图像优化参数和文本优化参数,得到最优图像模态神经网络和最优文本模态神经网络。
本实施例中,将图像相似度图和文本相似度图归一化为Gx=(Dx)-1Wx,Dx为对角矩阵,且其对角元素满足
Figure BDA0004168106290000128
所述步骤S501具体为:
S5011、根据锚点集和批次图文对,采用余弦相似度计算图像相似度和文本相似度:
Figure BDA0004168106290000129
Figure BDA00041681062900001210
其中,
Figure BDA00041681062900001211
为图像相似度;/>
Figure BDA00041681062900001212
为图像模态下批次图文对中第u个图像所对应的锚点;iv为图像模态下批次图文对中第v个图像;/>
Figure BDA00041681062900001213
为文本相似度;/>
Figure BDA00041681062900001214
为文本模态下批次图文对中第q个文本所对应的锚点;tb为文本模态下批次图文对中第b个文本;Nk(·)为k个最近邻样本集;b和q均为文本编号;v和u均为图像编号;vu和bq均为图文对编号;
S5012、根据图像相似度和文本相似度,得到图像相似度矩阵和文本相似度矩阵:
Figure BDA0004168106290000131
Figure BDA0004168106290000132
其中,Si为图像相似度矩阵,
Figure BDA0004168106290000133
为图像相似度矩阵的第n个元素;St为文本相似度矩阵;/>
Figure BDA0004168106290000134
为文本相似度矩阵的第n个元素;
S5013、根据图像相似度矩阵和文本相似度矩阵,得到图像相似性子图和文本相似性子图:
Figure BDA0004168106290000135
Figure BDA0004168106290000136
其中,
Figure BDA0004168106290000137
为图像相似性子图;/>
Figure BDA0004168106290000138
为图像相似度矩阵第u列;/>
Figure BDA0004168106290000139
为图像相似度矩阵第v列;/>
Figure BDA00041681062900001310
为文本相似性子图;/>
Figure BDA00041681062900001311
为文本相似度矩阵第b列;/>
Figure BDA00041681062900001312
为文本相似度矩阵第q列;
S5014、根据图像相似性子图和文本相似性子图,得到图像相似度图和文本相似度图。
所述步骤S505具体为:
S5051、定义图三元排序损失集:
Figure BDA00041681062900001313
Figure BDA00041681062900001314
其中,Rit为图三元排序损失集;
Figure BDA00041681062900001315
为文本模态下第j个图像所对应的文本样本的二值表征;γ为三元排序损失常量;g(·)为样本相似度计算函数;
S5052、定义文三元排序损失集:
Figure BDA0004168106290000141
Figure BDA0004168106290000142
其中,Rti为文三元排序损失集;
Figure BDA0004168106290000143
为图像模态下第l个文本所对应的图像样本的二值表征;
S5053、根据跨图像和文本的相关概率、图三元排序损失集和文三元排序损失集,得到跨模态三元排序损失:
Figure BDA0004168106290000144
其中,
Figure BDA0004168106290000145
为跨模态三元排序损失;Rit为图三元排序损失集;Rti为文三元排序损失集;/>
Figure BDA0004168106290000146
为Rit中第j个图像所对应的元素;/>
Figure BDA0004168106290000147
为Rti中第j个图像所对应的元素。
所述步骤S6中跨模态检索任务包括以图搜文和以文搜图;
所述以图搜文具体为:以图像作为查询输入,输入到图像模态神经网络得到图像二值表征,根据图像二值表征计算图像与文本检索库中的汉明距离,按汉明距离从小到大对文本进行排序,得到以图搜文检索结果;
所述以文搜图具体为:以文本作为查询输入,输入到文本模态神经网络得到文本二值表征,根据文本二值表征计算文本与图像检索库中的汉明距离,按汉明距离从小到大对图像进行排序,得到以文搜图检索结果。

Claims (6)

1.一种基于锚点的无监督跨模态哈希检索方法,其特征在于,包括以下步骤:
S1、获取图文对训练集;
S2、初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数;
S3、从图文对训练集中选择第一图文对集,并根据第一图文对集,得到锚点集;
S4、从图文对训练集中选择第二图文对集,并根据第二图文对集,得到批次图文对;
S5、根据锚点集和批次图文对,利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化,得到最优图像模态神经网络和最优文本模态神经网络;
S6、根据最优图像模态神经网络和最优文本模态神经网络,完成跨模态哈希检索。
2.根据权利要求1所述基于锚点的无监督跨模态哈希检索方法,其特征在于,所述步骤S2中的图像模态神经网络和文本模态神经网络均为模态神经网络;所述模态神经网络包括可微分哈希层和若干个依次连接的全连接层;所述可微分哈希层与最后一层全连接层连接;除最后一层全连接层外其余各所述全连接层均使用ReLU激活函数;所述可微分哈希层包括依次连接的Tanh激活函数和符号函数;所述Tanh激活函数与最后一层全连接层连接。
3.根据权利要求1所述基于锚点的无监督跨模态哈希检索方法,其特征在于,所述步骤S5具体为:
S501、根据锚点集和批次图文对,采用K近邻算法计算得到图像相似度图和文本相似度图;
S502、对图像相似度图和文本相似度图进行归一化,得到公共图矩阵:
Figure FDA0004168106260000021
Gi=(Di)-1Wi
Gt=(Dt)-1Wt
其中,P为公共图矩阵;Gi为归一化后的图像相似度图;Gt为归一化后的文本相似度图;i为图像模态标识;t为文本模态标识;Di为图像模态对角矩阵;Dt为文本模态对角矩阵;(·)-1为逆阵运算;Wi为图像模态下所有图像相似度子图;Wt为文本模态下所有文本相似度子图;
S503、计算批次图文对中跨图像和文本的相关概率:
Figure FDA0004168106260000022
其中,
Figure FDA0004168106260000023
为跨图像和文本的相关概率,表示图像查询文本情况下第jl个图文对的相关概率;jl为图文对编号;it为图像查询文本标识;exp(·)为以自然常数e为底的指数函数;cos(·)为余弦函数;/>
Figure FDA0004168106260000024
为图像模态下第j个图像输入图像模态神经网络得到的二值表征;i为图像模态标识;j为图像编号;/>
Figure FDA0004168106260000025
为文本模态下第l个文本样本输入文本模态神经网络得到的二值表征;t为文本模态标识;l为文本编号;n为批次图文对大小,表示该批次图文对的数量;p为同批次样本编号;/>
Figure FDA0004168106260000029
为文本模态下第p个样本输入文本模态神经网络得到的二值表征;
S504、根据跨图像和文本的相关概率,利用KL散度得到基于锚点图的跨模态损失:
Figure FDA0004168106260000026
其中,
Figure FDA0004168106260000027
为基于锚点图的跨模态损失;/>
Figure FDA0004168106260000028
为文本查询图像情况下第jl个图文对的相关概率;Pjl为公共图矩阵P中第jl个图文对所对应的元素;ti为文本查询图像标识;log为对数运算;
S505、定义图三元排序损失集和文三元排序损失集,并根据图三元排序损失集和文三元排序损失集得到跨模态三元排序损失;
S506、根据基于锚点图的跨模态损失和跨模态三元排序损失,得到跨模态网络损失函数:
Figure FDA0004168106260000031
其中,
Figure FDA0004168106260000032
为跨模态网络损失函数;/>
Figure FDA0004168106260000033
为跨模态三元排序损失;θ为平衡因子;
S507、以最小化跨模态网络损失函数为目标函数,采用随机梯度下降法,利用直通估计器分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代更新,得到图像优化参数和文本优化参数:
Figure FDA0004168106260000034
Figure FDA0004168106260000035
其中,Θi'为图像优化参数;Θi为图像模态神经网络的网络参数;α为学习率;β为平衡参数;
Figure FDA0004168106260000036
为图像模态梯度下降;Θt'为文本优化参数;Θt为文本模态神经网络的网络参数;/>
Figure FDA0004168106260000037
为文本模态梯度下降;
S508、根据图像优化参数和文本优化参数,得到最优图像模态神经网络和最优文本模态神经网络。
4.根据权利要求3所述基于锚点的无监督跨模态哈希检索方法,其特征在于,所述步骤S501具体为:
S5011、根据锚点集和批次图文对,采用余弦相似度计算图像相似度和文本相似度:
Figure FDA0004168106260000038
Figure FDA0004168106260000041
其中,
Figure FDA0004168106260000042
为图像相似度;/>
Figure FDA0004168106260000043
为图像模态下批次图文对中第u个图像所对应的锚点;iv为图像模态下批次图文对中第v个图像;/>
Figure FDA0004168106260000044
为文本相似度;/>
Figure FDA0004168106260000045
为文本模态下批次图文对中第q个文本所对应的锚点;tb为文本模态下批次图文对中第b个文本;Nk(·)为k个最近邻样本集;b和q均为文本编号;v和u均为图像编号;vu和bq均为图文对编号;
S5012、根据图像相似度和文本相似度,得到图像相似度矩阵和文本相似度矩阵:
Figure FDA0004168106260000046
Figure FDA0004168106260000047
其中,Si为图像相似度矩阵,
Figure FDA0004168106260000048
为图像相似度矩阵的第n个元素;St为文本相似度矩阵;
Figure FDA0004168106260000049
为文本相似度矩阵的第n个元素;
S5013、根据图像相似度矩阵和文本相似度矩阵,得到图像相似性子图和文本相似性子图:
Figure FDA00041681062600000410
Figure FDA00041681062600000411
其中,
Figure FDA00041681062600000412
为图像相似性子图;/>
Figure FDA00041681062600000413
为图像相似度矩阵第u列;/>
Figure FDA00041681062600000414
为图像相似度矩阵第v列;
Figure FDA00041681062600000415
为文本相似性子图;/>
Figure FDA00041681062600000416
为文本相似度矩阵第b列;/>
Figure FDA00041681062600000417
为文本相似度矩阵第q列;
S5014、根据图像相似性子图和文本相似性子图,得到图像相似度图和文本相似度图。
5.根据权利要求3所述基于锚点的无监督跨模态哈希检索方法,其特征在于,所述步骤S505具体为:
S5051、定义图三元排序损失集:
Figure FDA0004168106260000051
Figure FDA0004168106260000052
其中,Rit为图三元排序损失集;
Figure FDA0004168106260000053
为文本模态下第j个图像所对应的文本样本的二值表征;γ为三元排序损失常量;g(·)为样本相似度计算函数;
S5052、定义文三元排序损失集:
Figure FDA0004168106260000054
Figure FDA0004168106260000055
其中,Rti为文三元排序损失集;
Figure FDA0004168106260000056
为图像模态下第l个文本所对应的图像样本的二值表征;
S5053、根据跨图像和文本的相关概率、图三元排序损失集和文三元排序损失集,得到跨模态三元排序损失:
Figure FDA0004168106260000057
其中,
Figure FDA0004168106260000058
为跨模态三元排序损失;Rit为图三元排序损失集;Rti为文三元排序损失集;
Figure FDA0004168106260000059
为Rit中第j个图像所对应的元素;/>
Figure FDA00041681062600000510
为Rti中第j个图像所对应的元素。
6.根据权利要求1所述基于锚点的无监督跨模态哈希检索方法,其特征在于,所述步骤S6中跨模态检索任务包括以图搜文和以文搜图;
所述以图搜文具体为:以图像作为查询输入,输入到图像模态神经网络得到图像二值表征,根据图像二值表征计算图像与文本检索库中的汉明距离,按汉明距离从小到大对文本进行排序,得到以图搜文检索结果;
所述以文搜图具体为:以文本作为查询输入,输入到文本模态神经网络得到文本二值表征,根据文本二值表征计算文本与图像检索库中的汉明距离,按汉明距离从小到大对图像进行排序,得到以文搜图检索结果。
CN202310369473.8A 2023-04-07 2023-04-07 一种基于锚点的无监督跨模态哈希检索方法 Active CN116383422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310369473.8A CN116383422B (zh) 2023-04-07 2023-04-07 一种基于锚点的无监督跨模态哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310369473.8A CN116383422B (zh) 2023-04-07 2023-04-07 一种基于锚点的无监督跨模态哈希检索方法

Publications (2)

Publication Number Publication Date
CN116383422A true CN116383422A (zh) 2023-07-04
CN116383422B CN116383422B (zh) 2023-11-03

Family

ID=86976533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310369473.8A Active CN116383422B (zh) 2023-04-07 2023-04-07 一种基于锚点的无监督跨模态哈希检索方法

Country Status (1)

Country Link
CN (1) CN116383422B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595343A (zh) * 2023-07-17 2023-08-15 山东大学 基于流形排序学习的在线无监督跨模态检索方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN106649688A (zh) * 2016-12-16 2017-05-10 深圳市华尊科技股份有限公司 一种图像检索方法及终端
US20200073968A1 (en) * 2018-09-04 2020-03-05 Inception Institute of Artificial Intelligence, Ltd. Sketch-based image retrieval techniques using generative domain migration hashing
CN111597298A (zh) * 2020-03-26 2020-08-28 浙江工业大学 一种基于深度对抗离散哈希学习的跨模态检索方法及装置
CN112836068A (zh) * 2021-03-24 2021-05-25 南京大学 一种基于带噪标签学习的无监督跨模态哈希检索方法
CN114155403A (zh) * 2021-10-19 2022-03-08 中山大学 一种基于深度学习的图像分段哈希排序方法
CN114239730A (zh) * 2021-12-20 2022-03-25 华侨大学 一种基于近邻排序关系的跨模态检索方法
WO2022134728A1 (zh) * 2020-12-25 2022-06-30 苏州浪潮智能科技有限公司 一种图像检索方法、系统、设备以及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN106649688A (zh) * 2016-12-16 2017-05-10 深圳市华尊科技股份有限公司 一种图像检索方法及终端
US20200073968A1 (en) * 2018-09-04 2020-03-05 Inception Institute of Artificial Intelligence, Ltd. Sketch-based image retrieval techniques using generative domain migration hashing
CN111597298A (zh) * 2020-03-26 2020-08-28 浙江工业大学 一种基于深度对抗离散哈希学习的跨模态检索方法及装置
WO2022134728A1 (zh) * 2020-12-25 2022-06-30 苏州浪潮智能科技有限公司 一种图像检索方法、系统、设备以及介质
CN112836068A (zh) * 2021-03-24 2021-05-25 南京大学 一种基于带噪标签学习的无监督跨模态哈希检索方法
CN114155403A (zh) * 2021-10-19 2022-03-08 中山大学 一种基于深度学习的图像分段哈希排序方法
CN114239730A (zh) * 2021-12-20 2022-03-25 华侨大学 一种基于近邻排序关系的跨模态检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAOQUN ZHENG等: ""Efficient Semi-Supervised Multimodal Hashing With Importance Differentiation Regression"", 《 IEEE TRANSACTIONS ON IMAGE PROCESSING ( VOLUME: 31)》, pages 1 - 12 *
吴家皋等: ""局部敏感哈希图像检索参数优化方法"", 《计算机技术与发展》, pages 32 - 37 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595343A (zh) * 2023-07-17 2023-08-15 山东大学 基于流形排序学习的在线无监督跨模态检索方法及系统
CN116595343B (zh) * 2023-07-17 2023-10-03 山东大学 基于流形排序学习的在线无监督跨模态检索方法及系统

Also Published As

Publication number Publication date
CN116383422B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN106649514B (zh) 用于受人启发的简单问答(hisqa)的系统和方法
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
CN110765281A (zh) 一种多语义深度监督跨模态哈希检索方法
CN112199532B (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN110941734B (zh) 基于稀疏图结构的深度无监督图像检索方法
CN113177141B (zh) 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN109902714B (zh) 一种基于多图正则化深度哈希的多模态医学图像检索方法
CN110457503B (zh) 一种快速优化深度哈希图像编码方法及目标图像检索方法
CN112417097B (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
CN113377981B (zh) 基于多任务深度哈希学习的大规模物流商品图像检索方法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN113806582B (zh) 图像检索方法、装置、电子设备和存储介质
CN116383422B (zh) 一种基于锚点的无监督跨模态哈希检索方法
CN109472282B (zh) 一种基于极少训练样本的深度图像哈希方法
CN112395487A (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
CN117034100A (zh) 基于分层池化架构自适应图分类方法、系统、设备和介质
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN108647295B (zh) 一种基于深度协同哈希的图片标注方法
CN114170333A (zh) 基于直推式半监督深度学习的图像哈希编码方法
CN113342922A (zh) 一种基于标签细粒度自监督的跨模态检索方法
CN111241326B (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN116304213B (zh) 基于图神经网络的rdf图数据库子图匹配查询优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant