CN115687571B - 一种基于模态融合重建哈希的深度无监督跨模态检索方法 - Google Patents

一种基于模态融合重建哈希的深度无监督跨模态检索方法 Download PDF

Info

Publication number
CN115687571B
CN115687571B CN202211340310.9A CN202211340310A CN115687571B CN 115687571 B CN115687571 B CN 115687571B CN 202211340310 A CN202211340310 A CN 202211340310A CN 115687571 B CN115687571 B CN 115687571B
Authority
CN
China
Prior art keywords
mode
text
image
cross
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211340310.9A
Other languages
English (en)
Other versions
CN115687571A (zh
Inventor
李明勇
李业文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Normal University
Original Assignee
Chongqing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Normal University filed Critical Chongqing Normal University
Priority to CN202211340310.9A priority Critical patent/CN115687571B/zh
Publication of CN115687571A publication Critical patent/CN115687571A/zh
Application granted granted Critical
Publication of CN115687571B publication Critical patent/CN115687571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于模态融合重建哈希的深度无监督跨模态检索方法,涉及跨模态检索技术领域,包括建立无监督跨模态检索模型,所述建立无监督跨模态检索模型包括深度特征编码模块、特定模态的自动编码器重构模块、跨模态相似性融合模块以及哈希编码重构模块。本发明能够提高无监督条件下的跨模态哈希的检索性能。

Description

一种基于模态融合重建哈希的深度无监督跨模态检索方法
技术领域
本发明涉及跨模态检索技术领域,尤其涉及一种基于模态融合重建哈希的深度无监督跨模态检索方法。
背景技术
随着多模态数据的激增,人们不再满足于单一的数据检索模态来获取信息,深度哈希检索算法因其高效存储和快速查询的优势而备受关注。
目前,现有的无监督哈希方法普遍存在两个局限性:
现有的方法不能充分捕捉不同模态数据中实例的潜在语义相关性和共现信息,导致缺乏有效的哈希编码表示和学习指导来弥补多模态数据的异质性和语义差距;他们通常构建相似性矩阵来指导哈希编码学习过程,但缺乏一种有效的模态间互补相似性融合方法来构建相似性矩阵,这种方法可以最大限度地提高不同模态实例的相关性,为此,我们提出一种基于模态融合重建哈希的深度无监督跨模态检索方法解决上述问题。
发明内容
本发明提供一种基于模态融合重建哈希的深度无监督跨模态检索方法,解决了现有的大多数无监督的跨模态哈希方法未能充分捕捉不同模态实例的共现信息和高阶语义信息,导致次优的检索性能的技术问题。
为解决上述技术问题,本发明提供的一种基于模态融合重建哈希的深度无监督跨模态检索方法,包括建立无监督跨模态检索模型,所述建立无监督跨模态检索模型包括深度特征编码模块、特定模态的自动编码器重构模块、跨模态相似性融合模块以及哈希编码重构模块,其特征在于,以下步骤:
S1、从多媒体数据库中采集不同模态的数据文本和不同模态的数据图像,得到文本模态数据集和图像模态数据集;
S2、通过深度特征编码模块从得到文本模态数据集和图像模态数据集信息中提取丰富的语义信息,并获取文本特征表示和图像特征表示,因此,我们可以为每一种模态获得大量的语义特征,我们可以充分探索原始数据之间的语义关系,并进一步指导哈希代码的学习;
S3、采用图像模态编码器和文本模态编码器对文本特征表示和图像特征表示进行编码得到潜在向量;
S4、将得到的潜在向量进行函数计算来生成图像哈希码和文本哈希码;
S5、通过跨模态相似性融合模块将图像哈希码进行批量处理,构建图像模态的相似性矩阵,并对文本哈希码进行批量处理,构建文本模态的相似性矩阵;
S6、通过跨模态相似性融合模块将图像模态的相似性矩阵和文本模态的相似性矩阵进行计算融合来获得跨模态互补余弦相似性矩阵,它可以保留图像和文本模态之间的共现信息;
S7、通过哈希编码重构模块将跨模态互补余弦相似性矩阵建立语义保存的亲和矩阵并挖掘小批训练数据的潜在语义相关性,为图像和文本模态构建哈希码相似性矩阵,可以指导学习哈希码产生高质量的哈希码。
与相关技术相比较,本发明提供的一种基于模态融合重建哈希的深度无监督跨模态检索方法具有如下有益效果:
本发明中,首先,我们使用视觉语言预训练模型CLIP对特征进行编码,并使用特定模态的自编码器学习哈希码的共同汉明表示空间,其次,我们提出了一种有效的融合方法来构建一个语义互补的亲和矩阵,可以最大限度地提高不同模态实例的潜在语义相关性,此外,为了保留所学哈希码中所有相似对的内在语义相似性,我们设计了一个基于语义互补的相似性重构目标函数,以学习高质量的哈希码表示,提高无监督条件下的跨模态哈希的检索性能。
附图说明
图1为一种基于模态融合重建哈希的深度无监督跨模态检索方法的模块结构示意图;
图2为一种基于模态融合重建哈希的深度无监督跨模态检索方法的步骤结构示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
由图1-2给出,一种基于模态融合重建哈希的深度无监督跨模态检索方法,包括建立无监督跨模态检索模型,所述建立无监督跨模态检索模型包括深度特征编码模块、特定模态的自动编码器重构模块、跨模态相似性融合模块以及哈希编码重构模块,其特征在于,以下步骤:
S1、从多媒体数据库中采集不同模态的数据文本和不同模态的数据图像,得到文本模态数据集和图像模态数据集;
S2、通过深度特征编码模块从得到文本模态数据集和图像模态数据集信息中提取丰富的语义信息,并获取文本特征表示和图像特征表示,因此,我们可以为每一种模态获得大量的语义特征,我们可以充分探索原始数据之间的语义关系,并进一步指导哈希代码的学习;
S3、采用图像模态编码器和文本模态编码器对文本特征表示和图像特征表示进行编码得到潜在向量;
S4、将得到的潜在向量进行函数计算来生成图像哈希码和文本哈希码;
S5、通过跨模态相似性融合模块将图像哈希码进行批量处理,构建图像模态的相似性矩阵,并对文本哈希码进行批量处理,构建文本模态的相似性矩阵;
S6、通过跨模态相似性融合模块将图像模态的相似性矩阵和文本模态的相似性矩阵进行计算融合来获得跨模态互补余弦相似性矩阵,它可以保留图像和文本模态之间的共现信息;
S7、通过哈希编码重构模块将跨模态互补余弦相似性矩阵建立语义保存的亲和矩阵并挖掘小批训练数据的潜在语义相关性,为图像和文本模态构建哈希码相似性矩阵,可以指导学习哈希码产生高质量的哈希码。
步骤S2)中,深度特征编码可以从原始数据中提取丰富的语义信息,这在整个训练过程中起到了关键作用,受Transformer的视觉语言预训练模型的成功启发,CLIP代表的视觉语言预训练(VLP)模型被证明在学习文本和视觉表征方面更加有效,在本文中,我们利用CLIP的视觉编码器与视觉变换器(VIT)架构来提取原始图像特征表示,可以表示为FI∈Rm ×512,同时,我们采用词包来生成原始文本特征表示,可以表示为其中dT基于处理后数据的维度;
我们把CLIP图像编码器表示为CLIPv,把文本特征编码器表示为BOWt,数学表达式可以表示为如下:
FI=CLIPv(V;θI),FT=BOWt(T;θT) (3)
其中V和T依次表示原始图像和文本实例,θI和θT表示图像和文本模态特征提取器的参数,因此,我们可以为每一种模态获得大量的语义特征,我们可以充分探索原始数据之间的语义关系,并进一步指导哈希代码的学习。
步骤S3和S4)中自动编码器可以生成富有表现力和紧凑的哈希码,在这个模块中,我们设计了一个特定模态的自动编码器来生成一个模态的哈希码,同时用生成的哈希码来重构原始实例的特征表示,因此,使用特定模态的自动编码器生成的哈希码可以完全保留原始数据的深层语义信息,首先,我们采用编码器来获得每个模态实例的深层次语义表示,原始特征被编码为潜在向量,
其中,带有参数θEI的编码器EncoderI(·;·)代表图像模态的编码器,带有参数θET的编码器EncoderT(·;·)代表文本模态的编码器,m和c分别表示批量大小和哈希码的长度,
其次,由于方程(1)中定义的函数sign(·)的梯度在向后传播过程中为零,这将破坏性地阻止梯度返回到前几层,为了处理梯度消失的问题,我们采用缩放的tanh函数来生成哈希码,公式如下:
BI=tanh(αLI)∈{-1,+1}m×c,BT=tanh(αLT)∈{-1,+1}m×c, (5)
limα→∞tanh(αx)=sign(x),
其中,α>0是一个可扩展系数,α最初设置为1,并随着训练过程的次数增加而增加,因此,当α→∞,紧缩函数被转化为一系列平滑的优化问题,这将收敛于原始的符号函数的哈希编码问题,
此外,给定BI和BT,我们利用特定模态的解码器将二进制代码重构为每种模态的原始特征,这个过程可以定义如下:
其中DecoderI(·;·)和EncoderT(·;·)表示图像和文本模态的解码器,θDI和θDT分别表示解码器的参数,自编码器的重构特征表示为和FI D,此外,dI和dT依次表示原始视觉和文本特征的维度,
最后,为了使原始特征和重构特征的重构误差最小,我们设计了自动编码器的重构损失,公式如下:
因此,通过最小化自动编码器的重构损失,可以充分保留原始数据的语义信息,从而产生更高质量的哈希代码。
步骤S5和S6)中对于无监督哈希方法,由于无法获得样本的标签,因此无法构建多标签的相似性矩阵,用于指导哈希码的学习,弥补模态差距,捕捉原始数据的邻域结构和共现信息是对无监督的跨模态哈希方法的优化改进,利用深度神经网络从原始数据中提取特征是一种有效的方法,它可以保留丰富的语义信息,具体来说,我们利用批量处理的图像特征构建视觉模态的相似性矩阵/>其中对于文本模态,我们直接利用经过BOW处理的特征向量,建立文本余弦相似度矩阵/>其中/>cos(·,·)函数的定义在公式(1)中,
之后,我们设计了一个跨模态相似性融合模块,以获取跨模态特征的相似信息,具体来说,我们获取视觉模态相似性矩阵SI和文本模态相似性矩阵ST,构建一个跨模态互补余弦相似性矩阵SC,它可以保留图像和文本模态之间的共现信息,融合过程的方程式描述如下:
其中,SC表示跨模态余弦相似性矩阵,它可以捕捉到不同模态的实例之间的共现信息和相似程度,τ是一个权衡相似性互补性的超参数,(·)T表示矩阵的转置,最后,我们构建一个语义保存的亲和矩阵SA,该矩阵包含了不同模态的信息,公式表示如下:
SA=βSI+γST+ηSC∈[-1,+1]m×m,
s.t.β,γ,η≥0,β+γ+η=1 (9)
其中β,γ,η是平衡的超参数,用于调节图像和文本模态之间共现信息的重要程度,与之前的方法相比,方程(9)以一种更有效的方式融合了不同模态的共现信息,因此,我们可以利用亲和矩阵作为自监督信号来指导不同模态的哈希代码的学习,这有助于提高图像和文本检索的性能,此外,值得注意的是,所提出的融合方法与扩散过程是一致的,在训练过程中,亲和矩阵被反复更新,结合相似性传播,从而使实例之间的相似性关系最大化。
步骤S7)中亲和矩阵SA,以挖掘小批训练数据的潜在语义相关性,在这一部分,我们首先利用公式(5)产生的哈希码,为图像和文本模态构建哈希码相似性矩阵和/>该公式如下:
其中,BI和BT分别表示图像和文本模态的小批量哈希编码,随后,我们构建一个跨模态的哈希码相似性矩阵,可以表示为:
其中,表示跨模态哈希码相似性矩阵,m表示批量大小,哈希码相似性矩阵构建和跨模态相似性矩阵融合的可视化效果,最后,我们设计了一个包括模内和模间损失的哈希码重构损失函数,该损失函数定义如下:
其中,LI和LC分别表示模内损失和跨模损失,μ是一个尺度超参数,可以调节亲和矩阵的量化范围,符号表示矩阵的逐点乘法,
所提出的模型有能力通过最小化损失函数来学习高质量的哈希代码,其表述如下:
s.t.BI,BT∈[-1,+1]m×c(13)
其中LAR,LI和LC分别是自动编码器重构损失、模内重构损失和跨模重构损失。λ,δ,是权衡超参数,
CFRH可以以逐批的方式进行迭代优化。通过最小化方程(13)中的损失,CFRH学习以一种有效的方式捕捉原始实例的邻域结构和共现信息,此外,亲和矩阵可以指导学习哈希码产生高质量的哈希码,CFRH的整个模型可以通过使用梯度下降优化算法进行优化。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (1)

1.一种基于模态融合重建哈希的深度无监督跨模态检索方法,其特征在于,包括建立无监督跨模态检索模型,所述建立无监督跨模态检索模型包括深度特征编码模块、特定模态的自动编码器重构模块、跨模态相似性融合模块以及哈希编码重构模块,具体包括以下步骤:
S1、从多媒体数据库中采集不同模态的数据文本和不同模态的数据图像,得到文本模态数据集和图像模态数据集;
S2、通过深度特征编码模块从得到的文本模态数据集和图像模态数据集中提取丰富的语义信息,并获取文本特征表示和图像特征表示;
S3、采用图像模态编码器和文本模态编码器对文本特征表示和图像特征表示进行编码得到潜在向量;
S4、将得到的潜在向量进行函数计算来生成图像哈希码和文本哈希码;
S5、通过跨模态相似性融合模块将图像哈希码进行批量处理,构建图像模态的相似性矩阵,并对文本哈希码进行批量处理,构建文本模态的相似性矩阵;
S6、通过跨模态相似性融合模块将图像模态的相似性矩阵和文本模态的相似性矩阵进行计算融合来获得跨模态互补余弦相似性矩阵;
S7、通过哈希编码重构模块基于跨模态互补余弦相似性矩阵建立语义保存的亲和矩阵并挖掘小批训练数据的潜在语义相关性,为图像和文本模态构建哈希码相似性矩阵;
所述S6中,通过获取视觉模态相似性矩阵SI和文本模态相似性矩阵ST,构建一个跨模态互补余弦相似性矩阵SC,它可以保留图像和文本模态之间的共现信息,融合过程的方程式描述如下:
其中,SC表示跨模态互补余弦相似性矩阵,它可以捕捉到不同模态的实例之间的共现信息和相似程度,τ是一个权衡相似性互补性的超参数,(·)T表示矩阵的转置,最后,我们构建一个语义保存的亲和矩阵SA,该矩阵包含了不同模态的信息,公式表示如下:
SA=βSI+γST+ηSC∈[-1,+1]m×m,
s.t.β,γ,η≥0,β+γ+η=1 (9)
其中β,γ,η是平衡的超参数,用于调节图像和文本模态之间共现信息的重要程度。
CN202211340310.9A 2022-10-28 2022-10-28 一种基于模态融合重建哈希的深度无监督跨模态检索方法 Active CN115687571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211340310.9A CN115687571B (zh) 2022-10-28 2022-10-28 一种基于模态融合重建哈希的深度无监督跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211340310.9A CN115687571B (zh) 2022-10-28 2022-10-28 一种基于模态融合重建哈希的深度无监督跨模态检索方法

Publications (2)

Publication Number Publication Date
CN115687571A CN115687571A (zh) 2023-02-03
CN115687571B true CN115687571B (zh) 2024-01-26

Family

ID=85045504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211340310.9A Active CN115687571B (zh) 2022-10-28 2022-10-28 一种基于模态融合重建哈希的深度无监督跨模态检索方法

Country Status (1)

Country Link
CN (1) CN115687571B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116594994B (zh) * 2023-03-30 2024-02-23 重庆师范大学 视觉语言知识蒸馏在跨模态哈希检索的应用方法
CN116796032A (zh) * 2023-04-11 2023-09-22 重庆师范大学 一种基于自适应图注意力哈希的多模态数据检索模型
CN116431847B (zh) * 2023-06-14 2023-11-14 北京邮电大学 基于多重对比和双路对抗的跨模态哈希检索方法及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN110059198A (zh) * 2019-04-08 2019-07-26 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN113177132A (zh) * 2021-06-30 2021-07-27 中国海洋大学 基于联合语义矩阵的深度跨模态哈希的图像检索方法
WO2022155994A1 (zh) * 2021-01-21 2022-07-28 深圳大学 基于注意力的深度跨模态哈希检索方法、装置及相关设备
CN115203442A (zh) * 2022-09-15 2022-10-18 中国海洋大学 基于联合注意力的跨模态深度哈希检索方法、系统及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11651037B2 (en) * 2019-12-20 2023-05-16 Rakuten Group, Inc. Efficient cross-modal retrieval via deep binary hashing and quantization

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN110059198A (zh) * 2019-04-08 2019-07-26 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
WO2022155994A1 (zh) * 2021-01-21 2022-07-28 深圳大学 基于注意力的深度跨模态哈希检索方法、装置及相关设备
CN113177132A (zh) * 2021-06-30 2021-07-27 中国海洋大学 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN115203442A (zh) * 2022-09-15 2022-10-18 中国海洋大学 基于联合注意力的跨模态深度哈希检索方法、系统及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Deep Semantic Adversarial Hashing Based on Autoencoder for Large-Scale Cross-Modal Retrieval;Mingyong Li;《2020 IEEE International Conference on Multimedia & Expo Workshops》;1-6 *

Also Published As

Publication number Publication date
CN115687571A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN115687571B (zh) 一种基于模态融合重建哈希的深度无监督跨模态检索方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN112269868A (zh) 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN112182151B (zh) 基于多语言的阅读理解任务识别方法及装置
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN116304984A (zh) 基于对比学习的多模态意图识别方法及系统
CN116561305A (zh) 基于多模态和transformer的假新闻检测方法
CN116150361A (zh) 一种财务报表附注的事件抽取方法、系统及存储介质
CN116521857A (zh) 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置
CN118114188A (zh) 基于多视角和分层融合的虚假新闻检测方法
CN117875395A (zh) 多模态预训练模型的训练方法、装置及存储介质
CN117540039A (zh) 一种基于无监督跨模态哈希算法的数据检索方法
CN115470799B (zh) 一种用于网络边缘设备的文本传输和语义理解一体化方法
CN116663501A (zh) 一种基于多模态共享权重的中文变体文本转换方法
CN116737877A (zh) 基于注意力网络对抗哈希的跨模态检索方法及设备
CN115840827A (zh) 一种深度无监督跨模态哈希检索方法
CN115019137A (zh) 一种多尺度双流注意力视频语言事件预测的方法及装置
CN116451699A (zh) 一种基于注意力机制的片段抽取式机器阅读理解方法
CN113641846A (zh) 一种基于强表示深度哈希的跨模态检索模型
Xie et al. Enhancing multimodal deep representation learning by fixed model reuse
CN118427396B (zh) 多模态大模型辅助的无监督跨模态视频检索方法及设备
CN113792550B (zh) 预测答案的确定方法及装置、阅读理解方法及装置
CN114662476B (zh) 一种融合词典与字符特征的字符序列识别方法
CN118116006A (zh) 虚假信息检测模型的训练方法及装置
CN117874175A (zh) 一种基于信息瓶颈的信息检索鲁棒性方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant