CN113641790A - 一种基于区分表示深度哈希的跨模态检索模型 - Google Patents

一种基于区分表示深度哈希的跨模态检索模型 Download PDF

Info

Publication number
CN113641790A
CN113641790A CN202110922625.3A CN202110922625A CN113641790A CN 113641790 A CN113641790 A CN 113641790A CN 202110922625 A CN202110922625 A CN 202110922625A CN 113641790 A CN113641790 A CN 113641790A
Authority
CN
China
Prior art keywords
cross
similarity
modal
loss
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110922625.3A
Other languages
English (en)
Inventor
段友祥
陈宁
孙歧峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202110922625.3A priority Critical patent/CN113641790A/zh
Publication of CN113641790A publication Critical patent/CN113641790A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于区分表示深度哈希的跨模态检索模型,损失函数监督模型训练过程在保留相似性的同时生成更加具有区分性的表示。其中,成对损失,用于保留原始跨模态数据的语义相似性;量化损失:用于减少量化损失,使得生成的哈希码也可以保留跨模态相似性;三元组监督损失:用于在训练过程中,监督模型保留原模态数据相似性的同时生成更加具有区分性的表示。所提出的损失函数,使得生成的哈希码更加有效以及更加的具有区分性,这进一步提高了跨模态哈希模型的性能,使得检索任务的准确度得到了进一步的提升。

Description

一种基于区分表示深度哈希的跨模态检索模型
技术领域
本发明涉及跨模态哈希检索领域,特别是图像与文本的跨模态检索。
背景技术
近年来随着互联网的蓬勃发展以及智能设备和社交网络的普及,多媒体数据在互联网上呈现出爆炸式增长的趋势。这些海量的数据包括多种形式,如图像、文本、视频、音频等。此外这些多模态数据往往描述同一件事物,即在形式上异构多源、在语义上相互关联。
为从海量数据中获取信息,传统的单模态检索已经难以满足如今的应用场景。与此同时,跨模态方法成为人们越来越关注的话题。另一方面,考虑到多模态数据的高维性以及海量性,大多数跨模态检索方法都存在高计算成本以及低检索效率的问题。因此如何实现实时检索,仍是我们所期望的。哈希方法由于在大规模数据上存在低存储需求以及高检索速度的特点,被结合用于跨模态检索方法,称之为跨模态哈希方法。
在跨模态哈希中,如何有效地利用语义的一致性和相关性以及生成更具区分性的哈希码,同时保持原始的语义相似性,仍然是一个具有挑战性的问题。在这项工作中,本发明所提出的损失函数可以有效地利用语义信息,同时产生更具有的区别性表示。
发明内容
针对上述问题以及现有技术中存在的缺点以及不足,本发明提供一种基于区分表示深度哈希的跨模态检索模型,结合成对损失、量化损失与三元组监督损失,监督模型训练过程在保留相似性的同时生成更加具有区分性的表示,进一步提高了跨模态哈希模型的性能,使得检索任务的准确度得到了进一步的提升。
具体地,本申请提出了一种基于区分表示深度哈希的跨模态检索模型,包括,关键在于所提出的损失函数监督模型学习过程,使得表现出更好的性能,具体包括:
成对损失
Figure RE-GDA0003263309500000021
通过优化该损失,可以将Fi*与Gj*的相似性保留在语义矩阵S当中。;
量化损失
Figure RE-GDA0003263309500000022
通过优化该项,减少量化损失,使得生成的哈希码B(x)和B(y)同样被期望保留S中的跨模态相似性;
三元组监督损失:
Figure RE-GDA0003263309500000023
Figure RE-GDA0003263309500000024
用于监督模型保留原模态数据相似性的同时生成更加具有区分性的表示。
模型包括特征学习部分与哈希码学习部分,所提损失函数
Figure RE-GDA0003263309500000025
作用于模型的整个学习过程,在保留相似性的同时生成更加具有区分性表示的哈希码。
本发明基于深度学习与哈希学习技术。
本申请所提出的模型带来的有益效果是:
基于区分表示深度哈希的跨模态检索模型,相较于大多数现有的工作,可以生成更加有效和具有区分性的哈希码。
充分挖掘了原始数据中的语义相关性与语义一致性,进一步提升了模型的检索精度。
不仅可以获得优异的检索精度,在计算效率与检索性能之间也获得了良好的平衡。
附图说明
图1为本发明整体原理的框架图;
图2为本发明所提出模型的三元组监督损失带来的效果图。
具体实施方式
下面结合附图对本发明的实施例进行详细说明。
实施例1
如图1所示,一种基于区分表示深度哈希的跨模态检索模型,该模型包括两个哈希码映射网络,分别为图像与文本网络。每个网络包括特征学习部分与哈希码学习部分,最终将原始图像文本对映射为汉明空间中的哈希码。成对损失、量化损失与三元组监督损失作用于模型的整个学习过程。
对于每个训练数据点,经过特征学习与哈希码学习,输出维指定k长度的哈希码,计算损失函数θ对于数据点的梯度,采用反向传播算法使用梯度更新网络的参数。
实施例2
对于原始数据点anchor,其相似实例为positive,不相似实例为negative。anchor与positive之间的距离远,而与negative之间距离却近。相似实例之间距离远,不相似实例却接近。这样生成的哈希码往往不具有区分性,难以辨别数据点之间的相似性。
而经过三元组监督损失进行监督训练之后的数据点变化为:anchor与 positive之间距离拉近,与negative之间的距离变远。即相似实例之间更加接近,不相似实例之间更加远离。这与跨模态哈希的保留相似性原则是相符的,即生成的哈希码保留了原始模态数据之间的语义关系。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (7)

1.一种基于区分表示深度哈希的跨模态检索模型,其特征在于,损失函数监督模型训练过程在保留相似性的同时生成更加具有区分性的表示,其中损失函数包括:
1)成对损失(pairwise loss),用于保留原始跨模态数据的语义相似性;
2)量化损失(quantization loss):用于减少量化损失,使得生成的哈希码也可以保留跨模态相似性,这与保留相似性的原则是相符的;
3)三元组监督损失(triple-supervised losss):用于在训练过程中,监督模型保留原模态数据相似性的同时生成更加具有区分性的表示。
2.如权利要求1所述的一种基于区分表示深度哈希的跨模态检索模型,其特征在于:所提出损失函数可以适用于各种基于深度哈希的跨模态检索模型,监督模型的训练过程中,在保留原始数据语义的相似性同时可以生成更具有区分性的哈希码,这使得模型的性能可以进一步的提高。
3.如权利要求1所述的一种基于区分表示深度哈希的跨模态检索模型,其中损失函数的相关符号定义为:以X与Y分别表示图像模态与文本模态,给出跨模态检索的定义。训练数据定义为D={X,Y},其中
Figure FDA0003207968280000011
表示图像模态数据,这里的n表示训练样本实例的数据量,dx表示图像数据的维度,
Figure FDA0003207968280000012
表示来自图像模态的第i个样本实例的特征向量。同样地,定义
Figure FDA0003207968280000013
其中dy表示文本数据的维度,
Figure FDA0003207968280000014
来自文本模态的第j个样本实例的特征向量。L∈{0,1}n×m表示标签矩阵,其由0和1元素组成,0表示该标签不含有,1表示含有该标签,其中m表示标签的类别数。
Figure FDA0003207968280000015
表示跨模态相似矩阵,相应地,如果
Figure FDA0003207968280000016
Figure FDA0003207968280000017
共享至少一个标签,则认为它们相似,此时,Sij=1,否则,Sij=0。
由于不同模态的数据的特征向量
Figure FDA0003207968280000018
Figure FDA0003207968280000019
位于不同的特征表示空间,并且通常具有不同的统计属性,因此它们不能直接进行比较。因此跨模态哈希针对每种模态学习一个转换函数:对于X模态,
Figure FDA0003207968280000021
对于Y模态,
Figure FDA0003207968280000022
其中,d为哈希码的程度,γX与γY为两个模态数据的训练的参数。转换函数将来自不同特征空间的数据
Figure FDA0003207968280000023
Figure FDA0003207968280000024
映射成为汉明空间中的哈希码B(x)与B(y)。使得来自不同模态的数据可以直接进行比较,并且在汉明空间中,相同类别的样本相似度大于不同类别的样本的相似度。
4.如权利要求1所述的一种基于区分表示深度哈希的跨模态检索模型,其中成对损失(pairwise loss)定义为:
Figure FDA0003207968280000025
其中
Figure FDA0003207968280000026
Figure FDA0003207968280000027
Figure FDA0003207968280000028
分别是图像和文本模型的输出(注意还没有映射为哈希码),θp为负对数似然函数。优化该项等价于最大化似然函数,其使得当Sij=1时,
Figure FDA0003207968280000029
Figure FDA00032079682800000210
的相似性(内积)最大,Sij=0时,相似性最小。因此,通过优化成对损失,可以将
Figure FDA00032079682800000211
Figure FDA00032079682800000212
的相似性保留在语义矩阵S当中。
5.如权利要求1所述的一种基于区分表示深度哈希的跨模态检索模型,其中量化损失(quantization loss)定义为:
图像模态:
Figure FDA00032079682800000213
其中B(x)=sign(F)。
文本模态:
Figure FDA00032079682800000214
其中B(y)=sign(G)。
我们认为F和G分别是B(x)和B(y)的连续替代,因此由于F和G可以保留跨模态相似性于S中,则B(x)和B(y)同样被期望保留S中的跨模态相似性,这与跨模态哈希方法的保留相似性原则是相符的。需要注意的是,在训练过程中我们设置两个模态训练实例的哈希码是相同,B(x)=B(y)=B,但是在训练结束后,针对不同模态的查询实例仍然生成不同的哈希码。
6.如权利要求1所述的一种基于区分表示深度哈希的跨模态检索模型,其中三元组监督损失(triple-supervised losss)定义为:
图像模态:
Figure FDA0003207968280000031
其中如果i=j,则δ(i,j)=1,否则,δ(i,j)=0。
Figure FDA0003207968280000032
其中
Figure FDA0003207968280000033
为三元组,ε为margin设置为0.3。
文本模态:
Figure FDA0003207968280000034
其中
Figure FDA0003207968280000035
为三元组,ε为margin设置为0.3。
7.如权利要求4,5,6所述的所述的一种基于区分表示深度哈希的跨模态检索模型的损失函数,可以用于跨模态哈希模型的损失函数为:
图像模态的损失函数为
Figure FDA0003207968280000036
文本模态的损失函数为
Figure FDA0003207968280000037
模型总的损失函数为
Figure FDA0003207968280000038
通过优化θ,监督模型的整个训练过程,在保留相似性的同时生成更加具有区分性表示的哈希码。
CN202110922625.3A 2021-08-12 2021-08-12 一种基于区分表示深度哈希的跨模态检索模型 Pending CN113641790A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110922625.3A CN113641790A (zh) 2021-08-12 2021-08-12 一种基于区分表示深度哈希的跨模态检索模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110922625.3A CN113641790A (zh) 2021-08-12 2021-08-12 一种基于区分表示深度哈希的跨模态检索模型

Publications (1)

Publication Number Publication Date
CN113641790A true CN113641790A (zh) 2021-11-12

Family

ID=78420989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110922625.3A Pending CN113641790A (zh) 2021-08-12 2021-08-12 一种基于区分表示深度哈希的跨模态检索模型

Country Status (1)

Country Link
CN (1) CN113641790A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410717A (zh) * 2022-09-15 2022-11-29 北京京东拓先科技有限公司 模型训练方法、数据检索方法、影像数据检索方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410717A (zh) * 2022-09-15 2022-11-29 北京京东拓先科技有限公司 模型训练方法、数据检索方法、影像数据检索方法和装置
CN115410717B (zh) * 2022-09-15 2024-05-21 北京京东拓先科技有限公司 模型训练方法、数据检索方法、影像数据检索方法和装置

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
CN109815336B (zh) 一种文本聚合方法及系统
CN110298035B (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
WO2022134728A1 (zh) 一种图像检索方法、系统、设备以及介质
CN111460077A (zh) 一种基于类语义引导的跨模态哈希检索方法
CN109918506A (zh) 一种文本分类方法及装置
WO2021212601A1 (zh) 一种基于图像的辅助写作方法、装置、介质及设备
CN109284414B (zh) 基于语义保持的跨模态内容检索方法和系统
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN111125457A (zh) 一种深度跨模态哈希检索方法及装置
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
CN113434682A (zh) 文本情感分析方法、电子装置及存储介质
WO2022228127A1 (zh) 要素文本处理方法、装置、电子设备和存储介质
CN116150411A (zh) 一种基于自适应类相关离散哈希的零样本跨模态检索方法
CN115689672A (zh) 聊天式商品导购方法及其装置、设备、介质
Chai Design and implementation of English intelligent communication platform based on similarity algorithm
Gu et al. Semantic-consistent cross-modal hashing for large-scale image retrieval
CN113641790A (zh) 一种基于区分表示深度哈希的跨模态检索模型
Xie et al. Deep online cross-modal hashing by a co-training mechanism
CN112836008A (zh) 基于去中心化存储数据的索引建立方法
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN108038109A (zh) 从非结构化文本中提取特征词的方法及系统、计算机程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication