CN111209415A - 基于大批量训练的图文跨模态哈希检索方法 - Google Patents

基于大批量训练的图文跨模态哈希检索方法 Download PDF

Info

Publication number
CN111209415A
CN111209415A CN202010027063.1A CN202010027063A CN111209415A CN 111209415 A CN111209415 A CN 111209415A CN 202010027063 A CN202010027063 A CN 202010027063A CN 111209415 A CN111209415 A CN 111209415A
Authority
CN
China
Prior art keywords
text
training
image
data
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010027063.1A
Other languages
English (en)
Other versions
CN111209415B (zh
Inventor
张学旺
周印
林金朝
叶财金
黄胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010027063.1A priority Critical patent/CN111209415B/zh
Publication of CN111209415A publication Critical patent/CN111209415A/zh
Application granted granted Critical
Publication of CN111209415B publication Critical patent/CN111209415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于大批量训练的图文跨模态哈希检索方法,属于跨模态检索领域,用于解决现有基于深度学习的跨模态哈希检索方法,特别是基于三元组的深度跨模态哈希方法的小批量训练时间长,获取样本数量有限,梯度不够好而影响检索性能的问题。包括以下步骤:对图像和文本数据进行预处理;哈希码映射;建立目标损失函数L;通过大批量方式输入三元组数据训练模型;使用训练好的模型进行跨模态哈希检索。本发明提供的方案采用大批量方式输入三元组数据进行训练,加快了每轮训练的时间;由于每次更新参数时具有更多的训练样本,所以能够获得更好的梯度,对权重使用了正交正则化,在梯度传递时能保持梯度,使得模型训练更加稳定,提高检索准确率。

Description

基于大批量训练的图文跨模态哈希检索方法
技术领域
本发明属于跨模态检索领域,涉及一种基于大批量训练的图文跨模态哈希检索方法。
背景技术
随着互联网和多媒体技术的快速发展,产生了大量不同模态的多媒体数据,比如图像、文本、视频等。不同模态的数据可以用于描述同一个事物,多视角地展现信息,可以帮助用户获得该事物的综合理解。随着不同模态的多媒体数据的快速增长,跨模态检索成为了研究热点。跨模态检索的关键在于对不同模态的多媒体数据的关系进行建模,难点主要是不同模态的多媒体数据存在异构性鸿沟,无法进行直接比较。
跨模态哈希方法可以有效的为不同模态的数据建立比较关系:跨模态哈希方法将不同模态的数据映射到共同的汉明空间中,每个数据都被转换成一个固定长度的二进制哈希码,通过将哈希码按位异或运算,可以得到数据间的汉明距离,进而得到数据间的相似性。
跨模态哈希是跨模态检索最常见的方法之一,由于哈希码按位异或运算计算快速,相比直接计算各数据的高维特征之间的距离,大大节约了计算时间,可以达到快速检索的目的;而且哈希码占用空间较少。因此,哈希码的这种快速计算和低存储性使得跨模态哈希方法成为了跨模态检索领域的研究热点,研究跨模态哈希对于跨模态检索具有非常重要的意义。
跨模态哈希分为无监督跨模态哈希,有监督跨模态哈希和半监督跨模态哈希。无监督跨模态哈希主要利用不同模态数据本身的特征和数据结构进行学习;有监督跨模态哈希利用人工标注的信息进行有监督学习,能获得比无监督学习更好的效果;而半监督跨模态哈希是先利用部分标记数据进行有监督训练,然后再利用无标记数据进行无监督训练。深度学习的快速发展,越来越多的研究者开始利用深度学习构建跨模态哈希方法。
但是这些基于深度学习的跨模态哈希大部分都采用小批量训练方式(比如:Batchsize为20,64,128),每轮训练时间较长。特别是基于三元组的深度跨模态哈希训练时采用三元组(查询样本,正样本,负样本)方式输入数据,虽然三元组方式在获取数据间的相似性更具有灵活性,但是三元组方式会扩大训练数据的数量,导致训练时长增加。此外,小批量训练因获取样本数量有限,每次更新参数时不能够获得更好梯度,使得性能有所影响。
发明内容
有鉴于此,本发明的目的在于提供一种基于大批量训练的图文跨模态哈希检索方法,用于解决现有基于深度学习的跨模态哈希检索方法,特别是基于三元组的深度跨模态哈希方法的小批量训练时间长,获取样本数量有限,梯度不够好而影响检索性能的问题。
为达到上述目的,本发明提供如下技术方案:
一种基于大批量训练的图文跨模态哈希检索方法,包括以下步骤:
S1:对图像和文本数据进行预处理:
将图像数据和文本数据分别分为训练数据和查询数据,然后利用VGG-19深度学习模型提取图像的4096维的特征,将文本用词袋(Bag-of-Words,BoW)模型表示成向量;
S2:哈希码映射:
图像特征和文本向量分别经过两层全连接层,得到图像和文本的低维特征,再经过阈值函数生成哈希码;
S3:建立目标损失函数L:
由于图像检索文本任务和文本检索图像任务是对称的,所以以文本检索图像任务为例介绍目标损失函数L。目标损失函数L包括三部分:1)图像特征FI和文本特征FT之间的距离,用基于边界的合页损失函数(a margin-based hinge loss function)和sigmoid交叉熵来度量,得到损失函数L1和L2;2)度量低维特征F和哈希码H之间的距离,得到损失函数L3;3)权重W和偏置项B的正则化项,得到损失函数L4;将四个损失函数相加,得到目标损失函数L:
minL=L1+λL2+γL3+L4
其中λ和γ表示可调节的超参数;
S4:通过大批量方式输入三元组数据训练模型:
批量大小设为8192,采用三元组(查询样本,正样本,负样本)方式输入训练数据,通过优化目标损失函数L训练模型;
S5:使用训练好的模型进行跨模态哈希检索:
将图像数据和文本数据输入训练好的模型,得到对应的哈希码,之后将哈希码通过二进制异或运算得到汉明距离,然后根据汉明距离大小对图像数据或者文本数据排序,取排在前面的数据作为检索结果。
进一步,步骤S2具体包括:
图像特征和文本向量分别经过两层全连接层,得到图像和文本的低维特征,第一层全连接层的激活函数是tanh函数,第二层全连接层的激活函数是sigmoid函数,整个过程表示如下:
Figure BDA00023628549900000321
其中,W为权重,B为偏置项,c1表示第一层全连接层,c2表示第二层全连接层,f表示图像的VGG-19特征或者文本的BoW向量,F为得到的数据的低维特征;将得到的低维特征F经过阈值函数生成哈希码H,阈值函数如下:
Figure BDA0002362854990000031
进一步,步骤S3中,所述图像特征FI和文本特征FT之间的距离:
Figure BDA0002362854990000032
Figure BDA0002362854990000033
其中D表示距离,I+和I-分别表示与查询文本qT同语义和不同语义的图像,
Figure BDA0002362854990000034
表示I+与qT之间的距离,
Figure BDA0002362854990000035
表示I-与qT之间的距离,||·||Frobenius表示矩阵的Frobenius范数;使用一个基于边界的合页损失函数(a margin-based hinge loss function)来度量,如下式所示:
Figure BDA0002362854990000036
其中β是
Figure BDA0002362854990000037
Figure BDA0002362854990000038
的边界值,是一个可调节的超参数;在训练优化过程中,目的是降低
Figure BDA0002362854990000039
的值,同时增加
Figure BDA00023628549900000310
的值,即
Figure BDA00023628549900000311
越小,
Figure BDA00023628549900000312
越大越好;因此将该过程转化为二分类问题,使用sigmoid交叉熵函数来作为损失函数,得到如下损失:
Figure BDA00023628549900000313
Figure BDA00023628549900000314
Figure BDA00023628549900000315
进一步,步骤S3中,所述低维特征F和哈希码H之间的距离:
哈希码是离散的,当数据的实值特征F在被转换为哈希码H时,会发生信息损失:
Figure BDA00023628549900000316
Figure BDA00023628549900000317
Figure BDA00023628549900000318
其中
Figure BDA00023628549900000319
表示查询文本qT的低维特征FT与其对应的哈希码HT之间的距离;
Figure BDA00023628549900000320
表示图像I的低维特征FI与其对应的哈希码HI之间的距离。
进一步,步骤S3中,所述权重W和偏置项B的正则化项:
大批量训练在训练模型时不稳定,为了降低其负面影响,引入正交正则化来作为权重W的惩罚项;对于偏置项B,使用L2正则化项作为惩罚项,得到损失项如下:
Figure BDA0002362854990000041
其中Wtranspose是权重矩阵W的转置,Iindentity表示单位矩阵,B表示偏置项,θ和ω是超参数。
进一步,步骤S4具体包括:
由于有图像检索文本和文本检索图像两种检索任务,因此将分别对模型进行训练,具体如下过程:
S41:首先初始化权重W和偏置项B,设定批量大小为8192和训练轮次为n;
S42:为每个查询文本qT随机取出m个同语义的图像I+和不同语义的图像I-组成三元组(qT,I+,I-),作为训练数据,对网络进行训练,并通过目标函数L更新权重W和偏置项B;
为每个查询图像qI随机取出m个同语义的文本T+和不同语义的文本T-组成三元组(qI,T+,T-),作为训练数据,对网络进行训练,并通过目标函数L更新权重W和偏置项B。
本发明的有益效果在于:
本发明提出了一种基于大批量训练的图文跨模态哈希检索方法,批量大小设为8192,加快了训练速度,采用大批量训练方式,每次更新参数时能获得更多的样本,能获得更好的梯度;对权重使用正交正则化项,在梯度传递时能保证梯度,避免梯度消失或者爆炸,使得大批量训练的模型更加稳定,训练的模型明显提高了跨模态哈希检索的精度。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述基于大批量训练的图文跨模态哈希检索方法的模型框架结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
一种基于大批量训练的图文跨模态哈希检索方法,包括以下步骤:
步骤1)对图像和文本数据进行预处理:
将图像数据和文本数据分别分为训练数据和查询数据,更具体的:本发明在两个数据集上进行了实验:Wikipedia和MIRFlickr数据集,其分割方式如下表1所示:
表1两个基准数据集的统计信息
Figure BDA0002362854990000051
然后利用Keras程序预训练好的VGG-19深度学习模型提取图像的4096维的特征,将文本用词袋(Bag-of-Words,BoW)模型表示成向量:对于Wikipedia数据集,文本被表示成1000维向量,对于MIRFlickr数据集,文本被表示成1386维向量。
步骤2)哈希码映射:
如图1所示,图像特征和文本向量分别经过两层全连接层,得到图像和文本的低维特征,第一层全连接层的激活函数是tanh函数,而第二层全连接层的激活函数是sigmoid函数。整个过程可以表示如下:
Figure BDA0002362854990000052
其中,W为权重,B为偏置项,c1表示第一层全连接层,c2表示第二层全连接层。f表示图像的VGG-19特征或者文本的BoW向量,F为得到的数据的低维特征。将得到的低维特征F经过阈值函数生成哈希码H,阈值函数如下:
Figure BDA0002362854990000061
步骤3)建立目标损失函数L:
由于图像检索文本任务和文本检索图像任务是对称的,所以以文本检索图像任务为例介绍目标损失函数L,目标损失函数主要分成三部分:(1)图像特征FI和文本特征FT之间的距离;(2)低维特征F和哈希码H之间的距离;(3)权重W和偏置项B的正则化项。
(1)图像特征FI和文本特征FT之间的距离:
Figure BDA0002362854990000062
Figure BDA0002362854990000063
其中D表示距离,I+和I-分别表示与查询文本qT同语义和不同语义的图像,
Figure BDA0002362854990000064
表示I+与qT之间的距离,
Figure BDA0002362854990000065
表示I-与qT之间的距离,||·||Frobenius表示矩阵的Frobenius范数。我们使用一个基于边界的合页损失函数(a margin-based hinge loss function)来度量,如下式所示:
Figure BDA0002362854990000066
其中β是
Figure BDA0002362854990000067
Figure BDA0002362854990000068
的边界值,是一个可调节的超参数。在训练优化过程中,目的是降低
Figure BDA0002362854990000069
的值,同时增加
Figure BDA00023628549900000610
的值,即
Figure BDA00023628549900000611
越小,
Figure BDA00023628549900000612
越大越好。因此,可以将该过程转化为二分类问题,可以使用sigmoid交叉熵函数来作为损失函数,得到如下损失:
Figure BDA00023628549900000613
Figure BDA00023628549900000614
Figure BDA00023628549900000615
(2)低维特征F和哈希码H之间的距离:
哈希码是离散的,当数据的实值特征F在被转换为哈希码H时,会发生信息损失:
Figure BDA00023628549900000616
Figure BDA00023628549900000617
Figure BDA00023628549900000618
其中
Figure BDA00023628549900000619
表示查询文本qT的低维特征FT与其对应的哈希码HT之间的距离。
Figure BDA00023628549900000620
表示图像I的低维特征FI与其对应的哈希码HI之间的距离。
(3)权重W和偏置项B的正则化项:
大批量训练在训练模型时不稳定,为了降低其负面影响,我们引入了正交正则化来作为权重W的惩罚项。对于偏置项B,我们仍然使用L2正则化项作为惩罚项,可以得到损失项如下:
Figure BDA0002362854990000071
其中Wtranspose是权重矩阵W的转置,Iindentity表示单位矩阵,B表示偏置项。而θ和ω是超参数。将L1,L2,L3和L4结合在一起,就可以得到总的目标函数L:
minL=L1+λL2+γL3+L4
其中λ和γ表示可以调节的超参数。
步骤4)通过大批量方式输入三元组数据训练模型:
由于有图像检索文本和文本检索图像两种检索任务,因此将分别对模型进行训练,具体如下过程:
步骤41)首先初始化权重W和偏置项B,设定批量大小为8192和训练轮次为n;
步骤42)为每个查询文本qT随机取出m个同语义的图像I+和不同语义的图像I-组成三元组(qT,I+,I-),作为训练数据,对网络进行训练,并通过目标函数L更新权重W和偏置项B。
步骤43)为每个查询图像qI随机取出m个同语义的文本T+和不同语义的文本T-组成三元组(qI,T+,T-),作为训练数据,对网络进行训练,并通过目标函数L更新权重W和偏置项B。
步骤5)使用训练好的模型进行跨模态哈希检索:
将图像数据和文本数据输入训练好的模型,得到对应的哈希码。将查询集中的数据的哈希码与检索集中的数据的哈希码通过二进制异或运算得到汉明距离,然后根据汉明距离大小对检索集中的图像数据(对于文本检索图像的任务)或者文本数据(对于图像检索文本的任务)排序,取排在前面的数据作为检索结果。
为了验证本发明提出的一种基于大批量训练的图文跨模态哈希检索方法的有效性,进行了对比实验。我们与现有的三个比较先进的基于深度学习的跨模态哈希方法进行了对比:半监督跨模态哈希(Semi-supervised Cross-Modal Hashing by GenerativeAdversarial Network,SCH-GAN),无监督生成对抗跨模态哈希(Unsupervised GenerativeAdversarial Cross-modal Hashing,UGACH)和深度跨模态哈希(Deep Cross-modalHashing,DCMH)。另外还与两个非深度学习方法进行了对比:语义保留哈希(Semantics-preserving Hashing,SePH)和广义语义保留哈希(Generalized Semantic PreservingHashing,GSPH)。
对于本发明,将各个超参数设置为:β=10,λ=0.01,γ=0.01,θ=0.0001和ω=0.01。批量大小设为8192,在Wikipedia数据集上的学习率为0.1,在MIRFlickr数据集的学习率为0.016。
所有实验都在NVIDIA GTX 1080Ti图形卡,Intel(R)Xeon(R)E5-2620 v4 2.10GHzCPU,128GB内存的服务器上运行得到。
该实验所使用的评价指标为平均精度均值(Mean Average Precision,MAP)。
在实验中,哈希码长度分别取16位,32位和64位。在MIRFlickr数据集上的实验结果如表2:
表2在MIRFlickr数据集上的MAP
Figure BDA0002362854990000081
在Wikipedia数据集上的实验结果如表3所示:
表3在Wikipedia数据集上的MAP
Figure BDA0002362854990000082
从上述结果可以看出,本发明除16位哈希码没有获得最好结果外,在32位和64位哈希码获得了最好结果。这主要是因为本发明采用大批量方式进行训练,能够获得更好的梯度,同时采用了正交正则化,使得模型训练更加稳定,获得了更好的性能。而16位哈希码可能对于本发明不是足够长,不能充分表达数据特征,因此只能获得较好的MAP。
本发明还与SCH-GAN和UGACH方法进行了每轮训练时间的对比实验。SCH-GAN和UGACH都是采用三元组方式输入数据进行训练,分为判别模型(用dis表示)和生成模型(用gen表示)两个部分,需要对这两个部分分别训练,对比结果如表4所示:
表4在Wikipedia和MIRFlicker数据集每轮训练时间对比
Figure BDA0002362854990000091
从表4可以看出,本发明每轮所需时间最少,这是因为本发明采用大批量方式输入三元组数据进行训练,可以加快训练速度,降低了每轮训练时间。从以上实验可以看出,本发明提出的跨模态哈希方法优于其他跨模态哈希方法。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于大批量训练的图文跨模态哈希检索方法,其特征在于:包括以下步骤:
S1:对图像和文本数据进行预处理:
将图像数据和文本数据分别分为训练数据和查询数据,然后利用VGG-19深度学习模型提取图像的4096维的特征,将文本用词袋BoW模型表示成向量;
S2:哈希码映射:
图像特征和文本向量分别经过两层全连接层,得到图像和文本的低维特征,再经过阈值函数生成哈希码;
S3:建立目标损失函数L:
目标损失函数L包括三部分:1)图像特征FI和文本特征FT之间的距离,用基于边界的合页损失函数和sigmoid交叉熵来度量,得到损失函数L1和L2;2)度量低维特征F和哈希码H之间的距离,得到损失函数L3;3)权重W和偏置项B的正则化项,得到损失函数L4;将四个损失函数相加,得到目标损失函数L:
min L=L1+λL2+γL3+L4
其中λ和γ表示可调节的超参数;
S4:通过大批量方式输入三元组数据训练模型:
批量大小设为8192,采用三元组方式输入训练数据,所述三元组方式包括查询样本,正样本和负样本,再通过优化目标损失函数L训练模型;
S5:使用训练好的模型进行跨模态哈希检索:
将图像数据和文本数据输入训练好的模型,得到对应的哈希码,之后将哈希码通过二进制异或运算得到汉明距离,然后根据汉明距离大小对图像数据或者文本数据排序,取排在前面的数据作为检索结果。
2.根据权利要求1所述的基于大批量训练的图文跨模态哈希检索方法,其特征在于:步骤S2具体包括:
图像特征和文本向量分别经过两层全连接层,得到图像和文本的低维特征,第一层全连接层的激活函数是tanh函数,第二层全连接层的激活函数是sigmoid函数,整个过程表示如下:
Figure FDA0002362854980000011
其中,W为权重,B为偏置项,c1表示第一层全连接层,c2表示第二层全连接层,f表示图像的VGG-19特征或者文本的BoW向量,F为得到的数据的低维特征;将得到的低维特征F经过阈值函数生成哈希码H,阈值函数如下:
Figure FDA0002362854980000021
3.根据权利要求1所述的基于大批量训练的图文跨模态哈希检索方法,其特征在于:步骤S3中,所述图像特征FI和文本特征FT之间的距离:
Figure FDA0002362854980000022
Figure FDA0002362854980000023
其中D表示距离,I+和I-分别表示与查询文本qT同语义和不同语义的图像,
Figure FDA0002362854980000024
表示I+与qT之间的距离,
Figure FDA0002362854980000025
表示I-与qT之间的距离,||·||Frobenius表示矩阵的Frobenius范数;使用一个基于边界的合页损失函数(a margin-based hinge loss function)来度量,如下式所示:
Figure FDA0002362854980000026
其中β是
Figure FDA0002362854980000027
Figure FDA0002362854980000028
的边界值,是一个可调节的超参数;在训练优化过程中,目的是降低
Figure FDA0002362854980000029
的值,同时增加
Figure FDA00023628549800000210
的值,即
Figure FDA00023628549800000211
越小,
Figure FDA00023628549800000212
越大越好;因此将该过程转化为二分类问题,使用sigmoid交叉熵函数来作为损失函数,得到如下损失:
Figure FDA00023628549800000213
Figure FDA00023628549800000214
Figure FDA00023628549800000215
4.根据权利要求1所述的基于大批量训练的图文跨模态哈希检索方法,其特征在于:步骤S3中,所述低维特征F和哈希码H之间的距离:
哈希码是离散的,当数据的实值特征F在被转换为哈希码H时,会发生信息损失:
Figure FDA00023628549800000216
Figure FDA00023628549800000217
Figure FDA00023628549800000218
其中
Figure FDA00023628549800000219
表示查询文本qT的低维特征FT与其对应的哈希码HT之间的距离;
Figure FDA00023628549800000220
表示图像I的低维特征FI与其对应的哈希码HI之间的距离。
5.根据权利要求1所述的基于大批量训练的图文跨模态哈希检索方法,其特征在于:步骤S3中,所述权重W和偏置项B的正则化项:
大批量训练在训练模型时不稳定,为了降低其负面影响,引入正交正则化来作为权重W的惩罚项;对于偏置项B,使用L2正则化项作为惩罚项,得到损失项如下:
Figure FDA0002362854980000031
其中Wtranspose是权重矩阵W的转置,Iindentity表示单位矩阵,B表示偏置项,θ和ω是超参数。
6.根据权利要求1所述的基于大批量训练的图文跨模态哈希检索方法,其特征在于:步骤S4具体包括:
由于有图像检索文本和文本检索图像两种检索任务,因此将分别对模型进行训练,具体如下过程:
S41:首先初始化权重W和偏置项B,设定批量大小为8192和训练轮次为n;
S42:为每个查询文本qT随机取出m个同语义的图像I+和不同语义的图像I-组成三元组(qT,I+,I-),作为训练数据,对网络进行训练,并通过目标函数L更新权重W和偏置项B;
为每个查询图像qI随机取出m个同语义的文本T+和不同语义的文本T-组成三元组(qI,T+,T-),作为训练数据,对网络进行训练,并通过目标函数L更新权重W和偏置项B。
CN202010027063.1A 2020-01-10 2020-01-10 基于大批量训练的图文跨模态哈希检索方法 Active CN111209415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010027063.1A CN111209415B (zh) 2020-01-10 2020-01-10 基于大批量训练的图文跨模态哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010027063.1A CN111209415B (zh) 2020-01-10 2020-01-10 基于大批量训练的图文跨模态哈希检索方法

Publications (2)

Publication Number Publication Date
CN111209415A true CN111209415A (zh) 2020-05-29
CN111209415B CN111209415B (zh) 2022-09-23

Family

ID=70790028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010027063.1A Active CN111209415B (zh) 2020-01-10 2020-01-10 基于大批量训练的图文跨模态哈希检索方法

Country Status (1)

Country Link
CN (1) CN111209415B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035728A (zh) * 2020-08-21 2020-12-04 中国电子科技集团公司电子科学研究院 一种跨模态检索方法、装置及可读存储介质
CN113095415A (zh) * 2021-04-15 2021-07-09 齐鲁工业大学 一种基于多模态注意力机制的跨模态哈希方法及系统
CN113157739A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113159095A (zh) * 2021-01-30 2021-07-23 华为技术有限公司 一种训练模型的方法、图像检索的方法以及装置
CN113326392A (zh) * 2021-05-06 2021-08-31 武汉理工大学 基于四元组哈希的遥感图像音频检索方法
CN113886607A (zh) * 2021-10-14 2022-01-04 哈尔滨工业大学(深圳) 基于图神经网络的哈希检索方法、装置、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170755A (zh) * 2017-12-22 2018-06-15 西安电子科技大学 基于三元组深度网络的跨模态哈希检索方法
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
US20190228313A1 (en) * 2018-01-23 2019-07-25 Insurance Services Office, Inc. Computer Vision Systems and Methods for Unsupervised Representation Learning by Sorting Sequences
CN110059198A (zh) * 2019-04-08 2019-07-26 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170755A (zh) * 2017-12-22 2018-06-15 西安电子科技大学 基于三元组深度网络的跨模态哈希检索方法
US20190228313A1 (en) * 2018-01-23 2019-07-25 Insurance Services Office, Inc. Computer Vision Systems and Methods for Unsupervised Representation Learning by Sorting Sequences
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN110059198A (zh) * 2019-04-08 2019-07-26 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035728A (zh) * 2020-08-21 2020-12-04 中国电子科技集团公司电子科学研究院 一种跨模态检索方法、装置及可读存储介质
CN112035728B (zh) * 2020-08-21 2023-07-25 中国电子科技集团公司电子科学研究院 一种跨模态检索方法、装置及可读存储介质
CN113159095A (zh) * 2021-01-30 2021-07-23 华为技术有限公司 一种训练模型的方法、图像检索的方法以及装置
WO2022161380A1 (zh) * 2021-01-30 2022-08-04 华为技术有限公司 一种训练模型的方法、图像检索的方法以及装置
CN113159095B (zh) * 2021-01-30 2024-04-30 华为技术有限公司 一种训练模型的方法、图像检索的方法以及装置
CN113095415A (zh) * 2021-04-15 2021-07-09 齐鲁工业大学 一种基于多模态注意力机制的跨模态哈希方法及系统
CN113157739A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113157739B (zh) * 2021-04-23 2024-01-09 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113326392A (zh) * 2021-05-06 2021-08-31 武汉理工大学 基于四元组哈希的遥感图像音频检索方法
CN113886607A (zh) * 2021-10-14 2022-01-04 哈尔滨工业大学(深圳) 基于图神经网络的哈希检索方法、装置、终端及存储介质
CN113886607B (zh) * 2021-10-14 2022-07-12 哈尔滨工业大学(深圳) 基于图神经网络的哈希检索方法、装置、终端及存储介质

Also Published As

Publication number Publication date
CN111209415B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN111209415B (zh) 基于大批量训练的图文跨模态哈希检索方法
Liu et al. Cross-modality binary code learning via fusion similarity hashing
Xie et al. Joint deep multi-view learning for image clustering
Wu et al. Unsupervised Deep Hashing via Binary Latent Factor Models for Large-scale Cross-modal Retrieval.
Wei et al. Scalable algorithms for multi-instance learning
Yang et al. Hybrid sampling-based clustering ensemble with global and local constitutions
Dhillon et al. Kernel k-means: spectral clustering and normalized cuts
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
Zhang et al. Deep unsupervised clustering using mixture of autoencoders
Luo et al. Cimon: Towards high-quality hash codes
Yan et al. Joint graph regularization based modality-dependent cross-media retrieval
Liu et al. Adaptive metric learning with deep neural networks for video-based facial expression recognition
Duan et al. Improving spectral clustering with deep embedding and cluster estimation
Liu et al. LDS-FCM: A linear dynamical system based fuzzy C-means method for tactile recognition
Duan et al. Improving spectral clustering with deep embedding, cluster estimation and metric learning
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
Zhang et al. Learning all-in collaborative multiview binary representation for clustering
Meng et al. Sufficient dimension reduction for classification using principal optimal transport direction
CN114896438A (zh) 基于分层对齐和广义池化图注意力机制的图文检索方法
CN109857892B (zh) 基于类标传递的半监督跨模态哈希检索方法
Ren et al. Deep metric learning via subtype fuzzy clustering
Xie et al. Label-affinity self-adaptive central similarity hashing for image retrieval
Almadan et al. Benchmarking neural network compression techniques for ocular-based user authentication on smartphones
Passalis et al. Discriminative clustering using regularized subspace learning
Aoshima et al. Deep Curvilinear Editing: Commutative and Nonlinear Image Manipulation for Pretrained Deep Generative Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant