CN114817581A - 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法 - Google Patents

基于融合注意力机制和DenseNet网络的跨模态哈希检索方法 Download PDF

Info

Publication number
CN114817581A
CN114817581A CN202210546822.4A CN202210546822A CN114817581A CN 114817581 A CN114817581 A CN 114817581A CN 202210546822 A CN202210546822 A CN 202210546822A CN 114817581 A CN114817581 A CN 114817581A
Authority
CN
China
Prior art keywords
data
modal
text
retrieval
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210546822.4A
Other languages
English (en)
Inventor
张学旺
李金鹏
林金朝
赵丽
黄胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210546822.4A priority Critical patent/CN114817581A/zh
Publication of CN114817581A publication Critical patent/CN114817581A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于融合注意力机制和DenseNet网络的跨模态哈希检索方法,属于跨模态检索领域。该方法包括:S1:对数据集中图像和文本进行预处理;S2:提取模态数据特征;S3:哈希码映射:将步骤S2提取的图像特征和文本特征分别经过两层全连接层得到相同维度的低维特征;S4:建立基于五元组结构的损失函数;S5:输入五元组数据训练检索模型;S6:使用训练好的检索模型执行跨模态哈希检索任务。本发明提高了提取模态数据特征的精细程度,提升了模型检索准确率。

Description

基于融合注意力机制和DenseNet网络的跨模态哈希检索方法
技术领域
本发明属于跨模态检索领域,涉及一种基于融合注意力机制和DenseNet网络的跨模态哈希检索方法。
背景技术
随着互联网和信息技术的快速发展,以不同媒体形式存在的多模态数据爆炸式地增长,这其中包含有图像、文本、音频和视频等众多媒体形式。每时每刻互联网上都会产生海量的多媒体数据。传统的单模态式检索已经远远不能满足用户日常的信息检索需求,对于描述同一事物的多种模态数据之间的高效检索已经成为了信息检索领域的一个研究热点。在该应用背景的推动下,跨模态检索得到了飞速发展。跨模态检索是指根据查询模态数据检索并返回与其语义相关的其他模态数据。由于低存储需求和快速计算的特性,近些年哈希方法在跨模态检索领域得到了广泛的关注和应用。哈希方法是解决跨模态数据间语义鸿沟的有效方法。它通过将经过特征提取的模态数据低维特征嵌入到固定长度的哈希编码中,然后对拥有同样长度的查询模态数据和检索模态数据的哈希码执行按位异或运算。通过该运算我们可以快速的得到查询模态数据与被检索的模态数据在汉明空间中的距离,进而得到数据间的语义相似性。
跨模态哈希检索方法按照训练模型时是否有监督标签可以分为有监督跨模态哈希、无监督跨模态哈希和半监督跨模态哈希三种类型。其中无监督跨模态哈希主要利用不同模态数据本身的特征和数据结构进行学习;有监督跨模态哈希则是利用数据集中人工标注的信息有目的性的进行训练,可以获得比无监督跨模态哈希更好的检索结果;半监督跨模态哈希训练方式是先利用部分标记数据进行有监督训练,然后再利用无标记数据进行无监督训练。由于有监督训练方式相较于其他训练方式拥有的更加优异的检索结果,基于深度学习的有监督跨模态哈希受到了研究者们的关注。
目前已经涌现出许多的基于深度学习的有监督跨模态哈希检索方法。但这些方法普遍存在着一些缺陷问题。例如未考虑到模态数据内部之间的关系,而仅仅是站在事物外部的视角来度量不同模态数据间的关系。其实同一模态数据内部之间也蕴含着丰富的语义关联,这些同类别模态数据内部之间的语义信息可以被用来作为跨模态哈希检索的索引依据。目前,很多跨模态检索方法在特征学习网络中仍然使用的是基于VGG-Net结构的图像特征学习网络,然而随着深度学习技术的迅速发展,性能优异的深度学习模型不断产生,因此存在模态数据特征学习网络有待优化、提取的模态数据特征不够精细而影响检索精度的问题。
因此,亟需一种新的跨模态哈希检索方法来解决上述问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于融合注意力机制和DenseNet网络五元组图文跨模态哈希检索方法,解决目前基于三元组的方法中存在的下列问题:未考虑到模态数据内部之间的语义关系,图像特征学习网络有待优化,提取的模态数据特征不够精细而影响检索任务精度。
为达到上述目的,本发明提供如下技术方案:
一种基于融合注意力机制和DenseNet网络的跨模态哈希检索方法,在图像特征学习网络中引入DenseNet网络,借助其深层结构以及在特征channel上的连接来实现特征重用,加强深层网络中特征的传递,减轻梯度消失的问题,同时又在特征学习网络中融合SENet注意力机制,以提高提取模态数据特征的精细程度,提升模型检索准确率。该方法具体包括以下步骤:
S1:对数据集中图像和文本进行预处理;
S2:提取模态数据特征,具体包括:采用基于融合通道域注意力和DenseNet网络结构的图像特征学习网络来提取图像特征,采用基于BoW模型的文本特征学习网络来提取文本特征;
S3:哈希码映射:将步骤S2提取的图像特征和文本特征分别经过两层全连接层得到相同维度的低维特征;
S4:建立基于五元组结构的损失函数L;
minL=L1+L2+γL3+L4
其中,γ是可调节的超参数、用于调节L3占损失函数L的比重,L1表示文本特征FT与图像特征FI模态数据之间的损失、使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量,L2表示文本特征FT的模态数据内部之间的损失、使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量,L3表示度量哈希码F与低维特征H之间的损失,L4表示对权重W和偏置B的正交正则化处理得到的损失;
S5:使用大批量的方式输入五元组数据训练检索模型;
所述检索模型包括图像特征学习网络、文本特征学习网络、哈希层和查询检索过程;
所述五元组数据包括:查询锚点样本、同模态的负例样本、同模态的正例样本、不同模态的负例样本和不同模态的正例样本;将训练批量大小即batch_size设为8192,训练次数Epoch设为2000,采用五元组的模式向检索模型中输入训练数据,通过优化总目标函数L,更新权重,偏置等参数来训练模型;
S6:使用训练好的检索模型执行跨模态哈希检索任务。
进一步,步骤S3中,所述低维特征由阈值函数映射为相同位数的哈希码,其中第一层全连接层采用的是tanh激活函数,第二层采用的是sigmoid函数,得到相同维度低维特征的过程可以描述为:
Figure BDA0003649835520000031
其中,C1层使用的tanh激活函数,
Figure BDA0003649835520000032
Figure BDA0003649835520000033
分别是C1层中参数的权重和偏置,C2层使用的是sigmoid激活函数,
Figure BDA0003649835520000034
Figure BDA0003649835520000035
分别是C2层中参数的权重和偏置,f表示模态数据特征提取部分的输出,即融合SENet注意力的DenseNet201图像特征学习网络对图像特征的输出以及基于BoW模型的文本特征学习网络对文本数据特征的输出;
所述阈值函数为:
Figure BDA0003649835520000036
进一步,步骤S4中,文本特征FT与图像特征FI模态数据之间的损失L1的计算公式为:
L1=l1+λ(l2+l3)
Figure BDA0003649835520000037
Figure BDA0003649835520000038
Figure BDA0003649835520000039
其中,l1表示模态间距离的损失;λ是可调节的超参数,用来调控损失项l2和l3占L1损失项的比例;n表示五元组样本的数量,超参数β表示衡量
Figure BDA00036498355200000310
Figure BDA00036498355200000311
之间损失的边界值,
Figure BDA00036498355200000312
表示查询文本低维特征FqT与被检索的正例图像低维特征
Figure BDA00036498355200000316
之间的距离,
Figure BDA00036498355200000313
表示查询文本低维特征FqT与被检索的负例图像低维特征
Figure BDA00036498355200000317
之间的距离;
Figure BDA00036498355200000314
Figure BDA00036498355200000315
Figure BDA0003649835520000041
Figure BDA0003649835520000042
其中,
Figure BDA0003649835520000043
表示Ti +和Ii +之间的距离,Ti +和Ii +分别表示第i个正例文本和第i个正例图像。
进一步,步骤S4中,文本特征FT的模态数据内部之间的损失L2的计算公式为:
L2=l4+λl5
Figure BDA0003649835520000044
Figure BDA0003649835520000045
Figure BDA0003649835520000046
Figure BDA0003649835520000047
其中,λ是可调节的超参数,用来调控损失项l5占L2损失项的比例;超参数β表示衡量
Figure BDA0003649835520000048
Figure BDA0003649835520000049
之间损失的边界值,n表示五元组样本的数量,
Figure BDA00036498355200000410
表示查询文本低维特征
Figure BDA00036498355200000411
与被检索的正例文本的低维特征
Figure BDA00036498355200000412
之间的距离,
Figure BDA00036498355200000413
表示查询文本低维特征
Figure BDA00036498355200000414
与被检索的负例文本的低维特征
Figure BDA00036498355200000415
之间的距离。
进一步,步骤S4中,度量哈希码F与低维特征H之间的损失L3的计算公式为:
Figure BDA00036498355200000416
Figure BDA00036498355200000417
Figure BDA00036498355200000418
其中,n表示五元组样本的数量,
Figure BDA00036498355200000419
表示查询文本的低维特征
Figure BDA00036498355200000420
与其对应哈希码
Figure BDA00036498355200000421
以及同模态内部被检索文本的低维特征FT与其对应哈希码HT之间的距离,
Figure BDA00036498355200000422
表示被检索图像的低维特征FI与其对应哈希码HI之间的距离;Ti +和Ti -分别表示第i个正例文本和负例文本;Ii +和Ti -分别表示第i个正例图像和负例图像。
进一步,步骤S4中,对权重W和偏置B的正交正则化处理得到的损失L4的计算公式为:
Figure BDA0003649835520000051
其中,Wtra表示权重矩阵W的转置矩阵,Iide表示单位矩阵,θ和ω是可以调参的超参数,||·||Fro表示矩阵的Frobenius范数,下标T表示文本数据,下标I表示图像数据。
进一步,步骤S5中,输入五元组数据训练检索模型,具体包括以下步骤:
S51:随机的初始化W和B,设定训练批次大小和训练轮次Epoch;
S52:针对每一个查询文本数据
Figure BDA0003649835520000052
随机挑选出m个与其语义相关的图像数据
Figure BDA0003649835520000053
与其语义不相关的图像数据
Figure BDA0003649835520000054
与其语义相关的文本数据Ti +、与其语义不相关的文本数据Ti -来组成m对五元组输入数据;其中,每处理过总数据的30%需重新挑选训练模型的五元组输入数据,训练文本检索模型并通过优化总目标函数L来更新权重W和偏置项B;
S53:针对每一个查询图像数据
Figure BDA0003649835520000055
随机挑选出m个与其语义相关的图像数据
Figure BDA0003649835520000056
与其语义不相关的图像数据Ii -、与其语义相关的文本数据Ti +、与其语义不相关的文本数据Ti -来组成m对五元组输入数据;其中,每处理过总数据的30%需重新挑选训练模型的五元组输入数据,训练图像检索模型并通过优化总目标函数L来更新权重W和偏置项B。
进一步,步骤S6中,使用训练好的检索模型执行跨模态哈希检索任务,具体包括:将待查询的图像和文本等模态数据输入到已经训练好的检索模型中,经过模型的处理可以得到对应的哈希码,然后对这些哈希码执行异或运算可以得到模态数据之间的汉明距离,对这些汉明距离排序可以得到查询模态数据与检索数据库中的模态数据之间的语义相关程度,排名在前列的模态数据语义相似程度越高,取排在前列的模态数据作为此次查询的检索结果。
本发明的有益效果在于:本发明通过采用五元组模式,可以同时从模态间与模态内两个方面建立模态数据之间的语义关系,同类别模态数据内部之间的语义信息也被用来作为跨模态哈希检索的索引依据;使用DenseNet稠密网络优化了图像特征学习网络结构,相较于以往的VGG-Net更加高效地识别并提取图像数据特征;同时在图像特征学习网络中融合通道域注意力机制中的SENet注意力,使得提取的模态数据特征更加的精细,训练得到的模型明显地提高了跨模态哈希检索的检索结果准确率,提高了检索的精度。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为五元组同时对模态内与模态间语义关系衡量示意图;
图2为本发明融合注意力机制的基于DenseNet网络五元组图文跨模态哈希检索方法的模型框架结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图2,本发明提供一种融合注意力机制的基于DenseNet网络五元组图文跨模态哈希检索方法,包含以下步骤:
步骤1:对数据集中图像和文本进行预处理。
具体实施方式以Wikipedia数据集和MIRFlickr-25K数据集为例说明,以下同。对Wikipedia数据集进行划分,随机挑选2173个图像/文本数据对作为训练集和检索集,其他余下的693对数据对作为测试集。对MIRFlickr-25K数据集做预处理,挑选出至少出现在20张图像中的tags作为词袋模型BoW的单词表,移除在整个数据集中不包含在单词表中的单词所在数据对和缺少文本描述的图像以及缺少类别标注的图像/文本数据对。处理后,数据集中还存有20819对数据符合实验要求。随机选择出1041对数据对作为测试集,余下的19778对数据对作为检索数据集。从检索集中随机的选出5000对数据对作为训练集。
步骤2:模态数据特征提取。
如图2所示,使用融合通道域注意力且基于DenseNet网络结构的图像特征学习网络来提取图像数据的1920维特征,使用基于词袋模型BoW的文本特征学习网络来提取文本特征。其中,对于Wikipedia数据集,文本数据被表示成1000维向量,对于MIRFlickr-25K数据集,文本数据被表示成1386维向量。
步骤3:哈希码映射。
如图2所示,经过特征学习网络提取的图像特征与文本特征分别经过两层全连接层得到相同维度的低维特征,这些低维特征由阈值函数映射为相同位数的哈希码。其中第一层全连接层采用的是tanh激活函数,第二层采用的是sigmoid函数,得到相同维度低维特征的过程可以描述为:
Figure BDA0003649835520000071
其中,C1层使用的Tanh激活函数,
Figure BDA0003649835520000072
Figure BDA0003649835520000073
分别是C1层中参数的权重和偏置。C2层使用的是sigmoid激活函数,
Figure BDA0003649835520000074
Figure BDA0003649835520000075
分别是C2层中参数的权重和偏置。这里f表示模态数据特征提取部分的输出,即融合SENet注意力的DenseNet201图像特征学习网络对图像特征的输出以及基于词袋模型BoW的文本特征学习网络对文本数据特征的输出,所使用的阈值函数如下面的公式所示:
Figure BDA0003649835520000076
步骤4:建立基于五元组结构的损失函数L。
如图1所示,基于五元组结构的损失函数L主要包括四个部分:(1)文本特征FT与图像特征FI模态数据之间的损失,使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量,可以得到损失函数L1;(2)文本特征FT的模态数据内部之间的损失,使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量,可以得到损失函数L2;(3)度量哈希码F与低维特征H之间的损失可以得到损失函数L3;(4)对权重W和偏置B的正交正则化处理,可以得到损失函数L4
(1)计算文本特征FT与图像特征FI模态数据之间的损失
Figure BDA0003649835520000077
Figure BDA0003649835520000078
其中,
Figure BDA0003649835520000079
表示查询文本低维特征
Figure BDA00036498355200000710
与被检索的正例图像低维特征
Figure BDA00036498355200000711
之间的距离,
Figure BDA00036498355200000712
表示查询文本低维特征
Figure BDA00036498355200000713
与被检索的负例图像低维特征
Figure BDA00036498355200000714
之间的距离。使用合页损失函数来评估模态间距离的损失。
Figure BDA00036498355200000715
其中,n表示输入到跨模态哈希检索方法中五元组样本的数量,超参数β表示衡量
Figure BDA00036498355200000716
Figure BDA00036498355200000717
之间损失的边界值。可以通过操作减小
Figure BDA00036498355200000718
数值的同时增大
Figure BDA00036498355200000719
数值使得l1的损失值减小。理想情况下,经过不断的优化,β最终将会取到
Figure BDA0003649835520000081
Figure BDA0003649835520000082
之间的间隔。因此使用sigmoid交叉熵损失函数来处理这个二分类问题,继续优化
Figure BDA0003649835520000083
Figure BDA0003649835520000084
损失项,将会得到如下的式子:
Figure BDA0003649835520000085
Figure BDA0003649835520000086
经过分析,可以发现
Figure BDA0003649835520000087
的优化结果不能接近理想的0数值,故而直接使用
Figure BDA0003649835520000088
整体作为损失项来处理,对于loss2符合优化的期望则继续使用sigmoid交叉熵损失函数来处理。为此,可以得到损失项l2
Figure BDA0003649835520000089
输入的五元组数据样本中,根据
Figure BDA00036498355200000810
Ti +之间的关系,可以推断出
Figure BDA00036498355200000811
和Ti +也存在着关系。考虑将
Figure BDA00036498355200000812
和Ti +之间的距离也加入到目标函数中,
Figure BDA00036498355200000813
和Ti -之间无直接关系可以衡量。
Figure BDA00036498355200000814
结合上述中的损失项,可以得到汇总的模态间的损失函数:
L1=l1+λ(l2+l3)
其中λ是可调节的超参数,用来调控损失项l2和l3占L1损失项的比例。
(2)计算文本特征FT的模态数据内部之间的损失
Figure BDA00036498355200000815
Figure BDA00036498355200000816
相同模态数据内部查询文本与被检索文本的低维特征之间的距离通过上面两个公式衡量。其中,
Figure BDA00036498355200000817
表示查询文本低维特征
Figure BDA00036498355200000818
与被检索的正例文本的低维特征
Figure BDA00036498355200000819
之间的距离,
Figure BDA00036498355200000820
表示查询文本低维特征
Figure BDA00036498355200000821
与被检索的负例文本的低维特征
Figure BDA00036498355200000822
之间的距离。同样使用基于边界的合页损失函数来评估模态内距离的损失:
Figure BDA0003649835520000091
其中,超参数β表示衡量
Figure BDA0003649835520000092
Figure BDA0003649835520000093
之间损失的边界值,n表示五元组样本的数量。由于与计算模态数据间的损失的处理逻辑一样,因此可以得到下列损失项:
Figure BDA0003649835520000094
模态内总损失项为:
L2=l4+λl5
其中,λ是可调节的超参数、用来调控损失项l5占L2损失项的比例。
(3)度量哈希码F与低维特征H之间的损失
哈希码特有的离散性质意味着在将低维特征转换为哈希码的过程中必然存在着误差损失。为了应对这个问题,考虑将哈希码与特征之间的距离也加入到目标函数中。通过这个损失项的约束,可以缩小特征在向哈希码转换过程中的损失,使哈希码更好地表示模态数据的特征。这二者之间的衡量如下式所示:
Figure BDA0003649835520000095
Figure BDA0003649835520000096
其中,
Figure BDA0003649835520000097
表示查询文本的低维特征
Figure BDA0003649835520000098
与其对应哈希码
Figure BDA0003649835520000099
以及同模态内部被检索文本的低维特征FT与其对应哈希码Ht之间的距离;
Figure BDA00036498355200000910
表示被检索图像的低维特征FI与其对应哈希码HI之间的距离。将上述两个式子结合可以得到哈希码H与低维特征F间的损失项:
Figure BDA00036498355200000911
(4)对权重W和偏置B的正交正则化处理
通过引入正则化来降低训练模型时的过拟合问题,以提高模型的泛化能力。因为正交矩阵具有正交变换保范性,与正交矩阵做乘法运算的向量之间的范数关系不会改变,因而引入正交正则化处理,将权重矩阵W做正交正则化处理并将其作为损失项。由于偏置B不参加向量间的乘法运算故不做该处理。使用矩阵的Frobenius范数来衡量这一部分。
Figure BDA0003649835520000101
其中,Wtra表示权重矩阵W的转置矩阵,Iide表示单位矩阵,θ和ω是可调参的超参数。
将这四个部分的损失函数相加可以得到总目标损失函数L:
minL=L1+L2+γL3+L4
其中,γ是可调节的超参数、用于调节L3占损失函数L的比重。
步骤5:使用大批量的方式输入五元组数据训练模型。
五元组包含:查询锚点样本、同模态的负例样本、同模态的正例样本、不同模态的负例样本、不同模态的正例样本。将训练批量大小即batch_size设为8192,训练次数Epoch设为2000,采用五元组的模式向检索模型中输入训练数据,通过优化总目标函数L,更新权重、偏置等参数来训练模型。由于融合注意力机制的基于DenseNet网络五元组图文跨模态哈希检索方法主要包含文本查询图像和图像查询文本这两种检索任务。为此,对应这两种任务分别对模型进行训练,具体过程如下:
步骤5.1:随机初始化W和B,将训练批次大小设定为8192,训练模型时的训练轮次Epoch设定为2000。对于超参数的设定,其中哈希码位数规定为16、32、64,其对应的β分别为6、8、10,θ=0.000l,γ=λ=ω=0.01。为了减少超参数的数量,加快模型的收敛,这里将γ、λ、ω都设为了相同值。采用Adam优化算法来优化,更新模型中的参数。在所有数据集上的学习率都设为Adam算法默认的0.0001。
步骤5.2:针对每一个查询文本数据
Figure BDA0003649835520000102
随机挑选出m个与其语义相关的图像数据
Figure BDA0003649835520000103
与其语义不相关的图像数据
Figure BDA0003649835520000104
与其语义相关的文本数据Ti +、与其语义不相关的文本数据Ti -来组成m对五元组
Figure BDA0003649835520000105
输入数据;其中,每处理过总数据的30%就重新挑选训练模型的五元组输入数据。训练文本检索任务网络并通过优化总目标函数L更新权重W和偏置项B。
步骤5.3:针对每一个查询图像数据
Figure BDA0003649835520000106
随机挑选出m个与其语义相关的图像数据
Figure BDA0003649835520000107
与其语义不相关的图像数据
Figure BDA0003649835520000108
与其语义相关的文本数据Ti +、与其语义不相关的文本数据
Figure BDA0003649835520000109
来组成m对五元组
Figure BDA00036498355200001010
输入数据;其中,每处理过总数据的30%就重新挑选训练模型的五元组输入数据。训练图像检索任务网络并通过优化总目标函数L更新权重W和偏置项B。
步骤6:使用训练好的模型执行跨模态哈希检索任务。
如图2所示,本发明将待查询的图像、文本等模态数据输入到已经训练好的检索模型中去,经过模型的处理可以得到对应的哈希码,然后对这些哈希码做异或运算可以得到模态数据之间的汉明距离,对这些距离排序可以得到查询模态数据与检索数据库中的模态数据之间的语义相关程度,排名在前列的模态数据语义相似程度越高,取排在前列的模态数据作为此次查询的检索结果。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于融合注意力机制和DenseNet网络的跨模态哈希检索方法,其特征在于,该方法包括以下步骤:
S1:对数据集中图像和文本进行预处理;
S2:提取模态数据特征,具体包括:采用基于融合通道域注意力和DenseNet网络结构的图像特征学习网络来提取图像特征,采用基于BoW模型的文本特征学习网络来提取文本特征;
S3:哈希码映射:将步骤S2提取的图像特征和文本特征分别经过两层全连接层得到相同维度的低维特征;
S4:建立基于五元组结构的损失函数L;
minL=L1+L2+γL3+L4
其中,γ是可调节的超参数、用于调节L3占损失函数L的比重,L1表示文本特征FT与图像特征FI模态数据之间的损失、使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量,L2表示文本特征FT的模态数据内部之间的损失、使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量,L3表示度量哈希码F与低维特征H之间的损失,L4表示对权重W和偏置B的正交正则化处理得到的损失;
S5:输入五元组数据训练检索模型;
所述检索模型包括图像特征学习网络、文本特征学习网络、哈希层和查询检索过程;
所述五元组数据包括:查询锚点样本、同模态的负例样本、同模态的正例样本、不同模态的负例样本和不同模态的正例样本;
S6:使用训练好的检索模型执行跨模态哈希检索任务。
2.根据权利要求1所述的跨模态哈希检索方法,其特征在于,步骤S3中,所述低维特征由阈值函数映射为相同位数的哈希码,其中第一层全连接层采用的是tanh激活函数,第二层采用的是sigmoid函数,得到相同维度低维特征的过程描述为:
Figure FDA0003649835510000011
其中,C1层使用的tanh激活函数,
Figure FDA0003649835510000012
Figure FDA0003649835510000013
分别是C1层中参数的权重和偏置,C2层使用的是sigmoid激活函数,
Figure FDA0003649835510000014
Figure FDA0003649835510000015
分别是C2层中参数的权重和偏置,表示模态数据特征提取部分的输出;
所述阈值函数为:
Figure FDA0003649835510000016
3.根据权利要求1所述的跨模态哈希检索方法,其特征在于,步骤S4中,文本特征FT与图像特征FI模态数据之间的损失L1的计算公式为:
L1=l1+λ(l2+l3)
Figure FDA0003649835510000021
Figure FDA0003649835510000022
Figure FDA0003649835510000023
其中,l1表示模态间距离的损失;λ是可调节的超参数,用来调控损失项l2和l3占L1损失项的比例;n表示五元组样本的数量,超参数β表示衡量
Figure FDA0003649835510000024
Figure FDA0003649835510000025
之间损失的边界值,
Figure FDA0003649835510000026
表示查询文本低维特征FqT与被检索的正例图像低维特征
Figure FDA0003649835510000027
之间的距离,
Figure FDA0003649835510000028
表示查询文本低维特征FqT与被检索的负例图像低维特征
Figure FDA0003649835510000029
之间的距离;
Figure FDA00036498355100000210
Figure FDA00036498355100000211
Figure FDA00036498355100000212
其中,
Figure FDA00036498355100000213
表示
Figure FDA00036498355100000214
Figure FDA00036498355100000215
之间的距离,
Figure FDA00036498355100000216
Figure FDA00036498355100000217
分别表示第i个正例文本和第i个正例图像。
4.根据权利要求1所述的跨模态哈希检索方法,其特征在于,步骤S4中,文本特征FT的模态数据内部之间的损失L2的计算公式为:
L2=l4+λl5
Figure FDA00036498355100000218
Figure FDA00036498355100000219
Figure FDA00036498355100000220
Figure FDA00036498355100000221
其中,λ是可调节的超参数,用来调控损失项l5占L2损失项的比例,超参数β表示衡量
Figure FDA0003649835510000031
Figure FDA0003649835510000032
之间损失的边界值,n表示五元组样本的数量,
Figure FDA0003649835510000033
表示查询文本低维特征FqT与被检索的正例文本的低维特征
Figure FDA0003649835510000034
之间的距离,
Figure FDA0003649835510000035
表示查询文本低维特征FqT与被检索的负例文本的低维特征
Figure FDA0003649835510000036
之间的距离。
5.根据权利要求1所述的跨模态哈希检索方法,其特征在于,步骤S4中,度量哈希码F与低维特征H之间的损失L3的计算公式为:
Figure FDA0003649835510000037
Figure FDA0003649835510000038
Figure FDA0003649835510000039
其中,n表示五元组样本的数量,
Figure FDA00036498355100000310
表示查询文本的低维特征FqT与其对应哈希码HqT,以及同模态内部被检索文本的低维特征FT与其对应哈希码HT之间的距离,
Figure FDA00036498355100000311
表示被检索图像的低维特征FI与其对应哈希码HI之间的距离;
Figure FDA00036498355100000312
Figure FDA00036498355100000313
分别表示第i个正例文本和负例文本;
Figure FDA00036498355100000314
Figure FDA00036498355100000315
分别表示第i个正例图像和负例图像。
6.根据权利要求1所述的跨模态哈希检索方法,其特征在于,步骤S4中,对权重W和偏置B的正交正则化处理得到的损失L4的计算公式为:
Figure FDA00036498355100000316
其中,Wtra表示权重矩阵W的转置矩阵,Iide表示单位矩阵,θ和ω是可以调参的超参数,‖·‖Fro表示矩阵的Frobenius范数,下标T表示文本数据,下标I表示图像数据。
7.根据权利要求1所述的跨模态哈希检索方法,其特征在于,步骤S5中,输入五元组数据训练检索模型,具体包括以下步骤:
S51:随机的初始化W和B,设定训练批次大小和训练轮次Epoch;
S52:针对每一个查询文本数据
Figure FDA00036498355100000321
随机挑选出m个与其语义相关的图像数据
Figure FDA00036498355100000317
与其语义不相关的图像数据
Figure FDA00036498355100000318
与其语义相关的文本数据
Figure FDA00036498355100000319
与其语义不相关的文本数据
Figure FDA00036498355100000320
来组成m对五元组输入数据;其中,每处理过总数据的30%需重新挑选训练模型的五元组输入数据,训练文本检索模型并通过优化总目标函数L来更新权重W和偏置项B;
S53:针对每一个查询图像数据
Figure FDA0003649835510000041
随机挑选出m个与其语义相关的图像数据
Figure FDA0003649835510000042
与其语义不相关的图像数据
Figure FDA0003649835510000043
与其语义相关的文本数据
Figure FDA0003649835510000044
与其语义不相关的文本数据
Figure FDA0003649835510000045
来组成m对五元组输入数据;其中,每处理过总数据的30%需重新挑选训练模型的五元组输入数据,训练图像检索模型并通过优化总目标函数L来更新权重W和偏置项B。
8.根据权利要求1所述的跨模态哈希检索方法,其特征在于,步骤S6中,使用训练好的检索模型执行跨模态哈希检索任务,具体包括:将待查询的图像和文本模态数据输入到已经训练好的检索模型中,经过模型的处理得到对应的哈希码,然后对这些哈希码执行异或运算得到模态数据之间的汉明距离,对这些汉明距离排序得到查询模态数据与检索数据库中的模态数据之间的语义相关程度,排名在前列的模态数据语义相似程度越高,取排在前列的模态数据作为此次查询的检索结果。
CN202210546822.4A 2022-05-18 2022-05-18 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法 Pending CN114817581A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210546822.4A CN114817581A (zh) 2022-05-18 2022-05-18 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210546822.4A CN114817581A (zh) 2022-05-18 2022-05-18 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法

Publications (1)

Publication Number Publication Date
CN114817581A true CN114817581A (zh) 2022-07-29

Family

ID=82516160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210546822.4A Pending CN114817581A (zh) 2022-05-18 2022-05-18 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法

Country Status (1)

Country Link
CN (1) CN114817581A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825210A (zh) * 2023-08-28 2023-09-29 山东大学 基于多源生物数据的哈希检索方法、系统、设备和介质
CN117972133A (zh) * 2024-03-21 2024-05-03 珠海泰坦软件系统有限公司 基于大数据的图文检索方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张学旺等: ""基于大批量训练和正交正则化的跨模态哈希方法"", ,《计算机应用研究》, vol. 38, no. 4, 27 September 2020 (2020-09-27), pages 2 - 5 *
张桐: "基于卷积神经网络的遥感图像场景分类算法研究", 《中国优秀硕士学位论文全文数据库 工程科技II辑》, 15 September 2021 (2021-09-15), pages 42 - 51 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825210A (zh) * 2023-08-28 2023-09-29 山东大学 基于多源生物数据的哈希检索方法、系统、设备和介质
CN116825210B (zh) * 2023-08-28 2023-11-17 山东大学 基于多源生物数据的哈希检索方法、系统、设备和介质
CN117972133A (zh) * 2024-03-21 2024-05-03 珠海泰坦软件系统有限公司 基于大数据的图文检索方法及系统
CN117972133B (zh) * 2024-03-21 2024-05-31 珠海泰坦软件系统有限公司 基于大数据的图文检索方法及系统

Similar Documents

Publication Publication Date Title
Luo et al. A survey on deep hashing methods
Revaud et al. Learning with average precision: Training image retrieval with a listwise loss
Douze et al. Low-shot learning with large-scale diffusion
CN113177132B (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
Collins et al. Towards scalable dataset construction: An active learning approach
Markatopoulou et al. Implicit and explicit concept relations in deep neural networks for multi-label video/image annotation
CN109784405B (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
Passalis et al. Learning bag-of-embedded-words representations for textual information retrieval
Li et al. Multi-level adaptive active learning for scene classification
CN109271486B (zh) 一种相似性保留跨模态哈希检索方法
CN112199520A (zh) 基于细粒度相似性矩阵的跨模态哈希检索算法
CN114817581A (zh) 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法
Zhao et al. Few-shot class-incremental learning via class-aware bilateral distillation
Chen et al. Progressive EM for latent tree models and hierarchical topic detection
Passalis et al. Learning neural bag-of-features for large-scale image retrieval
CN111080551B (zh) 基于深度卷积特征和语义近邻的多标签图像补全方法
Huang et al. Large-scale semantic web image retrieval using bimodal deep learning techniques
Jin et al. Cold-start active learning for image classification
Song et al. Deep and fast: Deep learning hashing with semi-supervised graph construction
Chen et al. Advanced feature fusion algorithm based on multiple convolutional neural network for scene recognition
CN115048539B (zh) 基于动态记忆力的社交媒体数据在线检索方法及系统
Bai et al. Learning high-level image representation for image retrieval via multi-task dnn using clickthrough data
Qin et al. Deep top similarity hashing with class-wise loss for multi-label image retrieval
Siddiqua et al. Semantics-enhanced supervised deep autoencoder for depth image-based 3D model retrieval
CN117171393A (zh) 一种面向多模态检索的自适应半配对询问哈希方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination