CN114817581A - 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法 - Google Patents
基于融合注意力机制和DenseNet网络的跨模态哈希检索方法 Download PDFInfo
- Publication number
- CN114817581A CN114817581A CN202210546822.4A CN202210546822A CN114817581A CN 114817581 A CN114817581 A CN 114817581A CN 202210546822 A CN202210546822 A CN 202210546822A CN 114817581 A CN114817581 A CN 114817581A
- Authority
- CN
- China
- Prior art keywords
- data
- modal
- text
- retrieval
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000007246 mechanism Effects 0.000 title claims abstract description 11
- 230000004927 fusion Effects 0.000 title claims abstract description 9
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 57
- 238000012549 training Methods 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- 230000005484 gravity Effects 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/434—Query formulation using image data, e.g. images, photos, pictures taken by a user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于融合注意力机制和DenseNet网络的跨模态哈希检索方法,属于跨模态检索领域。该方法包括:S1:对数据集中图像和文本进行预处理;S2:提取模态数据特征;S3:哈希码映射:将步骤S2提取的图像特征和文本特征分别经过两层全连接层得到相同维度的低维特征;S4:建立基于五元组结构的损失函数;S5:输入五元组数据训练检索模型;S6:使用训练好的检索模型执行跨模态哈希检索任务。本发明提高了提取模态数据特征的精细程度,提升了模型检索准确率。
Description
技术领域
本发明属于跨模态检索领域,涉及一种基于融合注意力机制和DenseNet网络的跨模态哈希检索方法。
背景技术
随着互联网和信息技术的快速发展,以不同媒体形式存在的多模态数据爆炸式地增长,这其中包含有图像、文本、音频和视频等众多媒体形式。每时每刻互联网上都会产生海量的多媒体数据。传统的单模态式检索已经远远不能满足用户日常的信息检索需求,对于描述同一事物的多种模态数据之间的高效检索已经成为了信息检索领域的一个研究热点。在该应用背景的推动下,跨模态检索得到了飞速发展。跨模态检索是指根据查询模态数据检索并返回与其语义相关的其他模态数据。由于低存储需求和快速计算的特性,近些年哈希方法在跨模态检索领域得到了广泛的关注和应用。哈希方法是解决跨模态数据间语义鸿沟的有效方法。它通过将经过特征提取的模态数据低维特征嵌入到固定长度的哈希编码中,然后对拥有同样长度的查询模态数据和检索模态数据的哈希码执行按位异或运算。通过该运算我们可以快速的得到查询模态数据与被检索的模态数据在汉明空间中的距离,进而得到数据间的语义相似性。
跨模态哈希检索方法按照训练模型时是否有监督标签可以分为有监督跨模态哈希、无监督跨模态哈希和半监督跨模态哈希三种类型。其中无监督跨模态哈希主要利用不同模态数据本身的特征和数据结构进行学习;有监督跨模态哈希则是利用数据集中人工标注的信息有目的性的进行训练,可以获得比无监督跨模态哈希更好的检索结果;半监督跨模态哈希训练方式是先利用部分标记数据进行有监督训练,然后再利用无标记数据进行无监督训练。由于有监督训练方式相较于其他训练方式拥有的更加优异的检索结果,基于深度学习的有监督跨模态哈希受到了研究者们的关注。
目前已经涌现出许多的基于深度学习的有监督跨模态哈希检索方法。但这些方法普遍存在着一些缺陷问题。例如未考虑到模态数据内部之间的关系,而仅仅是站在事物外部的视角来度量不同模态数据间的关系。其实同一模态数据内部之间也蕴含着丰富的语义关联,这些同类别模态数据内部之间的语义信息可以被用来作为跨模态哈希检索的索引依据。目前,很多跨模态检索方法在特征学习网络中仍然使用的是基于VGG-Net结构的图像特征学习网络,然而随着深度学习技术的迅速发展,性能优异的深度学习模型不断产生,因此存在模态数据特征学习网络有待优化、提取的模态数据特征不够精细而影响检索精度的问题。
因此,亟需一种新的跨模态哈希检索方法来解决上述问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于融合注意力机制和DenseNet网络五元组图文跨模态哈希检索方法,解决目前基于三元组的方法中存在的下列问题:未考虑到模态数据内部之间的语义关系,图像特征学习网络有待优化,提取的模态数据特征不够精细而影响检索任务精度。
为达到上述目的,本发明提供如下技术方案:
一种基于融合注意力机制和DenseNet网络的跨模态哈希检索方法,在图像特征学习网络中引入DenseNet网络,借助其深层结构以及在特征channel上的连接来实现特征重用,加强深层网络中特征的传递,减轻梯度消失的问题,同时又在特征学习网络中融合SENet注意力机制,以提高提取模态数据特征的精细程度,提升模型检索准确率。该方法具体包括以下步骤:
S1:对数据集中图像和文本进行预处理;
S2:提取模态数据特征,具体包括:采用基于融合通道域注意力和DenseNet网络结构的图像特征学习网络来提取图像特征,采用基于BoW模型的文本特征学习网络来提取文本特征;
S3:哈希码映射:将步骤S2提取的图像特征和文本特征分别经过两层全连接层得到相同维度的低维特征;
S4:建立基于五元组结构的损失函数L;
minL=L1+L2+γL3+L4
其中,γ是可调节的超参数、用于调节L3占损失函数L的比重,L1表示文本特征FT与图像特征FI模态数据之间的损失、使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量,L2表示文本特征FT的模态数据内部之间的损失、使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量,L3表示度量哈希码F与低维特征H之间的损失,L4表示对权重W和偏置B的正交正则化处理得到的损失;
S5:使用大批量的方式输入五元组数据训练检索模型;
所述检索模型包括图像特征学习网络、文本特征学习网络、哈希层和查询检索过程;
所述五元组数据包括:查询锚点样本、同模态的负例样本、同模态的正例样本、不同模态的负例样本和不同模态的正例样本;将训练批量大小即batch_size设为8192,训练次数Epoch设为2000,采用五元组的模式向检索模型中输入训练数据,通过优化总目标函数L,更新权重,偏置等参数来训练模型;
S6:使用训练好的检索模型执行跨模态哈希检索任务。
进一步,步骤S3中,所述低维特征由阈值函数映射为相同位数的哈希码,其中第一层全连接层采用的是tanh激活函数,第二层采用的是sigmoid函数,得到相同维度低维特征的过程可以描述为:
其中,C1层使用的tanh激活函数,和分别是C1层中参数的权重和偏置,C2层使用的是sigmoid激活函数,和分别是C2层中参数的权重和偏置,f表示模态数据特征提取部分的输出,即融合SENet注意力的DenseNet201图像特征学习网络对图像特征的输出以及基于BoW模型的文本特征学习网络对文本数据特征的输出;
进一步,步骤S4中,文本特征FT与图像特征FI模态数据之间的损失L1的计算公式为:
L1=l1+λ(l2+l3)
其中,l1表示模态间距离的损失;λ是可调节的超参数,用来调控损失项l2和l3占L1损失项的比例;n表示五元组样本的数量,超参数β表示衡量和之间损失的边界值,表示查询文本低维特征FqT与被检索的正例图像低维特征之间的距离,表示查询文本低维特征FqT与被检索的负例图像低维特征之间的距离;
进一步,步骤S4中,文本特征FT的模态数据内部之间的损失L2的计算公式为:
L2=l4+λl5
其中,λ是可调节的超参数,用来调控损失项l5占L2损失项的比例;超参数β表示衡量和之间损失的边界值,n表示五元组样本的数量,表示查询文本低维特征与被检索的正例文本的低维特征之间的距离,表示查询文本低维特征与被检索的负例文本的低维特征之间的距离。
进一步,步骤S4中,度量哈希码F与低维特征H之间的损失L3的计算公式为:
其中,n表示五元组样本的数量,表示查询文本的低维特征与其对应哈希码以及同模态内部被检索文本的低维特征FT与其对应哈希码HT之间的距离,表示被检索图像的低维特征FI与其对应哈希码HI之间的距离;Ti +和Ti -分别表示第i个正例文本和负例文本;Ii +和Ti -分别表示第i个正例图像和负例图像。
进一步,步骤S4中,对权重W和偏置B的正交正则化处理得到的损失L4的计算公式为:
其中,Wtra表示权重矩阵W的转置矩阵,Iide表示单位矩阵,θ和ω是可以调参的超参数,||·||Fro表示矩阵的Frobenius范数,下标T表示文本数据,下标I表示图像数据。
进一步,步骤S5中,输入五元组数据训练检索模型,具体包括以下步骤:
S51:随机的初始化W和B,设定训练批次大小和训练轮次Epoch;
S52:针对每一个查询文本数据随机挑选出m个与其语义相关的图像数据与其语义不相关的图像数据与其语义相关的文本数据Ti +、与其语义不相关的文本数据Ti -来组成m对五元组输入数据;其中,每处理过总数据的30%需重新挑选训练模型的五元组输入数据,训练文本检索模型并通过优化总目标函数L来更新权重W和偏置项B;
S53:针对每一个查询图像数据随机挑选出m个与其语义相关的图像数据与其语义不相关的图像数据Ii -、与其语义相关的文本数据Ti +、与其语义不相关的文本数据Ti -来组成m对五元组输入数据;其中,每处理过总数据的30%需重新挑选训练模型的五元组输入数据,训练图像检索模型并通过优化总目标函数L来更新权重W和偏置项B。
进一步,步骤S6中,使用训练好的检索模型执行跨模态哈希检索任务,具体包括:将待查询的图像和文本等模态数据输入到已经训练好的检索模型中,经过模型的处理可以得到对应的哈希码,然后对这些哈希码执行异或运算可以得到模态数据之间的汉明距离,对这些汉明距离排序可以得到查询模态数据与检索数据库中的模态数据之间的语义相关程度,排名在前列的模态数据语义相似程度越高,取排在前列的模态数据作为此次查询的检索结果。
本发明的有益效果在于:本发明通过采用五元组模式,可以同时从模态间与模态内两个方面建立模态数据之间的语义关系,同类别模态数据内部之间的语义信息也被用来作为跨模态哈希检索的索引依据;使用DenseNet稠密网络优化了图像特征学习网络结构,相较于以往的VGG-Net更加高效地识别并提取图像数据特征;同时在图像特征学习网络中融合通道域注意力机制中的SENet注意力,使得提取的模态数据特征更加的精细,训练得到的模型明显地提高了跨模态哈希检索的检索结果准确率,提高了检索的精度。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为五元组同时对模态内与模态间语义关系衡量示意图;
图2为本发明融合注意力机制的基于DenseNet网络五元组图文跨模态哈希检索方法的模型框架结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图2,本发明提供一种融合注意力机制的基于DenseNet网络五元组图文跨模态哈希检索方法,包含以下步骤:
步骤1:对数据集中图像和文本进行预处理。
具体实施方式以Wikipedia数据集和MIRFlickr-25K数据集为例说明,以下同。对Wikipedia数据集进行划分,随机挑选2173个图像/文本数据对作为训练集和检索集,其他余下的693对数据对作为测试集。对MIRFlickr-25K数据集做预处理,挑选出至少出现在20张图像中的tags作为词袋模型BoW的单词表,移除在整个数据集中不包含在单词表中的单词所在数据对和缺少文本描述的图像以及缺少类别标注的图像/文本数据对。处理后,数据集中还存有20819对数据符合实验要求。随机选择出1041对数据对作为测试集,余下的19778对数据对作为检索数据集。从检索集中随机的选出5000对数据对作为训练集。
步骤2:模态数据特征提取。
如图2所示,使用融合通道域注意力且基于DenseNet网络结构的图像特征学习网络来提取图像数据的1920维特征,使用基于词袋模型BoW的文本特征学习网络来提取文本特征。其中,对于Wikipedia数据集,文本数据被表示成1000维向量,对于MIRFlickr-25K数据集,文本数据被表示成1386维向量。
步骤3:哈希码映射。
如图2所示,经过特征学习网络提取的图像特征与文本特征分别经过两层全连接层得到相同维度的低维特征,这些低维特征由阈值函数映射为相同位数的哈希码。其中第一层全连接层采用的是tanh激活函数,第二层采用的是sigmoid函数,得到相同维度低维特征的过程可以描述为:
其中,C1层使用的Tanh激活函数,和分别是C1层中参数的权重和偏置。C2层使用的是sigmoid激活函数,和分别是C2层中参数的权重和偏置。这里f表示模态数据特征提取部分的输出,即融合SENet注意力的DenseNet201图像特征学习网络对图像特征的输出以及基于词袋模型BoW的文本特征学习网络对文本数据特征的输出,所使用的阈值函数如下面的公式所示:
步骤4:建立基于五元组结构的损失函数L。
如图1所示,基于五元组结构的损失函数L主要包括四个部分:(1)文本特征FT与图像特征FI模态数据之间的损失,使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量,可以得到损失函数L1;(2)文本特征FT的模态数据内部之间的损失,使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量,可以得到损失函数L2;(3)度量哈希码F与低维特征H之间的损失可以得到损失函数L3;(4)对权重W和偏置B的正交正则化处理,可以得到损失函数L4。
(1)计算文本特征FT与图像特征FI模态数据之间的损失
其中,n表示输入到跨模态哈希检索方法中五元组样本的数量,超参数β表示衡量和之间损失的边界值。可以通过操作减小数值的同时增大数值使得l1的损失值减小。理想情况下,经过不断的优化,β最终将会取到和之间的间隔。因此使用sigmoid交叉熵损失函数来处理这个二分类问题,继续优化和损失项,将会得到如下的式子:
结合上述中的损失项,可以得到汇总的模态间的损失函数:
L1=l1+λ(l2+l3)
其中λ是可调节的超参数,用来调控损失项l2和l3占L1损失项的比例。
(2)计算文本特征FT的模态数据内部之间的损失
相同模态数据内部查询文本与被检索文本的低维特征之间的距离通过上面两个公式衡量。其中,表示查询文本低维特征与被检索的正例文本的低维特征之间的距离,表示查询文本低维特征与被检索的负例文本的低维特征之间的距离。同样使用基于边界的合页损失函数来评估模态内距离的损失:
模态内总损失项为:
L2=l4+λl5
其中,λ是可调节的超参数、用来调控损失项l5占L2损失项的比例。
(3)度量哈希码F与低维特征H之间的损失
哈希码特有的离散性质意味着在将低维特征转换为哈希码的过程中必然存在着误差损失。为了应对这个问题,考虑将哈希码与特征之间的距离也加入到目标函数中。通过这个损失项的约束,可以缩小特征在向哈希码转换过程中的损失,使哈希码更好地表示模态数据的特征。这二者之间的衡量如下式所示:
其中,表示查询文本的低维特征与其对应哈希码以及同模态内部被检索文本的低维特征FT与其对应哈希码Ht之间的距离;表示被检索图像的低维特征FI与其对应哈希码HI之间的距离。将上述两个式子结合可以得到哈希码H与低维特征F间的损失项:
(4)对权重W和偏置B的正交正则化处理
通过引入正则化来降低训练模型时的过拟合问题,以提高模型的泛化能力。因为正交矩阵具有正交变换保范性,与正交矩阵做乘法运算的向量之间的范数关系不会改变,因而引入正交正则化处理,将权重矩阵W做正交正则化处理并将其作为损失项。由于偏置B不参加向量间的乘法运算故不做该处理。使用矩阵的Frobenius范数来衡量这一部分。
其中,Wtra表示权重矩阵W的转置矩阵,Iide表示单位矩阵,θ和ω是可调参的超参数。
将这四个部分的损失函数相加可以得到总目标损失函数L:
minL=L1+L2+γL3+L4
其中,γ是可调节的超参数、用于调节L3占损失函数L的比重。
步骤5:使用大批量的方式输入五元组数据训练模型。
五元组包含:查询锚点样本、同模态的负例样本、同模态的正例样本、不同模态的负例样本、不同模态的正例样本。将训练批量大小即batch_size设为8192,训练次数Epoch设为2000,采用五元组的模式向检索模型中输入训练数据,通过优化总目标函数L,更新权重、偏置等参数来训练模型。由于融合注意力机制的基于DenseNet网络五元组图文跨模态哈希检索方法主要包含文本查询图像和图像查询文本这两种检索任务。为此,对应这两种任务分别对模型进行训练,具体过程如下:
步骤5.1:随机初始化W和B,将训练批次大小设定为8192,训练模型时的训练轮次Epoch设定为2000。对于超参数的设定,其中哈希码位数规定为16、32、64,其对应的β分别为6、8、10,θ=0.000l,γ=λ=ω=0.01。为了减少超参数的数量,加快模型的收敛,这里将γ、λ、ω都设为了相同值。采用Adam优化算法来优化,更新模型中的参数。在所有数据集上的学习率都设为Adam算法默认的0.0001。
步骤5.2:针对每一个查询文本数据随机挑选出m个与其语义相关的图像数据与其语义不相关的图像数据与其语义相关的文本数据Ti +、与其语义不相关的文本数据Ti -来组成m对五元组输入数据;其中,每处理过总数据的30%就重新挑选训练模型的五元组输入数据。训练文本检索任务网络并通过优化总目标函数L更新权重W和偏置项B。
步骤5.3:针对每一个查询图像数据随机挑选出m个与其语义相关的图像数据与其语义不相关的图像数据与其语义相关的文本数据Ti +、与其语义不相关的文本数据来组成m对五元组输入数据;其中,每处理过总数据的30%就重新挑选训练模型的五元组输入数据。训练图像检索任务网络并通过优化总目标函数L更新权重W和偏置项B。
步骤6:使用训练好的模型执行跨模态哈希检索任务。
如图2所示,本发明将待查询的图像、文本等模态数据输入到已经训练好的检索模型中去,经过模型的处理可以得到对应的哈希码,然后对这些哈希码做异或运算可以得到模态数据之间的汉明距离,对这些距离排序可以得到查询模态数据与检索数据库中的模态数据之间的语义相关程度,排名在前列的模态数据语义相似程度越高,取排在前列的模态数据作为此次查询的检索结果。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于融合注意力机制和DenseNet网络的跨模态哈希检索方法,其特征在于,该方法包括以下步骤:
S1:对数据集中图像和文本进行预处理;
S2:提取模态数据特征,具体包括:采用基于融合通道域注意力和DenseNet网络结构的图像特征学习网络来提取图像特征,采用基于BoW模型的文本特征学习网络来提取文本特征;
S3:哈希码映射:将步骤S2提取的图像特征和文本特征分别经过两层全连接层得到相同维度的低维特征;
S4:建立基于五元组结构的损失函数L;
minL=L1+L2+γL3+L4
其中,γ是可调节的超参数、用于调节L3占损失函数L的比重,L1表示文本特征FT与图像特征FI模态数据之间的损失、使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量,L2表示文本特征FT的模态数据内部之间的损失、使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量,L3表示度量哈希码F与低维特征H之间的损失,L4表示对权重W和偏置B的正交正则化处理得到的损失;
S5:输入五元组数据训练检索模型;
所述检索模型包括图像特征学习网络、文本特征学习网络、哈希层和查询检索过程;
所述五元组数据包括:查询锚点样本、同模态的负例样本、同模态的正例样本、不同模态的负例样本和不同模态的正例样本;
S6:使用训练好的检索模型执行跨模态哈希检索任务。
7.根据权利要求1所述的跨模态哈希检索方法,其特征在于,步骤S5中,输入五元组数据训练检索模型,具体包括以下步骤:
S51:随机的初始化W和B,设定训练批次大小和训练轮次Epoch;
S52:针对每一个查询文本数据随机挑选出m个与其语义相关的图像数据与其语义不相关的图像数据与其语义相关的文本数据与其语义不相关的文本数据来组成m对五元组输入数据;其中,每处理过总数据的30%需重新挑选训练模型的五元组输入数据,训练文本检索模型并通过优化总目标函数L来更新权重W和偏置项B;
8.根据权利要求1所述的跨模态哈希检索方法,其特征在于,步骤S6中,使用训练好的检索模型执行跨模态哈希检索任务,具体包括:将待查询的图像和文本模态数据输入到已经训练好的检索模型中,经过模型的处理得到对应的哈希码,然后对这些哈希码执行异或运算得到模态数据之间的汉明距离,对这些汉明距离排序得到查询模态数据与检索数据库中的模态数据之间的语义相关程度,排名在前列的模态数据语义相似程度越高,取排在前列的模态数据作为此次查询的检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210546822.4A CN114817581A (zh) | 2022-05-18 | 2022-05-18 | 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210546822.4A CN114817581A (zh) | 2022-05-18 | 2022-05-18 | 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114817581A true CN114817581A (zh) | 2022-07-29 |
Family
ID=82516160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210546822.4A Pending CN114817581A (zh) | 2022-05-18 | 2022-05-18 | 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114817581A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116825210A (zh) * | 2023-08-28 | 2023-09-29 | 山东大学 | 基于多源生物数据的哈希检索方法、系统、设备和介质 |
CN117972133A (zh) * | 2024-03-21 | 2024-05-03 | 珠海泰坦软件系统有限公司 | 基于大数据的图文检索方法及系统 |
-
2022
- 2022-05-18 CN CN202210546822.4A patent/CN114817581A/zh active Pending
Non-Patent Citations (2)
Title |
---|
张学旺等: ""基于大批量训练和正交正则化的跨模态哈希方法"", ,《计算机应用研究》, vol. 38, no. 4, 27 September 2020 (2020-09-27), pages 2 - 5 * |
张桐: "基于卷积神经网络的遥感图像场景分类算法研究", 《中国优秀硕士学位论文全文数据库 工程科技II辑》, 15 September 2021 (2021-09-15), pages 42 - 51 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116825210A (zh) * | 2023-08-28 | 2023-09-29 | 山东大学 | 基于多源生物数据的哈希检索方法、系统、设备和介质 |
CN116825210B (zh) * | 2023-08-28 | 2023-11-17 | 山东大学 | 基于多源生物数据的哈希检索方法、系统、设备和介质 |
CN117972133A (zh) * | 2024-03-21 | 2024-05-03 | 珠海泰坦软件系统有限公司 | 基于大数据的图文检索方法及系统 |
CN117972133B (zh) * | 2024-03-21 | 2024-05-31 | 珠海泰坦软件系统有限公司 | 基于大数据的图文检索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luo et al. | A survey on deep hashing methods | |
Revaud et al. | Learning with average precision: Training image retrieval with a listwise loss | |
Douze et al. | Low-shot learning with large-scale diffusion | |
CN113177132B (zh) | 基于联合语义矩阵的深度跨模态哈希的图像检索方法 | |
Collins et al. | Towards scalable dataset construction: An active learning approach | |
Markatopoulou et al. | Implicit and explicit concept relations in deep neural networks for multi-label video/image annotation | |
CN109784405B (zh) | 基于伪标签学习和语义一致性的跨模态检索方法及系统 | |
Passalis et al. | Learning bag-of-embedded-words representations for textual information retrieval | |
Li et al. | Multi-level adaptive active learning for scene classification | |
CN109271486B (zh) | 一种相似性保留跨模态哈希检索方法 | |
CN112199520A (zh) | 基于细粒度相似性矩阵的跨模态哈希检索算法 | |
CN114817581A (zh) | 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法 | |
Zhao et al. | Few-shot class-incremental learning via class-aware bilateral distillation | |
Chen et al. | Progressive EM for latent tree models and hierarchical topic detection | |
Passalis et al. | Learning neural bag-of-features for large-scale image retrieval | |
CN111080551B (zh) | 基于深度卷积特征和语义近邻的多标签图像补全方法 | |
Huang et al. | Large-scale semantic web image retrieval using bimodal deep learning techniques | |
Jin et al. | Cold-start active learning for image classification | |
Song et al. | Deep and fast: Deep learning hashing with semi-supervised graph construction | |
Chen et al. | Advanced feature fusion algorithm based on multiple convolutional neural network for scene recognition | |
CN115048539B (zh) | 基于动态记忆力的社交媒体数据在线检索方法及系统 | |
Bai et al. | Learning high-level image representation for image retrieval via multi-task dnn using clickthrough data | |
Qin et al. | Deep top similarity hashing with class-wise loss for multi-label image retrieval | |
Siddiqua et al. | Semantics-enhanced supervised deep autoencoder for depth image-based 3D model retrieval | |
CN117171393A (zh) | 一种面向多模态检索的自适应半配对询问哈希方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |