CN116737877A - 基于注意力网络对抗哈希的跨模态检索方法及设备 - Google Patents
基于注意力网络对抗哈希的跨模态检索方法及设备 Download PDFInfo
- Publication number
- CN116737877A CN116737877A CN202310722310.3A CN202310722310A CN116737877A CN 116737877 A CN116737877 A CN 116737877A CN 202310722310 A CN202310722310 A CN 202310722310A CN 116737877 A CN116737877 A CN 116737877A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- feature
- data
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 43
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 26
- 230000004913 activation Effects 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 12
- 238000005259 measurement Methods 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000006386 memory function Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于注意力网络对抗哈希的跨模态检索方法及设备,方法包括:获得图像‑文本对数据,提取图像数据和文本数据的初始全局特征,将图像数据的初始全局特征和文本数据的初始全局特征分别经过共享注意力模块处理,获得图像数据和文本数据的最终特征表示;模态判别器以对抗式的方式和特征提取器相互作用,促使模态特征提取器学习到更好的图文特征;将图像数据和文本数据的最终特征表示转换为二进制编码,将其特征映射到公共汉明空间中,进行跨模态检索,获得前K个跨模态检索的结果。本发明将对抗网络与哈希学习网络结合,既利用了对抗网络学习促使特征提取器学习模态不变表示,同时也利用了哈希快速检索的特性,从而实现跨模态检索。
Description
技术领域
本发明涉及计算机技术中的跨模态图文检索领域,具体涉及一种基于注意力网络对抗哈希的跨模态检索方法及设备。
背景技术
跨模态检索过程中,提取高质量的模态特征和实现快速准确的检索是当前研究的目标和方向。传统的基于手工特征的模型不能很好的提取不同模态数据的特征,而利用深度学习提取的模态特征有更强的表达能力。同时,共享注意力模块可以有效的学习高质量特征,关注相关信息,忽略不相关信息,产生更多的辨别特征,为哈希学习奠定基础。跨模态哈希因其快速检索的速度深受欢迎。跨模态哈希是利用特征提取器对不同模态数据进行特征提取,同时能够把模态特征中容易忽略的信息提取出来,通过学习它们的哈希变换,将这些数据信息投影到一个汉明空间,然后通过在这个空间中计算相似度,最终实现跨模态检索。然而,哈希学习方法没有充分探索哈希学习过程中模态的语义相关性,同时也没有充分考虑到数据的分布变化。因此,如何高效的提取带有掩码权重的注意力特征同时将对抗与哈希结合进行跨模态检索成为了一个需要思考的问题。
发明内容
为了解决上述问题,本发明提供一种基于注意力网络对抗哈希的跨模态检索方法及设备,利用深度学习和共享注意力模块对图像和文本数据进行特征提取,同时,模态判别器以一种对抗性的方式与特征提取器一起来适应数据的分布变化,通过哈希学习网络,得到二进制编码,最终实现快速准确检索的目的。
为了达到上述目的,本发明所采用的技术方案为:一种基于注意力网络对抗哈希的跨模态检索方法,包括以下步骤:
对成对的图文数据中的图像数据和文本数据提取初始特征;
对初始特征学习掩码权重,获得用于检索任务的高质量的图文特征;具体的,将图像数据的初始全局特征和文本数据的初始全局特征作为共享注意力模块的输入,经过注意力模块处理,从而获得图像数据和文本数据的激活输出;将图像数据和文本数据的激活输出送到一个全连接层,分别得到图像数据和文本数据的最终特征表示;
基于所述高质量的图文特征,利用模态判别器判断所述图文特征是图像特征还是文本特征,模态特征提取器和模态判别器以对抗式的方式相互作用,通过模态特征提取器学习到更好的图文特征;
将所述图文特征作为哈希学习器的输入,利用哈希学习网络将更好的图文特征非线性的转换为二进制编码,即哈希码;
将待查询图像数据或文本数据映射到公共汉明空间,在公共汉明空间经过计算查询数据的二进制编码和初始数据的二进制编码之间进行相似度测量,对相似度测量结果进行排序,获得前K个跨模态检索的结果。
对成对的图文数据中的图像数据和文本数据分别提取初始特征包括:
对于图像数据采用在ImageNet上预训练好的ResNet-101网络模型提取初始特征,从pool5层提取的2048维的特征向量,映射到1024维特征,并将此作为图像数据的初始全局特征
P∈Rr×n,Pi=f(vi;θv);
对于文本数据,首先通过预处理得到词向量,然后将词向量作为双向长短期记忆神经网络的输入进行特征提取,并将其的输出作为文本数据的初始全局特征Q∈Rr×n,Qj=f(tj;θt)。
将图像数据的初始全局特征Pi和文本数据的初始全局特征Qj作为共享注意力模块的输入,利用具有sigmoid激活函数的全连接层来构建fmask函数,学习特征图中每个位置的掩码权重,图像数据的掩码权重Mi(v)和文本数据的掩码权重Mj(t)为:
Mi(v)=fmask(Pi)
Mj(t)=fmask(Qj)
全连接层用于学习特征的非线性变换,提取数据的语义信息;
sigmoid激活函数用于将图像数据的掩码权重Mi(v)和文本数据的掩码权重Mj(t)的值映射在[0,1]范围内;
将图像数据的掩码权重Mi(v)与图像数据的初始全局特征Pi作内积操作,然后将内积得到的值与图像数据的初始全局特征Pi作和操作,最终得到图像的激活输出Hi(v);
将文本数据的掩码权重Mj(t)与文本数据的初始全局特征Qj作内积操作;然后将内积得到的值与文本数据的初始全局特征Qj作和操作,最终得到文本的激活输出Hj(t);
内积层的参数对于两个模态样本是共享的,图像的激活函数输出Hi(v)和文本的激活输出Hj(t)为:
Hi(v)=(1+Mi(v))(Pi)
Hj(t)=(1+Mj(t))(Qj)
将图像的激活函数输出Hi(v)和文本的激活输出Hj(t)分别输入到一个全连接层,得到图像数据的最终特征表示和文本数据的最终特征表示
利用模态判别器判断所述图文特征是图像特征还是文本特征包括:
利用一个三层的前馈神经网络对上述图像数据和文本数据的最终表示进行模态判别,模态判别器的输出即代表输入特征的模态,其中1代表的是图像数据特征,0代表的是文本数据特征;
模态判别器用于正确区分样本的模态,即输入的样本特征属于图像样本特征还是文本样本特征,图像样本特征和文本样本特征的差异为相应的损失,损失越小,则图像样本特征和文本样本特征差异越大。
模态判别器包括一个三层的前馈神经网络,模态判别器的输出为:
D∈Rn,Di=D(yi;θD)∈{0,1}
其中yi表示投影的图像特征或文本特征,θD为参数,若Di为1,代表将投影的特征判别为图像数据特征,反之,若Di为0,代表将投影的特征判别为文本数据特征;
利用似然函数表示yi和li之间的关系,
其中表示图像或文本成为图像特征的概率,li为每个图像-文本对的真实模态标签;图像特征和文本特征的差异为相应的损失,损失越小,则图像特征和文本特征差异越大,判别损失函数为:
其中n为跨模态数据集中的图像-文本对数量,θD为模态判别器的参数。
将所述图文特征作为哈希学习器的输入,利用哈希学习网络将更好的图文特征非线性的转换为二进制编码包括:
将更好的图文特征一起形成具有两个模态的所有特征表示的集合;
将所有特征表示的集合作为哈希学习网络的输入,哈希学习网络由三个全连接层组成,基于前两个全连接层计算得到二进制编码;
哈希学习网络利用具有语义监督的损失函数确保所生成的二进制编码与初始数据之间的语义关系。
哈希学习网络包括三个全连接层,二进制编码的计算基于前两个全连接层,通过最小化下式来学习二进制编码:
s.t.B∈{-1,1}r×2n
其中,B={b1,b2,···,b2n}是数据样本的二进制编码,n为跨模态数据集中的图像-文本对数量,Sh为二进制编码学习中的成对相似性,a为二进制编码的长度;
上式确保所学习的二进制编码应接近成对相似性Sh,等价为:
s.t.B∈{-1,1}r×2n
其中,M={m1,m2,···,m2n}为哈希学习中第二层全连接的值;
基于非对称松弛策略,进一步减小量化误差,强制二进制编码B与特征相似,并最小化特征与成对相似性矩阵Sh之间的差异;
哈希学习网络的目标函数为:
s.t.B∈{-1,1}r×2n
其中,是独立项,/>是平衡项,α1,α2,α3是超参数,α1为控制二进制编码离散约束的超参数,α2为控制二进制编码独立性的超参数,α3为控制二进制编码平衡性的超参数,θh为哈希学习网络的参数;
最终,总的目标函数可以表示为:
其中,β,γ,δ是超参数,θv,θt分别是图像特征提取网络和文本特征提取网络的参数,θD为模态判别器的参数,θh为哈希学习网络的参数。
将图像数据和文本数据映射到公共汉明空间,在公共汉明空间经过计算查询数据的二进制编码和初始数据的二进制编码之间进行相似度测量,对相似度测量结果进行排序,获得前K个跨模态检索的结果包括:
待查询文本检索图像,将待查询文本经过跨模态检索模型将其转换为二进制编码,得到的二进制编码与公共汉明空间里的二进制编码进行距离计算并排序,最终得到排名前K个的图像检索结果;
待查询图像检索文本,将待查询图像经过跨模态检索模型将其转换为二进制编码,得到的二进制编码与公共汉明空间里的二进制编码进行距离计算并排序,最终得到排名前K个的文本检索结果。
另外提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,所述处理器执行程序时能实现本发明所述的跨模态检索方法。
本发明同时提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的跨模态检索方法。
与现有跨模态方法相比,本发明至少具有以下优点:
利用深度学习提取的模态特征有更强的表达能力,对数据集的表达更高效和准确,所提取的图像特征鲁棒性更强,泛化能力更好;利用共享注意力模块将特征嵌入到同一空间中,可以减小异质性差距,提取语义特征,关注相关信息,忽略不相关信息,产生更多的辨别特征;利用模态判别器区分数据类型,当其无法区分数据类型时,说明不同模态数据之间的异质性差距被最小化;利用跨模态哈希学习方法,将不同模态特征转化为二进制编码,实现快速准确的检索,在一定程度上提升了跨模态检索方法的质量和效率。
进一步的,对图像数据和文本数据分别利用不同的神经网络进行初始特征提取时,利用双向长短期记忆网络的长短期记忆功能可以解决梯度爆炸问题,保留模态内的语义一致性;双向长短期记忆网络还能够关注到上下文信息和丰富的语义信息,从而充分提取到文本数据的语义特征。
附图说明
图1是新型跨模态检索方法结构示意图。
图2是新型跨模态检索方法示意图。
图3是共享注意力模块示意图。
图4是新型跨模态检索流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,基于本发明中的实施例,本领域普通技术人员在没有做出创造性技术方案前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于注意力网络对抗哈希的跨模态检索方法,包括以下步骤:
对成对的图文数据中的图像数据和文本数据提取初始特征;
对初始特征学习掩码权重,获得用于检索任务的高质量的图文特征;具体的,将图像数据的初始全局特征和文本数据的初始全局特征作为共享注意力模块的输入,经过注意力模块处理,从而获得图像数据和文本数据的激活输出;将图像数据和文本数据的激活输出送到一个全连接层,分别得到图像数据和文本数据的最终特征表示;
基于所述高质量的图文特征,利用模态判别器判断所述图文特征是图像特征还是文本特征,模态特征提取器和模态判别器以对抗式的方式相互作用,通过模态特征提取器学习到更好的图文特征;
将所述图文特征作为哈希学习器的输入,利用哈希学习网络将更好的图文特征非线性的转换为二进制编码,即哈希码;
将待查询图像数据或文本数据映射到公共汉明空间,在公共汉明空间经过计算查询数据的二进制编码和初始数据的二进制编码之间进行相似度测量,对相似度测量结果进行排序,获得前K个跨模态检索的结果。
图1是本发明所述跨模态检索基于跨模态检索模型,跨模态检索模型结构示意图,具体说明如下:
跨模态检索模型包括三个部分:
第一部分,特征提取器首先用不同的神经网络对图像和文本进行初始的特征提取,然后将提取的特征输入到共享注意力模块,获得带有注意力的图像特征和文本特征,具体如下:
对于图像数据采用在ImageNet上预训练好的ResNet-101网络模型提取初始特征,从pool5层提取的2048维的特征向量,映射到1024维特征,并将此作为图像数据的初始全局特征P∈Rr×n,Pi=f(vi;θv);
对于文本数据,首先通过预处理得到词向量,然后将词向量作为双向长短期记忆神经网络的输入进行特征提取,并将其的输出作为文本数据的初始全局特征Q∈Rr×n,Qj=f(tj;θt);
将图像数据的初始全局特征和文本数据的初始全局特征作为共享注意力模块的输入,经过注意力模块,从而获得图像数据和文本数据的激活输出;
将上述的图像数据和文本数据的激活输出送到一个全连接层,分别得到图像数据和文本数据的最终特征表示。
第二部分,模态判别器,用于对通过特征提取器得到的带有注意力的图像特征和文本特征进行模态判别,并以一种对抗性的方式促使特征提取器学习到更好的图文特征,具体如下:
利用一个三层的前馈神经网络对上述图像数据和文本数据的最终表示进行模态判别,模态判别器的输出即代表输入特征的模态,其中1代表的是图像数据特征,0代表的是文本数据特征;
模态判别器的目的是为了正确区分样本的模态,即输入的样本特征属于图像样本特征还是文本样本特征,图像样本特征和文本样本特征的差异为相应的损失,损失越小,则说明二者差异越大;
模态特征提取器希望模态判别器无法区分输入样本特征的模态,二者以对抗式的方式相互作用,从而适应分布变化,促使模态特征提取器学习到更好的图文特征。
第三部分,哈希学习器,用于将通过特征提取器得到的带有注意力的图像最终特征表示和文本最终特征表示非线性的转换为二进制编码,并利用具有语义监督的损失函数确保所生成的二进制编码与初始数据之间的语义关系,具体如下:
将上述的图像数据最终特征表示和文本数据的最终特征表示一起形成具有两个模态的所有特征表示的集合;
将所有特征表示的集合作为哈希学习网络的输入,哈希学习网络由三个全连接层组成,二进制编码的计算基于前两个全连接层,最终得到了二进制编码;
哈希学习网络利用具有语义监督的损失函数确保所生成的二进制编码与初始数据之间的语义关系。
图2是本发明跨模态检索方法示意图,现对本发明的实施方式进行详细说明。
步骤1,将成对的图文数据作为跨模态检索模型的输入。
步骤2,对图像数据和文本数据分别利用不同的神经网络进行初始特征提取,具体如下:
步骤2.1,对于图像数据采用在ImageNet上预训练好的ResNet-101网络模型提取初始特征,从pool5层提取的2048维的特征向量,映射到1024维特征,并将此作为图像数据的初始全局特征P∈Rr×n,Pi=f(vi;θv);
ResNet-101网络模型对于局部像素有很强的表达能力,能够充分利用图像的二维结构和相邻像素之间的相关性。
在ImageNet数据集上预训练好的残差网络ResNet-101在图像特征提取方面具有优秀的表现力。
步骤2.2,对于文本数据,首先通过预处理得到词向量,然后将词向量作为双向长短期记忆神经网络的输入进行特征提取,并将其的输出作为文本数据的初始全局特征Q∈Rr×n,Qj=f(tj;θt)。
首先利用word2vec方法提取词向量,将词向量映射为一个d维向量X。
然后,将每个单词嵌入到词向量空间中,按照前后顺序输入到双向长短期记忆网络中,对文本向量的特征及语义进行提取,过程表示如下:
其中et表示嵌入到词向量空间的词向量,和/>分别表示前向和后向LSTM在步长t时的隐藏状态,在每个时间步长t处添加这两个隐藏状态,即/>构造了一组文本特征向量。
最后,通过平均池化得到文本的初始全局特征Q。
利用双向长短期记忆网络的长短期记忆功能可以解决梯度爆炸问题,保留模态内的语义一致性。
双向长短期记忆网络还能够关注到上下文信息和丰富的语义信息,从而充分提取到文本数据的语义特征。
步骤3,将步骤2提取的初始特征作为共享注意力模块的输入,利用共享注意力模块对初始特征学习掩码权重,获得用于检索任务的高质量的图文特征,具体如下:
将图像数据的初始全局特征Pi和文本数据的初始全局特征Qj作为共享注意力模块的输入,利用具有sigmoid激活函数的全连接层来构建fmask函数,学习特征图中每个位置的掩码权重,图像数据的掩码权重Mi(v)和文本数据的掩码权重Mj(t)定义为:
Mi(v)=fmask(Pi)
Mj(t)=fmask(Qj)
全连接层用于学习特征的非线性变换,提取数据的语义信息。
sigmoid激活函数用于将图像数据的掩码权重Mi(v)和文本数据的掩码权重Mj(t)的值映射在[0,1]范围内;
将图像数据的掩码权重Mi(v)与图像数据的初始全局特征Pi作内积操作,然后将内积得到的值与图像数据的初始全局特征Pi作和操作,最终得到图像的激活输出Hi(v);
将文本数据的掩码权重Mj(t)与文本数据的初始全局特征Qj作内积操作;然后将内积得到的值与文本数据的初始全局特征Qj作和操作,最终得到文本的激活输出Hj(t);
内积层的参数对于两个模态样本是共享的,图像的激活函数输出Hi(v)和文本的激活输出Hj(t)定义为:
Hi(v)=(1+Mi(v))(Pi)
Hj(t)=(1+Mj(t))(Qj)
将图像的激活函数输出Hi(v)和文本的激活输出Hj(t)分别输入到一个全连接层,得到图像数据的最终特征表示和文本数据的最终特征表示
步骤4,将步骤3获得的图文特征作为模态判别器的输入,利用模态判别器判断输入的特征是图像特征还是文本特征。
利用一个三层的前馈神经网络对上述图像数据和文本数据的最终表示进行模态判别,模态判别器的输出即代表输入特征的模态,其中1代表的是图像数据特征,0代表的是文本数据特征;
模态判别器用于正确区分输入的样本特征属于图像样本特征还是文本样本特征,图像样本特征和文本样本特征的差异为相应的损失,损失越小,则图像样本特征和文本样本特征的差异越大。
步骤5,模态特征提取器希望模态判别器无法区分输入样本特征的模态,二者以对抗式的方式相互作用,促使模态特征提取器学习到更好的图文特征,具体如下:
模态判别器由一个三层的前馈神经网络组成,模态判别器的输出为:
D∈Rn,Di=D(yi;θD)∈{0,1}
其中yi表示投影的图像特征或文本特征,θD为模态判别器的参数,若Di为1,代表将投影的特征判别为图像数据特征,反之,若Di为0,代表将投影的特征判别为文本数据特征;
利用似然函数表示特征yi和标签li之间的关系,
其中表示图像或文本成为图像特征的概率,li为每个图像-文本对的真实模态标签。
图像特征和文本特征的差异为相应的损失,损失越小,则说明图像特征和文本特征差异越大,因此,判别损失函数为:
其中n为跨模态数据集中的图像-文本对数量,θD为模态判别器的参数。
步骤6,将步骤3获得最终图文特征同时也作为哈希学习器的输入,利用哈希学习网络将成对的样本非线性的转换为二进制编码,即哈希码,具体如下:
哈希学习网络由三个全连接层组成,二进制编码的计算基于前两个全连接层,通过最小化下式来学习二进制编码:
s.t.B∈{-1,1}r×2n
其中,B={b1,b2,···,b2n}是数据样本的二进制编码,n为跨模态数据集中的图像-文本对数量,Sh为二进制编码学习中的成对相似性,a为二进制编码的长度。
上式确保了所学习的二进制编码应接近成对相似性Sh,从而可以更好的学习二进制编码。
上式也等价为:
s.t.B∈{-1,1}r×2n
其中,M={m1,m2,···,m2n}为哈希学习中第二层全连接的值。
基于非对称松弛策略,进一步减小量化误差,强制二进制编码B与特征相似,并最小化特征与成对相似性矩阵Sh之间的差异。
因此,哈希学习网络的目标函数为:
s.t.B∈{-1,1}r×2n
其中,是独立项,/>是平衡项,α1,α2,α3是超参数,α1为控制二进制编码离散约束的超参数,α2为控制二进制编码独立性的超参数,α3为控制二进制编码平衡性的超参数,θh为哈希学习网络的参数。
最终,总的目标函数可以表示为:
其中,β,γ,δ是超参数,θv,θt分别是图像特征提取网络和文本特征提取网络的参数,θD为模态判别器的参数,θh为哈希学习网络的参数。
步骤7,跨模态检索模型分别将待查询图像数据和文本数据映射到公共汉明空间,在公共汉明空间经过计算查询数据的二进制编码和初始数据的二进制编码之间进行相似度测量,获得前K个跨模态检索的结果。具体如下:
步骤7.1,待查询文本检索图像,将待查询文本经过跨模态检索模型将其转换为二进制编码,得到的二进制编码与公共汉明空间里的二进制编码进行距离计算并排序,最终得到排名前K个的图像检索结果。
步骤7.2,待查询图像检索文本,将待查询图像经过跨模态检索模型将其转换为二进制编码,得到的二进制编码与公共汉明空间里的二进制编码进行距离计算并排序,最终得到排名前K个的文本检索结果。
综上所述,本发明提出了一种基于注意力网络对抗哈希的跨模态检索方法及设备,方法包括:特征提取步骤:获得图像-文本对数据,利用ResNet-101网络提取图像数据的初始全局特征,利用双向长短期记忆神经网络提取文本数据的初始全局特征,将图像数据的初始全局特征和文本数据的初始全局特征分别经过共享注意力模块处理,获得图像数据和文本数据的最终特征表示;模态判别步骤:以对抗式的方式和特征提取器相互作用,从而适应分布变化,促使模态特征提取器学习到更好的图文特征;哈希学习步骤:将图像数据和文本数据的最终特征表示转换为二进制编码,成功将其特征映射到公共汉明空间中,进行跨模态检索,获得前K个跨模态检索的结果。本发明将对抗网络与哈希学习网络结合,既利用了对抗网络学习促使特征提取器学习更好的图文特征表示,同时也利用了哈希快速检索的特性,从而实现跨模态检索。
本发明还可以提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,处理器执行计算机可执行程序时能实现本发明所述的基于注意力网络对抗哈希的跨模态检索方法。
另一方面,本发明还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于注意力网络对抗哈希的跨模态检索方法。
所述计算机设备可以采用笔记本电脑、桌面型计算机或工作站。
对于本发明所述处理器,可以是中央处理器(CPU)、图形处理器(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。
对于本发明所述存储器,可以是笔记本电脑、桌面型计算机或工作站的内部存储单元,如内存、硬盘;也可以采用外部存储单元,如移动硬盘、闪存卡。
计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。
最后说明的是,以上所述,仅为说明本发明的具体实施方式,但本发明创造的保护范围并不局限于此,熟悉本技术领域的技术人员应该明白,在本发明技术方案的基础上,根据本发明创造的技术方案及其发明构思做出的修改或变形,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于注意力网络对抗哈希的跨模态检索方法,其特征在于,包括以下步骤:
对成对的图文数据中的图像数据和文本数据提取初始特征;
对初始特征学习掩码权重,获得用于检索任务的高质量的图文特征;具体的,将图像数据的初始全局特征和文本数据的初始全局特征作为共享注意力模块的输入,经过注意力模块处理,从而获得图像数据和文本数据的激活输出;将图像数据和文本数据的激活输出送到一个全连接层,分别得到图像数据和文本数据的最终特征表示;
基于所述高质量的图文特征,利用模态判别器判断所述图文特征是图像特征还是文本特征,模态特征提取器和模态判别器以对抗式的方式相互作用,通过模态特征提取器学习到更好的图文特征;
将所述图文特征作为哈希学习器的输入,利用哈希学习网络将更好的图文特征非线性的转换为二进制编码,即哈希码;
将待查询图像数据或文本数据映射到公共汉明空间,在公共汉明空间经过计算查询数据的二进制编码和初始数据的二进制编码之间进行相似度测量,对相似度测量结果进行排序,获得前K个跨模态检索的结果。
2.根据权利要求1所述的基于注意力网络对抗哈希的跨模态检索方法,其特征在于,对成对的图文数据中的图像数据和文本数据分别提取初始特征包括:
对于图像数据采用在ImageNet上预训练好的ResNet-101网络模型提取初始特征,从pool5层提取的2048维的特征向量,映射到1024维特征,并将此作为图像数据的初始全局特征
P∈Rr×n,Pi=f(vi;θv);
对于文本数据,首先通过预处理得到词向量,然后将词向量作为双向长短期记忆神经网络的输入进行特征提取,并将其的输出作为文本数据的初始全局特征Q∈Rr×n,Qj=f(tj;θt)。
3.根据权利要求1所述的基于注意力网络对抗哈希的跨模态检索方法,其特征在于,将图像数据的初始全局特征Pi和文本数据的初始全局特征Qj作为共享注意力模块的输入,利用具有sigmoid激活函数的全连接层来构建fmask函数,学习特征图中每个位置的掩码权重,图像数据的掩码权重Mi(v)和文本数据的掩码权重Mj(t)为:
Mi(v)=fmask(Pi)
Mj(t)=fmask(Qj)
全连接层用于学习特征的非线性变换,提取数据的语义信息;
sigmoid激活函数用于将图像数据的掩码权重Mi(v)和文本数据的掩码权重Mj(t)的值映射在[0,1]范围内;
将图像数据的掩码权重Mi(v)与图像数据的初始全局特征Pi作内积操作,然后将内积得到的值与图像数据的初始全局特征Pi作和操作,最终得到图像的激活输出Hi(v);
将文本数据的掩码权重Mj(t)与文本数据的初始全局特征Qj作内积操作;然后将内积得到的值与文本数据的初始全局特征Qj作和操作,最终得到文本的激活输出Hj(t);
内积层的参数对于两个模态样本是共享的,图像的激活函数输出Hi(v)和文本的激活输出Hj(t)为:
Hi(v)=(1+Mi(v))(Pi)
Hj(t)=(1+Mj(t))(Qj)
将图像的激活函数输出Hi(v)和文本的激活输出Hj(t)分别输入到一个全连接层,得到图像数据的最终特征表示和文本数据的最终特征表示/>
4.根据权利要求1所述的基于注意力网络对抗哈希的跨模态检索方法,其特征在于,利用模态判别器判断所述图文特征是图像特征还是文本特征包括:
利用一个三层的前馈神经网络对上述图像数据和文本数据的最终表示进行模态判别,模态判别器的输出即代表输入特征的模态,其中1代表的是图像数据特征,0代表的是文本数据特征;
模态判别器用于正确区分样本的模态,即输入的样本特征属于图像样本特征还是文本样本特征,图像样本特征和文本样本特征的差异为相应的损失,损失越小,则图像样本特征和文本样本特征差异越大。
5.根据权利要求1所述的基于注意力网络对抗哈希的跨模态检索方法,其特征在于,模态判别器包括一个三层的前馈神经网络,模态判别器的输出为:
D∈Rn,Di=D(yi;θD)∈{0,1}
其中yi表示投影的图像特征或文本特征,θD为参数,若Di为1,代表将投影的特征判别为图像数据特征,反之,若Di为0,代表将投影的特征判别为文本数据特征;
利用似然函数表示yi和li之间的关系,
其中表示图像或文本成为图像特征的概率,li为每个图像-文本对的真实模态标签;图像特征和文本特征的差异为相应的损失,损失越小,则图像特征和文本特征的差异越大,判别损失函数为:
其中n为跨模态数据集中的图像-文本对数量,θD为模态判别器的参数。
6.根据权利要求1所述的基于注意力网络对抗哈希的跨模态检索方法,其特征在于,将所述图文特征作为哈希学习器的输入,利用哈希学习网络将更好的图文特征非线性的转换为二进制编码包括:
将更好的图文特征一起形成具有两个模态的所有特征表示的集合;
将所有特征表示的集合作为哈希学习网络的输入,哈希学习网络由三个全连接层组成,基于前两个全连接层计算得到二进制编码;
哈希学习网络利用具有语义监督的损失函数确保所生成的二进制编码与初始数据之间的语义关系。
7.根据权利要求6所述的基于注意力网络对抗哈希的跨模态检索方法,其特征在于,哈希学习网络包括三个全连接层,二进制编码的计算基于前两个全连接层,通过最小化下式来学习二进制编码:
s.t.B∈{-1,1}r×2n
其中,B={b1,b2,···,b2n}是数据样本的二进制编码,n为跨模态数据集中的图像-文本对数量,Sh为二进制编码学习中的成对相似性,a为二进制编码的长度;
上式确保所学习的二进制编码应接近成对相似性Sh,等价为:
s.t.B∈{-1,1}r×2n
其中,M={m1,m2,···,m2n}为哈希学习中第二层全连接的值;
基于非对称松弛策略,进一步减小量化误差,强制二进制编码B与特征相似,并最小化特征与成对相似性矩阵Sh之间的差异;
哈希学习网络的目标函数为:
s.t.B∈{-1,1}r×2n
其中,是独立项,/>是平衡项,α1,α2,α3是超参数,α1为控制二进制编码离散约束的超参数,α2为控制二进制编码独立性的超参数,α3为控制二进制编码平衡性的超参数,θh为哈希学习网络的参数;
最终,总的目标函数可以表示为:
其中,β,γ,δ是超参数,θv,θt分别是图像特征提取网络和文本特征提取网络的参数,θD为模态判别器的参数,θh为哈希学习网络的参数。
8.根据权利要求1所述的基于注意力网络对抗哈希的跨模态检索方法,其特征在于,将图像数据和文本数据映射到公共汉明空间,在公共汉明空间经过计算查询数据的二进制编码和初始数据的二进制编码之间进行相似度测量,对相似度测量结果进行排序,获得前K个跨模态检索的结果包括:
待查询文本检索图像,将待查询文本经过跨模态检索模型将其转换为二进制编码,得到的二进制编码与公共汉明空间里的二进制编码进行距离计算并排序,最终得到排名前K个的图像检索结果;
待查询图像检索文本,将待查询图像经过跨模态检索模型将其转换为二进制编码,得到的二进制编码与公共汉明空间里的二进制编码进行距离计算并排序,最终得到排名前K个的文本检索结果。
9.一种计算机设备,其特征在于,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,所述处理器执行程序时能实现权利要求1-8任一项所述的跨模态检索方法。
10.一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现权利要求1-8任一项所述的跨模态检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310722310.3A CN116737877A (zh) | 2023-06-16 | 2023-06-16 | 基于注意力网络对抗哈希的跨模态检索方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310722310.3A CN116737877A (zh) | 2023-06-16 | 2023-06-16 | 基于注意力网络对抗哈希的跨模态检索方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116737877A true CN116737877A (zh) | 2023-09-12 |
Family
ID=87913009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310722310.3A Pending CN116737877A (zh) | 2023-06-16 | 2023-06-16 | 基于注意力网络对抗哈希的跨模态检索方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116737877A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117851444A (zh) * | 2024-03-07 | 2024-04-09 | 北京谷器数据科技有限公司 | 一种基于语义理解下的高级搜索方法 |
CN118469430A (zh) * | 2024-05-06 | 2024-08-09 | 中航材利顿(北京)航空科技有限公司 | 基于物联网的航空器材供应链跟踪方法及系统 |
-
2023
- 2023-06-16 CN CN202310722310.3A patent/CN116737877A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117851444A (zh) * | 2024-03-07 | 2024-04-09 | 北京谷器数据科技有限公司 | 一种基于语义理解下的高级搜索方法 |
CN117851444B (zh) * | 2024-03-07 | 2024-06-04 | 北京谷器数据科技有限公司 | 一种基于语义理解下的高级搜索方法 |
CN118469430A (zh) * | 2024-05-06 | 2024-08-09 | 中航材利顿(北京)航空科技有限公司 | 基于物联网的航空器材供应链跟踪方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021143800A1 (en) | System and method for semantic analysis of multimedia data using attention-based fusion network | |
Lai et al. | Instance-aware hashing for multi-label image retrieval | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN110222140A (zh) | 一种基于对抗学习和非对称哈希的跨模态检索方法 | |
CN112241468A (zh) | 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质 | |
CN116737877A (zh) | 基于注意力网络对抗哈希的跨模态检索方法及设备 | |
CN113657450B (zh) | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 | |
CN113076465A (zh) | 一种基于深度哈希的通用跨模态检索模型 | |
CN116431847B (zh) | 基于多重对比和双路对抗的跨模态哈希检索方法及设备 | |
CN111461175B (zh) | 自注意与协同注意机制的标签推荐模型构建方法及装置 | |
CN114003758B (zh) | 图像检索模型的训练方法和装置以及检索方法和装置 | |
CN113094534B (zh) | 一种基于深度学习的多模态图文推荐方法及设备 | |
CN114896434B (zh) | 一种基于中心相似度学习的哈希码生成方法及装置 | |
CN112860930A (zh) | 一种基于层次化相似性学习的文本到商品图像的检索方法 | |
CN116561305A (zh) | 基于多模态和transformer的假新闻检测方法 | |
Gao et al. | A hierarchical recurrent approach to predict scene graphs from a visual‐attention‐oriented perspective | |
CN113656700A (zh) | 基于多相似度一致矩阵分解的哈希检索方法 | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
CN118051630A (zh) | 一种基于多模态共识感知和动量对比的图文检索系统及其方法 | |
Perdana et al. | Instance-based deep transfer learning on cross-domain image captioning | |
CN112199531A (zh) | 一种基于哈希算法和邻域图的跨模态检索方法及装置 | |
CN116756363A (zh) | 一种由信息量引导的强相关性无监督跨模态检索方法 | |
Bibi et al. | Deep features optimization based on a transfer learning, genetic algorithm, and extreme learning machine for robust content-based image retrieval | |
CN111984800B (zh) | 基于字典对学习的哈希跨模态信息检索方法 | |
CN113641790A (zh) | 一种基于区分表示深度哈希的跨模态检索模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |