CN115757711A - 深度跨模态哈希检索方法、装置和电子设备 - Google Patents
深度跨模态哈希检索方法、装置和电子设备 Download PDFInfo
- Publication number
- CN115757711A CN115757711A CN202211275647.6A CN202211275647A CN115757711A CN 115757711 A CN115757711 A CN 115757711A CN 202211275647 A CN202211275647 A CN 202211275647A CN 115757711 A CN115757711 A CN 115757711A
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- features
- retrieval
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种深度跨模态哈希检索方法、装置和电子设备。方法包括:获取待检索图像或待检索文本;确定检索结果:输入待检索图像或待检索文本至深度跨模态哈希检索模型,获取深度跨模态哈希检索模型的检索结果;其中,深度跨模态哈希检索模型基于历史文本的语义特征引导的注意力机制对待检索图像进行特征提取的图像特征,进行跨模态哈希检索;图像特征是与语义特征语义关联的带注意力的图像特征;深度跨模态哈希检索模型是基于样本图像、样本文本、样本文本的语义特征、样本图像和样本文本的样本检索结果训练得到的。本发明用以解决现有技术中无法保证检索的精确度,以及无法准确地定位语义区域和不能充分探索语义区域之间的相互作用的缺陷。
Description
技术领域
本发明涉及跨模态图文检索技术领域,尤其涉及一种深度跨模态哈希检索方法、装置和电子设备。
背景技术
哈希以其低存储成本和快速检索速度而受到青睐,由于其在大规模多媒体数据中的有效性而引起了越来越多的关注。跨模态哈希的主要目标是学习表示多种模态的紧凑二进制码,同时保持模态内相似性和模态间相似性。跨模态哈希方法将图像(高维)或文本数据通过特征提取器提取特征,此过程把模态特征中一些不易被发现的信息挖掘出来,以此来学习它们的哈希变换,并将这些数据信息投影到一个由哈希码(低维)组成的二值空间,然后在这个二值空间中度量其相似性并实现它们之间的相互检索。
近年来,随着深度学习在多个领域的蓬勃发展,利用深度学习提取的特征比传统的方法具有更强的表达能力。深度跨模态哈希方法,将特征学习和哈希代码学习集成在一起,从而形成了一个端到端的学习架构,直接通过离散优化来生成二进制编码,在许多基准测试集上产生出色的性能。深度学习的方法不仅提高了哈希码的准确率,在检索精度和准确性方面也有所提升。
目前在深度跨模态哈希检索这方面的不足:1)深度神经网络提取特征的强大能力可以有效地将模态的特征和哈希表示学习集成到端到端框架中,然而在现有的深度跨模态哈希方法的特征提取中,基于全局表示对齐的方法无法定位图像和文本中有语义意义的部分,导致在保证检索速度的同时无法保证检索的精确度。2)目前通常采用目标定位技术或诉诸视觉注意网络的方法来定位语义区域。虽然这两类方法已经取得了一定的进展,然而,目标定位技术需要搜索大量的类别无关和冗余的信息,很难集成到深度神经网络中进行端到端训练,而视觉注意网络由于缺乏监督或引导,只能粗略地定位目标区域。由于缺乏部分级的监督或语义指导,目前的方法无法准确地定位语义区域。此外,他们不能充分探索语义区域之间的相互作用。
发明内容
本发明提供一种深度跨模态哈希检索方法、装置和电子设备,用以解决现有技术中无法保证检索的精确度,以及无法准确地定位语义区域和不能充分探索语义区域之间的相互作用的缺陷。
本发明提供一种深度跨模态哈希检索方法,包括:
获取待检索图像或待检索文本;
确定检索结果:输入所述待检索图像或所述待检索文本至深度跨模态哈希检索模型,获取所述深度跨模态哈希检索模型的检索结果;
其中,所述深度跨模态哈希检索模型基于历史文本的语义特征引导的注意力机制对所述待检索图像进行特征提取的图像特征,进行跨模态哈希检索;所述图像特征是与所述语义特征语义关联的带注意力的图像特征;
所述深度跨模态哈希检索模型是基于样本图像、样本文本、样本文本的语义特征、所述样本图像和样本文本的样本检索结果训练得到的。
本发明还提供一种深度跨模态哈希检索装置,包括:
获取模块,用于获取待检索图像或待检索文本;
检索结果确定模块,用于确定检索结果:输入所述待检索图像或所述待检索文本至深度跨模态哈希检索模型,获取所述深度跨模态哈希检索模型的检索结果;
其中,所述深度跨模态哈希检索模型基于历史文本的语义特征引导的注意力机制对所述待检索图像进行特征提取的图像特征,进行跨模态哈希检索;所述图像特征是与所述语义特征语义关联的带注意力的图像特征;
所述深度跨模态哈希检索模型是基于样本图像、样本文本、样本文本的语义特征、所述样本图像和样本文本的样本检索结果训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述深度跨模态哈希检索方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述深度跨模态哈希检索方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述深度跨模态哈希检索方法。
本发明提供的深度跨模态哈希检索方法、装置和电子设备,通过结合历史文本的语义特征引导的注意力机制对所述待检索图像进行特征提取的图像特征,进行跨模态哈希检索,实现对待检索图像局部级别的特征进行提取和学习,提高检索的精确度。并且取得的图像特征是与所述历史文本语义特征语义关联的带注意力的图像特征。通过与所述语义特征语义关联的带注意力的图像特征,本发明利用历史文本的语义特征来指导学习相关的图像特征,这些图像特征更多地关注相应的语义区域,实现准确地定位语义区域,以及充分探索语义区域之间的相互作用。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的深度跨模态哈希检索方法的流程示意图之一;
图2是本发明提供的深度跨模态哈希检索方法的流程示意图之二;
图3是本发明提供的图卷积网络层的结构示意图;
图4是本发明提供的深度跨模态哈希检索方法的流程示意图之三;
图5是本发明提供的深度跨模态哈希检索方法的流程示意图之四;
图6是本发明提供的预处理层及特征提取层对历史文本、待检索文本进行预处理得到的词向量进行特征提取得到文本粗粒度特征的示意图;
图7是本发明提供的深度跨模态哈希检索装置的结构示意图;
图8是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图6描述本发明的深度跨模态哈希检索方法。
请参照图1,本发明提供一种深度跨模态哈希检索方法,包括:
步骤200、获取待检索图像或待检索文本;
其中,电子设备获取的待检索图像可以是各种通过数码技术生成的数字图像。待检索文本可以是用中文、英文或其他语言描述的单字或句子。例如待检索图像可以是通过终端设备拍摄的小动物的图片。待检索文本可以是“汽车”的字样。
步骤300、确定检索结果:输入所述待检索图像或所述待检索文本至深度跨模态哈希检索模型,获取所述深度跨模态哈希检索模型的检索结果;
其中,所述深度跨模态哈希检索模型基于历史文本的语义特征引导的注意力机制对所述待检索图像进行特征提取的图像特征,进行跨模态哈希检索;所述图像特征是与所述语义特征语义关联的带注意力的图像特征;
所述深度跨模态哈希检索模型是基于样本图像、样本文本、样本文本的语义特征、所述样本图像和样本文本的样本检索结果训练得到的。
电子设备输入待检索图像或待检索文本至深度跨模态哈希检索模型。深度跨模态哈希检索模型结合历史文本的语义特征引导的注意力机制对所述待检索图像进行特征提取的图像特征,再通过带有注意的图像特征获得二进制哈希码,进而基于二进制哈希码进行跨模态哈希检索,实现对待检索图像局部级别的特征进行提取和学习,提高检索的精确度。并且取得的图像特征是与所述历史文本语义特征语义关联的带注意力的图像特征。通过与所述语义特征语义关联的带注意力的图像特征,本发明利用历史文本的语义特征来指导学习相关的图像特征,这些图像特征更多地关注相应的语义区域,实现准确地定位语义区域,以及充分探索语义区域之间的相互作用。
本发明提供的深度跨模态哈希检索方法、装置和电子设备,通过结合历史文本的语义特征引导的注意力机制对所述待检索图像进行特征提取的图像特征,进行跨模态哈希检索,实现对待检索图像局部级别的特征进行提取和学习,提高检索的精确度。并且取得的图像特征是与所述历史文本语义特征语义关联的带注意力的图像特征。通过与所述语义特征语义关联的带注意力的图像特征,本发明利用历史文本的语义特征来指导学习相关的图像特征,这些图像特征更多地关注相应的语义区域,实现准确地定位语义区域,以及充分探索语义区域之间的相互作用。
在本发明实施例的其他方面,请参照图2,所述深度跨模态哈希检索模型包括:预处理层及特征提取层、语义解耦层、图卷积网络层、哈希层以及检索层。
预处理层及特征提取层,用于对所述待检索图像进行预处理以及特征提取得到图像粗粒度特征;和/或用于对所述历史文本、所述待检索文本进行预处理得到的词向量进行特征提取得到文本粗粒度特征。
具体的,预处理层及特征提取层可用于将待检索图像的维度通过预处理调整为512×512,调整完后把它们输入到卷积神经网络中,并在卷积神经网络中调节合适的卷积范围和池化参数,利用平均池化操作提取到图像粗粒度特征。
同样的,本发明实施例首先用word2vec模型对所述历史文本或所述待检索文本进行向量化处理,其中词向量的维度size=100,将预训练的词向量初始化为词嵌入矩阵,利用词嵌入矩阵将输入的数据中的词转换为词向量,并嵌入到向量空间中,最后按顺序排列并输入到语言理解模型中,利用均值池化把粗粒度特征生成文本粗粒度特征T(1)。
语义解耦层,用于基于所述图像粗粒度特征和所述词向量进行低秩双线性池化融合,并基于注意力机制计算得到注意力权重;以及基于所述注意力权重对所述图像粗粒度特征进行加权平均池化,得到与所述词向量语义相关的特征向量;所述词向量作为所述语义特征。
具体的,本发明实施例将提取到的图像粗粒度特征和词向量进行低秩双线性池化融合,并利用注意力机制,计算得到注意力权重aL,wh,并通过softmax函数来保证训练过程中权重不会失衡。然后,对图像粗粒度特征进行加权平均池化,得到一个先验知识引导的语义特征相关的带有注意力的图像特征。
通过引入基于多模态的注意力机制的深度跨模态哈希检索,来对局部级别的特征进行提取和学习,提高检索的精度。
图卷积网络层用于基于图卷积网络所述特征向量进行节点更新,得到与所述词向量语义关联的带注意力的图像特征。
请参照图2和图3,电子设备将带有注意力的图像特征输入到图卷积网络进行节点更新,得到具有深层语义关联的图像特征I(1)。
具体的,由上面语义解耦层得到所有类别词向量对应的特征向量,我们将这些向量以图的形式关联起来,并引入图神经网络通过图传播消息,以探索它们之间的相互作用。我们首先引入图G={V,A},其中节点V∈{v0,v1,...,vL-1}表示类别,由fL可以得到矩阵Fin,边A∈{a00,a01,...,a(L-1)(L-1)}表示对应类别之间出现的概率。则该图卷积的邻接矩阵S∈RN ×N为:
Sij=φ(aij;θs);
其中,φ是对概率aij的非线性嵌入,φ具体实现为三层MLP,前两层带有ReLU和十个隐藏单元,θs为网络参数。则第1层图更新得到的特征矩阵Fl为:
Fl=ψ(SlFinW;θ);
其中ψ表示非线性变换。在统计标签共同出现概率的先验知识的指导下,通过图传播消息,探索节点交互。最终的全局特征是所有层次上特征集合的连接:
F=[F0,...,Fl]
通过利用图卷积网络更新节点信息,充分探索语义区域之间的相互作用,增强网络的可解释性,增强跨模态之间的语义关联。
哈希层,用于对所述文本粗粒度特征和/或所述图像特征进行哈希学习,得到所述文本粗粒度特征对应的第一哈希码和/或所述图像特征对应的第二哈希码。
具体的,将最终得到的图像特征以及文本粗粒度特征输入到哈希层中,通过学习哈希函数得到不同模态特征的二进制表示,如公式(1)、(2)所示:
HI=Sign(Tanh(w(I)I(1)+b(I))); 公式(1)
HT=Sign(Tanh(w(T)T(1)+b(T))); 公式(2)
其中w(I)和w(T)分别是图像或文本模态的网络参数,b(I)和b(T)是感知器的偏置项,HI和HT分别为图像和文本的哈希表示。Tanh()是一个激活函数。T(1)是文本粗粒度特征。I(1)是图像特征。
检索层,用于基于所述第一哈希码和/或所述第二哈希码进行跨模态检索,得到检索结果。
通过上述的哈希层我们得到了图像模态和文本模态各自的二进制哈希码表示。在进行跨模态检索时,将任意一个模态的样本作为查询对象。对于图像查询,将待查询图像输入到本发明实施例的深度跨模态哈希检索模型中,得到图像特征并转化为训练好的二进制哈希码的形式(即第一哈希码),并将哈希码输入到待检索的查询库中,计算该哈希码与检索库中哈希码的汉明距离,根据距离的大小顺序从小到大一次输出K个检索结果;对于文本查询,把待查询文本作为查询对象,通过本发明实施例的深度跨模态哈希检索模型的端到端的网络框架得到文本模态的哈希码(即第二哈希码),然后计算检索库中哈希码的汉明距离并排序,最终输出检索到的前K张图片。
本发明实施例结合历史文本的先验知识引导的注意力机制对局部细粒度的图像上下文特征进行提取,该特征表达了模态的局部关键信息,引入词向量的先验知识指导,通过这种多语义特征之间的关联方法来准确定位对象区域并利用图卷积网络更新节点信息,充分探索语义区域之间的相互作用,增强网络的可解释性,增强跨模态之间的语义关联。从而实现准确地定位语义区域,以及充分探索语义区域之间的相互作用。
在本发明实施例的其他方面,所述基于所述图像粗粒度特征和所述词向量进行低秩双线性池化融合,并基于注意力机制计算得到注意力权重,通过以下公式计算得到:
其中,XL表示词向量,tanh()是激活函数,P,U,V,b是可学习的参数,⊙为矩阵对应元素乘积运算,表示图像粗粒度特征的单个位置;表示图像粗粒度特征和词向量进行低秩双线性池化融合的融合结果;fa是注意力函数,由一个全连接层实现,aL,wh表示单个位置的注意力权重;
所述基于所述注意力权重对所述图像粗粒度特征进行加权平均池化,得到与所述词向量语义相关的特征向量,通过以下公式计算得到:
fL=∑w,haL,wh*I(g);
其中,I(g)表示图像粗粒度特征,fL表示特征向量。
具体的,我们将历史文本或待检索文本的语义词wL进行词向量提取,具体框架使用预先训练的GloVe模型提取一个ds维语义嵌入向量XL,此过程可由公式(3)表示:
XL=fg(wL); 公式(3)
然后,本发明实施例引入一种语义特征引导的注意力机制,该注意力机制结合了语义向量XL来引导更多地关注语义感知区域,从而学习与该语义向量相对应的特征向量。对于每个位置(w,h),我们首先使用低秩双线性池化方法融合相应的图像特征和语义向量XL,此过程可由公式(4)表示:
其中tanh()是一个激活函数,P,U,V,b是可学习的参数,⊙为矩阵对应元素乘积运算。然后,在语义向量XL的指导下计算一个注意力权重,此过程可由公式(5)表示:
其中fa是注意力函数,由一个全连接层实现。最后,我们对图像特征的所有位置进行加权平均池化,得到一个语义相关的特征向量,此过程可由公式(6)表示:
fL=∑w,haL,wh*I(g); 公式(6)
通过引入词向量的文本标签概率的先验知识指导,通过这种多语义特征之间的关联方法来准确定位语义区域,充分探索语义区域之间的相互作用。
在本发明实施例的其他方面,请参照图4和图5,深度跨模态哈希检索方法还包括步骤100、训练所述深度跨模态哈希检索模型的步骤。具体包括:
步骤110、通过预处理层及特征提取层对所述样本图像进行预处理以及特征提取得到样本图像粗粒度特征;和用于对所述样本文本进行预处理得到的样本词向量进行特征提取得到样本文本粗粒度特征。
具体的,本发明实施例用到的数据集是基准数据集,实验数据选取至少有20个文本标记的样本图像-样本文本对,一共得到了20015对数据,每对数据都用24类标签中的一个来标记。再通过预处理层及特征提取层对所述样本图像进行预处理以及特征提取得到样本图像粗粒度特征;和用于对所述样本文本进行预处理得到的样本词向量进行特征提取得到样本文本粗粒度特征。其中样本图像粗粒度特征的计算过程可参见上述图像粗粒度特征的计算过程,样本文本粗粒度特征的计算过程可参见上述文本粗粒度特征的计算过程在此不赘述。
步骤120、通过语义解耦层基于所述样本图像粗粒度特征和所述样本词向量进行低秩双线性池化融合,并基于注意力机制计算得到样本注意力权重;以及基于所述样本注意力权重对所述样本图像粗粒度特征进行加权平均池化,得到与所述样本词向量语义相关的样本特征向量。
本发明实施例将提取到的样本图像粗粒度特征和样本词向量进行低秩双线性池化融合,并利用注意力机制,计算得到注意力权重aL,wh,并通过softmax函数来保证训练过程中权重不会失衡。然后,对样本图像粗粒度特征进行加权平均池化,得到一个先验知识引导的语义特征相关的带有注意力的样本特征向量。
步骤130、通过图卷积网络层基于图卷积网络所述样本特征向量进行节点更新,得到与所述样本词向量语义关联的带注意力的样本图像特征。
具体的,样本图像特征的计算过程可参见上述图像特征I(1)的计算过程,在此不赘述。
步骤140、通过哈希层对所述样本文本粗粒度特征和所述样本图像特征进行哈希学习,得到所述样本文本粗粒度特征对应的第三哈希码和所述样本图像特征对应的第四哈希码。
具体的,第三哈希码和第四哈希码的计算过程可参见上述第一哈希码和第二哈希码的计算过程,在此不赘述。
步骤150、通过检索层基于所述第三哈希码和所述第四哈希码进行跨模态检索,得到所述样本图像和所述样本文本的样本检索结果。
具体的,所述样本图像和所述样本文本的样本检索结果的计算过程可参见上述第一哈希码和第二哈希码的检索结果的计算过程,在此不赘述。
步骤160、基于所述样本图像和所述样本文本的样本检索结果,对所述语义解耦层和图卷积网络层分别进行参数调整。
电子设备所述样本图像和所述样本文本的样本检索结果,对所述语义解耦层和图卷积网络层分别进行参数调整。以使得语义解耦层和图卷积网络层,能够根据历史文本的语义特征来指导学习相关的图像特征,这些图像特征更多地关注相应的语义区域,实现准确地定位语义区域,以及充分探索语义区域之间的相互作用。提高检索精度。
在本发明实施例的其他方面,所述对所述待检索图像进行预处理以及特征提取得到图像粗粒度特征,包括:
对所述待检索图像进行预处理,并通过预训练的ResNet-18网络、ResNet-50网络、Alexnet网络、vgg11网络中的任一种网络进行特征提取得到图像粗粒度特征。
我们使用在ImageNet上预训练的ResNet-18网络、ResNet-50网络、Alexnet网络、vgg11网络中的任一种网络进行特征提取得到图像粗粒度特征。在一个实施例中,使用ResNet-18网络进行图像特征提取。电子设备将待检索图像的维度通过预处理调整为512×512,调整完后把它们输入到卷积神经网络中,并在卷积神经网络中调节合适的卷积范围和池化参数,利用平均池化操作提取特征。
例如在平均池化层之前的特征图作为粗粒度特征向量并描述为{I1,...,IM}表示,M表示图像区域个数。通过给定的粗粒度特征向量来表示输入图像中所有M个区域的特征,计算出图像粗粒度特征I(g)。此过程可由公式(7)表示:
其中,P(0)为权重矩阵,tanh()是一个激活函数,将特征投射到一个公共子空间里面。
通过在ImageNet上预训练的ResNet-18网络提取特征,利用网络的残差结构来减轻网络的退化问题,同时减少网络参数与运算量,加快训练的速度。
在本发明实施例的其他方面,所述对所述待检索文本进行预处理得到的词向量进行特征提取得到文本粗粒度特征,包括:
对所述待检索文本进行预处理得到的词向量通过双向长短期记忆网络或BERT模型进行特征提取得到文本粗粒度特征。
本发明实施例使用双向长短期记忆网络或BERT模型作为特征提取器来生成文本粗粒度特征。
请参照图6,在一个实施例中,本发明实施例首先使用word2vec方法进行词向量的提取,将词映射为一个dS维向量XL。然后将每个单词嵌入到词向量空间中,按顺序输入到双向长短期记忆网络中。此过程可由公式(8)、(9)表示:
其中et表示嵌入到向量空间中的词向量,和分别表示前向和后向LSTM在步长t时的隐藏状态,在每个时间步长处添加这两个隐藏状态,即构造了一组文本粗粒度特征向量{T1,...,TL}。通过均值池化操作得到文本粗粒度特征(全局特征)T(0)。此过程可由公式(10)表示:
通过双向长短期记忆网络来提取特征,利用网络的长短期记忆功能解决梯度爆炸问题,保留模态内的语义一致性,提高相似度量的计算,从而提高检索的精度和准确性。
下面对本发明提供的深度跨模态哈希检索装置进行描述,下文描述的深度跨模态哈希检索装置与上文描述的深度跨模态哈希检索方法可相互对应参照。
请参照图7,本发明还提供一种深度跨模态哈希检索装置,包括:
获取模块201,用于获取待检索图像或待检索文本;
检索结果确定模块202,用于确定检索结果:输入所述待检索图像或所述待检索文本至深度跨模态哈希检索模型,获取所述深度跨模态哈希检索模型的检索结果;
其中,所述深度跨模态哈希检索模型基于历史文本的语义特征引导的注意力机制对所述待检索图像进行特征提取的图像特征,进行跨模态哈希检索;所述图像特征是与所述语义特征语义关联的带注意力的图像特征;
所述深度跨模态哈希检索模型是基于样本图像、样本文本、样本文本的语义特征、所述样本图像和样本文本的样本检索结果训练得到的。
本发明的深度跨模态哈希检索装置,通过结合历史文本的语义特征引导的注意力机制对所述待检索图像进行特征提取的图像特征,进行跨模态哈希检索,实现对待检索图像局部级别的特征进行提取和学习,提高检索的精确度。并且取得的图像特征是与所述历史文本语义特征语义关联的带注意力的图像特征。通过与所述语义特征语义关联的带注意力的图像特征,本发明利用历史文本的语义特征来指导学习相关的图像特征,这些图像特征更多地关注相应的语义区域,实现准确地定位语义区域,以及充分探索语义区域之间的相互作用。
在一些实施例中,所述深度跨模态哈希检索模型包括:
预处理层及特征提取层,用于对所述待检索图像进行预处理以及特征提取得到图像粗粒度特征;和/或用于对所述历史文本、所述待检索文本进行预处理得到的词向量进行特征提取得到文本粗粒度特征;
语义解耦层,用于基于所述图像粗粒度特征和所述词向量进行低秩双线性池化融合,并基于注意力机制计算得到注意力权重;以及基于所述注意力权重对所述图像粗粒度特征进行加权平均池化,得到与所述词向量语义相关的特征向量;所述词向量作为所述语义特征;
图卷积网络层,用于基于图卷积网络所述特征向量进行节点更新,得到与所述词向量语义关联的带注意力的图像特征;
哈希层,用于对所述文本粗粒度特征和/或所述图像特征进行哈希学习,得到所述文本粗粒度特征对应的第一哈希码和/或所述图像特征对应的第二哈希码;
检索层,用于基于所述第一哈希码和/或所述第二哈希码进行跨模态检索,得到检索结果。
在一些实施例中,所述语义解耦层的基于所述图像粗粒度特征和所述词向量进行低秩双线性池化融合,并基于注意力机制计算得到注意力权重,通过以下公式计算得到:
其中,XL表示词向量,tanh()是激活函数,P,U,V,b是可学习的参数,⊙为矩阵对应元素乘积运算,表示图像粗粒度特征的单个位置;表示图像粗粒度特征和词向量进行低秩双线性池化融合的融合结果;fa是注意力函数,由一个全连接层实现,aL,wh表示单个位置的注意力权重;
所述语义解耦层的基于所述注意力权重对所述图像粗粒度特征进行加权平均池化,得到与所述词向量语义相关的特征向量,通过以下公式计算得到:
fL=∑w,haL,wh*I(g);
其中,I(g)表示图像粗粒度特征,fL表示特征向量。
在一些实施例中,深度跨模态哈希检索装置还包括所述深度跨模态哈希检索模型的训练模块,所述训练模块包括:
预处理层及特征提取模块,用于通过预处理层及特征提取层对所述样本图像进行预处理以及特征提取得到样本图像粗粒度特征;和用于对所述样本文本进行预处理得到的样本词向量进行特征提取得到样本文本粗粒度特征;
语义引导的注意力模块,用于通过语义解耦层基于所述样本图像粗粒度特征和所述样本词向量进行低秩双线性池化融合,并基于注意力机制计算得到样本注意力权重;以及基于所述样本注意力权重对所述样本图像粗粒度特征进行加权平均池化,得到与所述样本词向量语义相关的样本特征向量;
图卷积网络模块,用于通过图卷积网络层基于图卷积网络所述样本特征向量进行节点更新,得到与所述样本词向量语义关联的带注意力的样本图像特征;
哈希模块,用于通过哈希层对所述样本文本粗粒度特征和所述样本图像特征进行哈希学习,得到所述样本文本粗粒度特征对应的第三哈希码和所述样本图像特征对应的第四哈希码;
检索模块,用于通过检索层基于所述第三哈希码和所述第四哈希码进行跨模态检索,得到所述样本图像和所述样本文本的样本检索结果;
参数调整模块,用于基于所述样本图像和所述样本文本的样本检索结果,对所述语义解耦层和图卷积网络层分别进行参数调整。
根据本发明提供的一种深度跨模态哈希检索方法,所述预处理层及特征提取模块,具体包括:
对所述待检索图像进行预处理,并通过预训练的ResNet-18网络、ResNet-50网络、Alexnet网络、vgg11网络中的任一种网络进行特征提取得到图像粗粒度特征。
根据本发明提供的一种深度跨模态哈希检索方法,所述预处理层及特征提取模块,还具体包括:
对所述待检索文本进行预处理得到的词向量通过双向长短期记忆网络或BERT模型进行特征提取得到文本粗粒度特征。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行深度跨模态哈希检索方法,该方法包括:获取待检索图像或待检索文本;确定检索结果:输入所述待检索图像或所述待检索文本至深度跨模态哈希检索模型,获取所述深度跨模态哈希检索模型的检索结果;其中,所述深度跨模态哈希检索模型基于历史文本的语义特征引导的注意力机制对所述待检索图像进行特征提取的图像特征,进行跨模态哈希检索;所述图像特征是与所述语义特征语义关联的带注意力的图像特征;所述深度跨模态哈希检索模型是基于样本图像、样本文本、样本文本的语义特征、所述样本图像和样本文本的样本检索结果训练得到的。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的深度跨模态哈希检索方法,该方法包括:获取待检索图像或待检索文本;确定检索结果:输入所述待检索图像或所述待检索文本至深度跨模态哈希检索模型,获取所述深度跨模态哈希检索模型的检索结果;其中,所述深度跨模态哈希检索模型基于历史文本的语义特征引导的注意力机制对所述待检索图像进行特征提取的图像特征,进行跨模态哈希检索;所述图像特征是与所述语义特征语义关联的带注意力的图像特征;所述深度跨模态哈希检索模型是基于样本图像、样本文本、样本文本的语义特征、所述样本图像和样本文本的样本检索结果训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的深度跨模态哈希检索方法,该方法包括:获取待检索图像或待检索文本;确定检索结果:输入所述待检索图像或所述待检索文本至深度跨模态哈希检索模型,获取所述深度跨模态哈希检索模型的检索结果;其中,所述深度跨模态哈希检索模型基于历史文本的语义特征引导的注意力机制对所述待检索图像进行特征提取的图像特征,进行跨模态哈希检索;所述图像特征是与所述语义特征语义关联的带注意力的图像特征;所述深度跨模态哈希检索模型是基于样本图像、样本文本、样本文本的语义特征、所述样本图像和样本文本的样本检索结果训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种深度跨模态哈希检索方法,其特征在于,包括:
获取待检索图像或待检索文本;
确定检索结果:输入所述待检索图像或所述待检索文本至深度跨模态哈希检索模型,获取所述深度跨模态哈希检索模型的检索结果;
其中,所述深度跨模态哈希检索模型基于历史文本的语义特征引导的注意力机制对所述待检索图像进行特征提取的图像特征,进行跨模态哈希检索;所述图像特征是与所述语义特征语义关联的带注意力的图像特征;
所述深度跨模态哈希检索模型是基于样本图像、样本文本、样本文本的语义特征、所述样本图像和样本文本的样本检索结果训练得到的。
2.根据权利要求1所述的深度跨模态哈希检索方法,其特征在于,所述深度跨模态哈希检索模型包括:
预处理层及特征提取层,用于对所述待检索图像进行预处理以及特征提取得到图像粗粒度特征;和/或用于对所述历史文本、所述待检索文本进行预处理得到的词向量进行特征提取得到文本粗粒度特征;
语义解耦层,用于基于所述图像粗粒度特征和所述词向量进行低秩双线性池化融合,并基于注意力机制计算得到注意力权重;以及基于所述注意力权重对所述图像粗粒度特征进行加权平均池化,得到与所述词向量语义相关的特征向量;所述词向量作为所述语义特征;
图卷积网络层,用于基于图卷积网络所述特征向量进行节点更新,得到与所述词向量语义关联的带注意力的图像特征;
哈希层,用于对所述文本粗粒度特征和/或所述图像特征进行哈希学习,得到所述文本粗粒度特征对应的第一哈希码和/或所述图像特征对应的第二哈希码;
检索层,用于基于所述第一哈希码和/或所述第二哈希码进行跨模态检索,得到检索结果。
3.根据权利要求2所述的深度跨模态哈希检索方法,其特征在于,所述基于所述图像粗粒度特征和所述词向量进行低秩双线性池化融合,并基于注意力机制计算得到注意力权重,通过以下公式计算得到:
其中,XL表示词向量,tanh()是激活函数,P,U,V,b是可学习的参数,⊙为矩阵对应元素乘积运算,表示图像粗粒度特征的单个位置;表示图像粗粒度特征和词向量进行低秩双线性池化融合的融合结果;fa是注意力函数,由一个全连接层实现,aL,wh表示单个位置的注意力权重;
所述基于所述注意力权重对所述图像粗粒度特征进行加权平均池化,得到与所述词向量语义相关的特征向量,通过以下公式计算得到:
fL=∑w,haL,wh*I(g);
其中,I(g)表示图像粗粒度特征,fL表示特征向量。
4.根据权利要求2所述的深度跨模态哈希检索方法,其特征在于,还包括训练所述深度跨模态哈希检索模型的步骤,训练所述深度跨模态哈希检索模型的步骤包括:
通过预处理层及特征提取层对所述样本图像进行预处理以及特征提取得到样本图像粗粒度特征;和用于对所述样本文本进行预处理得到的样本词向量进行特征提取得到样本文本粗粒度特征;
通过语义解耦层基于所述样本图像粗粒度特征和所述样本词向量进行低秩双线性池化融合,并基于注意力机制计算得到样本注意力权重;以及基于所述样本注意力权重对所述样本图像粗粒度特征进行加权平均池化,得到与所述样本词向量语义相关的样本特征向量;
通过图卷积网络层基于图卷积网络所述样本特征向量进行节点更新,得到与所述样本词向量语义关联的带注意力的样本图像特征;
通过哈希层对所述样本文本粗粒度特征和所述样本图像特征进行哈希学习,得到所述样本文本粗粒度特征对应的第三哈希码和所述样本图像特征对应的第四哈希码;
通过检索层基于所述第三哈希码和所述第四哈希码进行跨模态检索,得到所述样本图像和所述样本文本的样本检索结果;
基于所述样本图像和所述样本文本的样本检索结果,对所述语义解耦层和图卷积网络层分别进行参数调整。
5.根据权利要求2所述的深度跨模态哈希检索方法,其特征在于,所述对所述待检索图像进行预处理以及特征提取得到图像粗粒度特征,包括:
对所述待检索图像进行预处理,并通过预训练的ResNet-18网络、ResNet-50网络、Alexnet网络、vgg11网络中的任一种网络进行特征提取得到图像粗粒度特征。
6.根据权利要求2所述的深度跨模态哈希检索方法,其特征在于,所述对所述待检索文本进行预处理得到的词向量进行特征提取得到文本粗粒度特征,包括:
对所述待检索文本进行预处理得到的词向量通过双向长短期记忆网络或BERT模型进行特征提取得到文本粗粒度特征。
7.一种深度跨模态哈希检索装置,其特征在于,包括:
获取模块,用于获取待检索图像或待检索文本;
检索结果确定模块,用于确定检索结果:输入所述待检索图像或所述待检索文本至深度跨模态哈希检索模型,获取所述深度跨模态哈希检索模型的检索结果;
其中,所述深度跨模态哈希检索模型基于历史文本的语义特征引导的注意力机制对所述待检索图像进行特征提取的图像特征,进行跨模态哈希检索;所述图像特征是与所述语义特征语义关联的带注意力的图像特征;
所述深度跨模态哈希检索模型是基于样本图像、样本文本、样本文本的语义特征、所述样本图像和样本文本的样本检索结果训练得到的。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述的深度跨模态哈希检索方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的深度跨模态哈希检索方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的深度跨模态哈希检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211275647.6A CN115757711A (zh) | 2022-10-18 | 2022-10-18 | 深度跨模态哈希检索方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211275647.6A CN115757711A (zh) | 2022-10-18 | 2022-10-18 | 深度跨模态哈希检索方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115757711A true CN115757711A (zh) | 2023-03-07 |
Family
ID=85352562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211275647.6A Pending CN115757711A (zh) | 2022-10-18 | 2022-10-18 | 深度跨模态哈希检索方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115757711A (zh) |
-
2022
- 2022-10-18 CN CN202211275647.6A patent/CN115757711A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
CN111444340B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
KR101754473B1 (ko) | 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템 | |
CN112084331A (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN113095415B (zh) | 一种基于多模态注意力机制的跨模态哈希方法及系统 | |
CN113297975A (zh) | 表格结构识别的方法、装置、存储介质及电子设备 | |
CN113705313A (zh) | 文本识别方法、装置、设备及介质 | |
CN113779225B (zh) | 实体链接模型的训练方法、实体链接方法及装置 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN113593661A (zh) | 临床术语标准化方法、装置、电子设备及存储介质 | |
WO2023116572A1 (zh) | 一种词句生成方法及相关设备 | |
CN110968725A (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN115658934A (zh) | 一种基于多类注意力机制的图文跨模态检索方法 | |
CN114782722A (zh) | 图文相似度的确定方法、装置及电子设备 | |
CN117891939A (zh) | 粒子群算法结合cnn卷积神经网络的文本分类方法 | |
CN114880991A (zh) | 知识图谱问答问句实体链接方法、装置、设备及介质 | |
CN114880427A (zh) | 基于多层级注意力机制的模型、事件论元抽取方法及系统 | |
CN111161238A (zh) | 图像质量评价方法及装置、电子设备、存储介质 | |
CN114490926A (zh) | 一种相似问题的确定方法、装置、存储介质及终端 | |
US20240028828A1 (en) | Machine learning model architecture and user interface to indicate impact of text ngrams | |
CN114417824B (zh) | 基于依存句法预训练模型的篇章级关系抽取方法及系统 | |
CN116432648A (zh) | 命名实体识别方法和识别装置、电子设备及存储介质 | |
CN114925681A (zh) | 知识图谱问答问句实体链接方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |