CN115098620B - 一种注意力相似度迁移的跨模态哈希检索方法 - Google Patents
一种注意力相似度迁移的跨模态哈希检索方法 Download PDFInfo
- Publication number
- CN115098620B CN115098620B CN202210882910.1A CN202210882910A CN115098620B CN 115098620 B CN115098620 B CN 115098620B CN 202210882910 A CN202210882910 A CN 202210882910A CN 115098620 B CN115098620 B CN 115098620B
- Authority
- CN
- China
- Prior art keywords
- attention
- text
- similarity
- image
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013508 migration Methods 0.000 title claims abstract description 21
- 230000005012 migration Effects 0.000 title claims abstract description 21
- 230000006870 function Effects 0.000 claims abstract description 43
- 230000007246 mechanism Effects 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000003993 interaction Effects 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims abstract description 5
- 238000012163 sequencing technique Methods 0.000 claims abstract description 4
- 238000013526 transfer learning Methods 0.000 claims abstract description 4
- 238000012546 transfer Methods 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000000873 masking effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000005728 strengthening Methods 0.000 claims description 2
- 241000965478 Darksidea epsilon Species 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000002474 experimental method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 101000659461 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) Prephenate dehydrogenase [NADP(+)] Proteins 0.000 description 1
- 101000659460 Schizosaccharomyces pombe (strain 972 / ATCC 24843) Probable prephenate dehydrogenase [NADP(+)] Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种注意力相似度迁移的跨模态哈希检索方法,包括:特征提取多模态数据,得到文本特征向量和图像特征图;将图像特征图利用混合自注意力机制分配自注意力权重,利用多头注意力机制对文本特征向量分配自注意力权重,根据自注意力权重大小分别强化关注图像和文本的关键特征;将图像和文本的关键特征进行多模态共同注意力机制处理,将多模态数据特征映射至公共实值空间;计算公共实值空间的特征相似度,利用迁移学习和哈希函数,将相似关系从公共实值空间迁移至哈希空间,训练得到哈希码;根据哈希码计算相似度,并进行排序。本发明能够强化关注图像和文本的关键信息,提升特征提取质量,加强了模态间的信息交互,同时降低了训练难度。
Description
技术领域
本发明涉及跨模态检索的技术领域,尤其是指一种注意力相似度迁移的跨模态哈希检索方法。
背景技术
跨模态检索处理过程一般是对多模态数据进行特征表示;建立模态间关联机制;对数据进行相似度度量以及排序等操作。依据特征表示的不同,跨模态方法可分为跨模态实值检索方法和跨模态哈希检索方法。跨模态哈希检索方法可分为有监督哈希与无监督哈希方法。有监督方法是利用已有标签提取语义信息,融入哈希码来提高检索精度。无监督方法侧重于模态内和模态间的关系学习,利用未标记数据训练样本挖掘数据的内在性质和规律,并将学习的多模态特征转换为二进制哈希码深度特征学习为多模态共同表示学习的重要步骤,在减少异质鸿沟问题中发挥重要作用。
跨模态哈希检索研究已取得重大进展,但现存方法在分析模态信息重要程度方面的工作较少,为此,设计通道空间混合自注意力机制加强关注图像关键特征,使用多头注意力增强文本关键特征的关注,并采用共同注意力机制加强模态信息交互;另外,大多数无监督方法在重构相似矩阵时需要在实值空间构建相似矩阵,会产生大量参数,使用迁移学习的方法,利用实值空间不同实例相似度数值引导汉明码的生成,保留相似关系的同时降低了参数训练复杂度。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种注意力相似度迁移的跨模态哈希检索方法,能够强化关注图像和文本的关键信息,提升特征提取质量,加强了模态间的信息交互,同时降低了训练难度。
为实现上述目的,本发明所提供的技术方案为:一种注意力相似度迁移的跨模态哈希检索方法,包括以下步骤:
S1:获取多模态数据,并对数据进行预处理得到统一大小的图像和去除标点的文本;
S2:对经过预处理后的多模态数据进行特征提取,提取出相应的文本特征向量和图像特征图;
S3:设计包含了通道注意力子分支和空间注意力子分支的混合自注意力机制,将图像特征图利用混合自注意力机制分配自注意力权重,利用多头注意力机制对文本特征向量分配自注意力权重,并根据自注意力权重大小分别强化关注图像和文本的关键特征;
S4:将经过强化关注得到的图像和文本的关键特征,进行多模态共同注意力机制处理,减少图像和文本通道之间的信息不平衡,加强多模态信息交互,并将多模态数据特征映射至公共实值空间;
S5:计算公共实值空间的特征相似度,利用迁移学习和哈希函数,将相似关系从公共实值空间迁移至哈希空间,训练得到哈希码;
S6:根据得到的哈希码计算相似度,并进行排序,选择排名前n个候选集实例作为最终的查询结果。
进一步,在步骤S2中,对于图像数据使用Resnet-50神经网络提取图像特征图,对于文本数据采用Bi-LSTM模型提取特征向量。
进一步,步骤S3的具体操作步骤为:
S31:对于输入的图像特征图Fmap,在通道注意力子分支,首先进行全局平均池化,避免空间信息对注意力的影响,依次经过全连接层、Relu激活函数、全连接层、BN层处理,得到通道注意力子分支掩码Mc:
Mc=BN(FC(Rule(FC(GAP(Fmap)))
式中,FC代表全连接层,GAP代表全局平均池化;
对于空间注意力子分支,首先将图像特征图Fmap经过1*1*1卷积层组合成单通道的特征融合图,去掉通道后得到特征矩阵F0,避免通道信息分布对空间注意力权重的影响;将F0经softmax函数计算获得全局相关性矩阵F1,F0和F1对应元素相乘,获得全局特征矩阵,输入到BN层获得空间注意力子分支掩码,公式表示如下:
F0=Conv1*1*1(Fmap)
F1=softmax(F0)
Ms=BN(F0*F1)
式中,Conv1*1*1表示1*1*1卷积,Ms表示空间注意力子分支掩码。
S32:将通道注意力子分支掩码和空间注意力子分支掩码按比例计算得到混合自注意力机制掩码,处理得到经混合自注意力机制强化关注的图像关键特征Fi,公式表示如下:
Fi=Fmap(1+σ(a*Mc+β*Ms))
式中,α和β为学习得到的可变权重,σ代表Sigmoid函数;
S33:通过Bi-LSTM输出包含所有时间步的输出O={O1,O2,...,Ot,...,Om},其中Om代表第m个时间步的输出向量,以及最后一个时间步的隐藏状态Hm,为了实现多头注意力机制,将输入的向量看作<Key,Value>键值对的形式,根据给定的任务目标中的查询值Query计算Key与Query之间的相似系数,能够得到Value值对应的权重系数,在此使用Q、K、V分别表示Query、Key和Value,第t个时间步的权重值at的公式如下:
Q=ωQHm
Vt=ωVOt
K=ωKOt
式中,ωQ、ωV、ωK为网络参数,随反向传播而修改,Ot代表第t个时间步的输出,Vt代表第t个时间步的Value值,KT代表K的转置,dx代表x维向量;
S34:将各时间步权重值与Value值加权求和,得到带有单头自注意力的文本特征向量zy:
式中,zy代表第y个单头注意力计算结果;
S35:将步骤S33和S34进行h次,得到多头自注意力文本{z1,z2...,zy,...zh},其中zh代表第h个单头注意力计算结果,将其拼接并做一次线性变换后得到带有多头自注意力的文本特征向量Ft:
Ft=Concat(z1,z2,...,zy,...,zh)ωz
式中,ωz为网络参数,h为自注意力的头数。
进一步,步骤S4的具体操作步骤为:
S41:对于输入的图像关键特征Fi,利用得softmax函数计算,到图像特征注意力分布Ai:
Ai=softmax(Fi)
对于输入的文本关键特征Ft,利用softmax函数,得到文本特征注意力分布At:
At=softmax(Ft)
S42:将图像关键特征Fi与文本特征注意力分布At相乘得到具有共同注意力的图像特征WI:
式中,表示Hadamard乘积;
将文本关键特征Ft与图像特征注意力分布Ai相乘得到具有共同注意力的文本特征WT:
S43:将具有共同注意力的图像特征WI和文本特征WT经过全连接层处理,映射至k维的公共实值空间,其中k为哈希码的长度。
进一步,步骤S5的具体操作步骤为:
S51:利用余弦相似度公式,计算公共实值空间中模态内相似度SD:
式中,j和n代表第j和第n个实例,表示第j个具有共同注意力的文本特征或图像特征,/>表示第n个具有共同注意力的文本特征或图像特征,D∈{I,T},表示文本模态T与图像模态I,/>代表/>的转置矩阵,||WDj||F表示/>的F-范数;
S52:为了便于反向传播,使用以下公式作为哈希函数,计算具有共同注意力的文本和图像特征的哈希码BD:
BD=tanh(ρWD)∈[-1,1]k
式中,WD表示具有共同注意力的文本特征或图像特征,D∈{I,T},表示文本模态T与图像模态I,ρ为可变参数,k为哈希码的长度;
计算哈希空间内相似度H:
式中,表示第n个实例的哈希码,/>表示第j个实例的哈希码,T代表转置;
S53:根据多模态在公共实值空间内的数据分布,采用相似度重建的方式保持相似关系,将各模态内成对的相似度值迁移至哈希空间,模态内损失函数Sintra表示为:
式中,Si代表公共实值空间内图像实例的相似度,St代表公共实值空间内文本实例的相似度,Hi代表哈希空间内图像实例的相似度,Ht代表哈希空间内文本实例的相似度,ω和γ为可学习的参数,代表各模态的模态内损失函数占模态内损失函数的比例;
S54:模态间相似度迁移利用成对多模态信息进行计算,由于相同模态的同语义实例的特征关系矩阵对角线为1,而不同模态存在语义鸿沟,所以在此约束模态间最大相似度为1,模态间相似度迁移损失函数Sinter为:
式中,1表示长度为L的单位向量,BI代表图像实例的哈希码,BT代表文本实例的哈希码,diag(·)函数表示矩阵的对角线元素组成的向量;
S55:最终损失函数loss为:
loss=minμSinter+(1-μ)Sintra
式中,μ为可学习的参数,代表各损失函数的比例。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明设计了一种通道注意力子分支和空间注意力子分支的混合自注意力机制,可以有效实现图像的关键信息鉴别。
2、本发明设计共同注意力机制加强模态信息交互,提高了检索精度。
3、本发明利用公共实值空间不同实例之间的相似度数值引导哈希码的生成,保留相似关系的同时降低了参数训练复杂度。
总之,本发明能通过使用注意力机制来提升获取特征的质量,增强模态间信息互补,并且在哈希空间保留相似关系的同时降低了参数训练复杂度,可以充分挖掘模态间的相关性,有效弥合模态间的语义差距进而提高了检索的准确率。
附图说明
图1为本发明方法的框架图。
图2为混合自注意力机制示意图。
图3为多头注意力机制示意图;
图4为相似度迁移说明图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例提供了一种注意力相似度迁移的跨模态哈希检索方法,使用了Resnet-50和Bi-LSTM作为特征提取的基模型,其包括以下步骤:
1)跨模态特征学习:
将跨模态数据表示为其表示N对图像、文本;为简化符号,分别将I和T表示为图像模态和文本模态实例。
对于图像特征提取,利用Resnet-50神经网络来提取整体图像的特征图。
对于文本特征提取,利用Bi-LSTM模型充分学习文本上下文特征。
2)多模态注意力机制:
如图2和图3所示,对于各模态,存在无关或相关性较小的区域,造成实相似性计算量较大。因此将得到的特征通过自注意力机制获得注意力权重α,权重越大,相关性越高。本发明设计一种包含了通道注意力子分支和空间注意力子分支的混合自注意力机制用于图像信息重要度分辨,利用多头注意力分辨文本信息重要度,混合自注意力机制见附图2所示,多头注意力机制见附图3所示,其包括以下步骤:
2.1)对于输入的图像特征图Fmap,在通道注意力子分支,首先进行全局平均池化,避免空间信息对注意力的影响,依次经过全连接层、Relu激活函数、全连接层、BN层处理,得到通道注意力子分支掩码Mc:
Mc=BN(FC(Rule(FC(GAP(Fmap)))
其中FC代表全连接层,GAP代表全局平均池化。
对于空间注意力子分支,首先将图像特征图Fmap经过1*1*1卷积层组合成单通道的特征融合图,去掉通道后得到特征矩阵F0,避免通道信息分布对空间注意力权重的影响;将F0经softmax函数计算获得全局相关性矩阵F1,F0和F1对应元素相乘,获得全局特征矩阵,输入到BN层获得空间注意力子分支掩码,公式表示如下:
F0=Conv1*1*1(Fmap)
F1=softmax(F0)
Ms=BN(F0*F1)
其中Conv1*1*1表示1*1*1卷积,Ms表示空间注意力子分支掩码。
2.2)将通道注意力子分支掩码和空间注意力子分支掩码按比例计算得到混合自注意力机制掩码,处理得到经混合自注意力机制强化关注的图像关键特征Fi,公式表示如下:
Fi=Fmap(1+σ(a*Mc+β*Ms))
其中α和β为学习得到的可变权重,σ代表Sigmoid函数;
2.3)通过Bi-LSTM输出包含所有时间步的输出O={O1,O2,...,Ot,...,Om},其中Om代表第m个时间步的输出向量,以及最后一个时间步的隐藏状态Hm,为了实现多头注意力机制,将输入的向量看作<Key,Value>键值对的形式,根据给定的任务目标中的查询值Query计算Key与Query之间的相似系数,可以得到Value值对应的权重系数,之后再用权重系数对Value值进行加权求和,即可得到输出,在此使用Q,K,V分别表示Query,Key和Value,第t个时间步的权重值at的公式如下:
Q=ωQHm
Vt=ωVOt
K=ωKOt
其中ωQ,ωV,ωK为网络参数,随反向传播而修改,Ot代表第t个时间步的输出,Vt代表第t个时间步的Value值,KT代表K的转置,dx代表x维向量。
2.4)将各时间步权重值与Value值加权求和,得到带有单头自注意力的文本特征向量zy:
式中,zy代表第y个单头注意力计算结果;
2.5)将步骤S33和S34进行h次,得到多头自注意力文本{z1,z2...,zy,...zh},其中zh代表第h个单头注意力计算结果,将其拼接并做一次线性变换后得到带有多头自注意力的文本特征向量Ft:
Ft=Concat(z1,z2,...,zy,...,zh)ωz
式中,ωz为网络参数,h为自注意力的头数。
2.6)对于输入的图像关键特征Fi,利用得softmax函数计算,到图像特征注意力分布Ai:
Ai=softmax(Fi)
对于输入的文本关键特征Ft,利用softmax函数,得到文本特征注意力分布At:
At=softmax(Ft)
2.7)将图像关键特征Fi与文本特征注意力分布At相乘得到具有共同注意力的图像特征WI:
其中表示Hadamard乘积;
将文本关键特征Ft与图像特征注意力分布Ai相乘得到具有共同注意力的文本特征WT:
2.8)将具有共同注意力的图像特征WI和文本特征WT经过全连接层处理,映射至k维的公共实值空间,其中k为哈希码的长度。
3)计算公共实值空间的特征相似度,利用迁移学习和哈希函数,将相似关系从公共实值空间迁移至哈希空间,训练得到哈希码。
跨模态哈希算法需要在哈希空间重构相似关系,现有方法大多需要在实值空间构建实值相似矩阵,再对哈希空间的哈希相似矩阵进行优化,在构建相似关系矩阵时会产生大量参数,增加训练负担,因此,实验采用成对相似度迁移的方法利用实值空间内相似值引导哈希码的生成,如附图4所示,具体操作步骤为:
3.1)利用余弦相似度公式,计算公共实值空间中模态内相似度SD:
式中,j和n代表第j和第n个实例,表示第j个具有共同注意力的文本特征或图像特征,/>表示第n个具有共同注意力的文本特征或图像特征,D∈{I,T},表示文本模态T与图像模态I,/>代表/>的转置矩阵,||WDj||F表示/>的F-范数。
3.2)为了便于反向传播,使用以下公式作为哈希函数,计算具有共同注意力的文本和图像特征的哈希码BD:
BD=tanh(ρWD)∈[-1,1]k
式中,WD表示具有共同注意力的文本特征或图像特征,D∈{I,T},表示文本模态T与图像模态I,ρ为可变参数,k为哈希码的长度;
计算哈希空间内相似度H:
式中,表示第n个实例的哈希码,/>表示第j个实例的哈希码,/>代表/>的转置,/>代表/>的转置。
3.3)根据多模态在公共实值空间内的数据分布,采用相似度重建的方式保持相似关系,将各模态内成对的相似度值迁移至哈希空间,模态内损失函数Sintra表示为:
式中,Si代表公共实值空间内图像实例的相似度,St代表公共实值空间内文本实例的相似度,Hi代表哈希空间内图像实例的相似度,Ht代表哈希空间内文本实例的相似度,ω和γ为可学习的参数,代表各模态的模态内损失函数占模态内损失函数的比例;
3.4)模态间相似度迁移利用成对多模态信息进行计算,由于相同模态的同语义实例的特征关系矩阵对角线为1,而不同模态存在语义鸿沟,所以在此约束模态间最大相似度为1,模态间相似度迁移损失函数Sinter为:
式中,1表示长度为L的单位向量,BI代表图像实例的哈希码,BT代表文本实例的哈希码,diag(·)函数表示矩阵的对角线元素组成的向量。
3.5)最终损失函数loss为:
loss=minμSinter+(1-μ)Sintra
式中,μ为可学习的参数,代表各损失函数的比例。
4)根据得到的哈希码计算相似度,并进行排序,选择排名前n个候选集实例作为最终的查询结果。
MIRFLICKR-25K数据集包含从Flickr收集的25000个实例。每个图像都带有相关的文本标签。总共选择了20015个图像-文本对,每一对的文本都表示为1386维词袋向量;MSCOCO数据集包括82785张训练图像和40504张验证图像,每个图像有5个标题。在实验中,将训练图像和验证图像合并,并去除那些在文本模态中没有实例的样本。最后,训练数据集包含122218个图文对,每个实例的文本都表示为2026维词袋向量,每个实例至少用80个类中的一个进行标注;IAPR TC-12数据集包含来自275个类的200000个图文对。对于每个实例,文本都转换为1251维的词袋向量。在删除无标注的实例后,使用19998个实例的子集进行实验。
为了验证实验的有效性,对数据集进行进一步划分,划分结果如表1所示。
表1数据集详情
数据集名称 | 总数目 | 训练集 | 验证集 |
MIRFLICKR-25K | 20015 | 10000 | 2000 |
MSCOCO | 122218 | 10000 | 5000 |
IAPR TC-12 | 19998 | 10000 | 2000 |
汉明排序是跨模态哈希算法常用的评估性能的方法,本实验使用平均精确度均值(mean Average Precision,MAP)作为评价标准。查询q的精度均值AP的计算方法如下:
式中,Pq(r)表示前r个检索结果的准确性,δq(r)用来指示通过查询获得的第r个样本与查询样本是否相关。δq(r)=1表示相关数据,δq(r)=0表示无关数据,lq是对排名前R的检索结果的正确数目统计。R的整个数据库的数量,MAP是所有查询的平均精度。
本发明提出一种注意力相似度迁移的跨模态哈希检索方法。为验证方法的有效性,使用MAP作为评价标准,在三个常用数据集MIRFLICKR-25K、MSCOCO和IAPR TC-12上,分别当哈希码长度为16bit、32bit和64bit时与DCMH、PRDH、CMHH、SCAHN、CHN、SSAH、UCH方法进行了对比分析,实验结果如表2所示。
表2实验结果分析表
实验结果可以充分证明本发明方法的有效性。通过对不同模态数据进行注意力计算能有效的分辨出重要的特征信息来提升获取特征的质量,进而生成更具辨别性的哈希码,从而实现检索性能的提升。使用共同注意力机制,加强了不同模态信息交互,增强语义互补性。此外,通过对成对相似值的迁移学习,更精确的表示样本间的相似性,减少了不必要的误差,对提升检索性能有着重要的贡献。通过上述步骤,可以充分挖掘模态间的相关性,有效弥合模态间的语义差距进而提高了检索的准确率。
实验结论:针对现有算法对各模态关键信息关注不足以及在实值空间构建关系矩阵会增加训练难度的问题,本发明提出了注意力相似度迁移的跨模态哈希检索方法。在公开的三个多模态数据集MIRFLICKR-25K、IAPR TC-12和MSCOCO上的实验评估表明,本发明方法的使用对检索精度有一定的提升,优于现有方法。在接下来的研究中,将探索中文多模态数据的检索方法,以及增量学习在多模态检索任务中如何应用的问题,具有很好的应用前景,值得推广。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (3)
1.一种注意力相似度迁移的跨模态哈希检索方法,其特征在于,包括以下步骤:
S1:获取多模态数据,并对数据进行预处理得到统一大小的图像和去除标点的文本;
S2:对经过预处理后的多模态数据进行特征提取,提取出相应的文本特征向量和图像特征图;
S3:设计包含了通道注意力子分支和空间注意力子分支的混合自注意力机制,将图像特征图利用混合自注意力机制分配自注意力权重,利用多头注意力机制对文本特征向量分配自注意力权重,并根据自注意力权重大小分别强化关注图像和文本的关键特征;具体操作步骤为:
S31:对于输入的图像特征图Fmap,在通道注意力子分支,首先进行全局平均池化,避免空间信息对注意力的影响,依次经过全连接层、Relu激活函数、全连接层、BN层处理,得到通道注意力子分支掩码Mc:
Mc=BN(FC(Rule(FC(GAP(Fmap)))
式中,FC代表全连接层,GAP代表全局平均池化;
对于空间注意力子分支,首先将图像特征图Fmap经过1*1*1卷积层组合成单通道的特征融合图,去掉通道后得到特征矩阵F0,避免通道信息分布对空间注意力权重的影响;将F0经softmax函数计算获得全局相关性矩阵F1,F0和F1对应元素相乘,获得全局特征矩阵,输入到BN层获得空间注意力子分支掩码,公式表示如下:
F0=Conv1*1*1(Fmap)
F1=softmax(F0)
Ms=BN(F0*F1)
式中,Conv1*1*1表示1*1*1卷积,Ms表示空间注意力子分支掩码;
S32:将通道注意力子分支掩码和空间注意力子分支掩码按比例计算得到混合自注意力机制掩码,处理得到经混合自注意力机制强化关注的图像关键特征Fi,公式表示如下:
Fi=Fmap(1+α(a*Mc+β*Ms))
式中,α和β为学习得到的可变权重,σ代表Sigmoid函数;
S33:通过Bi-LSTM输出包含所有时间步的输出O={O1,O2,...,Ot,...,Om},其中Om代表第m个时间步的输出向量,以及最后一个时间步的隐藏状态Hm,为了实现多头注意力机制,将输入的向量看作<Key,Value>键值对的形式,根据给定的任务目标中的查询值Query计算Key与Query之间的相似系数,能够得到Value值对应的权重系数,在此使用Q、K、V分别表示Query、Key和Value,第t个时间步的权重值at的公式如下:
Q=ωQHm
Vt=ωVOt
K=ωKOt
式中,ωQ、ωV、ωK为网络参数,随反向传播而修改,Ot代表第t个时间步的输出,Vt代表第t个时间步的Value值,KT代表K的转置,dx代表x维向量;
S34:将各时间步权重值与Value值加权求和,得到带有单头自注意力的文本特征向量zy:
式中,zy代表第y个单头注意力计算结果;
S35:将步骤S33和S34进行h次,得到多头自注意力文本{z1,z2...,zy,...zh},其中zh代表第h个单头注意力计算结果,将其拼接并做一次线性变换后得到带有多头自注意力的文本特征向量Ft:
Ft=Concat(z1,z2,...,zy,...,zh)ωz
式中,ωz为网络参数,h为自注意力的头数;
S4:将经过强化关注得到的图像和文本的关键特征,进行多模态共同注意力机制处理,减少图像和文本通道之间的信息不平衡,加强多模态信息交互,并将多模态数据特征映射至公共实值空间;
S5:计算公共实值空间的特征相似度,利用迁移学习和哈希函数,将相似关系从公共实值空间迁移至哈希空间,训练得到哈希码;具体操作步骤为:
S51:利用余弦相似度公式,计算公共实值空间中模态内相似度SD:
式中,j和n代表第j和第n个实例,表示第j个具有共同注意力的文本特征或图像特征,/>表示第n个具有共同注意力的文本特征或图像特征,D∈{I,T},表示文本模态T与图像模态I,/>代表/>的转置矩阵,/>表示/>的F-范数;
S52:为了便于反向传播,使用以下公式作为哈希函数,计算具有共同注意力的文本和图像特征的哈希码BD:
BD=tanh(ρWD)∈[-1,1]k
式中,WD表示具有共同注意力的文本特征或图像特征,D∈{I,T},表示文本模态T与图像模态I,ρ为可变参数,k为哈希码的长度;
计算哈希空间内相似度H:
式中,表示第n个实例的哈希码,/>表示第j个实例的哈希码,T代表转置;
S53:根据多模态在公共实值空间内的数据分布,采用相似度重建的方式保持相似关系,将各模态内成对的相似度值迁移至哈希空间,模态内损失函数Sintra表示为:
式中,Si代表公共实值空间内图像实例的相似度,St代表公共实值空间内文本实例的相似度,Hi代表哈希空间内图像实例的相似度,Ht代表哈希空间内文本实例的相似度,ω和γ为可学习的参数,代表各模态的模态内损失函数占模态内损失函数的比例;
S54:模态间相似度迁移利用成对多模态信息进行计算,由于相同模态的同语义实例的特征关系矩阵对角线为1,而不同模态存在语义鸿沟,所以在此约束模态间最大相似度为1,模态间相似度迁移损失函数Sinter为:
式中,1表示长度为L的单位向量,BI代表图像实例的哈希码,BT代表文本实例的哈希码,diag(·)函数表示矩阵的对角线元素组成的向量;
S55:最终损失函数loss为:
loss=minμSinter+(1-μ)Sintra
式中,μ为可学习的参数,代表各损失函数的比例;
S6:根据得到的哈希码计算相似度,并进行排序,选择排名前n个候选集实例作为最终的查询结果。
2.根据权利要求1所述的一种注意力相似度迁移的跨模态哈希检索方法,其特征在于,在步骤S2中,对于图像数据使用Resnet-50神经网络提取图像特征图,对于文本数据采用Bi-LSTM模型提取特征向量。
3.根据权利要求1所述的一种注意力相似度迁移的跨模态哈希检索方法,其特征在于,步骤S4的具体操作步骤为:
S41:对于输入的图像关键特征Fi,利用得softmax函数计算,到图像特征注意力分布Ai:
Ai=softmax(Fi)
对于输入的文本关键特征Ft,利用softmax函数,得到文本特征注意力分布At:
At=softmax(Ft)
S42:将图像关键特征Fi与文本特征注意力分布At相乘得到具有共同注意力的图像特征WI:
式中,表示Hadamard乘积;
将文本关键特征Ft与图像特征注意力分布Ai相乘得到具有共同注意力的文本特征WT:
S43:将具有共同注意力的图像特征WI和文本特征WT经过全连接层处理,映射至k维的公共实值空间,其中k为哈希码的长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210882910.1A CN115098620B (zh) | 2022-07-26 | 2022-07-26 | 一种注意力相似度迁移的跨模态哈希检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210882910.1A CN115098620B (zh) | 2022-07-26 | 2022-07-26 | 一种注意力相似度迁移的跨模态哈希检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115098620A CN115098620A (zh) | 2022-09-23 |
CN115098620B true CN115098620B (zh) | 2024-03-29 |
Family
ID=83298075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210882910.1A Active CN115098620B (zh) | 2022-07-26 | 2022-07-26 | 一种注意力相似度迁移的跨模态哈希检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115098620B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115599942B (zh) * | 2022-11-08 | 2023-12-12 | 重庆师范大学 | 一种基于gcn的深度无监督跨模态检索方法 |
CN116431767B (zh) * | 2023-04-21 | 2024-01-16 | 北京百度网讯科技有限公司 | 文本图像查询方法、装置、电子设备以及存储介质 |
CN116662811B (zh) * | 2023-06-13 | 2024-02-06 | 无锡物联网创新中心有限公司 | 一种工业设备的时序状态数据重构方法及相关装置 |
CN116680420B (zh) * | 2023-08-02 | 2023-10-13 | 昆明理工大学 | 基于知识表示增强的低资源跨语言文本检索方法及装置 |
CN117423168B (zh) * | 2023-12-19 | 2024-04-02 | 湖南三湘银行股份有限公司 | 基于多模态特征融合的用户情绪识别方法及系统 |
CN117453944B (zh) * | 2023-12-25 | 2024-04-09 | 厦门大学 | 一种多层级显著区域分解的无监督实例检索方法及系统 |
CN117874706B (zh) * | 2024-03-12 | 2024-05-31 | 之江实验室 | 一种多模态知识蒸馏学习方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095415A (zh) * | 2021-04-15 | 2021-07-09 | 齐鲁工业大学 | 一种基于多模态注意力机制的跨模态哈希方法及系统 |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN113836341A (zh) * | 2021-09-13 | 2021-12-24 | 武汉理工大学 | 基于无监督转换器平衡哈希的遥感图像检索方法 |
CN113971209A (zh) * | 2021-12-22 | 2022-01-25 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
WO2022068196A1 (zh) * | 2020-09-30 | 2022-04-07 | 三维通信股份有限公司 | 跨模态的数据处理方法、装置、存储介质以及电子装置 |
WO2022104540A1 (zh) * | 2020-11-17 | 2022-05-27 | 深圳大学 | 一种跨模态哈希检索方法、终端设备及存储介质 |
-
2022
- 2022-07-26 CN CN202210882910.1A patent/CN115098620B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022068196A1 (zh) * | 2020-09-30 | 2022-04-07 | 三维通信股份有限公司 | 跨模态的数据处理方法、装置、存储介质以及电子装置 |
WO2022104540A1 (zh) * | 2020-11-17 | 2022-05-27 | 深圳大学 | 一种跨模态哈希检索方法、终端设备及存储介质 |
CN113095415A (zh) * | 2021-04-15 | 2021-07-09 | 齐鲁工业大学 | 一种基于多模态注意力机制的跨模态哈希方法及系统 |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN113836341A (zh) * | 2021-09-13 | 2021-12-24 | 武汉理工大学 | 基于无监督转换器平衡哈希的遥感图像检索方法 |
CN113971209A (zh) * | 2021-12-22 | 2022-01-25 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
Non-Patent Citations (2)
Title |
---|
刘昊鑫 ; 吴小俊 ; 庾骏 ; .联合哈希特征和分类器学习的跨模态检索算法.模式识别与人工智能.2020,(第02期),全文. * |
张博麟 ; 陈征 ; .跨模态哈希学习研究进展.无线通信技术.2019,(第04期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN115098620A (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115098620B (zh) | 一种注意力相似度迁移的跨模态哈希检索方法 | |
CN112905822B (zh) | 一种基于注意力机制的深度监督跨模态对抗学习方法 | |
CN112733866B (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN109543084A (zh) | 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法 | |
CN110929080B (zh) | 基于注意力和生成对抗网络的光学遥感图像检索方法 | |
CN109871454B (zh) | 一种鲁棒离散监督跨媒体哈希检索方法 | |
JPH07295989A (ja) | データを解析するためのインタプリタを形成する装置 | |
CN112949740B (zh) | 一种基于多级度量的小样本图像分类方法 | |
CN112651940B (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN111833310B (zh) | 一种基于神经网络架构搜索的表面缺陷分类方法 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN112800249A (zh) | 基于生成对抗网络的细粒度跨媒体检索方法 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN108108184B (zh) | 一种基于深度信念网络的源代码作者识别方法 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
Tavakoli | Seq2image: Sequence analysis using visualization and deep convolutional neural network | |
Ahmed et al. | Recognition of Urdu Handwritten Alphabet Using Convolutional Neural Network (CNN). | |
CN111144453A (zh) | 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备 | |
CN111079011A (zh) | 一种基于深度学习的信息推荐方法 | |
CN110245234A (zh) | 一种基于本体和语义相似度的多源数据样本关联方法 | |
CN111783796A (zh) | 一种基于深度特征融合的pet/ct影像识别系统 | |
Guo et al. | The rise of nonnegative matrix factorization: algorithms and applications | |
CN114299342A (zh) | 一种基于深度学习的多标记图片分类中未知标记分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |