CN112966135B - 一种基于注意力机制和门控机制的图文检索方法和系统 - Google Patents

一种基于注意力机制和门控机制的图文检索方法和系统 Download PDF

Info

Publication number
CN112966135B
CN112966135B CN202110160697.9A CN202110160697A CN112966135B CN 112966135 B CN112966135 B CN 112966135B CN 202110160697 A CN202110160697 A CN 202110160697A CN 112966135 B CN112966135 B CN 112966135B
Authority
CN
China
Prior art keywords
image
text
features
attention
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110160697.9A
Other languages
English (en)
Other versions
CN112966135A (zh
Inventor
程起敏
周玉琢
甘德樵
邵丽媛
黄海燕
黄小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202110160697.9A priority Critical patent/CN112966135B/zh
Publication of CN112966135A publication Critical patent/CN112966135A/zh
Application granted granted Critical
Publication of CN112966135B publication Critical patent/CN112966135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于注意力机制和门控机制的图文检索方法和系统,属于跨模态检索领域。本发明通过注意力机制快速筛选出有价值的信息,以获取更加精确的特征表达,在此基础上,为了使模态之间的对应关系更加显著,通过将两种模态的数据互相作为监督信息,并引入门控机制对另一模态特征进行进一步的调整,以尽可能多地过滤掉不必要的信息,保留语义丰富的部分,最终获得具有足够通用语义和准确注意力的图像特征,从而有效地提高跨模态检索模型的性能。

Description

一种基于注意力机制和门控机制的图文检索方法和系统
技术领域
本发明属于跨模态检索领域,更具体地,涉及一种基于注意力机制和门控机制的图文检索方法和系统。
背景技术
随着地球观测技术的飞速发展,遥感数据的数量和质量也在迅速增加。为了从海量数据中精准地筛选出有用的信息,前人进行了大量的研究,如遥感图像检索,即输入一幅遥感图像作为查询图像,最终输出与之相似的遥感图像集合作为检索结果。目前,遥感图像检索技术已经较为成熟,现有的检索方法在基准遥感数据集上都可以获得非常高的精度。然而,数据的类型是多种多样的,人们常常会用不同模态的数据来描述同一个实体。例如,给定一个查询文本,人们可能希望检索出与之对应的图像或视频。由于跨模态数据之间存在异构性,不同模态的数据往往分布在不同的特征空间上,因此通过异构数据的语义对齐实现跨模态检索成为了一项非常有挑战性的任务。
传统的语义对齐算法,主要是基于核典型相关分析进行的,即利用核方法学习得到一种能够将两种异构数据特征之间的相关性最大化的映射。虽然这是一种十分有效的语义对齐算法,但是这种算法需要保留一定的空间以便在训练的时候将两种异构数据的内核矩阵保存下来,这种做法对于内存的消耗和依赖是很大的。而基于深度学习的语义对齐算法则可以有效地解决这些问题。基于深度学习的语义对齐算法大多是将自编码器、循环递归神经网络、卷积神经网络等深度网络模型应用在语义对齐模型中,以得到不同模态数据的深度特征表示,并在一个损失函数的监督下,将两种异构数据的特征映射到一个公共的潜在空间中进行对齐。
深度学习技术可以从数据中抽取更深层的语义信息,有助于解决低层视觉特征和高级语义理解之间的语义鸿沟问题。但是,现有的大多数基于深度学习的语义对齐方法都只是简单地将不同模态的特征映射到一个公共的潜在嵌入空间当中,平等地、无差别地对待不同类型的单词或图像区域,然后在这个空间中进行语义对齐。这类方法很难捕捉到细粒度的语义差别,因此也很难对不同模态的数据之间的复杂对应关系进行很好的建模,在一定程度上直接限制了跨模态检索模型的性能。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于注意力机制和门控机制的图文检索方法和系统,其目的在于提高跨模态检索模型的性能。
为实现上述目的,本发明提供了一种基于注意力机制和门控机制的图文检索方法,包括:
S1.构建跨模态检索模型;所述跨模态检索模型包括:图像视觉特征提取模块、文本语义特征提取模块、注意力模块和门控机制模块;
图像视觉特征提取模块,用于获取遥感图像的区域特征;文本语义特征提取模块,用于获取文本所包含单词的特征;图像区域特征和文本单词特征构成不同模态的高层语义特征;
注意力模块,用于将不同模态数据的高层语义特征映射到同一个公共潜在空间中,并通过注意力机制对图像区域特征或文本单词特征分配不同的注意力分数,以注意力分数作为加权系数,将对应特征进行加权平均得到新的全局特征;
门控机制模块,用于构造一个基于门控机制的函数组,将新的全局特征作为监督信息,对另一模态的特征进行更新和优化,加强两种不同模态特征之间的语义对齐关系;
S2.以图像库和对应的语料库作为训练集,训练所述跨模态检索模型;
S3.将待检索的图片或文本输入至训练好的跨模态检索模型中,得到对应的检索结果。
进一步地,利用AlexNet网络、LeNet网络、GoogLeNet网络、VGG网络、Inception网络、ResNet网络中的任意一种获取遥感图像的区域特征。
进一步地,利用Inception V3网络获取遥感图像的区域特征。
进一步地,利用LSTM网络或GRU网络中的任意一种获取文本所包含单词的特征。
进一步地,利用双向GRU网络获取文本所包含单词的特征。
进一步地,所述通过注意力机制对图像区域特征或文本单词特征分配不同的注意力分数,具体为,
将图像中的所有区域与文本中的所有单词分别组成区域-单词对,用余弦相似度函数计算其相似度矩阵:
Figure BDA0002935332220000031
其中fi表示第i个图像区域特征,tj表示第j个文本单词特征;
对相似度矩阵进行归一化,得到注意力分数。
进一步地,对另一模态的特征进行更新和优化的函数组包括一个更新门
Figure BDA0002935332220000032
和一个新记忆单元
Figure BDA0002935332220000033
由以下公式确定:
gi=sigmoid[li(W1,b1)]
ci=sigmoid[li(W2,b2)]
其中,
Figure BDA0002935332220000034
是一个线性函数,用来将图像区域特征和文本单词特征进行简单的拼接,
Figure BDA0002935332220000035
表示权重为W1,偏置为b1的线性拼接,
Figure BDA0002935332220000036
表示权重为W2,偏置为b2的线性拼接,W1,b1,W2,b2是待学习的超参数。
进一步地,采用以下损失函数训练所述跨模态检索模型:
Figure BDA0002935332220000041
L(Rf)和L(Rt)为权重函数,Rf表示与图像匹配的句子t在所有返回结果中的排名;Rt表示与文本语句匹配的遥感图像f在所有返回结果中的排名,
Figure BDA0002935332220000042
Figure BDA0002935332220000043
分别表示每个批量中的最难负样本对,β表示三元组损失函数的margin值。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果。
本发明通过注意力机制快速筛选出有价值的信息,以获取更加精确的特征表达,在此基础上,为了使模态之间的对应关系更加显著,通过将两种模态的数据互相作为监督信息,并引入门控机制对另一模态特征进行进一步的调整,以尽可能多地过滤掉不必要的信息,保留语义丰富的部分,最终获得具有足够通用语义和准确注意力的图像特征,从而有效地提高跨模态检索模型的性能。
附图说明
图1是本发明提供的跨模态检索模型结构图;
图2是本发明提供的Inception V3网络在NWPU-Captions数据集上的分类精度;
图3是本发明提供的背景比较杂乱的图像。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明实施例提供的一种基于注意力机制和门控机制的图文检索方法,包括以下步骤:
S1.构建跨模态检索模型;参考图1,跨模态检索模型包括特征提取部分和语义对齐部分;
特征提取部分包括图像视觉特征提取模块和文本语义特征提取模块;图像视觉特征提取模块,用于获取遥感图像的区域特征;文本语义特征提取模块,用于获取文本所包含单词的特征;图像区域特征和文本单词特征构成不同模态的高层语义特征;
具体地,用来获取遥感图像特征的网络为卷积神经网络,可以是AlexNet网络、LeNet网络、GoogLeNet网络、VGG网络、Inception网络、ResNet网络中的任意一种,提取的每一幅遥感图像的特征为多个局部区域特征的集合。优选地,用来获取遥感图像特征的网络为卷积神经网络为Inception V3网络。Inception架构的主要思想是用密集成分来近似得到最优的局部稀疏解。Inception V3架构对Inception V2中Inception Module的结构进行了优化,具有更加丰富的Inception Module种类,即35×35、17×17和8×8三种不同的结构;Inception V3还在Inception Module的分支中进一步使用了分支,并且还引入了将一个较大的二维卷积拆分成两个较小的一维卷积的做法,可以用来处理更多、更丰富的空间特征,增加特征多样性,同时减少了计算量。假设遥感图像数据集为:I={x1,x2,…,xP},xi表示单幅图像。将原始遥感图像输入到Inception V3网络后,取最后一个Inceptionmodule的输出作为图像的视觉特征:
Figure BDA0002935332220000051
即每一幅遥感图像的全局特征由K个局部特征组成。
具体地,用来获取文本特征的网络为循环神经网络,可以是LSTM网络、GRU网络中的任意一种,提取的每一个文本语句的特征为该语句所包含的所有单词特征的集合。优选地,用来获取文本特征的网络为双向GRU网络(Bi-GRU)。Bi-GRU架构是在GRU的基础上进行改进得到的,由一个前向GRU和一个反向GRU构成。对于一个文本语句,假定其包含的单词数量为N,用一个基于GRU的文本编码器将每个单词分别映射为300维的词向量:
yi=Wywi,i∈{1,…,N}
通过汇总句子中两个方向的信息,使用双向GRU将词向量和上下文语义共同映射得到最终的单词特征。双向GRU包含一个前向GRU(Forward GRU)和一个反向GRU(BackwardGRU)。前向GRU按照从w1到wN的顺序读取句子:
Figure BDA0002935332220000061
反向GRU则与之顺序相反:
Figure BDA0002935332220000062
其中,
Figure BDA0002935332220000063
Figure BDA0002935332220000064
分别表示从前向GRU和反向GRU中生成的隐藏状态(hidden state)。每个单词的文本特征则表示为前向GRU和反向GRU的隐藏状态的平均值:
Figure BDA0002935332220000065
最后,获取该语句所对应的单词级的特征集合:
Figure BDA0002935332220000066
其中,ti是单词wi的编码结果。
语义对齐部分包括注意力模块和门控机制模块;注意力模块,用于将不同模态数据的高层语义特征映射到同一个公共潜在空间中,并通过注意力机制对图像区域特征或文本单词特征分配不同的注意力分数,以注意力分数作为加权系数,将对应特征进行加权平均得到新的全局特征;
对于一个图像-文本对,将图像中的所有区域与文本中的所有单词分别组成区域-单词对,用余弦相似度函数计算其相似度矩阵,即:
Figure BDA0002935332220000071
其中fi表示图像区域特征,tj表示文本单词特征。
进一步的,对相似度矩阵进行归一化,即:
Figure BDA0002935332220000072
其中[sim(i,j)]+=max{[sim(i,j)],0}。
进一步的,将归一化之后的分数
Figure BDA0002935332220000073
作为图像区域特征或文本单词特征的注意力分数,包含语义信息越丰富的单词,则会得到越高的注意力分数。
进一步的,将获取的注意力分数
Figure BDA0002935332220000074
作为每个局部特征的新的加权系数,即重要性分数。以该重要性分数为权重,将所有局部特征进行加权平均,得到新的全局特征。新的文本全局特征通过以下公式确定:
Figure BDA0002935332220000075
具体地,i∈[1,K],
Figure BDA0002935332220000076
超参数α为softmax函数中的逆温度系数(inversetemperature parameter),用来控制注意力的分布状况。为了使softmax输出的概率分布更平滑,避免在训练过程中陷入局部最优解,将逆温度系数α设置为9.0。
门控机制模块,用于构造一个基于门控机制的函数组,将新的全局特征作为监督信息,对另一模态的特征进行更新和优化,以尽可能多地过滤掉不必要的信息,并最终获得具有足够通用语义和准确注意力的图像特征,加强两种不同模态特征之间的语义对齐关系;
通过构造一个线性函数li(W1,b1),用来将fi和ei进行简单的拼接(concatenate)。li(W1,b1)由以下公式确定:
li(W,b)=concat(fi,ei)·W+b
具体地,W1,b1,W2,b2是待学习的超参数。
用来对特征进行进一步更新和优化的函数组,可以是sigmoid函数、tanh函数、MLP(多层感知器)中的任意一种。优选地,基于sigmoid函数构建,即
Figure BDA0002935332220000081
进一步的,函数组包括一个更新门(update gate)gi和一个新记忆单元(new memory cell)ci,由以下公式确定:
gi=sigmoid[li(W1,b1)]
ci=sigmoid[li(W2,b2)]
更新门用来保留图像中最显著的语义信息,新记忆单元的作用则是增强图像特征和句子级文本特征之间的相互作用。
进一步的,更新后的图像特征表示为:
Figure BDA0002935332220000082
S2.以图像库和对应的语料库作为训练集,训练所述跨模态检索模型;
在训练过程中,采用带可变权重系数的损失函数来对跨模态检索模型进行参数训练。具体的,根据真实匹配的正样本在返回结果中的排名,给每个三元组分配不同的惩罚权重,用来训练跨模态检索模型,最后得到模型的最优解。损失函数定义为:
Figure BDA0002935332220000083
具体地,为了确保训练过程的效率,将训练集分为多个小批量(mini-batch)进行训练,
Figure BDA0002935332220000091
Figure BDA0002935332220000092
分别表示每个批量中的最难负样本对(the hardest negativepair),即最接近正样本对的负样本对。L(Rf)和L(Rt)为权重函数。对于一幅遥感图像,Rf表示与之匹配的句子t在所有返回结果中的排名;对于一个文本语句,Rt表示与之匹配的遥感图像f在所有返回结果中的排名。L(Rf)和L(Rt)由以下公式确定:
Figure BDA0002935332220000093
Figure BDA0002935332220000094
具体地,N表示返回结果的总数。
S3.将待检索的图片或文本输入至训练好的跨模态检索模型中,得到对应的检索结果。
综上所述,本发明通过深度神经网络获取遥感图像的视觉特征和文本的语义特征以构建强健的高层特征,并通过注意力机制快速筛选出有价值的信息,以获取更加精确的特征表达。同时,为了使模态之间的对应关系更加显著,通过将两种模态的数据互相作为监督信息,并引入门控机制进一步过滤掉不必要的信息,保留语义丰富的部分,从而有效地提高跨模态检索模型的性能。
以下通过实验来证本发明的有效性:
本实验选用NWPU-Captions数据集进行性能测试。NWPU-Captions数据集是由武汉大学和华中科技大学在NWPU-RESISC45图像集的基础上,由多位专业人员人工标注而成。NWPU-RESISC45图像集由31500幅遥感图像组成,分为45个类,这些图像是从Google Earth中提取的。每个类包含700幅图像,每幅图像的大小为256×256像素。与其它现有的遥感数据集相比,该数据集包含更多的数据、更丰富的图像变化以及更高的类内多样性和类间相似性。该数据集不仅包含了每个类别的不同视角、平移、物体姿态、外观、空间分辨率、光照、背景、遮挡等方面的变化,还包含了一些语义重叠的细粒度类别,如圆形和矩形农田、商业和工业区域、篮球场和网球场等。NWPU-Captions数据集中,每幅遥感图像包含5个语句标注,且每个语句不少于6个单词。本实验的图像-文本数据集如表1所示。
表1:图像-文本数据
Figure BDA0002935332220000101
评价指标:top-1召回率R@1、top-5召回率R@5和top-10召回率R@10。
具体地,在本实验中,将以图像-文本检索任务为例,分别从图像和语句的角度出发来进行评价。其中,基于图像的top-K召回率表示根据图像检索语句时的top-K召回率,记为R@K_i;而基于语句的top-K召回率表示根据语句检索图像时的top-K召回率,记为R@K_t。以基于图像的top-K召回率为例,首先,对于一幅图片,在测试集中通过跨模态检索得到K个与之最近邻的语句。如果返回的K个语句中至少有一个语句与图像真实匹配,则该次匹配的score值记为1,否则记为0。此时,top-K召回率R@K表示测试集中所有查询图像score值的平均:
Figure BDA0002935332220000102
本实验所采用的CNN模型是在ImageNet上预训练好的Inception V3网络。在对CNN模型进行预训练时,学习率设置为0.005,mini-batch设置为128。所提取的图像视觉特征和文本语义特征的维度设置为2048维。
首先,通过图像分类实验来验证图像特征提取网络Inception V3的分类性能。分类结果如图2所示,在NWPU-Captions数据集上,Inception V3网络的平均分类精度为92.5%。总体来说,Inception V3网络可以在该数据集上取得不错的分类精度,证明Inception V3具有很强的图像视觉特征表达能力。
实验还测试了本发明方法的检索性能并与其它跨模态图文检索方法进行了对比,对比的方法包括:(1)IMRAM模型,该模型主要特点在于通过多步对齐的方法来捕获图像和文本之间的对应关系。(2)PFAN模型,该模型首先对图像进行分块,由此来推断区域在图像中的相对位置,然后利用注意力机制来建立图像区域与分块之间的关系模型,并生成有价值的位置特征,在图像与句子之间建立更可靠的关系模型。(3)MTFN模型,该模型的主要思想在于,通过多模态张量融合全局视觉特征和文本特征,有效地学习图像-文本相似度函数。(4)SCAN模型,该模型的主要思想在于,分别对文本和图像使用注意力机制,学习得到较为精确的文本和图像表示,然后在公共的子空间中利用三元组损失函数度量文本和图像之间的相似性。在NWPU-Captions数据集上的跨模态图文检索结果对比分别如表2所示。
表2:NWPU-Captions数据集上的跨模态图文检索结果对比
模型 R@1_i R@5_i R@10_i R@1_t R@5_t R@10_t
IMRAM 8.4 25.6 53.1 7.2 30.6 65.5
PFAN 8.8 23.8 49.6 11.4 32.4 72.1
MTFN 8.2 25.2 57.8 14.8 36.7 75.7
SACN 12.1 37.4 63.2 15.3 38.1 76.3
本发明的方法 13.2 38.1 65.9 15.1 39.8 77.2
如表2所示,可以看到本发明所提出的方法,和其它比较典型的基于深度学习的图像-文本检索模型相比,具有一定的优势。这也证明了本发明利用深度神经网络所获取的图像视觉特征和文本语义特征是有效的,同时,利用注意力机制和门控机制来对特征进行优化和更新是可行的。
对于如图3所示背景比较杂乱的图像,本发明所采用方法的检索示例如表3所示,可以看到,本发明的方法也可以在排名靠前的语句中返回正确的结果。
表3
Figure BDA0002935332220000121
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于注意力机制和门控机制的图文检索方法,其特征在于,包括:
S1.构建跨模态检索模型;所述跨模态检索模型包括:图像视觉特征提取模块、文本语义特征提取模块、注意力模块和门控机制模块;
图像视觉特征提取模块,用于获取遥感图像的区域特征;文本语义特征提取模块,用于获取文本所包含单词的特征;图像区域特征和文本单词特征构成不同模态的高层语义特征;
注意力模块,用于将不同模态数据的高层语义特征映射到同一个公共潜在空间中,并通过注意力机制对图像区域特征或文本单词特征分配不同的注意力分数,以注意力分数作为加权系数,将对应特征进行加权平均得到新的全局特征;
门控机制模块,用于构造一个基于门控机制的函数组,将新的全局特征作为监督信息,对另一模态的特征进行更新和优化,加强两种不同模态特征之间的语义对齐关系;对另一模态的特征进行更新和优化的函数组包括一个更新门gi和一个新记忆单元ci,由以下公式确定:
gi=sigmoid[li(W1,b1)]
ci=sigmoid[li(W2,b2)]
li(W1,b1)表示权重为W1,偏置为b1的线性拼接,li(W2,b2)表示权重为W2,偏置为b2的线性拼接,W1,b1,W2,b2是待学习的超参数;
对图像区域特征进行更新和优化时,拼接对象是图像区域特征和文本单词特征对应的新的全局特征;对文本单词特征进行更新和优化时,拼接对象是文本单词特征和图像区域特征对应的新的全局特征;
S2.以图像库和对应的语料库作为训练集,训练所述跨模态检索模型;
S3.将待检索的图片或文本输入至训练好的跨模态检索模型中,得到对应的检索结果。
2.根据权利要求1所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,利用AlexNet网络、LeNet网络、GoogLeNet网络、VGG网络、Inception网络、ResNet网络中的任意一种获取遥感图像的区域特征。
3.根据权利要求2所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,利用Inception V3网络获取遥感图像的区域特征。
4.根据权利要求1所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,利用LSTM网络或GRU网络中的任意一种获取文本所包含单词的特征。
5.根据权利要求4所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,利用双向GRU网络获取文本所包含单词的特征。
6.根据权利要求1-5任一项所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,所述通过注意力机制对图像区域特征或文本单词特征分配不同的注意力分数,具体为,
将图像中的所有区域与文本中的所有单词分别组成区域-单词对,用余弦相似度函数计算其相似度矩阵:
Figure FDA0003394537480000021
其中fi表示第i个图像区域特征,tj表示第j个文本单词特征;
对相似度矩阵进行归一化,得到注意力分数。
7.根据权利要求1所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,采用以下损失函数训练所述跨模态检索模型:
Figure FDA0003394537480000022
L(Rf)和L(Rt)为权重函数,Rf表示与图像匹配的句子t在所有返回结果中的排名;Rt表示与文本语句匹配的遥感图像f在所有返回结果中的排名,
Figure FDA0003394537480000031
Figure FDA0003394537480000032
分别表示每个批量中的最难负样本对,β表示三元组损失函数的margin值。
8.一种基于注意力机制和门控机制的图文检索系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至7任一项所述的基于注意力机制和门控机制的图文检索方法。
CN202110160697.9A 2021-02-05 2021-02-05 一种基于注意力机制和门控机制的图文检索方法和系统 Active CN112966135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110160697.9A CN112966135B (zh) 2021-02-05 2021-02-05 一种基于注意力机制和门控机制的图文检索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110160697.9A CN112966135B (zh) 2021-02-05 2021-02-05 一种基于注意力机制和门控机制的图文检索方法和系统

Publications (2)

Publication Number Publication Date
CN112966135A CN112966135A (zh) 2021-06-15
CN112966135B true CN112966135B (zh) 2022-03-29

Family

ID=76274356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110160697.9A Active CN112966135B (zh) 2021-02-05 2021-02-05 一种基于注意力机制和门控机制的图文检索方法和系统

Country Status (1)

Country Link
CN (1) CN112966135B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642332B (zh) * 2021-08-11 2023-11-14 福州大学 一种融合多级语义信息的多模态讽刺识别系统方法
CN115082704B (zh) * 2022-03-16 2024-03-05 西北工业大学 基于相关性滤波的文本行人重识别方法
CN115270754B (zh) * 2022-09-19 2023-02-24 科大讯飞(苏州)科技有限公司 跨模态匹配方法及相关装置、电子设备、存储介质
CN116150418B (zh) * 2023-04-20 2023-07-07 南京邮电大学 一种基于混合聚焦注意力机制的图文匹配方法及系统
CN116665114B (zh) * 2023-07-28 2023-10-10 广东海洋大学 基于多模态的遥感场景识别方法、系统及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索系统及方法
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN111651661A (zh) * 2020-06-03 2020-09-11 拾音智能科技有限公司 一种图文跨媒体检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10402448B2 (en) * 2017-06-28 2019-09-03 Google Llc Image retrieval with deep local feature descriptors and attention-based keypoint descriptors

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索系统及方法
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN111651661A (zh) * 2020-06-03 2020-09-11 拾音智能科技有限公司 一种图文跨媒体检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于层级化交互型网络的图文检索算法研究》;林炯;《中国优秀博硕士学位论文全文数据库(硕士)》;20200115(第01期);正文第3.3-4.2节 *

Also Published As

Publication number Publication date
CN112966135A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN112966135B (zh) 一种基于注意力机制和门控机制的图文检索方法和系统
CN110147457B (zh) 图文匹配方法、装置、存储介质及设备
CN110598029B (zh) 基于注意力转移机制的细粒度图像分类方法
CN107679250B (zh) 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
US11093560B2 (en) Stacked cross-modal matching
CN110209806B (zh) 文本分类方法、文本分类装置及计算机可读存储介质
Zhong et al. Large patch convolutional neural networks for the scene classification of high spatial resolution imagery
Shen et al. Question/answer matching for CQA system via combining lexical and sequential information
CN113297975A (zh) 表格结构识别的方法、装置、存储介质及电子设备
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN110619313B (zh) 遥感图像判别性描述生成方法
CN113360701B (zh) 一种基于知识蒸馏的素描图处理方法及其系统
CN111881262A (zh) 基于多通道神经网络的文本情感分析方法
CN108446404B (zh) 面向无约束视觉问答指向问题的检索方法及系统
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN111598183A (zh) 一种多特征融合图像描述方法
Chen et al. A few-shot transfer learning approach using text-label embedding with legal attributes for law article prediction
CN112148831B (zh) 图文混合检索方法、装置、存储介质、计算机设备
CN111339407A (zh) 一种信息抽取云平台的实现方法
CN112527993A (zh) 一种跨媒体层次化深度视频问答推理框架
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
Hu et al. Saliency-based YOLO for single target detection
CN112396091B (zh) 社交媒体图像流行度预测方法、系统、存储介质及应用
CN116434058A (zh) 基于视觉文本对齐的影像描述生成方法及系统
Dieng Deep Probabilistic Graphical Modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant