CN113392254A - 一种基于上下文感知注意的图像文本检索方法 - Google Patents

一种基于上下文感知注意的图像文本检索方法 Download PDF

Info

Publication number
CN113392254A
CN113392254A CN202110332595.0A CN202110332595A CN113392254A CN 113392254 A CN113392254 A CN 113392254A CN 202110332595 A CN202110332595 A CN 202110332595A CN 113392254 A CN113392254 A CN 113392254A
Authority
CN
China
Prior art keywords
image
text
features
attention
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110332595.0A
Other languages
English (en)
Inventor
廖开阳
黄港
郑元林
章明珠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202110332595.0A priority Critical patent/CN113392254A/zh
Publication of CN113392254A publication Critical patent/CN113392254A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于上下文感知注意的图像文本检索方法,给定一个图像文本对,分别提取图像文本的区域特征,并将图像及文本特征映射成相同大小的维度;将提取的图像文本特征进行特征融合;在融合成的特征矩阵中提取图像片段特征与文本中的单词特征,并分别进行融合求得相似权重,对跨模态提取的特征进行归一化处理;利用图像文本匹配损失对模型进行训练;本发明的方法能够通过对图像数据库中的图像进行识别和检索,实现图片和文本的匹配。

Description

一种基于上下文感知注意的图像文本检索方法
技术领域
本发明属于图像检索方法技术领域,涉及一种基于上下文感知注意的图 像文本检索方法。
背景技术
现代社会对图像检索技术的需求遍布人们生活各处,特别是在电子商 务、版权保护、医疗诊断、公共安全、街景地图等领域,图像检索应用都具 有广阔的商业前景。例如在电子商务方面,谷歌推出Goggles允许用户将拍 摄的商品图像上传至服务器端,并在服务器端运行图像检索应用,从而为用 户找到提供相同或相似商品的店铺的链接;而在版权保护方面,版权保护服 务商可以应用图像检索技术对商标进行管理,例如查询待处理商标是否已经 注册;在医疗诊断方面,图像检索技术可以协助医生做病情的诊断,例如医 生通过归类和检索医学图像库,可以更好的找到患者的病灶;而在街景地图 等应用中,图像检索技术可以帮助使用者发现街景中的物体,从而发现和规 避危险。图像检索技术目前已经被深入应用到许多领域,为用户们的生产和 生活提供了极大的便利。
常用的图像检索技术主要为基于文本的图像检索(TBIR,Text-Based Image Re-trieval),基于内容的图像检索(CBIR,Context-Based Image Retrival),以及基于语义的图像检索(SBIR,Semantic-Based Image Retrieval)。 TBIR的优点是实现过程简单,容易理解,符合人类检索习惯,并且检索结 果较为精确。但是TBIR需要耗费大量的人力对图像做人工标注,这无法满 足大型的多媒体数据库的需求,特别是当新数据出现时TBIR需要对图像重 新标注,因此很难快速适应,且TBIR无法解决标注人员在内容感知和描述 上的主观性。为了克服TBIR的问题,专家提出了CBIR。CBIR的优点是可 以通过设计算法直接从图像内容中提取特征,然后通过比对特征的相似度来 定义图像的相似度,这样可以减少人工的消耗,并且CBIR使用的近似匹配 方式相比于TBIR具有更快的检索和排序速度,然而CBIR技术也具有自身 缺陷。互联网上的图像往往来自于不同的环境和领域,基于低级视觉特征的 CBIR技术受限于特征表达能力,在现实应用中会存在严重的语义鸿沟问题, 因此在CBIR的基础上,人们提出了SBIR技术。与基于低级视觉特征的CBIR 技术不同,SBIR技术结合了自然语言处理和计算机视觉技术,使用图像的 高级语义特征查询。目前来看,SBIR技术代表了大数据时代的图像检索发 展方向,在未来SBIR技术会在更多的领域大放异彩。
在2012年,Krizhevsky等(Krizhevsky A,Sutskever I,Hinton G E.Image netclassification with deep convolutional neural networks[c]//Advances in neural information processing systems,2012:1097-1105.)在ImageNet LSVRC 大赛上利用AlexNet获得了最高的准确率,从那之后兴起了一些基于深度学 习的图像检索算法,广泛应用在图像语义分割、目标识别、图像分类以及图 像检索等领域。在深度学习算法中特别是卷积神经网络的检索效果最好,它 利用多个池化层和卷积层的组合得到图像的视觉特征,并与反馈及分类技术 相结合从而实现了较好的检索结果。
发明内容
本发明的目的是提供一种基于上下文感知注意的图像文本检索方法,能 够通过对图像数据库中的图像进行识别和检索,实现图片和文本的匹配。
本发明所采用的技术方案是,一种基于上下文感知注意的图像文本检索 方法,具体按以下步骤实施:
步骤1,给定一个图像文本对,分别提取图像文本的区域特征,并将图 像及文本特征映射成相同大小的维度;
步骤2,将提取的图像文本特征进行特征融合;
步骤3,在融合成的特征矩阵中提取图像片段特征与文本中的单词特征, 并分别进行融合求得相似权重,对跨模态提取的特征进行归一化处理;
步骤4,利用图像文本匹配损失对模型进行训练。
本发明的特点还在于:
其中步骤1具体包括以下内容:
首先使用R-CNN检测图像中的对象和其他显著区域:在这部分中,模 型使用贪心的非最大抑制和IOU阈值来选择排名最高的特征;对于每个区域 i,将通过xi的线性映射最终得到特征为vi的D维向量;其中xi为通过R-CNN 提取的原始均值池化卷积特征;
因此,目标图像v可以表示为具有最高类别检测置信分数的选定ROI的 一组特征;
为了与图像对应,将文本句子中的词映射到与图像区域相同的D维空 间;给定一个句子中m个输入字的一个热编码w={W1,L,WM},首先将其嵌入 到向量中,作为词的嵌入层作为xi=Wewi,We是端到端参数学习矩阵;然后, 将向量输入到一个双向GRU,被写为下式:
Figure RE-GDA0003202607670000031
式中,GRU是提取特征的网络,x为转换成与图像特征维度相同的向量, 将向量x输入双向GRU中,最后的输出的特征是一个前向和一个后向,所 以应该连接起来求平均,为u,
Figure RE-GDA0003202607670000041
Figure RE-GDA0003202607670000042
分别表示向前和向后的隐 藏状态;ui的最后一个词是双向隐藏状态的平均值,它收集以wi为中心的上 下文:
Figure RE-GDA0003202607670000043
其中步骤2具体包括以下内容:
对图像和文本进行特征融合,公式为H=tanh(VTKU),其中图像V和文本 U的特征图分别表示为V=[v1,L,vn]和U=[u1,L,um],K为进行融合时的权重矩 阵,H为融合后的特征矩阵;
其中步骤3中在融合成的特征矩阵H中分别提取图像特征与文本特征, 并分别进行融合求得相似权重的具体过程为:
区域的归一化注意函数f(V,U)可以表示为:
Figure BDA0002996785990000044
式中Wv是映射向量,Hv是捕获区域内模态相关性的注意力矩阵,Huv是 单词到区域重新加权的注意矩阵。同样,针对单词的标准化注意力函数 g(V,U)编写如下:
Figure BDA0002996785990000045
设计的注意功能f(V,U)和g(V,U)根据全局上下文有选择地关注那些信 息片段,同时应用了模态间注意和模态内注意;
其中步骤3中对跨模态提取的特征进行归一化的具体过程为:
词对图像注意矩阵Huv中的每个元素,从相似矩阵H的行中选取,并进 行二范数归一化处理,计算表达式为:
Figure BDA0002996785990000051
相似地,图像对单词的注意力Hvu计算为:
Figure BDA0002996785990000052
考虑到检索过程中跨两种模式的交互和消息传递,我们提出了基于语义 的注意,以探索基于区域-单词关系的模式内相关性,工作中,使用模态间 比对度可解释性一阶注意:
Figure BDA0002996785990000053
Figure BDA0002996785990000054
式中,norm(·)表示对输入向量L1的归一化运算,作为模态间注意矩阵 Huv的第i行,Hi uv被视为相对于给定vi的所有单词的单词到区域亲和力分布 或响应向量,它测量vi与整个单词特征集[u1,L,um]之间的距离,因此,每个 元素
Figure BDA0002996785990000055
是两个区域词响应向量
Figure BDA0002996785990000056
Figure BDA0002996785990000057
的相似度,模态内注意过程是由全 局语义信息驱动的,因此它是根据给定的上下文而不是原始的无上下文特征 来区分语义;
其中步骤4中利用图像文本匹配损失对模型进行训练的具体过程为:
将图像V和文本U的特征图分别表示为V=[v1,L,vn]和U=[u1,L,um],将图 像文本检索的关注过程定义为:
Figure BDA0002996785990000061
其中f(·)和g(·)是注意力函数,分别计算每个局部片段vi和ui的得分; 通过损失函数来进行权重比较,使用基于HingeLoss的双向排名损失函数:
Figure BDA0002996785990000062
m为约束条件,
Figure BDA0002996785990000063
Figure BDA0002996785990000064
为负对,vi定义为内积;最终的图像和文 本特征
Figure BDA0002996785990000065
Figure BDA0002996785990000066
作为局部计算的权重值。
本发明的有益效果是:
本发明的一种基于上下文感知注意的图像文本检索方法,是面对图像文 本搜索基于一种统一的上下文感知注意力网络,分别使用RNN和R-CNN对 文本和图像特征进行提取,然后对提取出来的对象片段进行处理,对图像和 文本特征进行加权求和,得到相似性矩阵,保留关键的特征卷积描述符对图 像数据库中的图像特征进行相似性度量,根据度量后的不同相似度对比,得 到相似度排名。在使用统一的上下文感知注意力网络时,通过全局的上下文 选择关注局部单词和图像,进而发现潜在的语义关系。基于语义的注意力被表述为区域词对齐的一阶注意,它明确考虑了模态之间的相互作用,并有效 地利用区域词关系来推断单个模态中的语义相关性。它知道当前的输入对, 并且图像-文本对的综合上下文可以直接影响检索过程中彼此响应的计算。
附图说明
图1是本发明的一种基于上下文感知注意的图像文本检索方法的结果示 意图;
图2是本发明的一种基于上下文感知注意的图像文本检索方法中对提取 的图像与文本特征进行融合示意图;
图3是本发明的一种基于上下文感知注意的图像文本检索方法中实现图 像文本检索的步骤示意图
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
结合图像文本检索方法的框架图,如图2所示,分别将图像和文本传入 不同的模型中,模型为R-CNN和RNN;将图像和文本提取的特征转换为相 同的维度,特征图分别表示为V=[v1,L,vn]和U=[u1,L,um]并进行特征融合生成 相似矩阵H;考虑到上下文的语义信息,我们分别提取相似矩阵H的行和列 经过归一化及特征融合后,得到图像和文本相同模态内的相似矩阵Hv和Hu; 如图1所示;
为了实现图像文本跨模态检索,实现不同模态的特征融合,提出注意力 机制;注意机制旨在专注于相应任务的最相关信息,而不是平等地使用所有 可用信息;是针对交叉模式检索问题而设计的注意力机制;利用注意力机制 分别计算每个局部片段vi和ui的得分,最终的图像和文本特征
Figure BDA0002996785990000071
Figure BDA0002996785990000072
作为局部 计算的权重值,通过匹配函数S(·),实现图像与文本目标最相近的匹配结果, 通过结果的比较,来判断检索的精确程度。
本发明提供了一种基于上下文感知注意的图像文本检索方法,具体按照 以下步骤实施:
步骤1,如图3所示,给定一个图像文本对,分别提取图像文本的区域 特征,并将图像及文本特征映射成相同大小的维度:
在给定图像的情况下,我们观察图像时更加关注其显著对象,并描述其 动作和属性。我们不着眼于从像素级图像中提取全图特征,而是着眼于局部 区域并利用底层优势,我们使用R-CNN检测图像中的对象和其他显著区域。 在这部分中,模型使用贪婪的非最大抑制和IOU阈值来选择排名最高的特 征。对于每个区域i,将通过xi的线性映射最终得到特征为vi的D维向量。 其中xi为通过R-CNN提取的原始均值池化卷积特征;
因此,目标图像v可以表示为具有最高类别检测置信分数的选定ROI的 一组特征。
为了发现区域词对应,将句子中的词映射到与图像区域相同的D维空 间。我们考虑一次对单词及其上下文进行编码,而不是单独处理每个单词。 给定一个句子中m个输入字的一个热编码w={W1,L,WM},我们首先将其嵌入 到向量中,作为词的嵌入层作为xi=Wewi,在这里We是端到端参数学习矩阵。 然后,我们将向量输入到一个双向GRU,它被写为:
Figure RE-GDA0003202607670000081
式中,GRU是提取特征的网络,x为转换成与图像特征维度相同的向量, 将向量x输入双向GRU中,最后的输出的特征是一个前向和一个后向,所 以应该连接起来求平均,为u,
Figure RE-GDA0003202607670000082
Figure RE-GDA0003202607670000083
分别表示向前和向后的隐 藏状态;ui的最后一个词是双向隐藏状态的平均值,它收集以wi为中心的上 下文:
Figure RE-GDA0003202607670000091
步骤2,将提取的图像文本特征进行特征融合:
注意机制旨在专注于相应任务的最相关信息,而不是平等地使用所有可 用信息;我们首先提供针对交叉模式检索问题而设计的注意力机制的一般表 述,将图像V和文本U的特征图分别表示为V=[v1,L,vn]和U=[u1,L,um];设置 相似矩阵H=tanh(VTKU),其中K为权重矩阵,表示图像和文本进行特征融 合;
步骤3,在融合成的特征矩阵中提取图像片段特征与文本中的单词特征, 并分别进行融合求得相似权重,对跨模态提取的特征进行归一化处理:
注意池网络基于每个片段的重要性表示为其与另一模态片段的最大相 似性的假设,执行按列和按行的最大池,当f(V,U)在H上应用行最大池运算 后成为softmax计算时,它是所提出的注意过程的一个替代版本;此外,我们 不仅计算相似矩阵,而且将其用作预测注意力图的特征,更具体地说,一个 片段的重要性得分是由所有相关片段决定的,考虑到单个模态中的模态内相 关性和所有区域词对之间的模态间对齐。基于此考虑,区域的归一化注意函 数f(V,U)可以表示为:
Figure BDA0002996785990000092
式中,Wv是映射向量,Hv是捕获区域内模态相关性的注意力矩阵,Huv是单词到区域重新加权的注意矩阵,同样,针对单词的标准化注意力函数g(V,U)编写如下:
Figure BDA0002996785990000101
设计的注意功能f(V,U)和g(V,U)根据全局上下文有选择地关注那些信 息片段,同时应用了模态间注意和模态内注意;
词对图像注意矩阵Huv中的每个元素,从相似矩阵H的行中选取,并进 行二范数归一化处理,计算表达式为:
Figure BDA0002996785990000102
相似地,图像对单词的注意力Hvu计算为:
Figure BDA0002996785990000103
考虑到检索过程中跨两种模式的交互和消息传递,我们提出了基于语义 的注意,以探索基于区域-单词关系的模式内相关性,在我们的工作中,我 们使用模态间比对的可解释性一阶注意:
Figure BDA0002996785990000104
Figure BDA0002996785990000105
式中,norm(·)表示对输入向量L1的归一化运算。作为模态间注意矩阵Huv的第i行,Hi uv被视为相对于给定vi的所有单词的单词到区域亲和力分布或响 应向量。它测量vi与整个单词特征集[u1,L,um]之间的距离。因此,每个元素
Figure BDA0002996785990000111
是两个区域词响应向量
Figure BDA0002996785990000112
Figure BDA0002996785990000113
的相似度。模态内注意过程是由全局语义信 息驱动的。因此它是根据给定的上下文而不是原始的无上下文特征来区分语 义;
步骤4,利用图像文本匹配损失对模型进行训练:
将图像V和文本U的特征图分别表示为V=[v1,L,vn]和U=[u1,L,um];将图 像文本检索的关注过程定义为:
Figure BDA0002996785990000114
式中,f(·)和g(·)是注意力函数,分别计算每个局部片段vi和ui的得分; 通过损失函数来进行权重比较,使用基于HingeLoss的双向排名损失函数:
Figure BDA0002996785990000115
m为约束条件,
Figure BDA0002996785990000116
Figure BDA0002996785990000117
为负对,vi定义为内积;最终的图像和文 本特征
Figure BDA0002996785990000118
Figure BDA0002996785990000119
作为局部计算的权重值。

Claims (6)

1.一种基于上下文感知注意的图像文本检索方法,其特征在于,具体按以下步骤实施:
步骤1,给定一个图像文本对,分别提取图像文本的区域特征,并将图像及文本特征映射成相同大小的维度;
步骤2,将提取的图像文本特征进行特征融合;
步骤3,在融合成的特征矩阵中提取图像片段特征与文本中的单词特征,并分别进行融合求得相似权重,对跨模态提取的特征进行归一化处理;
步骤4,利用图像文本匹配损失对模型进行训练。
2.根据权利要求1所述的一种基于上下文感知注意的图像文本检索方法,其特征在于,所述步骤1具体包括以下内容:
首先使用R-CNN检测图像中的对象和其他显著区域:在这部分中,模型使用贪心的非最大抑制和IOU阈值来选择排名最高的特征;对于每个区域i,将通过xi的线性映射最终得到特征为vi的D维向量;其中xi为通过R-CNN提取的原始均值池化卷积特征;
因此,目标图像v可以表示为具有最高类别检测置信分数的选定ROI的一组特征;
为了与图像对应,将文本句子中的词映射到与图像区域相同的D维空间;给定一个句子中m个输入字的一个热编码w={W1,L,WM},首先将其嵌入到向量中,作为词的嵌入层作为xi=Wewi,We是端到端参数学习矩阵;然后,将向量输入到一个双向GRU,被写为下式:
Figure RE-FDA0003202607660000011
式中,GRU是提取特征的网络,x为转换成与图像特征维度相同的向量,将向量x输入双向GRU中,最后的输出的特征是一个前向和一个后向,所以应该连接起来求平均,为u,
Figure RE-FDA0003202607660000021
Figure RE-FDA0003202607660000022
分别表示向前和向后的隐藏状态;ui的最后一个词是双向隐藏状态的平均值,它收集以wi为中心的上下文:
Figure RE-FDA0003202607660000023
3.根据权利要求1所述的一种基于上下文感知注意的图像文本检索方法,其特征在于,所述步骤2具体包括以下内容:
对图像和文本进行特征融合,公式为H=tanh(VTKU),其中图像V和文本U的特征图分别表示为V=[v1,L,vn]和U=[u1,L,um],K为进行融合时的权重矩阵,H为融合后的特征矩阵。
4.根据权利要求1所述的一种基于上下文感知注意的图像文本检索方法,其特征在于,所述步骤3中在融合成的特征矩阵H中分别提取图像特征与文本特征,并分别进行融合求得相似权重的具体过程为:
区域的归一化注意函数f(V,U)可以表示为:
Figure FDA0002996785980000025
式中Wv是映射向量,Hv是捕获区域内模态相关性的注意力矩阵,Huv是单词到区域重新加权的注意矩阵,同样,针对单词的标准化注意力函数g(V,U)编写如下:
Figure FDA0002996785980000031
设计的注意功能f(V,U)和g(V,U)根据全局上下文有选择地关注那些信息片段,同时应用了模态间注意和模态内注意。
5.根据权利要求1所述的一种基于上下文感知注意的图像文本检索方法,其特征在于,所述步骤3中对跨模态提取的特征进行归一化的具体过程为:
词对图像注意矩阵Huv中的每个元素,从相似矩阵H的行中选取,并进行二范数归一化处理,计算表达式为:
Figure FDA0002996785980000032
相似地,图像对单词的注意力Hvu计算为:
Figure FDA0002996785980000033
考虑到检索过程中跨两种模式的交互和消息传递,我们提出了基于语义的注意,以探索基于区域-单词关系的模式内相关性,工作中,使用模态间比对度可解释性一阶注意:
Figure FDA0002996785980000034
Figure FDA0002996785980000041
式中,norm(·)表示对输入向量L1的归一化运算,作为模态间注意矩阵Huv的第i行,Hi uv被视为相对于给定vi的所有单词的单词到区域亲和力分布或响应向量,它测量vi与整个单词特征集[u1,L,um]之间的距离,因此,每个元素
Figure FDA0002996785980000042
是两个区域词响应向量
Figure FDA0002996785980000043
Figure FDA0002996785980000044
的相似度,模态内注意过程是由全局语义信息驱动的,因此它是根据给定的上下文而不是原始的无上下文特征来区分语义。
6.根据权利要求1所述的一种基于上下文感知注意的图像文本检索方法,其特征在于,所述步骤4中利用图像文本匹配损失对模型进行训练的具体过程为:
将图像V和文本U的特征图分别表示为V=[v1,L,vn]和U=[u1,L,um],将图像文本检索的关注过程定义为:
Figure FDA0002996785980000045
其中f(·)和g(·)是注意力函数,分别计算每个局部片段vi和ui的得分;通过损失函数来进行权重比较,使用基于HingeLoss的双向排名损失函数:
Figure FDA0002996785980000046
m为约束条件,
Figure FDA0002996785980000047
Figure FDA0002996785980000048
为负对,vi定义为内积;最终的图像和文本特征
Figure FDA0002996785980000049
Figure FDA00029967859800000410
作为局部计算的权重值。
CN202110332595.0A 2021-03-29 2021-03-29 一种基于上下文感知注意的图像文本检索方法 Pending CN113392254A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110332595.0A CN113392254A (zh) 2021-03-29 2021-03-29 一种基于上下文感知注意的图像文本检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110332595.0A CN113392254A (zh) 2021-03-29 2021-03-29 一种基于上下文感知注意的图像文本检索方法

Publications (1)

Publication Number Publication Date
CN113392254A true CN113392254A (zh) 2021-09-14

Family

ID=77617558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110332595.0A Pending CN113392254A (zh) 2021-03-29 2021-03-29 一种基于上下文感知注意的图像文本检索方法

Country Status (1)

Country Link
CN (1) CN113392254A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113971209A (zh) * 2021-12-22 2022-01-25 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法
CN114201621A (zh) * 2021-11-24 2022-03-18 人民网股份有限公司 基于图文协同注意力的跨模态检索模型构建及检索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783657A (zh) * 2019-01-07 2019-05-21 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
US20200019807A1 (en) * 2017-09-12 2020-01-16 Tencent Technology (Shenzhen) Company Limited Training method of image-text matching model, bi-directional search method, and relevant apparatus
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200019807A1 (en) * 2017-09-12 2020-01-16 Tencent Technology (Shenzhen) Company Limited Training method of image-text matching model, bi-directional search method, and relevant apparatus
CN109783657A (zh) * 2019-01-07 2019-05-21 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QI ZHANG等: "Context-Aware Attention Network for Image-Text Retrieval", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201621A (zh) * 2021-11-24 2022-03-18 人民网股份有限公司 基于图文协同注意力的跨模态检索模型构建及检索方法
CN114201621B (zh) * 2021-11-24 2024-04-02 人民网股份有限公司 基于图文协同注意力的跨模态检索模型构建及检索方法
CN113971209A (zh) * 2021-12-22 2022-01-25 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法
CN113971209B (zh) * 2021-12-22 2022-04-19 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法

Similar Documents

Publication Publication Date Title
CN109002834B (zh) 基于多模态表征的细粒度图像分类方法
CN113657450B (zh) 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
Gao et al. Self-attention driven adversarial similarity learning network
CN114817673A (zh) 一种基于模态关系学习的跨模态检索方法
CN113392254A (zh) 一种基于上下文感知注意的图像文本检索方法
Niu et al. Knowledge-based topic model for unsupervised object discovery and localization
CN112434718B (zh) 基于深度图的新冠肺炎多模态特征提取融合方法及系统
Li et al. Fall detection based on fused saliency maps
Al-Jubouri Content-based image retrieval: Survey
Wu et al. Multimodal metadata fusion using causal strength
Wei et al. Food image classification and image retrieval based on visual features and machine learning
CN113268592B (zh) 基于多层次交互注意力机制的短文本对象情感分类方法
Patel et al. A study on video semantics; overview, challenges, and applications
CN114241606A (zh) 一种基于自适应集学习预测的人物交互检测方法
Wajid et al. Neutrosophic-CNN-based image and text fusion for multimodal classification
Luo et al. Learning sufficient scene representation for unsupervised cross-modal retrieval
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法
CN113516118B (zh) 一种图像与文本联合嵌入的多模态文化资源加工方法
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
Munusamy Multimodal attention-based transformer for video captioning
CN116958624A (zh) 指定材质的识别方法、装置、设备、介质及程序产品
Qi et al. Scalable graph based non-negative multi-view embedding for image ranking
Zhang et al. Weighted score-level feature fusion based on Dempster–Shafer evidence theory for action recognition
Liang et al. Visual concept conjunction learning with recurrent neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210914

RJ01 Rejection of invention patent application after publication