CN113392254A - 一种基于上下文感知注意的图像文本检索方法 - Google Patents
一种基于上下文感知注意的图像文本检索方法 Download PDFInfo
- Publication number
- CN113392254A CN113392254A CN202110332595.0A CN202110332595A CN113392254A CN 113392254 A CN113392254 A CN 113392254A CN 202110332595 A CN202110332595 A CN 202110332595A CN 113392254 A CN113392254 A CN 113392254A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- features
- attention
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims abstract description 36
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 238000010606 normalization Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 230000009901 attention process Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 239000013307 optical fiber Substances 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于上下文感知注意的图像文本检索方法,给定一个图像文本对,分别提取图像文本的区域特征,并将图像及文本特征映射成相同大小的维度;将提取的图像文本特征进行特征融合;在融合成的特征矩阵中提取图像片段特征与文本中的单词特征,并分别进行融合求得相似权重,对跨模态提取的特征进行归一化处理;利用图像文本匹配损失对模型进行训练;本发明的方法能够通过对图像数据库中的图像进行识别和检索,实现图片和文本的匹配。
Description
技术领域
本发明属于图像检索方法技术领域,涉及一种基于上下文感知注意的图 像文本检索方法。
背景技术
现代社会对图像检索技术的需求遍布人们生活各处,特别是在电子商 务、版权保护、医疗诊断、公共安全、街景地图等领域,图像检索应用都具 有广阔的商业前景。例如在电子商务方面,谷歌推出Goggles允许用户将拍 摄的商品图像上传至服务器端,并在服务器端运行图像检索应用,从而为用 户找到提供相同或相似商品的店铺的链接;而在版权保护方面,版权保护服 务商可以应用图像检索技术对商标进行管理,例如查询待处理商标是否已经 注册;在医疗诊断方面,图像检索技术可以协助医生做病情的诊断,例如医 生通过归类和检索医学图像库,可以更好的找到患者的病灶;而在街景地图 等应用中,图像检索技术可以帮助使用者发现街景中的物体,从而发现和规 避危险。图像检索技术目前已经被深入应用到许多领域,为用户们的生产和 生活提供了极大的便利。
常用的图像检索技术主要为基于文本的图像检索(TBIR,Text-Based Image Re-trieval),基于内容的图像检索(CBIR,Context-Based Image Retrival),以及基于语义的图像检索(SBIR,Semantic-Based Image Retrieval)。 TBIR的优点是实现过程简单,容易理解,符合人类检索习惯,并且检索结 果较为精确。但是TBIR需要耗费大量的人力对图像做人工标注,这无法满 足大型的多媒体数据库的需求,特别是当新数据出现时TBIR需要对图像重 新标注,因此很难快速适应,且TBIR无法解决标注人员在内容感知和描述 上的主观性。为了克服TBIR的问题,专家提出了CBIR。CBIR的优点是可 以通过设计算法直接从图像内容中提取特征,然后通过比对特征的相似度来 定义图像的相似度,这样可以减少人工的消耗,并且CBIR使用的近似匹配 方式相比于TBIR具有更快的检索和排序速度,然而CBIR技术也具有自身 缺陷。互联网上的图像往往来自于不同的环境和领域,基于低级视觉特征的 CBIR技术受限于特征表达能力,在现实应用中会存在严重的语义鸿沟问题, 因此在CBIR的基础上,人们提出了SBIR技术。与基于低级视觉特征的CBIR 技术不同,SBIR技术结合了自然语言处理和计算机视觉技术,使用图像的 高级语义特征查询。目前来看,SBIR技术代表了大数据时代的图像检索发 展方向,在未来SBIR技术会在更多的领域大放异彩。
在2012年,Krizhevsky等(Krizhevsky A,Sutskever I,Hinton G E.Image netclassification with deep convolutional neural networks[c]//Advances in neural information processing systems,2012:1097-1105.)在ImageNet LSVRC 大赛上利用AlexNet获得了最高的准确率,从那之后兴起了一些基于深度学 习的图像检索算法,广泛应用在图像语义分割、目标识别、图像分类以及图 像检索等领域。在深度学习算法中特别是卷积神经网络的检索效果最好,它 利用多个池化层和卷积层的组合得到图像的视觉特征,并与反馈及分类技术 相结合从而实现了较好的检索结果。
发明内容
本发明的目的是提供一种基于上下文感知注意的图像文本检索方法,能 够通过对图像数据库中的图像进行识别和检索,实现图片和文本的匹配。
本发明所采用的技术方案是,一种基于上下文感知注意的图像文本检索 方法,具体按以下步骤实施:
步骤1,给定一个图像文本对,分别提取图像文本的区域特征,并将图 像及文本特征映射成相同大小的维度;
步骤2,将提取的图像文本特征进行特征融合;
步骤3,在融合成的特征矩阵中提取图像片段特征与文本中的单词特征, 并分别进行融合求得相似权重,对跨模态提取的特征进行归一化处理;
步骤4,利用图像文本匹配损失对模型进行训练。
本发明的特点还在于:
其中步骤1具体包括以下内容:
首先使用R-CNN检测图像中的对象和其他显著区域:在这部分中,模 型使用贪心的非最大抑制和IOU阈值来选择排名最高的特征;对于每个区域 i,将通过xi的线性映射最终得到特征为vi的D维向量;其中xi为通过R-CNN 提取的原始均值池化卷积特征;
因此,目标图像v可以表示为具有最高类别检测置信分数的选定ROI的 一组特征;
为了与图像对应,将文本句子中的词映射到与图像区域相同的D维空 间;给定一个句子中m个输入字的一个热编码w={W1,L,WM},首先将其嵌入 到向量中,作为词的嵌入层作为xi=Wewi,We是端到端参数学习矩阵;然后, 将向量输入到一个双向GRU,被写为下式:
式中,GRU是提取特征的网络,x为转换成与图像特征维度相同的向量, 将向量x输入双向GRU中,最后的输出的特征是一个前向和一个后向,所 以应该连接起来求平均,为u,和分别表示向前和向后的隐 藏状态;ui的最后一个词是双向隐藏状态的平均值,它收集以wi为中心的上 下文:
其中步骤2具体包括以下内容:
对图像和文本进行特征融合,公式为H=tanh(VTKU),其中图像V和文本 U的特征图分别表示为V=[v1,L,vn]和U=[u1,L,um],K为进行融合时的权重矩 阵,H为融合后的特征矩阵;
其中步骤3中在融合成的特征矩阵H中分别提取图像特征与文本特征, 并分别进行融合求得相似权重的具体过程为:
区域的归一化注意函数f(V,U)可以表示为:
式中Wv是映射向量,Hv是捕获区域内模态相关性的注意力矩阵,Huv是 单词到区域重新加权的注意矩阵。同样,针对单词的标准化注意力函数 g(V,U)编写如下:
设计的注意功能f(V,U)和g(V,U)根据全局上下文有选择地关注那些信 息片段,同时应用了模态间注意和模态内注意;
其中步骤3中对跨模态提取的特征进行归一化的具体过程为:
词对图像注意矩阵Huv中的每个元素,从相似矩阵H的行中选取,并进 行二范数归一化处理,计算表达式为:
相似地,图像对单词的注意力Hvu计算为:
考虑到检索过程中跨两种模式的交互和消息传递,我们提出了基于语义 的注意,以探索基于区域-单词关系的模式内相关性,工作中,使用模态间 比对度可解释性一阶注意:
式中,norm(·)表示对输入向量L1的归一化运算,作为模态间注意矩阵 Huv的第i行,Hi uv被视为相对于给定vi的所有单词的单词到区域亲和力分布 或响应向量,它测量vi与整个单词特征集[u1,L,um]之间的距离,因此,每个 元素是两个区域词响应向量和的相似度,模态内注意过程是由全 局语义信息驱动的,因此它是根据给定的上下文而不是原始的无上下文特征 来区分语义;
其中步骤4中利用图像文本匹配损失对模型进行训练的具体过程为:
将图像V和文本U的特征图分别表示为V=[v1,L,vn]和U=[u1,L,um],将图 像文本检索的关注过程定义为:
其中f(·)和g(·)是注意力函数,分别计算每个局部片段vi和ui的得分; 通过损失函数来进行权重比较,使用基于HingeLoss的双向排名损失函数:
本发明的有益效果是:
本发明的一种基于上下文感知注意的图像文本检索方法,是面对图像文 本搜索基于一种统一的上下文感知注意力网络,分别使用RNN和R-CNN对 文本和图像特征进行提取,然后对提取出来的对象片段进行处理,对图像和 文本特征进行加权求和,得到相似性矩阵,保留关键的特征卷积描述符对图 像数据库中的图像特征进行相似性度量,根据度量后的不同相似度对比,得 到相似度排名。在使用统一的上下文感知注意力网络时,通过全局的上下文 选择关注局部单词和图像,进而发现潜在的语义关系。基于语义的注意力被表述为区域词对齐的一阶注意,它明确考虑了模态之间的相互作用,并有效 地利用区域词关系来推断单个模态中的语义相关性。它知道当前的输入对, 并且图像-文本对的综合上下文可以直接影响检索过程中彼此响应的计算。
附图说明
图1是本发明的一种基于上下文感知注意的图像文本检索方法的结果示 意图;
图2是本发明的一种基于上下文感知注意的图像文本检索方法中对提取 的图像与文本特征进行融合示意图;
图3是本发明的一种基于上下文感知注意的图像文本检索方法中实现图 像文本检索的步骤示意图
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
结合图像文本检索方法的框架图,如图2所示,分别将图像和文本传入 不同的模型中,模型为R-CNN和RNN;将图像和文本提取的特征转换为相 同的维度,特征图分别表示为V=[v1,L,vn]和U=[u1,L,um]并进行特征融合生成 相似矩阵H;考虑到上下文的语义信息,我们分别提取相似矩阵H的行和列 经过归一化及特征融合后,得到图像和文本相同模态内的相似矩阵Hv和Hu; 如图1所示;
为了实现图像文本跨模态检索,实现不同模态的特征融合,提出注意力 机制;注意机制旨在专注于相应任务的最相关信息,而不是平等地使用所有 可用信息;是针对交叉模式检索问题而设计的注意力机制;利用注意力机制 分别计算每个局部片段vi和ui的得分,最终的图像和文本特征和作为局部 计算的权重值,通过匹配函数S(·),实现图像与文本目标最相近的匹配结果, 通过结果的比较,来判断检索的精确程度。
本发明提供了一种基于上下文感知注意的图像文本检索方法,具体按照 以下步骤实施:
步骤1,如图3所示,给定一个图像文本对,分别提取图像文本的区域 特征,并将图像及文本特征映射成相同大小的维度:
在给定图像的情况下,我们观察图像时更加关注其显著对象,并描述其 动作和属性。我们不着眼于从像素级图像中提取全图特征,而是着眼于局部 区域并利用底层优势,我们使用R-CNN检测图像中的对象和其他显著区域。 在这部分中,模型使用贪婪的非最大抑制和IOU阈值来选择排名最高的特 征。对于每个区域i,将通过xi的线性映射最终得到特征为vi的D维向量。 其中xi为通过R-CNN提取的原始均值池化卷积特征;
因此,目标图像v可以表示为具有最高类别检测置信分数的选定ROI的 一组特征。
为了发现区域词对应,将句子中的词映射到与图像区域相同的D维空 间。我们考虑一次对单词及其上下文进行编码,而不是单独处理每个单词。 给定一个句子中m个输入字的一个热编码w={W1,L,WM},我们首先将其嵌入 到向量中,作为词的嵌入层作为xi=Wewi,在这里We是端到端参数学习矩阵。 然后,我们将向量输入到一个双向GRU,它被写为:
式中,GRU是提取特征的网络,x为转换成与图像特征维度相同的向量, 将向量x输入双向GRU中,最后的输出的特征是一个前向和一个后向,所 以应该连接起来求平均,为u,和分别表示向前和向后的隐 藏状态;ui的最后一个词是双向隐藏状态的平均值,它收集以wi为中心的上 下文:
步骤2,将提取的图像文本特征进行特征融合:
注意机制旨在专注于相应任务的最相关信息,而不是平等地使用所有可 用信息;我们首先提供针对交叉模式检索问题而设计的注意力机制的一般表 述,将图像V和文本U的特征图分别表示为V=[v1,L,vn]和U=[u1,L,um];设置 相似矩阵H=tanh(VTKU),其中K为权重矩阵,表示图像和文本进行特征融 合;
步骤3,在融合成的特征矩阵中提取图像片段特征与文本中的单词特征, 并分别进行融合求得相似权重,对跨模态提取的特征进行归一化处理:
注意池网络基于每个片段的重要性表示为其与另一模态片段的最大相 似性的假设,执行按列和按行的最大池,当f(V,U)在H上应用行最大池运算 后成为softmax计算时,它是所提出的注意过程的一个替代版本;此外,我们 不仅计算相似矩阵,而且将其用作预测注意力图的特征,更具体地说,一个 片段的重要性得分是由所有相关片段决定的,考虑到单个模态中的模态内相 关性和所有区域词对之间的模态间对齐。基于此考虑,区域的归一化注意函 数f(V,U)可以表示为:
式中,Wv是映射向量,Hv是捕获区域内模态相关性的注意力矩阵,Huv是单词到区域重新加权的注意矩阵,同样,针对单词的标准化注意力函数g(V,U)编写如下:
设计的注意功能f(V,U)和g(V,U)根据全局上下文有选择地关注那些信 息片段,同时应用了模态间注意和模态内注意;
词对图像注意矩阵Huv中的每个元素,从相似矩阵H的行中选取,并进 行二范数归一化处理,计算表达式为:
相似地,图像对单词的注意力Hvu计算为:
考虑到检索过程中跨两种模式的交互和消息传递,我们提出了基于语义 的注意,以探索基于区域-单词关系的模式内相关性,在我们的工作中,我 们使用模态间比对的可解释性一阶注意:
式中,norm(·)表示对输入向量L1的归一化运算。作为模态间注意矩阵Huv的第i行,Hi uv被视为相对于给定vi的所有单词的单词到区域亲和力分布或响 应向量。它测量vi与整个单词特征集[u1,L,um]之间的距离。因此,每个元素是两个区域词响应向量和的相似度。模态内注意过程是由全局语义信 息驱动的。因此它是根据给定的上下文而不是原始的无上下文特征来区分语 义;
步骤4,利用图像文本匹配损失对模型进行训练:
将图像V和文本U的特征图分别表示为V=[v1,L,vn]和U=[u1,L,um];将图 像文本检索的关注过程定义为:
式中,f(·)和g(·)是注意力函数,分别计算每个局部片段vi和ui的得分; 通过损失函数来进行权重比较,使用基于HingeLoss的双向排名损失函数:
Claims (6)
1.一种基于上下文感知注意的图像文本检索方法,其特征在于,具体按以下步骤实施:
步骤1,给定一个图像文本对,分别提取图像文本的区域特征,并将图像及文本特征映射成相同大小的维度;
步骤2,将提取的图像文本特征进行特征融合;
步骤3,在融合成的特征矩阵中提取图像片段特征与文本中的单词特征,并分别进行融合求得相似权重,对跨模态提取的特征进行归一化处理;
步骤4,利用图像文本匹配损失对模型进行训练。
2.根据权利要求1所述的一种基于上下文感知注意的图像文本检索方法,其特征在于,所述步骤1具体包括以下内容:
首先使用R-CNN检测图像中的对象和其他显著区域:在这部分中,模型使用贪心的非最大抑制和IOU阈值来选择排名最高的特征;对于每个区域i,将通过xi的线性映射最终得到特征为vi的D维向量;其中xi为通过R-CNN提取的原始均值池化卷积特征;
因此,目标图像v可以表示为具有最高类别检测置信分数的选定ROI的一组特征;
为了与图像对应,将文本句子中的词映射到与图像区域相同的D维空间;给定一个句子中m个输入字的一个热编码w={W1,L,WM},首先将其嵌入到向量中,作为词的嵌入层作为xi=Wewi,We是端到端参数学习矩阵;然后,将向量输入到一个双向GRU,被写为下式:
式中,GRU是提取特征的网络,x为转换成与图像特征维度相同的向量,将向量x输入双向GRU中,最后的输出的特征是一个前向和一个后向,所以应该连接起来求平均,为u,和分别表示向前和向后的隐藏状态;ui的最后一个词是双向隐藏状态的平均值,它收集以wi为中心的上下文:
3.根据权利要求1所述的一种基于上下文感知注意的图像文本检索方法,其特征在于,所述步骤2具体包括以下内容:
对图像和文本进行特征融合,公式为H=tanh(VTKU),其中图像V和文本U的特征图分别表示为V=[v1,L,vn]和U=[u1,L,um],K为进行融合时的权重矩阵,H为融合后的特征矩阵。
5.根据权利要求1所述的一种基于上下文感知注意的图像文本检索方法,其特征在于,所述步骤3中对跨模态提取的特征进行归一化的具体过程为:
词对图像注意矩阵Huv中的每个元素,从相似矩阵H的行中选取,并进行二范数归一化处理,计算表达式为:
相似地,图像对单词的注意力Hvu计算为:
考虑到检索过程中跨两种模式的交互和消息传递,我们提出了基于语义的注意,以探索基于区域-单词关系的模式内相关性,工作中,使用模态间比对度可解释性一阶注意:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110332595.0A CN113392254A (zh) | 2021-03-29 | 2021-03-29 | 一种基于上下文感知注意的图像文本检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110332595.0A CN113392254A (zh) | 2021-03-29 | 2021-03-29 | 一种基于上下文感知注意的图像文本检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113392254A true CN113392254A (zh) | 2021-09-14 |
Family
ID=77617558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110332595.0A Pending CN113392254A (zh) | 2021-03-29 | 2021-03-29 | 一种基于上下文感知注意的图像文本检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392254A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113971209A (zh) * | 2021-12-22 | 2022-01-25 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
CN114201621A (zh) * | 2021-11-24 | 2022-03-18 | 人民网股份有限公司 | 基于图文协同注意力的跨模态检索模型构建及检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783657A (zh) * | 2019-01-07 | 2019-05-21 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
US20200019807A1 (en) * | 2017-09-12 | 2020-01-16 | Tencent Technology (Shenzhen) Company Limited | Training method of image-text matching model, bi-directional search method, and relevant apparatus |
CN111026894A (zh) * | 2019-12-12 | 2020-04-17 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
-
2021
- 2021-03-29 CN CN202110332595.0A patent/CN113392254A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200019807A1 (en) * | 2017-09-12 | 2020-01-16 | Tencent Technology (Shenzhen) Company Limited | Training method of image-text matching model, bi-directional search method, and relevant apparatus |
CN109783657A (zh) * | 2019-01-07 | 2019-05-21 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN111026894A (zh) * | 2019-12-12 | 2020-04-17 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
Non-Patent Citations (1)
Title |
---|
QI ZHANG等: "Context-Aware Attention Network for Image-Text Retrieval", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114201621A (zh) * | 2021-11-24 | 2022-03-18 | 人民网股份有限公司 | 基于图文协同注意力的跨模态检索模型构建及检索方法 |
CN114201621B (zh) * | 2021-11-24 | 2024-04-02 | 人民网股份有限公司 | 基于图文协同注意力的跨模态检索模型构建及检索方法 |
CN113971209A (zh) * | 2021-12-22 | 2022-01-25 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
CN113971209B (zh) * | 2021-12-22 | 2022-04-19 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109002834B (zh) | 基于多模态表征的细粒度图像分类方法 | |
CN113657450B (zh) | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 | |
CN114936623B (zh) | 一种融合多模态数据的方面级情感分析方法 | |
Gao et al. | Self-attention driven adversarial similarity learning network | |
CN114817673A (zh) | 一种基于模态关系学习的跨模态检索方法 | |
CN113392254A (zh) | 一种基于上下文感知注意的图像文本检索方法 | |
Niu et al. | Knowledge-based topic model for unsupervised object discovery and localization | |
CN112434718B (zh) | 基于深度图的新冠肺炎多模态特征提取融合方法及系统 | |
Li et al. | Fall detection based on fused saliency maps | |
Al-Jubouri | Content-based image retrieval: Survey | |
Wu et al. | Multimodal metadata fusion using causal strength | |
Wei et al. | Food image classification and image retrieval based on visual features and machine learning | |
CN113268592B (zh) | 基于多层次交互注意力机制的短文本对象情感分类方法 | |
Patel et al. | A study on video semantics; overview, challenges, and applications | |
CN114241606A (zh) | 一种基于自适应集学习预测的人物交互检测方法 | |
Wajid et al. | Neutrosophic-CNN-based image and text fusion for multimodal classification | |
Luo et al. | Learning sufficient scene representation for unsupervised cross-modal retrieval | |
CN116756363A (zh) | 一种由信息量引导的强相关性无监督跨模态检索方法 | |
CN113516118B (zh) | 一种图像与文本联合嵌入的多模态文化资源加工方法 | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
Munusamy | Multimodal attention-based transformer for video captioning | |
CN116958624A (zh) | 指定材质的识别方法、装置、设备、介质及程序产品 | |
Qi et al. | Scalable graph based non-negative multi-view embedding for image ranking | |
Zhang et al. | Weighted score-level feature fusion based on Dempster–Shafer evidence theory for action recognition | |
Liang et al. | Visual concept conjunction learning with recurrent neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210914 |
|
RJ01 | Rejection of invention patent application after publication |