CN113902764A - 基于语义的图像-文本的跨模态检索方法 - Google Patents

基于语义的图像-文本的跨模态检索方法 Download PDF

Info

Publication number
CN113902764A
CN113902764A CN202111374052.1A CN202111374052A CN113902764A CN 113902764 A CN113902764 A CN 113902764A CN 202111374052 A CN202111374052 A CN 202111374052A CN 113902764 A CN113902764 A CN 113902764A
Authority
CN
China
Prior art keywords
image
text
matching
representing
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111374052.1A
Other languages
English (en)
Inventor
杨晓春
李晓静
郑晗
王斌
张晓红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202111374052.1A priority Critical patent/CN113902764A/zh
Publication of CN113902764A publication Critical patent/CN113902764A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于语义的图像‑文本的跨模态检索方法,涉及数据库技术领域。本发明解决了现存在的方法缺乏对语义的理解,尤其是图像,在图像‑文本跨模态匹配中,通过增强图像表示,加强对语义的理解。在图像文本匹配的过程,增强相关信息,抑制不相关的信息。这样更有利于图像‑文本的跨模态匹配。对比于全局匹配,本文将能细粒度的找到所有匹配的信息,不完全依赖实体共现。并且巧妙的应用了注意力机制和门控机制,实现图像文本跨模态匹配。

Description

基于语义的图像-文本的跨模态检索方法
技术领域
本发明涉及数据库技术领域,尤其涉及一种基于语义的图像-文本的跨模态检索方法。
背景技术
由于来自社交媒体和网络应用的多媒体数据的爆炸性增长,图像-文本双向检索在学术和工业界变得越来越流行。这个任务定义为给定一个图像去检索与图像语义相似的文本;给定一个文本去检索于文本语义相似的图像。图像-文本的跨模态检索本质是处理图像-文本匹配的任务。在一定程度上,图像-文本跨模态检索促进了视觉与语言的相互理解;同时可以应用到搜索引擎。但是,这一任务也面临很大的挑战,由于图像和文本属于不同的结构,学习两种异构的数据变得很困难。如何准确的度量两种不同结构的数据的对应关系是一个难题。
在近年,为了解决图像和文本的异构性,很多关于图像-文本的跨模态检索方法被提出来。但是很多是关于粗粒度的方法,通过神经网络的方法,把图像和文本直接映射到同一潜在的子空间;然后通过计算图像和文本特征之间的距离,度量两者的相似性;距离越小相似性越大,距离越大相似性越小。但是,这些方法粗略地捕捉了模态之间的对应关系,没有考虑图像和文本的语义对应,从而不能提高匹配的准确性。为了进一步提高匹配的准确性,一些方法探索了图像和文本之间的细粒度交互。同时为了更深入地理解这种细粒度的对应关系,最近的研究提出了跨模态图像-文本检索的细粒度对应的方法。每个图像和文本分别生成图像区域特征表示和文本单词特征表示,并将图像的区域与问文本的单词对齐。目前最好的对齐方法应用了注意力机制,将每个片段与来自另一个模态的所有片段对齐,是一种一对多的关系。它可以灵活地发现细粒度的对应关系,但是也存在不足。图像区域特征的提取只是像素级别的,图像区域之间的关系没有考虑,从而没有解决图像模态内的语义关系;在处理模态间的关系时,采用图像-文本的注意力机制,考虑了很多不相关的语义信息;从而不能准确的挖掘出图像-文本的细粒度语义对应。
发明内容
针对现有技术的不足,本发明提供一种基于语义的图像-文本的跨模态检索方法。
一种基于语义的图像-文本的跨模态检索方法,包括以下步骤:
步骤1、分别对待测图片的图像特征以及文本特征进行提取;
所述图像特征采用深度学习算法Faster R-CNN提取出每张图像的m个区域,再采用预训练残差网络提出每个区域的特征fi,如下式所示:
vi=Wvfi+bv
其中Wv和bv是学习参数;通过全连接学习fi特征,生成图像的特征表示vi,最终图像的特征表示如下式所示:
V={vi|i=1,…,m,vi∈Rd}
V表示该图像的全部区域特征,m表示图像的区域个数,vi表示该图像的区域特征,vi表示该图像的区域特征,Rd表示特征维度;
所述文本特征采用双向门控循环单元生成文本表示,如下式所示
T={tj|j=1,…,n,tj∈Rd}
T表示文本的全部单词特征,tj表示文本中的第j个单词的特征表示,n表示文本中单词的个数,Rd表示特征维度
步骤2、增强图像表示:
采用双向门控循环单元RNN生成结合图像上下文的图像区域表示,把一张图片的每个区域看成一个节点,计算结合图像上下文的图像区域特征表示;如下式所示:
U={ui|i=1,…,m,ui∈Rd}
其中Wg是学习参数;U表示结合上下文的图像特征表示,ui表示第i个有上下文语义的区域特征;
步骤3、采用注意力机制进行跨模态检索,分别学习基于文本的区域特征,以及基于图像的单词特征;
其中跨模态检索分为图像-文本匹配和文本-图像匹配;
所述图像-文本匹配采用注意力机制将该图像的某一个区域与匹配句子中的所有单词对齐,将学习到每个区域对应的文本信息,得到一个新的表示,这个表示代表从文本传到视觉的语义信息;即先计算图像区域与句子单词的相似性,如下所示:
Figure BDA0003363211900000021
其中Zij度量图像区域和文本单词之间相似度,||·||表示l2范数,对Zij进行归一化得到对横轴归一化后的相似性
Figure BDA0003363211900000022
再将
Figure BDA0003363211900000023
进行softmax归一化处理得到对
Figure BDA0003363211900000024
归一化后的相似性
Figure BDA0003363211900000025
如下式所示:
Figure BDA0003363211900000026
Figure BDA0003363211900000031
将它与对应的单词特征相乘再求和得到基于文本的区域表示
Figure BDA0003363211900000032
如下式所示:
Figure BDA0003363211900000033
所述文本-图像匹配如下所示:
Figure BDA0003363211900000034
Figure BDA0003363211900000035
Figure BDA0003363211900000036
对Zij进行归一化得到对纵轴归一化后的相似性
Figure BDA0003363211900000037
再将
Figure BDA0003363211900000038
进行softmax归一化处理得到对
Figure BDA0003363211900000039
归一化后的相似性
Figure BDA00033632119000000310
是基于图像的单词表示;
步骤4、采用了改进的门控机制加强图像-文本的语义匹配,过滤掉匹配中与设定不相关的信息,生成新的图像,同时进行文本-图像匹配,生成新的文本;如下式所示:
Figure BDA00033632119000000311
Figure BDA00033632119000000312
Figure BDA00033632119000000313
其中Wg,bg,Wo,bo是学习参数;gi表示图像-文本的更新门,sigmoid()是一个激活函数,Oi表示图像-文本的融合特征;
同样使文本-图像匹配,生成新的文本表示
Figure BDA00033632119000000314
具体实现如下式所示:
Figure BDA00033632119000000315
Figure BDA00033632119000000316
Figure BDA00033632119000000317
其中Wh,bh,Wm,bm,是学习参数;gj*表示文本-图像的更新门,Oj*表示文本-图像的融合特征;
步骤5、分别计算图像和文本的相似度;采用计算局部的相似性,求和平均得到图像和文本的相似性;如下式所示:
Figure BDA0003363211900000041
Figure BDA0003363211900000042
其中Ib表示给定图像,S表示匹配的文本;Sb表示给定图像,I表示匹配的文本;
G(Ib,S),G(I,Sb),分别表示匹配文本的得分和匹配图像的得分。
步骤6、采用最大硬度的排序损失函数L对设定批量的图像文本匹配进行训练,训练结束后,给定一张目标图像或者句子,即可找到最匹配的句子或者图像。
所述损失函数L如下式所示:
Figure BDA0003363211900000043
其中F(Ib,Sb)是G(Ib,S)和G(I,Sb)之和,表示是匹配文本得到分数;F(Ib,Sb*)是不匹配文本得到的分数;F(Ib*,Sb)表示不是匹配图像得到的分数,B表示最小批量;Δ表示边界值;[·]+表示max();
采用上述技术方案所产生的有益效果在于:
本发明提出了一种基于语义顺序的图像-文本的跨模态检索方法,主要解决现存在的方法缺乏对语义的理解,尤其是图像,它不像句子具有上下文关系。在图像-文本跨模态匹配中,通过增强图像表示,加强对语义的理解。在图像文本匹配的过程,增强相关信息,抑制不相关的信息。这样更有利于图像-文本的跨模态匹配。对比于全局匹配,本文将能细粒度的找到所有匹配的信息,不完全依赖实体共现。并且巧妙的应用了注意力机制和门控机制,实现图像文本匹配。
附图说明
图1为本发明总体流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一种基于语义的图像-文本的跨模态检索方法,如图1所示,包括以下步骤:
步骤1、提取待测图片的图像和文本的特征;
所述图像特征采用深度学习算法Faster R-CNN提取出每张图像的m个区域,根据实验证明选取36个区域最佳。再采用预训练残差网络提出每个区域的特征fi,本实施例中fi为2048维;如下式所示:
vi=Wvfi+bv
其中Wv和bv是学习参数;通过全连接学习fi特征,生成vi是1024维;最终图像的特征表示如下式所示:
V={vi|i=1,…,m,vi∈Rd}
V表示该图像的全部区域特征,m表示图像的区域个数,vi表示该图像的区域特征,vi表示该图像的区域特征,Rd表示vi的特征维度;
本实施例中m=36;
所述文本特征采用双向门控循环单元生成文本表示,如下式所示
T={tj|j=1,…,n,tj∈Rd}
T表示文本的全部单词特征,tj表示文本中的第j个单词的特征表示,n表示文本中单词的个数,Rd表示tj的特征维度
步骤2、增强图像表示;
图像的区域表示,不像文本一样具有语义顺序。在一张图像中,每个区域之间存在语义关系,但是步骤1所提取出来的区域特征缺乏这种上下文的语义关系。采用双向门控循环单元生成结合上下文的图像区域表示,把一张每个区域看成一个节点,计算结合上下文的图像区域特征表示。如下式所示:
U={ui|i=1,…,m,ui∈Rd}
其中Wg是学习参数;U表示结合上下文的图像特征表示,ui表示第i个有上下文语义的区域特征;
步骤3、采用注意力机制,分别学习基于文本的区域特征,基于图像的单词特征;
跨模态检索分为图像-文本匹配和文本-图像匹配两个部分,两个部分的网络结构是对称的,先详细介绍图像-文本匹配。
所述图像-文本匹配采用注意力机制将该图像的某一个区域与匹配句子中的所有单词对齐,将学习到每个区域对应的文本信息,得到一个新的表示,这个表示代表从文本传到视觉的语义信息;具体实现,先计算图像区域与句子单词的相似性,如下所示:
Figure BDA0003363211900000051
其中Zij度量图像区域和文本单词之间相似度,||·||表示l2范数,对Zij进行归一化得到对横轴归一化后的相似性
Figure BDA0003363211900000061
再将
Figure BDA0003363211900000062
进行softmax归一化处理得到对
Figure BDA0003363211900000063
归一化后的相似性
Figure BDA0003363211900000064
如下式所示:
Figure BDA0003363211900000065
Figure BDA0003363211900000066
将它与对应的单词特征相乘再求和得到基于文本的区域表示
Figure BDA0003363211900000067
如下式所示:
Figure BDA0003363211900000068
同样,文本-图像匹配,具体实现如下:
Figure BDA0003363211900000069
Figure BDA00033632119000000610
Figure BDA00033632119000000611
对Zij进行归一化得到对纵轴归一化后的相似性
Figure BDA00033632119000000612
再将
Figure BDA00033632119000000613
进行softmax归一化处理得到对
Figure BDA00033632119000000614
归一化后的相似性
Figure BDA00033632119000000615
步骤4、采用了改进的门控机制加强图像-文本的语义匹配,过滤掉匹配中不相关的信息,具体说,增强相关信息,抑制不相关信息,生成新的图像表示
Figure BDA00033632119000000616
如下式所示:
Figure BDA00033632119000000617
Figure BDA00033632119000000618
Figure BDA00033632119000000619
其中Wg,bg,Wo,bo是学习参数;gi表示图像-文本的更新门,sigmoid()是一个激活函数,Oi表示图像-文本的融合特征;
同样使文本-图像匹配,生成新的文本表示
Figure BDA00033632119000000620
具体实现如下式所示:
Figure BDA00033632119000000621
Figure BDA00033632119000000622
Figure BDA00033632119000000623
其中Wh,bh,Wm,bm,是学习参数;gj*表示文本-图像的更新门,Oj*表示文本-图像的融合特征;
步骤5、计算图像和文本的相似度;
在度量图像和文本的相似度采用计算局部的相似性,求和平均得到图像和文本的相似性,如下式所示:
Figure BDA0003363211900000071
Figure BDA0003363211900000072
其中Ib表示给定图像,S表示匹配的文本;Sb表示给定图像,I表示匹配的文本;
G(Ib,S),G(I,Sb),分别表示匹配文本的得分和匹配图像的得分。
步骤6、采用最大硬度的排序损失函数对图像文本匹配进行训练,一次对所有的数据进行训练,会降低计算效率,选择小批量一次次进行计算。训练结束后,给定一张图像或者句子,即可找到最匹配的句子或者图像。
损失函数L如下式所示:
Figure BDA0003363211900000073
其中F(Ib,Sb)是G(Ib,S)和G(I,Sb)之和,表示是匹配文本得到分数;F(Ib,Sb*)是不匹配文本得到的分数;F(Ib*,Sb)表示不是匹配图像得到的分数,B表示最小批量;Δ表示边界值;[·]+表示max()。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (7)

1.一种基于语义的图像-文本的跨模态检索方法,其特征在于,包括以下步骤:
步骤1、分别对待测图片的图像特征以及文本特征进行提取;
步骤2、增强图像表示:
采用双向门控循环单元RNN生成结合图像上下文的图像区域表示,把一张图片的每个区域看成一个节点,计算结合图像上下文的图像区域特征表示;
步骤3、采用注意力机制进行跨模态检索,分别学习基于文本的区域特征,以及基于图像的单词特征;
步骤4、采用了改进的门控机制加强图像-文本的语义匹配,过滤掉匹配中与设定不相关的信息,生成新的图像,同时进行文本-图像匹配,生成新的文本;
步骤5、分别计算图像和文本的相似度;采用计算局部的相似性,求和平均得到图像和文本的相似性;
步骤6、采用最大硬度的排序损失函数L对设定批量的图像文本匹配进行训练,训练结束后,给定一张目标图像或者句子,即可找到最匹配的句子或者图像。
2.根据权利要求1所述的基于语义的图像-文本的跨模态检索方法,其特征在于,步骤1中所述图像特征采用深度学习算法Faster R-CNN提取出每张图像的m个区域,再采用预训练残差网络提出每个区域的特征fi,如下式所示:
vi=Wvfi+bv
其中Wv和bv是学习参数;通过全连接学习fi特征,生成图像的特征表示vi,最终图像的特征表示如下式所示:
V={vi|i=1,…,m,vi∈Rd}
V表示该图像的全部区域特征,m表示图像的区域个数,vi表示该图像的区域特征,vi表示该图像的区域特征,Rd表示特征维度;
所述文本特征采用双向门控循环单元生成文本表示,如下式所示
T={tj|j=1,…,n,tj∈Rd}
T表示文本的全部单词特征,tj表示文本中的第j个单词的特征表示,n表示文本中单词的个数,Rd表示特征维度。
3.根据权利要求1所述的基于语义的图像-文本的跨模态检索方法,其特征在于,步骤2中所述结合上下文的图像区域特征表示如下式所示:
U={ui|i=1,…,m,ui∈Rd}
其中Wg是学习参数;U表示结合上下文的图像特征表示,ui表示第i个有上下文语义的区域特征。
4.根据权利要求1所述的基于语义的图像-文本的跨模态检索方法,其特征在于,步骤3中所述跨模态检索分为图像-文本匹配和文本-图像匹配;
其中所述图像-文本匹配采用注意力机制将该图像的某一个区域与匹配句子中的所有单词对齐,将学习到每个区域对应的文本信息,得到一个新的表示,这个表示代表从文本传到视觉的语义信息;即先计算图像区域与句子单词的相似性,如下所示:
Figure FDA0003363211890000021
其中Zij度量图像区域和文本单词之间相似度,‖·‖表示l2范数,对Zij进行归一化得到对横轴归一化后的相似性
Figure FDA0003363211890000022
再将
Figure FDA0003363211890000023
进行softmax归一化处理得到对
Figure FDA0003363211890000024
归一化后的相似性
Figure FDA0003363211890000025
如下式所示:
Figure FDA0003363211890000026
Figure FDA0003363211890000027
将它与对应的单词特征相乘再求和得到基于文本的区域表示
Figure FDA0003363211890000028
如下式所示:
Figure FDA0003363211890000029
所述文本-图像匹配如下所示:
Figure FDA00033632118900000210
Figure FDA00033632118900000211
Figure FDA00033632118900000212
对Zij进行归一化得到对纵轴归一化后的相似性
Figure FDA00033632118900000213
再将
Figure FDA00033632118900000214
进行softmax归一化处理得到对
Figure FDA00033632118900000215
归一化后的相似性
Figure FDA00033632118900000216
5.根据权利要求1所述的基于语义的图像-文本的跨模态检索方法,其特征在于,步骤4中所述生成新的图像
Figure FDA00033632118900000217
如下式所示:
Figure FDA0003363211890000031
Figure FDA0003363211890000032
Figure FDA0003363211890000033
其中Wg,bg,Wo,bo是学习参数;gi表示图像-文本的更新门,sigmoid()是一个激活函数,Oi表示图像-文本的融合特征;
所述生成新的文本
Figure FDA0003363211890000034
如下式所示:
Figure FDA0003363211890000035
Figure FDA0003363211890000036
Figure FDA0003363211890000037
其中Wh,bh,Wm,bm,是学习参数;gj*表示文本-图像的更新门,Oj*表示文本-图像的融合特征。
6.根据权利要求1所述的基于语义的图像-文本的跨模态检索方法,其特征在于,步骤5中所述图像和文本的相似性,如下式所示:
Figure FDA0003363211890000038
Figure FDA0003363211890000039
其中Ib表示给定图像,S表示匹配的文本;Sb表示给定图像,I表示匹配的文本;
G(Ib,S),G(I,Sb),分别表示匹配文本的得分和匹配图像的得分。
7.根据权利要求1所述的基于语义的图像-文本的跨模态检索方法,其特征在于,步骤6中所述损失函数L如下式所示:
Figure FDA00033632118900000310
其中F(Ib,Sb)是G(Ib,S)和G(I,Sb)之和,表示是匹配文本得到分数;F(Ib,Sb*)是不匹配文本得到的分数;F(Ib*,Sb)表示不是匹配图像得到的分数,B表示最小批量;△表示边界值;[·]+表示max()。
CN202111374052.1A 2021-11-19 2021-11-19 基于语义的图像-文本的跨模态检索方法 Pending CN113902764A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111374052.1A CN113902764A (zh) 2021-11-19 2021-11-19 基于语义的图像-文本的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111374052.1A CN113902764A (zh) 2021-11-19 2021-11-19 基于语义的图像-文本的跨模态检索方法

Publications (1)

Publication Number Publication Date
CN113902764A true CN113902764A (zh) 2022-01-07

Family

ID=79194742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111374052.1A Pending CN113902764A (zh) 2021-11-19 2021-11-19 基于语义的图像-文本的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN113902764A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033727A (zh) * 2022-05-10 2022-09-09 中国科学技术大学 基于跨模态置信度感知的图像文本匹配方法
WO2024098533A1 (zh) * 2022-11-08 2024-05-16 苏州元脑智能科技有限公司 图文双向搜索方法、装置、设备及非易失性可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084358A (zh) * 2020-09-04 2020-12-15 中国石油大学(华东) 基于带有主题约束的区域强化网络的图像-文本匹配方法
CN113221882A (zh) * 2021-05-11 2021-08-06 西安交通大学 一种面向课程领域的图像文本聚合方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084358A (zh) * 2020-09-04 2020-12-15 中国石油大学(华东) 基于带有主题约束的区域强化网络的图像-文本匹配方法
CN113221882A (zh) * 2021-05-11 2021-08-06 西安交通大学 一种面向课程领域的图像文本聚合方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KUANG-HUEI LEE等: ""Stacked Cross Attention for Image-Text Matching"", 《ARXIV》, 23 July 2018 (2018-07-23), pages 1 - 25 *
XIAOJING LI,BIN WANG等: ""DSGSR:Dynamic Semantic Generation and Similarity Reasoning for Image-Text Matching"", 《CAAI INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE》, 6 June 2021 (2021-06-06), pages 168 - 179 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033727A (zh) * 2022-05-10 2022-09-09 中国科学技术大学 基于跨模态置信度感知的图像文本匹配方法
CN115033727B (zh) * 2022-05-10 2023-06-20 中国科学技术大学 基于跨模态置信度感知的图像文本匹配方法
WO2024098533A1 (zh) * 2022-11-08 2024-05-16 苏州元脑智能科技有限公司 图文双向搜索方法、装置、设备及非易失性可读存储介质

Similar Documents

Publication Publication Date Title
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
WO2021114745A1 (zh) 一种基于词缀感知的社交媒体命名实体识别方法
WO2021212749A1 (zh) 命名实体标注方法、装置、计算机设备和存储介质
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
Mohd et al. Quranic optical text recognition using deep learning models
CN113902764A (zh) 基于语义的图像-文本的跨模态检索方法
Rizvi et al. Optical character recognition system for Nastalique Urdu-like script languages using supervised learning
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN112883199A (zh) 一种基于深度语义邻居和多元实体关联的协同消歧方法
CN116362221A (zh) 融合多模态语义关联图谱的航空文献关键词相似度判定方法
CN115017884B (zh) 基于图文多模态门控增强的文本平行句对抽取方法
CN114357148A (zh) 一种基于多级别网络的图像文本检索方法
CN115658934A (zh) 一种基于多类注意力机制的图文跨模态检索方法
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
CN111597330A (zh) 一种基于支持向量机的面向智能专家推荐的用户画像方法
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
Wei et al. Word image representation based on visual embeddings and spatial constraints for keyword spotting on historical documents
Tian et al. Research on image classification based on a combination of text and visual features
CN113516118B (zh) 一种图像与文本联合嵌入的多模态文化资源加工方法
CN116341655A (zh) 一种基于多模态协同表示学习的实体对齐方法
CN115292533A (zh) 视觉定位驱动的跨模态行人检索方法
CN115203429A (zh) 一种用于构建审计领域本体框架的知识图谱自动扩充方法
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination