CN115344735A - 一种层次化对齐的图像文本检索方法 - Google Patents

一种层次化对齐的图像文本检索方法 Download PDF

Info

Publication number
CN115344735A
CN115344735A CN202210968147.4A CN202210968147A CN115344735A CN 115344735 A CN115344735 A CN 115344735A CN 202210968147 A CN202210968147 A CN 202210968147A CN 115344735 A CN115344735 A CN 115344735A
Authority
CN
China
Prior art keywords
text
image
low
stages
transformer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210968147.4A
Other languages
English (en)
Inventor
杨阳
宾燚
李灏轩
史文浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210968147.4A priority Critical patent/CN115344735A/zh
Publication of CN115344735A publication Critical patent/CN115344735A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种层次化对齐的图像文本检索方法,采用了统一的Transformer架构来提取与学习图像与文本特征,并且引入一个分层对齐策略,在Transformer的不同层次捕捉更多,更丰富的语义信息。因此图像文本均采用统一的Transformer模型,且层次性充分的利用了Transformer结构所得到的模态特征,所以最终通过统一的模型架构得到了兼容性更好的表征,完成了更好的语义对齐,实现图像文本检索。

Description

一种层次化对齐的图像文本检索方法
技术领域
本发明属于跨模态检索技术领域,更为具体地讲,是一种层次化对齐的图像文本检索方法。
背景技术
跨模态检索任务是多模态领域的基本任务和常见任务之一,其目标是通过一个模态的样本能够准确检索到另一个模态所对应的样本。这里研究最重要且最普遍的两种模态,即视觉信息与文本数据间的检索任务。
现有的跨模态检索方法,可以分为全局对齐方法与局部对齐方法。全局对齐方法是通过将图像与文本整体映射到一个统一的语义空间以进行度量来探索其相关性。通常使用CNN(Convolutional Neural Network)卷积神经网络来进行图像特征的提取,RNN(Recurrent Neural Network)循环神经网络来进行文本特征的提取。但是这样的方法忽略了图像区域与文本单词间的局部线索。因此,局部对齐方法被提出,其通过提取图像文本的局部特征来进行建模,以完成图像文本间的对齐。通常使用Faster RCNN(快速区域卷积神经网络)进行图像区域特征的提取,Bi-GRU(Bi-Gate Recurrent Unit)双向门控循环单元等RNN进行文本单词的提取。尽管局部对齐的跨模态检索方法能够有效的利用图像区域与文本单词间的细微线索,进一步完成更好的图像文本间的对齐。但无论是局部对齐,还是全局对齐,其在进行特征提取时,对于不同模态所采用的架构都是不相同的。即对于图像数据,采用具有多尺度,局部性和平移不变性等与图像相关的归纳偏置的卷积神经网络来进行特征信息的提取,而对于文本数据,则采用具有时序性等与语言相关的归纳偏置的循环神经网络来进行特征信息的提取。这样的特征提取方式虽然各自符合其所对应模态信息的特性,但在跨模态检索任务中,其关键在于对于公共空间的建模与度量。因此,不同的模型架构会造成两点不足,(1)不同的架构可能会引起不同的语义分布空间,使得最终学习到的表征在语义映射和相似性测量中不太兼容。(2)通过不同架构进行特征提取,无法进行全方面的,从浅入深的提取所需信息。捕捉不到不同语义层次的对应关系。
发明内容
本发明的目的在于克服现有技术的不足,提供一种层次化对齐的图像文本检索方法。具体为采用一个统一的结构,层次性充分的利用了Transformer(深度自注意力转换模型)结构所得到的模态特征,从而得到了兼容性更好的表征,完成了更好的语义对齐。
为实现上述发明目的,本发明一种层次化对齐的图像文本检索方法,其特征在于,包括以下步骤:
(1)、建立检索库;
选取一张待检索图像I,将包含有图像I匹配文本的所有文本Tt组成文本集合,最后将图像I及对应文本集合作为检索库,其中,t表示第t个文本;
(2)、提取图像文本特征;
(2.1)、提取图像特征;
将12个Transformer模块组成Swin-Transformer(移动窗口Transformer)模型,12个Transformer模块划分为低、中、高3个阶段,Swin-Transformer模型预训练完成后对图像I进行图像区域的特征提取,得到低、中、高3个阶段的特征输出图,分别记为Vlow,Vmiddle,Vhigh,从而将分层特征Vh表示为:
Vh={Vlow,Vmiddle,Vhigh}
Figure BDA0003795683310000021
Figure BDA0003795683310000022
Figure BDA0003795683310000023
其中,
Figure BDA0003795683310000024
表示低、中、高三个阶段所划分出的第k、第m、第g个图像区域的图像特征,K、M、G为不同阶段所划分出区域数量;
(2.2)、提取文本特征;
将12个Transformer模块组成BERT(基于Transformer的双向编码器)模型,12个Transformer模块划分为低、中、高3个阶段,BERT模型预训练完成后对所有文本进行文本特征提取,得到低、中、高3个阶段的文本特征Tt,分别记为Wt low,Wt middle,Wt high,从而将分层特征
Figure BDA0003795683310000025
表示为:
Figure BDA0003795683310000026
Figure BDA0003795683310000031
Figure BDA0003795683310000032
Figure BDA0003795683310000033
其中,l=1,2,…,L,
Figure BDA0003795683310000034
表示第t个文本中低、中、高三个阶段所提取的第l个单词特征,L为第t个文本中单词数量;
(3)、层次化对齐;
(3.1)、计算第p个图像区对应第t个文本中第q个单词的交叉注意力权重Spq
Figure BDA0003795683310000035
其中,||·||表示L2范数操作;
Figure BDA0003795683310000036
泛指其中的一种特征;
Figure BDA0003795683310000037
泛指其中的一种特征;上标T表示转置;
(3.2)、基于注意力交叉权重,计算第p个图像区对应第t个文本中第q个单词的权重apq
Figure BDA0003795683310000038
(3.3)、将第p个图像区对应第t个文本中所有单词按照权重求和,得到第p个图像区域对应的加权求和后单词特征ap
Figure BDA0003795683310000039
其中,
Figure BDA00037956833100000310
为Spq的归一化值,λ为温度超参数;
(3.4)、计算第p个图像区的特征vp与对应的加权求和后单词特征ap的余弦相似度cos(vp,ap);
(3.5)、将低、中、高三个阶段中同一阶段内的所有图像区域与对应的加权求和后单词特征的余弦相似度通过相加的方式得到各个阶段的相似度,分别记为Slow,Smiddle,Shigh
Figure BDA0003795683310000041
其中,S∈Slow,Smiddle,Shigh
(3.6)、将各个阶段的相似度相加,作为图像I与第t个文本的检索值;
(4)、获取图像文本检索结果;
遍历检索文本库中所有的文本,获取图像I与每个文本的检索值,将所有检索值从大到小排列,再将排列第一的文本作为检索结果。
本发明一种层次化对齐的图像文本检索方法,采用了统一的Transformer架构来提取与学习图像与文本特征,并且引入一个分层对齐策略,在Transformer的不同层次捕捉更多,更丰富的语义信息。因此图像文本均采用统一的Transformer模型,且层次性充分的利用了Transformer结构所得到的模态特征,所以最终通过统一的模型架构得到了兼容性更好的表征,完成了更好的语义对齐,实现图像文本检索。
同时,本发明一种层次化对齐的图像文本检索方法还具有以下有益效果:
(1)、相较于原先的传统方法,本专利采用了统一的Transformer架构来提取与学习图像与文本特征。相同的模型架构,能够学习到在语义空间中更具兼容性的模态特征,实现更好的模态间语义对齐。
(2)、图像文本特征提取均采用相同的Transformer模型架构,所以本发明通过将模型架构层次化引入一个分层对齐策略,在Transformer的不同层次捕捉更多,更丰富的语义信息,以实现更优秀的模态间语义对齐。
附图说明
图1是本发明一种层次化对齐的图像文本检索方法流程图;
图2是Transformer模块的结构图;
图3是图像和文本特征进行数据降维实现了可视化示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种渐进式的图像文本匹配方法流程图。
在本实施例中,如图1所示,本发明一种层次化对齐的图像文本检索方法,可以通过以图像检索文本或以文本检索图像的方式进行图像文本检索,其检索的原理过程一致,下面我们以图像检索文本为例进行分析说明,具体包括以下步骤:
S1、建立检索库;
选取一张待检索图像I,将包含有图像I匹配文本的所有文本Tt组成文本集合,最后将图像I及对应文本集合作为检索库,其中,t表示第t个文本;
S2、提取图像文本特征;
S2.1、提取图像特征;
将12个Transformer模块组成Swin-Transformer(移动窗口Transformer)模型,12个Transformer模块划分为低、中、高3个阶段,Swin-Transformer(移动窗口Transformer)模型预训练完成后对图像I进行图像区域的特征提取,得到低、中、高3个阶段的特征输出图,分别记为Vlow,Vmiddle,Vhigh,从而将分层特征Vh表示为:
Vh={Vlow,Vmiddle,Vhigh}
Figure BDA0003795683310000051
Figure BDA0003795683310000052
Figure BDA0003795683310000053
其中,
Figure BDA0003795683310000054
表示低、中、高三个阶段所划分出的第k、第m、第g个图像区域的图像特征,K、M、G为不同阶段所划分出区域数量;
S2.2、提取文本特征;
将12个Transformer模块组成BERT模型,12个Transformer模块划分为低、中、高3个阶段,BERT(基于Transformer的双向编码器)模型预训练完成后对所有文本进行文本特征提取,得到低、中、高3个阶段的文本特征Tt,分别记为Wt low,Wt middle,Wt high,从而将分层特征
Figure BDA0003795683310000055
表示为:
Figure BDA0003795683310000056
Figure BDA0003795683310000061
Figure BDA0003795683310000062
Figure BDA0003795683310000063
其中,l=1,2,…,L,
Figure BDA0003795683310000064
表示第t个文本中低、中、高三个阶段所提取的第l个单词特征,L为第t个文本中单词数量;
在本实施例中,对于图像特征的提取,与之前传统的基于卷积神经网络的模型不同,受到最近视觉Transformer快速发展的启发,本实施例采用基于Transformer的架构来对图像特征进行学习与提取,并与文本架构形成互补统一的关系,得到兼容性更好的模态表征。具体来说,采用最近十分成功的Swin-Transformer模型作为图像骨干,其性能明显优于卷积神经网络,并在许多视觉任务中显示出了巨大的潜力。其通过滑动窗口的方式进行注意力的计算,使得计算复杂性与图像大小成线性关系,并通过构建分层的特征图实现多尺度信息的捕捉。
如图2所示,在每个Transformer模块中用基于滑动窗的自注意力机制取代标准的多头自注意力机制。具体来说,标准的Transformer实现了全局的自注意力,以探索一个查询标记和所有其他标记之间的关系,而这导致了相对于标记数量的平方计算复杂性。而由于图像的高分辨率,这使得它难以用于许多视觉应用。为了在视觉中有效地模拟自注意力过程,Swin-Transformer模型将图像以不重叠的方式分成几个窗口,只计算每个窗口内的多头自我注意,这样多头自注意力的计算复杂度降低。
为了捕捉更为丰富的模态信息。本专利采用图像与文本特征提取架构中多个阶段的输出特征图作为各自模态的分层表示。具体来说,Swin-Transformer模型通过补丁分割操作划分为四个阶段的模块,而由于第一阶段其大量标记所带来的计算成本,所以实施例只采用2,3,4阶段作为低,中,高三个层次的语义,以实现图像的多层次语义分割。在BERT(结构中类似,其具有与Swin-Transformer相同的层数,所以采用第4,10,12层的输出实现文本的多层次语义分割。
S3、层次化对齐;
为了实现更细粒度的语义对齐,本发明提出在不同层级的语义模态信息上进行交叉注意力操作,以显著提高跨模态检索性能。
S3.1、计算第p个图像区对应第t个文本中第q个单词的交叉注意力权重Spq
Figure BDA0003795683310000071
其中,||·||表示L2范数操作;
Figure BDA0003795683310000072
泛指其中的一种特征;
Figure BDA0003795683310000073
泛指其中的一种特征;上标T表示转置;
S3.2、基于注意力交叉权重,计算第p个图像区对应第t个文本中第q个单词的权重apq
Figure BDA0003795683310000074
S3.3、将第p个图像区对应第t个文本中所有单词按照权重求和,得到第p个图像区域对应的加权求和后单词特征ap
Figure BDA0003795683310000075
其中,
Figure BDA0003795683310000076
为Spq的归一化值,λ为温度超参数;
S3.4、计算第p个图像区的特征vp与对应的加权求和后单词特征ap的余弦相似度cos(vp,ap);
S3.5、将低、中、高三个阶段中同一阶段内的所有图像区域与对应的加权求和后单词特征的余弦相似度通过相加的方式得到各个阶段的相似度,分别记为Slow,Smiddle,Shigh
Figure BDA0003795683310000077
其中,S∈Slow,Smiddle,Shigh
S3.6、将各个阶段的相似度相加,作为图像I与第t个文本的检索值;
S4、获取图像文本检索结果;
遍历检索文本库中所有的文本,获取图像I与每个文本的检索值,将所有检索值从大到小排列,再将排列第一的文本作为检索结果。
综述,本发明所提出的层次化对齐的统一Transformer架构可以有效的学习不同模态数据的特征与公共语义空间,使得最终的表征在语义映射和相似性度量中更为兼容,进一步提升了跨模态检索任务的精度。为了评估模型的性能,本发明将层次化统一模型应用于常用数据集MSCOCO与Flickr 30K,两个数据集中都是每张图片有五个描述句子。本专利采用K处的召回率(Recall K)来作为评价指标。召回率衡量的是在列表前K个排名中,真实命中率的百分比。召回率越高表明性能越好。实验结果列在表1,2中,从实验结果可以看出本专利所提出的方法,在两个数据集中均优于所有的基线模型。这些结果证明了本专利提出的层次化对齐统一模型在跨模式检索任务中的优越性。可以观察到文本到图像检索的性能提升,与图像到文本检索相比,提升更大。这种现象主要是由于文本到图像检索的整体性能不如图像到文本检索,导致其数值较小,有更大的提升空间。
最终还通过t-SNE(t分布-随机近邻嵌入)方法对图像和文本特征进行数据降维实现了可视化,如图3所示,可以看到图像文本均采用Transformer架构的a和b,学到了类似的图像文本特征分布。而模型架构不同的c和d则表现出非常不同的分布模式。这些观察进一步支持了统一的结构,能够使编码器学习到更为兼容的表征分布。
表1.在MSCOCO数据集上的实验结果
Figure BDA0003795683310000081
表2.在Flickr 30K数据集上的实验结果
Figure BDA0003795683310000091
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种层次化对齐的图像文本检索方法,其特征在于,包括以下步骤:
(1)、建立检索库;
选取一张待检索图像I,将包含有图像I匹配文本的所有文本Tt组成文本集合,最后将图像I及对应文本集合作为检索库,其中,t表示第t个文本;
(2)、提取图像文本特征;
(2.1)、提取图像特征;
将12个Transformer模块组成Swin-Transformer模型,12个Transformer模块划分为低、中、高3个阶段,Swin-Transformer模型预训练完成后对图像I进行图像区域的特征提取,得到低、中、高3个阶段的特征输出图,分别记为Vlow,Vmiddle,Vhigh,从而将分层特征Vh表示为:
Vh={Vlow,Vmiddle,Vhigh}
Figure FDA0003795683300000011
Figure FDA0003795683300000012
Figure FDA0003795683300000013
其中,
Figure FDA0003795683300000014
表示低、中、高三个阶段所划分出的第k、第m、第g个图像区域的图像特征,K、M、G为不同阶段所划分出区域数量;
(2.2)、提取文本特征;
将12个Transformer模块组成BERT模型,12个Transformer模块划分为低、中、高3个阶段,BERT模型预训练完成后对所有文本进行文本特征提取,得到低、中、高3个阶段的文本特征Tt,分别记为Wt low,Wt middle,Wt high,从而将分层特征
Figure FDA0003795683300000015
表示为:
Figure FDA0003795683300000016
Figure FDA0003795683300000017
Figure FDA0003795683300000018
Figure FDA0003795683300000019
其中,l=1,2,…,L,
Figure FDA00037956833000000110
表示第t个文本中低、中、高三个阶段所提取的第l个单词特征,L为第t个文本中单词数量;
(3)、层次化对齐;
(3.1)、计算第p个图像区对应第t个文本中第q个单词的交叉注意力权重Spq
Figure FDA0003795683300000021
其中,||·||表示L2范数操作;
Figure FDA0003795683300000022
泛指其中的一种特征;
Figure FDA0003795683300000023
泛指其中的一种特征;上标T表示转置;
(3.2)、基于注意力交叉权重,计算第p个图像区对应第t个文本中第q个单词的权重apq
Figure FDA0003795683300000024
(3.3)、将第p个图像区对应第t个文本中所有单词按照权重求和,得到第p个图像区域对应的加权求和后单词特征ap
Figure FDA0003795683300000025
其中,
Figure FDA0003795683300000026
为Spq的归一化值,λ为温度超参数;
(3.4)、计算第p个图像区的特征vp与对应的加权求和后单词特征ap的余弦相似度cos(vp,ap);
(3.5)、将低、中、高三个阶段中同一阶段内的所有图像区域与对应的加权求和后单词特征的余弦相似度通过相加的方式得到各个阶段的相似度,分别记为Slow,Smiddle,Shigh
Figure FDA0003795683300000027
其中,S∈Slow,Smiddle,Shigh
(3.6)、将各个阶段的相似度相加,作为图像I与第t个文本的检索值;
(4)、获取图像文本检索结果;
遍历检索文本库中所有的文本,获取图像I与每个文本的检索值,将所有检索值从大到小排列,再将排列第一的文本作为检索结果。
CN202210968147.4A 2022-08-12 2022-08-12 一种层次化对齐的图像文本检索方法 Pending CN115344735A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210968147.4A CN115344735A (zh) 2022-08-12 2022-08-12 一种层次化对齐的图像文本检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210968147.4A CN115344735A (zh) 2022-08-12 2022-08-12 一种层次化对齐的图像文本检索方法

Publications (1)

Publication Number Publication Date
CN115344735A true CN115344735A (zh) 2022-11-15

Family

ID=83951921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210968147.4A Pending CN115344735A (zh) 2022-08-12 2022-08-12 一种层次化对齐的图像文本检索方法

Country Status (1)

Country Link
CN (1) CN115344735A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563674A (zh) * 2023-07-12 2023-08-08 菲特(天津)检测技术有限公司 样本图像增强方法、系统、电子设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563674A (zh) * 2023-07-12 2023-08-08 菲特(天津)检测技术有限公司 样本图像增强方法、系统、电子设备及可读存储介质
CN116563674B (zh) * 2023-07-12 2023-10-20 菲特(天津)检测技术有限公司 样本图像增强方法、系统、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
CN111428073B (zh) 一种深度监督量化哈希的图像检索方法
Gao et al. Multi‐dimensional data modelling of video image action recognition and motion capture in deep learning framework
CN108959522B (zh) 基于半监督对抗生成网络的迁移检索方法
CN114911914A (zh) 一种跨模态图文检索方法
CN112164067A (zh) 一种基于多模态子空间聚类的医学图像分割方法及装置
CN116204706A (zh) 一种文本内容结合图像分析的多模态内容检索方法与系统
CN113010700B (zh) 一种基于类别信息对齐的图像文本跨模态检索方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN115879473A (zh) 基于改进图注意力网络的中文医疗命名实体识别方法
CN116561365A (zh) 基于布局化语义联合显著表征的遥感图像跨模态检索方法
CN114048351A (zh) 一种基于时空关系增强的跨模态文本-视频检索方法
CN111339407A (zh) 一种信息抽取云平台的实现方法
Ou et al. Semantic consistent adversarial cross-modal retrieval exploiting semantic similarity
Yu et al. Text-image matching for cross-modal remote sensing image retrieval via graph neural network
CN115344735A (zh) 一种层次化对齐的图像文本检索方法
Yao et al. Hypergraph-enhanced textual-visual matching network for cross-modal remote sensing image retrieval via dynamic hypergraph learning
Liu et al. Cross-media intelligent perception and retrieval analysis application technology based on deep learning education
Xie et al. FCT: fusing CNN and transformer for scene classification
CN113065012B (zh) 一种基于多模态动态交互机制的图文解析方法
Zhang et al. DHNet: Salient object detection with dynamic scale-aware learning and hard-sample refinement
Mingyong et al. CLIP-based fusion-modal reconstructing hashing for large-scale unsupervised cross-modal retrieval
CN116186350B (zh) 基于知识图谱和主题文本的输电线路工程搜索方法和装置
CN117453949A (zh) 一种视频定位方法以及装置
Yang et al. A jointly guided deep network for fine-grained cross-modal remote sensing text–image retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination