CN115344736A - 一种渐进式的图像文本匹配方法 - Google Patents

一种渐进式的图像文本匹配方法 Download PDF

Info

Publication number
CN115344736A
CN115344736A CN202210968167.1A CN202210968167A CN115344736A CN 115344736 A CN115344736 A CN 115344736A CN 202210968167 A CN202210968167 A CN 202210968167A CN 115344736 A CN115344736 A CN 115344736A
Authority
CN
China
Prior art keywords
text
image
features
feature
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210968167.1A
Other languages
English (en)
Inventor
杨阳
宾燚
李灏轩
韩孟群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210968167.1A priority Critical patent/CN115344736A/zh
Publication of CN115344736A publication Critical patent/CN115344736A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种渐进式的图文匹配方法,考虑到现有方法中,基于模态内交互的方法分别独立的编码图像与文本特征,致使在检索时十分高效,但由于缺乏足够的模态间交互,而性能不甚理想;而基于模态间交互的方法,通过大量的模态间交互,达到了优秀的检索性能,但也正是因为此,造成了检索延迟,而人类在进行图文检索的直觉一般是,先是粗略的对检索样本进行过滤,将很不相关的样本剔除,接着在候选集的基础上再进行更精确的匹配,最终寻找到匹配项,以这样的人类直觉为引导方向,将基于模态内和基于模态间的方法以渐近的方式相结合,最终实现本发明所提出的图文匹配方法。

Description

一种渐进式的图像文本匹配方法
技术领域
本发明属于视觉与文本匹配技术领域,更为具体地讲,是一种渐进式的图像文本匹配方法。
背景技术
图像文本匹配任务是视觉与文本领域中一个基本但十分关键且具有挑战性的任务,其目标为在给定的模态查询中检索出精确的另一个模态匹配,即以图搜文,以文搜图。
现有的图像文本匹配方法,可以根据模态交互的不同,分为基于模态内交互与基于模态间交互。基于模态内交互的方法采用了独立的图像和文本编码器来理解和探索每个模态内的语义线索。现有的工作通常先将图像和文本转化为场景图,然后再使用图卷积网络来进行模态内交互,或者直接采用最近十分流行且有效的自注意力机制来得出相应模态的最终表示。但这样的模态内交互框架由于缺乏模态间的信息交互,导致最终性能不甚理想。因此,基于模态间的方法被提出,其通常采用一个有着大量模态间交互操作的深度网络,将图像和文本作为输入,全面的去探索它们之间的相互作用,实现效果更加优秀的图像文本匹配。
基于模态内交互的方法可以离线提取候选者的表征,这使得它十分高效,但由于缺乏丰富的模态间的交互,所以性能不甚理想,而基于模态间的方法,虽然因为大量的模态间交互操作,使得性能令人印象深刻,但也正是因为此,大大的增加了推理过程中的计算成本,最终导致了高检索延迟。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种渐进式的图像文本匹配方法。其在大量的数据上进行图像文本匹配时,会首先过滤掉一些很不相关的样本,接着,再在过滤后剩下的候选集上进行更精确更细致的匹配。
为实现上述发明目的,本发明一种渐进式的图像文本匹配方法,其特征在于,包括以下步骤:
(1)、建立检索数据库;
选取一张待检索图像I,将包含有图像I匹配文本的所有文本组成文本集合,最后将图像I及对应文本集合作为检索数据库;
(2)、提取图像文本特征;
(2.1)、提取图像特征;
采用预训练好的Faster-RCNN目标检测模型对图像I进行图像区域特征提取,并为每一个图像区域进行置信度打分,然后根据检测置信度得分,选择得分最高的前m个图像区域作为图像特征;
(2.2)、提取文本特征;
采用预训练好的BERT(基于Transformer的双向编码器)模型对检索文本库中的所有文本进行特征提取,提取文本中每个单词的特征表示,从而构成文本单词特征;
(2.3)、图像文本特征的映射;
采用全连接层将图像特征和每一个文本特征映射到同一个维度空间,得到映射后的图像特征V={vi|v1,v2,…,vm}与每一个文本的特征
Figure BDA0003795686970000021
其中,vi表示第i个图像区域的特征,
Figure BDA0003795686970000022
表示第t个文本中第j个单词的特征表示,n表示文本中的单词数量;
(2)、构建候选文本库
Figure BDA0003795686970000023
(2.1)、设置多头自注意力层中每个单头自注意力模块的模型;
Figure BDA0003795686970000024
其中,Q,K,P表示注意力操作中的向量,上标T表示转置,d表示Q,K的维度大小;
(2.2)、将图像特征V和文本特征Wt分别输入至多头自注意力层,通过将多个单头自注意力模块的输出拼接,得到完整特征MH(X):
MH(X)=[H1,H2,…,Hl,…,Hh]
Hl=Attention(XWl Q,XWl K,XWl P)
其中,X表示输入的图像特征或文本特征,Hl表示第l个单头自注意力模块的输出,h表示单头自注意力模块个数,Wl Q,Wl K,Wl P表示待学习参数;
(2.3)、利用前馈全连接层对特征MH(X)进行非线性映射,得到特征FFN(MH(X)):
FFN(MH(X))=σ(MH(X)W1+b1)W2+b2
其中,b1,b2为常数,W1,W2为待学习参数,σ(·)为sigmoid函数;
(2.4)、图像特征和文本特征通过步骤(2.2)-(2.3)的处理后,得到图像特征
Figure BDA0003795686970000031
与文本特征
Figure BDA0003795686970000032
接着再通过平均池化操作得到图像特征的整体语义表示cv与文本特征的整体语义表示
Figure BDA0003795686970000033
Figure BDA0003795686970000034
其中,
Figure BDA0003795686970000035
Figure BDA0003795686970000036
中第i个区域特征,
Figure BDA0003795686970000037
Figure BDA0003795686970000038
中第j个单词特征;
(2.5)、计算图像特征
Figure BDA0003795686970000039
与每一个文本特征
Figure BDA00037956869700000310
的整体语义表示的余弦相似度:
Figure BDA00037956869700000311
其中,St表示图像特征
Figure BDA00037956869700000312
与第t个文本特征
Figure BDA00037956869700000313
的整体语义表示的余弦相似度,||·||表示求L2范数,上标T表示转置;
(2.6)、将所有的相似度按从大到小排列,选取前K个相似度最大对应的文本构成候选文本库
Figure BDA00037956869700000314
(3)、精确匹配;
(3.1)、位置信息与短语级语义的捕捉;
找出候选文本库
Figure BDA00037956869700000315
中各个候选文本对应的原始文本特征,其中,第
Figure BDA00037956869700000316
个原始文本特征记为
Figure BDA00037956869700000317
使用全连接层与图像区域所处位置信息为图像特征V添加了空间位置信息,再使用卷积网络为原始文本特征
Figure BDA00037956869700000318
捕捉了短语级信息,得到了加强后的图像文本特征
Figure BDA00037956869700000319
(3.2)、交互式引导单元;
(3.2.1)、利用全局引导单元引导图像特征捕捉到图像与文本间的全局语义对应信息;
对加强后的文本特征
Figure BDA00037956869700000419
进行平均池化操作,得到文本全局特征
Figure BDA0003795686970000041
Figure BDA0003795686970000042
其中,
Figure BDA0003795686970000043
为第
Figure BDA0003795686970000044
个文本
Figure BDA0003795686970000045
中第j个单词特征;
使用全连接层获取
Figure BDA0003795686970000046
中每一个区域特征
Figure BDA0003795686970000047
的全局引导方向di,再通过di进行缩放来引导局部视觉表征
Figure BDA0003795686970000048
Figure BDA0003795686970000049
Figure BDA00037956869700000410
其中,⊙为矩阵点积,L2(·)归一化,Wg为待学习参数,bg为常数;
(3.2.2)、利用局部引导单元引导图像特征捕捉到图像与文本间的局部语义对应信息;
通过交叉注意力机制聚集单词表征来获取局部引导信息
Figure BDA00037956869700000411
Figure BDA00037956869700000412
Figure BDA00037956869700000413
其中,sij为图像中第i个区域与文本中第j个单词的余弦相似度,λ为超参数;
通过全连接层对局部引导信息
Figure BDA00037956869700000414
进行投影,得到相应的缩放向量γi和移位向量βi
Figure BDA00037956869700000415
Figure BDA00037956869700000416
其中,FCγ(·)与FCβ(·)为两个全连接层;
最后,通过前馈全连接层和残差连接来完成图像区域的引导:
Figure BDA00037956869700000417
其中,
Figure BDA00037956869700000418
表示第i个区域引导后的图像特征,FFN(·)表示前馈全连接层。
(3.2.3)完成匹配;
将每个区域进行局部与全局引导的结果求和,其中,第i个区域引导后求和得:
Figure BDA0003795686970000051
对各区域求和后的特征进行平均池化操作,得到图像全局表示Ve
Figure BDA0003795686970000052
计算候选文本库中的所有文本进行相似度Se
Figure BDA0003795686970000053
最后选择相似度最大的文本作为匹配结果。
本发明的发明目的是这样实现的:
本发明提出一种渐进式的图文匹配方法,考虑到现有方法中,基于模态内交互的方法分别独立的编码图像与文本特征,致使在检索时十分高效,但由于缺乏足够的模态间交互,而性能不甚理想;而基于模态间交互的方法,通过大量的模态间交互,达到了优秀的检索性能,但也正是因为此,造成了检索延迟,而人类在进行图文检索的直觉一般是,先是粗略的对检索样本进行过滤,将很不相关的样本剔除,接着在候选集的基础上再进行更精确的匹配,最终寻找到匹配项,以这样的人类直觉为引导方向,将基于模态内和基于模态间的方法以渐近的方式相结合,最终实现本发明所提出的图文匹配方法。
同时,本发明一种渐进式的图像文本匹配方法还具有以下有益效果:
(1)、现有的图像文本匹配方法都是单一的基于模态内交互或者单一的基于模态间交互,其虽各有优点,但也同时具有缺点。前者十分高效,但因缺少丰富的模态间的信息交互,导致性能不甚理想。后者性能优秀,但在推理过程中却存在效率低下的问题。本发明将粗略过滤器和精确匹配器以渐近的方式相结合,以实现人类直觉般的匹配,其在保持高性能的同时,依旧高效。
(2)、本发明通过渐近的方式结合了所提出的粗略过滤器与精确匹配器,而这两者则分别属于基于模态内与基于模态间的方法。前者只进行模态内交互操作,主要探索图像文本的浅显表征,而后者则有着大量的模态间交互操作,能够探索到图像文本间的细微表征。这样的特点也符合图文检索时的人类直觉,粗略过滤时,为了快速,只关注比较浅显的特征,而在精确匹配时,为了找到匹配项,会关注更多的细微关系与特征。所以本专利所提出方法在特征探索层面上也符合人类直觉。
附图说明
图1是本发明一种渐进式的图像文本匹配方法流程图;
图2是交互式引导单元示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种渐进式的图像文本匹配方法流程图。
在本实施例中,如图1所示,本发明一种渐进式的图像文本匹配方法,可以通过以图搜文或以文搜图的方式进行图像文本匹配,其匹配的原理过程一致,下面我们以图搜文为例进行分析说明,具体包括以下步骤:
S1、建立检索数据库;
选取一张待检索图像I,将包含有图像I匹配文本的所有文本组成文本集合,最后将图像I及对应文本集合作为检索数据库;
S2、提取图像文本特征;
S2.1、提取图像特征;
采用预训练好的Faster-RCNN目标检测模型对图像I进行图像区域特征提取,并为每一个图像区域进行置信度打分,然后根据检测置信度得分,选择得分最高的前m=36个图像区域作为图像特征;
S2.2、提取文本特征;
采用预训练好的BERT(基于Transformer的双向编码器)模型对检索文本库中的所有文本进行特征提取,提取文本中每个单词的特征表示,从而构成文本单词特征;
S2.3、图像文本特征的映射;
采用全连接层将图像特征和每一个文本特征映射到同一个维度空间,维度大小为2048,得到映射后的图像特征V={vi|v1,v2,…,vm}与每一个文本的特征
Figure BDA0003795686970000071
其中,vi表示第i个图像区域的特征,
Figure BDA0003795686970000072
表示第t个文本中第j个单词的特征表示,n表示文本中的单词数量;
S2、构建候选文本库
Figure BDA0003795686970000073
S2.1、为了实现人类直觉般的快速过滤无关样本,本实施例采用了自注意力机制的粗滤过滤器模块来进行筛选过滤,设置多头自注意力层中每个单头自注意力模块的模型为:
Figure BDA0003795686970000074
其中,Q,K,P表示注意力操作中的向量,上标T表示转置,d表示Q,K的维度大小;
S2.2、将图像特征V和文本特征Wt分别输入至多头自注意力层,通过将多个单头自注意力模块的输出拼接,得到完整特征MH(X):
MH(X)=[H1,H2,…,Hl,…,Hh]
Hl=Attention(XWl Q,XWl K,XWl P)
其中,X表示输入的图像特征或文本特征,Hl表示第l个单头自注意力模块的输出,h表示单头自注意力模块个数,具体为16,Wl Q,Wl K,Wl P表示待学习参数;
S2.3、利用前馈全连接层对特征MH(X)进行非线性映射,得到特征FFN(MH(X)):
FFN(MH(X))=σ(MH(X)W1+b1)W2+b2
其中,b1,b2为常数,W1,W2为待学习参数,σ(·)为sigmoid函数;
S2.4、图像特征和文本特征通过步骤S2.2-S2.3的处理后,得到图像特征
Figure BDA0003795686970000075
与文本特征
Figure BDA0003795686970000076
接着再通过平均池化操作得到图像特征的整体语义表示cv与文本特征的整体语义表示
Figure BDA0003795686970000077
Figure BDA0003795686970000078
其中,
Figure BDA0003795686970000079
Figure BDA00037956869700000710
中第i个区域特征,
Figure BDA00037956869700000711
Figure BDA00037956869700000712
中第j个单词特征;
S2.5、计算图像特征
Figure BDA00037956869700000713
与每一个文本特征
Figure BDA00037956869700000714
的整体语义表示的余弦相似度:
Figure BDA0003795686970000081
其中,St表示图像特征
Figure BDA0003795686970000082
与第t个文本特征
Figure BDA0003795686970000083
的整体语义表示的余弦相似度,||·||表示求L2范数,上标T表示转置;
S2.6、将所有的相似度按从大到小排列,选取前K个相似度最大对应的文本构成候选文本库
Figure BDA0003795686970000084
S3、精确匹配;
经过步骤S2的粗略过滤之后,在候选文本库上采用具有丰富模态间交互的引导单元进行类似人类直觉的更进一步的精确匹配,具体过程如下:
S3.1、位置信息与短语级语义的捕捉;
找出候选文本库
Figure BDA0003795686970000085
中各个候选文本对应的原始文本特征,其中,第
Figure BDA0003795686970000086
个原始文本特征记为
Figure BDA0003795686970000087
使用全连接层与图像区域所处位置信息为图像特征V添加了空间位置信息,再使用卷积网络为原始文本特征
Figure BDA0003795686970000088
捕捉了短语级信息,得到了加强后的图像文本特征
Figure BDA0003795686970000089
S3.2、交互式引导单元;
将图像文本特征传入交互式引导单元,这里所采用的有两种交互式引导单元,即局部引导单元与全局引导单元,两个引导单元并行排列,再通过堆叠的方式进行深层次的信息探索与语义对齐,具体引导过程如下:
S3.2.1、如图2(a)所示,利用全局引导单元引导图像特征捕捉到图像与文本间的全局语义对应信息;
对加强后的文本特征
Figure BDA00037956869700000810
进行平均池化操作,得到文本全局特征
Figure BDA00037956869700000811
Figure BDA00037956869700000812
其中,
Figure BDA00037956869700000813
为第
Figure BDA00037956869700000814
个文本
Figure BDA00037956869700000815
中第j个单词特征;
使用全连接层获取
Figure BDA00037956869700000816
中每一个区域特征
Figure BDA00037956869700000817
的全局引导方向di,再通过di进行缩放来引导局部视觉表征
Figure BDA00037956869700000818
Figure BDA00037956869700000819
Figure BDA00037956869700000820
其中,⊙为矩阵点积,L2(·)归一化,Wg为待学习参数,bg为常数;
S3.2.2、如图2(b)所示,利用局部引导单元引导图像特征捕捉到图像与文本间的局部语义对应信息;
通过交叉注意力机制聚集单词表征来获取局部引导信息
Figure BDA0003795686970000091
Figure BDA0003795686970000092
Figure BDA0003795686970000093
其中,sij为图像中第i个区域与文本中第j个单词的余弦相似度,λ为超参数;
通过全连接层对局部引导信息
Figure BDA0003795686970000094
进行投影,得到相应的缩放向量γi和移位向量βi
Figure BDA0003795686970000095
Figure BDA0003795686970000096
其中,FCγ(·)与FCβ(·)为两个全连接层;
最后,通过前馈全连接层和残差连接来完成图像区域的引导:
Figure BDA0003795686970000097
其中,
Figure BDA0003795686970000098
表示第i个区域引导后的图像特征,FFN(·)表示前馈全连接层;
S3.2.3完成匹配;
如图1右下角所示,堆叠的交互式引导模块每一层的输入都是上一层局部与全局引导单元输出的加和,因此,将每个区域进行局部与全局引导的结果求和,其中,第i个区域引导后求和得::
Figure BDA0003795686970000099
对各区域求和后的特征进行平均池化操作,得到图像全局表示Ve
Figure BDA00037956869700000910
计算候选文本库中的所有文本进行相似度Se
Figure BDA00037956869700000911
最后选择相似度最大的文本作为匹配结果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种渐进式的图像文本匹配方法,其特征在于,包括以下步骤:
(1)、建立检索数据库;
选取一张待检索图像I,将包含有图像I匹配文本的所有文本组成文本集合,最后将图像I及对应文本集合作为检索数据库;
(2)、提取图像文本特征;
(2.1)、提取图像特征;
采用预训练好的Faster-RCNN目标检测模型对图像I进行图像区域特征提取,并为每一个图像区域进行置信度打分,然后根据检测置信度得分,选择得分最高的前m个图像区域作为图像特征;
(2.2)、提取文本特征;
采用预训练好的BERT模型对检索文本库中的所有文本进行特征提取,提取文本中每个单词的特征表示,从而构成文本单词特征;
(2.3)、图像文本特征的映射;
采用全连接层将图像特征和每一个文本特征映射到同一个维度空间,得到映射后的图像特征V={vi|v1,v2,…,vm}与每一个文本的特征
Figure FDA0003795686960000011
其中,vi表示第i个图像区域的特征,
Figure FDA0003795686960000014
表示第t个文本中第j个单词的特征表示,n表示文本中的单词数量;
(2)、构建候选文本库
Figure FDA0003795686960000013
(2.1)、设置多头自注意力层中每个单头自注意力模块的模型;
Figure FDA0003795686960000012
其中,Q,K,P表示注意力操作中的向量,上标T表示转置,d表示Q,K的维度大小;
(2.2)、将图像特征V和文本特征Wt分别输入至多头自注意力层,通过将多个单头自注意力模块的输出拼接,得到完整特征MH(X):
MH(X)=[H1,H2,…,Hl,…,Hh]
Hl=Attention(XWl Q,XWl K,XWl P)
其中,X表示输入的图像特征或文本特征,Hl表示第l个单头自注意力模块的输出,h表示单头自注意力模块个数,Wl Q,Wl K,Wl P表示待学习参数;
(2.3)、利用前馈全连接层对特征MH(X)进行非线性映射,得到特征FFN(MH(X)):
FFN(MH(X))=σ(MH(X)W1+b1)W2+b2
其中,b1,b2为常数,W1,W2为待学习参数,σ(·)为sigmoid函数;
(2.4)、图像特征和文本特征通过步骤(2.2)-(2.3)的处理后,得到图像特征
Figure FDA0003795686960000024
与文本特征
Figure FDA0003795686960000025
接着再通过平均池化操作得到图像特征的整体语义表示cv与文本特征的整体语义表示
Figure FDA0003795686960000021
Figure FDA0003795686960000022
其中,
Figure FDA0003795686960000026
Figure FDA0003795686960000027
中第i个区域特征,
Figure FDA0003795686960000028
Figure FDA0003795686960000029
中第j个单词特征;
(2.5)、计算图像特征
Figure FDA00037956869600000210
与每一个文本特征
Figure FDA00037956869600000211
的整体语义表示的余弦相似度:
Figure FDA0003795686960000023
其中,St表示图像特征
Figure FDA00037956869600000212
与第t个文本特征
Figure FDA00037956869600000213
的整体语义表示的余弦相似度,·表示求L2范数,上标T表示转置;
(2.6)、将所有的相似度按从大到小排列,选取前K个相似度最大对应的文本构成候选文本库
Figure FDA00037956869600000214
(3)、精确匹配;
(3.1)、位置信息与短语级语义的捕捉;
找出候选文本库
Figure FDA00037956869600000215
中各个候选文本对应的原始文本特征,其中,第
Figure FDA00037956869600000217
个原始文本特征记为
Figure FDA00037956869600000216
使用全连接层与图像区域所处位置信息为图像特征V添加了空间位置信息,再使用卷积网络为原始文本特征
Figure FDA00037956869600000218
捕捉了短语级信息,得到了加强后的图像文本特征
Figure FDA00037956869600000219
(3.2)、交互式引导单元;
(3.2.1)、利用全局引导单元引导图像特征捕捉到图像与文本间的全局语义对应信息;
对加强后的文本特征
Figure FDA0003795686960000039
进行平均池化操作,得到文本全局特征
Figure FDA00037956869600000310
Figure FDA0003795686960000031
其中,
Figure FDA00037956869600000311
为第
Figure FDA00037956869600000312
个文本
Figure FDA00037956869600000313
中第j个单词特征;
使用全连接层获取
Figure FDA00037956869600000314
中每一个区域特征
Figure FDA00037956869600000315
的全局引导方向di,再通过di进行缩放来引导局部视觉表征
Figure FDA00037956869600000316
Figure FDA0003795686960000032
Figure FDA0003795686960000033
其中,⊙为矩阵点积,L2(·)归一化,Wg为待学习参数,bg为常数;
(3.2.2)、利用局部引导单元引导图像特征捕捉到图像与文本间的局部语义对应信息;
通过交叉注意力机制聚集单词表征来获取局部引导信息
Figure FDA00037956869600000317
Figure FDA0003795686960000034
Figure FDA0003795686960000035
其中,sij为图像中第i个区域与文本中第j个单词的余弦相似度,λ为超参数;
通过全连接层对局部引导信息
Figure FDA00037956869600000318
进行投影,得到相应的缩放向量γi和移位向量βi
Figure FDA0003795686960000036
Figure FDA0003795686960000037
其中,FCγ(·)与FCβ(·)为两个全连接层;
最后,通过前馈全连接层和残差连接来完成图像区域的引导:
Figure FDA0003795686960000038
其中,
Figure FDA00037956869600000319
表示第i个区域引导后的图像特征,FFN(·)表示前馈全连接层。
(3.2.3)完成匹配;
将每个区域进行局部与全局引导的结果求和,其中,第i个区域引导后求和得:
Figure FDA0003795686960000041
对各区域求和后的特征进行平均池化操作,得到图像全局表示Ve
Figure FDA0003795686960000042
计算候选文本库中的所有文本进行相似度Se
Figure FDA0003795686960000043
最后选择相似度最大的文本作为匹配结果。
CN202210968167.1A 2022-08-12 2022-08-12 一种渐进式的图像文本匹配方法 Pending CN115344736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210968167.1A CN115344736A (zh) 2022-08-12 2022-08-12 一种渐进式的图像文本匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210968167.1A CN115344736A (zh) 2022-08-12 2022-08-12 一种渐进式的图像文本匹配方法

Publications (1)

Publication Number Publication Date
CN115344736A true CN115344736A (zh) 2022-11-15

Family

ID=83952443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210968167.1A Pending CN115344736A (zh) 2022-08-12 2022-08-12 一种渐进式的图像文本匹配方法

Country Status (1)

Country Link
CN (1) CN115344736A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737982A (zh) * 2023-08-11 2023-09-12 拓锐科技有限公司 一种基于数据分析的图片搜索结果智能筛选管理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737982A (zh) * 2023-08-11 2023-09-12 拓锐科技有限公司 一种基于数据分析的图片搜索结果智能筛选管理系统
CN116737982B (zh) * 2023-08-11 2023-10-31 拓锐科技有限公司 一种基于数据分析的图片搜索结果智能筛选管理系统

Similar Documents

Publication Publication Date Title
KR102458463B1 (ko) 이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법
EP3399460B1 (en) Captioning a region of an image
Gkelios et al. Deep convolutional features for image retrieval
Chen et al. TypeFormer: Multiscale transformer with type controller for remote sensing image caption
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN112200031A (zh) 一种用于生成图像对应文字说明的网络模型训练方法与设备
Menaga et al. Deep learning: a recent computing platform for multimedia information retrieval
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN115344736A (zh) 一种渐进式的图像文本匹配方法
CN114626454A (zh) 一种融合自监督学习和注意力机制的视觉情感识别方法
Devi et al. Dive in Deep Learning: Computer Vision, Natural Language Processing, and Signal Processing
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法
CN116645694A (zh) 基于动态自进化信息抽取和对齐的文本-目标检索方法
Sahbi et al. Active learning for interactive satellite image change detection
El-Gayar Automatic Generation of Image Caption Based on Semantic Relation using Deep Visual Attention Prediction
CN111914110A (zh) 一种基于深度激活显著区域的实例检索方法
Jeevitha et al. Natural language description for videos using NetVLAD and attentional LSTM
CN117033308B (zh) 一种基于特定范围的多模态检索方法及装置
Sahbi et al. Frugal Learning of Virtual Exemplars for Label-Efficient Satellite Image Change Detection
Ma et al. SwinFG: A fine-grained recognition scheme based on swin transformer
CN117649582B (zh) 基于级联注意力的单流单阶段网络目标跟踪方法与系统
CN116821381B (zh) 一种基于空间线索的语音-图像跨模态检索方法及装置
Zhao Multichannel Fusion Based on modified CNN for Image Emotion Recognition
Zhang The Analysis of Intelligent Real-Time Image Acquisition System Based on Data Mining
Yu et al. Feature interaction and two-stage cross-modal fusion for RGB-D salient object detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination