CN115344736A - 一种渐进式的图像文本匹配方法 - Google Patents
一种渐进式的图像文本匹配方法 Download PDFInfo
- Publication number
- CN115344736A CN115344736A CN202210968167.1A CN202210968167A CN115344736A CN 115344736 A CN115344736 A CN 115344736A CN 202210968167 A CN202210968167 A CN 202210968167A CN 115344736 A CN115344736 A CN 115344736A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- features
- feature
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种渐进式的图文匹配方法,考虑到现有方法中,基于模态内交互的方法分别独立的编码图像与文本特征,致使在检索时十分高效,但由于缺乏足够的模态间交互,而性能不甚理想;而基于模态间交互的方法,通过大量的模态间交互,达到了优秀的检索性能,但也正是因为此,造成了检索延迟,而人类在进行图文检索的直觉一般是,先是粗略的对检索样本进行过滤,将很不相关的样本剔除,接着在候选集的基础上再进行更精确的匹配,最终寻找到匹配项,以这样的人类直觉为引导方向,将基于模态内和基于模态间的方法以渐近的方式相结合,最终实现本发明所提出的图文匹配方法。
Description
技术领域
本发明属于视觉与文本匹配技术领域,更为具体地讲,是一种渐进式的图像文本匹配方法。
背景技术
图像文本匹配任务是视觉与文本领域中一个基本但十分关键且具有挑战性的任务,其目标为在给定的模态查询中检索出精确的另一个模态匹配,即以图搜文,以文搜图。
现有的图像文本匹配方法,可以根据模态交互的不同,分为基于模态内交互与基于模态间交互。基于模态内交互的方法采用了独立的图像和文本编码器来理解和探索每个模态内的语义线索。现有的工作通常先将图像和文本转化为场景图,然后再使用图卷积网络来进行模态内交互,或者直接采用最近十分流行且有效的自注意力机制来得出相应模态的最终表示。但这样的模态内交互框架由于缺乏模态间的信息交互,导致最终性能不甚理想。因此,基于模态间的方法被提出,其通常采用一个有着大量模态间交互操作的深度网络,将图像和文本作为输入,全面的去探索它们之间的相互作用,实现效果更加优秀的图像文本匹配。
基于模态内交互的方法可以离线提取候选者的表征,这使得它十分高效,但由于缺乏丰富的模态间的交互,所以性能不甚理想,而基于模态间的方法,虽然因为大量的模态间交互操作,使得性能令人印象深刻,但也正是因为此,大大的增加了推理过程中的计算成本,最终导致了高检索延迟。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种渐进式的图像文本匹配方法。其在大量的数据上进行图像文本匹配时,会首先过滤掉一些很不相关的样本,接着,再在过滤后剩下的候选集上进行更精确更细致的匹配。
为实现上述发明目的,本发明一种渐进式的图像文本匹配方法,其特征在于,包括以下步骤:
(1)、建立检索数据库;
选取一张待检索图像I,将包含有图像I匹配文本的所有文本组成文本集合,最后将图像I及对应文本集合作为检索数据库;
(2)、提取图像文本特征;
(2.1)、提取图像特征;
采用预训练好的Faster-RCNN目标检测模型对图像I进行图像区域特征提取,并为每一个图像区域进行置信度打分,然后根据检测置信度得分,选择得分最高的前m个图像区域作为图像特征;
(2.2)、提取文本特征;
采用预训练好的BERT(基于Transformer的双向编码器)模型对检索文本库中的所有文本进行特征提取,提取文本中每个单词的特征表示,从而构成文本单词特征;
(2.3)、图像文本特征的映射;
采用全连接层将图像特征和每一个文本特征映射到同一个维度空间,得到映射后的图像特征V={vi|v1,v2,…,vm}与每一个文本的特征其中,vi表示第i个图像区域的特征,表示第t个文本中第j个单词的特征表示,n表示文本中的单词数量;
(2.1)、设置多头自注意力层中每个单头自注意力模块的模型;
其中,Q,K,P表示注意力操作中的向量,上标T表示转置,d表示Q,K的维度大小;
(2.2)、将图像特征V和文本特征Wt分别输入至多头自注意力层,通过将多个单头自注意力模块的输出拼接,得到完整特征MH(X):
MH(X)=[H1,H2,…,Hl,…,Hh]
Hl=Attention(XWl Q,XWl K,XWl P)
其中,X表示输入的图像特征或文本特征,Hl表示第l个单头自注意力模块的输出,h表示单头自注意力模块个数,Wl Q,Wl K,Wl P表示待学习参数;
(2.3)、利用前馈全连接层对特征MH(X)进行非线性映射,得到特征FFN(MH(X)):
FFN(MH(X))=σ(MH(X)W1+b1)W2+b2
其中,b1,b2为常数,W1,W2为待学习参数,σ(·)为sigmoid函数;
(3)、精确匹配;
(3.1)、位置信息与短语级语义的捕捉;
(3.2)、交互式引导单元;
(3.2.1)、利用全局引导单元引导图像特征捕捉到图像与文本间的全局语义对应信息;
其中,⊙为矩阵点积,L2(·)归一化,Wg为待学习参数,bg为常数;
(3.2.2)、利用局部引导单元引导图像特征捕捉到图像与文本间的局部语义对应信息;
其中,sij为图像中第i个区域与文本中第j个单词的余弦相似度,λ为超参数;
其中,FCγ(·)与FCβ(·)为两个全连接层;
最后,通过前馈全连接层和残差连接来完成图像区域的引导:
(3.2.3)完成匹配;
对各区域求和后的特征进行平均池化操作,得到图像全局表示Ve;
计算候选文本库中的所有文本进行相似度Se;
最后选择相似度最大的文本作为匹配结果。
本发明的发明目的是这样实现的:
本发明提出一种渐进式的图文匹配方法,考虑到现有方法中,基于模态内交互的方法分别独立的编码图像与文本特征,致使在检索时十分高效,但由于缺乏足够的模态间交互,而性能不甚理想;而基于模态间交互的方法,通过大量的模态间交互,达到了优秀的检索性能,但也正是因为此,造成了检索延迟,而人类在进行图文检索的直觉一般是,先是粗略的对检索样本进行过滤,将很不相关的样本剔除,接着在候选集的基础上再进行更精确的匹配,最终寻找到匹配项,以这样的人类直觉为引导方向,将基于模态内和基于模态间的方法以渐近的方式相结合,最终实现本发明所提出的图文匹配方法。
同时,本发明一种渐进式的图像文本匹配方法还具有以下有益效果:
(1)、现有的图像文本匹配方法都是单一的基于模态内交互或者单一的基于模态间交互,其虽各有优点,但也同时具有缺点。前者十分高效,但因缺少丰富的模态间的信息交互,导致性能不甚理想。后者性能优秀,但在推理过程中却存在效率低下的问题。本发明将粗略过滤器和精确匹配器以渐近的方式相结合,以实现人类直觉般的匹配,其在保持高性能的同时,依旧高效。
(2)、本发明通过渐近的方式结合了所提出的粗略过滤器与精确匹配器,而这两者则分别属于基于模态内与基于模态间的方法。前者只进行模态内交互操作,主要探索图像文本的浅显表征,而后者则有着大量的模态间交互操作,能够探索到图像文本间的细微表征。这样的特点也符合图文检索时的人类直觉,粗略过滤时,为了快速,只关注比较浅显的特征,而在精确匹配时,为了找到匹配项,会关注更多的细微关系与特征。所以本专利所提出方法在特征探索层面上也符合人类直觉。
附图说明
图1是本发明一种渐进式的图像文本匹配方法流程图;
图2是交互式引导单元示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种渐进式的图像文本匹配方法流程图。
在本实施例中,如图1所示,本发明一种渐进式的图像文本匹配方法,可以通过以图搜文或以文搜图的方式进行图像文本匹配,其匹配的原理过程一致,下面我们以图搜文为例进行分析说明,具体包括以下步骤:
S1、建立检索数据库;
选取一张待检索图像I,将包含有图像I匹配文本的所有文本组成文本集合,最后将图像I及对应文本集合作为检索数据库;
S2、提取图像文本特征;
S2.1、提取图像特征;
采用预训练好的Faster-RCNN目标检测模型对图像I进行图像区域特征提取,并为每一个图像区域进行置信度打分,然后根据检测置信度得分,选择得分最高的前m=36个图像区域作为图像特征;
S2.2、提取文本特征;
采用预训练好的BERT(基于Transformer的双向编码器)模型对检索文本库中的所有文本进行特征提取,提取文本中每个单词的特征表示,从而构成文本单词特征;
S2.3、图像文本特征的映射;
采用全连接层将图像特征和每一个文本特征映射到同一个维度空间,维度大小为2048,得到映射后的图像特征V={vi|v1,v2,…,vm}与每一个文本的特征其中,vi表示第i个图像区域的特征,表示第t个文本中第j个单词的特征表示,n表示文本中的单词数量;
S2.1、为了实现人类直觉般的快速过滤无关样本,本实施例采用了自注意力机制的粗滤过滤器模块来进行筛选过滤,设置多头自注意力层中每个单头自注意力模块的模型为:
其中,Q,K,P表示注意力操作中的向量,上标T表示转置,d表示Q,K的维度大小;
S2.2、将图像特征V和文本特征Wt分别输入至多头自注意力层,通过将多个单头自注意力模块的输出拼接,得到完整特征MH(X):
MH(X)=[H1,H2,…,Hl,…,Hh]
Hl=Attention(XWl Q,XWl K,XWl P)
其中,X表示输入的图像特征或文本特征,Hl表示第l个单头自注意力模块的输出,h表示单头自注意力模块个数,具体为16,Wl Q,Wl K,Wl P表示待学习参数;
S2.3、利用前馈全连接层对特征MH(X)进行非线性映射,得到特征FFN(MH(X)):
FFN(MH(X))=σ(MH(X)W1+b1)W2+b2
其中,b1,b2为常数,W1,W2为待学习参数,σ(·)为sigmoid函数;
S3、精确匹配;
经过步骤S2的粗略过滤之后,在候选文本库上采用具有丰富模态间交互的引导单元进行类似人类直觉的更进一步的精确匹配,具体过程如下:
S3.1、位置信息与短语级语义的捕捉;
S3.2、交互式引导单元;
将图像文本特征传入交互式引导单元,这里所采用的有两种交互式引导单元,即局部引导单元与全局引导单元,两个引导单元并行排列,再通过堆叠的方式进行深层次的信息探索与语义对齐,具体引导过程如下:
S3.2.1、如图2(a)所示,利用全局引导单元引导图像特征捕捉到图像与文本间的全局语义对应信息;
其中,⊙为矩阵点积,L2(·)归一化,Wg为待学习参数,bg为常数;
S3.2.2、如图2(b)所示,利用局部引导单元引导图像特征捕捉到图像与文本间的局部语义对应信息;
其中,sij为图像中第i个区域与文本中第j个单词的余弦相似度,λ为超参数;
其中,FCγ(·)与FCβ(·)为两个全连接层;
最后,通过前馈全连接层和残差连接来完成图像区域的引导:
S3.2.3完成匹配;
对各区域求和后的特征进行平均池化操作,得到图像全局表示Ve;
计算候选文本库中的所有文本进行相似度Se;
最后选择相似度最大的文本作为匹配结果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种渐进式的图像文本匹配方法,其特征在于,包括以下步骤:
(1)、建立检索数据库;
选取一张待检索图像I,将包含有图像I匹配文本的所有文本组成文本集合,最后将图像I及对应文本集合作为检索数据库;
(2)、提取图像文本特征;
(2.1)、提取图像特征;
采用预训练好的Faster-RCNN目标检测模型对图像I进行图像区域特征提取,并为每一个图像区域进行置信度打分,然后根据检测置信度得分,选择得分最高的前m个图像区域作为图像特征;
(2.2)、提取文本特征;
采用预训练好的BERT模型对检索文本库中的所有文本进行特征提取,提取文本中每个单词的特征表示,从而构成文本单词特征;
(2.3)、图像文本特征的映射;
采用全连接层将图像特征和每一个文本特征映射到同一个维度空间,得到映射后的图像特征V={vi|v1,v2,…,vm}与每一个文本的特征其中,vi表示第i个图像区域的特征,表示第t个文本中第j个单词的特征表示,n表示文本中的单词数量;
(2.1)、设置多头自注意力层中每个单头自注意力模块的模型;
其中,Q,K,P表示注意力操作中的向量,上标T表示转置,d表示Q,K的维度大小;
(2.2)、将图像特征V和文本特征Wt分别输入至多头自注意力层,通过将多个单头自注意力模块的输出拼接,得到完整特征MH(X):
MH(X)=[H1,H2,…,Hl,…,Hh]
Hl=Attention(XWl Q,XWl K,XWl P)
其中,X表示输入的图像特征或文本特征,Hl表示第l个单头自注意力模块的输出,h表示单头自注意力模块个数,Wl Q,Wl K,Wl P表示待学习参数;
(2.3)、利用前馈全连接层对特征MH(X)进行非线性映射,得到特征FFN(MH(X)):
FFN(MH(X))=σ(MH(X)W1+b1)W2+b2
其中,b1,b2为常数,W1,W2为待学习参数,σ(·)为sigmoid函数;
(3)、精确匹配;
(3.1)、位置信息与短语级语义的捕捉;
(3.2)、交互式引导单元;
(3.2.1)、利用全局引导单元引导图像特征捕捉到图像与文本间的全局语义对应信息;
其中,⊙为矩阵点积,L2(·)归一化,Wg为待学习参数,bg为常数;
(3.2.2)、利用局部引导单元引导图像特征捕捉到图像与文本间的局部语义对应信息;
其中,sij为图像中第i个区域与文本中第j个单词的余弦相似度,λ为超参数;
其中,FCγ(·)与FCβ(·)为两个全连接层;
最后,通过前馈全连接层和残差连接来完成图像区域的引导:
(3.2.3)完成匹配;
对各区域求和后的特征进行平均池化操作,得到图像全局表示Ve;
计算候选文本库中的所有文本进行相似度Se;
最后选择相似度最大的文本作为匹配结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210968167.1A CN115344736A (zh) | 2022-08-12 | 2022-08-12 | 一种渐进式的图像文本匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210968167.1A CN115344736A (zh) | 2022-08-12 | 2022-08-12 | 一种渐进式的图像文本匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115344736A true CN115344736A (zh) | 2022-11-15 |
Family
ID=83952443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210968167.1A Pending CN115344736A (zh) | 2022-08-12 | 2022-08-12 | 一种渐进式的图像文本匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115344736A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116737982A (zh) * | 2023-08-11 | 2023-09-12 | 拓锐科技有限公司 | 一种基于数据分析的图片搜索结果智能筛选管理系统 |
-
2022
- 2022-08-12 CN CN202210968167.1A patent/CN115344736A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116737982A (zh) * | 2023-08-11 | 2023-09-12 | 拓锐科技有限公司 | 一种基于数据分析的图片搜索结果智能筛选管理系统 |
CN116737982B (zh) * | 2023-08-11 | 2023-10-31 | 拓锐科技有限公司 | 一种基于数据分析的图片搜索结果智能筛选管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102458463B1 (ko) | 이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법 | |
EP3399460B1 (en) | Captioning a region of an image | |
Gkelios et al. | Deep convolutional features for image retrieval | |
Chen et al. | TypeFormer: Multiscale transformer with type controller for remote sensing image caption | |
CN114119975A (zh) | 一种语言引导的跨模态实例分割方法 | |
CN112200031A (zh) | 一种用于生成图像对应文字说明的网络模型训练方法与设备 | |
Menaga et al. | Deep learning: a recent computing platform for multimedia information retrieval | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN115344736A (zh) | 一种渐进式的图像文本匹配方法 | |
CN114626454A (zh) | 一种融合自监督学习和注意力机制的视觉情感识别方法 | |
Devi et al. | Dive in Deep Learning: Computer Vision, Natural Language Processing, and Signal Processing | |
CN116756363A (zh) | 一种由信息量引导的强相关性无监督跨模态检索方法 | |
CN116645694A (zh) | 基于动态自进化信息抽取和对齐的文本-目标检索方法 | |
Sahbi et al. | Active learning for interactive satellite image change detection | |
El-Gayar | Automatic Generation of Image Caption Based on Semantic Relation using Deep Visual Attention Prediction | |
CN111914110A (zh) | 一种基于深度激活显著区域的实例检索方法 | |
Jeevitha et al. | Natural language description for videos using NetVLAD and attentional LSTM | |
CN117033308B (zh) | 一种基于特定范围的多模态检索方法及装置 | |
Sahbi et al. | Frugal Learning of Virtual Exemplars for Label-Efficient Satellite Image Change Detection | |
Ma et al. | SwinFG: A fine-grained recognition scheme based on swin transformer | |
CN117649582B (zh) | 基于级联注意力的单流单阶段网络目标跟踪方法与系统 | |
CN116821381B (zh) | 一种基于空间线索的语音-图像跨模态检索方法及装置 | |
Zhao | Multichannel Fusion Based on modified CNN for Image Emotion Recognition | |
Zhang | The Analysis of Intelligent Real-Time Image Acquisition System Based on Data Mining | |
Yu et al. | Feature interaction and two-stage cross-modal fusion for RGB-D salient object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |