CN113902764A - 基于语义的图像-文本的跨模态检索方法 - Google Patents
基于语义的图像-文本的跨模态检索方法 Download PDFInfo
- Publication number
- CN113902764A CN113902764A CN202111374052.1A CN202111374052A CN113902764A CN 113902764 A CN113902764 A CN 113902764A CN 202111374052 A CN202111374052 A CN 202111374052A CN 113902764 A CN113902764 A CN 113902764A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- matching
- representing
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 230000002708 enhancing effect Effects 0.000 claims abstract description 5
- 238000010606 normalization Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 2
- 230000002349 favourable effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于语义的图像‑文本的跨模态检索方法,涉及数据库技术领域。本发明解决了现存在的方法缺乏对语义的理解,尤其是图像,在图像‑文本跨模态匹配中,通过增强图像表示,加强对语义的理解。在图像文本匹配的过程,增强相关信息,抑制不相关的信息。这样更有利于图像‑文本的跨模态匹配。对比于全局匹配,本文将能细粒度的找到所有匹配的信息,不完全依赖实体共现。并且巧妙的应用了注意力机制和门控机制,实现图像文本跨模态匹配。
Description
技术领域
本发明涉及数据库技术领域,尤其涉及一种基于语义的图像-文本的跨模态检索方法。
背景技术
由于来自社交媒体和网络应用的多媒体数据的爆炸性增长,图像-文本双向检索在学术和工业界变得越来越流行。这个任务定义为给定一个图像去检索与图像语义相似的文本;给定一个文本去检索于文本语义相似的图像。图像-文本的跨模态检索本质是处理图像-文本匹配的任务。在一定程度上,图像-文本跨模态检索促进了视觉与语言的相互理解;同时可以应用到搜索引擎。但是,这一任务也面临很大的挑战,由于图像和文本属于不同的结构,学习两种异构的数据变得很困难。如何准确的度量两种不同结构的数据的对应关系是一个难题。
在近年,为了解决图像和文本的异构性,很多关于图像-文本的跨模态检索方法被提出来。但是很多是关于粗粒度的方法,通过神经网络的方法,把图像和文本直接映射到同一潜在的子空间;然后通过计算图像和文本特征之间的距离,度量两者的相似性;距离越小相似性越大,距离越大相似性越小。但是,这些方法粗略地捕捉了模态之间的对应关系,没有考虑图像和文本的语义对应,从而不能提高匹配的准确性。为了进一步提高匹配的准确性,一些方法探索了图像和文本之间的细粒度交互。同时为了更深入地理解这种细粒度的对应关系,最近的研究提出了跨模态图像-文本检索的细粒度对应的方法。每个图像和文本分别生成图像区域特征表示和文本单词特征表示,并将图像的区域与问文本的单词对齐。目前最好的对齐方法应用了注意力机制,将每个片段与来自另一个模态的所有片段对齐,是一种一对多的关系。它可以灵活地发现细粒度的对应关系,但是也存在不足。图像区域特征的提取只是像素级别的,图像区域之间的关系没有考虑,从而没有解决图像模态内的语义关系;在处理模态间的关系时,采用图像-文本的注意力机制,考虑了很多不相关的语义信息;从而不能准确的挖掘出图像-文本的细粒度语义对应。
发明内容
针对现有技术的不足,本发明提供一种基于语义的图像-文本的跨模态检索方法。
一种基于语义的图像-文本的跨模态检索方法,包括以下步骤:
步骤1、分别对待测图片的图像特征以及文本特征进行提取;
所述图像特征采用深度学习算法Faster R-CNN提取出每张图像的m个区域,再采用预训练残差网络提出每个区域的特征fi,如下式所示:
vi=Wvfi+bv
其中Wv和bv是学习参数;通过全连接学习fi特征,生成图像的特征表示vi,最终图像的特征表示如下式所示:
V={vi|i=1,…,m,vi∈Rd}
V表示该图像的全部区域特征,m表示图像的区域个数,vi表示该图像的区域特征,vi表示该图像的区域特征,Rd表示特征维度;
所述文本特征采用双向门控循环单元生成文本表示,如下式所示
T={tj|j=1,…,n,tj∈Rd}
T表示文本的全部单词特征,tj表示文本中的第j个单词的特征表示,n表示文本中单词的个数,Rd表示特征维度
步骤2、增强图像表示:
采用双向门控循环单元RNN生成结合图像上下文的图像区域表示,把一张图片的每个区域看成一个节点,计算结合图像上下文的图像区域特征表示;如下式所示:
U={ui|i=1,…,m,ui∈Rd}
其中Wg是学习参数;U表示结合上下文的图像特征表示,ui表示第i个有上下文语义的区域特征;
步骤3、采用注意力机制进行跨模态检索,分别学习基于文本的区域特征,以及基于图像的单词特征;
其中跨模态检索分为图像-文本匹配和文本-图像匹配;
所述图像-文本匹配采用注意力机制将该图像的某一个区域与匹配句子中的所有单词对齐,将学习到每个区域对应的文本信息,得到一个新的表示,这个表示代表从文本传到视觉的语义信息;即先计算图像区域与句子单词的相似性,如下所示:
所述文本-图像匹配如下所示:
步骤4、采用了改进的门控机制加强图像-文本的语义匹配,过滤掉匹配中与设定不相关的信息,生成新的图像,同时进行文本-图像匹配,生成新的文本;如下式所示:
其中Wg,bg,Wo,bo是学习参数;gi表示图像-文本的更新门,sigmoid()是一个激活函数,Oi表示图像-文本的融合特征;
其中Wh,bh,Wm,bm,是学习参数;gj*表示文本-图像的更新门,Oj*表示文本-图像的融合特征;
步骤5、分别计算图像和文本的相似度;采用计算局部的相似性,求和平均得到图像和文本的相似性;如下式所示:
其中Ib表示给定图像,S表示匹配的文本;Sb表示给定图像,I表示匹配的文本;
G(Ib,S),G(I,Sb),分别表示匹配文本的得分和匹配图像的得分。
步骤6、采用最大硬度的排序损失函数L对设定批量的图像文本匹配进行训练,训练结束后,给定一张目标图像或者句子,即可找到最匹配的句子或者图像。
所述损失函数L如下式所示:
其中F(Ib,Sb)是G(Ib,S)和G(I,Sb)之和,表示是匹配文本得到分数;F(Ib,Sb*)是不匹配文本得到的分数;F(Ib*,Sb)表示不是匹配图像得到的分数,B表示最小批量;Δ表示边界值;[·]+表示max();
采用上述技术方案所产生的有益效果在于:
本发明提出了一种基于语义顺序的图像-文本的跨模态检索方法,主要解决现存在的方法缺乏对语义的理解,尤其是图像,它不像句子具有上下文关系。在图像-文本跨模态匹配中,通过增强图像表示,加强对语义的理解。在图像文本匹配的过程,增强相关信息,抑制不相关的信息。这样更有利于图像-文本的跨模态匹配。对比于全局匹配,本文将能细粒度的找到所有匹配的信息,不完全依赖实体共现。并且巧妙的应用了注意力机制和门控机制,实现图像文本匹配。
附图说明
图1为本发明总体流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一种基于语义的图像-文本的跨模态检索方法,如图1所示,包括以下步骤:
步骤1、提取待测图片的图像和文本的特征;
所述图像特征采用深度学习算法Faster R-CNN提取出每张图像的m个区域,根据实验证明选取36个区域最佳。再采用预训练残差网络提出每个区域的特征fi,本实施例中fi为2048维;如下式所示:
vi=Wvfi+bv
其中Wv和bv是学习参数;通过全连接学习fi特征,生成vi是1024维;最终图像的特征表示如下式所示:
V={vi|i=1,…,m,vi∈Rd}
V表示该图像的全部区域特征,m表示图像的区域个数,vi表示该图像的区域特征,vi表示该图像的区域特征,Rd表示vi的特征维度;
本实施例中m=36;
所述文本特征采用双向门控循环单元生成文本表示,如下式所示
T={tj|j=1,…,n,tj∈Rd}
T表示文本的全部单词特征,tj表示文本中的第j个单词的特征表示,n表示文本中单词的个数,Rd表示tj的特征维度
步骤2、增强图像表示;
图像的区域表示,不像文本一样具有语义顺序。在一张图像中,每个区域之间存在语义关系,但是步骤1所提取出来的区域特征缺乏这种上下文的语义关系。采用双向门控循环单元生成结合上下文的图像区域表示,把一张每个区域看成一个节点,计算结合上下文的图像区域特征表示。如下式所示:
U={ui|i=1,…,m,ui∈Rd}
其中Wg是学习参数;U表示结合上下文的图像特征表示,ui表示第i个有上下文语义的区域特征;
步骤3、采用注意力机制,分别学习基于文本的区域特征,基于图像的单词特征;
跨模态检索分为图像-文本匹配和文本-图像匹配两个部分,两个部分的网络结构是对称的,先详细介绍图像-文本匹配。
所述图像-文本匹配采用注意力机制将该图像的某一个区域与匹配句子中的所有单词对齐,将学习到每个区域对应的文本信息,得到一个新的表示,这个表示代表从文本传到视觉的语义信息;具体实现,先计算图像区域与句子单词的相似性,如下所示:
同样,文本-图像匹配,具体实现如下:
其中Wg,bg,Wo,bo是学习参数;gi表示图像-文本的更新门,sigmoid()是一个激活函数,Oi表示图像-文本的融合特征;
其中Wh,bh,Wm,bm,是学习参数;gj*表示文本-图像的更新门,Oj*表示文本-图像的融合特征;
步骤5、计算图像和文本的相似度;
在度量图像和文本的相似度采用计算局部的相似性,求和平均得到图像和文本的相似性,如下式所示:
其中Ib表示给定图像,S表示匹配的文本;Sb表示给定图像,I表示匹配的文本;
G(Ib,S),G(I,Sb),分别表示匹配文本的得分和匹配图像的得分。
步骤6、采用最大硬度的排序损失函数对图像文本匹配进行训练,一次对所有的数据进行训练,会降低计算效率,选择小批量一次次进行计算。训练结束后,给定一张图像或者句子,即可找到最匹配的句子或者图像。
损失函数L如下式所示:
其中F(Ib,Sb)是G(Ib,S)和G(I,Sb)之和,表示是匹配文本得到分数;F(Ib,Sb*)是不匹配文本得到的分数;F(Ib*,Sb)表示不是匹配图像得到的分数,B表示最小批量;Δ表示边界值;[·]+表示max()。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (7)
1.一种基于语义的图像-文本的跨模态检索方法,其特征在于,包括以下步骤:
步骤1、分别对待测图片的图像特征以及文本特征进行提取;
步骤2、增强图像表示:
采用双向门控循环单元RNN生成结合图像上下文的图像区域表示,把一张图片的每个区域看成一个节点,计算结合图像上下文的图像区域特征表示;
步骤3、采用注意力机制进行跨模态检索,分别学习基于文本的区域特征,以及基于图像的单词特征;
步骤4、采用了改进的门控机制加强图像-文本的语义匹配,过滤掉匹配中与设定不相关的信息,生成新的图像,同时进行文本-图像匹配,生成新的文本;
步骤5、分别计算图像和文本的相似度;采用计算局部的相似性,求和平均得到图像和文本的相似性;
步骤6、采用最大硬度的排序损失函数L对设定批量的图像文本匹配进行训练,训练结束后,给定一张目标图像或者句子,即可找到最匹配的句子或者图像。
2.根据权利要求1所述的基于语义的图像-文本的跨模态检索方法,其特征在于,步骤1中所述图像特征采用深度学习算法Faster R-CNN提取出每张图像的m个区域,再采用预训练残差网络提出每个区域的特征fi,如下式所示:
vi=Wvfi+bv
其中Wv和bv是学习参数;通过全连接学习fi特征,生成图像的特征表示vi,最终图像的特征表示如下式所示:
V={vi|i=1,…,m,vi∈Rd}
V表示该图像的全部区域特征,m表示图像的区域个数,vi表示该图像的区域特征,vi表示该图像的区域特征,Rd表示特征维度;
所述文本特征采用双向门控循环单元生成文本表示,如下式所示
T={tj|j=1,…,n,tj∈Rd}
T表示文本的全部单词特征,tj表示文本中的第j个单词的特征表示,n表示文本中单词的个数,Rd表示特征维度。
3.根据权利要求1所述的基于语义的图像-文本的跨模态检索方法,其特征在于,步骤2中所述结合上下文的图像区域特征表示如下式所示:
U={ui|i=1,…,m,ui∈Rd}
其中Wg是学习参数;U表示结合上下文的图像特征表示,ui表示第i个有上下文语义的区域特征。
4.根据权利要求1所述的基于语义的图像-文本的跨模态检索方法,其特征在于,步骤3中所述跨模态检索分为图像-文本匹配和文本-图像匹配;
其中所述图像-文本匹配采用注意力机制将该图像的某一个区域与匹配句子中的所有单词对齐,将学习到每个区域对应的文本信息,得到一个新的表示,这个表示代表从文本传到视觉的语义信息;即先计算图像区域与句子单词的相似性,如下所示:
所述文本-图像匹配如下所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111374052.1A CN113902764A (zh) | 2021-11-19 | 2021-11-19 | 基于语义的图像-文本的跨模态检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111374052.1A CN113902764A (zh) | 2021-11-19 | 2021-11-19 | 基于语义的图像-文本的跨模态检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113902764A true CN113902764A (zh) | 2022-01-07 |
Family
ID=79194742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111374052.1A Pending CN113902764A (zh) | 2021-11-19 | 2021-11-19 | 基于语义的图像-文本的跨模态检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113902764A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115033727A (zh) * | 2022-05-10 | 2022-09-09 | 中国科学技术大学 | 基于跨模态置信度感知的图像文本匹配方法 |
WO2024098533A1 (zh) * | 2022-11-08 | 2024-05-16 | 苏州元脑智能科技有限公司 | 图文双向搜索方法、装置、设备及非易失性可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084358A (zh) * | 2020-09-04 | 2020-12-15 | 中国石油大学(华东) | 基于带有主题约束的区域强化网络的图像-文本匹配方法 |
CN113221882A (zh) * | 2021-05-11 | 2021-08-06 | 西安交通大学 | 一种面向课程领域的图像文本聚合方法及系统 |
-
2021
- 2021-11-19 CN CN202111374052.1A patent/CN113902764A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084358A (zh) * | 2020-09-04 | 2020-12-15 | 中国石油大学(华东) | 基于带有主题约束的区域强化网络的图像-文本匹配方法 |
CN113221882A (zh) * | 2021-05-11 | 2021-08-06 | 西安交通大学 | 一种面向课程领域的图像文本聚合方法及系统 |
Non-Patent Citations (2)
Title |
---|
KUANG-HUEI LEE等: ""Stacked Cross Attention for Image-Text Matching"", 《ARXIV》, 23 July 2018 (2018-07-23), pages 1 - 25 * |
XIAOJING LI,BIN WANG等: ""DSGSR:Dynamic Semantic Generation and Similarity Reasoning for Image-Text Matching"", 《CAAI INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE》, 6 June 2021 (2021-06-06), pages 168 - 179 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115033727A (zh) * | 2022-05-10 | 2022-09-09 | 中国科学技术大学 | 基于跨模态置信度感知的图像文本匹配方法 |
CN115033727B (zh) * | 2022-05-10 | 2023-06-20 | 中国科学技术大学 | 基于跨模态置信度感知的图像文本匹配方法 |
WO2024098533A1 (zh) * | 2022-11-08 | 2024-05-16 | 苏州元脑智能科技有限公司 | 图文双向搜索方法、装置、设备及非易失性可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
WO2021212749A1 (zh) | 命名实体标注方法、装置、计算机设备和存储介质 | |
CN113065577A (zh) | 一种面向目标的多模态情感分类方法 | |
CN111324765A (zh) | 基于深度级联跨模态相关性的细粒度草图图像检索方法 | |
Mohd et al. | Quranic optical text recognition using deep learning models | |
CN113902764A (zh) | 基于语义的图像-文本的跨模态检索方法 | |
Rizvi et al. | Optical character recognition system for Nastalique Urdu-like script languages using supervised learning | |
CN113076465A (zh) | 一种基于深度哈希的通用跨模态检索模型 | |
CN112883199A (zh) | 一种基于深度语义邻居和多元实体关联的协同消歧方法 | |
CN116362221A (zh) | 融合多模态语义关联图谱的航空文献关键词相似度判定方法 | |
CN115017884B (zh) | 基于图文多模态门控增强的文本平行句对抽取方法 | |
CN114357148A (zh) | 一种基于多级别网络的图像文本检索方法 | |
CN115658934A (zh) | 一种基于多类注意力机制的图文跨模态检索方法 | |
CN114861082A (zh) | 一种基于多维度语义表示的攻击性评论检测方法 | |
CN111597330A (zh) | 一种基于支持向量机的面向智能专家推荐的用户画像方法 | |
Perdana et al. | Instance-based deep transfer learning on cross-domain image captioning | |
CN116843175A (zh) | 一种合同条款风险检查方法、系统、设备和存储介质 | |
Wei et al. | Word image representation based on visual embeddings and spatial constraints for keyword spotting on historical documents | |
Tian et al. | Research on image classification based on a combination of text and visual features | |
CN113516118B (zh) | 一种图像与文本联合嵌入的多模态文化资源加工方法 | |
CN116341655A (zh) | 一种基于多模态协同表示学习的实体对齐方法 | |
CN115292533A (zh) | 视觉定位驱动的跨模态行人检索方法 | |
CN115203429A (zh) | 一种用于构建审计领域本体框架的知识图谱自动扩充方法 | |
CN114722798A (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |