CN114117104A - 一种基于多关系感知推理的图像文本匹配方法 - Google Patents
一种基于多关系感知推理的图像文本匹配方法 Download PDFInfo
- Publication number
- CN114117104A CN114117104A CN202010891854.9A CN202010891854A CN114117104A CN 114117104 A CN114117104 A CN 114117104A CN 202010891854 A CN202010891854 A CN 202010891854A CN 114117104 A CN114117104 A CN 114117104A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- features
- relation
- perception
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/535—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/587—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
针对图像文本匹配任务,本发明设计了一种基于多关系感知推理的图像文本匹配方法,涉及计算机视觉和自然语言处理两个领域。充分挖掘视觉和文本模态的特征,并将不同模态的特征进行对齐是攻克图像文本匹配任务难点的关键。合理利用图卷积神经网络有利于提升模型的性能表现,本发明基于图卷积神经网络,设计了针对图像的多关系感知推理模块,关注图像的语义关系和空间位置关系,提取了更加丰富的视觉特征表示,实现了与文本语义信息更好的对齐;再结合基于BERT‑GRU的文本编码器,能够全面地表达句子的深层语义信息,实现与图像视觉表征的良好对齐。本发明在自动图文互检索、儿童益智教育和辅助视觉障碍人士等实际应用方面具有一定的意义。
Description
技术领域
本发明涉及计算机视觉与自然语言处理两个领域,具体涉及利用多关系感知推理模块关注图像区域之间的空间位置关系和语义关系,同时利用基于BERT的文本编码器关注包含上下文语义信息的文本表征。
背景技术
图像文本匹配任务(Image-text matching)旨在在跨模态嵌入空间中度量一幅图像和一段文本的相似性。该任务涉及到视觉和文本两种模态的学习,是联合计算机视觉和自然语言处理的桥梁。
早期的图像文本匹配模型,主要使用标准的双分支嵌入架构来提取图像和文本的特征,并将它们映射到嵌入空间中进行匹配。这种方法已经被证明是有用的,却只关注图像的视觉特征,而忽略了图像区域之间的相对空间位置信息。除了语义信息,空间位置也很重要。例如,“White-haired man in a straw hat sitting on a bench under a tree”句子描述中的“in”、“on”和“under”需要图像中的位置信息。也就是说,不仅要捕捉对象本身,还要理解对象间的空间信息,甚至是将它们联系在一起的抽象关系。在文本表示方面,现有的方法大多使用word2vec或随机初始化来嵌入单词。由于句子语义的丰富性和结构的多样性,这些方法对每个词都使用一个固定的向量,无法解决多义词的问题。例如,给定两句话:“A woman takes pictures by the bank of the river.”和“A woman is standing inthe bank.”,“bank”在两句话中有不同的含义。针对于此,基于多关系感知推理的图像编码器和基于BERT的文本编码器分别被提出,并取得不错的表现。通过图像编码器学习到丰富的图像表征,通过文本编码器学习到包含上下文语义信息的文本表征,从而实现更好的跨模态匹配。
发明内容
本发明为解决上述问题提供了一种基于多关系感知推理的图像文本匹配研究方法。基于图神经网络,设计了多关系感知推理模块,关注图像的语义信息和空间关系信息,同时联同基于BERT的文本编码器共同构成图像文本匹配模型中的特征提取模块。
本发明通过以下技术方案来实现上述目的:
一种基于多关系感知推理的图像文本匹配研究方法,包括以下步骤:
步骤一:图像表征,首先使用目标检测网络提取图像中区域的视觉特征和空间位置坐标特征作为中间特征。将图像的中间特征构建为图结构的数据,分别经过空间关系编码器、语义关系编码器和全局推理,输出最终的图像全局特征;
步骤二:文本表征,将文本按顺序输入到BERT中,得到每个单词的表征,再将每个单词输入到GRU中,用最后一个时刻的隐藏层状态作为整个句子的文本语义表示;
步骤三:将提取出的图像视觉特征和文本语义特征映射到一个共同的跨模态嵌入空间中,并进行对齐,得到图像和文本的匹配分数。
作为优选的技术方案,步骤一的图像特征提取模块,其说明如下:
(1)输入图像先经过目标检测网络Faster RCNN提取一系列图像区域中间特征,区域数量取值为36。视觉注意方式采取自底向上(bottom-up)。
(2)多关系感知推理包括空间关系感知推理以及语义关系感知推理两个模块。
(3)空间关系感知推理的输入为图结构数据。首先,构建双向空间图,充分挖掘图像中每两个区域之间的空间关系。空间关系是一个三元组,表示给定两个对象区域的相对几何位置。边和相应的标签由并集的交点(IoU)、相对距离和角度决定。位置关系有11类。然后空间图经过带有多头注意力机制的GCN进行推理,输出具有空间关系感知的区域级图像特征。输入输出过程如下所示:
(4)语义关系感知推理的输入为全连接图。首先,将每个区域特征作为一个节点,构造一个全连接图,通过基于GCN的语义关系编码器,输出具有空间和语义关系的区域级图像特征。然后将区域级特征依次输入GRU中进行全局推理,输出最终的图像表征I。输入输出过程如下所示:
I=GRU(V*) (4)
作为步骤二中文本的特征提取说明如下:
对于输入的文本描述,先将文本分割成为独立的单词,每个单词通过预训练的BERT转换为对应的词向量,再利用单层的GRU网络获得文本特征,用最后一个时刻的隐藏层状态作为整个句子的文本语义表示。每个文本描述的特征维度为2048。
作为步骤三中的多模态特征匹配,其说明如下:
优化函数为生成部分损失和匹配部分损失的总和。针对生成部分,步骤二中得到的图像特征通过图像描述模块,根据图像特征生成对应的句子描述,生成的描述与标签描述进行匹配,不断优化,通过标签描述监督图像特征的提取,使得提取到更加丰富的图像特征。针对匹配部分,使用hinge-based triplet ranking loss来约束,使得在公共嵌入空间中,匹配的图像文本对的相似度分数大于未匹配的图像文本对的相似度分数。
本发明的主要内容在于提出了基于多关系感知推理的图像文本匹配研究方法。本发明提出的多关系感知推理模块能有效地提取丰富的图像表征,提出的基于BERT的文本编码器能有效地提取具有上下文内容的文本表征,对图像和文本的匹配起正向促进作用。对自动图文互检索、儿童益智教育和辅助视觉障碍人士等方面都具有较大的意义。
附图说明
图1是本发明多关系感知推理模块原理图。
图2是本发明基于多关系感知推理的图像文本匹配模型结构图。
具体实施方式
下面结合附图对本发明作进一步说明:
图1是本发明提出的多关系感知推理模块原理图。该模块由空间关系推理和语义关系推理构成,用于捕获图像区域之间的空间位置关系和对象间的语义关系。这些视觉关系特征可以在图像中表征更细粒度的内容,反过来提供了一个完整的场景解释,从而促进与复杂文本语义表示的匹配。为验证本发明所提出的多关系感知推理模块的合理性,对单关系推理和多关系推理进行了实验验证,其结果如表一所示:
表一
图2是本发明提出的基于多模态多关系感知推理的图像文本匹配模型结构图。由图可知,整个模型结构包括三部分,分别为:图像编码器模块、文本编码器模块、目标函数模块。为了有效地推理空间关系,将图像视为一个场景图,每个节点表示一个对象,每个有向边表示两个对象之间的空间标签。采用具有注意机制的图神经网络,通过其部分关系本质邻域动态地丰富对象表示。另外,在文本嵌入中应用了BERT来学习丰富的文本表示。
(1)取数据集Flickr30K中训练集参与训练。将所有参与训练的图像输入到目标检测网络Faster RCNN中,每幅图像输出大小为36*2048的特征矩阵和36*4的空间位置矩阵。然后,经过多关系编码器得到大小为36*2048的区域级图像特征;最后,经过一个单层的GRU得到大小为1*2048的图像表征。
(2)对于文本描述,先将句子通过预训练好的BERT,完成单词切分和词嵌,每个单词转换为固定维度的向量表示形式,在BERT-base中,每个单词都表示为一个768维的向量,再通过一个单层的隐藏层个数为2048的GRU,用最后一个时刻的隐藏层状态作为整个句子的文本语义表示,大小为1*2048。
(3)将文本描述和图像特征在公共嵌入空间进行对齐。图像表征通过图像描述模块,生成对应的文本描述,真实的文本描述对生成的文本描述进行约束,使得提取的图像特征更有利于图像文本的匹配;在公共嵌入空间中,通过将图像表征和文本表征进行点积,得到相似度,并进行排序。损失函数采用hinge-based triplet ranking loss,通过损失函数计算两者之间的损失,再通过训练时网络的反向传播对网络参数进行调整,使得匹配的图像文本对距离小,而不匹配的图像文本对距离大。
为验证本发明所提方法的有效性,选取多个跨模态图像文本匹配模型与本发明所提出的方法进行比较,其在测试集上的结果表现如表二所示:
表二
从表二可以看出,本发明提出的方法较其他模型在文本检索图像和图像检索文本两方面都有很大的优势。因此,验证了本发明所提方法的有效性。
Claims (4)
1.一种基于多关系感知推理的图像文本匹配方法,其特征在于包括以下步骤:
步骤一:图像表征,首先使用目标检测网络提取图像中区域的视觉特征和空间位置坐标特征作为中间特征;将图像的中间特征构建为图,经过多关系感知推理模块和全局推理模块,输出最终的图像全局特征;
步骤二:文本表征,将文本按顺序输入到BERT中,得到每个单词的表征,再将每个单词输入到GRU中,用最后一个时刻的隐藏层状态作为整个句子的文本语义表示;
步骤三:将提取出的图像视觉特征和文本语义特征映射到一个共同的跨模态嵌入空间中,并进行对齐,得到图像和文本的匹配分数。
2.根据权利要求1所述的一种基于多关系感知推理的图像文本匹配方法,其特征在于:
步骤一中图像特征提取采用目标检测网络Faster RCNN,以自底向上的注意方式提取一系列图像区域特征和对应区域的位置坐标;多关系推理模块可分解为空间关系编码和语义关系编码两个部分,其中,空间关系编码将图像区域特征和位置坐标构建成为一个空间图,节点为区域特征,边为两个区域的空间位置关系,然后经过一层有注意力机制的图卷积神经网络,得到有空间感知的区域级特征,再进一步构建语义图,经过两层图卷积神经网络,得到最终的区域级图像特征,最后经过全局推理模块,得到图像全局表征。
3.根据权利要求1所述的一种基于多关系感知推理的图像文本匹配方法,其特征在于:
步骤二中对文本语义特征的提取,先将文本描述句子划分为单词,再通过BERT词嵌将每个单词转化为词向量,最后通过单层的GRU获得句子特征。
4.根据权利要求1所述的一种基于多关系感知推理的图像文本匹配方法,其特征在于:
步骤三中图像视觉特征和文本语义特征的对齐,分别将图像表征和文本表征映射到跨模态嵌入空间中,然后使用余弦距离来度量特征之间的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010891854.9A CN114117104B (zh) | 2020-08-28 | 2020-08-28 | 一种基于多关系感知推理的图像文本匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010891854.9A CN114117104B (zh) | 2020-08-28 | 2020-08-28 | 一种基于多关系感知推理的图像文本匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114117104A true CN114117104A (zh) | 2022-03-01 |
CN114117104B CN114117104B (zh) | 2023-06-16 |
Family
ID=80359715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010891854.9A Active CN114117104B (zh) | 2020-08-28 | 2020-08-28 | 一种基于多关系感知推理的图像文本匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114117104B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115730878A (zh) * | 2022-12-15 | 2023-03-03 | 广东省电子口岸管理有限公司 | 基于数据识别的货物进出口查验管理方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102782678A (zh) * | 2010-02-01 | 2012-11-14 | 谷歌公司 | 用于项关联的联合嵌入 |
US20170097948A1 (en) * | 2015-10-02 | 2017-04-06 | Adobe Systems Incorporated | Searching using specific attributes found in images |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
WO2019011936A1 (en) * | 2017-07-10 | 2019-01-17 | Katholieke Universiteit Leuven | IMAGE EVALUATION METHOD |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN110291535A (zh) * | 2016-11-25 | 2019-09-27 | 康德斯弗洛股份有限公司 | 用于通过卷积神经网络创建医学图像数据库的方法和系统 |
CN111026894A (zh) * | 2019-12-12 | 2020-04-17 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
-
2020
- 2020-08-28 CN CN202010891854.9A patent/CN114117104B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102782678A (zh) * | 2010-02-01 | 2012-11-14 | 谷歌公司 | 用于项关联的联合嵌入 |
US20170097948A1 (en) * | 2015-10-02 | 2017-04-06 | Adobe Systems Incorporated | Searching using specific attributes found in images |
CN110291535A (zh) * | 2016-11-25 | 2019-09-27 | 康德斯弗洛股份有限公司 | 用于通过卷积神经网络创建医学图像数据库的方法和系统 |
WO2019011936A1 (en) * | 2017-07-10 | 2019-01-17 | Katholieke Universiteit Leuven | IMAGE EVALUATION METHOD |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN111026894A (zh) * | 2019-12-12 | 2020-04-17 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
Non-Patent Citations (2)
Title |
---|
JIN ZHANG等: "cross-modal multi-relationship aware reasoning for image-text matching" * |
刘佳: "基于深度循环卷积网络和时空信息融合的图像描述算法研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115730878A (zh) * | 2022-12-15 | 2023-03-03 | 广东省电子口岸管理有限公司 | 基于数据识别的货物进出口查验管理方法 |
CN115730878B (zh) * | 2022-12-15 | 2024-01-12 | 广东省电子口岸管理有限公司 | 基于数据识别的货物进出口查验管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114117104B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
Kahou et al. | Figureqa: An annotated figure dataset for visual reasoning | |
Xiao et al. | Weakly-supervised visual grounding of phrases with linguistic structures | |
Chen et al. | Relation R-CNN: A graph based relation-aware network for object detection | |
CN112100351A (zh) | 一种通过问题生成数据集构建智能问答系统的方法及设备 | |
CN111858882B (zh) | 一种基于概念交互和关联语义的文本视觉问答系统及方法 | |
Zhang et al. | Rich visual knowledge-based augmentation network for visual question answering | |
US11783615B2 (en) | Systems and methods for language driven gesture understanding | |
Li et al. | Recurrent attention and semantic gate for remote sensing image captioning | |
CN113191357B (zh) | 基于图注意力网络的多层次图像-文本匹配方法 | |
CN113191375B (zh) | 一种基于联合嵌入的文本到多对象图像生成方法 | |
CN111967272A (zh) | 基于语义对齐的视觉对话生成系统 | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和系统及搭建系统的方法 | |
Lin et al. | Structured attention network for referring image segmentation | |
CN112115253A (zh) | 基于多视角注意力机制的深度文本排序方法 | |
CN114595306A (zh) | 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
Zhu et al. | Unpaired image captioning by image-level weakly-supervised visual concept recognition | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN114117104A (zh) | 一种基于多关系感知推理的图像文本匹配方法 | |
Farahani et al. | Automatic chart understanding: a review | |
Raypurkar et al. | Deep learning based image caption generator | |
Jia et al. | Semantic association enhancement transformer with relative position for image captioning | |
Nakjai et al. | Thai finger spelling localization and classification under complex background using a YOLO-based deep learning | |
CN117093692A (zh) | 一种基于深度融合的多粒度图像-文本匹配方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |