CN115017358A - 一种多模态交互的跨模态检索方法及系统 - Google Patents
一种多模态交互的跨模态检索方法及系统 Download PDFInfo
- Publication number
- CN115017358A CN115017358A CN202210946187.9A CN202210946187A CN115017358A CN 115017358 A CN115017358 A CN 115017358A CN 202210946187 A CN202210946187 A CN 202210946187A CN 115017358 A CN115017358 A CN 115017358A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- features
- representation
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000003993 interaction Effects 0.000 title claims abstract description 33
- 230000004927 fusion Effects 0.000 claims abstract description 37
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 230000002452 interceptive effect Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 73
- 239000013598 vector Substances 0.000 claims description 27
- 230000002776 aggregation Effects 0.000 claims description 24
- 238000004220 aggregation Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000000873 masking effect Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种多模态交互的跨模态检索方法及系统。该方法包括提取图文对中的图像特征和文本特征;将图像特征和文本特征分别映射到一个公共空间,确定图像的全局语义表示和文本的全局语义表示的相似度分数;根据相似度分数和图文对的真实标签,利用对比学习的方法,优化图像特征和文本特征;对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习,确定优化后的图像特征和优化后的文本特征的多模态融合表示;利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互,确定联合表示;根据联合表示确定对应的匹配分数,根据匹配分数确定检索结果。本发明能够提高跨模态检索的精度。
Description
技术领域
本发明涉及跨模态检索技术领域,特别是涉及一种多模态交互的跨模态检索方法及系统。
背景技术
跨模态检索是语言和视觉领域的一项具有挑战性的任务。跨模态检索是把给定的一个图片,分别与文本进行匹配,选择语义最相似的文本作为匹配结果;或者是给定一个文本,分别与图像进行匹配,选择最相近的图像作为匹配结果。
目前大多数方法都是独立地将图像和句子嵌入到联合空间中比较它们的相似性,很少在计算联合空间相似性之前探索图像和文本之间的交互,所以这类方法训练得到的模型很难充分理解图文对包含的语义信息,从而影响模型的检索精度。
发明内容
本发明的目的是提供一种多模态交互的跨模态检索方法及系统,能够提高跨模态检索的精度。
为实现上述目的,本发明提供了如下方案:
一种多模态交互的跨模态检索方法,包括:
提取图文对中的图像特征和文本特征;所述图文对包括:图像和文本;所述文本特征包括:CLS标记和单词向量;
将所述图像特征和所述文本特征分别映射到一个公共空间,确定图像的全局语义表示和文本的全局语义表示的相似度分数;
根据相似度分数和图文对的真实标签,利用对比学习的方法,优化图像特征和文本特征;
对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习,确定优化后的图像特征和优化后的文本特征的多模态融合表示;
利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互,确定联合表示;
根据联合表示确定对应的匹配分数,根据匹配分数确定检索结果。
可选地,所述提取图文对中的图像特征和文本特征,之前还包括:
获取图文对;
对图文对进行预处理;所述预处理包括:随机掩码以及添加噪声。
可选地,所述提取图文对中的图像特征和文本特征,具体包括:
利用目标提取网络和卷积神经网络提取图像的局部区域特征;
将图像的局部区域特征进行联合,确定图像特征;
利用双向编码表示模型来提取文本的文本特征。
可选地,所述将所述图像特征和所述文本特征分别映射到一个公共空间,确定图像的全局语义表示和文本的全局语义表示的相似度分数,具体包括:
将所述图像特征和所述文本特征分别映射到一个公共空间;
根据所述文本特征确定文本的单词比例;
根据所述文本的单词比例以及对应的单词向量确定文本的区域聚合表示;
根据文本的区域聚合表示以及CLS标记确定文本的全局语义表示;
根据所述图像特征确定图像的区域聚合表示;
根据图像的区域聚合表示确定图像的全局语义表示;
根据图像特征和文本特征,利用向量的余弦相似度确定图像的全局语义表示和文本的全局语义表示的相似度分数。
可选地,所述根据相似度分数和图文对的真实标签,利用对比学习的方法,优化图像特征和文本特征,具体包括:
根据图文对确定图搜文的损失函数和文搜图的损失函数;
根据图搜文的损失函数和文搜图的损失函数确定对比损失函数;
根据相似度分数和图文对的真实标签优化对比损失函数;
根据优化后的对比损失函数确定优化后的图像特征和优化后的文本特征。
可选地,所述利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互,确定联合表示,具体包括:
利用多模态注意力模块对多模态融合表示和优化后的图像特征进行多模态注意力交互,确定优化后的多模态融合表示;
利用多模态注意力模块对优化后的多模态融合表示和优化后的文本特征进行多模态注意力交互,确定联合表示。
一种多模态交互的跨模态检索系统,包括:
特征提取模块,用于提取图文对中的图像特征和文本特征;所述图文对包括:图像和文本;所述文本特征包括:CLS标记和单词向量;
相似度分数确定模块,用于将所述图像特征和所述文本特征分别映射到一个公共空间,确定图像的全局语义表示和文本的全局语义表示的相似度分数;
对比学习模块,用于根据相似度分数和图文对的真实标签,利用对比学习的方法,优化图像特征和文本特征;
多模态融合表示确定模块,用于对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习,确定优化后的图像特征和优化后的文本特征的多模态融合表示;
联合表示确定模块,用于利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互,确定联合表示;
检索结果确定模块,用于根据联合表示确定对应的匹配分数,根据匹配分数确定检索结果。
可选地,所述特征提取模块,具体包括:
图像的局部区域特征提取单元,用于利用目标提取网络和卷积神经网络提取图像的局部区域特征;
图像特征确定单元,用于将图像的局部区域特征进行联合,确定图像特征;
文本特征提取单元,用于利用双向编码表示模型来提取文本的文本特征。
可选地,所述相似度分数确定模块,具体包括:
映射单元,用于将所述图像特征和所述文本特征分别映射到一个公共空间;
单词比例确定单元,用于根据所述文本特征确定文本的单词比例;
文本的区域聚合表示确定单元,用于根据所述文本的单词比例以及对应的单词向量确定文本的区域聚合表示;
文本的全局语义表示确定单元,用于根据文本的区域聚合表示以及CLS标记确定文本的全局语义表示;
图像的区域聚合表示确定单元,用于根据所述图像特征确定图像的区域聚合表示;
图像的全局语义表示确定单元,用于根据图像的区域聚合表示确定图像的全局语义表示;
相似度分数确定单元,用于根据图像特征和文本特征,利用向量的余弦相似度确定图像的全局语义表示和文本的全局语义表示的相似度分数。
可选地,所述对比学习模块,具体包括:
损失函数确定单元,用于根据图文对确定图搜文的损失函数和文搜图的损失函数;
对比损失函数确定单元,用于根据图搜文的损失函数和文搜图的损失函数确定对比损失函数;
对比损失函数优化单元,用于根据相似度分数和图文对的真实标签优化对比损失函数;
优化后的特征确定单元,用于根据优化后的对比损失函数确定优化后的图像特征和优化后的文本特征。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明所提供的一种多模态交互的跨模态检索方法及系统,根据相似度分数和图文对的真实标签,利用对比学习的方法,优化图像特征和文本特征;对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习,确定优化后的图像特征和优化后的文本特征的多模态融合表示;利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互,确定联合表示。利用模态内的上下文关系来发现潜在的语义信息,将注意力机制和上下文的交互结合起来,学习局部语义相关性,在跨模态检索过程中考虑全面和细粒度的跨模态交互,正确地处理负对和不相干的信息,进而提高跨模态检索的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种多模态交互的跨模态检索方法流程示意图;
图2为本发明所提供的一种多模态交互的跨模态检索系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种多模态交互的跨模态检索方法及系统,能够提高跨模态检索的精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的一种多模态交互的跨模态检索方法流程示意图,如图1所示,本发明所提供的一种多模态交互的跨模态检索方法,包括:
S101,提取图文对中的图像特征和文本特征;所述图文对包括:图像和文本;所述文本特征包括:CLS标记和单词向量;
S101之前还包括:
获取图文对;
对图文对进行预处理;所述预处理包括:随机掩码以及添加噪声。
S101具体包括:
利用目标提取网络和卷积神经网络提取图像的局部区域特征;使用Faster-RCNN目标提取模型检测图像局部区域。本实施例对提取到的图像区域使用卷积神经网络提取区域特征。因为不同图像的局部区域是不尽相同的,所以,为了统一图像局部区域个数,将提取到图像区域特征联合起来表示成图像特征。最后由该方法提取出的图像特征表示为,每一个图像区域特征都是36*2048空间维度。
将图像的局部区域特征进行联合,确定图像特征;
利用双向编码表示模型来提取文本的文本特征。
双向编码表示模型是一个在纯文本语料库进行预训练的模型,在预训练生成样本时,随机掩码任意一个单词,然后预测该掩码的单词,从而对模型进行预训练。
在训练时,输入图文数据集里的文本,优化和微调该模型,为文本每个单词生成一个词表示。但是每个文本中单词的个数大都不同,为了保证特征长度的一致性,文本也进行了长度填充。
S102,将所述图像特征和所述文本特征分别映射到一个公共空间,确定图像的全局语义表示和文本的全局语义表示的相似度分数;
S102具体包括:
利用线性层,将所述图像特征和所述文本特征分别映射到一个公共空间;
根据所述文本特征确定文本的单词比例;文本特征T={CLS,,......,,SEP},T由CLS标记和单词向量组成。为了利用单词向量充分提取全局表示,可以使用注意力方法,将每个单词的所占比例求出,计算公式为:。是一个线性层,将768维的特征向量映射成1维,再使用softmax函数处理之后,对得到的1维分数矩阵进行转置,最后得到每个的所占比例分数,该比例分数表示每个区域特征占有的比例值,将这些比例分数与对应的区域特征相乘再累和,得到一个由局部区域特征聚合而成的全局特征表示。
根据图像特征和文本特征,利用向量的余弦相似度确定图像的全局语义表示和文本的全局语义表示的相似度分数。
S103,根据相似度分数和图文对的真实标签,利用对比学习的方法,优化图像特征和文本特征;即以图文对的真实标签来约束图文对之间的对比损失,从而在对齐全局语义过程中,过滤图文对的语义无关信息,突出图文对特征中显著局部区域特征表示,从而得到优化的图文对特征表示。即S103是对图文对粗粒度对齐的特征表示。
S103具体包括:
根据相似度分数和图文对的真实标签优化对比损失函数;对比损失越小,表示真实标签和相似度分数越接近,表示映射在全局语义空间上的图像表示和文本表示距离越小,语义越接近。所以,优化对比损失函数,过滤图文表示的无关语义信息,加强显著区域的特征表示,进一步优化图像表示和文本表示。
根据优化后的对比损失函数确定优化后的图像特征和优化后的文本特征。
S104,对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习,确定优化后的图像特征和优化后的文本特征的多模态融合表示;S104得到了多模态上下文交互计算视觉和语言表示的融合特征。通过图文对中多模态信息的局部交互实现细粒度对齐。
图像和文本的语义是相似的,但是单模态中也含有自己模态的特定语义信息,这种语义关系,对另一个模态而言是互补的。所以,为了充分利用模态间的语义对齐和语义互补,学习多模态的上下文语义关系,以便进一步深入挖掘到图像和文本之间的更多的潜在的语义关系,设计一个融合模块计算图像和文本的多模态融合表示,将图像特征和文本特征输入该融合模块中,得到一个多模态融合表示;计算过程为;
S105,利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互,确定联合表示;利用跨模态注意力展开计算局部特征表示的注意力分数,从而进行交互,不断优化融合特征学习多模态上下文语义。融合特征与文本模态同样利用跨模态注意力计算各个局部区域的注意力分数进行跨模态交互。使用多模态的融合表示进行跨模态交互。在计算注意力分数时,是多模态融合表示的局部区域与特定模态的局部区域交互得到的,可以从多模态上下文语义中挖掘出的潜在语义信息,从而学到更好的联合表示。
S105具体包括:
利用多模态注意力模块对多模态融合表示和优化后的图像特征进行多模态注意力交互,确定优化后的多模态融合表示;、、分别是多头注意力的三个自定义权重,该权重分别于与查询(query),键(key)和值(value)相乘,可以得到相关区域的注意力权重,是前馈神经网络。根据这种原理,在多模态融合表示作为查询向量时,可以不断地由注意力学习图像特征V的语义信息,并将学到的信息与多模态融合表示一起进行优化。在训练过程中,不断挖掘出多模态上下文语义,对多模态表示进行语义补充。
S106,根据联合表示确定对应的匹配分数,根据匹配分数确定检索结果。
计算图像和文本的匹配分数和不匹配分数,由得到的匹配分数来预测图文对是否语义相关。图像和文本之间的最终匹配分数计算公式如下:
最终,通过交叉熵损失函数来约束图文对的真实标签与计算图像和文本最终匹配分数的结果,使得语义相似的图像局部区域和文本单词能语义对齐,语义互补的图像区域和文本单词之间的语义加强联系。用交叉熵损失函数进行优化计算得到分类预测模型的目标损失函数为:
为了进一步将文本的上下文和图像的空间信息对应起来。首先任意掩码文本的一个单词,然后计算得到掩码后的文本的特征表示,再计算得到图像和掩码后的文本的联合表示,利用该联合表示去预测掩码单词,从而联合学习文本模态的上下文关系和图像的空间信息得到一个掩码单词后的文本和图像的联合表示,进一步约束学习到的联合表示。
具体来说,设置80%的概率能够随机掩码文本中的任意单词。将掩码单词后的文本模态与图像模态的信息一起交互学习,利用得到的联合表示去预测掩码的单词,进一步约束模型在训练过程中的学习方向。
原始的文本输入有n个词标记,随机掩码一个单词标记,将该标记替换成[MASK],比如。基于周围的文本以及视觉特征之间的跨模态注意力预测该掩码标记。最后,通过最小负对数似然函数来约束该模型的训练。通过优化负对数似然函数,进一步约束掩码单词的真实标签和计算得到的掩码单词的标签之间的差异。一般来说,掩码单词的真实标签是要跟计算得到的掩码单词的标签是要一致的,该一致性体现在负对数似然函数值的大小上,值越小表示标签越相似。负对数似然函数的计算过程如下:
为了提高模型的抗扰动性,计算得到图像特征和文本特征,给图像特征和文本特征分别添加少量的微乎其微的噪声,以此改变图像特征和文本特征表示。最后计算得到添加了噪声的图文对的匹配分数。
在对比学习中,得到了图像和文本的负样本图文对,正负图文对的学习会增加模型的扰动性。所以为了提高模型的鲁棒性,该方法在训练过程中给特征层添加特征噪声。属于输入的图像V和文本T,分别添加和作为图像和文本的特征噪声。特征噪声通过反向传播过程的误差方法而生成,接近于零向量。在提高模型鲁棒性的基础上,不会对模型的训练方向产生太大的影响。对于加入噪声的特征与原特征在训练过程中,信息量应该一致,所以使用KL散度来定义两者之间的互信息关系。在噪声特征的约束下,其目标损失函数为:
最后加和对比损失函数、交叉熵损失函数、负对数似然函数、KL散度函数。
利用梯度下降算法优化加和的所有损失函数,优化对比损失函数以优化提取到的图像特征和文本特征。优化交叉熵损失函数和负对数似然函数以优化联合表示的学习和二分类预测模型。优化KL散度以优化提出的方法模型的鲁棒性。
将联合表示输入到一个线性分类层,该线性分类层是一个现有的二分类的线性模块,通过该模块最后计算出图文对匹配或者不匹配的得分。最后比较所有图文对的匹配分数的大小,得到最大的匹配分数的图文对,从而实现跨模态检索。
对于跨模态检索技术而言,需要能将输入的图像(文本)检索到对应的文本(图像)。而注意力机制可以细粒度对齐图文对的局部区域。注意力机制可以找到图像区域和文本单词的所有可能的对齐,计算目标损失函数,通过目标损失函数的约束性突出关注可能性最大的对齐。
因此,需要进一步在注意力基础上进行改进,以优化跨模态检索的细节。本实施例旨在将挖掘图文对之间更多的潜在语义,以学习包含更多细粒度语义信息的联合表示,计算匹配分数,从而实现跨模态检索。
图2为本发明所提供的一种多模态交互的跨模态检索系统结构示意图,如图2所示,本发明所提供的一种多模态交互的跨模态检索系统,包括:
特征提取模块201,用于提取图文对中的图像特征和文本特征;所述图文对包括:图像和文本;所述文本特征包括:CLS标记和单词向量;
相似度分数确定模块202,用于将所述图像特征和所述文本特征分别映射到一个公共空间,确定图像的全局语义表示和文本的全局语义表示的相似度分数;
对比学习模块203,用于根据相似度分数和图文对的真实标签,利用对比学习的方法,优化图像特征和文本特征;
多模态融合表示确定模块204,用于对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习,确定优化后的图像特征和优化后的文本特征的多模态融合表示;
联合表示确定模块205,用于利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互,确定联合表示;
检索结果确定模块206,用于根据联合表示确定对应的匹配分数,根据匹配分数确定检索结果。
所述特征提取模块201具体包括:
图像的局部区域特征提取单元,用于利用目标提取网络和卷积神经网络提取图像的局部区域特征;
图像特征确定单元,用于将图像的局部区域特征进行联合,确定图像特征;
文本特征提取单元,用于利用双向编码表示模型来提取文本的文本特征。
所述相似度分数确定模块202具体包括:
映射单元,用于将所述图像特征和所述文本特征分别映射到一个公共空间;
单词比例确定单元,用于根据所述文本特征确定文本的单词比例;
文本的区域聚合表示确定单元,用于根据所述文本的单词比例以及对应的单词向量确定文本的区域聚合表示;
文本的全局语义表示确定单元,用于根据文本的区域聚合表示以及CLS标记确定文本的全局语义表示;
图像的区域聚合表示确定单元,用于根据所述图像特征确定图像的区域聚合表示;
图像的全局语义表示确定单元,用于根据图像的区域聚合表示确定图像的全局语义表示;
相似度分数确定单元,用于根据图像特征和文本特征,利用向量的余弦相似度确定图像的全局语义表示和文本的全局语义表示的相似度分数。
所述对比学习模块203具体包括:
损失函数确定单元,用于根据图文对确定图搜文的损失函数和文搜图的损失函数;
对比损失函数确定单元,用于根据图搜文的损失函数和文搜图的损失函数确定对比损失函数;
对比损失函数优化单元,用于根据相似度分数和图文对的真实标签优化对比损失函数;
优化后的特征确定单元,用于根据优化后的对比损失函数确定优化后的图像特征和优化后的文本特征。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种多模态交互的跨模态检索方法,其特征在于,包括:
提取图文对中的图像特征和文本特征;所述图文对包括:图像和文本;所述文本特征包括:CLS标记和单词向量;
将所述图像特征和所述文本特征分别映射到一个公共空间,确定图像的全局语义表示和文本的全局语义表示的相似度分数;
根据相似度分数和图文对的真实标签,利用对比学习的方法,优化图像特征和文本特征;
对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习,确定优化后的图像特征和优化后的文本特征的多模态融合表示;
利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互,确定联合表示;
根据联合表示确定对应的匹配分数,根据匹配分数确定检索结果。
2.根据权利要求1所述的一种多模态交互的跨模态检索方法,其特征在于,所述提取图文对中的图像特征和文本特征,之前还包括:
获取图文对;
对图文对进行预处理;所述预处理包括:随机掩码以及添加噪声。
3.根据权利要求1所述的一种多模态交互的跨模态检索方法,其特征在于,所述提取图文对中的图像特征和文本特征,具体包括:
利用目标提取网络和卷积神经网络提取图像的局部区域特征;
将图像的局部区域特征进行联合,确定图像特征;
利用双向编码表示模型来提取文本的文本特征。
4.根据权利要求1所述的一种多模态交互的跨模态检索方法,其特征在于,所述将所述图像特征和所述文本特征分别映射到一个公共空间,确定图像的全局语义表示和文本的全局语义表示的相似度分数,具体包括:
将所述图像特征和所述文本特征分别映射到一个公共空间;
根据所述文本特征确定文本的单词比例;
根据所述文本的单词比例以及对应的单词向量确定文本的区域聚合表示;
根据文本的区域聚合表示以及CLS标记确定文本的全局语义表示;
根据所述图像特征确定图像的区域聚合表示;
根据图像的区域聚合表示确定图像的全局语义表示;
根据图像特征和文本特征,利用向量的余弦相似度确定图像的全局语义表示和文本的全局语义表示的相似度分数。
5.根据权利要求1所述的一种多模态交互的跨模态检索方法,其特征在于,所述根据相似度分数和图文对的真实标签,利用对比学习的方法,优化图像特征和文本特征,具体包括:
根据图文对确定图搜文的损失函数和文搜图的损失函数;
根据图搜文的损失函数和文搜图的损失函数确定对比损失函数;
根据相似度分数和图文对的真实标签优化对比损失函数;
根据优化后的对比损失函数确定优化后的图像特征和优化后的文本特征。
6.根据权利要求1所述的一种多模态交互的跨模态检索方法,其特征在于,所述利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互,确定联合表示,具体包括:
利用多模态注意力模块对多模态融合表示和优化后的图像特征进行多模态注意力交互,确定优化后的多模态融合表示;
利用多模态注意力模块对优化后的多模态融合表示和优化后的文本特征进行多模态注意力交互,确定联合表示。
7.一种多模态交互的跨模态检索系统,其特征在于,包括:
特征提取模块,用于提取图文对中的图像特征和文本特征;所述图文对包括:图像和文本;所述文本特征包括:CLS标记和单词向量;
相似度分数确定模块,用于将所述图像特征和所述文本特征分别映射到一个公共空间,确定图像的全局语义表示和文本的全局语义表示的相似度分数;
对比学习模块,用于根据相似度分数和图文对的真实标签,利用对比学习的方法,优化图像特征和文本特征;
多模态融合表示确定模块,用于对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习,确定优化后的图像特征和优化后的文本特征的多模态融合表示;
联合表示确定模块,用于利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互,确定联合表示;
检索结果确定模块,用于根据联合表示确定对应的匹配分数,根据匹配分数确定检索结果。
8.根据权利要求7所述的一种多模态交互的跨模态检索系统,其特征在于,所述特征提取模块,具体包括:
图像的局部区域特征提取单元,用于利用目标提取网络和卷积神经网络提取图像的局部区域特征;
图像特征确定单元,用于将图像的局部区域特征进行联合,确定图像特征;
文本特征提取单元,用于利用双向编码表示模型来提取文本的文本特征。
9.根据权利要求7所述的一种多模态交互的跨模态检索系统,其特征在于,所述相似度分数确定模块,具体包括:
映射单元,用于将所述图像特征和所述文本特征分别映射到一个公共空间;
单词比例确定单元,用于根据所述文本特征确定文本的单词比例;
文本的区域聚合表示确定单元,用于根据所述文本的单词比例以及对应的单词向量确定文本的区域聚合表示;
文本的全局语义表示确定单元,用于根据文本的区域聚合表示以及CLS标记确定文本的全局语义表示;
图像的区域聚合表示确定单元,用于根据所述图像特征确定图像的区域聚合表示;
图像的全局语义表示确定单元,用于根据图像的区域聚合表示确定图像的全局语义表示;
相似度分数确定单元,用于根据图像特征和文本特征,利用向量的余弦相似度确定图像的全局语义表示和文本的全局语义表示的相似度分数。
10.根据权利要求7所述的一种多模态交互的跨模态检索系统,其特征在于,所述对比学习模块,具体包括:
损失函数确定单元,用于根据图文对确定图搜文的损失函数和文搜图的损失函数;
对比损失函数确定单元,用于根据图搜文的损失函数和文搜图的损失函数确定对比损失函数;
对比损失函数优化单元,用于根据相似度分数和图文对的真实标签优化对比损失函数;
优化后的特征确定单元,用于根据优化后的对比损失函数确定优化后的图像特征和优化后的文本特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210946187.9A CN115017358B (zh) | 2022-08-09 | 2022-08-09 | 一种多模态交互的跨模态检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210946187.9A CN115017358B (zh) | 2022-08-09 | 2022-08-09 | 一种多模态交互的跨模态检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115017358A true CN115017358A (zh) | 2022-09-06 |
CN115017358B CN115017358B (zh) | 2022-11-04 |
Family
ID=83065686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210946187.9A Active CN115017358B (zh) | 2022-08-09 | 2022-08-09 | 一种多模态交互的跨模态检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017358B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618061A (zh) * | 2022-11-29 | 2023-01-17 | 广东工业大学 | 一种语义对齐的视频问答方法 |
CN115661594A (zh) * | 2022-10-19 | 2023-01-31 | 海南港航控股有限公司 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
CN115690553A (zh) * | 2023-01-03 | 2023-02-03 | 华南理工大学 | 一种基于多模态对话内容联合建模的情感分析方法及系统 |
CN116127123A (zh) * | 2023-04-17 | 2023-05-16 | 中国海洋大学 | 基于语义实例关系渐进式海洋遥感图文检索方法 |
CN118069920A (zh) * | 2024-04-19 | 2024-05-24 | 湖北华中电力科技开发有限责任公司 | 一种面向海量多网络协议终端设备接入的数据采集系统 |
WO2024174804A1 (zh) * | 2023-02-21 | 2024-08-29 | 浙江阿里巴巴机器人有限公司 | 服务提供方法、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200104318A1 (en) * | 2017-03-07 | 2020-04-02 | Selerio Limited | Multi-modal image search |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN114186080A (zh) * | 2021-11-21 | 2022-03-15 | 南京理工大学 | 基于语义共享的深度跨模态检索方法及系统 |
CN114201621A (zh) * | 2021-11-24 | 2022-03-18 | 人民网股份有限公司 | 基于图文协同注意力的跨模态检索模型构建及检索方法 |
CN114461821A (zh) * | 2022-02-24 | 2022-05-10 | 中南大学 | 一种基于自注意力推理的跨模态图文互索方法 |
-
2022
- 2022-08-09 CN CN202210946187.9A patent/CN115017358B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200104318A1 (en) * | 2017-03-07 | 2020-04-02 | Selerio Limited | Multi-modal image search |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN114186080A (zh) * | 2021-11-21 | 2022-03-15 | 南京理工大学 | 基于语义共享的深度跨模态检索方法及系统 |
CN114201621A (zh) * | 2021-11-24 | 2022-03-18 | 人民网股份有限公司 | 基于图文协同注意力的跨模态检索模型构建及检索方法 |
CN114461821A (zh) * | 2022-02-24 | 2022-05-10 | 中南大学 | 一种基于自注意力推理的跨模态图文互索方法 |
Non-Patent Citations (2)
Title |
---|
吴吉祥 等: "基于多模态注意力机制的跨模态哈希网络", 《计算机工程与应用》 * |
邓一姣 等: "面向跨模态检索的协同注意力网络模型", 《计算机科学》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661594A (zh) * | 2022-10-19 | 2023-01-31 | 海南港航控股有限公司 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
CN115661594B (zh) * | 2022-10-19 | 2023-08-18 | 海南港航控股有限公司 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
CN115618061A (zh) * | 2022-11-29 | 2023-01-17 | 广东工业大学 | 一种语义对齐的视频问答方法 |
CN115690553A (zh) * | 2023-01-03 | 2023-02-03 | 华南理工大学 | 一种基于多模态对话内容联合建模的情感分析方法及系统 |
WO2024174804A1 (zh) * | 2023-02-21 | 2024-08-29 | 浙江阿里巴巴机器人有限公司 | 服务提供方法、设备和存储介质 |
CN116127123A (zh) * | 2023-04-17 | 2023-05-16 | 中国海洋大学 | 基于语义实例关系渐进式海洋遥感图文检索方法 |
CN116127123B (zh) * | 2023-04-17 | 2023-07-07 | 中国海洋大学 | 基于语义实例关系渐进式海洋遥感图文检索方法 |
CN118069920A (zh) * | 2024-04-19 | 2024-05-24 | 湖北华中电力科技开发有限责任公司 | 一种面向海量多网络协议终端设备接入的数据采集系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115017358B (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115017358B (zh) | 一种多模态交互的跨模态检索方法及系统 | |
Yuan et al. | Exploring a fine-grained multiscale method for cross-modal remote sensing image retrieval | |
CN111444343B (zh) | 基于知识表示的跨境民族文化文本分类方法 | |
CN111476294A (zh) | 一种基于生成对抗网络的零样本图像识别方法及系统 | |
Jia et al. | Query prior matters: A MRC framework for multimodal named entity recognition | |
CN114445201A (zh) | 一种基于多模态预训练模型的组合商品检索方法及系统 | |
CN113449528B (zh) | 一种地址要素提取方法、装置、计算机设备和存储介质 | |
CN113743099A (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
CN116432752B (zh) | 一种隐式篇章关系识别模型的构建方法及其应用 | |
CN112800239A (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN113378919A (zh) | 融合视觉常识和增强多层全局特征的图像描述生成方法 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN113868459A (zh) | 模型训练方法、跨模态表征方法、无监督图像文本匹配方法及装置 | |
Nam et al. | A survey on multimodal bidirectional machine learning translation of image and natural language processing | |
CN116680363A (zh) | 一种基于多模态评论数据的情感分析方法 | |
Jayanto et al. | Aspect-based sentiment analysis for hotel reviews using an improved model of long short-term memory. | |
CN113312918B (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
CN115640418B (zh) | 基于残差语义一致性跨域多视角目标网站检索方法及装置 | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
CN118334022B (zh) | 提示信息引导的图像检测方法、系统、设备、介质及产品 | |
CN116245111B (zh) | 多方向多角度句子语义相似识别方法、装置及存储介质 | |
CN115329755A (zh) | 实体链接模型处理方法、装置和实体链接处理方法、装置 | |
Liu et al. | A Named Entity Recognition Method Based on ALBERT's Multi-Headed Attention Mechanism with Word Fusion | |
Cheng et al. | Scene-text aware cross-modal retrieval based on semantic matching (ChinaMM2024) | |
Nguyen et al. | Multimodal scene-graph matching for cheapfakes detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |