CN115017358A

CN115017358A - 一种多模态交互的跨模态检索方法及系统

Info

Publication number: CN115017358A
Application number: CN202210946187.9A
Authority: CN
Inventors: 项欣光; 南海晶; 金露
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-09-06
Anticipated expiration: 2042-08-09
Also published as: CN115017358B

Abstract

本发明涉及一种多模态交互的跨模态检索方法及系统。该方法包括提取图文对中的图像特征和文本特征；将图像特征和文本特征分别映射到一个公共空间，确定图像的全局语义表示和文本的全局语义表示的相似度分数；根据相似度分数和图文对的真实标签，利用对比学习的方法，优化图像特征和文本特征；对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习，确定优化后的图像特征和优化后的文本特征的多模态融合表示；利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互，确定联合表示；根据联合表示确定对应的匹配分数，根据匹配分数确定检索结果。本发明能够提高跨模态检索的精度。

Description

一种多模态交互的跨模态检索方法及系统

技术领域

本发明涉及跨模态检索技术领域，特别是涉及一种多模态交互的跨模态检索方法及系统。

背景技术

跨模态检索是语言和视觉领域的一项具有挑战性的任务。跨模态检索是把给定的一个图片，分别与文本进行匹配，选择语义最相似的文本作为匹配结果；或者是给定一个文本，分别与图像进行匹配，选择最相近的图像作为匹配结果。

目前大多数方法都是独立地将图像和句子嵌入到联合空间中比较它们的相似性，很少在计算联合空间相似性之前探索图像和文本之间的交互，所以这类方法训练得到的模型很难充分理解图文对包含的语义信息，从而影响模型的检索精度。

发明内容

本发明的目的是提供一种多模态交互的跨模态检索方法及系统，能够提高跨模态检索的精度。

为实现上述目的，本发明提供了如下方案：

一种多模态交互的跨模态检索方法，包括：

提取图文对中的图像特征和文本特征；所述图文对包括：图像和文本；所述文本特征包括：CLS标记和单词向量；

将所述图像特征和所述文本特征分别映射到一个公共空间，确定图像的全局语义表示和文本的全局语义表示的相似度分数；

根据相似度分数和图文对的真实标签，利用对比学习的方法，优化图像特征和文本特征；

对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习，确定优化后的图像特征和优化后的文本特征的多模态融合表示；

利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互，确定联合表示；

根据联合表示确定对应的匹配分数，根据匹配分数确定检索结果。

可选地，所述提取图文对中的图像特征和文本特征，之前还包括：

获取图文对；

对图文对进行预处理；所述预处理包括：随机掩码以及添加噪声。

可选地，所述提取图文对中的图像特征和文本特征，具体包括：

利用目标提取网络和卷积神经网络提取图像的局部区域特征；

将图像的局部区域特征进行联合，确定图像特征；

利用双向编码表示模型来提取文本的文本特征。

可选地，所述将所述图像特征和所述文本特征分别映射到一个公共空间，确定图像的全局语义表示和文本的全局语义表示的相似度分数，具体包括：

将所述图像特征和所述文本特征分别映射到一个公共空间；

根据所述文本特征确定文本的单词比例；

根据所述文本的单词比例以及对应的单词向量确定文本的区域聚合表示；

根据文本的区域聚合表示以及CLS标记确定文本的全局语义表示；

根据所述图像特征确定图像的区域聚合表示；

根据图像的区域聚合表示确定图像的全局语义表示；

根据图像特征和文本特征，利用向量的余弦相似度确定图像的全局语义表示和文本的全局语义表示的相似度分数。

可选地，所述根据相似度分数和图文对的真实标签，利用对比学习的方法，优化图像特征和文本特征，具体包括：

根据图文对确定图搜文的损失函数和文搜图的损失函数；

根据图搜文的损失函数和文搜图的损失函数确定对比损失函数；

根据相似度分数和图文对的真实标签优化对比损失函数；

根据优化后的对比损失函数确定优化后的图像特征和优化后的文本特征。

可选地，所述利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互，确定联合表示，具体包括：

利用多模态注意力模块对多模态融合表示和优化后的图像特征进行多模态注意力交互，确定优化后的多模态融合表示；

利用多模态注意力模块对优化后的多模态融合表示和优化后的文本特征进行多模态注意力交互，确定联合表示。

一种多模态交互的跨模态检索系统，包括：

特征提取模块，用于提取图文对中的图像特征和文本特征；所述图文对包括：图像和文本；所述文本特征包括：CLS标记和单词向量；

相似度分数确定模块，用于将所述图像特征和所述文本特征分别映射到一个公共空间，确定图像的全局语义表示和文本的全局语义表示的相似度分数；

对比学习模块，用于根据相似度分数和图文对的真实标签，利用对比学习的方法，优化图像特征和文本特征；

多模态融合表示确定模块，用于对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习，确定优化后的图像特征和优化后的文本特征的多模态融合表示；

联合表示确定模块，用于利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互，确定联合表示；

检索结果确定模块，用于根据联合表示确定对应的匹配分数，根据匹配分数确定检索结果。

可选地，所述特征提取模块，具体包括：

图像的局部区域特征提取单元，用于利用目标提取网络和卷积神经网络提取图像的局部区域特征；

图像特征确定单元，用于将图像的局部区域特征进行联合，确定图像特征；

文本特征提取单元，用于利用双向编码表示模型来提取文本的文本特征。

可选地，所述相似度分数确定模块，具体包括：

映射单元，用于将所述图像特征和所述文本特征分别映射到一个公共空间；

单词比例确定单元，用于根据所述文本特征确定文本的单词比例；

文本的区域聚合表示确定单元，用于根据所述文本的单词比例以及对应的单词向量确定文本的区域聚合表示；

文本的全局语义表示确定单元，用于根据文本的区域聚合表示以及CLS标记确定文本的全局语义表示；

图像的区域聚合表示确定单元，用于根据所述图像特征确定图像的区域聚合表示；

图像的全局语义表示确定单元，用于根据图像的区域聚合表示确定图像的全局语义表示；

相似度分数确定单元，用于根据图像特征和文本特征，利用向量的余弦相似度确定图像的全局语义表示和文本的全局语义表示的相似度分数。

可选地，所述对比学习模块，具体包括：

损失函数确定单元，用于根据图文对确定图搜文的损失函数和文搜图的损失函数；

对比损失函数确定单元，用于根据图搜文的损失函数和文搜图的损失函数确定对比损失函数；

对比损失函数优化单元，用于根据相似度分数和图文对的真实标签优化对比损失函数；

优化后的特征确定单元，用于根据优化后的对比损失函数确定优化后的图像特征和优化后的文本特征。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明所提供的一种多模态交互的跨模态检索方法及系统，根据相似度分数和图文对的真实标签，利用对比学习的方法，优化图像特征和文本特征；对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习，确定优化后的图像特征和优化后的文本特征的多模态融合表示；利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互，确定联合表示。利用模态内的上下文关系来发现潜在的语义信息，将注意力机制和上下文的交互结合起来，学习局部语义相关性，在跨模态检索过程中考虑全面和细粒度的跨模态交互，正确地处理负对和不相干的信息，进而提高跨模态检索的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种多模态交互的跨模态检索方法流程示意图；

图2为本发明所提供的一种多模态交互的跨模态检索系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的一种多模态交互的跨模态检索方法流程示意图，如图1所示，本发明所提供的一种多模态交互的跨模态检索方法，包括：

S101，提取图文对中的图像特征和文本特征；所述图文对包括：图像和文本；所述文本特征包括：CLS标记和单词向量；

S101之前还包括：

获取图文对；

S101具体包括：

利用目标提取网络和卷积神经网络提取图像的局部区域特征；使用Faster-RCNN目标提取模型检测图像局部区域。本实施例对提取到的图像区域使用卷积神经网络提取区域特征。因为不同图像的局部区域是不尽相同的，所以，为了统一图像局部区域个数，将提取到图像区域特征联合起来表示成图像特征。最后由该方法提取出的图像特征表示为

，每一个图像区域特征都是36*2048空间维度。

将图像的局部区域特征进行联合，确定图像特征；

利用双向编码表示模型来提取文本的文本特征。

双向编码表示模型是一个在纯文本语料库进行预训练的模型，在预训练生成样本时，随机掩码任意一个单词，然后预测该掩码的单词，从而对模型进行预训练。

在训练时，输入图文数据集里的文本，优化和微调该模型，为文本每个单词生成一个词表示。但是每个文本中单词的个数大都不同，为了保证特征长度的一致性，文本也进行了长度填充。

最后由双向编码表示模态提取出的文本特征表示为

，其中

是768维的特征向量。CLS表示经过BERT得到的表征向量，包含了文本的全局语义信息。SEP表示文本的结尾，可以用来分开两个输入句子。

S102，将所述图像特征和所述文本特征分别映射到一个公共空间，确定图像的全局语义表示和文本的全局语义表示的相似度分数；

S102具体包括：

利用线性层，将所述图像特征和所述文本特征分别映射到一个公共空间；

根据所述文本特征确定文本的单词比例；文本特征T={CLS,

,

......,

,SEP}，T由CLS标记和单词向量组成。为了利用单词向量充分提取全局表示，可以使用注意力方法，将每个单词的所占比例

求出，计算公式为：

。

是一个线性层，将768维的特征向量映射成1维，再使用softmax函数处理之后，对得到的1维分数矩阵进行转置，最后得到每个

的所占比例分数，该比例分数表示每个区域特征占有的比例值，将这些比例分数与对应的区域特征相乘再累和，得到一个由局部区域特征聚合而成的全局特征表示。

根据所述文本的单词比例以及对应的单词向量确定文本的区域聚合表示；所有的比例分数与所对应的单词向量的乘积加和起来，得到局部推理到的全局语义表示

，计算公式为：

。

根据文本的区域聚合表示以及CLS标记确定文本的全局语义表示；为了充分利用所得到的信息，将其加和起来，计算公式为

根据所述图像特征确定图像的区域聚合表示；图像全局的计算与文本全局语义计算步骤大致相同。但是图像特征V={

,

......,

}中有些背景信息可以忽略掉，所以要突出图像中重点区域特征。

首先给V添加自定义标记IMG，得到

。为了突出显著区域特征，可以利用Transformer 编码器对

进行优化，由Transformer Encoder得到的IMG包含了与CLS含义相同的标记。

根据图像的区域聚合表示确定图像的全局语义表示；图像全局语义的计算公式为：

。

即利用公式score =

确定图像的全局语义表示和文本的全局语义表示的相似度分数。利用余弦相似度在向量空间中衡量两个个体间的差异大小。余弦值越接近1，两个向量越相似。

S103，根据相似度分数和图文对的真实标签，利用对比学习的方法，优化图像特征和文本特征；即以图文对的真实标签来约束图文对之间的对比损失，从而在对齐全局语义过程中，过滤图文对的语义无关信息，突出图文对特征中显著局部区域特征表示，从而得到优化的图文对特征表示。即S103是对图文对粗粒度对齐的特征表示。

S103具体包括：

利用公式

确定图搜文的损失函数；

利用公式

确定文搜图的损失函数；

根据图搜文的损失函数和文搜图的损失函数确定对比损失函数

；

根据相似度分数和图文对的真实标签优化对比损失函数；对比损失越小，表示真实标签和相似度分数越接近，表示映射在全局语义空间上的图像表示和文本表示距离越小，语义越接近。所以，优化对比损失函数

，过滤图文表示的无关语义信息，加强显著区域的特征表示，进一步优化图像表示和文本表示。

S104，对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习，确定优化后的图像特征和优化后的文本特征的多模态融合表示；S104得到了多模态上下文交互计算视觉和语言表示的融合特征。通过图文对中多模态信息的局部交互实现细粒度对齐。

图像和文本的语义是相似的，但是单模态中也含有自己模态的特定语义信息，这种语义关系，对另一个模态而言是互补的。所以，为了充分利用模态间的语义对齐和语义互补，学习多模态的上下文语义关系，以便进一步深入挖掘到图像和文本之间的更多的潜在的语义关系，设计一个融合模块计算图像和文本的多模态融合表示，将图像特征和文本特征输入该融合模块中，得到一个多模态融合表示；计算过程为

；

S105，利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互，确定联合表示；利用跨模态注意力展开计算局部特征表示的注意力分数，从而进行交互，不断优化融合特征学习多模态上下文语义。融合特征与文本模态同样利用跨模态注意力计算各个局部区域的注意力分数进行跨模态交互。使用多模态的融合表示进行跨模态交互。在计算注意力分数时，是多模态融合表示的局部区域与特定模态的局部区域交互得到的，可以从多模态上下文语义中挖掘出的潜在语义信息，从而学到更好的联合表示。

S105具体包括：

利用多模态注意力模块对多模态融合表示和优化后的图像特征进行多模态注意力交互，确定优化后的多模态融合表示

；

、

、

分别是多头注意力的三个自定义权重，该权重分别于与查询(query)，键(key)和值(value)相乘，可以得到相关区域的注意力权重，

是前馈神经网络。根据这种原理，在多模态融合表示作为查询向量时，可以不断地由注意力学习图像特征V的语义信息，并将学到的信息与多模态融合表示一起进行优化。在训练过程中，不断挖掘出多模态上下文语义，对多模态表示进行语义补充。

利用多模态注意力模块对优化后的多模态融合表示和优化后的文本特征进行多模态注意力交互，确定联合表示

。

S106，根据联合表示确定对应的匹配分数，根据匹配分数确定检索结果。

计算图像和文本的匹配分数和不匹配分数，由得到的匹配分数来预测图文对是否语义相关。图像和文本之间的最终匹配分数计算公式如下：

，

是sigmoid函数。

最终，通过交叉熵损失函数来约束图文对的真实标签与计算图像和文本最终匹配分数的结果，使得语义相似的图像局部区域和文本单词能语义对齐，语义互补的图像区域和文本单词之间的语义加强联系。用交叉熵损失函数进行优化计算得到分类预测模型的目标损失函数为：

；

公式中等号右边第一项是图像到文本的匹配损失，第二项是文本到图像的匹配损失。对图像V而言，T是正样本，

是难负样本。对文本T而言，V是正样本，

是难负样本。

为了进一步将文本的上下文和图像的空间信息对应起来。首先任意掩码文本的一个单词，然后计算得到掩码后的文本的特征表示，再计算得到图像和掩码后的文本的联合表示，利用该联合表示去预测掩码单词，从而联合学习文本模态的上下文关系和图像的空间信息得到一个掩码单词后的文本和图像的联合表示，进一步约束学习到的联合表示。

具体来说，设置80%的概率能够随机掩码文本中的任意单词。将掩码单词后的文本模态与图像模态的信息一起交互学习，利用得到的联合表示去预测掩码的单词，进一步约束模型在训练过程中的学习方向。

原始的文本输入有n个词标记

，随机掩码一个单词标记

，将该标记替换成[MASK]，比如

。基于周围的文本以及视觉特征之间的跨模态注意力预测该掩码标记。最后，通过最小负对数似然函数来约束该模型的训练。通过优化负对数似然函数，进一步约束掩码单词的真实标签和计算得到的掩码单词的标签之间的差异。一般来说，掩码单词的真实标签是要跟计算得到的掩码单词的标签是要一致的，该一致性体现在负对数似然函数值的大小上，值越小表示标签越相似。负对数似然函数的计算过程如下：

；

其中，

表示模型的可训练参数，D为训练语料库。

是掩码单词，

是非掩码单词。

为了提高模型的抗扰动性，计算得到图像特征和文本特征，给图像特征和文本特征分别添加少量的微乎其微的噪声，以此改变图像特征和文本特征表示。最后计算得到添加了噪声的图文对的匹配分数。

在对比学习中，得到了图像和文本的负样本图文对，正负图文对的学习会增加模型的扰动性。所以为了提高模型的鲁棒性，该方法在训练过程中给特征层添加特征噪声。属于输入的图像V和文本T，分别添加

和

作为图像和文本的特征噪声。特征噪声通过反向传播过程的误差方法而生成，接近于零向量。在提高模型鲁棒性的基础上，不会对模型的训练方向产生太大的影响。对于加入噪声的特征与原特征在训练过程中，信息量应该一致，所以使用KL散度来定义两者之间的互信息关系。在噪声特征的约束下，其目标损失函数为：

+

；

是计算函数。

是正确的预测结果，

是加了图像噪声的预测结果。

最后加和对比损失函数、交叉熵损失函数、负对数似然函数、KL散度函数。

利用梯度下降算法优化加和的所有损失函数，优化对比损失函数以优化提取到的图像特征和文本特征。优化交叉熵损失函数和负对数似然函数以优化联合表示的学习和二分类预测模型。优化KL散度以优化提出的方法模型的鲁棒性。

将联合表示输入到一个线性分类层，该线性分类层是一个现有的二分类的线性模块，通过该模块最后计算出图文对匹配或者不匹配的得分。最后比较所有图文对的匹配分数的大小，得到最大的匹配分数的图文对，从而实现跨模态检索。

对于跨模态检索技术而言，需要能将输入的图像（文本）检索到对应的文本（图像）。而注意力机制可以细粒度对齐图文对的局部区域。注意力机制可以找到图像区域和文本单词的所有可能的对齐，计算目标损失函数，通过目标损失函数的约束性突出关注可能性最大的对齐。

因此，需要进一步在注意力基础上进行改进，以优化跨模态检索的细节。本实施例旨在将挖掘图文对之间更多的潜在语义，以学习包含更多细粒度语义信息的联合表示，计算匹配分数，从而实现跨模态检索。

图2为本发明所提供的一种多模态交互的跨模态检索系统结构示意图，如图2所示，本发明所提供的一种多模态交互的跨模态检索系统，包括：

特征提取模块201，用于提取图文对中的图像特征和文本特征；所述图文对包括：图像和文本；所述文本特征包括：CLS标记和单词向量；

相似度分数确定模块202，用于将所述图像特征和所述文本特征分别映射到一个公共空间，确定图像的全局语义表示和文本的全局语义表示的相似度分数；

对比学习模块203，用于根据相似度分数和图文对的真实标签，利用对比学习的方法，优化图像特征和文本特征；

多模态融合表示确定模块204，用于对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习，确定优化后的图像特征和优化后的文本特征的多模态融合表示；

联合表示确定模块205，用于利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互，确定联合表示；

检索结果确定模块206，用于根据联合表示确定对应的匹配分数，根据匹配分数确定检索结果。

所述特征提取模块201具体包括：

所述相似度分数确定模块202具体包括：

所述对比学习模块203具体包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多模态交互的跨模态检索方法，其特征在于，包括：

2.根据权利要求1所述的一种多模态交互的跨模态检索方法，其特征在于，所述提取图文对中的图像特征和文本特征，之前还包括：

获取图文对；

3.根据权利要求1所述的一种多模态交互的跨模态检索方法，其特征在于，所述提取图文对中的图像特征和文本特征，具体包括：

将图像的局部区域特征进行联合，确定图像特征；

利用双向编码表示模型来提取文本的文本特征。

4.根据权利要求1所述的一种多模态交互的跨模态检索方法，其特征在于，所述将所述图像特征和所述文本特征分别映射到一个公共空间，确定图像的全局语义表示和文本的全局语义表示的相似度分数，具体包括：

将所述图像特征和所述文本特征分别映射到一个公共空间；

根据所述文本特征确定文本的单词比例；

根据所述图像特征确定图像的区域聚合表示；

根据图像的区域聚合表示确定图像的全局语义表示；

5.根据权利要求1所述的一种多模态交互的跨模态检索方法，其特征在于，所述根据相似度分数和图文对的真实标签，利用对比学习的方法，优化图像特征和文本特征，具体包括：

根据图文对确定图搜文的损失函数和文搜图的损失函数；

根据相似度分数和图文对的真实标签优化对比损失函数；

6.根据权利要求1所述的一种多模态交互的跨模态检索方法，其特征在于，所述利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互，确定联合表示，具体包括：

7.一种多模态交互的跨模态检索系统，其特征在于，包括：

8.根据权利要求7所述的一种多模态交互的跨模态检索系统，其特征在于，所述特征提取模块，具体包括：

9.根据权利要求7所述的一种多模态交互的跨模态检索系统，其特征在于，所述相似度分数确定模块，具体包括：

10.根据权利要求7所述的一种多模态交互的跨模态检索系统，其特征在于，所述对比学习模块，具体包括：