CN114186080A

CN114186080A - 基于语义共享的深度跨模态检索方法及系统

Info

Publication number: CN114186080A
Application number: CN202111381465.2A
Authority: CN
Inventors: 杨杨; 张初兵; 肖亮; 杨健
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-11-21
Filing date: 2021-11-21
Publication date: 2022-03-15
Anticipated expiration: 2041-11-21
Also published as: CN114186080B

Abstract

本发明公开了一种基于语义共享的深度跨模态检索方法及系统，属于多模态学习领域，该方法包括如下步骤：提取图片和文本的细粒度特征；使用共享模型学习多模态一致性表示；通过掩码预测和分类预测优化模型；基于模型进行跨模态检索。本发明采用深度自注意力网络作为基本模型，对多模态数据分别提取细粒度特征并使用共享模型在同一语义空间中学习不同模态数据的一致性表示，解决了以往跨模态算法使用一致性损失函数导致弱模态对强模态的干扰问题，通过标签预测和掩码预测多任务损失函数对共享深度自注意力网络模型进行参数学习，有效地提升了跨模态检索的精度。

Description

基于语义共享的深度跨模态检索方法及系统

技术领域

本发明属于多模态学习领域，特别涉及一种基于语义共享的深度跨模态检索方法及系统。

背景技术

随着多媒体数据的快速增长，单一模态的检索难以满足当下的数据分析需求，相关跨模态检索算法应运而生。现阶段的跨模态检索聚焦于拟合文本和图片间的关联，主要挑战在于如何度量数据间的内容相似性。传统的跨模态检索算法通常使用多模态数据的全局特征或者局部特征进行相似性计算并使用模态间的一致性损失进行特征约束。经研究发现，现有的跨模态检索算法问题主要为：使用模态间的一致性损失进行特征约束导致了弱模态对强模态的干扰问题，造成检索准确度难以进一步提升。

目前在跨模态检索任务中，对于样本的使用关注点从利用样本的全局信息转变到局部信息，在一定程度上提高了模型的性能，但是并未解决模态一致性损失的干扰问题。

发明内容

本发明为解决传统跨模态检索任务中一致性损失函数对模型的干扰问题，提出了一种基于语义共享的深度跨模态检索方法及系统，使用共享模型在同一语义空间中学习多模态一致性表示代替一致性损失，有效地提升了跨模态检索的精度。

本发明采用的技术方案如下：一种基于语义共享的深度跨模态检索方法，包括如下步骤：

步骤1，提取图片和文本的细粒度特征；

步骤2，使用共享模型学习多模态一致性表示；

步骤3，通过掩码预测和分类预测优化模型；

步骤4，基于模型进行跨模态检索。

进一步的，所述步骤1中，提取图片和文本的细粒度特征表示包括以下步骤：

对于文本使用双向门控循环神经网络对单词进行编码，并记录单词位置信息。

对于图片使用提取区域特征的卷积神经网络提取细粒度编码，并根据区域位置计算位置信息。

对提取的图片和文本特征与对应位置编码进行维度对齐并相加得到共享模型的输入，以图片为例，公式如下所示：

式中

以及

分别表示输入图片的原始区域特征以及位置特征，ψ₁,ψ₂表示为全连接函数，φ为非线性映射函数，得到共享模型最终的输入。

进一步的，所述步骤2中，在模型中使用共享模型学习多模态一致性表示包括以下步骤：

使用共享的深度自注意力网络将位于不同模态投影到统一的语义空间以捕捉图文间细粒度关联，具体形式如下：

其中

为样本i的文本或图片细粒度特征集合，作为共享模型

的输入，z_i为习得的图片或文本的多模态一致性表示。

进一步的，所述步骤3中，在模型中通过掩码预测和分类预测优化模型包括以下步骤：

①使用共享模型获取多模态一致性表示，预测分类标签计算损失函数优化模型，具体形式为：

其中y_i为样本标签，N为样本数量，g为分类器，

分别为图片和文本的多模态一致性表示。

②对原始输入数据进行随机掩码并针对该掩码特征进行预测，优化编码能力，具体形式为

其中m为掩码区域的索引值，v_i、w_i分别表示第i个图片以及文本实例，

分别为图片和文本掩码的区域信息和单词信息(对图片区域和文本单词以15％的概率进行掩码)，

分别表示图片和文本中被掩码区域的上下文信息，gv，gw分别为图片以及文本的分类器，目的是希望通过掩码区域的上下文信息对掩码区域进行预测，P_gw，P_gv表示对图片以及文本的掩码预测的概率，

可以为任何凸函数，最终L₂表示图片和文本基于上下文对掩码部分进行预测的损失值之和；

③使用分类损失和掩码损失共同优化图文共享深度自注意力网络，最终的损失函数形式为：

L＝L₁+λL₂

其中λ为掩码损失权重。

本发明还提供一种基于语义共享的深度跨模态检索系统，包括：

特征提取模块，用于提取图片和文本的细粒度特征；

多模态一致性表示模块，用于使用共享模型学习多模态一致性表示；

模型优化模块，用于通过掩码预测和分类预测优化模型；

跨模态检索模块，用于基于模型进行跨模态检索。

本发明采用深度自注意力网络作为基本模型，对多模态数据分别提取细粒度特征，通过共享模型在统一的语义空间学习不同模态数据的统一表示，并使用标签预测和掩码预测优化模型，与现有技术相比，本发明具有以下特征：

首先，本发明使用共享模型学习不同模态数据的一致性表示来解决传统跨模态算法使用一致性损失函数导致弱模态对强模态的干扰问题。

其次，本发明使用标签预测和掩码预测多任务损失函数对共享深度自注意力网络进行学习并用作跨模态检索任务。

附图说明

图1为本发明整体流程图。

图2为本发明特征提取细节流程图。

图3为本发明中跨模态检索模型框架图。

具体实施方式

以下结合附图说明本发明的具体实施方式。

如图1所示，本发明公开了一种基于语义共享的深度跨模态检索方法，需要说明的是，本发明的核心步骤是在模型中通过共享模型为不同模态的数据学习一致性嵌入，具体实施方式的描述主要侧重于步骤2和步骤3，步骤1以及步骤4未公开的内容可采用已有技术实现，具体描述如下：

步骤1.提取图片和文本的细粒度特征：

跨模态检索的首要任务是对数据的特征提取，特征提取的优劣与模型最终的检索性能息息相关，如图2所示，本发明对图片和文本分别进行细粒度表征学习得到图片区域和文本单词特征，考虑到深度自注意力网络输入需要序列的位置信息，此处分别计算图文的位置信息编码，并将不同模态特征维度对齐，具体步骤如下：

①对于文本使用双向门控循环神经网络对单词进行编码，并记录单词位置信息。

②对于图片使用提取区域特征的卷积神经网络提取细粒度编码，并根据区域位置计算位置信息，具体形式如下：

其中(a1,b1)，(a2,b2)分别为图片的左上角和右下角的位置坐标，W，H分别为图片的宽和高，每一个区域的位置信息用五维的向量p表示。

③对提取的图片和文本特征与对应位置编码进行维度对齐并相加得到共享模型的输入，公式如下所示：

ψ₁,ψ₂表示为全连接函数，φ为非线性映射函数得到共享模型最终的输入。

步骤2.使用共享模型学习多模态一致性表示：

本发明对文本和图片特征采用共享模型学习不同模态数据的一致性表示来解决传统跨模态算法使用一致性损失函数导致弱模态对强模态的干扰问题，使用共享的深度自注意力网络将位于不同模态投影到统一的语义空间以捕捉图文间细粒度关联，具体形式如下：

其中

为样本i的文本或图片细粒度特征集合，作为共享模型

的输入，z_i为习得的图片或文本的多模态一致性表示。

步骤3.通过掩码预测和分类预测优化模型：

本发明使用掩码预测和分类预测任务训练共享模型，以获得多模态数据的一致性表示，具体步骤如下：

其中y_i为样本标签，N为样本数量，g为分类器，

分别为图片和文本的多模态一致性表示。

其中

为损失函数，gv，gw为分类器，m为掩码索引，

分别为图片和文本的掩码数据，

为掩码区域上下文信息。

L＝L₁+λL₂

其中λ为掩码损失权重。

步骤4.基于模型进行跨模态检索：

如图3所示，首先对图片以及文本进行区域化的输出处理，其次利用相应的位置信息与掩码信息使用共享模型进行多模态一致性的特征表示的学习，再进行跨模态检索，计算通过共享模型得到图文的一致性表示的相似度(比如：欧氏距离，余弦距离等)，利用相似度矩阵计算归一化折损累计增益(NDCG)指标评估模型的性能。

①特征提取模块，用于提取图片和文本的细粒度特征；

②多模态一致性表示模块，用于使用共享模型学习多模态一致性表示；

③模型优化模块，用于通过掩码预测和分类预测优化模型；

④跨模态检索模块，用于基于模型进行跨模态检索。

上述模块的具体实现方式与前述的检索方法部分相同，本发明不再赘述。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于语义共享的深度跨模态检索方法，其特征在于，包括如下步骤：

步骤1，提取图片和文本的细粒度特征；

步骤2，使用共享模型学习多模态一致性表示；

步骤3，通过掩码预测和分类预测优化模型；

步骤4，基于模型进行跨模态检索。

2.如权利要求1所述的基于语义共享的深度跨模态检索方法，其特征在于，所述步骤1中，提取图片和文本的细粒度特征，具体为：

对于文本使用双向门控循环神经网络对单词进行编码，并记录单词位置信息；

对于图片使用提取区域特征的卷积神经网络提取细粒度编码，并根据区域位置计算位置信息；

对提取的图片和文本特征与对应位置编码进行维度对齐并相加得到共享模型的输入，公式如下所示：

式中

以及

分别表示输入图片的原始区域特征以及位置特征，ψ₁，ψ₂表示为全连接函数，φ为非线性映射函数，得到共享模型最终的输入。

3.如权利要求2所述的基于语义共享的深度跨模态检索方法，其特征在于，所述步骤2中，在模型中使用共享模型学习多模态一致性表示，具体为：

其中

为样本i的文本或图片细粒度特征集合，作为共享模型

的输入，z_i为习得的图片或文本的多模态一致性表示。

4.如权利要求3所述的基于语义共享的深度跨模态检索方法，其特征在于，所述步骤3中，在模型中通过掩码预测和分类预测优化模型，包括以下步骤：

(1)使用共享模型获取多模态一致性表示，预测分类标签计算损失函数优化模型，具体形式为：

其中y_i为样本标签，N为样本数量，g为分类器，

分别为图片和文本的多模态一致性表示；

(2)对原始输入数据进行随机掩码并针对该掩码特征进行预测，优化编码能力，具体形式为：

分别为图片和文本掩码的区域信息和单词信息，

为任何凸函数，最终L₂表示图片和文本基于上下文对掩码部分进行预测的损失值之和；

(3)使用分类损失和掩码损失共同优化图文共享深度自注意力网络，最终的损失函数形式为：

L＝L₁+λL₂

其中λ为掩码损失权重。

5.如权利要求4所述的基于语义共享的深度跨模态检索方法，其特征在于，所述步骤3中，使用共享模型学习多模态一致性特征表示进行跨模态检索，计算通过共享模型得到图文的一致性表示的相似度，利用相似度矩阵计算归一化折损累计增益指标评估模型的性能。

6.一种基于语义共享的深度跨模态检索系统，其特征在于，包括：

特征提取模块，用于提取图片和文本的细粒度特征；

模型优化模块，用于通过掩码预测和分类预测优化模型；

跨模态检索模块，用于基于模型进行跨模态检索。

7.根据权利要求6所述的基于语义共享的深度跨模态检索系统，其特征在于，所述特征提取模块用于实现：

式中

以及

8.根据权利要求7所述的基于语义共享的深度跨模态检索系统，其特征在于，所述多模态一致性表示模块用于实现：

其中

为样本i的文本或图片细粒度特征集合，作为共享模型

的输入，z_i为习得的图片或文本的多模态一致性表示。

9.根据权利要求8所述的基于语义共享的深度跨模态检索系统，其特征在于，所述模型优化模块用于实现：

使用共享模型获取多模态一致性表示，预测分类标签计算损失函数优化模型，具体形式为：

其中y_i为样本标签，N为样本数量，g为分类器，

分别为图片和文本的多模态一致性表示；

对原始输入数据进行随机掩码并针对该掩码特征进行预测，优化编码能力，具体形式为：

分别为图片和文本掩码的区域信息和单词信息，

使用分类损失和掩码损失共同优化图文共享深度自注意力网络，最终的损失函数形式为：

L＝L₁+λL₂

其中λ为掩码损失权重。

10.根据权利要求9所述的基于语义共享的深度跨模态检索系统，其特征在于，所述跨模态检索模块用于实现：使用共享模型学习多模态一致性特征表示进行跨模态检索，计算通过共享模型得到图文的一致性表示的相似度，利用相似度矩阵计算归一化折损累计增益指标评估模型的性能。