CN115080699A

CN115080699A - 基于模态特异自适应缩放与注意力网络的跨模态检索方法

Info

Publication number: CN115080699A
Application number: CN202210787446.8A
Authority: CN
Inventors: 柯逍; 陈柏涛; 蔡宇航
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-09-20

Abstract

本发明涉及一种基于模态特异自适应缩放与注意力网络的跨模态检索方法。首先对图像模态采用带残差空间缩减的Transformer编码器，对文本模态采用单词级特征注意力模块，分别进行模态不变特征的提取。然后使用模态嵌入级特征注意力模块进行模态干扰特征的过滤。接着采用融合先验知识的自适应缩放网络将特征映射到一个多模态公共子空间进行模态公共特征学习。最后利用表现最好的网络权重计算新的待查询、待检索数据的多模态公共子空间特征，进行类别级重排序，返回最终的跨模态数据检索。本发明能够有效的对多模态数据进行建模，高效准确地完成多模态场景下的跨模态检索任务。

Description

基于模态特异自适应缩放与注意力网络的跨模态检索方法

技术领域

本发明涉及模式识别、计算机视觉、自然语言处理领域，特别涉及一种基于模态特异自适应缩放与注意力网络的跨模态检索方法。

背景技术

在过去的几十年间，随着计算机技术特别是数据存储技术与网络传输技术飞速发展，互联网上数据总量呈现爆发式增长，文本、音频、图像、视频、3D模型……越来越多的数据形式成为互联网信息交流的载体。单模态检索任务，如文本检索、图像检索等，专注于在单一模态内查询想要的结果，无法跨模态关系进行建模。不同模态数据的数据分布与特征表示存在巨大差异，为数据的检索带来巨大挑战。

发明内容

本发明的目的在于提供一种基于模态特异自适应缩放与注意力网络的跨模态检索方法，能够有效的对多模态数据进行建模，高效准确地完成多模态场景下的跨模态检索任务。

为实现上述目的，本发明的技术方案是：一种基于模态特异自适应缩放与注意力网络的跨模态检索方法，包括如下步骤：

步骤S1、对图像模态采用带残差空间缩减的Transformer编码器，对文本模态采用单词级特征注意力模块，分别进行模态不变特征的提取；

步骤S2、对使用步骤S1得到的模态不变特征采用结构相同但参数独立的模态嵌入级特征注意力模块进行模态干扰特征的过滤；

步骤S3、采用融合先验知识的自适应缩放网络将由步骤S2得到的特征映射到一个多模态公共子空间进行模态公共特征学习；

步骤S4、遵循步骤S1、S2、S3进行神经网络的训练，保留表现最好的网络权重；利用该组网络权重计算新的待查询、待检索数据的多模态公共子空间特征，进行跨模态数据检索。

相较于现有技术，本发明具有以下有益效果：

1、本发明基于对多模态信息密度差异的评价提出一种融合先验知识的模态特异网络自适应缩放方法，极大程度上减缓了多模态任务中由于信息密度差异造成的模态拟合速率差异导致的模态间统一拟合的问题。

2、本发明针对预训练模型中存在的干扰特征，提出模态嵌入级特征注意力模块指导知识在预训练源域与目标域之间的迁移，使得神经网络既能继承预训练模型提供的良好初始化状态，又能免受干扰特征的危害。

3、本发明构造单词级特征注意力模块通过注意力机制进行词语义的高效融合，解决了跨模态检索任务文本语义的高效融合问题。

4、基于Transformer结构的模态不变特征提取方法能够充分捕获模态内部相关性，构建高质量的模态潜表示空间与多模态公共子空间，为不同模态塑造高度相似的特征分布，从而实现更好的跨模态检索性能，突破多模态任务的性能瓶颈。

附图说明

图1为本发明的原理示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，一种基于模态特异自适应缩放与注意力网络的跨模态检索方法，包括以下步骤；

步骤S1、对图像模态采用带残差空间缩减的Transformer编码器，对文本模态采用单词级特征注意力模块，分别进行模态不变特征的提取。

步骤S2、对使用步骤S1得到的模态不变特征采用结构相同但参数独立的模态嵌入级特征注意力模块进行模态干扰特征的过滤。

步骤S3、采用融合先验知识的自适应缩放网络将由步骤S2得到的特征映射到一个多模态公共子空间进行模态公共特征学习。

步骤S4、遵循步骤S1、S2、S3进行神经网络的训练，保留表现最好的网络权重。利用该组权重计算新的待查询、待检索数据的多模态公共子空间特征，进行跨模态数据检索。

所述步骤S1包括以下步骤；

步骤S11、对于图像模态，按照4行4列均匀地将输入的图片切分成N＝16张子图，每张子图的长宽均为原图的1/4。采用卷积操作提取每个子图的块嵌入x₀，x₁...，x_N-1，并额外加上一个可学习的块嵌入x_extra。按照公式(1-1)和公式(1-2)为每个块嵌入加上位置嵌入：

其中pos是块的位置，dim_i表示位置嵌入的第dim_i个维度，d是块嵌入的维度为256。

将每个长度为256的块嵌入x₀，x₁...，x_N-1缩放为16×16的特征图，并将所有块嵌入在通道维度进行叠加，得到一个N×16×16的多通道特征图。利用一个层归一化和N/2个5×5的卷积核扩大特征图，降低一半通道数。同时通过一个平均池化和零填充额外加上一个残差连接。再按照通道进行切分，将每个通道的特征图重新映射为新的块嵌入。由于序列长度发生了改变，为新的块嵌入重新计算并添加位置嵌入来更新相对位置信息得到经过残差空间缩减的块嵌入x′₀，x′₁...，x′_N憠1。

z₀＝[x_extra；x′₀W_P；x′₁W_P；...；x′_N-1W_P]+e_pos (1-3)

z′_l＝MHA(LN(z_l-1))+z_l-1，l＝1...L (1-4)

z_l＝MLP(LN(z′_l))+z′_l，l＝1...L (1-5)

按照公式(1-3)至公式(1-6)计算图像模态表示。其中，z₀，z′_l，z_l是临时变量，L表示图像分块个数，l表示第l个分块，W_P表示可学习的参数矩阵，x_extra是额外加入的可学习嵌入，它对应的输出

经过一个MLP运算后得到的结果

被作为图像模态的表示z_img。e_pos表示加入的一维位置嵌入。LN表示层归一化。MHA表示多头注意力，它对输入数据进行多个自注意操作。MLP代表多层感知机，包含一个线性投影，GeLU激活函数，然后是另一个线性投影。在模型中，使用一个额外的MLP头来获得首个嵌入对应的输出作为图像模态的表示。

步骤S12、对于文本模态，单词级特征注意力模块先使用Word2Vec方法，将文本描述的每个单词转化成一个300维的词嵌入，然后对所有词嵌入采用一个共享权重的权重生成单元，包括一个全连接层FC、一个ReLU激活函数、一个平均池化层AvgPooling和一个Sigmoid层。权重生成单元为每个单嵌入生成一个权重，进行加权平均得到文本模态的表示。具体来说，遵循以下公式：

表示第n_i条文本数据的第n_j个单词对应的词嵌入，

是300维的临时变量，

是数值型的临时变量，

是权重向量，(e^n_i)′是词嵌入融合之后的文本表示。

所述步骤S2包括以下步骤；

步骤S21、针对图像模态的特征，采用分别由线性层1、激活函数、线性层2，NegSig函数(如公式(2-1)所示，其中Euler表示欧拉数，约等于2.71828)构成的模态嵌入级特征注意力模块捕获干扰特征的位置。为简单起见，两个线性层的维度和输入特征的维度保持一致。x表示第二个线性层的输出。将NegSig函数的输出与原始的特征输入进行点积运算，得到负值的干扰特征。再通过一个残差连接，与原始输入特征相加，屏蔽原始输入特征中的干扰。

步骤S22、针对文本模态单词级特征注意力模块的输出采取与步骤S21相似的操作，不同的是使用的模块参数独立。

所述步骤S3包括以下步骤；

步骤S31、每次训练开始前，使用一个简单的预分类网络(如MLP)对利用预训练骨干网络提取的各模态特征进行初始化的分类，分类准确率acc_{modal_i}表示为第modal_i个模态的预分类准确率。记矩阵A＝(acc₁ … acc_m)，其中，m为模态的数量。模态特异缩放因子s_{modal_i}如下列公式所示：

其中，θ为训练过程中可学习的m维向量。初始化时，可结合“越复杂的任务需要越大的网络，越简单的任务需要越小的网络这一共识”这一人工先验，将该函数初始化为定义域[0，1]之间非负单调递减的随机函数。将模态特异缩放因子s_{modal_i}作为自适应缩放编码器与解码器的缩放因子。

步骤S32、如公式(3-2)所示，训练过程中最小化第modal_i个模态的缩放损失

其中acc(包括第modal_i个模态的分类准确率acc_{modal_i}和第modal_j个模态的分类准确率acc_{modal_j})是辅助分类器的分类精度，m为模态的数量：

步骤S33、按照以下公式进行参数s_{modal_i}的更新：

其中，s_{modal_i}′是s_{modal_i}更新之后的值，lr为学习率。要注意的是，acc会随着网络的训练发生变化，我们仅在更新s_{modal_i}时使用acc，而不对acc进行更新。

所述步骤S4包括以下步骤；

步骤S41、在训练过程中，第modal_i个模态的损失函数为：

其中，

是第modal_i个模态的监督损失，

是第modal_i个模态的重构损失。λ是监督损失和重构损失之间权衡的平衡参数，λ是一个权衡因子。

遵循步骤S1、S2、S3进行神经网路的训练，使用梯度下降算法在训练过程中最小化损失函数L_{modal_i}，每次训练结束后，依据分类结果更新矩阵A，根据公式(3-2)计算自适应缩放损失，根据公式(3-3)和公式(3-4)更新s_{modal_i}。将训练的最大迭代次数iter_max作为终止条件。

步骤S42：选取在验证集上所有结果平均精度mAP@ALL最高的模型，丢弃解码器部分的网络权重。用该模型为所有待查询与待检索数据计算公共子空间嵌入，用余弦距离进行相似度计算，按照降序排序。

步骤S43：对每一项输入数据的检索结果进行类别级重排序。以输入数据为图像为例，依次将检索出的K_txt条文本数据作为输入数据反向检索图像。第k条文本的反向检索结果记为一个二进制串

其中，匹配标签

如果反向检索的结果与输入的图像查询属于同一类别，则匹配标签的值为1，否则为0(匹配标签可能有多个为1)。将所有文本的反向检索二进制结果

转为十进制数值

依据该值对文本数据进行降序排序。倘若数值一样，则原先排名靠前的文本优先。对于输入数据为文本的情况，采取同样的操作。最终返回类别级重排序后的检索结果。

特别的，本发明基于对多模态信息密度差异的评价提出一种融合先验知识的模态特异网络自适应缩放方法，极大程度上减缓了多模态任务中由于信息密度差异造成的模态拟合速率差异导致的模态间统一拟合的问题。本发明针对预训练模型中存在的干扰特征，提出模态嵌入级特征注意力模块指导知识在预训练源域与目标域之间的迁移，使得神经网络既能继承预训练模型提供的良好初始化状态，又能免受干扰特征的危害。本发明构造单词级特征注意力模块通过注意力机制进行词语义的高效融合，解决了跨模态检索任务文本语义的高效融合问题。基于Transformer结构的模态不变特征提取方法能够充分捕获模态内部相关性，构建高质量的模态潜表示空间与多模态公共子空间，为不同模态塑造高度相似的特征分布，从而实现更好的跨模态检索性能，突破多模态任务的性能瓶颈。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于模态特异自适应缩放与注意力网络的跨模态检索方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于模态特异自适应缩放与注意力网络的跨模态检索方法，其特征在于，所述步骤S1具体实现如下：

步骤S11、对于图像模态，按照4行4列均匀地将输入的图片切分成N＝16张子图，每张子图的长宽均为原图的1/4；采用卷积操作提取每个子图的块嵌入x₀，x₁...，x_N-1，并额外加上一个可学习的块嵌入x_extra；按照公式(1-1)和公式(1-2)为每个块嵌入加上位置嵌入：

其中pos是块的位置，dim_i表示位置嵌入的第dim_i个维度，d是块嵌入的维度为256；

将每个长度为256的块嵌入x₀，x₁...，x_N-1缩放为16×16的特征图，并将所有块嵌入在通道维度进行叠加，得到一个N×16×16的多通道特征图；利用一个层归一化和N/2个5×5的卷积核扩大特征图，降低一半通道数；同时通过一个平均池化和零填充额外加上一个残差连接；再按照通道进行切分，将每个通道的特征图重新映射为新的块嵌入；由于序列长度发生改变，为新的块嵌入重新计算并添加位置嵌入来更新相对位置信息得到经过残差空间缩减的块嵌入x′₀，x′₁...，x′_N-1；按照公式(1-3)至公式(1-6)计算图像模态表示：

z₀＝[x_extra；x′₀W_P；x′₁W_P；...；x′_N-1W_P]+e_pos (1-3)

z′_l＝MHA(LN(z_l-1))+z_l-1，l＝1...L (1-4)

z_l＝MLP(LN(z′_l))+z′_l，l＝1...L (1-5)

其中，z₀，z′_l，z_l是临时变量，L表示图像分块总个数，l表示第l个分块，W_P表示可学习的参数矩阵，x_extra是额外加入的可学习的块嵌入，它对应的输出

经过一个MLP运算后得到的结果

被作为图像模态的表示z_img；e_pos表示加入的一维位置嵌入；LN表示层归一化；MHA表示多头注意力，它对输入数据进行多个自注意操作；MLP代表多层感知机，包含线性投影1、GeLU激活函数、线性投影2；在模型中，使用一个额外的MLP头来获得首个块嵌入对应的输出作为图像模态的表示；

步骤S12、对于文本模态，单词级特征注意力模块先使用Word2Vec方法，将文本描述的每个单词转化成一个300维的词嵌入，然后对所有词嵌入采用一个共享权重的权重生成单元，包括一个全连接层FC、一个ReLU激活函数、一个平均池化层AvgPooling和一个Sigmoid层；权重生成单元为每个词嵌入生成一个权重，进行加权平均得到文本模态的表示；具体来说，遵循以下公式

表示第n_i条文本数据的第n_j个单词对应的词嵌入，

是300维的临时变量，

是数值型的临时变量，

是权重向量，(e^n_i)′是词嵌入融合之后的文本表示。

3.根据权利要求1所述的基于模态特异自适应缩放与注意力网络的跨模态检索方法，其特征在于，所述步骤S2具体实现如下：

步骤S21、针对图像模态的特征，采用分别由线性层1、激活函数、线性层2，NegSig函数构成的模态嵌入级特征注意力模块捕获干扰特征的位置；为简单起见，两个线性层的维度和输入特征的维度保持一致；x表示线性层2的输出；将NegSig函数的输出与原始的特征输入进行点积运算，得到负值的干扰特征；再通过一个残差连接，与原始输入特征相加，屏蔽原始输入特征中的干扰；NegSig函数如公式(2-1)所示：

其中Euler表示欧拉数：

4.根据权利要求1所述的基于模态特异自适应缩放与注意力网络的跨模态检索方法，其特征在于，所述步骤S3具体实现如下：

步骤S31、每次训练开始前，使用一个预分类网络对利用预训练骨干网络提取的各模态特征进行初始化的分类，分类准确率acc_{modal_i}表示为第modal_i个模态的预分类准确率；记矩阵A＝(acc₁...acc_m)，其中，m为模态的数量；模态特异缩放因子s_{modal_i}如下列公式所示：

其中，θ为训练过程中可学习的m维向量；初始化时，可结合“越复杂的任务需要越大的网络，越简单的任务需要越小的网络这一共识”这一人工先验，将上述函数初始化为定义域[0，1]之间非负单调递减的随机函数；将模态特异缩放因子s_{modal_i}作为自适应缩放编码器与解码器的缩放因子；

其中acc包括第modal_i个模态的分类准确率acc_{modal_i}和第modal_j个模态的分类准确率acc_{modal_j}是辅助分类器的分类精度，m为模态的数量：

步骤S33、按照以下公式进行参数s_{modal_i}的更新：

其中，s_{modal_i}′是s_{modal_i}更新之后的值，lr为学习率；acc会随着网络的训练发生变化，仅在更新s_{modal_i}时使用acc，而不对acc进行更新。

5.根据权利要求4所述的基于模态特异自适应缩放与注意力网络的跨模态检索方法，其特征在于，所述步骤S4具体实现如下：

步骤S41、在训练过程中，第modal_i个模态的损失函数为：

其中，

是第modal_i个模态的监督损失，

是第modal_i个模态的重构损失。λ是监督损失和重构损失之间权衡的平衡参数，λ是一个权衡因子；

遵循步骤S1、S2、S3进行神经网络的训练，使用梯度下降算法在训练过程中最小化损失函数L_{modal_i}，每次训练结束后，依据分类结果更新矩阵A，根据公式(3-2)计算自适应缩放损失，根据公式(3-3)和公式(3-4)更新s_{modal_i}；将训练的最大迭代次数iter_max作为终止条件；

步骤S42、选取在验证集上所有结果平均精度mAP@ALL最高的模型，丢弃解码器部分的网络权重；用该模型为所有待查询与待检索数据计算公共子空间嵌入，用余弦距离进行相似度计算，按照降序排序；

步骤S43、对每一项输入数据的检索结果进行类别级重排序；对于输入数据为图像的情况，依次将检索出的K_txt条文本数据作为输入数据反向检索图像；第k条文本的反向检索结果记为一个二进制串

其中，匹配标签

如果反向检索的结果与输入的图像查询属于同一类别，则匹配标签的值为1，否则为0，匹配标签可能有多个为1；将所有文本的反向检索二进制结果

转为十进制数值

依据该值对文本数据进行降序排序；倘若数值一样，则原先排名靠前的文本优先；对于输入数据为文本的情况，采取同样的操作；最终返回类别级重排序后的检索结果。