CN115641395A

CN115641395A - 一种基于互信息的图文对齐方法

Info

Publication number: CN115641395A
Application number: CN202211424803.0A
Authority: CN
Inventors: 白琮; 欧阳鹏翔; 马青; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-01-24

Abstract

本发明公开了一种基于互信息的图文对齐方法，首先构建包括特征提取模块和特征对齐模块的图文对齐网络模型，所述特征提取模块包括图像特征提取模块和文本特征提取模块，分别用于提取图像特征和文本特征，所述特征对齐模块用于计算对齐损失，所述对齐损失包括为模态内损失和模态间损失。然后对构建的图文对齐网络模型进行训练，将待对齐的图像和文本输入训练好的图文对齐网络模型，得到图像对应文本排序或文本对应的图像排序，实现图像与文本的对齐。本发明充分利用图文数据间的互信息，对齐难以区分的图像文本对，提高图文对齐性能。

Description

一种基于互信息的图文对齐方法

技术领域

本申请属于图像文本对齐技术领域，尤其涉及一种基于互信息的图文对齐方法。

背景技术

随着科技的飞速发展，图像、视频、文字、音频等海量多媒体数据正在迅速涌现。根据Gartner的数据，图像和视频数据已经占到了大数据的90％以上。2018年，全球创造、捕获、复制和消费的数据总量为33泽字节(ZB)。此外，这个数字在2020年增长到59ZB，到2025年将达到难以想象的175ZB。这些数据在形式上是多源异构的，在语义上是相互关联的，而且对社会至关重要。因此，对这些多媒体数据的语义分析和对这些多媒体内容的理解已经成为一个研究热点。

图像文本对齐是让计算机在语义层面来理解不同载体的多媒体数据。在实际生活中，往往会需要通过文本描述的方式来寻找对应的图像，或者是通过某张图像来找寻对应的文本描述。而图像文本对齐领域就是在拥有相同或者高度近似的语义信息的图像文本之间建立联系与映射。但是，由于图像文本数据载体的存储方式不同，语义表征与人类的认知也有矛盾，因此存在着“异构鸿沟”和“语义鸿沟”两大难题。“异构鸿沟”是指，图像、文本等不同多媒体数据的载体媒介不同，蕴含的表征也不尽相同；“语义鸿沟”是指，多媒体数据中的每一种媒体，如图像，存在这数据表征和人类认知的矛盾。因此，图像文本对齐势必需要一个统一的方式来度量不同形式的多媒体数据所蕴含的语义信息。

发明内容

本申请的目的是提供一种基于互信息的图像文本对齐方法，克服“异构鸿沟”和“语义鸿沟”，以及进一步提升图像文本对齐的性能。

为了实现上述目的，本申请技术方案如下：

一种基于互信息的图文对齐方法，包括：

构建包括特征提取模块和特征对齐模块的图文对齐网络模型，所述特征提取模块包括图像特征提取模块和文本特征提取模块，分别用于提取图像特征和文本特征，所述特征对齐模块用于计算对齐损失，所述对齐损失包括为模态内损失和模态间损失；

获取训练样本，对构建的图文对齐网络模型进行训练，得到训练好的图文对齐网络模型；

将待对齐的图像和文本输入训练好的图文对齐网络模型，得到图像对应文本排序或文本对应的图像排序，实现图像与文本的对齐。

进一步的，所述图像特征提取模块包括依次连接的图像裁剪模块以及四个阶层，第一阶层包括一个全连接层和两个Swin-Transformer Block，第二阶层包括一个图像拼接模块和两个Swin-Transformer Block，第三阶层包括一个图像拼接模块和十八个Swin-Transformer Block，第四阶层包括一个图像拼接模块和两个Swin-Transformer Block。

进一步的，所述图像裁剪模块将输入图像按照预设图像块大小进行分割，然后将得到的图像库排成一列输入到后续网络模块。

进一步的，所述图像拼接模块，用于将前一个阶层的输出还原成一张完整的图像。

进一步的，所述文本特征提取模块包括依次连接的一个全连接层和十二个Transformer编码器。

进一步的，所述模态内损失，用于计算同一张图像的不同增强在经过特征提取模块后的模态内损失；所述模态间损失，用于将同一张图像的不同增强分别与文本计算模态间损失，然后取最大值作为最终的模态间损失。

本申请提出的一种基于互信息的图像文本对齐方法，能够充分利用图文数据间的互信息，对齐难以区分的图像文本对，提高图文对齐性能。

附图说明

图1为本申请基于互信息的图文对齐方法流程图；

图2为本申请图文对齐网络模型示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

目前，随着各种神经网络模型和计算资源的不断成熟和发展，深度学习方法在各个领域都取得了十分优秀的成绩。尤其是transformer，它在自然语言处理和计算机视觉的各种任务上都取得了不错的精确度，因此，目前一般都采用transformer进行图像文本语义特征的提取。另外，由于对比学习技术的发展，互信息成为了图像文本对齐领域的重要研究点。互信息是信息论里一种信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。简单来讲，拥有近似语义或者相同语义的图像文本，它们之间应该拥有更高的互信息；拥有不同语义的图像文本，它们之间应该拥有更少的互信息。利用互信息和对比学习，便能跨越“异构鸿沟”和“语义鸿沟”，用一个统一的形式来度量多媒体数据的语义信息。本申请基于以上对互信息的理解，结合对比学习，提出了一种基于互信息的图像文本对齐方法。

在一个实施例中，如图1所示，提供了一种基于互信息的图文对齐方法，包括：

步骤S1、构建包括特征提取模块和特征对齐模块的图文对齐网络模型，所述特征提取模块包括图像特征提取模块和文本特征提取模块，分别用于提取图像特征和文本特征，所述特征对齐模块用于计算对齐损失，所述对齐损失包括为模态内损失和模态间损失。

本实施例，图文对齐网络模型如图2所示，包括特征提取模块和特征对齐模块，而特征提取模块包括图像特征提取模块和文本特征提取模块。

在一个具体的实施例中，图像特征提取模块由多个全连接层和Swin-TransformerBlock构成。Swin-Transformer Block由层归一化和窗口注意力组成。图像特征提取模块包含依次连接的图像裁剪模块以及四个阶层(Stage)。其中，图像裁剪模块将输入图像按照预设图像块大小进行分割，然后将得到的图像库排成一列输入到后续网络模块。具体是将一张完整的图片按照图像块Patch进行分割，例如将一张224x224大小的图片切成大小为7x7的Patch，共32x32个，然后将1024个Patch排成一列输入后续网络模块。其中第一个Stage由一个全连接层和2个Swin-Transformer Block构成；第二、四个Stage由一个图像拼接模块和2个Swin-Transformer Block构成；第三个Stage由一个图像拼接模块和18个Swin-Transformer Block构成。图像拼接模块将经过Stage输出的图像序列还原成一张完整的图像。

本实施例中，文本特征提取模型由一个全连接层和多个Transformer编码器(Transformer Encoder)构成。文本先由分词器进行分词，然后经过文本嵌入(TextEmbeding)变成对应的编码。文本嵌入是指用向量的形式来编码文本，从而使得计算机能够对文本进行计算。文本特征提取模型一共包含一个全连接层和12个Transformer Encoder。以上的所有结构之后，都会进行标准化保证数据的量纲一致。特征提取模型中所有全连接层后接Relu激活函数。

本实施例特征对齐模块用于计算对齐损失，所述对齐损失包括为模态内损失和模态间损失。IMCMI损失函数是模态内损失函数，用于计算同一张图像的不同增强在经过特征提取模块后的模态内损失；SNCE是模态间损失函数，用于将同一张图像的不同增强分别与文本计算模态间损失，然后取最大值作为最终的模态间损失。

其中，IMCMI损失函数，输入一张图像的不同增强，提取图像特征后，进行计算。而SNCE是模态间损失函数，将一张图像的不同增强与文本分别计算损失函数，然后取最大值得到。

上述两种损失函数基于最大化正样本对互信息、最小化负样本互信息的思想构成。首先计算对应的图像文本对之间的相似度，这里相似度采用特征向量之间的余弦距离来计算，然后经过softmax函数放大相似度分数。对于其余图像文本对，与前面相似的计算相似度，再经过softmax函数放大相似度分数，然后乘以超参数λ。将两者相加得到最终的损失函数，然后将损失值反馈给网络，进行前向传播。具体细节见下列公式：

这里的s_i,j为第i个图像和第j个文本的相似度，τ为温度系数，λ为超参数。K代表的是一次训练中，一个批次的大小。exp表示的是以自然对数为底的幂运算，v_i和t_i分别代表图像和文本的特征。v2t表示以图像作为询问，查询文本，t2v表示以文本作为询问，查询图像。

步骤S2、获取训练样本，对构建的图文对齐网络模型进行训练，得到训练好的图文对齐网络模型。

本实施例，为了训练网络，先获取数据集，然后进行预处理。预处理时，将数据集划分为训练集、验证集和测试集三部分。然后将数据集中的数据进行随机增强和标准化处理，使得数据更有利于模型的训练。

本实施例，网络训练使用Swin-Transformer、BERT、X-VLM提供的预训练参数初始化特征提取模块，将训练集中的训练样本输入到特征提取模块中。其中对于图像，会进行随机水平翻转、随机竖直翻转、随机旋转、随机放大缩小等增强方式进行增强处理。然后对图像和文本分别提取特征。最后特征对齐模块计算对齐的损失。计算两部分损失，分别为模态内损失和模态间损失，然后将两者合并就是最终损失。将损失误差反馈到网络中，调整网络的参数，优化模型性能，直到完成网络的训练。

步骤S3、将待对齐的图像和文本输入训练好的图文对齐网络模型，得到图像对应文本排序或文本对应的图像排序，实现图像与文本的对齐。

在训练好图文对齐网络模型之后，就可以采用训练好的图文对齐网络模型对待对齐的图像和文本进行对齐操作，将待对齐的图像和文本输入训练好的图文对齐网络模型，分别提取图像特征和文本特征，然后计算出相似度。对于图像来说，它对每个文本都有一个相似度，对这个相似度进行排序，就能得到和这个图像最相近的文本，从而实现图像与文本的对齐。或者反过来，对于文本来说，它对每个图像都有一个相似度，对这个相似度进行排序，就能得到这个文本最相似的图像。

例如，对于n个无法确定是否匹配的图像I＝{I₁，I₂，I₃...I_n}，以及文本T＝{T₁，T₂，T₃...T_n}，计算出相似度S＝{S₁₂，S₁₃，...S_1n...S_nn}，S_ij代表的是第i个图像和第j个文本的相似度。然后对于第t个图像的相似度S_t＝{S_t1，S_t2，S_t3，...S_tn}，进行降序排序，例如得到S_t＝{S_t3，S_t1，S_tt，...S_tn}。那么最后认为第t个图像和第3个文本是对应、对齐的。

在本申请中，还通过实验对本申请技术方案进行了实验验证。实验时，基于Flickr数据集、MSCOCO数据集，与当前主流的图像文本对齐算法进行比较，采用R@1，R@5，R@10三个标准。其中R@X，代表的意思是以图像(文本)作为查询，在测试集中查询到的正确的文本(图像)的优先级的排名在前X的频率。

表1.MSCOCO(5K)数据集实验结果

表2.Flickr30K数据集实验结果

表1和表2分别是MSCOCO(5K)数据集和Flickr30K数据集上的测试结果，通过两个表格的对比可知，本申请方法在图文对齐任务上性能的优越性。其中在MSCOCO(5K)上的所有指标均优于以往方法，在Flickr30K上大部分指标优于以往方法。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于互信息的图文对齐方法，其特征在于，所述基于互信息的图文对齐方法，包括：

2.根据权利要求1所述的基于互信息的图文对齐方法，其特征在于，所述图像特征提取模块包括依次连接的图像裁剪模块以及四个阶层，第一阶层包括一个全连接层和两个Swin-Transformer Block，第二阶层包括一个图像拼接模块和两个Swin-TransformerBlock，第三阶层包括一个图像拼接模块和十八个Swin-Transformer Block，第四阶层包括一个图像拼接模块和两个Swin-Transformer Block。

3.根据权利要求2所述的基于互信息的图文对齐方法，其特征在于，所述图像裁剪模块将输入图像按照预设图像块大小进行分割，然后将得到的图像库排成一列输入到后续网络模块。

4.根据权利要求2所述的基于互信息的图文对齐方法，其特征在于，所述图像拼接模块，用于将前一个阶层的输出还原成一张完整的图像。

5.根据权利要求1所述的基于互信息的图文对齐方法，其特征在于，所述文本特征提取模块包括依次连接的一个全连接层和十二个Transformer编码器。

6.根据权利要求1所述的基于互信息的图文对齐方法，其特征在于，所述模态内损失，用于计算同一张图像的不同增强在经过特征提取模块后的模态内损失；所述模态间损失，用于将同一张图像的不同增强分别与文本计算模态间损失，然后取最大值作为最终的模态间损失。