CN114863231A

CN114863231A - 基于渐进式融合的多视图跨模态匹配方法

Info

Publication number: CN114863231A
Application number: CN202210365186.5A
Authority: CN
Inventors: 吴春雷; 吴杰; 王雷全; 张立强; 路静
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-08-05

Abstract

本发明公开了基于渐进式融合的多视图跨模态匹配方法。该任务被广泛应用于视觉与语言的交互。以往的方法大多从单一视角出发，探索图像与文本之间的跨模态关系。然而，图像‑文本对之间只有单一的跨模态特征，很难发现丰富的信息。本发明提出了一种基于渐进式融合的多视图方法来集成多视图模态间表示。与单视图方法相比，多视图策略提供了更多的互补和全局语义线索。特别地，构建了多视图跨模态表示网络，生成多个跨模态表示，提供了不同的视图来发现潜在的图像‑文本关系。此外，采用渐进式融合模块，逐步融合多模态特征，充分利用了不同视角之间的内在互补性。在Flickr30K和MSCOCO上的大量实验验证了我们方法的优越性。

Description

基于渐进式融合的多视图跨模态匹配方法

技术领域

本发明属于跨模态匹配的方法，涉及计算机视觉和自然语言处理的技术领域。

背景技术

跨模态匹配的目的是自动匹配与给定图像内容相关的句子或与给定图像内容相关的图像。它在实际应用中有着广泛的应用，如跨模态检索、视觉问答和图像字幕等，也因此成为近年来的研究热点。而实现该任务的关键在于对视觉和文本特征的理解学习和两种模态数据之间的语义对应关系。

近年来，跨模态匹配性能有了很大的提高，这主要归功于三点。首先，更好的图像和句子表示是提高跨模态匹配性能的核心。图像的特征编码器从VGG到ResNet再到最近的自底向上的特征，明显提高了跨模态匹配的性能。在自然语言处理方面，将Bi-GRU模型替换为BERT模型学习词嵌入；其次，各种变体的注意力机制能够自适应地选择重要特征，抑制不重要特征，有助于模型获得更好的增强特征；第三，为了更好地捕捉视觉和语言特征之间的潜在关系，提出了更好的交叉模态优化方法，如SCAN、CAMP和unicode-vl。

尽管跨模态匹配已经被广泛地研究，但现有的方法大多集中于学习图像或文本特征中的模态内关系。例如，视觉语义推理网络通过捕捉对象及其语义关系来推理视觉的语义表示。黄等人提出学习语义概念，并将其按照正确的语义顺序组织起来，以改善图像的表示。刘等人利用图卷积网络的局部和全局模型来捕获图的一般信息，并将图像级和向量级特征相结合来计算图像文本对的相似度。以及在最近提出的自然语言处理BERT算法中，利用自注意机制对区域单词关系进行建模，学习词嵌入。段等人提出了一种通用编码器，旨在利用预训练模型来学习视觉和语言的联合表征。

另一方面，跨媒体匹配的核心是学习跨模态关系。王等人提供了一种根据上下文调整注意的方法，并使用多模态LSTM顺序聚合局部相似度。丁等人提出了一种基于循环注意记忆的迭代匹配方法，通过多步对齐来捕获图像与文本之间的对应关系。刘等人构建图像与文本的图结构，学习细粒度的短语对应关系。Lee等人通过将每个单词与所有具有不同权重的区域相关联来发现潜在对齐，反之亦然。此外，也陆续提出了一些关于生成对抗网络的方法，闻等人在公共表示子空间上设计了两个鉴别器，整合了图像和文本模式之间的模态级和类级语义关系。王等人通过构建概念相关图来学习共识感知的概念表示，开发了一种用于图像-文本匹配的共识感知架构。

尽管这些工作成功地学习了图像-文本匹配的多级一致性，但它们忽略了在跨模态表示中不同视图之间的潜在依赖性。与此相反，我们构建了一个多视图的跨模态表示网络来生成多个跨模态表示，提供了不同的视图来发现潜在的图像-文本关系。本发明提出了一种渐进融合模块，该模块可集成多模态特征，自适应学习相似度特征，而不是用余弦度量相似度，充分利用了不同视角之间的内在互补性。

发明内容

本发明的目的是为了解决在以往的跨模态匹配方法中，大多从单一视角出发，只学习了不同模态间的单一特征关系，而没有考虑多视图的跨模态语义关系的问题。

本发明为解决上述技术问题采取的技术方案是：

S1.构建多视图跨模态表示生成模块，从不同的视图来挖掘潜在的模态间关系特征，通过考虑图像文本对间的多视图的信息交互，推理潜在的跨模态语义对齐。

S2.构建渐进式融合模块，以渐进的方式聚合多视图表示，可以有效地捕获不同视角下的内在关联和丰富的互补信息。

S3.结合S1中的模块和S2中的模块构建基于渐进式融合的多视图跨模态匹配方法的整体架构。

S4.基于渐进式融合的多视图跨模态匹配方法的训练。

首先，给定图像的区域特征为V∈R^d×m，文本的单词特征为E∈R^d×n。联合模态亲和矩阵可以定义为:

f(V,E)＝V^TWE (1)

其中W为投影矩阵。为了避免较高的计算成本和过度拟合的风险。矩阵W可以分解X和Y两个低秩矩阵,联合模态亲和矩阵可以重新改写为:

其中k是分解矩阵X＝{x₁,...,x_k}，X∈R^d×k和Y＝{y₁,...,y_k}，Y∈R^d×k的维数，ο表示两个向量的元素乘法，1∈R^k是一个全1的向量。

为了得到多个视图的联合模态矩阵，引入了一个池化矩阵P_g，利用下式可以得到多视图特征：

其中X和Y表示一个全连接层，以此来大大减少参数的数量。P_g∈R^k×g这里矩阵下标g表示联合模态矩阵的个数。多个关节表示可得到:

h_g＝V^Tsoftmax(f(V,E)_g)E (4)

虽然多种跨模态表示可以编码丰富的线索，但它们可能包含冗余或无意义的信息。如果将所有的模态间特征简单地用池化或连接进行聚合，可能会导致图像-文本匹配的混乱。因此，本发明设计了一种具有渐进式融合策略的额外组件，通过渐进地融合前几步的多个跨模态表示，自适应地融合信息，抑制无用信息。并且，我们自适应学习基于向量的相似度，而不是用基于标量的余弦相似度来描述这些对齐。

具体来说，我们首先将h_i和h_i+1映射到公共空间，然后进行如下的融合操作：

R_i＝h_iw_i+tanh(h_i+1)w_i+1 (5)

其中R_i∈R^k,i∈[1,g]是融合后的结果，w_i和w_i+1是可训练的权重。然后，通过采用具有sigmoid函数的MLP层生成与融合特征相对应的遗忘门G_f，该遗忘门能够控制遗忘信息的数量，如下式所示：

G_f＝σ(R_iw_f+b_f) (6)

这里，σ为sigmoid函数，w_f和b_f都是MLP层的参数。最后，采用G_f更新原始h_i和h_i+1的输出，从而获得更新后的联合表示m_i:

m_i＝σ(R_i)⊙tanh(h_i)+G_f⊙h_i+1+h_i (7)

其中⊙为阿达玛乘积，σ为sigmoid函数并且m_i是整个渐进融合模块在第i步的输出。然后在下一步i+1中，提取前一步的联合表示m_i与当前的特征表示h_i+2融合，生成更新后的联合表示m_i+1。最后，对最后一个输出M进行求和，得到相似度S，如下所示：

S＝Sumpooling(M,k) (8)

其中，函数SumPooling(M,k)表示在M上移动一个大小为k的一维窗口，其中每个窗口内的值相加取和对应于我们的输出。因此，利用多视图的模态间关系特征，充分挖掘不同视觉与文本对间的互补性，推理图像与句子之间的相关性，可以提升跨媒体匹配的性能。

所述的基于渐进式融合的多视图跨模态匹配方法包含一个多视图跨模态表示生成模块、一个渐进式融合模块和一个基于渐进式融合的多视图跨模态匹配网络。

最终，所述的基于渐进式融合的多视图跨模态匹配方法的训练方法如下：

在我们的训练实现中，所有的实验都是在1个Nvidia Tesla P100 GPU上使用PyTorch进行优化的。对于每一幅图像，采用基于ResNet-101的Faster-RCNN模型提取置信度排名前36位的区域特征，得到每个区域1024维的特征。对于每个文本，采用12层、12个头、768个隐藏单元的预训练BERT，得到768维的原始单词嵌入。此外，使用Adam优化器在MSCOCO数据集上训练20个轮回和在Flickr30k数据集上训练30个轮回。学习速度最初设定为5e-9，在两个数据集上分别每10或6个轮回下降10倍。边缘参数α设置为0.2，最小批量尺寸为64，梯度裁剪阈值为2.0。

与现有的技术相比，本发明的有益效果是：

1.本发明提出了一种基于渐进式融合的多视图跨模态匹配方法，以探讨潜在的跨模态关系。本发明考虑了跨模态间的多种信息交互，提供了不同的视图来发现潜在的图像-文本关系。

2.本发明中一种新的渐进融合模块被首次提出，以渐进的方式聚合多模态表示，可以有效地捕获不同视角下的内在关联和丰富的互补信息。

附图说明

图1为基于渐进式融合的多视图跨模态匹配方法的结构示意图。

图2为多视图跨模态表示生成模块的模型示意图。

图3为渐进式融合模块的模型示意图。

图4和图5为基于渐进式融合的多视图跨模态匹配方法与其他网络的跨模态匹配方法分别在MSCOCO和Flickr30K数据集上的结果对比图。

图6和图7为图像匹配文本和文本匹配图像的可视化结果图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制。

以下结合附图和实施例对本发明做进一步的阐述。

图1为基于渐进式融合的多视图跨模态匹配方法的结构示意图。如图1所示，首先将图像和句子编码成特征表示。然后生成多个联合模态亲和矩阵来捕获所有交叉模态对之间的对应关系。随后设计了一种自适应渐进式融合模块，通过逐步聚合图像的跨模态表示来计算图像与文本的相似度，自适应地融合信息并抑制无用信息进行最终的跨模态匹配。

图2为多视图跨模态表示生成模块的模型示意图。如图2所示，首先，给定图像的区域特征为V∈R^d×m，文本的单词特征为E∈R^d×n。联合模态亲和矩阵可以定义为:

f(V,E)＝V^TWE (9)

h_g＝V^Tsoftmax(f(V,E)_g)E (12)

图3为渐进式融合模块的模型示意图。虽然多种跨模态表示可以编码丰富的线索，但它们可能包含冗余或无意义的信息。如果将所有的模态间特征简单地用池化或连接进行聚合，可能会导致图像-文本匹配的混乱。因此，本发明设计了一种具有渐进式融合策略的额外组件，通过渐进地融合前几步的多个跨模态表示，自适应地融合信息，抑制无用信息。并且，我们自适应学习基于向量的相似度，而不是用基于标量的余弦相似度来描述这些对齐。如图3所示，我们首先将h_i和h_i+1映射到公共空间，然后进行如下的融合操作：

R_i＝h_iw_i+tanh(h_i+1)w_i+1 (13)

G_f＝σ(R_iw_f+b_f) (14)

m_i＝σ(R_i)⊙tanh(h_i)+G_f⊙h_i+1+h_i (15)

S＝Sumpooling(M,k) (16)

图4和图5为基于渐进式融合的多视图跨模态匹配方法与其他网络的跨模态匹配方法分别在MSCOCO和Flickr30K数据集上的结果对比图。如图4和图5所示，基于渐进式融合的多视图跨模态匹配方法结果比其他模型更加准确。

图6和图7为图像匹配文本和文本匹配图像的可视化结果图。如图6所示，给与一张图像，基于渐进式融合的多视图方法可以匹配出相应的文本。如图7所示，给与文本，基于渐进式融合的多视图模型可以匹配出相应的图片。

本发明提出了一种新颖的多视图跨模态表示方法，通过逐步融合来探索潜在的跨模态关系。引入多视图间模态表示网络，从多视图中考虑图像与文本之间的多种信息交互，从而推断出图像的层次对应关系。并设计了渐进式融合模块，以聚合跨模态表现，充分利用了不同视角之间的内在互补性。与基于标量余弦特征的对齐方法相比，通过学习基于向量的相似性表示的自适应相似度度量方法仍然具有很大的优势。在Flickr30K和MSCOCO上的大量实验验证了我们的模型(MIRPF)与几种现有方法相比的优越性。在未来，我们计划通过多视图表示进一步探索图像和文本之间的关系，并尝试使其更加灵活和可扩展。

最后，本发明的上述示例的细节仅为解释说明本发明所做的举例，对于本领域技术人员，对上述实施例的任何修改、改进和替换等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于渐进式融合的多视图跨模态匹配方法，其特征在于，所述方法包括以下步骤：

S4.基于渐进式融合的多视图跨模态匹配方法的训练。

2.根据权利要求1所述的基于渐进式融合的多视图跨模态匹配方法，其特征在于，所述S1的具体过程为：

f(V,E)＝V^TWE (1)

其中k是分解矩阵X＝{x₁,...,x_k}，X∈R^d×k和Y＝{y₁,...,y_k}，Y∈R^d×k的维数，

表示两个向量的元素乘法，1∈R^k是一个全1的向量。

3.根据权利要求1所述的基于渐进式融合的多视图跨模态匹配方法，其特征在于，所述S2的具体过程为：

R_i＝h_iw_i+tanh(h_i+1)w_i+1 (5)

G_f＝σ(R_iw_f+b_f) (6)

m_i＝σ(R_i)⊙tanh(h_i)+G_f⊙h_i+1+h_i (7)

S＝Sumpooling(M,k) (8)

其中，函数SumPooling(M,k)表示在M上移动一个大小为k的一维窗口，其中每个窗口内的值相加取和对应于我们的输出。

因此，利用多视图的模态间关系特征，充分挖掘不同视觉与文本对间的互补性，推理图像与句子之间的相关性，可以提升跨媒体匹配的性能。

4.根据权利要求1所述的基于渐进式融合的多视图跨模态匹配方法，其特征在于，所述S3的具体过程为：

5.根据权利要求1所述的基于渐进式融合的多视图跨模态匹配方法，其特征在于，所述S4的具体过程为：

基于渐进式融合的多视图跨模态匹配方法的训练方法如下：