CN117093692A

CN117093692A - 一种基于深度融合的多粒度图像-文本匹配方法及系统

Info

Publication number: CN117093692A
Application number: CN202311063453.4A
Authority: CN
Inventors: 郑伟; 韩娜; 钟君慧
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-11-21

Abstract

本申请公开了一种基于深度融合的多粒度图像‑文本匹配方法及系统，方法包括：将待匹配图像进行多粒度视觉编码，得到编码后图像；将待匹配文本进行多粒度视觉编码，得到编码后文本；基于编码后图像和编码后文本训练编码器，得到初始编码器；对初始编码器进行深度融合，得到跨模态编码器；对跨模态编码器进行训练，得到最终模型，利用最终模型完成图像和文本的匹配。本申请利用模态内和模态间的特征来训练不同的编码器，避免两者之间的相互干扰，从而有效的学习个模态的特征表示，同时降低了对算力资源的要求。采用了深度融合的方法，更加充分的学习不同模态间复杂的关联。在多粒度视觉编码器训练过程中，引入硬负对，以提高检索时的匹配精度。

Description

一种基于深度融合的多粒度图像-文本匹配方法及系统

技术领域

本申请涉及图像文本匹配领域，具体涉及一种基于深度融合的多粒度图像-文本匹配方法及系统。

背景技术

随着社交媒体上每天上传的多模态数据的爆炸式增长，跨模态检索(CMR)正成为人们方便地查找相关图像和文本的一个新兴需求。CMR是多模态视觉和语言理解的基本任务，它通过从一种模态的查询来检索另一种模态的相关数据。近年来，图像-文本匹配是一种新兴的任务，它将一个模态的实例与另一个模态的实例进行匹配。这可以连接视觉和语言，从而能提高其他多模态应用程序的性能。

图像-文本匹配，也称为图像-文本检索，是指将一张图片和一段文字进行匹配，找出它们之间的关联性。具体而言，对于任意输入的文本-图像对，图文匹配的目的是衡量图像和文本之间的语义相似程度。现有的图像文本匹配工作可以大致分为两类：1)全局关联：以整个文本和图像作为对象学习语义关联；2)局部关联：以细粒度的图像显著区域和文本单词作为对象学习语义关联。一对一匹配方法通常是分别提取图像和文本的全局特征表示，然后利用结构化或者典型相关分析的目标函数将它们的特征投影到一个共同空间，使得相似的成对图像文本在空间中的距离接近，即相似性高。其中同时考虑两者的多粒度方法X-VLM被提出来以后，由于其惊人的效果，基于多粒度的方法逐渐成为主流。

基于多粒度的图像-文本匹配方法主要思想是将给定相关文本的图像中定位视觉概念，同时将文本与视觉概念进行多粒度对齐。

发明内容

本申请旨在解决现有技术的不足，提出了一种基于深度融合的多粒度图像-文本匹配方法及系统，利用模态内和模态间的特征来训练不同的编码器，避免两者之间的相互干扰，从而有效的学习个模态的特征表示，同时降低对算力资源的要求。

为实现上述目的，本申请公开了如下方案：

一种基于深度融合的多粒度图像-文本匹配方法，步骤包括：

将待匹配图像进行多粒度视觉编码，得到编码后图像；

将待匹配文本进行多粒度视觉编码，得到编码后文本；

基于所述编码后图像和所述编码后文本训练编码器，得到初始编码器；

将初始编码器特征进行深度融合编码，得到跨模态编码器；

对所述初始编码器和所述跨模态编码器进行训练，并联合得到最终模型，利用所述最终模型完成图像和文本的匹配。

优选的，得到所述编码后图像的方法包括：将待匹配图像分割成不重叠的斑块，并线性地嵌入所有的所述斑块，得到若干补丁；将所述补丁传递至预训练的图像编码器，进行多粒度视觉编码；在不同的粒度下创建N+1个的概念表示，得到所述编码后图像。

优选的，进行所述多粒度视觉编码的方法包括：利用特殊标记[CLS]将输入文本中的单个句子和一对句子分开，完成所述多粒度视觉编码。

优选的，得到所述初始编码器的方法包括：设定一对(V，T)，其中，T表示V的肯定的例子，并将其他(N-1)文本视为否定的例子；定义余弦相似度：

s(V，T)＝g_v(v_cls)Tg_w(w_cls)

式中，w_cls表示文本编码器的输出[CLS]嵌入；g_v和g_w是将[CLS]嵌入映射到规范化的低维表示的转换。

优选的，成批处理的视觉文本相似度包括：

文本与视觉的相似性包括：

式中，τ是一个可学习的温度参数；y^i2t和y^t2i表示地面真一热相似度，对比损失定义为p和y之间的交叉熵H：

式中，L_c1为对比损失得分，E_V，T～D表示期望值。

优选的，对所述初始编码器和所述跨模态编码器进行训练包括：

首先，查询每个图像对应的前k个文本，并按降序排列；

然后，使用训练好的跨模态编码器再次对检索结果进行优化；

最后，以权重方式表示模态内和模态间的相似性，权重的计算方法为：

其中，top_k-i2t_sim为相似度矩阵中第i个图像对应的最相似的前k个文本的相似度，top_k-i2t_sim_j为top_k-i2t_sim中第i个图像和第j个文本的相似度分数。

优选的，查询每个图像对应的前k个文本的方法为：

top_{k_}i2t_sim，top_{k_}i2t_idx＝top_k(p^i2t)

查询每个文本对应的前k个图像的方法为：

top_{k_}t2i_sim.top_{k_}t2i_idx＝top_k(p^t2i)。

优选的，生成与第i张图像最相似的文本特征为：

图像特征与第i个文本最相似为：

优选的，所述跨模态编码器主干为多路变压器，每个多路变压器由一个共享的自注意模块和一个用于不同模态的前馈网络池组成；根据输入令牌的方式将每个输入令牌路由给专家，每个层都包含一个视觉专家和一个语言专家；此外，前三层都有为融合编码器设计的视觉-语言专家，使用模态专家鼓励模型捕获特定于模态的信息；利用共享的自我注意模块学习不同模式之间的对齐。

本申请还提供了一种基于深度融合的多粒度图像-文本匹配系统，包括：图像编码模块、文本编码模块、训练模块、融合模块和匹配模块；

所述图像编码模块用于将待匹配图像进行多粒度视觉编码，得到编码后图像；

所述文本编码模块用于将待匹配文本进行多粒度视觉编码，得到编码后文本；

所述训练模块基于所述编码后图像和所述编码后文本训练编码器，得到初始编码器；

所述融合模块用于对所述初始编码器进行深度融合，得到跨模态编码器；

所述匹配模块对所述初始编码器和所述跨模态编码器进行训练，并联合得到最终模型，利用所述最终模型完成图像和文本的匹配。

与现有技术相比，本申请有益效果如下：

利用模态内和模态间的特征来训练不同的编码器，避免两者之间的相互干扰，从而有效的学习个模态的特征表示，同时降低了对算力资源的要求。其次，采用了深度融合的方法，更加充分的学习不同模态间复杂的关联。最后，在多粒度视觉(文本)编码器训练过程中，引入硬负对，以提高检索时的匹配精度。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的方法流程框架图；

图2为本申请实施例的图像编码示意图；

图3为本申请实施例的文本编码示意图；

图4为本申请实施例的最终模型训练示意图；

图5为本申请实施例的系统结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

如图1所示，为本申请实施例的方法流程框架图。

首先，将待匹配图像进行多粒度视觉编码，得到编码后图像。

对于每个输入图像，首先将一个图像分割成不重叠的斑块，并线性地嵌入所有的斑块，得到若干补丁。然后，这些补丁被传递到变压器层，产生{v₁，...，v_NI}。对于分辨率为224×224、补丁大小为32×32的图像，本实施例NI＝49。

假设v_pi是对相应的补丁pi的信息进行编码。通过在补丁之间的信息来对应一组补丁来表示了一个视觉概念V^j(对象、区域或图像)。保留补丁特征位置信息的同时对补丁特征进行重塑，表示为{/>是V^j的补丁。计算特征的平均值来表示整个视觉概念，表示为/>在不同的粒度下创建N+1个的概念表示，表示为j∈[0，N]。在本实施例中，令Itrans(V⁰)表示所有补丁特征都被利用的图像表示。如图2所示。

之后，将待匹配文本进行多粒度视觉编码，得到编码后文本。

输入文本在一个标记序列中表示单个句子或一对句子。一个“句子”可以是一个连续文本的任意跨度，而不是一个实际的语言句子。一个“序列”指的是对BERT的输入标记序列，它可以是单个句子或两个句子打包在一起。

每个序列的第一个标记总是一个特殊的分类标记([CLS])。与该标记对应的最终隐藏状态被用作分类任务的聚合序列表示。句子对被打包成一个单一的序列。如图3所示。

在上述步骤的基础上，基于编码后图像和编码后文本训练编码器，得到初始编码器(多粒度视觉/文本编码器)。具体训练过程包括：

预测(视觉，文本)对，表示(V，T)。在本实施例中，视觉概念包括对象、区域和图像。随机抽取一小批N对，并计算成批视觉到文本相似度和文本到视觉相似度。

设定一对(V，T)，其中，T表示V的肯定的例子，并将其他(N-1)文本视为否定的例子；定义余弦相似度：

s(V，T)＝gv(v_c1s)Tg_w(w_c1s)

式中，w_c1s表示文本编码器的输出[CLS]嵌入；g_v和g_w是将[CLS]嵌入映射到规范化的低维表示的转换。然后，计算成批处理本文的视觉相似度：

同样，文本与视觉的相似性为：

i∈[0，N]。

式中，τ是一个可学习的温度参数。设y^i2t和y^t2i表示地面真一热相似度，其中只有正对的概率为1。对比损失定义为p和y之间的交叉熵H：

式中，L_c1为对比损失的得分，E_V，T～D表示期望。

之后，对初始编码器进行训练：

1)匹配训练

确定一对视觉概念和文本是否匹配。对于小批中的每个可视化概念，本实施例按照p^v2t(V)对批内硬负文本进行采样。与该概念更相关的文本更有可能被抽样。本实施例还为每个文本采样了一个硬否定的视觉概念。本实施例使用x_c1s，即跨模态编码器的输出[CLS]嵌入，来预测匹配概率p^match，损失为：

其中y^match是一个二维one-hot向量。

2)硬负训练

给定一个匹配的图像文本对(V，T)，硬负排名损失只考虑最近的负对(T^～，V^～)，在一个小批d正对的相似性应该高于负对的一个固定的边际值γ，定义为：

其中，s(·，·)表示计算出的图像-文本对的匹配得分，γ为边际参数，[x]₊≡max(x，0)。

最后，总体的视觉/文本编码器的训练目标为：

此外，在上述步骤的基础上，对初始编码器特征进行深度融合，得到跨模态编码器。

主干为多路变压器。每个多路变压器由一个共享的自注意模块和一个用于不同模态的前馈网络池(即模态专家)组成。根据输入令牌的方式将每个输入令牌路由给专家。每个层都包含一个视觉专家和一个语言专家。此外，前三层都有为融合编码器设计的视觉-语言专家。使用一群模态专家鼓励模型捕获更多特定于模态的信息。共享的自我注意模块学习不同模式之间的对齐。

本实施例通过在单模态数据(即图像和文本)和多模态数据(即图像-文本对)上的统一掩蔽数据建模进行训练。在训练过程中，本实施例随机掩码一定百分比的文本标记或图像补丁，并训练模型恢复掩码标记。统一的掩模-然后预测学习不同模式的对齐。得到最终模型。

最后，对初始编码器和跨模态编码器进行训练，得到最终模型，利用最终模型完成图像和文本的匹配。

其中，对初始编码器和跨模态编码器进行训练包括：

首先，查询每个图像对应的前k个文本，并按降序排列；

最后，为了利用模态内和模态间的相似性表示，我们以权重来结合，权重的计算方法为：

进一步的，查询每个图像对应的前k个文本的方法为：

top_{k_}i2t_sim，top_{k_}i2t_idx＝top_k(p^i2t)；

查询每个文本对应的前k个图像的方法为：

top_k-t2i_sim，top_k-t2i_idx＝top_k(p^t2i)；

进一步的，生成与第i张图像最相似的文本特征为：

同样，图像特征与第i个文本最相似为：

本实施例从图像-文本对中随机掩码15％的单模态文本标记和50％的文本标记。对于图像，本实施例使用块级掩蔽策略掩蔽40％的图像补丁，如图4所示。

实施例二

如图5所示，为本实施例的系统结构示意图，包括：图像编码模块、文本编码模块、训练模块、融合模块和匹配模块；图像编码模块用于将待匹配图像进行多粒度视觉编码，得到编码后图像；文本编码模块用于将待匹配文本进行多粒度视觉编码，得到编码后文本；训练模块基于编码后图像和编码后文本训练编码器，得到初始编码器；融合模块对初始编码器进行深度融合，得到跨模态编码器；匹配模块对跨模态编码器进行训练，得到最终模型，利用最终模型完成图像和文本的匹配。

下面将结合本实施例，详细说明本申请如何解决实际生活中的技术问题。

首先，利用图像编码模块将待匹配图像进行多粒度视觉编码，得到编码后图像。

之后，文本编码模块将待匹配文本进行多粒度视觉编码，得到编码后文本。

每个序列的第一个标记总是一个特殊的分类标记([CLS])。与该标记对应的最终隐藏状态被用作分类任务的聚合序列表示。句子对被打包成一个单一的序列。本实施例中，利用两种方式来区分这些句子：如图3所示。

在上述流程的基础上，训练模块基于编码后图像和编码后文本训练编码器，得到初始编码器(多粒度视觉/文本编码器)。具体训练过程包括：

s(V，T)＝g_v(v_c1s)Tg_w(w_c1s)

同样，文本与视觉的相似性为：

i∈[0，N]。

式中，请老师补充L_c1和E_V，T～D的字符含义

之后，对初始编码器进行训练：

1)匹配训练

确定一对视觉概念和文本是否匹配。对于小批中的每个可视化概念，本实施例按照p v2t(V)对批内硬负文本进行采样。与该概念更相关的文本更有可能被抽样。本实施例还为每个文本采样了一个硬否定的视觉概念。本实施例使用X_c1s，即跨模态编码器的输出[CLS]嵌入，来预测匹配概率p^match，损失为：

其中y^match是一个二维one-hot向量。

2)硬负训练

最后，总体的视觉/文本编码器的训练目标为：

此外，在上述流程的基础上，融合模块对初始编码器进行深度融合，得到跨模态编码器。

最后，训练模块对初始编码器和跨模态编码器进行训练，得到最终模型，利用最终模型完成图像和文本的匹配。

其中，对初始编码器和跨模态编码器进行训练包括：

首先，查询每个图像对应的前k个文本，并按降序排列；

进一步的，查询每个图像对应的前k个文本的方法为：

top_k-i2t_sim，top_k-i2t_idx＝top_k(p^i2t)；

查询每个文本对应的前k个图像的方法为：

top_k-t2i_sim，top_k-t2i_idx＝top_k(p^t2i)；

进一步的，生成与第i张图像最相似的文本特征为：

同样，图像特征与第i个文本最相似为：

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.一种基于深度融合的多粒度图像-文本匹配方法，其特征在于，步骤包括：

将待匹配图像进行多粒度视觉编码，得到编码后图像；

将待匹配文本进行多粒度视觉编码，得到编码后文本；

将初始编码器特征进行深度融合编码，得到跨模态编码器；

2.根据权利要求1所述的基于深度融合的多粒度图像-文本匹配方法，其特征在于，得到所述编码后图像的方法包括：将待匹配图像分割成不重叠的斑块，并线性地嵌入所有的所述斑块，得到若干补丁；将所述补丁传递至预训练的图像编码器，进行多粒度视觉编码；在不同的粒度下创建N+1个的概念表示，得到所述编码后图像。

3.根据权利要求1所述的基于深度融合的多粒度图像-文本匹配方法，其特征在于，进行所述多粒度视觉编码的方法包括：利用特殊标记[CLS]将输入文本中的单个句子和一对句子分开，完成所述多粒度视觉编码。

4.根据权利要求1所述的基于深度融合的多粒度图像-文本匹配方法，其特征在于，得到所述初始编码器的方法包括：设定一对(V，T)，其中，T表示V的肯定的例子，并将其他(N-1)文本视为否定的例子；定义余弦相似度：

5.根据权利要求4所述的基于深度融合的多粒度图像-文本匹配方法，其特征在于，成批处理的视觉文本相似度包括：

文本与视觉的相似性包括：

式中，L_c1为对比损失得分，E_V，T～D表示期望值。

6.根据权利要求1所述的基于深度融合的多粒度图像-文本匹配方法，其特征在于，对所述初始编码器和所述跨模态编码器进行训练包括：

首先，查询每个图像对应的前k个文本，并按降序排列；

其中，top_k_i2t_sim为相似度矩阵中第i个图像对应的最相似的前k个文本的相似度，top_k_i2t_sim_j为top_k_i2t_sim中第i个图像和第j个文本的相似度分数。

7.根据权利要求6所述的基于深度融合的多粒度图像-文本匹配方法，其特征在于，查询每个图像对应的前k个文本的方法为：

top_k_i2t_sim，top_k_i2t_idx＝top_k(p^i2t)

查询每个文本对应的前k个图像的方法为：

top_k_t2i_sim，top_k_t2i_idx＝top_k(p^t2i)。

8.根据权利要求7所述的基于深度融合的多粒度图像-文本匹配方法，其特征在于，生成与第i张图像最相似的文本特征为：

图像特征与第i个文本最相似为：

9.根据权利要求1所述的基于深度融合的多粒度图像-文本匹配方法，其特征在于，所述跨模态编码器主干为多路变压器，每个多路变压器由一个共享的自注意模块和一个用于不同模态的前馈网络池组成；根据输入令牌的方式将每个输入令牌路由给专家，每个层都包含一个视觉专家和一个语言专家；此外，前三层都有为融合编码器设计的视觉-语言专家，使用模态专家鼓励模型捕获特定于模态的信息；利用共享的自我注意模块学习不同模式之间的对齐。

10.一种基于深度融合的多粒度图像-文本匹配系统，其特征在于，包括：图像编码模块、文本编码模块、训练模块、融合模块和匹配模块；