CN115391578A

CN115391578A - 一种跨模态图文检索模型训练方法及系统

Info

Publication number: CN115391578A
Application number: CN202210925063.2A
Authority: CN
Inventors: 孙茳; 王树徽; 赵毅晖; 魏浩
Original assignee: Beijing Qiantu Technology Co ltd
Current assignee: Beijing Qiantu Technology Co ltd
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-11-25
Anticipated expiration: 2042-08-03
Also published as: CN115391578B

Abstract

本发明提供一种用于跨模态图文检索模型的样本生成方法，用于对跨模态图文检索模型的训练集进行处理，其中，所述训练集中包括多个由图像样本和文本样本组成的图像‑文本样本对，相互匹配的图像样本和文本样本互为正样本，相互不匹配的图像样本和文本样本互为负样本，所述方法以训练集中的每个样本为锚点样本，从训练集中获取该锚点样本的正样本和负样本，并将获取的正样本和负样本与锚点样本组成原始三元组，对原始三元组执行如下步骤：S1、根据原始三元组中正样本和负样本的特征，获得其各自对应的激活特征和剩余特征；S2、将正样本的剩余特征和负样本的激活特征组合以生成增强负样本，并用该增强负样本替换原始三元组中的负样本以生成增强三元组。

Description

一种跨模态图文检索模型训练方法及系统

技术领域

本发明涉及多媒体领域，具体来说，涉及多媒体领域中的图文检索技术，更具体地说，涉及一种基于跨模态图文检索模型训练方法及系统。

背景技术

基于机器学习的模型检索是一种常见的检索技术，检索又分为单模态检索和跨模态检索。其中，单模态检索是指在同一模态中的检索，例如以文搜文和以图搜图，在给定查询文本的情况下可以通过检索模型搜索到与之匹配的文本，同理，在给定查询图像的情况下可以通过检索模型搜索到与之匹配的图像。跨模态检索具有代表性的是图文检索，由于飞速增长的多模态数据(文字、语音、图像和视频)对检索系统有了更高的要求，以文搜文和以图搜图的单模态检索已不能满足用户的需求，因此图文检索的研究具有重要的应用价值和研究意义。图文检索是多媒体领域常用的技术，图文检索的目标是衡量图像和文本的视觉语义相似性，是多模态领域一个基础的研究方向。例如，给定一个查询图像，图文检索系统能够检索到相关内容的文本，或者给定一个查询文本，图文检索模型能够检索到相关内容的图像。

众所周知，想要图文检索模型在实际生产中得到广泛使用，必须实现有效的模型训练。训练过程中的样本质量是目前模型训练的主要瓶颈之一，通常样本的质量可以从样本难度和样本多样性两个方面定义。样本难度是指对比学习中负样本在隐式对比空间中与锚点样本的相似程度(例如，如果一个样本是负样本，且其与用于查询的样本的相似度又很大，那么这个样本就是难负样本)，负样本的难度越大，它在训练中能提供的信息越多。为了提高训练中负样本的难度，很多研究中使用了难负样本挖掘的策略，从小批次内选取与锚点样本最相似的负样本作为难负样本参与训练。但是，由于训练过程中，小批次的样本数量限制，从小批次中选择的难负样本质量并不好。样本多样性是指训练中正负样本的多样性，通常可以通过数据增广来实现。然而，现阶段还没有方法来协同地提高样本难度和多样性。因此，对于一个跨模态图文检索系统，如何提高样本难度和多样性，在训练过程中充分利用训练数据的信息训练性能更好的跨模态图文检索模型，是一个亟待解决的问题。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种能够提供样本难度和样本多样性的样本生成方法及基于此的模型训练方法。

根据本发明的第一方面，提供一种用于跨模态图文检索模型的样本生成方法，用于对跨模态图文检索模型的训练集进行处理，其中，所述训练集中包括多个由图像样本和文本样本组成的图像-文本样本对，相互匹配的图像样本和文本样本互为正样本，相互不匹配的图像样本和文本样本互为负样本，所述方法以训练集中的每个样本为锚点样本，从训练集中获取该锚点样本的正样本和负样本，并将获取的正样本和负样本与锚点样本组成原始三元组，对原始三元组执行如下步骤：S1、根据原始三元组中正样本和负样本的特征，获得其各自对应的激活特征和剩余特征；S2、将正样本的剩余特征和负样本的激活特征组合以生成增强负样本，并用该增强负样本替换原始三元组中的负样本以生成增强三元组。

优选的，所述方法还包括：S3、以正样本的剩余特征生成挑战正样本、以负样本的剩余特征生成挑战负样本，并用挑战正样本和挑战负样本替换原始三元组中的正样本和负样本以生成挑战三元组。

在本发明的一些实施例中，所述方法包括：从训练集中获取锚点样本的正样本和最难负样本，并将获取的正样本和最难负样本与锚点样本组成原始三元组。其中，所述锚点样本的最难负样本是训练集中与该锚点样本的余弦相似度最高的负样本。

优选的，在步骤S1中:当锚点样本为文本样本时，采用预训练的图像特征提取网络分别提取其对应正样本和负样本的文本特征，并分别根据正样本和负样本的文本特征获得各自对应的激活特征和剩余特征；当锚点样本为图像样本时，采用预训练的文本特征提取网络分别提取其对应正样本和负样本的激活特征和剩余特征。优选的，所述预训练的图像特征提取网络为Faster R-CNN。优选的，所述预训练的文本特征提取网络为BERT。

在本发明的一些实施例中，通过计算样本特征的梯度，将梯度模长大于预设阈值的特征划分为激活特征，将梯度模长小于或等于预设阈值的特征为剩余特征。

根据本发明的第二方面，提供一种跨模态图文检索模型训练方法，所述方法包括：T1、获取原始数据集，所述原始数据集中包括多个由图像样本和文本样本组成的图像-文本样本对；T2、将数据集按照预设批次的大小划分为多个批次，依次以一个批次的图像-文本样本对为训练集对跨模态图文检索模型进行多轮迭代训练直至收敛，其中，每轮训练时，采用如本发明第一方面所述的方法对训练集中的样本进行处理，以所有样本对应的增强三元组和/或挑战三元组组成的集合训练跨模态图文检索模型。

优选的，所述预设的批次大小为128,且每次从原始数据集中随机采样128个图像-文本样本对获得一个批次的图像-文本样本对。

优选的，所述三元组损失为：

l_total＝l_SE+L_SC

其中，L_SE表示增强三元组对应的三元组损失，L_SC表示挑战三元组对应的三元组损失；

其中，D表示原始数据集，(x,t)表示原始数据集中的图像-文本样本对，t_syn表示图像样本x对应的增强负样本，x_syn表示文本样本t对应的增强负样本。

其中，D表示原始数据集，(x,t)表示原始数据集中的图像-文本样本对，t′_pos表示图像样本x对应的挑战正样本，t′_neg表示图像样本x对应的挑战负样本，x′_pos表示文本样本t对应的挑战正样本，x′_neg表示文本样本t对应的挑战负样本。

根据本发明的第三方面，提供一种跨模态图文检索系统，所述系统包括采用如本发明第二方面所述的方法进行训练获得的跨模态图文检索模型。

与现有技术相比，本发明的优点在于：本发明中的训练方法不需要额外的训练参数，适用于已有的跨模态图文检索模型，可以将本发明的训练方法应用在已有的图文检索模型中帮助其获得更好的检索性能。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为现有技术下的图文检索系统基本原理示意图；

图2为图像目标检测的原理示意图；

图3为根据本发明实施例的图文检索模型原理示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如背景技术所述的，现有技术下的跨模态图文检索模型的训练瓶颈主要在于样本质量，样本质量又涉及到样本难度和样本多样性两个方向，对于此，本发明提出一种同时通过自我增强的策略来解决样本难度不足、以及通过自我挑战的策略来解决样本多样性不足的方案。

为了更好的理解本发明，首先介绍一下现有技术下跨模态图文检索模型的训练过程。图文检索模型的基本结构如图1所示，现有技术下，采用给定数据集(用D表示)对图文检索模型进行训练，其中，给定数据集

中包括相互匹配的图像样本(x_i∈X，X是检索用图像数据集)和文本样本(t_i∈T，T是检索用文本数据集)。训练过程中，对于每张图像，使用图像特征提取网络(图像特征提取网络一般采用目标检测网络，例如预训练的目标检测网络Faster R-CNN、Fast R-CNN、R-CNN等)提取一系列关注区域的特征

对于每个文本，采用预训练的文本特征提取网络(例如BERT、RoBERT等)提取文本特征。如图2所示，对于一张图像，目标检测网络首先找到常见的物体、属性等图像块(在图中用方框框出)，图像中意义不大的区域被忽略，其中

是该图像中第n个区域的特征，

是该图像所有关注区域的特征集合，通常情况下，每个图像均有36个关注区域即N＝36；对于每个文本，被编码为一串单词的嵌入

其中ψ_m是第m个单词的嵌入，M是该文本中的单词总数。图像的区域特征和文本的单词嵌入分别被聚合函数f_v(·)和f_t(·)聚合得到图像和文本对应的整体特征向量(图1中分别对应图像特征和文本特征)

最后，对图像和文本进行相似度度量(可以用余弦距离、欧几里得距离等进行度量)。根据本发明的一个实施例，采用余弦距离进行计算，其中，图像和文本的相似度可使用余弦相似度表示为：

跨模态图文检索任务通常使用度量学习的方法进行训练，简单的说就是以正样本的相似度越大负样本的相似度越小为优化目标进行训练，最常用的损失函数为三元组损失，即以三元组为基本单位的输入对模型进行训练:

其中，γ是一个超参数，并且[a]₊≡max(0,a)，表示一个取参数a与0之间的较大值的函数，后续实施例中涉及的[a]₊形式的函数也是同样的函数，将不再赘述。(x,t)是一个图像文本的正样本对，

和

均是负样本对，通常

和

是在小批次中采样得到，对应的三元组为

或

其中

表示以图像样本为锚点样本，获取其对应的正样本文本和负样本文本组成的三元组，同理，

表示以文本样本为锚点样本，获取其对应的正样本图像和负样本图像组成的三元组。在跨模态图文检索中，相互匹配的图像样本和文本样本互相为正样本，与图像样本不匹配的文本样本为图像的负样本，与文本样本不匹配的图像样本为文本的负样本。现有技术下，三元组中的负样本是在每个批次中采样得到的。其中，需要说明的是，由于数据集规模很大，在训练过程中无法一次性的将所有数据输入到模型中进行训练，因此，在模型训练过程中多采用分批次训练的方式。每一个批次的数据均是从原始数据集中按照批的规模随机采样获得的，一个批次的数据训练完模型后就丢弃，再次从原始数据集中进行采样进行下一次的训练。在图文检索模型训练过程中，三元组的负样本从批次对应的数据中进行采样，在一个批次中，针对每一个匹配的图像-文本样本对，其相互为正样本，批次中剩余的文本样本为该图像样本的负样本，同理，批次中剩余的图像样本为该文本的负样本。由于批次是小批次，无法保证样本难度和样本多样性，即使是在批次中采样相对最难的负样本(即在每个批次中，采样锚点样本对应的负样本中与锚点样本最相似的负样本)，也不能保证该负样本是好的难负样本。此外，现有技术下训练过程中，没有考虑样本多样性问题，使得训练出来的图文检索模型效果不好，无法突破瓶颈。

针对现有技术下的问题，本发明提出一种在训练过程中，针对每一个批次采用生成样本的方式来解决难负样本质量不佳、样本多样性不足的问题。发明人在研究中发现，模型对输入特征的关注程度可以由反转的梯度大小反应。例如，以文本检索图片为例(即锚点样本为文本样本)，当损失函数使用三元组损失时，文本样本对应的正负样本的梯度分别为：

其中，grad表示求梯度的函数即对特征向量求梯度，φ_n表示正样本的特征向量，grad(φ_n,f_v)表示正样本的梯度，

表示负样本的特征向量，

表示负样本的梯度，

表示求梯度的符号，L是损失函数，L_t→i表示以文本样本t为锚点样本的第i个特征的损失。

使用一个预先设置好的阈值∈，根据梯度模长(根据前面的实施例可知每个特征的梯度是一个向量，梯度的模长就是梯度向量的模长，求向量的模式是本领域技术人员已知的技术，本发明不做赘述)的大小，可以按照如下方式将一个图像样本的多个特征分为激活特征A和剩余特征R：

梯度模长大于阈值，说明模型很关注这个特征，那么就是激活特征；相反，如果小于阈值，说明模型倾向于忽略这个特征，那么就是剩余特征。

对于一个以文本样本为锚点样本的三元组，可以获得该文本样本对应的正样本的激活特征A_pos和剩余特征R_pos、负样本对应的激活特征A_neg和剩余特征R_neg；同理，以图像样本为锚点样本的三元组中正样本和负样本分别对应的激活特征和剩余特征，此处不再展开赘述。

为了提高训练过程中负样本的难度，本发明提出采用自我增强的策略生成难负样本。具体来说，样本中被模型关注的特征(激活特征)近似决定了样本是正样本和负样本，本发明的自我增强策略是将负样本中的激活特征与正样本中的剩余特征组合以生成新的样本，基于该自我增强策略以文本样本为锚点样本获得的生成样本为：

x_syn＝R_pos∪A_neg

其中，R_pos表示以文本样本为锚点样本的正样本的剩余特征，A_neg表示以文本样本为锚点样本的负样本对应的激活特征，x_syn表以文本样本为锚点样本的增强负样本。

同理，可得以图像样本为锚点样本并基于自我增强策略获得的生成样本，以t_syn表示：

t_syn＝R‘_pos∪A‘_neg

其中，R‘_pos表示以图像样本为锚点样本的正样本的剩余特征，A‘_neg表示以图像样本为锚点样本的负样本对应的激活特征。

由于生成的样本中包含负样本的激活特征，所以仍可被认为是一个负样本，同时，该生成样本中包含了正样本的剩余特征，使得该生成样本和原本采样的负样本相比，整体特征与锚点样本更加相近，也就是说生成样本比原来的负样本更难。为了方便描述，本实施例中将基于自我增强策略获得的生成样本称为增强负样本，并将增强负样本替换其对应原始负样本所在的三元组以获得新的三元组用于训练模型，并采用三元组损失作为优化目标：

另外，由于检索模型在训练过程中往往会专注于主导的一些特征，最终陷入局部极小值，这会导致模型在推理阶段只关注少量显著的语义关联信息，而忽视其他隐含的关联。为了避免这个问题，让模型捕获更多样的语义关联信息可以避免陷入局部最小值，提高模型性能，根据本发明的一个实施例，提出自我挑战的策略，即将正负样本中的激活特征丢弃，以剩余特征生成样本。基于上述自我挑战策略以文本样本为锚点样本获得的生成样本为：

x′_pos＝R_pos

x′_neg＝R_neg

其中，x′_pos表示以文本样本为锚点样本时基于正样本的剩余特征生成的样本，R_pos表示以文本样本为锚点样本时正样本的剩余特征，x′_neg表示以文本样本为锚点样本时基于负样本的剩余特征生成的样本，R_neg表示以文本样本为锚点样本时负样本的剩余特征。

同理，基于自我挑战策略可得到以图像样本为锚点样本的生成样本，分别以t_p′_os和t′_neg表示：

t_p′_os＝R‘_pos

t′_neg＝R‘_neg

其中，t_p′_os表示以图像样本为锚点样本时基于正样本的剩余特征生成的样本，R‘_pos表示以图像样本为锚点样本时正样本的剩余特征，t′_neg表示以图像样本为锚点样本时基于负样本的剩余特征生成的样本，R‘_neg表示以图像样本为锚点样本时负样本的剩余特征。

自我挑战策略丢弃正负样本中的激活特征获得新的生成样本，为了方便描述，本实施例中将基于自我挑战策略获得的生成样本分别称为挑战正样本和挑战负样本，并用挑战正样本和挑战负样本替换对应原始正、负样本所在的三元组以获得新的三元组用于训练模型。通过丢弃正负样本中的激活特征，模型被迫挖掘除了主导特征以外的其他特征，从而发现之前被忽略的关联信息。通过自我挑战，训练得到的模型依赖更加全面的关联来计算相似度，从而得到更加准确、鲁棒的检索结果。与自我增强策略一样，自我挑战策略也使用三元组损失的形式作为优化目标：

在图文检索模型整体训练过程中，使用自适应估计(Adam)进行优化，总的损失函数为：

l_total＝l_SE+L_SC

综上所述，如图3所示，本发明的基于自我增强和自我挑战策略生成样本的方式训练图文检索模型的方案可总结为针对每一个批次的数据，采用如下方式对图文检索模型进行训练：

以当前批次中的每个文本样本或图像文本为锚点样本，并将该锚点样本与其对应的正样本以及当前批次中的最难负样本组成该锚点样本对应的原始三元组：

基于梯度指导的特征选择，分别获取每个三元组中正样本和负样本的激活特征和剩余特征，基于自我增强的策略，将正样本的剩余特征和负样本的激活特征组合以生成增强负样本并用该增强负样本替换当前锚点样本对应的原始三元组中的负样本组成当前锚点样本对应的增强三元组；以及基于自我挑战的策略，正样本的剩余特征组成挑战正样本、负样本的剩余特征组成挑战负样本，并用挑战正样本、挑战负样本替换当前锚点样本对应的原始三元组中的正样本和负样本组成当前锚点样本对应的挑战三元组；

以所有样本对应的增强三元组和挑战三元组组成的集合训练跨模态图文检索模型，并采用三元组损失更新模型参数。本发明中的训练方法不需要额外的训练参数，适用于已有的跨模态图文检索模型，可以将本发明的训练方法应用在已有的图文检索模型中帮助其获得更好的检索性能。

为了验证本发明的效果，发明人在MSCOCO dataset数据集和Flickr30K dataset数据集上，将本发明的方法生成的样本应用于现有的图文检索系统VSE++、VSRN、VSE∞的训练中，并将得到的检索模型与这些系统未应用本发明方法之前的性能进行对比，采用RSUM指标来衡量性能，其中RSUM是R@K(top-k召回率)的总和，验结果如表1所示：

表1

从表1可以看出，应用了本发明之后的图文检索模型，性能明显获得提升。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于跨模态图文检索模型的样本生成方法，用于对跨模态图文检索模型的训练集进行处理，其中，所述训练集中包括多个由图像样本和文本样本组成的图像-文本样本对，相互匹配的图像样本和文本样本互为正样本，相互不匹配的图像样本和文本样本互为负样本，其特征在于，所述方法以训练集中的每个样本为锚点样本，从训练集中获取该锚点样本的正样本和负样本，并将获取的正样本和负样本与锚点样本组成原始三元组，对原始三元组执行如下步骤：

S1、根据原始三元组中正样本和负样本的特征，获得其各自对应的激活特征和剩余特征；

S2、将正样本的剩余特征和负样本的激活特征组合以生成增强负样本，并用该增强负样本替换原始三元组中的负样本以生成增强三元组。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

S3、以正样本的剩余特征生成挑战正样本、以负样本的剩余特征生成挑战负样本，并用挑战正样本和挑战负样本替换原始三元组中的正样本和负样本以生成挑战三元组。

3.根据权利要求1所述的方法，其特征在于，所述方法包括：从训练集中获取锚点样本的正样本和最难负样本，并将获取的正样本和最难负样本与锚点样本组成原始三元组。

4.根据权利要求3所述的方法，其特征在于，所述锚点样本的最难负样本是训练集中与该锚点样本的余弦相似度最高的负样本。

5.根据权利要求1所述的方法，其特征在于，在步骤S1中:

当锚点样本为文本样本时，采用预训练的图像特征提取网络分别提取其对应正样本和负样本的文本特征，并分别根据正样本和负样本的文本特征获得各自对应的激活特征和剩余特征；

当锚点样本为图像样本时，采用预训练的文本特征提取网络分别提取其对应正样本和负样本的激活特征和剩余特征。

6.根据权利要求5所述的方法，其特征在于，所述预训练的图像特征提取网络为FasterR-CNN。

7.根据权利要求5所述的方法，其特征在于，所述预训练的文本特征提取网络为BERT。

8.根据权利要求1所述的方法，其特征在于：

通过计算样本特征的梯度，将梯度模长大于预设阈值的特征划分为激活特征，将梯度模长小于或等于预设阈值的特征为剩余特征。

9.一种跨模态图文检索模型训练方法，其特征在于，所述方法包括：

T1、获取原始数据集，所述原始数据集中包括多个由图像样本和文本样本组成的图像-文本样本对；

T2、将数据集按照预设批次的大小划分为多个批次，依次以一个批次的图像-文本样本对为训练集对跨模态图文检索模型进行多轮迭代训练直至收敛，其中，每轮训练时，采用如权利要求1-8任一所述的方法对训练集中的样本进行处理，以所有样本对应的增强三元组和/或挑战三元组组成的集合训练跨模态图文检索模型。

10.根据权利要求9所述的方法，其特征在于，所述预设的批次大小为128,且每次从原始数据集中随机采样128个图像-文本样本对获得一个批次的图像-文本样本对。

11.根据权利要求9所述的方法，其特征在于，所述三元组损失为：

L_total＝L_SE+L_SC

12.一种跨模态图文检索系统，其特征在于，所述系统包括采用如权利要求9-11任一项所述的方法进行训练获得的跨模态图文检索模型。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序可被处理器执行以实现权利要求1-8、9-11任一所述方法的步骤。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1-8、9-11中任一项所述方法的步骤。