CN115221347A

CN115221347A - 图像文本检索模型的建模方法

Info

Publication number: CN115221347A
Application number: CN202210660120.9A
Authority: CN
Inventors: 魏忠钰; 范智昊
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2022-10-21

Abstract

本申请实施例提供了一种图像文本检索模型的建模方法，包括以下步骤：基于掩码语言模型(MLM)生成合成负样本句；使用检索到的负样本和合成负样本句来训练图像文本配对(IRTM、ISTM)；通过单词辨别任务WoC和单词校正任务WoD来对合成负样本与正样本句的区别进行训练。本申请实施例提出了一种基于生成负样本句的方法来构建负样本，以提高图文检索模型的训练效率。为了充分利用合成负样本句，本申请还提出了两个训练任务，单词辨别任务和单词校正任务，以结合细粒度的监督信号来增强多模态局部对应建模。本申请实施例构建出的模型在两个公共数据集MS‑COCO和Flickr30K上均达到了最先进的性能。

Description

图像文本检索模型的建模方法

技术领域

本申请涉及图像处理技术领域，特别涉及一种图像文本检索模型的建模方法。

背景技术

配对模型对于图像文本检索框架至关重要。现有的研究通常使用三元组损失来训练模型，并探索各种策略来检索数据库中高难度的负样本句。

具体的，图文检索任务将查询图像(句子)作为输入，并从候选池中找出匹配的句子(图像)。图像文本检索模型的关键组成部分是图像句子对的相似度计算，其目的是相较于负对给为正对赋予更高的分数。

三元组损失被广泛应用于训练。以图像到文本(image-to-text)为例，它使用一个图像和两个句子(一个相关，另一个不相关)构造两个图像句子对，优化过程增加了正对的相似度，同时降低了负对的相似度。

先前的研究(Xuan等人，2020年)表明，使用更难的负样本(即更难区分的句子)训练的模型通常可以获得更好的性能。在这项工作中，研究人员探索了各种策略来搜索查询图像中不匹配的句子，从随机选择不匹配的句子到使用最相似的句子。

搜索范围从单个训练批次(Karpathy和Fei-Fei，2015；Faghri等，2018；Kiros等，2014；Socher等，2014；Lee等，2018；Li等。,2019)到整个数据集(Chen et al.,2020a；Zhanget al.,2020)。尽管通过在更大的范围内搜索更难的负样本已经得到了有希望的结果，但有效性受到数据库规模的限制。

为了比较这些策略的有效性，本发明人在Flickr30K(Plummer et al.,2015)中随机抽取3,000张图像并绘制图1中构建的训练三元组。每个点代表一个三元组(图像、正样本句、负样本句)，X轴是正图像句子对的匹配分数，而Y轴是负图像句子对的匹配分数。

一般来说，位于虚线左侧的三元组更难区分，因为负样本对的匹配分数高于或接近于正样本对。可以看到，在批次中通过检索得到的最难的不匹配的样本的三元组大部分位于虚线的右侧，并且负样本对的匹配分数要小得多，相较于实线右侧的平均差距大于0.05。

为了更好地理解，本发明人在图2中展示了两个三元组，即(P1,N1)和(P2,N2)(表示为黑色十字)。这表明负样本句N1和N2描述的场景与查询图像相比具有显着差异，因此它们很容易区分。

鉴于大部分图像在数据集中获得了这些低质量的负例句子，本发明人认为有必要超越检索的方法来获取负样本。

发明内容

本申请实施例提供了一种图像文本检索模型的建模方法，其用于解决上述问题中的至少一种。

本申请实施例提供了一种图像文本检索模型的建模方法，包括以下步骤：

基于掩码语言模型(MLM)生成合成负样本句；

使用检索到的负样本和合成负样本句来训练图像文本配对(IRTM、ISTM)；

通过单词辨别任务WoC和单词校正任务WoD来针对合成负样本与正样本句的区别进行训练。

优选地，其中掩码语言模型、图像文本配对、单词辨别任务和单词校正任务具有不同的输出头，并且具有相同的主干。

优选地，包括以下步骤：基于掩码语言模型、图像文本配对、单词辨别任务和单词校正任务对所述图像文本检索模型进行整体训练。

优选地，步骤“基于掩码语言模型(MLM)生成合成负样本句”包括：

将与查询图像相关的句子作为输入；

识别句子中的关键语义单元，并用其他词替换关键语义单元。

优选地，步骤“识别句子中的关键语义单元，并用其他词替换关键语义单元”包括：

采用场景图解析器构建场景图；

根据场景图选取关键语义单元作为掩码的候选者，其中所述关键语义单元包括对象、关系和属性；

从掩码的候选者中随机屏蔽与句子的单词呈预设比例数量的单词；

根据查询图像使用替换词对被屏蔽的单词进行替换。

优选地，还包括以下步骤：若合成负样本句中的所有替换词完全包含在查询图像的注释句中，则过滤掉合成负样本句。

优选地，步骤“使用检索到的负样本和合成负样本句来训练图像文本配对(IRTM、ISTM)”包括：

对于每个正图像文本对，检索一个负样本图像和一个负样本句子进行训练。

在生成的所述合成负样本句中根据分数选取一定数量的合成负样本句；

根据被选取到的合成负样本句进行训练。

优选地，所述单词辨别任务确定合成负样本句的每个单词是否与查询图像匹配。

优选地，所述单词校正任务基于词性知识和局部跨模态对齐来将合成负样本句中与查询图像不匹配的单词进行填补。

本申请实施例提出了一种基于生成负样本句的方法来构建负样本，以提高图文检索模型的训练效率。为了充分利用合成负样本句，本申请还提出了两个训练任务，单词辨别任务和单词校正任务，以结合细粒度的监督来增强多模态局部对应建模。本申请实施例构建出的模型在两个公共数据集MS-COCO和Flickr30K上均产生了最先进的性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1绘制了一个三元组(图像、正句、负句)，因为一个点是通过X轴上正句的匹配分数和Y轴上负句的匹配分数来定义的。匹配分数由CLIP(ViT-B/32)(Radford et al.,2021)计算。

图2为两张带有正句(P)的图像，通过CLIP从数据集中检索到的最难的负样本句(N)和生成的负样本句(G)。匹配分数是由CLIP计算出的余弦相似度，越大越好。带下划线的文字是与图像不匹配的文字。

图3示出了带有辨别和校正功能的负样本句生成模型(TAiloringneGativeSentences,TAGS)的总体框架。

图4示出了在训练期间分别由动态和静态生成器生成的三元组的值分布。其中，X轴是训练步骤。

图5示出了TAGS-DC的示例。第二列是句子类型，包括肯定句类型、合成句类型和修正句类型。第三列是第二列对应的句子。第四列和第五列分别是第三列句子的UNITER(U)和TAGS-DC(T)分数。合成句子中的单词颜色从深到浅意味着单词不匹配分数的增加。带下划线的单词表示生成的单词与原始单词不同。

图6示出了图文检索的整体性能。其中，B和L是基础设置和大型设置。

图7示出了不同模块的有效性。带有WM的TAGS意味着用TAGS中的字掩码替换基于场景图的掩码。TAGS w/SG表示用TAGS中的静态生成器替换动态生成器。

图8示出了句子困惑度的对比。

图9示出了TAGS1和UNITER在区分TAGS1、TAGS2和VSE-C构建的负样本句中的准确性。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本发明人不是在数据库中搜索原始句子，而是探索通过编辑正样本句来构建人工负样本。本发明人在图1中展示了两个生成的句子，G1在P1上将“man”替换为“woman”，G2在P2上将“area”替换为“beach”。生成的句子获得与正面句子相当甚至更高的匹配分数。本发明人进一步为所有图像生成人工负样本句以形成一组新的三元组。这些三元组在图1中绘制为粉色圆点。本发明人可以看到它们都位于虚线的左侧，这意味着它们更难以区分。

换言之，在图2中展示了两个生成的句子，G1在P1上将“man”替换为“woman”，G2在P2上将“area”替换为“beach”。生成的句子获得与正面句子相当甚至更高的匹配分数。我们进一步为所有图像生成人工负样本句以形成一组新的三元组。这些三元组在图1中绘制为粉色圆点。我们可以看到它们都位于虚线的左侧，这意味着它们更难以区分。

在本申请中，我们提出了带有辨别和校正功能的负样本句生成模型(TAiloringneGative Sentences,TAGS)，通过重写与查询图像匹配的正句中的关键字来自动构建负样本。具体来说，我们采用了带有掩码机制和回填机制的掩码语言模型(MLM)来自动生成合成句子作为负样本。

在掩码机制中，我们为查询图像中的正样本句和掩码元素(对象、属性和关系)构建场景图。通过用不匹配的词来回填被掩码的原始词汇，来构建负样本。在训练过程中，我们进一步提出了两个词级任务，单词辨别任务和单词校正任务，将细粒度监管纳入考量。单词辨别任务需要模型区分哪些单词导致了不匹配，而单词校正任务则需要对原始单词进行再生。

这两项任务都评估了模型识别合成句子和正样本句之间细微差异的能力。在推理过程中，两个任务的输出可以通过突出显示和修改不匹配的单词来提供细粒度的信息，这些可以作为对模型做出决策的解释，以提高可解释性。我们在MS-COCO(Linet al.,2014)和Flickr30K(Plummer et al.,2015)上评估我们的模型。实验结果表明了我们模型的有效性。

具体如下，带有辨别和校正功能的负样本句生成模型(TAiloringneGativeSentences,TAGS)的总体框架如图3所示。

首先，对于任一个正图像文本对(I_i，T_i)，通过对T_i进行基于场景图的掩码和基于掩码语言模型的回填来生成合成负样本句

句子编辑模块将与查询图像相关的句子作为输入，输出合成负样本句。首先识别句子中的一些关键语义单元，并用其他词替换它们。在这个过程中，采用了掩码语言模型(MLM)，具体可以分为两个步骤，即掩码和回填。

为了识别句子的关键语义，我们通过按照SGAE(Yang et al.,2019)的SPICE(Anderson et al.,2016)的场景图解析器为相关句子构建场景图。然后我们收集对象、关系和属性作为掩码的候选者。为了控制合成样本句

的语义偏移，我们随机屏蔽15％的句子单词。

在回填的步骤中，我们使用输出头G_MLM，它是一个两层前馈网络(FFN)，位于主干M_θ的顶部，用于掩码语言模型。因此，图像I_i也参与了MLM以指导之后的回填。

的详细计算如式(1)所示，其中ο是函数组合，NLL是负对数似然的损失。

然后在回填过程中，我们将

放入MLM以产生洛基分数，然后按照源自温度τ的洛基分布对合成句

进行采样，如方程式(2)。

其中，对K和L次进行掩蔽和回填步骤以生成候选合成句子。

假阴性样本损害了使用与查询图像相关的句子作为负样本的训练(Chuang etal.,2020；Huynh et al.,2020)。因此，本申请提出了一种过滤过程来去除合成句子中的假阴性。在视觉和语言数据集中，每个图像都用多个描述性句子进行注释。例如，MSCOCO和Flickr30K中有五个。对于合成负样本句，如果其替换词完全包含在这些标注的描述性句子中，我们会将其视假阴样本。基于此，我们将这些相关的合成句子过滤掉。

使用检索到的负样本和合成的负样本句来训练图像文本配对(ITM,Image TextMatching；包括IRTM和ISTM)，其中合成的负样本句在句子级别被利用。

具体的，对于给定一个图像I_i和句子T_j，检索模型就(I_i，T_i)分配分数s∈[0，1]，如方程式(3)。检索模型具有输出头部H_ITM，H_ITM为一个单层FFN。

ITM:H_ITMοM_θ(I_i,T_j)→s (3)

三元组损失(TripL)广泛应用于图像文本配对。通过超参数α，它将查询图像(文本)U作为匹配(正)图像文本对(U，V)与不匹配(负)图像文本对(U，W)的锚点，如下式4：

步骤“使用检索到的负样本和合成负样本句来训练图像文本配对(IRTM、ISTM)”包括在检索到的案例上进行配对和在合成负样本句上进行配对。

其中，在检索到的案例上进行配对包括在训练过程中，对于每个正图像文本对(I_i，T_i)，我们检索一个负样本图像I_i和一个负样本句池

然后使用方程式(5)中的ITM损失进行训练。

在合成负样本句上进行配对包括挑选出生成相对较好的负样本句。在实践中，我们将每个合成负样本句和I_i之间的匹配分数计算为方程式(6)，并保留合成负样本句池

以使它们中的每一个尽可能地困难。

其中，argmax-m是挑选出m个获得前m个匹配分数的句子。

其次，利用方程式式(6)中的合成负样本句

利用合成负样本句

和正样本句T_i来计算三元组损失，得到方程式(7)中的

MLM的初始选择是保持预训练的静态：进一步预训练MLM，并在ITM训练期间固定其参数。回想一下，

鼓励ITM模型学习合成句的模式并使它们远离图像，我们认为随着训练的进行，由静态MLM生成的负样本句对于ITM模型将不再困难。本申请提出使用与ITM共享M_θ的动态MLM来相互改进。通过分享，MLM不断地学习与正样本句更相关的内容，并产生具有挑战性的负样本句以改进ITM。更强的ITM有助于MLM更好地识别图像和关键字的语义对齐。MLM通过交互实现与ITM同步改进。

显然，

仅提供句子级别的监督，因此它没有充分利用合成负样本句。本申请可以引入了两个辅助任务来利用词级差异并进一步增强多模态局部对应建模中的模型能力。这两个辅助任务分别为单词辨别任务WoC和单词校正任务WoD。

单词辨别任务是确定合成负样本句

每个单词是否与图像I_i匹配，我们将

的替换单词视为不匹配的单词，将其他单词视为匹配的单词。

目标标签G_t是根据如果s_i，j＝s_t，j，则G_t，j＝1，其余的为0确定的，其中s_i，j和s_t，j是T_i和

的第j个单词。可以设置了一个新的输出头H_WoD，单词辨别任务的目标如方程式(8)。

单词校正任务是纠正

中这些不匹配的单词，如方程式(9)。单词校正任务不仅需要模型全面理解合成负样本句与原始肯定句之间的差距，还需要词性知识和局部跨模态对齐来填补这一空白。H_WoC是单词校正的输出头，单词校正任务的目标如方程式(9)所示。

该模型的整体训练损失有五个组成部分，如方程式(10)，其中，λ_IRTM，λ_MLM，λ_ISTM，λ_WoD和λ_WoC为超参数。

在推理过程中，我们使用ITM来确定查询图像(文本)和候选文本(图像)的匹配分数，如方程式(3)。

综上，MLM、IRTM、ISTM、WoC和WoD共享相同的主干M_θ，并具有他们各自独立的起始段，即H_MLM、H_ITM、H_WoC和H_WoD。

具体的，本模型包括基础设置和大设置。基础设置有12层、768个隐藏大小和12个注意力头。而大设置有24层、1024个隐藏大小和16个注意力头。本模型利用网格搜索来确定超参数。在基于检索的匹配中，我们从整个数据集中随机抽取399个负样本句(图像)作为查询图像(句子)，并根据匹配分数从中挑选出前31个负样本句(图像)。在掩码语言建模中，我们利用SPICE中的场景图解析器从正样本句中提取对象、关系和属性的短语，并将这些短语作为一个整体进行采样和掩码。掩码概率为0.15。在生成增强匹配中，温度τ∈{1.0,1.5}，我们设置K＝L＝20和|T-i|＝31/23用于基础设置和扩展设置。λ_ITM、λ_MLM、λ_ISTM、λ_WoD和λ_WoC从{1.0}、{5e-2,1e-1}、{1e-4,5e-4,1e-3}、{5e-4,1e-3}和{5e-4,1e-3}，我们设置λ_WoD＝λ_WoC。

我们的训练由两个步骤组成，(1)我们使用ITM、MLM和ISTM训练，作为NSG有5,000步；(2)我们进一步训练整个损失函数为NSGDC的模型，步数为1,500。学习率lr从{5e-5,4e-5,1e-5}中采样。我们使用具有10％预热比例的线性学习率调度器。β₁＝0.9和β₂＝0.98的Adam作为优化器，丢失率为0.1。我们的代码是用pytorch实现的。对于Flickr30K中的基础设置，我们使用8个V100进行训练，计算时间约为8小时。

本发明人在MS-COCO(Linetal.,2014)和Flickr30K(Plummeretal.,2015)上评估本申请中的模型。在MS-COCO中，每张图像都附有5个人工注释的标题。将数据集分为以下(Karpathy和Fei-Fei，2015)，分别在训练集中有113,287张图像，在验证集和测试集中分别有5,000张图像。Flickr30K(Plummeretal.,2015)由从Flickr网站收集的31000张图片组成，每张图片包含5个文本描述。采用与(KarpathyandFei-Fei,2015)中相同的拆分方法，其中1000张图像用于验证，1000张图像用于测试，其余500用于训练。

本发明人将本申请中的模型与一些竞争方法进行比较，包括MMCA(Weietal.,2020)和AOQ(Chenetal.,2020a)。本发明人还与基于视觉语言预训练模型的方法进行了比较：UNITER+DG(Zhangetal.,2020),Unicoder-VL(Lietal.,2020),LightningDOT(Sunetal.,2021),UNITER(Chenetal.,2021al.,2020b)、CLIP(Radfordetal.,2021)和ERNIE-ViL(Yuetal.,2020)。

本发明人采用预训练的UNITER(Chen et al.,2020b)以基础(B)和大(L)设置作为本申请的主干。

报告K(R@K)和Rsum的召回率。R@K是在离查询最近的K点中检索到正确项目的查询的分数。Rsum是图像到文本和文本到图像中R@1+R@5+R@10的总和。

总体结果如图6所示。TAGS是使用动态训练策略使用生成的负样本训练的模型。TAGS-DC是我们建立在TAGS之上的模型，使用两个辅助任务进一步训练。在基础设置中，我们的模型在Flickr30K上的文本到图像中除R@1和R@5之外的所有指标都达到了最佳性能。在大型设置中，我们的模型在所有指标上也优于其他模型，除了R@5MS-COCOtext-to-image和Flickr30Kimage-to-imageR@10。与UNITER(L)相比，我们的模型在MS-COCO和Flickr30K中实现了4.0和6.4总分的改进。

为了进一步证明了Flickr30K中不同模块的有效性，即基于场景图的掩蔽(表示为PM)、动态句子生成(表示为DG)和细粒度训练任务(表示为WoD和WoC)。原始TAGS与PM和DG一起训练。TAGS-DC通过WoD和WoC进一步训练。

将基于场景图的掩码机制替换为基于单词的掩码(表示为WM)，以形成带有WM的TAGS。详细结果如图7所示。WM沿用UNITER(Chenetal.,2020b)的原始抽样方法，随机抽取15％的单词进行掩码。TAGS在所有指标上都优于TAGSw/WM，这验证了PM的有效性。

本发明人还用静态句子生成器(表示为SG)替换动态句子生成器(DG)以形成带有SG的TAGS。TAGS和TAGSw/SG的区别在于前者共享ITM和MLM的参数，而后者不共享。它们都使用预训练的UNITER-base进行初始化，并共享相同的超参数。具体来说，我们设置λ_MLM＝0.1和λ_ISTM＝0.001。静态生成器固定为微调的UNITER+MLM模型。TAGSw/SG的性能不如TAGS。这证明了DG的有效性。

为了了解各种生成策略构建负样本的难度，我们绘制了样本的值分布。为了评估难度，我们计算了正对ITM(I_i，T_i)和负对

之间的相似性差距。我们绘制了关于训练步骤(X轴)的负对减去正对的值。一般来说，更高的价值意味着更高的难度。结果如图4所示，颜色越深意味着样本越多。TAGS w/SG(图4(a))的总体值高于TAGS w/DG(图4(b))。这意味着静态生成器在训练期间无法为ITM提供接近图像的负样本句，而我们的动态生成策略生成器是有效的。

可以利用预训练的语言模型GPT-2(Radford et al.,2019)来计算合成负样本句的困惑度，以衡量其流畅度。使用Flickr30K测试集中的正句作为原始句子，并通过TAGS和VSE-C生成负样本。此外，会查看更正后的句子。总体结果如图8所示。与VSE-C生成的句子相比，我们的合成句子的困惑度要小得多。修正后，可以提高合成句子的流畅度。

我们进行人工评估，以查看生成的所有负样本句是否都是真负样本句。我们随机抽取200个由TAGS生成的句子，并要求两个注释器确定合成句子是否与相应的图像不匹配。结果表明，生成的合成句子中有96.5％是真负样本句。

将探索生成器是否可以将肯定句与合成句区分开来。可以比较UNITER和TAGS。对于一对句子(一个是正面的，另一个是合成的负面句子)，生成器应该为正面句子分配更高的分数。可以使用两个负样本句生成器TAGS和VSE-C(Shi et al.,2018)。具有不同种子的两个版本的TAGS用于交叉验证。结果如图9所示。我们有以下几个发现。(1)TAGS2使用与TAGS1不同的种子进行训练，但TAGS1的性能在区分它们生成的句子方面几乎没有区别。(2)虽然VSE-C的合成句子是人工构建的，但TAGS的性能也优于UNITER约9％。(3)三个生成器产生分布不同的负样本句，但TAGS始终优于UNITER。这些事实验证了TAGS的稳健性。

图5中给出了两个示例。(1)TAGS-DC对合成负样本句的评分低于肯定句，但UNITER失败。(2)“carrying”和“playing”的颜色是黄色的，这意味着我们的单词辨别成功地检测到了这些不匹配的单词。我们的模型在单词级别和语法错误中找到局部对齐，然后生成“wearing”和“man player”进行纠正。在示例中，单词鉴别标记了不匹配的组件，单词校正提供了不匹配的原因。

在本申请中，我们专注于图像文本检索任务，发现基于检索的负样本句构造方法受到数据集规模的限制。为了进一步提高性能，我们提出了TAiloringneGative Sentences(TAGS)。它利用掩蔽和回填来产生合成的负样本句作为负样本。我们还设置了单词辨别任务和单词校正任务，以引入单词级监督，以更好地利用合成负样本句。与当前最先进的模型相比，我们的模型在MS-COCO和Flickr30k中显示出具有竞争力的性能。我们还证明了我们模型的行为是稳定的和有效的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，上述实施方式阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，在本说明书中，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

此外，在本说明书中，诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分，而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下，参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个，而可以是元素、部件、或步骤中的一个或多个等。

在本实施方式中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施方式中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

尽管本申请内容中提到不同的具体实施例，但是，本申请并不局限于必须是行业标准或实施例所描述的情况等，某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、处理、输出、判断方式等的实施例，仍然可以属于本申请的可选实施方案范围之内。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

上述实施例阐明的装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的实施方式包括这些变形和变化而不脱离本申请。

Claims

1.一种图像文本检索模型的建模方法，其特征在于，包括以下步骤：

基于掩码语言模型(MLM)生成合成负样本句；

2.根据权利要求1所述的图像文本检索模型的建模方法，其特征在于，其中掩码语言模型、图像文本配对、单词辨别任务和单词校正任务具有不同的输出头，并且具有相同的主干。

3.根据权利要求1所述的图像文本检索模型的建模方法，其特征在于，包括以下步骤：基于掩码语言模型、图像文本配对、单词辨别任务和单词校正任务对所述图像文本检索模型进行整体训练。

4.根据权利要求1所述的图像文本检索模型的建模方法，其特征在于，步骤“基于掩码语言模型(MLM)生成合成负样本句”包括：

将与查询图像相关的句子作为输入；

5.根据权利要求4所述的图像文本检索模型的建模方法，其特征在于，步骤“识别句子中的关键语义单元，并用其他词替换关键语义单元”包括：

采用场景图解析器构建场景图；

根据查询图像使用替换词对被屏蔽的单词进行替换。

6.根据权利要求5所述的图像文本检索模型的建模方法，其特征在于，还包括以下步骤：若合成负样本句中的所有替换词完全包含在查询图像的注释句中，则过滤掉合成负样本句。

7.根据权利要求1所述的图像文本检索模型的建模方法，其特征在于，步骤“使用检索到的负样本和合成负样本句来训练图像文本配对(IRTM、ISTM)”包括：

8.根据权利要求1所述的图像文本检索模型的建模方法，其特征在于，步骤“使用检索到的负样本和合成负样本句来训练图像文本配对(IRTM、ISTM)”包括：

根据被选取到的合成负样本句进行训练。

9.根据权利要求1所述的图像文本检索模型的建模方法，其特征在于，所述单词辨别任务确定合成负样本句的每个单词是否与查询图像匹配。

10.根据权利要求1所述的图像文本检索模型的建模方法，其特征在于，所述单词校正任务基于词性知识和局部跨模态对齐来将合成负样本句中与查询图像不匹配的单词进行填补。