CN115017356A

CN115017356A - 图像文本对的判断方法和装置

Info

Publication number: CN115017356A
Application number: CN202210615255.3A
Authority: CN
Inventors: 魏忠钰; 范智昊
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-09-06

Abstract

本申请实施例提供了一种图像文本对的判断方法，包括以下步骤根据图片的句子级语义标签生成短语级语义标签；建立模态间关系模型和模态内关系模型；根据全局配对、局部配对和短语配对计算图片文本匹配度，全局配对由模态间关系模型和模态内关系模型生成整体图片和句子的相似度，局部配对由模态间关系模型生成图片和字符短语之间相似度以及句子和图片区域之间的相似度，短语配对在图片和字符短语相似度的基础上，根据短语级语义标生成。在跨模态语义编码当中，本申请通过引入短语节点来扩展自注意力编码器输入，并在编码过程中保持短语与单词的层次结构关系，以实现更好的多粒度语义建模。本申请提供了短语级别的细粒度损失函数来指导模型区分不匹配的句子，使模型更多地基于不相关的局部部分做出决策。这方法不仅有助于模型获得更好的检索性能，而且使之具有可解释性和可信度。

Description

图像文本对的判断方法和装置

技术领域

本申请涉及图像处理技术领域，特别涉及一种图像文本对的判断方法和装置。

背景技术

视觉和语言是人类理解世界的两个重要方面。为了弥合视觉和语言，研究人员越来越关注多模态任务(multi-modal tasks)。图像文本检索是基础主题之一，旨在根据图像(文本)来查询匹配的文本(图像)。研究人员从文本对中提取到特征计算出估测匹配度，从而来衡量相似度。该模型通过三元组损失(triplet loss)进行优化，使正确的图文对的模态特征优于错误的图文对的模态特征。

图1中展示了一个示例，包括查询图像、一些匹配的句子和不匹配的句子。在匹配分数方面，该模型(Faghri et al.2018)无法区分匹配的句子和不匹配的句子。仔细观察这个例子会发现，不匹配的句子大部分在得分上却与图片形成了匹配，只有少部分短语的语义是不一致的(两只狗、棒球场等)。因此，研究表明在图像和句子之间的语义失配常常发生在精细粒度(finer grain)处。

发明内容

本发明人研究表明，现有的图像文本检索(Image-text retrieval)研究主要依赖于句子级注意力机制(sentence-level supervision)以区分与查询图像匹配或不匹配的句子。然而，在图像和句子之间的语义失配常常发生在细粒度(finer grain)上，即短语级别。在本文中，本申请探讨了引入额外的短语级的监督(phrase-level supervision)来对文本中错误匹配的单元进行更好的识别。

本申请实施例提供了一种图像文本对的判断方法和装置，以提高图文检索整体性能方面的有效性。

本申请实施例提供了一种图像文本对的判断方法，包括以下步骤：

根据图片的句子级语义标签生成短语级语义标签；

建立模态间关系模型和模态内关系模型；

根据全局配对、局部配对和短语配对计算图片文本匹配度，其中，所述全局配对由所述模态间关系模型和所述模态内关系模型生成，所述局部配对由所述模态间关系模型生成，所述短语配对在局部匹配的基础上，由所述短语级语义标签生成。

优选地，在步骤“根据图片的句子级语义标签生成短语级语义标签”中，使用解析器来从句子级语义标签中提取出实体词、形容词加实体词以及动词三元组。

优选地，在步骤“根据图片的句子级语义标签生成短语级语义标签”中，使用图片库中的标注文本作为句子级语义标签。

优选地，在步骤“建立模态间关系模型和模态内关系模型”中，采用掩码自注意力机制，建立模态间关系模型；其中，所述掩码自注意力机制包括：

(1)在视觉端，所有的区域节点和全局句子节点互相不进行注意力操作；

(2)在语言端，所有的短语、词节点和全局图像节点之间不进行注意力操作；

(3)每个短语节点和不包含在短语本身中的任何其他单词都不进行注意力操作。

优选地，在步骤“建立模态间关系模型和模态内关系模型”中，以词嵌入、短语嵌入以及全局句子嵌入向量作为文本端的输入；以初始图像向量和全局图像节点作为图像端的输入。

优选地，在步骤“根据全局配对、局部配对和短语配对计算图片文本匹配度，其中，所述全局配对由所述模态间关系模型和所述模态内关系模型生成，所述局部配对由所述模态间关系模型生成，所述短语配对在局部匹配的基础上根据短语级语义标签生成”中，所述全局配对表示了整体图片和整体文本的相似度。

优选地，在步骤“根据全局配对、局部配对和短语配对计算图片文本匹配度，其中，所述全局配对由所述模态间关系模型和所述模态内关系模型生成，所述局部配对由所述模态间关系模型生成，所述短语配对在局部配对的基础上根据短语级语义标签生成”中，所述局部配对表示了整体图片和局部文本的相似度和局部图片和整体文本的相似度。

优选地，在步骤“根据全局配对、局部配对和短语配对计算图片文本匹配度，其中，所述全局配对由所述模态间关系模型和所述模态内关系模型生成，所述局部配对由所述模态间关系模型生成，所述短语配对在局部配对的基础上根据短语级语义标签生成”中，所述短语配对通过知晓文本端不匹配的单词和短语并通过加乘系数生成。

本申请实施例公开了一种基于图像文本对的判断装置，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据上述的方法中的任一方法的指令。

本申请实施例公开了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，

所述指令当由计算设备执行时，使得所述计算设备执行根据上述的方法中的任一方法。

在本申请实施例中，通过引入短语节点来扩展自注意力编码器输入的短语，并在编码过程中保持单词与短语的层次结构关系，以实现更好的多粒度语义建模。更重要的是，之前的工作专注于为更好的跨模态表示学习寻找更好的模型，而损失函数局限于总是句子级的三元组损失。在本申请的工作中，本申请提供了短语级别的细粒度的监督信号，而不是仅提供句子级别的匹配(不匹配)信号，以此指导模型更多地基于不相关的局部部分做出决策，区分不匹配的句子。这方法不仅有助于模型获得更好的检索性能，而且更具有可解释性和可信度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是一个查询图像的示例，该示例的分数由VSE++[9]生成，该示例示出了一组不匹配的句子、一组匹配的句子及其对应的文本场景图，以及短语级语义标签，其中，带有下划线的文本段代表短语级别的不匹配。

图2是本申请提出的模型语义结构感知多模态变压器(SSAMT)的总体框架，其中，掩码矩阵M中的空白圆圈表示该列中的查询节点不关注该行中的相应关键节点。

图3示出了MS-COCO 1K和Flickr30K上跨模态检索的Recall@K(R@K)比较结果。

图4示出了MS-COCO上跨模态检索的Recall@K(R@K)比较结果。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

根据查询图像构建多粒度语义标签，它们分别是句子级语义标签和短语级语义标签。在句子级语义标签，本申请使用整个句子作为标签。在短语级语义标签，本申请构建句子的文本场景图，并从图中提取实体和多种形式的三元组作为标签。基于这些多粒度语义标签，本申请希望得到的匹配模型能够在区分错误的句子的同时识别细粒度的不匹配语义单元。

为了同时利用句子级和短语级的信息进行跨模态表示学习，本申请提出了语义结构感知多模态自注意力编码器(Semantic Structure Aware Multimodal Transformer，SSAMT)来对视觉和语言中的多粒度语义进行建模。在语言端，本申请将句子及其短语进行拼接作为输入，而在视觉端，则使用图像及其中的物体特征进行拼接作为输入。

本申请采用采用掩码自注意力机制对两种模态的不同粒度语义单元进行建模，并针对模态内和模态间的交互提出了新的注意力机制。该模型在多个维度(全局和局部)中学习视觉(图像和区域)和语言(句子和短语)的模态。

为了优化，本申请利用全局匹配(global matching)和局部匹配(localmatching)来计算图像文本对的相似度，其中，全局匹配计算图像和文本的整体的匹配分数，局部匹配从细粒度的角度来计算相似性，其中包括物体到文本(region-to-text)和短语到图像(phrase-to-image)。

此外，对于从不匹配的句子中提取的短语，本申请提出短语匹配(phrase-matching)来引导模型增加匹配的图像短语对之间的分数，并减少那些不匹配的图像短语对之间的分数。基于MS-COCO(Lin et al.2014)和Flickr30K(Plummer et al.2015)的实验结果表明，与一些最先进的方法相比，本申请模型的表现是有竞争力的。进一步分析表明，SSAMT能够通过定位不匹配句子当中的不匹配短语来提供更好的可解释性。

本申请实施例中的SSAMT的总体框架如图2所示。它包括三个主要组件，分别是多粒度语义标签系统、具有多粒度语义的跨模态特征学习模型和多粒度匹配损失。

多粒度语义标签系统是从查询图像的注释句子中自动收集语义标签，多粒度语义的跨模态特征学习是在两种模态中，捕获不同粒度的语义。多尺度损失用于计算图像和对应的句子的相似度。本申请以图像I_i和句子T_j为例计算它们的匹配分数。

多粒度语义标签系统可以获取图片的句子级语义标签以及根据图片的句子级语义标签生成短语级语义标签。

视觉和语言数据集中的每个图像都有多个带注释的句子，例如MS-COCO(Linetal.2014)和Flickr30K(Plummer et al.2015)中有五个。这些句子描述了图像的多粒度语义，多粒度语义包括各种对象、关系和场景，本申请建议利用它们自动配置相应的短语级语义标签。

在实践中，本申请基于文本场景图(text scene graphs)采用SPICE (Andersonet al.2016)的场景图解析器(scene graph parser)从上面的描述性句子(句子级语义标签)中挖掘对象-关系-对象三元组、对象-属性对和对象实体(实体词，形容词加实体词，以及动词三元组)，其中，SPICE遵从于SGAE1(Yang et al.2019b)。例如在图2中，检索到的短语包括“狗抓住飞盘”和“黄色飞盘”。

此外，还收集每个句子的单词作为上面短语的补充。短语和单词被视为图像I_i的短语级语义标签L_i。

借助语义标签的知识，本申请可以通过短语匹配方法来确定句子T_j的每个短语或单词是否与I_i匹配。短语匹配方法具体如下：如果T_j的每个短语或单词出现在短语级语义标签L_i或包含在L_i的某个标签中，本申请认为它是积极的，否则，它是消极的。例如，如果“black dog”在L_i中，那么T_j中的“dog”是正例，而“dogs”是负例。

为了初始化T_j的嵌入，本申请为单词、短语和句子准备了不同的策略。

(1)对于单词嵌入，本申请使用Devlin等人的标准嵌入层。由上下文嵌入、位置嵌入和段嵌入组成。

(2)对于短语嵌入，本申请还将它们中的每一个映射到一个稠密向量。考虑到如上通过场景图解析器有三种短语，包括对象属性和关系，本申请为它们采用了三个短语片段嵌入向量。在此过程中，本申请不直接添加语义相关的嵌入信息，但是会在后面使用掩码自注意力编码器进行补偿。

(3)对于句子，本申请以稠密向量C^T作为初始化来建立一个全局句子节点，以在下面的后续建模中捕获句子的整体表示。

总之，本申请的文本嵌入由三个部分连接，单词嵌入

短语嵌入

和全局句子嵌入C^T。

对于图像I_i，本申请使用预训练的对象检测器来提取区域特征并在训练期间对其进行修复。为了适应本申请编码器的隐藏大小，本申请添加了一个全连接层来将每个区域特征投影到相同大小并获得初始图像向量

在设置了全局句子节点之后，本申请还设置了一个带有C^I的全局图像节点来捕捉图像的整体语义。

为了加强图片和文本的多粒度语义的交互，本申请同时采用模态间关系和模态内关系模型，并在SSAMT内部提出掩码注意力机制来学习具有固有结构的多粒度语义。

模态间关系模型旨在两种模态之间建立交互。本申请使用自注意力编码器的编码器(Vaswani et al.2017)作为主干。在以下等式中，本申请将上述的文本嵌入和图像向量拼接作为模型输入。

在自注意力编码器的原始设置中，没有不同的粒度或结构，每个元素都不受约束地与其他元素进行注意力交互。

现有的自注意力编码器用于每个元素不受约束地参与其他元素的序列。在本申请中，除了现有跨模态自注意力编码器中的单词和区域节点外，本申请还分别从图像和句子中采用短语节点和整体语义节点进行建模，其中短语节点表示短语中的单词，整体语义节点表示模态相关的全局节点。

如果这两种节点关注力机制H⁰中的任何节点，它们就无法学习到预期的表示。为了在H⁰的特定部分按照对应的结构约束对这些节点进行编码，本申请使用掩码注意力来满足结构约束。在实现中，掩蔽矩阵

全部初始化为0，这意味着默认情况下每个节点都可以处理任何其他节点，本申请将特定位置的值重置为-∞作为以下要求。M的示例如图2所示。

(1)全局句子节点C^T不关注

中的区域节点，反之亦然。

(2)全局图像节点C^I不关注

中的短语和单词节点，反之亦然。

(3)每个短语节点不关注短语本身不包含的任何其他单词，反之亦然。例如在图2中，P1(dog catch frisbee)的短语节点不关注不在短语中的单词节点W3(jump)。本申请在下面的注意力函数中添加M，利用它来替换transformer中原来的self-attention(SAN)，并形成新的掩码注意力机制(mask transformer)。

在模态间关系建模之后，本申请得到如下等式所示的一系列输出。

其中

和

是图像和句子的全局节点C^I和C^T对应的图像和文本的全局表示。

是区域的表示，

是短语和单词的表示，它们分别是图像和句子的局部表示。

模态内关系模型用于分别编码图像和文本作为模态间关系建模的补充，其中图像和文本的输入分别是

和

本申请将C^I和C^T的输出作为图像和句子的模态内全局表示，表示为

和

在训练过程当中，本申请有一个正确(匹配)的图像-文本对(I_i，T_i)，有一个错误(不匹配)的图像I_k和一个错误(不匹配)的句子T_j本申请使用三元组损失TriL_α来训练本申请的模型。在下面的TriL_α(u，V，W)中，α是一个用于控制u与正样本V的余弦分数与负样本W的余弦分数之间的距离的标量。损失是使每一个v∈V更靠近u并推动每一个w∈W远离u。基于多粒度语义标签，本申请使用三种匹配分数来衡量这些图像-文本对的相似性，包括全局配对、局部配对和短语配对。

对于全局配对而言，模态内关系模型和模态间关系模型都对图像和句子的全局表示产生了影响，因此本申请用

和

分别来计算正确的图像-文本对(I_i，T_i)和错误的图像-文本对(I_i，T_j)。相应的损失方程如下：

对于局部配对而言，本申请利用基于模态间关系模型的局部匹配来增强细粒度的跨模态匹配。局部配对有两个部分：(1)区域-句子(Region-to-Sentence)：每个区域与句子的匹配。(2)短语-图像(Phrase-to-Image)：每个短语(单词)与图像的相似度。本申请利用等式中的损失来使正确的图像-文本对的局部匹配分数大于错误的图像-文本对。具体方程如下：

对于短语配对而言，本申请根据前述的短语匹配方法将T_j的每个短语或单词

分为匹配的

和不匹配的

本申请在不匹配对(I_k，T_i)重复上述程序得到

和

考虑到匹配部分是分离不匹配的图像文本对的关键，本申请提出

来进一步推开不匹配句子中的不匹配部分和匹配部分。它也可以解释为对不匹配部分进行惩罚，这是为了引导匹配模型做出更基于它们的决策。

基于这三种类型的匹配方法和相应的损失，本申请得到整体损失如下方程式，该方程式使用超参数λ0，λ1，λ2和λ3来平衡这些损失。

以前的图文检索模型通常将批内数据中最难的图像(文本)作为负样本(文本)，这需要批量计算所有成对的图文组合的匹配分数。这在模态间关系建模中代价高昂，因此本申请通过模态内匹配分数对负实例进行采样以降低计算成本。

特别的，在推理过程中，本申请利用以下score(I_i，T_j)用于排名。其中μ1和μ2是超参数。

与这些基于自注意力编码器的模型相比，本申请的模型通过引入短语节点来扩展自注意力编码器输入的短语，并在编码过程中保持单词的局部结构，以实现更好的多粒度语义建模。更重要的是，之前的工作专注于为更好的跨模态表示学习寻找更好的模型，而注意力机制总是句子级的三元组损失。在本申请的工作中，本申请提供了短语级别的细粒度注意力，而不是仅提供句子级别的匹配(不匹配)信号，并且注意力机制指导模型区分不匹配的句子，更多地基于不相关的局部部分。这方法不仅有助于模型获得更好的检索性能，而且更具有可解释性和可信度。

具体实施效果：

本申请在MS-COCO(Linet al.2014)和Flickr30K(Plummer et al.2015)上评估本申请提出的模型。MS-COCO的每张图像都附有5个人工注释的标题。本申请将数据集分为训练集、验证集和测试集，分别有113、287/5、000/5、000张图像(Karpathy和Fei-Fei2015)。对于MS-COCO1K，测试集进一步分为5次分割，报告的性能是1K测试图像的5次折叠的平均值(Faghri et al.2018)。Flickr30K(Plummer et al.2015)包含从Flickr网站收集的31000张图像。每张图片包含5个描述性句子。本申请对训练、验证和测试集采用与Karpathy和Fei-Fei(2015)中相同的拆分，1000张图像用于验证，1000张图像用于测试，其余用于训练。

本申请将本申请的模型与一些经典和最先进的方法进行比较，包括VSE++(Faghriet al.2018)、CAMP(Wang et al.2019b)、SCAN(Lee et al.2018)、SGM(Wang et al.2018).2020)、VSRN(Li et al.2019)、BFAN(Liu et al.2019)、MMCA(Wei et al.2020)、GSMN(Liuet al.2020)。MS-COCO 1K和Flickr30K上的结果如图3所示，MS-COCO上的结果如图4所示。本申请可以看到本申请提出的SSAMT优于所有现有方法，图像的最佳R@1＝78.2％在MS-COCO 1K上进行文本到图像检索，R@1＝62.7％。对于MS-COCO，所提出的方法保持了优势，在图像到文本检索的R@1上提高了3％以上。在Flickr30K中，本申请的模型实现了最佳性能，图像到文本的R@1为75.4％。

综上，在本文中，为了充分利用短语级和句子级的不匹配的句子，本申请探索构建多粒度语义标签，其中短语级的语义标签是从图像相关的句子当中通过提取对象实体的短语、对象属性对和对象-关系-对象三元组中自动构建出的。

本申请在语言端将句子及其短语进行拼接，而在视觉端将图像及其物体进行拼接，然后提出用于与多粒度语义联合跨模态建模的掩码自注意力机制，并利用多尺度匹配损失来捕捉图像到文本的匹配和区域到句子/短语到图像的匹配。

基于短语-图像的匹配，本申请利用语义标签来确定短语和图像之间的不对应关系，并调整图像-短语对之间的分数。实验结果表明本申请的模型在MS-COCO和Flickr30K上的有效性。进一步的分析表明，语义标签提高了数据利用的效率，并指导模型以更多的不匹配部分为基础来区分不匹配的句子。

本申请实施例还包括一种基于图像文本对的判断装置，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据上述方法中的任一方法的指令。

本申请实施例还包括种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据上述方法中的任一方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，上述实施方式阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，在本说明书中，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

此外，在本说明书中，诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分，而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下，参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个，而可以是元素、部件、或步骤中的一个或多个等。

在本实施方式中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施方式中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

尽管本申请内容中提到不同的具体实施例，但是，本申请并不局限于必须是行业标准或实施例所描述的情况等，某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、处理、输出、判断方式等的实施例，仍然可以属于本申请的可选实施方案范围之内。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

上述实施例阐明的装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的实施方式包括这些变形和变化而不脱离本申请。

Claims

1.一种图像文本对的判断方法，其特征在于，包括以下步骤：

根据图片的句子级语义标签生成短语级语义标签；

建立模态间关系模型和模态内关系模型；

2.根据权利要求1所述的图像文本对的判断方法，其特征在于，在步骤“根据图片的句子级语义标签生成短语级语义标签”中，使用解析器来从句子级语义标签中提取出实体词、形容词加实体词以及动词三元组。

3.根据权利要求1所述的图像文本对的判断方法，其特征在于，在步骤“根据图片的句子级语义标签生成短语级语义标签”中，使用图片库中的标注文本作为句子级语义标签。

4.根据权利要求1所述的图像文本对的判断方法，其特征在于，在步骤“建立模态间关系模型和模态内关系模型”中，采用掩码自注意力机制，建立模态间关系模型；其中，所述掩码自注意力机制包括：

5.根据权利要求1所述的图像文本对的判断方法，其特征在于，在步骤“建立模态间关系模型和模态内关系模型”中，以词嵌入、短语嵌入以及全局句子嵌入向量作为文本端的输入；以初始图像向量和全局图像节点作为图像端的输入。

6.根据权利要求1所述的图像文本对的判断方法，其特征在于，在步骤“根据全局配对、局部配对和短语配对计算图片文本匹配度，其中，所述全局配对由所述模态间关系模型和所述模态内关系模型生成，所述局部配对由所述模态间关系模型生成，所述短语配对在局部匹配的基础上根据短语级语义标签生成”中，所述全局配对表示了整体图片和整体文本的相似度。

7.根据权利要求1所述的图像文本对的判断方法，其特征在于，在步骤“根据全局配对、局部配对和短语配对计算图片文本匹配度，其中，所述全局配对由所述模态间关系模型和所述模态内关系模型生成，所述局部配对由所述模态间关系模型生成，所述短语配对在局部配对的基础上根据短语级语义标签生成”中，所述局部配对表示了整体图片和局部文本的相似度和局部图片和整体文本的相似度。

8.根据权利要求1所述的图像文本对的判断方法，其特征在于，在步骤“根据全局配对、局部配对和短语配对计算图片文本匹配度，其中，所述全局配对由所述模态间关系模型和所述模态内关系模型生成，所述局部配对由所述模态间关系模型生成，所述短语配对在局部配对的基础上根据短语级语义标签生成”中，所述短语配对通过知晓文本端不匹配的单词和短语并通过加乘系数生成。

9.一种基于图像文本对的判断装置，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-8所述的方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，

所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。