CN115512176A

CN115512176A - 模型训练方法、图像理解方法、装置、介质与电子设备

Info

Publication number: CN115512176A
Application number: CN202210976167.6A
Authority: CN
Inventors: 张有才; 李亚乾; 郭彦东
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-12-23

Abstract

本公开提供一种用于图像理解的模型训练方法、图像理解方法、装置、存储介质与电子设备，涉及人工智能技术领域。该模型训练方法包括：获取样本图像以及样本图像对应的第一文本，通过解析第一文本得到第一文本对应的第一标签；利用图像标签识别模型输出样本图像对应的第二标签，根据第二标签的组合生成样本图像对应的第二文本；将样本图像和第二文本映射为相同模态的信息，通过对映射后的样本图像和第二文本进行匹配以确定第一损失函数值；基于第一标签和第二标签确定第二损失函数值；根据第一损失函数值和第二损失函数值更新图像标签识别模型的参数。本公开有利于提高图像理解的准确性与全面性。

Description

模型训练方法、图像理解方法、装置、介质与电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及一种用于图像理解的模型训练方法、图像理解方法、装置、存储介质与电子设备。

背景技术

图像理解是计算机图像处理中较高层次的任务，是指从语义层面上研究图像中的对象、对象之间的关系、图像场景等，使得计算机能够像人类一样理解图像。

相关技术中，图像理解的准确性有待提高。

发明内容

本公开提供一种用于图像理解的模型训练方法、图像理解方法、用于图像理解的模型训练装置、图像理解装置、计算机可读存储介质与电子设备，以至少在一定程度上提高图像理解的准确性。

根据本公开的第一方面，提供一种用于图像理解的模型训练方法，包括：获取样本图像以及所述样本图像对应的第一文本，通过解析所述第一文本得到所述第一文本对应的第一标签；利用图像标签识别模型输出所述样本图像对应的第二标签，根据所述第二标签的组合生成所述样本图像对应的第二文本；将所述样本图像和所述第二文本映射为相同模态的信息，通过对映射后的所述样本图像和所述第二文本进行匹配以确定第一损失函数值；基于所述第一标签和所述第二标签确定第二损失函数值；根据所述第一损失函数值和所述第二损失函数值更新所述图像标签识别模型的参数。

根据本公开的第二方面，提供一种图像理解方法，包括：获取经过训练的图像标签识别模型；其中，所述图像标签识别模型是根据第一损失函数值和第二损失函数值更新所述图像标签识别模型的参数而训练得到；所述第一损失函数值是将样本图像和第二文本映射为相同模态的信息，通过对映射后的所述样本图像和所述第二文本进行匹配所确定的；所述第二损失函数值是基于第一标签和第二标签所确定的；所述第一标签是通过解析所述样本图像对应的第一文本所得到的；所述第二标签是利用所述图像标签识别模型输出的所述样本图像对应的图像标签，所述第二文本是根据所述第二标签的组合所生成的；利用所述图像标签识别模型处理目标图像，以输出所述目标图像的图像标签。

根据本公开的第三方面，提供一种用于图像理解的模型训练装置，包括：样本数据获取模块，被配置为获取样本图像以及所述样本图像对应的第一文本，通过解析所述第一文本得到所述第一文本对应的第一标签；图像标签识别模块，被配置为利用图像标签识别模型输出所述样本图像对应的第二标签，根据所述第二标签的组合生成所述样本图像对应的第二文本；第一损失函数值确定模块，被配置为将所述样本图像和所述第二文本映射为相同模态的信息，通过对映射后的所述样本图像和所述第二文本进行匹配以确定第一损失函数值；第二损失函数值确定模块，被配置为基于所述第一标签和所述第二标签确定第二损失函数值；参数更新模块，被配置为根据所述第一损失函数值和所述第二损失函数值更新所述图像标签识别模型的参数。

根据本公开的第四方面，提供一种图像理解装置，包括：模型获取模块，被配置为获取经过训练的图像标签识别模型；其中，所述图像标签识别模型是根据第一损失函数值和第二损失函数值更新所述图像标签识别模型的参数而训练得到；所述第一损失函数值是将样本图像和第二文本映射为相同模态的信息，通过对映射后的所述样本图像和所述第二文本进行匹配所确定的；所述第二损失函数值是基于第一标签和第二标签所确定的；所述第一标签是通过解析所述样本图像对应的第一文本所得到的；所述第二标签是利用所述图像标签识别模型输出的所述样本图像对应的图像标签，所述第二文本是根据所述第二标签的组合所生成的；图像标签识别模块，被配置为利用所述图像标签识别模型处理目标图像，以输出所述目标图像的图像标签。

根据本公开的第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一或第二方面的方法及其可能的实现方式。

根据本公开的第六方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令，来执行上述第一或第二方面的方法及其可能的实现方式。

本公开的技术方案具有以下有益效果：

一方面，提供了一种用于图像理解的模型训练方法，可训练得到图像标签识别模型，图像标签识别模型可以通过标签的方式来描述图像内容，实现从标签层面上理解图像，有利于提高图像理解的准确性与全面性。另一方面，通过解析第一文本得到第一标签，通过组合第二标签得到第二文本，从而将文本与标签两个层面的信息关联起来，在文本与标签两个层面上分别构建第一损失函数与第二损失函数，进而根据第一损失函数值和第二损失函数值更新图像标签识别模型的参数，有利于提升模型训练的效果以及图像标签识别模型的质量。

附图说明

图1示出图像及其句子的示意图；

图2示出本示例性实施方式中一种用于图像理解的模型训练方法的流程图；

图3示出本示例性实施方式中一种图像标签识别模型的示意性结构图；

图4示出本示例性实施方式中确定第一损失函数值的流程图；

图5示出本示例性实施方式中模型训练的示意图；

图6示出本示例性实施方式中一种图像理解方法的流程图；

图7示出了本示例性实施方式运行环境的系统架构的示意图；

图8示出本示例性实施方式中一种用于图像理解的模型训练装置的结构示意图；

图9示出本示例性实施方式中一种图像理解装置的结构示意图

图10示出本示例性实施方式中一种电子设备的结构示意图；

图11示出本示例性实施方式中对目标图像生成图像标签的实例图。

具体实施方式

下文将结合附图更全面地描述本公开的示例性实施方式。

附图为本公开的示意性图解，并非一定是按比例绘制。附图中所示的一些方框图可能是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在硬件模块或集成电路中实现这些功能实体，或在网络、处理器或微控制器中实现这些功能实体。实施方式能够以多种形式实施，不应被理解为限于在此阐述的范例。本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或多个实施方式中。在下文的描述中，提供许多具体细节从而给出对本公开实施方式的充分说明。然而，本领域技术人员应意识到，可以在实现本公开的技术方案时省略其中的一个或多个特定细节，或者可以采用其它的方法、组元、装置、步骤等替代一个或多个特定细节。

相关技术中，通常采用与图像天然共存的句子作为监督信息，来训练图像理解的相关模型。然而，本发明人发现，句子有时并不能很好地描述图像内容。例如，参考图1中的图像及其句子，这些句子只能部分或者抽象地描述图像，与图像中实体内容的匹配度有限。因此，通过句子训练出的模型，往往难以实现准确的图像理解。

鉴于上述一个或多个问题，本公开的示例性实施方式提供一种用于图像理解的模型训练方法。图2示出了模型训练方法的流程，可以包括以下步骤S210至S250：

步骤S210，获取样本图像以及样本图像对应的第一文本，通过解析第一文本得到第一文本对应的第一标签；

步骤S220，利用图像标签识别模型输出样本图像对应的第二标签，根据第二标签的组合生成样本图像对应的第二文本；

步骤S230，将样本图像和第二文本映射为相同模态的信息，通过对映射后的样本图像和第二文本进行匹配以确定第一损失函数值；

步骤S240，基于第一标签和第二标签确定第二损失函数值；

步骤S250，根据第一损失函数值和第二损失函数值更新图像标签识别模型的参数。

基于上述方法，一方面，提供了一种用于图像理解的模型训练方法，可训练得到图像标签识别模型，图像标签识别模型可以通过标签的方式来描述图像内容，实现从标签层面上理解图像，有利于提高图像理解的准确性与全面性。另一方面，通过解析第一文本得到第一标签，通过组合第二标签得到第二文本，从而将文本与标签两个层面的信息关联起来，在文本与标签两个层面上分别构建第一损失函数与第二损失函数，进而根据第一损失函数值和第二损失函数值更新图像标签识别模型的参数，有利于提升模型训练的效果以及图像标签识别模型的质量。

下面对图2中的每个步骤做具体说明。

参考图2，在步骤S210中，获取样本图像以及样本图像对应的第一文本，通过解析第一文本得到第一文本对应的第一标签。

其中，样本图像是用于训练模型的图像，可以是任意类型、通过任意来源获取的图像。第一文本可视为样本图像的标注(ground truth)文本，可作为文本监督信息。第一文本可以是描述样本图像的真实文本。示例性的，可以在获取样本图像时，从样本图像的来源处获取用于描述样本图像的句子，如可以是关于样本图像的文字介绍、摘要等，作为第一文本，也可以通过人工标注的方式，对每一张样本图像标注图像内容的说明，以得到第一文本。样本图像与第一文本可以是一一对应的关系。

本公开对于获取的样本图像与第一文本的数量不做限定，通常数量越大，越有利于提升训练效果。示例性的，可以获取海量(如百万以上量级)的样本图像与第一文本。

标签(tag)是指用于描述图像或文本的词、词组或短语。本示例性实施方式中，可以从第一文本中解析得到对应的第一标签。第一标签用于描述第一文本，进而描述样本图像。第一标签可视为样本图像的标注标签，可作为标签监督信息。由于第一标签来源于第一文本，而第一文本是真实文本，所以第一标签可以是描述样本图像的真实标签。

在一种实施方式中，上述通过解析第一文本得到第一文本对应的第一标签，可以包括以下步骤：

对多个第一文本进行分词，以得到候选词；

统计候选词在上述多个第一文本中的出现次数，根据统计结果从候选词中确定标签集；

将第一文本中属于标签集的词作为第一文本对应的第一标签。

其中，对第一文本的分词可以采用分词工具(如spaCy)或词库等实现。分词后去除停用词，可以得到候选词。候选词可以是第一文本中具有实体含义的词。统计候选词在上述多个第一文本中的出现次数，如某个候选词在a个第一文本中出现过，则其出现次数为a。将出现次数较多的候选词形成集合，即得到标签集。例如，可以选取出现次数超过预设的出现次数阈值的候选词，也可以按照出现次数从高到低的顺序选取一定数量(可以是1000-2000之间，根据经验或具体情况确定)的候选词，以形成标签集。

在一种实施方式中，可以对候选词按照领域、场景或类别来进行统计。例如，在得到候选词后，可以将候选词划分为名词、动词、属性词等，然后统计上述多个第一文本中不同名词的出现次数、不同动词的出现次数、不同属性词的出现次数，分别在名词、动词、属性词中选取出现次数较多的候选词，形成标签集。这样避免将不同类别的候选词直接比较其出现次数，提升标签集的质量。

由上可知，标签集中的候选词是在描述样本图像时较为经常使用的词，即关键词。关键词能够较为准确、充分地表示图像语义。因此，可以将第一文本中属于标签集的词(即第一文本中的关键词)提取出来，其能够概括表示第一文本的语义，进而表示第一文本所对应的样本图像的语义。

通过上述对第一文本中分词、统计候选词出现次数的方式得到标签集，能够在一定程度上保证标签集的准确性与全面性，同时将标签集的规模控制在合适的大小。并且，相比于人工标注标签的方式，能够降低人工成本。基于第一文本可以非常容易地获得第一文本对应的第一标签，处理效率较高。

在一种实施方式中，还可以通过解析第一文本的语义，得到第一标签。例如，可以采用自然语言处理模型对第一文本进行编码(如可以是嵌入编码)，并将第一文本的编码映射为一个或多个词向量，将该词向量对应的词作为该第一文本对应的第一标签。

步骤S220，利用图像标签识别模型输出样本图像对应的第二标签，根据第二标签的组合生成样本图像对应的第二文本。

其中，图像标签识别模型可用于输入图像或图像编码，经过处理后输出对应的图像标签。将图像标签识别模型对样本图像处理后输出的标签称为第二标签，以区分于上述第一标签。可见，第二标签是模型识别的标签，并非真实标签。

本公开对于图像标签识别模型的具体结构不做限定。在一种实施方式中，图像标签识别模型可以是卷积神经网络或图像语义分割网络的结构。在卷积神经网络网络中，可以通过卷积层对样本图像提取特征，并通过全连接层将特征进一步整合并映射至图像标签所在的空间，以得到第二标签。在图像语义分割网络中，将样本图像分割为多个区域，并识别每个区域的语义，可以将这些语义形成对应的标签，从而得到第二标签。示例性的，图像语义分割网络可以是DeepLab-v3或DeepLab-v3+。

图3示出了一种图像标签识别模型的示意性结构，包括图像编码器与解码器两部分。将样本图像输入图像标签识别模型后，通过图像编码器对样本图像进行特征编码，得到样本图像中的局部特征，其可以表示样本图像中不同局部的信息，通过解码器将局部特征解码为对应的标签，如可以先将局部特征映射为词向量，再得到对应的词，从而最终得到样本图像对应的第二标签。示例性的，图像编码器可以包括多个卷积层与池化层；解码器可以包括多个全连接层，也可以包括嵌入层。图3中，通过图像标签识别模型输出样本图像对应的第二标签包括“people(人)”、“umbrella(伞)”、“car(汽车)”、“building(建筑)”。

第二标签可以包括一个或多个标签，如图3中的第二标签实际上包括4个标签。可以通过组合第二标签生成句子，该句子即为样本图像对应的第二文本。例如，可以将第二标签的组合直接作为第二文本，如图3中可以得到第二文本“people umbrella carbuilding”。也可以在组合第二标签后，适当地添加停用词或调整标签之间的顺序等，得到第二文本。可见，第二文本是由第二标签生成的非真实文本，区别于上述第一文本。

第二标签和第二文本是图像标签识别模型对样本图像进行“理解”的结果，若图像标签识别模型的质量较高，则第二标签和第二文本能够较为准确描述样本图像的内容。

步骤S230，将样本图像和第二文本映射为相同模态的信息，通过对映射后的样本图像和第二文本进行匹配以确定第一损失函数值。

其中，模态是指信息的形态，如图像、文本是两种不同模态。为了对样本图像和第二文本进行匹配，先将样本图像和第二文本映射为相同模态的信息，例如，可以将样本图像映射为文本模态的信息，以便于和第二文本直接匹配，或者将第二文本映射为图像模态的信息，以便于和样本图像直接匹配。在一种实施方式中，可以将样本图像和第二文本均映射为向量的形式，以进行匹配。

如上所示，第二文本是图像标签识别模型对样本图像进行“理解”的结果，图像标签识别模型的训练目标可以包括：使第二文本能够准确描述样本图像的内容，这样其与样本图像的信息应当具有较高的匹配度。由此，本示例性实施方式中，可以基于样本图像和第二文本之间不匹配的程度，预先构建第一损失函数，如可以是L1损失函数、L2损失函数、交叉熵等，第一损失函数可以从文本的层面表示图像标签识别模型学习样本图像的损失。在步骤S230中，基于映射后的样本图像、第二文本和第一损失函数来计算第一损失函数值。

在一种实施方式中，可以基于映射后的样本图像和第二文本，直接计算两者的L1损失值或L2损失值，得到第一损失函数值。

在一种实施方式中，基于映射后的样本图像和第二文本，可以将两者之间各维度的信息分别进行匹配，为相同维度的信息的匹配度设置监督值为1，为不同维度的信息的匹配度设置监督值为0，根据计算出的匹配度与监督值之间的L1损失、L2损失、交叉熵等，得到第一损失函数值。

在一种实施方式中，上述将样本图像和第二文本映射为相同模态的信息，通过对映射后的样本图像和第二文本进行匹配以确定第一损失函数值，包括：

将样本图像、第一文本和第二文本映射为相同模态的信息，通过对映射后的样本图像、第一文本和第二文本进行匹配确定第一损失函数值。

也就是说，在第一损失函数中，还可以将第一文本相关的信息加入进来。在进行模态的映射后，将样本图像、第一文本和第二文本三者之间进行匹配，以确定第一损失函数值。例如，上述三者之间的匹配可以包括将样本图像和第一文本进行匹配，还可以包括将样本图像和第二文本进行匹配，或者将第一文本和第二文本进行匹配。

示例性的，图像标签识别模型的训练目标可以包括：使第二文本与第一文本具有较高的匹配度，这样第二文本自然能够像第一文本那样准确描述样本图像。因此，在第一损失函数中还可以加入第一文本与第二文本匹配的损失项，例如，可以构建映射后的样本图像与第二文本之间的L1损失项，以及映射后的第一文本与第二文本之间的L1损失项，两个L1损失项可以通过加权形成第一损失函数。通过代入映射后的样本图像、第一文本和第二文本，可以计算第一损失函数值。

在一种实施方式中，参考图4所示，上述将样本图像、第一文本和第二文本映射为相同模态的信息，通过对映射后的样本图像、第一文本和第二文本进行匹配确定第一损失函数值，可以包括以下步骤S410至S430：

步骤S410，利用图像映射模型输出样本图像对应的样本图像特征信息；

步骤S420，利用文本映射模型输出第一文本对应的第一文本特征信息和第二文本对应的第二文本特征信息；

步骤S430，通过对样本图像特征信息、第一文本特征信息和第二文本特征信息进行匹配以确定第一损失函数值。

其中，样本图像特征信息、第一文本特征信息和第二文本特征信息为相同模态的信息，如三者均可以是向量或矩阵。图像映射模型用于将图像映射为预定模态(如向量)的特征信息。文本映射模型用于将文本映射为预定模态(如向量)的特征信息。图像映射模型和文本映射模型可以是经过训练的模型，在本示例性实施方式中，可以无需对图像映射模型和文本映射模型进行训练。或者，图像映射模型和文本映射模型中的一者是未经过训练(或仅经过初步的训练)的模型，在本示例性实施方式中，可以对该未经过训练的模型做进一步训练，无需对另一者进行训练。或者，图像映射模型和文本映射模型均可以是未经过训练(或仅经过初步的训练)的模型，在本示例性实施方式中，可以对图像映射模型和文本映射模型均做进一步训练。

本公开对于图像映射模型和文本映射模型的具体结构不做限定。示例性的，图像映射模型可以是卷积神经网络、深度残差网络或者视觉Transformer(ViT)的结构。文本映射模型可以是文本嵌入编码模型或Transformer的结构。

将样本图像(或样本图像的编码)输入图像映射模型，输出样本图像特征信息。将第一文本(或第一文本的编码)输入文本映射模型，输出第一文本特征信息。将第二文本(或第二文本的编码)输入文本映射模型，输出第二文本特征信息。再通过匹配样本图像特征信息、第一文本特征信息和第二文本特征信息，计算第一损失函数值。例如，可以计算样本图像特征信息与第二文本特征信息之间的L1损失值，计算第一文本特征信息与第二文本特征信息之间的L1损失值，两者加权得到第一损失函数值。

通过将样本图像、第一文本、第二文本均映射为相同模态的特征信息，便于直接进行匹配并计算第一损失函数值。

在一种实施方式中，上述将样本图像、第一文本和第二文本映射为相同模态的信息，可以包括以下步骤：

利用映射模型将样本图像、第一文本和第二文本中的至少一者进行模态映射；模态映射后的样本图像、第一文本和第二文本为相同模态的信息。

例如，映射模型可以是图像到文本的映射模型，则可以将样本图像通过映射模型映射为对应的样本图像文本，通过对比样本图像文本、第一文本和第二文本，确定第一损失函数值。或者，映射模型可以是文本到图像的映射模型，则可以将第一文本和第二文本通过映射模型映射为对应的第一文本图像和第二文本图像，通过对比样本图像、第一文本图像和第二文本图像，确定第一损失函数值。又或者，映射模型可以包括上述图像映射模型和文本映射模型，则可以通过步骤S410和S420进行样本图像、第一文本和第二文本的映射，再通过步骤S430计算第一损失函数值。

步骤S240，基于第一标签和第二标签确定第二损失函数值。

本示例性实施方式中，图像标签识别模型的训练目标可以包括：使第二标签等同或接近于第一标签，这样第二标签能够准确地概括描述样本图像。由此，可以基于第一标签和第二标签确定第二损失函数值，第二损失函数值可以从标签的层面表示图像标签识别模型学习样本图像的损失程度。

示例性的，可以预先构建第二损失函数，如可以是L1损失函数、L2损失函数、交叉熵等，在步骤S240中，将第一标签和第二标签代入第二损失函数，计算出第二损失函数值。

在一种实施方式中，上述基于第一标签和第二标签确定第二损失函数值，可以包括以下步骤：

对比第一标签和第二标签，以确定第一标签中的缺失标签；

根据第一标签中的缺失标签更新第一标签；

基于更新后的第一标签和第二标签的差别，确定第二损失函数值。

其中，第一标签中的缺失标签是指第二标签中包含、第一标签中未包含的标签。例如，第一标签包括“people”、“umbrella”、“rainy(阴雨)”，第二标签包括“people”、“umbrella”、“car”、“building”，则第一标签中的缺失标签为“car”、“building”。

由于第一文本可能只描述了样本图像的部分内容，因此第一标签的信息可能存在缺失，如遗漏了样本图像中某些对象或某些区域的内容。本示例性实施方式采用标签修正的方式，将第一标签中的缺失标签添加到第一标签中，使得第一标签的信息更加全面、充分。在一种实施方式中，可以在每一个训练epoch(纪元)更新第一标签。

基于更新后的第一标签和第二标签的差别来计算第二损失函数值，可以减少第一标签的信息缺失对模型训练过程带来的不利影响。

下面对构建第二损失函数以及计算第二损失函数值的过程做进一步说明。

假设共有K种候选标签，图像标签识别模型输出的第二标签可以是K维的集合(或向量)，例如以x(x∈R^K)表示第二标签，其中第i个元素x_i表示预测样本图像中存在第i种候选标签的可能性，可以进一步采用Sigmoid等函数归一化x_i，得到候选标签对应的概率

令y_i(y_i∈{0,1})表示第一标签中第i种候选标签的监督值，第一标签中存在第i种候选标签则y_i＝1，不存在第i种候选标签则y_i＝0。可以构建第二损失函数L2如下：

其中，

和

分别表示正样本和负样本产生的损失，在后文中为简化表述起见，可以省略下标i，用L⁺和L^-表示。

在一种实施方式中，L⁺和L^-可以表示如下：

其中，p表示图像标签识别模型输出的第二标签中不同候选标签对应的概率，τ表示概率阈值，可以是经验参数或可学习的参数，p≤τ可认为第二标签中不存在对应的候选标签。

进一步的，还可以采用BCE(Binary Cross Entropy，二元交叉熵)表示L⁺和L^-，如下所示：

将第一标签中的缺失标签添加至第一标签中，然后采用上述公式(1)和(2)、或(1)和(3)计算第二损失函数值。

本示例性实施方式中，通过迭代更新图像标签识别模型的参数，使第一损失函数值和第二损失函数值降低，以实现模型训练。示例性的，可以根据第一损失函数值和第二损失函数值进行反向传播，以计算图像标签识别模型的参数梯度，进而更新图像标签识别模型的参数。

在一种实施方式中，可以将第一损失函数值与第二损失函数值加权，得到全局损失函数值，根据全局损失函数值更新图像标签识别模型的参数。

在一种实施方式中，上述通过对样本图像特征信息、第一文本特征信息和第二文本特征信息进行匹配以确定第一损失函数值，可以包括以下步骤：

通过匹配样本图像特征信息与第一文本特征信息，以及匹配样本图像特征信息与第二文本特征信息，确定第一损失函数值。

在根据第一损失函数值和第二损失函数值更新图像标签识别模型的参数时，模型训练方法还可以包括以下步骤：

根据第一损失函数值和第二损失函数值更新图像映射模型和文本映射模型中的至少一者的参数。

也就说是，第一损失函数值主要由两部分组成：样本图像特征信息与第一文本特征信息之间的不匹配程度，以及样本图像特征信息与第二文本特征信息之间的不匹配程度。若图像映射模型和文本映射模型训练不充分，则会导致第一损失函数值增加，进而导致全局损失函数值增加。因此，可以根据第一损失函数值和第二损失函数值更新图像映射模型和文本映射模型中的至少一者的参数。具体地，可以根据图像映射模型和文本映射模型本身的测试准确率，确定需要对哪个模型做进一步的训练，或者需要对两个模型均做进一步的训练。在根据第一损失函数值和第二损失函数值更新图像标签识别模型的参数的同时，也对图像映射模型和文本映射模型中需要训练的模型进行参数更新。由此实现图像标签识别模型与图像映射模型、文本映射模型中的至少一者的同步训练，进一步提升图像标签识别模型的训练效果，同时得到质量更高的图像映射模型或文本映射模型。

在一种实施方式中，可以将图像标签识别模型、图像映射模型和文本映射模型视为一个整体性模型，根据第一损失函数值和第二损失函数值更新该整体性模型的参数，从而实现对其中三个模型的训练。

图5示出了本示例性实施方式中模型训练的示意图。参考图5所示，图像标签识别模型可以包括图像编码器与解码器，图像映射模型可以图像编码器与特征映射器，图像标签识别模型与图像映射模型可以共享图像编码器。将样本图像输入图像编码器后，得到样本图像的局部特征和全局特征；将局部特征进一步输入解码器，得到第二标签“people”、“umbrella”、“car”、“building”；获取样本图像对应的第一文本“People holdingumbrella on a rainy day”，对其进行解析，得到第一标签“people”、“umbrella”、“rainy”；对比第一标签和第二标签，确定第一标签中的缺失标签包括“car”、“building”，将其添加到第一标签中，进而基于第一标签和第二标签计算出第一损失函数值；将第二标签进行组合，得到第二文本“People umbrella car building”；将样本图像的全局特征进一步输入特征映射器，得到样本图像特征信息；将第一文本、第二文本分别输入文本映射模型，得到第一文本特征信息、第二文本特征信息；通过匹配样本图像特征信息与第一文本特征信息，以及样本图像特征信息与第二文本特征信息，计算出第二损失函数值；可以根据第一损失函数值和第二损失函数值更新图像编码器、解码器、特征映射器、文本映射模型四部分的参数，以实现模型训练。

本公开的示例性实施方式还提供一种图像理解方法。参考图6所示，图像理解方法的流程可以包括以下步骤S610和S620：

步骤S610，获取经过训练的图像标签识别模型。

其中，图像标签识别模型是根据本示例性实施方式中的模型训练方法所训练得到的。具体地，图像标签识别模型是根据第一损失函数值和第二损失函数值更新图像标签识别模型的参数而训练得到；第一损失函数值是将样本图像和第二文本映射为相同模态的信息，通过对映射后的样本图像和第二文本进行匹配所确定的；第二损失函数值是基于第一标签和第二标签所确定的；第一标签是通过解析样本图像对应的第一文本所得到的；第二标签是利用图像标签识别模型输出的样本图像对应的图像标签，第二文本是根据第二标签的组合所生成的。

步骤S620，利用图像标签识别模型处理目标图像，以输出目标图像的图像标签。

目标图像可以是任意的需要理解的图像，如可以是图像库中任一张图像。将目标图像输入经过训练的图像标签识别模型，可以准确输出目标图像的图像标签。

基于上述方法，利用经过训练的图像标签识别模型对目标图像进行处理，可以得到目标图像的图像标签，图像标签能够较为准确、全面地描述目标图像的内容，使得本方案从标签的层面上实现对目标图像的理解，提高了图像理解的准确性与全面性。

在一种实施方式中，图像理解方法还可以包括以下步骤：

通过将检索关键词与目标图像的图像标签进行匹配，以确定检索关键词与目标图像是否匹配。

其中，检索关键词可以是用于检索图像的非句子化的文本信息，如可以是用户输入的用于检索图像的关键词。将检索关键词与目标图像的图像标签进行匹配，以确定检索关键词与目标图像是否匹配，可以包括：检测目标图像的图像标签中是否包含检索关键词，若包含，则确定检索关键词与目标图像匹配；或者，检测标图像的图像标签中所包含的检索关键词的数量，在全部检索关键词中所占的比例，若该比例达到预设的比例阈值(可以根据经验或具体情况确定)，则确定检索关键词与目标图像匹配；计算检索关键词与目标图像的图像标签之间的匹配度，若该匹配度达到预设的文本匹配度阈值(可以根据经验或具体情况确定)，则确定检索关键词与目标图像匹配。

在确定检索关键词与目标图像匹配的情况下，可以将目标图像作为检索关键词对应的检索结果之一进行输出。

通过上述方式，实现了以关键词的方式检索图像，并能够保证检索结果的准确性。

在一种实施方式中，还可以根据检索关键词确定目标图像中与之匹配的局部区域。例如，检索关键词为“猫”，可以定位到目标图像中猫所在的局部区域，实现根据检索关键词进行图像定位。

在一种实施方式中，图像理解方法还可以包括以下步骤：

获取经过训练的图像映射模型；

利用图像映射模型处理目标图像，以输出目标图像的特征信息。

其中，图像映射模型是根据本示例性实施方式中的模型训练方法所训练得到的。具体地，图像映射模型是根据第一损失函数值和第二损失函数值更新图像映射模型的参数而训练得到；第一损失函数值是通过对样本图像特征信息、第一文本特征信息和第二文本特征信息进行匹配所确定的；样本图像特征信息是利用图像映射模型输出的样本图像对应的特征信息；样本图像特征信息、第一文本特征信息和第二文本特征信息为相同模态的信息。

将目标图像输入经过训练的图像映射模型，可以准确输出目标图像的特征信息。该特征信息能够和图像标签共同描述目标图像的内容，进一步提高了图像理解的准确性与全面性。

在一种实施方式中，图像理解方法还可以包括以下步骤：

获取经过训练的文本映射模型；

利用文本映射模型处理检索文本，以输出检索文本的特征信息；

通过将检索文本的特征信息与目标图像的特征信息进行匹配，以确定检索文本与目标图像是否匹配。

其中，文本映射模型是根据本示例性实施方式中的模型训练方法所训练得到的。具体地，文本映射模型是根据第一损失函数值和第二损失函数值更新文本映射模型的参数而训练得到；第一文本特征信息是利用文本映射模型输出的第一文本对应的特征信息；第二文本特征信息是利用文本映射模型输出的第二文本对应的特征信息。

检索文本可以是用于检索图像的句子化文本信息，如可以是用户输入的用于检索图像的文本。将检索文本输入文本映射模型，可以得到检索文本的特征信息，其与目标图像的特征信息可以是相同模态的信息。

将检索文本的特征信息与目标图像的特征信息进行匹配，以确定检索文本与目标图像是否匹配，可以包括：计算检索文本的特征信息与目标图像的特征信息之间的匹配度，若该匹配度达到预设的特征匹配度阈值(可以根据经验或具体情况确定)，则确定检索文本与目标图像匹配。在一种实施方式中，可以计算检索文本的特征信息与目标图像的特征信息两者之间相同维度信息的相似度(如余弦相似度等)，以作为匹配度。

通过上述方式，实现了以文本的方式检索图像，并能够保证检索结果的准确性。

在一种实施方式中，图像理解方法还可以包括以下步骤：

从检索文本中提取检索关键词；

上述通过将检索文本的特征信息与目标图像的特征信息进行匹配，以确定检索文本与目标图像是否匹配，可以包括以下步骤：

通过将检索文本的特征信息与目标图像的特征信息进行匹配，以及将检索关键词与目标图像的图像标签进行匹配，以确定检索文本与目标图像是否匹配。

其中，可以采用分词加去除停用词的方式确定检索文本中的检索关键词。或者，可以将检索文本中的词与预先构建的词库中的词进行匹配，以确定检索关键词。由此得到检索文本与检索关键词两个层面上的检索信息。进而，将检索文本的特征信息与目标图像的特征信息进行匹配，以及将检索关键词与目标图像的图像标签进行匹配，即从文本与标签两个层面上进行匹配，根据两个层面的匹配结果确定检索文本与目标图像是否匹配。例如，若检索文本的特征信息与目标图像的特征信息匹配，且检索关键词与目标图像的图像标签也匹配，则确定检索文本与目标图像匹配。该方式能够进一步提高根据检索文本进行图像检索的准确性。

图7示出了本示例性实施方式运行环境的系统架构。该系统架构700可以包括终端710和服务器720。终端710可以是手机、平板电脑、个人电脑、智能穿戴设备、无人机等电子设备。服务器720泛指提供本示例性实施方式中图像理解相关服务的后台系统，可以是一台服务器或多台服务器的集群。终端710和服务器720之间可以通过有线或无线的通信链路形成连接，以进行数据交互。

在一种实施方式中，可以由服务器720执行本示例性实施方式中的模型训练方法，将训练后的模型部署在终端710上，由终端710执行本示例性实施方式中的图像理解方法，得到目标图像的图像标签，如终端710可以将本地相册中的图像作为目标图像，确定目标图像的图像标签并加以存储。后续可以根据图像标签执行图像分类、图像检索等任务。

在一种实施方式中，可以由服务器720执行本示例性实施方式中的模型训练方法，得到训练后的模型，并执行本示例性实施方式中的图像理解方法，得到目标图像的图像标签。后续可以根据图像标签执行图像分类、图像检索等任务。例如，用户在终端710上输入检索关键词或检索文本，终端710将检索关键词或检索文本发送至服务器720，服务器720通过执行图像理解方法，确定检索关键词或检索文本与图库中的目标图像是否匹配，进而输出与之匹配的目标图像以作为检索结果。

在一种实施方式中，可以由终端710执行本示例性实施方式中的模型训练方法，得到训练后的模型，并执行本示例性实施方式中的图像理解方法，得到目标图像的图像标签。

由上可知，本示例性实施方式中的模型训练方法的执行主体可以是上述终端710或服务器720，图像理解方法的执行主体也可以是上述终端710或服务器720。

本公开的示例性实施方式还提供一种用于图像理解的模型训练装置。参考图8所示，该模型训练装置800可以包括：

样本数据获取模块810，被配置为获取样本图像以及样本图像对应的第一文本，通过解析第一文本得到第一文本对应的第一标签；

图像标签识别模块820，被配置为利用图像标签识别模型输出样本图像对应的第二标签，根据第二标签的组合生成样本图像对应的第二文本；

第一损失函数值确定模块830，被配置为将样本图像和第二文本映射为相同模态的信息，通过对映射后的样本图像和第二文本进行匹配以确定第一损失函数值；

第二损失函数值确定模块840，被配置为基于第一标签和第二标签确定第二损失函数值；

参数更新模块850，被配置为根据第一损失函数值和第二损失函数值更新图像标签识别模型的参数。

在一种实施方式中，上述将样本图像、第一文本和第二文本映射为相同模态的信息，通过对映射后的样本图像和第二文本进行匹配以确定第一损失函数值，包括：

利用图像映射模型输出样本图像对应的样本图像特征信息；

利用文本映射模型输出第一文本对应的第一文本特征信息和第二文本对应的第二文本特征信息；样本图像特征信息、第一文本特征信息和第二文本特征信息为相同模态的信息；

通过对样本图像特征信息、第一文本特征信息和第二文本特征信息进行匹配以确定第一损失函数值。

在一种实施方式中，上述通过对样本图像特征信息、第一文本特征信息和第二文本特征信息进行匹配以确定第一损失函数值，包括：

通过匹配样本图像特征信息与第一文本特征信息，以及匹配样本图像特征信息与第二文本特征信息，确定第一损失函数值；

参数更新模块850，还被配置为根据第一损失函数值和第二损失函数值更新图像映射模型和文本映射模型中的至少一者的参数。

在一种实施方式中，上述基于第一标签和第二标签确定第二损失函数值，包括：

对比第一标签和第二标签，以确定第一标签中的缺失标签；第一标签中的缺失标签为第二标签中包含、第一标签中未包含的标签；

根据第一标签中的缺失标签更新第一标签；

在一种实施方式中，上述通过解析第一文本得到第一文本对应的第一标签，包括：

对多个第一文本进行分词，以得到候选词；

统计候选词在多个第一文本中的出现次数，根据统计结果从候选词中确定标签集；

本公开的示例性实施方式还提供一种图像理解装置。参考图9所示，该种图像理解装置900可以包括：

模型获取模块910，被配置为获取经过训练的图像标签识别模型；其中，图像标签识别模型是根据第一损失函数值和第二损失函数值更新图像标签识别模型的参数而训练得到；第一损失函数值是将样本图像和第二文本映射为相同模态的信息，通过对映射后的样本图像和第二文本进行匹配所确定的；第二损失函数值是基于第一标签和第二标签所确定的；第一标签是通过解析样本图像对应的第一文本所得到的；第二标签是利用图像标签识别模型输出的样本图像对应的图像标签，第二文本是根据第二标签的组合所生成的；

图像标签识别模块920，被配置为利用图像标签识别模型处理目标图像，以输出目标图像的图像标签。

在一种实施方式中，图像理解装置900还可以包括匹配模块，被配置为：

在一种实施方式中，模型获取模块910，还被配置为：

获取经过训练的图像映射模型；其中，图像映射模型是根据第一损失函数值和第二损失函数值更新图像映射模型的参数而训练得到；第一损失函数值是通过对样本图像特征信息、第一文本特征信息和第二文本特征信息进行匹配所确定的；样本图像特征信息是利用图像映射模型输出的样本图像对应的特征信息；样本图像特征信息、第一文本特征信息和第二文本特征信息为相同模态的信息；

图像理解装置900还可以包括特征信息确定模块，被配置为：

在一种实施方式中，模型获取模块910，还被配置为：

获取经过训练的文本映射模型；其中，文本映射模型是根据第一损失函数值和第二损失函数值更新文本映射模型的参数而训练得到；第一文本特征信息是利用文本映射模型输出的第一文本对应的特征信息；第二文本特征信息是利用文本映射模型输出的第二文本对应的特征信息；

特征信息确定模块，还被配置为：

图像理解装置900还可以包括匹配模块，被配置为：

在一种实施方式中，图像理解装置900还可以包括关键词提取模块，被配置为：

从检索文本中提取检索关键词；

上述通过将检索文本的特征信息与目标图像的特征信息进行匹配，以确定检索文本与目标图像是否匹配，包括：

上述装置中各部分的具体细节在方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

本公开的示例性实施方式还提供了一种计算机可读存储介质，可以实现为一种程序产品的形式，其包括程序代码，当程序产品在电子设备上运行时，程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。在一种可选的实施方式中，该程序产品可以实现为便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本公开的示例性实施方式还提供一种电子设备，该电子设备例如可以是上述控制节点。该电子设备可以包括处理器与存储器。存储器存储有处理器的可执行指令，如可以是程序代码。处理器通过执行该可执行指令来执行本示例性实施方式中的方法步骤。

下面参考图10，以通用计算设备的形式对电子设备进行示例性说明。应当理解，图10显示的电子设备1000仅仅是一个示例，不应对本公开实施方式的功能和使用范围带来限制。

如图10所示，电子设备1000可以包括：处理器1010、存储器1020、总线1030、I/O(输入/输出)接口1040、网络适配器1050。

存储器1020可以包括易失性存储器，例如RAM 1021、缓存单元1022，还可以包括非易失性存储器，例如ROM 1023。存储器1020还可以包括一个或多个程序模块1024，这样的程序模块1024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030用于实现电子设备1000的不同组件之间的连接，可以包括数据总线、地址总线和控制总线。

电子设备1000可以通过I/O接口1040与一个或多个外部设备2000(例如键盘、鼠标、外置控制器等)进行通信。

电子设备1000可以通过网络适配器1050与一个或者多个网络通信，例如网络适配器1050可以提供如3G/4G/5G等移动通信解决方案，或者提供如无线局域网、蓝牙、近场通信等无线通信解决方案。网络适配器1050可以通过总线1030与电子设备1000的其它模块通信。

尽管图10中未示出，还可以在电子设备1000中设置其它硬件和/或软件模块，包括但不限于：显示器、微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

表1示出了本方案与相关技术的性能指标对比情况。其中，CLIP(ContrastiveLanguage-Image Pre-training，对比语言-图像预训练)为相关技术中图像理解性能较高的算法模型，其仅能实现图文对比任务，而无法实现多标签识别任务。本方案既能实现图文对比任务，又能实现多标签识别任务。

表1

将两种算法在不同的预训练图像数下，在不同数据集上进行图文对比的性能指标对比。可以看出，本方案的性能指标整体上明显优于CLIP。

图11示出了对目标图像生成图像标签的实例图，如图中示出的“snow”、“trafficlight”，以及“swimming”、“sea”、“turtle”。图像标签能够提升图像理解程度，可以将目标图像的文本与图像标签共同用于描述图像内容。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims

1.一种用于图像理解的模型训练方法，其特征在于，包括：

获取样本图像以及所述样本图像对应的第一文本，通过解析所述第一文本得到所述第一文本对应的第一标签；

利用图像标签识别模型输出所述样本图像对应的第二标签，根据所述第二标签的组合生成所述样本图像对应的第二文本；

将所述样本图像和所述第二文本映射为相同模态的信息，通过对映射后的所述样本图像和所述第二文本进行匹配以确定第一损失函数值；

基于所述第一标签和所述第二标签确定第二损失函数值；

根据所述第一损失函数值和所述第二损失函数值更新所述图像标签识别模型的参数。

2.根据权利要求1所述的方法，其特征在于，所述将所述样本图像和所述第二文本映射为相同模态的信息，通过对映射后的所述样本图像和所述第二文本进行匹配以确定第一损失函数值，包括：

将所述样本图像、所述第一文本和所述第二文本映射为相同模态的信息，通过对映射后的所述样本图像、所述第一文本和所述第二文本进行匹配确定第一损失函数值。

3.根据权利要求2所述的方法，其特征在于，所述将所述样本图像、所述第一文本和所述第二文本映射为相同模态的信息，通过对映射后的所述样本图像和所述第二文本进行匹配以确定第一损失函数值，包括：

利用图像映射模型输出所述样本图像对应的样本图像特征信息；

利用文本映射模型输出所述第一文本对应的第一文本特征信息和所述第二文本对应的第二文本特征信息；所述样本图像特征信息、所述第一文本特征信息和所述第二文本特征信息为相同模态的信息；

通过对所述样本图像特征信息、所述第一文本特征信息和所述第二文本特征信息进行匹配以确定第一损失函数值。

4.根据权利要求3所述的方法，其特征在于，所述通过对所述样本图像特征信息、所述第一文本特征信息和所述第二文本特征信息进行匹配以确定第一损失函数值，包括：

通过匹配所述样本图像特征信息与所述第一文本特征信息，以及匹配所述样本图像特征信息与所述第二文本特征信息，确定第一损失函数值；

在根据所述第一损失函数值和所述第二损失函数值更新所述图像标签识别模型的参数时，所述方法还包括：

根据所述第一损失函数值和所述第二损失函数值更新所述图像映射模型和所述文本映射模型中的至少一者的参数。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一标签和所述第二标签确定第二损失函数值，包括：

对比所述第一标签和所述第二标签，以确定所述第一标签中的缺失标签；所述第一标签中的缺失标签为所述第二标签中包含、所述第一标签中未包含的标签；

根据所述第一标签中的缺失标签更新所述第一标签；

基于更新后的所述第一标签和所述第二标签的差别，确定第二损失函数值。

6.根据权利要求1所述的方法，其特征在于，所述通过解析所述第一文本得到所述第一文本对应的第一标签，包括：

对多个第一文本进行分词，以得到候选词；

统计所述候选词在所述多个第一文本中的出现次数，根据统计结果从所述候选词中确定标签集；

将所述第一文本中属于所述标签集的词作为所述第一文本对应的第一标签。

7.一种图像理解方法，其特征在于，包括：

获取经过训练的图像标签识别模型；其中，所述图像标签识别模型是根据第一损失函数值和第二损失函数值更新所述图像标签识别模型的参数而训练得到；所述第一损失函数值是将样本图像和第二文本映射为相同模态的信息，通过对映射后的所述样本图像和所述第二文本进行匹配所确定的；所述第二损失函数值是基于第一标签和第二标签所确定的；所述第一标签是通过解析所述样本图像对应的第一文本所得到的；所述第二标签是利用所述图像标签识别模型输出的所述样本图像对应的图像标签，所述第二文本是根据所述第二标签的组合所生成的；

利用所述图像标签识别模型处理目标图像，以输出所述目标图像的图像标签。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

通过将检索关键词与所述目标图像的图像标签进行匹配，以确定所述检索关键词与所述目标图像是否匹配。

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取经过训练的图像映射模型；其中，所述图像映射模型是根据所述第一损失函数值和所述第二损失函数值更新所述图像映射模型的参数而训练得到；所述第一损失函数值是通过对样本图像特征信息、第一文本特征信息和第二文本特征信息进行匹配所确定的；所述样本图像特征信息是利用所述图像映射模型输出的所述样本图像对应的特征信息；所述样本图像特征信息、所述第一文本特征信息和所述第二文本特征信息为相同模态的信息；

利用所述图像映射模型处理所述目标图像，以输出所述目标图像的特征信息。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

获取经过训练的文本映射模型；其中，所述文本映射模型是根据所述第一损失函数值和所述第二损失函数值更新所述文本映射模型的参数而训练得到；所述第一文本特征信息是利用所述文本映射模型输出的所述第一文本对应的特征信息；所述第二文本特征信息是利用所述文本映射模型输出的所述第二文本对应的特征信息；

利用所述文本映射模型处理检索文本，以输出所述检索文本的特征信息；

通过将所述检索文本的特征信息与所述目标图像的特征信息进行匹配，以确定所述检索文本与所述目标图像是否匹配。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

从所述检索文本中提取检索关键词；

所述通过将所述检索文本的特征信息与所述目标图像的特征信息进行匹配，以确定所述检索文本与所述目标图像是否匹配，包括：

通过将所述检索文本的特征信息与所述目标图像的特征信息进行匹配，以及将检索关键词与所述目标图像的图像标签进行匹配，以确定所述检索文本与所述目标图像是否匹配。

12.一种用于图像理解的模型训练装置，其特征在于，包括：

样本数据获取模块，被配置为获取样本图像以及所述样本图像对应的第一文本，通过解析所述第一文本得到所述第一文本对应的第一标签；

图像标签识别模块，被配置为利用图像标签识别模型输出所述样本图像对应的第二标签，根据所述第二标签的组合生成所述样本图像对应的第二文本；

第一损失函数值确定模块，被配置为将所述样本图像和所述第二文本映射为相同模态的信息，通过对映射后的所述样本图像和所述第二文本进行匹配以确定第一损失函数值；

第二损失函数值确定模块，被配置为基于所述第一标签和所述第二标签确定第二损失函数值；

参数更新模块，被配置为根据所述第一损失函数值和所述第二损失函数值更新所述图像标签识别模型的参数。

13.一种图像理解装置，其特征在于，包括：

模型获取模块，被配置为获取经过训练的图像标签识别模型；其中，所述图像标签识别模型是根据第一损失函数值和第二损失函数值更新所述图像标签识别模型的参数而训练得到；所述第一损失函数值是将样本图像和第二文本映射为相同模态的信息，通过对映射后的所述样本图像和所述第二文本进行匹配所确定的；所述第二损失函数值是基于第一标签和第二标签所确定的；所述第一标签是通过解析所述样本图像对应的第一文本所得到的；所述第二标签是利用所述图像标签识别模型输出的所述样本图像对应的图像标签，所述第二文本是根据所述第二标签的组合所生成的；

图像标签识别模块，被配置为利用所述图像标签识别模型处理目标图像，以输出所述目标图像的图像标签。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11任一项所述的方法。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至11任一项所述的方法。