CN114511043A

CN114511043A - 图像理解方法、装置、设备及介质

Info

Publication number: CN114511043A
Application number: CN202210401296.2A
Authority: CN
Inventors: 郭振华; 刘璐; 李仁刚; 赵雅倩; 闫瑞栋; 徐聪; 金良
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-05-17
Anticipated expiration: 2042-04-18
Also published as: WO2023201963A1; CN114511043B

Abstract

本申请公开了一种图像理解方法、装置、设备及介质，涉及人工智能领域，包括：基于训练图像对应的原始文本数据构建与训练图像对应的第一文本数据，利用简单视觉语言模型得到第二文本数据；基于训练图像、第一文本数据和第二文本数据构建图像文本对集，初始化图像理解模型；从图像文本对集中选取用作训练数据的图像文本对，利用当前的图像理解模型计算训练数据对应的模型总体损失函数值，对图像理解模型中的参数进行更新；判断当前是否满足结束条件，若否则跳转至从图像文本对集中选取用作训练数据的图像文本对的步骤，直到满足结束条件，利用当前输出的图像理解模型获取与待检测图像对应的目标文本数据。实现了能更加贴近真实应用场景的图像理解。

Description

图像理解方法、装置、设备及介质

技术领域

本发明涉及人工智能领域，特别涉及图像理解方法、装置、设备及介质。

背景技术

图像理解（Image Caption）通过计算机系统来解释图像，实现犹如人类视觉系统理解外部世界，其目的是在待检测图像中获取目标信息并利用该信息以得到目标文本数据。当前社交媒体通讯业发达，人们在国内社交软件抖音、微博，以及国外社交软件推特、Instagram等，无时无刻不在发表着个人言论。这些言论通常是以图文形式绑定出现，此时文字通常是用户设定的与图像相关的文本解释。然而，由于语言具有隐晦的性质，即图像与文本之间的关系为弱相关关系，因此在这种实际情况下，现有技术中使用计算模型试图理解人们的社交语言存在着认知障碍，文本与图像之间的强相关假设与实际社交媒体数据存在差异，这是由于人类相较于计算模型拥有更丰富的背景知识所导致的。因此，普通的图像理解方法依然无法适用在面向社交媒体的场景中。

综上可见，如何实现更加贴近真实的应用场景并且能够面向社交媒体的图像理解是本领域有待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种图像理解方法、装置、设备及介质，实现了更加贴近真实的应用场景并且能够面向社交媒体的图像理解。其具体方案如下：

第一方面，本申请公开了一种图像理解方法，包括：

基于训练图像对应的原始文本数据构建与所述训练图像对应的第一文本数据，并利用简单视觉语言模型对所述训练图像进行处理，以得到与所述训练图像对应的第二文本数据；

基于所述训练图像、所述第一文本数据和所述第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型；

从所述图像文本对集中选取用作训练数据的所述图像文本对，并利用当前的所述图像理解模型计算所述训练数据对应的模型总体损失函数值，然后基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新；

判断当前是否满足预设迭代结束条件，如果否则重新跳转至所述从所述图像文本对集中选取用作训练数据的所述图像文本对的步骤，直到满足所述预设迭代结束条件，并将当前输出的所述图像理解模型作为目标图像理解模型；

利用所述目标图像理解模型获取与待检测图像对应的目标文本数据。

可选的，所述基于训练图像对应的原始文本数据构建与所述训练图像对应的第一文本数据，包括：

获取训练图像以及与所述训练图像对应的原始文本数据；

提取所述原始文本数据的原始文本特征，并计算所述训练图像和所述原始文本数据之间的关联向量；

利用所述关联向量对所述原始文本特征进行更新，以得到所述第一文本数据。

可选的，所述计算所述训练图像和所述原始文本数据之间的关联向量，包括：

利用所述图像理解模型中的图像编码器计算出与所述训练图像对应的全局特征和浅层特征；

基于所述全局特征和所述浅层特征，并利用所述图像理解模型中的深度模型的解码器计算出所述训练图像和所述原始文本数据之间的关联向量。

可选的，所述利用当前的所述图像理解模型计算所述训练数据对应的模型总体损失函数值，包括：

利用当前的所述图像理解模型计算所述图像文本对的像素文本匹配损失函数值和文本距离损失函数值，并基于所述像素文本匹配损失函数值以及所述文本距离损失函数值确定模型总体损失函数值。

可选的，所述利用当前的所述图像理解模型计算所述图像文本对的像素文本匹配损失函数值和文本距离损失函数值，包括：

通过当前的所述图像理解模型中的图像编码器计算与所述图像文本对中所述训练图像对应的浅层特征；

基于所述浅层特征、所述图像文本对中所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征，并利用所述图像理解模型计算所述图像文本对的所述像素文本匹配损失函数值和所述文本距离损失函数值。

可选的，所述基于所述浅层特征、所述图像文本对中所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征，并利用所述图像理解模型计算所述图像文本对的所述像素文本匹配损失函数值和所述文本距离损失函数值，包括：

利用所述图像理解模型确定经过正则化处理的所述第一文本特征以及经过正则化处理的所述第二文本特征；

通过所述浅层特征、经过正则化处理的所述第一文本特征和经过正则化处理的所述第二文本特征计算出所述图像文本对的所述像素文本匹配损失函数值，并利用经过正则化处理的所述第一文本特征和经过正则化处理的所述第二文本特征计算出所述图像文本对的所述文本距离损失函数值。

可选的，所述基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新，包括：

基于所述模型总体损失函数值和自适应矩估计优化器，并利用梯度下降优化算法对所述图像理解模型的参数进行更新。

第二方面，本申请公开了一种图像理解装置，包括：

图文数据获取模块，用于基于训练图像对应的原始文本数据构建与所述训练图像对应的第一文本数据，并利用简单视觉语言模型对所述训练图像进行处理，以得到与所述训练图像对应的第二文本数据；

模型初始化模块，用于基于所述训练图像、所述第一文本数据和所述第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型；

模型参数更新模块，用于从所述图像文本对集中选取用作训练数据的所述图像文本对，并利用当前的所述图像理解模型计算所述训练数据对应的模型总体损失函数值，然后基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新；

模型确定模块，用于判断当前是否满足预设迭代结束条件，如果否则重新跳转至所述从所述图像文本对集中选取用作训练数据的所述图像文本对的步骤，直到满足所述预设迭代结束条件，并将当前输出的所述图像理解模型作为目标图像理解模型；

图像理解模块，用于利用所述目标图像理解模型获取与待检测图像对应的目标文本数据。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的图像理解方法的步骤。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的图像理解方法的步骤。

可见，本申请首先基于训练图像对应的原始文本数据构建与所述训练图像对应的第一文本数据，并利用简单视觉语言模型对所述训练图像进行处理，以得到与所述训练图像对应的第二文本数据；基于所述训练图像、所述第一文本数据和所述第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型；从所述图像文本对集中选取用作训练数据的所述图像文本对，并利用当前的所述图像理解模型计算所述训练数据对应的模型总体损失函数值，然后基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新；判断当前是否满足预设迭代结束条件，如果否则重新跳转至所述从所述图像文本对集中选取用作训练数据的所述图像文本对的步骤，直到满足所述预设迭代结束条件，并将当前输出的所述图像理解模型作为目标图像理解模型，以便利用所述目标图像理解模型获取与待检测图像对应的目标文本数据。由此可见，本申请通过基于训练图像对应的原始文本数据构建与所述训练图像对应的弱相关的第一文本数据，以便后续图像理解模型能够挖掘训练图像和第一文本数据之间的弱相关语义关系，获得丰富的语义层次监督；通过简单视觉语言模型对所述训练图像进行处理，以得到与所述训练图像对应的强相关的第二文本数据，以便后续基于第一文本数据和第二文本数据计算模型总体损失函数值；基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新，实现对图像理解模型进行优化，直至满足预设迭代结束条件，得到最优的目标图像理解模型，以便利用目标图像理解模型获取与待检测图像对应的目标文本数据，完成了更加贴近真实应用场景并可拓展至面向社交媒体的图像理解，又由于在得到目标图像理解模型过程中为端到端方法，所以更加容易落地实施。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种图像理解方法流程图；

图2为本申请公开的一种具体的第一文本数据构建方法流程图；

图3为本申请公开的一种具体的图像理解方法流程图；

图4为本申请公开的一种具体的图像理解方法流程图；

图5为本申请公开的一种具体的图像理解方法流程图；

图6为本申请公开的一种图像理解装置结构示意图；

图7为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中使用计算模型试图理解人们的社交语言存在着认知障碍，文本与图像之间的强相关假设与实际社交媒体数据存在差异，这是由于人类相较于计算模型拥有更丰富的背景知识所导致的。因此，普通的图像理解方法依然无法适用在面向社交媒体的场景中。

为此本申请相应的提供了一种图像理解方案，实现了更加贴近真实的应用场景并且能够面向社交媒体的图像理解。

参见图1所示，本申请实施例公开了一种图像理解方法，包括：

步骤S11：基于训练图像对应的原始文本数据构建与所述训练图像对应的第一文本数据，并利用简单视觉语言模型对所述训练图像进行处理，以得到与所述训练图像对应的第二文本数据。

本实施例中，参见图2所示的第一文本数据构建方法流程图，首先爬取社交网站中以及公开发布的图像作为训练图像，以及与图像对应的原始文本数据，提取原始文本数据中的原始文本特征，即使用图像理解模型中的CLIP（Contrastive Language-Image Pre-training，即对比语言-图像预训练模型）获取原始文本数据的语义信息；利用图像理解模型中的图像编码器获取训练图像的全局特征和浅层特征，并基于原始文本特征、全局特征以及浅层特征计算出原文本数据和训练图像之间的关联向量，并且可以利用关联向量对基于CLIP的图像理解模型进行训练；计算关联向量与预设超参的乘积，并基于乘积与原始文本特征的和获取更新后文本特征，然后基于更新后文本特征得到第一文本数据，以便后续基于第一文本数据和第二文本数据对图像理解模型进行测试，其中预设超参可以根据实际情况进行设置，例如可以设置为0.05或0.1。可以理解的是，第一文本数据与训练图像之间为弱相关，因此构建了弱相关的监督数据集，后续能够在此基础上挖掘图像与文本之间的弱相关语义关系，获得丰富的语义层次监督。将训练图像送入简单视觉语言模型中，获取与训练图像为强相关的第二文本数据，并且在获取第二本文数据过程中，还利用目前SOTA（State-Of-The-Art，即最先进）的图像理解方法，对训练图像进行标注。

步骤S12：基于所述训练图像、所述第一文本数据和所述第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型。

本实施例中，基于训练图像{I₁，I₂，…I_n}、第一文本数据{t₁ ^weak，t₂ ^weak，…t_n ^weak}以及第二文本数据{t₁ ^strong，t₂ ^strong，…t_n ^strong }构建图像文本对{（I₁，t₁ ^weak，t₁ ^strong）、（I₂，t₂ ^weak，t₂ ^strong）、…（I_n，t_n ^weak，t_n ^strong）}，其中可以理解的是，训练图像（I₁）与第一文本数据（t₁ ^weak）相对应，训练图像（I₁）与第二文本数据（t₁ ^strong）相对应。

步骤S13：从所述图像文本对集中选取用作训练数据的所述图像文本对，并利用当前的所述图像理解模型计算所述训练数据对应的模型总体损失函数值，然后基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新。

本实施例中，从所述图像文本对集{（I₁，t₁ ^weak，t₁ ^strong）、（I₂，t₂ ^weak，t₂ ^strong）、…（I_n，t_n ^weak，t_n ^strong）}中选取用作训练数据的所述图像文本对；利用当前的图像理解模型计算训练数据对应的像素文本匹配损失函数值（Pixe-Text Matching Loss）和文本距离损失函数值（Text Distance Loss），并基于像素文本匹配损失函数值以及文本距离损失函数值确定模型总体损失函数值。

步骤S14：判断当前是否满足预设迭代结束条件，如果否则重新跳转至所述从所述图像文本对集中选取用作训练数据的所述图像文本对的步骤，直到满足所述预设迭代结束条件，并将当前输出的所述图像理解模型作为目标图像理解模型。

步骤S15：利用所述目标图像理解模型获取与待检测图像对应的目标文本数据。

本实施例中，判断当前是否满足预设迭代结束条件，可以为判断当前是否到达预设迭代次数，例如预设迭代次数为100万次，如果当前迭代次数未到达100万次则重新跳转至所述从所述图像文本对集中选取用作训练数据的所述图像文本对的步骤，若到达100万次，则停止训练。可以理解的是，在每一次迭代的过程中都会对当前的图像理解模型的参数进行更新，而最后一次迭代输出的模型即为目标图像理解模型，并利用目标图像理解模型输出待检测图像的目标文本数据。

参见图3所示，本申请实施例公开了一种具体的图像理解方法，包括：

步骤S21：基于训练图像与原始文本数据的关联向量以及原始文本数据的原始特征数据获取与所述训练图像对应的第一文本数据，并利用简单视觉语言模型对所述训练图像进行处理，以得到与所述训练图像对应的第二文本数据。

本实施例中，所述基于训练图像与原始文本数据的关联向量以及原始文本数据的原始特征数据获取与所述训练图像对应的第一文本数据，具体包括：获取训练图像以及与所述训练图像对应的原始文本数据；提取所述原始文本数据的原始文本特征，并计算所述训练图像和所述原始文本数据之间的关联向量；利用所述关联向量对所述原始文本特征进行更新，以得到所述第一文本数据。在图像理解模型中引入由两个编码器组成的CLIP，其中两个编码器包括图像编码器和文本编码器，图像编码器可以为ResNet或ViT（VisionTransformer，即视觉深度模型），为了将CLIP中学习到的知识转移到下游的分类任务，一种简单而有效的方法是基于模板构造一组文本提示prompt，如“a photo of a [CLS]”，其中[CLS]可以被实际图片的类别替换。然后给定一幅图像，利用CLIP计算出该图像在嵌入空间中与文本提示符的相似度，以得分最高的类作为最终的预测。在预先构造第一文本数据的文本模板时，文本模板可以为

个类别，并且文本模板中包含文本提示（prompt），例如“[V]₁[V]₂…[V]_M[CLS]”，需要注意的是，“[V]₁[V]₂…[V]_M”以及“[CLS]”均为不固定的词语，因此文本模板更加灵活，贴近实际应用场景；获取文本特征，可以利用图像理解模型中的文本编码器提取原始文本数据的文本特征

，

表示类别个数，

表示通道数，

表示欧式空间，其中利用关联向量对原始文本特征进行更新所涉及的公式如下：

；

其中，

表示更新后的原始文本特征，

表示原始文本特征，

表示超参数，

表示关联向量。

本实施例中，所述计算所述训练图像和所述原始文本数据之间的关联向量，具体包括：利用所述图像理解模型中的图像编码器计算出与所述训练图像对应的全局特征和浅层特征；基于所述全局特征和所述浅层特征，并利用所述图像理解模型中的深度模型的解码器计算出所述训练图像和所述原始文本数据之间的关联向量。

本实施例中，在获取全局特征和浅层特征过程中，需要利用图像编码器提取训练图像的特征向量，例如以ResNet编码器为例，总共有4个阶段，将特征图映射表示为

，在图像理解模型中预加载CLIP，利用CLIP在ResNet（residual network，即残差网络）编码器中引入一个注意力池化层（Attention Pooling），CLIP首先对

执行全局平均池，以获取训练图像的全局特性

，其中

表示第四阶段的特征图，

表示欧式空间，

表示特征图的高度，

表示特征图的宽度，

表示特征图通道数，并将包含特征图和全局特性的连接特征送入多头注意力层（multi head self attention，即MHSA），其中涉及公式如下：

；

其中，

表示全局特征，

表示浅层特征，

表示第四阶段的全局特性，

表示第四阶段的特征图。

本实施例中，基于全局特征、浅层特征以及原始文本特征，并利用深度模型的解码器获取关联向量，例如利用一种由注意力机制组成的深度模型（Transformer），获取关联向量，涉及公式如下：

；

其中，

表示关联向量，

表示原始文本特征，

表示全局特征，

表示浅层特征。

本实施例中，获取到更新后文本特征、浅层特征，以便后续计算像素文本得分，其中涉及公式如下：

；

其中，

表示像素文本得分，

表示经过L₂正则化后的浅层特征，

表示经过L₂正则化后的更新后的原始文本特征，

表示欧式空间，

表示特征图的高度，

表示特征图的宽度，

表示特征图通道数。

步骤S22：基于所述训练图像、所述第一文本数据和所述第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型。

步骤S23：从所述图像文本对集中选取用作训练数据的所述图像文本对，并利用当前的所述图像理解模型计算所述训练数据对应的模型总体损失函数值，然后基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新。

本实施例中，所述基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新，具体包括：基于所述模型总体损失函数值和自适应矩估计优化器，并利用梯度下降优化算法对所述图像理解模型的参数进行更新。首先利用当前的图像理解模型计算图像文本对的像素文本匹配损失函数值和文本距离损失函数值，并基于像素文本匹配损失函数值以及文本距离损失函数值确定模型总体损失函数值；然后基于模型总体损失函数值和自适应矩估计优化器（Adam），并利用梯度下降优化算法对所述图像理解模型的参数进行更新。

步骤S24：判断当前是否满足预设迭代结束条件，如果否则重新跳转至所述从所述图像文本对集中选取用作训练数据的所述图像文本对的步骤，直到满足所述预设迭代结束条件，并将当前输出的所述图像理解模型作为目标图像理解模型。

步骤S25：利用所述目标图像理解模型获取与待检测图像对应的目标文本数据。

由此可见，本申请根据与训练图像对应的原始文本数据及其原始文本特征构建与训练图像弱相关的第一文本数据，不仅仅以与训练图像强相关的第二文本数据为训练数据，第一方面避免了因第二文本数据与实际文本数据存在差异而导致训练数据的不准确，第二方面利用弱相关的第一文本数据能够丰富图像与文本之间的弱相关语义关系以及语义层次监督，更加灵活，更加符合实际。

参见图4所示，本申请实施例公开了一种具体的图像理解方法，包括：

步骤S31：基于训练图像对应的原始文本数据构建与所述训练图像对应的第一文本数据，并利用简单视觉语言模型对所述训练图像进行处理，以得到与所述训练图像对应的第二文本数据。

本实施例中，首先爬取社交网站中公开的图像以及与图像对应的文本，分别作为训练图像以及原始文本数据，例如，获取“圆蛋糕”图片作为训练图像，与之对应的原始文本数据“Happy birthday，Make a wish”，获取“狗和男人”图片作为训练图像，与之对应的原始文本数据“We are friends forever”。例如图5所示，将原始文本数据“We are friendsforever”以及对应的训练图像输入至图像理解模型中，图像理解模型中的文本编码器会基于预设的

个类别文本模板以及文本模板中包含的文本提示获取与原始文本数据对应的第一文本数据“The man is sitting with his dog”，以便后续利用第一文本数据计算像素文本匹配损失函数值和文本距离损失函数值。

步骤S32：基于所述训练图像、所述第一文本数据和所述第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型。

步骤S33：从所述图像文本对集中选取用作训练数据的所述图像文本对，并利用当前的所述图像理解模型计算所述图像文本对的像素文本匹配损失函数值和文本距离损失函数值。

本实施例中，所述利用当前的所述图像理解模型计算所述图像文本对的像素文本匹配损失函数值和文本距离损失函数值，具体包括：通过当前的所述图像理解模型中的图像编码器计算与所述图像文本对中所述训练图像对应的浅层特征；基于所述浅层特征、所述图像文本对中所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征，并利用所述图像理解模型计算所述图像文本对的所述像素文本匹配损失函数值和所述文本距离损失函数值。

本实施例中，所述基于所述浅层特征、所述图像文本对中所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征，并利用所述图像理解模型计算所述图像文本对的所述像素文本匹配损失函数值和所述文本距离损失函数值，具体可以包括：利用所述图像理解模型确定经过正则化处理的所述第一文本特征以及经过正则化处理的所述第二文本特征；通过所述浅层特征、经过正则化处理的所述第一文本特征和经过正则化处理的所述第二文本特征计算出所述图像文本对的所述像素文本匹配损失函数值，并利用经过正则化处理的所述第一文本特征和经过正则化处理的所述第二文本特征计算出所述图像文本对的所述文本距离损失函数值。

其中，像素文本匹配损失函数（Pixe-Text Matching Loss）值计算公式如下：

；

其中，

表示像素文本匹配损失函数值，

表示第二文本数据的文本特征，

表示第一文本数据的文本特征，

表示经过L₂正则化后的第二文本数据的文本特征，

表示经过L₂正则化后的第一文本数据的文本特征，

表示经过L₂正则化后的浅层特征，

表示转置。

其中，文本距离损失函数（Text Distance Loss）值计算公式如下：

；

其中，

表示文本距离损失函数值，

表示经过L₂正则化后的第二文本数据的文本特征，

表示经过L₂正则化后的第一文本数据的文本特征。

步骤S34：基于所述像素文本匹配损失函数值以及所述文本距离损失函数值确定模型总体损失函数值，并基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新。

本实施例中，计算像素文本匹配损失函数值与文本距离损失函数值的和，并将像素文本匹配损失函数值与文本距离损失函数值的和作为模型总体损失函数值，其中计算公式如下：

；

其中，

表示模型总体损失函数值，

表示像素文本匹配损失函数值，

表示文本距离损失函数值。

步骤S35：判断当前是否满足预设迭代结束条件，如果否则重新跳转至所述从所述图像文本对集中选取用作训练数据的所述图像文本对的步骤，直到满足所述预设迭代结束条件，并将当前输出的所述图像理解模型作为目标图像理解模型。

步骤S36：利用所述目标图像理解模型获取与待检测图像对应的目标文本数据。

由此可见，本申请利用当前的图像理解模型计算图像文本对的像素文本匹配损失函数值和文本距离损失函数值，并基于像素文本匹配损失函数值以及文本距离损失函数值确定模型总体损失函数值，进而基于模型总体损失函数值对所述图像理解模型中的参数进行更新，实现对图像理解模型进行优化，直至满足预设迭代结束条件，得到最优的目标图像理解模型，以便利用目标图像理解模型获取与待检测图像对应的目标文本数据。

参见图6所示，本申请实施例公开了一种图像理解装置，包括：

图文数据获取模块11，用于基于训练图像对应的原始文本数据构建与所述训练图像对应的第一文本数据，并利用简单视觉语言模型对所述训练图像进行处理，以得到与所述训练图像对应的第二文本数据；

模型初始化模块12，用于基于所述训练图像、所述第一文本数据和所述第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型；

模型参数更新模块13，用于从所述图像文本对集中选取用作训练数据的所述图像文本对，并利用当前的所述图像理解模型计算所述训练数据对应的模型总体损失函数值，然后基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新；

模型确定模块14，用于判断当前是否满足预设迭代结束条件，如果否则重新跳转至所述从所述图像文本对集中选取用作训练数据的所述图像文本对的步骤，直到满足所述预设迭代结束条件，并将当前输出的所述图像理解模型作为目标图像理解模型。

图像理解模块15，用于利用所述目标图像理解模型获取与待检测图像对应的目标文本数据。

图7为本申请实施例提供的一种电子设备的结构示意图。具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的由计算机设备执行的图像理解方法中的相关步骤。

本实施例中，电源23用于为计算机设备20上的各硬件设备提供工作电压；通信接口24能够为计算机设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统221、计算机程序222及数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制计算机设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由计算机设备20执行的图像理解方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括计算机设备接收到的由外部设备传输进来的数据，也可以包括由自身输入输出接口25采集到的数据等。

进一步的，本申请实施例还公开了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的由图像理解过程中执行的方法步骤。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种图像理解方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像理解方法，其特征在于，包括：

2.根据权利要求1所述的图像理解方法，其特征在于，所述基于训练图像对应的原始文本数据构建与所述训练图像对应的第一文本数据，包括：

获取训练图像以及与所述训练图像对应的原始文本数据；

3.根据权利要求2所述的图像理解方法，其特征在于，所述计算所述训练图像和所述原始文本数据之间的关联向量，包括：

4.根据权利要求1所述的图像理解方法，其特征在于，所述利用当前的所述图像理解模型计算所述训练数据对应的模型总体损失函数值，包括：

5.根据权利要求4所述的图像理解方法，其特征在于，所述利用当前的所述图像理解模型计算所述图像文本对的像素文本匹配损失函数值和文本距离损失函数值，包括：

6.根据权利要求5所述的图像理解方法，其特征在于，所述基于所述浅层特征、所述图像文本对中所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征，并利用所述图像理解模型计算所述图像文本对的所述像素文本匹配损失函数值和所述文本距离损失函数值，包括：

7.根据权利要求1至6任一项所述的图像理解方法，其特征在于，所述基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新，包括：

8.一种图像理解装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的图像理解方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的图像理解方法的步骤。