CN114429566A

CN114429566A - 一种图像语义理解方法、装置、设备及存储介质

Info

Publication number: CN114429566A
Application number: CN202210067262.4A
Authority: CN
Inventors: 刘志远; 赵建博; 刘涵宇; 马伟; 谢奇奇; 刘超; 刘朋樟; 包勇军
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-03

Abstract

本发明实施例公开了一种图像语义理解方法、装置、设备和存储介质，所述方法包括：获取目标图像信息；将所述目标图像信息输入至预先训练的语义理解模型中，获得所述语义理解模型输出的语义分类结果，所述语义理解模型基于关联的图像信息和文本信息训练得到；根据所述语义分类结果确定语义理解结果。本发明实施例提供的方法通过直接基于获取的关联的图像信息和文本信息训练得到的语义理解模型对目标图像信息进行分类，简化了模型训练时的标注量，实现了少了标注即可训练得到分类准确的语义理解模型。

Description

一种图像语义理解方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种图像语义理解方法、装置、设备及存储介质。

背景技术

图像语义理解是一个很有价值的方向，很多场景都需要用到图像语义信息，比如图像打标签，以图像作为输入进行信息推荐等。为了理解图像的语义信息，通常的做法是通过对图像进行标注，比如图像的风格是“时尚潮流”，图像描述了“商品破损”，然后利用标注了文本信息的图像数据，训练图片语义理解模型，理解商品图片的语义。

在实现本发明的过程中，发明人发现现有技术中至少存在以下技术问题：为了能够训练出准确的语义理解模型，需要标注量很大，标注复杂度很高。当标注量不足、标注不合理时，训练出的语义理解模型的准确度较低。

发明内容

本发明实施例提供了一种图像语义理解方法、装置、设备及存储介质，以实现提高语义理解模型的准确度。

第一方面，本发明实施例提供了一种图像语义理解方法，包括：

获取目标图像信息；

将目标图像信息输入至预先训练的语义理解模型中，获得语义理解模型输出的语义分类结果，语义理解模型基于关联的图像信息和文本信息训练得到；

根据语义分类结果确定语义理解结果。

第二方面，本发明实施例还提供了一种图像语义理解装置，包括：

目标图像获取模块，用于获取目标图像信息；

模型分类模块，用于将目标图像信息输入至预先训练的语义理解模型中，获得语义理解模型输出的语义分类结果，语义理解模型基于关联的图像信息和文本信息训练得到；

语义理解模块，用于根据语义分类结果确定语义理解结果。

第三方面，本发明实施例还提供了一种计算机设备，设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如本发明任意实施例所提供的图像语义理解方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的图像语义理解方法。

本发明实施例提供的图像语义理解方法通过获取待生成围栏的候选围栏区域；获取目标图像信息；将目标图像信息输入至预先训练的语义理解模型中，获得语义理解模型输出的语义分类结果，语义理解模型基于关联的图像信息和文本信息训练得到；根据语义分类结果确定语义理解结果。通过直接基于获取的关联的图像信息和文本信息训练得到的语义理解模型对目标图像信息进行分类，简化了模型训练时的标注量，实现了少了标注即可训练得到分类准确的语义理解模型。

附图说明

图1是本发明实施例所提供的一种图像语义理解方法的流程示意图；

图2是本发明实施例所提供的又一种图像语义理解方法的流程示意图；

图3a是本发明实施例所提供的又一种图像语义理解方法的流程示意图；

图3b是本发明实施例所提供的一种商品图片分类的流程示意图；

图4是本发明实施例提供的一种图像语义理解装置的结构示意图；

图5是本发明实施例所提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1是本发明实施例所提供的一种图像语义理解方法的流程示意图。本实施例可适用于对图像进行语义理解分类时的情形，尤其适用对物品图片进行语义理解分类时的情形。该方法可以由图像语义理解装置执行，该图像语义理解装置可以采用软件和/或硬件的方式实现，例如，该图像语义理解装置可配置于计算机设备中。如图1所示，该方法包括：

S110、获取目标图像信息。

在本实施例中，目标图像信息可以为需要进行情感分类的图像信息。可选的，目标图像信息可以为直接从网页、应用程序中获取的原始图像信息。也可以是对获取的原始图像信息进行处理后的图像信息。

当原始图像信息中数据噪声较多时，直接将获取的原始图像信息作为目标图像信息的语义理解结果可能会导致图像语义理解结果不准确。在此基础上，为提高图像语义理解的准确度，需要对原始图像信息进行图像预处理后得到目标图像信息。可选的，可以对原始图像信息进行数据噪声祛除、图像大小调整等图像预处理操作得到目标图像信息。其中，图像大小调整可以根据训练后的语义理解模型设置，最优是与语义理解模型训练时采用的样本图像的大小一致。

S120、将目标图像信息输入至预先训练的语义理解模型中，获得语义理解模型输出的语义分类结果，语义理解模型基于关联的图像信息和文本信息训练得到。

获取目标图像信息后，将目标图像信息输入至预先训练好的语义理解模型中，得到语义理解模型输出的语义分类结果。可选的，语义分类结果可以为目标图像信息的语义标签，如正向、中性、负向等标签。

本实施例中，为降低样本数据标注量的同时，保证语义理解模型的分类准确度，可以基于获取的相关联的图文信息生成训练样本数据。其中，相关联的图文信息可以从网页、应用程序等渠道获取。

示例性的，相关联的图文信息可以从互联网购物平台上获取。一般来说，用户通过互联网购物平台购买物品后，会对所购买的物品进行评价。评价内容可能包括图像信息和文本信息。可选的，可以将同一条评论信息中的图像信息和文本信息作为相关联的图文信息。获取相关联的图文信息后，基于相关联的图文信息生成训练样本数据，使用训练样本数据对语义理解模型进行训练，得到训练后的语义理解模型。

一个实施例中，语义理解模型对目标图像信息进行语义理解可以包括编码部分和分类部分。可选的，语义理解模型包括图像编码子模型和语义分类子模型，将目标图像信息输入至预先训练的语义理解模型中，获得语义理解模型输出的语义分类结果，包括：将目标图像信息输入至图像编码子模型中，得到图像编码子模型输出的目标图像语义向量；将目标图像语义向量输入至语义分类子模型中，得到语义分类子模型输出的语义分类结果。其中，图像编码子模块用于对目标图像信息进行编码，得到目标图像语义向量；语义分类模型用于根据目标图像语义向量确定目标图形信息的语义分类类别。以目标图像信息为商品图片为例，将商品图片输入至图像编码子模型中，得到图片语义编码，然后将图片语义编码输入到语义分类子模型中，预测出商品图片的情感或标签分类。

S130、根据语义分类结果确定语义理解结果。

在本实施例中，可以直接将语义分类结果作为语义理解结果。假设语义分类结果为正向，则将正向作为语义理解结果。可以理解为目标图像信息的语义理解结果为正向。假设目标图像信息为商品图片，则可以理解为该商品的语义理解为正向。当语义理解应用在推荐场景中时，正向标签的目标图像信息对应的商品为值得推荐的商品。

图2是本发明实施例所提供的又一种语义理解方法的流程示意图。本实施例在上述实施例的基础上，对语义理解模型的训练进行了进一步优化。如图2 所示，方法包括：

S210、基于评价信息中相关联的图文信息生成正样本数据和负样本数据，根据正样本数据和负样本数据生成训练样本数据。

在本实施例中，不再需要人工标注所有的样本信息，直接根据获取的相关联的图文信息生成训练样本数据即可。整体来说，将相关联的图文信息作为正样本数据，将不关联的图文信息作为负样本数据，综合正样本数据和负样本数据，得到训练样本数据。

在互联网购物平台场景中，可以基于互联网购物平台中海量的图文评价信息构建训练样本数据。随着移动互联网和通信技术的发展，电商平台上的评价除了文本还有配有丰富的图片，图文并存是当前评价模块的趋势。商品评价中的文本和图片存在语义相关性，文本往往反应了图片的语义信息。基于此可以借助商品评价的图文数据构建训练样本数据，以进行语义理解模型的训练。但是评价中可能包含毫无关联的图像文本，因此，在获取相关联的图文信息后，可以对获取的信息进行预处理，基于预处理后的相关联的图文信息生成训练样本数据。

一个实施例中，基于评价信息中相关联的图文信息生成正样本数据和负样本数据，包括：获取评价信息中的相关联的图文信息作为样本基础信息；对样本基础信息进行数据规范化处理，得到正样本数据；将评价信息中的图像信息和文本信息随机组合，得到负样本数据。

可选的，直接将从评价中获取的相关联的图文信息作为样本基础信息，然后对样本基础信息进行处理后，生成训练样本数据。对样本基础信息进行处理可以为：对获取的信息进行数据过滤和规范化处理。其中，数据过滤可以理解为过滤到信息中无意义的或者垃圾文本的内容。规范化处理可以理解为过滤到信息中的冗余信息、对图片进行规范化处理等。数据过滤可以通过构建的垃圾文本检测工具实现。可选的，垃圾文本检测工具可以基于文本二分类模型构建。通过垃圾文本检测工具可以过滤到信息中不存在物品信息的图文样本。数据规范化处理也可以通过预先构建的文本精简模型实现。如针对原始评论“首先商家非常的守诚信，水果非常好吃，特别甜特别甜特别甜，重要的事情说三遍。家里宝宝老人都喜欢吃。超级有诚信的商家。太棒了”，首先通过重复词语检测，检测出重复词语“特别甜特别甜特别甜”，然后计算原始评论中句子之间的相似度，去掉重复语义的句子，然后过滤到无意义的语句，最后将原始评论精简为“水果是非常好吃，特别甜”。对图片进行规范化处理可以为祛除图像的噪声、统一图像的大小等处理操作。其中，祛除图像噪声可以通过中值滤波、均值滤波、高斯滤波等至少一种滤波方式过滤掉噪声数据。

对样本基础信息进行数据规范化处理后，可以得到规范的图文高相关的正样本数据。然后通过一定的随机组合即将图文高相关的正样本数据中的文本集合随机打散，图片集合随打散，然后随机抽取文本和图片组成对，作为负样本数据。为了保证负样本的难易程度均衡，可以构建两类负样本：完全随机负样本和带约束的随机负样本。完全随机负样本可以将关联的图文信息打散后随机组合得到的负样本。带约束的随机负样本可以为在设定约束条件下图文随机组合得到的负样本，如设定在某个品类下的文本和图像的随机组合作为负样本。

S220、基于训练样本数据，对预先构建的语义理解模型进行训练，得到训练后的语义理解模型。

得到训练样本数据后，基于训练样本数据对语义理解模型进行训练，即可得到训练后的语义理解模型。

在本发明的一种实施方式中，语义理解模型中的图像编码子模型为双塔模型。双塔模型主要通过对两个对象进行编码为固定长度的向量，然后通过两个向量间进行计算相似度来计算两个对象之间的关系。本实施例中训练样本数据包括图像信息和文本信息。因此，为计算图像信息和文本信息的编码，需要设置图像编码器和文本编码器。

在上述基础上，图像编码子模型包括文本编码器和图像编码器，基于训练样本数据，对预先构建的语义理解模型进行训练，得到训练后的语义理解模型，包括：针对训练样本数据中的图文信息对，将图文信息对的样本文本信息输入至文本编码器中，获得文本编码器输出的目标文本编码信息，将图文信息对的样本图像信息输入至图像编码器中，获得图像编码器输出的目标图像编码信息；基于目标文本编码信息和目标图像编码信息确定目标损失值，以目标损失值达到收敛条件为目标，对图像编码子模型进行训练，得到训练后的图像编码子模型；基于训练后的图像编码子模型对语义分类子模型进行训练，得到训练后的语义分类子模型。

在本实施例中，语义理解模型中的图像编码子模型和语义分类子模型可以相互独立训练，也可以同时训练。其中，对图像编码子模型的训练整体思路为：先分别对输入的训练样本数据中的文本信息和图像信息进行编码，得到文本语义向量作为目标文本编码信息，以及得到图片语义向量作为目标图像编码信息，然后计算目标文本编码信息和目标图像编码信息的语义相似度作为图文的匹配度得分，然后基于图文的匹配度得分计算目标损失值，按固定大小批次的数据输入到图文匹配模型，进行反向传播训练，更新模型参数，直到模型收敛。其中，文本编码器可以采用Transformer模型，Transformer模型采用多头自注意力机制对文本进行编码计算，能够捕捉到全局的语义信息，同时因为没有时序依赖，可以充分并行化，计算效率高。图像编码器可以采用Swig-Transformer 模型。基于图文的匹配度得分计算目标损失值可以为：计算图文的匹配度得分和真实标准的交叉熵作为目标损失值。

当从评价信息中获取相关联的图文信息时，图文信息中图像的数量可能为多个。如用户可能上传多幅图像，添加一串文本进行评价。因此，图文信息对中包含多个样本图像信息时，需要基于多个样本图像信息得到一个目标图像编码信息。

一个实施例中，图文信息对中包含至少两个样本图像信息，将图文信息对的样本图像信息输入至图像编码器中，获得图像编码器输出的目标图像编码信息，包括：将各样本图像信息叠加，得到叠加图像信息；将叠加图像信息输入至图像编码器中，获得图像编码器输出的目标图像编码信息。可选的，可以将多个样本图像信息叠加后，得到一副叠加图像信息，将叠加图像信息输入到图像编码器中，得到目标图像编码信息。

另一个实施例中，图文信息对中包含至少两个样本图像信息，将图文信息对的样本图像信息输入至图像编码器中，获得图像编码器输出的图像编码信息，包括：分别将各样本图像信息输入至图像编码器中，得到图像编码器输出的各样本图像信息的图像编码信息；将各样本图像信息的图像编码信息求和，得到目标图像编码信息。还可以分别通过图像编码器计算每个样本图像信息的图像编码信息，然后将所有样本图像信息的图像编码信息求和，得到目标图像编码信息。优选的，先计算各样本图像信息的图像编码信息，再求和得到目标图像编码信息。分别计算各样本图像信息的图像编码信息避免了图像叠加导致的特征丢失，使得得到的目标图像编码信息更加准确。

在训练完图像编码子模型后，基于训练后的图像编码子模型对语义分类子模型进行训练。在本实施例中，文本编码器和图像编码器分别与语义分类子模型相连接，基于训练后的图像编码子模型对语义分类子模型进行训练，得到训练后的语义分类子模型，包括：针对训练样本数据中的文本信息，基于文本编码器确定文本信息的文本编码信息；根据文本编码信息和文本信息的标签构建语义分类模型训练样本；基于语义分类模型训练样本，对预先构建的语义分类子模型进行训练，得到训练后的语义分类子模型。

通过训练后的图像编码子模型，可以实现对图像信息和文本信息的语义理解。可以基于图像编码子模型的语义理解实现图像的情感分类。在本实施例中，语义分类子模型的训练样本数据可以为上述获得的正样本数据。语义分类子模型是一类基础的分类模型，用于实现对文本信息的正向、中性、负向的分类。

在对语义分类子模型进行训练时，可以以相关联的图文信息中文本信息的文本语义向量作为输入，预测文本信息的情感标签。文本信息的文本语义向量可以根据图像编码子模型中的文本编码器获得。可以采用文本编码器输出的文本意义向量以及文本标签构建语义分类模型训练样本对语义分类子模型进行训练。采用文本信息训练出语义分类子模型后，就可以将语义分类子模型迁移到图像信息，实现图像信息的情感分类。

S230、获取目标图像信息。

S240、将目标图像信息输入至预先训练的语义理解模型中，获得语义理解模型输出的语义分类结果，语义理解模型基于关联的图像信息和文本信息训练得到。

S250、根据语义分类结果确定语义理解结果。

本发明实施例提供的方法通过基于评价信息中相关联的图文信息生成正样本数据和负样本数据，根据所述正样本数据和所述负样本数据生成训练样本数据；基于所述训练样本数据，对预先构建的语义理解模型进行训练，得到训练后的语义理解模型，简化了训练样本构建时的标注量，实现了少了标注即可训练得到分类准确的语义理解模型。

在上述方案的基础上，提供一种优选实施例。以商品图片为例，对图像的语义理解进行说明。图3a是本发明实施例所提供的又一种图像语义理解方法的流程示意图。如图3a所示，首先以评价中的图文对作为输入训练双塔结构的图文匹配模型。双塔图文匹配模型，包含两部分，一个塔是文本编码器，另一个塔是图片编码器。然后将带情感标签的评价通过文本编码器进行编码，得到文本语义向量，然后以文本语义向量作为输入x，它对应的情感或者标签作为y 训练情感或标签分类模型。由于分类模型以语义向量为输入，因此可以用来对商品图片的语义向量进行情感和标签分类。

整体来说，图像的语义理解包括如下步骤：

1、构建图文匹配模型，实现图片的语义理解

1)数据预处理

商品评价中的文本和图片存在语义相关性，文本往往反应了图片的语义信息。可以借助商品评价的图文数据作为输入，构建图文匹配模型，理解商品图片语义。可以对商品评价的图文数据进行预处理后构建训练样本数据进行模型训练。

其中，数据预处理阶段是为了给图文匹配模型构建训练数据。电商平台存在海量的图文评价数据，同时也存在很多噪声数据，比如垃圾评价和垃圾图片，或者评价内容冗余的情况。可以通过以下两种手段来对数据进行规范化处理：

第一、数据过滤，使用已经构建好的垃圾文本检测模型，过滤掉包含无意义的或者垃圾文本的图文内容。垃圾文本检测模型是一个简单的文本二分类模型，用于判断文本是否为垃圾文本，常见的垃圾文本例子可以包括如下几类：讲故事类：“你们想过吗？为什么安迪继承的豪宅在魏渭的小区？因为魏渭是魏国强的儿子...”、无意义的凑字数类：“饭否发广告哥哥哥哥哥哥哥哥哥哥哥哥”、广告类：“【中海物业】尊敬佛山中海锦城国际花园商业街XX座XX号铺业主：中海锦城管理处温馨提示您...”等。通过垃圾文本检测模型可以过滤掉一些图片中完全不存在商品信息的图文样本。

第二、数据规范化，通过文本精简模型，过滤掉文本中冗余信息，比如重复的词语、无意义的词语，尽量保留商品相关的维度信息。如将原始评论“首先商家非常的守诚信，水果非常好吃，特别甜特别甜特别甜，重要的事情说三遍。家里宝宝老人都喜欢吃。超级有诚信的商家。太棒了”简化为“水果是非常好吃，特别甜”。另外，通过一定的图片处理技术，对图像进行规范化，包括祛除图像的噪声、统一图片的大小等。

通过上述两步操作，可以得到较为规范的商品图文高相关的正样本数据。然后对正样本数据中的图片和文本打散随机组合后，得到负样本数据。

2)模型训练

通过数据处理过程，我们获得了图文匹配的训练样本：(文本，图片，label)，其中文本为预处理后的一段评价文本；图片可以是一张图片或者多张图片，也可以推广为短视频；label表示图文是否匹配，匹配为1，不匹配为0。

可以选择双塔模型作为图文匹配模型，图文匹配模型先分别对输入文本、图片进行编码，文本编码器采用Transformer模型，图像编码器则采用 Swig-Transformer模型。Swin-Transformer模型是transformer模型在图像上的改进算法。不同于文本是一个准一维的向量，图像是一个二维的像素点矩阵，序列更长，计算复杂度高；同时原始的transformer模型对图像中的实例分割效果比较差，对图片中商品边界学习比较差。Swin-Transformer模型做了以下改进： 1)按层级结构对文本进行编码，包含4个阶段；2)引入Patch切分(Partition) 和合并(Merge)操作，对局部块进行合并降低transformer的输入长度，提升模型效率；3)在每个阶段交替使用W-MSA和SW-MSA进行特征提取，其中 W-MSA指的把图片按固定大小的窗口进行划分，只在窗口内进行多头自注意力计算，SW-MSA改变窗口划分的位置进行自注意力机制，解决W-MSA不同窗口间的信息交互丢失的问题。以上改进既能加速模型计算，也能对提升模型对图像的语义理解。

获得计算文本语义向量和图片语义向量后，计算它们的语义相似度，作为图文的匹配度得分。通常大家会选择余弦相似度作为语义相似度的度量，这里选择一种弧度的方式作为语义相似度的度量，计算如下：

其中v_a，v_b分表示文本、图片的语义向量。得到图文的语义相似度后，通过上述公式计算它和真实label的交叉熵作为模型优化的损失函数。按固定大小批次的数据输入到图文匹配模型，进行反向传播训练，更新模型参数，直到模型收敛。

当评价中存在多张图片的时候，有两种处理方法，一种是对图片进行叠加然后输入到图片编码模型，得到图片的语义向量；另外一种是分别对图片进行编码，然后求和作为整体的语义向量。我们选择后者作为多图片的语义理解输出。

2、迁移学习

通过训练后的图文匹配模型，可以把图片和文本编码到相同的语义空间。可以将文本的分类能力迁移到图片分类，实现自动化的图片情感分析和图片打标。

文本情感分类模型(即语义分类子模型)是一类基础的分类模型，实现对文本的正向中性负向的分类。最简单的是基于电商的评价星级，训练情感分类模型。但是因为星级不准，往往模型准确率不高。因此可以采用人工标注的方式，对评价文本进行正向中性负向的标注，然后训练情感分类模型。

训练阶段，文本情感分类模型以评价的语义向量作为输入，预测文本的情感标签。语义向量来自于图文匹配模型的文本编码器的编码。获得以文本语义向量为输入的情感分类模型后，就可以用图片的语义向量作为输入，识别图片的情感。最终，将文本情感模型迁移到商品图片，实现图片的情感分析。类似的，可以通过商城海量的语义标签和评价关联数据，训练文本的标签多分类模型，实现图片的自动打标签。

3、模型应用

通过以上过程，构建了一个由图像编码器Swin-Transformer、图文分类器组成的商品图片的情感、标签分类模型。图3b是本发明实施例所提供的一种商品图片分类的流程示意图。如图3b所示，以待预测商品图片为输入，先进行数据预处理，主要是祛除数据噪声和把图标处理成固定大小。然后，把图片输入到图片编码器Swin-Transformer模型，得到图片的语义向量。最后，把图片语义向量输入到分类器中，预测出图片的情感或标签分类。

本发明实施例基于电商海量的图文评价信息，借助图文匹配模型，实现了商品图片的自动语义理解。使用Transformer和Swin-Transformer分别对文本和图片进行语义编码，编码效果更好。图片的语义向量可以作为图片特征输入到下游的任务中比如商品推荐。借助图片语义自动理解技术，将商品图片和文本映射到相同的语义空间。然后借助评价内容的分类模型，实现了图片自动情感分类、图片自动打标签。

图4是本发明实施例所提供的一种图像语义理解装置的结构示意图。该图像语义理解装置可以采用软件和/或硬件的方式实现，例如该图像语义理解装置可以配置于计算机设备中。如图4所示，该装置包括目标图像获取模块410、模型分类模块420和语义理解模块430，其中：

目标图像获取模块410，用于获取目标图像信息；

模型分类模块420，用于将目标图像信息输入至预先训练的语义理解模型中，获得语义理解模型输出的语义分类结果，语义理解模型基于关联的图像信息和文本信息训练得到；

语义理解模块430，用于根据语义分类结果确定语义理解结果。

本发明实施例提供的图像语义理解装置通过目标图像获取模块获取待生成围栏的候选围栏区域；获取目标图像信息；模型分类模块将目标图像信息输入至预先训练的语义理解模型中，获得语义理解模型输出的语义分类结果，语义理解模型基于关联的图像信息和文本信息训练得到；语义理解模块根据语义分类结果确定语义理解结果。通过直接基于获取的关联的图像信息和文本信息训练得到的语义理解模型对目标图像信息进行分类，简化了模型训练时的标注量，实现了少了标注即可训练得到分类准确的语义理解模型。

可选的，在上述方案的基础上，语义理解模型包括图像编码子模型和语义分类子模型，模型分类模块420具体用于：

将目标图像信息输入至图像编码子模型中，得到图像编码子模型输出的目标图像语义向量；

将目标图像语义向量输入至语义分类子模型中，得到语义分类子模型输出的语义分类结果。

可选的，在上述方案的基础上，装置包括模型训练模块，包括：

样本构建子模块，用于基于评价信息中相关联的图文信息生成正样本数据和负样本数据，根据正样本数据和负样本数据生成训练样本数据；

模型训练子模块，用于基于训练样本数据，对预先构建的语义理解模型进行训练，得到训练后的语义理解模型。

可选的，在上述方案的基础上，样本构建子模块具体用于：

获取评价信息中的相关联的图文信息作为样本基础信息；

对样本基础信息进行数据规范化处理，得到正样本数据；

将评价信息中的图像信息和文本信息随机组合，得到负样本数据。

可选的，在上述方案的基础上，图像编码子模型包括文本编码器和图像编码器，模型训练子模块包括：

编码信息获取单元，用于针对训练样本数据中的图文信息对，将图文信息对的样本文本信息输入至文本编码器中，获得文本编码器输出的目标文本编码信息，将图文信息对的样本图像信息输入至图像编码器中，获得图像编码器输出的目标图像编码信息；

损失值计算单元，用于基于目标文本编码信息和目标图像编码信息确定目标损失值，以目标损失值达到收敛条件为目标，对图像编码子模型进行训练，得到训练后的图像编码子模型；

子模型训练单元，用于基于训练后的图像编码子模型对语义分类子模型进行训练，得到训练后的语义分类子模型。

可选的，在上述方案的基础上，图文信息对中包含至少两个样本图像信息，编码信息获取单元具体用于：

将各样本图像信息叠加，得到叠加图像信息；

将叠加图像信息输入至图像编码器中，获得图像编码器输出的目标图像编码信息。

分别将各样本图像信息输入至图像编码器中，得到图像编码器输出的各样本图像信息的图像编码信息；

将各样本图像信息的图像编码信息求和，得到目标图像编码信息。

可选的，在上述方案的基础上，文本编码器和图像编码器分别与语义分类子模型相连接，子模型训练单元具体用于：

针对训练样本数据中的文本信息，基于文本编码器确定文本信息的文本编码信息；

根据文本编码信息和文本信息的标签构建语义分类模型训练样本；

基于语义分类模型训练样本，对预先构建的语义分类子模型进行训练，得到训练后的语义分类子模型。

本发明实施例所提供的图像语义理解装置可执行本发明任意实施例所提供的图像语义理解方法，具备执行方法相应的功能模块和有益效果。

图5是本发明实施例所提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备512的框图。图5显示的计算机设备512仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机设备512以通用计算设备的形式表现。计算机设备512 的组件可以包括但不限于：一个或者多个处理器516，系统存储器528，连接不同系统组件(包括系统存储器528和处理器516)的总线518。

总线518表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器516或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备512访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器528可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)530和/或高速缓存存储器532。计算机设备512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储装置534可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘 (例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储器528可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块542的程序/实用工具540，可以存储在例如存储器528中，这样的程序模块542包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备512也可以与一个或多个外部设备514(例如键盘、指向设备、显示器524等)通信，还可与一个或者多个使得用户能与该计算机设备512交互的设备通信，和/或与使得该计算机设备512能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且，计算机设备512还可以通过网络适配器 520与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器520通过总线518与计算机设备512的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备512 使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器516通过运行存储在系统存储器528中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的图像语义理解方法，该方法包括：

获取目标图像信息；

根据语义分类结果确定语义理解结果。

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供的图像语义理解方法的技术方案。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例所提供的图像语义理解方法，该方法包括：

获取目标图像信息；

根据语义分类结果确定语义理解结果。

当然，本发明实施例所提供的一种计算机可读存储介质，其上存储的计算机程序不限于如上的方法操作，还可以执行本发明任意实施例所提供的图像语义理解方法的相关操作。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、 Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN) —连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种图像语义理解方法，其特征在于，包括：

获取目标图像信息；

将所述目标图像信息输入至预先训练的语义理解模型中，获得所述语义理解模型输出的语义分类结果，所述语义理解模型基于关联的图像信息和文本信息训练得到；

根据所述语义分类结果确定语义理解结果。

2.根据权利要求1所述的方法，其特征在于，所述语义理解模型包括图像编码子模型和语义分类子模型，所述将所述目标图像信息输入至预先训练的语义理解模型中，获得所述语义理解模型输出的语义分类结果，包括：

将所述目标图像信息输入至所述图像编码子模型中，得到所述图像编码子模型输出的目标图像语义向量；

将所述目标图像语义向量输入至所述语义分类子模型中，得到所述语义分类子模型输出的语义分类结果。

3.根据权利要求2所述的方法，其特征在于，所述语义理解模型的训练包括：

基于评价信息中相关联的图文信息生成正样本数据和负样本数据，根据所述正样本数据和所述负样本数据生成训练样本数据；

基于所述训练样本数据，对预先构建的语义理解模型进行训练，得到训练后的语义理解模型。

4.根据权利要求3所述的方法，其特征在于，所述基于评价信息中相关联的图文信息生成正样本数据和负样本数据，包括：

获取评价信息中的相关联的图文信息作为样本基础信息；

对所述样本基础信息进行数据规范化处理，得到所述正样本数据；

将所述评价信息中的图像信息和文本信息随机组合，得到所述负样本数据。

5.根据权利要求3中的方法，其特征在于，所述图像编码子模型包括文本编码器和图像编码器，所述基于所述训练样本数据，对预先构建的语义理解模型进行训练，得到训练后的语义理解模型，包括：

针对所述训练样本数据中的图文信息对，将所述图文信息对的样本文本信息输入至所述文本编码器中，获得所述文本编码器输出的目标文本编码信息，将所述图文信息对的样本图像信息输入至所述图像编码器中，获得所述图像编码器输出的目标图像编码信息；

基于所述目标文本编码信息和所述目标图像编码信息确定目标损失值，以所述目标损失值达到收敛条件为目标，对所述图像编码子模型进行训练，得到训练后的图像编码子模型；

基于训练后的图像编码子模型对所述语义分类子模型进行训练，得到训练后的语义分类子模型。

6.根据权利要求5所述的方法，其特征在于，所述图文信息对中包含至少两个样本图像信息，所述将所述图文信息对的样本图像信息输入至所述图像编码器中，获得所述图像编码器输出的目标图像编码信息，包括：

将各所述样本图像信息叠加，得到叠加图像信息；

将所述叠加图像信息输入至所述图像编码器中，获得所述图像编码器输出的目标图像编码信息。

7.根据权利要求5所述的方法，其特征在于，所述图文信息对中包含至少两个样本图像信息，所述将所述图文信息对的样本图像信息输入至所述图像编码器中，获得所述图像编码器输出的图像编码信息，包括：

分别将各所述样本图像信息输入至所述图像编码器中，得到所述图像编码器输出的各所述样本图像信息的图像编码信息；

将各所述样本图像信息的图像编码信息求和，得到所述目标图像编码信息。

8.根据权利要求5所述的方法，其特征在于，所述文本编码器和所述图像编码器分别与所述语义分类子模型相连接，所述基于训练后的图像编码子模型对所述语义分类子模型进行训练，得到训练后的语义分类子模型，包括：

针对所述训练样本数据中的文本信息，基于所述文本编码器确定所述文本信息的文本编码信息；

根据所述文本编码信息和所述文本信息的标签构建语义分类模型训练样本；

基于所述语义分类模型训练样本，对预先构建的语义分类子模型进行训练，得到训练后的语义分类子模型。

9.一种图像语义理解装置，其特征在于，包括：

目标图像获取模块，用于获取目标图像信息；

模型分类模块，用于将所述目标图像信息输入至预先训练的语义理解模型中，获得所述语义理解模型输出的语义分类结果，所述语义理解模型基于关联的图像信息和文本信息训练得到；

语义理解模块，用于根据所述语义分类结果确定语义理解结果。

10.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如权利要求1-8任一所述的图像语义理解方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8任一所述的图像语义理解方法。