CN114693694A

CN114693694A - 图像处理的方法、设备和计算机可读存储介质

Info

Publication number: CN114693694A
Application number: CN202011562478.5A
Authority: CN
Inventors: 李岩; 张霓
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-07-01
Also published as: JP2022103149A; US20220207866A1; JP7347492B2

Abstract

本公开的实施例涉及用于图像处理的方法、设备和计算机可读存储介质。一种图像处理的方法包括获取第一图像和至少一个第二图像，其中至少一个第二图像中的每个图像是第一图像的变换图像；以及基于至少一个第二图像的至少一个语义预测结果，生成第一图像的第一语义分割标签。通过将第一图像和第一语义分割标签作为训练数据来训练图像语义分割模型，有助于提高所训练的图像语义分割模型的精度。

Description

图像处理的方法、设备和计算机可读存储介质

技术领域

本公开的实施例涉及图像处理领域，并且更具体地，涉及用于图像处理的方法、设备和计算机可读存储介质。

背景技术

图像语义分割是图像处理和计算机视觉领域的重要技术，其是图像理解的基础。图像语义分割是指针对图像中的每个像素进行分类，确定每个像素的语义类别(诸如，属于背景、人物或车辆等)，从而按照不同语义类别进行图像区域划分。

通常，可以基于训练数据集来训练图像语义分割模型(例如，深度神经网络)，以实现图像语义分割。训练数据集中的一个训练样本可以包括训练图像和针对该训练图像所标注的语义分割标签。在一些情况下，针对训练图像所标注的语义分割标签可能是不准确的，也被称为“噪声标签”。如果利用具有噪声标签的训练样本来训练图像语义分割模型，将会导致所训练的图像语义分割模型难以产生正确的语义分割结果。

发明内容

本公开的实施例提供了一种用于图像处理的方案。

在本公开的第一方面，提供了一种图像处理的方法。该方法包括：获取第一图像和至少一个第二图像，其中至少一个第二图像中的每个图像是第一图像的变换图像；以及基于至少一个第二图像的至少一个语义预测结果，生成第一图像的第一语义分割标签。

在本公开的第二方面，提供了一种计算设备。该计算设备包括至少一个处理器，被配置为：获取第一图像和至少一个第二图像，其中至少一个第二图像中的每个图像是第一图像的变换图像；以及基于至少一个第二图像的至少一个语义预测结果，生成第一图像的第一语义分割标签。

在本公开的第三方面，提供了一种计算机可读存储介质。该计算机可读存储介质具有在其上存储的机器可执行指令，该机器可执行指令在由设备执行时使该设备执行根据本公开的第一方面所描述的方法的任意步骤。

在本公开的第四方面，提供了一种计算机程序产品。该计算机程序产品被有形地存储在计算机可读存储介质中并且包括机器可执行指令。该机器可执行指令在由设备执行时使该设备执行根据本公开的第一方面所描述的方法的任意步骤。

提供发明内容部分是为了以简化的形式来介绍一系列概念，它们在下文的具体实施方式中将被进一步描述。发明内容部分不旨在标识本公开的关键特征或必要特征，也不旨在限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

从下文的公开内容和权利要求中，本发明的目的、优点和其他特征将变得更加明显。这里仅出于示例的目的，参考附图来给出优选实施例的非限制性描述，在附图中：

图1示出了根据本公开的实施例的图像处理系统的示意性框图；

图2示出了根据本公开的实施例的图像处理的示意图；

图3示出了根据本公开的实施例的图像处理的示意图；

图4示出了根据本公开的实施例的用于图像处理的示例方法的流程图；

图5示出了根据本公开的实施例的用于图像处理的示例方法的流程图；

图6示出了根据本公开的实施例的示例模型训练方法的流程图；

图7示出了根据本公开的实施例的用于图像处理的示例方法的流程图；以及

图8示出了可以用来实施本公开的实施例的示例计算设备的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如本文中所使用的，术语“电路”可以指硬件电路和/或硬件电路和软件的组合。例如，该电路可以是模拟和/或数字硬件电路与软件/固件的组合。作为另一示例，电路可以是具有软件的硬件处理器(包括数字信号处理器)、软件和存储器的任何部分，它们一起工作以使设备执行各种功能。在又一示例中，电路可以是硬件电路和/或处理器，诸如微处理器或微处理器的一部分，其需要软件/固件进行操作但是当不需要软件进行操作时该软件可以不存在。如本文中所使用的，术语“电路”也涵盖仅硬件电路或处理器、或者硬件电路或处理器的一部分及其(或它们)随附软件和/或固件的实现。

如上所述，通常基于训练数据集来训练图像语义分割模型(例如，深度神经网络)，以实现图像语义分割。训练数据集中的一个训练样本可以包括训练图像和针对该训练图像所标注的语义分割标签。训练图像的语义分割标签可以是人工标注的。如果标注者的经验不足或者图像本身的标注难度较大，其标注的语义分割标签可能是不准确的。在一些情况下，训练图像的语义分割标签可以是利用某些设备批量标注的，从而降低人工标注的成本。在这些情况下，训练图像的语义分割标签也可能是不准确的。这种不准确的语义分割标签也称为“噪声标签”。如果利用具有噪声标签的训练样本来训练图像语义分割模型，将会导致所训练的图像语义分割模型难以产生正确的语义分割结果。

本公开的实施例提出了一种用于图像处理的方案，以解决上述问题和/或其他潜在问题。

在一些实施例中，第一图像和至少一个第二图像可以被获取，其中至少一个第二图像中的每个图像是第一图像的变换图像。然后，基于至少一个第二图像的至少一个语义预测结果，生成第一图像的第一语义分割标签。通过将第一图像和第一语义分割标签作为训练数据来训练图像语义分割模型，有助于提高所训练的图像语义分割模型的精度。

附加地或者备选地，在另一些实施例中，多个图像和多个图像的第一组语义分割标签可以被获取。此外，与多个图像相对应的多个图像掩码可以被获取，其中每个图像掩码用于选择多个图像中的对应图像中的目标区域(例如，噪声较低的区域)。然后，基于多个图像掩码和第一组语义分割标签，生成多个图像的第二组语义分割标签；并且基于多个图像和第二组语义分割标签，生成混合图像和该混合图像的语义分割标签。通过将所生成的混合图像及其语义分割标签作为训练数据来训练图像语义分割模型，有助于进一步降低噪声标签对模型训练的影响，从而提高所训练的图像语义分割模型的精度。

以下将结合附图来详细描述本公开的实施例。在本公开的实施例中，术语“模型”能够处理输入并且提供相应输出。以神经网络模型为例，其通常包括输入层、输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的模型(也称为“深度学习模型”)通常包括许多隐藏层，从而延长网络的深度。神经网络模型的各个层按顺序相连以使得前一层的输出被用作后一层的输入，其中输入层接收神经网络模型的输入，而输出层的输出作为神经网络模型的最终输出。神经网络模型的每个层包括一个或多个节点(也称为处理节点或神经元)，每个节点处理来自上一层的输入。在本文中，术语“神经网络”、“模型”、“网络”和“神经网络模型”可互换使用。

图1示出了根据本公开的实施例的图像处理系统100的示意性框图。如图1所示，系统100可以包括图像收集装置110、图像标注装置120、图像处理装置130、模型训练装置140和模型应用装置150。在一些实施例中，上述多个装置可以分别实现在不同的物理设备中。备选地，上述多个装置中的至少一部分装置可以被实现在同一物理设备中。应当理解，图1所示的系统100仅仅是本公开的实施例可实现于其中的一种示例，不旨在限制本公开的范围。本公开的实施例同样适用于其他系统或架构。

图像收集装置110可以收集用于训练模型的图像集合101。应当理解，图像集合101中的图像可以是任何格式的图像。此外，图像收集装置110可以利用任何已知或将来开发的方法来收集图像集合101。本公开的范围在此方面不受限制。

图像标注装置120可以针对每个图像101生成语义分割标签102(本文中也称为“初始语义分割标签”)，以指示该图像中的每个像素的语义类别。像素的语义类别是指图像中该像素所对应的对象的种类，图像中的对象可以包括但不限于背景、人物、动物、车辆等等。例如，所生成的语义分割标签可以是指示每个像素的真实语义类别的向量或者数组，或者可以是如图1所示的可视化图像，其中不同语义类别的像素可以利用不同的颜色来标识。应当理解，图像标注可以由人工完成。在此情况下，图像标注装置120可以是由人工控制来对每个图像101中的每个像素进行标注的装置或设备。

图像集合101及其对应的语义分割标签102可以被提供给图像处理装置130。图像处理装置130可以对图像集合101及其对应的语义分割标签102进行处理，以生成包括多个训练样本的训练数据集103。

在一些实施例中，图像处理装置130可以针对图像集合101中的图像101(下文中也称为“第一图像”)执行图像增广，以得到第一图像的至少一个变换图像(下文中也称为“至少一个第二图像”)。图像处理装置130可以确定至少一个第二图像的至少一个语义预测结果。例如，针对至少一个变换图像中的每个变换图像，图像处理装置130可以生成该变换图像的语义分割标签或语义置信度标签作为该变换图像的语义预测结果，其中语义置信度标签例如可以指示该变换图像中的每个像素属于多个预定语义类别的相应概率。图像处理装置130可以基于至少一个语义预测结果来生成第一图像101的语义分割标签。例如，第一图像101及所生成的语义分割标签可以作为训练数据集103中的一个训练样本。

附加地或者备选地，在一些实施例中，图像处理装置130可以从图像集合101中获取多个图像101。图像处理装置130可以获取该多个图像101的第一组语义分割标签。例如，第一组语义分割标签中的一个语义分割标签可以是多个图像101中的对应图像101的初始语义分割标签102。又例如，第一组语义分割标签中的一个语义分割标签可以是基于对应图像101的至少一个变换图像的至少一个语义预测结果而生成的语义分割标签，如以上所描述的。图像处理装置130可以获取与多个图像101相对应的多个图像掩码，每个图像掩码用于选择对应图像101中的目标区域。目标区域可以包括该图像101中较容易预测其语义类别的多个像素，也即噪声程度较低的区域，本文中也称为“非噪声区域”。图像处理装置130可以基于多个图像掩码和第一组语义分割标签来生成多个图像101的第二组语义分割标签。例如，针对多个图像101中的每个图像，图像处理装置130可以通过将该图像所对应的图像掩码与第一组语义分割标签中该图像所对应的语义分割标签进行遮罩操作(也即，点乘)来选择其语义分割标签中对应于目标区域中的那些像素的部分，而忽略掉非目标区域中的那些像素的部分，从而得到第二组语义分割标签中与该图像对应的语义分割标签。然后，图像处理装置130可以基于该多个图像101和第二组语义分割标签来生成混合图像和该混合图像的语义分割标签。例如，所生成的混合图像及其语义分割标签可以作为训练数据集103中的一个训练样本。

附加地或者备选地，在一些实施例中，图像处理装置130也可以将每个原始图像101及其对应的初始语义分割标签102作为训练数据集103中的一个训练样本。

以此方式，图像处理装置130可以生成包括多个训练样本的训练数据集103。训练数据集103可以被提供给模型训练装置140，以用于训练目标语义分割模型104。

目标语义分割模型104可以被训练用于预测向其输入的图像中的每个像素所属的语义类别。例如，模型训练装置140可以基于训练数据集103来进行模型训练，以确定目标语义分割模型104的模型参数。经训练的目标语义分割模型104(例如，所确定的模型参数)可以被提供给模型应用装置150。模型应用装置150可以获取输入图像105，并且利用经训练的目标语义分割模型104来预测该输入图像105中的每个像素的语义类别。模型应用装置150可以基于预测结果来生成指示输入图像105的语义分割标签106。例如，所生成的语义分割标签106可以是指示输入图像105中的每个像素的语义类别的向量或者数组，或者可以是如图1所示的可视化图像，其中不同语义类别的像素可以利用不同的颜色来填充。

目标语义分割模型104可以被应用到各种领域。在医疗领域，图像语义分割模型可以针对输入的各种医疗图像进行语义分割，从而识别和理解其中的病灶，以帮助医生进行疾病诊断。例如，一种医疗图像的处理方法可以包括：获取输入的医疗图像；利用经训练的图像语义分割模型来生成该医疗图像的语义分割标签，其中语义分割标签指示该医疗图像中的像素的语义类别；以及基于该语义分割标签，识别医疗图像中的病灶。在自动驾驶领域，图像语义分割模型可以用于针对由车辆在行驶过程中捕获的图像进行语义分割，从而识别和理解其中的街景，以帮助自动驾驶系统制定驾驶决策，等等。例如，一种自动驾驶方法可以包括：获取由车辆在行驶过程中捕获的图像；利用经训练的图像语义分割模型来生成该图像的语义分割标签，其中语义分割标签指示该图像中的像素的语义类别；基于该语义分割标签，识别图像中的街景；以及基于识别结果来生成自动驾驶决策。

以下将进一步结合图2和图3来详细描述如图1所示的图像处理装置130所执行的操作。应当理解，图像处理装置130可以仅执行如图2所示的图像处理操作，或者仅执行如图3所示的图像处理操作，或者先执行如图2所示的图像处理操作然后再执行如图3所示的图像处理操作。

图2示出了根据本公开的实施例的图像处理的示意图。图2示出了针对从图像集合101获取的图像101执行图像增广而得到的多个变换图像201-1、201-2……201-4(统称为或单独称为“变换图像201”)。例如，图像增广可以包括但不限于镜像变换、旋转、缩放、裁剪、平移、亮度修改、添加噪声以及变换颜色等。

如图2所示，图像处理装置130可以利用图像语义分割模型210来预测每个变换图像201中的像素的语义类别，以生成每个变换图像201的语义预测结果。图像语义分割模型210可以与如图1所示的目标语义分割模型104是相同的模型或者不同的模型。例如，图像语义分割模型210可以是预先训练好的图像语义分割模型、经初步训练的图像语义分割模型或者利用带有噪声标签的训练样本训练的图像语义分割模型。也即，图像语义分割模型210可以利用预测准确度较低的语义分割模型、或者能够实现语义分割功能的其他算法或者装置来实现。在一些实施例中，每个变换图像201的语义预测结果可以被表示为该变换图像201的语义分割标签，其指示该变换图像201中的每个像素所属的语义类别。备选地，在另一些实施例中，每个变换图像201的语义预测结果可以被表示为该变换图像201的语义置信度标签，其指示该变换图像201中的每个像素多个预定语义类别的相应概率。如图2所示，例如，针对变换图像201-1的预测结果被表示为语义置信度标签202-1，针对变换图像201-2的预测结果被表示为语义置信度标签202-2，针对变换图像201-3的预测结果被表示为语义置信度标签202-3并且针对变换图像201-4的预测结果被表示为语义置信度标签202-4。在下文中，语义置信度标签202-1～202-4可以被统称为或单独称为“语义置信度标签202”。

图像处理装置130可以基于多个变换图像201的语义预测结果来生成原图像101的语义分割标签203。例如，图像处理装置130可以首先对多个变换图像201的多个语义置信度标签202分别执行与图像增广对应的逆变换，然后将多个经逆变换的语义置信度标签进行融合，以生成经融合的语义置信度标签。经融合的语义置信度标签可以指示原图像101中的每个像素属于多个预定语义类别的置信度。然后，图像处理装置130可以针对原图像101中的每个像素，将置信度最高的语义类别确定为该像素所属的语义类别，由此生成语义分割标签203。可选地，在一些实施例中，图像处理装置130还可以对所生成的语义分割标签203进行平滑，以得到经优化的语义分割标签204。应当理解，平滑操作可以基于任何已知或者将来开发的合适算法，例如，条件随机场(CRF)算法。

图3示出了多个图像301-1和301-2(例如，从图像集合101中获取的)及其对应的语义分割标签304-1和304-2。例如，语义分割标签304-1可以是图像301-1的初始语义分割标签，或者按如图2所示的方式生成的语义分割标签。语义分割标签304-2可以是图像301-2的初始语义分割标签，或者按如图2所示的方式生成的语义分割标签。尽管图3中仅示出了针对一对图像进行的处理，应当理解这仅仅用于示例目的，而不暗示对本公开范围的任何限制。在一些实施例中，图像处理装置130可以从图像集合101中获取多于两个图像进行处理。

在一些实施例中，如图3所示，针对多个图像301-1和301-2中的每个图像，图像处理装置130可以利用图像语义分割模型310来预测该图像中的多个像素的相应语义类别。图像语义分割模型310可以与目标语义分割模型104是相同的模型或者不同的模型。例如，图像语义分割模型310可以是预先训练好的图像语义分割模型、经初步训练的图像语义分割模型或者未经训练的图像语义分割模型。也即，图像语义分割模型310可以利用预测准确度较低的语义分割模型、或者能够实现语义分割功能的其他算法或者装置来实现。

图像处理装置130可以进一步基于针对每个图像的语义预测结果，来确定该图像中的多个像素的相应得分，其中每个像素的得分可以指示该像素与该图像中的噪声区域的关联程度。换言之，每个像素的得分可以指示预测该像素的语义类别的困难程度。如图3所示，图像301-1中的多个像素的相应得分可以由热图302-1表示，并且图像301-2中的多个像素的相应得分可以由热图302-2表示。

在一些实施例中，针对每个图像中的每个像素，图像处理装置130可以基于该像素的预测语义类别和该像素的真实语义类别之间的差异来确定该像素的得分，其中该像素的真实语义类别由该图像的语义分割标签指示。例如，图像语义分割模型310可以预测每个图像中的每个像素属于不同语义类别的相应概率，而该图像的语义分割标签可以指示每个像素所属的真实语义类别。图像处理装置130可以计算由图像语义分割模型310预测的每个像素属于其真实语义类别的概率与预定概率值(例如，100％)之间的损失，以作为每个像素的得分。也即，像素的得分越高，说明该像素的预测语义类别与其真实语义类别的差异越大。

备选地，在一些实施例中，针对每个图像中的每个像素，图像处理装置130可以基于该像素的预测语义类别的不确定性或者混乱程度(例如，熵)来确定该像素的得分。例如，图像语义分割模型310可以预测每个图像中的每个像素属于不同语义类别的相应概率。图像处理装置130可以利用任何已知或将要开发的合适算法，基于针对每个像素所预测的属于不同语义类别的相应概率，来确定该像素的预测语义类别的不确定性或者混乱程度，以作为该像素的得分。也即，像素的得分越高，说明该像素的预测语义类别的不确定性或者混乱程度越高。

在一些实施例中，如图2所示，图像处理装置130可以基于指示图像301-1中的多个像素的相应得分的热图302-1来确定与图像301-1相对应的图像掩码303-1。类似地，图像处理装置130可以基于指示图像301-2中的多个像素的相应得分的热图302-2来确定与图像301-2相对应的图像掩码303-2。

在一些实施例中，图像处理装置130可以针对每个图像中的多个像素的得分进行从大到小的排序，然后选择排名后N％的像素或者选择得分低于阈值得分n的像素。例如，N％或者n的数值可以根据验证实验来确定。图像处理装置130可以通过将所选择的像素对应位置的掩码值设置为1并且将其他位置的掩码值设置为0，来生成该图像的图像掩码。备选地，在一些实施例中，图像处理装置130可以针对一批图像中的所有像素的得分进行从大到小的排序，然后选择排名后N％的像素或者选择得分低于阈值得分n的像素。例如，N％或者n的数值可以根据验证实验来确定。图像处理装置130可以通过将所选择的像素对应位置的掩码值设置为1并且将其他位置的掩码值设置为0，来生成该一批图像中的每个图像的图像掩码。备选地，在另一些实施例中，图像处理装置130也可以将指示每个图像中的多个像素的相应得分的热图直接作为该图像的图像掩码。

在一些实施例中，如图2所示，图像处理装置130可以将图像掩码303-1与图像301-1的语义分割标签304-1进行遮罩操作(也即，点乘)，以生成图像301-1的语义分割标签305-1。类似地，图像处理装置130可以将图像掩码303-2与图像301-2的初始语义分割标签304-2进行遮罩操作(也即，点乘)，以生成图像301-2的语义分割标签305-2。从图2中可以看出，重新生成的语义分割标签305-1和305-2分别保留了语义分割标签304-1和304-2中对应于目标区域(也即，噪声较低区域)中的那些像素的语义分割标签，而忽略掉非目标区域中的那些像素的语义分割标签。

在一些实施例中，如图3所示，图像处理装置130可以进一步基于多个图像301-1和301-2以及重新生成的语义分割标签305-1和305-2来生成混合图像306及其语义分割标签307。在一些实施例中，图像处理装置130可以基于多个图像301-1和301-2的相应权重对多个图像301-1和301-2进行加权求和，以得到混合图像306。图像处理装置130可以基于多个图像301-1和301-2的相应权重对语义分割标签305-1和305-2进行加权求和，以得到混合图像306的语义分割标签307。应当理解，图像处理装置130也可以利用其他方式来生成混合图像306及其语义分割标签307。如图3所示，混合图像306及其语义分割标签307可以作为如图1所示的训练数据集103中的一个训练样本，用于训练目标语义分割模型104。

图4示出了根据本公开的实施例的用于图像处理的示例方法400的流程图。例如，方法400可以由如图1所示的图像处理装置130来执行。以下结合图1和图2来描述方法400。应当理解，方法400还可以包括未示出的附加框和/或可以省略所示出的某些框。本公开的范围在此方面不受限制。

在框410处，获取第一图像和至少一个第二图像(例如，如图2所示的变换图像201-1～201-4)，其中至少一个第二图像中的每个图像是第一图像的变换图像。

在框420处，基于至少一个第二图像的至少一个语义预测结果(例如，如图2所示的语义置信度标签202-1～202-4)，生成第一图像的第一语义分割标签(例如，如图2所示的语义分割标签203和/或204)。

在一些实施例中，获取至少一个第二图像包括：通过对第一图像执行图像增广，来获取至少一个第二图像。图像增广包括以下至少一项：镜像变换、旋转、缩放、裁剪、平移、亮度修改、添加噪声以及变换颜色。

在一些实施例中，方法300还包括：利用图像语义分割模型，生成至少一个第二图像的至少一个语义分割标签或者至少一个语义置信度标签以作为至少一个语义预测结果，其中至少一个语义置信度标签指示至少一个第二图像中的每个像素属于预定语义类别的置信度。

在一些实施例中，生成第一语义分割标签包括：对至少一个语义预测结果分别执行与图像增广相对应的逆变换，以得到经逆变换的至少一个语义预测结果；以及基于经逆变换的至少一个语义预测结果，生成第一语义分割标签。

图5示出了根据本公开的实施例的用于图像处理的示例方法500的流程图。例如，方法500可以由如图1所示的图像处理装置130来执行。以下结合图1和图2来描述方法500。应当理解，方法500还可以包括未示出的附加框和/或可以省略所示出的某些框。本公开的范围在此方面不受限制。

在框510处，获取多个图像(例如，如图3所示的图像301-1和301-2)和多个图像的第一组语义分割标签(例如，如图3所示的语义分割标签304-1和304-2)。在一些实施例中，多个图像包括第一图像并且第一组语义分割标签包括第一图像的第一语义分割标签。

在框520处，获取与多个图像相对应的多个图像掩码(例如，如图3所示的图像掩码303-1和303-2)，其中每个图像掩码用于选择多个图像中的对应图像中的目标区域。

在一些实施例中，获取与多个图像相对应的多个图像掩码包括：确定第一图像中的多个像素的相应预测语义类别；基于多个像素的相应预测语义类别，确定多个像素的相应得分，其中每个像素的得分指示该像素与第一图像中的噪声区域的关联程度；以及基于多个像素的相应得分，确定第一图像的第一图像掩码，其中第一图像掩码用于选择多个像素中具有较低得分的至少部分像素。

在一些实施例中，确定第一图像中的多个像素的相应预测语义类别包括：利用图像语义分割模型，确定第一图像中的多个像素的相应预测语义类别。

在一些实施例中，确定第一图像中的多个像素的相应得分包括针对多个像素中的每个像素，基于以下任一项来确定该像素的得分：该像素的预测语义类别和该像素的真实语义类别之间的差异，其中该像素的真实语义类别由第一图像的语义分割标签指示；该像素的预测语义类别的不确定性；以及该像素的预测语义类别的混乱程度。

在框530处，基于多个图像掩码和第一组语义分割标签，生成多个图像的第二组语义分割标签(例如，如图3所示的语义分割标签305-1和305-2)。

在一些实施例中，多个图像掩码包括与第一图像相对应的第一图像掩码，并且生成第二组语义分割标签包括：通过将第一图像的第一语义分割标签与第一图像掩码进行遮罩操作，生成所述第一图像的第二语义分割标签，其中第二组语义分割标签包括第二语义分割标签。

在框540处，基于多个图像和第二组语义分割标签，生成混合图像(例如，如图3所示的混合图像306)和该混合图像的语义分割标签(例如，如图3所示的语义分割标签307)。

在一些实施例中，生成混合图像和该混合图像的语义分割标签包括：基于多个图像的相应权重，对多个图像进行加权求和，以生成混合图像；以及基于多个图像的相应权重，对第二组语义分割标签进行加权求和，以生成该混合图像的语义分割标签。

图6示出了根据本公开的实施例的示例模型训练方法600的流程图。例如，方法600可以由如图1所示的模型训练装置140来执行。以下结合图1和图2来描述方法400。应当理解，方法600还可以包括未示出的附加框和/或可以省略所示出的某些框。本公开的范围在此方面不受限制。

在框610处，获取训练数据。例如，模型训练装置140可以从如图1所示的训练数据集103获取训练数据。在一些实施例中，所获取的训练数据可以包括第一训练样本，例如，第一训练样本包括根据方法400所得到的第一图像和第一图像的第一语义分割标签。附加地或者备选地，在一些实施例中，所获取的训练数据可以包括第二训练样本，例如，第二训练样本包括根据方法500所得到的混合图像和该混合图像的语义分割标签。

在框620处，基于训练数据来训练目标语义分割模型(例如，如图1所示的目标语义分割模型104)，以用于生成输入图像的语义分割标签。在一些实施例中，模型训练装置140可以基于所获取的训练数据来进行模型训练，以确定目标语义分割模型104的模型参数。

图7示出了根据本公开的实施例的用于图像处理的示例方法700的流程图。例如，方法700可以由如图1所示的模型应用装置150来执行。以下结合图1和图2来描述方法700。应当理解，方法700还可以包括未示出的附加框和/或可以省略所示出的某些框。本公开的范围在此方面不受限制。

在框710处，获取输入图像(例如，如图1所示的输入图像105)。在框720处，利用经训练的目标语义分割模型，生成该输入图像的语义分割标签(例如，如图1所示的语义分割标签106)，其中该语义分割标签指示输入图像中的像素的语义类别。例如，所生成的语义分割标签106可以是指示输入图像105中的每个像素的语义类别的向量或者数组，或者可以是如图1所示的可视化图像，其中不同语义类别的像素可以利用不同的颜色来填充。

从以上描述能够看出，本公开的实施例能够有效降低带有噪声标签的训练数据对模型训练的影响，从而提高所训练的图像语义分割模型的精度。本公开的实施例能够适用于弱监督学习场景，其中初始训练数据集可能包括有限的、含有噪声的或者标注不准确的训练样本。本公开的实施例能够对这样的训练数据进行优化，然后利用经优化的训练数据进行模型训练。

除了适用于语义分割任务以外，本公开的实施例还能够适用于实例分割(instance segmentation)任务。如上所述，语义分割任务的目的是识别图像中每个像素所属的语义类别。与语义分割任务不同，实例分割任务的目的是识别图像中每个像素所属的实例类别。例如，语义分割任务能够将图像中属于人物的像素归为同一类，而实例分割任务能够将图像中属于不同人物的像素归为不同类别。

为了将本公开的实施例应用到实例分割任务，针对每个图像101所标注的初始语义标签102需要指示该图像中的每个像素所属的实例类别。例如，如果两个像素的语义类别都是人物但是分别对应于不同的人，则这两个像素将被标注为属于不同实例类别。后续处理过程与以上针对语义分割任务所描述的处理过程类似，在此不再赘述。

图8示出了可以用来实施本公开的实施例的示例计算设备800的示意性框图。例如，如图1所示的系统100中的一个或多个装置可以由设备800来实施。设备800的示例可以包括任何通用计算机、专用计算机、服务器、虚拟机、以及任何其他有计算能力的电子设备(诸如，用户设备、移动电话、蜂窝电话、智能电话、个人数字助理、图像捕获设备(诸如数码相机)、游戏设备、音乐存储和播放设备、或者启用无线或有线因特网访问和浏览的因特网设备等)。

如图所示，设备800包括中央处理单元(CPU)801(也称为“处理器801”)，其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器801可被配置为执行上文所描述的各个过程和处理，例如方法400、500、600和/或700。例如，在一些实施例中，方法400、500、600和/或700可以被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序被加载到RAM 803并由CPU 801执行时，可以执行上文描述的方法400、500、600和/或700中的一个或多个步骤。

在一些实施例中，一种计算设备包括至少一个电路，被配置为：获取第一图像和至少一个第二图像，其中所述至少一个第二图像中的每个图像是所述第一图像的变换图像；以及基于所述至少一个第二图像的至少一个语义预测结果，生成所述第一图像的第一语义分割标签。

在一些实施例中，所述至少一个电路被配置为：通过对所述第一图像执行图像增广，来获取所述至少一个第二图像。

在一些实施例中，所述图像增广包括以下至少一项：镜像变换、旋转、缩放、裁剪、平移、亮度修改、添加噪声以及变换颜色。

在一些实施例中，所述至少一个电路还被配置为：利用图像语义分割模型，生成所述至少一个第二图像的至少一个语义分割标签或者至少一个语义置信度标签，以作为所述至少一个语义预测结果，其中所述至少一个语义置信度标签指示所述至少一个第二图像中的每个像素属于预定语义类别的置信度。

在一些实施例中，所述至少一个电路被配置为：对所述至少一个语义预测结果分别执行与所述图像增广相对应的逆变换，以得到经逆变换的至少一个语义预测结果；以及基于所述经逆变换的至少一个语义预测结果，生成所述第一语义分割标签。

在一些实施例中，所述至少一个电路还被配置为：获取多个图像和所述多个图像的第一组语义分割标签，其中所述多个图像包括所述第一图像并且所述第一组语义分割标签包括所述第一语义分割标签；获取与所述多个图像相对应的多个图像掩码，其中每个图像掩码用于选择所述多个图像中的对应图像中的目标区域；基于所述多个图像掩码和所述第一组语义分割标签，生成所述多个图像的第二组语义分割标签；以及基于所述多个图像和所述第二组语义分割标签，生成混合图像和所述混合图像的语义分割标签。

在一些实施例中，所述至少一个电路被配置为：确定所述第一图像中的多个像素的相应预测语义类别；基于所述多个像素的相应预测语义类别，确定所述多个像素的相应得分，其中每个像素的得分指示该像素与所述第一图像中的噪声区域的关联程度；以及基于所述多个像素的相应得分，确定所述第一图像的第一图像掩码，其中所述第一图像掩码用于选择所述多个像素中具有较低得分的至少部分像素。

在一些实施例中，所述至少一个电路被配置为：利用图像语义分割模型，确定所述第一图像中的所述多个像素的相应预测语义类别。

在一些实施例中，所述至少一个电路被配置为针对所述多个像素中的每个像素，基于以下任一项来确定所述像素的得分：所述像素的预测语义类别和所述像素的真实语义类别之间的差异，其中所述像素的真实语义类别由所述第一图像的语义分割标签指示；所述像素的预测语义类别的不确定性；以及所述像素的预测语义类别的混乱程度。

在一些实施例中，所述多个图像掩码包括与所述第一图像相对应的第一图像掩码，并且所述至少一个电路被配置为：通过将所述第一语义分割标签与所述第一图像掩码进行遮罩操作，生成所述第一图像的第二语义分割标签，其中所述第二组语义分割标签包括所述第二语义分割标签。

在一些实施例中，所述至少一个电路被配置为：基于所述多个图像的相应权重，对所述多个图像进行加权求和，以生成所述混合图像；以及基于所述多个图像的相应权重，对所述第二组语义分割标签进行加权求和，以生成所述混合图像的语义分割标签。

在一些实施例中，所述至少一个电路还被配置为：获取训练数据，其中所述训练数据包括以下至少一项：第一训练样本，包括所述第一图像和所述第一语义分割标签，以及第二训练样本，包括所述混合图像和所述混合图像的语义分割标签；以及基于所述训练数据来训练目标语义分割模型，以用于生成输入图像的语义分割标签。

在一些实施例中，所述至少一个电路还被配置为：获取所述输入图像；以及利用经训练的目标语义分割模型，生成所述输入图像的语义分割标签。

本公开可以被实现为系统、方法和/或计算机程序产品。当本公开被实现为系统时，除了能够在单个设备上实现之外，本文所描述的部件还可以以云计算架构的形式来实现。在云计算环境中，这些部件可以被远程布置，并且可以一起工作以实现本公开所描述的功能。云计算可以提供计算、软件、数据访问和存储服务，它们不需要终端用户知晓提供这些服务的系统或硬件的物理位置或配置。云计算可以使用适当的协议通过广域网(诸如因特网)提供服务。例如，云计算提供商通过广域网提供应用，并且它们可以通过浏览器或任何其他计算组件被访问。云计算的部件以及相应的数据可以被存储在远程服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并，或者这些计算资源可以被分散。云计算基础设施可以通过共享数据中心提供服务，即使它们表现为针对用户的单一访问点。因此，可以使用云计算架构从远程服务提供商提供本文所描述的各种功能。备选地，它们可以从常规服务器被提供，或者它们可以直接或以其他方式被安装在客户端设备上。此外，本公开还可以被实现为计算机程序产品，该计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种图像处理的方法，包括：

获取第一图像和至少一个第二图像，其中所述至少一个第二图像中的每个图像是所述第一图像的变换图像；以及

基于所述至少一个第二图像的至少一个语义预测结果，生成所述第一图像的第一语义分割标签。

2.根据权利要求1所述的方法，其中获取所述至少一个第二图像包括：

通过对所述第一图像执行图像增广，来获取所述至少一个第二图像。

3.根据权利要求2所述的方法，其中所述图像增广包括以下至少一项：镜像变换、旋转、缩放、裁剪、平移、亮度修改、添加噪声以及变换颜色。

4.根据权利要求1所述的方法，还包括：

利用图像语义分割模型，生成所述至少一个第二图像的至少一个语义分割标签或者至少一个语义置信度标签，以作为所述至少一个语义预测结果，

其中所述至少一个语义置信度标签指示所述至少一个第二图像中的每个像素属于预定语义类别的置信度。

5.根据权利要求2所述的方法，其中生成所述第一语义分割标签包括：

对所述至少一个语义预测结果分别执行与所述图像增广相对应的逆变换，以得到经逆变换的至少一个语义预测结果；以及

基于所述经逆变换的至少一个语义预测结果，生成所述第一语义分割标签。

6.根据权利要求1所述的方法，还包括：

获取多个图像和所述多个图像的第一组语义分割标签，其中所述多个图像包括所述第一图像并且所述第一组语义分割标签包括所述第一语义分割标签；

获取与所述多个图像相对应的多个图像掩码，其中每个图像掩码用于选择所述多个图像中的对应图像中的目标区域；

基于所述多个图像掩码和所述第一组语义分割标签，生成所述多个图像的第二组语义分割标签；以及

基于所述多个图像和所述第二组语义分割标签，生成混合图像和所述混合图像的语义分割标签。

7.根据权利要求6所述的方法，其中获取与所述多个图像相对应的多个图像掩码包括：

确定所述第一图像中的多个像素的相应预测语义类别；

基于所述多个像素的相应预测语义类别，确定所述多个像素的相应得分，其中每个像素的得分指示该像素与所述第一图像中的噪声区域的关联程度；以及

基于所述多个像素的相应得分，确定所述第一图像的第一图像掩码，其中所述第一图像掩码用于选择所述多个像素中具有较低得分的至少部分像素。

8.根据权利要求7所述的方法，其中确定所述第一图像中的多个像素的相应预测语义类别包括：

利用图像语义分割模型，确定所述第一图像中的所述多个像素的相应预测语义类别。

9.根据权利要求7所述的方法，其中确定所述第一图像中的多个像素的相应得分包括：

针对所述多个像素中的每个像素，基于以下任一项来确定所述像素的得分：

所述像素的预测语义类别和所述像素的真实语义类别之间的差异，其中所述像素的真实语义类别由所述第一图像的语义分割标签指示；

所述像素的预测语义类别的不确定性；以及

所述像素的预测语义类别的混乱程度。

10.根据权利要求6所述的方法，其中所述多个图像掩码包括与所述第一图像相对应的第一图像掩码，并且生成所述第二组语义分割标签包括：

通过将所述第一语义分割标签与所述第一图像掩码进行遮罩操作，生成所述第一图像的第二语义分割标签，其中所述第二组语义分割标签包括所述第二语义分割标签。

11.根据权利要求6所述的方法，其中生成混合图像和所述混合图像的语义分割标签包括：

基于所述多个图像的相应权重，对所述多个图像进行加权求和，以生成所述混合图像；以及

基于所述多个图像的相应权重，对所述第二组语义分割标签进行加权求和，以生成所述混合图像的语义分割标签。

12.根据权利要求6所述的方法，还包括：

获取训练数据，其中所述训练数据包括以下至少一项：

第一训练样本，包括所述第一图像和所述第一语义分割标签；以及

第二训练样本，包括所述混合图像和所述混合图像的语义分割标签；以及

基于所述训练数据来训练目标语义分割模型，以用于生成输入图像的语义分割标签。

13.根据权利要求12所述的方法，还包括：

获取所述输入图像；以及

利用经训练的目标语义分割模型，生成所述输入图像的语义分割标签。

14.一种计算设备，包括：

至少一个处理器，被配置为：

15.根据权利要求14所述的计算设备，其中所述至少一个处理器被配置为：

16.根据权利要求15所述的计算设备，其中所述图像增广包括以下至少一项：镜像变换、旋转、缩放、裁剪、平移、亮度修改、添加噪声以及变换颜色。

17.根据权利要求14所述的计算设备，其中所述至少一个处理器还被配置为：

18.根据权利要求15所述的计算设备，其中所述至少一个处理器被配置为：

19.根据权利要求14所述的计算设备，其中所述至少一个处理器还被配置为：

20.根据权利要求19所述的计算设备，其中所述至少一个处理器被配置为：

确定所述第一图像中的多个像素的相应预测语义类别；

21.根据权利要求20所述的计算设备，其中所述至少一个处理器被配置为：

22.根据权利要求20所述的计算设备，其中所述至少一个处理器被配置为：

所述像素的预测语义类别的不确定性；以及

所述像素的预测语义类别的混乱程度。

23.根据权利要求19所述的计算设备，其中所述多个图像掩码包括与所述第一图像相对应的第一图像掩码，并且所述至少一个处理器被配置为：

24.根据权利要求19所述的计算设备，其中所述至少一个处理器被配置为：

25.根据权利要求19所述的计算设备，其中所述至少一个处理器还被配置为：

获取训练数据，其中所述训练数据包括以下至少一项：

第一训练样本，包括所述第一图像和所述第一语义分割标签，以及

26.根据权利要求25所述的计算设备，其中所述至少一个处理器还被配置为：

获取所述输入图像；以及