CN111886600A

CN111886600A - 一种用于图像的实例级别分割的设备和方法

Info

Publication number: CN111886600A
Application number: CN201880090714.2A
Authority: CN
Inventors: 伊布拉希姆·哈法奥; 奥纳伊·优厄法利欧格路; 法赫德·布扎拉
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2020-11-03
Anticipated expiration: 2038-04-10
Also published as: CN111886600B; WO2019197021A1

Abstract

提出了一种用于执行图像实例级别语义分割的设备和方法。因此，类级别语义分割与实例级别边界检测组合在一起，并且改进的SLIC算法计算多个超像素作为实例级别分段。所述设备执行所述图像的类级别语义分割，以获取一个或多个类级别分段，其中每个类级别分段都具有与之相关联的对象类；同时，还针对所述图像执行实例级别语义边界检测，以获取一个或多个实例级别边界，其中对于每个实例级别边界，具有实例级别中心点。所述设备基于位于所述类级别分段中的所述实例级别中心点的个数，针对每个类级别分段，估计所述类级别分段中的对象实例的个数。所述设备基于所述一个或多个实例级别边界，针对估计的对象实例个数大于1的每个类级别分段，执行改进的SLIC算法，以获取多个超像素作为实例级别分段。

Description

一种用于图像的实例级别分割的设备和方法

技术领域

本发明涉及一种图像的实例级别分割的设备，还涉及一种相应的实例级别语义分割方法。实例级别语义分割可以用于分割和选择场景图像内的每个语义相关对象。这意味着属于同一类别的对象进行单独分割和识别。

背景技术

最近围绕人工智能(例如自动驾驶或机器人导航)的兴趣的增加导致了对这些技术至关重要的新研究课题。例如，理解和分析机器人或自动驾驶车辆周围的场景是相关应用的关键组成部分。该任务涉及检测和提取场景内部语义相关对象的能力，例如在所述场景的图像中。该流程称为“图像分割”。

图像分割的显著方法是简单的线性迭代聚类(Simple Linear IterativeClustering，简称SLIC)算法。在该算法中，所述场景的图像被聚类成超像素，其中超像素是一组语义相干像素。这意味着属于特定超像素的像素可能属于同一场景对象。最小可能的超像素由单个像素组成，最大可能的超像素由图像的所有像素组成。SLIC方法基于改进版本的K-均值聚类算法，使得超像素边界与语义相关对象的边界/边缘重叠。

很少提出改进版本的SLIC算法。例如，在一项提议中，对所述SLIC算法进行改进，以便与基于

的谱聚类方法一起使用，以分割图像区域而不是像素。在另一提议中，引入两种不同版本的改进SLIC：第一种是适用于高维情况的SLIC版本，第二种是包含更具复杂度、鲁棒性的增强距离测度的版本，称为分数距离。

SNIC算法是SLIC算法的进一步改进版本，作为一种非迭代替代方案引入，所述非迭代替代方案从一开始强制连接，相比原始版本，需要的存储空间更小，速度更快，操作更简单。最近，提出了一种扩展版本的SLIC算法，称为BSLIC算法，其目的在于将来自一般边缘检测的边界项纳入距离测度中。

除涉及在场景中检测和提取语义相关对象的图像分割之外，还需要例如通过将这些对象分配到正确的类别(例如，汽车、天空、植被等)来“识别”这些对象。该流程称为“语义分割”。

语义分割是一个深入研究的主题，归入分类任务范围。这解释了为什么语义分割从最近涌现的诸如深度神经网络(Deep Neural Network，简称DNN)、卷积神经网络(Convolutional Neural Network，简称DNN)和递归神经网络(Recurrent NeuralNetwork，简称RNN)的深度学习方法中获益匪浅。大多数语义分割算法的目的在于提取语义相关的图像分段，并将这些分段统统分配到相应类。这意味着语义分割算法处理预先定义个数的已知类。因此，其任务是对场景中的每个对象进行分类。

例如，在驱动场景的上下文中，对象类表示与应用相关的场景对象和部件。这些类可以包括诸如“汽车”、“植被”、“行人”、“路标”等类。相应地，场景中的所有汽车都将被分配到相应类(“汽车”)。

下一级别场景理解涉及自动驾驶车辆或机器人在实例级别执行当前场景的语义分割的能力，即执行“实例语义分割”的能力。这意味着，除将对象分配到正确类之外，自治系统应能够识别和标记给定类对象的每个实例。

例如，除分割属于“汽车”类的图像中的区域之外，在这种情况下，自动驾驶系统还能够识别图像中的每一辆汽车，并为每一辆汽车分配唯一标签。

有几种用于实例级别语义分割的方法，主要基于深度学习(CNN)。这些方法通常提出候选对象，一般作为限位框，并且直接预测每个此类候选对象提议内的二进制掩码。因此，这些方法无法从对象候选生成过程中的错误中恢复，例如框太小或移位。此外，这些方法仍然缺乏语义信息的适当集成，并且具有较高复杂度。

与实例级别语义分割相关的附加应用是检测场景图像中语义相关对象的边界(即边缘)。该任务也称为语义边缘检测、边界检测或轮廓检测。相应地，语义边界检测系统的结果将不同于传统边缘检测算法的结果，因为在这种情况下，目标是突出和检测语义相关对象的边界，而不是场景中的所有边缘。

与语义分割和实例级别语义分割类似，语义相关对象的边界检测可以类级别(非实例级别边界检测)或实例级别(实例级别边界检测)层次上执行。

边界检测是一项具有挑战性的任务，在实例级别层次上操作的系统的上下文中尤其如此。在这种情况下，要求使能算法能够识别特定(多实例)分段中从同一类分离对象的边界和对应于所述分段中纹理的边缘。

总之，截至目前，没有实例级别语义分割方法能够很好地从对象候选生成过程中的错误中恢复，并且进一步允许语义信息的适当集成并且具有较低复杂度。

发明内容

发明人认识到，至少原则上可以通过在单个框架中组合语义分割和实例级别边界检测来完成实例级别语义分割。这涉及使用语义边界来分离同一对象的实例。它还需要高度精确的语义分割，同时还需要精确的边界检测算法。因此，在语义分割和/或边界检测方面的不准确性会导致目标实例级别语义分割的质量显著降低。

此外，与语义分割(类级别和实例级别)相比，实例级别边界检测是较少涉猎研究的主题。现有方法主要依赖于深度学习框架。这意味着大多数这些方法都存在性能不稳定性，尤其是当呈现与用于训练相应模型的场景不同的场景的图像时。

鉴于上述挑战和缺点，本发明的目的在于改进用于实例级别语义分割的现有方法。本发明的特别目的在于提供一种用于对图像进行改进的实例级别语义分割的设备和方法。本发明的目的尤其在于针对一种能够更好地从错误中恢复的解决方案。本发明还要求能够更好地整合语义信息的解决方案。最后，本发明致力于降低复杂度。

本发明的目的通过所附独立权利要求中提供的解决方案来实现。本发明的有利实现在从属权利要求中进一步定义。

为了描述本发明的解决方案，在本文中使用以下术语，并且将按如下所述进行理解。

“图像”—数码相机对真实世界或合成场景的视觉表现形式。也称为图片。

“像素”—最小可寻址图片/图像元素。

“场景”—相对于参考的周围环境。例如，相机的场景是从相机可见的环境的一部分。

“纹理”—图像内的区域，它描绘的内容在颜色强度上具有显著的变化。

“边缘”—图像中梯度(亮度水平)突然变化的区域。

“超像素”—一组图像像素(由一个或多个像素组成)，在理想情况下语义相似(例如，具有相似的颜色)。

“类”—定义的语义组，它包括具有相似语义特征的几个对象。例如，树木、花和其它类型的植物都属于“植被”类。

“分段”—一组图像像素(由一个或多个像素组成)，在理想情况下属于公共语义类。

“实例”—属于已知类的对象。例如，场景中的树木是属于“植被”类的实例。

“多实例分段”—包含与之分配到的类相同的多个实例(对象)的分段。

“标签”—用于确定项/实体的类类型的标识符(例如，整数)。

“图像分割”—一种将图像分割成语义相干分段的方法，而不需要任何关于这些分段所属类的先验知识。

“语义分割”—一种根据语义归属将图像分割成不同区域的方法。例如，描绘汽车的像素都是红色的，描绘道路的像素都是蓝色的，等等。

“实例级别语义分割”—一种根据语义归属将图像分割成不同区域和对象实例的方法。单个对象可识别并可彼此分离。

“语义边界”—分离语义相关类的边缘。这意味着不是类之间边界的一部分的图像纹理和细节不被视为语义边界。

“实例级别语义边界”—在实例级别层次上应用的语义边界(分离类的边缘，以及多实例分段内的实例)。

“机器学习”—一种研究领域，专注于分析和学习输入数据以建立能够进行预测的模型。

“人工神经网络”—深度学习背景下的一种机器学习子域，由生物神经网络驱动。人工网络旨在通过自适应地学习一组连接权重来估计具有大量输入的函数。

“卷积”—使用积分运算计算两个函数重叠量的数学运算，其中一个函数进行反转和移位处理。

“卷积神经网络”—在其结构中包含至少一个卷积层的人工神经网络。

本发明的第一方面提供一种用于图像的实例级别语义分割的设备，其中，所述设备用于：执行所述图像的类级别语义分割，以获取一个或多个类级别分段，其中每个类级别分段都具有与之相关联的对象类；针对所述图像执行实例级别语义边界检测，以获取一个或多个实例级别边界，其中对于每个实例级别边界，具有实例级别中心点；基于位于所述类级别分段中的所述实例级别中心点的个数，针对每个类级别分段，估计所述类级别分段中的对象实例的个数；基于所述一个或多个实例级别边界，针对估计的对象实例个数大于1的每个类级别分段，执行改进的SLIC算法，以获取多个超像素作为实例级别分段。

例如，每个中心点都可以是由相应实例级别边界限定的实例级别分段的质心。

该设备允许对精确且计算复杂度较低的图像执行实例级别语义分割。特别地，类级别语义分割和实例级别边界检测的组合致使结果的计算复杂度较低。随后执行的改进的SLIC算法允许将这些结果精细化成具有相对较低额外复杂度的精确实例级别语义分段。此外，由于改进的SLIC算法，使用所述设备实现的实例级别分割流程可以很好地从类级别语义分割和/或实例级别边界检测中的错误中恢复。此外，实现了语义信息的良好集成。

在第一方面的一种实现方式中，所述设备用于：基于给定的类级别分段中估计的对象实例个数，针对所述分段，执行所述改进的SLIC算法，以初始化多个搜索区域，所述搜索区域都围绕中心像素，对应于所述分段中的估计的对象实例个数。

这使得使用所述设备执行的实例级别语义分割更高效，并确保结果更精确。

在第一方面的另一种实现方式中，所述改进的SLIC算法在所述SLIC算法的基础上进行改进，以考虑多个边界像素，并根据每个搜索区域中的所述一个或多个实例级别边界进行计算。

通过利用边界像素考虑边界，改进的SLIC算法产生更精确地定义实例级别分段的超像素。

在第一方面的另一种实现方式中，所述设备用于：通过执行所述改进的SLIC算法，为超像素分配搜索像素，所述超像素的搜索区域包括最小个数的边界像素，所述最小个数根据分离所述搜索像素与所述搜索区域的中心像素的所述一个或多个实例级别边界计算所得。

分离搜索像素与中心像素的边界像素越少，搜索像素与中心像素属于同一对象实例的概率越高。相应地，获取的实例级别语义分段更准确。

在第一方面的另一种实现方式中，所述设备用于：通过执行所述改进的SLIC算法，关于搜索区域的中心像素，计算所述搜索区域内搜索像素的距离测度，其中，所述距离测度根据所述边界像素的个数进行补偿，并根据每个搜索区域中的所述一个或多个实例级别边界进行计算。

在第一方面的另一种实现方式中，所述设备用于：根据以下等式计算所述距离测度D：

且d_b＝n_b/4S²。

其中，d_C表示所述搜索像素至所述中心像素的CIELAB域中的颜色距离，d_S表示所述搜索像素至所述中心像素的空域中的距离测度，m为第一加权参数，n_b为所述搜索区域中所述边界像素的个数，4S2为所述搜索区域中所述像素的总个数，∝为第二加权参数。

在所述改进的SLIC算法中计算的距离测度产生精确的结果，同时几乎没有增加计算复杂度。

在第一方面的另一种实现方式中，所述设备包括用于执行实例级别语义边界检测的CNN。

这提供实例级别语义边界检测的特定有效实现方式。

在第一方面的另一种实现方式中，所述设备包括CNN子网级联，用于：操作所述级联的第一子网，以获取一个或多个类级别边界；操作所述级联的第二子网，以基于由所述第一子网获取的类级别边界，针对每个所述一个或多个类级别边界，获取一个或多个实例级别边界。

在第一方面的另一种实现方式中，所述设备还用于：操作所述级联的所述第二子网，以基于由所述第二子网获取的所述一个或多个实例级别边界，获取一个或多个实例级别中心点。

CNN子网级联以高效的方式提供精确的结果，并且从深度学习中获益。

在第一方面的另一种实现方式中，所述设备用于：出于估计每个类级别分段中的对象实例个数的目的，确定所述类级别分段是包含单个对象实例还是包含多个对象实例；基于所述一个或多个实例级别中心点，针对包含多个对象实例的类级别分段，估计所述对象实例的个数。

这使得所述设备能够更高效地执行改进的SLIC算法。

在第一方面的另一种实现方式中，所述设备包括用于执行图像的类级别语义分割的CNN。

本发明的第二方面提供一种用于图像的实例级别语义分割的方法，所述方法包括：执行所述图像的类级别语义分割，以获取一个或多个类级别分段，其中每个类级别分段都具有与之相关联的对象类；针对所述图像执行实例级别语义边界检测，以获取一个或多个实例级别边界，其中对于每个实例级别边界，具有实例级别中心点；基于位于所述类级别分段中的所述实例级别中心点的个数，针对每个类级别分段，估计所述类级别分段中的对象实例的个数；基于所述一个或多个实例级别边界，针对估计的对象实例个数大于1的每个类级别分段，执行改进的简单的线性迭代聚类(Simple Linear Iterative Clustering，简称SLIC)算法，以获取多个超像素作为实例级别分段。

在第二方面的一种实现方式中，所述方法包括：基于给定的类级别分段中估计的对象实例个数，针对所述分段，执行所述改进的SLIC算法，以初始化多个搜索区域，所述搜索区域都围绕中心像素，对应于所述分段中的估计的对象实例个数。

在第二方面的另一种实现方式中，所述改进的SLIC算法在所述SLIC算法的基础上进行改进，以考虑多个边界像素，并根据每个搜索区域中的所述一个或多个实例级别边界进行计算。

在第二方面的另一种实现方式中，所述包括：通过执行所述改进的SLIC算法，为超像素分配搜索像素，所述超像素的搜索区域包括最小个数的边界像素，所述最小个数根据分离所述搜索像素与所述搜索区域的中心像素的所述一个或多个实例级别边界计算所得。

在第二方面的另一种实现方式中，所述方法包括：通过执行所述改进的SLIC算法，关于搜索区域的中心像素，计算所述搜索区域内搜索像素的距离测度，其中，所述距离测度根据所述边界像素的个数进行补偿，并根据每个搜索区域中的所述一个或多个实例级别边界进行计算。

在第二方面的另一种实现方式中，所述方法包括：根据以下等式计算所述距离测度D：

且d_b＝n_b/4S²。

在第二方面的另一种实现方式中，所述方法包括：使用CNN执行实例级别语义边界检测。

在第二方面的另一种实现方式中，所述方法包括：操作CNN子网级联的第一子网，以获取一个或多个类级别边界；操作所述级联的第二子网，以基于由所述第一子网获取的类级别边界，针对每个所述一个或多个类级别边界，获取一个或多个实例级别边界。

在第二方面的另一种实现方式中，所述方法包括：操作所述级联的所述第二子网，以基于由所述第二子网获取的所述一个或多个实例级别边界，获取一个或多个实例级别中心点。

在第二方面的另一种实现方式中，所述方法包括：出于估计每个类级别分段中的对象实例个数的目的，确定所述类级别分段是包含单个对象实例还是包含多个对象实例；基于所述一个或多个实例级别中心点，针对包含多个对象实例的类级别分段，估计所述对象实例的个数。

在第二方面的另一种实现方式中，所述方法包括：使用CNN执行图像的类级别语义分割。

第二方面及其实现方式中所述的方法实现的优点和效果与第一方面及其相应实现方式中所述的设备相同。

本发明的第三方面提供一种计算机程序产品，包括：程序代码，其中，当所述程序代码在处理器上实现时，控制根据第一方面或其实现方式中任一项所述的设备或执行根据第二方面或其实现方式中所述的方法。

相应地，第三方面的计算机程序产品能够实现上文分别针对第一方面所述的设备和第二方面所述的方法描述的相同的优点和效果。

应注意，本申请中描述的所有设备、元件、单元和装置都可以通过软件或硬件元件或其任何种类的组合实现。本申请中描述的各种实体所执行的所有步骤以及由各种实体执行的功能旨在表示相应的实体适用于或用于执行相应的步骤和功能。即使在以下描述或特定实施例中，外部实体所执行的特定功能或步骤也不会反映在执行该特定步骤或功能的该实体的特定详细元素的描述中，技术人员应清楚可通过相应软件或硬件元件或其任何种类的组合实现这些方法和功能。

附图说明

结合所附附图，下面具体实施例的描述将阐述上述本发明的各方面及其实现形式，其中：

图1示出了本发明一实施例提供的设备；

图2示出了本发明一实施例提供的设备；

图3示出了本发明一实施例提供的设备的CNN架构；

图4示出了示例性图像，其中示出了两个超像素和搜索窗。与一个搜索窗相比，对应于超像素的另一个搜索窗包括更多边界像素；

图5示出本发明一实施例提供的方法；

图6和图7分别示出了图像中类级别语义边界(见图6)和实例级别语义边界(见图7)的示例。

具体实施方式

图1示出了本发明一实施例提供的设备100。所述设备100用于执行图像101的实例级别语义分割。为此，所述设备100可以包括处理电路，如至少一个处理器，和/或可以包括一个或多个CNN和/或子网，以便执行以下功能中的至少一项功能。

所述设备100用于执行图像101的类级别语义分割103(在图1中采用框示意性示出)，以获取一个或多个类级别分段106。每个类级别分段106都具有与之相关联的对象类。

所述100还用于：在图像101上执行实例级别语义边界检测102(在图1中采用框示意性示出)，以获取一个或多个实例级别边界108，并且对于每个实例级别边界108，获取实例级别中心点107，如质心。因此，实例级别语义边界检测102产生图像101中的所有估计的实例级别中心点107。所述设备100可以并行或部分执行或逐一执行类级别分割103和实例级别边界检测102。

所述设备100还用于：基于位于类级别分段106中的实例级别中心点107的个数，针对由类级别语义分割103提供的每个类级别分段106，估计104(在图1中采用框示意性示出)类级别分段106中的对象实例的个数。特别地，这产生估计的对象实例个数大于1的所有类级别分段109。

此外，所述设备100还用于：基于所述一个或多个实例级别边界108，针对估计的对象实例个数大于1的每个类级别分段109，执行改进的SLIC算法105(在图1中采用框示意性示出)，以获得多个超像素作为实例级别分段110。通过获取这些实例级别分段110，所述设备100已成功执行图像101的实例级别语义分割。

换言之，所提出的技术可以从执行所考虑的图像101的类级别语义分割103和估计实例级别语义边界108开始。实例级别语义边界检测102提供实例级别层次的诸如汽车、行人和各种其它类的语义相关对象的边界108的估计值，以及图像101中所有对象实例的中心点107的估计值。

所述估计的语义边界108可能不够精确，不足以直接用于估计图像101的期望的实例级别语义分割。为了处理这个限制，该技术利用所述改进的SLIC算法105的优点。首先，所述设备100为此用于使用所有实例的估计的中心点107(如2D质心)，以便针对图像101中的每个类级别分段106确定相应分段106是否包含同一类的多个实例。为此，所述设备100可以用于估计每个类级别分段106内的实例的个数。

然后，在包含若干实例的每个类级别分段109内应用所述改进的SLIC算法105。SLIC算法的改进具体可以包括：将有关语义边界108的信息集成到每个搜索像素与所考虑的超像素中心之间的距离测度中(下文将进一步进行详细说明)。所述改进的SLIC算法105也可以使用先前作为附加输入估计的实例的个数201(见图2)。这些步骤可以针对图像101内的每个多实例类级别分段109单独完成。

图2示出了本发明一实施例提供的设备100，所述设备建立在图1示出的设备100上。使用相同的参考符号标记相同的功能和计算/估计的元件。值得注意的是，图2中示出的设备100可以在自动驾驶车辆或机器人中实现，或可用于自动驾驶车辆或机器人。

图2中的设备100可以用于：捕获(或从外部捕获设备接收)围绕自动驾驶车辆或机器人的场景的一个或多个图像101。所述设备100可以在RGB和/或灰度图像101上执行其实例级别语义分割。所述设备100也有可能从不同的捕获设置中获益，例如立体声或相机阵列，但是在下文中所述设备100被描述为有关单个纹理图像101的输入。

在下文中，描述了所属设备100的不同功能块。这些功能块可以在单个硬件元件(如处理电路或处理器)中执行，或者可以在不同的硬件元件(如多个处理器和/或CNN)中执行。

在所述设备100的功能块中，对先前捕获的纹理图像101执行对象边界108的实例级别估计102。为此，可以使用传统方法。例如，可以使用在“Kokkinos,I，使用深度学习来推进边界检测，2016年国际学习表征会议(the International Conference on LearningRepresentations，简称ICLR)”、“Xie,S.、Tu,Z.，整体嵌套边缘检测，2015年国际计算机视觉大会(IEEE International Conference on Computer Vision，简称ICCV)、“Bertasius,G.；Shi,J.、Torresani,L.，应用安全网关：用于自顶向下轮廓检测的多尺度分叉深网络，2015年计算机视觉模式识别会议(IEEE Conference on Computer Vision and PatternRecognition，简称CVPR)”或“Maninis,K.、Pont-Tuset,J.、Arbelaez,P.和Van Gool,L.，卷积定向边界，2016年欧洲计算机视觉会议(European Conference on Computer Vision，简称ECCV)”中描述的方法。

然而，作为传统方法的一种有利替代方案，所述设备100可以包括并使用图3中示出的CNN 300。在这种基于CNN的设备100中，实例级别边界检测102可以使用CNN 300来执行。CNN 300可以包括CNN子网301、302的级联。如图3所示，端到端映射可以划分成两个子网301、302。可以训练和操作第一子网301，以生成类级别语义边界303(根据在训练集中定义的类)。可以训练和操作第二子网302，并且确保所述第二子网由此学习输入图像101的级联与第一子网301的输出之间的映射，以及图像101的实例级别语义边界108之间的映射。此外，可以训练和操作第二子网络302，以提供图像101中的对象实例的中心点107(如2D质心)。然后，可以使用该信息来应用后续改进的SLIC算法105。

在所述设备100的另一功能块中，执行所考虑场景的输入图像101的语义分割103。在此级别，不需要执行实例级别语义分割。可以使用传统的类级别语义分割算法，例如传统的SLIC、SNIC或BSLIC算法。

在所述设备100的另一功能块中，可以估计每个分段106中的对象实例的个数201。例如，通过使用输入图像101、实例级别语义边界检测102的输出(图像101中的估计中心点107)和类级别语义分割103的输出(图像101中的估计类级别分段106)，针对图像101中的每个类级别分段106提取两条信息：首先，检查所考虑的类级别分段106是包含同一对象的多个实例(即为多实例分段109)或还是仅包含对应类的单个对象(即为单实例分段)。这可以通过检查所考虑的类级别分段106是否包含一个以上中心点107来完成。接下来，在多实例分段109的情况下，可以估计该特定多实例分段109内的对象(对象实例)的个数201。该估计可以通过计算多实例分段109内的中心点107的个数(如2D质心估计)来完成。这可以针对图像101中的每个类级别分段106来完成。然后，可以使用分段109内的实例个数201来后续执行改进的SLIC算法105。

在所述设备100的另一功能块中，应用改进的SLIC算法105。特别地，通过该改进的SLIC算法105对每个多实例分段109执行超像素分割。这允许分离每个对象实例。传统SLIC算法的改进围绕实例级别语义边界108的集成进行，以便提高传统SLIC超像素分割的性能。改进的SLIC算法105优选地将多实例分段109内先前估计的实例个数201用作输入。

值得注意的是，在传统SLIC超像素分割(传统SLIC算法)期间，图像或图像分段中的每个像素都与超级像素的中心进行比较，其搜索区域包括正在探索的像素。该比较基于搜索区域中搜索像素相对于所述搜索区域的中心像素的距离测度D，通常表示为：

d_c表示搜索像素到中心像素的颜色距离(在CIELAB域中)，d_s表示搜索像素空域中的距离测度。S表示初始采样间隔，m为加权参数，该加权参数允许对空间距离测度相对于颜色距离的贡献进行加权。每个超像素的可能的新像素的搜索窗为2Sx2S，即4S²为搜索区域中的像素总数。

相应地，所考虑的像素将被分配到其中搜索像素与聚类中心像素之间的距离D最小的超像素。改进的SLIC算法105与该SLIC算法类似。

然而，在由所述设备100执行的改进的SLIC算法105中，除上述颜色距离d_c和空间距离测度d_s之外，还将有关确定的实例级别语义边界108的信息集成到决策中。这是参照图4来说明的，所述附图示出了所考虑的示例性图像101，在所述示例性图像中示例性地示出了围绕中心像素402的两个超像素(特别是它们的中心402)和两个相应的搜索区域401(超级像素的搜索窗)。值得注意的是，对应于第一超像素1的一个搜索区域401包括的边界像素403的个数大于对应于第二超像素2的另一搜索区域401包括的所述边界像素的个数。

所述设备100可以用于计算搜索区域401内的边界像素403的个数。边界像素403的个数随后可集成到距离测度(称为改进的SLIC算法105的D_new)中。当检测到更多边界像素403时，该集成特别使得D_new增加。这样，图4中示出的所考虑的像素404将被分配到超像素，其中更少的边界像素403分离搜索像素404和超像素中心402。

因此，所述设备100用于根据实例级别语义边界检测102提供的信息，针对每个搜索区域401计算边界像素n_b的个数。然后，它可以根据搜索区域401内的像素总数(4S²)对边界像素403的个数进行归一化处理。最后，它可以将其包括在等式中，以便根据以下等式获取距离测度D_new：

且d_b＝n_b/4S²。

在上述公式中，第二加权参数α对引入的边界距离对整体距离测度的贡献进行加权。与上述类似，d_C表示所述搜索像素404至所述中心像素402的CIELAB域中的颜色距离，d_S表示所述搜索像素404至所述中心像素402的空域中的距离测度，m为第一加权参数，n_b为所述搜索区域401中所述边界像素403的个数，4S2为所述搜索区域401中所述像素的总个数。

在每个多实例分段109上应用改进版本的SLIC算法105之后，所述设备100用于输出实例级别语义分段110，所述实例级别语义分段110定义输入图像101的期望的实例级别语义分割。

图5示出了本发明一实施例提供的方法500。所述方法500特别用于图像101的实例级别语义分割。所述方法500包括步骤501，执行501图像101的类级别语义分割103，以获取一个或多个类级别分段106，其中每个类级别分段106都具有与之相关联的对象类。所述方法500还包括步骤502，针对图像101执行实例级别语义边界检测103，以获取一个或多个实例级别边界108，其中对于每个实例级别边界108，具有实例级别中心点107。此外，所述方法500包括：基于位于所述类级别分段106中的所述实例级别中心点107的个数，针对每个类级别分段106，估计503所述类级别分段106中的对象实例的个数。此外，所述方法500包括步骤504，基于所述一个或多个实例级别边界108，针对估计的对象实例个数大于1的每个类级别分段，执行改进的SLIC算法105，以获取多个超像素作为实例级别分段110。

已经结合作为实例的不同实施例以及实施方案描述了本发明。但本领域技术人员通过实践所请发明，研究附图、本公开以及独立权项，能够理解并获得其它变体。在权利要求以及描述中，术语“包括”不排除其它元件或步骤，且“一个”并不排除复数可能。单个元件或其它单元可满足权利要求书中所叙述的若干实体或项目的功能。在仅凭某些措施被记载在相互不同的从属权利要求书中这个单纯的事实并不意味着这些措施的结合不能在有利的实现方式中使用。

Claims

1.一种用于图像(101)的实例级别语义分割的设备(100)，其特征在于，所述设备(100)用于：

执行所述图像(101)的类级别语义分割(103)，以获取一个或多个类级别分段(106)，其中每个类级别分段(106)都具有与之相关联的对象类；

针对所述图像(101)执行实例级别语义边界检测(102)，以获取一个或多个实例级别边界(108)，其中对于每个实例级别边界(108)，具有实例级别中心点(107)；

基于位于所述类级别分段(106)中的所述实例级别中心点(107)的个数，针对每个类级别分段(106)，估计(104)所述类级别分段(106)中的对象实例的个数；

基于所述一个或多个实例级别边界(108)，针对估计的对象实例个数大于1的每个类级别分段(109)，执行改进的简单的线性迭代聚类(Simple Linear Iterative Clustering，简称SLIC)算法(105)，以获取多个超像素作为实例级别分段(110)。

2.根据权利要求1所述的设备(100)，其特征在于，用于：

基于给定的类级别分段(106)中估计的对象实例个数(201)，针对所述分段(106)，执行所述改进的SLIC算法(105)，以初始化多个搜索区域(401)，所述搜索区域都围绕中心像素(402)，对应于所述分段(106)中的估计的对象实例个数(201)。

3.根据权利要求1或2所述的设备(100)，其特征在于，

所述改进的SLIC算法(105)在所述SLIC算法的基础上进行改进，以考虑多个边界像素(403)，并根据每个搜索区域(401)中的所述一个或多个实例级别边界(108)进行计算。

4.根据权利要求1至3中任一项所述的设备(100)，其特征在于，用于：

通过执行所述改进的SLIC算法(105)，为超像素分配搜索像素(404)，所述超像素的搜索区域(401)包括最小个数的边界像素(403)，所述最小个数根据分离所述搜索像素(404)与所述搜索区域(401)的中心像素(402)的所述一个或多个实例级别边界(108)计算所得。

5.根据权利要求1至4中任一项所述的设备(100)，其特征在于，用于：

通过执行所述改进的SLIC算法(105)，关于搜索区域(401)的中心像素(402)，计算所述搜索区域(401)内搜索像素(404)的距离测度，其中，所述距离测度根据所述边界像素(403)的个数进行补偿，并根据每个搜索区域(401)中的所述一个或多个实例级别边界(108)进行计算。

6.根据权利要求5所述的设备(100)，其特征在于，用于：

根据以下等式计算所述距离测度D

且d_b＝n_b/4S²。

其中，d_C表示所述搜索像素(404)至所述中心像素(402)的CIELAB域中的颜色距离，d_S表示所述搜索像素(404)至所述中心像素(402)的空域中的距离测度，m为第一加权参数，n_b为所述搜索区域(401)中所述边界像素(403)的个数，4S²为所述搜索区域(401)中所述像素的总个数，∝为第二加权参数。

7.根据权利要求1至6中任一项所述的设备(100)，其特征在于，包括：

卷积神经网络(Convolutional Neural Network，简称CNN)(300)，用于执行实例级别语义边界检测(102)。

8.根据权利要求7所述的设备，其特征在于，包括CNN子网(301、302)级联，用于：

操作所述级联的第一子网(301)，以获取一个或多个类级别边界(303)；

操作所述级联的第二子网(302)，以基于由所述第一子网(301)获取的类级别边界(303)，针对每个所述一个或多个类级别边界(303)，获取一个或多个实例级别边界(108)。

9.根据权利要求8所述的设备(100)，其特征在于，还用于：

操作所述级联的所述第二子网(302)，以基于由所述第二子网(302)获取的所述一个或多个实例级别边界(108)，获取一个或多个实例级别中心点(107)。

10.根据权利要求1至9中任一项所述的设备(100)，其特征在于，用于：出于估计每个类级别分段(106)中的对象实例个数(201)的目的，

确定所述类级别分段(106)是包含单个对象实例还是包含多个对象实例；

基于所述一个或多个实例级别中心点(107)，针对包含多个对象实例的类级别分段(109)，估计所述对象实例的个数。

11.根据权利要求1至10中任一项所述的设备(100)，其特征在于，包括：

卷积神经网络(Convolutional Neural Network，简称CNN)(300)，用于执行图像的类级别语义分割(103)。

12.一种用于图像(101)实例级别语义分割的方法(500)，其特征在于，所述方法(500)包括：

执行(501)所述图像(101)的类级别语义分割(103)，以获取一个或多个类级别分段(106)，其中每个类级别分段(106)都具有与之相关联的对象类；

针对所述图像(101)执行(502)实例级别语义边界检测(103)，以获取一个或多个实例级别边界(108)，其中对于每个实例级别边界(108)，具有实例级别中心点(107)；

基于位于所述类级别分段(106)中的所述实例级别中心点(107)的个数，针对每个类级别分段(106)，估计(503)所述类级别分段(106)中的对象实例的个数；

基于所述一个或多个实例级别边界(108)，针对估计的对象实例个数大于1的每个类级别分段(109)，执行(504)改进的简单的线性迭代聚类(Simple Linear IterativeClustering，简称SLIC)算法(105)，以获取多个超像素作为实例级别分段(110)。

13.一种计算机程序产品，其特征在于，包括：程序代码，其中，当所述程序代码在处理器上实现时，控制权利要求1至11中任一项所述的设备(100)或执行权利要求12所述的方法(500)。