CN110533046B

CN110533046B - 一种图像实例分割方法、装置、计算机可读存储介质及电子设备

Info

Publication number: CN110533046B
Application number: CN201910819133.4A
Authority: CN
Inventors: 单言虎; 高乃钰; 任伟强; 廖杰
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2022-03-29
Anticipated expiration: 2039-08-30
Also published as: CN110533046A

Abstract

公开了一种图像实例分割方法、装置、计算机可读存储介质及电子设备，该方法包括：获取待处理图像；将所述待处理图像输入神经网络模型，获得至少一个带有分类预测信息的中间图像，所述分类预测信息至少包括所述待处理图像中像素的语义类别和像素关联度；将所述中间图像输入级联图分割模型，获得实例分割图。根据本公开的技术方案，不仅可以提升最终实例分割的性能，而且节省了计算成本，有效提高计算效率。

Description

一种图像实例分割方法、装置、计算机可读存储介质及电子设备

技术领域

本申请涉及图像处理技术领域，且更具体地，涉及一种图像实例分割方法和装置。

背景技术

随着科学技术的不断进步，数字图像的发展可谓日新月异。为了能够更好地识别和理解图像中的内容，人们采用了各种图像处理技术对图像进行处理，其中图像实例分割方法不仅可以对图像中的物体类别进行识别，还可以对每个物体进行分割，具有良好的应用前景，因此受到了广泛关注。

目前实例分割方法主要包括两大类，即基于目标检测的实例分割方法(Proposal-based approach)和基于语义分割的实例分割方法(Proposal-free approach或Segmentation-based approach)，由于基于语义分割的实例分割方法更加简单和高效，因而越来越受到人们的青睐。然而，目前的实例分割方法在进行图分割过程中需要花费大量的时间，导致计算效率不高。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种图像实例分割方法、装置、计算机可读存储介质及电子设备，其可有效提升实例分割性能并提高计算效率。

根据本申请的第一个方面，提供了一种图像实例分割方法，包括：

获取待处理图像；

将所述待处理图像输入神经网络模型，获得至少一个带有分类预测信息的中间图像，所述分类预测信息至少包括所述待处理图像中像素的语义类别和像素关联度；

将所述中间图像输入级联图分割模型，获得实例分割图。

根据本申请的第二个方面，提供了一种图像实例分割装置，包括：

图像采集模块，用于获取待处理图像；

中间图像采集模块，用于将所述图像采集模块获取的待处理图像输入像素对关联金字塔模型，获得至少一个带有分类预测信息的中间图像，所述分类预测信息至少包括所述待处理图像中像素的语义类别和物体实例类别；

实例分割图获取模块，用于将所述中间图像采集模块获取的中间图像输入级联图分割模型，获得实例分割图。

根据本申请的第三个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一个方面所述的图像实例分割方法。

根据本申请的第四个方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一个方面所述的图像实例分割方法。

与现有技术相比，本申请提供的图像实例分割方法、装置、计算机可读存储介质及电子设备，至少包括以下有益效果：本申请通过一个神经网络模型可以获取待处理图像中像素的语义类别和像素关联度，并通过级联图分割模型可以将语义类别和像素关联度进行融合，生成待处理图像的实例分割结果，不仅可以提升最终实例分割的性能，而且节省了计算成本，有效提高计算效率。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请一示例性实施例提供的图像实例分割方法的流程示意图。

图2是本申请一示例性实施例提供的图像实例分割方法中获得带有分类预测信息的中间图像的流程示意图。

图3是本申请一示例性实施例提供的图像实例分割方法中获取像素的语义类别和像素关联度的示意图。

图4是本申请一示例性实施例提供的图像实例分割方法中确定像素相关度的流程示意图。

图5是本申请一示例性实施例提供的图像实例分割方法中获得实例分割图的流程示意图。

图6是本申请一示例性实施例提供的图像实例分割方法中对中间图像进行实例分割的流程示意图。

图7是本申请一示例性实施例提供的图像实例分割方法中获取中间图像的关联窗口中所有像素对的预测关联值的流程示意图。

图8是本申请一示例性实施例提供的图像实例分割方法中对不同分辨率的中间图像进行聚合的流程示意图。

图9是本申请一示例性实施例提供的图像实例分割方法中通过级联图分割模型进行图像融合的示意图。

图10是本申请一示例性实施例提供的图像实例分割装置的示意图。

图11是本申请一示例性实施例提供的图像实例分割装置中中间图像采集模块的示意图。

图12是本申请一示例性实施例提供的图像实例分割装置中实例分割图获取模块的示意图。

图13是本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

目前，图像实例分割方法主要包括两大类，即基于目标检测的实例分割方法和基于语义分割的实例分割方法。基于目标检测的实例分割方法中，通过边界框对图像中的每个对象进行定位，然后再用前景模板对每一个边界框进行检测，以实现对实例的分割；然而其检测结果的准确性受限于边界框的质量，且对复杂形状的物体效果较差。基于语义分割的实例分割方法由于更加简单和高效，因而越发受到市场的青睐。目前，语义分割的实例分割方法需要至少两个神经网络分别预测语义类型和实例特征，且将该过程视为两个完全独立的步骤，聚类算法速度较慢，增加了计算成本，导致整体的计算效率不高。

本实施例则提出了一种全新的实例分割方法，通过一个神经网络模型可以获取待处理图像中像素的语义类别和像素关联度，并通过级联图分割模型可以将语义类别和像素关联度进行融合，生成待处理图像的实例分割结果，不仅可以提升最终实例分割的性能，而且节省了计算成本，有效提高计算效率。

示例性方法

图1是本申请一示例性实施例提供的图像实例分割方法的流程示意图。本实施例可应用在电子设备上，具体可以应用于服务器或一般计算机上。如图1所示，图像实例分割方法包括如下步骤：

步骤10：获取待处理图像。

在本实施例中，待处理图像可以通过图像采集模块进行获取，例如可以通过相机进行获取。获取待处理图像的途径可以根据实际需要进行设置，例如可以是通过移动终端设备的图像采集模块采集图像，也可以是通过相机采集图像后所提供的图像等。待处理图像的数量也不做限制，例如可以只获取一张待处理图像，也可以获取多张待处理图像。

步骤20：将所述待处理图像输入神经网络模型，获得至少一个带有分类预测信息的中间图像，所述分类预测信息至少包括所述待处理图像中像素的语义类别和像素关联度。

本实施例将待处理图像输入该神经网络模型后，可以获得一个中间图像，也可以包括多个分辨率不同的中间图像，每一个中间图像可以同时获取其像素的语义类别和像素关联度。其中像素的语义类别指的是像素的类别，例如待处理图像中某一个像素的类别可以是人、车辆、斑马线、马路等，而不区分每一个类别下的具体实例；例如，待处理图像中一共包括两个人，像素的类别并不会区分其是属于第一个人还是第二个人，而只会表示该像素对应的是人。对于其他类别，与此类似。像素关联度则表示像素之间的关联，关联度强的像素，则意味着其属于同一个具体实例；而关联度弱的像素，则意味着其不属于同一个具体实例，以此可以实现不同实例之间的分割。

步骤30：将所述中间图像输入级联图分割模型，获得实例分割图。

在本实施例中，级联图分割模型可以将不同分辨率的中间图像按照预设顺序进行聚合，从而获得实例分割图，实例分割图中不仅可以区分出哪些像素属于哪一个实例，而且可以区分出每个实例中像素的类别。

在获得了实例分割图以后，还可以对实例分割图进行输出和展示，此时可以对实例分割图进行标注，例如可以标注出图中具有哪些实例，每个实例的类别分别是什么，从而便于用户直观识别待处理图像中的实例信息。

本实施例提供的图像实例分割方法的有益技术效果至少在于：本实施例通过一个神经网络模型可以获取待处理图像中像素的语义类别和像素关联度，并通过级联图分割模型可以将语义类别和像素关联度进行融合，生成待处理图像的实例分割结果，不仅可以提升最终实例分割的性能，而且节省了计算成本，有效提高计算效率。

图2示出了如图1所示的实施例中将所述待处理图像输入神经网络模型，获得至少一个带有分类预测信息的中间图像步骤的流程示意图。

如图2所示，在上述图1所示实施例的基础上，本申请一个示例性实施例中，步骤20所示获取中间图像步骤具体可以包括：

步骤201：获取所述待处理图像中各像素的语义类别。

像素的语义类别可以看做是对像素的进行分类的一种预测信息，在对获取的待处理图像进行处理时，可以首先对待处理图像中的每一个像素进行分析，以获取每一个像素的语义类别，实现了像素级的语义类别区分，从而可以获知待处理图像中具有哪些类别，以及图像中的像素分别属于哪些类别。例如，待处理图像中包括两个人、两辆车以及一条马路等实例，此时在获取图像中各像素的语义类别时，可以获知待处理图像中的语义类别包括人、车以及马路，同时对每个像素的语义类别进行预测。

步骤202：获取所述待处理图像的不同分辨率的第一图像，并获取所述第一图像的关联窗口。

在本实施例中，不同分辨率对应着不同尺度的第一图像。例如，在本实施例中，待处理图像F₀的高和宽分别记为h和w，分辨率记为1；分辨率为1/4的第一图像F₁的高和宽分别记为h/4和w/4；分辨率为1/8的第一图像F₂的高和宽分别记为h/8和w/8；分辨率为1/16的第一图像F₃的高和宽分别记为h/16和w/16；分辨率为1/32的第一图像F₄的高和宽分别记为h/32和w/32；分辨率为1/64的第一图像F₅的高和宽分别记为h/64和w/64。此时，第一图像的数量对应为5个，对应的分辨率集合为{1/4,1/8,1/16,1/32,1/64}。

在获取不同分辨率的第一图像时，也可以对应获取每种分辨率下的第一图像的关联窗口，以便后续进行像素关联度分析。关联窗口的尺寸记为r×r，不同分辨率下的关联窗口的尺寸可以相同，也可以不同。在本实施例中，不同分辨率下关联窗口的尺寸可以相同，例如均可以设置为7×7，以使得后续像素关联度分析的过程更加简化。

步骤203：确定所述关联窗口中任意像素与中间位置像素属于同一物体实例的概率，以确定其是否属于同一物体实例。

在获取了关联窗口后，需要对不同分辨率下第一图像的像素关联度进行分析。此时，需要对关联窗口中的像素进行分析，根据关联窗口中的像素属于同一物体实例的概率，来确定其是否属于同一物体实例。应当理解的是，如果同一关联窗口中进行分析的两个像素具有不同语义类别，例如一个像素的语义类别是人，另一个像素的语义类别是车，则意味着其属于不同的物体实例；如果同一关联窗口中进行分析的两个像素具有相同语义类别，例如两个像素的语义类别均是人，此时需要进一步分析其是否属于同一物体实例，即是否是同一人。当进行分析的两个像素属于同一物体实例的概率超过预设值(可以根据需要进行设定)时，则确定其属于同一个物体实例；当进行分析的两个像素属于同一物体实例的概率低于预设值时，则认为其属于不同的物体实例，从而实现对图像中像素间的关联度预测。

如图3所示，在本实施例中，不同分辨率下第一图像中像素的语义类别预测用S_i(Semantic prediction)表示，例如分辨率为1/4的第一图像F₁中像素的语义类别预测记为S₁，分辨率为1/8的第一图像F₂中像素的语义类别预测记为S₂，分辨率为1/16的第一图像F₃中像素的语义类别预测记为S₃，分辨率为1/32的第一图像F₄中像素的语义类别预测记为S₄，分辨率为1/64的第一图像F₅中像素的语义类别预测记为S₅。不同分辨率下第一图像中像素的关联度预测用A_i(Affinity prediction)表示，例如分辨率为1/4的第一图像F₁中像素的关联度预测记为A₁，分辨率为1/8的第一图像F₂中像素的关联度预测记为A₂，分辨率为1/16的第一图像F₃中像素的关联度预测记为A₃，分辨率为1/32的第一图像F₄中像素的关联度预测记为A₄，分辨率为1/64的第一图像F₅中像素的关联度预测记为A₅。

步骤204：根据所述第一图像，输出至少一个中间图像，每个所述中间图像具有不同的分辨率，且所述中间图像的像素具有分类预测信息。

在获取了待处理图像中像素的语义类别以及对像素所属的物体实例进行确定后，需要对不同分辨率的中间图像进行输出，输出的中间图像包含分类预测信息(至少包括像素的语义类别和像素关联度)。

本实施例将待处理图像输入神经网络模型中，通过同一神经网络模型同时获取像素的语义类别和像素关联度，不仅节省了计算成本，有助于提高计算效率，而且通过获取不同分辨率下第一图像中像素的语义类别和像素关联度，实现多层级不同尺度的处理，有助于提升最终实例分割的性能。

图4示出了如图2所示的实施例中确定所述关联窗口中任意像素与中间位置像素属于同一物体实例的概率步骤的流程示意图。

如图4所示，在上述图2所示实施例的基础上，本申请一个示例性实施例中，步骤203所示确定像素相关度的步骤具体可以包括：

步骤2031：选取所述关联窗口中的任一像素为中间位置像素。

在本实施例中，中间位置像素的确定可以根据实际需要进行选择，例如，关联窗口的尺寸可以设置为7×7，此时可以将关联窗口最中间位置的像素确定为中间位置像素，从而可以确定进行比较的参考像素。

步骤2032：获取所述关联窗口中其他像素与所述中间位置像素属于同一物体实例的概率与真实值之间的平均二元交叉熵损失。

在本实施例中，平均二元交叉熵损失的表达式可以为：

其中，loss(a,y)表示平均二元交叉熵损失；

r²表示关联窗口的尺寸，也即关联窗口中像素的数量；

表示像素的预测关联向量，a^j表示关联窗口中第j个像素与中间位置像素之间的预测关联值，此处通过激活函数使得a^j的范围为(0,1)；

y表示真实值，当两个像素属于同一物体实例时，y的值为1，当两个像素属于不同物体实例时，y的值为0。

步骤2033：确定所述平均二元交叉熵损失满足第一预设条件时所述中间位置像素与其他像素之间的预测关联值。

从公式1可知，随着关联度a^j的不同，平均二元交叉熵损失的值也不相同，因此通过调节预测关联值a^j可以调节平均二元交叉熵损失的值。当平均二元交叉熵损失的值满足第一预设条件时，可以确定关联窗口中各像素与中间位置像素之间的预测关联值a^j。第一预设条件可以根据需要进行设置，例如可以是当平均二元交叉熵损失取最小值，或者平均二元交叉熵损失的值低于某一预设值。

步骤2034：根据所述预测关联值，确定所述中间位置像素与其他像素是否属于同一物体实例。

通过步骤2033确定了关联窗口中各像素与中间位置像素之间的预测关联值a^j时，可以根据预测关联值来判断中间位置像素与其他像素是否属于同一物体实例。例如，当某一像素与中间位置像素之间的预测关联值大于预设值时，则意味着该像素与中间位置像素的关联度满足预设要求，此时认为两者属于同一物体实例；当某一像素与中间位置像素之间的预测关联值小于预设值时，则意味着该像素与中间位置像素的关联度不满足预设要求，此时认为两者属于不同物体实例。

随着关联窗口的尺寸不同，关联窗口中各像素与中间位置像素之间的距离也不相同，随着关联窗口的尺寸增大，关联窗口中各像素与中间位置像素之间的最大距离也随之增大，这使得GPU的运算量也会随之增加。本实施例则通过构建不同分辨率的第一图像，可以在不同尺度下获取像素之间的关联度，有助于降低GPU的运算。

本实施例通过构建平均二元交叉熵损失函数来建立关联窗口中各像素之间的相互关系，并根据平均二元交叉熵损失函数的取值来获取像素之间的关联度，从而可以高效、准确确定各像素是否属于同一物体实例，有助于实现物体实例的分割。

在本实施例中，第一预设条件优选为：平均二元交叉熵损失取最小值，此时意味着其他像素与中间位置像素的整体相关度最高，有利于判断各像素与中间位置像素的相关度，可以准确确定各像素是否属于同一物体实例，进而有助于实现物体实例的分割。

图5示出了如图1所示的实施例中将所述中间图像输入级联图分割模型，获得实例分割图步骤的流程示意图。

如图5所示，在上述图1所示实施例的基础上，本申请一个示例性实施例中，步骤30所示获得实例分割图的步骤具体可以包括：

步骤301：根据所述分类预测信息，对所述中间图像进行实例分割。

在前述将待处理图像输入神经网络模型后，可以输出带有分类预测信息的中间图像，中间图像的数量可以为多个，且同一待处理图像的多个中间图像具有不同的分辨率。此时，根据分类预测信息可以对不同分辨率的中间图像分别进行实例分割，经过实例分割后，可以获得中间图像中的物体实例。可以理解的是，随着分辨率的不同，对应中间图像进行实例分割的精度也不相同，通常分辨率越低，则实例分割结果越粗糙；分辨率越高，则实例分割结果越精确。

步骤302：根据所述中间图像的分辨率，从分辨率低的所述中间图像依次向分辨率高的所述中间图像进行聚合，以获得实例分割图。

例如，在本实施例中，可以通过级联图分割模型依次将分辨率为1/64的第一图像F₅、分辨率为1/32的第一图像F₄、分辨率为1/16的第一图像F₃、分辨率为1/8的第一图像F₂、分辨率为1/2的第一图像F₁对应的中间图像进行聚合，从而可以获得经过聚合的实例分割图，并可以对实例分割图进行输出。

本实施例通过对不同分辨率的中间图像进行实例分割，并将不同分辨率的中间图像按照预设顺序依次进行聚合，从而可以有效提高实例分割图的实例分割精度，提升实例分割的性能。

图6示出了如图5所示的实施例中根据所述分类预测信息，对所述中间图像进行实例分割步骤的流程示意图。

如图6所示，在上述图5所示实施例的基础上，本申请一个示例性实施例中，步骤301所示对中间图像进行实例分割的步骤具体可以包括：

步骤401：获取所述中间图像的关联窗口中所有像素对的平均预测关联值以及所述像素对中两像素之间的边缘得分。

根据上述步骤2033，在平均二元交叉熵损失的取值满足预设条件时，可以确定关联窗口中其他像素与中间位置像素(可称为像素对)之间的预测关联值。根据该预测关联值，可以获取像素对的边缘得分。

例如，对于每一个中间图像，可以根据像素对关联值构建一个对应的图像G＝(V,E)，其中V是像素集，E是关联窗口中像素对集合，且有

a_u,v表示以像素u为中间位置像素、像素v与像素u之间的预测关联值；a_v,u表示以像素v为中间位置像素、像素u与像素v之间的预测关联值；e_v,u表示像素u与像素v之间的边缘，且有e_v,u∈E；w_v,u表示像素u与像素v之间的边缘得分。

像素u与像素v之间的平均预测关联值α_u,v可以通过如下公式获得：

像素u与像素v之间的边缘得分w_v,u可以通过如下公式获得：

根据公式3可知，当像素u与像素v之间的平均预测关联值α_u,v大于0.5时，像素u与像素v之间的边缘得分w_v,u为负值；当像素u与像素v之间的平均预测关联值α_u,v小于0.5时，像素u与像素v之间的边缘得分w_v,u为正值。

步骤402：根据所述平均预测关联值，获取所有像素对的边缘对应的总边缘得分。

在本实施例中，总边缘得分w可以用如下公式表示：

其中，y_u,v表示像素u与像素v之间，当两个像素属于同一物体实例时，y_u,v的值为1，当两个像素属于不同物体实例时，y_u,v的值为0。

步骤403：确定所述总边缘得分满足第二预设条件时对应的图像划分，以进行实例分割。

在本实施例中，通过引入总边缘得分，从而将实例分割的问题转换为图分割问题，可以有效提升实例分割的性能。

在一个实施例中，第二预设条件可以是总边缘得分w取得最大值，此时可以表示为：

此时，下述公式5可以对公式4中每一个可行的解进行约束：

其中，y_e∈{0,1}，当两个像素属于同一物体实例时，y_e的值为1，当两个像素属于不同物体实例时，y_e的值为0；C是图像G中所有循环的集合。

在本实施例中，随着中间图像的分辨率不同(对应的尺寸比例也不同)，获取关联窗口中像素对的平均预测关联值的方式不同。

例如，当中间图像的尺寸比例小于待处理图像的四分之一(在本实施例中，对应的中间图像的分辨率分别为1/8、1/16、1/32以及1/64)时，步骤401中获取所述中间图像的关联窗口中所有像素对的预测关联值步骤如图7所示，包括：

步骤501：获取所述中间图像的关联窗口中的所有像素对。

步骤502：获取所述像素对中两像素的预测关联值。

步骤503：根据两像素的预测关联值，获取所述像素对的平均预测关联值。

如前所述，a_u,v表示以像素u为中间位置像素、像素v与像素u之间的预测关联值；a_v,u表示以像素v为中间位置像素、像素u与像素v之间的预测关联值。像素u与像素v之间的平均预测关联值α_u,v可以通过上述公式2获得。

由于分辨率较低时，通过上述方式获取平均关联值的计算量较小，因此整体计算速度较快，有助于提升实例分割的性能。

进一步地，由于分辨率较低时，进行语义分割的过程中对于一些不常见的分类(例如汽车、火车和货车等)的边界分辨不清，同时像素对的预测关联值并不能很好地识别微小物体和物体的精细结构。为了解决前述问题，有效提高实例分割图的实例分割精度，本实施例中，当中间图像的尺寸比例为待处理图像的四分之一(在本实施例中，对应的中间图像的分辨率为1/4)时，步骤401中获取所述中间图像的关联窗口中所有像素对的预测关联值步骤还包括：

步骤504：采用J-S散度(Jensen-Shannon divergence)对所述平均预测关联值进行修正，获得经过修正的平均预测关联值。

如前所述，a_u,v表示以像素u为中间位置像素、像素v与像素u之间的预测关联值；a_v,u表示以像素v为中间位置像素、像素u与像素v之间的预测关联值。像素u与像素v之间的平均预测关联值α_u,v可以通过上述公式2获得。在获得了平均预测关联值α_u,v后，可以通过下述公式6进行修正：

其中，

是像素u属于c类别的语义分割得分(即像素u属于c类别的概率)，

是像素v属于c类别的语义分割得分(即像素u属于c类别的概率)。D_JS可以通过下述方式进行计算：

其中，

本实施例通过在分辨率较高时对平均预测关联值进行修正，从而可以有效解决边界分辨不清、像素对的预测关联值不能很好地识别微小物体和物体的精细结构的问题，有效提高实例分割图的实例分割精度。

图8示出了如图5所示的实施例中根据所述中间图像的分辨率，从分辨率低的所述中间图像依次向分辨率高的所述中间图像进行聚合，以获得实例分割图的步骤的流程示意图。

如图8所示，在上述图5所示实施例的基础上，本申请一个示例性实施例中，步骤302所示对不同分辨率的中间图像进行聚合的步骤具体可以包括：

步骤601：根据所述分辨率低的所述中间图像获取分辨率低的实例分割图。

步骤602：根据所述分辨率低的实例分割图，获取分辨率高的提议块。

步骤603：根据所述提议块，聚合所述分辨率高的中间图像中进行所述实例分割中的像素。

例如，如图9所示，级联图分割模型(CGP)首先用于对分辨率为1/64的中间图像中的语义类别预测S₅和像素的关联度预测A₅进行融合，获得融合后的图像，以实现对较低分辨率图像的实例分割。由于分辨率为1/64的中间图像中像素的数量仅仅是分辨率为1/4的中间图像中像素的数量的1/256，因此进行融合的时间相对较短。由于分辨率较低，此时只能获得较粗糙的实例分割结果。然而，这些粗糙的实例内部区域仍然是可靠的，因此可以被上采样，并视为更高分辨率(例如分辨率为1/32)的提议块。对于分辨率为1/32的中间图像，其像素数量是分辨率为1/64的中间图像的四倍。依次类推，级联图分割模型依次对分辨率为1/32、1/16、1/8、1/4的中间图像进行融合，最终可以获得实例分割图。

本实施例通过逐步融合较粗糙实例的内部区域生成较大尺度上的超像素，可以显著减少像素的数量，从而加快图像分割的处理速度，提升实例分割的性能。

在一个实施例中，步骤602可以具体包括以下步骤：

获取每个分割块的内部区域；

根据所述内部区域，获取分辨率高的提议块。其中，提议块通过各实例的内部区域的融合获得。在融合了较粗糙实例的内部区域之后，可以生成较大尺度(对应较高分辨率)上的超像素，从而可以显著减少像素的数量，有助于加快图像分割的处理速度。

示例性装置

基于与本申请方法实施例相同的构思，本申请实施例还提供了一种图像实例分割装置。

图10示出了本申请一示例性实施例提供的图像实例分割装置的结构示意图。如图10所示，本申请一示例性实施例提供的图像实例分割装置包括：

图像采集模块91，用于获取待处理图像；

中间图像采集模块92，用于将所述图像采集模块获取的待处理图像输入像素对关联金字塔模型，获得至少一个带有分类预测信息的中间图像，所述分类预测信息至少包括所述待处理图像中像素的语义类别和物体实例类别；

实例分割图获取模块93，用于将所述中间图像采集模块获取的中间图像输入级联图分割模型，获得实例分割图。

如图11所示，在一个示例性实施例中，所述中间图像采集模块92包括：

语义类别获取单元921，用于获取所述待处理图像中各像素的语义类别；

关联窗口获取单元922，用于获取所述待处理图像的不同分辨率的第一图像，并获取所述第一图像的关联窗口；

确定单元923，用于确定所述关联窗口中任意像素与中间位置像素属于同一物体实例的概率，以确定其是否属于同一物体实例；

中间图像输出单元924，用于根据所述第一图像，输出至少一个中间图像，每个所述中间图像具有不同的分辨率，且所述中间图像的像素具有分类预测信息。

如图12所示，在一个示例性实施例中，实例分割图获取模块93包括：

实例分割单元931，用于根据所述分类预测信息，对所述中间图像进行实例分割；

聚合单元932，用于根据所述中间图像的分辨率，从分辨率低的所述中间图像依次向分辨率高的所述中间图像进行聚合，以获得实例分割图。

示例性电子设备

图13示出了根据本申请实施例的电子设备的框图。

如图13所示，电子设备100包括一个或多个处理器1001和存储器1002。

处理器1001可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备100中的其他组件以执行期望的功能。

存储器1002可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1001可以运行所述程序指令，以实现上文所述的本申请的各个实施例的图像实例分割方法以及/或者其他期望的功能。

在一个示例中，电子设备100还可以包括：输入装置1003和输出装置1004，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外，该输入装置1003可以包括例如键盘、鼠标等等。该输出装置1004可以向外部输出各种信息，该输出装置1004可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图13中仅示出了该电子设备100中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备100还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的图像实例分割方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的图像实例分割方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种图像实例分割方法，包括：

获取待处理图像；

将所述待处理图像输入神经网络模型，获得至少一个带有分类预测信息的中间图像，所述分类预测信息至少包括所述待处理图像中像素的语义类别和像素关联度，所述像素关联度表示两个像素属于同一物体实例的概率；

将所述中间图像输入级联图分割模型，获得实例分割图；

其中，所述将所述待处理图像输入神经网络模型，获得至少一个带有分类预测信息的中间图像，包括：

获取所述待处理图像中各像素的语义类别；

获取所述待处理图像的不同分辨率的第一图像，并获取所述第一图像的关联窗口；

确定所述关联窗口中任意像素与中间位置像素属于同一物体实例的概率，以确定其是否属于同一物体实例；

根据所述第一图像，输出至少一个中间图像，每个所述中间图像具有不同的分辨率，且所述中间图像的像素具有分类预测信息。

2.根据权利要求1所述的方法，其中，所述确定所述关联窗口中任意像素与中间位置像素属于同一物体实例的概率，包括：

选取所述关联窗口中的任一像素为中间位置像素；

获取所述关联窗口中其他像素与所述中间位置像素属于同一物体实例的概率与真实值之间的平均二元交叉熵损失；

确定所述平均二元交叉熵损失满足第一预设条件时所述中间位置像素与其他像素之间的预测关联值；

根据所述预测关联值，确定所述中间位置像素与其他像素是否属于同一物体实例。

3.根据权利要求2所述的方法，其中，所述第一预设条件包括：所述平均二元交叉熵损失取最小值。

4.根据权利要求2所述的方法，其中，所述将所述中间图像输入级联图分割模型，获得实例分割图，包括：

根据所述分类预测信息，对所述中间图像进行实例分割；

根据所述中间图像的分辨率，从分辨率低的所述中间图像依次向分辨率高的所述中间图像进行聚合，以获得实例分割图。

5.根据权利要求4所述的方法，其中，所述根据所述分类预测信息，对所述中间图像进行实例分割，包括：

获取所述中间图像的关联窗口中所有像素对的平均预测关联值以及所述像素对中两像素之间的边缘得分；

根据所述平均预测关联值，获取所有像素对的边缘对应的总边缘得分；

确定所述总边缘得分满足第二预设条件时对应的图像划分，以进行实例分割。

6.根据权利要求4所述的方法，其中，所述根据所述中间图像的分辨率，从分辨率低的所述中间图像依次向分辨率高的所述中间图像进行聚合，以获得实例分割图，包括：

根据所述分辨率低的所述中间图像获取分辨率低的实例分割图；

根据所述分辨率低的实例分割图，获取分辨率高的提议块；

根据所述提议块，聚合所述分辨率高的中间图像中进行所述实例分割中的像素。

7.根据权利要求6所述的方法，其中，所述根据所述分辨率低的实例分割图，获取分辨率高的提议块，包括：

获取每个分割块的内部区域；

根据所述内部区域，获取分辨率高的提议块。

8.根据权利要求5所述的方法，其中，所述获取所述中间图像的关联窗口中所有像素对的预测关联值，包括：

获取所述中间图像的关联窗口中的所有像素对；

获取所述像素对中两像素的预测关联值；

根据两像素的预测关联值，获取所述像素对的平均预测关联值。

9.根据权利要求8所述的方法，其中，当所述中间图像的尺寸比例为所述待处理图像的四分之一时，所述获取所述中间图像的关联窗口中所有像素对的预测关联值，还包括：

采用J-S散度对所述平均预测关联值进行修正，获得经过修正的平均预测关联值。

10.根据权利要求5所述的方法，其中，所述第二预设条件包括：所述总边缘得分取最大值。

11.一种图像实例分割装置，包括：

图像采集模块，用于获取待处理图像；

中间图像采集模块，用于将所述图像采集模块获取的待处理图像输入像素对关联金字塔模型，获得至少一个带有分类预测信息的中间图像，所述分类预测信息至少包括所述待处理图像中像素的语义类别和像素关联度，所述像素关联度表示两个像素属于同一物体实例的概率；

实例分割图获取模块，用于将所述中间图像采集模块获取的中间图像输入级联图分割模型，获得实例分割图；

其中，所述中间图像采集模块包括：

语义类别获取单元，用于获取所述待处理图像中各像素的语义类别；

关联窗口获取单元，用于获取所述待处理图像的不同分辨率的第一图像，并获取所述第一图像的关联窗口；

确定单元，用于确定所述关联窗口中任意像素与中间位置像素属于同一物体实例的概率，以确定其是否属于同一物体实例；

中间图像输出单元，用于根据所述第一图像，输出至少一个中间图像，每个所述中间图像具有不同的分辨率，且所述中间图像的像素具有分类预测信息。

12.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-10任一所述的图像实例分割方法。

13.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-10任一所述的图像实例分割方法。