CN113168510A

CN113168510A - 通过细化形状先验分割对象

Info

Publication number: CN113168510A
Application number: CN201980075656.0A
Authority: CN
Inventors: W.郭; A.安杰洛娃; T-Y.林
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-11-16
Filing date: 2019-08-14
Publication date: 2021-07-23
Also published as: US20240037926A1; WO2020101777A1; US20210374453A1; US11823443B2; EP3679521A1

Abstract

方法、系统和装置，包括编码在计算机存储介质上的计算机程序，用于通过检测和分割图像中的各个对象来执行实例分割。在一个方面，一种方法包括：处理图像以生成识别图像的描绘特定对象的区域的数据；获得限定多个示例对象分割的数据；针对示例对象分割中的每一个生成相应的权重值；对于图像的区域中的多个像素中的每个像素，使用(i)示例对象分割和(ii)示例对象分割的权重值确定表征该像素被包括在图像的区域中描绘的特定对象中的可能性的分数；和使用图像的区域中的像素的分数生成图像的区域中描绘的特定对象的分割。

Description

通过细化形状先验分割对象

背景技术

本说明书涉及图像处理，具体而言，涉及实例分割。

实例分割是指处理图像以检测和分割图像中的各个对象。可以使用机器学习模型来执行实例分割。机器学习模型接收输入，并基于接收的输入生成输出，例如，预测的输出。一些机器学习模型是参数化模型，并基于接收的输入以及基于模型的参数的值来生成输出。

一些机器学习模型是深度模型，其采用多层模型针对接收的输入生成输出。例如，深度神经网络是一种深度机器学习模型，其包括输出层和一个或多个隐藏层，每个隐藏层将非线性变换应用于接收的输入以生成输出。

发明内容

本说明书一般地描述了一种实现为在一个或多个位置的一个或多个计算机上的计算机程序的系统，该系统通过检测和分割图像中的各个对象来执行实例分割。

根据第一方面，提供了一种由一个或多个数据处理装置执行的方法。该方法包括处理图像以生成识别图像的描绘特定对象的区域的数据。从训练对象分割的集合获得限定示例对象分割的集合的数据，其中，每个示例对象分割限定相应对象的示例分割。生成示例对象分割中的每一个的相应的权重值，其中，示例对象分割的权重值表征以下之间的估计相似性：(i)在图像的区域中描绘的特定对象的分割，和(ii)示例对象分割。对于图像的区域中的多个像素中的每个像素，使用(i)示例对象分割和(ii)示例对象分割的权重值确定表征该像素被包括在图像的区域中描绘的特定对象中的可能性的分数。使用图像的区域中的像素的分数生成图像的区域中描绘的特定对象的分割，其中，特定对象的分割针对图像的区域中的每个像素限定该像素是否被包括在该区域中描绘的特定对象中。

在一些实施方式中，处理图像以生成识别图像的描绘特定对象的区域的数据包括使用对象检测神经网络处理图像。

在一些实施方式中，识别图像的描绘特定对象的区域的数据包括限定围绕图像中的特定对象的边界框的数据。

在一些实施方式中，示例对象分割是通过对训练对象分割的集合进行聚类而获得的聚类质心。

在一些实施方式中，示例对象分割中的每一个限定相同对象类的相应对象的示例分割。

在一些实施方式中，该方法还包括处理图像以生成识别在图像的区域中描绘的特定对象的对象类的数据。

在一些实施方式中，示例对象分割中的每一个限定与在图像的区域中描绘的特定对象相同对象类的相应对象的示例分割。

在一些实施方式中，生成示例对象分割中的每一个的相应的权重值包括使用先验神经网络处理包括(i)图像的区域的特征表示和(ii)示例对象分割的输入。

在一些实施方式中，示例对象分割在被先验神经网络处理之前与图像的区域的特征表示对齐。

在一些实施方式中，生成示例对象分割中的每一个的相应的权重值包括：池化图像的区域的特征表示；和使用先验神经网络处理包括图像的区域的池化的特征表示的输入。

在一些实施方式中，对先验神经网络的输入还包括图像的在描绘特定对象的区域之外的部分的特征表示。

在一些实施方式中，图像的区域的特征表示从对象检测神经网络的中间输出获得，该对象检测神经网络用于生成识别以下的数据：(i)图像的描绘特定对象的区域和(ii)特定对象的对象类。

在一些实施方式中，对于图像的区域中的像素的集合中的每个像素确定表征该像素被包括在特定对象的分割中的可能性的分数包括用每个示例对象分割的可能性分数来缩放该示例对象分割。对缩放的示例对象分割求和，和基于由缩放的示例对象分割的和限定的图像中的对应像素，确定图像的区域中的像素的分数。

在一些实施方式中，使用图像的区域中的像素的分数生成在图像的区域中描绘的特定对象的分割包括使用(i)图像的区域的特征表示和(ii)图像的区域中的像素的分数生成检测特征。使用检测特征生成在图像的区域中描绘的特定对象的粗略分割。使用(i)检测特征和(ii)特定对象的粗略分割生成在图像的区域中描绘的特定对象的实例嵌入(instance embedding)。使用特定对象的实例嵌入生成特定对象的分割。

在一些实施方式中，生成检测特征包括使用一个或多个卷积神经网络层处理图像的区域中的像素的分数的表示；和将卷积神经网络层的输出与图像的区域的特征表示求和。

在一些实施方式中，生成特定对象的粗略分割包括使用一个或多个卷积神经网络层处理检测特征。

在一些实施方式中，使用(i)检测特征和(ii)特定对象的粗略分割生成在图像的区域中描绘的特定对象的实例嵌入包括通过组合特定对象的粗略分割中包括的检测特征生成实例条件特征(instance-conditioned feature)。至少部分地基于实例条件特征生成在图像的区域中描绘的特定对象的实例嵌入。

在一些实施方式中，生成实例嵌入包括使用由以下定义的函数G(·，·)来处理检测特征和特定对象的粗略分割：

其中，X_det表示检测特征，M表示粗略分割，★表示按元素的乘积，并且∑表示空间维度上的求和。

在一些实施方式中，生成特定对象的分割包括使用一个或多个卷积神经网络层处理特定对象的实例嵌入。

根据第二方面，提供了一个或多个存储指令的非暂时性计算机存储介质，该指令在由一个或多个计算机执行时，使该一个或多个计算机执行第一方面的方法的操作。

根据第三方面，提供了一种系统，该系统包括一个或多个计算机以及存储指令的一个或多个存储设备，该指令在由一个或多个计算机执行时，使该一个或多个计算机执行第一方面的方法的操作。

可以实施本说明书中描述的主题的特定实施例，以实现以下优点中的一个或多个。

在本说明书中描述的实例分割系统可以使用预定义的示例对象分割的集合来估计在图像中描绘的对象的形状，然后在分割对象时使用对象的估计的形状。执行估计对象的形状的中间步骤可以使实例分割系统能够例如通过减小生成具有不合理形状(例如，破碎(不连贯)的片)的对象分割的可能性而比其他方式更准确地分割对象。这是图像处理领域的改进。

实例分割系统可以以类不可知(class-agnostic)的方式分割对象，即，使得系统在训练或推断期间不依赖于获知或识别被分割的对象的类标签(例如，人、汽车、船等)。因此，即使没有在具有与给定对象相同的类标签的对象分割上被训练，实例分割系统也可以分割给定对象。执行估计对象的形状的中间步骤可以使实例分割系统能够更有效地泛化到分割来自新类的对象，例如，因为来自新类的对象可能具有与来自已知类的对象相似的形状。如果实例分割系统已经在来自一对象类的对象分割上被训练，则称该对象类为“已知的”，否则为“新的”。作为有效地泛化到分割来自新类的对象的结果，因此本说明书中描述的系统比某些常规系统更广泛地适用。这是图像处理领域的另一改进。

在本说明书中描述的系统可以使用表征对象的视觉外观的“实例嵌入”来生成图像中描绘的给定对象的分割。通过使用实例嵌入，系统可以更有效地定位给定对象，从而生成给定对象的分割，该分割将其他附近的对象(包括与给定对象相同的对象类的附近对象)排除在外。这是图像处理领域的另一技术改进。

在特定实施方式中，本说明书中描述的系统的架构使得在编译时已知由系统处理的每个中间输出(例如，张量)的形状(即，尺寸(dimensionalitV))。这可以使系统能够使用专用硬件(例如，人工智能(AI)加速器硬件，例如张量处理单元(TPU))进行训练，这可以允许系统比不能使用专用硬件进行训练的某些常规系统快2-3倍地被训练。可以使用基准真相(ground truth)检测数据(可能会抖动)而不是由对象检测神经网络生成的检测数据来训练除对象检测神经网络以外的系统的部分，这避免了对使用专用硬件(例如，TPU)不难以高效实现的许多操作的需要。可以使用来自特征金字塔的裁剪来训练该系统，这减少了对离散化和重采样的需要，并使训练能够使用专用硬件(例如，TPU)高效地执行。

本说明书的主题的一个或多个实施例的细节在附图和以下描述中阐明。根据描述、附图和权利要求书，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1是示例实例分割系统的框图。

图2示出了图像、检测数据、形状描述符和粗略分割的示例。

图3示出了通过对与某些对象类对应的训练分割进行聚类而生成的示例对象分割。

图4示出了可以由实例分割系统执行以生成用于被分割的对象的形状描述符的示例操作。

图5示出了可以由实例分割系统执行以使用形状描述符生成对象的粗略分割的示例操作。

图6示出了可以由实例分割系统执行以细化粗略分割以生成最终分割的示例操作。

图7示出了曲线图，该曲线图示出了可以通过使用实例分割系统取得的性能增益的示例。

图8是用于生成估计对象的形状的形状描述符的示例过程的流程图。

图9是用于使用形状描述符生成对象分割的示例过程的流程图。

在各个附图中，同样的附图标号和标记指示同样的要素。

具体实施方式

本说明书描述了实例分割系统，该实例分割系统处理图像以检测和分割图像中的各个对象。实例分割系统可以用于多种应用中的任何一种中，例如，以促进自主驾驶或机器人操纵应用中的计划和决策制定。为了分割图像中描绘的对象，实例分割系统首先例如通过识别被预测为包围图像中的对象的边界框来检测对象。实例分割系统使用预定义的示例对象分割的集合来估计检测到的对象的形状，然后在执行分割时使用对象的估计的形状。在下面更详细地描述这些特征和其他特征。此外，在下面的描述中，针对上下文提供了各种尺寸，但是系统和过程不限于这些特定示例，并且还可以使用与以下描述的尺寸不同的尺寸。

图1是示例实例分割系统100的框图。实例分割系统100是被实现为在一个或多个位置的一个或多个计算机上的计算机程序的系统的示例，在该系统中实现下述的系统、组件和技术。

实例分割系统100被配置为对图像102进行处理以：(i)检测图像中描绘的对象，和(ii)生成检测到的对象的分割。更具体地，系统100处理图像102以生成检测数据104，该检测数据104限定图像102中的描绘相应对象的区域(例如，通过边界框)。对于由检测数据104限定的图像区域中的每一个，系统100生成相应的对象分割106，该对象分割106限定该区域中的每个像素是否被包括在该区域中描绘的对象中。

图像102可以被表示为像素的二维(2D)阵列，其中，每个像素被表示为一个或多个值的向量。例如，如果图像102是黑白图像，则每个像素可以被表示为表示像素的亮度的整数或浮点数(即，具有一个分量的向量)。作为另一示例，如果图像102是红绿蓝(RGB)图像，则每个像素可以被表示为具有三个整数或浮点分量的向量，其分别表示像素的红、绿和蓝颜色的强度。

系统100通过使用对象检测神经网络108处理图像102来生成检测数据104。检测数据104限定图像102中的描绘相应对象的区域，并且可选地，(例如，从预定数量的对象类中)限定每个区域中描绘的对象的对象类。对象类可以包括任何适当的对象类，例如，人、车辆、猫、船等。图2示出了指定包围图像中描绘的对象的边界框的检测数据104的示例。可以使用任何适当的对象检测神经网络架构来实现对象检测神经网络108，例如，参考以下文献描述的架构：S.Ren等人的“Faster R-CNN：Towards Real-Time Object Detection withRegion Proposal Networks”，arXiv：1506.01497v3，2016年。

通常，系统100可以针对在图像102中检测到的每个对象生成相应的对象分割106。为方便起见，下面的讨论将描述针对特定的检测到的对象生成对象分割106。

作为针对检测到的对象生成对象分割106的中间步骤，系统100生成形状描述符116，其表征对象的估计的形状。更具体地，形状描述符116针对包围对象的图像区域中的每个像素指定相应的分数，其表征该像素被包括在该对象中的可能性。形状描述符可以被表示为估计对象的位置、比例(scale)和近似形状的“软”掩模(mask)图像，其中，软掩模图像的每个像素的值指示表征像素被包括在对象中的可能性的相应分数。如将在下面更详细地描述的，系统100使用形状描述符来引导对象分割106的生成。图2示出了表征图像中描绘的对象的形状的形状描述符(“检测先验”)的示例。

通常，系统100通过组合来自训练分割112的集合中的预定义的对象分割来生成形状描述符116。每个训练分割112限定训练图像中描绘的相应对象的分割，并且可以以任何适当的格式来表示。例如，每个训练分割112可以被表示为表征训练图像中的对象的分割的掩模图像，其中，对象中包括的像素具有一个值(例如，值1)，而其余像素具有不同的值(例如，值0)。

为了生成形状描述符116，系统100针对来自该训练分割112的集合中的多个示例分割110中的每一个生成相应的权重值118(这稍后将更详细地进行描述)。示例分割110的权重值118是表征(i)示例分割110和(ii)图像区域中描绘的对象的对象分割106之间的估计相似性的数值(例如，介于0和1之间的值)。在一个示例中，系统100可以使用权重值118来将形状描述符S确定为：

其中，k对示例分割110进行索引，K是示例分割110的总数，并且W_k是与示例分割S_k对应的权重值。在该示例中，表示示例分割

的掩模图像可以各自具有相同的尺寸，例如32×32，或任何其他适当的尺寸。

在一些情况下，每个示例分割110是相应的训练分割112，而在其他情况下，系统100通过使用聚类引擎114对训练分割112进行聚类来生成示例分割110。对训练分割112进行聚类是指将训练分割分组成聚类的集合，使得同一聚类中的训练分割往往比不同聚类中的训练分割更相似。可以以各种方式中的任何一种来确定两个训练分割之间的相似性，例如，通过表示训练分割的相应掩模图像之间的差的范数(例如，L₂范数)来确定。在一个示例中，系统100可以通过将该集合的训练分割112聚类为预定数量的聚类，然后将每个聚类质心识别为相应的示例分割110，来生成示例分割110。聚类的“质心”可以通过分配给聚类的训练分割112的集中趋势(例如，平均)的度量来指定。

通过对训练分割112进行聚类来生成示例分割110，使得系统100能够生成可能的对象形状的分布的“模式”的紧凑表示。聚类引擎114可以使用任何适当的聚类算法(例如，k均值或期望最大化(EM)聚类算法)对训练分割112进行聚类。图3示出了通过对训练分割进行聚类而获得的聚类质心的示例。

系统100可以通过使用先验神经网络122以及可选地使用示例分割110，处理表征图像102的描绘对象的区域的图像特征120的集合，来生成示例分割110的权重值118。系统100可以以多种方式中的任何一种(例如，通过裁剪与图像的描绘对象的区域对应的对象检测神经网络的中间输出的一部分)来获得图像特征120。对象检测神经网络108的中间输出是指由对象检测神经网络的中间层(即，在输入层之后但在对象检测神经网络的输出层之前的层)生成的特征图(feature map)。图像特征120可以被表示为数值的有序集合，例如，表示为数值的三维(3D)阵列。

在一些情况下，系统100可以生成图像特征120，该图像特征120表征图像102的比由检测数据104指定为描绘对象的区域更大的区域。在一个示例中，如果检测数据104指定对象被图像102中的尺寸为9×12的边界框包围，则系统100可以通过裁剪中间特征图的与图像102中的尺寸为15×15的边界框对应的区域来生成图像特征120。此后，系统100可以生成对象分割106，该对象分割106指定图像的更大区域(即，超出由对象检测神经网络108预测的边界框的边界的区域)中的每个像素是否被包括在对象中。以这种方式，系统100可以生成对于由对象检测神经网络108预测为描绘对象的图像区域中的不准确性稳健的对象分割。例如，即使由对象检测神经网络108针对对象生成的边界框实际上排除了对象的一部分，例如人的手臂，系统100也可以准确地分割对象的整体。

先验神经网络可以处理图像特征120(以及可选地，示例分割110)来以各种方式中的任何一种生成权重值118。在一个示例中，先验神经网络122可通过池化(即，组合)图像特征120，并处理池化的图像特征以使用一个或多个神经网络层来生成示例分割110的预定义的集合的权重值118，来生成权重值118。在特定示例中，先验神经网络122可以平均池化图像特征120以生成如下的平均池化的图像特征x：

其中，B表示包围对象的边界框，{(i，j)∈B}表示被B包围的空间位置(i，j)的集合，|B|表示被B包围的空间位置(i，j)的数量，并且X_(i，j)表示(i，j)处的图像特征。在该示例中，先验神经网络122可以将权重值w＝[w₁，w₂，...，w_K]生成为：

w＝sof tmax(φ(x)) (3)

其中，K是示例分割的数量，φ(x)表示通过根据先验神经网络参数的值处理池化的图像特征x生成的K维输出，并且Sof tmax(·)表示软性最大值(soft-max)归一化函数(即，使权重值总和为1的归一化函数)。在另一示例中，先验神经网络122可以通过使用先验神经网络122处理图像特征120和示例分割110的按通道的级联(对齐)，针对每个示例分割110生成相应的权重值118。图4示出了可以由先验神经网络122执行的操作的示例。

可选地，对象检测神经网络108可以被配置为生成检测数据104，该检测数据104预测图像102中描绘的对象的类，并且系统100可以使形状描述符116以被分割的对象的预测的类为条件。例如，系统100可以通过仅组合与和被分割的对象相同的对象类对应的示例分割110来生成形状描述符116。在特定示例中，系统100可以通过组合通过将与和被分割的对象相同的对象类对应的训练分割112聚类而生成的示例分割110来生成形状描述符116。使形状描述符116以被分割的对象的预测的类为条件可以使系统100能够生成更具信息性(准确)的形状描述符。

系统100使用形状描述符116来引导对象的分割。例如，系统100可以通过首先细化(refine)形状描述符116以生成对象的“粗略”(近似)分割130，然后细化粗略分割130以生成输出对象分割106来分割对象，接下来将会更详细地对此进行描述。

为了生成粗略分割130，系统100首先将形状描述符116和图像特征120融合(组合)以生成检测特征128，该检测特征128共同表征：(i)对象的估计的形状，和(ii)描绘对象的图像区域的视觉外观。在一个示例中，系统100通过使用一个或多个卷积层将形状描述符116嵌入与图像特征120相同的特征维度中，然后将嵌入的形状描述符和图像特征120求和，来生成检测特征128。更具体地，系统100可以将检测特征X_prior生成为：

X_prior＝X+g(S_prior) (4)

其中，X表示图像特征120(例如，作为特征的三维(3D)矩阵)，S_prior是形状描述符116的表示，而g(·)表示由一个或多个卷积神经网络层执行的操作。检测特征128可以被表示为数值的有序集合，例如，数值的3D阵列。

系统100可以例如通过使用一个或多个卷积神经网络层处理检测特征，来基于检测特征128生成对象的粗略分割130。例如，系统100可以将粗略分割S_coarse生成为：

S_coarse＝f(X_prior) (5)

其中，f(·)表示由一个或多个卷积层执行的操作，而X_prior表示检测特征128。粗略分割130可以被表示为数值的有序集合，例如，数值的2D阵列，表示近似对象分割的软掩模图像，其中，每个像素值表示像素被包括在被分割的对象中的可能性。虽然形状描述符116和粗略分割130都可以表示为软掩模图像，但是粗略分割可以比形状描述符更接近地近似对象的实际(基准真相)分割。特别地，表示粗略分割的软掩模图像可以被理解为细化表示形状描述符的软掩模图像。可选地，系统100可以对粗略分割130进行二值化，即，通过将每个像素值舍入为0或1。图5示出了可以被执行以生成粗略分割的操作的示例。

系统100可以通过使用实例嵌入124细化粗略分割130来生成对象分割106，该实例嵌入124使检测特征128以被分割的对象的视觉外观为条件。在一个示例中，为了生成实例嵌入124，系统通过池化(组合)粗略分割中包括的检测特征128来生成1D实例条件特征x_mask，例如：

其中，S_coarse表示对象的粗略分割，{(i，j)∈S_coarse}表示粗略分割S_coarse中的空间位置(i，j)的集合，|S_coarse|表示被S_coarse包围的空间位置(i，j)的数量，而X_prior(i，j)表示(i，j)处的检测特征。在该示例中，系统100可以通过使检测特征X_prior以实例条件特征x_mask为条件来生成实例嵌入X_inst，例如，按下式：

X_inst(i，j)＝X_prior(i，j)-x_mask (7)

其中，X_inst(i，j)表示在空间位置(i，j)处的实例嵌入，并且X_prior(i，j)表示在空间位置(i，j)处的检测特征。实例嵌入124可以被表示为数值的有序集合，例如，数值的3D矩阵。

系统100可以通过使用分割神经网络126处理实例嵌入来生成对象分割106。例如，系统100可以将对象分割S生成为：

S＝h(X_inst) (8)

其中，h(·)表示由一个或多个卷积层执行的操作，并且X_inst表示实例嵌入124。对象分割106可以被表示为掩模图像，该掩模图像限定包围对象的边界框中的每个像素是否被包括该对象中。如前所述，对象分割106可以延伸出由对象检测神经网络108预测为包围对象的边界框。图6示出了可以被执行以生成对象的最终分割的操作的示例。

图2示出了图像202、检测数据204、形状描述符206和粗略分割208的示例，参考图1更详细地描述了其中的每一个。图像202中的每一个描绘一个或多个对象，例如，长颈鹿、人、厕所、马和勺子。每个图像202的检测数据204限定包围该图像中描绘的对象的边界框。每个图像的形状描述符206估计被边界框包围的对象的形状。每个图像的粗略分割208是被边界框包围的对象的近似分割。

图3示出了通过对与某些对象类对应的训练分割进行聚类而生成的示例对象分割300。例如，四个对象分割302表示由对母牛的训练分割进行聚类而得到的聚类质心。可以理解的是，聚类的分割302近似地表示母牛的可能形状的分布的“模式”。实例分割系统可以通过组合多个聚类的训练分割生成近似被分割的对象的形状的形状描述符，如参考图1所述。

图4示出了可以由实例分割系统执行以生成被分割的对象的形状描述符的示例操作。为了生成图像402中描绘的长颈鹿的形状描述符116，系统可以使用先验神经网络122对被长颈鹿周围的边界框404包围的图像特征120进行空间地平均池化，如参考等式(2)所述。边界框404由406示出。先验神经网络122可以使用线性层，然后是软性最大值层，来处理平均池化的特征，以针对多个示例分割{S₁，...，S_K}中的每一个生成相应的权重值，如参考等式(3)所述。示例分割由418示出，并且由形状分布图408示出示例分割的权重值。如参考等式(1)所述，系统使用权重值将形状描述符116生成为示例分割的加权和410。形状描述符116由412示出。在训练期间，系统可以对照基准真相分割416(即，来自训练数据)对形状描述符116使用按像素的均方误差(MSE)损失414，以学习先验神经网络122的参数。

图5示出了可由实例分割系统执行以使用形状描述符116生成对象的粗略分割130的示例操作。系统可以通过使用具有1×1卷积滤波器的卷积层502处理形状描述符116的表示将形状描述符116嵌入与图像特征120相同的特征维度中。系统可以通过调整形状描述符的大小以使其适合包围对象的边界框，并将调整大小后的形状描述符粘贴到图像中来生成形状描述符116的表示，所述图像具有：(i)默认像素值，和(ii)与图像特征120相同的空间尺寸。图像504示出了由卷积层502处理的形状描述符的表示。系统通过将图像特征120和卷积层502的输出求和来生成检测特征128，如参考等式(4)所述。然后，系统通过使用具有3×3卷积滤波器的4个卷积层508的序列，随后是具有1×1卷积滤波器的卷积层510，接着是S型层(sigmoid layer)512处理检测特征128来生成粗略分割130(由506示出)，如参考等式(5)所述。在训练期间，系统可以对照基准真相分割516(即，来自训练数据)(针对训练数据)对粗略分割130使用按像素的交叉熵损失514来学习卷积层508、510和512的参数。

图6示出了可由实例分割系统执行以细化粗略分割130以生成最终分割602的示例操作。系统通过对粗略分割130中包括检测特征128进行空间地平均池化606来生成1D实例条件特征x_mask 604，例如，如参考等式(6)所述。系统通过从检测特征128的每个空间位置减去实例条件特征x_mask 604生成使检测特征128以被分割的对象的视觉外观为条件的实例嵌入，例如，如参考等式(7)所述。然后，系统通过使用具有3×3卷积滤波器的4个卷积层608的序列、具有4×4卷积滤波器的多达4个反卷积层610的序列、具有1×1卷积滤波器的卷积层612和S型输出层614处理实例嵌入来生成输出分割602，例如，如参考等式(8)所描述。在训练期间，系统可以对照基准真相分割618(即，来自训练数据)对输出分割602使用按像素的交叉熵损失616，以学习卷积层608、610和612的参数。

通常，可以使用任何适当的机器学习技术(例如，随机梯度下降)，基于训练数据的集合端对端地(end-to-end)对实例分割系统进行联合训练。每个训练示例可以包括：(i)训练图像，和(ii)应当由实例分割系统通过处理训练图像生成的目标输出。目标输出可以包括例如边界框，其指示训练图像的描绘对象的区域，以及对于每个边界框，被边界框包围的对象的像素级分割。

图7示出了曲线图700，其示出了可以通过使用本说明书中描述的实例分割系统取得的性能增益的示例。特别地，线702示出了在本说明书中描述的实例分割系统的平均精度(y轴)相对于用于训练该实例分割系统的训练集的集合的分数(fraction)(x轴)。线704示出了Mask R-CNN(掩模R-CNN)实例分割系统的平均精度，例如，如参考以下文献所述：K.He，G.Gkioxari，P.Dollar，R.Girshick：“Mask R-CNN”，IEEE国际计算机视觉会议(ICCV)，2017年，第2961-2969页。可以理解，在该示例中，在本说明书中描述的实例分割系统通常优于Mask R-CNN实例分割系统。此外，在该示例中，即使仅使用用于训练Mask R-CNN系统的训练数据的1％训练本说明书中描述的实例分割系统，本说明书中描述的实例分割系统也优于Mask R-CNN实例分割系统。

图8是用于生成估计对象的形状的形状描述符的示例过程800的流程图。为了方便起见，过程800将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书被适当编程的实例分割系统，例如图1的实例分割系统100，可以执行过程800。

该系统处理图像以生成识别图像的描绘对象的区域的数据(802)。例如，系统可以使用对象检测神经网络处理图像，以生成限定图像中对象周围的边界框，并可选地限定对象的对象类(例如，人、汽车、船等)的数据。

该系统从训练对象分割的集合获得限定示例对象分割的集合的数据，其中，每个示例对象分割限定相应对象的示例分割(804)。该系统可以通过对训练对象分割进行聚类并且将每个聚类质心识别为相应的示例对象分割来生成示例对象分割。在某些情况下，系统获得示例对象分割，示例对象分割中的每一个与和被分割的对象相同的类对应。在一个示例中，系统获得示例对象分割，该示例对象分割中的每一个通过将属于与被分割的对象相同的对象类的对象的训练对象分割聚类而生成。在另一示例中，系统获得示例对象分割，该示例对象分割与属于与被分割的对象相同的对象类的对象的训练对象分割匹配。通常，训练对象分割可以由掩模图像表示。

系统针对示例对象分割中的每一个生成相应的权重值(806)。示例对象分割的权重值表征以下之间的估计相似性：(i)图像中的对象的分割，和(ii)示例对象分割。通常，系统通过使用先验神经网络来处理包括图像的描绘对象的区域的特征表示的输入，生成示例对象分割的权重值。可以例如通过裁剪与图像的描绘对象的区域对应的对象检测神经网络的中间输出的一部分来获得图像的描绘对象的区域的特征表示。可选地，特征表示可以表征比例如与由对象检测神经网络生成的对象周围的预测边界框对应的图像的区域更大的图像的部分。

在一个示例中，系统通过使用先验神经网络处理(i)图像的描绘对象的区域的特征表示，和(ii)示例对象分割，来针对每个示例对象分割生成相应的权重值。在该示例中，图像的描绘对象的区域的特征表示和示例对象分割可以在被先验神经网络处理之前被对齐(例如，按通道的级联)。在另一示例中，系统通过使用先验神经网络处理图像的描绘对象的区域的池化的特征表示，来针对每个示例对象分割生成权重值。

系统使用(i)示例对象分割和(ii)示例对象分割的权重值生成形状描述符(808)。对于图像的描绘对象的区域中的像素，形状描述符指定表征该像素被包括在该对象中的可能性的分数。该系统可以例如通过用示例对象分割的可能性分数对每个示例对象分割进行缩放并对缩放的示例对象分割求和来生成形状描述符，例如，如参考等式(1)所述。

系统使用形状描述符生成对象的分割(810)。对象的分割限定图像的描绘对象的区域中的每个像素是否包括在该对象中。参考图9描述了用于使用形状描述符来生成对象的分割的示例过程。

图9是用于使用形状描述符生成对象分割的示例过程900的流程图。为了方便起见，过程900将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书被适当编程的实例分割系统，例如图1的实例分割系统100，可以执行过程900。

系统使用(i)图像的描绘对象的区域的特征表示和(ii)表征对象的估计的形状的形状描述符，来生成检测特征(902)。参考图8更详细地描述了用于生成形状描述符的示例过程。在一个示例中，系统可以通过使用一个或多个卷积神经网络层处理形状描述符的表示，然后对(i)卷积层的输出和(ii)图像的区域的特征表示求和，来生成检测特征。

系统使用检测特征生成对象的粗略分割(904)。例如，该系统可以通过使用一个或多个卷积神经网络层处理检测特征来生成对象的粗略分割。

系统使用(i)检测特征和(ii)对象的粗略分割，生成在图像的区域中描绘的对象的实例嵌入(906)。例如，为了生成实例嵌入，系统可以通过组合(例如，池化)包括在特定对象的粗略分割中的检测特征来生成实例条件特征，例如，如参考等式(6)所述。然后，系统可以至少部分地基于实例条件特征来生成对象的实例嵌入，例如，如参考等式(7)所述。

系统使用对象的实例嵌入来生成对象的分割(908)。例如，系统可以通过使用一个或多个卷积神经网络层处理对象的实例嵌入来生成对象的分割。

本说明书与系统和计算机程序组件有关地使用术语“被配置”。一个或多个计算机的系统被配置为执行特定操作或动作的意思是系统在其上安装有软件、固件、硬件或它们的组合，在操作时，软件、固件、硬件或它们的组合使系统执行操作或动作。一个或多个计算机程序被配置为执行特定操作或动作的意思是一个或多个程序包括指令，当在由数据处理装置执行该指令时使装置执行操作或动作。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路、有形地实现的计算机软件或固件、计算机硬件(包括本说明书中公开的结构以及其结构等效物)或它们中的一个或多个的组合中实现。本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序，即编码在有形非暂态存储介质上以供数据处理装置执行或控制数据处理装置的操作的计算机程序指令的一个或多个模块。计算机存储介质可以是机器可读存储设备、机器可读存储基片、随机或串行存取存储器设备或它们中的一个或多个的组合。替代地或额外地，程序指令可以编码在人工生成的传播的信号(例如，机器生成的电、光或电磁信号)上，其被生成为编码信息以传输到合适的接收器装置以供数据处理装置执行。

术语“数据处理装置”是指数据处理硬件并且涵盖用于处理数据的所有种类的装置、设备和机器，举例来说包括可编程处理器、计算机或多处理器或计算机。所述装置还可以是或者进一步包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，所述装置可以可选地包括代码，该代码为计算机程序创建执行环境，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一种或多种的组合的代码。

计算机程序(其也可以被称为或被描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码)可以以任何形式的编程语言编写，包括编译或解释性语言、或陈述性或过程语言，并且可以以任何形式部署计算机程序，包括作为独立程序或作为模块、组件、子例程或其他适于用在计算环境中的单元。程序可以但不必与文件系统中的文件对应。程序可以存储在保持其他程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中、在专用于所讨论程序的单个文件中或在多个协作的文件(例如，存储一个或多个模块、子程序或代码的一些部分的文件)中。计算机程序可以部署为在一个或多个计算机上执行，这些计算机位于一个站点或跨多个站点分布并通过数据通信网络互联。

在本说明书中，术语“引擎”被用于宽泛地指基于软件的系统、子系统或被编程为执行一个或多个特定功能的过程。通常，引擎将被实现为安装在一个或多个位置的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下，一个或多个计算机将专用于特定引擎；在其他情况下，多个引擎可以安装在相同的一个或多个计算机上并运行。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。所述过程和逻辑流程也可以由专用逻辑电路(例如FPGA或ASIC)执行，或者由专用逻辑电路和一个或多个经编程的计算机的组合来执行。

适用于执行计算机程序的计算机可以基于通用或专用微处理器或二者，或者任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或二者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路来补充或可以结合到其中。一般来说，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如、磁盘、磁光盘或光盘)或操作性地联接一个或多个大容量存储设备以从其接收数据或将数据传送到其处或者接收和传送二者。然而，计算机不必具有这样的设备。另外，计算机可以嵌入到另一设备(例如，仅举几例，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如通用串行总线(USB)快闪驱动器))中。

适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，举例来说，包括半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以实现在具有用于向用户显示信息的显示设备及键盘和指向设备的计算机上，显示设备例如为CRT(阴极射线管)或LCD(液晶显示)监视器，用户可以通过键盘和例如为鼠标或轨迹球的指向设备向计算机提供输入。也可以使用其他种类的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声学、语音或触觉输入。此外，通过向由用户使用的设备发送文档和接收来自该设备的文档；例如，通过响应于从web浏览器接收的请求而将网页发送到用户的设备上的web浏览器，计算机可以与用户交互。另外，计算机可以通过将文本消息或其他形式的消息发送到个人设备(例如，运行消息收发应用的智能电话)并且作为回应从用户接收响应消息来与用户交互。

用于实现机器学习模型的数据处理装置还可以包括例如用于处理机器学习训练或生成的一般和计算密集部分(即，推断、工作负荷)的专用硬件加速器单元。

机器学习模型可以使用机器学习框架(例如，TensorFlow框架、微软认知工具包框架(Microsoft Cognitive Toolkit framework)、Apache Singa框架或Apache MXNet框架)来实现和部署。

本说明书中描述的主题的实施例可以在计算系统中实现，该计算系统包括后端组件(例如作为数据服务器)或包括中间件组件(例如应用服务器)或包括前端组件(例如具有图形用户界面、web浏览器或app的客户端计算机，用户可通过其与本说明书中描述的主题的实施方式进行交互)，或者一个或多个这样的后端、中间件或前端组件的任意组合。可以通过数字数据通信的任意形式或媒介(例如通信网络)将系统的组件互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如互联网。

计算系统可以包括客户端和服务器。一般来说，客户端和服务器彼此远离，并且通常通过通信网络交互。通过运行在相应计算机上并且彼此具有客户端-服务器关系的计算机程序而形成的客户端和服务器的关系。在一些实施例中，服务器向充当客户端的用户设备传输数据(例如，HTML页面)(例如，用于向与设备交互的用户显示数据和从其接收用户输入的目的)。在用户设备处生成的数据(例如，用户交互的结果)可以在服务器处从该设备接收。

尽管本说明书包括许多具体的实现细节，但是这些细节不应当被解释为对任何发明的范围或对可能请求保护的范围进行限制，而应该被解释为可能特定于特定发明的特定实施例的特征的描述。在本说明书中在单独的实施例的上下文中描述的某些特征也可以以组合实现在单个实施例中。相反，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施例中实施。此外，尽管特征可以如上被描述为以某些组合起作用并且甚至最初也这样地请求保护，但在一些情况下，来自所请求保护的组合的一个或多个特征可以从组合中排除，并且所请求保护的组合可以涉及子组合或子组合的变体。

类似地，尽管在附图中以特定顺序描绘了操作并且在权利要求中以特定顺序记载了操作，但是这不应当被理解为需要以示出的特定顺序或以相继的顺序来执行这样的操作或者需要执行所有示出的操作来实现期望的结果。在一些情况下，多任务和并行处理可能是有利的。另外，上述实施例中各种系统模块和组件的分离不应当被理解为在所有实施例中要求这样的分离，而是应当理解，所描述的程序组件和系统可一般地在单个软件产品中被集成在一起或者被封装成多个软件产品。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，记载在权利要求中的动作可以以不同的顺序执行而仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示出的特定顺序或者相继顺序来实现期望的结果。在一些情况下，多任务和并行处理可能是有利的。

Claims

1.一种由一个或多个数据处理装置执行的方法，所述方法包括：

处理图像以生成识别所述图像的描绘特定对象的区域的数据；

从训练对象分割的集合获得限定多个示例对象分割的数据，其中，每个示例对象分割限定相应对象的示例分割；

生成所述示例对象分割中的每一个的相应的权重值，其中，示例对象分割的权重值表征以下之间的估计相似性：(i)在所述图像的所述区域中描绘的特定对象的分割，和(ii)所述示例对象分割；

对于所述图像的所述区域中的多个像素中的每个像素，使用(i)所述示例对象分割和(ii)所述示例对象分割的权重值确定表征所述像素被包括在所述图像的所述区域中描绘的所述特定对象中的可能性的分数；以及

使用所述图像的所述区域中的像素的分数生成所述图像的所述区域中描绘的所述特定对象的分割，其中，所述特定对象的分割针对所述图像的所述区域中的每个像素限定所述像素是否被包括在所述区域中描绘的所述特定对象中。

2.根据权利要求1所述的方法，其中，处理所述图像以生成识别所述图像的描绘特定对象的区域的数据包括使用对象检测神经网络处理所述图像。

3.根据权利要求1-2中的任一项所述的方法，其中，识别所述图像的描绘所述特定对象的所述区域的数据包括限定围绕所述图像中的所述特定对象的边界框的数据。

4.根据权利要求1-3中的任一项所述的方法，其中，所述示例对象分割是通过对多个训练对象分割进行聚类而获得的聚类质心。

5.根据权利要求1-4中的任一项所述的方法，其中，所述示例对象分割中的每一个限定相同对象类的相应对象的示例分割。

6.根据权利要求1-5中的任一项所述的方法，还包括：处理所述图像以生成识别在所述图像的所述区域中描绘的所述特定对象的对象类的数据。

7.根据权利要求6所述的方法，其中，所述示例对象分割中的每一个限定与在所述图像的所述区域中描绘的所述特定对象相同的对象类的相应对象的示例分割。

8.根据权利要求1-7中的任一项所述的方法，其中，生成所述示例对象分割中的每一个的相应的权重值包括使用先验神经网络处理包括(i)所述图像的所述区域的特征表示和(ii)所述示例对象分割的输入。

9.根据权利要求8所述的方法，其中，所述示例对象分割在被所述先验神经网络处理之前与所述图像的所述区域的特征表示对齐。

10.根据权利要求1-7中的任一项所述的方法，其中，生成所述示例对象分割中的每一个的相应的权重值包括：

池化所述图像的所述区域的特征表示；以及

使用先验神经网络处理包括所述图像的所述区域的池化的特征表示的输入。

11.根据权利要求8-10中的任一项所述的方法，其中，对所述先验神经网络的输入还包括所述图像的在描绘所述特定对象的区域之外的部分的特征表示。

12.根据权利要求8-11中的任一项所述的方法，其中，所述图像的所述区域的特征表示从对象检测神经网络的中间输出获得，所述对象检测神经网络用于生成识别以下的数据：(i)所述图像的描绘所述特定对象的所述区域和(ii)所述特定对象的对象类。

13.根据权利要求1-12中的任一项所述的方法，其中，对于所述图像的所述区域中的多个像素中的每个像素确定表征所述像素被包括在所述特定对象的分割中的可能性的分数包括：

用每个示例对象分割的可能性分数来缩放所述示例对象分割；

对缩放的示例对象分割求和；以及

基于由缩放的示例对象分割的和限定的图像中的对应像素，确定所述图像的所述区域中的像素的所述分数。

14.根据权利要求1-13中的任一项所述的方法，其中，使用所述图像的所述区域中的像素的分数生成在所述图像的所述区域中描绘的所述特定对象的分割包括：

使用(i)所述图像的所述区域的特征表示和(ii)所述图像的所述区域中的像素的分数生成检测特征；

使用所述检测特征生成在所述图像的所述区域中描绘的所述特定对象的粗略分割；

使用(i)所述检测特征和(ii)所述特定对象的所述粗略分割生成在所述图像的所述区域中描绘的所述特定对象的实例嵌入；以及

使用所述特定对象的所述实例嵌入生成所述特定对象的所述分割。

15.根据权利要求14所述的方法，其中，生成检测特征包括：

使用一个或多个卷积神经网络层处理所述图像的所述区域中的像素的分数的表示；以及

将所述卷积神经网络层的输出与所述图像的所述区域的所述特征表示求和。

16.根据权利要求14-15中的任一项所述的方法，其中，生成所述特定对象的粗略分割包括使用一个或多个卷积神经网络层处理所述检测特征。

17.根据权利要求14-16中的任一项所述的方法，其中，使用(i)所述检测特征和(ii)所述特定对象的所述粗略分割生成在所述图像的所述区域中描绘的所述特定对象的实例嵌入包括：

通过组合所述特定对象的所述粗略分割中包括的检测特征生成实例条件特征；以及

至少部分地基于所述实例条件特征生成在所述图像的所述区域中描绘的所述特定对象的实例嵌入。

18.根据权利要求17所述的方法，其中，生成实例嵌入包括：使用由以下定义的函数G(·,·)来处理所述检测特征和所述特定对象的所述粗略分割：

其中，X_det表示所述检测特征，M表示所述粗略分割，★表示按元素的乘积，并且∑表示空间维度上的求和。

19.根据权利要求14-18中的任一项所述的方法，其中，生成所述特定对象的所述分割包括使用一个或多个卷积神经网络层处理所述特定对象的所述实例嵌入。

20.一个或多个计算机存储介质，其存储指令，所述指令在由一个或多个计算机执行时，使所述一个或多个计算机执行权利要求1至19中的任一项的方法的操作。

21.一种系统，包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时，使所述一个或多个计算机执行权利要求1-19的方法的操作。