CN110809784B

CN110809784B - 高分辨率图像分割的端到端网络模型

Info

Publication number: CN110809784B
Application number: CN201780092820.XA
Authority: CN
Inventors: N.金泽; Y.P.克纳安
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2021-04-20
Anticipated expiration: 2037-09-27
Also published as: KR20200004427A; US20210067848A1; WO2019066794A1; KR102177233B1; US20200218961A1; JP6865866B2; KR20200129168A; EP3625767B1; JP2020528176A; EP3625767A1; US11792553B2; US10860919B2; CN110809784A

Abstract

本公开提供利用神经网络进行高分辨率图像分割的系统和方法。一种计算系统可以包括处理器、包括语义分割神经网络和边缘细化神经网络的机器学习的图像分割模型、以及至少一个有形的，非暂时性的计算机可读介质，该介质存储使处理器执行操作的指令。所述操作可以包括获得图像，将图像输入到语义分割神经网络中，接收语义分割掩码作为语义分割神经网络的输出，将图像的至少一部分和语义分割掩码的至少一部分输入到边缘细化神经网络，并接收作为边缘细化神经网络的输出的细化的语义分割掩码。

Description

高分辨率图像分割的端到端网络模型

技术领域

本公开总体上涉及图像分割。更具体地，本公开涉及一种可以从端到端训练的用于高分辨率图像分割的网络模型。

背景技术

图像分割(例如，语义分割)可以用于将数字图像划分(partition)成多个片段。例如，可以将图像分割为具有特定边界(线、曲线等)的对象，也可以将其划分为图像前景或背景中的元素。具体地，可以标记图像的每个像素，使得具有相同标记的像素共享某些特性。一旦被分割，就可以根据片段来操纵图像例如通过提取片段或使图像的部分模糊。

诸如卷积神经网络(“CNN”)的神经网络已经显示出执行图像分割的能力。但是，由于执行图像分割所需的计算强度，配置为分割图像的CNN的输入和输出分辨率通常受到限制，诸如256x256、300x300或400x400像素。因此，由于图像的低分辨率，从这样的CNN输出的分割的图像对于用户可能具有有限的价值。

一种增加输出分割图像的分辨率的技术是使用双边滤波器或条件随机场处理将输出分割图像调整到更高的分辨率。但是，由于在这种配置中CNN和提升(up-scale)方法是分离的处理，因此不能通过诸如基于高分辨率分割图像反向传播输出错误来从端到端训练CNN。

发明内容

本公开的实施例的方面和优点将在以下描述中部分地阐述，或者可以从描述中获悉，或者可以通过实施例的实施而获知。

本公开的一个示例方面针对一种计算系统，包括：至少一个处理器；机器学习的图像分割模型；以及至少一个有形的非暂时性计算机可读介质，其存储指令，该指令在由所述至少一个处理器执行时使所述至少一个处理器执行操作。机器学习的图像分割模型可以包括语义分割神经网络和边缘细化神经网络。可以训练语义分割神经网络以接收图像，并响应于图像的接收，输出语义分割掩码。可以训练边缘细化神经网络以接收图像的至少一部分和语义分割掩码的至少一部分，并且响应于图像的至少一部分和语义分割掩码的至少一部分的接收，输出细化的语义分割掩码。所述操作可以包括：获得图像；将图像输入到语义分割神经网络中；接收语义分割掩码作为语义分割神经网络的输出；将图像的至少一部分和语义分割掩码的至少一部分输入到边缘细化神经网络中；以及接收细化的语义分割掩码作为边缘细化神经网络的输出。

本公开的另一示例方面针对一种为图像的至少一部分生成分割掩码的计算机实现的方法。所述方法可以包括：在第一神经网络处接收从图像导出的第一数据。所述方法还可以包括：使用第一神经网络处理所述第一数据，以生成第一神经网络的输出，其中，所述输出与第一分割掩码有关。所述方法还可以包括：在第二神经网络处接收：从图像导出的第二数据，以及从第一神经网络的所述输出导出的数据。所述方法还可以包括：生成与第二分割掩码有关的数据，包括使用第二神经网络处理从图像导出的第二数据和从第一神经网络的所述输出导出的数据，使得相对于第一分割掩码而细化第二分割掩码。

本公开的另一示例方面针对一种从端到端训练图像分割模型的计算机实现的方法。该图像分割模型可以包括语义分割神经网络和边缘细化神经网络，该方法可以包括：将训练图像输入到图像分割模型中。该方法还可以包括：确定语义分割神经网络的第一损失函数。该方法还可以包括：确定边缘细化神经网络的第二损失函数。该方法还可以包括：至少部分地基于第一损失函数和第二损失函数来确定总损失函数。该方法还可以包括：基于总损失函数训练图像分割模型。

本公开的其他方面针对各种系统、装置、非暂时性计算机可读介质，用户接口和电子设备。

参考以下描述和所附权利要求，将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。结合在本说明书中并构成本说明书的一部分的附图示出了本公开的示例实施例，并且与描述一起用于解释相关原理。

附图说明

在说明书中阐述了针对本领域普通技术人员的实施例的详细讨论，该说明书参考附图，其中：

图1描绘了根据本公开的示例方面的示例计算系统的框图；

图2描绘了根据本公开的示例方面的示例图像分割模型的框图；

图3描绘了根据本公开的示例方面的示例图像分割模型的框图；

图4描绘了根据本公开的示例方面的示例边缘细化神经网络的框图；

图5描绘了根据本公开的示例方面的示例边缘细化神经网络的框图；

图6描绘了根据本公开的示例方面的示例图像分割模型训练过程的框图；

图7描绘了根据本公开的示例方面的确定细化的语义分割掩码的示例方法的流程图；

图8描绘了根据本公开的示例方面的确定细化的语义分割掩码的示例方法的流程图；以及

图9描绘了根据本公开的示例方面的训练图像分割模型的示例方法的流程图。

具体实施方式

本公开的示例方面针对利用机器学习来确定图像的细化的语义分割掩码的系统和方法。具体地，本公开的系统和方法可以包括并使用包括一个或多个神经网络的机器学习的图像分割模型。在一个示例中，机器学习的图像分割模型可以包括被配置为提供语义分割掩码的第一神经网络和被配置为细化的语义分割掩码的第二神经网络。在这样的示例中，计算系统可以接收图像，将图像输入到第一神经网络中以接收语义分割掩码，将语义分割掩码的至少一部分和图像的至少一部分输入第二神经网络，并接收细化的语义分割掩码作为第二神经网络的输出。细化的语义分割掩码可以是例如与原始语义分割掩码相比具有细化的边界和/或更高分辨率的图像的语义分割掩码。例如，在一些实施方式中，与语义分割掩码相比，细化的语义分割掩码可以具有更锐利的边缘，和/或与语义分割掩码相比，细化的语义分割掩码可以更准确地分离图像的至少一部分的前景和背景。

具体地，根据本公开的一方面，第一神经网络可以是被配置为接收图像并确定图像的语义分割掩码的语义分割神经网络(例如，CNN)。在一个示例中，用户可以在用户计算设备上选择图像以提供给图像分割模型。计算设备可以将图像输入到语义分割神经网络中并接收图像的语义分割掩码。语义分割掩码可以将图像划分为相关的片段(例如，图像的前景中的人和背景)。例如，图像被分割成的片段可以是语义上不同的片段，其分别对应于不同的语义概念。

计算设备可以将语义分割掩码的至少一部分和图像的至少一部分提供给第二神经网络。例如，第二神经网络可以是边缘细化神经网络(例如，CNN)，其被配置为接收语义分割掩码和图像，并提供细化的语义分割掩码作为第二神经网络的输出。细化的语义分割掩码可以在图像的分割区域之间具有细化的边缘(例如，更明显/清晰定义的边界)和/或具有比语义分割掩码更高的分辨率。

然后，计算设备可以使用细化的语义分割掩码来诸如在图像的背景中生成具有模糊效果的图像。例如，可以基于细化的语义分割掩码在图像的背景区域中使图像模糊，以生成模糊的背景效果(例如，“散景”效果)。这样，根据本公开的示例方面，计算设备可以使用单个图像和图像分割模型来生成模糊的背景图像。

此外，如将在本文中更详细讨论的，可以从端到端训练图像分割模型，以便确定细化的分割掩码，从而允许细化的语义分割掩码的质量经由训练得以改善。

更具体地，在一些实施方式中，一种计算系统可以包括至少一个处理器和至少一个有形的非暂时性计算机可读介质，该介质存储指令，当所述指令由所述至少一个处理器执行时，使得所述至少一个处理器执行操作。该计算系统可以进一步包括机器学习的图像分割模型，其可以包括语义分割神经网络和边缘细化神经网络。

可以对语义分割神经网络进行训练以接收图像，并且响应于图像的接收，输出语义分割掩码。例如，语义分割神经网络可以是包括一个或多个卷积层的CNN。语义分割掩码可以将图像分割或划分为多个片段，例如前景和背景或其他语义片段和/或深度层。在一些实施方式中，由语义分割确定的语义分割掩码可以包括每个像素16个特征的值，或者可以根据16个通道以其他方式分割。因此，作为一个示例，语义分割神经网络的输出层的深度可以是16。与单个特征语义分割掩码相比，使用多个特征可以允许更准确地预测细化的语义分割掩码。例如，关于头发、皮肤、衣服、身体特征等的信息可以从语义分割网络传递到边缘细化网络。在其他实施方式中，语义分割掩码可以具有2或3个通道。

可以训练边缘细化神经网络以接收图像的至少一部分，语义分割掩码的至少一部分，并且作为响应，输出细化的语义分割掩码。例如，边缘细化神经网络可以是包括一个或多个卷积层的CNN。与语义分割掩码相比，可以通过例如具有更高的分辨率、更清晰地定义的边界、更准确的边界或其他优化来对细化的语义分割掩码进行细化。

指令可以使处理器获得图像，并将图像输入到语义分割神经网络中。例如，用户可以使用用户计算设备来选择要提供给图像分割模型的图像。在一些实施方式中，图像分割模型可以存储在用户计算设备上或以其他方式包括在用户计算设备上。在一些实施方式中，图像分割模型可以被存储在远程计算系统上，并且图像可以例如通过一个或多个有线或无线网络被提供给远程计算系统。

在一些实施方式中，图像可以是高分辨率图像。如本文所使用的，术语“高分辨率”当对于图像使用时，是指具有第一分辨率(例如2048x2048像素)的图像的版本，其是比具有第二分辨率(例如256x256像素)的图像的版本更高的分辨率的图像。类似地，术语“低分辨率”当对于图像使用时，是指其分辨率低于更高分辨率的图像版本的图像版本。上面提供的示例分辨率仅作为示例提供。许多不同的分辨率可用于高分辨率和低分辨率图像。

在一些实施方式中，可以通过将高分辨率图像缩小到图像的低分辨率版本并将低分辨率图像输入到语义分割神经网络中，来将高分辨率图像输入到语义分割神经网络中。例如，可以将任何数量的技术应用于缩小高分辨率图像，诸如最近邻插值、双线性和双三次算法、Sinc和Laszos重采样，傅立叶变换方法、边沿定向插值、矢量化、深度卷积神经网络或其他缩小技术。

在一些实施方式中，响应于接收到低分辨率图像，语义分割神经网络可以输出低分辨率语义分割掩码。例如，可以将低分辨率图像(例如256x256图像)输入到语义分割神经网络中，并且可以通过语义分割神经网络输出相应的低分辨率语义分割掩码(例如在相应的256x256像素处)。

根据本公开的附加方面，语义分割神经网络的至少一部分可以被输入到边缘细化神经网络中。例如，在一些实施方式中，从语义分割神经网络接收的语义分割掩码可以是低分辨率语义分割掩码。可以将低分辨率语义分割掩码提升为高分辨率语义分割掩码，然后可以将高分辨率语义分割掩码输入到边缘细化神经网络中。例如，在一些实施方式中，可以将低分辨率语义分割掩码提升回到缩小的高分辨率图像的原始分辨率以获得提供给语义分割神经网络的低分辨率图像。

另外，可以将图像的至少一部分输入到边缘细化神经网络中。例如，在一些实施方式中，可以将高分辨率图像与高分辨率语义分割掩码一起输入到边缘细化神经网络中。

在一些实施方式中，可以例如通过随机地裁剪高分辨率图像的一部分并将所裁剪的部分提供给边缘细化神经网络来采样高分辨率图像。类似地，在一些实施方式中，可以裁剪高分辨率语义分割掩码的对应部分并将其提供给边缘细化神经网络。高分辨率语义分割掩码的部分可以是例如与在高分辨率图像中随机裁剪的高分辨率语义分割掩码相同的区域。

在一些实施方式中，边缘细化神经网络可以包括两个分别接收输入的编码器网络。具体地，作为示例，图像(或其一部分)可以被输入到边缘细化神经网络的第一编码器网络中，并且语义分割掩码(或其一部分)可以被输入到边缘细化神经网络的第二编码器网络中。因此，在一些实施方式中，边缘细化神经网络可以是包括两个头(head)的网络，其中第一头对应于图像编码器网络，并且第二头对应于语义分割掩码编码器网络。每个编码器网络可以包括一个或多个卷积层，分别对图像或语义分割掩码进行编码。

每个编码器网络可以被配置为输出编码输出。例如，第一编码器网络(例如，图像编码器网络)可以输出第一编码输出(例如，编码图像)，并且第二编码器网络(例如，语义分割掩码编码器网络)可以输出第二编码输出(例如，编码的语义分割掩码)。边缘细化神经网络可以将第一编码输出和第二编码输出级联成级联的编码输出。例如，每个编码器网络可以被配置为分别降低图像或语义分割掩码的分辨率，并且当每个编码器网络的分辨率分别处于其最低时，可以将两个编码器网络的编码输出级联。

然后，可以将级联的编码输出提供给边缘细化神经网络的解码器网络。例如，解码器网络可以包括一个或多个卷积层，其被配置为扩展级联的编码输出，直到级联的编码输出的分辨率达到原始输入分辨率为止。在一些实施方式中，解码器网络可以包括边缘推断层，其被配置为提取细化的语义分割掩码。可以将细化的语义分割掩码作为边缘细化神经网络的解码器网络的输出来接收。细化的语义分割掩码可以例如具有比从语义分割神经网络接收的语义分割掩码更高的分辨率。另外，在一些实施方式中，由边缘细化神经网络生成的细化的语义分割掩码可以包括16个特征或通道。

一旦通过图像分割模型确定了细化的语义分割掩码，就可以至少部分地基于细化的语义分割掩码来使图像的至少一部分模糊。例如，细化的语义分割掩码可以从图像的背景分割图像的前景中的人/对象。在一些实施方式中，可以使图像的背景模糊以产生模糊效果(例如，“散景”效果)。除了背景之外或替代背景，其他深度层(例如，与用户选择的深度相对应的层)可以被模糊。

根据本公开的示例方面的系统和方法提供的优点在于，可以从端到端训练图像分割模型。例如，使用训练数据，诸如一个或多个训练图像，可以基于细化的语义分割掩码来确定总损失函数。然后可以至少部分地基于总损失函数来训练图像分割模型。

例如，尽管神经网络模型(诸如CNN)已经显示出解决许多困难的成像问题的能力，但在大多数情况下，输入和相应的输出图像通常具有较低的分辨率，例如256x256、300x300或400x400。通常，输入和输出图像的分辨率保持在低分辨率，以减少神经网络模型所需的计算量。一种改进作为神经网络模型的输出而接收的图像的分辨率质量的技术是使用一种或多种提升技术，诸如双边滤波器或条件随机场。然而，使用这样的提升技术不允许错误通过神经网络模型反向传播，从而阻止了通过反向传播对神经网络模型的训练。

然而，根据本公开的示例方面的系统和方法可以允许诸如通过错误的反向传播从端到端来训练图像分割模型。例如，根据本公开的另外的示例方面，可以通过将训练图像输入到图像分割模型中来从端到端训练图像分割模型。训练图像可以是例如来自包括多个训练图像的训练数据集的图像。每个训练图像可以具有例如用于训练相应的语义分割和边缘细化神经网络的图像的语义分割掩码的对应的基础事实版本。

例如，可以将训练图像输入到图像分割模型中，并且可以为语义分割神经网络确定第一损失函数。例如，可以将训练图像输入到语义分割神经网络中，并且可以接收训练图像的语义分割掩码作为语义分割神经网络的输出。在一些实施方式中，可以提取语义分割掩码的单个通道。例如，在一些实施方式中，语义分割神经网络可以通过例如使用推断层从包括多个通道的语义分割掩码中提取单个通道。推断层可以是例如被配置为从语义分割掩码(例如，黑白语义分割掩码)提取单个通道的层。

第一损失函数可以通过例如确定语义分割掩码和基础事实语义分割掩码之间的差来确定。例如，基础事实语义分割掩码可以对应于训练图像的预先确定的语义分割掩码。第一损失函数可以描述语义分割掩码和基础事实语义分割掩码之间的差。

在一些实施方式中，训练图像可以是高分辨率训练图像，其可以首先被缩小为训练图像的低分辨率版本，并且低分辨率训练图像可以被输入到语义分割神经网络中以确定低分辨率语义分割掩码。然后可以将低分辨率语义分割掩码(或其单个通道)与低分辨率基础事实语义分割掩码进行比较，以确定第一损失函数。

在一些实施方式中，可以至少部分地基于第一损失函数来训练语义分割神经网络。例如，与基础事实语义分割掩码相比，可以通过从语义分割掩码反向传播错误来训练语义分割神经网络。

训练方法可以进一步包括确定边缘细化神经网络的第二损失函数。例如，可以从语义分割神经网络接收语义分割掩码，并且可以将语义分割神经网络的至少一部分与训练图像的至少一部分一起输入到边缘细化神经网络中。

在一些实施方式中，语义分割掩码可以是低分辨率语义分割掩码，而训练图像可以是高分辨率训练图像。高分辨率训练图像的至少一部分可以输入到边缘细化神经网络中。可以将低分辨率语义分割掩码提升为语义分割掩码的高分辨率版本，并且可以将高分辨率语义分割掩码的至少一部分输入到边缘细化神经网络中。例如，在一些实施方式中，可以随机裁剪训练图像，并且可以裁剪高分辨率语义分割掩码的相应裁剪，其中将训练图像的裁剪的部分和高分辨率语义分割掩码的相应裁剪输入到边缘细化神经网络。

可以接收细化的语义分割掩码作为边缘细化神经网络的输出。可以至少部分地基于细化的语义分割掩码和基础事实的细化的语义分割掩码之间的差来确定第二损失函数。例如，基础事实的细化的语义分割掩码可以对应于训练图像的先前确定的细化的语义分割掩码。第二损失函数可以描述细化的语义分割掩码和基础事实的细化的语义分割掩码之间的差。

在一些实施方式中，可以至少部分地基于第二损失函数来训练边缘细化神经网络。例如，与基础事实的细化的语义分割掩码相比，可以通过从细化的语义分割掩码中反向传播错误来训练边缘细化神经网络。

训练方法可以进一步包括至少部分地基于第一损失函数和第二损失函数来确定图像分割模型的总损失函数。例如，在一些实施方式中，总损失函数可以通过将第一损失函数和第二损失函数相加来确定。然后可以基于总损失函数训练图像分割模型。例如，可以通过图像分割模型反向传播总损失函数的错误来训练图像分割模型。

在一些实施方式中，如本文所述，可以首先通过使用第一损失函数反向传播错误来训练语义分割神经网络。一旦语义分割神经网络已经被训练为实现低于可接受阈值的第一损失函数，则可以使用第二损失函数来训练边缘细化神经网络，如本文所述。一旦已经对边缘细化神经网络进行了训练以实现低于可接受阈值的第二损失函数，就可以至少部分基于总损失函数来训练图像分割模型，如本文所述。

因此，本公开提供了基于技术的机器学习的解决方案，以解决高分辨率图像分割的技术问题。本公开的一个示例益处是改进的图像分割精度/质量。具体地，各种实施方式可以提供细化的分割掩码，与通过其他方法产生的分割掩码相比，其具有更高的分辨率和/或在图像的分割区域之间具有细化的边缘(例如，更清晰/清晰界定的边界)。此外，与单特征神经网络相比，本文描述的多特征神经网络可以提供远远更丰富的图像分割预测能力。这样，本公开的图像分割模型可以提供优异的图像分割精度。

除了改进的图像分割精度/质量之外，本公开的示例方面可以导致许多附加的技术益处，包括例如从端到端训练图像分割模型的能力。例如，在各种实施方式中，可以使用包括从每个神经网络确定的损失的总损失函数来训练图像分割模型，从而允许通过两个神经网络反向传播错误来进行端到端训练。这可以进一步允许图像分割模型的细化。此外，在一些实施例中，如本文所述，可以编写(compile)包括图像的基础事实版本的训练数据集，其可以用于单独训练图像分割模型的神经网络。因此，可以使用训练数据的子集来细化每个神经网络。

本公开的另一示例技术益处是其相对低的存储器使用/需求。具体地，本文描述的神经网络有效地总结了训练数据并将其压缩成紧凑形式(例如，神经网络本身)。这大大减少了存储和实现图像分割算法所需的存储器的量。此外，本文描述的神经网络可以在用户计算设备(诸如单个用户的智能电话)上实现，或经由网络体系结构实现，从而为用户提供增加的灵活性。

本公开的另一示例技术益处是改进的可调整性。具体地，相对于手动开发图像分割算法，通过神经网络对图像进行语义分割大大减少了所需的研究时间。例如，可能需要对手动开发的图像分割算法进行手动细化以解决各种情况。相比之下，为了使用本文所述的神经网络，可以在适当的训练数据上训练图像分割模型，如果训练系统允许，则可以大规模地进行。此外，随着新训练数据可用，可以容易地修改图像分割模型。

现在参考附图，将进一步详细讨论本公开的示例方面。图1描绘了根据本公开的示例方面的被配置为执行语义图像分割的示例计算系统100。系统100可以包括通过网络180通信地耦合的用户计算设备102和机器学习计算系统130。

用户计算设备102可以是任何类型的计算设备，例如，个人计算设备(例如，膝上型计算机或台式机)、移动计算设备(例如，智能电话或平板电脑)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任何其他类型的计算设备。

用户计算设备102可以包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何合适的处理设备(例如，处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器114可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等、以及它们的组合。存储器114可以存储由处理器112执行以使用户计算设备102执行操作的数据116和指令118。

用户计算设备102可以存储或包括一个或多个图像分割模型120。例如，存储在用户计算设备存储器114中的一个或多个图像分割模型120可以通过网络180从机器学习计算系统130接收，并由一个或多个处理器112使用或以其他方式实现。在一些实施方式中，用户计算设备102可以实现图像分割模型120的多个并行实例(例如，以对多个用户输入图像执行并行图像分割)。

用户计算设备102还可以包括通过用户交互来接收用户输入的用户输入组件122。例如，用户输入组件122可以是对用户输入对象(例如，手指或手写笔)的触摸敏感的触敏组件(例如，触敏显示屏或触摸板)。然而，用户输入组件122可以包括能够接收用户输入的其他组件。例如，用户输入组件122可以包括键盘、鼠标、小键盘、按钮或被配置为接收用户输入的其他组件。用户输入组件122可以用于例如选择要输入到一个或多个图像分割模型120中的图像。

机器学习计算系统130可以包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何合适的处理设备(例如，处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器134可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器134可以存储由处理器132执行以使机器学习计算系统130执行操作的数据136和指令138。

在一些实施方式中，机器学习计算系统130可以包括一个或多个服务器计算设备或以其他方式由其实现。在机器学习计算系统130包括多个服务器计算设备的实例下，这样的服务器计算设备可以根据顺序计算架构、并行计算架构或其一些组合来操作。

机器学习计算系统130可以存储或以其他方式包括一个或多个机器学习的图像分割模型140。例如，图像分割模型140可以是或可以以其他方式包括各种机器学习的模型，诸如神经网络(例如，深度循环神经网络)或其他多层非线性模型。参考图2-6讨论示例图像分割模型140。

机器学习计算系统130可以经由模型训练器150和训练数据152来训练图像分割模型140。在一些实施方式中，单独的训练计算系统可以远离机器学习计算系统130，并且可以经由网络180可通信的耦合到机器学习计算系统130。因此，模型训练器150可以与机器学习计算系统130分离，或者可以是机器学习计算系统130的一部分。

模型训练器150可以使用各种训练或学习技术(例如，后向传播(例如，随着时间缩短的后向传播))来训练存储在机器学习计算系统130处的机器学习模型140。模型训练器150可以执行多种归纳技术(例如，权重衰减、丢失等)，以改进被训练的模型的归纳能力。

具体地，模型训练器150可以基于一组训练数据152来训练图像分割模型140。训练数据152可以包括基础事实图像数据(例如，与训练图像相对应的基础事实语义分割掩码)。在一些实施方式中，模型训练器150可以在用户计算设备102上实现或以其他方式包括在用户计算设备102中。

模型训练器150可以包括用于提供期望功能的计算机逻辑。可以以硬件、固件和/或控制通用处理器的软件来实现模型训练器150。例如，在一些实施方式中，模型训练器150包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其他实施方式中，模型训练器150包括一组或多组计算机可执行指令，其存储在有形的计算机可读存储介质中，诸如RAM硬盘或光或磁介质。

网络180可以是任何类型的通信网络，诸如局域网(例如，内联网)、广域网(例如，因特网)或其一些组合，并且可以包括任意数量的有线或无线链路。通常，可以使用各种通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如，HTML、XML)和/或保护方案(例如VPN、安全HTTP、SSL)经由任何类型的有线和/或无线连接来承载通过网络180的通信。

在一些实施方式中，用户可以经由用户计算设备102的用户输入组件122选择图像，然后可以经由网络180将该图像提供给机器学习计算系统130。在这样的实施方式中，如本文所述，一个或多个图像分割模型140可以用于执行图像分割，并且可以经由网络180向用户计算设备102提供相应的分割图像。

图1示出了可用于实现本公开的一个示例计算系统100。也可以使用其他计算系统。例如，在一些实施方式中，用户计算设备可以包括模型训练器和训练数据集。在这样的实施方式中，图像分割模型可以在用户计算设备处被本地训练和使用。

现在参考图2，描绘了根据本公开的示例方面的示例图像分割模型200的框图。图像分割模型200可以包括连接在一起的第一神经网络和第二神经网络。第一神经网络可以是语义分割神经网络210，其被配置为接收图像230并输出图像230的语义分割掩码240。第二神经网络可以是边缘细化神经网络220，其被配置为接收图像230的至少一部分和语义分割掩码240的至少一部分，并输出细化的语义分割掩码250。

语义分割神经网络210可以是包括一个或多个卷积层的CNN。语义分割掩码240可以将图像230分割或划分为多个片段，例如前景和背景或其他语义片段和/或深度层。在一些实施方式中，由语义分割确定的语义分割掩码240可以包括每个像素16个特征的值，或者可以以其他方式根据16个通道分割。因此，作为一个示例，语义分割神经网络210的输出层的深度可以是16。使用多个特征可以允许比单个特征语义分割掩码240更准确地预测细化的语义分割掩码250。例如，关于头发、皮肤、衣服、身体特征等的信息可以从语义分割神经网络210传递到边缘细化神经网络220。在其他实施方式中，语义分割掩码240可以具有2或3个通道。

可以训练边缘细化神经网络220来接收图像230的至少一部分和语义分割掩码240的至少一部分，并作为响应，输出细化的语义分割掩码250。边缘细化神经网络220可以是包括一个或多个卷积层的CNN。与语义分割掩码240相比，可以通过例如具有更高的分辨率、更清晰地定义的边界、更准确的边界或其他细化来对细化的语义分割掩码250进行细化。

现在参考图3，描绘了根据本公开的附加方面的示例图像分割模型300。如图所示，图像的高分辨率版本310可以被输入到缩小组件320中，以便生成图像的低分辨率版本330。例如，缩小组件320可以执行多种技术来缩小图像的高分辨率版本310，诸如最近邻插值、双线性和双三次算法、Sinc和Laszos重采样、傅立叶变换方法、边沿定向插值、矢量化、深度卷积神经网络或其他缩小技术。

缩小组件320然后可以提供图像的低分辨率版本330，该图像的低分辨率版本330可以被提供给语义分割神经网络340。作为示例，图像的高分辨率版本310可以是具有第一分辨率(例如2048x2048像素)的图像，而图像的低分辨率版本330可以是具有第二较低分辨率(例如256x256像素)的图像。

语义分割神经网络可以是例如图2所示的相同或相似的语义分割神经网络210。语义分割神经网络340然后可以输出低分辨率语义分割掩码350。低分辨率语义分割掩码350可以例如具有与图像的低分辨率版本330相同的分辨率。首先将图像的高分辨率版本310缩小为图像的低分辨率版本330、并将图像的低分辨率版本330提供给语义分割神经网络340的益处是，确定低分辨率语义分割掩码350的计算强度可以大大小于直接将图像的高分辨率版本310输入到语义分割神经网络340中。

然后，可以将低分辨率语义分割掩码350提供给提升组件360以生成高分辨率语义分割掩码370。高分辨率语义分割掩码370可以例如具有与图像的高分辨率版本310相同的分辨率。提升组件360可以执行任意数量的技术以将低分辨率语义分割掩码350提升为高分辨率语义分割掩码370，诸如缩小组件320用来缩小图像的任何技术的逆向。

然后，可以将高分辨率语义分割掩码370的至少一部分和图像的高分辨率版本310提供给边缘细化神经网络380。边缘细化神经网络380可以对应于例如与图2中描绘的相同或相似的边缘细化神经网络220。边缘细化神经网络380然后可以输出细化的语义分割掩码390。细化的语义分割掩码390可以通过例如具有与高分辨率语义分割掩码370和/或低分辨率语义分割掩码350相比更高的分辨率、更清晰地定义的边界、更准确的边界或其他细化来细化。

现在参考图4，描绘了根据本公开的示例方面的边缘细化神经网络400的框图。边缘细化神经网络400可以对应于例如图2中描绘的边缘细化神经网络220和/或图3中所描绘的边缘细化神经网络380。如图3所示，可以将图像410和相应的语义分割掩码420输入到边缘细化神经网络400中。边缘细化神经网络可以包括两个头，第一头对应于图像编码器网络，并且第二头对应于语义分割掩码编码器网络。例如，边缘细化神经网络可以包括第一编码器网络430和第二编码器网络440。编码器网络430和440每个可以包括例如一个或多个卷积层，配置为分别对图像410和语义分割掩码420进行编码。图像410(或其一部分)可以被提供给第一编码器网络430，其可以将图像编码成第一编码输出。类似地，可以将语义分割掩码420(或其一部分)提供给第二编码器网络440，以将语义分割掩码420编码为第二编码输出。然后，可以将第一编码输出和第二编码输出提供给级联组件450，该级联组件450配置为将第一编码输出和第二编码输出级联。级联组件450可以将第一编码输出和第二编码输出级联成级联的编码输出。例如，每个编码器网络可以被配置为分别降低图像410或语义分割掩码420的分辨率，并且当编码器网络430和440每个的分辨率分别处于其最低分辨率时，可以将两个编码器网络430和440的编码输出级联。

然后，可以将级联的编码输出提供给边缘细化神经网络400的解码器网络460。例如，解码器网络460可以包括一个或多个卷积层，该卷积层配置为扩展级联的编码输出，直到级联的编码输出的分辨率达到图像410和/或语义分割掩码420的原始输入分辨率。在一些实施方式中，解码器网络460可以包括边缘推断层，该边缘推断层配置为提取细化的语义分割掩码470。细化的语义分割掩码470可以作为边缘细化神经网络400的解码器网络460的输出来接收。例如，细化的语义分割掩码470可以具有比从语义分割神经网络接收的语义分割掩码420更高的分辨率。另外，在一些实施方式中，由边缘细化神经网络生成的细化的语义分割掩码470可包含16个特征或通道。

在一些实施方式中，一旦由边缘细化神经网络400确定了细化的语义分割掩码470，就可以至少部分地基于细化的语义分割掩码470来使图像的至少一部分模糊。细化的语义分割掩码470可以从图像410的背景中分割图像410的前景中的人/物体。在一些实施方式中，图像410的背景可以被模糊以产生模糊效果(例如，“散景”效果)。除了背景之外或替代背景，其他深度层(例如，与用户选择的深度相对应的层)可以被模糊。

现在参考图5，描绘了根据本公开的示例方面的示例边缘细化神经网络500。图5中描绘的示例边缘细化神经网络500可以与图2-4中所示的边缘细化神经网络220、380和400相同或相似。

如图所示，图像510和对应的语义分割掩码520可以分别输入到相应的第一编码器网络530和第二编码器网络540中。编码器网络530、540每个可以包括多个卷积层，其被配置为分别对图像510或语义分割掩码520进行编码。

编码图像和编码语义分割掩码可以由级联组件550级联，并且级联组件550的级联输出可以被提供给解码器网络560。解码器网络560可以被配置为对从级联组件550接收的级联输出进行解码。解码器网络560可以包括多个卷积层，包括边缘推断层570。在一些实施方式中，可以从解码器网络560的输出接收细化的语义分割掩码580，以及更具体地作为边缘推断层570的输出。

现在参考图6，描绘了示例图像分割模型训练配置600的框图。根据本公开的示例方面的图像分割模型提供的优点是能够诸如通过错误的反向传播来从端到端训练图像分割模型的能力。

如所示，诸如图像的高分辨率版本610的训练图像可以用于训练图像分割模型。图像的高分辨率版本610可以是作为训练数据集的一部分的训练图像，其可以包括基础事实语义分割掩码645和基础事实的细化的语义分割掩码675，如将在下面更详细地描述的。如图所示，训练图像可以是图像的高分辨率版本610。在一些实施方式中，训练图像可以是图像的低分辨率版本。

图像的高分辨率版本610可以由缩小组件615缩小，以生成图像的低分辨率版本620。缩小组件615可以例如是图3中所示的相同或相似的缩小组件320。

可以将图像的低分辨率版本620提供给语义分割神经网络625。语义分割神经网络625可以是分别与图2和3所示的语义分割神经网络210和340相同或相似的语义分割神经网络。语义分割神经网络625可以输出低分辨率语义分割掩码630。在一些实施方式中，可以将图像的高分辨率版本输入到语义分割神经网络625中，其可以输出对应的高分辨率语义分割掩码。在一些实施方式中，低分辨率语义分割掩码630可以包括多个通道，例如16个通道。

在一些实施方式中，可以提取低分辨率语义分割掩码630的单个通道。例如，在一些实施方式中，低分辨率语义分割掩码630可以包括多个通道，诸如16个通道。在一些实施方式中，低分辨率语义分割掩码630的单个通道可以由语义分割神经网络625提取。例如，语义分割神经网络625可以包括被配置为从低分辨率语义分割掩码630提取单个通道的推断层。

在一些实施方式中，可以将低分辨率语义分割掩码630的单个通道与基础事实语义分割掩码645进行比较。例如，基础事实语义分割掩码645可以对应于编写为训练数据集的一部分的图像的高分辨率版本610的基础事实语义分割掩码645，并且可以与低分辨率语义分割掩码具有相同的分辨率。基础事实语义分割掩码645可以是基于图像的高分辨率版本610的语义分割神经网络的期望输出。可以至少部分地基于低分辨率语义分割掩码630和基础事实语义分割掩码645之间的差(或其单个通道)来确定第一损失函数650。在一些实施方式中，可以为低分辨率语义分割掩码的每个通道提取单个通道，并且可以将每个通道与对应的基础事实语义分割掩码进行比较，以确定该通道的第一损失函数。在一些实施方式中，语义分割掩码630可以包括多个通道，并且可以将语义分割掩码630与对应的基础事实语义分割掩码645进行比较以确定第一损失函数。

在一些实施方式中，第一损失函数650可用于训练语义分割神经网络625。例如，与基础事实语义分割掩码645相比，语义分割神经网络625可通过从低分辨率语义分割掩码630(或其单个通道)反向传播错误来训练。

低分辨率语义分割掩码630可以被输入到提升组件655中以确定高分辨率语义分割掩码660。提升组件655可以对应于例如提升组件360，如图3中所示。在一些实施方式中，提升组件655可以将低分辨率语义分割掩码630以与图像的高分辨率版本610相同的分辨率提升为高分辨率语义分割掩码660。

如图所示，图像的高分辨率版本610(或其至少一部分)和高分辨率语义分割掩码660(或其至少一部分)可以输入到边缘细化神经网络665中。边缘细化神经网络665可以分别与如图2-5所示的边缘细化神经网络220、380、400和500相同或相似。在一些实施方式中，图像的高分辨率版本610可以被随机地裁剪，并且高分辨率语义分割掩码660的相应裁剪可以类似地被裁剪，其中两个裁剪的部分被提供给边缘细化神经网络665。

可以接收细化的语义分割掩码670作为来自边缘细化神经网络665的输出。然后，可以将细化的语义分割掩码670与基础事实的细化的语义分割掩码675进行比较。例如，基础事实的细化的语义分割掩码675可以对应于被编写为训练数据集的一部分的图像的高分辨率版本610的基础事实的细化的语义分割掩码675。基础事实的细化的语义分割掩码675可以是与图像的高分辨率版本610相对应的边缘细化神经网络665的期望输出。

在一些实施方式中，第二损失函数680可以至少部分地基于细化的语义分割掩码670和基础事实的细化的语义分割掩码675之间的差来确定。在一些实施方式中，第二损失函数680可以用于训练边缘细化神经网络665。例如，与基础事实的细化的语义分割掩码675相比，边缘细化神经网络665可以通过从细化的语义分割掩码670反向传播错误来进行训练。

在一些实施方式中，总损失函数685可以至少部分地基于第一损失函数650和第二损失函数680来确定。例如，在一些实施方式中，总损失函数685可以通过对第一损失函数650和第二损失函数680求和来确定。

在一些实施方式中，可以至少部分地基于总损失函数685来训练图像分割模型。例如，可以通过图像分割模型基于总损失函数685反向传播错误来训练图像分割模型。这样，可以从端到端对图像分割模型进行训练。

在一些实施方式中，可以通过首先确定第一损失函数650，并且至少部分地基于第一损失函数650来训练语义分割神经网络625，来训练图像分割模型。一旦语义分割神经网络625如果已经被训练以实现低于可接受阈值的第一损失函数650，则可以至少部分地基于第二损失函数680来训练边缘细化神经网络665。一旦已经训练了边缘细化神经网络665以实现低于可接受阈值的第二损失函数680，就可以至少部分地基于总损失函数685来训练图像分割模型，如本文所述。

现在参考图7，描绘了根据本公开的示例方面的确定细化的语义分割掩码的示例方法(700)的流程图。虽然为了说明和讨论的目的，图7描绘了以特定顺序执行的步骤，但是本公开的方法不限于特定示出的顺序或布置。在不脱离本公开的范围的情况下，可以以各种方式省略、重新布置、组合和/或调整方法(700)的各个步骤。

在(702)，方法(700)可以包括获得图像。例如，在一些实施方式中，用户可以使用用户计算设备102来选择要提供给图像分割模型120的图像。在一些实施方式中，图像分割模型120可以存储在用户计算设备102上，并且在其他实施方式中，图像分割模型140可以存储在远离用户计算设备102的计算系统130上。

在(704)，方法(700)可以包括将图像输入到语义分割神经网络中。例如，图像分割模型200可以包括第一神经网络210和第二神经网络220。第一神经网络210可以是被配置为确定图像230的语义分割掩码240的语义分割神经网络210。图像230可以输入到语义分割神经网络210中。

在(706)，方法(700)可以包括接收语义分割掩码作为语义分割神经网络的输出。例如，语义分割神经网络210可以被配置为输出图像230的语义分割掩码240。

在(708)，方法(700)可以包括将图像的至少一部分和语义分割掩码的至少一部分输入到边缘细化神经网络中。例如，图像分割模型200可以包括第二神经网络220，其可以是边缘细化神经网络220。图像230(或其至少一部分)和语义分割掩码240(或其至少一部分)可以被输入到边缘细化神经网络220中。

在(710)，方法(700)可以包括接收细化的语义分割掩码作为边缘细化神经网络的输出。例如，边缘细化神经网络220可以被配置为至少部分地基于图像230和语义分割掩码240来输出细化的语义分割掩码250。细化的语义分割掩码250可以被接收作为边缘细化神经网络220的输出。细化的语义分割掩码250可以通过例如具有与语义分割掩膜240相比更高的分辨率、更清晰地定义的边界、更准确的边界或其他细化来定义。

在一些实施方式中，可以至少部分地基于改进的语义分割掩码来模糊图像的至少一部分。例如，改进的语义分割掩码可以描绘图像前景中的对象和图像背景之间的边界。在一些实施方式中，图像的背景部分可以被模糊，而图像的前景部分可以保持与原始图像中一样。

以这种方式，可以使用包括第一神经网络和第二神经网络的图像分割模型来为图像确定细化的语义分割掩码。

现在参考图8，描绘了根据本公开的示例方面的确定细化的语义分割掩码的示例方法(800)的流程图。虽然图8出于图示和讨论目的描绘了以特定顺序执行的步骤，但是本公开的方法不限于特定图示的顺序或布置。在不脱离本公开的范围的情况下，可以以各种方式省略、重新布置、组合和/或调整方法(800)的各个步骤。

在(802)，方法(800)可以包括获得高分辨率图像。例如，在一些实施方式中，用户可以使用用户计算设备102来选择要提供给图像分割模型120的图像。在一些实施方式中，图像分割模型120可以存储在用户计算设备102上，并且在其他实施方式中，图像分割模型140可以存储在远离用户计算设备102的计算系统130上。图像可以是例如第一分辨率的图像，该第一分辨率比第二分辨率更高。

在(804)，方法(800)可以包括将高分辨率图像缩小到低分辨率图像。例如，可以将高分辨率图像从第一分辨率缩小到第二分辨率，其中第二分辨率是比第一分辨率低的分辨率。

在(806)，方法(800)可以包括将低分辨率图像输入到语义分割神经网络中。例如，图像分割模型可以包括第一神经网络和第二神经网络。所述第一神经网络可以是被配置为接收图像并基于所述图像输出语义分割掩码的语义分割神经网络。

在(808)，方法(800)可以包括接收低分辨率语义分割掩码作为语义分割神经网络的输出。例如，低分辨率语义分割掩码可以与提供给语义分割神经网络的图像的低分辨率版本具有相同的分辨率。

在(810)，方法(800)可以包括将低分辨率语义分割掩码提升为高分辨率语义分割掩码。例如，可以将低分辨率语义分割掩码从第二分辨率提升到第一分辨率。

在(812)，方法(800)可以包括：将高分辨率图像(或其一部分)输入到第一编码器网络中，以及将高分辨率语义分割掩码(或其一部分)输入到第二编码器网络中。例如，图像分割模型还可以包括第二神经网络，该第二神经网络可以是边缘细化神经网络。边缘细化神经网络可以包括第一编码器网络和第二编码器网络。图像(或其一部分)可以被输入到第一编码器网络，并且语义分割掩码(或其一部分)可以被输入到第二编码器网络。每个编码器网络可以被配置为使用一个或多个卷积层对相应的输入进行编码，其中每个卷积层执行编码功能。

在(814)，方法(800)可以包括从第一编码器网络接收第一编码输出和从第二编码器网络接收第二编码输出。例如，第一编码器网络可以接收高分辨率图像(或其一部分)，并且可以将图像编码为第一编码输出。类似地，第二编码器网络可以接收语义分割掩码(或其一部分)，并且可以将语义分割掩码编码为第二编码输出。

在(816)，方法(800)可包括将第一编码输出和第二编码输出级联为级联的编码输出。例如，在第一编码器网络和第二编码器网络中的每一个分别对图像和语义分割掩码进行编码之后，可以将第一编码输出和第二编码输出进行级联。在一些实施方式中，每个编码器网络可以被配置为降低每个卷积层的相应输入的分辨率。在一些实施方式中，当第一编码输出和第二编码输出各自的分辨率处于其最低分辨率时，它们可以被级联。

在(818)，方法(800)可以包括将级联的编码输出提供给解码器网络。例如，边缘细化神经网络可以包括配置为对级联的编码输出进行解码的解码器网络。可以将级联的编码输出提供给解码器网络，以允许解码器网络对级联的编码输出进行解码。

在(820)，方法(800)可以包括接收细化的语义分割掩码作为解码器网络的输出。例如，解码器网络可以被配置为使用一个或多个卷积层来解码级联的编码输出，其中，每个卷积层执行解码功能。在一些实施方式中，解码器网络的每个卷积层可以分别增加级联的编码输出的分辨率。在一些实施方式中，一旦级联的编码输出已经被解码到最大和/或原始分辨率，则边缘推断层可以用于提取细化的语义分割掩码。可以将细化的语义分割掩码作为边缘细化神经网络的输出来接收。

现在参考图9，描绘了根据本公开的示例方面的训练图像分割模型的示例方法(900)的流程图。虽然为了说明和讨论的目的图9描绘了以特定顺序执行的步骤，但是本公开的方法不限于特定示出的顺序或布置。在不脱离本公开的范围的情况下，可以以各种方式省略、重新布置、组合和/或适应方法(900)的各个步骤。

在(902)，方法(900)可以包括获得训练图像。例如，训练图像可以是用于训练图像分割模型的训练数据集的一部分。每个训练图像可具有一个或多个对应的基础事实语义分割掩码和/或一个或多个对应的基础事实的细化的语义分割掩码。训练图像可以通过例如访问训练数据集来获得。

在(904)，方法(900)可以包括将训练图像输入到图像分割模型中。例如，图像分割模型可以包括第一神经网络和第二神经网络。第一神经网络可以是例如语义分割神经网络，并且第二神经网络可以是例如边缘细化神经网络。可以将训练图像输入到语义分割神经网络中，以生成语义分割掩码。图像(或其至少一部分)和语义分割掩码(或其至少一部分)可以输入到边缘细化神经网络中。边缘细化神经网络然后可以提供细化的语义分割掩码。

在一些实施方式中，训练图像可以是高分辨率训练图像。在一些实施方式中，可以将高分辨率训练图像缩小为低分辨率训练图像，并且可以将低分辨率训练图像输入到语义分割神经网络中。

在(906)，方法(900)可以包括确定语义分割神经网络的第一损失函数。例如，可以将训练图像输入到语义分割神经网络中，并且可以接收语义分割掩码作为语义分割神经网络的输出。例如，在一些实施方式中，语义分割掩码可以包括多个通道，并且可以提取语义分割掩码的单个通道。例如，在一些实施方式中，语义分割神经网络的推断层可以用于提取语义分割掩码的单个通道。然后可以至少部分地基于语义分割掩码(或其单个通道)与基础事实语义分割掩码之间的差来确定第一损失函数。例如，可以将语义分割掩码与基础事实语义分割掩码进行比较，并且可以确定描述语义分割掩码和基础事实语义分割掩码之间的差的第一损失函数。

在一些实施方式中，然后可以至少部分地基于第一损失函数来训练语义分割神经网络。例如，可以通过基于第一损失函数反向传播错误来训练语义分割神经网络。

在(908)，方法(900)可以包括确定边缘细化神经网络的第二损失函数。例如，可以将训练图像(或其至少一部分)以及语义分割掩码(或其至少一部分)输入到边缘细化神经网络中，以确定细化的语义分割掩码，可以接收细化的语义分割掩码作为边缘细化神经网络的输出，第二损失函数可以至少部分地基于细化的语义分割掩码和基础事实的分割掩码之间的差来确定，例如，细化的语义分割掩码可以是相比于基础事实的细化的语义分割掩码，并且可以确定第二损失函数，该第二损失函数描述了细化的语义分割掩码和基础事实的细化的语义分割掩码之间的差。

在一些实施方式中，然后可以至少部分地基于第二损失函数来训练边缘细化神经网络。例如，可以通过基于第二损失函数反向传播错误来训练边缘细化神经网络。

在一些实施方式中，作为语义分割神经网络的输出接收的语义分割掩码可以是低分辨率语义分割掩码。在一些实施方式中，可以将高分辨率训练图像的至少一部分输入到边缘细化神经网络中，并且可以将低分辨率语义分割掩码提升为高分辨率语义分割掩码，并且可以将至少一部分高分辨率语义分割掩码输入到边缘细化神经网络中。

在(910)，方法(900)可以包括至少部分地基于第一损失函数和第二损失函数来确定总损失函数。例如，在一些实施方式中，总损失函数可以通过将第一损失函数和第二损失函数求和来确定。总损失函数可以描述图像分割模型的总损失。

在(912)，方法(900)可包括至少部分基于总损失函数来训练图像分割模型。例如，可以基于总损失函数来从端到端训练图像分割模型，该总损失函数描述了图像分割模型的总损失和/或错误。在一些实施方式中，可通过基于总损失函数通过图像分割模型反向传播错误来训练图像分割模型。以这种方式，可以从端到端训练根据本公开的示例方面的图像分割模型，从而允许当将新的训练数据提供给图像分割模型时的持续改进。

本文讨论的技术参考服务器、数据库、软件应用和其他基于计算机的系统以及向此类系统采取的行动和发送的信息和从此类系统采取的行动和接收的信息。基于计算机的系统的固有灵活性允许在组件之间进行多种可能的配置、组合以及任务和功能的划分。例如，可以使用单个设备或组件或组合工作的多个设备或组件来实现本文讨论的处理。数据库和应用可以在单个系统上实现，也可以分布在多个系统上。分布式组件可以顺序或并行运行。

尽管已经针对本主题的各种特定示例实施例详细地描述了本主题，但是每个示例都是通过说明而非限制本公开的方式提供的。本领域技术人员在理解了前述内容之后，可以容易地对这些实施例进行替换、变型和等同。因此，本公开不排除包括对本领域普通技术人员而言显而易见的对本主题的这种修改、变化和/或添加。例如，作为一个实施例的一部分示出或描述的特征可以与另一实施例一起使用以产生又一实施例。因此，意图是本公开覆盖这样的变更、变化和等同。

Claims

1.一种计算系统，包括：

至少一个处理器；

机器学习的图像分割模型，包括：

语义分割神经网络，其中训练语义分割神经网络以接收图像，并响应于图像的接收，输出语义分割掩码；以及

边缘细化神经网络，其中训练边缘细化神经网络以接收图像的至少一部分和语义分割掩码的至少一部分，并且响应于图像的至少一部分和语义分割掩码的至少一部分的接收，输出细化的语义分割掩码；以及

至少一个有形的非暂时性计算机可读介质，其存储指令，该指令在由所述至少一个处理器执行时使所述至少一个处理器执行操作，所述操作包括：

获得图像；

将图像输入到语义分割神经网络中；

接收语义分割掩码作为语义分割神经网络的输出；

将图像的至少一部分和语义分割掩码的至少一部分输入到边缘细化神经网络中；以及

接收细化的语义分割掩码作为边缘细化神经网络的输出。

2.根据权利要求1所述的计算系统，其中，所述操作还包括：

至少部分地基于细化的语义分割掩码来模糊图像的至少一部分。

3.根据权利要求1或2所述的计算系统，其中，所述图像包括高分辨率图像；并且

其中，将图像输入到语义分割神经网络中包括：

将高分辨率图像缩小为低分辨率图像；以及

将低分辨率图像输入到语义分割神经网络中。

4.根据权利要求3所述的计算系统，其中，接收语义分割掩码作为语义分割神经网络的输出包括：

接收低分辨率语义分割掩码作为语义分割神经网络的输出。

5.根据权利要求4所述的计算系统，其中将所述语义分割掩码的至少一部分输入到所述边缘细化神经网络中还包括：

将低分辨率语义分割掩码提升为高分辨率语义分割掩码；以及

将高分辨率语义分割掩码的至少一部分输入到边缘细化神经网络中。

6.根据权利要求4至5中任一项所述的计算系统，其中，将所述图像的至少一部分输入到所述边缘细化神经网络中包括：将所述高分辨率图像的至少一部分输入到所述边缘细化神经网络中。

7.根据权利要求1-2,4-5中任一项所述的计算系统，其中，将所述图像的至少一部分输入到所述边缘细化神经网络中包括：将所述图像的至少一部分输入到所述边缘细化神经网络的第一编码器网络中；以及

其中将语义分割掩码的至少一部分输入到边缘细化神经网络中包括：将语义分割掩码的至少一部分输入到边缘细化神经网络的第二编码器网络中。

8.根据权利要求7所述的计算系统，其中将所述图像的至少一部分和所述语义分割掩码的至少一部分输入所述边缘细化神经网络还包括：

从第一编码器网络接收第一编码输出；

从第二编码器网络接收第二编码输出；以及

将第一编码输出和第二编码输出级联为级联编码输出。

9.根据权利要求8所述的计算系统，其中将所述图像的至少一部分和所述语义分割掩码的至少一部分输入到所述边缘细化神经网络中还包括：

将级联的编码输出提供给所述边缘细化神经网络的解码器网络；以及

其中，接收所述细化的语义分割掩码作为所述边缘细化神经网络的输出包括：接收所述细化的语义分割掩码作为所述解码器网络的输出。

10.根据权利要求1-2,4-5,8-9中任一项所述的计算系统，其中，所述计算系统包括用户计算设备。

11.根据权利要求1-2,4-5,8-9中任一项所述的计算系统，其中，至少部分地基于所述图像分割模型的总损失函数来从端到端训练所述图像分割模型。

12.一种为图像的至少一部分生成分割掩码的计算机实现的方法，包括：

在第一神经网络处接收从图像导出的第一数据，

使用第一神经网络处理所述第一数据，以生成第一神经网络的输出，其中，所述输出涉及第一分割掩码；

在第二神经网络处接收：

从图像得到的第二数据，以及

从第一神经网络的所述输出导出的数据；以及

生成与第二分割掩码有关的数据，包括使用第二神经网络处理从图像导出的第二数据和从第一神经网络的所述输出导出的数据，使得相对于第一分割掩码而细化第二分割掩码；

其中，第一神经网络是语义分割神经网络，以及第二神经网络是边缘细化神经网络。

13.根据权利要求12所述的计算机实现的方法，其中，所述第一数据包括第一分辨率的图像数据，并且其中，所述第二数据包括高于所述第一分辨率的第二分辨率的图像数据。

14.根据权利要求13所述的计算机实现的方法，还包括生成所述第一数据，其中，生成所述第一数据包括降低所述图像的至少一个区域的分辨率。

15.根据权利要求12至14中的任一项所述的计算机实现的方法，其中，所述第一分割掩码具有第一分辨率，并且其中，所述第二分割掩码具有高于所述第一分辨率的第二分辨率。

16.根据权利要求12至14中任一项所述的计算机实现的方法，其中，所述第一神经网络和/或所述第二神经网络包括一个或多个卷积层。

17.根据权利要求12至14中的任一项所述的计算机实现的方法，其中，所述第二神经网络包括：

至少两个头，其中第一头被配置为接收从图像导出的第二数据，并且第二头被配置为接收从第一神经网络的输出导出的数据；以及

级联组件，被配置为级联从第一和第二头导出的数据。

18.根据权利要求17所述的计算机实现的方法，其中，所述第二神经网络还包括解码器网络，所述解码器网络被配置为接收从所述级联组件的输出导出的数据，其中，所述第一头包括第一编码器网络，并且所述第二头包括第二编码器网络。

19.根据权利要求12-14,18中任一项所述的计算机实现的方法，其中，所述第二神经网络是边缘细化神经网络，并且其中，与所述第一分割掩码相比，所述第二分割掩码包括更锐利的边缘。

20.根据权利要求12-14,18中任一项所述的计算机实现的方法，其中，与所述第一分割掩码相比，所述第二分割掩码更准确地分离出所述图像的至少一部分的前景和背景。

21.一种从端到端训练图像分割模型的计算机实现的方法，该图像分割模型包括语义分割神经网络和边缘细化神经网络，该方法包括：

将训练图像输入到图像分割模型中；

确定语义分割神经网络的第一损失函数；

确定边缘细化神经网络的第二损失函数；

至少部分地基于第一损失函数和第二损失函数来确定总损失函数；以及

基于总损失函数训练图像分割模型；

其中，确定所述语义分割神经网络的所述第一损失函数包括：

将训练图像输入到语义分割神经网络中；

接收语义分割掩码作为语义分割神经网络的输出；以及

至少部分地基于语义分割掩码和基础事实语义分割掩码之间的差来确定第一损失函数；

确定所述边缘细化神经网络的所述第二损失函数包括：

通过边缘细化神经网络确定细化的语义分割掩码；以及

至少部分地基于细化的语义分割掩码和基础事实的细化的语义分割掩码之间的差来确定第二损失函数。

22.根据权利要求21所述的计算机实现的方法，其中，至少部分地基于所述第一损失函数和所述第二损失函数来确定所述总损失函数包括：对所述第一损失函数和所述第二损失函数求和。

23.根据权利要求21所述的计算机实现的方法，其中基于所述总损失函数训练所述图像分割模型包括：

至少部分地基于第一损失函数来训练语义分割神经网络。

24.根据权利要求23所述的计算机实现的方法，其中，基于所述总损失函数训练所述图像分割模型还包括：

至少部分基于第二损失函数训练边缘细化神经网络。

25.根据权利要求21所述的计算机实现的方法，其中，至少部分地基于所述训练图像来确定所述语义分割掩码包括：

提取语义分割掩码的单个通道；

其中，第一损失函数至少部分地基于语义分割掩码的单个通道与基础事实语义分割掩码的单个通道之间的差来确定。

26.根据权利要求21所述的计算机实现的方法，其中，所述训练图像包括高分辨率训练图像；其中，将训练图像输入到语义分割神经网络中还包括：

将高分辨率训练图像缩小为低分辨率训练图像；以及

将低分辨率训练图像输入到语义分割神经网络中。

27.根据权利要求21所述的计算机实现的方法，其中，通过所述边缘细化神经网络确定所述细化的语义分割掩码包括：

接收训练图像的语义分割掩码作为语义分割神经网络的输出；

将训练图像的至少一部分和语义分割掩码的至少一部分输入到边缘细化神经网络中；

接收细化的语义分割掩码作为边缘细化神经网络的输出。

28.根据权利要求27所述的计算机实现的方法，其中，所述训练图像包括高分辨率训练图像；

其中，接收训练图像的语义分割掩码作为语义分割神经网络的输出包括：接收训练图像的低分辨率语义分割掩码；以及

其中，将训练图像的至少一部分和语义分割掩码的至少一部分输入到边缘细化神经网络中包括：

将高分辨率训练图像的至少一部分输入到边缘细化神经网络中；