CN114463540A

CN114463540A - 使用神经网络对图像进行分割

Info

Publication number: CN114463540A
Application number: CN202111235401.1A
Authority: CN
Inventors: E·甘佐; T·佩雷德
Original assignee: Applied Materials Israel Ltd
Current assignee: Applied Materials Israel Ltd
Priority date: 2020-10-22
Filing date: 2021-10-22
Publication date: 2022-05-10
Also published as: US20220129708A1

Abstract

一种用于图像分割的方法，包括由处理设备接收图像。所述方法进一步包括：将机器学习模型应用于图像，其中通过训练过程来训练机器学习模型，该训练过程包括使用损失函数对在训练过程期间生成的训练输出进行评估。所述方法进一步包括：针对图像的多个像素中的每个像素，获得多维域内的机器学习模型的输出，其中通过向机器学习模型提供图像的被映射到与多维域的不同轴相关联的间隔开的聚类的不同片段类别的像素来获得输出。所述方法进一步包括：使用机器学习模型并且针对图像的多个像素中的每个像素，通过找到最接近输出的轴来确定包括该像素的片段类别。

Description

使用神经网络对图像进行分割

技术领域

本公开涉及电子部件，并且更具体地涉及用于使用神经网络对图像进行分割的方法和机制。

背景技术

图像分割涉及将图像分割成多个片段。可通过针对图像的每个像素确定包括该像素的片段类别来对图像进行分割。当前的神经网络图像分割方法包括训练阶段，在训练阶段中，向神经网络馈送包括以一致的方式标记的大数量(数千、数万、甚至数百万的图像)的大数据集。替代地，可向神经网络馈送使用共同分类法标记的多个大数据集。当前的神经网络图像分割方法还可包括提供神经网络结果的神经网络处理。神经网络结果之后是复杂且耗时的后处理阶段，该后处理阶段为逐像素地并基于神经网络结果来确定包括该像素的片段类别。如上文所讨论的，当前的神经网络图像分割方法需要以一致的方式标记的图像的大数据集。

发明内容

以下是本公开的简化概述以便提供对本公开的一些方面的基本理解。本发明内容不是本公开的广泛概览。其既不旨在标识本公开的关键或重要要素，也不旨在界定本公开的特定实施方式的任何范围或权利要求的任何范围。其唯一目的是以简化的形式呈现本公开的一些概念，作为稍后呈现的更详细描述的序言。

在本公开的一方面，一种方法包括：将机器学习模型应用于图像，其中通过训练过程来训练机器学习模型，该训练过程包括将多个数据集输入到机器学习模型中，其中多个数据集中的至少两个数据集的图像彼此独立地且在不使用共同分类法的情况下被标记。所述方法进一步包括：针对图像的多个像素中的每个像素，获得多维域内的机器学习模型的输出，其中通过向机器学习模型提供图像的被映射到与多维域的不同轴相关联的间隔开的聚类的不同片段类别的像素来获得输出。所述方法进一步包括：使用机器学习模型并且针对图像的多个像素中的每个像素，通过找到最接近输出的轴来确定包括该像素的片段类别。

在本公开的另一个方面，一种方法包括：将机器学习模型应用于图像，其中通过训练过程来训练机器学习模型，该训练过程包括使用损失函数对在训练过程期间生成的训练输出进行评估。所述方法进一步包括：针对图像的多个像素中的每个像素，获得多维域内的机器学习模型的输出，其中通过向机器学习模型提供图像的被映射到与多维域的不同轴相关联的间隔开的聚类的不同片段类别的像素来获得输出。所述方法进一步包括：使用机器学习模型并且针对图像的多个像素中的每个像素，通过找到最接近输出的轴来确定包括该像素的片段类别。

在本公开的另一个方面，一种系统包括：存储器和与存储器操作地耦合的处理设备。处理设备被配置成用于执行包括以下各项的操作：提供图像作为机器学习模型的输入，其中通过训练过程来训练机器学习模型，该训练过程包括使用损失函数对在训练过程期间生成的训练输出进行评估。处理设备被进一步配置成用于执行包括以下各项的操作：针对所述图像的多个像素中的每个像素，获得多维域内的所述机器学习模型的输出，其中通过向所述机器学习模型提供被映射到与所述多维域的不同轴相关联的间隔开的聚类的不同片段类别的像素来获得所述输出。处理设备被进一步配置成用于执行包括以下各项的操作：使用机器学习模型并且针对图像的多个像素中的每个像素，通过找到最接近输出的轴来确定包括该像素的片段类别。

附图说明

在附图的各图中，通过示例而非限制的方式示出了本公开。

图1是根据某些实施例的示出示例性系统架构的框图。

图2是根据某些实施例的用于训练机器学习模型的方法的流程图。

图3描绘了根据某些实施例的训练引擎的示图。

图4示出了根据某些实施例的三个数据集的示例，每个数据集包括两个图像。

图5示出了根据本公开的实施例的三个数据集和它们相应的初始分类的示例。

图6示出了根据本公开的实施例的对六个图像的分割的示例。

图7是根据本公开的实施例的示出两个聚类的示例的图。

图8是根据某些实施例的用于使用机器学习模型对图像进行分割的方法的流程图。

图9是根据某些实施例的用于训练机器学习模型的方法的流程图。

图10是根据某些实施例的示出计算机系统的框图。

具体实施方式

本文描述了涉及用于使用神经网络对图像进行分割的方法和机制的技术。图像分割是将数字图像划分成多个片段(像素集)的过程。分割的目标是将图像的表示简化或改变为更有意义且更容易分析的事物。在一些示例中，图像分割可用于定位图像中的物体和边界。具体而言，图像分割可包括为图像中的每个像素分配标签的过程，使得具有相同标签的像素共享某些特征。

现有的图像分割方法包括使用以一致的方式标记的数千个图像的大数据集来训练神经网络。由神经网络获得的输出随后经历复杂且耗时的后处理阶段，该后处理阶段为逐像素地并基于神经网络结果来确定包括该像素的片段类别。因此，需要可观的资源(存储、时间、计算资源)来训练能够执行图像分割的神经网络。

本公开的各方面和实施方式通过使用彼此独立地标记且在不使用共同分类法的情况下标记的不同数据集来训练神经网络，解决了现有技术的缺点。在一些实施例中，可通过从使用不同标记方案的多个源接收图像组来训练神经网络。即，图像数据集可以彼此独立地被标记并且在不使用共同分类法的情况下被标记。例如，来自不同数据集的图像中的不同类别可能被标记(例如，树在第一数据集中被标记并且车辆在第二数据集中被标记)，并且不同数据集中的类似类别可能具有不同标签(例如，人可能在第一数据集中被标记为“人类”而在第二数据集中被标记为“其他”)。神经网络可针对属于不同片段类别的像素生成神经网络输出的不同聚类。随后，与训练过程相关联的处理逻辑可以使用损失函数对神经网络输出进行评估。损失函数可以是计算神经网络的当前输出与期望输出之间的距离的函数。在一些实施例中，损失函数可包括归一化分类损失函数、独热(one-hot)调节损失函数、聚类平均垂直诱导损失函数、或任何其他合适的损失函数。在一些实施例中，可应用损失函数中的一个或多个损失函数以评估神经网络输出。随后，处理逻辑可以基于由损失函数生成的一个或多个值来执行优化操作。优化操作的目的可以是最小化损失函数(值)。在一些实施例中，优化操作可以基于由损失函数生成的一个或多个值来调节神经网络中的连接权重。

经训练的神经网络可通过接收属于不同片段类别的像素来对输入图像进行分割，并且输出神经网络结果，该神经网络结果被映射到与多维域的不同轴相关联的间隔开的聚类。具体而言，神经网络可以通过找到最接近中间结果(例如，神经网络结果)的轴，来针对图像的多个像素中的每个像素确定包括该像素的片段类别。例如，假设存在三个不同片段类别并且存在三个轴(例如，x轴、y轴和z轴)，则第一片段类别的像素可被映射到与x轴相关联的第一聚类(C1)，第二片段类别的像素可被映射到与y轴相关联的第二聚类(C2)，并且第三片段类别的像素可被映射到与z轴相关联的第三聚类(C3)。当聚类的神经网络输出靠近轴和/或在轴上时，该聚类与该轴相关联。例如，如果与其他轴相比，属于聚类的神经网络输出之间的距离更接近于与该聚类相关联的轴，则可以认为神经网络输出是靠近的。

通过有限数量的参数(例如通过两个参数(例如，聚类的均值和标准差))来表示聚类，并且在训练过程中应用与这些有限数量的参数相关的损失函数极大地简化了损失函数的计算并极大地简化了对神经网络的评估。因此，本公开的各方面导致显著减少训练用于分割图像数据的神经网络所需的时间和计算资源的技术优势。另外，从使用不同标记方案的不同源获得训练图像减少了创建以一致的方式标记的数千个图像的大数据集所需的存储、时间、计算资源和手动操作。

图1描绘了根据本公开的各方面的说明性计算机系统架构100。计算机系统架构100包括：客户端设备120、装备124、预测服务器112(例如，用于生成预测数据、用于提供模型适配、用于使用知识库等)、以及数据存储140。预测服务器112可以是预测系统110的部分。预测系统110可进一步包括服务器机器170和180。在一些实施例中，装备124可包括：相机、电子显微镜、光学检查系统、雷达系统、声呐系统、或能够生成任何类型的图像的任何其他设备或系统。装备124可包括配置成捕获或生成图像数据(例如，相机图像、电子显微镜图像、光学检查系统图像、雷达图像、声呐图像等)的传感器126。在一些实施例中，装备124和传感器126可以是包括传感器服务器的传感器系统的部分。

客户端设备120可包括计算设备，诸如个人计算机(PC)、膝上型计算机、移动电话、智能电话、平板计算机、上网本计算机、联网电视(“智能电视”)、联网媒体播放器(例如，蓝牙播放器)、机顶盒、越顶(OTT)流设备、操作员盒等。客户端设备120可以显示图形用户界面(GUI)，其中GUI使得用户能够提供用户输入(例如，值、选择等)。客户端设备120可包括用户界面122。用户界面122可以(例如，通过经由客户端设备120显示的图形用户界面(GUI))接收作为与装备124相关联的指示的用户输入。在一些实施例中，用户界面122向预测系统110发送指示，并从预测系统110接收输出(例如，预测数据)。在一些实施例中，预测数据可包括对图像中的一个或多个元素(例如，猫、骨折、边界等)的标识，该标识可被显示在GUI上。每个客户端设备120可包括操作系统，该操作系统允许用户进行生成、查看或编辑数据(例如，与装备124相关联的指示等)中的一者或多者。

数据存储140可以是存储器(例如，随机访问存储器)、驱动器(例如，硬盘驱动器、闪存驱动器)、数据库系统、或能够存储数据的另一类型的部件或设备。数据存储140可包括可以跨越多个计算设备(例如，多个服务器计算机)的多个存储设备(例如，多个驱动器或多个数据库)。数据存储140可以在装备124处存储与处理图像数据相关联的数据。例如，数据存储140可以在图像捕获过程之前、期间或之后在装备124处存储由传感器126收集的数据(被称为处理数据)。处理数据可以是指历史处理数据(例如，针对装备124处的先前收集事件而生成的处理数据)和/或当前处理数据(例如，在装备124处的当前事件期间生成的处理数据)。

在一些实施例中，数据存储140可被配置成用于存储与一个或多个图像相关联的标签数据。数据标记是这样的过程：识别原始数据(图像、文本文件、视频等)并添加一个或多个信息标签以提供上下文，使得机器学习模型能够从标记数据中学习。在下文中进一步详细解释数据标记的各方面。

在一些实施例中，预测系统110包括预测服务器112、服务器机器180和服务器机器180。预测服务器112、服务器机器170和服务器机器180可各自包括一个或多个计算设备，诸如机架式服务器、路由器计算机、服务器计算机、个人计算机、大型计算机、膝上型计算机、平板计算机、台式计算机、图形处理单元(GPU)、加速器专用集成电路(ASIC)(例如，张量处理单元(TPU))等。

服务器机器170包括训练集生成器172，训练集生成器172能够生成训练数据集(例如，数据输入集和目标输出集)以训练、验证和/或测试机器学习模型190。机器学习模型190可以是能够从数据学习的任何算法模型。在下文中联系图2更详细地描述了数据集生成器172的一些操作。在一些实施例中，数据集生成器172可以将训练数据划分为训练集、验证集和测试集。在一些实施例中，预测系统110生成多个训练数据集。

服务器机器180可包括训练引擎182、验证引擎184、选择引擎185和/或测试引擎186。引擎可以是指硬件(例如，电路系统、专用逻辑、可编程逻辑、微代码、处理设备等)、软件(诸如在处理设备、通用计算机系统或专用机器上运行的指令)、固件、微代码、或上述各项的组合。训练引擎182可以能够训练一个或多个机器学习模型190。机器学习模型190可以是指由训练引擎182使用包括训练输入和对应的目标输出(针对相应训练输入的正确答案)的训练数据(在本文中也被称为训练集)创建的模型工件。训练引擎182可以在训练数据中找到将训练输入映射到目标输出(要预测的答案)的模式，并且提供捕获这些模式的机器学习模型190。机器学习模型190可以使用统计建模、支持向量机(SVM)、径向基函数(RBF)、聚类、监督式机器学习、半监督式机器学习、无监督式机器学习、k-最近邻居算法(k-NN)、线性回归、随机森林、神经网络(例如，人工神经网络)等中的一个或多个。

可用于执行上述任务中的一些或全部的一种类型的机器学习模型是人工神经网络，诸如深度神经网络。人工神经网络通常包括特征表示部件，该特征表示部件具有将特征映射到期望的输出空间的分类器或回归层。例如，卷积神经网络(CNN)承载多个卷积滤波器层。在较低层处，执行池化，并且可以解决非线性问题，在较低层顶上通常附加有多层感知器，从而将由卷积层提取的顶层特征映射到决策(例如，分类输出)。深度学习是使用多个非线性处理单元层的级联用于特征提取和变换的机器学习算法的类别。每个连续层使用来自前一层的输出作为输入。深度神经网络可以以监督式(例如，分类)和/或无监督式(例如，模式分析)方式来学习。深度神经网络包括层级结构，其中不同层学习与不同抽象级别相对应的不同表示级别。在深度学习中，每个层学习以将该层的输入数据变换成稍微更加抽象和复合的表示。值得注意的是，深度学习过程可以自行学习哪些特征最适合放置在哪个级别。“深度学习”中的“深度”是指数据变换所经过的层的数量。更准确地而言，深度学习系统具有显著的信用分配路径(CAP)深度。CAP是从输入到输出的变换链。CAP描述了输入与输出之间潜在的因果联系。对于前馈神经网络，CAP的深度可以是网络的深度，并且可以是隐藏层的数量加一。对于其中信号可以不止一次地通过一层传播的循环神经网络，CAP深度可能是无限的。

在一个实施例中，一个或多个机器学习模型是循环神经网络(recurrent neuralnetwork；RNN)。RNN是包括存储器以使神经网络能够捕获时间依赖性的一种神经网络。RNN能够学习取决于当前输入和过去输入两者的输入-输出映射。可使用训练数据集来训练RNN以生成固定数量的输出。可使用的一种类型的RNN是长短期存储器(LSTM)神经网络。

可以以监督式学习的方式来实现对神经网络的训练，该方式包括：将由标记输入组成的训练数据集馈送通过网络，观察其输出，定义误差(通过测量该输出与标签值之间的差异)，以及使用诸如深度梯度下降和反向传播之类的技术来调谐跨网络的所有层和节点的权重从而使得误差被最小化。在许多应用中，在训练数据集中的许多标记输入上重复该过程，产生一网络，当被提供与训练数据集中出现的输入不同的输入时，该网络可以产生正确的输出。

训练数据集可包含数百、数千、数万、数十万或更多的图像数据(例如，图像)，该图像数据可能被或可能未被标记并用于形成训练数据集。

为了实现训练，处理逻辑可以将(多个)训练数据集输入到一个或多个未经训练的机器学习模型中。在将第一输入输入到机器学习模型中之前，可以初始化机器学习模型。处理逻辑基于(多个)训练数据集来训练(多个)未经训练的机器学习模型，以生成执行如上所述的各种操作的一个或多个经训练的机器学习模型。可通过一次将训练数据中的一个或多个训练数据输入到机器学习模型中来执行训练。

机器学习模型处理输入以生成输出。人工神经网络包括由数据点中的值组成的输入层。下一层被称为隐藏层，并且隐藏层中的节点各自接收输入值中的一个或多个输入值。每个节点包含要应用于输入值的参数(例如，权重)。因此，每个节点本质上将输入值输入到多变量函数(例如，非线性数学变换)中以产生输出值。下一层可以是另一个隐藏层或输出层。在任一情况下，下一层处的节点从前一层处的节点接收输出值，并且每个节点将权重应用于那些值，然后生成该节点自己的输出值。这可在每一层处执行。最终层是输出层，其中对于机器学习模型能够产生的每个类别、预测和/或输出都有一个节点。

因此，输出可包括一个或多个预测或推断。例如，输出预测或推断可包括对腔室部件上的膜积聚、腔室部件的侵蚀、腔室部件的预测失效等等的一个或多个预测。处理逻辑基于机器学习模型的输出(例如，预测或推断)和与输入训练数据相关联的目标标签之间的差异来确定误差(例如，分类误差)。处理逻辑基于误差来调节机器学习模型中的一个或多个节点的权重。可针对人工神经网络中的每个节点确定误差项或差量(delta)。基于该误差，人工神经网络调节对于其节点中的一个或多个节点的其参数中的一个或多个参数(节点的一个或多个输入的权重)。可以以反向传播的方式来更新参数，使得在最高层处的节点被首先更新，然后是在下一层处的节点，以此类推。人工神经网络包含多个“神经元”层，其中每个层从前一层处的神经元接收输入值。每个神经元的参数包括与从前一层处的神经元中的每个神经元接收的值相关联的权重。因此，调节参数可包括调节分配给人工神经网络中的一个或多个层处的一个或多个神经元的输入中的每个输入的权重。

在一轮或多轮的训练之后，处理逻辑可以确定是否已经满足停止标准。停止标准可以是目标准确度水平、来自训练数据集的已处理图像的目标数量、一个或多个先前数据点上的参数的目标变化量、上述各项的组合和/或其他标准。在一个实施例中，当至少已经处理最小数量的数据点并且至少实现阈值准确度时满足停止标准。阈值准确度可以是例如70％、80％或90％准确度。在一个实施例中，如果机器学习模型的准确度停止改进，则满足停止标准。如果未满足停止标准，则执行进一步训练。如果已满足停止标准，则可以完成训练。一旦已经训练机器学习模型，就可将训练数据集的保留部分用于测试模型。

一旦生成一个或多个经训练的机器学习模型190，就可将它们存储在预测服务器112中作为预测部件114或作为预测部件114的部件。

验证引擎184可以能够使用来自训练集生成器172的验证集的对应特征集来验证机器学习模型190。一旦已经优化模型参数，就可以执行模型验证以确定模型是否已经改进并且确定深度学习模型的当前准确度。验证引擎184可以基于验证集的对应特征集来确定机器学习模型190的准确度。验证引擎184可以丢弃具有不满足阈值准确度的准确度的经训练的机器学习模型190。在一些实施例中，选择引擎185可以能够选择具有满足阈值准确度的准确度的经训练的机器学习模型190。在一些实施例中，选择引擎185可以能够选择具有经训练的机器学习模型190中的最高准确度的经训练的机器学习模型190。

测试引擎186可以能够使用来自数据集生成器172的测试集的对应特征集来测试机器学习模型190。例如，可以使用测试集的第一特征集来测试使用训练集的第一特征集来训练的第一经训练的机器学习模型190。测试引擎186可以基于测试集来确定具有所有经训练的机器学习模型中的最高准确度的经训练的机器学习模型190。

如下文中更详细地描述的，预测服务器112可包括预测部件114，预测部件114能够通过在当前图像数据输入上运行经训练的机器学习模型190以获得一个或多个输出来提供分类数据。这将在下文中进一步详细解释。

客户端设备120、装备124、传感器126、预测服务器112、数据存储140、服务器机器170、以及服务器机器180可以经由网络130彼此耦合。在一些实施例中，网络130是为客户端设备120提供对预测服务器112、数据存储140和其他公共可用的计算设备的访问的公共网络。在一些实施例中，网络130是为客户端设备120提供对设备124、数据存储140和其他私有可用的计算设备的访问的私有网络。网络130可包括一个或多个广域网(WAN)、局域网(LAN)、有线网络(例如，以太网)、无线网络(例如，802.11网络或Wi-Fi网络)、蜂窝网络(例如，长期演进(LTE)网络)、路由器、集线器、交换机、服务器计算机、云计算网络、和/或上述各项的组合。

应注意，在一些其他实施方式中，服务器机器170和180以及预测服务器112的功能可由更少数量的机器提供。例如，在一些实施例中，服务器机器170和180可被集成到单个机器中，而在一些其他或类似的实施例中，服务器机器170和180以及预测服务器112可被集成到单个机器中。

通常，在一种实施方式中被描述为由服务器机器170、服务器机器180和/或预测服务器112执行的功能也可以在客户端设备120上执行。另外，归因于特定部件的功能可以由一起操作的不同部件或多个部件来执行。

在实施例中，“用户”可表示为单个个人。然而，本公开的其他实施例涵盖作为由多个用户和/或自动化源控制的实体的“用户”。例如，联合作为一组管理员的一组个人用户可被视为“用户”。

图2是根据本公开的各方面的用于训练机器学习模型的方法200的流程图。方法200由处理逻辑执行，该处理逻辑可包括硬件(电路系统、专用逻辑等)、软件(诸如在专用计算机系统或专用机器上运行的软件)、固件、或上述各项的一些组合。在一种实施方式中，方法200可由诸如图1的计算机系统架构100之类的计算机系统来执行。在其他或类似的实施方式中，方法200的一个或多个操作可由附图中未描绘的一个或多个其他机器来执行。在一些方面中，方法200的一个或多个操作可由服务器机器170、服务器机器180和/或预测服务器112来执行。

为了简化解释，方法被描绘和描述为一系列动作。然而，根据本公开的动作可以以各种顺序发生和/或同时发生，并且与本文中未呈现和描述的其他动作一起发生。此外，并非所有示出的动作可被执行以实现根据所公开的主题的方法。另外，本领域技术人员将理解和领会，方法可替代地经由状态图或事件表示为一系列相关的状态。另外，应当领会，本说明书中所公开的方法能够被存储在制造品上以促进将这些方法传输并转移给计算设备。如本文所使用的术语“制造品”旨在涵盖可从任何计算机可读设备或存储介质访问的计算机程序。

在操作210处，处理逻辑接收训练集T的图像数据以训练机器学习模型。图像数据可包括相机图像、电子显微镜图像、光学检查系统图像、雷达图像、声呐图像等。在一些实施例中，图像数据可进一步包括标签数据。可从数据存储140或装备124获得图像数据。在一种实施方式中，图像数据被提供给服务器机器180的训练引擎182以执行训练。

在一些实施例中，训练集T可包括来自不同数据集的图像数据。图像数据集可以彼此独立地被标记并且在不使用共同分类法的情况下被标记。例如，来自不同数据集的图像中的不同类别可能被标记(例如，树在第一数据集中被标记并且车辆在第二数据集中被标记)，并且不同数据集中的类似类别可能具有不同标签(例如，人可能在第一数据集中被标记为“人类”而在第二数据集中被标记为“其他”)。

在操作212处，处理逻辑处理图像以生成一个或多个输出。作为示例，机器学习模型可以是神经网络，并且与图像数据相关联的给定输入/输出映射的输入值被输入到神经网络，并且输入/输出映射的输出值被存储在神经网络的输出节点中。每个神经网络输出可位于多维空间内并且具有多个坐标。该多个坐标可由嵌入向量来表示

在操作214处，处理逻辑使用损失函数对(多个)神经网络输出进行评估。损失函数可以是计算算法的当前输出与期望输出之间的距离的函数。处理逻辑可以使用损失函数生成一个或多个值。在一些实施例中，损失函数可包括归一化分类损失函数、独热(one-hot)调节损失函数、聚类平均垂直诱导损失函数、或任何其他合适的损失函数。在一些实施例中，可应用损失函数中的一个或多个损失函数以评估神经网络输出。

在操作216处，处理逻辑可以基于由损失函数生成的一个或多个值来执行优化操作。优化操作的目的可以是最小化损失函数(值)。在一些实施例中，优化操作可以基于由损失函数生成的一个或多个值来调节神经网络中的连接权重。

在操作218处，处理逻辑确定是否满足重复标准。例如，处理逻辑可以确定由损失函数生成的值是否低于阈值，是否已经完成方法200的预定的重复量等。响应于未满足重复标准(例如，由损失函数生成的值高于阈值，未完成预定的重复量等)，处理逻辑前进到操作210。响应于满足重复标准，处理逻辑结束方法200。在一些实施例中，针对训练集T中的剩余项目(例如，输入/输出映射)中的一个或多个剩余项目重复方法200。

操作210-216的多次重复可使经训练的神经网络接收属于不同片段类别的图像像素，并且输出神经网络结果，该神经网络结果被映射到与多维域的不同轴相关联的间隔开的聚类。例如，假设存在三个不同片段类别并且存在三个轴(例如，x轴、y轴和z轴)，则第一片段类别的像素将被映射到与x轴相关联的第一聚类(C1)，第二片段类别的像素将被映射到与y轴相关联的第二聚类(C2)，并且第三片段类别的像素将被映射到与z轴相关联的第三聚类(C3)。

当聚类的神经网络输出靠近轴和/或在轴上时，该聚类与该轴相关联。靠近可包括例如，与其他轴相比，属于聚类的神经网络输出之间的距离更接近于与该聚类相关联的轴。操作210-216的多次重复可以创建聚类，然后通过在不减小不同聚类之间的距离的情况下执行扩展操作和收缩操作来修改聚类。收缩操作可以增加聚类之间的距离。聚类可以包括可属于不同聚类的神经网络输出，并且扩展操作可将聚类的一部分引导到另一个聚类。例如，第一聚类可包括被标记到两个片段类别——“车辆”和“其他”——的两个图像。扩展与“其他”像素相关的神经网络输出的聚类可能是有益的，因为该聚类可被进一步拆分成多个聚类。

可以针对多个数据集的每个图像评估操作210-216。数据集中的至少两个数据集(多个数据集中的一些数据集或多个数据集中的全部数据集)的图像可由处理逻辑彼此独立地且在不使用共同分类法的情况下标记。在一些实施例中，数据集的数量和每个数据集的图像的数量可能是小的。例如，方法可以以3个、5个或10个数据集进行训练，每个数据集各自具有5个、10个、20个、30个、40个或50个图像。

由下面的公式1表示归一化分类损失的计算的示例，其中处理逻辑可以对每个聚类计算该聚类的均值(E_j)和标准差(S_j)：

E_j＝均值(p_i[s＝S_j])

损失(j,k)＝max(边界-(||E_j-E_k||-标准差因子·(DS_j+DS_k)),0)

公式1

归一化分类损失可以等于：归一化分类损失＝均值(损失(j,k))+标准差(损失(j,k))。

在该示例中，每个聚类由该聚类的均值和标准差表示，并且归一化分类损失函数尝试增加聚类的均值之间的距离，同时考虑到聚类的标准差。独热调节损耗可以将神经网络的输出正则化为最终分类，同时最小化熵，并且尝试将神经网络输出的坐标强制变成由类似于例如[0 0 0 1 0]的一组坐标表示的独热表示。这可以使诸如K-均值或K-最近邻居之类的后处理变得多余。独热调节损失函数尝试使聚类围绕每个轴上的值“1”居中。在此情况下，每个神经网络输出的坐标应当大约有一个坐标等于值“1”，并且所有其他坐标应当等于值零(或显著小于“1”的值)。由下面的公式2表示独热调节损失的计算的示例，其中处理逻辑可以计算熵(假设x_i是神经网络输出的坐标)：

处理逻辑可以计算熵的标准差(标准差(熵))和熵的均值(均值(熵))。独热调节损失等于：标准差(熵)+(均值(熵))。当计算了归一化分类损失和独热调节损失两者时，随后处理逻辑可以计算两个损失的加权和以提供整体损失函数，以评估神经网络。整体损失＝α₁*(归一化的分类损失)+α₂*(独热调节损失)。可以以任何方式确定α₁和α₂的值，诸如例如，α₁和α₂的可以是预定义的、可以在操作210-216的迭代期间确定等。应注意，可以修改整体损失以使聚类围绕不同于另一值的值(但应当超过仍然使聚类保持彼此间隔开的值的一小部分)居中。在此情况下，对于所有轴，该值可以是相同的。归一化分类损失集中在虚拟地连接两个聚类的边缘上的标签对之间的距离上，从而滤除了由聚类中的多模态和与其他类别之间的距离所引起的训练噪声。

由下面的公式3表示归一化分类损失的计算的示例，其中对于两个不同聚类的均值(E_j和E_k)，归一化分类损失为：

归一化分类损失可以加速均值不同的聚类向彼此垂直的不同轴的收敛。神经网络的训练和其中每个聚类靠近唯一的轴的彼此间隔开的聚类的形成，极大地简化了关于包括所测试的像素的片段类别的判决。该过程涉及搜索最接近的轴和搜索可能是神经网络输出的唯一非零坐标的主导坐标。在一些实施例中，该搜索可包括应用argmax函数，argmax函数是找到从目标函数中给出最大值的参数的操作。

图3描绘了根据本公开的各方面的训练引擎300的示图。在一些实施例中，训练引擎300与图1的训练引擎182类似或相同。在一些实施例中，训练引擎300包括模型工件310(例如，神经网络模型)、损失函数计算器320、以及修改器330。模型工件310可以接收输入312，并根据例如方法200的操作212来生成输出314。损失函数计算器可以根据例如方法200的操作214来计算至少一个损失函数。修改器330可以根据例如方法200的操作216来修改模型工件310的一个或多个权重。

在一些实施例中，方法200可以虚拟地合并不同数据集并且执行未由用户定义的附加分类。例如，假设第一用户定义了不同片段类别的子集，方法200可以将由用户提供的数据集的图像的像素分类到比由用户定义的类别的子集更多的分类。只要一个或多个额外的类别不与所定义的类别的子集冲突，就可以应用该额外的分类。

作为说明性示例，图4示出了三个数据集410、420和430的示例，每个数据集包括两个图像。数据集410包括图像412和414。数据集420包括图像422和424。数据集430包括图像432和434。

图5示出了数据集410、420、430和它们相应的初始分类。具体而言，数据集410包括图像412和414，图像412和414的像素被标记为“车辆”(类别41)和“其他”(类别42)。数据集420包括图像422和424，图像422和424的像素被标记为“道路”(类别43)和“其他”(类别44)。数据集430包括图像432和434，图像432和434的像素被标记为“树”(类别45)和“其他”(类别46)。可使用全部三个子集来训练神经网络，并且可以为每个用户提供对未由该用户定义的至少一个额外的片段类别的分类。

图6示出在神经网络的训练之后，将六个图像分割到比由这些子集的用户定义的原始片段更多的片段。例如，数据集410的像素可被分类(并且形成片段)到车辆类别(类别41)、到树类别(类别45)、到道路类别(类别43)、以及到包括不属于车辆、树或道路的像素的经修改的“其他”像素类别(类别42)。

图7是根据本公开的各方面的示出两个聚类的示例的图700。图700示出了第一聚类61、第二聚类62、第一均值71(第一聚类的均值)、第二均值72(第二聚类的均值)、第一标准差81(第一聚类的标准差)、第二标准差82(第二聚类的标准差)、以及沿与两个聚类相关的第一方向的距离90。第一聚类61和第二聚类62可以沿与第一方向不同(例如，垂直于第一方向)的方向扩展。可通过搜索最主导(最接近)的轴进行计算来确定哪个聚类包括某个神经网络输出的。

图8是根据本公开的各方面的用于使用经训练的机器学习模型对图像进行分割的方法800的流程图。方法800由处理逻辑执行，该处理逻辑可包括硬件(电路系统、专用逻辑等)、软件(诸如在专用计算机系统或专用机器上运行的软件)、固件、或上述各项的一些组合。在一种实施方式中，方法800可由诸如图1的计算机系统架构100之类的计算机系统来执行。在其他或类似的实施方式中，方法800的一个或多个操作可由附图中未描绘的一个或多个其他机器来执行。在一些方面中，方法200的一个或多个操作可由服务器机器170、服务器机器180和/或预测服务器112来执行。

在操作810处，处理逻辑接收图像。图像可包括相机图像、电子显微镜图像、光学检查系统图像、雷达图像、声呐图像等。

在操作812处，处理逻辑应用机器学习模型(例如，模型190)以获得图像。机器学习模型可以是通过训练过程训练的神经网络，该训练过程包括使用损失函数对在训练过程期间生成的神经网络输出进行评估，如上述方法200或下面的方法900中所讨论的。

在操作814处，处理逻辑基于图像来获得机器学习模型的输出。在一些实施例中，为了生成输出，机器学习模型对图像进行分割。例如，对于图像的每个像素，机器学习模型可以在多维域内生成结果。(通过用不同片段类别的像素馈送机器学习模型来生成的)该结果可被映射到与多维域的不同轴相关联的间隔开的聚类。随后，针对图像的多个像素中的每个像素，机器学习模型可以通过找到最接近中间结果的轴来确定包括该像素的片段类别。在一些实施例中，机器学习模型是神经网络，诸如端到端(end-to-end)神经网络或U网(U-net)神经网络。

图9是根据本公开的各方面的用于训练机器学习模型的方法900的流程图。方法900由处理逻辑执行，该处理逻辑可包括硬件(电路系统、专用逻辑等)、软件(诸如在专用计算机系统或专用机器上运行的软件)、固件、或上述各项的一些组合。在一种实施方式中，方法900可由诸如图1的计算机系统架构100之类的计算机系统来执行。在其他或类似的实施方式中，方法900的一个或多个操作可由附图中未描绘的一个或多个其他机器来执行。在一些方面中，方法200的一个或多个操作可由服务器机器170、服务器机器180和/或预测服务器112来执行。

为了简化解释，方法被描绘和描述为一系列动作。然而，根据本公开的动作可以以各种顺序发生和/或同时发生，并且与本文中未呈现和描述的其他动作一起发生。此外，并非所有示出的动作可被执行以实现根据所公开的主题的方法。另外，本领域技术人员将理解和领会，方法可替代地经由状态图或事件表示为一系列相关的状态。另外，应当领会，本说明书中所公开的方法能够被存储在制品上以促进将这些方法传输并转移给计算设备。如本文所使用的术语“制造品”旨在涵盖可从任何计算机可读设备或存储介质访问的计算机程序。

在操作901处，训练过程可包括从多个数据集接收图像组。图像数据集可以彼此独立地被标记并且在不使用共同分类法的情况下被标记。

在操作912处，处理逻辑可针对属于不同片段类别的像素生成神经网络输出的不同聚类，并且修改所述不同聚类。每个片段可由聚类的均值和聚类的标准差来表示。在一些实施例中，处理逻辑可以通过执行归一化分类损失函数来执行操作912。在一些实施例中，该修改可包括在不减少不同聚类之间的距离的情况下执行扩展操作和/或收缩操作。

在操作914处，处理逻辑可以对在训练过程期间生成的神经网络输出进行评估。例如，处理逻辑可以使用归一化分类损失函数、独热调节损失、聚类平均垂直诱导损失函数、和/或任何其他合适的损失函数中的至少一者来执行评估。通过有限数量的参数(例如通过两个参数(例如，聚类的均值和标准差))来表示聚类，并且在训练过程中应用与这些有限数量的参数相关的损失函数极大地简化了损失函数的计算并极大地简化了对神经网络的评估。

图10是根据某些实施例的示出计算机系统1000的框图。在一些实施例中，计算机系统1000可以连接(例如，经由网络，诸如局域网(LAN)、内联网、外联网、或因特网)到其他计算机系统。计算机系统1000可以在客户端-服务器环境中以服务器或客户端计算机的能力操作，或在对等或分布式网络环境中作为对等计算机操作。计算机系统1000可由个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、web电器、服务器、网络路由器、交换机或网桥、或能够执行指定要由该机器采取的指定动作的(顺序或以其他方式)一组指令的任何设备来提供。进一步地，术语“计算机”应当包括单独或联合执行一组(或多组)指令以执行本文描述的方法中的任何一个或多个方法的计算机的任何集合。

在另一方面中，计算机系统1000可包括：处理设备1002、易失性存储器1004(例如，随机存取存储器(RAM))、非易失性存储器1006(例如，只读存储器(ROM)或电可擦除可编程ROM(EEPROM))、以及数据存储设备1016，上述部件可以经由总线1008与彼此通信。

处理设备1002可由诸如通用处理器(诸如例如，复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、实现其他类型的指令集的微处理器、或实现指令集类型的组合的微处理器)或专用处理器(诸如例如，专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、或网络处理器)之类的一个或多个处理器来提供。

计算机系统1000可进一步包括网络接口设备1022(例如，耦合到网络1074)。计算机系统1000还可包括视频显示单元1010(例如，LCD)、字母数字输入设备1012(例如，键盘)、光标控制设备1014(例如，鼠标)、以及信号生成设备1020。

在一些实施方式中，数据存储设备1016可包括非瞬态计算机可读存储介质1024，在非瞬态计算机可读存储介质1024上可存储编码本文描述的的方法或功能中的任何一者或多者的指令1026，包括编码图1的部件(例如，用户界面122、预测部件114等)和用于实现本文描述的的方法的指令。

指令1026还可以在由计算机系统1000对其处理期间全部或部分地驻留在易失性存储器1004内和/或处理设备1002内，因此，易失性存储器1004和处理设备1002还可以构成机器可读存储介质。

虽然机器可读存储介质1024在说明性示例中被示出为单个介质，但是术语“机器可读存储介质”应当包括存储一组或多组可执行指令的单个介质或多个介质(例如，集中式或分布式数据库、和/或相关联的高速缓存和服务器)。术语“计算机可读存储介质”还应包括能够存储或编码用于由计算机执行的一组指令的任何有形介质，该组指令使计算机执行本文描述的方法中的任何一个或多个方法。术语“计算机可读存储介质”应当包括但不限于固态存储器、光学介质和磁介质。

本文描述的方法、部件和特征可由离散硬件部件实现，或者可被集成在诸如ASIC、FPGA、DSP或类似设备之类的其他硬件部件的功能中。另外，所述方法、部件和特征可由硬件设备内的固件模块或功能电路系统实现。此外，所述方法、部件和特征可以以硬件设备和计算机程序组件的任何组合或以计算机程序来实现。

除非另有特别说明，否则诸如“接收”、“执行”、“提供”、“获得”、“引起”、“访问”、“确定”、“添加”、“使用”、“训练”等术语是指由计算机系统执行或实现的动作和过程，所述动作和过程将在计算机系统寄存器和存储器内表示为物理(电子)量的数据操纵和变换为类似地表示为计算机系统存储器或寄存器或其他此类信息存储、传输或显示设备中的物理量。此外，如本文所使用的术语“第一”、“第二”、“第三”、“第四”等意在作为标签以在不同元素之间进行区分并且可能不具有根据它们数字标号的通常含义。

本文描述的示例还涉及用于执行本文描述的方法的装置。该装置可以被特定地构造用于执行本文描述的方法，或者该装置可以包括由存储在通用计算机系统中的计算机程序选择性地编程的通用计算机系统。此类计算机程序可被存储在计算机可读有形存储介质中。

本文描述的方法是说明性示例并非固有地与任何特定计算机或其他装置相关。根据本文描述的教示，可以使用各种通用系统，或者可以证明构造更专用的装置来执行本文描述的方法和/或所述方法各自个体的功能、例程、子例程或操作中的每一者是方便的。在以上描述中阐述了各种这些系统的结构的示例。

以上描述旨在是说明性而非限制性的。尽管已经参考特定说明性示例和实现方式描述了本公开，但将认识到，本公开不限于所描述的示例和实现方式。本公开的范围应当参考以下权利要求书、连同权利要求书有权获得的等效物的全部范围来确定。

Claims

1.一种方法，包括：

由处理设备接收图像；

将机器学习模型应用于所述图像，其中通过训练过程来训练所述机器学习模型，所述训练过程包括使用损失函数对在所述训练过程期间生成的训练输出进行评估；

针对所述图像的多个像素中的每个像素，获得多维域内的所述机器学习模型的输出，其中通过向所述机器学习模型提供所述图像的被映射到与所述多维域的不同轴相关联的间隔开的聚类的不同片段类别的像素来获得所述输出；以及

使用所述机器学习模型并且针对所述图像的多个像素中的每个像素，通过找到最接近所述输出的轴来确定包括所述像素的片段类别。

2.如权利要求1所述的方法，其中所述机器学习模型包括神经网络。

3.如权利要求1所述的方法，其中所述损失函数包括归一化分类损失函数、独热调节损失函数或聚类平均垂直诱导损失函数中的至少一者。

4.如权利要求1所述的方法，其中所述训练过程包括向所述机器学习模型馈送来自多个数据集的图像，其中所述多个数据集中的至少两个数据集的图像彼此独立地且在不使用共同分类法的情况下被标记。

5.如权利要求1所述的方法，其中所述训练过程进一步包括：针对属于不同片段类别的像素形成机器学习模型结果的不同聚类，并且修改所述不同聚类，其中所述修改包括在不减少所述不同聚类之间的距离的情况下执行扩展操作和收缩操作。

6.如权利要求5所述的方法，其中所述形成和所述修改中的至少一者是至少部分地基于应用归一化分类损失函数。

7.如权利要求1所述的方法，其中所述训练过程包括：针对属于不同片段类别的像素形成机器学习模型结果的不同聚类，通过所述聚类的均值和所述聚类的标准差来表示每个聚类，以及修改所述不同聚类，其中所述修改包括在不减少所述不同聚类的所述均值之间的距离的情况下执行扩展操作和收缩操作。

8.如权利要求1所述的方法，其中所述训练过程包括：使用归一化分类损失函数、独热调节损失函数或聚类平均垂直诱导损失函数中的至少一者对在所述训练过程期间生成的机器学习模型输出进行评估。

9.一种方法，包括：

提供图像作为机器学习模型的输入，其中通过训练过程来训练所述机器学习模型，所述训练过程包括将多个数据集输入到所述机器学习模型中，其中所述多个数据集中的至少两个数据集的图像彼此独立地且在不使用共同分类法的情况下被标记；

针对所述图像的多个像素中的每个像素，获得多维域内的所述机器学习模型的输出，其中通过向所述机器学习模型提供被映射到与所述多维域的不同轴相关联的间隔开的聚类的不同片段类别的像素来获得所述输出；以及

10.如权利要求9所述的方法，其中所述机器学习模型包括神经网络。

11.如权利要求9所述的方法，其中所述训练过程包括使用损失函数对在所述训练过程期间生成的训练输出进行评估。

12.如权利要求11所述的方法，其中所述损失函数包括归一化分类损失函数、独热调节损失函数或聚类平均垂直诱导损失函数中的至少一者。

13.如权利要求9所述的方法，其中所述训练过程进一步包括：针对属于不同片段类别的像素形成机器学习模型结果的不同聚类，并且修改所述不同聚类，其中所述修改包括在不减少所述不同聚类之间的距离的情况下执行扩展操作和收缩操作。

14.如权利要求13所述的方法，其中所述形成或所述修改中的至少一者是至少部分地基于应用归一化分类损失函数。

15.如权利要求9所述的方法，其中所述训练过程包括：针对属于不同片段类别的像素形成机器学习模型结果的不同聚类，通过所述聚类的均值和所述聚类的标准差来表示每个聚类，以及修改所述不同聚类，其中所述修改包括在不减少所述不同聚类的所述均值之间的距离的情况下执行扩展操作和收缩操作。

16.如权利要求9所述的方法，其中所述训练过程包括：使用归一化分类损失函数、独热调节损失函数或聚类平均垂直诱导损失函数中的至少一者对在所述训练过程期间生成的机器学习模型输出进行评估。

17.一种系统，包括：

存储器；以及

处理设备，所述处理设备与所述存储器操作地耦合，以执行包括以下各项的操作：

提供图像作为机器学习模型的输入，其中通过训练过程来训练所述机器学习模型，所述训练过程包括使用损失函数对在所述训练过程期间生成的训练输出进行评估；

18.如权利要求17所述的系统，其中所述损失函数包括归一化分类损失函数、独热调节损失函数或聚类平均垂直诱导损失函数中的至少一者。

19.如权利要求17所述的系统，其中所述训练过程包括向所述机器学习模型馈送来自多个数据集的图像，其中所述多个数据集中的至少两个数据集的图像彼此独立地且在不使用共同分类法的情况下被标记。

20.如权利要求17所述的系统，其中所述训练过程进一步包括：针对属于不同片段类别的像素形成机器学习模型结果的不同聚类，并且修改所述不同聚类，其中所述修改包括在不减少所述不同聚类之间的距离的情况下执行扩展操作和收缩操作。