CN108875732A

CN108875732A - 模型训练与实例分割方法、装置和系统及存储介质

Info

Publication number: CN108875732A
Application number: CN201810025313.0A
Authority: CN
Inventors: 程大治; 张祥雨
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2018-11-23
Anticipated expiration: 2038-01-11
Also published as: CN108875732B

Abstract

本发明实施例提供一种模型训练方法、装置和系统以及存储介质。网络训练方法包括：获取训练图像和训练图像遮罩；将训练图像输入实例分割模型中的前端模型结构，以获得目标区域对齐特征图，其中，目标区域对齐特征图为与用于指示训练图像中的目标对象所在位置的第一目标区域相对应的、经对齐操作的特征图；将目标区域对齐特征图输入实例分割模型中的遮罩生成器，以获得与目标区域对齐特征图对应的生成分割遮罩；基于训练图像遮罩确定与目标区域对齐特征图对应的真实分割遮罩；以及利用目标区域对齐特征图、生成分割遮罩和真实分割遮罩对遮罩生成器和判别器进行对抗训练。上述方法可以有效解决遮罩生成器受图像多峰性质影响的问题。

Description

模型训练与实例分割方法、装置和系统及存储介质

技术领域

本发明涉及图像识别领域，更具体地涉及一种模型训练方法、装置和系统以及一种实例分割方法、装置和系统以及存储介质。

背景技术

实例分割一直是计算机视觉领域十分重要且备受关注的问题与技术方法，其目标是给定一张图像，通过算法给出图像中所有目标对象的分割遮罩(Segmentation Mask)和类别信息。

当下实例分割的主流框架是遮罩区域卷积神经网络(Mask-RCNN)框架。在Mask-RCNN中，先通过区域提议网络(RPN)对每一张图像给出若干目标区域(简称RoI，也可以称为感兴趣区域)，再对RoI进行RoI对齐得到RoI对齐特征图，最后可以将RoI对齐特征图输入遮罩生成器得到分割遮罩。当下遮罩生成器的训练方法无法很好处理图像的多峰问题，即当某个RoI中含有多个物体时，模型输出的分割遮罩无法与其中任何一个物体较好匹配。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种模型训练方法、装置和系统以及一种实例分割方法、装置和系统以及存储介质。

根据本发明一方面，提供了一种模型训练方法。该方法包括：获取训练图像和训练图像遮罩；将训练图像输入实例分割模型中的前端模型结构，以获得目标区域对齐特征图，其中，目标区域对齐特征图为与用于指示训练图像中的目标对象所在位置的第一目标区域相对应的、经对齐操作的特征图；将目标区域对齐特征图输入实例分割模型中的遮罩生成器，以获得与目标区域对齐特征图对应的生成分割遮罩；基于训练图像遮罩确定与目标区域对齐特征图对应的真实分割遮罩；以及利用目标区域对齐特征图、生成分割遮罩和真实分割遮罩对遮罩生成器和判别器进行对抗训练。

示例性地，利用目标区域对齐特征图、生成分割遮罩和真实分割遮罩对遮罩生成器和判别器进行对抗训练包括：将目标区域对齐特征图和生成分割遮罩作为生成数据对，将目标区域对齐特征图和真实分割遮罩作为真实数据对，将生成数据对和真实数据对输入判别器，以获得判别结果；基于判别结果计算生成器损失和判别器损失；以及根据生成器损失和判别器损失优化遮罩生成器和判别器，以获得经训练的遮罩生成器。

示例性地，前端模型结构包括区域提议网络，用于输出用于指示训练图像中的目标对象所在位置的第二目标区域的目标区域信息，第一目标区域基于第二目标区域过滤获得，实例分割模型还包括包围框回归器和分类器，方法还包括：将目标区域对齐特征图输入包围框回归器，以获得与目标区域对齐特征图相对应的、用于指示训练图像中的目标对象所在位置的包围框的包围框信息；将目标区域对齐特征图输入分类器，以获得目标区域对齐特征图所对应的包围框中所包含对象的对象分类信息；获取训练图像中的目标对象的标注位置信息和标注分类信息；基于标注位置信息和目标区域信息计算区域提议网络的区域提议网络回归损失；基于标注位置信息和包围框信息计算包围框回归器的包围框回归器损失；基于标注分类信息和对象分类信息计算分类器的分类器损失；根据生成器损失和判别器损失优化遮罩生成器和判别器，以获得经训练的遮罩生成器包括：交替优化实例分割模型和判别器以最小化模型损失和判别器损失直至收敛，以获得经训练的实例分割模型，其中，经训练的实例分割模型包括经训练的遮罩生成器，模型损失包括生成器损失、区域提议网络回归损失、包围框回归器损失和分类器损失。

示例性地，将目标区域对齐特征图输入实例分割模型中的遮罩生成器，以获得与目标区域对齐特征图对应的生成分割遮罩包括：将目标区域对齐特征图和第一预定噪声输入遮罩生成器，以获得生成分割遮罩。

示例性地，在将目标区域对齐特征图和第一预定噪声输入遮罩生成器，以获得生成分割遮罩之前，方法还包括：从预定义均匀分布中随机抽样，以获得第一预定噪声。

示例性地，基于训练图像遮罩确定与目标区域对齐特征图对应的真实分割遮罩包括：基于目标区域对齐特征图所对应的第一目标区域的位置对训练图像遮罩进行裁剪和/或缩放，以获得真实分割遮罩。

示例性地，实例分割模型为遮罩区域卷积神经网络，前端模型结构依次包括卷积神经网络、区域提议网络和目标区域对齐模型，目标区域对齐特征图由目标区域对齐模型输出。

示例性地，实例分割模型为遮罩区域卷积神经网络，前端模型结构依次包括卷积神经网络、区域提议网络和目标区域对齐模型，目标区域对齐特征图由目标区域对齐模型输出，遮罩区域卷积神经网络还包括在目标区域对齐模型之后连接的包围框回归器，方法还包括：获取至少一个测试图像和与至少一个测试图像分别对应的测试图像遮罩；对于至少一个测试图像中的每个测试图像，将该测试图像输入遮罩区域卷积神经网络，以获得卷积神经网络输出的初始特征图以及包围框回归器输出的、用于指示该测试图像中的目标对象所在位置的包围框的包围框信息；对包围框信息所表示的包围框进行过滤；基于过滤后的包围框确定第三目标区域；将第三目标区域和初始特征图输入目标区域对齐模型，以获得测试区域对齐特征图；将所述测试区域对齐特征图输入所述遮罩生成器，以获得测试分割遮罩；基于图像分割遮罩以及与该测试图像相对应的测试图像遮罩计算平均图像分割精度；基于至少一个测试图像的平均图像分割精度计算遮罩区域卷积神经网络的平均分割精度。

示例性地，对于至少一个测试图像中的每个测试图像，将测试区域对齐特征图输入遮罩生成器，以获得测试分割遮罩包括：对于至少一个测试图像中的每个测试图像，将测试区域对齐特征图和第二预定噪声输入遮罩生成器，以获得测试分割遮罩，其中，第一预定噪声和第二预定噪声来自相同的预定义均匀分布。

示例性地，对于至少一个测试图像中的每个测试图像，对包围框信息所表示的包围框进行过滤包括：对于至少一个测试图像中的每个测试图像，通过非极大值抑制方法对包围框信息所表示的包围框进行过滤。

根据本发明另一方面，提供了一种实例分割方法，包括：获取待处理图像；利用实例分割模型处理待处理图像，以获得与待处理图像中的目标对象相对应的实例分割遮罩；其中，实例分割模型中的遮罩生成器利用上述模型训练方法训练获得。

根据本发明另一方面，提供了一种模型训练装置，包括：训练数据获取模块，用于获取训练图像和训练图像遮罩；第一输入模块，用于将训练图像输入实例分割模型中的前端模型结构，以获得目标区域对齐特征图，其中，目标区域对齐特征图为与用于指示训练图像中的目标对象所在位置的第一目标区域相对应的、经对齐操作的特征图；第二输入模块，用于将目标区域对齐特征图输入实例分割模型中的遮罩生成器，以获得与目标区域对齐特征图对应的生成分割遮罩；遮罩确定模块，用于基于训练图像遮罩确定与目标区域对齐特征图对应的真实分割遮罩；以及训练模块，用于利用目标区域对齐特征图、生成分割遮罩和真实分割遮罩对遮罩生成器和判别器进行对抗训练。

根据本发明另一方面，提供了一种实例分割装置，包括：图像获取模块，用于获取待处理图像；处理模块，用于利用实例分割模型处理待处理图像，以获得与待处理图像中的目标对象相对应的实例分割遮罩；其中，实例分割模型中的遮罩生成器利用上述模型训练方法训练获得。

根据本发明另一方面，提供了一种模型训练系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述模型训练方法。

根据本发明另一方面，提供了一种实例分割系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行以下步骤：获取待处理图像；利用实例分割模型处理所述待处理图像，以获得与所述待处理图像中的目标对象相对应的实例分割遮罩；其中，所述实例分割模型中的遮罩生成器利用上述模型训练方法训练获得。

根据本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述模型训练方法。

根据本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行以下步骤：获取待处理图像；利用实例分割模型处理所述待处理图像，以获得与所述待处理图像中的目标对象相对应的实例分割遮罩；其中，所述实例分割模型中的遮罩生成器利用上述模型训练方法训练获得。

根据本发明实施例的模型训练方法、装置和系统以及实例分割方法、装置和系统以及存储介质，将实例分割模型中的遮罩生成器与判别器组成生成式对抗网络，对遮罩生成器和判别器进行对抗训练，训练获得的遮罩生成器鲁棒性强，可以有效解决遮罩生成器受图像多峰性质影响的问题。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的模型训练方法和装置或者实例分割方法和装置的示例电子设备的示意性框图；

图2示出根据本发明一个实施例的模型训练方法的示意性流程图；

图3示出根据本发明一个实施例的实例分割模型的结构示意图；

图4示出根据现有技术的遮罩生成器训练以及根据本发明实施例的遮罩生成器训练的对比示意图；

图5示出根据本发明一个实施例的实例分割方法的示意性流程图；

图6示出根据本发明一个实施例的模型训练装置的示意性框图；

图7示出根据本发明一个实施例的实例分割装置的示意性框图；

图8示出根据本发明一个实施例的模型训练系统的示意性框图；以及

图9示出根据本发明一个实施例的实例分割系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

如上文所述，当下遮罩生成器的训练方法无法很好处理图像的多峰问题，当某个RoI中含有多个物体时，模型输出的分割遮罩无法与其中任何一个物体较好匹配。研究认为，产生这种问题的原因在于，当给定一张具有多峰性质的RoI对齐特征图时，分割遮罩的真实分布存在多个尖峰，其中每个尖峰对应RoI中的一个物体。理想情况下，遮罩生成器可以生成RoI中任意一个物体的分割遮罩。然而，由于遮罩生成器在训练过程中使用的损失函数为二值交叉熵(Binary Cross Entropy)，该损失函数易受多峰问题影响，导致网络收敛后的最优值在真实分布的多个峰之间，无法与其中任何一个峰较好匹配，表现为生成的分割遮罩无法与任何一个物体匹配。遮罩生成器受图像多峰性质影响是图像实例分割技术当下的主要问题之一。

为了解决上述问题，本发明实施例提供一种模型训练方法、装置和系统以及一种实例分割方法、装置和系统以及存储介质。根据本发明实施例，将实例分割模型中的遮罩生成器与判别器组成生成式对抗网络(Generative Adversarial Networks,GAN)，对遮罩生成器和判别器进行对抗训练，这种训练方式可以有效解决遮罩生成器受图像多峰性质影响的问题。根据本发明实施例的模型训练方法和实例分割方法可以应用于任何需要进行实例分割的领域。

首先，参照图1来描述用于实现根据本发明实施例的模型训练方法和装置或者实例分割方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108、以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)、图像处理器(GPU)、专用的集成电路(ASIC)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以采集图像(包括视频帧)，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以独立相机或终端上的摄像头。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他具有图像采集能力的器件采集图像(包括训练图像、测试图像和待处理图像中的一种或多种)，并将采集的图像发送给电子设备100。

示例性地，用于实现根据本发明实施例的模型训练方法和装置或者实例分割方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的模型训练方法。图2示出根据本发明一个实施例的模型训练方法200的示意性流程图。如图2所示，模型训练方法200包括以下步骤。

在步骤S210，获取训练图像和训练图像遮罩。

训练图像可以是任何合适的包含目标对象的图像。本文所述的目标对象可以是任何物体，包括但不限于：人或人体的一部分(诸如人脸)、动物、车辆、桌椅、建筑物等。此外，需注意，本文所述的目标对象并不是特指的某一个或一些具体的对象，而是指预定类别的对象。例如，假设对于实例分割模型来说，其能够对人、汽车和树木这三种对象进行定位、分类和实例分割，则目标对象包括人、汽车和树木这三种对象。

训练图像可以是静态图像，也可以是视频中的视频帧。训练图像可以是图像采集装置采集到的原始图像，也可以是对原始图像进行预处理(诸如数字化、归一化、平滑等)之后获得的图像。

在步骤S220，将训练图像输入实例分割模型中的前端模型结构，以获得目标区域对齐特征图，其中，目标区域对齐特征图为与用于指示训练图像中的目标对象所在位置的第一目标区域相对应的、经对齐操作的特征图。

示例性地，实例分割模型为Mask-RCNN，前端模型结构依次包括卷积神经网络(CNN)、区域提议网络和目标区域对齐模型(RoI对齐模型)，目标区域对齐特征图(RoI对齐特征图)由RoI对齐模型输出。

在后续的描述中，将以实例分割模型为Mask-RCNN作为示例进行描述，然而，这并非对本发明的限制。实例分割模型可以是其他现有或将来可能出现的能够进行实例分割的模型。

图3示出根据本发明一个实施例的实例分割模型的结构示意图。图3所示的实例分割模型为Mask-RCNN。如图3所示，输入图像首先输入Mask-RCNN中的卷积神经网络(图3示出为“卷积网络”)，卷积神经网络输出整个输入图像的特征图。随后，将卷积神经网络输出的特征图输入区域提议网络，获得区域提议，即若干目标区域的目标区域信息。区域提议网络输出的目标区域的数目一般较大，例如为150000个。每个目标区域的目标区域信息可以包括该目标区域的顶点坐标和该目标区域中所包含对象的对象分类信息。随后，可以对区域提议网络输出的目标区域进行过滤，例如，采用非极大值抑制(NMS)方法进行过滤，将冗余的、重叠的目标区域滤掉。RoI对齐模型接收到的是过滤后的目标区域(或说过滤后的目标区域的目标区域信息)。过滤后的目标区域的数目大大减少，例如可以减少到2000个。随后，在RoI对齐模型中，可以将过滤后的目标区域映射到卷积神经网络输出的、整个图像的特征图上，获得与过滤后的目标区域一一对应的目标区域特征图(RoI特征图)，并可以对RoI特征图分别执行对齐操作，获得RoI对齐特征图。例如，如果过滤后的目标区域的数目为2000个，则RoI对齐特征图也是2000个。示例性地，RoI对齐模型所执行的对齐操作可以包括对RoI特征图进行缩放等操作。RoI对齐模型可以采用一些网络层(例如卷积层等)来实现，也可以采用其他的算法模型实现。RoI对齐模型输出的RoI对齐特征图的大小一致。

从上文可知，区域提议网络输出的目标区域和RoI对齐模型接收的目标区域不一定一致，为了区分，在本文的描述，将区域提议网络输出的目标区域称为第二目标区域，将RoI对齐模型接收的目标区域称为第一目标区域。可以理解，本文所述的第一、第二、第三等术语并非指特定的顺序。此外，第一目标区域和第二目标区域的数目均可以是任意数目，而不限于1个。

Mask-RCNN还包括包围框回归器、分类器和遮罩生成器，分别用于获得各目标对象的包围框、包围框中所包含对象的对象分类信息和各目标对象的实例分割遮罩。包围框回归器、分类器和遮罩生成器均可以以RoI对齐特征图作为输入，基于RoI对齐特征图获得各自的输出结果。

在步骤S230，将目标区域对齐特征图输入实例分割模型中的遮罩生成器，以获得与目标区域对齐特征图对应的生成分割遮罩。生成分割遮罩可以与RoI对齐特征图一一对应。此外，每个生成分割遮罩的大小可以与RoI对齐特征图一致。在生成分割遮罩上，目标对象所在位置的像素可以具有第一像素值，例如1，其余位置的像素可以具有第二像素值，例如0。其余分割遮罩(真实分割遮罩、训练图像遮罩、测试图像遮罩、测试分割遮罩、图像分割遮罩等)的表现形式与生成分割遮罩类似，不再赘述。

示例性地，步骤S230可以包括：将目标区域对齐特征图和第一预定噪声输入遮罩生成器，以获得生成分割遮罩。在训练遮罩生成器时，可以加入噪声，以增加训练的随机性。实践证明，在生成式对抗网络中，噪声输入并不是一定需要的，不输入噪声的影响也不大。因此，遮罩生成器可以可选地接收噪声。

示例性地，在将目标区域对齐特征图和第一预定噪声输入遮罩生成器，以获得生成分割遮罩之前，模型训练方法200还可以包括：从预定义均匀分布中随机抽样，以获得第一预定噪声。预定义均匀分布可以是任何概率分布，例如正态分布等。从预定义均匀分布进行随机抽样，可以获得随机数值作为第一预定噪声。第一预定噪声可以是RoI对齐特征图一一对应的。可选地，不同RoI对齐特征图可以对应不同的第一预定噪声。可选地，每个训练图像的所有RoI对齐特征图可以对应相同的第一预定噪声。

在步骤S240，基于训练图像遮罩确定与目标区域对齐特征图对应的真实分割遮罩。

示例性地，步骤S240可以包括：基于目标区域对齐特征图所对应的第一目标区域的位置对训练图像遮罩进行裁剪和/或缩放，以获得真实分割遮罩。

训练图像遮罩是整个训练图像的遮罩。可以基于第一目标区域的位置对整个训练图像的遮罩进行适当的裁剪和/或缩放，以获得与每个第一目标区域对应的真实分割遮罩。真实分割遮罩可以与RoI对齐特征图一一对应。每个真实分割遮罩的大小可以与RoI对齐特征图一致。

在步骤S250，利用目标区域对齐特征图、生成分割遮罩和真实分割遮罩对遮罩生成器和判别器进行对抗训练。

示例性地，步骤S250可以包括：将目标区域对齐特征图和生成分割遮罩作为生成数据对，将目标区域对齐特征图和真实分割遮罩作为真实数据对，将生成数据对和真实数据对输入判别器，以获得判别结果；基于判别结果计算生成器损失和判别器损失；以及根据生成器损失和判别器损失优化遮罩生成器和判别器，以获得经训练的遮罩生成器。

在输入判别器时，可以将RoI对齐特征图和生成分割遮罩组合在一起，作为一个生成数据对，将RoI对齐特征图和真实分割遮罩组合在一起，作为一个真实数据对来输入。生成数据对和真实数据对可以作为一批数据一起输入到判别器中。当然，生成数据对和真实数据对也可以分别输入到判别器中。本领域技术人员可以理解判别器的数据处理方式，本文不赘述。

图4示出根据现有技术的遮罩生成器训练以及根据本发明实施例的遮罩生成器训练的对比示意图。在图4中，上半部分为现有技术中遮罩生成器(图4中示出为“生成器”)的结构与训练方法，下半部分为基于生成式对抗网络的改进版遮罩生成器的结构与训练方法，其中较细的箭头所指出的路径为生成数据流路径，较粗的箭头所指出的路径为真实数据流路径。输入数据包括均匀噪声(即第一预定噪声)、RoI对齐特征图(图4中示出为“RoI对齐后特征图”)、以及与RoI对齐特征图相对应的真实分割遮罩。网络后端的数据节点为损失项(或说损失函数)，也是最优化目标，在现有技术中采用交叉熵损失函数，在本发明中采用GAN损失函数。生成式对抗网络包含生成器、判别器两个模块。生成器接收RoI对齐特征图和均匀噪声作为输入，输出生成分割遮罩。生成器可以输出单通道(例如灰度通道)的生成分割遮罩。判别器接收RoI对齐特征图与分割遮罩的组合作为输入，判别是否为真实数据并输出判别结果，判别器可以以输出标量分数的方式给出其判别结果。GAN损失函数为判别结果与某预定义0/1向量的交叉熵。

下面描述遮罩生成器(或说实例分割模型)的示例性训练流程。

1)步骤101，准备Mask-RCNN并进行与训练阶段相关的改进。例如，在遮罩生成器的输入端添加均匀噪声，并添加判别器。判别器接收分割遮罩(生成分割遮罩和真实分割遮罩)与RoI对齐特征图组成的数据对作为输入，输出单维向量作为判别结果。将原遮罩生成器的交叉熵损失项改为GAN损失项，即判别器的输出结果与预定义0/1向量的交叉熵。

2)步骤102，准备训练数据。从训练集中抽样训练图像与对应的训练图像遮罩，从预定义均匀分布中抽样第一预定噪声。

3)步骤103，将训练图像输入Mask-RCNN，经过卷积神经网络、区域提议网络和RoI对齐操作，得到RoI对齐特征图，并基于RoI对齐特征图所对应的第一目标区域的位置对整个训练图像的训练图像遮罩进行裁剪、缩放等得到与RoI对齐特征图相对应的真实分割遮罩。

4)步骤104，将RoI对齐特征图与第一预定噪声输入遮罩生成器，得到生成分割遮罩。

5)步骤105，将RoI对齐特征图与对应的真实分割遮罩组合成真实数据对，送入判别器中，得到真实数据的判别结果。

6)步骤106，将RoI对齐特征图与对应的生成分割遮罩组合成生成数据对，送入判别器中，得到生成数据的判别结果。

7)步骤107，分别将真实数据的判别结果和生成数据的判别结果与全1向量和全0向量计算交叉熵，作为判别器损失函数的损失值(即判别器损失)。

8)步骤108，计算生成数据的判别结果与预定义的全1向量的交叉熵，作为生成器损失函数的损失值(即生成器损失)。

9)步骤109，计算Mask-RCNN的其他损失函数的损失值，包括区域提议网络回归损失、分类器损失和包围框回归器损失。

10)步骤110，使用基于梯度下降的Adam最优化算法，通过反向传播算法更新判别器参数以最小化判别器损失，随后通过反向传播算法更新遮罩生成器以及Mask-RCNN中的其他模型结构以最小化生成器损失以及Mask-RCNN中的其他损失。判别器的参数以及Mask-RCNN的参数是交替优化的，判别器的参数以及Mask-RCNN的参数都可以经历多次优化。

11)步骤111，迭代步骤102-110，并适时调整学习率，直到所有损失函数的损失值收敛，最终可以获得经训练的遮罩生成器(或经训练的实例分割模型)。

由上述描述可知，训练图像的数目不限，可以准备大量(例如5000张)训练图像，针对每个训练图像执行模型训练方法200中的步骤S210-S250，获得经训练的遮罩生成器(或经训练的实例分割模型)。

如图4所示，在现有技术中，将RoI对齐特征图输入遮罩生成器之后获得生成分割遮罩。根据生成分割遮罩和真实分割遮罩计算交叉熵损失函数的损失值，这样训练获得的遮罩生成器易受多峰问题影响。而根据本发明实施例，对遮罩生成器和判别器一起进行对抗训练。在RoI对齐特征图含有多个目标对象时，训练获得的遮罩生成器输出的与该RoI对齐特征图相对应的实例分割遮罩可以仅响应一个峰，即可以很好地与其中一个目标对象匹配。可以理解，由于RoI对齐特征图数目较多，同样的目标对象可能出现在多个RoI对齐特征图中，因此即使每个RoI对齐特征图仅与一个目标对象匹配，也无需担心遗漏目标对象。

示例性地，根据本发明实施例的模型训练方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的模型训练方法，将实例分割模型中的遮罩生成器与判别器组成生成式对抗网络，对遮罩生成器和判别器进行对抗训练，训练获得的遮罩生成器鲁棒性强，可以有效解决遮罩生成器受图像多峰性质影响的问题。

根据本发明实施例的模型训练方法可以部署在图像采集端处，例如，在安防应用领域，可以部署在门禁系统的图像采集端；在金融应用领域，可以部署在个人终端处，诸如智能电话、平板电脑、个人计算机等。

替代地，根据本发明实施例的模型训练方法还可以分布地部署在服务器端和个人终端处。例如，可以在图像采集端采集训练图像，图像采集端将采集的训练图像传送给服务器端(或云端)，由服务器端(或云端)进行模型训练。

根据本发明实施例，前端模型结构包括区域提议网络，用于输出用于指示训练图像中的目标对象所在位置的第二目标区域的目标区域信息，第一目标区域基于第二目标区域过滤获得，实例分割模型还包括包围框回归器和分类器，模型训练方法200还可以包括：将目标区域对齐特征图输入包围框回归器，以获得与目标区域对齐特征图相对应的、用于指示训练图像中的目标对象所在位置的包围框的包围框信息；将目标区域对齐特征图输入分类器，以获得目标区域对齐特征图所对应的包围框中所包含对象的对象分类信息；获取训练图像中的目标对象的标注位置信息和标注分类信息；基于标注位置信息和目标区域信息计算区域提议网络的区域提议网络回归损失；基于标注位置信息和包围框信息计算包围框回归器的包围框回归器损失；基于标注分类信息和对象分类信息计算分类器的分类器损失；根据生成器损失和判别器损失优化遮罩生成器和判别器，以获得经训练的遮罩生成器包括：交替优化实例分割模型和判别器以最小化模型损失和判别器损失直至收敛，以获得经训练的实例分割模型，其中，经训练的实例分割模型包括经训练的遮罩生成器，模型损失包括生成器损失、区域提议网络回归损失、包围框回归器损失和分类器损失。

标注位置信息可以是用于指示每个目标对象所在位置的对象框的坐标。标注分类信息是关于训练图像中的每个目标对象所属类别的信息。标注位置信息和标注分类信息可以由人工标注获得。请注意，本文所述的对象框、目标区域和包围框都可以是矩形框，并且都可以由矩形框的坐标来表示。

将训练图像输入Mask-RCNN之后，包围框回归器可以输出包围框信息。包围框信息可以包括包围框的顶点坐标，包围框可以理解为更精确的第一目标区域，也就是说，对第一目标区域进行更精细的位置调整之后即可获得包围框。包围框可以是与第一目标区域一一对应的。可以基于标注位置信息和包围框信息计算包围框回归器损失。本领域技术人员能够理解包围框回归器损失的计算方式，本文不赘述。

将训练图像输入Mask-RCNN之后，分类器可以输出对象分类信息。可以基于标注分类信息和所述对象分类信息计算所述分类器的分类器损失。本领域技术人员能够理解分类器损失的计算方式，本文不赘述。

将训练图像输入Mask-RCNN之后，区域提议网络可以输出第二目标区域的目标区域信息。区域提议网络在输出端具有回归层(reg层)和分类层(cls层)。reg层具有4k(对应矩形的四个点)个输出，cls层具有2k个输出(对应是目标对象还是不是目标对象的概率)，k为区域提议网络采用的每个滑动窗口所对应的锚(anchor)的数目。可以基于标注位置信息和目标区域信息计算区域提议网络的区域提议网络回归损失。本领域技术人员能够理解区域提议网络回归损失的计算方式，本文不赘述。

可以对实例分割模型进行测试，来判断训练出的实例分割模型的性能是否满足要求。

根据本发明实施例，实例分割模型为遮罩区域卷积神经网络，前端模型结构依次包括卷积神经网络、区域提议网络和目标区域对齐模型，目标区域对齐特征图由目标区域对齐模型输出，遮罩区域卷积神经网络还包括在目标区域对齐模型之后连接的包围框回归器，模型训练方法200还可以包括：获取至少一个测试图像和与至少一个测试图像分别对应的测试图像遮罩；对于至少一个测试图像中的每个测试图像，将该测试图像输入遮罩区域卷积神经网络，以获得卷积神经网络输出的初始特征图以及包围框回归器输出的、用于指示该测试图像中的目标对象所在位置的包围框的包围框信息；对包围框信息所表示的包围框进行过滤；基于过滤后的包围框确定第三目标区域；将第三目标区域和初始特征图输入目标区域对齐模型，以获得测试区域对齐特征图；将所述测试区域对齐特征图输入所述遮罩生成器，以获得测试分割遮罩；将测试分割遮罩组合为该测试图像的图像分割遮罩；基于图像分割遮罩以及与该测试图像相对应的测试图像遮罩计算平均图像分割精度；基于至少一个测试图像的平均图像分割精度计算遮罩区域卷积神经网络的平均分割精度。

本实施例所述的包围框回归器与上文所述的包围框回归器相同，不再赘述。

在每次训练阶段完成之后，可以执行测试，以测试训练好的实例分割模型的性能(例如实例分割精度)是否满足要求。如果实例分割模型的性能不满足要求，则可以调整实例分割模型的网络参数并重新训练实例分割模型。示例性地，每次训练时，在将预定损失，例如本文所述的模型损失和判别器损失训练到收敛之后，可以认为训练阶段结束。随后，可以开始进行测试。

与训练阶段不同的是，在测试阶段，遮罩生成器可以不直接对前端模型结构输出的RoI对齐特征图进行计算，而是可以先通过包围框回归器输出的包围框来获得更加精细的第三目标区域，再生成与每个第三目标区域相对应的测试分割遮罩。

Mask-RCNN的测试流程如下：

1)步骤201，去掉训练阶段的判别器。

2)步骤202，准备测试数据。从测试集中抽样测试图像与对应的测试图像遮罩。此外，从与训练集相同的预定义均匀分布中随机抽样噪声作为第二预定噪声。第二预定噪声可以是下述测试区域对齐特征图一一对应的。可选地，不同测试区域对齐特征图可以对应不同的第二预定噪声。可选地，每个测试图像的所有测试区域对齐特征图可以对应相同的第二预定噪声。可选地，第二预定噪声可以与第一预定噪声相同。

3)步骤203，将测试图像输入Mask-RCNN的卷积神经网络、区域提议网络、RoI对齐模型和包围框回归器，得到若干包围框。

4)步骤204，对获得的包围框进行NMS过滤，去掉重叠度高的包围框。

5)步骤205，基于过滤后的包围框生成第三目标区域，经过RoI对齐操作得到测试区域对齐特征图(实际也是RoI对齐特征图，为了与训练阶段的RoI对齐特征图区分，采用测试区域对齐特征图表示)，输入遮罩生成器得到与过滤后的包围框或说与测试区域对齐特征图一一对应的测试分割遮罩。

6)步骤206，将所有测试分割遮罩组合成全图的分割遮罩(即图像分割遮罩)，基于图像分割遮罩与测试图像遮罩计算平均图像分割精度(AveragePrecision,AP)。

7)步骤207，迭代步骤202-206。可以取样足够多次，如2000次，基于所有取样的测试图像计算Mask-RCNN的平均分割精度，平均分割精度可以用于评估Mask-RCNN的实例分割表现。

根据本发明另一方面，提供一种实例分割方法。图5示出根据本发明一个实施例的实例分割方法500的示意性流程图。如图5所示，实例分割方法500包括以下步骤。

在步骤S510，获取待处理图像。

待处理图像可以是任何图像。待处理图像可以是静态图像，也可以是视频中的视频帧。待处理图像可以是图像采集装置采集到的原始图像，也可以是对原始图像进行预处理(诸如数字化、归一化、平滑等)之后获得的图像。

在步骤S520，利用实例分割模型处理待处理图像，以获得与待处理图像中的目标对象相对应的实例分割遮罩，其中，实例分割模型中的遮罩生成器利用上述模型训练方法200训练获得。

将待处理图像输入实例分割模型，诸如上述Mask-RCNN中，可以获得每个目标对象的实例分割遮罩。实例分割模型中的遮罩生成器(或说实例分割模型)是采用上述模型训练方法200训练好的。实例分割方法500可以理解为实例分割模型的应用阶段。

示例性地，步骤S520可以包括：将待处理图像输入实例分割模型中的前端模型结构，以获得待处理图像的目标区域对齐特征图，其中，待处理图像的目标区域对齐特征图为与用于指示待处理图像中的目标对象所在位置的第三目标区域相对应的、经对齐操作的特征图；将待处理图像的目标区域对齐特征图和第三预定噪声输入实例分割模型中的遮罩生成器，以获得实例分割遮罩。

第三预定噪声可以与上述第一预定噪声和第二预定噪声来自相同的预定义均匀分布。可选地，第三预定噪声可以与第一预定噪声和第二预定噪声相同。对于生成式对抗网络来说，可以在生成器的输入端输入一个噪声。如果在训练阶段，遮罩生成器采用了第一预定噪声，则遮罩生成器将具有一个与噪声相关的输入，因此在测试阶段和应用阶段也可以相应地向遮罩生成器输入噪声，分别为第二预定噪声和第三预定噪声。

根据本发明实施例的实例分割方法，采用上述模型训练方法训练获得的遮罩生成器来处理图像，可以有效解决遮罩生成器受图像多峰性质影响的问题。

根据本发明另一方面，提供一种模型训练装置。图6示出了根据本发明一个实施例的模型训练装置600的示意性框图。

如图6所示，根据本发明实施例的模型训练装置600包括训练数据获取模块610、第一输入模块620、第二输入模块630、遮罩确定模块640和训练模块650。所述各个模块可分别执行上文中结合图2-4描述的模型训练方法的各个步骤/功能。以下仅对该模型训练装置600的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

训练数据获取模块610用于获取训练图像和训练图像遮罩。训练数据获取模块610可以由图1所示的电子设备中的处理器102运行存储装置106中存储的程序指令来实现。

第一输入模块620用于将训练图像输入实例分割模型中的前端模型结构，以获得目标区域对齐特征图，其中，目标区域对齐特征图为与用于指示训练图像中的目标对象所在位置的第一目标区域相对应的、经对齐操作的特征图。第一输入模块620可以由图1所示的电子设备中的处理器102运行存储装置106中存储的程序指令来实现。

第二输入模块630用于将目标区域对齐特征图输入实例分割模型中的遮罩生成器，以获得与目标区域对齐特征图对应的生成分割遮罩。第二输入模块630可以由图1所示的电子设备中的处理器102运行存储装置106中存储的程序指令来实现。

遮罩确定模块640用于基于训练图像遮罩确定与目标区域对齐特征图对应的真实分割遮罩。遮罩确定模块640可以由图1所示的电子设备中的处理器102运行存储装置106中存储的程序指令来实现。

训练模块650用于利用目标区域对齐特征图、生成分割遮罩和真实分割遮罩对遮罩生成器和判别器进行对抗训练。训练模块650可以由图1所示的电子设备中的处理器102运行存储装置106中存储的程序指令来实现。

示例性地，训练模块650具体用于：将目标区域对齐特征图和生成分割遮罩作为生成数据对，将目标区域对齐特征图和真实分割遮罩作为真实数据对，将生成数据对和真实数据对输入判别器，以获得判别结果；基于判别结果计算生成器损失和判别器损失；以及根据生成器损失和判别器损失优化遮罩生成器和判别器，以获得经训练的遮罩生成器。

示例性地，前端模型结构包括区域提议网络，用于输出用于指示训练图像中的目标对象所在位置的第二目标区域的目标区域信息，第一目标区域基于第二目标区域过滤获得，实例分割模型还包括包围框回归器和分类器，装置600还包括：将目标区域对齐特征图输入包围框回归器，以获得与目标区域对齐特征图相对应的、用于指示训练图像中的目标对象所在位置的包围框的包围框信息；将目标区域对齐特征图输入分类器，以获得目标区域对齐特征图所对应的包围框中所包含对象的对象分类信息；获取训练图像中的目标对象的标注位置信息和标注分类信息；基于标注位置信息和目标区域信息计算区域提议网络的区域提议网络回归损失；基于标注位置信息和包围框信息计算包围框回归器的包围框回归器损失；基于标注分类信息和对象分类信息计算分类器的分类器损失；训练模块650具体用于：交替优化实例分割模型和判别器以最小化模型损失和判别器损失直至收敛，以获得经训练的实例分割模型，其中，经训练的实例分割模型包括经训练的遮罩生成器，模型损失包括生成器损失、区域提议网络回归损失、包围框回归器损失和分类器损失。

示例性地，第二输入模块630具体用于：将目标区域对齐特征图和第一预定噪声输入遮罩生成器，以获得生成分割遮罩。

示例性地，装置600还包括：抽样模块，用于在第二输入模块630将目标区域对齐特征图和第一预定噪声输入遮罩生成器，以获得生成分割遮罩之前，从预定义均匀分布中随机抽样，以获得第一预定噪声。

示例性地，遮罩确定模块640具体用于：基于目标区域对齐特征图所对应的第一目标区域的位置对训练图像遮罩进行裁剪和/或缩放，以获得真实分割遮罩。

示例性地，实例分割模型为遮罩区域卷积神经网络，前端模型结构依次包括卷积神经网络、区域提议网络和目标区域对齐模型，目标区域对齐特征图由目标区域对齐模型输出，遮罩区域卷积神经网络还包括在目标区域对齐模型之后连接的包围框回归器，装置600还包括：测试数据获取模块，用于获取至少一个测试图像和与至少一个测试图像分别对应的测试图像遮罩；第三输入模块，用于对于至少一个测试图像中的每个测试图像，将该测试图像输入遮罩区域卷积神经网络，以获得卷积神经网络输出的初始特征图以及包围框回归器输出的、用于指示该测试图像中的目标对象所在位置的包围框的包围框信息；过滤模块，用于对于至少一个测试图像中的每个测试图像，对包围框信息所表示的包围框进行过滤；区域确定模块，用于对于至少一个测试图像中的每个测试图像，基于过滤后的包围框确定第三目标区域；第四输入模块，用于对于至少一个测试图像中的每个测试图像，将测试区域对齐特征图输入遮罩生成器，将第三目标区域和初始特征图输入目标区域对齐模型，以获得测试区域对齐特征图；第五输入模块，用于对于至少一个测试图像中的每个测试图像，将测试区域对齐特征图输入遮罩生成器，以获得测试分割遮罩；组合模块，用于对于至少一个测试图像中的每个测试图像，将测试分割遮罩组合为该测试图像的图像分割遮罩；第一计算模块，用于对于至少一个测试图像中的每个测试图像，基于图像分割遮罩以及与该测试图像相对应的测试图像遮罩计算平均图像分割精度；第二计算模块，用于基于至少一个测试图像的平均图像分割精度计算遮罩区域卷积神经网络的平均分割精度。

示例性地，第五输入模块具体用于：对于至少一个测试图像中的每个测试图像，将测试区域对齐特征图和第二预定噪声输入遮罩生成器，以获得测试分割遮罩，其中，第一预定噪声和第二预定噪声来自相同的预定义均匀分布。

示例性地，过滤模块具体用于：对于至少一个测试图像中的每个测试图像，通过非极大值抑制方法对包围框信息所表示的包围框进行过滤。

根据本发明另一方面，提供一种实例分割装置。图7示出了根据本发明一个实施例的实例分割装置700的示意性框图。

如图7所示，根据本发明实施例的实例分割装置700包括图像获取模块710和处理模块720。所述各个模块可分别执行上文中结合图5描述的实例分割方法的各个步骤/功能。以下仅对该实例分割装置700的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

图像获取模块710用于获取待处理图像。图像获取模块710可以由图1所示的电子设备中的处理器102运行存储装置107中存储的程序指令来实现。

处理模块720用于利用实例分割模型处理待处理图像，以获得与待处理图像中的目标对象相对应的实例分割遮罩，其中，实例分割模型中的遮罩生成器利用上述模型训练方法200训练获得。处理模块720可以由图1所示的电子设备中的处理器102运行存储装置107中存储的程序指令来实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图8示出了根据本发明一个实施例的模型训练系统800的示意性框图。模型训练系统800包括图像采集装置810、存储装置820以及处理器830。

图像采集装置810用于采集训练图像和/或测试图像。图像采集装置810是可选的，模型训练系统800可以不包括图像采集装置810。在这种情况下，可以利用其他图像采集装置采集训练图像和/或测试图像，并将采集的图像发送给模型训练系统800。

所述存储装置820存储用于实现根据本发明实施例的模型训练方法中的相应步骤的计算机程序指令。

所述处理器830用于运行所述存储装置820中存储的计算机程序指令，以执行根据本发明实施例的模型训练方法的相应步骤，并且用于实现根据本发明实施例的模型训练装置600中的训练数据获取模块610、第一输入模块620、第二输入模块630、遮罩确定模块640和训练模块650。

在一个实施例中，所述计算机程序指令被所述处理器830运行时用于执行以下步骤：获取训练图像和训练图像遮罩；将训练图像输入实例分割模型中的前端模型结构，以获得目标区域对齐特征图，其中，目标区域对齐特征图为与用于指示训练图像中的目标对象所在位置的第一目标区域相对应的、经对齐操作的特征图；将目标区域对齐特征图输入实例分割模型中的遮罩生成器，以获得与目标区域对齐特征图对应的生成分割遮罩；基于训练图像遮罩确定与目标区域对齐特征图对应的真实分割遮罩；以及利用目标区域对齐特征图、生成分割遮罩和真实分割遮罩对遮罩生成器和判别器进行对抗训练。

示例性地，所述计算机程序指令被所述处理器830运行时所用于执行的利用目标区域对齐特征图、生成分割遮罩和真实分割遮罩对遮罩生成器和判别器进行对抗训练的步骤包括：将目标区域对齐特征图和生成分割遮罩作为生成数据对，将目标区域对齐特征图和真实分割遮罩作为真实数据对，将生成数据对和真实数据对输入判别器，以获得判别结果；基于判别结果计算生成器损失和判别器损失；以及根据生成器损失和判别器损失优化遮罩生成器和判别器，以获得经训练的遮罩生成器。

示例性地，前端模型结构包括区域提议网络，用于输出用于指示训练图像中的目标对象所在位置的第二目标区域的目标区域信息，第一目标区域基于第二目标区域过滤获得，实例分割模型还包括包围框回归器和分类器，所述计算机程序指令被所述处理器830运行时还用于执行以下步骤：将目标区域对齐特征图输入包围框回归器，以获得与目标区域对齐特征图相对应的、用于指示训练图像中的目标对象所在位置的包围框的包围框信息；将目标区域对齐特征图输入分类器，以获得目标区域对齐特征图所对应的包围框中所包含对象的对象分类信息；获取训练图像中的目标对象的标注位置信息和标注分类信息；基于标注位置信息和目标区域信息计算区域提议网络的区域提议网络回归损失；基于标注位置信息和包围框信息计算包围框回归器的包围框回归器损失；基于标注分类信息和对象分类信息计算分类器的分类器损失；所述计算机程序指令被所述处理器830运行时所用于执行的根据生成器损失和判别器损失优化遮罩生成器和判别器，以获得经训练的遮罩生成器的步骤包括：交替优化实例分割模型和判别器以最小化模型损失和判别器损失直至收敛，以获得经训练的实例分割模型，其中，经训练的实例分割模型包括经训练的遮罩生成器，模型损失包括生成器损失、区域提议网络回归损失、包围框回归器损失和分类器损失。

示例性地，所述计算机程序指令被所述处理器830运行时所用于执行的将目标区域对齐特征图输入实例分割模型中的遮罩生成器，以获得与目标区域对齐特征图对应的生成分割遮罩的步骤包括：将目标区域对齐特征图和第一预定噪声输入遮罩生成器，以获得生成分割遮罩。

示例性地，在所述计算机程序指令被所述处理器830运行时所用于执行的将目标区域对齐特征图和第一预定噪声输入遮罩生成器，以获得生成分割遮罩的步骤之前，所述计算机程序指令被所述处理器830运行时还用于执行以下步骤：从预定义均匀分布中随机抽样，以获得第一预定噪声。

示例性地，所述计算机程序指令被所述处理器830运行时所用于执行的基于训练图像遮罩确定与目标区域对齐特征图对应的真实分割遮罩的步骤包括：基于目标区域对齐特征图所对应的第一目标区域的位置对训练图像遮罩进行裁剪和/或缩放，以获得真实分割遮罩。

示例性地，实例分割模型为遮罩区域卷积神经网络，前端模型结构依次包括卷积神经网络、区域提议网络和目标区域对齐模型，目标区域对齐特征图由目标区域对齐模型输出，遮罩区域卷积神经网络还包括在目标区域对齐模型之后连接的包围框回归器，所述计算机程序指令被所述处理器830运行时还用于执行以下步骤：获取至少一个测试图像和与至少一个测试图像分别对应的测试图像遮罩；对于至少一个测试图像中的每个测试图像，将该测试图像输入遮罩区域卷积神经网络，以获得卷积神经网络输出的初始特征图以及包围框回归器输出的、用于指示该测试图像中的目标对象所在位置的包围框的包围框信息；对包围框信息所表示的包围框进行过滤；基于过滤后的包围框确定第三目标区域；将第三目标区域和初始特征图输入目标区域对齐模型，以获得测试区域对齐特征图；将所述测试区域对齐特征图输入所述遮罩生成器，以获得测试分割遮罩；基于图像分割遮罩以及与该测试图像相对应的测试图像遮罩计算平均图像分割精度；基于至少一个测试图像的平均图像分割精度计算遮罩区域卷积神经网络的平均分割精度。

示例性地，所述计算机程序指令被所述处理器830运行时所用于执行的对于至少一个测试图像中的每个测试图像，将测试区域对齐特征图输入遮罩生成器，以获得测试分割遮罩的步骤包括：对于至少一个测试图像中的每个测试图像，将测试区域对齐特征图和第二预定噪声输入遮罩生成器，以获得测试分割遮罩，其中，第一预定噪声和第二预定噪声来自相同的预定义均匀分布。

示例性地，所述计算机程序指令被所述处理器830运行时所用于执行的对于至少一个测试图像中的每个测试图像，对包围框信息所表示的包围框进行过滤的步骤包括：对于至少一个测试图像中的每个测试图像，通过非极大值抑制方法对包围框信息所表示的包围框进行过滤。

图9示出了根据本发明一个实施例的实例分割系统900的示意性框图。实例分割系统900包括图像采集装置910、存储装置920以及处理器930。

图像采集装置910用于采集待处理图像。图像采集装置910是可选的，实例分割系统900可以不包括图像采集装置910。在这种情况下，可以利用其他图像采集装置采集待处理图像，并将采集的图像发送给实例分割系统900。

所述存储装置920存储用于实现根据本发明实施例的实例分割方法中的相应步骤的计算机程序指令。

所述处理器930用于运行所述存储装置920中存储的计算机程序指令，以执行根据本发明实施例的实例分割方法的相应步骤，并且用于实现根据本发明实施例的实例分割装置700中的图像获取模块710和处理模块720。

在一个实施例中，计算机程序指令被处理器930运行时用于执行以下步骤：获取待处理图像；利用实例分割模型处理待处理图像，以获得与待处理图像中的目标对象相对应的实例分割遮罩；其中，实例分割模型中的遮罩生成器利用上述模型训练方法200训练获得。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的模型训练方法的相应步骤，并且用于实现根据本发明实施例的模型训练装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的模型训练装置的各个功能模块，并且/或者可以执行根据本发明实施例的模型训练方法。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：获取训练图像和训练图像遮罩；将训练图像输入实例分割模型中的前端模型结构，以获得目标区域对齐特征图，其中，目标区域对齐特征图为与用于指示训练图像中的目标对象所在位置的第一目标区域相对应的、经对齐操作的特征图；将目标区域对齐特征图输入实例分割模型中的遮罩生成器，以获得与目标区域对齐特征图对应的生成分割遮罩；基于训练图像遮罩确定与目标区域对齐特征图对应的真实分割遮罩；以及利用目标区域对齐特征图、生成分割遮罩和真实分割遮罩对遮罩生成器和判别器进行对抗训练。

示例性地，所述程序指令在运行时所用于执行的利用目标区域对齐特征图、生成分割遮罩和真实分割遮罩对遮罩生成器和判别器进行对抗训练的步骤包括：将目标区域对齐特征图和生成分割遮罩作为生成数据对，将目标区域对齐特征图和真实分割遮罩作为真实数据对，将生成数据对和真实数据对输入判别器，以获得判别结果；基于判别结果计算生成器损失和判别器损失；以及根据生成器损失和判别器损失优化遮罩生成器和判别器，以获得经训练的遮罩生成器。

示例性地，前端模型结构包括区域提议网络，用于输出用于指示训练图像中的目标对象所在位置的第二目标区域的目标区域信息，第一目标区域基于第二目标区域过滤获得，实例分割模型还包括包围框回归器和分类器，所述程序指令在运行时还用于执行以下步骤：将目标区域对齐特征图输入包围框回归器，以获得与目标区域对齐特征图相对应的、用于指示训练图像中的目标对象所在位置的包围框的包围框信息；将目标区域对齐特征图输入分类器，以获得目标区域对齐特征图所对应的包围框中所包含对象的对象分类信息；获取训练图像中的目标对象的标注位置信息和标注分类信息；基于标注位置信息和目标区域信息计算区域提议网络的区域提议网络回归损失；基于标注位置信息和包围框信息计算包围框回归器的包围框回归器损失；基于标注分类信息和对象分类信息计算分类器的分类器损失；所述程序指令在运行时所用于执行的根据生成器损失和判别器损失优化遮罩生成器和判别器，以获得经训练的遮罩生成器的步骤包括：交替优化实例分割模型和判别器以最小化模型损失和判别器损失直至收敛，以获得经训练的实例分割模型，其中，经训练的实例分割模型包括经训练的遮罩生成器，模型损失包括生成器损失、区域提议网络回归损失、包围框回归器损失和分类器损失。

示例性地，所述程序指令在运行时所用于执行的将目标区域对齐特征图输入实例分割模型中的遮罩生成器，以获得与目标区域对齐特征图对应的生成分割遮罩的步骤包括：将目标区域对齐特征图和第一预定噪声输入遮罩生成器，以获得生成分割遮罩。

示例性地，在所述程序指令在运行时所用于执行的将目标区域对齐特征图和第一预定噪声输入遮罩生成器，以获得生成分割遮罩的步骤之前，所述程序指令在运行时还用于执行以下步骤：从预定义均匀分布中随机抽样，以获得第一预定噪声。

示例性地，所述程序指令在运行时所用于执行的基于训练图像遮罩确定与目标区域对齐特征图对应的真实分割遮罩的步骤包括：基于目标区域对齐特征图所对应的第一目标区域的位置对训练图像遮罩进行裁剪和/或缩放，以获得真实分割遮罩。

示例性地，实例分割模型为遮罩区域卷积神经网络，前端模型结构依次包括卷积神经网络、区域提议网络和目标区域对齐模型，目标区域对齐特征图由目标区域对齐模型输出，遮罩区域卷积神经网络还包括在目标区域对齐模型之后连接的包围框回归器，所述程序指令在运行时还用于执行以下步骤：获取至少一个测试图像和与至少一个测试图像分别对应的测试图像遮罩；对于至少一个测试图像中的每个测试图像，将该测试图像输入遮罩区域卷积神经网络，以获得卷积神经网络输出的初始特征图以及包围框回归器输出的、用于指示该测试图像中的目标对象所在位置的包围框的包围框信息；对包围框信息所表示的包围框进行过滤；基于过滤后的包围框确定第三目标区域；将第三目标区域和初始特征图输入目标区域对齐模型，以获得测试区域对齐特征图；将所述测试区域对齐特征图输入所述遮罩生成器，以获得测试分割遮罩；基于图像分割遮罩以及与该测试图像相对应的测试图像遮罩计算平均图像分割精度；基于至少一个测试图像的平均图像分割精度计算遮罩区域卷积神经网络的平均分割精度。

示例性地，所述程序指令在运行时所用于执行的对于至少一个测试图像中的每个测试图像，将测试区域对齐特征图输入遮罩生成器，以获得测试分割遮罩的步骤包括：对于至少一个测试图像中的每个测试图像，将测试区域对齐特征图和第二预定噪声输入遮罩生成器，以获得测试分割遮罩，其中，第一预定噪声和第二预定噪声来自相同的预定义均匀分布。

示例性地，所述程序指令在运行时所用于执行的对于至少一个测试图像中的每个测试图像，对包围框信息所表示的包围框进行过滤的步骤包括：对于至少一个测试图像中的每个测试图像，通过非极大值抑制方法对包围框信息所表示的包围框进行过滤。

根据本发明实施例的模型训练系统中的各模块可以通过根据本发明实施例的实施模型训练的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的实例分割方法的相应步骤，并且用于实现根据本发明实施例的实例分割装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的实例分割装置的各个功能模块，并且/或者可以执行根据本发明实施例的实例分割方法。

在一个实施例中，程序指令在运行时用于执行以下步骤：获取待处理图像；利用实例分割模型处理待处理图像，以获得与待处理图像中的目标对象相对应的实例分割遮罩；其中，实例分割模型中的遮罩生成器利用上述实例分割方法200训练获得。

根据本发明实施例的实例分割系统中的各模块可以通过根据本发明实施例的实施实例分割的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)等来实现根据本发明实施例的模型训练装置或实例分割装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型训练方法，包括：

获取训练图像和训练图像遮罩；

将所述训练图像输入实例分割模型中的前端模型结构，以获得目标区域对齐特征图，其中，所述目标区域对齐特征图为与用于指示所述训练图像中的目标对象所在位置的第一目标区域相对应的、经对齐操作的特征图；

将所述目标区域对齐特征图输入所述实例分割模型中的遮罩生成器，以获得与所述目标区域对齐特征图对应的生成分割遮罩；

基于所述训练图像遮罩确定与所述目标区域对齐特征图对应的真实分割遮罩；以及

利用所述目标区域对齐特征图、所述生成分割遮罩和所述真实分割遮罩对所述遮罩生成器和判别器进行对抗训练。

2.如权利要求1所述的方法，其中，所述利用所述目标区域对齐特征图、所述生成分割遮罩和所述真实分割遮罩对所述遮罩生成器和判别器进行对抗训练包括：

将所述目标区域对齐特征图和所述生成分割遮罩作为生成数据对，将所述目标区域对齐特征图和所述真实分割遮罩作为真实数据对，将所述生成数据对和所述真实数据对输入所述判别器，以获得判别结果；

基于所述判别结果计算生成器损失和判别器损失；以及

根据所述生成器损失和所述判别器损失优化所述遮罩生成器和所述判别器，以获得经训练的所述遮罩生成器。

3.如权利要求2所述的方法，其中，所述前端模型结构包括区域提议网络，用于输出用于指示所述训练图像中的目标对象所在位置的第二目标区域的目标区域信息，所述第一目标区域基于所述第二目标区域过滤获得，所述实例分割模型还包括包围框回归器和分类器，

所述方法还包括：

将所述目标区域对齐特征图输入所述包围框回归器，以获得与所述目标区域对齐特征图相对应的、用于指示所述训练图像中的目标对象所在位置的包围框的包围框信息；

将所述目标区域对齐特征图输入所述分类器，以获得所述目标区域对齐特征图所对应的包围框中所包含对象的对象分类信息；

获取所述训练图像中的目标对象的标注位置信息和标注分类信息；

基于所述标注位置信息和所述目标区域信息计算所述区域提议网络的区域提议网络回归损失；

基于所述标注位置信息和所述包围框信息计算所述包围框回归器的包围框回归器损失；

基于所述标注分类信息和所述对象分类信息计算所述分类器的分类器损失；

所述根据所述生成器损失和所述判别器损失优化所述遮罩生成器和所述判别器，以获得经训练的所述遮罩生成器包括：

交替优化所述实例分割模型和所述判别器以最小化模型损失和所述判别器损失直至收敛，以获得经训练的所述实例分割模型，其中，所述经训练的所述实例分割模型包括所述经训练的所述遮罩生成器，所述模型损失包括所述生成器损失、所述区域提议网络回归损失、所述包围框回归器损失和所述分类器损失。

4.如权利要求1所述的方法，其中，所述将所述目标区域对齐特征图输入所述实例分割模型中的遮罩生成器，以获得与所述目标区域对齐特征图对应的生成分割遮罩包括：

将所述目标区域对齐特征图和第一预定噪声输入所述遮罩生成器，以获得所述生成分割遮罩。

5.如权利要求4所述的方法，其中，在所述将所述目标区域对齐特征图和第一预定噪声输入所述遮罩生成器，以获得所述生成分割遮罩之前，所述方法还包括：

从预定义均匀分布中随机抽样，以获得所述第一预定噪声。

6.如权利要求1所述的方法，其中，所述基于所述训练图像遮罩确定与所述目标区域对齐特征图对应的真实分割遮罩包括：

基于所述目标区域对齐特征图所对应的第一目标区域的位置对所述训练图像遮罩进行裁剪和/或缩放，以获得所述真实分割遮罩。

7.如权利要求1至6任一项所述的方法，其中，所述实例分割模型为遮罩区域卷积神经网络，所述前端模型结构依次包括卷积神经网络、区域提议网络和目标区域对齐模型，所述目标区域对齐特征图由所述目标区域对齐模型输出。

8.如权利要求1至6任一项所述的方法，其中，所述实例分割模型为遮罩区域卷积神经网络，所述前端模型结构依次包括卷积神经网络、区域提议网络和目标区域对齐模型，所述目标区域对齐特征图由所述目标区域对齐模型输出，所述遮罩区域卷积神经网络还包括在所述目标区域对齐模型之后连接的包围框回归器，所述方法还包括：

获取至少一个测试图像和与所述至少一个测试图像分别对应的测试图像遮罩；

对于所述至少一个测试图像中的每个测试图像，

将该测试图像输入所述遮罩区域卷积神经网络，以获得所述卷积神经网络输出的初始特征图以及所述包围框回归器输出的、用于指示该测试图像中的目标对象所在位置的包围框的包围框信息；

对所述包围框信息所表示的包围框进行过滤；

基于过滤后的包围框确定第三目标区域；

将所述第三目标区域和所述初始特征图输入所述目标区域对齐模型，以获得所述测试区域对齐特征图；

将所述测试区域对齐特征图输入所述遮罩生成器，以获得测试分割遮罩；

将所述测试分割遮罩组合为该测试图像的图像分割遮罩；

基于所述图像分割遮罩以及与该测试图像相对应的测试图像遮罩计算平均图像分割精度；

基于所述至少一个测试图像的平均图像分割精度计算所述遮罩区域卷积神经网络的平均分割精度。

9.如引用权利要求4的权利要求8所述的方法，其中，所述对于所述至少一个测试图像中的每个测试图像，将所述测试区域对齐特征图输入所述遮罩生成器，以获得测试分割遮罩包括：

对于所述至少一个测试图像中的每个测试图像，将所述测试区域对齐特征图和第二预定噪声输入所述遮罩生成器，以获得所述测试分割遮罩，其中，所述第一预定噪声和所述第二预定噪声来自相同的预定义均匀分布。

10.如权利要求8所述的方法，其中，所述对于所述至少一个测试图像中的每个测试图像，对所述包围框信息所表示的包围框进行过滤包括：

对于所述至少一个测试图像中的每个测试图像，通过非极大值抑制方法对所述包围框信息所表示的包围框进行过滤。

11.一种实例分割方法，包括：

获取待处理图像；

利用实例分割模型处理所述待处理图像，以获得与所述待处理图像中的目标对象相对应的实例分割遮罩；

其中，所述实例分割模型中的遮罩生成器利用如权利要求1至7任一项所述的模型训练方法训练获得。

12.一种模型训练装置，包括：

训练数据获取模块，用于获取训练图像和训练图像遮罩；

第一输入模块，用于将所述训练图像输入实例分割模型中的前端模型结构，以获得目标区域对齐特征图，其中，所述目标区域对齐特征图为与用于指示所述训练图像中的目标对象所在位置的第一目标区域相对应的、经对齐操作的特征图；

第二输入模块，用于将所述目标区域对齐特征图输入所述实例分割模型中的遮罩生成器，以获得与所述目标区域对齐特征图对应的生成分割遮罩；

遮罩确定模块，用于基于所述训练图像遮罩确定与所述目标区域对齐特征图对应的真实分割遮罩；以及

训练模块，用于利用所述目标区域对齐特征图、所述生成分割遮罩和所述真实分割遮罩对所述遮罩生成器和判别器进行对抗训练。

13.一种实例分割装置，包括：

图像获取模块，用于获取待处理图像；

处理模块，用于利用实例分割模型处理所述待处理图像，以获得与所述待处理图像中的目标对象相对应的实例分割遮罩；

14.一种模型训练系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至10任一项所述的模型训练方法。

15.一种实例分割系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行以下步骤：

获取待处理图像；

16.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1至10任一项所述的模型训练方法。

17.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行以下步骤：

获取待处理图像；