CN113673505A

CN113673505A - 实例分割模型的训练方法、装置、系统及存储介质

Info

Publication number: CN113673505A
Application number: CN202110722507.8A
Authority: CN
Inventors: 付子昂; 王剑锋
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-11-19

Abstract

本发明的实施例提供了一种实例分割模型的训练方法、装置、系统及存储介质。该方法包括：获取训练图像和对应的标注数据；对训练图像执行仿射变换操作，以获得变换后的训练图像；将训练图像输入实例分割模型，以对训练图像进行实例分割并获得第一预测掩码；将变换后的训练图像输入实例分割模型，以对变换后的训练图像进行实例分割并获得第二预测掩码；对第一预测掩码执行仿射变换操作，以获得变换后的掩码；基于真实包围框、第一预测掩码、变换后的掩码和第二预测掩码确定主损失函数的函数值；基于主损失函数的函数值训练实例分割模型。这不仅提升了实例分割模型的自主学习能力，还增强了其泛化性，能够获得更准确的实例分割结果。

Description

实例分割模型的训练方法、装置、系统及存储介质

技术领域

本发明涉及计算机视觉技术领域，更具体地涉及一种实例分割模型的训练方法、装置、系统及存储介质。

背景技术

实例分割是一种在像素层面识别目标掩码的计算机视觉任务。目的是在图像上找到感兴趣的目标，并给出目标的类别和像素级别的分割结果。

常见的实例分割模型的训练大多是基于像素级别的标注实现的。相比于目标框级别的包围框标注，像素级别的标注需要更高的人力标注成本和更长时间的标注周期。

因此，为了降低进行像素级别标注花费的高额成本，也有些现有技术中采用基于包围框的弱监督实例分割训练方法作为替代。该方法可以使实例分割模型自主学习包围框内的分割知识，达到与有监督的实例分割方法相近的结果。现有技术中的基于包围框的弱监督实例分割方法大致分为以下两种：一种基于颜色等与目标有关的先验信息实现，另一种通过利用传统算法生成伪分割标注实现。

但上述两种方法不仅缺乏泛化性，还容易受图像或目标的明暗差异等因素的影响，从而限制了实例分割模型的上限能力，难以获得高精度的实例分割模型。

发明内容

考虑到上述问题而提出了本发明。根据本发明的一个方面，提供了一种实例分割模型的训练方法。包括：获取训练图像和对应的标注数据，其中标注数据包括训练图像中目标的真实包围框的位置信息。对训练图像执行仿射变换操作，以获得变换后的训练图像。将训练图像输入实例分割模型，以对训练图像进行实例分割并获得第一预测掩码。将变换后的训练图像输入实例分割模型，以对变换后的训练图像进行实例分割并获得第二预测掩码。对第一预测掩码执行仿射变换操作，以获得变换后的掩码。基于真实包围框、第一预测掩码、变换后的掩码和第二预测掩码确定主损失函数的函数值。基于主损失函数的函数值训练实例分割模型。

示例性地，将训练图像输入实例分割模型以对训练图像进行实例分割并获得第一预测掩码，包括：将训练图像输入实例分割模型，获得目标的第一包围框和第一包围框的得分。根据第一包围框和第一包围框的得分，确定第一预测掩码。

示例性地，方法还包括：基于真实包围框、第一包围框和第一包围框的得分确定第一辅助损失函数的函数值。其中，训练实例分割模型还同时基于第一辅助损失函数的函数值。

示例性地，将变换后的训练图像输入实例分割模型以对变换后的训练图像进行实例分割并获得第二预测掩码，包括：将变换后的训练图像输入实例分割模型，获得目标的第二包围框和第二包围框的得分。根据第二包围框和第二包围框的得分，确定第二预测掩码。方法还包括：确定变换后的掩码的最小包围框；以及基于最小包围框、第二包围框和第二包围框的得分确定第二辅助损失函数的函数值。其中，训练实例分割模型还同时基于第二辅助损失函数的函数值。

示例性地，基于真实包围框、第一预测掩码、变换后的掩码和第二预测掩码确定主损失函数的函数值包括：基于真实包围框和第一预测掩码计算第一主导损失函数的函数值。基于变换后的掩码和第二预测掩码计算第二主导损失函数的函数值。基于第一主导损失函数的函数值和第二主导损失函数的函数值计算主损失函数的函数值。

示例性地，基于变换后的掩码和第二预测掩码计算第二主导损失函数的函数值包括：针对每次仿射变换操作且对于训练图像中的每个目标，基于该目标的第i个第一预测掩码

经该次仿射变换操作所获得的变换后的掩码

对训练图像执行该次仿射变换操作后进行实例分割所获得的该目标的第j个第二预测掩码

计算该目标的子目标函数

的函数值。根据该目标的所有子目标函数的函数值利用如下公式计算该目标的第二主导损失函数的函数值：

其中，N表示该目标的第一预测掩码的个数，M表示对训练图像执行该次仿射变换操作后进行实例分割所获得的该目标的第二预测掩码的个数。

示例性地，子目标函数的函数值根据以下公式计算：

其中，

表示基于

投影到x轴所获得的响应函数

和

投影到x轴所获得的响应函数

所计算的x轴损失函数；

表示基于

投影到y轴所获得的响应函数

和

投影到y轴所获得的响应函数

所计算的y轴损失函数。

示例性地，第二主导损失函数是多实例学习损失函数或像素级别损失函数。

示例性地，基于第一主导损失函数的函数值和第二主导损失函数的函数值计算主损失函数的函数值包括：对第一主导损失函数的函数值和第二主导损失函数的函数值进行加权求和，以获得主损失函数的函数值。

示例性地，仿射变换操作包括多次不同操作。

示例性地，仿射变换操作包括以下操作中的一种或多种：旋转操作、错切操作、平移操作和缩放操作。

根据本发明的另一方面，还提供了一种实例分割模型的训练装置。包括：

获取模块，用于获取训练图像和对应的标注数据。其中标注数据包括训练图像中目标的真实包围框的位置信息。

图像变换模块，用于对训练图像执行仿射变换操作，以获得变换后的训练图像。

第一实例分割模块，用于将训练图像输入实例分割模型，以对训练图像进行实例分割并获得第一预测掩码。

第二实例分割模块，用于将变换后的训练图像输入实例分割模型，以对变换后的训练图像进行实例分割并获得第二预测掩码。

掩码变换模块，用于对第一预测掩码执行仿射变换操作，以获得变换后的掩码。

损失确定模块，用于基于真实包围框、第一预测掩码、变换后的掩码和第二预测掩码确定主损失函数的函数值。

训练模块，用于基于主损失函数的函数值训练实例分割模型。

根据本发明又一方面，还提供了一种实例分割模型的训练系统，包括处理器和存储器。其中，存储器中存储有计算机程序指令。计算机程序指令被处理器运行时用于执行如上所述的实例分割模型的训练方法。

根据本发明再一方面，还提供了一种存储介质。在存储介质上存储了程序指令。程序指令在运行时用于执行如上所述的实例分割模型的训练方法。

在上述技术方案中，采用包围框标注来替代像素级别的标注，大大降低了人工标注成本，缩短了标注周期。同时，不依赖于与目标有关的先验信息，仅通过仿射变换操作来实现对实例分割模型的训练的增强。不仅提升了实例分割模型的自主学习能力，还增强了其泛化性，减小了受图像或目标的明暗差异等因素影响的程度，其能够获得更准确的实例分割结果。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了用于实现根据本发明实施例的实例分割模型的训练方法和训练装置的示例电子设备的示意性框图；

图2示出了根据本发明一个实施例的实例分割模型的训练方法的示意性流程图；

图3示出了根据本发明另一个实施例的实例分割模型的训练方法的示意图；

图4示出了根据本发明一个实施例的实例分割模型的训练装置的示意性框图；以及

图5示出了根据本发明一个实施例的实例分割模型的训练系统的示意性框图。

具体实施方式

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

为了解决上文所述的问题，提升实例分割模型的自主学习能力，本发明实施例提供一种实例分割模型的训练方法。该方法既不借助人工标注的像素级别的标注信息，也不依赖于颜色等与目标有关的先验信息。通过数据增强手段，使得实例分割模型对目标主体和边缘有更强的自主学习能力。

首先，参照图1来描述用于实现根据本发明实施例的实例分割模型的训练方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104。可选地，电子设备100还可以包括输入装置106和输出装置108，这些组件通过总线系统110和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备也可以具有其他组件和结构。

处理器102可以采用微处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现。处理器102也可以是中央处理单元(CPU)、图形处理器(GPU)、专用的集成电路(ASIC)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制电子设备100中的其它组件以执行期望的功能。

存储装置104可以包括一个或多个计算机程序产品。计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行该程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令或图像的装置，并且可以包括键盘、鼠标、麦克风、触摸屏和图像采集装置等中的一个或多个。图像采集装置可以采集图像(包括静态图像和视频帧)，并且将采集的图像存储在存储装置104中以供其它组件使用。图像采集装置可以是单独的相机、移动终端中的摄像头或抓拍机中的图像传感器。

输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。可选地，输入装置106和输出装置108可以集成在一起，采用同一交互装置(例如触摸屏)实现。

示例性地，用于实现根据本发明实施例的实例分割模型的训练方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面将参考图2描述根据本发明实施例的实例分割模型的训练方法。图2示出了根据本发明一个实施例的实例分割模型的训练方法200的示意性流程图。如图2所示，方法200包括以下步骤。

步骤S210，获取训练图像和对应的标注数据。标注数据包括训练图像中目标的真实包围框的位置信息。

训练图像可以是任何适用于进行实例分割的图像。训练图像可以是摄像头等图像采集装置采集到的原始图像或对原始图像进行预处理之后获得的图像。该预处理操作可以包括为了更清楚的进行实例分割的所有操作。例如，预处理操作可以包括滤波等去噪操作。训练图像可以由电子设备100的输入装置106输入传送到处理器102进行处理。

训练图像中包括实例分割的目标。例如，训练图像中的一个人或一辆车等都可以作为一个目标。训练图像中的每个目标均有对应的标注数据。标注数据可以通过例如人工或机器标注而获得。标注数据可以包括目标的真实包围框的位置信息。标注数据是对训练图像中的目标进行的准确标注。例如，真实包围框可以是矩形框，其位置信息可以是矩形框上任意一对非相邻顶点的位置坐标。在多实例学习中，对于一组集合，如果其中包含正例样本，则这组集合标记为正例；如果不存在任何一个正例样本，则标记为负例。针对训练图像中的某个目标，对于训练图像中的每个像素，如果该像素属于该目标，则该像素为该目标的正例样本；如果该像素不属于该目标，则该像素为该目标的负例样本。在标注的真实包围框中，框中的每一行和每一列都包含正例样本，而框外部的样本对于该目标来说一定是负例样本。因此，利用真实包围框可以对像素级别的实例分割结果进行监督。可以理解，根据目标的形状，真实包围框也可以是椭圆等其他形状。

步骤S220，对训练图像执行仿射变换操作，以获得变换后的训练图像。

示例性地，仿射变换包括以下操作中的一种或多种：旋转操作、错切操作、平移操作和缩放操作。旋转操作是指对训练图像中的所有像素点同时进行顺时针或逆时针旋转一定的角度的操作。错切操作是指沿着某一方向，按照一定的比例对训练图像的每个像素点到某条平行该方向的直线的有向距离进行放缩，使得训练图像产生形变的操作。平移操作是指对训练图像中的所有像素点进行水平方向即x轴方向和/或垂直方向即y轴方向移动一定的距离的操作。缩放操作是指对训练图像中的所有像素点的位置坐标，即x坐标和/或y坐标进行相同或不同比例缩放的操作。可以理解，当x坐标和y坐标进行相同比例的缩放，那么所得变换后的训练图像没有产生形变，只是训练图像整体被放大或缩小了。当x坐标和y坐标进行不同比例的缩放，那么所得变换后的训练图像产生了形变，可能沿水平或垂直方向被拉长或缩短了。

图3示出了根据本发明一个实施例的实例分割模型的训练方法的示意图。如图3中所示，对于左上角的训练图像执行顺时针旋转25度的操作，获得左下角的变换后的训练图像。

上述仿射变换操作不仅计算量小，而且准确度高，进而能够保证所训练的实例分割模型的准确度。

示例性地，仿射变换操作还包括多次不同操作。不同操作可以是不同种的操作，例如上述旋转操作和平移操作；也可以是虽然同种但是不同变换参数的操作。换言之，在对训练图像执行同一种的仿射变换操作时，改变其中一个或多个变换参数即认为是执行了不同的操作。例如，对训练图像执行一次顺时针旋转20度的旋转操作得到变换后的训练图像A。再对同一训练图像执行一次顺时针旋转50度的旋转操作又得到变换后的训练图像B。虽然这两次操作的种类没有变化，均是进行了旋转操作，但旋转的角度发生了变化，可以将这两次操作认为是不同的操作。可以理解，当操作的种类不变，仅改变操作的变换参数时，所得到的多个变换后的训练图像可以与训练图像共同组成一组训练样本。可以通过改变变换参数来增加每一组训练样本中的样本数量。在该示例中，变换后的训练图像A、变换后的训练图像B和训练图像可以作为一组训练样本。

对训练图像执行不同种类的仿射变换操作，可以得到多种不同的变换后的训练图像。可以理解，在对实例分割模型的进行训练的过程中，训练样本的组别越多，对训练图像的数据增强作用越大，训练出的实例分割模型的效果越好，泛化性越强。

步骤S230，将训练图像输入实例分割模型，以对训练图像进行实例分割并获得第一预测掩码。

示例性地，实例分割模型可以利用神经网络来实现。例如，卷积神经网络(CNN)、全卷积网络(FCN)或基于区域的CNN网络(R-CNN)等。这些神经网络又可以分别构成一路或多路网络。

为描述方便，以双路网络为例来说明实例分割模型，两路网络共享权重和网络结构。如图3所示，可以将训练图像作为第一路网络(path1)的输入，通过神经网络对训练图像进行实例分割，进而输出训练图像中的目标的第一预测掩码，记为M^path1。第一预测掩码可以是具有不规则形状的用于对每个目标进行遮挡的图像或图形等。第一预测掩码可以用于表示训练图像中的所有目标，不同目标具有不同的预测掩码。针对训练图像中的每个目标来说，可以存在一个或者多个掩码。

步骤S240，与步骤S230类似地，将变换后的训练图像也输入实例分割模型，以对变换后的训练图像进行实例分割并获得第二预测掩码。

虽然如前所述，可以对训练图像进行多次仿射变换操作，为了描述简单，在此实施例中，以对训练图像进行一次仿射变换操作为例进行说明。

类似地，可以将变换后的训练图像作为第二路网络(path2)的输入。第二路网络与上述第一路网络共享权重和网络结构。利用该第二路网络来对变换后的训练图像进行实例分割，以输出该图像中的目标的第二预测掩码，记为M^path2。类似地，第二预测掩码也可以是具有不规则形状的用于对每个目标进行遮挡的图像或图形等。第二预测掩码可以用于表示变换后的训练图像中的所有目标。针对变换后的训练图像中的每个目标来说，可以存在一个或者多个掩码。由于第一路网络和第二路网络共享权重和网络结构，因此不会影响网络的推断过程，没有引入额外的推断计算量，也没有增加网络推理时间。

步骤S250，对第一预测掩码执行与训练图像所执行的相同的仿射变换操作，以获得变换后的掩码。

如前文所述，仿射变换操作可以包括旋转操作、错切操作、平移操作和缩放操作中的一种或多种。在前文已经对这些操作进行了相关描述，为了简洁，在此不再赘述。为了使变换后的掩码与变换后的训练图像在空间上对齐。因此，可以对第一预测掩码执行与训练图像相同的仿射变换操作。

步骤S260，基于真实包围框、第一预测掩码、变换后的掩码和第二预测掩码确定主损失函数的函数值。

可以将真实包围框作为第一路网络的预测结果(即第一预测掩码)的监督信号。可以将变换后的掩码作为第二路网络的预测结果(即第二预测掩码)的监督信号。综合这四个参量来确定主损失函数的函数值。主损失函数是实例分割模型的评估指标。主损失函数的函数值越小，表明实例分割模型在该样本预测上的匹配程度越高。该主损失函数不仅包含第一路网络的预测质量信息，还包含第二路网络的预测质量信息。第二路网络的预测对于第一路网络的预测起到了增强的作用。利用该主损失函数训练得到的实例分割模型不仅对于训练图像是性能较佳的，对于变换后的训练图像也是性能较佳的。由此，该方案中，利用数据增强的方式加强了实例分割模型的目标边缘学习能力。

步骤S270，基于主损失函数的函数值训练实例分割模型。

基于主损失函数的函数值可以多次调整实例分割模型的参数。可以通过主损失函数的函数值或者训练次数作为训练结束条件。通过不断的训练，可以使实例分割模型的预测结果越来越准确。对于输入到该实例分割模型的任何图像，都可以得到更准确的实例分割结果。

可以理解，上述技术方案仅用于示意，而不构成对本发明的限制。例如，步骤S220和步骤S230的先后顺序可以交换。上述方案中的顺序仅仅是示例性地，而不是对实际训练过程中步骤顺序的限定。

在上述技术方案中，采用包围框标注来替代像素级别的标注，大大降低了人工标注成本，缩短了标注周期。同时，不依赖于与目标有关的先验信息，仅通过仿射变换操作来实现对实例分割模型的训练的增强。不仅提升了实例分割模型自主学习能力，还增强了其泛化性，减小了受图像或目标的明暗差异等因素影响的程度，其能够获得更准确的实例分割结果。

示例性地，基于真实包围框和第一预测掩码可以计算第一主导损失函数的函数值。第一主导损失函数的函数值可以表示第一预测掩码与真实包围框之间的偏差。真实包围框作为第一预测掩码的监督信号。第一主导损失函数的函数值越小，则第一预测掩码与真实包围框的偏差越小，第一预测掩码越准确；否则，反之。

基于变换后的掩码和第二预测掩码可以计算第二主导损失函数的函数值。第二主导损失函数的函数值可以表示第二预测掩码与变换后的掩码之间的偏差。变换后的掩码作为第二预测掩码的监督信号。第二主导损失函数的函数值越小，第二预测掩码的形状和/或面积等越接近变换后的掩码，进而第二预测掩码中像素点的预测更准确，偏移量更小。

可以基于第一主导损失函数的函数值和第二主导损失函数的函数值计算主损失函数的函数值。可以理解，主损失函数的函数值越小可以表示实例分割模型的分割结果更准确，分割效果更优。该分割结果相比于真实目标，损失越小、偏移越小。

示例性地，可以将第一主导损失函数的函数值和第二主导损失函数的函数值简单相加求和得到主损失函数的函数值。替代地，还可以对第一主导损失函数的函数值和第二主导损失函数的函数值进行加权求和，以获得主损失函数的函数值。在一个示例中，相对于第二主导损失函数的函数值来说，第一主导损失函数的函数值对最终的训练结果影响更大。那么在计算主损失函数的函数值的过程中，可以对第一主导损失函数的函数值和第二主导损失函数的函数值分别赋予不同的权重系数，再进行求和。第一主导损失函数的函数值的权重系数大于第二主导损失函数的函数值的权重系数。二者的权重系数可以根据多次重复实验得出，在此不做限定。

上述技术方案中，分别考虑训练图像实例分割效果和变换后的训练图像的实例分割效果，并且对第一主导损失函数的函数值和第二主导损失函数的函数值进行加权求和。这不仅综合考虑了训练图像和变换后的训练图像，还充分考虑到二者在总体上的相对重要性。可以根据期望，使得得到的主损失函数的函数值可以有所偏重地表示训练结果，进而使得对实例分割模型的训练效果更符合期望。

基于真实包围框和第一预测掩码计算第一主导损失函数的函数值可以通过任何现有的或未来研发的技术实现。

示例性地，首先，对于训练图像中的每个目标，基于该目标的真实包围框和第i个第一预测掩码

计算该目标的子目标函数

的函数值，其中box表示真实包围框。然后，根据该目标的所有子目标函数的函数值利用如下公式计算该目标的第一主导损失函数

的函数值，其中，N表示该目标的第一预测掩码的个数。

第一主导损失函数可以是多实例学习损失函数。例如，多实例学习损失函数可以采用投影损失函数等形式实现，通过将真实目标框和第一预测掩码分别在图像的x轴和y轴的加权响应作为投影信号，进一步对x轴和y轴的投影信号采用分类的损失函数进行监督。分类的损失函数可以采用交叉熵损失函数(Cross Entropy Loss)、聚焦损失函数(FocalLoss)、相似度损失函数(Dice Loss)等。

示例性地，基于变换后的掩码和第二预测掩码计算第二主导损失函数的函数值通过以下方案实现。对于训练图像中的每个目标，首先，基于该目标的第i个第一预测掩码

经该次仿射变换操作所获得的变换后的掩码

以及对训练图像执行该次仿射变换操作后进行实例分割所获得的该目标的第j个第二预测掩码

计算该目标的子目标函数

的函数值；然后，根据该目标的所有子目标函数的函数值利用如下公式计算该目标的第二主导损失函数

的函数值，其中，N表示该目标的第一预测掩码的个数，M表示对训练图像执行该次仿射变换操作后进行实例分割所获得的该目标的第二预测掩码的个数。

如上所述，针对训练图像或变换后的训练图像中的每个目标可以有多个第一或第二预测掩码。例如，对于训练图像中的某一目标来说，一共有N个第一预测掩码，其中

表示第i个第一预测掩码。对

执行仿射变换操作，以得到变换后的掩码

对训练图像执行相同的仿射变换操作，以获得变换后的训练图像。之后将变换后的训练图像输入到实例分割模型中进行实例分割，以获得第二预测掩码。针对同一目标，一共有M个第二预测掩码，其中

表示第j个第二预测掩码。由于仿射变换操作可能有图像的信息量损失，所以M≤N。

表示该目标的第i个变换后的掩码与第j个第二预测掩码之间的损失函数。可以将该目标的N个变换后的掩码与M个第二预测掩码的损失函数的函数值进行累加，并将加和作为该目标的第二主导损失函数的函数值。

上述计算第二主导损失函数的函数值的方式，计算量小，计算结果准确。由此，有效帮助实例分割模型的训练。

示例性地，第二主导损失函数可以是多实例学习损失函数或像素级别损失函数。例如，如在关于第一主导损失函数的相关描述中所言，多实例学习损失函数可以采用投影损失函数等形式实现。像素级别损失函数也可以基于像素计算交叉熵损失函数、聚焦损失函数或相似度损失函数等。这些损失函数更适用于实例分割模型的训练，能够得到更准确的实例分割模型。

示例性地，计算第二主导损失函数的函数值所根据的子目标函数可以根据以下公式获得：

表示基于

投影到x轴所获得的响应函数

和

投影到x轴所获得的响应函数

所计算的x轴损失函数；

表示基于

投影到y轴所获得的响应函数

和

投影到y轴所获得的响应函数

所计算的y轴损失函数。f_x和f_y分别是将参数掩码投影到x轴和y轴的响应函数，其可以是最大值函数(max)或激活函数(softmax)等，用于表示每行或每列像素的分割置信度响应。

基于上述公式得到的子目标函数是一种投影损失函数。基于投影损失函数的函数值训练实例分割模型，可以对实例分割结果的边缘不精确进行优化。

再次参考图3，以双路网络为例，将训练图像输入实例分割模型的第一路网络，在获得第一预测掩码之前，可以获得目标的第一包围框和第一包围框的得分。根据第一包围框和第一包围框的得分，可以确定第一预测掩码。具体地，第一路网络可以首先提取训练图像的图像特征，然后根据所提取的特征预测目标的第一包围框和第一包围框的得分。与第一预测掩码类似的，对于每个目标可能存在多个第一包围框，这多个包围框可以分别对应不同的目标类别。第一包围框的得分是该包围框中的目标属于对应类别的得分。可以理解，第一包围框的得分越高，说明其中的目标属于此目标类别的可能性越大。示例性地，可以将第一包围框、第一包围框的得分和之前提取的图像特征等输入到神经网络中以获得第一预测掩码。

该技术方案所训练的实例分割模型采用自上而下的实例分割方法，首先通过目标检测的方法预测实例所在的区域，即第一包围框，然后再根据实例的特征进行语义分割。由此，所训练的实例分割模型不仅能够适应同一图像中存在多种不同目标的情况，而且在不增加网络推理时间的情况下，还提供了图像的回归和分类预测结果，应用场景更多。

示例性地，基于真实包围框、第一包围框和第一包围框的得分可以确定第一辅助损失函数的函数值。第一辅助损失函数的函数值可以表示第一包围框相对于真实包围框的偏差。在此，真实包围框作为监督信号。第一辅助损失函数的函数值越小可以表示第一包围框中目标的像素点的分类、回归预测更准确，偏移量更小。对于第一包围框和第一包围框的得分，第一辅助损失函数可以分别采用回归的损失函数和分类的损失函数。回归的损失函数可以采用欧氏距离(L2 distance)损失函数、候选框和真实框的交并比损失函数(IOULoss)等。分类的损失函数可以采用交叉熵损失函数、聚焦损失函数等。在此不对具体损失函数做任何限制。训练实例分割模型除了基于上述主损失函数的函数值，还可以同时基于第一辅助损失函数的函数值。例如，可以将第一辅助损失函数的函数值与主损失函数的函数值相加得到一个新的损失函数的函数值，基于这个新的损失函数的函数值对实例分割模型进行训练。

由此，为实例分割模型的准确性提供了多一层的保障，进一步提升了实例分割模型的性能。

示例性地，将变换后的训练图像输入实例分割模型的第二路网络，可以获得目标的第二包围框和第二包围框的得分。根据第二包围框和第二包围框的得分，可以确定上述第二预测掩码。此过程与上述第一路网络的处理类似，为了简洁在此不再赘述。

图3中还示出了确定变换后的掩码的最小包围框这一步骤。如前文所述，对第一预测掩码执行仿射变换操作后，可以得到变换后的掩码。并且变换后的掩码与变换后的训练图像在空间上是对齐的。可以对变换后的掩码执行提取并确定最小包围框的操作。最小包围框可以是变换后的掩码的最小外接矩形框，可以用坐标形式对其进行表示。例如，x-y坐标。基于最小包围框、第二包围框和第二包围框的得分可以确定第二辅助损失函数的函数值。此时，最小包围框作为监督信号。第二辅助损失函数的函数值可以表示第二包围框相对于最小包围框的偏差。第二辅助损失函数的函数值越小可以表示第二包围框中目标的像素点的分类、回归预测更准确，偏移量更小。与第一辅助损失函数类似地，对于第二包围框和第二包围框的得分，第二辅助损失函数可以分别采用回归的损失函数和分类的损失函数。分类的损失函数可以采用交叉熵损失函数、聚焦损失函数、相似度损失函数等，回归的损失函数可以采用欧氏距离、候选框和真实框的交并比损失函数等。训练实例分割模型还可以同时基于第二辅助损失函数的函数值。同样地，可以将第二辅助损失函数的函数值与主损失函数的函数值或主损失函数的函数值和第一辅助损失函数的函数值的和相加得到另一个新的损失函数的函数值，基于这个新的损失函数的函数值对实例分割模型进行训练。

由此，通过最小包围框监督第二预测掩码的分类和回归预测，进一步提升了实例分割模型的自主学习能力，提高了性能，保证了实例分割模型的准确性。

可以理解，在上面的描述中，为了简洁以实例分割模型为双路网络进行阐述。如前所述，仿射变换操作可以包括多次不同操作。对于n次不同操作的情况，实例分割模型可以包括n路共享权重的网络。通过对训练图像执行多次不同仿射变换操作可以得到多个不同的变换后的训练图像。每一路网络包括对对应的变换后的训练图像执行类似操作。在最后计算损失函数的函数值时，可以将各路网络所获得的主导损失函数的函数值和/或辅助损失函数的函数值综合在一起，例如通过相加操作，以使各路网络的数据一并训练实例分割模型。从而，得到泛化能力更强，分割效果更优的实例分割模型。

根据本发明另一方面，提供一种实例分割模型的训练装置。图4示出了根据本发明一个实施例的实例分割模型的训练装置400的示意性框图。

如图4所示，装置400包括获取模块410、图像变换模块420、第一实例分割模块430、第二实例分割模块440、掩码变换模块450、损失确定模块460和训练模块470。所述各个模块可分别执行上文中所述的实例分割模型的训练方法的各个步骤/功能。以下仅对该装置400的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块410用于获取训练图像和对应的标注数据。其中标注数据包括训练图像中目标的真实包围框的位置信息。获取模块410可以由图1所示的电子设备中的输入装置106来实现。

图像变换模块420用于对训练图像执行仿射变换操作，以获得变换后的训练图像。图像变换模块420可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

第一实例分割模块430用于将训练图像输入实例分割模型，以对训练图像进行实例分割并获得第一预测掩码。第一实例分割模块430可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

第二实例分割模块440用于将变换后的训练图像输入实例分割模型，以对变换后的训练图像进行实例分割并获得第二预测掩码。第二实例分割模块440可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

掩码变换模块450用于对第一预测掩码执行仿射变换操作，以获得变换后的掩码。掩码变换模块450可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

损失确定模块460用于基于真实包围框、第一预测掩码、变换后的掩码和第二预测掩码确定主损失函数的函数值。损失确定模块460可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

训练模块470用于基于主损失函数的函数值训练实例分割模型。训练模块470可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

根据本发明的又一方面，提供了一种实例分割模型的训练系统。图5示出了根据本发明一个实施例的实例分割模型的训练系统500的示意性框图。如图5所示，系统500包括输入装置510、存储器520、处理器530。

输入装置510用于接收用户所输入的变换参数以及采集或获取图像。输入装置510可以包括键盘、鼠标、麦克风、触摸屏和图像采集装置等中的一个或多个。

存储器520存储有用于实现根据本发明实施例的实例分割模型的训练方法中的相应步骤的计算机程序指令。

处理器530用于运行所述存储器520中存储的计算机程序指令，以执行根据本发明实施例的实例分割模型的训练方法的相应步骤，并且用于实现根据本发明实施例的实例分割模型的训练装置中的获取模块410、图像变换模块420、第一实例分割模块430、第二实例分割模块440、掩码变换模块450、损失确定模块460和训练模块470。

根据本发明再一方面，还提供了一种存储介质。在存储介质上存储了程序指令，在程序指令被计算机或处理器运行时使得计算机或处理器执行本发明实施例的实例分割模型的训练方法的相应步骤，并且用于实现根据本发明实施例的实例分割模型的训练装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的实例分割模型的训练装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种实例分割模型的训练方法，包括：

获取训练图像和对应的标注数据，其中所述标注数据包括所述训练图像中目标的真实包围框的位置信息；

对所述训练图像执行仿射变换操作，以获得变换后的训练图像；

将所述训练图像输入所述实例分割模型，以对所述训练图像进行实例分割并获得第一预测掩码；

将所述变换后的训练图像输入所述实例分割模型，以对所述变换后的训练图像进行实例分割并获得第二预测掩码；

对所述第一预测掩码执行所述仿射变换操作，以获得变换后的掩码；

基于所述真实包围框、所述第一预测掩码、所述变换后的掩码和所述第二预测掩码确定主损失函数的函数值；以及

基于所述主损失函数的函数值训练所述实例分割模型。

2.如权利要求1所述的方法，其中，所述将所述训练图像输入所述实例分割模型以对所述训练图像进行实例分割并获得第一预测掩码，包括：

将所述训练图像输入所述实例分割模型，获得所述目标的第一包围框和所述第一包围框的得分；以及

根据所述第一包围框和所述第一包围框的得分，确定所述第一预测掩码。

3.如权利要求2所述的方法，其中，所述方法还包括：

基于所述真实包围框、所述第一包围框和所述第一包围框的得分确定第一辅助损失函数的函数值；

其中，所述训练所述实例分割模型还同时基于所述第一辅助损失函数的函数值。

4.如权利要求1至3任一项所述的方法，其中，

所述将所述变换后的训练图像输入所述实例分割模型以对所述变换后的训练图像进行实例分割并获得第二预测掩码，包括：

将所述变换后的训练图像输入所述实例分割模型，获得所述目标的第二包围框和所述第二包围框的得分；以及

根据所述第二包围框和所述第二包围框的得分，确定所述第二预测掩码；

所述方法还包括：

确定所述变换后的掩码的最小包围框；以及

基于所述最小包围框、所述第二包围框和所述第二包围框的得分确定第二辅助损失函数的函数值；

其中，所述训练所述实例分割模型还同时基于所述第二辅助损失函数的函数值。

5.如权利要求1至3任一项所述的方法，其中，所述基于所述真实包围框、所述第一预测掩码、所述变换后的掩码和所述第二预测掩码确定主损失函数的函数值包括：

基于所述真实包围框和所述第一预测掩码计算第一主导损失函数的函数值；

基于所述变换后的掩码和所述第二预测掩码计算所述第二主导损失函数的函数值；以及

基于所述第一主导损失函数的函数值和所述第二主导损失函数的函数值计算所述主损失函数的函数值。

6.如权利要求5所述的方法，其中，所述基于所述变换后的掩码和所述第二预测掩码计算所述第二主导损失函数的函数值包括：针对每次仿射变换操作且对于所述训练图像中的每个目标，

基于该目标的第i个第一预测掩码

经该次仿射变换操作所获得的变换后的掩码

以及对所述训练图像执行该次仿射变换操作后进行实例分割所获得的该目标的第j个第二预测掩码

计算该目标的子目标函数

的函数值；以及

根据该目标的所有子目标函数的函数值利用如下公式计算该目标的第二主导损失函数的函数值：

其中，N表示该目标的第一预测掩码的个数，M表示对所述训练图像执行该次仿射变换操作后进行实例分割所获得的该目标的第二预测掩码的个数。

7.如权利要求6所述的方法，其中，所述子目标函数的函数值根据以下公式计算：

其中，

表示基于

投影到x轴所获得的响应函数

和

投影到x轴所获得的响应函数

所计算的x轴损失函数；

表示基于

投影到y轴所获得的响应函数

和

投影到y轴所获得的响应函数

所计算的y轴损失函数。

8.如权利要求5所述的方法，其中，所述第二主导损失函数是多实例学习损失函数或像素级别损失函数。

9.如权利要求5所述的方法，其中，所述基于所述第一主导损失函数的函数值和所述第二主导损失函数的函数值计算所述主损失函数的函数值包括：

对所述第一主导损失函数的函数值和所述第二主导损失函数的函数值进行加权求和，以获得所述主损失函数的函数值。

10.如权利要求1至3任一项所述的方法，其中，所述仿射变换操作包括多次不同操作。

11.如权利要求1至3任一项所述的方法，其中，所述仿射变换操作包括以下操作中的一种或多种：旋转操作、错切操作、平移操作和缩放操作。

12.一种实例分割模型的训练装置，包括：

获取模块，用于获取训练图像和对应的标注数据，其中所述标注数据包括所述训练图像中目标的真实包围框的位置信息；

图像变换模块，用于对所述训练图像执行仿射变换操作，以获得变换后的训练图像；

第一实例分割模块，用于将所述训练图像输入所述实例分割模型，以对所述训练图像进行实例分割并获得第一预测掩码；

第二实例分割模块，用于将所述变换后的训练图像输入所述实例分割模型，以对所述变换后的训练图像进行实例分割并获得第二预测掩码；

掩码变换模块，用于对所述第一预测掩码执行所述仿射变换操作，以获得变换后的掩码；

损失确定模块，用于基于所述真实包围框、所述第一预测掩码、所述变换后的掩码和所述第二预测掩码确定主损失函数的函数值；以及

训练模块，用于基于所述主损失函数的函数值训练所述实例分割模型。

13.一种实例分割模型的训练系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至11任一项所述的实例分割模型的训练方法。

14.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1至11任一项所述的实例分割模型的训练方法。