CN112085739B

CN112085739B - 基于弱监督的语义分割模型的训练方法、装置及设备

Info

Publication number: CN112085739B
Application number: CN202010844279.7A
Authority: CN
Inventors: 郭闯世; 邵新庆; 刘强; 徐�明
Original assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Current assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2024-05-24
Anticipated expiration: 2040-08-20
Also published as: CN112085739A

Abstract

本发明提供一种基于弱监督的语义分割模型的训练方法、装置及设备。该方法采用多个预先标注有矩形框标签的训练图像对语义分割模型进行训练，针对每一个训练图像，训练步骤包括：对训练图像的矩形框标签进行编码，得到编码后的标签数据；将训练图像和编码后的标签数据输入至预先训练好的辅助分割网络，得到训练图像的特征图；将训练图像的特征图输入校正网络，得到训练图像的像素级语义分割结果；根据训练图像和训练图像的像素级语义分割结果对语义分割模型进行训练。本发明提供的方法，依据矩形框标签提供的弱监督信息，通过辅助分割网络和校正网络获取像素级语义分割结果，对语义分割模型进行训练，使得语义分割模型的精度得以提升。

Description

基于弱监督的语义分割模型的训练方法、装置及设备

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于弱监督的语义分割模型的训练方法、装置及设备。

背景技术

语义分割作为计算机视觉的一个重要分支，无论是在学术界还是在工业生产中都有着广泛的应用场景。语义分割致力于预测图像中每个像素点的物体类别，以实现对图像精确、稠密的像素级理解，因此需要像素级标注的训练数据来对语义分割模型进行训练。

由于像素级标注成本耗费巨大，因此为了降低标注成本，通常会采用简化的标注方法，如通过矩形框标签对训练数据进行标注。现有模型训练方法依赖于像素级标注信息，无法基于矩形框标签等弱监督信息获得高精度的语义分割模型。

发明内容

本发明实施例提供一种基于弱监督的语义分割模型的训练方法、装置及设备，用以解决现有训练方法基于弱监督信息训练得到的语义分割模型精度低的问题。

第一方面，本发明实施例提供一种基于弱监督的语义分割模型的训练方法，所述方法采用多个预先标注有矩形框标签的训练图像对语义分割模型进行训练，针对每一个训练图像，训练步骤包括：

对训练图像的矩形框标签进行编码，得到编码后的标签数据；

将训练图像和编码后的标签数据输入至预先训练好的辅助分割网络，得到训练图像的特征图；

将训练图像的特征图输入校正网络，得到训练图像的像素级语义分割结果；

根据训练图像和训练图像的像素级语义分割结果对语义分割模型进行训练。

一种实施例中，对训练图像的矩形框标签进行编码包括：

使用尺寸为H×W×(C+1)的二进制掩码对训练图像进行编码，在每个类别通道上，将属于该类别的像素点置为1，其他像素点置为0，其中，H为训练图像的高，W为训练图像的宽，C为语义分割模型输出的总类别数，1代表背景通道。

一种实施例中，校正网络包括两个并列的卷积分支，每个卷积分支由多个卷积层组成；校正网络的输出包括分类分支、质心分支和回归分支，分类分支用于输出训练图像中各个像素点的类别分类，质心分支用于输出训练图像中各个像素点的中心度，回归分支用于对以训练图像中各个像素点为端点的线段进行回归。

一种实施例中，辅助分割网络采用快速全卷积网络或者金字塔场景解析网络。

一种实施例中，根据训练图像和训练图像的像素级语义分割结果对语义分割模型进行训练包括：

将训练图像的像素级语义分割结果作为语义分割模型的训练标签，计算交叉熵损失；

根据交叉熵损失对语义分割模型进行梯度回传，以调整语义分割模型的网络参数。

一种实施例中，根据如下算式计算交叉熵损失：

其中，L表示交叉熵损失，N为训练样本总数，I表示一个训练图像中的像素总数，C为语义分割模型输出的总类别数，y_ic表示第i个像素类别为c的真实标签的值，p_ic表示第i个像素预测为类别c的预测结果值。

一种实施例中，所述方法还包括：

迭代执行训练步骤，直至语义分割模型的训练结果满足预设收敛条件。

第二方面，本发明实施例提供一种基于弱监督的语义分割模型的训练装置，所述装置采用多个预先标注有矩形框标签的训练图像对语义分割模型进行训练，包括：

编码模块，用于对训练图像的矩形框标签进行编码，得到编码后的标签数据；

辅助分割模块，用于将训练图像和编码后的标签数据输入至预先训练好的辅助分割网络，得到训练图像的特征图；

校正模块，用于将训练图像的特征图输入校正网络，得到训练图像的像素级语义分割结果；

训练模块，用于根据训练图像和训练图像的像素级语义分割结果对语义分割模型进行训练。

第三方面，本发明实施例提供一种电子设备，包括：

至少一个处理器和存储器；

存储器存储计算机执行指令；

至少一个处理器执行存储器存储的计算机执行指令，使得至少一个处理器执行如第一方面任一项所述的基于弱监督的语义分割模型的训练方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现如第一方面任一项所述的基于弱监督的语义分割模型的训练方法。

本发明实施例提供的基于弱监督的语义分割模型的训练方法、装置及设备，采用多个预先标注有矩形框标签的训练图像对语义分割模型进行训练，针对每一个训练图像，训练步骤包括：对训练图像的矩形框标签进行编码，得到编码后的标签数据；将训练图像和编码后的标签数据输入至预先训练好的辅助分割网络，得到训练图像的特征图；将训练图像的特征图输入校正网络，得到训练图像的像素级语义分割结果；根据训练图像和训练图像的像素级语义分割结果对语义分割模型进行训练。本发明提供的方法，依据矩形框标签提供的弱监督信息，通过辅助分割网络和校正网络获取像素级语义分割结果，对语义分割模型进行训练，使得语义分割模型的精度得以提升。

附图说明

图1为本发明提供的基于弱监督的语义分割模型的训练方法一实施例的流程图；

图2为本发明一实施例提供的对矩形框标签进行编码的示意图；

图3为本发明一实施例提供的校正网络的结构示意图；

图4为图3所示校正网络进行校正的原理示意图；

图5为采用图3所示的校正网络获取像素级语义分割结果的示意图；

图6为本发明一实施例提供的训练过程的流程示意图；

图7为本发明提供的基于弱监督的语义分割模型的训练装置一实施例的结构示意图；

图8为本发明提供的电子设备一实施例的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

本发明提供的语义分割模型的训练方法可以基于弱监督信息，如矩形框标签信息训练出高精度的语义分割模型。该方法可以采用多个预先标注有矩形框标签的训练图像对语义分割模型进行训练，而本申请重点阐述使用一个训练图像对语义分割模型进行训练的过程。可以理解的是，训练过程需要使用大量的训练图像，训练图像的数量越多，覆盖面越广，训练得到的语义分割模型越精确。本发明实施例对训练图像的数量不作限制。

图1为本发明提供的基于弱监督的语义分割模型的训练方法一实施例的流程图。如图1所示，本实施例提供的方法可以包括：

S101、对训练图像的矩形框标签进行编码，得到编码后的标签数据。

本实施例中训练图像的矩形框标签通常包括矩形框的位置信息和对应的类别信息。一种可选的实施方式中，对训练图像的矩形框标签进行编码可以包括：使用尺寸为H×W×(C+1)的二进制掩码对训练图像进行编码，在每个类别通道上，将属于该类别的像素点置为1，其他像素点置为0，其中，H为训练图像的高，W为训练图像的宽，C为语义分割模型输出的总类别数，1代表背景通道。

请参考图2，图2中从左至右依次为训练图像、训练图像的矩形框标签和编码后的标签数据。该示例中C＝2，分别为车和人。使用二进制掩码进行编码后，将得到图2最后侧所示的标签数据。

S102、将训练图像和编码后的标签数据输入至预先训练好的辅助分割网络，得到训练图像的特征图。

辅助分割网络可以根据应用场景选择不同的语义分割网络。可选的，辅助分割网络采用快速全卷积网络(FastFCN)或者金字塔场景解析网络(PSP)。

S103、将训练图像的特征图输入校正网络，得到训练图像的像素级语义分割结果。

本实施例中校正网络的输入为辅助分割网络最后一层所输出的特征图。在一种可选的实施方式中，校正网络可以包括两个并列的卷积分支，每个卷积分支由多个卷积层组成；校正网络的输出包括分类分支、质心分支和回归分支，分类分支用于输出训练图像中各个像素点的类别分类，质心分支用于输出训练图像中各个像素点的中心度，回归分支用于对以训练图像中各个像素点为端点的线段进行回归。请参考图3，校正网络的每个卷积分支包括m个卷积层，优选的，m＝4。

下面以图4为例，对图3所示校正网络进行校正的原理进行说明。本实施例将无锚点的思想应用于校正网络。图4中左侧图片示出了训练图像的矩形框标签，而语义分割需要更精确的边缘，矩形显然并不能满足条件。如图4中右图所示，采用了n条从物体中心点p到物体边缘的线段来描述物体区域，即需要预测的是点p以及n条线段的距离。具体地，以p为起点，以360/n度为间隔，选取n条线段。n越大，越能更精确的描述出物体的区域，同时计算量也会随之增加。校正网络需要预测的包括物体中心点p的位置及其类别，以及每个点p对应的n条线段的距离。

其中，分类分支(Classification)是对点p进行类别分类(数据集预定义类别)，总类别数为C。

回归(Mask Regression)分支是对n条线段的距离进行回归，即进行回归计算。以及根据预测结果计算交并比(Intersection over Union，简称：IOU)损失。例如可以映射到极坐标下，采用如下公式计算IOU：

其中，d_i表示实际标签中第i条线段的长度，表示预测得到的第i条线段的长度。则可得到IOU损失如下：

质心(Mass Center)分支是对点p中心度(centerness)的一种度量，并行于分类分支，中心度计算公式如下所示：

其中,d_i表示第i条线段的距离。由上式可知，越靠近边缘的点得分越低，越靠近中心的点得分越高。校正时，将预测的中心度与相应的分类分数相乘，计算最终得分。低质量的分割结果很可能被最终的非最大抑制(NMS)过程滤除，从而可以显著提高分割性能。

请参考图5，根据训练图像和编码后的标签数据，通过辅助分割网络和校正网络，便可以得到如图5右侧所示的像素级语义分割结果。

S104、根据训练图像和训练图像的像素级语义分割结果对语义分割模型进行训练。

请参考图6，根据训练图像和训练图像的像素级语义分割结果对语义分割模型进行训练可以包括：将训练图像的像素级语义分割结果作为语义分割模型的训练标签，计算交叉熵损失；根据交叉熵损失对语义分割模型进行梯度回传，以调整语义分割模型的网络参数。

可以根据如下算式计算交叉熵损失：

可以理解的，为了

一种实施例中，所述方法还可以包括：迭代执行训练步骤，直至语义分割模型的训练结果满足预设收敛条件。例如，预设收敛条件可以为达到预定迭代次数，当迭代次数达到预定迭代次数时，迭代过程结束。或者，预设收敛条件为初步结果与校正结果之间的差异收敛到一定程度，当满足该预设收敛条件时，迭代过程结束。

本实施例提供的训练方法，依据矩形框标签提供的弱监督信息，通过辅助分割网络和校正网络获取像素级语义分割结果，对语义分割模型进行训练，使得语义分割模型的精度得以提升。

图7为本发明提供的基于弱监督的语义分割模型的训练装置一实施例的结构示意图。如图7所述，本实施例提供的基于弱监督的语义分割模型的训练装置70采用多个预先标注有矩形框标签的训练图像对语义分割模型进行训练，具体可以包括：编码模块701、辅助分割模块702、校正模块703和训练模块704。

编码模块701，用于对训练图像的矩形框标签进行编码，得到编码后的标签数据；

辅助分割模块702，用于将训练图像和编码后的标签数据输入至预先训练好的辅助分割网络，得到训练图像的特征图；

校正模块703，用于将训练图像的特征图输入校正网络，得到训练图像的像素级语义分割结果；

训练模块704，用于根据训练图像和训练图像的像素级语义分割结果对语义分割模型进行训练。

本实施例提供的基于弱监督的语义分割模型的训练装置可用于执行图1对应的方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本发明实施例还提供一种电子设备，请参见图8所示，本发明实施例仅以图8为例进行说明，并不表示本发明仅限于此。图8为本发明提供的电子设备一实施例的结构示意图。如图8所示，本实施例提供的电子设备80可以包括：存储器801、处理器802和总线803。其中，总线803用于实现各元件之间的连接。

存储器801中存储有计算机程序，计算机程序被处理器802执行时可以实现上述任一方法实施例提供的基于弱监督的语义分割模型的训练方法的技术方案。

其中，存储器801和处理器802之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线803连接。存储器801中存储有实现基于弱监督的语义分割模型的训练方法的计算机程序，包括至少一个可以软件或固件的形式存储于存储器801中的软件功能模块，处理器802通过运行存储在存储器801内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器801可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(ProgrammableRead-Only Memory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器801用于存储程序，处理器802在接收到执行指令后，执行程序。进一步地，上述存储器801内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

处理器802可以是一种集成电路芯片，具有信号的处理能力。上述的处理器802可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(Network Processor，简称：NP)等。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以理解，图8的结构仅为示意，还可以包括比图8中所示更多或者更少的组件，或者具有与图8所示不同的配置。图8中所示的各组件可以采用硬件和/或软件实现。

需要说明的是，本实施例提供的电子设备包括但不限于以下中的至少一个：用户侧设备、网络侧设备。用户侧设备包括但不限于计算机、智能手机、平板电脑、个人数字助理等。网络侧设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机组成的一个超级虚拟计算机。

本文参照了各种示范实施例进行说明。然而，本领域的技术人员将认识到，在不脱离本文范围的情况下，可以对示范性实施例做出改变和修正。例如，各种操作步骤以及用于执行操作步骤的组件，可以根据特定的应用或考虑与系统的操作相关联的任何数量的成本函数以不同的方式实现(例如一个或多个步骤可以被删除、修改或结合到其他步骤中)。

另外，如本领域技术人员所理解的，本文的原理可以反映在计算机可读存储介质上的计算机程序产品中，该可读存储介质预装有计算机可读程序代码。任何有形的、非暂时性的计算机可读存储介质皆可被使用，包括磁存储设备(硬盘、软盘等)、光学存储设备(CD-ROM、DVD、Blu Ray盘等)、闪存和/或诸如此类。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器，使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定的功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中，该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行，这样存储在计算机可读存储器中的指令就可以形成一件制造品，包括实现指定功能的实现装置。计算机程序指令也可以加载到计算机或其他可编程数据处理设备上，从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程，使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种基于弱监督的语义分割模型的训练方法，其特征在于，所述方法采用多个预先标注有矩形框标签的训练图像对语义分割模型进行训练，针对每一个训练图像，训练步骤包括：

对所述训练图像的矩形框标签进行编码，得到编码后的标签数据；

将所述训练图像和所述编码后的标签数据输入至预先训练好的辅助分割网络，得到所述训练图像的特征图；

将所述训练图像的特征图输入校正网络，得到所述训练图像的像素级语义分割结果；其中，所述校正网络包括两个并列的卷积分支，每个卷积分支由多个卷积层组成；所述校正网络的输出包括分类分支、质心分支和回归分支，所述分类分支用于输出所述训练图像中各个像素点的类别分类，所述质心分支用于输出所述训练图像中各个像素点的中心度，所述回归分支用于对以所述训练图像中各个像素点为端点的线段进行回归；所述校正网络中采用了n条从物体中心点p到物体边缘的线段来描述物体区域，所述校正网络需要预测的包括物体中心点p的位置及其类别，以及每个点p对应的n条线段的距离；

根据所述训练图像和所述训练图像的像素级语义分割结果对所述语义分割模型进行训练。

2.如权利要求1所述的方法，其特征在于，所述对所述训练图像的矩形框标签进行编码包括：

使用尺寸为H×W×(C+1)的二进制掩码对所述训练图像进行编码，在每个类别通道上，将属于该类别的像素点置为1，其他像素点置为0，其中，H为训练图像的高，W为训练图像的宽，C为所述语义分割模型输出的总类别数，1代表背景通道。

3.如权利要求1所述的方法，其特征在于，所述辅助分割网络采用快速全卷积网络或者金字塔场景解析网络。

4.如权利要求1所述的方法，其特征在于，所述根据所述训练图像和所述训练图像的像素级语义分割结果对所述语义分割模型进行训练包括：

将所述训练图像的像素级语义分割结果作为所述语义分割模型的训练标签，计算交叉熵损失；

根据所述交叉熵损失对所述语义分割模型进行梯度回传，以调整所述语义分割模型的网络参数。

5.如权利要求4所述的方法，其特征在于，根据如下算式计算交叉熵损失：

其中，L表示交叉熵损失，N为训练样本总数，I表示一个训练图像中的像素总数，C为所述语义分割模型输出的总类别数，y_ic表示第i个像素类别为c的真实标签的值，p_ic表示第i个像素预测为类别c的预测结果值。

6.如权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

迭代执行所述训练步骤，直至所述语义分割模型的训练结果满足预设收敛条件。

7.一种基于弱监督的语义分割模型的训练装置，其特征在于，所述装置采用多个预先标注有矩形框标签的训练图像对语义分割模型进行训练，包括：

编码模块，用于对所述训练图像的矩形框标签进行编码，得到编码后的标签数据；

辅助分割模块，用于将所述训练图像和所述编码后的标签数据输入至预先训练好的辅助分割网络，得到所述训练图像的特征图；

校正模块，用于将所述训练图像的特征图输入校正网络，得到所述训练图像的像素级语义分割结果；其中，所述校正网络包括两个并列的卷积分支，每个卷积分支由多个卷积层组成；所述校正网络的输出包括分类分支、质心分支和回归分支，所述分类分支用于输出所述训练图像中各个像素点的类别分类，所述质心分支用于输出所述训练图像中各个像素点的中心度，所述回归分支用于对以所述训练图像中各个像素点为端点的线段进行回归；所述校正网络中采用了n条从物体中心点p到物体边缘的线段来描述物体区域，所述校正网络需要预测的包括物体中心点p的位置及其类别，以及每个点p对应的n条线段的距离；

训练模块，用于根据所述训练图像和所述训练图像的像素级语义分割结果对所述语义分割模型进行训练。

8.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-6任一项所述的基于弱监督的语义分割模型的训练方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-6任一项所述的基于弱监督的语义分割模型的训练方法。