CN111723813A

CN111723813A - 基于类内判别器的弱监督图像语义分割方法、系统、装置

Info

Publication number: CN111723813A
Application number: CN202010506805.9A
Authority: CN
Inventors: 张兆翔; 谭铁牛; 宋纯锋; 樊峻菘
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-09-29
Anticipated expiration: 2040-06-05
Also published as: WO2021243787A1; US20220180622A1; CN111723813B; US11887354B2

Abstract

本发明属于深度学习、计算机视觉及模式识别领域，具体涉及了一种基于类内判别器的弱监督图像语义分割方法、系统、装置，旨在解决弱监督采用的粗略标注带来的语义分割不准确的问题。本发明包括：为每个图像级的类别构建两级类内判别器，用以判断所属该图像类别的各像素点属于目标前景或是背景，并使用弱监督的数据进行训练；基于该类内判别器生成像素级的图像类别标签，生成语义分割结果并输出；还可以使用该标签进行图像语义分割模块或网络的训练，得到最终用于无标签输入图像的语义分割的模型。本发明充分挖掘隐含在特征编码中的类内图像信息，准确区分前景与背景像素，在仅依赖图像级标注的情况下，显著地提高弱监督语义分割模型的性能。

Description

基于类内判别器的弱监督图像语义分割方法、系统、装置

技术领域

本发明属于深度学习、计算机视觉和模式识别领域，具体涉及了一种基于类内判别器的弱监督图像语义分割方法、系统、装置。

背景技术

弱监督语义分割是一个应用广泛且具有挑战性的计算机视觉任务。语义分割任务通常需要利用大量人力时间完成训练图像的精细手工标注，然后进行深度学习网络的训练。而弱监督语义分割致力于仅采用平价易得的粗略标注进行深度学习网络的训练，从而减少对人工的依赖。由于仅采用粗略的标注，弱监督的语义分割通常面临目标预测不完整，定位不准确等问题。

目前，这一领域通常通过图像级的类别信息学得用于估计目标分割结果的模型。但这种模型较多关注于图像之间的差异，因此往往聚焦于最易识别的部分区域，难以得到关于整个物体的完整估计。

总的来说，现有技术图像级弱监督标注数据的情况下，难以得到较为完整的目标分割结果，从而导致弱监督语义分割下目标预测不完整，定位不准确等问题。

发明内容

为了解决现有技术中的上述问题，即弱监督采用的粗略标注带来的语义分割不准确的问题，本发明提供了一种基于类内判别器的弱监督图像语义分割方法，该语义分割方法包括：

通过特征提取网络提取待处理图像的特征图，并通过图像语义分割模块获取所述待处理图像的图像语义分割结果；所述图像语义分割模块基于训练图像集和对应的精确像素级类别标签训练获取；

所述精确像素级类别标签基于训练图像集和对应的图像级类别标签，通过第一类内判别器和第二类内判别器获取；所述第一类内判别器和第二类内判别器分别基于深度网络构建，其训练方法为：

步骤S10，通过特征提取网络提取训练图像集中每一个图像的特征图，获得训练特征图集；分别构建第一类内判别器、第二类内判别器的第一损失函数、第二损失函数；

步骤S20，基于所述训练特征图集、对应的图像级类别标签以及第一损失函数进行所述第一类内判别器的训练，获得所述训练图像集中每一个图像各类别的初步像素级前景和背景标签；

步骤S30，基于所述训练特征图集、对应的初步像素级前景和背景标签以及第二损失函数进行所述第二类内判别器的训练，获得所述训练图像集中每一个图像各类别的精确像素级前景和背景标签；

步骤S40，基于所述训练图像集中每一个图像各类别的精确像素级前景和背景标签以及对应的图像级类别标签，生成精确像素级类别标签。

在一些优选的实施例中，步骤S20包括：

步骤S21，对于所述训练特征图集中每一个特征图的每一个图像级类别标签c，设定方向向量w_c，并以w_c向量方向的像素作为类别c的前景像素，w_c向量反方向的像素作为类别c的背景像素；

步骤S22，基于所述方向向量w_c、训练特征图集，计算第一损失值，并基于所述第一损失值更新w_c；

步骤S23，重复执行步骤S21-步骤S22直至达到设定第一训练次数，获得训练好的第一类内判别器以及训练图像集中每一个图像各类别的初步像素级前景和背景标签。

在一些优选的实施例中，步骤S30包括：

步骤S31，基于所述训练图像集中每一个图像各类别的初步像素级前景和背景标签B_i，k，c、训练特征图集，计算第二损失值，并基于所述第二损失值更新所述特征提取网络的参数；

步骤S32，重复执行步骤S31直至达到设定第二训练次数，获得训练好的第二类内判别器以及训练图像集中每一个图像各类别的精确像素级前景和背景标签。

在一些优选的实施例中，步骤S30之前还设置有初步像素级前景和背景标签精细调整的步骤，其方法为：

通过在超像素内求平均、条件随机场中的一种或多种方法进行初步像素级前景和背景标签的精细调整。

在一些优选的实施例中，所述第一损失函数为：

其中，N代表训练图像集中图像的数量；H和W分别代表一个训练图像的特征图的高和宽；C代表训练图像集中的图像级类别标签的数量；y_i，c代表第i张图像第c个类别对应的图像级标签；

代表归一化前的图像级类别标签c的方向向量，

代表归一化后的图像级类别标签c的方向向量，

为w_c的转置；x_i，k代表训练图像集中第i张图像的特征图中的第k个像素位置对应的特征。

在一些优选的实施例中，所述第二损失函数为：

其中，N代表训练图像集中图像的数量；H和W分别代表一个训练图像的特征图的高和宽；C代表训练图像集中的图像级类别标签的数量；y_i，c代表第i张图像第c个类别对应的图像级标签；B_i，k，c代表经过精细调整后的第一类内判别器的像素级前景、背景预测结果；S_i，k，c代表第二类内判别器的预测结果；σ为Sigmoid函数。

在一些优选的实施例中，所述第一类内判别器和第二类内判别器还可以通过Softmax分类损失函数、MSE回归损失函数中的一种进行训练。

本发明的另一方面，提出了一种基于类内判别器的弱监督图像语义分割系统，基于上述的基于类内判别器的弱监督图像语义分割方法，该语义分割系统包括输入模块、特征提取模块、图像语义分割模块、输出模块；

所述输入模块，配置为获取待处理图像或获取训练图像集和对应的图像级类别标签；

所述特征提取模块，配置为提取所述待处理图像的特征图或提取所述训练图像集对应的特征图集；

所述图像语义分割模块，配置为基于所述待处理图像对应的特征图，获取待处理图像对应的图像语义分割结果；

所述输出模块，配置为输出待处理图像对应的图像语义分割结果；

其中，图像语义分割模块基于训练图像集和对应的精确像素级类别标签训练获取；所述精确像素级类别标签基于训练图像集和对应的图像级类别标签，通过第一类内判别器、第二类内判别器、类别标签生成模块获取；

所述第一类内判别器包括第一损失计算模块、第一循环模块；所述第一损失计算模块，基于训练特征图集、对应的图像级类别标签以及第一损失函数计算第一损失值；所述第一循环模块，用于更新第一类内判别器的参数并循环训练，直至达到设定第一训练次数，获得训练好的第一类内判别器以及训练图像集中每一个图像各类别的初步像素级前景和背景标签；

所述第二类内判别器包括第二损失计算模块、第二循环模块；所述第二损失计算模块，基于训练特征图集、对应的各类别的初步像素级前景和背景标签以及第二损失函数计算第二损失值；所述第二循环模块，用于更新第二类内判别器的参数并循环训练，直至达到设定第二训练次数，获得训练好的第二类内判别器以及训练图像集中每一个图像各类别的精确像素级前景和背景标签；

所述类别标签生成模块，配置为基于所述训练图像集中每一个图像各类别的精确像素级前景和背景标签以及对应的图像级类别标签，生成精确像素级类别标签。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于类内判别器的弱监督图像语义分割方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于类内判别器的弱监督图像语义分割方法。

本发明的有益效果：

(1)本发明基于类内判别器的弱监督图像语义分割方法，构建了两级的类内判别器，在对图像进行特征编码的基础上，结合弱监督的图像级类别标签，通过第一级类内判别器初步判断各类别的特征图像素是否属于该类别的前景或背景，在此基础上通过第二级类内判别器再一次判断各类别的特征图像素是否属于该类别的前景或背景，结合原图的图像级类别标签，获得图像的精确像素级类别标签，可以此作为语义分割结果输出，还可以依据此精确像素级类别标签进行图像语义分割模块或网络的训练，获得弱监督标签下性能更优、语义分割结果更精确的图像语义分割模块或网络，生成较为完整的目标语义分割结果，从而解决弱监督语义分割下目标预测不完整，定位不准确的问题。

(2)本发明基于类内判别器的弱监督图像语义分割方法，对于第一级类内判别器输出的结果，还可以通过超像素内求平均法、条件随机场等方法进行精细调整，再输入到第二级类内判别器，能够得到更加适合于判别前背景任务的特征编码，从而可以得到更加准确的语义分割结果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于类内判别器的弱监督图像语义分割方法的流程示意图；

图2是本发明基于类内判别器的弱监督图像语义分割方法一种实施例的类内判别器语义分割示意图；

图3是本发明基于类内判别器的弱监督图像语义分割方法一种实施例的类内判别器网络训练示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于类内判别器的弱监督图像语义分割方法，提出的基于类内判别器的弱监督语义分割模型，聚焦于每一图像级类别的内部，因此可以有效地避免图像级弱监督标注数据的情况下，难以得到较为完整的目标分割结果，从而导致弱监督语义分割下目标预测不完整，定位不准确等问题。本方法可以有效地判别同一图像类别下的像素从属与目标前景或是背景，从而得到较为准确的目标分割估计，显著地提高弱监督语义分割模型的性能表现。

本发明的一种基于类内判别器的弱监督图像语义分割方法，该语义分割方法包括：

为了更清晰地对本发明基于类内判别器的弱监督图像语义分割方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明一种实施例的基于类内判别器的弱监督图像语义分割方法，各步骤详细描述如下：

步骤S10，通过特征提取网络提取训练图像集中每一个图像的特征图，获得训练特征图集；分别构建第一类内判别器、第二类内判别器的第一损失函数、第二损失函数。

如图2所示，为本发明基于类内判别器的弱监督图像语义分割方法一种实施例的类内判别器语义分割示意图，通过特征提取网络获取输入图像的特征，通过类内判别器获取图像的前景和背景，结合类别响应图，生成分割结果并输出，这里包括一个类内判别的类内判别器分支和一个类别响应图分支：

步骤一，针对每个输入图像，结合其图像标签，利用类别响应图分支，计算分类损失函数并得到参数的梯度进行反传训练；

步骤二，针对上述步骤中的图像，结合其图像标签，对类内判别器分支进行训练；其中，类内判别器分支包括第一类内判别器、第二类内判别器(还可以包括中间进行精细调整的过程)；

步骤三，以上步骤一与二交替或同时进行，训练达到网络整体的收敛；

步骤四，待网络收敛后，可以生成每一输入图像的语义分割结果，该结果可直接作为语义分割的输出，也可用以训练一个性能更加的完整的端到端的图像语义分割模块或网络，并以该模块或网络的输出作为最终的语义分割输出。

步骤S20，基于所述训练特征图集、对应的图像级类别标签以及第一损失函数进行所述第一类内判别器的训练，获得所述训练图像集中每一个图像各类别的初步像素级前景和背景标签。

步骤S21，对于所述训练特征图集中每一个特征图的每一个图像级类别标签c，设定方向向量w_c，并以w_c向量方向的像素作为类别c的前景像素，w_c向量反方向的像素作为类别c的背景像素。

为每一类别c学习一个相应的方向向量w_c，该方向向量所指向的方向，用以指示所在类别的像素的前景，其反方向，用以指示所在类别的像素的背景。

步骤S22，基于所述方向向量w_c、训练特征图集，计算第一损失值，并基于所述第一损失值更新w_c。

通过对方向向量归一化以防止在第一类内判别器训练过程中方向向量w_c被映射到无穷大，如式(1)所示：

其中，w_c代表归一化后的图像级类别标签c的方向向量，

代表归一化前的图像级类别标签c的方向向量，

代表

的范数。

基于归一化后的方向向量w_c，第一损失函数如式(2)所示：

其中，N代表训练图像集中图像的数量；H和W分别代表一个训练图像的特征图的高和宽；C代表训练图像集的图像级类别标签的数量；y_i，c代表第i张图像第c个类别对应的图像级标签，若图像中存在类别c，其值为1，若图像中不存在类别c，其值为0；

代表归一化前的图像级类别标签c的方向向量，

代表归一化后的图像级类别标签c的方向向量，

第一类内判别器，还可以通过如式(3)所示的基于L1-norm的损失函数进行训练：

第一类内判别器，还可以通过如式(4)所示的基于Sigmoid分类器的损失函数进行训练：

其中，Y_i，k，c代表当前第一类内判别器的输出结果，其值为1或0。

除了上述的几种损失函数之外，在其他实施例中，还可以选择其他的合理有效的损失函数作为第一类内判别器的第一损失函数进行训练，包括但不限于Softmax分类损失函数、MSE回归损失函数等，本发明在此不一一详述。

将每张图像中的所有像素点，按每个该图像所具有的类别划分成前景和背景两部分，并根据前景通常具有较高的分类显著性这一特点，予以判断出哪部分是前景，哪部分是背景，得到最终关于每一个图像中所出现的类别的所有像素点的前景、背景所属判断结果。

步骤S30之前还设置有初步像素级前景和背景标签精细调整的步骤，其方法为：

通过在超像素内求平均的方法进行初步像素级前景和背景标签的精细调整的过程为：

根据原输入图像计算超像素点，在每一超像素点内对相应像素位置的第一类内判别器的预测结果进行平均，以平均后的结果作为调整后的预测结果用以生成像素级的前景和背景。

通过条件随机场进行初步像素级前景和背景标签的精细调整的过程为：

将第一类内判别器的预测结果作为一阶信息，根据条件随机场法，结合原输入图像的信息建立二阶信息，计算条件随机场法中的能量函数并迭代至收敛，得到调整后的预测结果并用以生成像素级的前景和背景。

进行初步像素级前景和背景标签的精细调整的方法不限于上述的在超像素内求平均和条件随机场方法，在其他实施例中，还可以选择其他的方法，也可以通过将上述方法获得的结果求平均或多数投票等方式进行融合，并以融合后的结果作为精细调整后的预测结果，本发明在此不一一详述。

步骤S30，基于所述训练特征图集、对应的初步像素级前景和背景标签以及第二损失函数进行所述第二类内判别器的训练，获得所述训练图像集中每一个图像各类别的精确像素级前景和背景标签。

步骤S31，基于所述训练图像集中每一个图像各类别的初步像素级前景和背景标签B_i，k，c、训练特征图集，计算第二损失值，并基于所述第二损失值更新所述特征提取网络的参数。

第二损失函数如式(5)所示：

如图3所示，为本发明基于类内判别器的弱监督图像语义分割方法一种实施例的类内判别器网络训练示意图，图像经过特征提取后的图像特征编码分别作为第一类内判别器和第二类内判别器的输入，并且将第一类内判别器的输出进行精细调整后反馈到第二类内判别器，结合第二类内判别器基于图像特征编码获取的输出结果，得到最终的输出结果，其中，第一类别判别器和第二类别判别器分别基于第一损失函数和第二损失函数进行训练。

根据上述步骤生成的最终的第二类内判别器输出结果，结合图像的类别信息，整合形成图像的精确像素级类别标签，也可以作为图像的语义分割结果。具体来说，对于只有一个类别的图像，可以直接将第二类内判别器的前景结果作为相应类别的标注，背景结果作为背景标注，完成语义分割的标注；对于具有多个类别标签的图像，首先可将所有相应类别均判断为背景的区域作为背景标注，只有一个类别判断为前景而其它类别判断为背景的区域作为该类别标注，剩余的具有多个前景类别标注的区域依其对应的得分S_i，k，c，选取得分最大的类别作为相应的标注。

上述步骤中得到的语义分割结果，可直接作为相应图像的语义分割结果输出；也可将其作为像素级的标注，配以对应的原图，作为输入用于训练一个性能更好的端到端的图像语义分割模块，并由该图像语义分割模块给出最终的语义分割输出结果，用以实际应用或测试。

由第二类内判别器的输出结果计算得到最终的语义分割图时，可采用不同的实现方式。例如，可以将传统的类别响应图的响应，与本发明所提出的类内判别器的输出响应相融合，用融合后的响应生成最终的语义分割图；也可以首先将类内判别器的输出再次通过超像素点、条件随机场等方法进行精细调整后，再行生成最终的语义分割图；还可以在生成语义分割图的过程中，将具有多个前景类别判断的区域留空，后续通过条件随机场等概率模型结合原图像的信息再行迭代调整估计和填充；还可以在获得了关于类内判别器结果的基础上，结合额外的显著性模型等方法对背景进行更加精确的估计，并最终合并得到更加准确和完整的语义分割图等等，本发明在此不一一详述。

本发明第二实施例的基于类内判别器的弱监督图像语义分割系统，基于上述的基于类内判别器的弱监督图像语义分割方法，该语义分割系统包括输入模块、特征提取模块、图像语义分割模块、输出模块；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于类内判别器的弱监督图像语义分割系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于类内判别器的弱监督图像语义分割方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于类内判别器的弱监督图像语义分割方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于类内判别器的弱监督图像语义分割方法，其特征在于，该语义分割方法包括：

2.根据权利要求1所述的基于类内判别器的弱监督图像语义分割方法，其特征在于，步骤S20包括：

3.根据权利要求1所述的基于类内判别器的弱监督图像语义分割方法，其特征在于，步骤S30包括：

4.根据权利要求1所述的基于类内判别器的弱监督图像语义分割方法，其特征在于，步骤S30之前还设置有初步像素级前景和背景标签精细调整的步骤，其方法为：

5.根据权利要求2所述的基于类内判别器的弱监督图像语义分割方法，其特征在于，所述第一损失函数为：

代表归一化前的图像级类别标签c的方向向量，

代表归一化后的图像级类别标签c的方向向量，

6.根据权利要求4所述的基于类内判别器的弱监督图像语义分割方法，其特征在于，所述第二损失函数为：

其中，N代表训练图像集中图像的数量；HW代表一个训练图像的特征图中的像素数量；C代表训练图像集的图像级类别标签的数量；y_i，c代表第i张图像第c个类别对应的图像级标签；B_i，k，c代表经过精细调整后的第一类内判别器的像素级前景、背景预测结果；S_i，k，c代表第二类内判别器的预测结果；σ为Sigmoid函数。

7.根据权利要求1所述的基于类内判别器的弱监督图像语义分割方法，其特征在于，所述第一类内判别器和第二类内判别器还可以通过Softmax分类损失函数、MSE回归损失函数中的一种进行训练。

8.一种基于类内判别器的弱监督图像语义分割系统，其特征在于，基于权利要求1-7任一项所述的基于类内判别器的弱监督图像语义分割方法，该语义分割系统包括输入模块、特征提取模块、图像语义分割模块、输出模块；

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于类内判别器的弱监督图像语义分割方法。

10.一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-7任一项所述的基于类内判别器的弱监督图像语义分割方法。