CN109063723B

CN109063723B - 基于迭代挖掘物体共同特征的弱监督图像语义分割方法

Info

Publication number: CN109063723B
Application number: CN201810594322.1A
Authority: CN
Inventors: 马惠敏; 汪翔; 李熹
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2020-04-28
Anticipated expiration: 2038-06-11
Also published as: CN109063723A

Abstract

本发明提出一种基于迭代挖掘物体共同特征的弱监督图像语义分割方法，属于模式识别技术领域。该方法在训练阶段，获取训练数据集，构建并训练多标签分类网络，获取每张训练图像对应的物体初始种子区域；然后，获取每张训练图像的超像素区域及区域标签用于训练区域分类网络，得到更新后的超像素区域的区域标签用于训练语义分割网络；经过迭代，当语义分割网络性能收敛，得到训练完毕的语义分割网络；使用阶段，将彩色图像输入训练完毕的语义分割网络，网络输出该图像的语义分割结果。本发明可在只有图像类别标签的情况下，实现可靠的像素级别的语义分割，降低数据标注的时间和人力成本，具有广泛的应用前景。

Description

基于迭代挖掘物体共同特征的弱监督图像语义分割方法

技术领域

本发明属于模式识别技术领域，具体涉及一种基于迭代挖掘物体共同特征的弱监督图像语义分割方法。

背景技术

图像语义分割是模式识别及计算机视觉中的重要研究方向，指的是通过对图像进行像素级别的识别分割实现对图像内容的充分理解，因此在自动驾驶、机器人视觉等领域有着非常广泛的应用前景。

在自动驾驶等智能应用场景中，车载计算机需要首先完成对场景的感知，并基于感知的信息进行相应的运动和决策。而图像语义分割是视觉场景感知中重要的组成部分，图像语义分割实现了计算机对图像中场景像素级别的理解，因此在实际的应用场景中至关重要。

国内外许多学者对图像语义分割进行了大量的研究，并取得了较好的结果。然而，目前基于全监督的图像语义分割在实际应用中，首先需要获取应用场景下的大量图像作为训练数据，并对这些训练图像进行人工的像素级别的标注，标注出图像中每个像素点对应的物体类别；接着利用这些训练图像和标注，采用监督学习，借助深度学习方法训练神经网络；最后，应用训练好的神经网络对场景中的图像进行分割。然而，目前深度神经网络的扩展性有限，当应用到新的场景中时，需要重新获取大量图像及其像素级标注数据用于训练网络，因此在很大程度上限制了它的应用。

近些年来，弱监督图像语义分割受到越来越多的关注和研究。弱监督图像语义分割方法不再依赖大量像素级手工标注，而只需要提供图像的类别标签，因此大大降低了图像标注的难度和时间成本，提高了图像语义分割的实用性。

然而在只有图像类别标签作为监督信息的条件下，现有的弱监督图像语义分割中对神经网络的设计和训练难度大大增加。如何从物体的类别信息中学习特征并实现对图像的可靠的像素级分割，是弱监督语义分割方法中亟待解决的难题。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种基于迭代挖掘物体共同特征的弱监督图像语义分割方法。本发明可在只有图像类别标签的情况下，实现可靠的像素级别的语义分割，大大降低了数据标注的时间和人力成本，因此具有广泛的应用前景。

本发明提出一种基于迭代挖掘物体共同特征的弱监督图像语义分割方法，其特征在于，该方法包括以下步骤：

1)训练阶段；

1-1)获取训练数据集；

获取M张包含C类物体的彩色图像作为训练图像，M大于等于5000，每张训练图像均有对应的类别标签；训练图像及其对应的类别标签构成训练数据集；

1-2)构建并训练多标签分类网络，从多标签分类网络的卷积层获取每张训练图像对应的物体初始种子区域；具体步骤如下：

1-2-1)构建多标签分类网络；

构建一个多标签分类网络，包括依次连接的5层卷积层、一层全局平均池化层、一层全连接层和分类器；该网络的输入为每张训练图像，输出为每张输入图像分别属于C类物体的概率，多标签分类网络选择其中最大概率对应的物体类别作为输入图像对应的分类结果；

1-2-2)利用步骤1-1)获取的训练数据集对步骤1-2-1)建立的多标签分类网络进行训练，得到训练完毕的多标签分类网络；多标签网络训练时采用随机梯度下降的方法对网络参数进行优化，训练使用Caffe框架，采用的训练参数如下：

基础学习率为0.001，并在每经过25000次迭代后，将学习率缩小10倍，总的迭代次数为100000次，动量系数为0.9，每次输入图像32张；

1-2-3)利用步骤1-2-2)得到的训练完毕的多标签分类网络，从多标签分类网络的卷积层得到每张训练图像对应的分布热图，从而获取每张训练图像对应的物体初始种子区域；对于每张训练图像，具体采取以下步骤:

1-2-3-1)任意选取一张训练图像，将该训练图像输入训练完毕的多标签分类网络，从多标签分类网络的第五层卷积层得到该图像对应的C张分布热图，每张分布热图分别对应一种物体类别，则第c类物体对应的物体分布热图H_c的值对应第c类物体的概率，取值在0到1之间；H_c可由以下公式计算得到：

其中，设定多标签分类网络第五层卷积层的输出为

其中N为第五层卷积层的特征通道数，则f_i为第i个通道的特征；全连接层参数为

其中w_i,j为连接全局平均池化层第i个通道与全连接层第j个通道之间的权值；

1-2-3-2)采用简单线性迭代聚类算法，对步骤1-2-3-1)选取的训练图像进行超像素分割，获得该图像的超像素区域；

1-2-3-3)在步骤1-2-3-1)得到的训练图像对应的每张分布热图中，对每个超像素区域的对应位置的分布热图区域取分布热图值平均值替代原始值，得到平均化后的C张分布热图；

1-2-3-4)在平均化后的每张分布热图中选择局部极大值区域以及分布热图的值大于 0.8的分布热图区域，作为步骤1-2-3-1)选取的训练图像对应的物体初始种子区域；

1-2-3-5)重复步骤1-2-3-1)到步骤1-2-3-4)，得到每张训练图像对应的物体初始种子区域；

1-3)利用每张训练图像对应的物体初始种子区域，获取每张训练图像的超像素区域以及对应区域标签；然后构建区域分类网络，利用每张图像的超像素区域以及对应区域标签对该网络进行训练；利用训练完毕的区域分类网络，对每张训练图像的超像素区域进行重新识别，得到更新后的超像素区域的区域标签；具体步骤如下：

1-3-1)任意选取一张训练图像，重复步骤1-2-3-2)，获得该图像的超像素区域；

1-3-2)对步骤1-3-1)选取的训练图像，根据该图像对应的物体初始种子区域，对该图像的超像素区域赋予对应区域标签：对于该图像中任一个超像素区域，若存在超过80％的像素点位置包含在该图像对应的某类物体的初始种子区域内，则该超像素区域的区域标签即为该类物体的类别标签，否则该超像素区域的区域标签记为背景；

1-3-3)重复步骤1-3-1)至1-3-2)，得到每张训练图像的超像素区域以及对应区域标签；

1-3-4)构建区域分类网络，利用每张图像的超像素区域以及对应区域标签，提取图像超像素区域的特征，训练区域分类网络；利用训练完毕的区域分类网络，对每张训练图像的超像素区域进行重新识别，得到更新后的超像素区域以及对应的新的区域标签；具体步骤如下：

1-3-4-1)利用Fast R-CNN网络构建区域分类网络；

1-3-4-2)对训练图像的每个超像素区域，获取其最小外接矩形，以超像素区域对应的最小外接矩形作为该超像素区域的包围盒；

1-3-4-3)利用步骤1-3-4-1)构建的区域分类网络提取每个超像素区域的包围盒的特征，并利用超像素区域的区域标签训练区域分类网络，得到训练完毕的区域分类网络；训练采用随机梯度下降的方法优化参数，使用Caffe框架，采用的训练参数如下：基础学习率为0.001，并在每经过20000次迭代后，将学习率缩小10倍，总的迭代次数为80000次，动量系数为0.9，每次输入图像4张；

1-3-4-5)利用训练完毕的区域分类网络，对每张训练图像的超像素区域进行重新识别，得到每张训练图像更新后的超像素区域的区域标签；

1-4)建立语义分割网络并进行迭代训练，利用每次迭代训练后的语义分割网络对每张训练图像进行重新分割，得到每张训练图像的语义分割结果；具体步骤如下：

1-4-1)建立语义分割网络；语义分割网络以VGG16为基础网络，前面5个卷积层与VGG16相同,并将VGG16中的全连接层更改为全卷积层,即卷积核大小为1×1，输出通道数分别更改为1024，1024和C+1；

1-4-2)利用步骤1-3)得到的每张训练图像更新后的超像素区域的区域标签对语义分割网络进行迭代训练；训练采用随机梯度下降的方法优化参数，使用Caffe框架，采用的训练参数如下：基础学习率为0.005，并在每经过2000次迭代后，将学习率缩小10倍，总的迭代次数为10000次，动量系数为0.9，每次输入图像32张；

1-4-3)利用步骤1-4-2)迭代训练后的语义分割网络，对每张训练图像进行重新分割，得到语义分割结果为：每张训练图像对应的一个单通道且大小与原始训练图像相同的图，该图中每个像素点取值为0到C之间的整数，代表了该像素点对应的物体类别；其中0代表背景，1到C代表对应的C个物体类别；

1-5)利用步骤1-4)的每张训练图像的语义分割结果，替代步骤1-2)的该图像对应的物体初始种子区域，重新对每个超像素区域赋予新的区域标签，并迭代地进行步骤1-3)到步骤1-5)，直到语义分割网络的性能收敛，保存当前语义分割网络为最终训练完毕的语义分割网络；具体方法如下：

对于每个超像素区域，如果分割后的某个物体区域在该超像素区域内的面积超过80％，则将该超像素区域的标签定义为该物体类别，并将区域内的所有像素点对应的标签修改为该类物体对应的标签；如果没有任何一个物体区域面积超过所在超像素区域面积的80％，则将该超像素区域定义为背景，并将超像素区域内的所有像素点对应的标签修改为背景；经过迭代训练，当相邻两次迭代分别得到的语义分割结果的准确率增长小于0.1％或开始出现下降时，则语义分割网络的性能达到收敛，停止迭代，保存当前语义分割网络为最终训练完毕的分割网络；

2)使用阶段；

2-1)任意获取一张彩色图像；

2-2)将步骤2-1)中获取的图像输入步骤1-5)得到的训练完毕的语义分割网络，网络输出该图像的语义分割结果为一个单通道且大小与步骤2-1)获取的图像相同的图，语义分割结果中，每个像素点取值为0到C之间的整数，代表了该像素点对应的物体类别，其中0代表背景，1到C代表对应的C个物体类别。

本发明的特点及有益效果在于：

利用图像类别标签作为监督信息，定位出物体区域作为初始种子区域，该区域包含了各类物体的关键区域，通过学习这些关键区域的共同特征，可以对物体的其他区域进行扩展，获取更加完整的物体区域。接着利用这些物体区域，训练语义分割网络，并利用训练好的语义分割网络对图像进行重新分割。经过以上步骤，图像分割的结果包含了更多的物体区域，且具有更高的准确率，因此可以从分割后的区域中迭代地学习更加鲁棒的物体共同特征，从而逐步提升分割结果，最终实现对图像的可靠的语义分割。

本发明克服了已有的基于全监督学习的分割方法的不足，不再依赖大量的像素级别的标注，仅需要利用非常容易获得的图像标签数据作为监督信息，实现可靠的语义分割，大大降低了语义分割在实际场景中的应用成本，因此在自动驾驶、机器人视觉等领域有着非常广泛的应用前景。

附图说明

图1为本发明方法训练阶段的流程图。

图2为本发明实施例的多标签分类网络结构示意图。

图3本发明实施例的从物体分布热图中获取物体初始种子区域的示意图。

图4为本发明实施例的语义分割网络结构示意图。

图5为本发明实施例中分割性能随迭代次数的增长曲线图。

具体实施方式

本发明提出的基于迭代挖掘物体共同特征的弱监督图像语义分割方法，以下结合附图及具体实施例对本发明进一步详细说明如下。以下实施例仅用于说明本发明，但不用来限制本发明的范围。

本发明提出的基于迭代挖掘物体共同特征的弱监督图像语义分割方法，分为训练阶段和使用阶段，包括以下步骤：

1)训练阶段；整体流程如图1所示，具体步骤如下：

1-1)获取训练数据集；

训练数据集包括训练图像及图像对应的类别标签。在构建训练数据集时，首先需要定义感兴趣的物体类别，并将类别总数记为C，本发明对类别总数没有要求，即C＞0即可。然后获取包含这些物体类别的彩色图像作为训练图像，训练图像的数量一般要求5000张以上，从而能更好的训练网络，每张训练图像均有对应的类别标签，标记图像中包含哪些类别的物体，每张图像的类别标签一般通过手工标注获得。

本实施例采用国际通用数据库Pascal VOC 2012中给定的用于训练和评测语义分割的图像数据及标签作为训练数据集。该数据集包含10582张彩色图像及其对应的类别标签，本实施例所采用的训练数据集中物体为常见的20类物体。

1-2-1)构建多标签分类网络；

本实施例构建的多标签分类网络结构如图2所示，包括依次连接的5层卷积层、一层全局平均池化层、一层全连接层和分类器；该网络以通用的VGG16网络为基础，前面5个卷积层conv1-conv5与VGG16相同，卷积层conv5连接全局平均池化层(GAP)，全局平均池化层将卷积层的尺度池化到1×1，然后经过全连接层(fc)，输出每张输入图像对应的特征为C+1维，其中C为物体类别数，在本实施例中，C＝20。最后连接softmax分类器对特征进行归一化，得到输入图像属于各类物体的概率，多标签分类网络选择其中最大概率对应的物体类别作为输入图像对应的分类结果。其中softmax进行归一化，得到输入图像属于第i个物体类别的概率的公式为:

其中η_i为fc层输出的第i维特征，i和j的取值范围均从0到C，其中0代表背景，1-C分别代表C个物体类别，θ_C为多标签分类网络的参数，x为输入图像，y为多标签分类网络输出的物体类别标签。

1-2-2)训练多标签分类网络；利用步骤1-1)获取的训练数据集对步骤1-2-1)建立的多标签分类网络进行训练，得到训练完毕的多标签分类网络；多标签网络训练时采用随机梯度下降的方法对网络参数进行优化，训练使用通用的Caffe框架，采用的训练参数如下：

基础学习率为0.001，并在每经过25000次迭代后，将学习率缩小10倍，总的迭代次数为100000次，动量系数为0.9，每次输入图像32张。

1-2-3)利用步骤1-2-2)得到的训练完毕的多标签分类网络，利用conv5卷积层特征和全连接层(fc)权重，得到每张训练图像对应的分布热图，从而获取每张训练图像对应的物体初始种子区域。对于每张训练图像，具体采取以下步骤:

1-2-3-1)任意选取一张训练图像，将该训练图像输入训练完毕的多标签分类网络，从多标签分类网络的第五层卷积层得到该图像对应的C张分布热图，其中第c类物体对应的物体分布热图H_c的值对应第c类物体的概率，取值在0到1之间；H_c由以下公式计算得到：

其中，设定多标签分类网络conv5层的输出为

其中N为conv5层的特征通道数，在本实施例中N＝1024，则f_i为第i个通道的特征。全连接层(fc)参数为

其中C为类别数，在本实施例中C＝20，w_i,j为连接GAP层第i个通道与fc 层第j个通道之间的权值。

1-2-3-2)采用简单线性迭代聚类(SLIC)算法，对步骤1-2-3-1)选取的训练图像进行超像素分割，获得该图像的超像素区域，本实施例中，每个超像素区域包含约500个像素点；

1-2-3-3)在步骤1-2-3-1)得到的训练图像对应的每张分布热图中，对每个超像素区域的对应位置的分布热图区域取分布热图值平均值替代原始值，得到平均化后的C张分布热图；具体而言，如某一个超像素区域包含的像素位置集合为SP，第c张分布热图记为H_c，则计算分布热图H_c中包含在像素位置集合SP中的分布热图的值的平均值：

其中H_c(i)为分布热图H_c在像素点i的分布热度值，并以此值替代分布热图H_c中像素位置集合SP中每个像素点对应的原始分布热度值。

1-2-3-4)在平均化后的每张分布热图中选择局部极大值区域以及分布热图的值大于 0.8的分布热图区域，作为步骤1-2-3-1)选取的训练图像对应的物体初始种子区域(对一张训练图像而言，该图像包含的每个物体类别都有其对应的物体种子区域)。其中局部极大值区域的定义为：在一张分布热图中，若某个超像素区域对应的分布热图区域的分布热图值大于所有与它相邻的超像素区域对应分布热图区域的分布热图值，则该分布热图区域为局部极大值区域。

图3给出了一个从物体分布热图中获取物体初始种子区域的示意图。其中图3(a)为原始输入图像，图3(b)为原始图像对应的物体飞机的分布热图，其中亮度越高代表分布热图值越大，图3(c)为在每个超像素区域对应分布热图区域内对图3(b)的分布热图取均值后的结果，图3(d)为最终选取的物体飞机的初始种子区域。

1-3)利用每张训练图像对应的物体初始种子区域，获取每张训练图像的超像素区域以及对应区域标签；然后构建区域分类网络，利用每张图像的超像素区域以及对应区域标签对该网络进行训练；利用训练完毕的区域分类网络，对每张训练图像的超像素区域进行重新识别，得到更新后的超像素区域的区域标签；

步骤1-2)中获取的每张图像的物体初始种子区域虽然只包含了该张图像中很少量的物体区域，但是这些初始种子区域的都是物体的关键区域，因此包含了识别物体所需要的关键信息，而每类物体所共有的特征，即为物体的共同特征，因此挖掘关键区域包含的物体的共同特征，能够有效地训练鲁棒的网络，从而对初始标记为背景的物体区域进行识别。具体的方法如下：

1-3-1)任意选取一张训练图像，重复步骤1-2-3-2)，获得该图像的超像素区域。

1-3-2)对步骤1-3-1)选取的训练图像，根据该图像对应的物体初始种子区域，对该图像的超像素区域赋予对应区域标签，即对于某一个超像素区域，若存在超过80％的像素点位置包含在该图像对应的某类物体的初始种子区域内，则该超像素区域的区域标签即为该类物体的类别标签(本实施例共20类)，否则该超像素区域的区域标签记为背景。

1-3-3)重复步骤1-3-1)至1-3-2)，得到每张训练图像的超像素区域以及对应区域标签。

1-3-4)构建区域分类网络，利用每张图像的超像素区域以及对应区域标签，提取图像超像素区域的特征，训练区域分类网络；利用训练完毕的区域分类网络，对每张训练图像的超像素区域进行重新识别，得到更新后的超像素区域的标签；具体步骤如下：

1-3-4-1)构建区域分类网络，本实施例采用的区域分类网络为Fast R-CNN网络；

1-3-4-2)对训练图像的每个超像素区域，获取其最小外接矩形，即以超像素区域中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标定下边界的矩形。以超像素区域对应的最小外接矩形作为该超像素区域的包围盒；

1-3-4-3)利用步骤1-3-4-1)构建的区域分类网络(即Fast R-CNN网络)提取每个超像素区域的包围盒的特征，并利用超像素区域的区域标签训练区域分类网络，得到训练完毕的区域分类网络。训练采用随机梯度下降的方法优化参数，使用通用的Caffe框架，采用的训练参数如下：基础学习率为0.001，并在每经过20000次迭代后，将学习率缩小 10倍，总的迭代次数为80000次，动量系数为0.9，每次输入图像4张。

具体的训练过程为：

令训练数据集包含M张训练图像记为集合

本实施例中，M＝10582；利用超像素分割得到超像素区域集合记为

其中I_i为第i张训练图像，n_i为第i张图像的超像素区域个数，R_i,j为第i张图像中的第j个超像素区域。

利用步骤1-2)中获得的每张训练图像对应的物体初始种子区域对超像素区域R_i,j赋予区域标签S_i,j，其中S_i,j采用一位有效编码，为C+1维的向量，如果超像素区域R_i,j属于类别c的物体初始种子区域，则S_i,j(c)＝1，其他值为0，即：

如果R_i,j不属于任何类别的物体初始种子区域，则将其标记为背景，即：

对所有训练图像的超像素区域进行标记后，可以得到区域类别标签集合S。

利用

及对应的区域类别标签集合

本实施例通过训练区域分类网络f^r(R；θ_r)实现对物体共同特征的学习，其中θ_r为区域分类网络的参数。学习的目标是：对于任意超像素区域R_i,j，预测其标签y属于类别c的概率，即 f_c ^r(R_i,j|θ_r)＝p(y＝c|R_i,j)。

为了训练区域分类网络，本实施例采用交叉熵作为损失函数：

1-3-4-5)利用训练完毕的区域分类网络，对每张训练图像的超像素区域进行重新识别，得到每张训练图像更新后的超像素区域的区域标签,从而校正初始种子区域中的错误标签，并对初始标记为背景的超像素区域进行识别，获取每张训练图像扩展后的物体区域，记训练数据集扩展后的物体区域集合为

其中O_i表示第i张训练图像对应的扩展后的物体区域。

在对超像素区域重新识别的过程中，可能会出现一些错误的识别。因为在训练图像中，已知图像中包含的类别，因此，如果识别时出现了不应该存在的类别，我们可以自动将其去除，并标记为背景，从而避免在后续过程中引入错误标注。

1-4)建立语义分割网络并进行迭代训练利用每次迭代训练后的语义分割网络对每张训练图像进行重新分割，得到每张训练图像的语义分割结果；具体步骤如下：

1-4-1)建立语义分割网络；本实施例采用的语义分割网络如图4所示，以VGG16为基础网络，前面5个卷积层conv1-conv5与VGG16相同,并将VGG16中的全连接层更改为全卷积层,即卷积核大小为1×1，输出通道数分别更改为1024，1024，C+1，其中C为物体类别数。

1-4-2)利用步骤1-3)得到的每张训练图像更新后的超像素区域的区域标签对语义分割网络进行迭代训练。训练采用随机梯度下降的方法优化参数，使用通用的Caffe框架，采用的训练参数如下：基础学习率为0.005，并在每经过2000次迭代后，将学习率缩小10倍，总的迭代次数为10000次，动量系数为0.9，每次输入图像32张。

具体的训练过程为：

给定M张训练图像

及由1-3)得到的扩展后的物体区域集合

本实施例中，M＝10582，I_i表示第i张训练图像，O_i表示第i张训练图像对应的物体区域，训练以θ_s为参数的分割网络f^s(I；θ_s)来描述图像中像素u的标签y属于类别c的概率，即

训练时采用的损失函数为交叉熵函数：

其中C为类别数，S_c为标注为类别c的像素的集合；

1-4-3)利用步骤1-4-2)迭代训练后的语义分割网络(本发明中，训练语义分割网络是，一次迭代是指输入图像经过一次网络，每次输入图像是32张，即为一次迭代，然后下次迭代再输入另外32张图，一直重复进行，直到达到预先设定的迭代次数)，对每张训练图像进行重新分割，获取更加精确的语义分割结果。语义分割的结果是每张训练图像对应的一个单通道且大小与原始训练图像相同的图，该图中每个像素点取值为0到C之间的整数，代表了该像素点对应的物体类别。其中0代表背景，即不属于本发明中的C个类别， 1到C代表对应的C个物体类别，C为类别总数，本实施例中C＝20。

1-5)迭代挖掘共同特征，训练语义分割网络，得到训练完毕的语义分割网络；

利用步骤1-4)的每张训练图像的语义分割结果，替代步骤1-2)的该图像对应的物体初始种子区域，重新对每个超像素区域赋予新的区域标签，并迭代地进行步骤1-3)到步骤1-5)，直到语义分割网络的性能收敛，保存当前语义分割网络为最终训练完毕的分割网络；。赋予新的区域标签时采用的具体方法为：对于每个超像素区域，如果分割后的某个物体区域在该超像素区域内的面积超过80％，则将该超像素区域的标签定义为该物体类别，并将区域内的所有像素点对应的标签修改为该类物体对应的标签；如果没有任何一个物体区域面积超过所在超像素区域面积的80％，则将该超像素区域定义为背景，并将超像素区域内的所有像素点对应的标签修改为背景。经过迭代训练，当相邻两次迭代分别得到的语义分割结果的准确率增长小于0.1％或开始出现下降时，则语义分割网络的性能达到收敛，停止迭代，保存当前语义分割网络为最终训练完毕的分割网络。

需要说明的是，本实施例在步骤1-3)中通过从物体初始种子区域中挖掘共同特征，获取更完整的物体区域，在步骤1-4)中利用步骤1-3)中获取的物体区域，训练语义分割网络，得到更精确的物体区域。该物体区域的准确率和完整度远好于步骤1-2)中的初始种子区域。因此利用该物体区域替代步骤1-2)中的初始种子区域，并从中挖掘物体共同特征，重复进行步骤1-3)和步骤1-4)的训练，就可以得到越来越精确的物体分割结果。

图5给出了本实施例在Pascal VOC 2012分割数据集上，随着迭代次数的增加，语义分割网络性能的增长曲线。其中，横坐标为迭代的次数，纵坐标为分割的准确率，这里采用的是平均交并比(mIoU)作为准确率的指标，其计算方法为，对每一类物体，计算其交并比,即分割结果与真实结果之间的交集的像素数与其并集的像素数的比值，计算公式为：

其中SegRes为分割的结果，GroundTruth为真实结果。平均交并比mIoU即为所有类别的交并比的均值。图5 表明，在本实施例中，随着迭代次数的增加，分割的准确率逐步提升，最终达到收敛，验证了本发明的有效性。

需要说明的是，经过步骤1-2)到步骤1-5)的训练过程后，在实际应用中，只需要采用步骤1-5)最后得到的语义分割网络进行语义分割，因此实际应用时，效率很高。

2)使用阶段；

2-1)在使用阶段，任意获取一张彩色图像，本发明提出的方法都可以对其进行分割。为了更好地评估本发明提出的方法的性能，本实施案例采用Pascal VOC 2012数据集中提供的验证集和测试集图像用于验证本实施例中训练得到的语义分割网络。其中验证集包含 1449张彩色图像，测试集包含1456张彩色图像。

2-2)将步骤2-1)中获取的图像作为输入，利用步骤1-5)得到的训练完毕的语义分割网络，对该图像进行分割，本实施例中语义分割网络分割得到的结果为一个单通道且大小与步骤2-1)获取的图像相同的图，语义分割结果中，每个像素点取值为0到C之间的整数，代表了该像素点对应的物体类别。其中0代表背景，即不属于本实施例中的C个类别，1到C代表对应的C个物体类别，C为类别总数，本实施例中C＝20，该图像语义分割完毕。

本申请的方法和系统仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于迭代挖掘物体共同特征的弱监督图像语义分割方法，其特征在于，该方法包括以下步骤：

1)训练阶段；

1-1)获取训练数据集；

1-2-1)构建多标签分类网络；

其中，设定多标签分类网络第五层卷积层的输出为

1-2-3-4)在平均化后的每张分布热图中选择局部极大值区域以及分布热图的值大于0.8的分布热图区域，作为步骤1-2-3-1)选取的训练图像对应的物体初始种子区域；

1-3-4-1)利用Fast R-CNN网络构建区域分类网络；

2)使用阶段；

2-1)任意获取一张彩色图像；