CN109063723B - 基于迭代挖掘物体共同特征的弱监督图像语义分割方法 - Google Patents

基于迭代挖掘物体共同特征的弱监督图像语义分割方法 Download PDF

Info

Publication number
CN109063723B
CN109063723B CN201810594322.1A CN201810594322A CN109063723B CN 109063723 B CN109063723 B CN 109063723B CN 201810594322 A CN201810594322 A CN 201810594322A CN 109063723 B CN109063723 B CN 109063723B
Authority
CN
China
Prior art keywords
training
image
super
network
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810594322.1A
Other languages
English (en)
Other versions
CN109063723A (zh
Inventor
马惠敏
汪翔
李熹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810594322.1A priority Critical patent/CN109063723B/zh
Publication of CN109063723A publication Critical patent/CN109063723A/zh
Application granted granted Critical
Publication of CN109063723B publication Critical patent/CN109063723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于迭代挖掘物体共同特征的弱监督图像语义分割方法,属于模式识别技术领域。该方法在训练阶段,获取训练数据集,构建并训练多标签分类网络,获取每张训练图像对应的物体初始种子区域;然后,获取每张训练图像的超像素区域及区域标签用于训练区域分类网络,得到更新后的超像素区域的区域标签用于训练语义分割网络;经过迭代,当语义分割网络性能收敛,得到训练完毕的语义分割网络;使用阶段,将彩色图像输入训练完毕的语义分割网络,网络输出该图像的语义分割结果。本发明可在只有图像类别标签的情况下,实现可靠的像素级别的语义分割,降低数据标注的时间和人力成本,具有广泛的应用前景。

Description

基于迭代挖掘物体共同特征的弱监督图像语义分割方法
技术领域
本发明属于模式识别技术领域,具体涉及一种基于迭代挖掘物体共同特征的弱监督图像语义分割方法。
背景技术
图像语义分割是模式识别及计算机视觉中的重要研究方向,指的是通过对图像进行像素级别的识别分割实现对图像内容的充分理解,因此在自动驾驶、机器人视觉等领域有着非常广泛的应用前景。
在自动驾驶等智能应用场景中,车载计算机需要首先完成对场景的感知,并基于感知的信息进行相应的运动和决策。而图像语义分割是视觉场景感知中重要的组成部分,图像语义分割实现了计算机对图像中场景像素级别的理解,因此在实际的应用场景中至关重要。
国内外许多学者对图像语义分割进行了大量的研究,并取得了较好的结果。然而,目前基于全监督的图像语义分割在实际应用中,首先需要获取应用场景下的大量图像作为训练数据,并对这些训练图像进行人工的像素级别的标注,标注出图像中每个像素点对应的物体类别;接着利用这些训练图像和标注,采用监督学习,借助深度学习方法训练神经网络;最后,应用训练好的神经网络对场景中的图像进行分割。然而,目前深度神经网络的扩展性有限,当应用到新的场景中时,需要重新获取大量图像及其像素级标注数据用于训练网络,因此在很大程度上限制了它的应用。
近些年来,弱监督图像语义分割受到越来越多的关注和研究。弱监督图像语义分割方法不再依赖大量像素级手工标注,而只需要提供图像的类别标签,因此大大降低了图像标注的难度和时间成本,提高了图像语义分割的实用性。
然而在只有图像类别标签作为监督信息的条件下,现有的弱监督图像语义分割中对神经网络的设计和训练难度大大增加。如何从物体的类别信息中学习特征并实现对图像的可靠的像素级分割,是弱监督语义分割方法中亟待解决的难题。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种基于迭代挖掘物体共同特征的弱监督图像语义分割方法。本发明可在只有图像类别标签的情况下,实现可靠的像素级别的语义分割,大大降低了数据标注的时间和人力成本,因此具有广泛的应用前景。
本发明提出一种基于迭代挖掘物体共同特征的弱监督图像语义分割方法,其特征在于,该方法包括以下步骤:
1)训练阶段;
1-1)获取训练数据集;
获取M张包含C类物体的彩色图像作为训练图像,M大于等于5000,每张训练图像均有对应的类别标签;训练图像及其对应的类别标签构成训练数据集;
1-2)构建并训练多标签分类网络,从多标签分类网络的卷积层获取每张训练图像对应的物体初始种子区域;具体步骤如下:
1-2-1)构建多标签分类网络;
构建一个多标签分类网络,包括依次连接的5层卷积层、一层全局平均池化层、一层全连接层和分类器;该网络的输入为每张训练图像,输出为每张输入图像分别属于C类物体的概率,多标签分类网络选择其中最大概率对应的物体类别作为输入图像对应的分类结果;
1-2-2)利用步骤1-1)获取的训练数据集对步骤1-2-1)建立的多标签分类网络进行训练,得到训练完毕的多标签分类网络;多标签网络训练时采用随机梯度下降的方法对网络参数进行优化,训练使用Caffe框架,采用的训练参数如下:
基础学习率为0.001,并在每经过25000次迭代后,将学习率缩小10倍,总的迭代次数为100000次,动量系数为0.9,每次输入图像32张;
1-2-3)利用步骤1-2-2)得到的训练完毕的多标签分类网络,从多标签分类网络的卷积层得到每张训练图像对应的分布热图,从而获取每张训练图像对应的物体初始种子区域;对于每张训练图像,具体采取以下步骤:
1-2-3-1)任意选取一张训练图像,将该训练图像输入训练完毕的多标签分类网络,从多标签分类网络的第五层卷积层得到该图像对应的C张分布热图,每张分布热图分别对应一种物体类别,则第c类物体对应的物体分布热图Hc的值对应第c类物体的概率,取值在0到1之间;Hc可由以下公式计算得到:
Figure GDA0001868437660000021
其中,设定多标签分类网络第五层卷积层的输出为
Figure GDA0001868437660000022
其中N为第五层卷积层的特征通道数,则fi为第i个通道的特征;全连接层参数为
Figure GDA0001868437660000023
其中wi,j为连接全局平均池化层第i个通道与全连接层第j个通道之间的权值;
1-2-3-2)采用简单线性迭代聚类算法,对步骤1-2-3-1)选取的训练图像进行超像素分割,获得该图像的超像素区域;
1-2-3-3)在步骤1-2-3-1)得到的训练图像对应的每张分布热图中,对每个超像素区域的对应位置的分布热图区域取分布热图值平均值替代原始值,得到平均化后的C张分布热图;
1-2-3-4)在平均化后的每张分布热图中选择局部极大值区域以及分布热图的值大于 0.8的分布热图区域,作为步骤1-2-3-1)选取的训练图像对应的物体初始种子区域;
1-2-3-5)重复步骤1-2-3-1)到步骤1-2-3-4),得到每张训练图像对应的物体初始种子区域;
1-3)利用每张训练图像对应的物体初始种子区域,获取每张训练图像的超像素区域以及对应区域标签;然后构建区域分类网络,利用每张图像的超像素区域以及对应区域标签对该网络进行训练;利用训练完毕的区域分类网络,对每张训练图像的超像素区域进行重新识别,得到更新后的超像素区域的区域标签;具体步骤如下:
1-3-1)任意选取一张训练图像,重复步骤1-2-3-2),获得该图像的超像素区域;
1-3-2)对步骤1-3-1)选取的训练图像,根据该图像对应的物体初始种子区域,对该图像的超像素区域赋予对应区域标签:对于该图像中任一个超像素区域,若存在超过80%的像素点位置包含在该图像对应的某类物体的初始种子区域内,则该超像素区域的区域标签即为该类物体的类别标签,否则该超像素区域的区域标签记为背景;
1-3-3)重复步骤1-3-1)至1-3-2),得到每张训练图像的超像素区域以及对应区域标签;
1-3-4)构建区域分类网络,利用每张图像的超像素区域以及对应区域标签,提取图像超像素区域的特征,训练区域分类网络;利用训练完毕的区域分类网络,对每张训练图像的超像素区域进行重新识别,得到更新后的超像素区域以及对应的新的区域标签;具体步骤如下:
1-3-4-1)利用Fast R-CNN网络构建区域分类网络;
1-3-4-2)对训练图像的每个超像素区域,获取其最小外接矩形,以超像素区域对应的最小外接矩形作为该超像素区域的包围盒;
1-3-4-3)利用步骤1-3-4-1)构建的区域分类网络提取每个超像素区域的包围盒的特征,并利用超像素区域的区域标签训练区域分类网络,得到训练完毕的区域分类网络;训练采用随机梯度下降的方法优化参数,使用Caffe框架,采用的训练参数如下:基础学习率为0.001,并在每经过20000次迭代后,将学习率缩小10倍,总的迭代次数为80000次,动量系数为0.9,每次输入图像4张;
1-3-4-5)利用训练完毕的区域分类网络,对每张训练图像的超像素区域进行重新识别,得到每张训练图像更新后的超像素区域的区域标签;
1-4)建立语义分割网络并进行迭代训练,利用每次迭代训练后的语义分割网络对每张训练图像进行重新分割,得到每张训练图像的语义分割结果;具体步骤如下:
1-4-1)建立语义分割网络;语义分割网络以VGG16为基础网络,前面5个卷积层与VGG16相同,并将VGG16中的全连接层更改为全卷积层,即卷积核大小为1×1,输出通道数分别更改为1024,1024和C+1;
1-4-2)利用步骤1-3)得到的每张训练图像更新后的超像素区域的区域标签对语义分割网络进行迭代训练;训练采用随机梯度下降的方法优化参数,使用Caffe框架,采用的训练参数如下:基础学习率为0.005,并在每经过2000次迭代后,将学习率缩小10倍,总的迭代次数为10000次,动量系数为0.9,每次输入图像32张;
1-4-3)利用步骤1-4-2)迭代训练后的语义分割网络,对每张训练图像进行重新分割,得到语义分割结果为:每张训练图像对应的一个单通道且大小与原始训练图像相同的图,该图中每个像素点取值为0到C之间的整数,代表了该像素点对应的物体类别;其中0代表背景,1到C代表对应的C个物体类别;
1-5)利用步骤1-4)的每张训练图像的语义分割结果,替代步骤1-2)的该图像对应的物体初始种子区域,重新对每个超像素区域赋予新的区域标签,并迭代地进行步骤1-3)到步骤1-5),直到语义分割网络的性能收敛,保存当前语义分割网络为最终训练完毕的语义分割网络;具体方法如下:
对于每个超像素区域,如果分割后的某个物体区域在该超像素区域内的面积超过80%,则将该超像素区域的标签定义为该物体类别,并将区域内的所有像素点对应的标签修改为该类物体对应的标签;如果没有任何一个物体区域面积超过所在超像素区域面积的80%,则将该超像素区域定义为背景,并将超像素区域内的所有像素点对应的标签修改为背景;经过迭代训练,当相邻两次迭代分别得到的语义分割结果的准确率增长小于0.1%或开始出现下降时,则语义分割网络的性能达到收敛,停止迭代,保存当前语义分割网络为最终训练完毕的分割网络;
2)使用阶段;
2-1)任意获取一张彩色图像;
2-2)将步骤2-1)中获取的图像输入步骤1-5)得到的训练完毕的语义分割网络,网络输出该图像的语义分割结果为一个单通道且大小与步骤2-1)获取的图像相同的图,语义分割结果中,每个像素点取值为0到C之间的整数,代表了该像素点对应的物体类别,其中0代表背景,1到C代表对应的C个物体类别。
本发明的特点及有益效果在于:
利用图像类别标签作为监督信息,定位出物体区域作为初始种子区域,该区域包含了各类物体的关键区域,通过学习这些关键区域的共同特征,可以对物体的其他区域进行扩展,获取更加完整的物体区域。接着利用这些物体区域,训练语义分割网络,并利用训练好的语义分割网络对图像进行重新分割。经过以上步骤,图像分割的结果包含了更多的物体区域,且具有更高的准确率,因此可以从分割后的区域中迭代地学习更加鲁棒的物体共同特征,从而逐步提升分割结果,最终实现对图像的可靠的语义分割。
本发明克服了已有的基于全监督学习的分割方法的不足,不再依赖大量的像素级别的标注,仅需要利用非常容易获得的图像标签数据作为监督信息,实现可靠的语义分割,大大降低了语义分割在实际场景中的应用成本,因此在自动驾驶、机器人视觉等领域有着非常广泛的应用前景。
附图说明
图1为本发明方法训练阶段的流程图。
图2为本发明实施例的多标签分类网络结构示意图。
图3本发明实施例的从物体分布热图中获取物体初始种子区域的示意图。
图4为本发明实施例的语义分割网络结构示意图。
图5为本发明实施例中分割性能随迭代次数的增长曲线图。
具体实施方式
本发明提出的基于迭代挖掘物体共同特征的弱监督图像语义分割方法,以下结合附图及具体实施例对本发明进一步详细说明如下。以下实施例仅用于说明本发明,但不用来限制本发明的范围。
本发明提出的基于迭代挖掘物体共同特征的弱监督图像语义分割方法,分为训练阶段和使用阶段,包括以下步骤:
1)训练阶段;整体流程如图1所示,具体步骤如下:
1-1)获取训练数据集;
训练数据集包括训练图像及图像对应的类别标签。在构建训练数据集时,首先需要定义感兴趣的物体类别,并将类别总数记为C,本发明对类别总数没有要求,即C>0即可。然后获取包含这些物体类别的彩色图像作为训练图像,训练图像的数量一般要求5000张以上,从而能更好的训练网络,每张训练图像均有对应的类别标签,标记图像中包含哪些类别的物体,每张图像的类别标签一般通过手工标注获得。
本实施例采用国际通用数据库Pascal VOC 2012中给定的用于训练和评测语义分割的图像数据及标签作为训练数据集。该数据集包含10582张彩色图像及其对应的类别标签,本实施例所采用的训练数据集中物体为常见的20类物体。
1-2)构建并训练多标签分类网络,从多标签分类网络的卷积层获取每张训练图像对应的物体初始种子区域;具体步骤如下:
1-2-1)构建多标签分类网络;
本实施例构建的多标签分类网络结构如图2所示,包括依次连接的5层卷积层、一层全局平均池化层、一层全连接层和分类器;该网络以通用的VGG16网络为基础,前面5个卷积层conv1-conv5与VGG16相同,卷积层conv5连接全局平均池化层(GAP),全局平均池化层将卷积层的尺度池化到1×1,然后经过全连接层(fc),输出每张输入图像对应的特征为C+1维,其中C为物体类别数,在本实施例中,C=20。最后连接softmax分类器对特征进行归一化,得到输入图像属于各类物体的概率,多标签分类网络选择其中最大概率对应的物体类别作为输入图像对应的分类结果。其中softmax进行归一化,得到输入图像属于第i个物体类别的概率的公式为:
Figure GDA0001868437660000061
其中ηi为fc层输出的第i维特征,i和j的取值范围均从0到C,其中0代表背景,1-C分别代表C个物体类别,θC为多标签分类网络的参数,x为输入图像,y为多标签分类网络输出的物体类别标签。
1-2-2)训练多标签分类网络;利用步骤1-1)获取的训练数据集对步骤1-2-1)建立的多标签分类网络进行训练,得到训练完毕的多标签分类网络;多标签网络训练时采用随机梯度下降的方法对网络参数进行优化,训练使用通用的Caffe框架,采用的训练参数如下:
基础学习率为0.001,并在每经过25000次迭代后,将学习率缩小10倍,总的迭代次数为100000次,动量系数为0.9,每次输入图像32张。
1-2-3)利用步骤1-2-2)得到的训练完毕的多标签分类网络,利用conv5卷积层特征和全连接层(fc)权重,得到每张训练图像对应的分布热图,从而获取每张训练图像对应的物体初始种子区域。对于每张训练图像,具体采取以下步骤:
1-2-3-1)任意选取一张训练图像,将该训练图像输入训练完毕的多标签分类网络,从多标签分类网络的第五层卷积层得到该图像对应的C张分布热图,其中第c类物体对应的物体分布热图Hc的值对应第c类物体的概率,取值在0到1之间;Hc由以下公式计算得到:
Figure GDA0001868437660000071
其中,设定多标签分类网络conv5层的输出为
Figure GDA0001868437660000072
其中N为conv5层的特征通道数,在本实施例中N=1024,则fi为第i个通道的特征。全连接层(fc)参数为
Figure GDA0001868437660000073
其中C为类别数,在本实施例中C=20,wi,j为连接GAP层第i个通道与fc 层第j个通道之间的权值。
1-2-3-2)采用简单线性迭代聚类(SLIC)算法,对步骤1-2-3-1)选取的训练图像进行超像素分割,获得该图像的超像素区域,本实施例中,每个超像素区域包含约500个像素点;
1-2-3-3)在步骤1-2-3-1)得到的训练图像对应的每张分布热图中,对每个超像素区域的对应位置的分布热图区域取分布热图值平均值替代原始值,得到平均化后的C张分布热图;具体而言,如某一个超像素区域包含的像素位置集合为SP,第c张分布热图记为Hc,则计算分布热图Hc中包含在像素位置集合SP中的分布热图的值的平均值:
Figure GDA0001868437660000074
其中Hc(i)为分布热图Hc在像素点i的分布热度值,并以此值替代分布热图Hc中像素位置集合SP中每个像素点对应的原始分布热度值。
1-2-3-4)在平均化后的每张分布热图中选择局部极大值区域以及分布热图的值大于 0.8的分布热图区域,作为步骤1-2-3-1)选取的训练图像对应的物体初始种子区域(对一张训练图像而言,该图像包含的每个物体类别都有其对应的物体种子区域)。其中局部极大值区域的定义为:在一张分布热图中,若某个超像素区域对应的分布热图区域的分布热图值大于所有与它相邻的超像素区域对应分布热图区域的分布热图值,则该分布热图区域为局部极大值区域。
1-2-3-5)重复步骤1-2-3-1)到步骤1-2-3-4),得到每张训练图像对应的物体初始种子区域;
图3给出了一个从物体分布热图中获取物体初始种子区域的示意图。其中图3(a)为原始输入图像,图3(b)为原始图像对应的物体飞机的分布热图,其中亮度越高代表分布热图值越大,图3(c)为在每个超像素区域对应分布热图区域内对图3(b)的分布热图取均值后的结果,图3(d)为最终选取的物体飞机的初始种子区域。
1-3)利用每张训练图像对应的物体初始种子区域,获取每张训练图像的超像素区域以及对应区域标签;然后构建区域分类网络,利用每张图像的超像素区域以及对应区域标签对该网络进行训练;利用训练完毕的区域分类网络,对每张训练图像的超像素区域进行重新识别,得到更新后的超像素区域的区域标签;
步骤1-2)中获取的每张图像的物体初始种子区域虽然只包含了该张图像中很少量的物体区域,但是这些初始种子区域的都是物体的关键区域,因此包含了识别物体所需要的关键信息,而每类物体所共有的特征,即为物体的共同特征,因此挖掘关键区域包含的物体的共同特征,能够有效地训练鲁棒的网络,从而对初始标记为背景的物体区域进行识别。具体的方法如下:
1-3-1)任意选取一张训练图像,重复步骤1-2-3-2),获得该图像的超像素区域。
1-3-2)对步骤1-3-1)选取的训练图像,根据该图像对应的物体初始种子区域,对该图像的超像素区域赋予对应区域标签,即对于某一个超像素区域,若存在超过80%的像素点位置包含在该图像对应的某类物体的初始种子区域内,则该超像素区域的区域标签即为该类物体的类别标签(本实施例共20类),否则该超像素区域的区域标签记为背景。
1-3-3)重复步骤1-3-1)至1-3-2),得到每张训练图像的超像素区域以及对应区域标签。
1-3-4)构建区域分类网络,利用每张图像的超像素区域以及对应区域标签,提取图像超像素区域的特征,训练区域分类网络;利用训练完毕的区域分类网络,对每张训练图像的超像素区域进行重新识别,得到更新后的超像素区域的标签;具体步骤如下:
1-3-4-1)构建区域分类网络,本实施例采用的区域分类网络为Fast R-CNN网络;
1-3-4-2)对训练图像的每个超像素区域,获取其最小外接矩形,即以超像素区域中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标定下边界的矩形。以超像素区域对应的最小外接矩形作为该超像素区域的包围盒;
1-3-4-3)利用步骤1-3-4-1)构建的区域分类网络(即Fast R-CNN网络)提取每个超像素区域的包围盒的特征,并利用超像素区域的区域标签训练区域分类网络,得到训练完毕的区域分类网络。训练采用随机梯度下降的方法优化参数,使用通用的Caffe框架,采用的训练参数如下:基础学习率为0.001,并在每经过20000次迭代后,将学习率缩小 10倍,总的迭代次数为80000次,动量系数为0.9,每次输入图像4张。
具体的训练过程为:
令训练数据集包含M张训练图像记为集合
Figure GDA0001868437660000081
本实施例中,M=10582;利用超像素分割得到超像素区域集合记为
Figure GDA0001868437660000091
其中Ii为第i张训练图像,ni为第i张图像的超像素区域个数,Ri,j为第i张图像中的第j个超像素区域。
利用步骤1-2)中获得的每张训练图像对应的物体初始种子区域对超像素区域Ri,j赋予区域标签Si,j,其中Si,j采用一位有效编码,为C+1维的向量,如果超像素区域Ri,j属于类别c的物体初始种子区域,则Si,j(c)=1,其他值为0,即:
Figure GDA0001868437660000092
如果Ri,j不属于任何类别的物体初始种子区域,则将其标记为背景,即:
Figure GDA0001868437660000093
对所有训练图像的超像素区域进行标记后,可以得到区域类别标签集合S。
利用
Figure GDA0001868437660000094
及对应的区域类别标签集合
Figure GDA0001868437660000095
本实施例通过训练区域分类网络fr(R;θr)实现对物体共同特征的学习,其中θr为区域分类网络的参数。学习的目标是:对于任意超像素区域Ri,j,预测其标签y属于类别c的概率,即 fc r(Ri,jr)=p(y=c|Ri,j)。
为了训练区域分类网络,本实施例采用交叉熵作为损失函数:
Figure GDA0001868437660000096
1-3-4-5)利用训练完毕的区域分类网络,对每张训练图像的超像素区域进行重新识别,得到每张训练图像更新后的超像素区域的区域标签,从而校正初始种子区域中的错误标签,并对初始标记为背景的超像素区域进行识别,获取每张训练图像扩展后的物体区域,记训练数据集扩展后的物体区域集合为
Figure GDA0001868437660000097
其中Oi表示第i张训练图像对应的扩展后的物体区域。
在对超像素区域重新识别的过程中,可能会出现一些错误的识别。因为在训练图像中,已知图像中包含的类别,因此,如果识别时出现了不应该存在的类别,我们可以自动将其去除,并标记为背景,从而避免在后续过程中引入错误标注。
1-4)建立语义分割网络并进行迭代训练利用每次迭代训练后的语义分割网络对每张训练图像进行重新分割,得到每张训练图像的语义分割结果;具体步骤如下:
1-4-1)建立语义分割网络;本实施例采用的语义分割网络如图4所示,以VGG16为基础网络,前面5个卷积层conv1-conv5与VGG16相同,并将VGG16中的全连接层更改为全卷积层,即卷积核大小为1×1,输出通道数分别更改为1024,1024,C+1,其中C为物体类别数。
1-4-2)利用步骤1-3)得到的每张训练图像更新后的超像素区域的区域标签对语义分割网络进行迭代训练。训练采用随机梯度下降的方法优化参数,使用通用的Caffe框架,采用的训练参数如下:基础学习率为0.005,并在每经过2000次迭代后,将学习率缩小10倍,总的迭代次数为10000次,动量系数为0.9,每次输入图像32张。
具体的训练过程为:
给定M张训练图像
Figure GDA0001868437660000101
及由1-3)得到的扩展后的物体区域集合
Figure GDA0001868437660000102
本实施例中,M=10582,Ii表示第i张训练图像,Oi表示第i张训练图像对应的物体区域,训练以θs为参数的分割网络fs(I;θs)来描述图像中像素u的标签y属于类别c的概率,即
Figure GDA0001868437660000103
训练时采用的损失函数为交叉熵函数:
Figure GDA0001868437660000104
其中C为类别数,Sc为标注为类别c的像素的集合;
1-4-3)利用步骤1-4-2)迭代训练后的语义分割网络(本发明中,训练语义分割网络是,一次迭代是指输入图像经过一次网络,每次输入图像是32张,即为一次迭代,然后下次迭代再输入另外32张图,一直重复进行,直到达到预先设定的迭代次数),对每张训练图像进行重新分割,获取更加精确的语义分割结果。语义分割的结果是每张训练图像对应的一个单通道且大小与原始训练图像相同的图,该图中每个像素点取值为0到C之间的整数,代表了该像素点对应的物体类别。其中0代表背景,即不属于本发明中的C个类别, 1到C代表对应的C个物体类别,C为类别总数,本实施例中C=20。
1-5)迭代挖掘共同特征,训练语义分割网络,得到训练完毕的语义分割网络;
利用步骤1-4)的每张训练图像的语义分割结果,替代步骤1-2)的该图像对应的物体初始种子区域,重新对每个超像素区域赋予新的区域标签,并迭代地进行步骤1-3)到步骤1-5),直到语义分割网络的性能收敛,保存当前语义分割网络为最终训练完毕的分割网络;。赋予新的区域标签时采用的具体方法为:对于每个超像素区域,如果分割后的某个物体区域在该超像素区域内的面积超过80%,则将该超像素区域的标签定义为该物体类别,并将区域内的所有像素点对应的标签修改为该类物体对应的标签;如果没有任何一个物体区域面积超过所在超像素区域面积的80%,则将该超像素区域定义为背景,并将超像素区域内的所有像素点对应的标签修改为背景。经过迭代训练,当相邻两次迭代分别得到的语义分割结果的准确率增长小于0.1%或开始出现下降时,则语义分割网络的性能达到收敛,停止迭代,保存当前语义分割网络为最终训练完毕的分割网络。
需要说明的是,本实施例在步骤1-3)中通过从物体初始种子区域中挖掘共同特征,获取更完整的物体区域,在步骤1-4)中利用步骤1-3)中获取的物体区域,训练语义分割网络,得到更精确的物体区域。该物体区域的准确率和完整度远好于步骤1-2)中的初始种子区域。因此利用该物体区域替代步骤1-2)中的初始种子区域,并从中挖掘物体共同特征,重复进行步骤1-3)和步骤1-4)的训练,就可以得到越来越精确的物体分割结果。
图5给出了本实施例在Pascal VOC 2012分割数据集上,随着迭代次数的增加,语义分割网络性能的增长曲线。其中,横坐标为迭代的次数,纵坐标为分割的准确率,这里采用的是平均交并比(mIoU)作为准确率的指标,其计算方法为,对每一类物体,计算其交并比,即分割结果与真实结果之间的交集的像素数与其并集的像素数的比值,计算公式为:
Figure GDA0001868437660000111
其中SegRes为分割的结果,GroundTruth为真实结果。平均交并比mIoU即为所有类别的交并比的均值。图5 表明,在本实施例中,随着迭代次数的增加,分割的准确率逐步提升,最终达到收敛,验证了本发明的有效性。
需要说明的是,经过步骤1-2)到步骤1-5)的训练过程后,在实际应用中,只需要采用步骤1-5)最后得到的语义分割网络进行语义分割,因此实际应用时,效率很高。
2)使用阶段;
2-1)在使用阶段,任意获取一张彩色图像,本发明提出的方法都可以对其进行分割。为了更好地评估本发明提出的方法的性能,本实施案例采用Pascal VOC 2012数据集中提供的验证集和测试集图像用于验证本实施例中训练得到的语义分割网络。其中验证集包含 1449张彩色图像,测试集包含1456张彩色图像。
2-2)将步骤2-1)中获取的图像作为输入,利用步骤1-5)得到的训练完毕的语义分割网络,对该图像进行分割,本实施例中语义分割网络分割得到的结果为一个单通道且大小与步骤2-1)获取的图像相同的图,语义分割结果中,每个像素点取值为0到C之间的整数,代表了该像素点对应的物体类别。其中0代表背景,即不属于本实施例中的C个类别,1到C代表对应的C个物体类别,C为类别总数,本实施例中C=20,该图像语义分割完毕。
本申请的方法和系统仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于迭代挖掘物体共同特征的弱监督图像语义分割方法,其特征在于,该方法包括以下步骤:
1)训练阶段;
1-1)获取训练数据集;
获取M张包含C类物体的彩色图像作为训练图像,M大于等于5000,每张训练图像均有对应的类别标签;训练图像及其对应的类别标签构成训练数据集;
1-2)构建并训练多标签分类网络,从多标签分类网络的卷积层获取每张训练图像对应的物体初始种子区域;具体步骤如下:
1-2-1)构建多标签分类网络;
构建一个多标签分类网络,包括依次连接的5层卷积层、一层全局平均池化层、一层全连接层和分类器;该网络的输入为每张训练图像,输出为每张输入图像分别属于C类物体的概率,多标签分类网络选择其中最大概率对应的物体类别作为输入图像对应的分类结果;
1-2-2)利用步骤1-1)获取的训练数据集对步骤1-2-1)建立的多标签分类网络进行训练,得到训练完毕的多标签分类网络;多标签网络训练时采用随机梯度下降的方法对网络参数进行优化,训练使用Caffe框架,采用的训练参数如下:
基础学习率为0.001,并在每经过25000次迭代后,将学习率缩小10倍,总的迭代次数为100000次,动量系数为0.9,每次输入图像32张;
1-2-3)利用步骤1-2-2)得到的训练完毕的多标签分类网络,从多标签分类网络的卷积层得到每张训练图像对应的分布热图,从而获取每张训练图像对应的物体初始种子区域;对于每张训练图像,具体采取以下步骤:
1-2-3-1)任意选取一张训练图像,将该训练图像输入训练完毕的多标签分类网络,从多标签分类网络的第五层卷积层得到该图像对应的C张分布热图,每张分布热图分别对应一种物体类别,则第c类物体对应的物体分布热图Hc的值对应第c类物体的概率,取值在0到1之间;Hc可由以下公式计算得到:
Figure FDA0001691661440000011
其中,设定多标签分类网络第五层卷积层的输出为
Figure FDA0001691661440000012
其中N为第五层卷积层的特征通道数,则fi为第i个通道的特征;全连接层参数为
Figure FDA0001691661440000013
其中wi,j为连接全局平均池化层第i个通道与全连接层第j个通道之间的权值;
1-2-3-2)采用简单线性迭代聚类算法,对步骤1-2-3-1)选取的训练图像进行超像素分割,获得该图像的超像素区域;
1-2-3-3)在步骤1-2-3-1)得到的训练图像对应的每张分布热图中,对每个超像素区域的对应位置的分布热图区域取分布热图值平均值替代原始值,得到平均化后的C张分布热图;
1-2-3-4)在平均化后的每张分布热图中选择局部极大值区域以及分布热图的值大于0.8的分布热图区域,作为步骤1-2-3-1)选取的训练图像对应的物体初始种子区域;
1-2-3-5)重复步骤1-2-3-1)到步骤1-2-3-4),得到每张训练图像对应的物体初始种子区域;
1-3)利用每张训练图像对应的物体初始种子区域,获取每张训练图像的超像素区域以及对应区域标签;然后构建区域分类网络,利用每张图像的超像素区域以及对应区域标签对该网络进行训练;利用训练完毕的区域分类网络,对每张训练图像的超像素区域进行重新识别,得到更新后的超像素区域的区域标签;具体步骤如下:
1-3-1)任意选取一张训练图像,重复步骤1-2-3-2),获得该图像的超像素区域;
1-3-2)对步骤1-3-1)选取的训练图像,根据该图像对应的物体初始种子区域,对该图像的超像素区域赋予对应区域标签:对于该图像中任一个超像素区域,若存在超过80%的像素点位置包含在该图像对应的某类物体的初始种子区域内,则该超像素区域的区域标签即为该类物体的类别标签,否则该超像素区域的区域标签记为背景;
1-3-3)重复步骤1-3-1)至1-3-2),得到每张训练图像的超像素区域以及对应区域标签;
1-3-4)构建区域分类网络,利用每张图像的超像素区域以及对应区域标签,提取图像超像素区域的特征,训练区域分类网络;利用训练完毕的区域分类网络,对每张训练图像的超像素区域进行重新识别,得到更新后的超像素区域以及对应的新的区域标签;具体步骤如下:
1-3-4-1)利用Fast R-CNN网络构建区域分类网络;
1-3-4-2)对训练图像的每个超像素区域,获取其最小外接矩形,以超像素区域对应的最小外接矩形作为该超像素区域的包围盒;
1-3-4-3)利用步骤1-3-4-1)构建的区域分类网络提取每个超像素区域的包围盒的特征,并利用超像素区域的区域标签训练区域分类网络,得到训练完毕的区域分类网络;训练采用随机梯度下降的方法优化参数,使用Caffe框架,采用的训练参数如下:基础学习率为0.001,并在每经过20000次迭代后,将学习率缩小10倍,总的迭代次数为80000次,动量系数为0.9,每次输入图像4张;
1-3-4-5)利用训练完毕的区域分类网络,对每张训练图像的超像素区域进行重新识别,得到每张训练图像更新后的超像素区域的区域标签;
1-4)建立语义分割网络并进行迭代训练,利用每次迭代训练后的语义分割网络对每张训练图像进行重新分割,得到每张训练图像的语义分割结果;具体步骤如下:
1-4-1)建立语义分割网络;语义分割网络以VGG16为基础网络,前面5个卷积层与VGG16相同,并将VGG16中的全连接层更改为全卷积层,即卷积核大小为1×1,输出通道数分别更改为1024,1024和C+1;
1-4-2)利用步骤1-3)得到的每张训练图像更新后的超像素区域的区域标签对语义分割网络进行迭代训练;训练采用随机梯度下降的方法优化参数,使用Caffe框架,采用的训练参数如下:基础学习率为0.005,并在每经过2000次迭代后,将学习率缩小10倍,总的迭代次数为10000次,动量系数为0.9,每次输入图像32张;
1-4-3)利用步骤1-4-2)迭代训练后的语义分割网络,对每张训练图像进行重新分割,得到语义分割结果为:每张训练图像对应的一个单通道且大小与原始训练图像相同的图,该图中每个像素点取值为0到C之间的整数,代表了该像素点对应的物体类别;其中0代表背景,1到C代表对应的C个物体类别;
1-5)利用步骤1-4)的每张训练图像的语义分割结果,替代步骤1-2)的该图像对应的物体初始种子区域,重新对每个超像素区域赋予新的区域标签,并迭代地进行步骤1-3)到步骤1-5),直到语义分割网络的性能收敛,保存当前语义分割网络为最终训练完毕的语义分割网络;具体方法如下:
对于每个超像素区域,如果分割后的某个物体区域在该超像素区域内的面积超过80%,则将该超像素区域的标签定义为该物体类别,并将区域内的所有像素点对应的标签修改为该类物体对应的标签;如果没有任何一个物体区域面积超过所在超像素区域面积的80%,则将该超像素区域定义为背景,并将超像素区域内的所有像素点对应的标签修改为背景;经过迭代训练,当相邻两次迭代分别得到的语义分割结果的准确率增长小于0.1%或开始出现下降时,则语义分割网络的性能达到收敛,停止迭代,保存当前语义分割网络为最终训练完毕的分割网络;
2)使用阶段;
2-1)任意获取一张彩色图像;
2-2)将步骤2-1)中获取的图像输入步骤1-5)得到的训练完毕的语义分割网络,网络输出该图像的语义分割结果为一个单通道且大小与步骤2-1)获取的图像相同的图,语义分割结果中,每个像素点取值为0到C之间的整数,代表了该像素点对应的物体类别,其中0代表背景,1到C代表对应的C个物体类别。
CN201810594322.1A 2018-06-11 2018-06-11 基于迭代挖掘物体共同特征的弱监督图像语义分割方法 Active CN109063723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810594322.1A CN109063723B (zh) 2018-06-11 2018-06-11 基于迭代挖掘物体共同特征的弱监督图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810594322.1A CN109063723B (zh) 2018-06-11 2018-06-11 基于迭代挖掘物体共同特征的弱监督图像语义分割方法

Publications (2)

Publication Number Publication Date
CN109063723A CN109063723A (zh) 2018-12-21
CN109063723B true CN109063723B (zh) 2020-04-28

Family

ID=64820077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810594322.1A Active CN109063723B (zh) 2018-06-11 2018-06-11 基于迭代挖掘物体共同特征的弱监督图像语义分割方法

Country Status (1)

Country Link
CN (1) CN109063723B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084234B (zh) * 2019-03-27 2023-04-18 东南大学 一种基于实例分割的声呐图像目标识别方法
CN110264443B (zh) * 2019-05-20 2024-04-16 平安科技(深圳)有限公司 基于特征可视化的眼底图像病变标注方法、装置及介质
CN110222638B (zh) * 2019-06-05 2021-01-01 西安电子科技大学 一种基于素描图候选框策略和Fast R-CNN的飞机目标检测方法
CN110363201B (zh) * 2019-07-10 2021-06-01 上海交通大学 基于协同学习的弱监督语义分割方法及系统
US11322234B2 (en) 2019-07-25 2022-05-03 International Business Machines Corporation Automated content avoidance based on medical conditions
JP7215390B2 (ja) * 2019-10-10 2023-01-31 トヨタ自動車株式会社 路上障害物検知装置、路上障害物検知方法、及び路上障害物検知プログラム
CN110992334B (zh) * 2019-11-29 2023-04-07 四川虹微技术有限公司 用于dcgan网络生成图像的质量评估方法
CN110992366B (zh) * 2019-11-29 2023-06-06 北京卫星信息工程研究所 一种图像语义分割方法、装置及存储介质
US11625422B2 (en) 2019-12-02 2023-04-11 Merative Us L.P. Context based surface form generation for cognitive system dictionaries
US11423223B2 (en) 2019-12-02 2022-08-23 International Business Machines Corporation Dynamic creation/expansion of cognitive model dictionaries based on analysis of natural language content
CN111028249A (zh) * 2019-12-23 2020-04-17 杭州知衣科技有限公司 一种基于深度学习的服装图像分割方法
CN111462163B (zh) * 2020-01-03 2022-10-14 华中科技大学 一种弱监督语义分割方法及其应用
CN111259936B (zh) * 2020-01-09 2021-06-01 北京科技大学 一种基于单一像素标注的图像语义分割方法及系统
CN111369572B (zh) * 2020-02-28 2023-04-18 清华大学深圳国际研究生院 一种基于图像修复技术的弱监督语义分割方法和装置
CN112001391A (zh) * 2020-05-11 2020-11-27 江苏鲲博智行科技有限公司 一种图像特征融合图像语义分割的方法
CN111369576B (zh) * 2020-05-28 2020-09-18 腾讯科技(深圳)有限公司 图像分割模型的训练方法、图像分割方法、装置及设备
CN111897985B (zh) * 2020-06-23 2021-10-01 西安交通大学医学院第一附属医院 图像多标签分类方法、系统、设备及可读存储介质
CN112199539A (zh) * 2020-09-10 2021-01-08 佛山聚卓科技有限公司 无人机三维地图摄影图像内容自动标注方法、系统及设备
US11270147B1 (en) 2020-10-05 2022-03-08 International Business Machines Corporation Action-object recognition in cluttered video scenes using text
CN113052247A (zh) * 2021-03-31 2021-06-29 清华苏州环境创新研究院 基于多标签图像识别的垃圾分类方法及垃圾分类器
CN113192072B (zh) * 2021-04-01 2023-11-24 北京达佳互联信息技术有限公司 图像分割方法、装置、设备及存储介质
CN113096138B (zh) * 2021-04-13 2023-04-28 西安电子科技大学 选择性像素亲和学习的弱监督语义图像分割方法
US11423252B1 (en) 2021-04-29 2022-08-23 International Business Machines Corporation Object dataset creation or modification using labeled action-object videos
CN113610807B (zh) * 2021-08-09 2024-02-09 西安电子科技大学 基于弱监督多任务学习的新冠肺炎分割方法
CN113705371B (zh) * 2021-08-10 2023-12-01 武汉理工大学 一种水上视觉场景分割方法及装置
CN113780532B (zh) * 2021-09-10 2023-10-27 平安科技(深圳)有限公司 语义分割网络的训练方法、装置、设备及存储介质
CN114067118B (zh) * 2022-01-12 2022-04-15 湖北晓雲科技有限公司 一种航空摄影测量数据的处理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016415A (zh) * 2017-04-12 2017-08-04 合肥工业大学 一种基于全卷积网络的彩色图像色彩语义分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016016033A1 (en) * 2014-07-31 2016-02-04 Thomson Licensing Method and apparatus for interactive video segmentation
CN105825502B (zh) * 2016-03-12 2018-06-15 浙江大学 一种基于显著性指导的词典学习的弱监督图像解析方法
CN106023145A (zh) * 2016-05-06 2016-10-12 哈尔滨工程大学 基于超像素标注的遥感图像的分割与识别方法
CN106530305B (zh) * 2016-09-23 2019-09-13 北京市商汤科技开发有限公司 语义分割模型训练和图像分割方法及装置、计算设备
CN106709924B (zh) * 2016-11-18 2019-11-22 中国人民解放军信息工程大学 基于深度卷积神经网络和超像素的图像语义分割方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016415A (zh) * 2017-04-12 2017-08-04 合肥工业大学 一种基于全卷积网络的彩色图像色彩语义分类方法

Also Published As

Publication number Publication date
CN109063723A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109063723B (zh) 基于迭代挖掘物体共同特征的弱监督图像语义分割方法
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN109977918B (zh) 一种基于无监督域适应的目标检测定位优化方法
CN109255364B (zh) 一种基于深度卷积生成对抗网络的场景识别方法
Dornaika et al. Building detection from orthophotos using a machine learning approach: An empirical study on image segmentation and descriptors
CN109118479B (zh) 基于胶囊网络的绝缘子缺陷识别定位装置及方法
CN111259936B (zh) 一种基于单一像素标注的图像语义分割方法及系统
CN108961235A (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN106897681B (zh) 一种遥感图像对比分析方法及系统
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN111986125A (zh) 一种用于多目标任务实例分割的方法
CN111612051A (zh) 一种基于图卷积神经网络的弱监督目标检测方法
CN112287941A (zh) 一种基于自动字符区域感知的车牌识别方法
CN111461129B (zh) 一种基于上下文先验的场景分割方法和系统
CN112560675A (zh) Yolo与旋转-融合策略相结合的鸟类视觉目标检测方法
CN113269224A (zh) 一种场景图像分类方法、系统及存储介质
CN111652240A (zh) 一种基于cnn的图像局部特征检测与描述方法
CN115240024A (zh) 一种联合自监督学习和半监督学习的地外图片分割方法和系统
CN115482387A (zh) 基于多尺度类别原型的弱监督图像语义分割方法及系统
CN111160087A (zh) 一种红外图像中瓷绝缘子铁帽和盘面自动识别方法、系统及存储介质
CN118298149A (zh) 输电线路上零部件的目标检测方法
CN117522735A (zh) 基于多尺度的密流感知去雨图像增强方法
CN117746130A (zh) 一种基于遥感影像点状语义标签的弱监督深度学习分类方法
CN117372853A (zh) 一种基于图像增强和注意力机制的水下目标检测算法
CN115861306A (zh) 一种基于自监督拼图模块的工业品异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant