CN109919159A

CN109919159A - 一种针对边缘图像的语义分割优化方法及装置

Info

Publication number: CN109919159A
Application number: CN201910059828.7A
Authority: CN
Inventors: 赵伟; 傅一; 王立豪; 秦红波; 王中正; 王海
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2019-06-21

Abstract

本发明涉及一种针对边缘图像的语义分割优化方法，包括：选取图像数据；利用所述图像数据训练并验证图像语义分割模型和全连接条件随机场模型；利用训练后的所述图像语义分割模型获取图像的语义分割结果；利用超像素分割算法获取图像边缘信息的超像素分割结果；利用所述超像素分割结果优化所述语义分割结果，形成第一优化结果；利用训练后的所述全连接条件随机场模型优化所述第一优化结果。本发明提出的方法，能够有效地提取图像中的高级语义信息，通过超像素分割算法保留图像边缘信息，通过局部边缘优化算法提升了现有分割模型对图像边缘的语义分割准确率，实现灵活，兼容性强，具有较强的鲁棒性。

Description

一种针对边缘图像的语义分割优化方法及装置

技术领域

本发明属于图像处理技术领域，具体涉及一种针对边缘图像的语义分割优化方法及装置。

背景技术

随着计算机科学体系的不断完善，以及多媒体和互联网技术的不断发展，作为计算机学科中的重要分支，以数字图像处理为代表的计算机视觉也在逐渐融入现代社会的各个角落。图像语义分割是计算机视觉中重要的基本问题之一，它的目标是对图像的每个像素点进行分类，将图像划分为若干个区域，区域之间各自独立没有重叠并且都具有各自的视觉意义，并给予它们不同的视觉标签，以利于后续的图像分析和视觉理解。从宏观角度上来说，图像的语义分割可以看作是场景理解任务的前期处理过程，而场景理解一直是计算机视觉领域的核心问题，随着人们对从图像视频等多媒体介质中获取语义信息的需求越来越多，图像语义分割变得愈发重要。从微观层面上讲，语义分割的目标是实现像素级分类，方法是对每个像素点单独进行分类，得到的结果则是整幅图像的语义标签。从实际应用的方面来说，图像语义分割实现的是目标的分割以及目标的识别两方面任务。

从上世纪中后期开始，研究者们就已经在致力于图像语义分割的研究，经过半个多世纪的积淀，学者们针对不同场景，提出了众多不同的语义分割算法。阈值分割法是图像分割领域最基础的方法之一，原理是根据图像中像素的颜色或灰度值的不同，对图像进行分割。但该方法对语义的识别效果一般，缺点也非常明显，当图像中像素的灰度值较接近或颜色差别不大时，出错概率较高，而且由于在实际情况下阈值的设置会受到噪声和光照的影响，想要得到合适的阈值是非常困难的，导致算法的适用范围较窄。基于边缘检测的方法是另一类传统分割方法，其基本思想是利用区域之间的特征不一致性，检测图像中存在的边缘点，然后按照既定的策略将所有的点连接成线，直到构成闭合区域。当图像边缘灰度值变化非常明显，同时图像几乎没有噪声存在时，获得的效果比较好，但当边缘较为复杂时分割效果不甚理想。因此这类分割算法适合分割边缘的灰度值过渡比较明显，整体图像噪声较小的图像。交互式图像分割，是一种基于图划分(Graph partioning)思想的分割方法。算法需要人为提供线索以区分不同的类别，常见的有二分类算法，典型的交互方式如人为框出前景目标或者在前景背景的边界处画线，之后算法会将人为添加的信息作为约束，自动产生分割结果。但交互式的分割方法需要人为介入，可想而知，这样的方式只适合处理少量图片，若有大量复杂场景下的图像，频繁人为标记是既费时又费力的。聚类的分割方法，通过比较图像中像素的灰度值，将其中差异较小的像素点分为同一类，这种将像素聚合再分类的方法称为聚类分割方法。虽然不必提供先验知识，不需要特征提取和识别，降低了语义分割的难度，但是，由于聚类算法极度依赖初始种子点的选取，不同的初始化结果会造成分割结果的巨大差异，同时较容易误判色差相近但属于不同类别的物体，整体而言其语义分割的准确率不高。

其后，概率图模型(Probabilistic Graphical Models,PGM)逐渐进入研究者们的视野，主要包括生成模型(Generative Models)和判别模型(Discrimitive Models)。条件随机场模型(Condition Random Fields,CRFs)作为判别模型的代表，是另一种不同于生成模型的典型概率图模型，CRF模型可以表示观测变量之间的关系，包括颜色和位置关系等。这一模型无疑是成功的，它已然成为目前应用最广泛的图像语义分割模型之一。后来的研究者们在此基础上也提出了很多改进模型，比如全连接条件随机场模型，它能够在进行语义分割的同时，考虑图像底层的细节信息比如纹理、全局上下文以及平滑先验，显著提升了语义分割的效果。

传统的图像处理算法均需要对每个像素做处理，而随着多媒体技术的蓬勃发展，生活中接触到的图像越来越清晰，分辨率越来越高，传统算法在时间复杂度和空间复杂度方面都面临挑战。算法处理过程对资源的大量消耗使得研究者们不得不寻找新的解决方法，因此超像素分割应运而生，通过将像素级的问题转移到区域级，能够在降低运算时间的同时，减少内存占用。一般而言，超像素指的是一类相似像素点的集合。在普通的图像中，超像素往往由某个物体的一部分组成，由于同属于一个物体，所以在颜色、位置和纹理等低级特征方面都比较相似，块与块之间由自然边缘分割，相互没有重叠。由于超像素分割算法的高效性，将其用于后续图像处理过程的预处理步骤能够大幅降低整体算法的运算复杂性。并且由于分割得到的超像素拥有物体的部分特征，与底层的细节信息组合起来能够得到图像的结构信息，目前超像素分割被越来越多的应用领域如图像分割、目标检测、图像分类和目标识别等作为关键步骤。

传统图像语义分割算法大都是以图像像素本身携带的低级线索为依据，直接按照一定的策略来分割图像。因为是直接对像素进行分割，不需要对算法做任何参数调校，所以传统算法都较为简单，但是想要获得可接受的分割结果就不得不依赖于人工信息的辅助。目前，一些传统算法常被用作图像预处理或后处理，与神经网络配合使用。在深度学习席卷全球的大浪潮下，计算机视觉领域的研究者们乘势而为，在图像语义分割技术方面屡获佳绩，具有里程碑意义的全卷积网络(Fully Convolutional Networks,FCN)模型即是诞生在这样的大环境下。尽管现有的图像语义分割技术在整体分割准确率上已经达到相当不错的水平，但是现有的方法通常无法准确定位到单个目标。如果物体之间有重叠或者其他复杂情况的遮挡，现有的语义分割算法则无法对其进行很好地处理，一般表现出来的结果是多个物体之间粘连，边缘不能清晰辨认，还有的物体会被误标记为其他类别。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种针对边缘图像的语义分割优化方法及装置。本发明要解决的技术问题通过以下技术方案实现：

本发明实施例提供了一种针对边缘图像的语义分割优化方法，包括：

选取图像数据；

利用所述图像数据训练并验证图像语义分割模型和全连接条件随机场模型；

利用训练后的所述图像语义分割模型获取图像的语义分割结果；

利用超像素分割算法获取图像边缘信息的超像素分割结果；

利用所述超像素分割结果优化所述语义分割结果，形成第一优化结果；

利用训练后的所述全连接条件随机场模型优化所述第一优化结果。

在本发明的一个实施例中，所述选取图像数据，包括：

选取VOC数据集和Cityscapes数据集中的一种作为图像数据。

在本发明的一个实施例中，所述利用所述图像数据训练并验证图像语义分割模型和全连接条件随机场模型，包括：

将所述图像数据划分为训练集和验证集；

将所述训练集作为输入，通过迭代监督训练所述图像语义分割模型和所述全连接条件随机场模型；

将所述验证集作为输入，验证训练后的所述图像语义分割模型和训练后的所述全连接条件随机场模型。

在本发明的一个实施例中，所述图像语义分割模型为FCN-8s模型。

在本发明的一个实施例中，所述超像素分割算法为SLIC超像素分割算法。

在本发明的一个实施例中，所述利用所述超像素分割结果优化所述语义分割结果，形成第一优化结果，包括：

对所述超像素分割结果进行语义标签分配，形成特征标签；

利用局部边缘优化算法对所述特征标签进行优化，形成第一优化结果。

本发明另一个实施例提供了一种针对边缘图像的语义分割优化装置，其特征在于，包括：

数据选取模块，用于选取图像数据；

训练验证模块，用于利用所述图像数据训练并验证图像语义分割模型和全连接条件随机场模型；

语义分割模块，用于利用训练后的所述图像语义分割模型获取图像的语义分割结果；

超像素分割模块，用于利用超像素分割算法获取图像边缘信息的超像素分割结果；

第一优化模块，用于利用所述超像素分割结果优化所述语义分割结果，形成第一优化结果；

第二优化模块，用于利用训练后的所述全连接条件随机场模型优化所述第一优化结果。

与现有技术相比，本发明的有益效果：

1.本发明是一种针对边缘图像的语义分割优化方法，旨在优化现有算法的分割结果，具体实施过程中，可以根据具体需要使用不同的超像素分割算法，实现灵活，兼容性强。性能方面不仅能够有效地提取图像中的高级语义信息，而且能利用图像低级信息精确分割图像边缘，同时对扩散误差具有较强的鲁棒性。

2.本发明利用超像素保留图像中的物体边缘，通过局部边缘优化算法提升现有分割模型对图像边缘的语义分割准确率。

3.本发明使用全连接条件随机场对颜色和空间位置上相似的像素进行约束，充分利用图像的像素间关系，从而进一步优化语义分割的结果，使图像边缘得到更精确的分割。

附图说明

图1为本发明实施例提供的一种针对边缘图像的语义分割优化方法的流程示意图；

图2为本发明实施例提供的一种针对边缘图像的语义分割优化方法的实现流程框图；

图3为本发明实施例提供的一种针对边缘图像的语义分割优化方法中局部边缘优化算法的实现流程框图；

图4为本发明实施例提供的一种针对边缘图像的语义分割优化方法中基于超像素边缘优化效果图和局部放大图；

图5为本发明实施例提供的一种针对边缘图像的语义分割优化方法中利用全连接条件随机场实现的精确边缘恢复的优化效果图和局部放大图；

图6为本发明实施例提供的一种针对边缘图像的语义分割优化方法与现有的图像语义分割方法在VOC数据集上的分割准确率对比柱状图；

图7为本发明实施例提供的一种针对边缘图像的语义分割优化方法与现有的图像语义分割方法在Cityscapes数据集上的分割准确率对比柱状图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

实施例一

请参见图1和图2，图1为本发明实施例提供的一种针对边缘图像的语义分割优化方法的流程示意图，图2为本发明实施例提供的一种针对边缘图像的语义分割优化方法的实现流程框图。

选取图像数据；

利用图像数据训练并验证图像语义分割模型和全连接条件随机场模型；

利用训练后的图像语义分割模型获取图像的语义分割结果；

利用超像素分割算法获取图像边缘信息的超像素分割结果；

利用超像素分割结果优化语义分割结果，形成第一优化结果；

利用训练后的全连接条件随机场模型优化第一优化结果。

具体地，本发明实施例中，采用两个在不同领域均具有相当知名度的数据集作为图像数据，并且采用数据集的标准划分方式。首先是VOC数据集，它基本上已经成为了综合评估新的语义分割算法的基准数据集。VOC数据集包含21个语义类别，其中包含20个前景类别和1个背景类别。标准的VOC数据集包含训练集中的1464张图片、验证集中的1449张图片和测试集中的1456张图片，其中训练集和验证集都包含像素级的真实语义标签，分别用于训练、验证和测试。另外一个数据集是Cityscapes数据集，它是一个城市景观数据集，它侧重于城市街景的语义理解，共分为19个语义类别。标准的Cityscapes数据集有2975张图片作为训练集，500张图片作为验证集，1525张图片作为测试集。

在选取图像数据后，需要对图像语义分割模型和全连接条件随机场模型进行训练和验证。

本实施例中图像语义分割模型采用FCN模型，通过FCN模型来提取图像中的粗糙特征，与传统的卷积神经网络模型不同，FCN模型可以输入任意大小的图像并生成相应大小的输出，得到像素级分类结果。FCN模型可以由现有的卷积神经网络转换而来，本文使用的FCN模型由VGGNet系列中的VGG-16转换而来。

将VGG-16网络转换为FCN模型的具体做法是将原网络中的全连接层替换为卷积层，同时保留前五层结构。在整个特征提取过程中，经过多次迭代的卷积和池化操作后，得到的特征映射的分辨率越来越低。为了将最终输出恢复为与输入图像大小相同的图像，需要对中间输出进行上采样操作。在具体实现过程中，相对原始的输入图像，最终输出的特征映射的分辨率分别缩小了2、4、8、16和32倍。直接对最后一层输出的粗糙特征进行32倍上采样就可以得到FCN-32s的结果，但是由于放大倍数太大导致FCN-32s的输出图像缺乏很多细节，所以它的结果不够准确。为了提高准确度，需要把后几层的更多细节信息添加到FCN-32s里去，通过将更多细节信息与FCN-32s的输出相结合，可以进一步获取FCN-16s和FCN-8s的结果。

本实施例中将图像数据分为训练集图像和验证集图像，利用训练集图像及其真实语义标签主要对FCN-8s模型进行监督训练，为了使网络学习到的图像特征更高级抽象，本实例具体进行了50次迭代监督训练，即前一次训练完成后的模型作为下次训练时的模型初始值。本实施例中使用交叉验证的方式确定全连接条件随机场的几个超参数。首先本实施例中设置ω₂和σ_γ两个值，对于这两个参数来说，它们对于分类精度的影响并不大，更多的是影响平滑性，设置初始值ω₂＝1，σ_γ＝1，但是根据测试结果，本实施例中最终设置ω₂＝3，ω₂＝3。对于ω₁、σ_α和σ_β这三个超参数，本实施例中使用了一种由粗糙到精细的最优值搜索策略。本实施例在训练数据集上选择少量图片进行搜索，这三个参数的初始值设置为ω₁＝3，σ_α＝30，σ_β＝3。初始搜索范围设置为ω₁∈[3:6]，σ_α∈[30:10:100]和σ_β∈[3:6]，分别表示ω₁和σ_β是从3搜索到6，每次递增1；σ_α是从30搜索到100，每次递增10。一轮搜索过后，在最优值所在的范围内重新进行搜索，递增的步进减半直到最终搜索停止，这样能够保证本实施例中设置的条件随机场参数是最优参数。经过搜索，本实施例中使用的三个值分别为ω₁＝5，σ_α＝49，σ_β＝3。

在完成训练图像语义分割模型和全连接条件随机场模型后，需要根据训练后的图像语义分割模型，获取图像语义分割结果。

具体地，将图像输入到训练后的FCN-8s模型中，获取图像的语义分割结果。一方面，由于感受野的差异，前几次卷积操作之后，分辨率相对较高，像素分类不太准确，但对每个像素的定位比较准确。另一方面，在最后的几次卷积中，分辨率相对较低，像素的定位不够精确，但像素的分类却更加准确。FCN-8s模型的感受野小，适合感受细节，FCN-8s的结果最接近真实语义标签。但是FCN-8s的结果对于图像的细节仍然不够敏感，因此称其为粗糙结果。

在得到粗糙图像的语义分割结果后，需要利用超像素分割算法，获取包含图像边缘信息的超像素分割结果。

本实例为了获得边缘贴合度更好的超像素，利用SLIC超像素分割算法对待分割图像进行超像素分割，由于图像的分辨率大小不等，所以，在实际的超像素分割过程中，本实例根据图像分辨率的不同动态调整参数，调整策略为保证每个超像素包含的像素数量保持在[200，500]的范围内。例如，对于500×500大小的图像，本实例将超像素数量设置为1000；对于1024×2048的分辨率，将超像素数量设置为6000；具体步骤如下：

SLIC算法实质上是一种局部K-means聚类算法。假定图像中像素点的总数N_p，期望的超像素的数目为N_s。在图像平面内，以像素点为基本单位，从Row行开始，水平方向和垂直方向以S为步长，均匀地选取N_s个初始聚类中心。其中Row等于S的1/2，步长的计算公式为：

为了提高超像素的生成速度，在大小为2S×2S的局部矩形窗口内，SLIC算法将每个像素点分配给与其距离最近的聚类中心。选取灰度值g和位置信息(x,y)组成像素点的特征向量。假设任意像素点的特征向量为f_i＝[g_i,x_i,y_i]和任意聚类中心的特征向量为f_c＝[g_c,x_c,y_c]，则像素点p_i与聚类中心p_c的距离D_s的计算公式为：

其中，d_g和d_xy分别为灰度距离和空间距离，S为步长，m为控制超像素紧凑度和规则度的参数。参数m取值越大生成的超像素越规则，通常取值范围在k′＝{500,1000,1500,2000,2500}。灰度距离d_g和空间距离d_xy的计算公式分别为：

其中，g_i和g_c分别是像素点p_i与聚类中心p_c的灰度值，x_i和x_c分别是像素点p_i与聚类中心p_c在X轴方向的坐标值，y_i和y_c分别是像素点p_i与聚类中心p_c在Y轴方向的坐标值。

SLIC超像素分割算法的流程为：

1、在图像平面内，以像素点为基本单位，以S为垂直方向和水平方向的步长，从第Row行像素点开始，均匀地选取N_s个聚类中心。

2、为了避免聚类中心落在图像的边缘像素点或者噪声像素点处，在每个聚类中心Ns×Ns邻域内，计算每个像素点的梯度值，选取梯度值最小的像素点作为新的聚类中心。

3、设定迭代变量θ，并初始化为0，并在2S×2S的搜索窗口内，将像素点分配给与其距离最小的聚类中心，得到R簇相似像素点。

4、分别计算每簇相似像素点内所有像素点的均值特征向量，更新每簇相似像素点的聚类中心。

5、判断迭代变量θ是否大于迭代变量阈值Ω，若是则算法结束并得到N_s个超像素(每簇相似像素点即为一个超像素)，否则迭代变量θ自增1，执行步骤3。

经验数据表明，只需迭代10次即可实现连续两次的聚类中心误差不超过5％，因此，一般将迭代次数设置为10次。

由于生成的超像素的边缘贴合图像的边缘，因此得到的超像素能够对图像的边缘信息进行很好的描述。

在获取包含图像边缘信息的超像素分割结果后，需要根据上述超像素分割结果优化粗糙图像语义分割结果。

本发明提出的边缘优化算法的核心思想在于利用FCN输出的像素级特征图对超像素内的所有像素进行语义标签分配，在这个过程中有几类可能出现的情况，伪代码如下所示。按照超像素内部是否包含图像边缘分为两种情况，即有边缘和没边缘。在超像素里包含边缘的情况下，根据所有像素点是否具有相同的语义标签又可以分为两种情况。为描述方便，将单个超像素内部不包含图像边缘，且超像素内的所有像素点具有相同的语义标签记为情况A，而将超像素中不包含图像边缘，但超像素内的像素点具有多种语义标签记为情况B。将超像素内包含图像边缘，但所有像素点仍然具有相同语义标签记为情况C，若超像素内包含图像边缘，且像素点具有多个语义标签则记为情况D，下面对这几种情况进行详细分析。

如图3所示，局部边缘优化算法的基本步骤为：

1、假定输入图像为I，粗糙特征为L；

2、使用SLIC超像素分割算法获取K个超像素，R＝{R₁,R₂,...,R_K}，其中R_i表示下标为i的单个超像素；

3、外循环：for i＝1:K；

a、使用M＝{C₁,C₂,...,C_K}表示R_i中的所有像素，其中C_j表示被标记为类别j的像素；

b、从前端获取C中每个像素的特征，初始化权重W_C为0；

c、内循环：for j＝1:N；

将C_j的特征标签保存为然后更新整个超像素内所有标签的权重

其中表示的上一个值；

若则退出内循环，否则继续；

结束；

d、搜索全部的W_C确定是否存在某个的值大于0.8。如果存在,则跳到下一步；否则，继续寻找最大的W_max和次大的W_sub，然后确定是否它们之间的插值大于0.2。若是，则跳到下一步；否则继续进行外循环；

e、用当前超像素内最大可能性的类别重新标注当前超像素的语义标签；

结束；

4、得到优化后的输出结果

对于情况A，这类超像素通常处于背景或某一物体的主体区域上，也可能为图像中清晰且平滑的边缘部分，由于超像素内部的所有像素均被FCN模型赋予了相同的语义标签，所以不需要对其进行优化，直接沿用原有的语义标记即可。对于情况B，因为该类超像素中也没有图像边缘，所以类似于情况A，超像素可能处于背景中或者在某个物体的主要区域中，也可能在平滑边缘附近。FCN模型的上采样操作可能会引起扩散误差，比如可能会将图像边缘附近的背景部分标记为其他类别，这是导致出现情况B的主要原因。对于这种超像素，由于错误分类的像素属于少数，所以本文将超像素内占最大比例的语义标签重新赋予全部像素。

情况C和情况D都是超像素内包含图像边缘，但像素的语义标签情况不同。情况C中所有像素具有相同的语义标签，说明FCN模型将其识别为了某个物体的主体区域，该区域内自身具有边缘。对于该类超像素，做法仍然是沿用现有的语义标签，这是由于FCN模型在抽象高级语义特征的时候，对亮度、微小形变、遮挡等情况具有一定的鲁棒性，内部的边缘可能是光照产生的阴影。情况D则最为复杂，这类超像素内部既有图像边缘又被分配了不同的语义标签，往往出现在图像的一些细小结构或者有遮挡、覆盖等局部区域。对于这类情况，本实施例采用自适应的处理方式，若发现同一个语义标签被分配到了80％及以上的像素，则将该语义标签作为整个超像素的语义标签，若不存在占据大多数像素的语义标签，则放弃对该区域的优化，这是由于这种情况超像素无法有效区分图像边缘，如果施加优化可能会适得其反。

利用超像素分割结果优化粗糙图像语义分割结果后，会形成优化后的图像语义分割结果，再利用全连接条件随机场模型对优化后的图像语义分割结果进行优化。

具体地，经过局部边缘优化后，仍然有必要提高虚弱边缘、细小结构和复杂场景下的语义分割精度。因此，本发明采用全连接条件随机场模型来更精确地恢复图像的边缘，即进一步优化图像中边缘部分的分割效果，进而提升整体的图像语义分割准确率。

根据条件随机场的基础理论，考虑以像素为单位的标签作为随机变量，将像素之间的关系作为边，它们便构成了一个条件随机场。当我们获得全局观测之后这些标签就可以被建模，而全局观测往往很容易获得，通常就是输入图像。更具体一点的说，全连接条件随机场中拥有N个像素的输入图像就表示了全局观测I。接着给定一个图G＝(V,E)，V和E分别表示图的顶点和边。设X是由随机变量{X₁,X₂,...,X_N}组成的向量，其中X_i是随机变量，它表示分配给像素i的标签。将输入图像I和经过边缘优化的像素级语义分割图，建立全连接条件随机场模型，用概率分布P(X)表示：

其中，E(x)是标记x∈L^N的吉布斯能量，Z(I)是分割函数。全连接条件随机场应用能量函数：

其中，ψ_u(x_i)表示一元势能，它代表了像素i被标记为标签x_i的概率，本实施例中的一元势能ψ_u(x_i)为优化后的语义分割结果；ψ_p(x_i,x_j)表示二元势能，它代表了像素i和像素j被同时标记为x_i和x_j的概率，如下式所示：

其中，I_i和I_j表示颜色向量，p_i和p_j则表示像素位置；超参数σ_α，σ_β和σ_γ控制高斯核函数的范围；μ(x_i,x_j)为标签兼容性函数，其中若x_i≠x_j，则μ(x_i,x_j)等于1，否则μ(x_i,x_j)的值为0，这意味着分配了不同标签的邻近相似像素会受到惩罚，换句话说，相似的像素被鼓励分配相同的标签，而“距离”差异很大的像素趋向于被分配不同的标签。比如，“马路”和“车”这两个物体同时出现在一张图片上的概率应该远大于“草地”和“车”同时出现的概率。“距离”的定义与像素颜色和像素间的实际距离有关，因此全连接条件随机场能够尽可能地在边缘划分处分割图像。

本实例使用交叉验证的方式确定全连接条件随机场的几个超参数。首先本实例设置ω₂和σ_γ两个值，对于这两个参数来说，它们对于分类精度的影响并不大，更多的是影响平滑性，设置初始值ω₂＝1，σ_γ＝1，但是根据测试结果，本实例最终设置ω₂＝3，ω₂＝3。对于ω₁、σ_α和σ_β这三个超参数，本实例使用了一种由粗糙到精细的最优值搜索策略。本实例在训练数据集上选择少量图片进行搜索，这三个参数的初始值设置为ω₁＝3，σ_α＝30，σ_β＝3。初始搜索范围设置为ω₁∈[3:6]，σ_α∈[30:10:100]和σ_β∈[3:6]，分别表示ω₁和σ_β是从3搜索到6，每次递增1；σ_α是从30搜索到100，每次递增10。一轮搜索过后，在最优值所在的范围内重新进行搜索，递增的步进减半直到最终搜索停止，这样能够保证本实例设置的条件随机场参数是最优参数。经过搜索，本实例使用的三个值分别为ω₁＝5，σ_α＝49，σ_β＝3。

以下结合仿真试验，对本发明的效果作进一步说明：

1、仿真条件和内容

本实施例的硬件仿真平台为：CPU为英特尔酷睿i3-2120@3.30GHz，8.0GB的内存，显卡为NVIDIA Titan Xp，显存为12GB。

仿真1，选择一副待分割图像，将其输入到训练后的FCN-8s模型中，同时使用SLIC超像素分割算法获取该图像的超像素分割结果，然后使用局部边缘优化模型对该图像的语义分割结果进行边缘优化，具体优化效果如图4所示；

仿真2，继续对仿真1中获取的经过初步边缘优化后的分割结果使用训练后的条件随机场模型进行进一步优化，对比结果如图5所示；

仿真3，基于类别分割准确率，用本发明与现有的两类知名语义分割方法对VOC数据集中的测试图像进行准确率对比实验，结果如图6所示；

仿真4，基于类别分割准确率，用本发明与现有的两类知名语义分割方法对Cityscapes数据集中的测试图像进行准确率对比实验，结果如图7所示。

2、仿真结果分析

参照图4，可以看出，许多具有清晰、光滑和显著边缘的超像素很好地粘合了物体本身的边界，其中大部分的区域都属于情况A，即对于大部分的像素来说，都沿用了FCN模型给像素分配的语义标签。而对于错误分类的情况B、情况C和情况D，都可以从图4中的方框标出的局部放大区域找到。情况B中最常见的错误是将背景像素误分类为其他的类别，而从放大的局部区域中可以看到，本发明的优化算法能够有效地纠正这一类错误。如果能够修正情况C的错误，无疑会增强语义分割算法的准确率，图中方框区域中有大量该类超像素，而本发明的优化算法对错误标注的像素逐一进行了修正。属于情况D的超像素具有不同分类的语义信息，而属于不同类别的像素数量大致相同，这些超像素一般存在于图像的弱边缘或细小结构等复杂环境中，很容易被错误分类。对于这类超像素，本发明并未胡乱重新分类，而是选择与前端提供的分割结果保持一致。根据图4的结果，上文提到的四种情况均有所涉及，证明了本发明提出的边缘优化算法能够按照语义标签分配策略来进行超像素内像素语义标签的重新分配。

参照图5，方框圈住的3个局部细节中我们可以看到以下现象：

(1)仅仅经过超像素边缘优化的语义分割结果还不够完善，还有进一步提升的空间，加上CRF约束后的语义分割结果已经较为接近真实的语义标签。

(2)在大型的图像结构中，如火车底部与铁轨接触的部分，超像素无法准确定位物体边缘，局部边缘优化算法沿用了FCN模型的标记结果，而经过CRF的精确边缘恢复之后，能够修正被FCN模型错误标记的像素，将错误分类的像素重新归为正确的语义类别。

(3)对于一些小结构，如火车顶部和车头的扶手和栏杆，超像素边缘优化的修正能力有限，而条件随机场的约束能力能够取得良好的效果，使优化后的图像边缘更贴合真实的物体边缘。

参照图6，能够看到，三种算法对背景的识别率最高，均超过了90％。在所有类别中，对椅子这一类别的识别准确率最低，仅为20％～35％；三种模型对鸟、公交、猫、摩托车、人和火车等类别的分割准确率处于较高水平。可以看到，本发明提出的优化算法在大多数类别中都获得了最佳成绩。特别是与FCN-8s相比，几乎所有类别下的IoU得分均有显著提高，上述对本发明和现有基于全卷积网络的语义分割方法的分割结果的定性分析表明，本发明能良好地继承FCN模型优异的图像高级语义信息的提取能力，同时由于该模型充分利用了图像边缘等位置信息，其对图像中的细小边缘、细缝等结构有更准确的定位；

参照图6和图7，可以看出，Cityscapes数据集的实验结果与VOC数据集的结果仍然保持一致。使用本发明提出的优化算法，与FCN-8s相比，IoU成绩得到显著提升。图6和图7在两个数据集上进行的定量对比表明，本发明提出的利用超像素进行边缘优化的算法以及使用条件随机场进行精细边缘恢复的方法，使语义分割准确性得到了有效提升，这说明利用传统图像分割算法获得的低级图像信息对语义分割的粗糙结果进行优化，是提升现有语义分割算法分割准确率行之有效的一种方法。

数据选取模块，用于选取图像数据；

训练验证模块，用于利用图像数据训练并验证图像语义分割模型和全连接条件随机场模型；

语义分割模块，用于利用训练后的图像语义分割模型获取图像的语义分割结果；

第一优化模块，用于利用超像素分割结果优化语义分割结果，形成第一优化结果；

第二优化模块，用于利用训练后的全连接条件随机场模型优化第一优化结果。

本发明提出的方法，旨在优化现有算法的分割结果，具体实施过程中，可以根据具体需要使用不同的超像素分割算法，实现灵活，兼容性强。性能方面不仅能够有效地提取图像中的高级语义信息，而且能利用图像低级信息精确分割图像边缘，同时对扩散误差具有较强的鲁棒性；利用超像素保留图像中的物体边缘；通过局部边缘优化算法提升现有分割模型对图像边缘的语义分割准确率，使用全连接条件随机场对颜色和空间位置上相似的像素进行约束，充分利用图像的像素间关系，从而进一步优化语义分割的结果，使图像边缘得到更精确的分割。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种针对边缘图像的语义分割优化方法，其特征在于，包括：

选取图像数据；

利用超像素分割算法获取图像边缘信息的超像素分割结果；

2.根据权利要求1所述的方法，其特征在于，所述图像数据，包括：

VOC数据集或Cityscapes数据集。

3.根据权利要求1所述的方法，其特征在于，所述利用所述图像数据训练并验证图像语义分割模型和全连接条件随机场模型，包括：

将所述图像数据划分为训练集和验证集；

4.根据权利要求1所述的方法，其特征在于，所述图像语义分割模型为FCN-8s模型。

5.根据权利要求1所述的方法，其特征在于，所述超像素分割算法为SLIC超像素分割算法。

6.根据权利要求1所述的方法，其特征在于，所述利用所述超像素分割结果优化所述语义分割结果，形成第一优化结果，包括：

对所述超像素分割结果进行语义标签分配，形成特征标签；

7.一种针对边缘图像的语义分割优化装置，其特征在于，包括：

数据选取模块，用于选取图像数据；