CN109872374A

CN109872374A - 一种图像语义分割的优化方法、装置、存储介质及终端

Info

Publication number: CN109872374A
Application number: CN201910123119.0A
Authority: CN
Inventors: 王琰; 张亮; 朱光明; 刘挺
Original assignee: Jiangsu Tongyou Visual Technology Co Ltd
Current assignee: Jiangsu Tongyou Visual Technology Co Ltd
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2019-06-11

Abstract

本申请实施例公开了一种图像语义分割的优化方法、装置、存储介质及终端。该方法包括获取待分割图像中的超像素；获取所述待分割图像的概率映射图，并根据所述概率映射图确定所述超像素的标签类属的概率分布信息；根据所述概率分布信息确定满足设定条件的目标超像素，调整所述目标超像素中的像素点的标签类属；基于调整后的目标超像素和所述待分割图像中的剩余超像素构建条件随机场模型，并根据所述条件随机场模型确定所述待分割图像的图像语义分割结果，实现根据条件随机场优化待分割图像的分割结果，可以提高图像语义分割结果在边界处的分割效果。

Description

一种图像语义分割的优化方法、装置、存储介质及终端

技术领域

本申请实施例涉及计算机视觉领域，尤其涉及一种图像语义分割的优化方法、装置、存储介质及终端。

背景技术

图像的语义分割作为图像理解的基石性技术，在多个方面有着举足轻重的地位，例如自动驾驶，无人机应用，可穿戴式设备等等。

从像素级别上讲，图像分割就是给图像中每个像素点都指定一个物体类别标签。相同类别标签的像素点聚合为一个区域，代表相同的局部表征，通常具有明确的语义信息，即代表物体或物体局部。国内外针对图像语义分割问题的研究方法主要分为：基于特征的方法和基于深度学习的方法。围绕基于特征的方法已经有数十年的研究，该方法比较成熟，计算量较小，但是需要依赖专家人为设计的特征，因此设计代价较高。基于深度学习的方法具有分割精度较高的优点，然而其计算代价较大，分割结果较粗略，物体边缘处的分割效果不佳。例如，使用全卷积神经网络对图片进行分割，全卷积神经网络最大的特点是将原始神经网络中的全连接层用卷积层替换，这样很好的保留了原始卷积结构中因为全连接而破坏的图片空间位置信息，之后，通过上采样过程将全卷积网络的输出恢复到原始图片大小，最后，通过对所得特征图中每个位置进行分类的方式来获得像素级别的分类效果。由于上述卷积过程是空间不变的，它获取的是图片区域与区域之间的关系，很难获取图片像素级别的依赖关系，从而导致分割结果在目标边界区域处的分割效果较差。

发明内容

本申请实施例提供一种图像语义分割的优化方法、装置、存储介质及终端，可以提高图像语义分割结果在边界处的分割效果。

第一方面，本申请实施例提供了一种图像语义分割的优化方法，包括：

获取待分割图像中的超像素；

获取所述待分割图像的概率映射图，并根据所述概率映射图确定所述超像素的标签类属的概率分布信息，其中，所述概率映射图用于表示所述待分割图像中每个像素点的标签类属的概率；

根据所述概率分布信息确定满足设定条件的目标超像素，调整所述目标超像素中的像素点的标签类属；

基于调整后的目标超像素和所述待分割图像中的剩余超像素构建条件随机场模型，并根据所述条件随机场模型确定所述待分割图像的图像语义分割结果。

第二方面，本申请实施例还提供了一种图像语义分割的优化装置，该装置包括：

超像素获取模块，用于获取待分割图像中的超像素；

分布信息确定模块，用于获取所述待分割图像的概率映射图，并根据所述概率映射图确定所述超像素的标签类属的概率分布信息，其中，所述概率映射图用于表示所述待分割图像中每个像素点的标签类属的概率；

超像素调整模块，用于根据所述概率分布信息调整满足设定条件超像素中的像素点的标签类属；

分割结果确定模块，用于基于调整后的目标超像素和所述待分割图像中的剩余超像素构建条件随机场模型，并根据所述条件随机场模型确定所述待分割图像的图像语义分割结果。

第三方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所述的图像语义分割的优化方法。

第四方面，本申请实施例还提供了一种智能终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行计算机程序时实现如上述第一方面所述的图像语义分割的优化方法。

本申请实施例提供一种图像语义分割的优化方案，获取待分割图像中的超像素，获取该待分割图像的概率映射图，并根据该概率映射图确定各个超像素的标签类属的概率分布信息；根据该概率分布信息调整满足设定条件的超像素中的像素点的标签类属；基于调整后的目标超像素和该待分割图像中的未经调整的剩余超像素构建条件随机场模型，并根据该条件随机场模型确定该待分割图像的图像语义分割结果。通过采用上述技术方案，可以根据超像素的概率分布信息确定满足设定条件的目标超像素，并对该目标超像素中的像素点的标签类属进行调整，得到调整后的目标超像素；然后，基于调整后的目标超像素以及该待分割图像中的剩余超像素构建条件随机场，并根据该条件随机场优化采用深度学习方法得到的待分割图像的分割结果，可以提高图像语义分割结果在边界处的分割效果。

附图说明

图1为本申请实施例一提供的一种图像语义分割的优化方法的流程图；

图2为本申请实施例提供的一种使用卷积神经网络模型进行图像语义分割的架构图；

图3为本申请实施例二提供的一种图像语义分割的优化方法的流程图；

图4为本申请实施例中使用简单线性迭代聚类算法对待分割图像进行超像素分割的流程图；

图5为本申请实施例提供的基于熵的策略对超像素进行重分割的分割结果示意图；

图6为本申请实施例提供的一种密集型条件随机场对图像进行语义分割处理的建模图；

图7为本申请实施例提供的对待分割图像进行语义分割后的分割效果图；

图8为本申请实施例三提供的一种图像语义分割的优化装置的结构框图；

图9为本申请实施例四提供的一种智能终端的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

实施例一

图1为本申请实施例一提供的一种图像语义分割的优化方法的流程图，该方法可以由图像语义分割的优化装置来执行，其中，该装置可以由软件和/或硬件实现，一般可集成在智能终端中。如图1所示，该方法包括：

步骤110、获取待分割图像中的超像素。

例如，超像素(即superpixel)是待分割图像中一系列位置相邻且亮度、颜色、纹理等特征相似的像素点组成的连续的、互不重叠的区域。其中，待分割图像是待进行图像语义分割的原始图像。该待分割图像的颜色模式可以是RGB，也可以是其它颜色模式。需要说明的是，颜色通常用三个相对独立的属性来描述，三个独立变量综合作用，自然就构成一个空间坐标，这就是颜色模式。颜色模式可分为基色颜色模式和色亮分离颜色模式，其中，其中，色亮分离颜色模式用于指示色彩信息和亮度信息分离的颜色模式，例如，基色颜色模式包括但不限于RGB颜色模式，色亮分离颜色模式包括但不限于YUV颜色模式和Lab颜色模式。在YUV颜色模式中Y分量表征亮度，U分量表征色度，V分量表征浓度，其中，U分量和V分量共同表示图像的色彩。在Lab颜色模式中L分量表征亮度，a和b共同表示色彩。在色亮分离颜色模式的图像中，可分别提取亮度分量和色彩分量，可对图像进行亮度和色彩中任一方面的处理，示例性的，对亮度分量进行处理过程中，不会对图像的色彩分量造成任何的影响。

获取一帧待进行图像语义分割的颜色模式为RGB的待分割图像，可以采用简单线性迭代聚类算法(Simple Linear Iterative Cluster，简称为SLIC)确定该待分割图像的超像素。获取设定颜色模型下的待分割图像，根据所述待分割图像中的像素点的色彩特征和空间特征生成两个超像素。

例如，对RGB模式的待分割图像进行颜色模式转换，得到颜色模式是LAB的转换待分割图像，即转换待分割图像中的像素点可以采用五维向量[l,a,b,x,y]表示。初始化种子点(即聚类中心)：按照设定的超像素个数，在转换待分割图像内均匀的分配种子点。假设转换待分割图像总共有N个像素点，预分割为K个相同尺寸的超像素(K为人为设定的数值)，那么每个超像素的大小为N/K，则相邻种子点的距离(步长)近似为S＝sqrt(N/K)。在种子点的n*n邻域内重新选择种子点(一般取n＝3，本申请实施例对n的取值并不作具体限定)。具体方法为：计算该邻域内所有像素点的梯度值，将种子点移到该邻域内梯度最小的地方。这样做的目的是为了避免种子点落在梯度较大的轮廓边界上而影响后续聚类效果。在每个种子点周围的邻域内为每个像素点分配类标签(即属于哪个聚类中心)。SLIC的搜索范围限制为2S*2S，可以加速算法收敛，需要说明的是，期望的超像素尺寸为S*S，但是搜索的范围是2S*2S。对于每个搜索到的像素点，分别计算它和该种子点的距离(包括颜色距离和空间距离)。距离计算方法如下：

其中，d_c代表颜色距离，d_s代表空间距离，N_s是类内最大空间距离，定义为N_s＝S＝sqrt(N/K)，适用于每个聚类。N_c是类内最大颜色距离，通常取值为固定常数m，m的取值范围是[1,40]，一般可以是10。

由于每个像素点都会被多个种子点搜索到，所以每个像素点都会有一个与周围种子点的距离，取距离最小值对应的种子点作为该像素点的聚类中心。迭代执行上述步骤直至迭代次数达到设定次数阈值为止。经过上述迭代优化可能出现以下瑕疵：出现多连通情况、超像素尺寸过小或者单个超像素被切割成多个不连续超像素等情况，这些情况可以通过增强连通性方式解决。例如，新建一张邻接表，表内元素均为-1，按照“Z”型走向(从左到右，从上到下顺序)将不连续的超像素、尺寸过小超像素重新分配给邻近的超像素，遍历过的像素点分配给相应的标签，直到所有像素点遍历完毕为止，得到待分割图像的多个超像素。获取待分割图像的超像素。

步骤120、获取所述待分割图像的概率映射图，并根据所述概率映射图确定所述超像素的标签类属的概率分布信息。

其中，概率映射图用于表示待分割图像中每个像素点的标签类属的概率，将待分割图像输入深度学习模型可以得到该待分割图像的概率映射图，并且标签类属与深度学习模型的数据集包含的类别相关。例如，PASCAL VOC 2012数据集包括20个物体类别和1个背景类别，相应的，具有21种标签类属。每个概率映射图的尺寸大小与原图像(即待分割图像)相同，分别对应着待分割图像中每个像素点属于某一类别的可能性。例如，第i个概率图上(x,y)位置处的值，代表图像上(x,y)位置处的像素点属于第i个类别的可能性大小。

本申请实施例中，深度学习模型可以是卷积神经网络模型，还可以其它模型，本申请实施例并不作具体限定。其中，卷积神经网络模型可以选择全卷积神经网络(如FCN_S),还可以选择深度卷积神经网络(如Deeplab)。

示例性的，将一帧宽高为w*h的待分割图像输入卷积神经网络模型中，获得M个概率映射图(probability map)，M代表类别总数目。对于采用PASCAL VOC2012数据集训练的卷积神经网络模型，M的取值是21。图2为本申请实施例提供的一种使用卷积神经网络模型进行图像语义分割的架构图。如图2所示，待分割图像201经过卷积神经网络模型处理后得到21个概率映射图202，在softmax归一化层对概率映射图202进行标定处理，可以得到该待分割图像201的语义分割结果图203。

对于待分割图像中的像素点(x_o,y_o)，获取M个概率映射图中该像素点(x_o,y_o)的概率值，做归一化计算，得到待分割图像在(x_o,y_o)处像素点的标签类属的概率分布信息。采用上述方式可以得到待分割图像中每个像素点标签类属的概率分布信息。例如，采用卷积神经网络模型处理待分割图像的过程中，在前向计算达到最终的softmax层之前，获取对该待分割图像进行处理得到的概率映射图，并进行归一化处理后，以矩阵形式将待分割图像存储于智能终端的内存。其中，矩阵的大小为w*h*d，采用w*h表示待分割图像的图像尺寸，采用d表示概率映射图的数目，也就是类别的个数。从深度切片来看，同一深度切片上的值，表示卷积神经网络模型给出的全部像素点属于某个类别的概率。从深度纵向来看，所有深度切片上相同位置处的值，代表卷积神经网络模型给出的该位置处像素点属于全部类别的概率。将上述数据存储于内存中，以便于条件随机场上述数据对卷积神经网络的语义分割结果做微调。对于每张待分割图像，可以采用一个w*h*d大小的矩阵进行存储，可以根据数据集中大多数图像的分辨率确定将该矩阵占用磁盘存储空间的大小。

由于概率映射图与原始的待分割图像的图像尺寸相同，可以确定在概率映射图中，超像素包含的像素点的集合。计算每个超像素包含的像素点的概率分布的均值，得到该超像素的标签类属的概率分布信息。示例性的，获取概率映射图中各个超像素包含的像素点的标签类属的第一概率分布信息；根据该第一概率分布信息分别计算每个超像素的标签类属的第二概率分布信息(即为超像素的标签类属的概率分布信息)。可以采用下述公式计算超像素的标签类属的概率分布信息：

其中，p_i代表卷积神经网络模型输出的第i个像素点的标签类属的第一概率分布信息，P_superpixel代表超像素的标签类属的第二概率分布信息，f表示一个超像素包含的像素点的数目。

步骤130、根据所述概率分布信息确定满足设定条件的目标超像素，调整所述目标超像素中的像素点的标签类属。

其中，设定条件用于判定超像素中的像素点之间的概率分布的差异是否较大。例如，设定条件可以是将熵大于设定阈值的超像素标记为目标超像素。其中，超像素的熵可以根据超像素的概率分布信息确定。可以采用下述公式确定超像素的熵H。

其中，k表示超像素的数目。

进而，对超像素进行重分割优化的操作可以是：对于熵大于设定阈值的超像素，标记为待分割图像的目标超像素，对于熵小于或等于设定阈值的超像素标记为待分割图像的剩余超像素。其中，设定阈值是系统默认值，例如，设定阈值可以是0.3，该系统默认值可以根据多次实验确定。根据目标超像素中的像素点的第一概率分布信息调整该目标超像素包含的像素点的标签类属，这样设计的好处是可以对像素点的概率分布差异较大的目标超像素进行拆分，得到至少两个子超像素，以保证每个子超像素中的像素点基本属于同一类别。例如，根据超像素的第二概率分布信息计算该超像素的熵，将计算得到的熵与设定阈值进行比较。将熵大于设定阈值的超像素作为目标超像素。根据目标超像素中的像素点的第一概率分布信息，由每个目标超像素包含的像素点中确定至少两个聚类中心，根据该聚类中心对目标超像素包含的像素点进行分组，得到至少两个子超像素；根据该聚类中心处的像素点的标签类属调整该子超像素中的像素点的标签类属，得到调整后的超像素。可选的，将每个子超像素中的像素点的标签类属与位于聚类中心处的像素点的标签类属进行匹配；若匹配成功，则不修改该像素点的标签类属；若匹配失败，则将该像素点的标签类属更新为聚类中心处的像素点的标签类属。

步骤140、基于调整后的目标超像素和所述待分割图像中的剩余超像素构建条件随机场模型，并根据所述条件随机场模型确定所述待分割图像的图像语义分割结果。

其中，条件随机场(Conditional random field，简称为CRF)是条件概率分布模型P(Y|X)，表示的是给定一组输入随机变量X的条件下另一组输出随机变量Y的马尔可夫随机场，也就是说CRF的特点是假设输出随机变量构成马尔可夫随机场。

示例性的，采用公式(4)重新计算调整后的目标超像素和剩余超像素的概率分布信息。基于调整后的目标超像素和所述待分割图像中的剩余超像素的标签类属的概率分布信息确定一元势函数；确定调整后的超像素和所述待分割图像中的剩余超像素的色彩特征和空间特征，并根据所述色彩特征和所述空间特征确定二元势函数；根据所述一元势函数和二元势函数构建条件随机场模型。可选的，确定调整后的超像素和所述待分割图像中的剩余超像素的色彩特征和空间特征可以是分别获取调整后的超像素和所述待分割图像中的剩余超像素中的各个像素点的色彩分量，根据所述色彩分量确定所述超像素的色彩特征；分别获取调整后的超像素和所述待分割图像中的剩余超像素中的各个像素点的坐标信息，根据所述坐标信息确定所述超像素的空间特征。

其中，一元势函数可以定义为超像素i取类属标记x_i的似然概率的对数形式。似然概率可根据超像素的像素特征来学习得到，例如，根据颜色或者联合颜色、纹理、位置和形状等特征。本申请实施例中基于卷积神经网络模型，一元势函数的计算如下：

p(x_i)代表卷积神经网络模型输出的第i个像素点的概率分布信息；像素i取标记x_i的概率值越大，则越小。

其中，二元势函数描述将像素点i和像素点j赋为同一个标签所花费的代价，一元势函数是没有考虑图像平滑性的，也没有考虑像素与像素之间的依赖关系，所以通过设计二元势函数来获得一元势函数中没有考虑的因素，二元势函数增加了一个图像平滑的过程，并且二元势函数鼓励相邻位置颜色相似的像素赋予同一种标签。二元势函数体现了领域内像素点的类别标记(即为像素点赋予什么类型的标签)的相互作用，量化领域内像素点对类别标记的影响，其通用形式如下：

其中，x_i表示节点i的类别标记，g(i,j)表示相邻超像素i和j取不同类别标记时的惩罚值。I_i和I_j表示超像素i和j的特征向量，g(i,j)反映了超像素间特征的差异程度。针对卷积神经网络模型的输出结果，当为相邻的超像素点取不同类别标记时，如果其色彩特征差异越大(即确实该分)，则惩罚值越小(鼓励卷积神经网络模型的正确行为)；如果颜色差异越小(即实际不该分)，则惩罚值越大(惩罚卷积神经网络模型的错误行为)。

需要说明的是，对超像素进行特征提取，得到超像素的特征向量，其中，特征向量包括色彩特征向量和空间特征向量。获取LAB颜色模式的待分割图像，这样设计的好处是LAB颜色模式的色域宽阔，可以解决RGB模式下色彩分布不均的问题。若所获取的待分割图像不是LAB颜色模式，可以利用OPENCV库对应的图像处理函数进行颜色模式转换，随后，分别提取转换后的待分割图像中每个超像素内所有像素点的[L，A，B]值，计算每个超像素内所有像素点的[L，A，B]值的均值，作为该超像素的色彩特征向量。根据待分割图像中每个超像素内所有像素点的坐标均值确定各个超像素的空间特征向量。例如，将超像素内所有像素点在[x,y]二维方向上的平均值，作为超像素的空间特征向量。因此，超像素i的特征向量可以表示为[L_i，A_i，B_i，x_i,y_i]。

根据条件随机场定义，能量函数的描述如下式：

其中，一元势函数表述了超像素点i的类属标记为x_i需要花费的代价，二元势函数描述将超像素i和超像素j赋为同一类属标记所花费的代价。

针对二元势函数采取高斯核形式展开，得到展开后的二元势函数如下：

需要说明的是，通常采用图像的色彩特征和空间特征作为高斯核，I表示超像素的色彩特征向量，J表示超像素的空间特征向量。ω₁和ω₂代表超参数，是人为设定的参数，且该参数与训练集相关，即不同数训练集对应不同的超参数，训练集是用于训练深度学习模型的数据集合。θ_α，θ_β，θ_γ表示高斯核带宽参数。另外，下述关系式和称为核函数，是基于色彩和纹理特征的表达式，若领域内的超像素的表征越相似，其归属同一个类的可能性就越大。上述超像素的相似性的度量可以通过高斯核带宽参数来控制。核函数可以有助于消除局部孤立区域。μ(x_i,x_j)代表兼容性函数，其可以采用下式表示：

由上式可知，当两个相邻超像素被赋予同一个类属标签时，即确定两个相邻超像素属于同类时，兼容性函数取值为0，换言之，二元势函数整体为0。当两个相邻超像素被赋予不同的类属标签时，即确定两个相邻超像素属于不同类时，兼容性函数取值为1。

可以将上述能量函数E(X)(如吉布斯能量函数)理解为一个惩罚项。假设深度学习模块的分类器为两个相邻超像素赋予不同的类属标签，那么，若惩罚力度大，意味着引导深度学习模型的分类器将两个相邻超像素归为同类，若惩罚力度小，意味着引导分类器将两个相邻超像素归为不同类是合理的，即支持分类器的决定。惩罚力度的大小与能量函数相关，为了实现正确的进行图像语义分割，对于相邻的超像素，能量函数要趋于最小化。

采用平均场理论推断算法求解上述密集型的条件随机场模型，得到待进行语义分割的待分割图像中每个像素点的标签类属的概率分布信息，将其中概率最大的标签类属作为该像素点的标签，得到待分割图像的图像语义分割结果。

本实施例的技术方案，获取待分割图像中的超像素，获取该待分割图像的概率映射图，并根据该概率映射图确定各个超像素的标签类属的概率分布信息；根据该概率分布信息调整满足设定条件的超像素中的像素点的标签类属；基于调整后的目标超像素和该待分割图像中的未经调整的剩余超像素构建条件随机场模型，并根据该条件随机场模型确定该待分割图像的图像语义分割结果。通过采用上述技术方案，可以根据超像素的概率分布信息确定满足设定条件的目标超像素，并对该目标超像素中的像素点的标签类属进行调整，得到调整后的目标超像素；然后，基于调整后的目标超像素以及该待分割图像中的剩余超像素构建条件随机场，并根据该条件随机场优化采用深度学习方法得到的待分割图像的分割结果，可以提高图像语义分割结果在边界处的分割效果。

实施例二

图3为本申请实施例二提供的一种图像语义分割的优化方法的流程图，该实施例对上述图像语义分割的相关步骤进行进一步细化。如图3所示，该方法包括：

步骤301、获取待进行图像语义分割的待分割图像。

示例性的，待分割图像可以是RGB图像，也可以是其它颜色模式的图像。其中，RGB图像的宽高可以是w*h。

步骤302、将待分割图像输入卷积神经网络模型中。

其中，卷积神经网络模型可以是全卷积神经网络模型，全卷积神经网络模型对于输入图像没有限制，接收任意大小的输入，计算得到一张语义分割结果的输出图，该输出图和待分割图像尺寸相同。全卷积网络属于端对端(end-to-end)，像素对像素(pixel-to-pixel)的训练，因此可以高效的学习和推断。

步骤303、通过该卷积神经网络模型中的分类器对该待分割图像进行处理，获得M个概率映射图。

示例性的，全卷积网络计算得到概率映射图。在前向计算过程中，因为池化层的缘故，特征图的尺寸逐渐减小。全卷积网络增加了一个21通道的大小的卷积层，21个通道对应20个物体类别和1个背景类别，因此最终可以得到待分割图像中的每个像素点分属于21个类别的可能性概率。可选的，对每个像素的位置处，采用一个双线性插值的上采样操作，得到较为准确的预测结果。可选的，增加了跳跃层(skippable)结构，该层的作用是把深层的粗略分割信息和浅层的精准信息相互融合起来，用以增加结果的准确性。

步骤304、采用简单线性迭代聚类算法生成待分割图像的超像素。

图4为本申请实施例中使用简单线性迭代聚类算法对待分割图像进行超像素分割的流程图，可以包括：以RGB格式的待分割图像为例，将RGB图像转换为CIE-Lab图像。把整个CIE-Lab图像划分为边长为S的像素的网格，共有k个网格，每个网格内采样一个初始的聚类中心C_k＝[l_k,a_k,b_k,x_k,y_k]^T，网格的间隔为在初始的聚类中心的邻域3×3范围内，计算最小梯度位置，然后将聚类中心移到此处，目的是避免聚类中心位于边上以及噪声干扰。所有像素点的标记l(i)初始化为-1，距离d(i)标记为∞。然后，逐个遍历k个聚类中心，针对每个聚类中心，计算其2×2邻域范围内的每个像素与该聚类中心的距离D。该距离的计算本质上是衡量像素点的相似性，可以基于像素点的5维特征向量[l,a,b,x,y]^T计算得到上述距离。若D≤d(i)，则d(i)＝D，l(i)＝k。当把k个聚类中心遍历一次后，每个像素点都将被分配一个距离最近的聚类标签。对k个聚类各自包含的所有像素点的5维特征向量[l,a,b,x,y]^T计算平均值，生成新的k个聚类中心。计算新旧中心点的残差E，根据残差确定是否对聚类结果进行调整，并根据阈值判断是否停止算法再次迭代。算法完整流程如附图4所示。实验表明，大部分图像经过10次迭代后即可得到满意效果，因此可以将迭代次数是10次。

步骤305、根据所述概率映射图确定所述超像素的标签类属的概率分布信息。

步骤306、根据所述概率分布信息确定满足设定条件的目标超像素，采用设定的重分割策略对目标超像素进行重新标注，以对目标超像素进行分割。

示例性的，根据超像素的概率分布信息可以计算每个超像素的熵，对于熵大于设定阈值的超像素，标记为待分割图像的目标超像素，对于熵小于或等于设定阈值的超像素标记为待分割图像的剩余超像素。设定的重分割策略可以是根据目标超像素中的像素点的概率分布信息，由每个目标超像素包含的像素点中确定至少两个聚类中心，根据该聚类中心对目标超像素包含的像素点进行分割，得到至少两个子超像素；根据该聚类中心处的像素点的标签类属调整该子超像素中的像素点的标签类属，实现对原目标超像素的分割。图5为本申请实施例提供的基于熵的策略对超像素进行重分割的分割结果示意图。如图5所示，不同类的像素被赋予不同标签类属，相同类的像素被赋予相同的标签类属。

步骤307、基于概率映射图确定重标注后的目标超像素和剩余超像素的概率分布信息，基于该概率分布信息确定一元势函数。

步骤308、根据重标注后的目标超像素和剩余超像素的纹理特征和位置特征确定二元势函数。

步骤309、根据一元势函数和二元势函数构建基于超像素的条件随机场模型。

采用一元势函数和二元势函数构建如上述式(8)的形式的密集型条件随机场模型。图6为本申请实施例提供的一种密集型条件随机场对图像进行语义分割处理的建模图。

步骤310、基于平均场的推断算法求解该条件随机场模型，得到待分割图像的图像语义分割结果。

示例性的，采用平均场的推断算法求解密集型条件随机场模型的过程包括：输入一元势函数和二元势函数的高斯核、色彩特征向量和空间特征向量，输出待分割图像的边缘分布值Q，求解过程可以是：

(1)初始化计算操作：对所有i，

(2)信息传递的计算：对所有m，

(3)加权滤波器输出：

(4)兼容性转换输出：

(5)一元势能的合并：

(6)归一化的概率值：

(7)转至(2)步骤继续迭代计算，直至算法收敛。

该算法的每次迭代包括信息传递步骤，兼容性传递操作和局部更新操作。兼容性传递操作和局部更新操作的计算复杂度都是线性的。计算瓶颈是信息传递步骤。对每个随机变量来说，该步骤的计算涉及到除本身以外的其他所有变量，因此原始实现的计算复杂度是O(N²)。

图7为本申请实施例提供的对待分割图像进行语义分割后的分割效果图。如图7所示，通过本申请实施例的方案处理后的语义分割结果接近于真实标注的分割效果。

本实施例的技术方案，通过深度学习模型输出的概率映射图对超像素进行重分割，以将色彩特征和空间特征相似的相邻的像素点划分为一类，并将色彩特征和空间特征不相似的相邻的像素点划分到不同类，从而，提高了超像素的准确性。基于超像素构建条件随机场模型，由于条件随机场模型的构建节点较少，可以有效的提升计算效率；由于构建条件随机场模型的超像素时经过调整的超像素，还可以有效的提高模型构建的准确度。此外，采用条件随机场模型对深度学习模型的输出结果进行更正的方式，可以提升物体边缘部分的分割效果。

实施例三

图8为本申请实施例三提供的一种图像语义分割的优化装置的结构框图，该装置可由软件和/或硬件实现，一般集成在智能终端中，可通过执行图像语义分割的优化方法来优化图像语义分割结果。如图8所示，该装置包括：

超像素获取模块810，用于获取待分割图像中的超像素；

分布信息确定模块820，用于获取所述待分割图像的概率映射图，并根据所述概率映射图确定所述超像素的标签类属的概率分布信息，其中，所述概率映射图用于表示所述待分割图像中每个像素点的标签类属的概率；

超像素调整模块830，用于根据所述概率分布信息调整满足设定条件超像素中的像素点的标签类属；

分割结果确定模块840，用于基于调整后的目标超像素和所述待分割图像中的剩余超像素构建条件随机场模型，并根据所述条件随机场模型确定所述待分割图像的图像语义分割结果。

本申请实施例提供的图像语义分割的优化装置，通过获取待分割图像中的超像素，获取该待分割图像的概率映射图，并根据该概率映射图确定各个超像素的标签类属的概率分布信息；根据该概率分布信息调整满足设定条件的超像素中的像素点的标签类属；基于调整后的目标超像素和该待分割图像中的未经调整的剩余超像素构建条件随机场模型，并根据该条件随机场模型确定该待分割图像的图像语义分割结果。通过采用上述技术方案，可以根据超像素的概率分布信息确定满足设定条件的目标超像素，并对该目标超像素中的像素点的标签类属进行调整，得到调整后的目标超像素；然后，基于调整后的目标超像素以及该待分割图像中的剩余超像素构建条件随机场，并根据该条件随机场优化采用深度学习方法得到的待分割图像的分割结果，可以提高图像语义分割结果在边界处的分割效果。

可选的，还包括：

超像素生成模块，用于在获取待分割图像中的超像素之前，获取设定颜色模型下的待分割图像，根据所述待分割图像中的像素点的色彩特征和空间特征生成两个超像素。

可选的，分布信息确定模块820具体用于：

获取所述概率映射图中所述超像素包含的像素点的标签类属的第一概率分布信息；

根据所述第一概率分布信息计算所述超像素的标签类属的第二概率分布信息。

进一步的，根据所述概率分布信息确定满足设定条件的目标超像素，调整所述目标超像素中的像素点的标签类属，包括：

根据所述第二概率分布信息计算所述超像素的熵；

将所述熵大于设定阈值的超像素作为目标超像素；

根据所述目标超像素中的像素点的所述第一概率分布信息调整所述像素点的标签类属。

更进一步的，根据所述目标超像素中的像素点的所述第一概率分布信息调整所述像素点的标签类属，包括：

根据所述第一概率分布信息，由每个所述目标超像素包含的像素点中确定至少两个聚类中心，根据所述聚类中心对所述目标超像素包含的所述像素点进行分组，得到至少两个子超像素；

根据所述聚类中心处的所述像素点的标签类属调整所述子超像素中的像素点的标签类属，得到调整后的超像素。

可选的，分割结果确定模块840具体用于：

基于调整后的目标超像素和所述待分割图像中的剩余超像素的标签类属的概率分布信息确定一元势函数；

确定调整后的超像素和所述待分割图像中的剩余超像素的色彩特征和空间特征，并根据所述色彩特征和所述空间特征确定二元势函数；

根据所述一元势函数和二元势函数构建条件随机场模型。

进一步的，确定调整后的超像素和所述待分割图像中的剩余超像素的色彩特征和空间特征，包括：

分别获取调整后的超像素和所述待分割图像中的剩余超像素中的各个像素点的色彩分量，根据所述色彩分量确定所述超像素的色彩特征；

分别获取调整后的超像素和所述待分割图像中的剩余超像素中的各个像素点的坐标信息，根据所述坐标信息确定所述超像素的空间特征。

本申请实施例所提供的图像语义分割的优化装置可执行本申请任意实施例所提供的图像语义分割的优化方法，具备执行方法相应的功能模块和有益效果。

实施例四

图9为本申请实施例四提供的一种智能终端的结构示意图，如图9所示，该智能终端可以存储器910、处理器920及存储在存储器910上并可在处理器920运行的计算机程序，该处理器920执行该计算机程序时实现如本申请实施例所述的图像语义分割的优化方法。

存储器910作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的图像语义分割的优化方法对应的程序指令/模块(例如，图像语义分割的优化装置中的超像素获取模块810、分布信息确定模块820、超像素调整模块830和分割结果确定模块840等)。处理器920通过运行存储在存储器910中的软件程序、指令以及模块，从而执行设备/终端/服务器的各种功能应用以及数据处理，即实现上述的图像语义分割的优化方法。

存储器910可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器910可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器810可进一步包括相对于处理器920远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

此外，本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种图像语义分割的优化方法，该方法包括：

获取待分割图像中的超像素；

当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本申请任意实施例所提供的图像语义分割的优化方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

值得注意的是，上述图像语义分割的优化装置的实施例中，所包括的各个模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

上述实施例中提供的图像语义分割的优化装置、存储介质、智能终端可执行本申请任意实施例所提供的图像语义分割的优化方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的图像语义分割的优化方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种图像语义分割的优化方法，其特征在于，包括：

获取待分割图像中的超像素；

2.根据权利要求1所述的方法，其特征在于，在获取待分割图像中的超像素之前，还包括：

获取设定颜色模型下的待分割图像，根据所述待分割图像中的像素点的色彩特征和空间特征生成两个超像素。

3.根据权利要求1所述的方法，其特征在于，根据所述概率映射图确定所述超像素的标签类属的概率分布信息，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述概率分布信息确定满足设定条件的目标超像素，调整所述目标超像素中的像素点的标签类属，包括：

根据所述第二概率分布信息计算所述超像素的熵；

将所述熵大于设定阈值的超像素作为目标超像素；

5.根据权利要求4所述的方法，其特征在于，根据所述目标超像素中的像素点的所述第一概率分布信息调整所述像素点的标签类属，包括：

6.根据权利要求1所述的方法，其特征在于，基于调整后的目标超像素和所述待分割图像中的剩余超像素构建条件随机场模型，包括：

根据所述一元势函数和二元势函数构建条件随机场模型。

7.根据权利要求6所述的方法，其特征在于，确定调整后的超像素和所述待分割图像中的剩余超像素的色彩特征和空间特征，包括：

8.一种图像语义分割的优化装置，其特征在于，包括：

超像素获取模块，用于获取待分割图像中的超像素；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的图像语义分割的优化方法。

10.一种智能终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7中任一所述的图像语义分割的优化方法。