CN103984953A

CN103984953A - 基于多特征融合与Boosting决策森林的街景图像的语义分割方法

Info

Publication number: CN103984953A
Application number: CN201410164575.7A
Authority: CN
Inventors: 王慧燕; 付建海
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2014-04-23
Filing date: 2014-04-23
Publication date: 2014-08-13
Anticipated expiration: 2034-04-23
Also published as: CN103984953B

Abstract

一种基于多特征融合与Boosting决策森林的街景图像的语义分割方法，包括如下步骤：步骤1，对图像进行超像素分割；步骤2，多特征提取；步骤3，特征融合；步骤4，训练学习以及分类识别；本发明将2D特征和3D特征有效的融合在一起，显著的提高了目标的识别率，与现有技术相比，分割结果一致，连通性好，边缘定位准确，引入了Boosting决策森林分类机制，保证了目标分类的稳定性。

Description

基于多特征融合与Boosting决策森林的街景图像的语义分割方法

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于多特征融合与Boosting决策森林的街景图像语义分割方法。

背景技术

图像分割是将图像划分成多个具有相似特征区域的技术与过程，是图像处理中的重要问题。这里的特征可以是像素的灰度、颜色、纹理等，且预定义的目标可以是单个区域，也可以对应多个区域。图像分割不仅是目标表达的基础，对特征质量有着重要的影响，并且可以将原始图像转化为更加抽象的形式，使得更高层次的图像分析和理解成为可能。计算机视觉中的图像理解，如目标检测、目标特征提取和目标识别等，都依赖于图像分割的质量。图像处理强调在图像之间进行变换以改善图像的视觉效果。目前的图像分割算法大多是针对某一类图像进行的，且图像场景比较简单，包含的对象类别较少；同时，一般的图像分割算法对图像的亮度、缩放等信息比较敏感，所以可能会造成误分割。因此，把图像分割和图像的识别与理解结合起来，在保证图像处理效果的同时提高图像处理的效率，将具有非常重要的研究意义。但是目前基于视觉特征的分割算法得到的分割区域间没有清晰的边缘，而且对于不同的场景效果差异较大。在图像分割和识别中，若仅使用局部区域的视觉特征来表示目标对象，进行语义标注，则会产生二义性；或者仅仅使用2D特征或者3D特征也都无法得到理想的效果；目前一般都以像素为单位实现目标的识别，为一张图片中的每个像素赋予一个类别的标签。当分类结果为多类识别时，图片中相同类别标签的像素形成若干的连续区域，实现图像的语义分割。由于需要对每个像素进行判定，像素级别的目标识别算法也将会产生庞大的数据运算量，同时相邻像素的邻域大部分是重叠的，因此提取的特征也比较相似，最终的类别判定结果相差也不大，但是在计算过程中包含了大量的冗余数据，大大增加了计算量。在机器学习中当训练数据量很大的时候，处理效率和正确率得不到平衡，为此需要改进当前的分类器，使得准确率提高的情况下稳定性增强，并且消耗的时间不是太大。

发明内容

本发明针对现有技术的不足，提供了一种基于多特征融合与Boosting决策森林的街景图像语义分割方法。

基于多特征融合与Boosting决策森林的街景图像的语义分割方法，其特征在于该方法包括以下步骤：

步骤1，对图像进行超像素分割；针对街景图像所包含的对象比较复杂的特点，采用简单线性迭代聚类SILC(simple linear iterative clustering)对图像进行超像素分割；简单线性迭代聚类是对3维的CIELAB颜色空间L、a、b和2维的位置信息特征进行操作，采用了新的距离衡量方法，通过调节参数来控制超像素块的数目；无论在计算复杂度、控制超像素的尺寸和个数来看，简单线性迭代聚类在现有方法中表现都是很好的。

简单线性迭代聚类采用新的距离衡量D，表示如下：

d_{lab} = \sqrt{{(l_{k} - l_{i})}^{2} + {(a_{k} - a_{i})}^{2} + {(b_{k} - b_{i})}^{2}}

d_{xy} = \sqrt{{(x_{k} - x_{i})}^{2} + {(y_{k} - y_{i})}^{2}} - - - (1)

D_{s} = d_{lab} + \frac{m}{s} d_{xy}

其中k和i分别为两个像素，D_s表示lab距离和以网格距离归一化的xy空间的距离综合。变量m是一个常数，控制超像素的紧凑程度，可以调节超像素块的大小，当m的值越大时，则空间像素度的权重越大，我们这里选择m＝10，图像分割的超像素数为1000块左右。

图形的梯度公式计算如下：

G(x,y)＝||I(x+1,y)-I(x-1,y)||²+||I(x,y+1)-I(x,y-1)||² (2)

其中I(x,y)表示Lab向量对应的像素点的位置，而||.||表示2范数，这样可以同时考虑亮度和位置信息。

s = \sqrt{\frac{N}{K}} - - - (3)

其中S是步长，N为图像的像素总数，K是分割的超像素个数。简单线性迭代聚类的具体处理步骤：

1.1初始化聚类中心。按照步长S采用像素来初始化话聚类中心，在图像中均匀分布聚类中心；

1.2将聚类中心移动到邻域内梯度最小的地方，这样可以防止聚类中心落在边界上；

1.3在每个聚类中心2S*2S范围内，根据距离公式对像素进行K-means聚类，得到最新的聚类中心；

1.4计算新的聚类中心与旧的聚类中心之间的L₁范数距离E；

1.5进行迭代运算，直到E小于一个很小的阈值，结束运算；

步骤2，多特征提取；特征是用来描述图像的最基本的属性，在图像分割和识别应用中，仅仅利用2D或者3D特征对目标对象进行标注时，可能会出现二义性，为了克服这种确定，采用多种有效特征综合起来联合强化框架；

2.1提取超像素块中物体距离地面的高度特征；

对于每一块超像素，计算超像素块中物体距离地面的高度，可以采用超像素块中的所有点到地面的距离之和的平均值；

2.2提取曲面法向量特征；

利用最小二乘法对超像素拟合一个平面，然后求其法向量。其x轴分量、y轴分量和z轴分量分别作为一维向量特征；

2.3提取超像素块中物体相对于摄像头的高度；

设在3D坐标系中的y坐标轴的方向是向上的，则现实世界中的一点w相对于摄像机的高度f_H可如下表示：

f_H(w)＝w_y-c_y (4)

f_H是相对于摄像头的高度,w(x,y,z)是现实世界中的一点的3D坐标，c(x,y,z)是摄像机的3D坐标。

2.4提取3D像素块到摄像头的距离特征；

我们可以充分利用物体到摄像头的距离，来划分物体。通过计算超像素块中心到摄像头的最近距离，这个最近距离作为3D像素块到摄像头的距离；

2.5提取3D像素块的不平整度特征；

3D像素块的不平整度，以3D点到拟合平面的距离之和为度量值；

2.6提取颜色直方图特征。由于HSV空间更加接近于人们对颜色的主观认识，故在目标的HSV空间上提取目标的颜色直方图特征；对于被给定的目标0，它在t时刻的HSV颜色直方图特征可以表示为：

c_{t}^{o} = {y_{1}, y_{2}, . . . y_{256}} - - - (5)

其中y_i表示HSV每一级别的值；

2.7提取深度直方图特征；

利用已获得的图像的深度图，分成若干个bin，提取出深度直方图，并且均衡化处理。

2.8提取基于灰度直方图的纹理特征；

基于灰度直方图的统计矩的纹理特征描述与提取方法是一种纹理统计方法。该方法可以定量的描述区域的平滑、粗糙、规则性等纹理特征。

设r为表示图像灰度级的随机变量；L为图像的灰度级数；p(r_i)为对应的直方图(其中i＝0,1,2,...,L-1)；则r的均值m表示为：

m = Σ_{i = 0}^{L - 1} r_{i} p (r_{i}) - - - (6)

r关于均值m的n阶矩阵表示为：

μ_{n} (r) = Σ_{i = 0}^{L - 1} {(r_{i} - m)}^{n} p (r_{i}) - - - (7)

通过计算9式可知μ₀＝1，μ₁＝0；对于其他n阶矩阵：

(2.8.1)二阶矩阵μ₂又称为方差，它是灰度级对比度的量度。利用二矩阵可以得到有关平滑度的描述因子，其计算公式为：

R = 1 - \frac{1}{1 + μ_{2}} = 1 - \frac{1}{1 + σ^{2}} - - - (8)

由8式子可知，图像的纹理越平滑，对应的图像灰度起伏越小，图像的二阶矩越小，求得的R值越小；反之，图像的纹理越粗糙，对应的图像灰度起伏越大，图像的二阶矩越大，所求得的R值越大，其中σ为灰度直方图二阶矩阵的标准差。

(2.8.2)三阶矩μ₃是图像直方图偏斜度的度量，可以用来确定直方图的对称性；

(2.8.3)四阶矩μ₄可以表示直方图的相对平整度；五阶以上的矩和直方图形的联系度不大；

步骤3，特征融合；首先使用简单连续特征融合策略将上述多种特征结合；然后使用核PCA算法从融合的特征集中提取出非线性特征，从而将融合的特征集降到一定的维数；具体步骤为：

3.1对于一个被给定的目标O，它在t时刻利用连续特征融合策略获得的融合特征向量表示为：

F_{t}^{o} = (V_{t}^{o}, C_{t}^{o}) - - - (9)

是在t时刻目标O的融合特征，是在t时刻目标O的颜色直方图特征，是除颜色直方图外的其它特征。

3.2将特征向量映射到一个高维的特征空间K(_Ft^o)，然后在K(F_t ^o)上实施PCA算法，从而获得最终的非线性特征在特征映射到高维空间过程中，使用了高斯核函数；

步骤4，训练学习以及分类识别；

通过改进决策森林，我们提出了Boosting决策森林，它既有随机森林的长处又兼有Boosting的优点，把单棵随机森林的分类问题转换多棵随机森林全局损耗函数能量最小化问题；在训练的过程中，为每个训练样本分配适当的权重，总是分类正确的样本权值低，分类错误的样本权值高，最终聚合多次训练的弱分类器(也就是针对同一个训练集训练不同的分类器)。将最终提取的融合非线性特征送入Boosting决策森林中进行训练学习，然后对街景目标进行分类识别，并且标注对应的标签，最终完成对图像的语义分割。

Boosting决策森林的训练步骤：

需要数据：设置训练标签训练树的最大层数D_max，损耗函数选择为正切函数，d是训练树的当前层数(其中d＝1,2,...,D_max)。

输出：由若干个弱分类器构成最终的分类器G(x)

(4.1)初始化权重和根节点。

(4.2)检查所有节点是否符合停止分裂的条件，如果符合就停止分裂。

分裂函数s(x；Θ)有两类参数组成，Θ₁是特征维数且Θ₁∈{1,...,M}Θ₂是一个阈值且Θ₂∈□；如果x(Θ₁)<Θ₂则s(x；Θ)＝0，其它情况下s(x；Θ)＝1，x是训练样本。

(4.3)如果不符合就分裂节点，并且更新权重为下一次迭代做准备，权重公式如下。

w_{i}^{t} = | \frac{&PartialD; l (y_{i}, F_{1 : t - 1} (x_{i}; \overset{&OverBar;}{Θ}))}{&PartialD; F (x)} |

其中x_i是训练样本，t是迭代次数，l(□)是一个可微分的损耗函数，

是已经训练好的分类器，f_j(x；Θ^j)是在第j次迭代下的分类器，是已收集的弱分类器参数，Θ^j是在当前迭代层j下的训练参数，ν是收缩因子。

(4.4)重复步骤4.2和4.3，直到d达到D_max层。

分类识别：通过有监督式学习训练Boosting决策森林，输入要标注的图像，预测出类别，并输出完成标注的图像。

Boosting决策森林既有随机森林的长处又兼有Boosting的优点，把单棵随机森林的分类问题转换多棵随机森林全局损耗函数能量最小化问题。在训练的过程中，为每个训练样本分配适当的权重，总是分类正确的样本权值低，分类错误的样本权值高，最终聚合得到一个强分类器。将最终提取的融合非线性特征送入Boosting决策森林中进行训练学习，然后对街景目标进行分类识别，并且标注对应的标签，最终完成对图像的语义分割。

本发明的有益效果：该发明由于融合了目标的多种特征，显著提高了目标的识别率。该融合特征有效的结合了局部特征和全局特征，对提高目标识别效率有很好的效果。该发明对简单连续融合后的特征进行了核PCA降维，有效降低了融合后的特征维数，避免了维数灾难，缩短了目标的识别时间，并且提取出了融合特征中的非线性特征从而消除了因降维而造成的识别率下降。该发明还通过引入Boosting决策森林，该分类器对目标特征分类的稳定性大大增强，较好的实现了多目标识别的街景的语义分割问题。

附图说明

图1是本发明的流程图

具体实施方式

本发明方法包括目标的超像素分割和目标特征的表示及目标识别三个部分。我们将超像素块作为处理的基本单位，将多种有效特征融合，并通过PCA降维，提取出非线性特征作为训练模型，然后使用该融合特征作为改进的随机森林分类器的输入特征，进行有监督训练学习，最终实现对目标的分类识别，同时进行语义标注。

简单线性迭代聚类采用新的距离衡量D，表示如下：

d_{lab} = \sqrt{{(l_{k} - l_{i})}^{2} + {(a_{k} - a_{i})}^{2} + {(b_{k} - b_{i})}^{2}}

d_{xy} = \sqrt{{(x_{k} - x_{i})}^{2} + {(y_{k} - y_{i})}^{2}} - - - (1)

D_{s} = d_{lab} + \frac{m}{s} d_{xy}

图形的梯度公式计算如下：

G(x,y)＝||I(x+1,y)-I(x-1,y)||²+||I(x,y+1)-I(x,y-1)||² (2)

s = \sqrt{\frac{N}{K}} - - - (3)

其中S是步长，N为图像的像素总数，K是分割的超像素个数。

简单线性迭代聚类的具体处理步骤：

1.4计算新的聚类中心与旧的聚类中心之间的L₁范数距离E；

1.5进行迭代运算，直到E小于一个很小的阈值，结束运算；

2.1提取超像素块中物体距离地面的高度特征；

2.2提取曲面法向量特征；

利用最小二乘法对超像素拟合一个平面，然后求其法向量。其x轴分量、y轴分量和z轴分量分别作为一维向量特征；2.3提取超像素块中物体相对于摄像头的高度；

f_H(w)＝w_y-c_y (4)

2.4提取3D像素块到摄像头的距离特征；

2.5提取3D像素块的不平整度特征；

c_{t}^{o} = {y_{1}, y_{2}, . . . y_{256}} - - - (5)

其中y_i表示HSV每一级别的值；

2.7提取深度直方图特征；

2.8提取基于灰度直方图的纹理特征；

m = Σ_{i = 0}^{L - 1} r_{i} p (r_{i}) - - - (6)

r关于均值m的n阶矩阵表示为：

μ_{n} (r) = Σ_{i = 0}^{L - 1} {(r_{i} - m)}^{n} p (r_{i}) - - - (7)

通过计算9式可知μ₀＝1，μ₁＝0；对于其他n阶矩阵：

R = 1 - \frac{1}{1 + μ_{2}} = 1 - \frac{1}{1 + σ^{2}} - - - (8)

F_{t}^{o} = (V_{t}^{o}, C_{t}^{o}) - - - (9)

3.2将特征向量映射到一个高维的特征空间K(F_t ^o)，然后在K(F_t ^o)上实施PCA算法，从而获得最终的非线性特征在特征映射到高维空间过程中，使用了高斯核函数；

步骤4，训练学习以及分类识别；

Boosting决策森林的训练步骤：

输出：由若干个弱分类器构成最终的分类器G(x)

(4.1)初始化权重和根节点。

w_{i}^{t} = | \frac{&PartialD; l (y_{i}, F_{1 : t - 1} (x_{i}; \overset{&OverBar;}{Θ}))}{&PartialD; F (x)} |

(4.4)重复步骤4.2和4.3，直到d达到Dmax层。

Claims

1.基于多特征融合与Boosting决策森林的街景图像的语义分割方法，其特征在于该方法包括以下步骤：

简单线性迭代聚类采用新的距离衡量D，表示如下：

d_{lab} = \sqrt{{(l_{k} - l_{i})}^{2} + {(a_{k} - a_{i})}^{2} + {(b_{k} - b_{i})}^{2}}

d_{xy} = \sqrt{{(x_{k} - x_{i})}^{2} + {(y_{k} - y_{i})}^{2}} - - - (1)

D_{s} = d_{lab} + \frac{m}{s} d_{xy}

图形的梯度公式计算如下：

G(x,y)＝||I(x+1,y)-I(x-1,y)||²+||I(x,y+1)-I(x,y-1)||² (2)

s = \sqrt{\frac{N}{K}} - - - (3)

其中S是步长，N为图像的像素总数，K是分割的超像素个数。

简单线性迭代聚类的具体处理步骤：

1.4计算新的聚类中心与旧的聚类中心之间的L₁范数距离E；

1.5进行迭代运算，直到E小于一个很小的阈值，结束运算；

2.1提取超像素块中物体距离地面的高度特征；

2.2提取曲面法向量特征；

2.3提取超像素块中物体相对于摄像头的高度；

f_H(w)＝w_y-c_y (4)

2.4提取3D像素块到摄像头的距离特征；

2.5提取3D像素块的不平整度特征；

c_{t}^{o} = {y_{1}, y_{2}, . . . y_{256}} - - - (5)

其中y_i表示HSV每一级别的值；

2.7提取深度直方图特征；

2.8提取基于灰度直方图的纹理特征；

m = Σ_{i = 0}^{L - 1} r_{i} p (r_{i}) - - - (6)

r关于均值m的n阶矩阵表示为：

μ_{n} (r) = Σ_{i = 0}^{L - 1} {(r_{i} - m)}^{n} p (r_{i}) - - - (7)

通过计算9式可知μ₀＝1，μ₁＝0；对于其他n阶矩阵：

R = 1 - \frac{1}{1 + μ_{2}} = 1 - \frac{1}{1 + σ^{2}} - - - (8)

F_{t}^{o} = (V_{t}^{o}, C_{t}^{o}) - - - (9)

步骤4，训练学习以及分类识别；

Boosting决策森林的训练步骤：

输出：由若干个弱分类器构成最终的分类器G(x)

(4.1)初始化权重和根节点。

w_{i}^{t} = | \frac{&PartialD; l (y_{i}, F_{1 : t - 1} (x_{i}; \overset{&OverBar;}{Θ}))}{&PartialD; F (x)} |

(4.4)重复步骤4.2和4.3，直到d达到D_max层。