CN105574545B

CN105574545B - 街道环境图像多视角语义切割方法及装置

Info

Publication number: CN105574545B
Application number: CN201510953603.8A
Authority: CN
Inventors: 潘晨劲; 赵江宜
Original assignee: Foochow Hua Ying Heavy Industry Machinery Co Ltd
Current assignee: Foochow Hua Ying Heavy Industry Machinery Co Ltd
Priority date: 2015-12-17
Filing date: 2015-12-17
Publication date: 2018-01-02
Anticipated expiration: 2035-12-17
Also published as: CN105574545A

Abstract

一种街道环境图像多视角语义切割方法及装置，其中方法包括如下步骤，收集多视角图像数据，对所述多视角图像数据进行预处理，所述预处理包括建立三维坐标系，将图像中的像素点分为多个超像素；对所述超像素提取二维特征向量，所述二维特征向量包括RGB值、lab色彩空间组成的中数、偏差值、偏度或峰态；对所述超像素提取三维特征向量，所述三维特征向量包括三维点密度；根据二维特征向量、三维特征向量代入平滑度价值方程，将超像素分割成多个聚类。达到了在计算机系统中进行图像识别的效果，解决了计算机学习物体分类的问题。

Description

街道环境图像多视角语义切割方法及装置

技术领域

本发明涉及图像识别领域，尤其涉及一种环境图像的自动识别方法。

背景技术

在无人驾驶车辆领域，计算机视觉(compute vision)是模式识别应用的一个重要方面。计算机视觉的目的是通过电子化地感知和理解图像，复制人类的视觉效果。进一步说，就是用摄像机与电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理。作为一个研究领域，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取“信息”(这里所值的信息指香农定义的，可以用来帮助做一个“决定”的信息)的人工智能系统。

而在计算机视觉领域，如何解读图像的语义内容一直是一个基础的但同时具有挑战性的问题。图像语义反映来图像存在的基本特性，即图像的光表现，图像中对象的关系等等。对无人驾驶车辆来说，如何解读在户外环境中车辆沿途拍摄到的多视角图像的语义信息尤为重要。基于这些街道环境图像，本文要解决的是如何同时学习并建立物体分类以及对图像进行分割的问题。

发明内容

为此，需要提供一种环境图像分类方法，解决计算机学习物体分类的问题。

为实现上述目的，发明人提供了一种环境图像多视角语义切割方法，包括如下步骤，收集多视角图像数据，对所述多视角图像数据进行预处理，所述预处理包括建立三维坐标系，将图像中的像素点分为多个超像素；

对所述超像素提取二维特征向量，所述二维特征向量包括RGB值、lab色彩空间组成的中数、偏差值、偏度或峰态；对所述超像素提取三维特征向量，所述三维特征向量包括三维点密度；

根据二维特征向量、三维特征向量代入平滑度价值方程，将超像素分割成多个聚类。

进一步地，还包括步骤，输入测试序列，计算已分割图像与输入的测试序列中每一个图像的距离，寻找与测试序列最相近的聚类。

进一步地，还包括步骤，接收二维图像序列，根据二维图像序列重构三维场景，接收用户标记信息，根据用户标记信息对二维图像序列进行分割。

具体地，还包括步骤，识别超像素的标记信息，用高斯混合模型模拟所述超像素的色彩分布。

优选地，还包括步骤，对所述多视角图像数据定义马尔可夫序列，所述步骤“将图中的像素点分为多个超像素”后还包括步骤，对每幅输入图像建立节点图，将属于同一马尔可夫序列的图像的节点图合并。

一种环境图像多视角语义切割装置，包括收集模块、预处理模块、特征提取模块、分类模块；

所述收集模块用于收集多视角图像数据；

所述预处理模块用于对所述多视角图像数据进行预处理，所述预处理包括建立三维坐标系，将图像中的像素点分为多个超像素；

所述特征提取模块用于对所述超像素提取二维特征向量，所述二维特征向量包括RGB值、lab色彩空间组成的中数、偏差值、偏度或峰态；对所述超像素提取三维特征向量，所述三维特征向量包括三维点密度；

所述分类模块用于根据二维特征向量、三维特征向量代入平滑度价值方程，将超像素分割成多个聚类。

进一步地，所述收集模块还用于输入测试序列，所述分类模块还用于计算已分割图像与输入的测试序列中每一个图像的距离，寻找与测试序列最相近的聚类。

进一步地，还包括标记接收模块，

所述预处理模块还用于接收二维图像序列，根据二维图像序列重构三维场景；

所述标记接收模块用于接收用户标记信息；

所述分类模块用于根据用户标记信息对二维图像序列进行分割。

具体地，还包括色彩识别模块，所述色彩识别模块用于识别超像素的标记信息，用高斯混合模型模拟所述超像素的色彩分布。

优选地，所述预处理模块还用于对所述多视角图像数据定义马尔可夫序列，还用于对每幅输入图像建立节点图，将属于同一马尔可夫序列的图像的节点图合并。

区别于现有技术，上述技术方案通过对序列图像进行三维建模，提取特征进行分类，达到了在计算机系统中进行图像识别的效果，解决了计算机学习物体分类的问题。

附图说明

图1为本发明具体实施方式所述的方法流程图；

图2为本发明具体实施方式所述的摄像机移动的俯视图；

图3为本发明具体实施方式所述的多视角图像预处理过程；

图4为本发明具体实施方式所述的图像样本和特征分布图；

图5为本发明具体实施方式所述的对图片序列进行类聚示意图；

图6为本发明具体实施方式所述的场景标记示意图；

图7为本发明具体实施方式所述的二维色彩分类示意图；

图8为本发明具体实施方式所述的装置模块图。

附图标记说明：

800、收集模块；

802、预处理模块；

804、特征提取模块；

806、分类模块；

808、标记接收模块；

810、色彩识别模块。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

1、背景

在计算机视觉领域，如何解读图像的语义内容一直是一个基础的但同时具有挑战性的问题。图像语义反映来图像存在的基本特性，即图像的光表现，图像中对象的关系等等。对无人驾驶车辆来说，如何解读在户外环境中车辆沿途拍摄到的多视角图像的语义信息尤为重要。基于这些街道环境图像，本文要解决的是如何同时学习并建立物体分类以及对图像进行分割的问题。

2、总体思路

本文提出来一个针对户外环境中车辆沿途拍摄到的街道环境图像，进行多视角语义切割的架构。方法的基本概述及本文的结构如下：

第3.1部分，我们会举例说明如何建立捕捉图像的系统。具体来说，如何从跨越多个视角图像得到像素点的对应关系，并利用运动恢复结构(structure from motion)去重建场景的几何结构和删除不正确的对应关系。

第3.2部分，基于可用的二维和三维信息资源，我们建立了跨越多个视角图像的一个马尔科夫随机场(Markov Random Field)。马尔科夫随机场中的节点代表了多视角图像中的超像素(superpixels)，而其中的边则代表了同一个视角图像中相邻节点间的平滑度，或者是两个不同的视角图像中由像素点间的对应关系连接到一起的两个节点间的平滑度。

第3.2.1部分，我们会给出一元(势能)数据项(unary data term)的定义，而在第3.2.2部分中我们我们则会给出平滑度项(smoothness term)的定义。

第3.3部分，为了通过场景匹配来改善方法的表现，我们具体说明来要如何通过标签库的系统化来使相似语境和学习结果的转移变得更为简便。

第3.4部分，我们提出了一个方法，通过使用现有的几何结构和色彩信息，来实现多幅图像的同时标记。

3、具体实现方法

这里请参阅图1，为本发明一种环境图像多视角语义切割方法的方法流程图，如图所示，本发明方法可以开始于步骤S100，收集多视角图像数据，对所述多视角图像数据进行预处理，所述预处理包括建立三维坐标系，将图像中的像素点分为多个超像素；

3.1对原始多视角图像数据进行预处理

我们使用一个车载的摄像机来收集图像数据，这个摄像机通常是正对着建筑并随着车辆行驶记录着沿途的街道景象。摄像机最好是竖直放置的，且连续生成的两个相邻的视角图像最好有足够的重叠。图1展示了阐述摄像机移动的顶视图。利用这样一个摄像机捕捉到的图像，我们首先要通过一种稳健的未标定匹配算法(uncelebrated matchingalgorithm)，来计算两个相邻的图像间像素点到像素点间(pixel-to-pixel)的对应关系。按照顺序轮流使用图像作为一座桥，我们能够得到三个相邻图像间的特征轨道，而这些特征轨道可以用来帮助投影重建。接着，通过估测两个共同图像间的转化，我们可以合并所有的三图像元组，并计量地升级到欧几里德空间中。在每一个步骤中，我们利用光束法平差(bundle adjustment)来最小化集合错误，并将特征轨道合并连接到一起以覆盖更多视角。

图2为摄像机移动的顶视图。车辆首先沿着街道行驶，接着在拐角处进行来九十度转弯。因为，我们将图像分割成两组不同的序列，分别同红色跟蓝色表示。

图3展示了整个对多视角图像进行预处理的过程，从图3(a)左侧三例示了跨越多视角图像的特征轨迹，到右侧三幅将图像分割成超像素，再到图3(b)展示了利用运动恢复结构得到的场景的三维重建案例。

我们不仅仅恢复了一系列代表场景的三维点，并同时恢复了所有的摄像机位姿和参数。我们将一个特征轨道表示为t＝<x,(x_i,y_i,i),x_j,y_j,j)>，其中x＝(x,y,z)是对应的三维点的坐标，而(x_i,y_i,i)则代表了这个三维点在第i张图像I_i上的二维投影(x_i,y_i)。

我们从一系列大约100张图像开始，然后将它们依次分解成如图2中的的顶视图。为了更简易地描述三维的几何结构，我们将右手坐标系进行旋转，使得y轴对准所有重建摄像机的平均向下指的向量，x轴对应了摄像机的移动轨迹，而摄像机的方向则对准了+z方向。

为了增加分割的准确性并使整个过程更有效率，我们会将每一个输入的图像I_i过度分割(over segment)成大约200个超像素{p_j}。

3.2多视角语义分割

在优选的实施例中，由于街道视角图像数据通常包含了多幅图像，为了增加跨越多幅图像的分割稳定性，还包括步骤S102，对每幅输入图像建立节点图，将属于同一马尔可夫序列的图像的节点图合并。我们将为整个序列图像定义一个马尔科夫随机场。对每一个输入的图像I_i进行过度分割后，我们首先根据分割结果建立一个节点图，图中的每一个节点，在过度分割结果中都是一个超像素。而图中的边，ε_i表示了超像素点之间的相邻关系。所有基于在同一个序列中的图像生成的节点图都会被合并到一个大的节点图中，通过将不同图像中具有对应关系的超像素点用边连接起来。对于图像I_i和I_j中的超像素点p_i和p_j，当且仅当存在至少一个特征轨迹t＝<x,(x_i,y_i,i),(x_j,y_j,j)>，满足两个条件：1)x在第i张图像I_i上的二维投影(x_i,y_i)映射在超像素点p_i中，2)x在第j张图像I_j上的二维投影(x_j,y_j)映射在超像素点p_j中，我们才能说超像素点p_i和p_j存在对应关系。为了限制节点图的大小，在最终节点图中，在任何两个超像素点p_i和p_i之间，都只能存在一条边e_ij。

接下来我们就要考虑标签问题了。标签问题要解决的是如何赋予每一个节点一个独一无二的标签l_i的问题。最终的解，L＝{l_i}，可以通过最小化吉布斯能(Gibbs energy)来获得。吉布斯能的定义公式如下：

由于在第3.2.2中定义的平滑度能量方程满足度量要求，所有在能量方程的结果被计算出来之后，我们可以利用基于图像切割的阿尔法展开(GraphCut-Based AlphaExpansion)来求得局部最优标签解L。

3.2.1一元势能项的定义

为了定义一元势能方程，ψ_i(·)，我们需要从超像素中提取特征，以训练出有显著区别的分类。因此还包括步骤S104对所述超像素提取二维特征向量，所述二维特征向量包括RGB值、lab色彩空间组成的中数、偏差值、偏度或峰态；对所述超像素提取三维特征向量，所述三维特征向量包括三维点密度。

A.二维特征向量的计算

具体的实施例中，对每一个超像素p_i，基于其二维的图像外观，我们要计算出一个192维的特征描述向量对每一个超像素P_i，其特征描述向量包含了p_i的红绿蓝颜色表示法(RGB)和lab色彩空间组成的中数，偏差值，偏度(skehwness)，峰态(kurtosis)等数据，以及从滤波器库的响应中分析出的材质特征参数。我们所用的滤波器库包含了三个高斯模型，四个高斯分布的拉普拉斯算子(laplacian)和四个高斯分布的一次导数。经过实验，在各种高斯的导数和伽柏内核(Gabor kernels)的过滤组合中，以上这个过滤器库能取得良好的实验表现。接下来，我们要计算每个超像素点的大小和形状。形状特征包括了区域面积与周长的平方的比率，质量中心的惯性矩和区域面积与长方形边界框内的面积的比率。特征描述向量还会包括超像素p_i邻近超像素点的特征描述的加权平均值，我们根据这些邻近超像素中包含的像素点的数量来进行加权。

我们捕捉图像的方式使得我们能够大致复制每一类物体的大概方位。比如说，天空一般来说都在图像的上半部分，而地面则一般在下半部分。由于我们的摄像机基本都是沿着街道移动，每一个在图像中同一高度位置的像素点被归为某一分类的可能性是一样的。图4举例说明了这个概念，我们计算了所有已标记数据中不同分类的累积频率，并将这个分布在图4右侧中画了出来。基于这个观察结果，我们只使用超像素的垂直位置作为我们的一维特征向量，

B.三维特征向量的计算

我们将超像素的方位和三维的点密度作为我们的几何特征，在超像素的方位识别上，我们并不使用这个超像素与摄像机间相对高度和与摄像机轨道间的相对距离，这是因为我们必须要额外装置一个捕捉系统才能够测量出这种绝对差距。而且，由于反投影(back projection)的质量非常取决于运动恢复结构的执行质量，我们也不会使用反投影的残差(residual)。

我们用来代表所有在p_i上有投影的轨道，用m_i代表上所有三维点坐标的三个元项的中数。对每一个超像素p_i，其平面法向量n_i可以通过是一个对称的3×3的半正定矩阵得到。在和矩阵的特征值λ₁≥λ₂≥λ₃分别对应的特征值向量，v₁，v₂和v₃之中，我们选择v₃或者-v₃作为n_i。是选择v₃还是-v₃取决于哪个和摄像机的方向之间的夹角大过180度。在实际运用中，我们只估算那些有最少5个三维点的的区域的法向量方向。接下来，估算出来的法向量，n_i，会被投射到yz-平面上。标准化单位投射向量和－y方向间的点积被我们定义为方向描述符号。对那些没有足够多的点来估计法向量的稀疏区域，我们就直接将这个特征值设为0.5。这个几何特征的定义对于地面(地面的法向量方向大致与－y方向是一致的)和其他例如建筑等物体直接的区分是非常有用的。对于那些并无质地纹理特征的的物体，比如说天空，我们可以利用特征轨道的密度来区分它们。

C.自适应增强分类器

接下来，我们要把所有特征描述符号进行白噪音处理，以得到零期待值和单位协方差。因此包括步骤S106，根据二维特征向量、三维特征向量代入平滑度价值方程，将超像素分割成多个聚类。具体地，可以通过二维特征向量、三维特征向量定义一个一元势能，将一元势能代入平滑度价值方程，以求得平滑度的空间分布函数，从而分割聚类。

对每一个分类标签l，我们要学习一系列的一对多自适应增强分类器(one-vs-allAdaBoost classifier)。这里，我们用那些在地面真值标签(ground-truth label)下的属于分类l的超像素作为正面的例子，用那些在地面真值标签下属于其他分类的超像素作为负面的例子。下一步，我们将从每一个l中学习到的自适应增强分类器应用到特征描述符号上。估计的自信度可以通过利用Softmax转化用一个概率分布重新表达：

这里是分类标签l输出的自适应增强分类器。最后，我们将一元势能定义为

3.2.2平滑度

对于在同一个图像I_k中的边e_ij∈ε_k，其平滑度价值方程的定义如下：

ψ_ij(l_i,l_j)＝[l_i≠l_j]·g(i,j) (3)

其中

这里||c_i-c_j||²是两个超像素p_i和p_j之间的红绿蓝颜色表示差值的欧几里德标准值(L2-Norm)。注意，由于l_i≠l_j，我们可以也仅可以沿着分割区域的边缘收集坡度信息。换句话来说，ψ_ij是当邻近节点被赋予不同的标签时的“惩罚”项。这两个相邻节点的颜色越是接近，“惩罚”项ψ_ij的值就越大，连接这两个节点的边也就越不可能在分割区域的边缘上。

对跨越两个图像的边e_ij∈ε，其平滑度成本方程的定义如下：

这里是所有满足以下两个条件：

1)在第i张图像I_i上的二维投影(x_i,y_i)映射在超像素点p_i；

2)第j张图像I_j上的二维投影(x_j,y_j)映射在超像素点p_j中，的特征轨道的集合。在这样的定义下，两个有较多特征联系的超像素的会很大，因此要获得不同标记的成本也更高，这就鼓励了两个有更多特征联系的超像素被赋予同样的语义分割标签。

3.2.3自适应训练

为了使本方法有更多的自学习功能，还包括步骤自适应训练，步骤

S108：输入测试序列，计算已分割图像与输入的测试序列中每一个图像的距离，寻找与测试序列最相近的聚类。

对每一个测试序列，我们只选择已标记图像中与输入序列相似的子集作为这个序列的训练数据。我们将两个图像之间的距离定义为它们对应的吉斯特描述符号(Gistdescriptors)间的距离。之所以选择使用吉斯特描述符号，是因为实验证明利用它来恢复语义上结构上相似的场景非常有效。对每一个图像，我们要创建一个对应的吉斯特描述符号：把图像切割至4×4的空间分辨率，并在每一个单元格中储存这个局部图像对方向可调滤波器(Steerable filter)在四个方向分别为8，8，4，4的规格下得到的回应结果的平均值。

为了加速训练和预测过程，我们将库中的已标记序列根据关系的密切程度类聚起来。如图5所示，我们将每一组标记序列都当作节点图中的一个节点。每对标记序列间的边的权重由两个序列中任意两个图像间的最小吉斯特距离来定义。有了这个节点图，我们通过利用仿射传播聚类算法(Affinity Propagation Clustering Algorithm)来将40个已标记序列分成7个类聚。接着，通过首先训练得出自适应增强分类器(如3.2.1C)然后利用分段训练获得等式1中的ρ，等式4中的和等式5中的λ。

给定一个测试序列，我们可以计算出已标记图像和每一个输入序列中的图像的距离。我们可以将测试序列和一个聚类之间的距离定义为测试序列中任意一个图像和聚类中任意一个图像的最小吉斯特距离(也就是说我们把两个序列所有图像间的距离都计算出来，然后取最小值)。然而，这个过程是非常消耗时间的。所以，我们直接取每个序列中间的图像来估算距离。这样的话，我们就只需要计算40个距离。最后，我们会找到与测试序列最相似的聚类，并会利用这个聚类作为预测的对应模型。

3.2.4大规模标记

在任何监督学习方法中，一个最基础的要求就是要足够数量的已标记的来作为学习的案例。在我们多视角多图像的设定中，我们是可能不基于大量交互来得到大规模的标记案例。

因此还包括步骤S110，接收二维图像序列，根据二维图像序列重构三维场景，接收用户标记信息，根据用户标记信息对二维图像序列进行分割。

对每一个由大约一百张图像的序列，我们首先要重新构建三维场景，然后让用户在三维空间中标记这些三维的点。利用这些标记，我们可以同时进行对二维图像的分割。通过这样，每一次标记都能给我们留下大约一百张经过标记的图像，极大程度地增加了我们的效率。

更详细地说，在重新构建了三维场景后，如图6所示，用户可以用画出矩形或多边形的区域来表明点云的语义含义。值得注意的是，用户可能不想，或者无法识别并标记所以的三维点。我们的任务就是要使用这些不是全然完美的已标记点云案例来分割多视角图像。我们上文介绍的框架在这里又可以自然地被用来完成标记任务。在等式1中，我们可以使用在3.2.2中定义的平滑度，因为这个平滑度的定义中并不包含训练数据的信息。但一元势能要重新被如下定义：

首先，每一个超像素p_i都有一个其区域中三维点的二维投影集合集合中拥有越多已标记点，我们对于这个区域的标记也就更加自信。因为，我们定义：

这里是没有用户标记信息的特征轨道的集合，而n是所有可能的标记的总数。这个定义使得每一个拥有未标记三维点在超像素区域的二维投射的分类拥有一致的不确定性。然后，它却无法描绘每一个超像素区域的投射密度特性。一个拥有更多已标记投射点的超像素区域应该对它的邻近区域拥有更多的影响力，一个不确定性较低的超像素也应该要相应更高的影响力。因此我们将一元势能定义为：

这里是在超像素p_i中已标记的特征轨道投射的数量，H(P_i(·))是分布P_i(·)的熵，而∈和ε是两个小的正值(仅为了避免势能为0)，P_i(l)则被设定成

理想状态下，这个方法应用于有足够质地特性的区域非常有效。然后，对于那些缺少质地的分类，例如天空(在重建的场景中几乎没有三维点)，想要在三维空间中标记它们是不可能的。因此，我们提出一种在一个或多个二维图像上绘制线条的方法。当一幅图像中的一个超像素覆盖了被用户绘制标记为分类l的线条，其对应的一元势能就会被设定为ψ_i(l_i＝l)＝-∞和ψ_i(l_i≠l)＝+∞。通过增加这些硬性限制，以及3.2.2中定义的平滑度，我们就可以通过马尔科夫随机场的最优化来得到标记结果。

在进一步地实施例中，还包括步骤，S112识别超像素的标记信息，用高斯混合模型模拟所述超像素的色彩分布。在具体的实施例中，同一个城市街区中，同一个分类下的物体的色彩分布都颇为相似，而不同分类下的物体一般来说都会有不同的色彩分布。为了减少对人工绘制线条的需求，我们希望能够使用一个图像I_k中的线条来分割其他的图像。为了将这个想法结合到我们的框架里面，对一个不包含人工绘制线条的图像I_j中一个超像素p_i，我们首先要识别超像素p_i的标记信息应该来自二维色彩还是三维点。如图6所阐释的，我们先将包含人工绘制线条的图像I_k进行分割，然后计算属于同一个分类系列的区域，的色彩统计数据。我们用一个在红绿蓝色彩空间下高斯混合模型作为中所有像素点的色彩分布的近似模型。此外，我们用另一个高斯混合模型来模拟中所有像素点的色彩分布。对一个不包含人工绘制线条的图像I_j中一个超像素p_i，其标记信息来自二维色彩且色彩期待值为c_i的可能性为：

相应的概率被定义为：

这里如等式6所定义，则是由计算图像I_k中属于分类l的、有人工绘制线条覆盖的区域中像素点色彩的高斯混合模型得到的色彩可能性。同一个定义在等式7中也需要用到。如果有多个视角图像都拥有二维人工绘制线条，那么我们就直接将这些多视角图像中的所有点都对应用到和的定义中就好了。这样的方法设计达到了直接通过没有人工绘制线条的图像进行分割的效果。

一种环境图像多视角语义切割装置，包括收集模块800、预处理模块802、特征提取模块804、分类模块806；

所述收集模块800用于收集多视角图像数据；

所述预处理模块802用于对所述多视角图像数据进行预处理，所述预处理包括建立三维坐标系，将图像中的像素点分为多个超像素；

所述特征提取模块804用于对所述超像素提取二维特征向量，所述二维特征向量包括RGB值、lab色彩空间组成的中数、偏差值、偏度或峰态；对所述超像素提取三维特征向量，所述三维特征向量包括三维点密度；

所述分类模块806用于根据二维特征向量、三维特征向量代入平滑度价值方程，将超像素分割成多个聚类。

通过上述模块设计，解决了图像识别中多视角图像分割的问题。

进一步地，所述收集模块800还用于输入测试序列，所述分类模块806还用于计算已分割图像与输入的测试序列中每一个图像的距离，寻找与测试序列最相近的聚类。通过上述模块设计，使得分类模块在后续输入图像测试序列的时候能够快速寻找分类，更好地解决了多视角图像分割的问题。

进一步地，还包括标记接收模块808，

所述标记接收模块用于接收用户标记信息；

上述模块设计达到了结合用户分割方式对二维图像序列进行分割的效果，提高了装置的学习能力。

具体地，还包括色彩识别模块810，所述色彩识别模块用于识别超像素的标记信息，用高斯混合模型模拟所述超像素的色彩分布。

上述模块设计达到了用户没有标记信息的情况下进行识别分类的效果，提高了装置的实用性。

优选地，所述预处理模块802还用于对所述多视角图像数据定义马尔可夫序列，还用于对每幅输入图像建立节点图，将属于同一马尔可夫序列的图像的节点图合并。通过定义马尔可夫序列使得图像的分割更为精确。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

本领域内的技术人员应明白，上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备，包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等；所述的存储介质，包括但不限于：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器，使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中，使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机设备上，使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种街道环境图像多视角语义切割方法，其特征在于，包括如下步骤，收集多视角图像数据，所述多视角图像数据包括不同角度采集的二维图像，对所述多视角图像数据进行预处理，所述预处理包括建立三维坐标系，计算相邻图像间像素点到像素点间的对应关系，得到特征轨道t＝<x,(x_i,y_i,i),(x_j,y_j,j)>，其中x＝(x,y,z)是对应的三维点的坐标，而(x_i,y_i,i)则代表了这个三维点在第i张图像I_i上的二维投影(x_i,y_i)；(x_j,y_j,j)则代表了这个三维点在第j张图像I_j上的二维投影(x_j,y_j)；将二维图像中的像素点分为多个超像素；

根据二维特征向量、三维特征向量生成一元势能；

将一元势能代入平滑度价值方程，将超像素分割成多个聚类。

2.根据权利要求1所述的街道环境图像多视角语义切割方法，其特征在于，还包括步骤，输入测试序列，计算已分割图像与输入的测试序列中每一个图像的距离，寻找与测试序列最相近的聚类。

3.根据权利要求1所述的街道环境图像多视角语义切割方法，其特征在于，还包括步骤，对所述多视角图像数据定义马尔可夫序列，所述步骤“将二维图像中的像素点分为多个超像素”后还包括步骤，对每幅输入图像建立节点图，将属于同一马尔可夫序列的图像的节点图合并。

4.一种街道环境图像多视角语义切割装置，其特征在于，包括收集模块、预处理模块、特征提取模块、分类模块；

所述收集模块用于收集多视角图像数据，所述多视角图像数据包括不同角度采集的二维图像；

所述预处理模块用于对所述多视角图像数据进行预处理，所述预处理包括建立三维坐标系，计算相邻图像间像素点到像素点间的对应关系，得到特征轨道t＝<x,(x_i,y_i,i),(x_j,y_j,j)>，其中x＝(x,y,z)是对应的三维点的坐标，而(x_i,y_i,i)则代表了这个三维点在第i张图像I_i上的二维投影(x_i,y_i)；(x_j,y_j,j)则代表了这个三维点在第j张图像I_j上的二维投影(x_j,y_j)；将二维图像中的像素点分为多个超像素；

所述分类模块用于根据二维特征向量、三维特征向量生成一元势能；

5.根据权利要求4所述的街道环境图像多视角语义切割装置，其特征在于，所述收集模块还用于输入测试序列，所述分类模块还用于计算已分割图像与输入的测试序列中每一个图像的距离，寻找与测试序列最相近的聚类。

6.根据权利要求4所述的街道环境图像多视角语义切割装置，其特征在于，所述预处理模块还用于对所述多视角图像数据定义马尔可夫序列，还用于对每幅输入图像建立节点图，将属于同一马尔可夫序列的图像的节点图合并。