CN102147812A

CN102147812A - 基于三维点云模型的地标建筑图像分类方法

Info

Publication number: CN102147812A
Application number: CN2011100801114A
Authority: CN
Inventors: 徐常胜; 肖宪; 王金桥
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-03-31
Filing date: 2011-03-31
Publication date: 2011-08-10

Abstract

本发明是基于三维点云模型的地标建筑图像分类方法，从有标注的地标建筑图像集合中，选择地标建筑图像三维重建的代表性图像进行视觉关注度分析，利用运动恢复结构方法获得地标建筑图像中的视觉关注区域进行三维重建，获得地标建筑的三维点云模型；利用投影矩阵将三维点云模型投影到与其相对应的地标建筑图像中，并依靠投影点的分布识别整体图像和局部图像，并从局部图像类别中选取部分有利于三维重建的局部图像对三维点云模型进行局部增强，将获得局部增强的地标建筑三维点云模型投影到与其相对应的地标建筑图像中，提取每张地标建筑图像的地标建筑区域并建立K维搜索树，最终利用K维搜索树获得无类别标注地标建筑图像的类别。

Description

基于三维点云模型的地标建筑图像分类方法

技术领域

本发明属于计算机视觉和多媒体分析技术领域，涉及基于三维点云模型的地标建筑图像分类方法。

背景技术

随着图像共享网站(如Facebook和Flickr)的发展，越来越多的旅游图像被上传到网络上。在这些旅游图像中，地标建筑图像(如图1)是其中最吸引人们注意的之一。有些地标建筑图像在上传的时候已经被标注好了，但是更多的是没有标注的图像。由于地标建筑图像在拍摄的时候处于不同的环境下，例如光照，视角，镜头拉近和遮挡等，如图1中示出：美国国会图片中的上幅国会大楼，下幅示出将镜头拉近的国会大楼；比萨斜塔图片中的上幅示出一座大楼、人和比萨斜塔，下幅示出不同视角的人和比萨斜塔；巴黎圣母院图片中的上幅巴黎圣母院整体建筑图像，下幅示出黎圣母院的局部建筑图像；自由女神像图片中的上幅自由女神像整体建筑图像，下幅示出不同视角自由女神像的局部建筑图像；姬路城图片中的上幅和下幅示出的是不同视角的建筑图像；布达拉宫图片中的不同光照是的建筑图像；根据图1的说明可知对于同一个地标建筑的图像可能表现出不同的形式。用已经标注好的地标建筑图像去分类没有标注在不同环境下拍摄的地标建筑图像是一个难题。

对于图像分类的研究已经很多年了，相对于传统的图像分类而言，地标建筑的分类又有很大的不同。首先，地标建筑的唯一性就决定了针对于同一个地标建筑的图像都是同源的。其次，由于拍摄角度，拍摄时间，拍摄时候的环境等原因，同一个地标建筑的图像很可能会有众多不同的表现形式。由于地标建筑具有唯一性和多种的表现形式，地标建筑图像分类更加困难，并且渐渐脱离图像分类成为一个独立的研究课题。现有的研究工作可以大体上分为三类：

1).基于词带(Bag of Words)的方法；

2).基于空间金字塔匹配(Spatial Pyramid Matching)的方法；

3).基于代表性图像集的方法。

但是这些已有的研究中，都是使用地标建筑图像的全局特征或者是全部的局部特征来表示一个图像的，那些来自非地标建筑区域的特征限制了地标建筑图像分类的准确度。而且，地标建筑本身的特殊性，在以往的方法中都没有被利用。任何一个地标建筑，都有它独有的一些引人注意的局部位置，人们也对这些位置拍摄了很多的图像，如果能够将这些局部热门位置引入到图像分类中的工作中，相信能够更好的地标建筑图像分类结果。

发明内容

为了解决现有技术地标建筑图像分类的准确率低的技术问题，本发明的目的是提出一种利用三维点云模型来描述和收集地标建筑特征来提高地标建筑图像的分类结果，为此提供了一种基于三维点云模型的地标图像分类方法。

为达到上述目的，本发明提供的基于三维点云模型的地标图像分类方法的技术方案是通过三维点云模型模型获取地标建筑图像的地标建筑信息，并提高地标建筑图像的分类效果，包括步骤如下：

步骤S1：从有标注的地标建筑图像集合中，经过概要性全局特征描述符聚类、候选集选择和几何约束判定，选择出有利于对地标建筑图像三维重建的代表性图像；

步骤S2：对选择出的代表性图像进行视觉关注度分析，获得地标建筑图像中的视觉关注区域，并利用运动恢复结构的方法，对地标建筑图像的视觉关注区域进行三维重建，获得重建地标建筑的三维点云模型；

步骤S3：利用投影矩阵，将步骤S2所述三维点云模型投影到与三维点云模型相对应的地标建筑图像中，并依靠投影点的分布识别整体图像和局部图像，并从局部图像类别中选取部分有利于三维重建的局部图像，将有利于三维重建的局部图像送入步骤S2，再执行步骤S2的操作，得到包含局部增强信息的重建地标建筑的三维点云模型；

步骤S4：将获得的局部增强的地标建筑三维点云模型投影到与局部增强的地标建筑三维点云模型相对应的地标建筑图像中，获得每张地标建筑图像的地标建筑区域，提取地标建筑区域中的局部特征并建立K维搜索树，提取无类别标注地标建筑图像的局部特征并与K维搜索树进行特征匹配，最终利用K维搜索树进行特征匹配，得到匹配数最多的地标建筑K维搜索树所对应的类别为无类别标注地标建筑图像类别。

优选实施例，有标注的地表建筑图像的代表性图像的选取的步骤包括：

步骤S11：先用概要性全局特征描述符聚类所有的地标建筑图像到K个聚类类别；

步骤S12：对于每一个聚类类别，计算其类内地标建筑图像相互之间局部特征匹配数，并将每个聚类类别中的图像按照总匹配数降序排列，选择出按照K计算出的排名最前的已知数量的图像作为候选集合；

步骤S13：将来自候选集合中的任意K个地标建筑图像构成一个图像组合，如果他们来自不同的类别，根据几何约束排序所有的图像组合并最终决定代表性地标建筑图像组合。

优选实施例，对步骤S2中地标建筑图像的视觉关注区域进行三维重建的步骤包括：

步骤S21：融合基于反差的方法和基于信息论的方法来计算地标建筑图像中的视觉关注度图，并生成视觉关注区域；

步骤S22：提取视觉关注区域中的局部特征，利用运动恢复结构的方法重建地标建筑的三维点云模型。

优选实施例，生成局部增强的地标建筑三维点云模型的步骤包括：

步骤S31：按照投影矩阵，将三维点云投影到二维地标建筑图像上，获得二维投影点的分布；

步骤S32：根据二维投影点的分布，识别局部图像并从局部图像所对应的类别中，选择除已经在代表性图像组中的图像之外的类内局部特征匹配数最多的图像，补充到地标建筑代表性组中；

步骤S33：将步骤S32中选择新的图像，输入到步骤S3中，获得局部增强的地标建筑三维点云模型。

优选实施例，使用地标建筑图像中地标建筑区域的特征生成K维搜索树并进行未标注地标建筑图像分类的步骤包括：

步骤S41：将局部增强的地标建筑三维点云模型按照其投影矩阵投影到用于三维重建的地标建筑图像中，从而获得图像中的地标建筑区域，提取地标建筑区域中的局部特征构建K维搜索树；

步骤S42：提取无类别标注地标建筑图像的局部特征，并与K维搜索树进行特征匹配，匹配数最多的地标建筑K维搜索树所对应的类别即为无类别标注的地标建筑图像的类别。

本发明的有益效果：本发明通过对有类别标注的地标建筑图像进行有利于三维重建的代表性地标建筑图像选择，对代表性地标建筑图像进行基于视觉关注度的三维重建获得三维点云模型，对三维点云模型进行局部增强以及构建K维搜索树和对无类别标注图像进行分类，利用已标注图像集中的代表性图像获得地标建筑的描述，并选择和利用对应于地标建筑的局部区域的图像来获得局部增强的地标建筑的描述，并通过比较未标注图像与局部增强的地标建筑的描述，获得未标注图像的类别，与传统的地标建筑图像分类方法相比，本发明独创性的将三维点云模型应用到地标建筑图像分类中，有效地提高了地标建筑图像分类的准确率。本发明的地标建筑图像分类结果，证明了本发明的方法有更高的分类准确率。

附图说明

图1地标建筑图像的例子。

图2本发明基于三维点云模型的地标建筑图像分类方法框架图。

图3巴黎圣母院整体图像与局部图像举例

图4巴黎圣母院视觉关注度分析的例子

图5巴黎圣母院基于视觉关注度的地标建筑三维重建的例子

图6巴黎圣母院三维点云模型到二维图像投影的例子

图7最终分类结果与其他方法比较的例子

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

通过滤除地标建筑区域之外的噪音特征，本发明提出了利用三维点云模型来提高地标建筑图像分类的准确度。本发明的方法适用于地标建筑图像分类的特性：地标建筑具有唯一性和地标建筑有不同的表现形式。通过与传统的地标建筑方法比较，本发明的方法可以获得更准确的地标建筑图像分类结果。本发明中所使用计算机均在Windows XP操作系统下，硬件设备条件为处理器：酷睿双核2.2G，内存2G。本发明的结构图在图2中显示基于三维点云模型的地标图像分类方法框架图包括：1)有标注的地标建筑图像的代表图像选取，2)基于视觉关注度的三维重建，3)利用局部图像对三维点云模型进行增强，4)K维搜索树的建立和未标注的地标建筑图像的分类。

步骤S1有标注的地标建筑图像的代表图像选取

在地标建筑图像分类中，有标注的地标建筑图像作为训练图像，无标注的图像作为测试图像以检验分类算法的效果。本发明，并不使用所有的有标注的图像作为训练图像，因为这样浪费了计算机的效率。本发明中，仅选择有标注图像中，有代表性而且对三维重建有利的图像作为训练图像。训练图像选取主要包括三部分：概要性全局特征描述符(GIST)聚类，代表图像候选集选择和几何约束判定。

1.1概要性全局特征描述符聚类

聚类的目的是通过确定一些有代表性的视角来表示地标建筑图像集的内容。如果有很多图像是从相似的视角拍摄的，那么他们中肯定存在相似的图像显示。而这些相似的图像可以用低维的全局特征来描述。

本发明提取每幅有标注地标图像的概要性全局特征描述符，并计算全局特征之间的距离，并利用K均值(Kmeans)方法，对这些图像的全局特征进行聚类，生成聚类好的数据。K的取值根据有标注地标图像的数量进行确定。最终，根据聚类的结果，将这些有标注的图像存放到其归属的文件夹中。

1.2代表图像候选集选择

一次性选择出来最具有代表性且有利于三维重建的地标建筑图像是非常困难的。于是，本发明中，对于每个聚类类别，首先选取其中的一部分来作为代表性图像的候选集。再从候选集中选择最优的一组代表性图像。

对于每个聚类类别中的地标建筑图像，提取其局部特征SIFT特征，并计算类内图像的相互之间的局部特征(SIFT)特征匹配点的数量，并把这些地标建筑图像按照与类内其他地标建筑图像的匹配点数的总数排列顺序。每个类别中，本发明选出事先制定的固定比例的图像(从类内匹配点总数最多的开始)放入候选集合中。本发明计算采样率如下：

η＝1/(n/K) (3)

这里，η是采样率，n是有标记的地标建筑图像的总数，K是聚类类别数。

对于每个聚类类别，所选入的候选集合的个数计算如下：

这里，S_i是第i个聚类类别选出的地标建筑图像的数量，n_i是第i个类别中地标建筑图像的总数。

1.3几何约束判定

对于候选集合中的图像，本发明选择出K张来自不同聚类类别的候选图像作为最终的代表性图像。为了选择三维重建所需要的代表性图像组，本发明依靠几何约束来排序所有的代表性地标建筑图像组。

几何约束是为了保证所选出的地标建筑图像组中的地标建筑图像在三维空间中包含重合的区域。本发明提取局部特征，并用随机抽样一致性(RANSAC)算法来估计一个图像间的基本矩阵。对于一个特定的图像组，每个图像与其他图像之间有一定数量匹配点。每个地标建筑图像组中的匹配点的总和对于这个帧组来说，是一个新的表示特征，称为几何约束得分。本发明按照几何约束得分降序排列所有的地标建筑图像组。最终，排名最高的地标建筑图像组中的图像将被选择为代表性图像。

步骤S2基于视觉关注度的三维重建

本发明中提出了一种关注度的三维重建方法来提高地标建筑三维重建速度的方法。本发明的方法是一种基于非标定的方法。与先前的三维重建相比方法，本发明的增强三维重建方法，不仅仅突出了感兴趣区域，而且节省了计算量。主要包含两个个步骤：关注度分析和基于视觉关注度的三维重建。

图像中不同的物体吸引人们不同程度的关注，就是关注度。基于反差的关注度分析引入中心环绕结构的概念来提供人类视觉系统(HVS)以特征反差。基于信息论的方法依靠于这样的前提：视觉关注的完全依靠于最大化的信息采样。反差和信息采样是计算关注度的两个因素。本发明融合基于反差的方法和基于信息论的方法来计算视觉关注度图，如公式(1)：

Map_static(x，y)＝Con(x，y)×ID(x，y) (1)

这里Map_static是计算出的在点(x，y)处的视觉关注度值，Con(x，y)和ID(x，y)是在点(x，y)处的归一化之后的反差特征和信息特征。根据关注度图，本发明得到了每幅图像的关注区域。

在重建过程中，本发明的方法从地标建筑图像组中匹配数最多的两幅图像开始，用五点法来估计摄像机参数。在估计过程中，本发明仅使用地标建筑图像关注区域之内的局部特征的特征点。然后，本发明按照地标建筑图像组中剩余图像与已经估计了摄像机参数的图像之间的局部特征匹配数从多到少的顺序，用随机抽样一致性(RANSAC)算法和直接线性变换(DLT)方法来逐次估计余下地标建筑图像相对应的摄像机参数。最终可以得到地标建筑区域的三维点云重建结果。

步骤S3利用局部图像对三维点云模型进行增强

3.1三维点云模型到二维地标建筑图像的投影

值得注意的是，很多地标建筑图像仅仅包含该地标建筑的一部分，比如说巴黎圣母院的图片中，很大一部分就是仅包含巴黎圣母院的一些局部的图片(如图3)。对于这种情况，本发明对每个地标建筑的聚类类别进行分析，对于局部的地标建筑类别的图像进行增强。

经过三维点云到二维图像的投影，可以准确的得到地标建筑在一副图像中的区域范围。投影矩阵是在重建过程中得到的，公式(2)中是投影矩阵的形式。

[\begin{matrix} u \\ v \\ 1 \end{matrix}] = [K_{I}] [\begin{matrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 / f & 0 \end{matrix}] [\begin{matrix} R & t \\ {o_{3}}^{T} & 1 \end{matrix}] [\begin{matrix} x_{w} \\ y_{w} \\ z_{w} \\ 1 \end{matrix}] - - - (2)

公式中，u和v是特征点在图像中的二维坐标，x_w，y_w，z_w是特征点在世界坐标系中的坐标，K_I是摄像机内参数举着，f是摄像机焦距，R和t是摄像机外参数，o₃是一个1×3全零矩阵，T是矩阵转置符号。

3.2局部图像的选择

本发明把三维重建好的三维点云模型按照重建过程中恢复的投影矩阵投影到相对应的二维图像上。对于整体的地标建筑图像，投影点应该大部分落在图像的区域内，而对于局部地标建筑图像，很多投影点就会落在图像区域之外，根据这个特性，本发明可以选择出属于局部的地标建筑图像类别。

确定局部图像类别之后，从每个类别中，选择除已经在代表性图像组中的图像之外的类内局部特征匹配数最多的图像，补充到地标建筑代表性组中。

3.3送入步骤S2

将3.2中选出的局部地标建筑图像送入步骤S2，进行视觉关注度分析，然后，根据新选出图像与已经恢复摄像机参数的地标建筑图像之间的局部特征匹配数从多到少的顺序，用随机抽样一致性(RANSAC)算法和直接线性变换(DLT)方法来逐次估计新选出的地标建筑图像相对应的摄像机参数。由这些新选出的地标建筑图像所恢复的三维点云，也补充到了最初的三维点云中，形成了局部增强的三维点云模型。

步骤S4K维搜索树的建立和未标注的地标建筑图像的分类。

本发明要建立一棵K维搜索树来表示一个地标建筑。K维搜索树中的特征都是从用于三维重建的地标建筑图像的地标建筑区域中选择出的。

为了获得用于三维重建的地标建筑图像的地标建筑区域，本发明通过三维点云到二维图像的投影，得到二维图像中的三维点云的覆盖范围。此覆盖范围就是二维图像中的地标建筑区域。通过逐个检测投影点在图像上的二维坐标，本发明可以对于地标建筑区域中的每一行，得到最左边和最右边的坐标值，作为在这一行的地标建筑区域，从而最终的到地标建筑在整张二维图像上的区域范围。

在二维图像的地标建筑区域范围内，提取局部特征就可以得到一个稠密的地标建筑区域局部特征集合，并用所有图像的中的地标建筑区域的局部特征创建一棵KD树来表示整体的地标建筑。

为了标注那些无类别标注的地标建筑图像，本发明中使用局部特征匹配的方式来分析地标建筑图像的归属类别。对于无类别标注的地标建筑图像，本发明首先要提取它的全部的局部特征来代表这幅图像。之后，经过图像的局部特征与不同的地标建筑的KD树之间的匹配数量的值来确定地标建筑图像的归属类别。一般情况下，可以把匹配数量最多的地标建筑类别作为图像的类别。

5实施效果

为了评估本发明，本发明设计了四组实验，分别是地标建筑图像视觉关注度分析的实验，基于视觉关注度的地标建筑三维重建的实验，三维点云模型到二维图像的投影的实验和最终分类结果与其他方法的比较实验。

5.1地标建筑图像视觉关注度分析的实验

图4描述的是巴黎圣母院图像视觉关注度分析的结果.。如图4中所示，第一幅是巴黎圣母院原始图像，第二幅是巴黎圣母院视觉关注度分析结果。从图中可以看出，视觉关注度分析的结果可以较为准确的描述地标建筑在图像中的大概位置。这就为后边的基于视觉关注度的地标建筑三维重建获得准确的地标建筑信息提供了保障。

5.2基于视觉关注度的地标建筑三维重建的实验

图5描述的是基于视觉关注度的地标建筑三维重建的实验的结果。如图5中所示，巴黎圣母院图像是原始图像，巴黎圣母院正面视角是从正面观察巴黎圣母院三维点云模型所得到的结果，巴黎圣母院侧面视角是从侧面(左侧)观察巴黎圣母院三维点元模型所得到的结果。从图中可以看出，重建的结果可以很好的描述地标建筑的轮廓和结构信息。

5.3三维点云模型到二维图像的投影的实验

图6描述的是三维点云模型到二维图像的投影的实验结果。图中的黑色表示区域就是三维点云投影到二维图像后的投影点的分布情况。如图6所示，巴黎圣母院全局图像是表示投影点在全局图像上的分布情况，巴黎圣母院局部图像是表示投影点在两幅不同的局部图像上的分布情况。可以明显看出，整体的地标建筑图像中，投影点都分布在图像内部，而局部的地标建筑图像中，投影点有很多分布在图像外部的白色区域。因此可以得知，本发明中的方法可以很好的区分地标建筑的整体图像和局部图像。

5.4最终分类结果与其他方法的比较实验

图7描述的是本发明中的分类结果与当前最高水平的分类方法字袋模型法(BoW)和使用稀疏编码的空间金字塔匹配方法(ScSPM)相比较的结果。从图中可以明显看出，本发明的方法，相比于之前的方法，在分类结果方面，有了较大的提高，也证明本发明的方法的有效性。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于三维点云模型的地标建筑图像分类方法，其特征在于具体包括如下步骤：

2.根据权利要求1所述的基于三维点云模型的地标建筑图像分类方法，其特征在于，有标注的地表建筑图像的代表性图像的选取的步骤包括：

3.根据权利要求1所述的基于三维点云模型的地标建筑图像分类方法，其特征在于，对步骤S2中地标建筑图像的视觉关注区域进行三维重建的步骤包括：

4.根据权利要求1所述的基于三维点云模型的地标建筑图像分类方法，其特征在于，生成局部增强的地标建筑三维点云模型的步骤包括：

5.根据权利要求1所述的基于三维点云模型的地标建筑图像分类方法，其特征在于，使用地标建筑图像中地标建筑区域的特征生成K维搜索树并进行未标注地标建筑图像分类的步骤包括：