CN104090972B

CN104090972B - 用于三维城市模型检索的图像特征提取和相似性度量方法

Info

Publication number: CN104090972B
Application number: CN201410342391.5A
Authority: CN
Inventors: 张立强; 王跃宾; 张良
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2014-07-18
Filing date: 2014-07-18
Publication date: 2017-08-11
Anticipated expiration: 2034-07-18
Also published as: CN104090972A

Abstract

本发明涉及用于三维城市模型检索的图像特征提取和相似性度量方法。多数图像和三维模型检索方法提取的特征缺乏或忽略对模型细节的描述，导致三维模型检索精度不高。本发明提出了一种基于图像的三维城市模型检索框架。首先分割出图像上的检索目标，同时利用光场对三维城市模型进行二维变换，然后提取查询目标和检索模型图像的特征，最后用相似度距离度量它们之间的相似性，实现三维城市模型检索。1)提出了一种图像特征提取和相似性度量的三层框架，在该框架中，设计了带空间约束的多层多尺度卷积神经网络模型，获得了位移、尺度、形变不变性的具有判别性的特征；2)提出了一种新的相似性度量方法，更好的实现了目标间的相似性匹配。与已有方法相比，本发明方法在三维城市模型检索的效率和精度有了很大提高。

Description

用于三维城市模型检索的图像特征提取和相似性度量方法

一、技术领域

本发明涉及用于三维城市模型检索的图像特征提取和相似性度量方法，属于空间信息技术领域。

二、背景技术

随着空间数据采集技术的革新及互联网的发展，城市三维模型的种类和数量越来越丰富，很多网站(如Google 3D Warehouse)和平台也提供了三维模型共享功能，供用户免费下载，基于图像的检索成为高效获取三维模型的一种重要技术手段。由于拍摄条件和拍摄角度的不同，图片往往含有复杂背景，并且三维模型存放的方向以及光照条件不同会引起模型表面纹理和颜色差异变化很大，这都为基于图像的三维模型检索带来了挑战。传统的关键字匹配方法受制于模型的人工标注，相比之下，无需人工标注的基于模型特征的匹配方法更适合模型仓库背景下的搜索。基于模型特征的检索有利于在场景中直接定位待检索的模型，但多数图像和三维模型检索方法提取的特征缺乏或忽略对模型细节的描述，导致图像/三维模型检索精度不高，很大程度上限制了建筑模型搜索应用的发展。本发明提出了一种基于图像特征和相似性度量方法的三维城市模型检索技术。与已有方法相比，本发明在三维城市模型检索的效率和精度有了很大提高。

三、发明内容

1、目的：三维城市模型在军事、城市导航、旅游等方面有重要的应用。本发明提出了一种基于图像特征和相似性度量方法的三维城市模型检索技术。创新性主要体现在：1)提出了一种图像特征提取和相似性度量的三层框架，在该框架中，设计了带空间约束的多层多尺度卷积神经网络模型，获得了位移、尺度、形变不变性的具有判别性的特征；2)提出了一种新的相似性度量方法，更好的实现了目标间的相似性匹配。本专利可以应用于基于空间位置服务、场景快速定位和图像分类分割中。

2、技术方案

用于三维城市模型检索的图像特征提取和相似性度量方法，其特征在于，包括如下步骤(如图1)：

步骤一：查询目标和城市三维模型影像的特征提取

从输入图像上用智能剪刀和图割方法分割出查询目标，用水平光场算法将每个待检索的三维城市模型进行投影转换生成10张影像，建立待检索模型图像库。接下去，提取查询目标图像与模型图像库中图像的特征，从而检索出与查询目标相匹配的模型图像对应的三维城市模型。

本专利设计了带空间约束卷积神经网络模型提取图像目标特征。基于该模型的特征提取包含三个层次。为了实现从粗到精的检索，在第一层次中，用卷积神经网络模型CNN提取查询目标和模型图像的特征，通过图像度量方法预检索出k个三维城市模型；在第二层次，对这k个检索结果进行显著性检测，去除模型图像的背景，建立空间相似性约束，使查询目标和模型图像姿态保持一致；在第三层次，对建立相似性约束的模型图像再次用CNN提取特征后，通过图像度量方法实现模型的精确检索。

(1)第一层次

用CNN提取查询目标Q和模型图像的特征。CNN是多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元构成。为了强化表达图像的特征，用拉普拉斯金字塔技术提取多尺度图像，作为对应图像的子图像来进行特征提取。

CNN输入的是查询目标的图像矩阵I_h×w×n：h表示图像高度，w表示图像宽度，n表示图像数量。查询目标通过可训练的滤波器和可加偏置进行卷积(式1)，

X^l＝sigm(W^lX^l-1+b^l) (1)

X^l-1表示隐含层l的输入，X^l表示隐含层的输出，X⁰＝I。矩阵W^l表示隐含层l的卷积核，

b^l表示隐含层l的偏置项。卷积层神经元的激活函数为Sigmod函数，其定义为

卷积后在C1层产生特征映射图，特征映射图中像素再通过式(3)进行Pooling运算，得到S1层的特征映射图。

X^l＝pool(X^l-1) (3)

(3)式中，X^l-1表示隐含层l的输入，X^l表示隐含层的输出。

上述映射图经过滤波得到C2层，在该层级，类似的产生S2、S3。为了准确描述图像的特征，还要训练CNN中的参数W^l和b^l。在实际计算中，网络的实际输出和目标存在一定误差，所以建立全局优化目标：

(4)式中，N代表训练样本的个数，c代表样本的类别数，l代表层数。是第n模式对应标注的第k维，是对应第n输入模式的第k维输出层单元的值。

使用(4)对参数W^l和b^l进行训练，网络参数训练好后，利用CNN提取查询目标的特征向量。

(2)第二层次

CNN特征提取后，查询目标Q可以用图像度量方法对模型图像进行粗层次的检索。一般的，前k个检索结果与Q相似程度最高，它们的类别属性基本一致，因此用Q对模型图像进行空间约束，使Q和模型图像在相同空间状态下进行特征提取。

假设Q中任意一点的坐标为(x_Q，y_Q)，模型库中一图像的坐标(x_M，y_M)通过空间变换T(r，s，t)使得模型库中图像的空间坐标和Q大致保持一致。

(5)式中，r表示旋转变换，s表示尺度变换，t表示平移变换。

由于空间变换的复杂性，不可能使得T满足所有坐标变换，所以使用查询目标Q对模型图像进行空间约束。提取图像本身最外围形状轮廓，基于边界轮廓对模型图像进行空间约束，基本思想是：

1)在Q的边界上取样得N个点的坐标：X₁，X₂，...，X_N；

2)在模型图像的形状样本边界上取N个点的坐标X′₁，X′₂，...，X′_N；

3)极小化能量泛函求得变换T。

假定T为刚体变化(旋转，平移，放缩)，所以，

(6)式中，(x，y)为任一图像坐标，θ表示旋转角度，α表示缩放尺度，(t₁，t₂)表示分别沿x、y轴平移坐标大小。

能量泛函E变为：

解出配准中的参数θ，α，t₁，t₂；以此参数对模型图像进行空间变换实现空间约束。

(3)第三层次

对模型图像进行空间约束之后，使用CNN对约束后的模型图像再一次提取特征。

步骤二：设计用于匹配的图像度量方法

本发明中使用的图像度量方法是一种非线性的函数映射。假设两幅图像的特征向量分别为F_a＝[f_a1，f_a2，...，f_an]和F_b＝[f_b1，f_b2，...，f_bn]，通过式(8)计算两幅图像的相似程度ISS。

ISS＝f_IM(F_a-F_b) (8)

f_IM是相似性度量因子，用式(9)计算f_IM：

其中，x_i代表两条特征向量之差，RS_i表示查询目标与检索图像的相关程度，n表示参与f_IM训练的样本个数。

获取特征向量后，就容易得到x_i，两幅图像的RS_i通过下述过程获得。

(1)特征降维

通过CNN提取的图像特征向量维数高，容易造成过度拟合。采用流形学习的Isomap方法对特征向量进行降维处理。利用降维后的特征，通过城市街区距离(公式10)计算两个目标相似性程度。

公式(10)中，a_i和b_i分别为两个n维向量a、b的特征值。

通过公式(10)可知，两个目标相似性程度SS为：

公式(11)中，F_a和F_b分别代表两幅图像的特征向量；F_ai和F_bi分别为a和F_b对应的每一维的特征值。

(2)检索结果的重排序

通过公式(11)得到与查询目标目标Q对应的前n个匹配结果。为了获取高精度的匹配结果，对检索结果进行重新排序。k-d树能迅速搜索到最近点，可以用于多维空间数据的搜索。本发明用k-d tree进行重新排序。

用k-d树搜索查询目标Q对应的前n个匹配图像，存放在列表list_Q中，list_Q中所检索到的图像k₁，k₂，…k_n，分别以其自身为检索图像继续检索，最后形成n+1个列表，nm代表邻近检索矩阵，如下所示：

在list形成的图像检索矩阵中存在大量重复图像，为了计算所有检索到的图像与查询目标Q的相关程度，同时考虑到被检索对象与Q的邻近程度，需要对list_Q中被检索对象进行排序，所以重新定义公式(11)为：

(12)式中，SS表示重新排序后的相似度指标，F₁和F₂分别代表两幅图像的特征向量，i代表检索到的图像在list_Q中的顺序，p为介于0到1之间的常数。

依公式(13)进行查找与排序：

其中，

查找和排序完成之后，就获得了与查询目标Q相对应新的list_Q，同时，在该list_Q中也获得了被检索对象与Q的相关程度。

为了计算最佳检索效果，令其中，N_same为list_Q中与Q属于同一实体类型的数量。

(3)计算相似性度量因子f_IM

两幅图像的特征之差作为自变量，相关程度RS作为因变量，自变量和因变量实际上是非线性映射关系。引入径向基函数神经网络通过公式(14)求取公式(12)中的f(x)，从而计算出f_IM。

h隐含层神经元的数目，w_ij是权重，c_i是径向函数的中心，σ_i基函数的宽度。

步骤三：三维城市模型检索

将查询目标Q从图像分割出后，通过CNN获取其特征向量f_Q；同理，分别获取模型图像a₁，a₂，...，a_n对应的特征向量然后，分别计算检索图像与模型库图像的向量差通过f_IM计算模型图像与检索图像的相似度并按照升序进行排序，就可以获得最为相似的模型。

四、附图说明

图1用于三维城市模型检索的图像特征提取和相似性度量方法实现流程

图2六种不同方法相似性度量方法的比较结果.

图3(a)6种不同方法对塔的检索结果的Precision-Recall图

图3(b)6种不同方法对桥的检索结果的Precision-Recall图

图3(c)6种不同方法对体育场馆的检索结果的Precision-Recall图

图3(d)6种不同方法对建筑房屋的检索结果的Precision-Recall图

五、具体实施方式

步骤一：查询目标和城市三维模型影像的特征提取

从输入图像上用智能剪刀和图割方法分割出查询目标，利用水平光场算法将每个待检索的三维城市模型进行投影转换生成10张影像，建立待检索模型图像库。接下去，提取查询目标图像与模型图像库中的图像的特征，从而检索出与查询目标相匹配的模型图像对应的三维城市模型。

(1)第一层次

X^l＝sigm(W^lX^l-1+b^l) (1)

X^l＝pool(X^l-1)(3)

(3)式中，X^l-1表示隐含层l的输入，X^l表示隐含层的输出。

(2)第二层次

(5)式中，r表示旋转变换，s表示尺度变换，t表示平移变换。

1)在Q的边界上取样得N个点的坐标：X₁，X₂，...，X_N；

3)极小化能量泛函求得变换T。

假定T为刚体变化(旋转，平移，放缩)，所以，

能量泛函E变为：

(3)第三层次

步骤二：设计用于匹配的图像度量方法

ISS＝f_IM(F_a-F_b) (8)

f_IM是相似性度量因子，用式(9)计算f_IM：

(1)特征降维

公式(10)中，a_i和b_i分别为两个n维向量a、b的特征值。

通过公式(10)可知，两个目标相似性程度SS为：

(2)检索结果的重排序

在list_Q形成的图像检索矩阵中存在大量重复图像，为了计算所有检索到的图像与查询目标Q的相关程度，同时考虑到被检索对象与Q的邻近程度，需要对list_Q中被检索对象进行排序，所以重新定义公式(11)为：

(12)式中，SS表示重新排序后的相似度指标，F₁和F₂分别代表两幅图像的特征向量，i代表检索到的图像在list中的顺序，p为介于0到1之间的常数。

依公式(13)进行查找与排序：

其中，

(3)计算相似性度量因子f_IM

步骤三：三维城市模型检索

实施例1：

为了验证本专利方法的性能，发明人从Google 3D Warehouse、普林斯顿大学的PSB三维模型数据集等上收集了15,246个三维城市模型，模型分为塔、桥、体育场馆、建筑房屋等四类。

在进行特征提取前，对CNN进行训练以获得合适的网络结构参数。三维城市模型库中90％的模型用于训练，10％的模型用于测试。利用CNN进行分类精度检测，分类准确度达到了96％。用训练好的CNN结构结合空间约束来提取模型的特征。

图2给出了以下6种不同方法在不同最邻近模型数目(Nearest Neighbor Number)下的最邻近评分(Nearest Neighbor Score，简称NNS)变化情况。用precision-recall曲线来评估本发明相似度度量方法，并同其它5种方法进行了对比：

方法(1)：CNN+街区距离；

方法(2)：CNN+欧式距离；

方法(3)：ITQ度量方法(Yunchao，G.，Lazebnik，S.，2011.Iterativequantization：A procrustean approach to learning binary codes，2011 IEEEConference on Computer Vision and Pattern Recognition，817-824.)；

方法(4)：RR度量方法(Jegou，H.，Douze，M.，Schmid，C.，Perez，P.，2010.Aggregating local descriptors into a compact image representation，2010IEEE Conference on Computer Vision and Pattern Recognition，3304-3311)；

方法(5)：SKLSH度量方法(Raginsky，M.，Lazebnik，S.，2009.Locality-sensitivebinary codes from shifi-invariant kemels，Advances in Neural InformationProcessing Systems，1509-1517)；

方法(6)：本专利相似性度量方法。

对于方法(1)、(2)和(6)，首先用CNN提取模型图像特征，然后分别来衡量模型图像之间的相似度。

从图2可以看出，(1)、(2)和(6)在同样适用CNN进行特征提取的情况下，使用新的相似度标准(6)进行检索的效果明显好于传统距离度量(1)和(2)的方法，(1)和(2)不能有效地表达模型图像之间的相似程度，也证明了本专利方法的有效性与方法(3)、(4)和(5)相比，后者缺少或忽略对模型图像细部特征的描述，同时不能有效地比较图像相似度。本专利方法采用CNN进行特征提取，能够有效提取图像的特征，检索精度更高。

图3给出了Precision-Recall曲线。从中可以看出本专利对于模型的检索效果要好于其它方法。

Claims

1.用于三维城市模型检索的图像特征提取和相似性度量方法，其特征在于，包括如下步骤：

步骤一：查询目标和三维城市模型影像的特征提取

从输入图像上用智能剪刀和图割方法分割出查询目标，用水平光场算法将每个待检索的三维城市模型进行投影转换生成10张影像，建立待检索模型图像库，接下去，提取查询目标图像与模型图像库中的图像的特征；

使用了带空间约束卷积神经网络模型提取图像目标特征；基于该模型的特征提取包含三个层次；为了实现从粗到精的检索，在第一层次中，用卷积神经网络CNN提取查询目标和模型图像的特征，通过图像度量方法预检索出k个三维城市模型；在第二层次，对这k个检索结果进行显著性检测，去除模型图像的背景，建立空间相似性约束，使查询目标和模型图像姿态保持一致；在第三层次，对建立相似性约束的模型图像再次用CNN提取特征后，通过图像度量方法实现模型的精确检索；

(1)第一层次

用CNN提取查询目标Q和模型图像的特征；为了强化表达图像的特征，用拉普拉斯金字塔技术提取多尺度图像，作为对应图像的子图像来进行特征提取；

CNN输入的是查询目标的图像矩阵I_h×w×n：h表示图像高度，w表示图像宽度，n表示图像数量；查询目标通过可训练的滤波器和可加偏置进行卷积，

X^l＝sigm(W^lX^l-1+b^l) (1)

X^l-1表示隐含层l的输入，X^l表示隐含层的输出，X⁰＝I；矩阵W^l表示隐含层l的卷积核，b^l表示隐含层l的偏置项；卷积层神经元的激活函数为Sigmod函数，其定义为

卷积后在C1层产生特征映射图，特征映射图中像素再通过式(3)进行Pooling运算，得到S1层的特征映射图；

X^l＝pool(X^l-1) (3)

(3)式中，X^l-1表示隐含层l的输入，X^l表示隐含层的输出；

为了准确描述图像的特征，还要训练CNN中的参数W^l和b^l；在实际计算中，网络的实际输出和目标存在一定误差，所以建立全局优化目标：

(4)式中，N代表训练样本的个数，c代表样本的类别数，l代表层数；是第n模式对应标注的第k维，是对应第n输入模式的第k维输出层单元的值；

使用(4)对参数W^l和b^l进行训练，网络参数训练好后，利用CNN提取查询目标的特征向量；

(2)第二层次

用Q对模型图像进行空间约束，使Q和模型图像在相同空间状态下进行特征提取；

假设Q中任意一点的坐标为(x_Q，y_Q)，模型库中一图像的坐标(x_M，y_M)通过空间变换T(r，s，t)使得模型库中图像的空间坐标和Q大致保持一致；

(5)式中，r表示旋转变换，s表示尺度变换，t表示平移变换；

提取图像本身最外围形状轮廓，基于边界轮廓对模型图像进行空间约束，过程是：

1)在Q的边界上取样得N个点的坐标X₁，X₂，...，X_N；

3)极小化能量泛函求得变换T；

假定T为刚体变化，所以，

(6)式中，(x，y)为任一图像坐标，θ表示旋转角度，α表示缩放尺度，(t₁，t₂)表示分别沿x、y轴平移坐标大小；

能量泛函E变为：

解出配准中的参数θ，α，t₁，t₂；以此参数对模型图像进行空间变换实现空间约束；

(3)第三层次

对模型图像进行空间约束之后，使用CNN对约束后的模型图像再一次提取特征；

步骤二：设计用于匹配的图像度量方法

假设两幅图像的特征向量分别为F_a＝[f_a1，f_a2，...，f_an]和F_b＝[f_b1，f_b2，...，f_bn]，通过式(8)计算两幅图像的相似程度ISS；

ISS＝f_IM(F_a-F_b) (8)

f_IM是相似性度量因子，用式(9)计算f_IM：

其中，x_i代表两条特征向量之差，RS_i表示查询目标与检索图像的相关程度，n表示参与f_IM训练的样本个数；

获取特征向量后，得到x_i，两幅图像的RS_i通过下述过程获得；

(1)特征降维

采用流形学习的Isomap方法对特征向量进行降维处理，利用降维后的特征，用公式(10)通过城市街区距离计算两个目标相似性程度；

公式(10)中，a_i和b_i分别为两个n维向量a、b的特征值；

通过公式(10)可知，两个目标相似性程度SS为：

2

公式(11)中，F_a和F_b分别代表两幅图像的特征向量；F_ai和F_bi分别为a和F_b对应的每一维的特征值；

(2)检索结果的重排序

为了获取高精度的匹配结果对检索结果进行重新排序，用k-d tree进行重新排序；

对list_Q中被检索对象进行排序，重新定义公式(11)为：

(12)式中，SS表示重新排序后的相似度指标，F₁和F₂分别代表两幅图像的特征向量，i代表检索到的图像在list_Q中的顺序，p为介于0到1之间的常数；

依公式(13)进行查找与排序：

其中，

查找和排序完成之后，获得了与查询目标Q相对应新的list_Q，同时，在该list_Q中也获得了被检索对象与Q的相关程度；

为了计算最佳检索效果，令其中，M_same为list_Q中与Q属于同一实体类型的数量；

(3)计算相似性度量因子f_IM

引入径向基函数神经网络，通过公式(14)求取公式(12)中的f(x)，从而计算出f_IM，

(14)式中，h隐含层神经元的数目，w_ij是权重，c_i是径向函数的中心，σ_i基函数的宽度；

步骤三：三维城市模型检索

将查询目标Q从图像分割出后，通过CNN获取其特征向量f_Q；同理，分别获取模型图像a₁，a₂，...，a_n对应的特征向量然后，计算检索图像与模型库图像的向量差通过f_IM计算模型图像与检索图像的相似度并按照升序进行排序，就可以获得最为相似的模型。