CN109034066A

CN109034066A - 基于多特征融合的建筑物识别方法

Info

Publication number: CN109034066A
Application number: CN201810840821.4A
Authority: CN
Inventors: 张永梅; 马健喆; 付昊天; 冯超; 张奕
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2018-12-18
Anticipated expiration: 2038-07-27
Also published as: CN109034066B

Abstract

本发明提供了一种基于多特征融合的建筑物识别方法，包括：对输入的多光谱图像提取Gabor‑HOG特征；将提取的Gabor‑HOG特征与图像RGB颜色特征进行融合，形成低层特征向量；将低层特征向量输入到训练好的深度置信网络模型中，提取建筑物的高层特征，并生成每个像素点的后验概率；将生成的每个像素点的后验概率输入到训练好的条件随机场模型中，提取每个像素点邻域信息的上下文特征，并根据最大后验概率识别建筑物目标。本发明通过设计低层视觉特征，利用深度置信网络提取建筑物的高层特征，采用条件随机场提取建筑物的上下文特征，解决了提取建筑物特征单一化和传统方法只提取低层特征导致建筑物识别率低的问题，能够提高建筑物识别的精度和召回率。

Description

基于多特征融合的建筑物识别方法

技术领域

本发明属于图像识别技术领域，具体涉及一种基于多特征融合的建筑物识别方法。

背景技术

随着航空航天技术的不断发展，获取的遥感数据越来越多，如何充分利用遥感数据显得尤为重要。建筑物是重要的一类地物目标，如何对其进行准确识别已成为目前图像处理、模式识别、人工智能领域的研究热点。

目前，针对不同航空器获取到的多光谱图像，已存在很多种算法及改进算法用来识别图像中的建筑物。但是，由于图像获取的渠道不同，导致识别不同图像建筑物时往往需要提取不同的特征，并通过实验找到针对此种图像最好的特征提取方法。在识别不同图像建筑物时，仍然面临一些问题，目前主要存在以下2个问题。

(1)许多建筑物识别方法都是基于低层特征及其特征组合进行特征提取，如提取建筑物的边缘、颜色、纹理特征等，并进行特征融合。这些特征的解释性较强，具有较强的数学理论支持。但仅利用这些低层特征识别建筑物时，对屋顶结构简单、纹理具有一定典型性的建筑物识别效果较好，但对于一些屋顶形状怪异、纹理区分度不大、屋顶内部有较多干扰情况时，其识别效果并不好，而且存在很高的漏识率。

高层特征是通过深度学习方法自动提取原始图像处于网络深层的抽象特征，通常这些特征对目标识别的效果要好于传统低层特征提取方法。但如果想在不改动模型的情况下，通过改变提取的特征提高识别的效果通常很难。

(2)对于上下文特征提取方面，已有一些学者通过建立基于贝叶斯网络、马尔科夫随机场、条件随机场等概率模型，建立建筑物内部和建筑物周围场景的概率图模型，提取像素或对象间上下文特征，并根据概率推测识别建筑物。但对于一些建筑物内部以及周围场景和训练模型具有一定差异性时，上下文特征的加入甚至会对识别起反作用，会降低识别的精度。

发明内容

本发明的目的是提供一种基于多特征融合的建筑物识别方法，将建筑物的低层特征输入到深度置信网络，并通过隐含层提取建筑物的高层特征，并生成每个像素是建筑物的概率，将计算的概率输入到条件随机场提取上下文特征，并给出建筑物的识别结果。以解决提取建筑物特征单一化和传统方法只提取低层特征导致建筑物识别率低的问题，提高建筑物识别的精度和召回率。

本发明提供了一种基于多特征融合的建筑物识别方法，包括：

步骤1，对输入的多光谱图像提取Gabor-HOG特征；

步骤2，将提取的Gabor-HOG特征与图像RGB颜色特征进行融合，形成低层特征向量；

步骤3，将低层特征向量输入到训练好的深度置信网络模型中，提取建筑物的高层特征，并生成每个像素点的后验概率；

步骤4，将生成的每个像素点的后验概率输入到训练好的条件随机场模型中，提取每个像素点邻域信息的上下文特征，并根据最大后验概率识别建筑物目标。

进一步地，步骤1包括：

利用Gabor滤波器提取建筑物的多尺度特征和多方向的纹理全局特征，形成Gabor特征图，然后提取建筑物的HoG特征。

进一步地，步骤2包括：

在提取的Gabor-HOG特征中加入原图像每个像素点的R、G、B值，形成特征向量。

进一步地，步骤3包括：对深度置信网络模型进行训练。

进一步地，对深度置信网络模型进行训练包括：

采用K-对比散度算法对单个RBM进行训练；

利用醒-睡算法对上下参数进行调优。

与现有技术相比本发明的有益效果是：

通过设计低层视觉特征，利用深度置信网络提取建筑物的高层特征，采用条件随机场提取建筑物的上下文特征，解决了提取建筑物特征单一化和传统方法只提取低层特征导致建筑物识别率低的问题，能够提高建筑物识别的精度和召回率。

附图说明

图1是本发明基于多特征融合的建筑物识别方法的流程图；

图2是本发明基于多特征融合的建筑物识别方法采用的模型；

图3是Gabor-HOG算法流程图；

图4是本发明使用的深度置信网络模型；

图5是CD-K算法训练流程图；

图6是本发明采用的CRF模型；

图7是Gabor特征图和Gabor-HOG特征图；

图8是房屋较密集的居民区识别结果；

图9是存在阴影且建筑物密集的识别结果；

图10是美国白宫识别结果；

图11是圆顶欧式建筑识别结果；

图12是大英博物馆识别结果；

图13是图像坐标系建立方式；

图14是房屋较密集居民区识别结果对应坐标；

图15是存在较多阴影且建筑物密集图像识别结果对应坐标；

图16是美国白宫识别结果对应坐标；

图17是圆顶欧式建筑识别结果对应坐标；

图18是大英博物馆图像识别结果对应坐标；

图19是建筑物识别实验结果；

图20是阴影干扰较多建筑物识别结果。

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

参图1所示，本实施例提供了一种基于多特征融合的建筑物识别方法。

为了准确识别多光谱图像中的建筑物，本发明提出了一种基于多特征融合的建筑物识别方法，多特征包含Gabor-HoG、RGB低层特征，以及利用深度置信网络提取的建筑物高层特征，将提取的低层特征和高层特征作为特征向量输入到训练好的条件随机场模型中用来提取建筑物的上下文特征，并给出建筑物目标识别结果。

首先利用Gabor滤波器提取建筑物的多尺度特征和多方向的纹理全局特征，形成Gabor特征图，然后提取建筑物的HoG特征，从而增强了提取的建筑物轮廓特征。由于Gabor-HoG特征只给出了建筑物边缘的梯度，而本发明采用的实验图像是含有RGB三通道的多光谱图像，因此在使用深度置信网络提取建筑物的高层特征时，还需要将Gabor-HoG特征与图像中的RGB颜色特征进行融合，从而形成建筑物的低层特征向量。

基于多特征融合的建筑物识别方法通过利用不同层次特征和上下文特征综合提升建筑物识别的精度。该方法采用的模型如图2所示，具体步骤如下：

(1)对输入多光谱图像提取Gabor-HOG特征，并加入原图像每个像素点的R、G、B值，形成特征向量；

(2)利用特征与标签完成DBN(Deep Belief Network，DBN，深度置信网络)模型的训练。DBN模型训练完成后，输入给定图像特征，生成相应类别概率；

(3)将类别概率分布、每个像素点的后验概率输入到条件随机场(ConditionalRandom Field，CRF)模型中作为其观测值，并输入训练标签中相对应的每个像素的手动分割结果，用于监督CRF模型训练，训练得到CRF模型参数；

(4)模型测试与验证。将测试集样本图像输入至模型，对建筑物进行识别。

本发明通过将Gabor-HoG特征作为低层特征，融合了图像的纹理和边缘特征，利用深度置信网络模型提取高层特征，并结合条件随机场提取上下文特征，采用条件随机场模型根据概率识别建筑物目标，实现了建筑物的像素级识别，有利于解决经典深度置信网络没有考虑低层特征和上下文特征对建筑物识别的影响，提高了识别精度。

本发明使用基于多特征融合方法识别建筑物，能有效地提取建筑物不同层次的特征，使提取的特征更加完备，从而有助于消除光照和建筑物间互为阴影对建筑物特征提取的影响，有助于提高建筑物识别的准确率和鲁棒性。

下面对本发明作进一步详细说明。

(一)基于Gabor小波的HOG特征提取方法

多光谱图像建筑物目标的纹理和边缘轮廓清晰。方向梯度直方图(Histogram ofOriented Gradients，HOG)采用梯度统计信息描述目标的局部轮廓，具有良好的鲁棒性。Gabor小波从局部区域捕获信息，并将不同方向、频率和尺度的滤波信息进行结合，能维护和增强目标的整体信息。本发明采用基于Gabor小波的HOG特征提取方法，通过Gabor进行预处理，增强相关的目标信息，排除不相关信息，提高了HOG算法的全局性能。

采用Gabor滤波器提取建筑物的多尺度特征和多方向的纹理全局特征，形成Gabor特征图，提取HoG特征，增强对建筑物轮廓特征的提取，即提取Gabor-HoG特征，并将提取的特征与图像RGB颜色特征进行融合，形成低层特征向量，将特征向量输入到深度置信网络，以提取更高层的抽象特征。本发明采用的Gabor-HOG算法流程图如图3所示，具体步骤如下：

(1)图像预处理。传统HOG特征需要对输入图像进行RGB数据归一化处理，目的是调节图像对比度，降低图像光照变化和阴影所造成的影响。但归一化算法去除干扰信息能力较差，不能很好地抑制噪声。本发明采用Gabor小波变换算法对图像进行预处理。

利用48个Gabor滤波器进行Gabor特征提取，这些滤波器具有6个尺度和8个方向。对图像采用Gabor滤波器进行卷积后，提取到图像的Gabor纹理特征。本发明共得到48幅特征图，为了进一步降低特征的维度，本发明采用最大线性嵌入(Maximal LinearEmbedding)方法进行降维，该方法能在降低Gabor特征图维度的同时，尽可能避免有效特征损失。

需要对每个特征图所有像素在同一尺度下不同方向进行编码，编码方式如公式(1)、(2)、(3)和(4)所示。

公式(3)的是指在原尺度Gabor特征图在v方向上的虚部编码，公式(4)的表示在原尺度Gabor特征图在v方向上的实部编码。是编码后的实部值，是编码后的虚部值。编码之后的实部和虚部的表示范围为[0,255]，即为灰度图像特征。

对6个不同尺度特征进行融合，为了减少尺度特征损失，本发明提出对其对应编码的十进制数求平均值的方法，将不同尺度的特征图融为一体，此方法可以保证特征信息的完整性，而且计算复杂度低。平均值融合方式的计算公式如公式(5)和(6)所示。

进行Gabor卷积处理后的图像比传统灰度化的预处理方式具有更为丰富的纹理和轮廓信息，同时去除了多数干扰信息，如阴影、假边缘等。

(2)按照公式(7)计算输入图像每个像素点的梯度值，水平方向梯度和垂直方向梯度的算子分别采用算子[-1,0,1]和[-1,0,1]^T。

(3)将分块的直方图进行投影。本发明设置子图(cell)大小为8*8，并设置9个bin用于统计每个cell的梯度信息。由于前景-背景对比度的变化，使得梯度变化范围非常大，故需要将4个相邻的cell组成一个block，进行归一化处理，并生成每个block的HOG特征，此时每个block的HOG特征维度为4*9＝36维。

(4)将所有block的HOG特征，通过滑动窗口方式进行向量化，滑动窗口大小选择10*10，从而得到整幅图像的Gabor-HOG特征。

(二)基于深度置信网络的高层特征提取

DBN是一种深度学习模型，该模型是由逻辑斯蒂信念网络发展来的一种模型。深度置信网络采用了监督学习和无监督学习相结合的方法对数据进行训练，即先用部分无标签数据训练模型，使得模型中隐含层参数能得到较好的初始值，然后再用部分有标签的数据对模型进行微调，从而使模型达到最优。

DBN更加抽象地学习高层特征，并且适用于高维复杂的海量数据。深度置信网络是由输入层、隐层和输出层构成的网络结构，除了第一个隐层外，其每两个相邻隐层构成一个限制玻尔兹曼机(Restricted Boltzmann Machine，RBM)，每个RBM都可看成由一个可见层和一个隐层构成，浅层的隐层作为可见层，深层的隐层作为隐层，通过全连接方式进行连接。RBM只有两个状态值，即0和1，并通过前向反馈与逆向传播求得其参数。

本发明采用的深度置信网络模型包含9层：1个输入层、7个隐层和1个输出层，并由输入层与隐层构成了7个RBM模型，如图4所示。输入数据为提取到的Gabor-HoG特征与RGB特征构成的特征向量，利用自底向上的K-对比散度算法提取建筑物的高层特征。由于深度置信网络是一种深度网络模型，在使用其提取建筑物的高层特征时，应先训练该网络模型，而训练网络主要包括训练RBM模型和上下参数的调优。

尽管利用Gibbs采样，可以得到对数似然函数关于未知参数梯度的近似，但是通常情况下，需要较大的采样步数，这使得RBM的训练效率仍然不高，尤其当观测数据的特征维数较高时。Hinton提出了RBM的一个快速学习算法，即对比散度(Contrastive Divergence，CD)算法。

在RBM训练过程中，为了加快RBM的训练速度，本发明采用K-对比散度算法(CD-K)对单个RBM进行训练。CD-K训练算法流程图如图5所示。经过训练，可提取到更高层次的特征，并最终根据这些高层特征输出每个像素的类别概率。

上下参数的调优主要是利用醒-睡算法对初始化的识别权值进行更新。醒-睡算法主要分为醒算法和睡算法两部分，在醒算法中不断使用识别权值、偏置来估计生成的权值、偏置，它是一个自底向上的过程；而在睡算法中不断使用生成权值、偏置去估计识别权值、偏置，它是一个自顶向下的过程。醒算法的具体步骤如下：

(1)输入训练数据(x,y)；

(2)对h_ki进行Gibbs采样：

b_k,i←b_k,i+η(h_ki-δ_k)

a_j←a_j+η(v_j-p(v_j＝1|h₁))；

(6)输出生成的权值g^k，偏置b^k和a。

得到权值后，需要通过睡算法根据训练标签对权值进行更新，睡算法的具体步骤如下：

(1)输入训练数据(x,y)；

(2)对δ_ri进行Gibbs采样：

(3)对δ_r-1,i进行Gibbs采样：

对y进行Gibbs采样：

y～p(y＝e_i|δ_r)＝softmax(w^r+1δ_r+b^r+1)

对δ_ri进行Gibbs采样：

(6)对所有的权值和偏置更新：

(7)输出识别权值w^k与偏置b^k、联想记忆权值w^r和b^r、标签的权值w^r+1和b^r+1，其中1≤k≤r-1。

若只利用Gabor-HoG特征和深度置信网络提取到的特征进行分类，识别结果会出现较多的“空洞”状的漏识别，这主要是由于深度置信网络将输入的2维图像和特征图变换为1维向量，忽略了像素之间的上下文关系。

(三)基于条件随机场模型的上下文特征提取方法

目标的上下文特征是描述图像中目标和它所处位置周边环境联系的一种特征。在人类识别真实环境目标时，人眼关注除了目标本身，还有目标周围信息，这使得人眼对于目标识别速度、鲁棒性和精确度都很高。人类观察的目标存在一些干扰时，人类可以根据自己的先验知识来推断目标类别。在遥感图像中，建筑物所处的周围环境，如建筑物周边的地物与建筑物之间的空间关系，也可以辅助识别建筑物。因此，在识别建筑物目标时引入上下文特征非常有必要。语义上下文特征和空间上下文特征是两个重要的上下文特征，在进行特征提取时，可以在得到地物的视觉特征后，通过条件随机场模型构造语义和空间上下文特征，辅助判断该目标是否为建筑物，提高建筑物识别的鲁棒性和准确性。本发明通过条件随机场模型构建语义和空间上下文特征。

CRF是一种基于无向图的判别模型。通过求观测值的条件概率分布实现判别。CRF综合了判别模型和产生模型的优点，在考虑全局最优解(梯度上升训练法)的前提下，保留了马尔可夫随机场能容纳较多上下文信息的优点。

将基于深度置信网络的高层特征提取生成的概率分布，即每个像素点的后验概率，输入到CRF，并作为该模型的观测值，然后输入训练标签中相对应每个像素的手动分割结果，用于CRF模型的有监督训练。CRF模型训练结束后，即可得到CRF模型参数。输入待测图像，CRF模型根据标签和输入的概率分布，即可提取图像中每个像素点邻域信息的上下文特征，同时还可根据计算的最大后验概率，给出测试图像中建筑物的识别结果。

利用CRF进行上下文特征提取时，首先要对其进行建模。对于给定的一幅图像，y是其观测数据，y＝{y_i}，y_i是第i幅图像的位置，又有x＝{x_i}，x是图像中的位置标记。由于本发明以建筑物为识别对象，令x_i只取0或1，分别代表建筑物和非建筑物。

根据Bayesian理论，对目标分别求其后验概率，在已知观测值的条件下，其标签集的后验概率的等价形式如公式(8)所示。

P(y|x)∝P(x|y)P(y) (8)

P(y|x)表示某幅图像的后验概率，P(y)是观测集的先验概率，而P(x|y)为给定类别的条件概率分布。在CRF模型中，后验概率表示成Gibbs分布，其形式如公式(9)所示。

Z(x,θ)是用于归一化的分配函数，如只考虑一元簇和成对簇，则观测值分布独立，便于计算，因此，可以改写为公式(10)的形式。

在公式(10)中，θ＝(θ_μ,θ_τ)是CRF模型参数，需要通过训练得到，函数μ(x)是在已知θ_μ情况下，此像素输入建筑物或非建筑物的可能性。τ(x)表示已知参数θ_τ所提供的上下文信息，它表示该像素的分类结果受到其邻域内像素的影响。本发明采用的CRF模型如图6所示。

从图6可以看到，对于给定的一幅图像x，每个像素由2部分组成，x_i是每个像素提取到的特征，作为模型的观测值；y_i表示该像素对应的标签，即标签中该像素是否属于建筑物。当判断一个像素是否属于建筑物时，需要同时考虑该像素自身和周围8个像素点，综合考虑推断该像素是建筑物的可能性，此方法既考虑了当前像素的信息，又考虑到了其上下文像素信息。

公式9给出了本模型需要求解的参数θ＝(θ_μ,θ_τ)，而对模型的训练过程就是对这些参数进行估计，即采用最优化理论的方法对函数进行优化，直到模型收敛或达到既定的训练次数后停止训练。通常可以采用基于最大似然估计的方法迭代求解出参数。最大似然估计法是统计学习方法，通过求解参数和训练样本的概率密度函数，得到模型中的参数集。

假设训练数据中，给定T＝{xⁱ,yⁱ},K,N代表其中的一组样本，样本之间不存在关联，是训练集中(x,y)的经验概率，则对于条件概率p(y|x,θ)，T的似然函数定义如公式11所示。最终目标就是通过似然函数估计出θ，使得U(θ)得到最大值，即公式12。

θ_MaxU＝arg max_θL(θ) (12)

但是公式11存在指数项，带有指数项的计算会增加运算复杂度，为了计算方便，需要对该公式两边取对数，因此得到新的似然函数L(θ)′，其定义如公式13所示。由于该CRF模型是一个链式结构模型，因此它的条件概率模型如公式14所示。

公式中的θ＝{η₁,η₂,...,η_n,λ₁,λ₂,...,λ_n}即所需估计的参数。将公式13带入公式12中，可以得到本模型下的最大似然函数，该函数如公式15所示。

公式15中的函数I(x)是向上取整函数，η是(η₁,η₂,...,η_m)的简写形式，λ是(λ₁,λ₂,...,λ_m)的简写形式，g是向量(g₁(y_i,x),g₂(y_i,x),...,g_K(y_i,x))的简写形式，f是向量(f₁(y_i-1,x),f₂(y_i-1,x),...,f_K(y_i-1,x))的缩写。

在θ空间内，由于对数函数的无穷多阶导数都存在，因此θ一定存在一个最优值，θ的最优解可在对其每个参数分量的偏导数为0处取到。而对于λ_k求偏导可以得到公式16的形式。令公式16等于0，即可求出参数λ。以同样的方法也可以求出参数η。

通过最大似然法求得参数θ后，即完成了模型训练。此时可以通过模型求出每个像素的上下文信息，并可以根据计算的概率推测出给定的一幅测试图像中像素是否属于建筑物。

(四)实验结果与分析

1、Gabor-HOG特征提取实验结果及分析

为使提取的特征尽可能多包含有效信息，以及后续特征提取和分类运行时间较短，本发明设置了8个方向和6个尺度，即u＝0°,45°,90°,135°,180°,225°,270°,325°和v＝5,7,9,11,13,15。根据尺度和方向参数，得到48幅特征图。为进一步降低特征维度，对48幅特征图采用最大线性嵌入方法进行降维，并进行融合，得到2幅融合Gabor特征图，即HOG特征提取的输入。对Gabor特征图提取HOG特征，得到Gabor-HOG特征图。图7给出了Gabor特征图和Gabor-HOG特征图，其中，(a)为原图像，(b)为Gabor特征图，(c)为Gabor-HOG特征图。

从图7可以看到，Gabor特征图主要提取了建筑物的纹理和轮廓特征。Gabor-HOG特征图给出了建筑物边缘梯度，可为后续提取高层特征提供边缘特征信息。

2、建筑物识别实验结果及分析

在基于多特征融合的建筑物识别方法中，DBN用于提取高层特征，并输入到CRF提取建筑物的上下文特征。本发明DBN模型共设置7层隐层，低层到高层每层的节点数分别为768、1000、1200、1200、1000、800、800，训练的每个batch大小为100个，最大训练次数为1000次，动量为0.9，学习率是0.01，激活函数选取了Sigmoid型，并加入了L2范数约束项以防止模型过拟合。

CRF主要需要确定的参数是θ＝{w₁,w₂,θ₁,θ₂,θ₃,w_p}以及CRF的迭代次数。经过实验参数优化调整，本发明参数设置为：w₁＝16，w₂＝5，θ₁＝9，θ₂＝10，θ₃＝1，w_p＝0.8。由于篇幅有限，本发明给出了其中5组实验图像及识别结果，如图8、9、10、11、12所示。其中，图8中，(a)为房屋较密集居民区图像，(b)为本发明方法识别结果；图9中，(a)为存在阴影且建筑物密集图像，(b)为本发明方法识别结果；图10中，(a)为美国白宫图像，(b)为本发明方法识别结果；图11中，(a)为圆顶欧式建筑图像，(b)为本发明方法识别结果；图12中，(a)为大英博物馆图像，(b)为本发明方法识别结果。

由图8可以看到，建筑物周边地区主要有其他建筑物、植被、道路、停车场等地物，还有光照带来的建筑物的阴影等干扰因素，本发明方法对于绝大多数建筑物的识别效果较好，屋顶内部和边缘识别均较为准确，而且对于各类干扰因素具有一定的鲁棒性。

由图9可以看到，本实验图像的建筑物排列十分密集，建筑物之间几乎没有空隙，而且建筑物存在有较多阴影，建筑物周边还有一些树木对建筑物识别产生影响。本发明对这些建筑物识别结果较好，没有受到阴影干扰，而且无论是连在一起的建筑物，还是相对独立的建筑物，本方法建筑物识别都较为准确。

由图10可以看到，由于一些光照因素的影响，白宫建筑物群中有一些阴影干扰，特别是一个蓝色圆顶形建筑物已经被白色圆顶建筑物的阴影覆盖，因此为识别带了困难，并且白宫前方一些白色的道路和建筑物的特性也有一些相似，容易产生虚警。可以看到，本方法的识别结果较好，基本能识别出整个白宫建筑物群，但在一些阴影处还是存在漏警，并且建筑物前方的广场地面存在一定虚警。

从图11可以看到，该图像的形状较为复杂，屋顶的颜色、纹理与一些道路类似，而且屋顶存在一些干扰物，但本发明方法对其识别效果较好，能够较完整地识别建筑物目标。

从图12可以看到，基于多特征融合的建筑物识别方法对于大英博物馆的识别较为精确。

通过图像坐标系给出识别结果的像素坐标，图13给出了图像坐标系的建立方式。由于识别结果是将所有识别为建筑物的像素点的G通道置为255，则可以得到图8(a)、9(a)、10(a)、11(a)、12(a)的识别结果对应建筑物矩形框区域以及矩形框对角线坐标，如图14、15、16、17、18所示。

图14、15、16、17、18分别给出了识别结果所对应的部分坐标点，这些坐标点分别与图8(b)、9(b)、10(b)、11(b)、12(b)中G通道的值为255的像素一一对应，即与识别结果中的每个像素点对应。实验结果表明，本发明方法对不同分布类型的建筑物群都有较好的识别效果，误识率低。

为验证本发明方法的有效性，与基于HOG-DBN识别方法、基于Gabor-HoG与深度置信网络的识别方法，以及基于Gabor-HoG与条件随机场的识别方法进行了对比实验，实验结果验证了本发明专利方法能更准确地识别建筑物。

条件对比实验Method_a(即基于Gabor-HoG与深度置信网络的识别方法)去掉了本发明专利方法的CRF模块，只保留了低层特征提取与融合和DBN模型，此时，DBN模型变为判别模型，而非本发明方法的生成模型，因此在DBN模型后还需要加入Softmax分类器计算当前网络的识别结果与训练标签的误差以及用于对概率的归一化和对建筑物分类。其他参数设置与本发明方法相同。

条件对比实验Method_b(即基于Gabor-HoG与条件随机场的识别方法)去掉了本发明方法的DBN模块，保留了低层特征提取融合与CRF模型。CRF模型仍然为判别模型，将特征向量直接输入到CRF，当作其观测值，而且只考虑了CRF的一阶势。CRF模型训练完成后，直接对低层特征提取其上下文特征，进行识别。其他参数设置与本发明方法相同。对比实验Method_c为现有HOG-DBN识别算法。四种方法两组对比实验结果分别如图19、20所示。其中，图19中，(a)为多类型建筑物图像，(b)为本发明方法识别结果，(c)为Method_a识别结果，(d)为Method_b识别结果，(e)为Method_c识别结果；图20中，(a)为多阴影建筑物图像，(b)为本发明方法识别结果，(c)为Method_a识别结果，(d)为Method_b识别结果，(e)为Method_c识别结果。

在实验结果中，本发明方法和Method_c建筑物识别效果较好，本发明方法的识别效果最好，Method_a识别效果好于Method_b，识别结果差距主要体现在存在干扰的位置，如图20中的信号塔产生的阴影、屋顶结构和纹理复杂的建筑物，本发明方法能够较好地、完整地识别屋顶，这主要是由于Gabor-HOG特征、CRF提取的上下文特征和DBN提取的高层特征共同作用的结果。从Method_a和Method_b的对比实验可以看到，基于DBN提取的高层特征在建筑物识别的作用稍大于基于CRF的上下文特征。

表1给出了4种识别方法对于100幅多光谱图像建筑物识别的统计结果。本发明主要统计了平均识别精度Acc.和平均召回率Rec.，计算公式见公式(17)和(18)。

TT_i表示第i次实验结果将建筑物正确识别的像素个数；TF_I表示i次实验结果将建筑物识别为非建筑物的像素个数；FT_i表示i次实验结果将非建筑物识别为建筑物的像素个数。

表1对比实验统计结果

	平均识别精度	平均召回率	平均运行时间(秒)
				本发明专利方法	81.6％	76.1％	16
Method_a	75.5％	72.3％	10
				Method_b	73.3％	70.2％	13
Method_c	78.6％	67.7％	14

从表1可以看到，本发明方法在平均识别精度和平均召回率上都好于其他三种方法。这主要是由于低层Gabor-HOG特征可以使本发明方法能较好地提取建筑物的边缘和纹理信息，DBN提取了基于低层特征的高层特征，这是保证本发明方法对建筑物屋顶轮廓和内部识别效果较好的重要因素，而紧邻DBN的CRF模型提取的上下文特征能够对建筑物屋顶的一些干扰物，如阴影、植被和屋顶等目标识别具有一定的鲁棒性。

本发明方法的平均运行时间最长，这主要是由于CRF在模型推断过程中消耗时间较长，甚至长于DBN模型。对于DBN模型，由于其层数不是很深，因此，没有消耗过多时间。

本发明相比传统建筑物识别方法具有如下技术效果：

(1)本发明提出了一种Gabor、HoG与RGB融合的特征提取方法。由于建筑物的几何形状多种多样，而且建筑物聚集，常常彼此互相影响，因此，单一提取建筑物的纹理、轮廓等特征用于识别，识别的准确率相对较低。同时由于建筑物的朝向多种多样，如果提取的特征不具有旋转鲁棒性，也会对识别的结果产生较大影响。本发明提出的Gabor、HoG与RGB融合的多特征提取方法可以有效利用Gabor滤波器提取建筑物的多尺度特征和多方向纹理全局特征，有助于减少建筑物有用特征的丢失，使提取到的特征更加完备。在提取Gabor特征的基础上，提取了建筑物的HoG特征，形成Gabor-HoG特征，融合后的特征能降低光照和阴影的影响，使建筑物的纹理、轮廓和边缘特征更加清晰，同时能够减少Gabor变换后产生的信息冗余。将提取到的特征与多光谱图像的RGB颜色特征进行融合，形成低层特征向量，从而有利于提高建筑物识别的准确率；

(2)本发明提出了一种基于条件随机场模型的上下文特征提取方法。随机场模型是一种概率图模型，它以图论的形式表示变量的依赖关系。常见的基于概率图的模型有马尔科夫随机场模型(Markov Random Field，MRF)和条件随机场模型(Conditional RandomField，CRF)。MRF主要求观测值的联合概率分布，条件随机场模型是求观测值的条件概率分布，是一种判别模型。CRF综合了判别模型和产生模型(如MRF)的优点，它在考虑了全局最优解(梯度上升训练法)的前提下，保留了MRF能容纳较多上下文信息的优点。

图像目标的上下文特征是描述图像目标与所处位置周边环境联系的一种特征。在遥感图像中，建筑物的周围环境，如建筑物周边的地物与建筑物之间的空间关系，可以辅助识别建筑物，而CRF模型可以构造建筑物周围的语义和空间上下文特征。通过建筑物目标上下文特征可以分析建筑物目标与周边环境的关系，提高识别的鲁棒性和准确性。

(3)多光谱图像建筑物存在大量纹理、轮廓和颜色等信息，有效利用这些信息并设计合理的特征是保证能够准确识别建筑物的前提。本发明提出了一种多特征融合的建筑物识别方法，将Gabor-HoG特征作为低层特征，利用DBN模型提取高层特征，并生成每个像素点的后验概率，将生成的每个像素点后验概率输入到CRF模型，提取每个像素点邻域信息的上下文特征，采用条件随机场模型根据最大后验概率识别建筑物目标，实现了建筑物的像素级识别，提高了识别精度。

本发明方法与基于深度置信网络与条件随机场的识别方法、基于Gabor-HoG与深度置信网络的识别方法，以及基于Gabor-HoG与条件随机场的识别方法进行了对比实验，实验结果验证了本发明专利方法能更准确地识别建筑物。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims

1.一种基于多特征融合的建筑物识别方法，其特征在于，包括：

步骤1，对输入的多光谱图像提取Gabor-HOG特征；

2.根据权利要求1所述的基于多特征融合的建筑物识别方法，其特征在于，所述步骤1包括：

3.根据权利要求2所述的基于多特征融合的建筑物识别方法，其特征在于，所述步骤2包括：

4.根据权利要求3所述的基于多特征融合的建筑物识别方法，其特征在于，所述步骤3包括：对深度置信网络模型进行训练。

5.根据权利要求4所述的基于多特征融合的建筑物识别方法，其特征在于，所述对深度置信网络模型进行训练包括：

采用K-对比散度算法对单个RBM进行训练；

利用醒-睡算法对上下参数进行调优。