CN109034066A - 基于多特征融合的建筑物识别方法 - Google Patents

基于多特征融合的建筑物识别方法 Download PDF

Info

Publication number
CN109034066A
CN109034066A CN201810840821.4A CN201810840821A CN109034066A CN 109034066 A CN109034066 A CN 109034066A CN 201810840821 A CN201810840821 A CN 201810840821A CN 109034066 A CN109034066 A CN 109034066A
Authority
CN
China
Prior art keywords
building
feature
gabor
image
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810840821.4A
Other languages
English (en)
Other versions
CN109034066B (zh
Inventor
张永梅
马健喆
付昊天
冯超
张奕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
North China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology filed Critical North China University of Technology
Priority to CN201810840821.4A priority Critical patent/CN109034066B/zh
Publication of CN109034066A publication Critical patent/CN109034066A/zh
Application granted granted Critical
Publication of CN109034066B publication Critical patent/CN109034066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于多特征融合的建筑物识别方法,包括:对输入的多光谱图像提取Gabor‑HOG特征;将提取的Gabor‑HOG特征与图像RGB颜色特征进行融合,形成低层特征向量;将低层特征向量输入到训练好的深度置信网络模型中,提取建筑物的高层特征,并生成每个像素点的后验概率;将生成的每个像素点的后验概率输入到训练好的条件随机场模型中,提取每个像素点邻域信息的上下文特征,并根据最大后验概率识别建筑物目标。本发明通过设计低层视觉特征,利用深度置信网络提取建筑物的高层特征,采用条件随机场提取建筑物的上下文特征,解决了提取建筑物特征单一化和传统方法只提取低层特征导致建筑物识别率低的问题,能够提高建筑物识别的精度和召回率。

Description

基于多特征融合的建筑物识别方法
技术领域
本发明属于图像识别技术领域,具体涉及一种基于多特征融合的建筑物识别方法。
背景技术
随着航空航天技术的不断发展,获取的遥感数据越来越多,如何充分利用遥感数据显得尤为重要。建筑物是重要的一类地物目标,如何对其进行准确识别已成为目前图像处理、模式识别、人工智能领域的研究热点。
目前,针对不同航空器获取到的多光谱图像,已存在很多种算法及改进算法用来识别图像中的建筑物。但是,由于图像获取的渠道不同,导致识别不同图像建筑物时往往需要提取不同的特征,并通过实验找到针对此种图像最好的特征提取方法。在识别不同图像建筑物时,仍然面临一些问题,目前主要存在以下2个问题。
(1)许多建筑物识别方法都是基于低层特征及其特征组合进行特征提取,如提取建筑物的边缘、颜色、纹理特征等,并进行特征融合。这些特征的解释性较强,具有较强的数学理论支持。但仅利用这些低层特征识别建筑物时,对屋顶结构简单、纹理具有一定典型性的建筑物识别效果较好,但对于一些屋顶形状怪异、纹理区分度不大、屋顶内部有较多干扰情况时,其识别效果并不好,而且存在很高的漏识率。
高层特征是通过深度学习方法自动提取原始图像处于网络深层的抽象特征,通常这些特征对目标识别的效果要好于传统低层特征提取方法。但如果想在不改动模型的情况下,通过改变提取的特征提高识别的效果通常很难。
(2)对于上下文特征提取方面,已有一些学者通过建立基于贝叶斯网络、马尔科夫随机场、条件随机场等概率模型,建立建筑物内部和建筑物周围场景的概率图模型,提取像素或对象间上下文特征,并根据概率推测识别建筑物。但对于一些建筑物内部以及周围场景和训练模型具有一定差异性时,上下文特征的加入甚至会对识别起反作用,会降低识别的精度。
发明内容
本发明的目的是提供一种基于多特征融合的建筑物识别方法,将建筑物的低层特征输入到深度置信网络,并通过隐含层提取建筑物的高层特征,并生成每个像素是建筑物的概率,将计算的概率输入到条件随机场提取上下文特征,并给出建筑物的识别结果。以解决提取建筑物特征单一化和传统方法只提取低层特征导致建筑物识别率低的问题,提高建筑物识别的精度和召回率。
本发明提供了一种基于多特征融合的建筑物识别方法,包括:
步骤1,对输入的多光谱图像提取Gabor-HOG特征;
步骤2,将提取的Gabor-HOG特征与图像RGB颜色特征进行融合,形成低层特征向量;
步骤3,将低层特征向量输入到训练好的深度置信网络模型中,提取建筑物的高层特征,并生成每个像素点的后验概率;
步骤4,将生成的每个像素点的后验概率输入到训练好的条件随机场模型中,提取每个像素点邻域信息的上下文特征,并根据最大后验概率识别建筑物目标。
进一步地,步骤1包括:
利用Gabor滤波器提取建筑物的多尺度特征和多方向的纹理全局特征,形成Gabor特征图,然后提取建筑物的HoG特征。
进一步地,步骤2包括:
在提取的Gabor-HOG特征中加入原图像每个像素点的R、G、B值,形成特征向量。
进一步地,步骤3包括:对深度置信网络模型进行训练。
进一步地,对深度置信网络模型进行训练包括:
采用K-对比散度算法对单个RBM进行训练;
利用醒-睡算法对上下参数进行调优。
与现有技术相比本发明的有益效果是:
通过设计低层视觉特征,利用深度置信网络提取建筑物的高层特征,采用条件随机场提取建筑物的上下文特征,解决了提取建筑物特征单一化和传统方法只提取低层特征导致建筑物识别率低的问题,能够提高建筑物识别的精度和召回率。
附图说明
图1是本发明基于多特征融合的建筑物识别方法的流程图;
图2是本发明基于多特征融合的建筑物识别方法采用的模型;
图3是Gabor-HOG算法流程图;
图4是本发明使用的深度置信网络模型;
图5是CD-K算法训练流程图;
图6是本发明采用的CRF模型;
图7是Gabor特征图和Gabor-HOG特征图;
图8是房屋较密集的居民区识别结果;
图9是存在阴影且建筑物密集的识别结果;
图10是美国白宫识别结果;
图11是圆顶欧式建筑识别结果;
图12是大英博物馆识别结果;
图13是图像坐标系建立方式;
图14是房屋较密集居民区识别结果对应坐标;
图15是存在较多阴影且建筑物密集图像识别结果对应坐标;
图16是美国白宫识别结果对应坐标;
图17是圆顶欧式建筑识别结果对应坐标;
图18是大英博物馆图像识别结果对应坐标;
图19是建筑物识别实验结果;
图20是阴影干扰较多建筑物识别结果。
具体实施方式
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
参图1所示,本实施例提供了一种基于多特征融合的建筑物识别方法。
为了准确识别多光谱图像中的建筑物,本发明提出了一种基于多特征融合的建筑物识别方法,多特征包含Gabor-HoG、RGB低层特征,以及利用深度置信网络提取的建筑物高层特征,将提取的低层特征和高层特征作为特征向量输入到训练好的条件随机场模型中用来提取建筑物的上下文特征,并给出建筑物目标识别结果。
首先利用Gabor滤波器提取建筑物的多尺度特征和多方向的纹理全局特征,形成Gabor特征图,然后提取建筑物的HoG特征,从而增强了提取的建筑物轮廓特征。由于Gabor-HoG特征只给出了建筑物边缘的梯度,而本发明采用的实验图像是含有RGB三通道的多光谱图像,因此在使用深度置信网络提取建筑物的高层特征时,还需要将Gabor-HoG特征与图像中的RGB颜色特征进行融合,从而形成建筑物的低层特征向量。
基于多特征融合的建筑物识别方法通过利用不同层次特征和上下文特征综合提升建筑物识别的精度。该方法采用的模型如图2所示,具体步骤如下:
(1)对输入多光谱图像提取Gabor-HOG特征,并加入原图像每个像素点的R、G、B值,形成特征向量;
(2)利用特征与标签完成DBN(Deep Belief Network,DBN,深度置信网络)模型的训练。DBN模型训练完成后,输入给定图像特征,生成相应类别概率;
(3)将类别概率分布、每个像素点的后验概率输入到条件随机场(ConditionalRandom Field,CRF)模型中作为其观测值,并输入训练标签中相对应的每个像素的手动分割结果,用于监督CRF模型训练,训练得到CRF模型参数;
(4)模型测试与验证。将测试集样本图像输入至模型,对建筑物进行识别。
本发明通过将Gabor-HoG特征作为低层特征,融合了图像的纹理和边缘特征,利用深度置信网络模型提取高层特征,并结合条件随机场提取上下文特征,采用条件随机场模型根据概率识别建筑物目标,实现了建筑物的像素级识别,有利于解决经典深度置信网络没有考虑低层特征和上下文特征对建筑物识别的影响,提高了识别精度。
本发明使用基于多特征融合方法识别建筑物,能有效地提取建筑物不同层次的特征,使提取的特征更加完备,从而有助于消除光照和建筑物间互为阴影对建筑物特征提取的影响,有助于提高建筑物识别的准确率和鲁棒性。
下面对本发明作进一步详细说明。
(一)基于Gabor小波的HOG特征提取方法
多光谱图像建筑物目标的纹理和边缘轮廓清晰。方向梯度直方图(Histogram ofOriented Gradients,HOG)采用梯度统计信息描述目标的局部轮廓,具有良好的鲁棒性。Gabor小波从局部区域捕获信息,并将不同方向、频率和尺度的滤波信息进行结合,能维护和增强目标的整体信息。本发明采用基于Gabor小波的HOG特征提取方法,通过Gabor进行预处理,增强相关的目标信息,排除不相关信息,提高了HOG算法的全局性能。
采用Gabor滤波器提取建筑物的多尺度特征和多方向的纹理全局特征,形成Gabor特征图,提取HoG特征,增强对建筑物轮廓特征的提取,即提取Gabor-HoG特征,并将提取的特征与图像RGB颜色特征进行融合,形成低层特征向量,将特征向量输入到深度置信网络,以提取更高层的抽象特征。本发明采用的Gabor-HOG算法流程图如图3所示,具体步骤如下:
(1)图像预处理。传统HOG特征需要对输入图像进行RGB数据归一化处理,目的是调节图像对比度,降低图像光照变化和阴影所造成的影响。但归一化算法去除干扰信息能力较差,不能很好地抑制噪声。本发明采用Gabor小波变换算法对图像进行预处理。
利用48个Gabor滤波器进行Gabor特征提取,这些滤波器具有6个尺度和8个方向。对图像采用Gabor滤波器进行卷积后,提取到图像的Gabor纹理特征。本发明共得到48幅特征图,为了进一步降低特征的维度,本发明采用最大线性嵌入(Maximal LinearEmbedding)方法进行降维,该方法能在降低Gabor特征图维度的同时,尽可能避免有效特征损失。
需要对每个特征图所有像素在同一尺度下不同方向进行编码,编码方式如公式(1)、(2)、(3)和(4)所示。
公式(3)的是指在原尺度Gabor特征图在v方向上的虚部编码,公式(4)的表示在原尺度Gabor特征图在v方向上的实部编码。是编码后的实部值,是编码后的虚部值。编码之后的实部和虚部的表示范围为[0,255],即为灰度图像特征。
对6个不同尺度特征进行融合,为了减少尺度特征损失,本发明提出对其对应编码的十进制数求平均值的方法,将不同尺度的特征图融为一体,此方法可以保证特征信息的完整性,而且计算复杂度低。平均值融合方式的计算公式如公式(5)和(6)所示。
进行Gabor卷积处理后的图像比传统灰度化的预处理方式具有更为丰富的纹理和轮廓信息,同时去除了多数干扰信息,如阴影、假边缘等。
(2)按照公式(7)计算输入图像每个像素点的梯度值,水平方向梯度和垂直方向梯度的算子分别采用算子[-1,0,1]和[-1,0,1]T
(3)将分块的直方图进行投影。本发明设置子图(cell)大小为8*8,并设置9个bin用于统计每个cell的梯度信息。由于前景-背景对比度的变化,使得梯度变化范围非常大,故需要将4个相邻的cell组成一个block,进行归一化处理,并生成每个block的HOG特征,此时每个block的HOG特征维度为4*9=36维。
(4)将所有block的HOG特征,通过滑动窗口方式进行向量化,滑动窗口大小选择10*10,从而得到整幅图像的Gabor-HOG特征。
(二)基于深度置信网络的高层特征提取
DBN是一种深度学习模型,该模型是由逻辑斯蒂信念网络发展来的一种模型。深度置信网络采用了监督学习和无监督学习相结合的方法对数据进行训练,即先用部分无标签数据训练模型,使得模型中隐含层参数能得到较好的初始值,然后再用部分有标签的数据对模型进行微调,从而使模型达到最优。
DBN更加抽象地学习高层特征,并且适用于高维复杂的海量数据。深度置信网络是由输入层、隐层和输出层构成的网络结构,除了第一个隐层外,其每两个相邻隐层构成一个限制玻尔兹曼机(Restricted Boltzmann Machine,RBM),每个RBM都可看成由一个可见层和一个隐层构成,浅层的隐层作为可见层,深层的隐层作为隐层,通过全连接方式进行连接。RBM只有两个状态值,即0和1,并通过前向反馈与逆向传播求得其参数。
本发明采用的深度置信网络模型包含9层:1个输入层、7个隐层和1个输出层,并由输入层与隐层构成了7个RBM模型,如图4所示。输入数据为提取到的Gabor-HoG特征与RGB特征构成的特征向量,利用自底向上的K-对比散度算法提取建筑物的高层特征。由于深度置信网络是一种深度网络模型,在使用其提取建筑物的高层特征时,应先训练该网络模型,而训练网络主要包括训练RBM模型和上下参数的调优。
尽管利用Gibbs采样,可以得到对数似然函数关于未知参数梯度的近似,但是通常情况下,需要较大的采样步数,这使得RBM的训练效率仍然不高,尤其当观测数据的特征维数较高时。Hinton提出了RBM的一个快速学习算法,即对比散度(Contrastive Divergence,CD)算法。
在RBM训练过程中,为了加快RBM的训练速度,本发明采用K-对比散度算法(CD-K)对单个RBM进行训练。CD-K训练算法流程图如图5所示。经过训练,可提取到更高层次的特征,并最终根据这些高层特征输出每个像素的类别概率。
上下参数的调优主要是利用醒-睡算法对初始化的识别权值进行更新。醒-睡算法主要分为醒算法和睡算法两部分,在醒算法中不断使用识别权值、偏置来估计生成的权值、偏置,它是一个自底向上的过程;而在睡算法中不断使用生成权值、偏置去估计识别权值、偏置,它是一个自顶向下的过程。醒算法的具体步骤如下:
(1)输入训练数据(x,y);
(2)对hki进行Gibbs采样:
bk,i←bk,i+η(hkik)
aj←aj+η(vj-p(vj=1|h1));
(6)输出生成的权值gk,偏置bk和a。
得到权值后,需要通过睡算法根据训练标签对权值进行更新,睡算法的具体步骤如下:
(1)输入训练数据(x,y);
(2)对δri进行Gibbs采样:
(3)对δr-1,i进行Gibbs采样:
对y进行Gibbs采样:
y~p(y=eir)=softmax(wr+1δr+br+1)
对δri进行Gibbs采样:
(6)对所有的权值和偏置更新:
(7)输出识别权值wk与偏置bk、联想记忆权值wr和br、标签的权值wr+1和br+1,其中1≤k≤r-1。
若只利用Gabor-HoG特征和深度置信网络提取到的特征进行分类,识别结果会出现较多的“空洞”状的漏识别,这主要是由于深度置信网络将输入的2维图像和特征图变换为1维向量,忽略了像素之间的上下文关系。
(三)基于条件随机场模型的上下文特征提取方法
目标的上下文特征是描述图像中目标和它所处位置周边环境联系的一种特征。在人类识别真实环境目标时,人眼关注除了目标本身,还有目标周围信息,这使得人眼对于目标识别速度、鲁棒性和精确度都很高。人类观察的目标存在一些干扰时,人类可以根据自己的先验知识来推断目标类别。在遥感图像中,建筑物所处的周围环境,如建筑物周边的地物与建筑物之间的空间关系,也可以辅助识别建筑物。因此,在识别建筑物目标时引入上下文特征非常有必要。语义上下文特征和空间上下文特征是两个重要的上下文特征,在进行特征提取时,可以在得到地物的视觉特征后,通过条件随机场模型构造语义和空间上下文特征,辅助判断该目标是否为建筑物,提高建筑物识别的鲁棒性和准确性。本发明通过条件随机场模型构建语义和空间上下文特征。
CRF是一种基于无向图的判别模型。通过求观测值的条件概率分布实现判别。CRF综合了判别模型和产生模型的优点,在考虑全局最优解(梯度上升训练法)的前提下,保留了马尔可夫随机场能容纳较多上下文信息的优点。
将基于深度置信网络的高层特征提取生成的概率分布,即每个像素点的后验概率,输入到CRF,并作为该模型的观测值,然后输入训练标签中相对应每个像素的手动分割结果,用于CRF模型的有监督训练。CRF模型训练结束后,即可得到CRF模型参数。输入待测图像,CRF模型根据标签和输入的概率分布,即可提取图像中每个像素点邻域信息的上下文特征,同时还可根据计算的最大后验概率,给出测试图像中建筑物的识别结果。
利用CRF进行上下文特征提取时,首先要对其进行建模。对于给定的一幅图像,y是其观测数据,y={yi},yi是第i幅图像的位置,又有x={xi},x是图像中的位置标记。由于本发明以建筑物为识别对象,令xi只取0或1,分别代表建筑物和非建筑物。
根据Bayesian理论,对目标分别求其后验概率,在已知观测值的条件下,其标签集的后验概率的等价形式如公式(8)所示。
P(y|x)∝P(x|y)P(y) (8)
P(y|x)表示某幅图像的后验概率,P(y)是观测集的先验概率,而P(x|y)为给定类别的条件概率分布。在CRF模型中,后验概率表示成Gibbs分布,其形式如公式(9)所示。
Z(x,θ)是用于归一化的分配函数,如只考虑一元簇和成对簇,则观测值分布独立,便于计算,因此,可以改写为公式(10)的形式。
在公式(10)中,θ=(θμτ)是CRF模型参数,需要通过训练得到,函数μ(x)是在已知θμ情况下,此像素输入建筑物或非建筑物的可能性。τ(x)表示已知参数θτ所提供的上下文信息,它表示该像素的分类结果受到其邻域内像素的影响。本发明采用的CRF模型如图6所示。
从图6可以看到,对于给定的一幅图像x,每个像素由2部分组成,xi是每个像素提取到的特征,作为模型的观测值;yi表示该像素对应的标签,即标签中该像素是否属于建筑物。当判断一个像素是否属于建筑物时,需要同时考虑该像素自身和周围8个像素点,综合考虑推断该像素是建筑物的可能性,此方法既考虑了当前像素的信息,又考虑到了其上下文像素信息。
公式9给出了本模型需要求解的参数θ=(θμτ),而对模型的训练过程就是对这些参数进行估计,即采用最优化理论的方法对函数进行优化,直到模型收敛或达到既定的训练次数后停止训练。通常可以采用基于最大似然估计的方法迭代求解出参数。最大似然估计法是统计学习方法,通过求解参数和训练样本的概率密度函数,得到模型中的参数集。
假设训练数据中,给定T={xi,yi},K,N代表其中的一组样本,样本之间不存在关联,是训练集中(x,y)的经验概率,则对于条件概率p(y|x,θ),T的似然函数定义如公式11所示。最终目标就是通过似然函数估计出θ,使得U(θ)得到最大值,即公式12。
θMaxU=arg maxθL(θ) (12)
但是公式11存在指数项,带有指数项的计算会增加运算复杂度,为了计算方便,需要对该公式两边取对数,因此得到新的似然函数L(θ)′,其定义如公式13所示。由于该CRF模型是一个链式结构模型,因此它的条件概率模型如公式14所示。
公式中的θ={η12,...,ηn12,...,λn}即所需估计的参数。将公式13带入公式12中,可以得到本模型下的最大似然函数,该函数如公式15所示。
公式15中的函数I(x)是向上取整函数,η是(η12,...,ηm)的简写形式,λ是(λ12,...,λm)的简写形式,g是向量(g1(yi,x),g2(yi,x),...,gK(yi,x))的简写形式,f是向量(f1(yi-1,x),f2(yi-1,x),...,fK(yi-1,x))的缩写。
在θ空间内,由于对数函数的无穷多阶导数都存在,因此θ一定存在一个最优值,θ的最优解可在对其每个参数分量的偏导数为0处取到。而对于λk求偏导可以得到公式16的形式。令公式16等于0,即可求出参数λ。以同样的方法也可以求出参数η。
通过最大似然法求得参数θ后,即完成了模型训练。此时可以通过模型求出每个像素的上下文信息,并可以根据计算的概率推测出给定的一幅测试图像中像素是否属于建筑物。
(四)实验结果与分析
1、Gabor-HOG特征提取实验结果及分析
为使提取的特征尽可能多包含有效信息,以及后续特征提取和分类运行时间较短,本发明设置了8个方向和6个尺度,即u=0°,45°,90°,135°,180°,225°,270°,325°和v=5,7,9,11,13,15。根据尺度和方向参数,得到48幅特征图。为进一步降低特征维度,对48幅特征图采用最大线性嵌入方法进行降维,并进行融合,得到2幅融合Gabor特征图,即HOG特征提取的输入。对Gabor特征图提取HOG特征,得到Gabor-HOG特征图。图7给出了Gabor特征图和Gabor-HOG特征图,其中,(a)为原图像,(b)为Gabor特征图,(c)为Gabor-HOG特征图。
从图7可以看到,Gabor特征图主要提取了建筑物的纹理和轮廓特征。Gabor-HOG特征图给出了建筑物边缘梯度,可为后续提取高层特征提供边缘特征信息。
2、建筑物识别实验结果及分析
在基于多特征融合的建筑物识别方法中,DBN用于提取高层特征,并输入到CRF提取建筑物的上下文特征。本发明DBN模型共设置7层隐层,低层到高层每层的节点数分别为768、1000、1200、1200、1000、800、800,训练的每个batch大小为100个,最大训练次数为1000次,动量为0.9,学习率是0.01,激活函数选取了Sigmoid型,并加入了L2范数约束项以防止模型过拟合。
CRF主要需要确定的参数是θ={w1,w2123,wp}以及CRF的迭代次数。经过实验参数优化调整,本发明参数设置为:w1=16,w2=5,θ1=9,θ2=10,θ3=1,wp=0.8。由于篇幅有限,本发明给出了其中5组实验图像及识别结果,如图8、9、10、11、12所示。其中,图8中,(a)为房屋较密集居民区图像,(b)为本发明方法识别结果;图9中,(a)为存在阴影且建筑物密集图像,(b)为本发明方法识别结果;图10中,(a)为美国白宫图像,(b)为本发明方法识别结果;图11中,(a)为圆顶欧式建筑图像,(b)为本发明方法识别结果;图12中,(a)为大英博物馆图像,(b)为本发明方法识别结果。
由图8可以看到,建筑物周边地区主要有其他建筑物、植被、道路、停车场等地物,还有光照带来的建筑物的阴影等干扰因素,本发明方法对于绝大多数建筑物的识别效果较好,屋顶内部和边缘识别均较为准确,而且对于各类干扰因素具有一定的鲁棒性。
由图9可以看到,本实验图像的建筑物排列十分密集,建筑物之间几乎没有空隙,而且建筑物存在有较多阴影,建筑物周边还有一些树木对建筑物识别产生影响。本发明对这些建筑物识别结果较好,没有受到阴影干扰,而且无论是连在一起的建筑物,还是相对独立的建筑物,本方法建筑物识别都较为准确。
由图10可以看到,由于一些光照因素的影响,白宫建筑物群中有一些阴影干扰,特别是一个蓝色圆顶形建筑物已经被白色圆顶建筑物的阴影覆盖,因此为识别带了困难,并且白宫前方一些白色的道路和建筑物的特性也有一些相似,容易产生虚警。可以看到,本方法的识别结果较好,基本能识别出整个白宫建筑物群,但在一些阴影处还是存在漏警,并且建筑物前方的广场地面存在一定虚警。
从图11可以看到,该图像的形状较为复杂,屋顶的颜色、纹理与一些道路类似,而且屋顶存在一些干扰物,但本发明方法对其识别效果较好,能够较完整地识别建筑物目标。
从图12可以看到,基于多特征融合的建筑物识别方法对于大英博物馆的识别较为精确。
通过图像坐标系给出识别结果的像素坐标,图13给出了图像坐标系的建立方式。由于识别结果是将所有识别为建筑物的像素点的G通道置为255,则可以得到图8(a)、9(a)、10(a)、11(a)、12(a)的识别结果对应建筑物矩形框区域以及矩形框对角线坐标,如图14、15、16、17、18所示。
图14、15、16、17、18分别给出了识别结果所对应的部分坐标点,这些坐标点分别与图8(b)、9(b)、10(b)、11(b)、12(b)中G通道的值为255的像素一一对应,即与识别结果中的每个像素点对应。实验结果表明,本发明方法对不同分布类型的建筑物群都有较好的识别效果,误识率低。
为验证本发明方法的有效性,与基于HOG-DBN识别方法、基于Gabor-HoG与深度置信网络的识别方法,以及基于Gabor-HoG与条件随机场的识别方法进行了对比实验,实验结果验证了本发明专利方法能更准确地识别建筑物。
条件对比实验Methoda(即基于Gabor-HoG与深度置信网络的识别方法)去掉了本发明专利方法的CRF模块,只保留了低层特征提取与融合和DBN模型,此时,DBN模型变为判别模型,而非本发明方法的生成模型,因此在DBN模型后还需要加入Softmax分类器计算当前网络的识别结果与训练标签的误差以及用于对概率的归一化和对建筑物分类。其他参数设置与本发明方法相同。
条件对比实验Methodb(即基于Gabor-HoG与条件随机场的识别方法)去掉了本发明方法的DBN模块,保留了低层特征提取融合与CRF模型。CRF模型仍然为判别模型,将特征向量直接输入到CRF,当作其观测值,而且只考虑了CRF的一阶势。CRF模型训练完成后,直接对低层特征提取其上下文特征,进行识别。其他参数设置与本发明方法相同。对比实验Methodc为现有HOG-DBN识别算法。四种方法两组对比实验结果分别如图19、20所示。其中,图19中,(a)为多类型建筑物图像,(b)为本发明方法识别结果,(c)为Methoda识别结果,(d)为Methodb识别结果,(e)为Methodc识别结果;图20中,(a)为多阴影建筑物图像,(b)为本发明方法识别结果,(c)为Methoda识别结果,(d)为Methodb识别结果,(e)为Methodc识别结果。
在实验结果中,本发明方法和Methodc建筑物识别效果较好,本发明方法的识别效果最好,Methoda识别效果好于Methodb,识别结果差距主要体现在存在干扰的位置,如图20中的信号塔产生的阴影、屋顶结构和纹理复杂的建筑物,本发明方法能够较好地、完整地识别屋顶,这主要是由于Gabor-HOG特征、CRF提取的上下文特征和DBN提取的高层特征共同作用的结果。从Methoda和Methodb的对比实验可以看到,基于DBN提取的高层特征在建筑物识别的作用稍大于基于CRF的上下文特征。
表1给出了4种识别方法对于100幅多光谱图像建筑物识别的统计结果。本发明主要统计了平均识别精度Acc.和平均召回率Rec.,计算公式见公式(17)和(18)。
TTi表示第i次实验结果将建筑物正确识别的像素个数;TFI表示i次实验结果将建筑物识别为非建筑物的像素个数;FTi表示i次实验结果将非建筑物识别为建筑物的像素个数。
表1对比实验统计结果
平均识别精度 平均召回率 平均运行时间(秒)
本发明专利方法 81.6% 76.1% 16
Methoda 75.5% 72.3% 10
Methodb 73.3% 70.2% 13
Methodc 78.6% 67.7% 14
从表1可以看到,本发明方法在平均识别精度和平均召回率上都好于其他三种方法。这主要是由于低层Gabor-HOG特征可以使本发明方法能较好地提取建筑物的边缘和纹理信息,DBN提取了基于低层特征的高层特征,这是保证本发明方法对建筑物屋顶轮廓和内部识别效果较好的重要因素,而紧邻DBN的CRF模型提取的上下文特征能够对建筑物屋顶的一些干扰物,如阴影、植被和屋顶等目标识别具有一定的鲁棒性。
本发明方法的平均运行时间最长,这主要是由于CRF在模型推断过程中消耗时间较长,甚至长于DBN模型。对于DBN模型,由于其层数不是很深,因此,没有消耗过多时间。
本发明相比传统建筑物识别方法具有如下技术效果:
(1)本发明提出了一种Gabor、HoG与RGB融合的特征提取方法。由于建筑物的几何形状多种多样,而且建筑物聚集,常常彼此互相影响,因此,单一提取建筑物的纹理、轮廓等特征用于识别,识别的准确率相对较低。同时由于建筑物的朝向多种多样,如果提取的特征不具有旋转鲁棒性,也会对识别的结果产生较大影响。本发明提出的Gabor、HoG与RGB融合的多特征提取方法可以有效利用Gabor滤波器提取建筑物的多尺度特征和多方向纹理全局特征,有助于减少建筑物有用特征的丢失,使提取到的特征更加完备。在提取Gabor特征的基础上,提取了建筑物的HoG特征,形成Gabor-HoG特征,融合后的特征能降低光照和阴影的影响,使建筑物的纹理、轮廓和边缘特征更加清晰,同时能够减少Gabor变换后产生的信息冗余。将提取到的特征与多光谱图像的RGB颜色特征进行融合,形成低层特征向量,从而有利于提高建筑物识别的准确率;
(2)本发明提出了一种基于条件随机场模型的上下文特征提取方法。随机场模型是一种概率图模型,它以图论的形式表示变量的依赖关系。常见的基于概率图的模型有马尔科夫随机场模型(Markov Random Field,MRF)和条件随机场模型(Conditional RandomField,CRF)。MRF主要求观测值的联合概率分布,条件随机场模型是求观测值的条件概率分布,是一种判别模型。CRF综合了判别模型和产生模型(如MRF)的优点,它在考虑了全局最优解(梯度上升训练法)的前提下,保留了MRF能容纳较多上下文信息的优点。
图像目标的上下文特征是描述图像目标与所处位置周边环境联系的一种特征。在遥感图像中,建筑物的周围环境,如建筑物周边的地物与建筑物之间的空间关系,可以辅助识别建筑物,而CRF模型可以构造建筑物周围的语义和空间上下文特征。通过建筑物目标上下文特征可以分析建筑物目标与周边环境的关系,提高识别的鲁棒性和准确性。
(3)多光谱图像建筑物存在大量纹理、轮廓和颜色等信息,有效利用这些信息并设计合理的特征是保证能够准确识别建筑物的前提。本发明提出了一种多特征融合的建筑物识别方法,将Gabor-HoG特征作为低层特征,利用DBN模型提取高层特征,并生成每个像素点的后验概率,将生成的每个像素点后验概率输入到CRF模型,提取每个像素点邻域信息的上下文特征,采用条件随机场模型根据最大后验概率识别建筑物目标,实现了建筑物的像素级识别,提高了识别精度。
本发明方法与基于深度置信网络与条件随机场的识别方法、基于Gabor-HoG与深度置信网络的识别方法,以及基于Gabor-HoG与条件随机场的识别方法进行了对比实验,实验结果验证了本发明专利方法能更准确地识别建筑物。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims (5)

1.一种基于多特征融合的建筑物识别方法,其特征在于,包括:
步骤1,对输入的多光谱图像提取Gabor-HOG特征;
步骤2,将提取的Gabor-HOG特征与图像RGB颜色特征进行融合,形成低层特征向量;
步骤3,将低层特征向量输入到训练好的深度置信网络模型中,提取建筑物的高层特征,并生成每个像素点的后验概率;
步骤4,将生成的每个像素点的后验概率输入到训练好的条件随机场模型中,提取每个像素点邻域信息的上下文特征,并根据最大后验概率识别建筑物目标。
2.根据权利要求1所述的基于多特征融合的建筑物识别方法,其特征在于,所述步骤1包括:
利用Gabor滤波器提取建筑物的多尺度特征和多方向的纹理全局特征,形成Gabor特征图,然后提取建筑物的HoG特征。
3.根据权利要求2所述的基于多特征融合的建筑物识别方法,其特征在于,所述步骤2包括:
在提取的Gabor-HOG特征中加入原图像每个像素点的R、G、B值,形成特征向量。
4.根据权利要求3所述的基于多特征融合的建筑物识别方法,其特征在于,所述步骤3包括:对深度置信网络模型进行训练。
5.根据权利要求4所述的基于多特征融合的建筑物识别方法,其特征在于,所述对深度置信网络模型进行训练包括:
采用K-对比散度算法对单个RBM进行训练;
利用醒-睡算法对上下参数进行调优。
CN201810840821.4A 2018-07-27 2018-07-27 基于多特征融合的建筑物识别方法 Active CN109034066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810840821.4A CN109034066B (zh) 2018-07-27 2018-07-27 基于多特征融合的建筑物识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810840821.4A CN109034066B (zh) 2018-07-27 2018-07-27 基于多特征融合的建筑物识别方法

Publications (2)

Publication Number Publication Date
CN109034066A true CN109034066A (zh) 2018-12-18
CN109034066B CN109034066B (zh) 2022-05-03

Family

ID=64646994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810840821.4A Active CN109034066B (zh) 2018-07-27 2018-07-27 基于多特征融合的建筑物识别方法

Country Status (1)

Country Link
CN (1) CN109034066B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815833A (zh) * 2018-12-29 2019-05-28 江苏集萃智能制造技术研究所有限公司 一种基于ccd与三维激光传感信息融合特征提取的茶尖识别方法
CN110096985A (zh) * 2019-04-23 2019-08-06 东北电力大学 一种基于图像特征和gps定位的城市建筑物识别方法
CN110110727A (zh) * 2019-06-18 2019-08-09 南京景三医疗科技有限公司 基于条件随机场和贝叶斯后处理的图像分割方法
CN110619282A (zh) * 2019-08-26 2019-12-27 海南撰云空间信息技术有限公司 一种无人机正射影像建筑物自动提取方法
CN111126481A (zh) * 2019-12-20 2020-05-08 湖南千视通信息科技有限公司 一种神经网络模型的训练方法及装置
CN111932457A (zh) * 2020-08-06 2020-11-13 北方工业大学 遥感影像高时空融合处理算法及装置
CN112633142A (zh) * 2020-12-21 2021-04-09 广东电网有限责任公司电力科学研究院 一种输电线路违章建筑物识别方法及相关装置
CN114637867A (zh) * 2022-05-18 2022-06-17 合肥的卢深视科技有限公司 视频特效配置方法、装置、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867313A (zh) * 2012-08-29 2013-01-09 杭州电子科技大学 一种融合区域颜色和HoG特征的视觉显著性检测方法
CN103020975A (zh) * 2012-12-29 2013-04-03 北方工业大学 一种结合多源遥感图像特征的码头和船舶分割方法
US20140278355A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Using human perception in building language understanding models
CN104063722A (zh) * 2014-07-15 2014-09-24 国家电网公司 一种融合hog人体目标检测和svm分类器的安全帽识别方法
CN104899576A (zh) * 2015-06-23 2015-09-09 南京理工大学 基于Gabor变换和HOG的人脸识别特征提取方法
CN106484674A (zh) * 2016-09-20 2017-03-08 北京工业大学 一种基于深度学习的中文电子病历概念抽取方法
CN107093205A (zh) * 2017-03-15 2017-08-25 北京航空航天大学 一种基于无人机图像的三维空间建筑物窗户检测重建方法
CN108205708A (zh) * 2018-01-02 2018-06-26 安徽大学 一种新型可扩展的深度学习系统及数据识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867313A (zh) * 2012-08-29 2013-01-09 杭州电子科技大学 一种融合区域颜色和HoG特征的视觉显著性检测方法
CN103020975A (zh) * 2012-12-29 2013-04-03 北方工业大学 一种结合多源遥感图像特征的码头和船舶分割方法
US20140278355A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Using human perception in building language understanding models
CN104063722A (zh) * 2014-07-15 2014-09-24 国家电网公司 一种融合hog人体目标检测和svm分类器的安全帽识别方法
CN104899576A (zh) * 2015-06-23 2015-09-09 南京理工大学 基于Gabor变换和HOG的人脸识别特征提取方法
CN106484674A (zh) * 2016-09-20 2017-03-08 北京工业大学 一种基于深度学习的中文电子病历概念抽取方法
CN107093205A (zh) * 2017-03-15 2017-08-25 北京航空航天大学 一种基于无人机图像的三维空间建筑物窗户检测重建方法
CN108205708A (zh) * 2018-01-02 2018-06-26 安徽大学 一种新型可扩展的深度学习系统及数据识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHU HE 等: "THE ALGORITHM OF BUILDING AREA EXTRACTION BASED ON BOUNDARY PRIOR AND CONDITIONAL RANDOM FIELD FOR SAR IMAGE", 《2013 IEEE INTERNATIONAL GEOSCIENCE AND REMOTE SENSING SYMPOSIUM》 *
PING ZHONG 等: "A DBN-CRF for Spectral-Spatial Classification of Hyperspectral Data", 《2016 23RD INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815833A (zh) * 2018-12-29 2019-05-28 江苏集萃智能制造技术研究所有限公司 一种基于ccd与三维激光传感信息融合特征提取的茶尖识别方法
CN110096985A (zh) * 2019-04-23 2019-08-06 东北电力大学 一种基于图像特征和gps定位的城市建筑物识别方法
CN110096985B (zh) * 2019-04-23 2022-09-20 东北电力大学 一种基于图像特征和gps定位的城市建筑物识别方法
CN110110727A (zh) * 2019-06-18 2019-08-09 南京景三医疗科技有限公司 基于条件随机场和贝叶斯后处理的图像分割方法
CN110110727B (zh) * 2019-06-18 2023-04-18 南京景三医疗科技有限公司 基于条件随机场和贝叶斯后处理的图像分割方法
CN110619282A (zh) * 2019-08-26 2019-12-27 海南撰云空间信息技术有限公司 一种无人机正射影像建筑物自动提取方法
CN111126481A (zh) * 2019-12-20 2020-05-08 湖南千视通信息科技有限公司 一种神经网络模型的训练方法及装置
CN111932457A (zh) * 2020-08-06 2020-11-13 北方工业大学 遥感影像高时空融合处理算法及装置
CN112633142A (zh) * 2020-12-21 2021-04-09 广东电网有限责任公司电力科学研究院 一种输电线路违章建筑物识别方法及相关装置
CN114637867A (zh) * 2022-05-18 2022-06-17 合肥的卢深视科技有限公司 视频特效配置方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN109034066B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN109034066A (zh) 基于多特征融合的建筑物识别方法
CN106407986B (zh) 一种基于深度模型的合成孔径雷达图像目标识别方法
CN103632132B (zh) 一种基于肤色分割和模板匹配的人脸检测与识别方法
CN104050471B (zh) 一种自然场景文字检测方法及系统
CN108520216B (zh) 一种基于步态图像的身份识别方法
CN111681197B (zh) 一种基于Siamese网络结构的遥感图像无监督变化检测方法
CN111444821A (zh) 一种城市道路标志自动识别方法
CN108268859A (zh) 一种基于深度学习的人脸表情识别方法
CN105139004A (zh) 基于视频序列的人脸表情识别方法
CN104268593A (zh) 一种小样本情况下多稀疏表示的人脸识别方法
CN111460980B (zh) 基于多语义特征融合的小目标行人的多尺度检测方法
CN106778474A (zh) 3d人体识别方法及设备
CN111401144A (zh) 一种基于视频监控的手扶电梯乘客行为识别方法
CN108537147A (zh) 一种基于深度学习的手势识别方法
CN111401145B (zh) 一种基于深度学习与ds证据理论的可见光虹膜识别方法
CN110675421B (zh) 基于少量标注框的深度图像协同分割方法
CN112950780B (zh) 一种基于遥感影像的网络地图智能生成方法及系统
CN111898432A (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN106611158A (zh) 人体3d特征信息的获取方法及设备
CN105893941B (zh) 一种基于区域图像的人脸表情识别方法
Zhang et al. A survey on instance segmentation: Recent advances and challenges
CN114723764A (zh) 一种点云物体的参数化边缘曲线提取方法
CN109508670B (zh) 一种基于红外摄像头的静态手势识别方法
CN112766145B (zh) 人工神经网络的人脸动态表情识别方法及装置
CN104933410A (zh) 一种高光谱图像光谱域与空间域联合分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant