CN101877007B

CN101877007B - 融合空间方位关系语义的遥感图像检索方法

Info

Publication number: CN101877007B
Application number: CN2010101764476A
Authority: CN
Inventors: 汪闽; 万其明; 张大骞; 张青峰; 宋腾义; 顾礼斌
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2010-05-18
Filing date: 2010-05-18
Publication date: 2012-05-02
Anticipated expiration: 2030-05-18
Also published as: CN101877007A

Abstract

本发明公开了一种融合空间方位关系语义的遥感图像检索方法，其主要步骤为：1、离线数据准备步骤，它包括图像分解与视觉特征提取；图像分割获取分割图斑及基于图斑的SVM分类获取图像的对象语义，并在此基础上，利用本专利提出的新的方位描述方法获取空间方位关系语义；特征入库。2、在线图像检索步骤，它包括语义粗检索和结合对象语义、空间方位关系语义和视觉特征的精检索。本方法通过面向对象SVM分类构建低层视觉特征和高层语义信息之间的联系，获取了图像的语义信息。检索中融合了遥感图像的视觉特征和对象语义、空间关系语义特征，从而提高了检索的准确度。本方法通过语义粗检索和进一步的精检索，缩小了检索的范围，提高了检索的效率。

Description

融合空间方位关系语义的遥感图像检索方法

技术领域

本发明涉及一种遥感图像检索方法，具体说是一种融合空间方位关系语义和图像视觉特征的遥感图像检索方法，属于遥感图像处理与信息提取领域。

技术背景

遥感图像检索(或者称为遥感图像查询)是从遥感图像数据库中查询返回用户感兴趣的图像或图像序列的过程。随着遥感图像数据量的急剧增加，如何对庞大的图像库进行有效管理，对图像信息进行快速准确地查询检索便成为急待解决的问题。总结目前研究进展，遥感图像检索主要有以下三种方法：

(1)基于文本的图像检索(Text-Based Image Retrieval，TBIR)：该检索方式根据人对图像的理解添加一定的标注或描述性文本等，检索的时候以这些人工注释的文本信息为索引对图像进行查询检索。此类方法主要存在如下几个方面的问题：1)人工注释工作量太大；2)人工注释具有主观性和不确定性。不同的观察者或者同一观察者在不同条件下对同一幅图像的描述可能会有不同，因而不够客观和准确；3)文本无法完全概括图像内容。

(2)基于内容的图像检索(Content-Based Image Retrieval，CBIR)：该检索方式首先提取图像的视觉特征(主要包括颜色、纹理、形状等)，然后根据这些视觉特征进行图像间相似性判断，从而实现检索过程。然而，目前CBIR主要利用了图像的低层视觉特征进行检索，而人对图像内容的描述以及图像之间的相似性的判断则往往依据图像所蕴含的高层语义，如对象、场景以及对象行为特征等等，这种图像低层视觉特征与人们对图像的理解之间的差异(有人称其为“语义鸿沟”问题)使得CBIR的检索结果有时不那么尽如人意。

(3)基于语义的图像检索(Semantic-Based Image Retrieval，SBIR)：所谓图像语义，是指图像内容的本质，是对图像表达内容的高度抽象。可以认为图像语义是属于概念范畴，并可借用认知科学研究概念结构以及概念形成的研究成果。该检索方法的思路就是提取图像中所包含的高层语义信息，然后以这些语义信息为索引进行图像检索。根据图像中各语义要素的抽象程度，可将图像的语义信息分成6个层次(分别是特征语义、对象语义、空间关系语义、场景语义、行为语义、情感语义)，称为图像层次化语义模型(图1)。

基于高层语义信息的图像检索被认为是最具发展前景的图像检索方式，但是，无论从生物视觉还是计算机视觉来说，人们对视觉理解的认识还远非深刻，计算机自动从图像中准确抽取语义描述就目前的技术手段来说还是一个非常困难的课题。因而，此方法目前是相关研究领域的热点和难点，有待进一步的研究和发展。

Jiang Li等人在《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》2004年4月第42卷第4期“Integrated Spectral and Spatial InformationMining in Remote Sens ing Imagery”一文中提出了一种基于Gabor纹理特征和图像对象语义的遥感图像检索方法。其思路是用支持向量机(Support VectorMachine，SVM)方法对遥感图像进行分类，将图像分成水、绿草地、林地等8个类别。用户检索的时候，可以从图像库中选择一幅图像作为模板也可以直输入一幅图像作为模板。如果是用户从数据库中选择的图像，系统会根据该图像中地物的类型以及占的面积比和每种地物的Gabor纹理特征，从数据库中查找与其最接近的图像集合。如果是用户导入的图像，系统会在线提取该图像所包含的地物类型以及所占的面积比例，以及地物的Gabor纹理特征，然后和图像库中的图像进行相似性计算，寻找与其最接近的图像序列。该方法利用了图像视觉特征和对象语义信息，但是没有考虑对象的空间关系语义信息，为此，检索精度有待提高。

汪彦龙等人在《计算机工程技术与发展》2006年1月第16卷第1期“基于对象空间关系的图像检索方法研究”一文中提出了一种基于对象空间关系的图像检索方法。他们提出了用一个

四元组表示图像中地物之间空间关系的方法，其中δ表示对象之间的拓扑关系。χ和

分别表示两对象在X轴和Y轴投影的间隔关系，θ表示两对象的角度关系。该方法首先得到图像的空间关系特征，用四元组去表达并且存储，然后图像的相似性问题就转化为表示图像的空间关系的相似性程度问题。这种对象空间关系的表达方法对于背景单一，对象目标数目较少的常规图像(普通多媒体、医学图像等)来说能取得不错的检索效果，但是不太适用于遥感图像。因为遥感图像和普通多媒体以及医学图像相比，地物类型多样，分布非常复杂，相互之间的空间关系组合复杂多样，很难用以上的四元组方法进行描述。为此，需要寻找更适合遥感图像的空间关系表达、度量和检索的方法。

中国发明专利申请“融合空间关系语义的高分辨率遥感图像检索方法”(申请号：200910032456.5)，公开了一种遥感图像检索方法，主要步骤如下：

(1)离线数据准备步骤。它又包括<1>基于五叉树的图像分解与视觉特征提取；<2>基于四叉树的图像分解及SVM分类获取空间对象语义、空间关系语义；<3>特征入库3个步骤；

(2)在线图像检索步骤。它又包括<1>语义粗检索；<2>结合空间关系语义和视觉特征的精检索两个步骤。

具体说它是一种融合空间关系语义和图像视觉特征的高分辨率遥感图像检索方法。该方法使用了图像的拓扑关系语义辅助图像检索，具有较高检索精度，但其没有考虑图像的空间方位语义。

发明内容

本发明的目的在于克服现有技术存在的缺陷，提出一种融合图像视觉特征和空间方位关系语义的遥感图像检索方法。该方法首先提取遥感图像的视觉特征和对象语义、空间方位关系语义特征并存储于关系数据库中。而后根据图像的对象语义特征进行检索，得到粗检索结果。然后从粗检索结果中选择模板图像，根据模板图像的视觉特征以及对象语义、空间方位关系语义特征，对粗检索结果进行进一步的精检索，返回在视觉特征以及对象语义、空间方位语义上相似的图像集合，完成检索过程。该方法综合利用了图像的视觉特征以及对象语义、空间方位语义特征，为此能够获得较高的检索精度。

本发明融合空间方位关系语义的遥感图像检索方法，其主要步骤如下：

(1)离线数据准备步骤，它包括下列3个步骤：

<1>基于五叉树的图像分解与视觉特征提取；

<2>基于光谱、形状特征的图像分割获取分割图斑及基于图斑的SVM分类获取图像的对象语义，并在此基础上，利用我们提出的新的方位描述方法获取空间方位关系语义；

<3>特征入库。

(2)在线图像检索步骤，它包括下列步骤：

<1>语义粗检索；

<2>结合对象语义、空间方位关系语义和视觉特征的精检索。

其中，离线数据准备步骤中的步骤1“基于五叉树的图像分解与视觉特征提取”和中国发明专利申请“融合空间关系语义的高分辨率遥感图像检索方法”(申请号：200910032456.5)中的对应部分原理过程相同。步骤2与步骤3，即“基于光谱、形状特征的图像分割及基于图斑的SVM分类获取对象语义、空间方位关系语义”；“特征入库”和后者的对应部分过程不同。在线图像检索步骤中，步骤1“语义粗检索”和中国发明专利申请“融合空间关系语义的高分辨率遥感图像检索方法”(申请号：200910032456.5)的对应步骤过程相同，在步骤2“结合对象语义、空间方位关系语义和视觉特征的精检索”上和后者过程不同。

下面分别对发明中所使用的现有技术，包括结合光谱、形状特征的图像分割，图像五叉树分解，图像主成分变换(又称为图像PCA变换)，Gabor纹理特征提取，SVM非线性图像分类，直方图相似性计算的基本原理进行介绍，并据此给出本发明方法的详细步骤。

(1)图像PCA变换

遥感图像与普通多媒体图像一个重要区别就是遥感图像一般具有多个波段。针对该特点，采用PCA变换对遥感图像进行预处理，然后对第一主成分图像进行特征提取。这样就可以实现对任意波段数的图像进行处理。图像经过PCA变换之后第一主成分集中了图像90％以上的信息，使得提取的图像特征更加稳定，从而提高了检索的精度。以下称第一主成分图像为PCA图像。

PCA变换的主要原理如下：对某一n个波段的多光谱图像实行一个线性变换，即对该多光谱图像组成的光谱空间X乘以一个线性变换矩阵A，产生一个新的光谱空间Y，即产生一幅新的n个波段的多光谱图像。其表达式为

Y＝AX (1)

公式1中X为变换前多光谱空间的像元矢量；Y为变换后多光谱空间的像元矢量；A为X的特征向量矩阵的转置矩阵。

(2)光谱、形状特征结合的图像分割

如图2，采用降水分水岭变换对遥感图像进行初步分割获取图像次一级斑块，即分割亚基元；同时设计一种可重复合并的快速图斑合并方法进行亚基元的层次归并获得最后分割斑块，完成图像分割。在合并过程中斑块之间的差异指标是它们的光谱合并代价与形状合并代价的加权和，合并结束的标志是斑块间两两合并代价超过某用户指定的尺度参数的平方。具体步骤包括：

第一步：PCA主成分变换

利用主成分变换(PCA)消除图像波段冗余，提取第一主成分分量进行分割。这样处理的优点是突出了待分割图像的主要信息并在一定程度上压制了噪声。

第二步：基于分水岭分割的亚基元获取

在图像处理中引入分水岭概念时，常将灰度图像看成是假想的地形表面，每一个像素的灰度值表示该点的海拔高度。在实际应用中，分水岭变换所处理的一般不是原始图像而是其梯度图。以梯度为高程，梯度图像即为地形表面，高梯度的区域边缘对应于分水岭(线)，而低梯度的区域内部对应于集水盆地。采用分水岭分割进行影像分割，得到初始分割斑块，即亚基元。除此之外，登记其光谱、形状(面积，周长等)以及邻接拓扑关系服务后续合并过程。

第三步：图斑合并

在亚基元的基础上，集成斑块间光谱特征差异、形状特征差异进行斑块归并，实现图像分割。

(3)五叉树分解(也称为五叉树分块)

五叉树分解法(图3)分解过程为：首先需将原图像(N×N像元，其中N是2的整数次幂，不足的添0补足)分解成5个子图像；然后在进行下一层次的分解时，由于中央子图像4的4个次一层次的子图像分别与其余4个子图像中的一个次一层次的子图像重合，因此，只需将除子图像4(中央子块)以外的4个子图像各分解为5个次一层次的子图像即可。以此类推，层层分解图像，直至某一子图像尺寸小于等于m×m为止(m可以由用户自己设定，默认值是16，对于高分辨率遥感图像而言，反复试验结果表明，m取16为好)。

(4)图像Gabor纹理特征提取

本发明利用GABOR滤波方法提取图像的纹理特征。所采用的GABOR滤波器如下所示：

h_{[u, v]} (x, y) = \frac{k_{u}^{2}}{σ^{2}} \exp (- \frac{k_{u}^{2}}{{2 σ}^{2}} (x^{2} + y^{2}))

{\cos (k_{u} ({x \cos φ}_{v} + {y \sin φ}_{v})) - \exp (- \frac{σ^{2}}{2})} - - - (2)

其中u代表了滤波器的尺度，v代表方向。如取

则共有12个滤波模板。多通道Gabor纹理特征提取步骤如下：

1)利用以上12个滤波器模板和PCA图像进行卷积操作，得到该图像的每个像素的12个滤波输出特征；

2)计算经五叉树分解后各子图像的12个滤波输出特征值的均值和方差，作为该子图像的纹理特征，为此共计24维纹理特征向量。

(5)SVM图像分类

支持向量机(Support Vector Machine，SVM)是一种处理非线性分类问题的有效工具。其基本思想可以概括为：通过某种事先选择的非线性映射将输入空间向量x映射到高维特征空间Z，然后在这个新空间中求取最优线性分类面实现分类的过程，而这种非线性映射是通过定义适当的核函数实现的。

目前，所使用的核函数有主要如下几种：

1.多项式形式核函数

K(x，y)＝[(x·y)+1]^d (3)

2.高斯径向基函数

K (x, y) = \exp [- \frac{{(x - y)}^{2}}{2 σ^{2}}] - - - (4)

高斯径向基函数与传统径向基函数(RBF)方法的基本区别是，这里每一个基函数的中心对应于一个支持向量，它们及输出权值都是由算法自动确定的。

3.指数径向基函数

K (x, y) = \exp [- \frac{| x - y |}{{2 σ}^{2}}] - - - (5)

4.Sigmoid核函数

K(x，y)＝tanh[scale(x·y)-offset] (6)

本方法采用的内核函数是高斯径向基函数。

(5)直方图相似性计算

本方法中，计算两直方图之间的相似度主要采用直方图相交法，其基本原理如下：

令H_Q和H_I分别为图像Q和图像I的某一特征向量的频数直方图，则两直方图之间的相似性P(Q，I)可记为：

P (Q, I) = \frac{Σ_{i = 0}^{L} \min [H_{Q} (i), H_{I} (i)]}{Σ_{i = 0}^{L} H_{Q} (i)} - - - (7)

其中L为直方图的分级数。min[H_Q(i)，H_I(i)]为两直方图对应的区间频数的较小值。方法详细步骤：

如图4，该方法包括了两个主要部分，分别称之为离线处理部分和在线处理部分。离线处理部分首先对一幅遥感图像进行PCA变换，获得PCA图像，然后利用五叉树分解法对PCA图像进行分解并提取图像的视觉特征。接着对PCA图像进行图像分割以及SVM分类，然后对分类结果进行分类后处理(去除细小图斑、创建图斑间拓扑关系、方位计算)，获取图像的对象语义以及对象之间的空间关系语义特征并将所有特征存入数据库中。在线处理部分主要包含两个步骤。第一步是语义粗检索，即通过用户指定的语义信息遍历图像数据库，将所有包含用户指定判别的遥感图像返回；第二步对粗检索结果进行进一步检索，从粗检索步骤返回的图像中选择模板图像，然后根据模板图像的视觉特征以及其包含对象以及对象之间的空间方位关系特征为检索依据，对粗检索结果进行进一步的匹配筛选，得到最终检索结果。

本发明融合空间方位关系语义的遥感图像检索方法，其步骤如下：

一、离线数据准备

(1)主成分变换

此步骤和“融合空间关系语义的高分辨率遥感图像检索方法”(专利申请号：200910032456.5)相同，请参见该申请。

(2)基于五叉树的图像分解与视觉特征提取

(3)图像分割以及SVM分类

在本方法中，图像空间语义特征是在图像分割以及支撑向量机分类的基础上获取的。具体过程如下：

第一步：图像分割。利用光谱、形状特征结合的图像分割方法，依照图2所示流程对PCA图像进行分割。

第二步：SVM图像分类。利用SVM对分割后的图像进行分类。为SVM选择高斯径向基函数并进行样本采集和SVM分类器训练(所用特征为样本的各个波段的灰度均值)，而后遍历所有图斑，得到图斑对应的原始图像的各波段灰度均值，根据SVM训练得到的分类模型，判断该子块所属类别，完成分类过程。我们首先将地物分成6个类别，分别是水体、一般植被、山地植被、人工地物、裸地、云雾。

第三步：分类后处理。对分类图进行一定的后处理以去除微小图斑，并对地物进行进一步的细分。将水体进一步分成面状水体和线状水体，将人工地物细分成居民地和道路。其过程如下：根据某个面积阈值寻找所有的细小图斑，遍历所有相邻的图斑，如果与其相邻的所有图斑地物类型一致，则将该小图斑的地物类型修改成其周围图斑类型。而后，对人工地物图斑进行形态学开、闭运算，将细长形状的线状人工地物分离出来，作为道路。利用长宽比和矩形度区分面状水体和线状水体，即将大于某个长宽比阈值且小于某个矩形度阈值的水体图斑作为线状水体，剩余的作为面状水体。为此，最终将地物分成面状水体、线状水体、一般植被、山地植被、居民地、道路、裸地、云雾8个类别。

(4)特征入库

分别将提取的24维图像的纹理特征和2维的图像颜色特征经过归一化处理之后入库。本方法采用的是极值归一化(见公式8)。将各特征向量的值都映射到[0，1]区间。

V_{new} = \frac{V_{old} - \min (V_{old})}{\max (V_{old}) - \min (V_{old})} - - - (8)

公式8中，V_new表示归一化后的向量值，V_old表示归一化前的向量值，min(V_old)、max(V_old)分别表示某一特征向量在数据库中的最小值，最大值。

图像对象语义的入库存储方式如下：

对PCA图像利用图像分割、SVM分类以及分类处理之后，得到一张分类结果图。将PCA图像经五叉树分解之后尺寸大于512×512的子图像与该分类结果图进行空间叠置，即可以得到每个子图像所包含的分类图斑信息。根据这个即可获得该子图像的空间对象语义。用一个二进制串来存储该对象语义信息。例如“01001000”代表该子图像中包含了第2种和第5种地物类别。

图像方位关系语义的提取与入库存储方法如下：

1)如图5所示，按照一定的逻辑顺序将图像平均分成3×3共计9幅大小相同的子图像(子块0～8)，同时以子块边界交点为中心，再划分和0～8块等大的9～12子图像，共计13个子图像。

2)统计从0、1…..11、12共计13幅子图像中每幅图像中8种地物的面积分布情况。例如子图像1，分别统计面状水体、居民地8种地物在图像中所占的面积比例。

3)在完成所有子图像地物分布情况统计之后，按照如图5所示从0到12的顺序，构建地物面积统计字符串。例如，假设子图像0的地物面积统计字符串为“0.007731*0.011584*0.138819*0.08027*0.759393*0.002202*0.000000*0.000000”，表明第一种地物占该子图像的面积比例为0.007731，第二种为0.011584。以此类推，统计其他所有子图像的地物分布情况，将所有字符串连接后存储下来。

此外，还存储分类图中每个图斑占该子图像的面积比(相对面积)以及每个对象中心的坐标的X，Y分别与子图像的宽和长的比值，供后续语义分析使用。除了存储以上信息之外，还必须存储一些其他信息辅助检索。比如，对于某一子图像，还要存储它的左上角的坐标值以及该子图像的尺寸，还有该子图像经过五叉树分解之后的层数以及具体的图块序号。

在特征入库阶段，采用如下(表1、表2、表3)的库、表结构对视觉特征、语义特征进行存储。

二、在线图像检索

(1)基于对象语义的语义粗检索

此步骤和“融合空间关系语义的高分辨率遥感图像检索方法”(中国发明专利申请号：200910032456.5)相同，请参见该申请。

(2)基于空间关系语义和视觉特征的精检索

主要步骤：

第一步：选择模板图像。根据第一步检索返回的语义粗检索结果，用户从其中选择一幅图像作为模板图像。

第二步：视觉特征匹配。此步骤和“融合空间关系语义的高分辨率遥感图像检索方法”(中国发明专利申请号：200910032456.5)相同，请参见该申请。

第三步：对象语义特征匹配。定义一个如图6所示的直方图来表示图像的对象语义信息。横坐标是表示地物类型，纵坐标表示对应的地物占图像的面积比例。最后依据直方图相似性计算的原理，采用直方图相交方法，求得两幅图像的对象语义信息之间的相似性。

第四步：计算视觉特征与语义特征的综合相似性。利用公式9计算模板图像与粗检索结果集合中的图像的视觉特征和对象语义特征的相似度S(Q，I)。

S(Q，I)＝W_visionS_vision+W_objectS_object (9)

其中S_vision、S_object分别为图像的视觉相似性和对象语义特征相似性，W_vision和W_object分别为两者的权重，用户可以设定其大小，默认值分别为0.5、0.5。如果S(Q，I)大于一定的阈值(系统默认为0.65，用户可以根据不同的应用设定更合适的值)，则对该图像纳入返回的最后结果集，否则，处理下一幅。

第五步：方位关系语义相似性匹配。如图7，在提取图像方位关系时，事先将图像分成了13个子图像，然后提取其中每幅子图像的地物分布情况，构建方位关系直方图，纵坐标为对应地物的相对面积。横坐标代表13个子图像的8种地物类型。对两幅影像求算其方位关系相似性时候，利用公式7，即直方图相交方法计算两者的空间关系相似性。最后按该相似性将在线处理的第四步所返回的图像根据该相似性大小进行降序排序最后返回给用户，完成整个检索过程。

本发明方法具有以下优点：

(1)本方法通过面向对象SVM分类构建低层视觉特征和高层语义信息之间的联系，获取了图像的语义信息。检索中融合了遥感图像的视觉特征和对象语义、空间关系语义特征，从而提高了检索的准确度。

(2)检索效率高。本方法的检索有两步，第一步进行语义粗检索，然后再对粗检索的结果进行进一步的精检索。这种方式缩小检索的范围，提高了检索的效率。

附图说明

图1：图像语义层次模型；

图2多精度分割方法流程图；

图3：图像五叉树分解示意图；

图4：系统框架图；

图5：图像空间语义关系提取示意图；

图6：图像对象语义特征直方图示意图；

图7：图像方位关系特征直方图示意图；

图8：SVM图像分类(a)原始图像；(b)图像分割(c)样本采集；(d)分类结果；

图9：分类结果后处理示意图(a)处理前(b)处理后；

图10：检索结果示意图。

具体实施方式

下面结合实施例，对本发明方法做进一步详细说明。

实施例

数据准备：实验数据为300幅大小为1024×1024的10米分辨率的SPOT-5和ALOS图像。它们均为多光谱图像，具有4个波段。

离线处理部分

(1)主成分变换

对所有图像进行PCA变换，获取对应的PCA图像。

(2)基于五叉树的图像分解与视觉特征提取

对PCA图像进行五叉树分解，将图像分成一系列的子图像。图像分块主要是有两个目的，一是为了得到不同尺寸的遥感图像和一定程度的影像重叠率。这些都是组成检索的图像数据库的基础。二是为了能够将图像分成一系列的最小尺度的子图像进行特征提取，各个大尺度的图像特征都是由这些小尺度的子图像来描述。而进行特征提取的子图像都是基于分块后最小尺寸的子图像，默认值为16×16，该尺度用户可以自行设置。但经过实验论证，采用16×16是对于检索来说是最佳的。

此外，由于分解后的子图像如果太小，检索价值不大，我们将所有尺寸大于等于512×512的子图像作为检索过程可返回的结果图像。因此，实验数据中每幅图像可被分成5幅512×512的子图像，因此，最后整个数据库中包含300幅1024×1024子图像、1500幅512×512子图像。

颜色特征提取：分别计算分块后生成的所有叶子节点的子图像像元值的二阶、三阶颜色矩作为表征子图像的颜色特征。

纹理特征提取：利用二维Gabor滤波和PCA图像进行卷积得到该图像的12维纹理特征。计算分块后生成的所有叶子节点对应的子图像的12维纹理特征的平均值、方差作为该子图像的24维纹理特征。

(3)图像分割以及SVM分类

用SVM对分割后的图斑进行分类，详细步骤如下：

第一步：图像分割。如图8(b)，应用光谱形状结合的图像分割技术对图像进行多精度分割。尺度参数设置值为30，颜色权值设为0.9。形状权值设为0.1.光滑度和紧凑度各为0.5。

第二步：训练样本采集。在分割图上，分别采集“水体”、“人工地物”、“一般植被”、“山地植被”、“裸地”、“云雾”地物的样本斑块，得到如图8(c)的采集结果。

第三步：SVM分类。根据训练样本，利用SVM支持向量机对分割后的图斑进行分类，得到该图像所包含的语义信息。实验采用高斯核函数，

其主要参数宽度参数σ默认值40，误差惩罚因子C默认值设为25。

第四步：分类后处理。分类后会存在一些细小图斑，如图9(a)中用圈圈标识出来的部分，它们会对后续分析带来干扰，为此需要去除。通过设定面积阈值0.0005，将相对面积小于该阈值的细小图斑挑选出来。然后对于这些细小图斑遍历其相邻的所有图斑，如果与这些小图斑相邻的图斑的地物类型是一致的，则将该小图斑的类型修改成与其相邻图斑一样的地物类型，得到图9(b)的结果。细分类时根据粗分类结果合并同类相邻图斑。此外，对人工地物图斑进行形态学先开后闭运算，将整块人工地物延伸出来的细长线状人工地物提取出来作为道路。剩余部分作为居民地。开闭运算的模板尺寸为15×15。而后利用长宽比和矩形度指标区分面状水体和线状水体。长宽比阈值设为3.0，矩形度阈值设为0.3。

(4)特征入库

对于图像的视觉特征，利用公式8将这些特征进行归一化处理，将各特征向量的值都映射到[0，1]区间。对于对象语义特征，分别将五叉树分解之后尺寸大于512×512的子图像与分类结果图进行叠置，得到这些子图像所包含的对象语义信息，并用数据库中ImageInfo表中的Semantic字段存储。假设某张子图像该字段为“01001000”，即代表该图像中包含了第2种和第5种地物(该字符串从左至右分别代表面状水体、河流、山地植被、一般植被、居民地、道路、裸地、云雾，1表示图像包含该地物类型，0表示不包含)。

在对象语义的基础上，计算得到空间方位关系语义特征。步骤如下：如图5所示，(1)按照一定的逻辑顺序将图像平均分成3×3共计9幅大小相同的子图像，同时取中间4块子图像如图7所示的9、10、11、12共计13个子图像；(2)统计从0、1…..11、12共计13幅子图像中每幅图像中8种地物的分布情况。例如子图像1，分别统计面状水体、居民地等共计8种地物在图像中所占的面积比例；(3)在完成所有子图像地物分布情况统计之后，按照如图5所示从0到12的顺序，构建地物面积统计字符串。例如，假设子图像0的地物面积统计字符串为

“0.007731*0.011584*0.138819*0.08027*0.759393*0.002202*0.000000*0.000000”，表明第一种地物占该子图像的面积比例为0.007731，以此类推，统计其他所有子图像的地物分布情况，将所有字符串连接后存储下来。

除了存储以上信息之外，我们还存储了一些其他信息辅助检索。比如，对于某一子图像，我们还要存储它的左上角的坐标值以及该子图像的尺寸，还有该子图像经过五叉树分解之后的层数以及具体的图块序号。具体数据库结构以及所有需要存储的信息可以参见表1，表2，表3。

表1图像库结构及其说明

表名	ImageInfo	SemanticInfo
			说明	主要存储了图像的视觉特征	主要存储了图像的语义特征

表2视觉特征表结构(表ImageInfo)

表3语义特征表结构(表SemanticInfo)

在线处理部分

(1)基于对象语义的粗检索

第一步：语义查询。用户从“面状水体”、“居民地”、“一般植被”、“山地植被”、“河流”、“道路”、“裸地”、“云雾”8种地物中选择要检索的图像中包含的地物信息。本案例中我们选择“面状水体”、“居民地”、“山地植被”、“一般植被”四种地物。本发明中用一个字符串来表示图像包含的对象语义信息。对应着数据库中ImageInfo表中的semantic字段，该字段为一个长度为8的字符串，从左至右，分别代表“面状水体”、“河流”、“山地植被”、“一般植被”、“居民地”、“道路及堤坝”、“裸地”、“云雾”。用1来表示包含，0表示不包含。例如假设表示某幅遥感图像包含对象语义信息的字符串为“10101100”，其物理含义就表示该图像包含了“面状水体”、“山地植被”、“一般植被”、“居民地”。

第二步：语义解析。根据用户选择的地物信息，我们可以得知，用户感兴趣的图像的语义信息映射到ImageInfo表中semantic字段为“1*1*11**”，其中，*表示可为1或0(即包含不包含该地物均可)。

在本方法中还需要设定一个面积阈值参数和图像尺寸阈值参数，即要求检索的地物占图像面积比的最小值，默认值0.001。也就是说，在本例中，要求检索的“水体”、“人工地物”、“裸地”三种地物任何一种地物占图像总面积的比例不能小于0.01。图像尺寸阈值就是要求被检索的图像最小尺寸值，默认为512×512。即要求所有返回的图像的长和宽都必须大于512×512。根据以上要求遍历图像数据库，将所有符合要求的图像返回。这个结果称为语义粗检索结果。

第三步：结果显示。将返回的结果显示在界面上，供用户进行下一步检索。

(2)基于空间关系语义和视觉特征的精检索

主要步骤：

第一步：选择模板图像。通过浏览语义粗检索结果，用户从中选择一幅图像作为模板图像进行进一步的精检索。

第二步：视觉特征匹配。分别从数据库中读取模板图像和待匹配图像(即语义粗检索结果)的颜色和纹理视觉特征，计算两幅图像之间的视觉特征相似度。

第三步：对象语义特征匹配。分别从数据库中读取模板图像和待匹配图像(即语义粗检索结果)的颜色和对象语义特征，定义一个如图6所示的直方图来表示图像的对象语义信息。横坐标表示地物类型，纵坐标表示对应的地物占图像的面积比例。最后依据直方图相似性计算的原理(公式7)，即可求得两幅图像的对象语义信息之间的相似性。

第四步：综合视觉特征和对象语义特征匹配。利用公式9计算两幅图像之间的综合视觉特征和对象特征的相似度，与设定的阈值进行比较，本发明中取0.65。如果相似性大于该值，则将其纳入返回结果集。否则抛弃它，并处理下一副图像。

第五步：空间关系语义匹配。如图7建立模板图像与粗检索集中图像的空间关系直方图，然后利用公式7计算二两者的空间关系相似性，以该结果作为两幅图像空间关系相似度的表征。最后按该相似性将在线处理的第四步所返回的图像根据该相似性大小进行降序排序最后返回给用户，完成整个检索过程。图10是部分返回结果示意(只显示了前9幅，其中第一幅是用户选择的查询模板，同时也是相似度最高，排第一位返回的图像)。

Claims

1.一种融合空间方位关系语义的遥感图像检索方法，其步骤如下：

一、离线数据准备

(1)主成分变换：将多波段图像，采用图像主成分变换对图像进行处理，获取图像主成分变换图像；

(2)基于五叉树的图像分解与视觉特征提取：对图像主成分变换图像采用五叉树分解法进行图像分块；分块之后，提取每个叶子节点图像的颜色特征、纹理特征；

(3)图像分割以及SVM分类，具体过程如下：

第一步：图像分割：利用光谱、形状特征结合的图像分割方法对主成分变换图像进行分割；

第二步：SVM图像分类：利用SVM对分割后的图像进行分类；为SVM选择高斯径向基函数并进行样本采集和SVM分类器训练，而后遍历所有图斑，得到图斑对应的原始图像的各波段灰度均值，根据SVM训练得到的地物类型，判断分割后的图像所属类别，完成分类过程；

第三步：分类后处理：根据一面积阈值寻找所有的细小图斑，遍历所有相邻的图斑，如果与其相邻的所有图斑地物类型一致，则将该小图斑的地物类型修改成其周围图斑类型；而后，对人工地物图斑进行形态学开、闭运算，将细长形状的线状人工地物分离出来，作为道路；利用长宽比和矩形度区分面状水体和线状水体，即将大于一长宽比阈值且小于一矩形度阈值的水体图斑作为线状水体，剩余的作为面状水体；最终将地物分成面状水体、线状水体、一般植被、山地植被、居民地、道路、裸地、云雾8个类别；

(4)特征入库：

分别将提取的24维图像的纹理特征和2维的图像颜色特征经过归一化处理之后入库；

所述归一化处理采用极值归一化，将各特征向量的值都映射到[0，1]区间，

V_{new} = \frac{V_{old} - \min (V_{old})}{\max (V_{old}) - \min (V_{old})}

其中，V_new表示归一化后的向量值，V_old表示归一化前的向量值，min(V_old)、max(V_old)分别表示某一特征向量在数据库中的最小值，最大值；

图像对象语义的入库存储方式如下：

对主成分变换图像利用图像分割、SVM图像分类以及分类后处理之后，得到一张分类结果图，将主成分变换图像经五叉树分解之后尺寸大于512×512的子图像与该分类结果图进行空间叠置，即得到每个子图像所包含的分类图斑信息，从而获得子图像的空间对象语义，用一个二进制串来存储对象语义信息；

图像方位关系语义的提取与入库存储方法如下：

1)将图像平均分成3×3共计9幅大小相同的子图像，同时以子图像边界交点为中心，再划分和上述9幅子图像大小相同的四幅子图像，共计13幅子图像；

2)统计13幅子图像中每幅图像中各种地物在图像中所占的面积比例；

3)按照从0到12的顺序，构建各种地物在图像中所占的面积比例字符串并存储；

二、在线图像检索

(1)基于对象语义的语义粗检索：

第一步，语义查询：用一个字符串来表示图像包含的对象语义信息；

第二步，语义解析：根据用户指定的对象语义信息遍历图像数据库，进行字符串匹配，检索出包含了用户指定的对象类别的所有图像；

(2)按照下列步骤进行基于空间关系语义和视觉特征的精检索：

第一步：选择模板图像；根据第一步检索返回的语义粗检索结果，用户从其中选择一幅图像作为模板图像；

第二步：视觉特征匹配：分别从数据库中读取模版图像和数据库中待匹配图像的视觉特征，建立对应的直方图；根据直方图相交计算原理，计算两幅图像的视觉特征的相似性大小；

第三步：对象语义特征匹配：定义一个直方图来表示图像的对象语义信息，横坐标表示地物类型，纵坐标表示对应的地物占图像的面积比例，最后依据直方图相似性计算的原理，采用直方图相交方法，求得两幅图像的对象语义信息之间的相似性；

第四步：计算视觉特征与语义特征的综合相似性，利用下列公式计算模板图像与粗检索结果集合中的图像的视觉特征和对象语义特征的相似度S(Q，I)，

S(Q，I)＝W_visionS_vision+W_objectS_object

其中S_vision、S_object分别为图像的视觉相似性和对象语义特征相似性，W_vision和W_object分别为两者的权重，用户可以设定其大小，默认值分别为0.5、0.5；如果S(Q，I)大于设定的阈值，则对该图像纳入返回的最后结果集，否则，处理下一幅；

第五步：方位关系语义相似性匹配；在提取图像方位关系时，事先将图像分成了13个子图像，然后提取其中每幅子图像的地物分布情况，构建方位关系直方图，纵坐标为对应地物的相对面积，横坐标代表13个子图像的8种地物类型；采用直方图相交方法计算两幅影像的空间关系相似性；最后按空间关系相似性将第四步所返回的图像根据空间关系相似性大小进行降序排序，最后返回给用户，完成整个检索过程。