CN102810158B

CN102810158B - 一种基于多尺度语义模型的高分辨率遥感目标提取方法

Info

Publication number: CN102810158B
Application number: CN201110143375.XA
Authority: CN
Inventors: 李宇; 孙显; 王宏琦
Original assignee: Institute of Electronics of CAS
Current assignee: Jigang Defense Technology Co ltd; Aerospace Information Research Institute of CAS
Priority date: 2011-05-31
Filing date: 2011-05-31
Publication date: 2015-02-04
Anticipated expiration: 2031-05-31
Also published as: CN102810158A

Abstract

本发明公开了一种基于多尺度语义模型的高分辨率遥感目标提取方法，涉及遥感图像技术，包括以下步骤：建立高分辨率遥感地物目标图像数据集；对训练集中的图像进行多尺度分割，得到目标的候选图像区域块；构建目标的语义模型，计算目标的隐含类别语义特征；对所有层次的候选图像块，进行语义特征分析；最后计算候选区域与目标模型的语义相关系数，并通过最大化语义相关系数提取目标。本发明方法综合利用图像的多尺度分割和目标类别语义信息进行高分辨率遥感图像中的目标提取，提取结果准确、鲁棒性好、适用性高，减少了人工参与程度，在地理信息系统和数字地球系统建设中具有一定的实用价值。

Description

一种基于多尺度语义模型的高分辨率遥感目标提取方法

技术领域

本发明涉及遥感图像信息处理领域中关于目标提取的方法，尤其是一种通过构建目标的语义模型来实现对高分辨率遥感图像中地物目标进行提取的方法，是一种综合利用图像多尺度信息和目标类别语义模型来进行高分辨率遥感图像中地物目标提取的方法。

背景技术

高分辨率遥感图像中的分辨率是指空间分辨率，其度量方法是单位像元对应的地面面积的大小。20世纪80-90年代的主要卫星遥感数据源是Landsat和Spot的卫星数据，分辨率为10-30m，现在只能称为中等分辨率图像。1999年Ikonos和2001年QuickBird的发射成功，提高了遥感图像的空间分辨率。Ikonos的全波段分辨率为1m，QuickBird的全波段分辨率达到0.61m。目前对于卫星遥感数据分辨率的划分，还没有一个统一明确的观点。一般认为2米左右或者分辨率高于2米的图像为高分辨率图像。高分辨率卫星影像能及时、准确地提供大量多时相、多波段的地物目标观测数据。传统遥感信息提取的实现方式依赖对遥感图像的人工目视解译，这种方法耗时多、周期长，影响了遥感技术作用的发挥。现代计算机性能的上升以及模式识别技术的进步使得遥感信息的自动提取成为可能。目前，目标提取和人工智能、机器学习等方面紧密相关，成为计算机研究与应用领域的一个热点。

一般的目标提取方法往往采用人工识别、手动标绘，耗费大量的时间，效率非常低。一些半自动的人工交互式图像分割技术在自然场景的目标提取取得了较好的效果，如：Graph Cut、Grab Cut等。但是这种半自动的交互式图像分割技术效率较低，并且需要用户输入来确定一些像素的类别。为了提高效率，人们开始研究如何有效地自动提取目标：Fergus和Perona等提出了星座模型，将目标模型视为包括一系列片段的组合，每个部分具有各自的特性，通过最大化模型似然函数以实现对目标类型的学习与识别。(见R.Fergus，P.Perona，A.Zisserman.A Visual Category Filter for Google Images.Proceedings of European Conference on Computer Vision，2004，3021：242-256.)但是为了保证识别精度，这类模型一般复杂度较高，而且方法中还需要在样本图像中详细标注出目标的类别和具体位置，增加了训练的工作量。为此，很多研究者借鉴文本分析中的Bag-of-words方法，引入主题模型，直接从图像中学习图像的内容：将图像比作文本，将图像中存在的目标比作文本主题，不同的目标对应不同的主题。图像看作是多主题的混合，从而主题的信息决定了图像中的目标信息。Li Fei-Fei等采用LDA(Latent DirichletAnalysis)模型，(见L.Fei-Fei，P.Perona.A bayesianhierarchical model for learning natural scene categories.Proc.of IEEE Computer Vision and Pattern Recognition，2005，524-531.)Zisserman等采用PLSA(Probabilistic Latent SemanticAnalysis)模型，(见A.Bosch，A.Zisserman，X.Munoz.Sceneclassification via PLSA.In：Proceedings of EuropeanConference on Computer Vision.Graz，Austria：Springer，2006，517-530.)二者将图片分成固定大小的网格，每个网格使用归一化的灰度值和统一的描述子组成特征向量，通过学习生成不同场景的词汇表，提取图像的主题分布信息，对图像场景具有较高的识别率。然而，这些方法从全局信息出发通过主题分布提取图像类别信息和图像中的目标信息，却不能够获取这些目标的准确位置，更加不能准确提取出目标。同时，对于复杂图像来说，由于图像的复杂性、存在目标结构的多样性，以及目标自身的类内方差的存在，图像中的不同目标的最佳分割尺度并不相同，单一尺度的分割会造成图像中目标的过分割。

发明内容

本发明的目的是提供一种基于多尺度语义模型的遥感目标提取方法，首先通过多尺度分割，获取目标的候选图像区域；然后采用主题模型建模，以概率直方图的形式表达目标内包含的隐含特征和语义规律；最终由这些隐含语义特征构成目标的语义模型，通过最大化语义相关系数，实现目标的自动提取。本发明克服了现有高分辨率遥感图像中人造地物目标提取方法中存在的误检问题，提高了提取的准确性和智能性，减少了人工参与的程度，能够满足复杂结构目标的自动提取和图像解译需求。本发明解决了如何综合利用图像的多尺度分割和目标类别语义模型来进行高分辨率遥感图像中地物目标的自动提取问题。

为达到上述目的，本发明的技术解决方案如下：

一种基于多尺度语义模型的高分辨率遥感目标提取方法，其包括以下步骤：

第一步，对分辨率为1米的高分辨率遥感图像进行多尺度分割，建立感兴趣目标候选区域集；

第二步，采用LDA(Latent Dirichlet Allocation)方法对目标进行语义建模，计算目标包含的隐含类别语义特征；

第三步，获取目标候选区域所有图像块的词的分布直方图集合，对每一个候选区域进行语义系数计算，判定图像块的语义属性；

第四步，采用多尺度分割与语义分析相结合的多尺度语义模型对目标进行自动提取：按照第一步所述获得待识别图像的多尺度结构，从该多尺度结构中选取候选区域块b₁，b₂，...b_L，提交给目标对象的语义模型，获得各个区域块的匹配相似度s₁，s₂，...s_L，选取最优相似s_best＝arg max_s s_l对应的尺度即为目标的最优结构，还原对应的区域块，即得到目标的所在区域。

所述的遥感目标提取方法，其所述第一步，具体方法是：

a)对于特定的遥感目标类别，选取200幅图像作为该类目标图像集：

b)对高分辨率遥感目标图像集中的图像，采用多尺度方法进行分割：明确尺度l下各个层次的分割对象块数K_l；将给定的第l层图像视为四向连接图，把Normalized-cut分割算法与每层分割对象块数K_l相关联，获取图像分割结果；

c)在目标各个候选区域、尺度l和分割对象块数K_l之间构建对应关系。

所述的遥感目标提取方法，其所述第二步，具体方法是：

a)把分割获得的每个图像块区域作为处理对象，提取各个图像块中的Harris-Affine特征和宽基线特征MSER，并对获得的每一个特征采用SIFT描述子，得到一个128维的特征向量；

b)使用K-Means聚类方法对代表集中所有图像各个层次上的特征进行量化，每个聚类中心的取值对应一个视觉单词，构成通用视觉词汇表，可通过改变聚类中心个数调整单词个数N；

c)、对分割获得的图像区域块中的每一个特征进行视觉单词映射描述，应用LDA分析方法构建出目标的语义模型，求解模型参数后计算得到目标对应的隐含主题语义分布规律，包括以下步骤：

c1、约定映射关系，即令特征描述子对应视觉单词w，为N个单词集合中的一项，图像区域块对应文档D，由M个单词序列D＝{w₁，w₂，...，w_M}组成；

c2、随机生成一个1×k的向量θ，该向量服从Dirichlet分布，k为主题个数，选择主题z_n服从多项式分布，选择单词w_n的分布p(w_n|z_n，β)为主题z_n的多项式条件分布，单词的概率参数β为k×N矩阵，其中β_ij＝p(w_j＝1|z_i＝1)；

c3、获取主题z、N个单词w及混合参数θ的联合分布，通过最大化后验概率P(w|z)利用Gibbs抽样间接求得主题中词汇的多项分布和图像中主题的多项分布的值；

d)获得模型参数后，得到目标包含各个类别主题的分布规律，同时得到每一个候选区域中包含各个类别主题的概率分布，以类别直方图的形式表示。

所述的遥感目标提取方法，其所述第三步，具体方法是：

A)由第二步的b)步获取一幅图像中的所有分割块的b₁，b₂，...，b_L}，计算它们与所有主题分布之间的相似匹配度；

B)依据KL散度计算图像块的语义属性，依次对图像的各个像素判定其主题归属；

C)对于一幅遥感地物目标代表图像，共计获得L×K个目标语义模型的相似度，当相似度大于相似阈值th_simi时，认为该区域块是体现目标语义特征或主题分布的区域，取th_simi值为0.5。

所述的遥感目标提取方法，其所述第一步的b)步，在计算多尺度分割结果时，首先将图像视为一个四向连接图G＝(V，E)，V为代表像素的结点集，E为相邻结点的连接边集，然后按照分割数K_l，利用Normalized-cut算法求解分割：

Ncut (A, B) = \frac{cut (A, B)}{assoc (A, V)} + \frac{cut (A, B)}{assoc (B, V)} - - - (1)

其中，A和B为互不相交，且满足A∪B＝V和

cut (A, B) = \underset{i &Element; A, j &Element; B}{Σ} w (i, j),

assoc (A, V) = \underset{i &Element; A, j &Element; V}{Σ} w (i, j),

w(i，j)为A与B之间所有边对应的权值。

所述的遥感目标提取方法，其所述第二步的c)步中，主题数的设置直接影响获取的主题结构：主题个数过少，则会降低算法的精度；主题个数过多，单一类别被划分为不同主题，影响模型的可靠性；

最优主题数的选取依据主题平均相似度最小准则，主题平均相似度的计算公式如下：

CorreMean = Σ_{i = 1}^{K - 1} Σ_{j = i + 1}^{K} Corre (z_{i}, z_{j}) / K (K - 1) / 2 - - - (2)

K^*＝arg min_k CorreMean(k) (3)

其中，K是主题数，K^*是最优主题数，z_i代表第i个主题向量。Corre(z_i，z_j)表示向量z_i与z_j的互相关。

所述的遥感目标提取方法，其所述第二步的c3步中，在求解参数时，可以获得结点对象中主题z、N个单词w及混合参数θ的联合分布：

p (θ, z, w | α, β) = p (θ | α) Π_{n = 1}^{N} p (z_{n} | θ) p (w_{n} | z_{n}, β) - - - (4)

由于无法直接求解，可采用近似推理的方法，选择简单的MCMC推理方法Gibbs抽样；Gibbs抽样过程中相关表达式更新方式如下：

P (z_{i} = j | z_{- i}, w_{i}) = \frac{n_{- i, j}^{(w_{i})} + β}{n_{- i, j}^{(\cdot)} + Lβ} \cdot \frac{n_{- i, j}^{(d_{i})} + α}{n_{- i}^{(d_{i})} + Kα} - - - (5)

{\hat{θ}}_{z = j}^{(d)} = \frac{n_{j}^{(d)} + α}{n^{(d)} + Kα} - - - (7)

其中，表示词汇w被分配给主题j的频数；表示分配给主题j的所有次数；表示文本d中分配给主题j的次数；n^(d)表示文本d所有被分配了主题的次数；L是字典容量，K是主题个数；

通过(5)～(7)式的迭代更新，最终获得稳定的和θ，其中是K×L的矩阵，其中每一行表示相应主题在词上的分布，描述了相应的主题的内容；θ是M×K的矩阵，其中每一行表示相应文档中的主题概率分布，也就是LDA模型中各概率混合分量的加权值。

所述的遥感目标提取方法，其所述第三步的B)步中，判定语义属性的计算步骤：假设第l个图像块在词空间的向量表示记作P_l(x)，第k个主题的词分布记作Q_k(x)；图像块与主题之间的KL散度为：

KL (P_{l} (x), Q_{k} (x)) = &Integral; P_{l} (x) \log \frac{P_{l} (x)}{Q_{k} (x)} dx - - - (8)

其中，1≤k≤主题数，KL(P_l(x)，Q_k(x))简记为λ_lk＝KL(P_l，Q_k)＝KL(P_l(x)，Q_k(x))；

针对不同层次的图像块，语义相关参数集合语义相关函数定义为ψ_loc，其中loc＝{(i，j)}

代表图像块的像素集合；利用KL散度定义的语义相关函数：

其中，ξ_k是只有第k项为1的K维向量，ε是任意选取的正数；

对于特定的图像块来说，图像块的语义属性标记S_loc为：

S_{loc} = \{\begin{matrix} \underset{k}{\arg \max ψ_{loc} (λ_{lk}),} & \underset{k}{\arg \max} ψ_{loc} (λ_{lk}) > threshold \\ backgrounds, & others \end{matrix} - - - (10)

其中，threshold代表判决阈值，backgrounds表示没有对该图像块进行主题标记。

本发明方法在基于多尺度分割的框架下引入目标语义模型，充分利用图像的多尺度信息，挖掘目标的语义特征，提取图像中隐含的特征信息；采用主题模型的方法提取能够抽象概括目标中包含的各个子类别或主题，提高对目标类别语义信息的表达精度；同时，整个学习过程中所需的样本图像无需人工标注，并可应用于小规模的训练图像集，具有鲁棒性和实际应用价值。本发明方法能有效提取高分辨率遥感图像下的地物目标，在地理信息系统和数字地球系统建设中具有一定的实用价值。

附图说明

图1为本发明基于多尺度语义模型的遥感目标自动提取方法的流程示意图；

图2为本发明方法中第二步获取目标语义信息的模型示意图；

图3为本发明方法所采用的高分辨率遥感目标代表图像集中的部分样例图像；

图4为图3所示的高分辨率遥感目标图像集中学习获得的飞机目标语义主题的词分布直方图及其在训练图像集中对应的图像区域块；其中：

图4a1、图4a2为主题的词分布直方图；

图4b1、图4b2为相应的图像区域块；

图5为图3所示的高分辨率遥感目标代表图像集中进行目标自动提取的部分结果示意图；其中：

图5a1、图5a2、图5a3、图5a4为代表图像集中的测试图像；图5b1、图5b2、图5b3、图5b4为采用Normalized-cut分割算法分割数为3时的分割结果；

图5c1、图5c2、图5c3、图5c4为采用本发明方法的分割结果；图5d1、图5d2、图5d3、图5d4为采用本发明方法的目标提取结果。

具体实施方式

以下结合实施例和附图对本发明方法进一步说明。

图1为本发明基于多尺度语义模型的高分辨率遥感目标提取方法的流程示意图，具体步骤包括：

第一步，建立高分辨率遥感地物目标的候选区域集合：

遥感人造地物目标数据集中的图片从GoogleEarth中截取获得。这些图片的分辨率在1米左右。由200幅图像组成。图像的平均尺寸为大约200×200像素。如图3所示。对于每类目标图像，取其中的130幅用于训练，70幅用于测试。

对训练图像进行多尺度分割：利用Normalized-cut算法对各个训练图像按照给定的尺度和分割块数进行分割。将给定的第l层图像视为一个四向连接图，把Normalized-cut分割算法与尺度空间下每一层的分割对象块数K_l相关联，获取对图像的一个分割结果。分割完成后，得到的不同层次尺度下的目标候选区域集合。

第二步，计算目标包含的隐含类别语义特征：

2.1、提取各个图像块中的Harris-Affine特征和MSER宽基线特征，用SIFT描述子描述，得到特征的128维描述向量；

2.2、对所有图像各个层次上所有图像块提取的特征向量进行K-Means聚类量化，聚类中心个数取值为500，得到通用视觉词汇表；

2.3、应用LDA分析方法对感兴趣目标构建模型，对图像集进行“文档/字”描述，获取算法的数据项。初始化模型的参数(α，β)后采用Gibbs抽样推断参数。记主题中词汇的多项分布为图像中主题的多项分布为ψ，考虑词汇对于主题的后验概率P(w|z)，利用Gibbs抽样间接求得和ψ的值。如图2所示；主题数的设置直接影响获取的主题结构，依据主题平均相似度最小准则选取最优主题数。

2.4、获得模型参数后，得到目标包含各个类别主题的分布规律，同时得到每一个候选区域中包含各个类别主题的概率分布，以类别直方图的形式表示。例如，事先定义了20个不同的类别，相当于20个主题，那么可以得到一个20维的概率向量，以类别直方图的形式表示，作为结点的属性描述，图4显示了取参数为K＝20时，部分主题分布结果及所对应的图像块。

第三步，对待提取的图像，先按照本发明之前所述获得多尺度分割结构，并统计各个分割块特征属性；从该多尺度结构中选取候选区域块b₁，b₂，...b_L，提交给目标对象的语义模型，获得各个区域块的匹配相似度s₁，s₂，...s_L。

第四步，根据第三步获得的各个区域块的相似度，选取最优相似s_best＝arg max_s s_l对应的尺度即为目标的最优结构，还原对应的区域块，即可得到目标的所在区域。如图5d1、图5d2、图5d3、图5d4所示。

Claims

1.一种基于多尺度语义模型的高分辨率遥感目标提取方法，其特征在于，包括以下步骤：

第二步，采用LDA方法对目标进行语义建模，计算目标包含的隐含类别语义特征；

第四步，采用多尺度分割与语义分析相结合的多尺度语义模型对目标进行自动提取：对待识别图像同样按照第一步的多尺度分割获得图像的多尺度结构，得到候选区域块b₁，b₂，...b_L，b₁表示第1个图像块，b₂表示第2个图像块，b_L表示第L个图像块，L的大小等于所有分割尺度上获得图像块数的总和；将候选图像块提交给目标对象的语义模型，获得各个区域块的匹配相似度s₁，s₂，...s_L，s₁表示b₁与目标语义模型的相似度，s₂表示b₂与目标语义模型的相似度，s_L表示b_L与目标语义模型的相似度，选取最优相似s_best＝arg max_s s_l对应的尺度即为目标的最优分割尺度，还原对应的区域块，即得到目标的所在区域；

其中，所述第一步，具体方法是：

a)对于特定的遥感目标类别，选取200幅图像作为该特定的遥感目标类别目标图像集；

b)对高分辨率遥感目标图像集中的图像，采用多尺度方法进行分割：明确尺度1下各个层次的分割对象块数K_l；将给定的第1层图像视为四向连接图，把Normal ized-cut分割算法与每层分割对象块数K_l相关联，获取图像分割结果；

c)在目标各个候选区域、尺度1和分割对象块数K_l之间构建对应关系；

所述第二步，具体方法是：

b)使用K-Means聚类方法对代表集中所有图像各个层次上的特征进行量化，每个聚类中心的取值对应一个视觉单词，构成通用视觉单词表，可通过改变聚类中心个数调整单词个数N；

c2、随机生成一个1×k的向量θ，该向量服从狄利克雷分布，k为主题个数，选择主题z_n服从多项式分布，选择单词w_n的分布p(w_n|z_n，β)为主题z_n的多项式条件分布，单词的概率参数β为k×N矩阵，其中β_ij＝p(w_j＝1|z_j＝1)；

c3、获取主题z、N个单词w及混合参数θ的联合分布，通过最大化后验概率P(w|z)利用吉布斯抽样间接求得主题中单词的多项分布和图像中主题的多项分布的值；

d)获得模型参数后，得到目标包含各个类别主题的分布规律，同时得到每一个候选区域中包含各个类别主题的概率分布，以类别直方图的形式表示；

所述第三步，具体方法是：

A)由第二步的b)步获取一幅图像中的所有分割块的{b₁，b₂，...，b_L}，b₁表示第1个图像块，b₂表示第2个图像块，b_L表示第L个图像块，L的大小等于所有分割尺度上获得图像块数的总和，计算它们与所有主题分布之间的相似匹配度；

C)对于一幅遥感地物目标代表图像，共计获得L×K个目标语义模型的相似度，当相似度大于相似阈值th_simi时，认为该区域块是体现目标语义特征或主题分布的区域，取th_simi值为0.5；

所述第一步的b)步，在计算多尺度分割结果时，首先将图像视为一个四向连接图G＝(V，E)，V为代表像素的结点集，E为相邻结点的连接边集，然后按照分割数K_l，利用Normal ized-cut算法求解分割：

Ncut (A, B) = \frac{cut (A, B)}{assoc (A, V)} + \frac{cut (A, B)}{assoc (B, V)} - - - (1);

其中，A和B为互不相交，且满足A∪B＝V和

cut (A, B) = \underset{i &Element; A, j &Element; B}{Σ} w (i, j), assoc (A, V) = \underset{i &Element; A, j &Element; V}{Σ} w (i, j),

w(i，j)为A与B之间所有边对应的权值；

所述第二步的c)步中，主题数的设置直接影响获取的主题结构：主题个数过少，则会降低算法的精度；主题个数过多，单一类别被划分为不同主题，影响模型的可靠性；

CorreMean = Σ_{i = 1}^{K - 1} Σ_{j = i + 1}^{K} Corre (z_{i}, z_{j}) / K (K - 1) / 2 - - - (2);

K^*＝arg min_k CorreMean(k) (3)；

其中，K是主题数，K^*是最优主题数，z_i代表第i个主题向量，Corre(z_i，z_j)表示向量z_i与z_j的互相关；

所述第二步的c3步中，在求解参数时，可以获得结点对象中主题z、N个单词w及混合参数θ的联合分布：

p (θ, z, w | α, β) = p (θ | α) Π_{n = 1}^{N} p (z_{n} | θ) p (w_{n} | z_{n}, β) - - - (4);

由于上式中的参数无法直接求解，参数求解采用了近似推理的方法，选择简单的马尔科夫链蒙特卡洛推理方法吉布斯抽样；吉布斯抽样过程中相关表达式更新方式如下：

P (z_{i} = j | z_{- i}, w_{i}) = \frac{n_{- i, j}^{(w_{i})} + β}{n_{- i, j}^{(\cdot)} + Lβ} \cdot \frac{n_{- i, j}^{(d_{i})} + α}{n_{- i}^{(d_{i})} + Kα} - - - (5);

{\hat{θ}}_{z = j}^{(d)} = \frac{n_{j}^{(d)} + α}{n^{(d)} + Kα} - - - (7);

其中，表示单词w被分配给主题j的频数；表示分配给主题j的所有次数；表示文本d中分配给主题j的次数；n^(d)表示文本d所有被分配了主题的次数；L是字典容量，K是主题个数；

通过(5)～(7)式的迭代更新，最终获得稳定的和θ，其中是K×L的矩阵，其中每一行表示相应主题在词上的分布，描述了相应的主题的内容；θ是M×K的矩阵，其中每一行表示相应文档中的主题概率分布，也就是LDA模型中各概率混合分量的加权值；

所述第三步的B)步中，判定语义属性的计算步骤：假设第l个图像块在词空间的向量表示记作P_l(x)，第k个主题的词分布记作Q_k(x)；图像块与主题之间的KL散度为：

KL (P_{l} (x), Q_{k} (x)) = &Integral; P_{l} (x) \log \frac{P_{l} (x)}{Q_{k} (x)} dx - - - (8);

针对不同层次的图像块，语义相关参数集合语义相关函数定义为Ψ_loc，其中loc＝{(i，j)}代表图像块的像素集合；利用KL散度定义的语义相关函数：

其中，ξ_k是只有第k项为1的K维向量，ε是任意选取的正数；

对于特定的图像块来说，图像块的语义属性标记S_loc为：

S_{\log} = \{\begin{matrix} \underset{k}{\arg \max} ψ_{loc} (λ_{lk}), \underset{k}{\arg \max} ψ_{loc} (λ_{lk}) > threshold \\ backgrounds, others \end{matrix} - - - (10);

其中，threshold代表判决阈值，backgrounds表示没有对该图像块进行主题标记，others表示的情况。