CN102279929A

CN102279929A - 一种基于对象语义树模型的遥感人造地物目标识别方法

Info

Publication number: CN102279929A
Application number: CN 201010207538
Authority: CN
Inventors: 孙显; 付琨; 王宏琦
Original assignee: Institute of Electronics of CAS
Current assignee: Jigang Defense Technology Co ltd; Aerospace Information Research Institute of CAS
Priority date: 2010-06-13
Filing date: 2010-06-13
Publication date: 2011-12-14
Anticipated expiration: 2030-06-13
Also published as: CN102279929B

Abstract

一种基于对象语义树模型的遥感图像人造地物目标识别方法，步骤为：建立遥感地物目标代表图像集；对遥感地物目标代表图像集中的图像采用多尺度方法进行分割，得到每幅图像的对象树；采用LDA方法对对象树中每一个结点建模，计算树结点对象内包含的隐含类别语义特征；获取代表集中所有图像的对象树集合

对每一对对象树

进行匹配学习，从中提取出共有最大子树；采用逐步添加法将所有最大共有子树组合在一起，形成描述目标类别的对象语义树；根据对象语义树对人造地物目标进行识别，得到目标的所在区域。本发明能有效处理绝大多数高分辨率遥感图像下的人造地物目标，识别结果准确、鲁棒性好、适用性高，减少了人工参与程度。

Description

一种基于对象语义树模型的遥感人造地物目标识别方法

技术领域

本发明涉及遥感图像信息处理领域中关于目标识别的方法，尤其是一种通过构建目标的对象语义树模型来实现对高分辨率遥感图像中人造地物目标进行识别的方法，是一种综合利用图像空间结构和目标类别语义信息来进行高分辨率遥感图像中人造地物目标识别的方法。

背景技术

随着遥感图像处理技术的发展迅速，部分卫星影像的地面分辨率已经达到米级、甚至厘米级，能及时、准确地提供大量多时相、多波段的地物目标观测数据。单纯依赖人工目视对遥感图像进行解译，提取并识别图像中的人造地物目标，耗时多、周期长，准确率也欠佳。如何提高遥感图像中人造地物目标识别方法的自动化程度，将人从枯燥烦杂的图像判读工作中解放出来，并突破图像数据向有价值信息转化的瓶颈，已成为当前遥感图像信息处理领域的一个热点问题。

传统的地物目标识别方法往往通过在图像中寻找特定形状的元素，如直线、圆弧、多边形等，然后分析元素间的几何特性来提取目标。这类方法对每类目标都需要一个对应的模板，而且忽略了地物间的空间关系，在识别复杂结构目标时效率较低。部分方法通过对图像区域进行统计，将其表达为边界、纹理、色彩等特征向量形式，并采用自下而上的判别式方法分类标记。这种处理方式简单直接，能快速预测给定图像中的目标类别及位置。但是由于得到的主要是较低层次局部信息，缺乏对目标的整体性描述，并且在学习过程中容易出现训练不足的情况，导致分类精度下降。近年来，不少国内外学者提出将地物目标视为由若干子目标或部件组成，通过产生式方法自上而下地对图像和目标建模，分析目标部件间存在的关联语义，并得到了广泛的关注。

针对不同目标的结构特性，Fergus和Perona等提出了星座模型，将目标模型视为包括一系列片段的组合，每个部分具有各自的特性，通过最大化模型似然函数以实现对目标类型的学习与识别。Agarwal等提出了基于稀疏结构图的处理框架，通过无监督的学习得到特定目标的类别信息。然而，这类方法通常基于较强的先验约束条件，模型在不同类别目标中的通用性受到限制。Parikh等提出以一种松散的序列结构来存储目标间的语义关系，通过区域的配对计算来获取目标各个子部分的属性，实现了对多类目标的识别。Simon和Seitz提出利用颜色、空间分布两类简单的局部特征处理问题的一个复杂的概率产生式模型，克服了前景目标部分信息缺失对检测结果的影响，提高了检测结果的准确率，但是对目标部件的选择往往是随机的，因此部件具有的特性不够单一，对训练样本的需求量比较大，影响计算效率。为此，Fidler和Berginc等提出在分等级框架下，以无监督的方式通过相邻层之间的继承关系限定目标片段的结构及位置等信息，实现对目标的识别。类似的，Leibe和Leonardis拓展了隐含形状模型，联合模板匹配的整体信息与部件的结构信息，可用于不同类别目标的分割检测。由于先验知识的弱化，为了保证识别精度，这类模型一般复杂度较高，而且方法中还需要在样本图像中详细标注出目标的类别和具体位置，增加了训练的工作量。

发明内容

本发明的目的在于提供一种基于对象语义树模型的遥感人造地物目标识别方法，以解决如何综合利用图像空间结构和目标类别语义信息来进行高分辨率遥感图像中人造地物目标的自动识别。

为实现上述目的，本发明提供的基于对象语义树模型的遥感人造地物目标识别方法，首先通过多尺度分割，获取图像的语义树结构，并采用隐含语义对象作为树结点，以概率直方图的形式表达对象内包含的隐含特征和语义规律；然后将树结构转化为有向无环图，通过匹配学习的方式提取同类目标间的共有最大子树；最终由这些子树组建构成目标的语义树，用于抽象描述目标的特征和属性，进而完成目标的识别和提取。本发明克服了现有高分辨率遥感图像中人造地物目标识别方法中存在的误检和漏检问题，提高了识别的准确性和智能性，减少了人工参与的程度，能够满足复杂结构目标的识别和图像解译需求。

本发明的技术方案如下：

第一步，建立高分辨率遥感地物目标代表图像集。方法是：

1.1、根据需要定义J个遥感地物目标类别，类别编号为1～J，J为自然数；

1.2、对每个遥感地物目标类别，选取多幅(比如200幅)图像作为该类目标的代表图像；

1.3、对每幅遥感地物目标代表图像进行标绘，标记出目标所在的区域范围；

1.4、将所有J类目标的代表图像合并为高分辨率遥感地物目标代表图像集；

第二步，对高分辨率遥感地物目标代表图像集中的图像采用多尺度方法进行分割，得到每幅图像的对象树，具体方法如下：

2.1、利用指数函数定义线性尺度空间，在尺度S_l和层次l间构建关系，并计算图像各个层次的分割对象块数K_l；

2.2、将给定的第l层图像视为四向连接图，把Normalized-cut分割算法与每层分割对象块数K_l相关联，获取图像分割结果，从l-1层开始，依据上一层分割结果，生成新的连接图继续粗化分割，由上到下递归处理构建对象分割树；

第三步，采用LDA(Latent Dirichlet Allocation)方法对对象树中每一个结点建模，计算树结点对象内包含的隐含类别语义特征，具体方法如下；

3.1、对于分割树中的每一个结点对象，在对象所在区域中计算局部梯度方向直方图得到SIFT特征，该SIFT特征为一个128维的特征向量；

3.2、使用K-Means聚类方法对代表集中所有图像各个层次上的SIFT特征进行量化，每个聚类中心的取值对应一个视觉单词，构成通用视觉词汇表，可通过改变聚类中心个数调整单词个数N，一般N取值为500至3000之间；

3.3、对分割树中的每一个结点对象进行视觉单词映射描述，应用LDA分析方法对每一个结点对象构建模型，求解模型参数后计算得到每一个结点对象内包含的隐含主题类别概率分布，具体包括以下步骤：

3.3.1、约定映射关系，即令特征描述子对应视觉单词w，为N个单词集合中的一项，结点对象对应文档D，由M个单词序列D＝{w₁，w₂，..，w_M}组成；

3.3.2、随机生成一个1×k的向量θ，该向量服从Dirichlet分布，k为主题个数，选择主题z_n服从多项式分布，选择单词w_n的分布p(w_n|z_n，β)为主题z_n的多项式条件分布，单词的概率参数β为k×N矩阵，其中β_ij＝p(w_j＝1|z_i＝1)；

3.3.3、获取结点对象中主题Z、N个单词w及混合参数θ的联合分布，通过变分EM的方法求解LDA模型中控制参数(α，β)的解，其中α反映了图像集合中隐含主题间的相对强弱，β刻画所有隐含主题自身的概率分布；

3.4、解得模型参数后，得到每一个对象包含各个类别主题的概率分布，以类别直方图的形式表示；

第四步，获取代表集中所有图像的对象树集合

对每一对对象树

进行匹配学习，从中提取出共有最大子树，具体方法如下：

4.1、优化分割对象树，考察每个树中的每一对相邻结点，当其满足合并条件时，将两个结点合并为一个结点，以父对象结点的形式插入到待合并区域的上一级，将树结构转换为有向无环图的形式；

4.2、在每个有向无环图的上下级结点中添加新边，构建传递闭包(Transitive Closure)，实现结点间和子结点间的匹配；

4.3、将所有分割树

转换而成的有向无环图逐个配对，使用编辑距离操作计算相似匹配度，所有编辑操作的代价总和相加，得到两个有向无环图的最终相似度量；对于J幅遥感地物目标代表图像，共计获得J(J-1)个树对用于计算子树的相似度，当相似度大于相似阈值th_simi时，认为该子树是体现目标共有子目标或部件的区域，建议取th_simi值为0.5；

第五步，采用逐步添加法将所有最大共有子树组合在一起，形成描述目标类别的对象语义树，具体方法如下：

5.1、给定子树t和t′，组合树为

其中ε₁＝ε(τ，t)，ε₂＝ε(τ，t′)，依次从

中选取一个新的子树t，与已有的组合树相匹配，形成新的组合树

5.2、对于树结点

的区域属性ψ_v，记录之前各轮迭代中结点

的区域属性值的集合{ψ_v′}，然后取ψ_v为集合中所有属性的均值；

5.3、由于取出子树顺序的不同会影响组合结果的不同，随机选定三种组合顺序，计算组合树的匹配熵，选取匹配熵最小值所对应的结果为目标类别最终的对象语义树；

第六步，根据对象语义树对人造地物目标进行识别：按照本发明第二、三步所述获得待识别图像的对象树结构，从该对象树中自上而下选取子树t₁，t₂，...t_L，提交给对象语义树模型，获得各个子树的匹配相似度s₁，s₂，...s_L，选取最优相似s_best＝arg max_ss_l对应的子树即为目标所在的结构，还原对应的对象结点，即可得到目标的所在区域。

所述的方法，其所述步骤2.1中的尺度S_l和层次l存在如下关系：

S_l＝μ^L-l l＝1，2，...，L (1)

其中μ为尺度因子，由此可以得到图像各个层次的分割块数K_l：

其中

为分割系数，I_w和I_h分别为图像长宽的像素数，

为上取整高斯函数。

所述的方法，其所述步骤2.2在计算分割结果时，首先将图像视为一个四向连接图G＝(V，E)，V为代表像素的结点集，E为相邻结点的连接边集，然后按照分割数K_l，利用Normalized-cut算法求解分割：

Ncut (A, B) = \frac{cut (A, B)}{assoc (A, V)} + \frac{cut (A, B)}{assoc (B, V)} - - - (3)

其中，A和B为互不相交，且满足A∪B＝V和

w(i，j)为A与B之间所有边对应的权值。

所述的方法，其所述步骤2中，图像中L个层次的尺度序列以尺度因子μ逐层递减，为了保证树结构节点的丰富性，一般取μ≥3。

所述的方法，其所述步骤3.3.3在求解参数时，可以获得结点对象中主题Z、N个单词w及混合参数θ的联合分布：

p (θ, z, w | α, β) = p (θ | α) Π_{n = 1}^{N} p (z_{n} | θ) p (w_{n} | z_{n}, β) - - - (4)

由于无法直接求解，通过变分近似推断的方法对数似然下界进行文档集的求和，具体方法为：

定义一个变分的近似分布

且参数为

定义分布表达式

作为p(θ，z|w，α，β)的后验概率分布，其中γ是Dirichlet参数，

为多项式分布参数，可以得到

的最优解：

其中，Ψ(x)代表Γ函数对数的一阶导数的Taylor近似；通过对β_ij求导和Newton-Raphson优化，计算得到：

其中H(α)为Hessian矩阵，g(α)为梯度矩阵；

迭代公式5、6，直至参数(α，β)稳定后得到模型参数的最优解。

所述的方法，其所述步骤4.1中，对于任意两个结点R₁和R₂，当且仅当满足三个合并条件时，可以合并为一个结点。这三个合并条件分别是：R₁和R₂位于同一尺度级别中；R₁和R₂属于同一父对象，且两者边界相邻；R₁和R₂的属性向量c₁和c₂满足：D_KL(c₁||c₂)＜th_merge，其中，D_KL为KL散度，th_merge为合并阈值，建议th_merge取值为0.2。

所述的方法，其所述步骤4.3在计算相似匹配度时，对于给定的两个有向无环图t＝(V，E，Ψ)和t′＝(V′，E′，Ψ′)，通过最大化相似度量S_tt′，寻找满足要求的同构子树t_iso：U→U ′，其中，V和E为对象结点和边界的集合，Ψ为结点特征属性ψ_v的向量，

相似度S_tt′的定义如下：

S_{t t^{'}} \overset{Δ}{=} \max_{t_{iso} &Subset; V_{t} \times V_{t^{'}}} \underset{(v, v^{'}) &Element; t_{iso}}{Σ} [\min (e_{v}, e_{v^{'}}) - m_{v v^{'}}] - - - (7)

其中，显著性代价e_v和编辑代价m_vv′分别为：

\{\begin{matrix} e_{v} \overset{Δ}{=} ξ^{T} ψ_{v} \\ m_{v v^{'}} \overset{Δ}{=} | e_{v} - e_{v^{'}} | = \max (e_{v}, e_{v^{'}}) - \max (e_{v}, e_{v^{'}}) \end{matrix} - - - (8)

其中，ξ为权重因子的向量，且有||ξ||＝1，ξ≥0；

公式(7)的求解等价于在相关图中寻找描述以u和u′为根结点的有向无环图中最大权重簇A_uu′＝(V_A，E_A，S)的过程。依据Motzkin-Straus定理，将最大簇问题转化为连续二次方程的问题，并得到最优解。

所述的方法，其所述步骤5.3中依据的匹配熵为：

其中π_v为每个结点

与

中结点匹配比例。

本发明在基于对象的框架下引入对象语义树模型，利用树结构对图像整体建模，分析对象间存在的语义关联，更够挖掘更多图像中隐含的特征信息；采用匹配学习提取同类目标间的共有最大子树，能够抽象概括目标中包含的各个子类别或部件，并以递归的形式表现子类别或部件间的隶属结构，提高对目标整体结构和类别语义信息的表达精度；同时，整个学习过程中所需的样本图像无需人工标注，并可应用于小规模的训练图像集，具有更高的鲁棒性和适用性。本发明能有效提取绝大多数高分辨率遥感图像下的人造地物目标，在地理信息系统和数字地球系统建设中具有一定的实用价值。

附图说明

图1为本发明基于对象语义树模型的人造地物目标识别方法的流程示意图。

图2为本发明第三步获取对象结点语义信息的模型示意图。

图3为本发明所采用的高分辨率遥感地物目标代表图像集中的部分样例图像。其中，图a1、a2为飞机类目标的样例图像，图b1、b2为油罐类目标的样例图像，图c1、c2为舰船类目标的样例图像，图d1、d2为体育场类目标的样例图像，图e1、e2为航空母舰类目标的样例图像，图f1、f2为植被类目标的样例图像，图g1、g2为建筑物类目标的样例图像，图h1、h2为道路类目标的样例图像。

图4为在图3所示的高分辨率遥感地物目标代表图像集中采用本发明获取飞机类目标的对象语义树示意图。

图5为在图3所示的高分辨率遥感地物目标代表图像集中采用本发明进行地物目标识别的部分结果示意图。其中，图A1、B1、C1分别为不同形态舰船目标的测试图像，图A2、B2、C2分别为与A1、B1、C1对应的舰船目标的识别结果。图D1、D2分别为航空母舰类目标的测试图像与识别结果，图E1、E2分别为体育场类目标的测试图像与识别结果，图F1、F2分别为建筑物类目标的测试图像与识别结果。

具体实施方式

以下结合实施例和附图对本发明进一步说明。

图1为本发明基于对象语义树模型的人造地物目标识别方法的流程示意图，具体步骤包括：

第一步，建立高分辨率遥感地物目标代表图像集：

遥感人造地物目标数据集中的图片从Internet获取。这些图片的分辨率在1米左右。数据集中包括飞机、油罐、舰船、体育场、航空母舰、建筑物、道路、植被等八类目标，每类都由200幅图像组成。图像的平均尺寸为大约300×300和300×450像素大小两种。如图3所示。

制作数据集图像时，需要标记出不同图像的实际地物类别(GroundTruth)。标记过程中采用的是半自动标绘方式，利用Label Me等交互式标记工具将交互与自动整合在一起，以计算机的自动处理能力帮助处理标记数据。

对于每类目标图像，取其中的50幅用于训练，150幅用于测试。

第二步，对训练图像进行多尺度分割：

2.1、设定分割参数，其中尺度因子μ取值4，层次L取值为5，分割系数取值为100，可以计算得到相应的尺度序列S_l：

S_l＝4^5-l l＝1，2，...，5 (10)

以及各个图像不同层次的分割对象块数：

其中I_w和I_h分别为图像长度和高度的像素数，

为上取整高斯函数；

2.2、利用Normalized-cut算法对各个训练图像按照给定的尺度和分割块数进行分割。分割过程是自上而下递归进行的。将给定的第l层图像视为一个四向连接图，把Normalized-cut分割算法与尺度空间下每一层的分割对象块数K_l相关联，获取对图像的一个分割结果。从l-1层开始，依据上一层次的分割结果，重新计算对象块的灰度、纹理等属性，并生成新的连接图继续粗化分割。分割完成后，在得到的不同层次对象间建立上下关联，得到每幅图像的对象树。

第三步，统计对象树各个结点的隐含语义：

3.1、以每个结点对象中心为采样点，通过计算该采样点的局部梯度方向直方图，得到该结点对象的128维SIFT特征向量；

3.2、对所有图像各个层次上提取的SIFT特征进行K-Means聚类量化，聚类中心个数取值为2000，得到通用视觉词汇表；

3.3、应用LDA分析方法对每一个结点对象构建模型，对图像集进行“文档/字”描述，获取算法的数据项，主题个数k取值为20，初始化模型的参数(α，β)后推断其中每幅图像的变分参数

及对数似然，再利用变分参数

来分别更新模型的参数α和β，依此迭代直至参数(α，β)稳定后得到模型参数的最优解，如图2所示；

3.4、对每一个对象，通过变分近似推断方法计算每个对象结点的参数(α，β)和每个对象的(θ，z)的后验概率，能够描述每一个结点对象内包含的隐含主题类别概率分布，可以得到包含各个主题的概率分布，例如，事先定义了20个不同的类别，相当于20个主题，那么可以得到一个20维的概率向量，以类别直方图的形式表示，作为结点的属性描述，图4显示了取参数为L＝5，μ＝4，k＝20时，部分对象树的结果及部分隐含语义对象的表达。

第四步，提取共有最大对象子树：

4.1、对分割对象树进行优化，当树中每对相邻结点满足合并条件时，合并为一个结点，将树结构转换为有向无环图的形式，合并阈值th_merge取值为0.2；

4.2、在每个有向无环图中添加新边，构建传递闭包；

4.3、将所有的有向无环图逐个配对，使用编辑距离操作计算相似匹配度，所有编辑操作的代价总和相加，得到两个有向无环图的最终相似度量；对于J幅遥感地物目标代表图像，共计获得J(J-1)个树对用于计算子树的相似度，当相似度大于相似阈值th_simi时，认为该子树是体现目标共有子目标或部件的区域，其中th_simi值为0.5。

第五步，采用逐步添加法组合所有的最大共有子树，随机选定三种子树组合的不同顺序，选取匹配熵最小值的为目标类别最终的对象语义树，如图4所示，在组合的过程中，需保持结点间的上下级关系，取合并后新结点的属性值为合并前所有结点属性的均值。

第六步，对待识别的图像，先按照本发明之前所述获得对象树结构，并统计结点特征属性；从该对象树中自上而下选取子树，提交给对象语义树模型，获得各个子树的匹配相似度，选取最优相似对应的子树即为目标所在的结构，还原对应的对象结点，即可得到目标的所在区域，如图5所示。

对于所有待识别的图像，比较预测得到的目标类别及区域，和人工标注得到的目标类别及区域，得到识别检测率、准确率和分割错误率，通过重复上述步骤五次，得到识别检测率、准确率和分割错误率的平均值，如表1所示。

表1

Claims

1.一种基于对象语义树模型的遥感图像人造地物目标识别方法，包括以下主要步骤：

第一步，建立遥感地物目标代表图像集；

第二步，对遥感地物目标代表图像集中的图像采用多尺度方法进行分割，得到每幅图像的对象树；

第三步，采用LDA方法对对象树中每一个结点建模，计算树结点对象内包含的隐含类别语义特征；

第四步，获取代表集中所有图像的对象树集合对每一对对象树进行匹配学习，从中提取出共有最大子树；

第五步，采用逐步添加法将所有最大共有子树组合在一起，形成描述目标类别的对象语义树；

第六步，根据对象语义树对人造地物目标进行识别，得到目标的所在区域。

2.如权利要求1所述的方法，其中，

第一步包括：

1.1)根据需要定义J个遥感地物目标类别，类别编号为1～J，J为自然数；

1.2)对每个遥感地物目标类别，选取多幅图像作为该类目标的代表图像；

1.3)对每幅遥感地物目标代表图像进行标绘，标记出目标所在的区域范围；

1.4)将所有J类目标的代表图像合并为遥感地物目标代表图像集；

第二步包括：

2.1)利用指数函数定义线性尺度空间，在尺度S_l和层次l间构建关系，并计算图像各个层次的分割对象块数K_l；

2.2)将给定的第l层图像视为四向连接图，把Normalized-cut分割算法与每层分割对象块数K_l相关联，获取图像分割结果，从l-1层开始，依据上一层分割结果，生成新的连接图继续粗化分割，由上到下递归处理构建对象分割树；

第三步包括：

3.1)对于分割树中的每一个结点对象，在对象所在区域中计算局部梯度方向直方图得到SIFT特征，该SIFT特征为一个128维的特征向量；

3.2)使用K-Means聚类方法对代表集中所有图像各个层次上的SIFT特征进行量化，每个聚类中心的取值对应一个视觉单词，构成通用视觉词汇表，可通过改变聚类中心个数调整单词个数N，N取值范围为500至3000之间；

3.3)对分割树中的每一个结点对象进行视觉单词映射描述，应用LDA分析方法对每一个结点对象构建模型，求解模型参数后计算得到每一个结点对象内包含的隐含主题类别概率分布，步骤如下：

3.3.1)约定映射关系，令特征描述子对应视觉单词w，为N个单词集合中的一项，结点对象对应文档D，由M个单词序列D＝{w₁，w₂，...，w_M}组成；

3.3.2)随机生成一个1×k的向量θ，该向量服从Dirichlet分布，k为主题个数，选择主题z_n服从多项式分布，选择单词w_n的分布p(w_n|z_n，β)为主题z_n的多项式条件分布，单词的概率参数β为k×N矩阵，其中β_ij＝p(w_j＝1|z_i＝1)；

3.3.3)获取结点对象中主题Z、N个单词w及混合参数θ的联合分布，通过变分EM的方法求解LDA模型中控制参数(α，β)的解，其中α反映了图像集合中隐含主题间的相对强弱，β刻画所有隐含主题自身的概率分布；

3.3.4)解得模型参数后，得到每一个对象包含各个类别主题的概率分布，以类别直方图的形式表示；

第四步包括：

4.1)优化分割对象树，考察每个树中的每一对相邻结点，当其满足合并条件时，将两个结点合并为一个结点，以父对象结点的形式插入到待合并区域的上一级，将树结构转换为有向无环图的形式；

4.2)在每个有向无环图的上下级结点中添加新边，构建传递闭包，实现结点间和子结点间的匹配；

4.3)将所有分割树

转换而成的有向无环图逐个配对，使用编辑距离操作计算相似匹配度，所有编辑操作的代价总和相加，得到两个有向无环图的最终相似度量；对于J幅遥感地物目标代表图像，共计获得J(J-1)个树对用于计算子树的相似度，当相似度大于相似阈值th_simi时，认为该子树是体现目标共有子目标或部件的区域，相似阈值取值为0.5；

第五步包括：

5.1)给定子树t和t′，组合树为

其中ε₁＝ε(τ，t)，ε₂＝ε(τ，t′)，依次从

5.2)对于树结点

的区域属性ψ_v，记录之前各轮迭代中结点

5.3)由于取出子树顺序的不同会影响组合结果的不同，随机选定三种组合顺序，计算组合树的匹配熵，选取匹配熵最小值所对应的结果为目标类别最终的对象语义树；

第六步包括，按照本发明第二、三步所述获得待识别图像的对象树结构，从该对象树中自上而下选取子树t₁，t₂，...t_L，提交给对象语义树模型，获得各个子树的匹配相似度s₁，s₂，...s_L，选取最优相似s_best＝arg max_ss_l对应的子树即为目标所在的结构，还原对应的对象结点。

3.如权利要求2所述的方法，其中，所述步骤2.1中的尺度S_l和层次l存在如下关系：

S_l＝μ^L-l l＝1，2，...，L (1)

其中

为分割系数，I_w和I_h分别为图像长宽的像素数，

为上取整高斯函数。

4.如权利要求2所述的方法，其中，所述步骤2.2在计算分割结果时，将图像视为四向连接图G＝(V，E)，V为代表像素的结点集，E为相邻结点的连接边集，然后按照分割数K_l，利用Normalized-cut算法求解分割：

Ncut (A, B) = \frac{cut (A, B)}{assoc (A, V)} + \frac{cut (A, B)}{assoc (B, V)} - - - (3)

其中，A和B为互不相交，且满足A∪B＝V和

w(i，j)为A与B之间所有边对应的权值。

5.如权利要求2所述的方法，其中，所述步骤2.2中，图像中L个层次的尺度序列以尺度因子μ逐层递减，尺度因子μ≥3。

6.如权利要求2所述的方法，其中，所述步骤3.3.3在求解LDA模型中控制参数时，可以获得结点对象中主题Z、N个单词w及混合参数θ的联合分布：

p (θ, z, w | α, β) = p (θ | α) Π_{n = 1}^{N} p (z_{n} | θ) p (w_{n} | z_{n}, β) - - - (4)

通过变分近似推断的方法对数似然下界进行文档集的求和：

定义一个变分的近似分布且参数为

定义分布表达式作为p(θ，z|w，α，β)的后验概率分布，其中γ是Dirichlet参数，

为多项式分布参数，得到

的解：

其中H(α)为Hessian矩阵，g(α)为梯度矩阵；

迭代公式5和6，直至参数(α，β)稳定后得到模型参数的最优解。

7.如权利要求2所述的方法，其中，所述步骤4.1中，对于考察的任意每一对相邻的两个结点R₁和R₂，当且仅当满足三个合并条件时，可以合并为一个结点。这三个合并条件分别是：R₁和R₂位于同一尺度级别中；R₁和R₂属于同一父对象，且两者边界相邻；R₁和R₂的属性向量c₁和c₂满足：D_KL(c₁||c₂)＜th_merge，其中，D_KL为KL散度，th_merge为合并阈值，并阈值为0.2。

8.如权利要求2所述的方法，其中，所述步骤4.3在计算相似匹配度时，对于给定的两个有向无环图t＝(V，E，Ψ)和t′＝(V′，E′，Ψ′)，通过最大化相似度量S_tt′寻找满足要求的同构子树t_iso：U→U′，其中，V和E为对象结点和边界的集合，Ψ为结点特征属性ψ_v的向量，

相似度S_tt′的定义如下：

其中，显著性代价e_v和编辑代价m_vv′分别为：

\{\begin{matrix} e_{v} \overset{Δ}{=} ξ^{T} ψ_{v} \\ m_{v v^{'}} \overset{Δ}{=} | e_{v} - e_{v^{'}} | = \max (e_{v}, e_{v^{'}}) - \max (e_{v}, e_{v^{'}}) \end{matrix} - - - (8)

其中，ξ为权重因子的向量，且有||ξ||＝1，ξ≥0；

公式7的求解等价于在相关图中寻找描述以u和u′为根结点的有向无环图中最大权重簇A_uu′＝(V_A，E_A，S)的过程；依据Motzkin-Straus定理，将最大簇问题转化为连续二次方程的问题，并得到最优解。

9.如权利要求2所述的方法，其中，所述步骤5.3中的匹配熵为：

其中π_v为每个结点

与

中结点匹配比例。