CN103177450A

CN103177450A - 一种基于构件集采样的图像场景分割与分层联合求解方法

Info

Publication number: CN103177450A
Application number: CN201310125473XA
Authority: CN
Inventors: 陈小武; 李青; 赵沁平; 宋亚斐; 刘怡
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2013-04-11
Filing date: 2013-04-11
Publication date: 2013-06-26
Anticipated expiration: 2033-04-11
Also published as: CN103177450B

Abstract

本发明公开了一种基于构件集采样的图像场景分割与分层联合求解方法，包括:对输入图像进行过分割处理，得到图像的超像素集;在训练数据集上训练得到语义类别的判别式模型和层次类别的判别式模型，并根据这两个模型获得输入图像中每个超像素属于每一语义类别的概率值和每一层次类别的概率值;构建输入图像的候选图结构，计算节点权重值、正边权重值和负边权重值。在此候选图结构上，利用构件集采样算法推理得到最优解，该最优解包含输入图像的每个超像素的准确语义类别和准确层次类别。本发明能广泛应用于军事、航空、航天、监控和制造等计算机视觉系统的语义信息和层次信息标记。

Description

一种基于构件集采样的图像场景分割与分层联合求解方法

技术领域

本发明涉及计算机视觉和图像场景理解领域，具体地说是一种基于构件集采样的图像场景分割与分层联合求解方法。

背景技术

整体场景理解是计算机视觉领域中重要的研究问题，其涵盖了对二维平面之外的立体世界的理解，即不仅能对二维场景进行识别、分割、语义类别，更需要对场景中的语义对象之间的立体关系进行理解。国际上有很多的学者致力于该问题的研究，包括图像分割与语义类别的研究，场景平面朝向恢复的研究以及场景深度信息恢复的研究。这些问题的研究，都隶属于场景理解的研究范畴，并且每一个研究问题都是计算机视觉和图像场景理解领域的基础而重要的问题。

目前有很多学者提出了从单张图像进行其一个方面的整体场景理解方法。2006年，剑桥大学的Shotton等人提出了一种判别式模型用来进行图像场景语义分割。该判别式模型利用了纹理类型和它们之间的空间位置关系集，并通过增强分类器来学习得到。2007年，卡内基梅隆大学的Hoiem等人提出一种利用底层边界和区域特征来识别图像场景中区域之间遮挡关系的方法，该方法能在一定程度上恢复场景对象之间的空间关系。2008年东芝公司研究中心的Shotton等人提出了一种利用纹理基元特征建立语义纹理森林的方法，并利用语义纹理森林进行图像识别分类和语义类别。2008年，斯坦福大学的SaXena等人提出一种直接利用图像中底层特征恢复出场景深度信息的方法。2010年，斯坦福大学的Liu等人提出了一种基于图像场景语义类别的图像场景深度信息估计方法。该方法利用语义类别信息作为深度估计的先验，并同时结合了利用底层特征的条件随机场模型，求解得到单幅图像中每一个像素点的深度值。2010年，加州大学欧文分校的Yang等人提出了一种利用对象层次关系来恢复形状先验，并利用形状先验来辅助图像场景语义分割的方法。

以上这些研究现状表明，目前该领域的学者只关注整体场景理解其中的某一个方面，没有将整个场景理解统一到一个整体框架中来。由该领域的研究发展趋势可以看出，将场景理解的所涉及到的几个问题相互关联起来，从而获得相互的辅助功效，己经越来越成为当前的主流方向。为了在高层信息上理解整个场景的结构，需要对图像进行语义理解和分割，并且恢复出这些语义区域之间的空间位置关系。本发明的工作是将图像场景的语义类别和层次关系估计统一到一个整体框架下来联合求解。

发明内容

本发明针对现有技术的存在的缺陷，提供一种基于构件集采样的图像场景分割与分层联合求解方法，该方法能够得到图像场景的语义类别信息和场景对象的层次关系。

本发明提供的技术方案为:

一种基于构件集采样的图像场景分割与分层联合求解方法，包含:

步骤1、依据颜色相近、纹理相似和位置相邻原则，将输入图像分割成n个超像素，其中定义任一超像素中包含的所有像素属于同一语义类别和同一层次类别;

步骤2、选取训练数据集，其包括:m种语义类别利由该m种语义类别标记的多张二维图像一一对应的多张三维扫描的深度图;

步骤3、对每张三维扫描的深度图进行层次划分和归类，得到w种层次类别;

步骤4、在训练数据集上统计得到任意两种语义类别的层次差异的先验分布值;

步骤5、在训练数据集上训练得到语义类别的判别式模型和层次类别的判别式模型;

步骤6、利用语义类别的判别式模型和层次类别的判别式模型计算得到n个超像素分别属于每一语义类别的概率值和每一层次类别的概率值;

步骤7、将一个超像素的一种语义类别和该超像素的一种层次类别组合构成一个节点，即每一超像素中含有m×w个节点，

同一超像素中的节点之间通过负边连接，分别隶属于不相邻的超像素中的节点之间不连接，

若两个节点分别隶属于相邻的两个超像素且构成这两个节点的语义类别相同，则计算两个节点所属的超像素之间的纹理特征差异值，若纹理特征差异值小于设定的纹理阈值，则这两个节点之间用正边连接，若纹理特征差异值大于设定的纹理阈值，则这两个节点之间用负边连接，

若两个节点分别隶属于相邻的两个超像素且构成这两个节点的语义类别不同，则在训练数据集上查找构成这两个节点的两种语义类别的层次差异的先验分布值，若构成这两个节点的两种语义类别的层次差异的先验分布值小于设定的语义类别的层次差异的先验分布阈值，则这两个节点之间用正边连接，若构成这两个节点的两种语义类别的层次差异的先验分布值大于设定的语义类别的层次差异的先验分布阈值，则这两个节点之间通过负边连接;

步骤8、节点、正边和负边共同构建成输入图像的候选图结构，在候选图结构上，构建贝叶斯概率模型，计算节点的权重值、正边的权重值和负边的权重值;

步骤9、在候选图结构上，通过基于贝叶斯模型概率采样算法的构件集算法得到每个超像素的准确语义类别和准确层次类别。

优选的是，所述的基于构件集采样的图像场景分割与分层联合求解方法中，所述步骤1中，对输入图像的分割采用的是过分割算法。

优选的是，所述的基于构件集采样的图像场景分割与分层联合求解方法中，所述步骤3中，w的值为:3≤w≤11。

优选的是，所述的基于构件集采样的图像场景分割与分层联合求解方法中，所述步骤5中，通过自适应增强分类器算法在训练数据集上训练得到语义类别的判别式模型和层次类别的判别式模型。

优选的是，所述的基于构件集采样的图像场景分割与分层联合求解方法中，所述步骤8中，每一节点权重值由构成该节点的语义类别的概率值和层次类别的概率值共同决定。

优选的是，所述的基于构件集采样的图像场景分割与分层联合求解方法中，所述步骤8中，同一超像素中的节点之间连接的负边的权重值为负值，

若隶属于相邻超像素且构成这两个节点的语义类别相同，则这两个节点之间的正边或负边的权重值，由这两个节点分别所隶属的两个超像素之间的纹理特征的差异值和设定的纹理阈值共同决定，

若隶属于相邻超像素且构成这两个节点的语义类别不同，则这两个节点之间的正边或负边的权重值，由构成这两个节点的两种语义类别的层次差异的先验分布值和设定的语义类别的层次差异的先验分布阈值共同决定。

优选的是，所述的基于构件集采样的图像场景分割与分层联合求解方法中，所述步骤9通过以下方式实现的:

a、随机在每一超像素中选取一个节点，定义被选取的节点为开态，未被选取的节点为关态;

b、定义连接开态节点之间的正边或负边为开态正边或开态负边，连接未被选取的节点之间的正边或负边定义为关态正边或关态负边;

c、r个开态节点和连接这r个开态节点之间的开态正边组成一个连通量，多个通过开态负边连接的连通量组成了一个构件集，输入图像中包括多个构件集;

d、随机选取一个构件集;

e、将当前被选取的构件集状态记为A状态，在被选取的构件集中，依照在每一超像素中选取一个节点为开态节点的原则，变换该构件集的状态，即再在被选取的构件集中的所有节点所隶属的超像素中重新随机选取节点为开态节点，开态正边和开态负边也根据新开态节点重新选取，此时形成新的被选取的构件集状态记为B状态，依据Metropolis-Hastings规则，依概率确定B状态是否被接受;若接受，则当前状态更新为B状态，同时记录B状态为当前解，若拒绝，则当前状态仍为A状态;

f、判断是否满足迭代终止条件，若满足，则当前解所对应的每个开态节点的语义类别和层次类别即为该开态节点所隶属的超像素的准确语义类别和准确层次类别，若不满足，则重复d到f直到得到所有的超像素集的准确语义类别和准确层次类别。

本发明针对目前场景整体理解技术中存在的问题，首次将图像场景语义类别和层次类别问题放在一个统一框架下进行联合求解，降低了场景整体理解的技术难度;本发明在建立候选图结构的基础上，将图像场景语义类别和层次类别联合求解问题转化为多类别图像着色问题，而且输入图像的每一个超像素由其语义类别概率值和层次类别概率值组成，因此在构建候选图像结构的节点时，每个节点既包含语义类别也包含层次类别，候选图结构的边与它连接的两个节点相关，即边属性与节点的语义类别概率值和层次类别概率值相关，不仅增加了对输入图像三维立体理解，还大大提高了场景整体理解非人准确性，同时扩大了可分析图像的范围。本发明可以广泛应用于军事、航空、航天、监控和制造等计算机视觉系统的语义信息和层次信息标记。

附图说明

图l(a)为本发明的分割的输入图像的示意图。

图l(b)为本发明的输入图像的超像素的语义类别和层次类别的示意图

图2为本发明的候选图结构的节点、正边和负边的示意图。

图3(a)为本发明的一个构建集状态A状态的示意图。

图3(b)为本发明的一个构建集状态B状态的示意图。

图4为本发明的算法流程图。

图5为本发明的最大后验概率解示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

本发明提供了一种基于构件集采样的图像场景分割与分层联合求解力法。该方法能够得到图像场景的语义类别信息和场景对象的层次关系。总体流程如下:对输入图像进行过分割处理，得到输入图像的超像素，其中输入图像的每个超像素里的所有像素属于同一个语义类别和同一个层次类别;在训练数据集上训练得到语义类别的判别式模型和层次类别的判别式模型，并根据这两个模型获得输入图像中每个超像素属于每一语义类别的概率值和每一层次类别的概率值;节点、正边和负边构建成输入图像的候选图结构，计算节点的权重值、正边的权重值和负边的权重值。在候选图结构上，利用构件集采样算法推理得到最优解，该最优解包含输入图像的每个超像素的准确语义类别和准确层次类别。

根据上述总体流程，首先对输入图像进行过分割处理，得到输入图像的超像素集。如图l(a)所示，为经过过分割处理后的输入图像。本发明依据颜色相近、纹理相似和位置相邻原则，采用了目前较为成熟且效果较好的过分割算法，对于320*240像素大小的输入图像，过分割得到的超像素数目大约在200个左右。

选取训练数据集，本发明中的训练数据集是本领域公共测试数据集，训练数据集包括:8种语义类别、这8种语义类别标记的多张二维图像和与多张二维图像一一对应的多张三维扫描的深度图。每张三维扫描的深度图的深度值范围为0到81米。根据训练数据集中深度值的分布规律，将深度值范围划分为11个层次，由此将三维扫描的深度图的深度信息转化为层次信息，即训练数据集中包含有11个层次类别。在训练数据集上，通过自适应增强分类器算法得到语义类别的判别式模型和层次类别的判别式模型。

本发明利用了经典的纹理增强算法，在训练数据集的像素级上提取17纯度的纹理基元特征作为语义类别的判别式模型的特征向量，对于输入图像提取同样的17维度特征，得到输入图像的每一个像素点属于每一种语义类别的概率值，将属于输入图像的同一个超像素的所有像素点的同一种语义类别的概率值加权求平均后，所得的平均值即输入图像的该超像素属于这种语义类别的概率值，以此类推，得到输入图像的所有超像素在所有语义类别的概率值;在训练数据集上，将三维扫描的深度图中属于同一个超像素的所有像素点的层次类别数值加权求平均值，以该平均值的整数部分作为该超像素的层次类别，在训练数据集的超像素级上提取13维度的深度特征，训练层次类别的判别式模型，对于输入图像的每一个超像素提取同样的13维度特征，得组每个超像素属于每一种层次类别的概率值。如图l(b)所示，在相邻两个超像素i和j中，左串上是该超像素属于每种语义类别的概率值，右串上是该超像素属于每种层次类别的概率值，概率值的大小以条形块的长短来显示。图l(b)只显示了输入图像的5种语义类别和5种层次类别。

本发明构建了一种输入图像的候选图结构G＝＜V，E＞，其中V为候选图结构的节点集合，E为候选图结构的边集合。候选图结构的边包括正边和负边。候选图结构的节点定义如下:输入图像的超像素的语义类别和输入图像的层次类别组合，以一个组合作为候选图结构的节点c。对于输入图像的一个超像素来说，它有8*11个节点。整个输入图像中所有超像素的所有节点即为该输入图像的候选图结构的节点集合。现在每个节点有4个属性，除了组成该节点的语义类别labcl和层次类别layer之外，还有该节点所隶属的输入图像的超像素索引sp_num。该节点的权重W_c，c＝(sp_mun，label_c，layer_c，W_c)。

候选图结构的边分为正边和负边E＝＜E⁺，E^-＞，正边和负边均具有权重W_e，对于隶属于输入图像的同一个超像素的两个节点用负边连接它们，

节点权重值、正边和负边的建立以及正边和负边的权重值具体确定过程:本发明建立了图像场景语义类别和层次类别同时求解问题的贝叶斯概率模型，如以下公式所示，其中W^*是本发明要求的最大后验概率解，P(W)是先验概率，P(U|W)是似然概率。

W^*＝argmaxp(W|I)＝argmaxP(W)P(I|W)

本发明采用了一个假设条件，即语义类别和层次类别不是相互独立的，它们之间具有关联关系，因此先验概率由三部分组成:语义类别的先验概率P(W|Zabel)、层次类别的先验概率P(W|Layer)，语义和层次联合作用的先验概率P(W|Label∩Label)。

P(W)＝P(W|Label))P(W|Layer)P(W|Label∩Layer)

具体来说，如以下公式所示，其中，eXp{-α₁L-α₂D}作为能量调节项。根据语义类别和层次类别的先验分布可知，候选图像中出现的语义类别和层次类别是在一定范围内的，当候选图像中语义类别和层次类别数目过多时，该项用作惩罚函数。β⁺和β⁺是正边和负边的能量系数。1(·)∈{0，1}是指示函数:

P (W) &Proportional; \exp {- α_{1} L - α_{2} D} \underset{e &Element; E^{+}}{Π} \exp {β^{+} 1 (S_{i} = S_{j})} \underset{e &equiv; E^{-}}{Π} \exp {β^{-} 1 (S_{i} &NotEqual; S_{j})}

似然概率是当前解表现出候选图结构的特征的可能性，是由语义类别的判别式模型和层次类别的判别式模型根据候选图结构的特征得到的语义类别概率值和层次概率值共同决定的，如以下公式所示:

P(I|W)＝P(Label|W)P(Layer|W)P(label∩Layer|W)

具体说来，

P (I | W) &Proportional; Π_{k = 1}^{K} \exp {- E ({sp}_{Label}^{k} | W)} Π_{k = 1}^{K} \exp {- E ({sp}_{Layer}^{k} | W)} Π_{k = 1}^{K} \exp {- E ({sp}_{Label \cap Layer}^{k} | W)}

其中，sp是输入图像的超像素，K是输入图像中超像素的个数。

根据该贝叶斯概率模型，每个节点的权重值是由它对应的一种语义类别概率值和一种层次类别概率值共同决定的，节点的权重值定义如以下公式所示，其中

为归一化算子，P（Label_c)和P(Layer_c)分别是由语义类别的判别式模型得到的节点c的一种语义类别的概率值和由层次类别的判别式模型得到的节点c的一种层次类别的概率值，λ_c是语义类别的先验值和层次类别的先验值，是在训练数据集中统计得到的。该先验值表示，对于c的语义类别Label_c和层次类别Layer_c,Label_c出现在层次Layer_c时的频率。

P_{c} = \frac{1}{Z} λ_{c} P ({Label}_{c}) P (Laye r_{c})

由于边分为正边和负边:输入图像的同一个超像素的节点之间用负边连接，且这种负边的权重值为-1，称之为绝对负边;分别隶属于不相邻的超像素中节点之间不连接;相邻的超像素中的节点之间，如果构成它们的语义类别相同，则计算两个节点所属的超像素之间的纹理特征差异值，若纹理特征差异值小于设定的纹理阈值，则这两个节点之间用正边连接，若纹理特征差异值大于设定的纹理阈值，则这两个节点之间用负边连接，若两个节点分别隶属于相邻的两个超像素且构成这两个节点的语义类别不同，则在训练数据集上查找构成这两个节点的语义类别的层次差异的先验分布值，若构成这两个节点的语义类别的层次差异的先验分布值小于设定的语义类别的层次差异的先验分布阈值，则这两个节点之间用正边连接，若构成这两个节点的语义类别的层次差异的先验分布值大于设定的语义类别的层次差异的先验分布阈值，则这两个节点之间通过负边连接，具体为:输入图像的相邻的超像素之间的节点，如果构成它们的语义类别相同，边的权重值由语义类别函数来度量，如果它们的语义类别不相同，那么边的权重值由层次类别函数来度量，θ_l是设定的纹理阈值，θ_d是设定的语义类别的层次差异先验分布阈值，边的权重值为R_e;具体说来函数是计算输入图像的两个超像素之间的纹理特征差异值ssd，如果ssd差异值小于θ_l，这两个节点之间用正边连接，且R_e=abs(ssd)，否则这两个节点之间用负边连接，且R_e=-abs(ssd-0.05)；

函数是输入图像的两个超像素之间的层次差异先验分布值pd，该层次差异的先验分布值通过在训练数据集上统计得到，即在已知两种语义类别情况下，它们的层次差异的先验分布值。如果pd小于θ_d，则这两个节点之间通过正边连接，且P_e＝pd，否则这两个节点之间通过负边连接且P_e＝-abs(pd-0.5)。

其中

如图2所示，输入图像的超像素i的第二个节点与其相邻的超像素j的第二个节点用较粗的正边连接;输入图像的超像素i的最后一个节点与输入图像的超像素j的倒数第二个节点用较细的负边连接。对于隶属于输入图像的同一个超像素的两个节点。部用负边连接它们，如图2中输入图像的超像素i上的节点用较细的负边连接。

至此，本发明己将贝叶斯概率模型建立在了该候选图结构上，求解贝叶斯概率模型的最大后验概率解转换成候选图像的多类别图着色问题。利用构件集采样算法，求解最大后验概率解。具体说来，随机在每一超像素中选取一个节点，定义被选取的节点为开态，未被选取的节点为关态，即S_c，s_c∈{on，off};定义连接开态节点之间的正边或负边为开态正边或开态负边，连接未被选取的节点之间的正边或负边定义为关态。

首先r个开态节点和连接这r个开态节点之间的开态正边组成一个连通量CCP，然后将由开态负边连接的多个CCP组成一个构件集CCCP，整个候选图结构包含若干个构件集。在这些构件集中，随机选择一个构件集V_cc，当前状态为A状态。依据在每一超像素中选取一个节点为开态节点的原则，变换构件集的状态，即再在被选取的构件集中的所有节点所隶属的超像素中重新随机选取节点为开态节点,V_cc形成新的B状态。如图3(a)所示，对于左图中的输入图像的超像素2、输入图像的超像素3和输入图像的超像素i上，都有一个较大的节点，该节点即为输入图像的该超像素当前被选中的节点，即开态节点。这三个节点是由较粗的开态正边连接的，由输入图像的超像素2，输入图像的超像素3和输入图像的超像素i组成了一个连通量CCP_i，同理，输入图像的超像素5和输入图像的超像素j组成了另一个连通量CCP_j。输入图像的超像素i和输入图像的超像素j的开节点由较细的开态负边连接，输入图像的超像素3和输入图像的超像素5的开节点由较细的开态负边连接，因此CCP_i和CCP_j是由开态负边连接的，它们组成一个构件集V_cc。变换V_cc的状态，重新随机选择V_cc中的节点为开态节点，即将当前V_cc中的开态节点变为关态，再在V_cc中每个超像素中随机选择关态节点中的一个为开态节点，并根据新开态节点确定新的开态正边和新的开态负边，如图3(b)所示，状态B为新的状态，即输入图像的超像素2和输入图像的超像素i组成了一个CCP，输入图像的超像素3、输入图像的超像素5和输入图像的超像素j组成了另一个CCP。根据Metropolis-Hasings规则，依概率地接受B状态，如以下公式所示，a(A→B)即为状态A到状态B的接受概率，P(A→B)是状态A到状态B的推荐概率，P(B→A)是状态B到状态H的推荐概率。P(W=A|I)是在给定场景I下状态A可能出现的概率，本发明将其定义为状态A下的所有开状态节点的概率乘积。

α (A &RightArrow; B) = \min (1, \frac{P (B &RightArrow; A) P (W = B | I)}{P (A &RightArrow; B) P (W = A | I)})

\frac{P (W = B | I)}{P (W = A | I)} = \frac{\underset{c &Element; V_{B}}{Π} P_{c}}{\underset{c &Element; V_{A}}{Π} P_{c}} = \frac{\underset{c &Element; V_{B}}{Π} \exp {- W_{c}}}{\underset{c &Element; V_{A}}{Π} \exp {- W_{c}}},

\frac{P (B &RightArrow; A)}{P (A &RightArrow; B)} = \frac{P (v_{cc} | B) P (turning (v_{cc} = A) | B)}{P (v_{cc} | A) P (turning (v_{cc} = B) | A)}

p(A→B)是由两项组成，第一项是状态A下随机产生V_cc的概率P(v_cc|A)，第二项是状态A下v_cc变化到状态B的概率。在状态A和状态B下v_cc，它的节点的状态是随机被选取的，本发明默认为概率相同，即均匀分布，因此通过

抵消第二项。将P(v_cc|A)定义为A状态下所有开状态边的乘积，包括正边和负边。

\frac{P (v_{cc} | B)}{P (v_{cc} | A)} = \frac{\underset{e &Element; E_{B^{+}}}{Π} P_{e^{+}} \underset{e &Element; E_{B^{-}}}{Π} P_{e -}}{\underset{e &Element; E_{A^{+}}}{Π} P_{e^{+}} \underset{e &Element; E_{A^{-}}}{Π} P_{e -}}

根据以上公式，依概率地接受新的状态，记录下接受的状态作为一个解，直到满足迭代终止条件时，在记录下的所有解中取最优解，直到求解得到最大后验概率解，算法流程图如图4所示。迭代终止条件为满足一定的迭代次数或者连续拒绝新状态的次数超过规定阈值数。输入图像的每个超像素的节点中只有一个节点会被选中，当求得最大后验概率解时，输入图像的每个超像素被选中的节点具有的语义类别和层次类别，即是该超像素准确语义类别和准确层次类别。如图5所示，最终解时，输入图像的超像素i上的开状态节点和输入图像的超像素j上的开态节点所对应的语义类别Label_j与Label_j和层次类别Layer_j和Layer_j，即输入图像的超像索i和输入图像的超像素j的准确语义类别信息和准确层次类别。

尽管本发明的实施方案已公开如上。但其并不仅仅限于说明书和实施力式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于构件集采样的图像场景分割与分层联合求解方法，其特征在于，包含：

步骤1、依据颜色相近、纹理相似和位置相邻原则，将输入图像分割成n个超像素，其中定义任一超像素中包含的所有像素属于同一语义类别和同一层次类别；

步骤2、选取训练数据集，其包括：m种语义类别和由该m种语义类别标记的多张二维图像一一对应的多张三维扫描的深度图；

步骤3、对每张三维扫描的深度图进行层次划分和归类，得到w种层次类别；

步骤4、在训练数据集上统计得到任意两种语义类别的层次差异的先验分布值；

步骤5、在训练数据集上训练得到语义类别的判别式模型和层次类别的判别式模型；

步骤6、利用语义类别的判别式模型和层次类别的判别式模型计算得到n个超像素分别属于每一语义类别的概率值和每一层次类别的概率值；

若两个节点分别隶属于相邻的两个超像素且构成这两个节点的语义类别不同，则在训练数据集上查找构成这两个节点的两种语义类别的层次差异的先验分布值，若构成这两个节点的两种语义类别的层次差异的先验分布值小于设定的语义类别的层次差异的先验分布阈值，则这两个节点之间用正边连接，若构成这两个节点的两种语义类别的层次差异的先验分布值大于设定的语义类别的层次差异的先验分布阈值，则这两个节点之间通过负边连接；

步骤8、节点、正边和负边共同构建成输入图像的候选图结构，在候选图结构上，构建贝叶斯概率模型，计算节点的权重值、正边的权重值和负边的权重值；

2.如权利要求1所述的基于构件集采样的图像场景分割与分层联合求解方法，其特征在于，所述步骤1中，对输入图像的分割采用的是过分割算法。

3.如权利要求1所述的基于构件集采样的图像场景分割与分层联合求解方法，其特征在于，所述步骤3中，w的值为：3≤w≤11。

4.如权利要求1所述的基于构件集采样的图像场景分割与分层联合求解方法，其特征在于，所述步骤5中，通过自适应增强分类器算法在训练数据集上训练得到语义类别的判别式模型和层次类别的判别式模型。

5.如权利要求1所述的基于构件集采样的图像场景分割与分层联合求解方法，其特征在于，所述步骤8中，每一节点权重值由构成该节点的语义类别的概率值和层次类别的概率值共同决定。

6.如权利要求1所述的基于构件集采样的图像场景分割与分层联合求解方法，其特征在于，所述步骤8中，同一超像素中的节点之间连接的负边的权重值为负值，

7.如权利要求1所述的基于构件集采样的图像场景分割与分层联合求解方法，其特征在于，所述步骤9通过以下方式实现的：

a、随机在每一超像素中选取一个节点，定义被选取的节点为开态，未被选取的节点为关态；

b、定义连接开态节点之间的正边或负边为开态正边或开态负边，连接未被选取的节点之间的正边或负边定义为关态正边或关态负边；

c、r个开态节点和连接这r个开态节点之间的开态正边组成一个连通量，多个通过开态负边连接的连通量组成了一个构件集，输入图像中包括多个构件集；

d、随机选取一个构件集；

e、将当前被选取的构件集状态记为A状态，在被选取的构件集中，依照在每一超像素中选取一个节点为开态节点的原则，变换该构件集的状态，即再在被选取的构件集中的所有节点所隶属的超像素中重新随机选取节点为开态节点，开态正边和开态负边也根据新开态节点重新选取，此时形成新的被选取的构件集状态记为B状态，依据Metropolis-Hastings规则，依概率确定B状态是否被接受，若接受，则当前状态更新为B状态，同时记录B状态为当前解，若拒绝，则当前状态仍为A状态；