CN105740915B

CN105740915B - 一种融合感知信息的协同分割方法

Info

Publication number: CN105740915B
Application number: CN201610124141.3A
Authority: CN
Inventors: 于慧敏; 杨白
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-03-04
Filing date: 2016-03-04
Publication date: 2019-05-24
Anticipated expiration: 2036-03-04
Also published as: CN105740915A

Abstract

本发明公开了一种融合感知信息的协同分割方法，用于实现对一组包含有共同物体的图片数据集进行联合分割，且每幅图片可能包含有多个共同物体。本方法通过将基于区域的显著性、重复性、空间位置等感知信息作为全局约束项引入能量模型来定义前景似然，充分发挥感知信息的重要作用，同时将分割问题转化为组合优化问题求解，最后利用基于感知的物体结构化约束迭代求解。实验表明，与同类算法相比，本发明提出的融合感知信息的协同分割能量模型与求解方法能够适应各种复杂场景，有效实现物体分割。

Description

一种融合感知信息的协同分割方法

技术领域

本发明涉及一种融合感知信息的协同分割模型，适用于图片的目标协同分割、体育运动画面中的物体分割与图像识别等领域。

背景技术

在计算机视觉领域，图像分割作为图像处理的基本操作过程，是计算机视觉研究领域的基本研究主题，它的解决能够对其他诸如目标分类、识别、跟踪等众多图像处理问题起到很好的推动作用。在实际应用中，医疗诊断、安防监控、人机交互、工业自动化乃至军事制导等领域都与图像分割有着紧密的联系。随着图像信息的增多，人们可以非常容易获取包含有相同物体或者同一类别物体的大量图片，而如何从这类图片中分割出共同物体或同类别相似物体是我们的主要研究内容。协同分割作为新兴的热门研究方向，主要利用包含相同物体或者相同类别物体的多张图片来完成对共同物体的分割。目前已存在较多的关于协同分割的研究工作，然而，纵观有关协同分割领域的研究和应用可知，目前的协同分割领域研究依旧存在诸多技术难题如下：

1)现有的分步式方法不能形成一个统一的框架进行求解，主要在初始化阶段利用多张图像包含相同物体或者相同类别物体这一先验信息，而在后续的算法中没有充分发挥先验信息的作用；

2)目前的主流算法往往对目标的初始化较为敏感，如果初始化的准确率较低则相应的分割效果较差；

3)对一些显著性、空间位置信息等特征的利用尚不够充分。

以上的技术难题为协同分割技术在多媒体领域的广泛应用带来了诸多困扰，开发出一套适用于更多场景的协同分割模型具有较高的应用价值。

发明内容

为了解决现有技术中存在的难题，本发明公开了一种融合感知信息的协同分割模型，该方法适用于对复杂图像数据集的共同物体进行分割。同时提出的基于感知的森林模型框架充分发挥了感知信息的作用，并且能够适应各种复杂场景，有效实现物体分割。

本发明采用以下技术方案：一种融合感知信息的协同分割方法，包含以下步骤：

(1)图像预分割：对于包含共同目标物体的图像数据集I＝{I₁,…,I_N}中的每一幅图像I_i，i＝1,2……,N，进行过分割处理，得到超像素集

(2)融合感知信息的协同分割能量模型构造：一般地，可将基于组合优化框架的能量模型表示为如下，

式中：为前景(背景)似然项，用于估计某特定区域属于前景(背景)的可能性；区域可为任意超像素或超像素组合；当且仅当区域属于前景(区域属于背景)；第一项约束表示对于任意一个超像素其仅能够属于前景或背景中的一类，明确了分割的物理意义。

(3)协同分割能量模型的优化求解：利用前景似然项和背景似然项采用组合优化的算法对超像素进行前背景的再次分类，从而得到目标物体的最终分割；提出基于感知的结构化森林框架，即假设每个超像素对应于一个顶点，对于单目标分割，最后的分割结果由多个邻接的超像素构成，且能够表示为邻接图的子树；对于多目标分割，最后的分割结果可表示为邻接图的多个子树构成的森林。通过建立邻接图根据基于感知的定向搜索方法，生成子树集合并推断最优子树与最优森林的方法确定最后的分割结果。

进一步地，步骤2中的融合感知信息的协同分割能量模型，其具体为：

(2.1)在协同分割的情景下，定义前景似然项融合前景模型与感知信息，具体可表示为

其中，返回区域的前景似然值，值越大表明区域属于前景的可能性越大；定义为区域对应的感知信息项，由区域的显著性、重复性度量值以及空间位置信息等共同决定；M^F为前景模型，度量区域与前景模型的相似程度。

(2.1.1)定义前景模型M^F：采用HSV颜色直方图与空间金字塔匹配模型的线性组合作为前景模型，且定义M^F为参数函数：可表示为

其中HSV颜色直方图通过将H,S,V三个颜色通道分别等分为32、12、12个等分区间，并加入12等分区间的“灰度通道”来描述目标物体，各通道的权重相等。对于空间金字塔匹配模型，使用300个HSV SIFT视觉词的参数设定。其它现有目标模型也可以被采用。

(2.1.2)定义感知信息项：采用融合区域视觉显著性特征、区域重复性特征以及区域空间位置信息的感知信息项，对于区域感知信息项可表示为

式中，分别为归一化至[0,1]后的区域显著性值、区域重复性值和区域空间位置信息值；参数α、β和γ分别为控制上述特征值权重的参数。本文实验中，取α＝1，β＝1，γ＝0.5。

(2.1.2.1)定义区域显著性值：对于图像I_i及超像素集合首先通过显著性检测技术得到原始显著性图θ_i，然后计算每个超像素的平均显著性值如下

式中，θ_ij表示像素j处的显著性值，area(s_m)表示超像素s_m中包含的像素个数。基于每个超像素s_m的平均显著性值θ_im，进一步可计算区域的平均显著性值，

对进行基于图像集范围的归一化处理后，得到

(2.1.2.2)定义区域重复性值：为了利用共同物体在多张图像中重复出现这一先验信息，我们需要通过度量不同图像中任意两个超像素的相似程度来判断那些频繁出现的超像素，并认为这些超像素具有较大可能性属于共同物体。对于超像素特征提取，采取高维特征矢量描述。颜色特征采取矢量量化的HSV颜色描述子(使用k均值聚类得到800维的描述子)；对于纹理信息，采取密集采样的SIFT视觉词袋描述(参数设置为300个视觉词，图像块的边为4像素，间隔为3像素)得到。令c_m和g_m分别表示超像素s_m的HSV颜色特征矢量和SIFT特征矢量。对于图像I_i中任意超像素s_m，计算其与其余图像I_k中最相似的超像素s_m′的距离如下

其中c_m′和g_m′为图像I_k中的超像素s_m′的HSV颜色特征矢量和SIFT特征矢量。根据上式，可得对I_i中任意s_m，均有N-1个距离值{d(s_m,I_k)}_k≠i与之对应，对其中最小的一半距离值求平均得到对于包含有一个或多个超像素的区域利用每个超像素s_m对应的距离以及像素数量权重求加权平均值来估计区域的相似度距离

最后采用s型函数(sigmoid function)定义区域的重复性值，

其中，μ和σ用于控制s型函数的形态。实验中，取μ＝0.35，σ＝0.15可得理想结果。对进行归一化后可得

(2.1.2.3)定义区域空间位置信息：在自然图片中，前景物体与背景在图像中的空间位置分布有着明显的差异，目标物体区域与图像边界的连通性比背景区域明显偏弱。基于这一事实，首先将图像规则地分割为矩形块j，然后采用一种连通性度量来引入这一区域空间位置信息，

为区域中的与边界接触的块数量与图像块总数根式的比值。对降序排序后归一化至区间[0,1](最大值对应到0)，即可得

进一步地，步骤3中的分割能量函数优化求解方法，其具体为：

(3.1)构建邻接图：假设图像中的每个超像素对应于图中的一个顶点，两个相邻的超像素之间由一条边连接，由此构成邻接图对于最终的目标物体分割结果，假设其为邻接图所包含的多个子树构成的森林；

(3.2)推导最大生成树：通过推导可得，若要求解分割结果，实际上可转换为求解最优子树集合的方法，而要求最优子树集合，需要先估计最大生成树；通过基于感知的定向搜索方法来得到所有可能的候选子树集合基于候选子树集合通过最大似然估计的方法得到最大生成树推导如下：

表示所有潜在的生成树集合，表示数据似然概率，最终可导出，

候选子树集合，为某一子树，表示对的最大似然估计，δ(·)为指示函数，δ((x,y)∈C_q)指示边(x,y)是否属于某一子树C_q；为子树C_q与前景似然的相似程度，P(x,y)表示边(x,y)的生成概率，为对P(x,y)的最大似然估计。通过上式可得最大生成树的最大似然估计。

(3.3)搜索分割子树集合：基于最大生成树的最大似然估计求得然后通过动态规划技术在中搜索得到最优子树集合，具体实现步骤如下：

(3.3.1)对于图像I_i，通过对每个超像素计算对应的前景似然值，取最大值的0.6倍作为阈值，将高于阈值的超像素设置为种子超像素，得到种子超像素集然后根据每个种子超像素与前景似然的相似程度进行由高到低排序，得到

(3.3.2)选取最接近前景似然的超像素s¹作为起始节点，以此推断最大生成树并得出相应的最优子树及其对应的分割结果判断此分割结果与前景似然的相似程度：如果相似程度符合条件则认为分割结果有效，否则将设置为空集且将分割结果区域内包含的错误种子超像素反馈至进行删除更新；

(3.3.3)遍历集合找出在之前的最优子树所对应的分割结果区域以外是否存在种子超像素s^k，若存在则重复以上的步骤得到分割结果同理进行与前景似然的相似度判断与后续处理，更新分割结果和种子超像素集合；在完成对种子超像素集合的全部遍历后，我们得到最终针对图像I_i的分割结果和更新后的种子超像素集合并根据这些信息完成前景似然的更新以及种子超像素约束信息的更新，从而使模型的估计更为接近真实场景中存在的变化情况并排除错误的种子超像素，随后开始下一次的迭代，直至最终分割结果不再变化，即得到最终的分割结果。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1)将基于区域显著性、重复性及空间位置信息等的感知信息作为全局约束项引入分割能量函数，充分发挥了感知信息的作用，提高分割效果。

2)基于感知的森林结构框架使得感知信息在优化求解的过程中也得以应用，同时解决了多目标分割的问题。

3)算法对于复杂外观的前景物体能够得到更加完整和精确的分割结果。

附图说明

图1是本发明的整体流程图；

图2是基于感知的森林框架求解过程示意图；

图3是分割结果示意图；

图4是尺度、姿态剧烈变化情况下的多目标分割结果；

具体实施方式

下面结合附图通过具体实施例，对本发明的技术方案做进一步的详细说明。

以下实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例对公开的iCoseg数据集与Oxford flowers17数据集中的多类图像进行处理。这些类别的图像存在着颜色、光照条件、姿态、尺度等剧烈变化，且图像中存在多个共同物体的情况，给现有的分割技术带来巨大的挑战。图1是本发明的整体流程图，图2是基于感知的森林结构框架求解过程示意图，图3是分割结果示意图，图4是尺度、姿态剧烈变化情况下的多目标分割结果。本实施例包含以下步骤：

对进行基于图像集范围的归一化处理后，得到

其中c_m′和g_m′为图像I_k中的超像素s_m′的HSV颜色特征矢量和SIFT特征矢量。根据上式，可得对I_i中任意s_m，均有N-1个距离值{d(sm,I_k)}_k≠i与之对应，对其中最小的一半距离值求平均得到对于包含有一个或多个超像素的区域利用每个超像素s_m对应的距离以及像素数量权重求加权平均值来估计区域的相似度距离

最后采用s型函数(sigmoid function)定义区域的重复性值，

候选子树集合，为某一子树，表示对的最大似然估计，δ(·)为指示函数，δ((x，y)∈C_q)指示边(x,y)是否属于某一子树C_q；为子树C_q与前景似然的相似程度，P(x,y)表示边(x,y)的生成概率，为对P(x,y)的最大似然估计。通过上式可得最大生成树的最大似然估计。

实施效果：

根据上述步骤，选取iCoseg数据库和Oxford flowers 17数据库中的若干图片进行目标分割。图3展示了Oxford flowers 17数据集部分图像的分割结果。图4展示了选自iCoseg数据集的图片进行多目标分割测试的结果。从图4可以看出，本发明对于待分割目标存在尺度、姿态、光照等剧烈变化且图像包含有多个目标的情况下，依然能够得到精确的目标分割结果。

Claims

1.一种融合感知信息的协同分割方法，其特征在于，包含以下步骤：

(2)融合感知信息的协同分割能量模型构造：将基于组合优化框架的能量模型表示为如下：

式中：为前景似然项，用于估计某特定区域属于前景的可能性；为背景似然项，用于估计某特定区域属于背景的可能性；区域和为任意超像素或超像素组合；当且仅当区域属于前景，当且仅当区域属于背景，第一项约束表示对于任意一个超像素其仅能够属于前景或背景中的一类，明确了分割的物理意义；

(3)协同分割能量模型的优化求解：利用前景似然项和背景似然项采用组合优化的算法对超像素进行前背景的再次分类，从而得到目标物体的最终分割；提出基于感知的结构化森林框架，即假设每个超像素对应于一个顶点，对于单目标分割，最后的分割结果由多个邻接的超像素构成，且能够表示为邻接图的子树；对于多目标分割，最后的分割结果可表示为邻接图的多个子树构成的森林；通过建立邻接图根据基于感知的定向搜索方法，生成子树集合并推断最优子树与最优森林的方法确定最后的分割结果。

2.根据权利要求1所述的方法，其特征在于：步骤2具体为：

(2.1)在协同分割的情景下，定义前景似然项融合前景模型与感知信息，具体可表示为：

其中，返回区域的前景似然值，值越大表明区域属于前景的可能性越大；定义为区域对应的感知信息项，由区域的显著性、重复性度量值以及空间位置信息共同决定；M^F为前景模型，度量区域与前景模型的相似程度；

(2.1.1)定义前景模型M^F：采用HSV颜色直方图与空间金字塔匹配模型的线性组合作为前景模型，且定义M^F为参数函数：可表示为：

其中HSV颜色直方图通过将H,S,V三个颜色通道分别等分为32、12、12个等分区间，并加入12等分区间的“灰度通道”来描述目标物体，各通道的权重相等；对于空间金字塔匹配模型，使用300个HSV SIFT视觉词的参数设定；

(2.1.2)定义感知信息项：采用融合区域视觉显著性特征、区域重复性特征以及区域空间位置信息的感知信息项，对于区域感知信息项可表示为：

式中，分别为归一化至[0,1]后的区域显著性值、区域重复性值和区域空间位置信息值；参数α、β和γ分别为控制上述特征值权重的参数，取α＝1，β＝1，γ＝0.5；

(2.1.2.1)定义区域显著性值：对于图像I_i及超像素集合首先通过显著性检测技术得到原始显著性图θ_i，然后计算每个超像素的平均显著性值如下：

式中，θ_ij表示像素j处的显著性值，area(s_m)表示超像素s_m中包含的像素个数；基于每个超像素s_m的平均显著性值θ_im，进一步可计算区域的平均显著性值，

对进行基于图像集范围的归一化处理后，得到

(2.1.2.2)定义区域重复性值：为了利用共同物体在多张图像中重复出现这一先验信息，通过度量不同图像中任意两个超像素的相似程度来判断那些频繁出现的超像素，并认为这些超像素具有较大可能性属于共同物体；对于超像素特征提取，采取高维特征矢量描述；颜色特征采取矢量量化的HSV颜色描述子；对于纹理信息，采取密集采样的SIFT视觉词袋描述得到；令c_m和g_m分别表示超像素s_m的HSV颜色特征矢量和SIFT特征矢量；对于图像I_i中任意超像素s_m，计算其与其余图像I_k中最相似的超像素s_m′的距离如下：

其中c_m′和g_m′为图像I_k中的超像素s_m′的HSV颜色特征矢量和SIFT特征矢量；根据上式，可得对I_i中任意s_m，均有N-1个距离值{d(s_m,I_k)}_k≠i与之对应，对其中最小的一半距离值求平均得到对于包含有一个或多个超像素的区域利用每个超像素s_m对应的距离以及像素数量权重求加权平均值来估计区域的相似度距离

最后采用s型函数(sigmoid function)定义区域的重复性值：

其中，μ和σ用于控制s型函数的形态，取μ＝0.35，σ＝0.15可得理想结果；对进行归一化后可得

(2.1.2.3)定义区域空间位置信息：在自然图片中，前景物体与背景在图像中的空间位置分布有着明显的差异，目标物体区域与图像边界的连通性比背景区域明显偏弱；基于这一事实，首先将图像规则地分割为矩形块j，然后采用一种连通性度量来引入这一区域空间位置信息，

为区域中的与边界接触的块数量与图像块总数根式的比值；对降序排序后归一化至区间[0,1]，最大值对应到0，即可得

3.根据权利要求1所述的方法，其特征在于：步骤3具体为：

为候选子树集合，为某一子树，表示对的最大似然估计，δ(·)为指示函数，δ((x,y)∈C_q)指示边(x,y)是否属于某一子树C_q；为子树C_q与前景似然的相似程度，P(x,y)表示边(x,y)的生成概率，为对P(x,y)的最大似然估计；通过上式可得最大生成树的最大似然估计；

(3.3.2)选取最接近前景似然的超像素s¹作为起始节点，以此推断最大生成树并得出相应的最优子树及其对应的分割结果判断此分割结果与前景似然的相似程度：如果相似程度符合条件则认为分割结果有效，否则将设置为空集，且将分割结果区域内包含的错误种子超像素反馈至进行删除更新；

(3.3.3)遍历集合找出在之前的最优子树所对应的分割结果区域以外是否存在种子超像素s^k，若存在则重复以上的步骤得到分割结果同理进行与前景似然的相似度判断与后续处理，更新分割结果和种子超像素集合；在完成对种子超像素集合的全部遍历后，得到最终针对图像I_i的分割结果和更新后的种子超像素集合并根据这些信息完成前景似然的更新以及种子超像素约束信息的更新，从而使模型的估计更为接近真实场景中存在的变化情况并排除错误的种子超像素，随后开始下一次的迭代，直至最终分割结果不再变化，即得到最终的分割结果。