CN105760886A

CN105760886A - 一种基于目标识别与显著性检测的图像场景多对象分割方法

Info

Publication number: CN105760886A
Application number: CN201610099473.0A
Authority: CN
Inventors: 李青; 袁家政
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2016-02-23
Filing date: 2016-02-23
Publication date: 2016-07-13
Anticipated expiration: 2036-02-23
Also published as: CN105760886B

Abstract

本发明公开了一种基于目标识别与显著性检测的图像场景多对象分割方法，包括：在图像训练集上训练语义对象的检测器，并检测输入图像中对象的位置，标定对象的包围盒；对输入的图像进行过分割处理，得到超像素集合，根据包围盒的位置和超像素的语义概率值，计算兴趣区域；在三种稠密尺度上进行场景显著性检测，得到图像的显著图；在兴趣区域内，计算超像素的邻接关系，每一个对象是一种类别；以每个超像素作为场模型的节点，超像素的邻接关系对应场模型中节点之间的连接关系，将显著性和图像特征转化为节点和边的权重值；利用图割算法，在条件随机场模型上进行优化，迭代终止时得到像素的对象标记结果，从而实现多个对象的分割。

Description

一种基于目标识别与显著性检测的图像场景多对象分割方法

技术领域

本发明涉及计算机视觉、图像处理领域内的图像场景理解研究点，具体地说是一种基于目标识别与显著性检测的图像场景多对象分割方法。

背景技术

图像场景语义分割是计算机视觉、图像处理领域内的一个研究难点和研究热点，它涉及到很多应用行业，如智慧旅游、智能交通、公共安全、影视娱乐等。目前，大多数场景语义分割方法还处于场景类别层次的语义分割，即划分出场景中不同类别内容的区域。例如，微软剑桥研究院的Shotton等提出了语义标记的概念，并实现了集识别、分割与标记于一体的场景类别级语义分割算法；麻省理工学院的Liu等提出了一种非参数的场景解析方法，并首次将这种方法定义为语义迁移方法。加州大学默塞德分校的Yang等提出了一种关注于稀少类别的上下文驱动的场景解析方法。随着行业技术的发展，这种类别级的划分，越来越难以满足实际应用对场景内容和对象区域的需求。例如，存在这样的需求：在安全监控系统中，当场景中有多个人出现时，需要算法能够把每个人都划分出来，以便于进一步的分析。然而对于一个场景中出现多个同类别对象的情况，目前还没有较好的方法能够将这多个对象分割出来。

另一方面，在单个对象分割领域，国内外学者提出了一些较为有效的场景对象分割方法，如对象抠取算法、对象共分割算法等。例如，微软剑桥研究院的Rother等提出了对象共分割的概念，将多张图像中的相似对象同时分割出来；明尼苏达大学的Bai等提出了一系列图像和视频对象的抠取算法，通过用户交互提供潜在的对象先验信息。但是这些方法基本上围绕着图像中的视觉内容进行划分，缺少了语义信息，继而也缺少了语义所对应的先验信息，即无法识别和理解所分割对象的语义。

这种情况已经引起国内外的学者们的关注，因此目前的研究工作开始逐步的面向场景对象语义分割。例如，澳大利亚国立大学的Gould等提出一种基于样例随机场模型的图像多对象分割方法，北卡罗莱纳大学教堂山分校的Tighe等提出一种基于样例检测的区域级图像解析方法。由于对象的语义分割本身难度非常大，该方向的研究工作还处于一个初始阶段。针对上述研究现状与存在的问题，本发明提出一种基于目标识别与显著性检测的图像场景多对象分割方法，旨在能够提供准确的具有语义类别信息的多对象区域划分。

发明内容

为了实现上述目的，本发明采取了如下技术方案：

一种基于目标识别与显著性检测的图像场景多对象分割方法，包含：

步骤1、在图像训练集上训练语义对象的检测器，针对输入的测试图像，利用识别分类器给出像素点的语义概率值，利用训练好的检测器检测对象的位置，并标定对象的包围盒，确定对象的大致范围及大致数量；

步骤2、将输入的测试图像进行过分割处理，得到超像素集合，根据包围盒的位置和超像素的语义概率值，计算兴趣区域；

步骤3、对输入的测试图像在三种稠密尺度上进行场景显著性检测，得到像素级的显著图，再根据超像素与像素的对应关系，将像素级的场景显著性转化成超像素级的场景显著值；

步骤4、在兴趣区域内，计算超像素的邻接关系，形成邻接矩阵，兴趣区域外的超像素不在计算范围内；构建条件随机场模型，将多对象分割问题转化成多类别标记问题，每一个对象是一种类别；以每个超像素作为场模型的节点，超像素的邻接关系对应场模型中节点之间的连接关系，为节点和边赋予权重值；

步骤5、利用图割算法，在条件随机场模型上进行优化，迭代终止时得到像素的对象标记结果，从而实现多个对象的分割。

所述步骤1中，标定对象的包围盒时，给出多个包围盒候选。候选包围盒的选择依据是，根据包围盒的分值进行排序，选择分值最高的前5个包围盒，待分割的对象数量不超过包围盒的数量。

所述步骤2中，兴趣区域的计算方式如下：依次遍历5个包围盒，如果包围盒的分值大于设定阈值T1，则在超像素集合中确定处于该包围盒范围内的超像素子集，如果一个超像素80％以上的像素点处于该包围盒范围内，则认为该超像素处于该包围盒范围。所有分值大于T1的包围盒的超像素子集，以及语义概率值大于一定阈值T2的区域的合集构成兴趣区域。

所述步骤3中，测试图像的三种稠密尺度的显著性检测过程如下：尺度一，每隔4个像素点取一个像素点作为滑动窗的中心点；尺度二，每隔3个像素点取一个像素点作为滑动窗的中心点；尺度三，每隔2个像素点取一个像素点作为滑动窗的中心点；根据滑动窗口每个像素点的RGB值，计算块结构的RGB均值；将三个尺度上的所有块结构的颜色值进行归一化处理，然后对每个块结构，选择与它颜色最相近的前60个块结构，以此60个块结构的颜色平均值作为该块结构中心点像素的显著性值。对于未采样的像素点，根据它自身的颜色值以及它周围像素点的显著性值线性插值，得到该点的显著性值。

所述步骤4中，场模型的节点权重的计算过程如下：计算每个超像素属于每个对象的概率值，其中对象的个数由对象检测器确定。对于检测器所定位的对象包围盒，如果其分值大于设定阈值T1，则认为场景中存在一个与之对应的对象。如果超像素的显著性值大于设定阈值T3，该超像素属于每个对象的概率值由三部分构成，即该超像素的显著性值、该超像素是否属于对象的包围盒以及该包围盒的分值；否则，该超像素属于每个对象的概率值为零。

所述步骤4中，场模型的边权重的计算过程如下：边权值由该边所连接的两个节点对应的超像素之间的边界特征差异决定，特征向量的组成包括RGB颜色特征、HOG梯度特征以及形状先验，特征差异为两个超像素在特征空间的欧式距离，其中形状先验是在训练集上学习得来。没有邻接关系的两个节点，其边权值为零。

所述步骤5中，在进行图割优化时，为了准确分割多个对象，在执行时加入一个“其他”类别标记，以便于将兴趣区域中不属于对象的超像素剔除出去。超像素属于这个“其他”类别对象的概率值计算过程如下：如果超像素的显著性值小于设定阈值T3，则该超像素属于“其他”对象的概率值由它的显著性确定，否则概率值为零。当图割优化终止时，如果该超像素被标记为“其他”，则该超像素不属于任何一个对象。

对于每一个窗口内的块结构，计算R、G、B三个通道的颜色均值，作为该块结构中心点像素的特征值，如以下公式所示，其中size(P)为滑动窗口大小。

R (i, j) = \frac{1}{s i z e (P)} \underset{i, j &Element; P}{Σ} R (i - 3 : i + 3, j - 3 : j + 3)

G (i, j) = \frac{1}{s i z e (P)} \underset{i, j &Element; P}{Σ} G (i - 3 : i + 3, j - 3 : j + 3)

B (i, j) = \frac{1}{s i z e (P)} \underset{i, j &Element; P}{Σ} B (i - 3 : i + 3, j - 3 : j + 3) .

将所有块结构颜色值归一化处理，针对当前的以(i,j)为中心的窗口块结构，根据颜色距离值，在三个尺度上选择距离最近的60个块结构，以此60个块结构的颜色平均值作为该块结构中心点像素的显著性值。

对于未采样的点，它的显著性值是根据它的颜色值以及它周围像素点的显著性值线性插值得到的，计算过程如以下公式所示：

S (i, j) = \underset{(x, y) &Element; N}{Σ} {c o l o r (i, j) - c o l o r (x, y)} * {1 - d i s (x, y)}

其中，N为(i,j)的邻域集，color(·)为像素点的颜色值，dis(x,y)为邻域点(x,y)到该点的距离，所有度量都进行了归一化处理。根据像素点与超像素的对应关系，将像素级显著性转化成超像素级显著性，以超像素中所有像素显著性的均值作为该超像素的显著性值。

在此基础上，在兴趣区域内构建条件随机场模型，将多对象分割问题转化成多类别标记问题，每一个对象是一种类别，兴趣区域外的图像区域默认为“其他”语义类别。超像素对应场模型的节点，邻接的超像素在场模型中对应相应的边。节点权重计算方式为：在已确定对象个数的情况下，计算每个超像素属于每个对象(包括“其他”对象)的概率值，如果超像素的显著性值大于设定阈值T3，该超像素属于每个对象的概率值由三部分构成，即该超像素的显著性值、该超像素是否属于对象的包围盒以及该包围盒的分值，否则，该超像素属于每个对象的概率值为零；如果超像素的显著性值小于设定阈值T3，则该超像素属于“其他”对象，其概率值由它的显著性确定，否则概率值为零，如以下公式所示。

U_{k} (s) = \{\begin{matrix} S m a p (s) + i n B b o x (s, k) * V (k) & i f S m a p (s) > t_{3} \\ 0 & e l s e \end{matrix}

U_{o} (s) = \{\begin{matrix} \exp (- S m a p (s)) & i f S m a p (s) < t_{3} \\ 0 & e l s e \end{matrix}

其中，U_k(s)代表超像素s属于对象类别k的概率值，U_o(s)代表超像素s属于“其他”对象类别o的概率值，Smap(s)为超像素的显著性值，inBbox(s,k)代表超像素是否处于对象k的包围盒范围，V(k)为对象k的包围盒分值。

场模型边权重的计算方式如下：边权值B(r,s)由该边所连接的两个超像素之间的边界特征差异bdry(r,s)决定，Nei(r,s)代表邻接关系，特征向量的组成包括RGB颜色特征、HOG梯度特征以及形状先验，特征差异为两个超像素在特征空间的欧式距离，λ和c是调节参数。

B(r,s)＝Nei(r,s)*Smooth(r,s)

Smooth(r,s)＝exp(-λ*bdry(r,s))+log(bdry(r,s)+1)+c

因此，条件随机场模型的能量公式为：

E(s)＝U_{k,o}(s)+B(r,s)

在利用图割算法优化时，待分割的对象类别包括包围盒确定的对象个数以及一个“其他”类别，以便于将兴趣区域中不属于对象的超像素剔除出去。当图割优化终止时，每一个超像素被标记为一个对象类别。

附图说明

图1为本发明的测试图像检测对象的包围盒定位图。

图2为本发明的对象兴趣区域图(与图1相对应)。

图3为本发明的图像显著性检测图。

图4为本发明的算法流程示意图。

具体实施方式

下面对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

本发明提供了一种基于目标识别与显著性检测的图像场景多对象分割方法，该方法能够在识别对象类别的基础上得到图像中多个对象的分割结果。总体流程如下：首先在图像训练集上训练识别对象类别的分类器，将训练好的分类器作用于测试图像，输出测试图像的对象识别和定位包围盒；另一方面，对测试图像进行过分割处理，得到图像的超像素集合，根据包围盒和语义概率值，计算对象的兴趣区域；然后，对测试图像进行三种稠密尺度的显著性检测，得到像素级显著图，转化成超像素的显著性值；在兴趣区域内，构建条件随机场模型，将多对象分割问题转化成多类别标记问题，兴趣区域内的超像素对应模型的节点，超像素的邻接关系对应模型的边；利用图割算法，在条件随机场模型上进行优化，迭代终止时得到像素的对象标记结果，从而实现多个对象的分割。

根据上述流程，首先需要训练用于对象识别的分类器。在已经标注好的训练图像上，采样多维度特征，利用SVM算法，训练不同类别对象的分类器。针对每一种类别的分类器，将该分类器作用于测试图像，输出多个对象包围盒。同时，利用TextonBoost算法训练多类别识别分类器，将该分类器作用于测试图像，得到测试图像的像素级语义类别概率图，即得到每一个像素点属于每一种类别的概率值。对于输出的多个对象包围盒，按照分值进行排序，选择分值最高的前5个作为候选集。待分割的对象的个数由对象检测器确定。对于检测器所定位的对象包围盒，如果其分值大于设定阈值T1，则认为场景中存在一个与之对应的对象。

利用Turbo算法，对测试图像进行过分割处理，得到超像素集合，超像素数量为一千左右的数量级。在测试图像上确定对象的兴趣区域，兴趣区域以外的区域不作为计算范围。以“马”这种类别为例，兴趣区域的确定应该满足以下条件：根据语义类别概率中“马”这种类别的概率分布，选择概率值大于一定阈值T2的区域；遍历5个包围盒，选择分值大于设定阈值T1的包围盒的超像素子集。这两种区域的合集构成了兴趣区域。其中包围盒超像素子集的计算过程如下：依次遍历5个包围盒，如果包围盒的分值大于设定阈值T1，则认为该包围盒是可靠性高的包围盒，确定处于该包围盒范围内的超像素子集。如果一个超像素80％以上的像素点处于该包围盒范围内，则认为该超像素处于该包围盒范围。其中阈值T1由数据集的先验信息确定，在训练数据集上统计得到。

针对测试图像，进行三种稠密尺度的显著性检测，三种尺度分别为：尺度一，每隔4个像素点取一个像素点作为滑动窗的中心点；尺度二，每隔3个像素点取一个像素点作为滑动窗的中心点；尺度三，每隔2个像素点取一个像素点作为滑动窗的中心点。以7*7大小的滑动窗在测试图像上进行从左至右、从上至下的检测。对于每一个窗口内的块结构，计算R、G、B三个通道的颜色均值，作为该块结构中心点像素的特征值，如以下公式所示，其中size(P)为滑动窗口大小。

R (i, j) = \frac{1}{s i z e (P)} \underset{i, j &Element; P}{Σ} R (i - 3 : i + 3, j - 3 : j + 3)

G (i, j) = \frac{1}{s i z e (P)} \underset{i, j &Element; P}{Σ} G (i - 3 : i + 3, j - 3 : j + 3) .

B (i, j) = \frac{1}{s i z e (P)} \underset{i, j &Element; P}{Σ} B (i - 3 : i + 3, j - 3 : j + 3)

S (i, j) = \underset{(x, y) &Element; N}{Σ} {c o l o r (i, j) - c o l o r (x, y)} * {1 - d i s (x, y)}

U_{k} (s) = \{\begin{matrix} S m a p (s) + i n B b o x (s, k) * V (k) & i f S m a p (s) > t_{3} \\ 0 & e l s e \end{matrix}

U_{o} (s) = \{\begin{matrix} \exp (- S m a p (s)) & i f S m a p (s) < t_{3} \\ 0 & e l s e \end{matrix}

B(r,s)＝Nei(r,s)*Smooth(r,s)

Smooth(r,s)＝exp(-λ*bdry(r,s))+log(bdry(r,s)+1)+c

因此，条件随机场模型的能量公式为：

E(s)＝U_{k,o}(s)+B(r,s)

Claims

1.一种基于目标识别与显著性检测的图像场景多对象分割方法，其特征在于：该方法包含如下步骤，

步骤5、利用图割算法，在条件随机场模型上进行优化，迭代终止时得到像素的对象标记结果，从而实现多个对象的分割；

对于每一个窗口内的块结构，计算R、G、B三个通道的颜色均值，作为该块结构中心点像素的特征值，如以下公式所示，其中size(P)为滑动窗口大小；

R (i, j) = \frac{1}{s i z e (P)} \underset{i, j &Element; P}{Σ} R (i - 3 : i + 3, j - 3 : j + 3)

G (i, j) = \frac{1}{s i z e (P)} \underset{i, j &Element; P}{Σ} G (i - 3 : i + 3, j - 3 : j + 3)

B (i, j) = \frac{1}{s i z e (P)} \underset{i, j &Element; P}{Σ} B (i - 3 : i + 3, j - 3 : j + 3);

将所有块结构颜色值归一化处理，针对当前的以(i,j)为中心的窗口块结构，根据颜色距离值，在三个尺度上选择距离最近的60个块结构，以此60个块结构的颜色平均值作为该块结构中心点像素的显著性值；

S (i, j) = \underset{(x, y) &Element; N}{Σ} {c o l o r (i, j) - c o l o r (x, y)} * {1 - d i s (x, y)}

其中，N为(i,j)的邻域集，color(●)为像素点的颜色值，dis(x,y)为邻域点(x,y)到该点的距离，所有度量都进行了归一化处理；根据像素点与超像素的对应关系，将像素级显著性转化成超像素级显著性，以超像素中所有像素显著性的均值作为该超像素的显著性值；

在此基础上，在兴趣区域内构建条件随机场模型，将多对象分割问题转化成多类别标记问题，每一个对象是一种类别，兴趣区域外的图像区域默认为“其他”语义类别；超像素对应场模型的节点，邻接的超像素在场模型中对应相应的边；节点权重计算方式为：在已确定对象个数的情况下，计算每个超像素属于每个对象的概率值，每个对象中包括“其他”对象；如果超像素的显著性值大于设定阈值T3，该超像素属于每个对象的概率值由三部分构成，即该超像素的显著性值、该超像素是否属于对象的包围盒以及该包围盒的分值，否则，该超像素属于每个对象的概率值为零；如果超像素的显著性值小于设定阈值T3，则该超像素属于“其他”对象，其概率值由它的显著性确定，否则概率值为零，如以下公式所示；

U_{k} (s) = \{\begin{matrix} S m a p (s) + i n B b o x (s, k) * V (k) & i f S m a p (s) > t_{3} \\ 0 & e l s e \end{matrix}

U_{o} (s) = \{\begin{matrix} \exp (- S m a p (s)) & i f S m a p (s) < t_{3} \\ 0 & e l s e \end{matrix}

其中，U_k(s)代表超像素s属于对象类别k的概率值，U_o(s)代表超像素s属于“其他”对象类别o的概率值，Smap(s)为超像素的显著性值，inBbox(s,k)代表超像素是否处于对象k的包围盒范围，V(k)为对象k的包围盒分值；

场模型边权重的计算方式如下：边权值B(r,s)由该边所连接的两个超像素之间的边界特征差异bdry(r,s)决定，Nei(r,s)代表邻接关系，特征向量的组成包括RGB颜色特征、HOG梯度特征以及形状先验，特征差异为两个超像素在特征空间的欧式距离，λ和c是调节参数；

B(r,s)＝Nei(r,s)*Smooth(r,s)

Smooth(r,s)＝exp(-λ*bdry(r,s))+log(bdry(r,s)+1)+c

因此，条件随机场模型的能量公式为：

E(s)＝U_{k,o}(s)+B(r,s)

在利用图割算法优化时，待分割的对象类别包括包围盒确定的对象个数以及一个“其他”类别，以便于将兴趣区域中不属于对象的超像素剔除出去；当图割优化终止时，每一个超像素被标记为一个对象类别。

2.根据权利要求1所述的一种基于目标识别与显著性检测的图像场景多对象分割方法，其特征在于：在所述步骤1中，标定对象的包围盒时，给出多个包围盒候选；候选包围盒的选择依据是，根据包围盒的分值进行排序，选择分值最高的前5个包围盒，待分割的对象数量不超过包围盒的数量。

3.根据权利要求1所述的一种基于目标识别与显著性检测的图像场景多对象分割方法，其特征在于：在步骤2中，兴趣区域的计算方式如下：依次遍历5个包围盒，如果包围盒的分值大于设定阈值T1，则在超像素集合中确定处于该包围盒范围内的超像素子集，如果一个超像素80％以上的像素点处于该包围盒范围内，则认为该超像素处于该包围盒范围；所有分值大于T1的包围盒的超像素子集，以及语义概率值大于一定阈值T2的区域的合集构成兴趣区域。

4.根据权利要求1所述的一种基于目标识别与显著性检测的图像场景多对象分割方法，其特征在于：在步骤3中，测试图像的三种稠密尺度的显著性检测过程如下：尺度一，每隔4个像素点取一个像素点作为滑动窗的中心点；尺度二，每隔3个像素点取一个像素点作为滑动窗的中心点；尺度三，每隔2个像素点取一个像素点作为滑动窗的中心点；根据滑动窗口每个像素点的RGB值，计算块结构的RGB均值；将三个尺度上的所有块结构的颜色值进行归一化处理，然后对每个块结构，选择与它颜色最相近的前60个块结构，以此60个块结构的颜色平均值作为该块结构中心点像素的显著性值；对于未采样的像素点，根据它自身的颜色值以及它周围像素点的显著性值线性插值，得到该点的显著性值。

5.根据权利要求1所述的一种基于目标识别与显著性检测的图像场景多对象分割方法，其特征在于：在步骤4中，场模型的节点权重的计算过程如下：计算每个超像素属于每个对象的概率值，其中对象的个数由对象检测器确定；对于检测器所定位的对象包围盒，如果其分值大于设定阈值T1，则认为场景中存在一个与之对应的对象；如果超像素的显著性值大于设定阈值T3，该超像素属于每个对象的概率值由三部分构成，即该超像素的显著性值、该超像素是否属于对象的包围盒以及该包围盒的分值；否则，该超像素属于每个对象的概率值为零。

6.根据权利要求1所述的一种基于目标识别与显著性检测的图像场景多对象分割方法，其特征在于：在步骤4中，场模型的边权重的计算过程如下：边权值由该边所连接的两个节点对应的超像素之间的边界特征差异决定，特征向量的组成包括RGB颜色特征、HOG梯度特征以及形状先验，特征差异为两个超像素在特征空间的欧式距离，其中形状先验是在训练集上学习得来；没有邻接关系的两个节点，其边权值为零。

7.根据权利要求1所述的一种基于目标识别与显著性检测的图像场景多对象分割方法，其特征在于：在步骤5中，在进行图割优化时，为了准确分割多个对象，在执行时加入一个“其他”类别标记，以便于将兴趣区域中不属于对象的超像素剔除出去；超像素属于这个“其他”类别对象的概率值计算过程如下：如果超像素的显著性值小于设定阈值T3，则该超像素属于“其他”对象的概率值由它的显著性确定，否则概率值为零；当图割优化终止时，如果该超像素被标记为“其他”，则该超像素不属于任何一个对象。