CN109035293B

CN109035293B - 适用于视频图像中显著人体实例分割的方法

Info

Publication number: CN109035293B
Application number: CN201810498274.6A
Authority: CN
Inventors: 方贤勇; 张晶晶; 李薛剑; 孙恒飞; 傅张军; 孙皆安; 汪粼波; 蒋昆; 鲍恒星; 周森
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2022-07-15
Anticipated expiration: 2038-05-22
Also published as: CN109035293A

Abstract

为了解决现有技术的不足，本发明提供一种适用于视频图像中显著人体实例分割的方法：将视频序列中运动目标的运动持续性和时空结构一致性引入，实现基于此两者约束的一种将光流聚类、显著性检测和多特征投票相结合的人体实例分割方法。对于运动连续性，采用基于光流区域聚类的前景目标概率计算策略，即基于光流特征对区域进行聚类并以区域面积大小为权重计算前景概率，对于时空结构一致性，我们提出采用以融合显著性检测和基于粗轮廓的多特征投票策略，并结合显著性检测、区域邻帧光利差相，对具有完整轮廓的目标前景进行像素级别上的能量约束优化，从而实现未被遮挡的移动行人的实例分割。

Description

适用于视频图像中显著人体实例分割的方法

技术领域

本发明属于图像处理技术领域，具体为适用于视频图像中显著人体实例分割的方法。

背景技术

实例分割是指在对图像中的每个像素都划分成对应的类别的基础上，将每类的具体对象，即实例，区别开来。但是实例分割的对象类别广泛，多应用于不同类别的刚性物体上^[2-4]，对于柔性人的人体实例分割研究并不多。已有人体实例分割工作^[3,5,6]对于当视频中的行人直立行走、动作简单且相互间交互和遮挡最少的时候，可以取得较好的分割结果。但是，实际场景中的行人情况通常都是比较复杂，常常会出现多个距离很近的人一起移动，或者相互交错。这样，在不同的姿势下，他们的四肢躯干会交织在一起，形成遮挡，使得离镜头更近的一个人挡住离镜头较远人的部分身体区域。这样，目前的方法很难分割出单独的行人目标。

发明内容

针对背景技术中所描述的问题，本发明提出建立在基于光流区域聚类的前景目标概率计算为运动持续性约束项，融合显著性检测和基于粗轮廓的多特征投票为时空一致性约束项的能量模型之上的人体实例方割方法，即适用于视频图像中显著人体实例分割的方法。

目前针对人体的实例分割方法一般采用自上而下的方法，即：首先运用行人检测得到场景中的人，然后进行像素级别的行人分割。这些的方法的不足是没有考虑连续视频序列中行人的肢体结构在运动信息和相对位置关系上保持着稳定的结构关系，而这种结构关系在不同的行人目标之间表现也是不同的，因此在距离很近、有遮挡情况和姿势异常的行人时，无法进行很好的分割。

进一步分析发现：因为行人大多具有相似的纹理轮廓特征，而颜色特征取决于着装，所以不具有区分度。这样，如果只考虑区域之间颜色、几何、纹理等差异，不同实例区域差异不显著，分割结果会出现部分缺失或多余。但是，相比于单幅图像，视频中每个行人目标在前后帧有冗余的信息，特征重叠和补充，同一个目标在前后连续多帧中连续变化但保持结构一致性和运动的持续性不变。

因此，本发明提出了一个新的运动和结构时空一致性相结合的人体实例分割方法，解决遮挡关系下的人体分割的不完整和误差问题。在运动时空一致性特征里，本文利用不同移动目标的光流信息，在空间上，同一实例区域内的光流差异小，而不同实例区域件的光流差异大；在时间上，同一实例区域在不同帧间光流大小差异趋于一致，不同实例区域光流差值差别较大；在结构一致性特征里，本文以超像素分割得到的超像素块为基础，在时间上，以超像素块的纹理特征用学习到的模板对待分割区域进行投票；在空间上，以超像素块的相邻区域特征用学习到的模板对待分割区域进行投票；提出基于粗轮廓多特征投票的实例分割方法。同时本文提出考虑视频场景中不同实例区域的显著性差异，最后将这些特征作为能量项放入能量模型中，进行全局优化。

本发明具体如下：

适用于视屏图像中人体实例分割的方法，按如下步骤进行：

步骤1：获取原始视频；

步骤2：对获取的每帧图像进行移动前景区域提取，获得每帧图像中移动行人的区域；

步骤3：计算每一帧图像中移动行人的光流；

步骤4：对步骤2所获得的移动的行人区域，利用行人目标的自身结构特征，进行结构一致性约束，获得每个像素的“基于结构一致性约束的属于显著前景目标的概率”；

步骤5：对步骤3所获得的移动行人的光流，利用移动行人的运动特征，进行运动一致性约束，获得每个像素基于运动一致性约束的属于显著前景目标的概率；

步骤6：由步骤4所获得的基于结构一致性约束的属于显著前景目标的概率和由步骤5所获得的基于运动一致性约束的属于显著前景目标的概率，建立基于运动和结构一致性的能量约束模型，，通过运动和结构两种特征的统一协调，获得能量约束最小化；

步骤7：由步骤6所获得的满足能量最小化的像素标签，将图像中的属于同一标签的像素进行归类，获得实例分割处理结果，并输出移动行人的运动特征。

换言之，本发明的方法可简单概括为：输入监控视频后，首先利用背景建模或邻帧差法计算每帧的移动前景区域，结合行人探测结果，得到总的移动人目标区域；在此基础上计算运动区域的光流，在空间关系上，用Meanshift方法对光流区域进行聚类，不同目标的运动速度的差异会在光流上表现出来，对光流进行区域聚类，进而可以分割成不同的区域，结合区域面积赋予权重，计算区域内像素的前景概率；在时间关系上根据光流找到某一位置的区域在相邻帧上的对应区域，并计算光流差，这两个方法通过光流从而达到了对运动持续性的约束。另一方面，我们进行显著性检测，由于不同目标由于离镜头远近、颜色差异的显著性是有差异的，得到不同行人目标的显著性，即每个像素属于前景的概率/移动行人的运动特征；同时利用提取的前景目标自身的轮廓对总的行人目标区域进行多特征投票，在时间上，以超像素块的纹理特征用学习到的模板对待分割区域进行投票；在空间上，以超像素块的相邻区域特征用学习到的模板对待分割区域进行投票得到最大可能属于前景的区域；最后，利用运动持续性和时空结构一致性约束，通过优化求解得到最终分割结果。

进一步说，步骤4所述的结构一致性约束，其中结构一致性特征包括获取基于显著性检测的显著前景目标概率和获取基于粗轮廓多特征投票的显著前景目标概率；

所述基于显著性检测的显著前景目标概率，是指由不同目标由于离镜头远近、颜色差异导致人眼观察时感兴趣区域是有差异的，得到不同行人目标的显著性是不同的，即每个像素属于显著前景的概率。；

所述基于粗轮廓多特征投票的显著前景目标概率，是指利用提取的显著前景目标模板的自身的轮廓对总的移动行人目标区域进行多特征投票，在时间上，以超像素块的纹理特征用学习到的模板对待分割区域进行投票；在空间上，以超像素块的相邻区域特征用学习到的模板对待分割区域进行投票得到最大可能属于前景的区域，将每个超像素块的得票数与总票数相比，获得每个超像素块中每个像素属于显著前景的概率。

进一步说，步骤5所述的运动一致性约束，包括获取相邻帧中同一位置区域的光流距离和获取基于光流区域聚类的前景概率；

所述获取相邻帧中同一位置区域的光流距离，是指属于同一个目标的区域，在相邻帧之间光流保持相同的趋势，所以同一个目标区域光流在相邻帧之间的光流差也是固定的，不同目标的光流差大小具有差异。；

所述获取基于光流区域聚类的前景概率，是指根据每个目标自身运动特征得到的光流信息，认定：光流方向大小相似且位置邻近的像素点是可以认定为是属于同一个区域里的，对图像中的光流进行聚类，将具有相同运动趋势的像素划分为一个区域，我们对每个聚类区域内进行光流统计，计算每个区域的光流总值和全图光流总值，再将区域光流总值乘以区域内像素个数权重，与全图总值相除，得到每个区域属于前景的概率值，即区域中每个像素的概率值。

进一步说，在步骤2中，移动前景区域提取方法具体为VIBE算法；该算法采用基于像素级的背景建模和前景检测技术，它通过第一帧来初始化背景模型，然后对新来的每一帧中的像素做出前景背景判别，被判定为背景的像素通过一定的几率去更新背景模型中的样本。

进一步说，在步骤3中，计算光流的具体方法为：在图像中所有的像素点处于二维平面坐标中，当像素点运动的时候，像素在X，Y方向上都会有运动分量，即为光流；假设t时刻坐标(x，y)的像素点R的灰度值为R(x，y，t)，x、y两个方向上的光流分量分别设为u、v；然后分别在单位时间上求偏导u＝dx/dt，v＝dy/dt；根据光流计算的约束dR(x，y，t)/dt＝0，得到光流矢量的梯度约束方程：

R_x*μ+R_y*v+R_t＝0

将上式改成矢量形式：

其中，R_x，R_y，R_t代表了像素点R的灰度值分别在x，y，t方向上的偏导数；

是灰度图上的空间梯度，v＝(u，v)^T是待求解的光流矢量；

梯度约束方程约束了各分量之间的关系，但这种约束还不足够，求解出的光流分量u、v不是唯一解。所以在此基础上添加其他的约束条件求得唯一解。采用平滑约束条件对其进行附加约束，即假设在整个图像上光流的变化具有平滑性，如下式所示：

在以上约束条件下可通过递归计算出(u，v)的唯一解。

在步骤6中，“能量模型进行能量约束最小化”的具体方法为使用离散变量上的代价函数，具体为：设X为图像的像素集合，而能量函数可以表示为：

其中，f为标对权重；记场，E_data(f)是数据的约束项；E_prior(f)是由先验知识所提供的约束项，主要是用来计算像素点与领域像素之间的相关性；ω是惩罚系数，用来控制数值能量和先验能量之间的相；

其中，数据约束项E_data(f)包含了两项，分别是权利要求2/步骤4中的基于显著性检测的显著性前景概率和权利要求3/步骤5中的相邻帧中同一区域光流差；先验约束项E_prior(f)中包含了两项，分别是权利要求2/步骤4中的基于粗轮廓多特征投票的显著前景目标概率和权利要求3/步骤5中的基于光流区域聚类的前景概率。

进一步说，在步骤4中，基于显著性检测的显著前景概率的具体方法分为两个步骤：(1)对图像进行显著性检测，(2)在显著性检测的基础上，利用显著性的差异，计算每个像素属于不同目标的概率，显著性越高的区域，像素的概率也越高；

其中，对图像进行显著性检测的具体步骤为：显著性检测具体的方法是通过超像素分割将图像分割成多个超像素块，通过控制生成的超像素块个数，得到多幅不同的超像素分割图。再对每一幅图像中的区域进行显著性检测，这样将对整幅图像的检测转化成对多个超像素块进行显著性检测，为了加强超像素块之间的联系，使用三种特征对超像素区域进行约束。三种特征分别是：1)超像素块与超像素块之间的约束特征：超像素块与其相邻的超像素块具有相近的显著性。那么约束特征可以定义为超像素块与相邻超像素块的特征差异大小。2)单个超像素块的显著性特征：即可直接表明高显著性区域和低显著性区域的之间差异的特征。3)单个超像素的背景特征：即通过背景颜色和纹理特征直接判别当前超像素块是否为背景。这些特征可以通过显著性区域和伪背景区域比较特征差得到。最后，将上面提到的特征放入随机数森林中进行有监督的训练最终得到显著性检测的结果。

计算每个像素属于不同目标概率的步骤为：假设i代表像素，

是图像中每个像素i所在的区域m_i的标签值，即每个像素的标签值，属于前景的标签为1，属背景的标签为0；图像中像素RGB值乘以以显著性结果值为权重(前景：X(i)；背景：1-X(i)；X(i)代表每个像素的显著性值)的值后得到前景、背景直方图，Hf(i)和Hb(i)表示第i个像素的颜色值分别在前景、背景直方图中所在的区间占总直方图的概率。A_i(f_i)表示像素i的基于显著性的前景/背景似然能量：

进一步说，在步骤4中，基于粗轮廓的多特征投票的具体方法分为以下两个步骤：(1)对提取的单人轮廓和待处理图像都进行超像素块分割，(2)用单人轮廓对待处理图像以超像素块为单位在多个特征上投票；

其中，超像素块分割的步骤为：首先对单人图像和待处理的图像中移动行人区域使用VIBE算法提取移动行人的粗轮廓，接下来对粗轮廓区域内进行超像素分割。

多特征投票的步骤为：将单人轮廓区域里所有的超像素块按照区域标号依次取出，与待分割的图像区域超像素分割区域进行相似度计算，找到相似度最高的前n个区域，对这n个区域加一票，直至选取的单人轮廓超像素都投票结束；这时可以得到待分割区域里与前景目标区域的超像素块相似度最高的区域可以认定得票最高的一些超像素区域是一定属于前景目标区域中的一部分。

进一步说，在步骤5中，获取相邻帧中同一位置区域的光流距离的具体方法为根据步骤3中的计算光流的方法得到相邻的两帧移动行人区域图像的光流，然后根据前一帧的光流找到前一帧区域在当前帧的对应区域，然后将当前帧对应区域的光流与前一帧同一区域的光流进行相减，定义

表示像素i所在的区域m_i在第t帧的光流大小，则像素i所属区域m_i在相邻帧间的光流差

可以写成

那么，同帧中区域之间光流差的差异O_i可以表示为

其中，函数

为kronecker delta函数，表示如下：

进一步说，在步骤5中，获取基于光流区域聚类的前景概率的具体方法为：首先通过权利要求5中的光流计算方法计算出当前处理图像的光流特征值，同时对像素根据计算出的光流大小和位置进行聚类，形成多个聚类区域，然后对每个聚类区域内进行光流统计，计算每个区域的光流总值和全图光流总值，再将区域光流总值乘以区域内像素个数权重，与全图总值相除，得到每个区域属于前景的概率值，即区域中每个像素的概率值；具体计算公式推导如下所述：

假设：

表示当前帧像素i所在的区域m_i基于光流区域聚类的不同目标概率；

表示像素i所在的区域m_i光流总值；

表示像素所在区域面积值：

假设定义像素i所在的区域m_i的分类标号为

则满足

(前景为1，背景为0)。

表示像素i所在的区域m_i的基于光流区域聚类前景/背景似然能量：

其中，

的值越小，表示区域u是前景的可能性越大。

有益的技术效果

对于视频中人体实例分割，而实例分割源于广义的图像分割。传统的图像分割方法^[7]包括阈值分割方法^[8]、边缘检测方法^[9]，区域提取方法^[10]，利用的是简单的像素信息，无法分割复杂场景。最近，利用了图像中高级语义信息来提高图像分割精度的深度学习式方法得到了较为深入的研究。其中，一部分研究针对图像层次上的实例分割，比如DeepLab^[11]和FCN^[12]使用深度卷积神经网络对图像进行语义分割，然后在语义分割的基础上又提出了一组基于像素级别的分割来完成实例分割方法^[13-18]，Li等人^[19]提出了在80个种类的实例分割上使用全卷积的端到端解决方法达到了目前很先进的水平，而^[20，21]提出了在肢体语义分割或者人体不同姿势关键点的基础上的神经网络实例分割，但是以上这些方法都是运用于单幅图像上，而本发明则更关注于与图像相比具有更多视觉信息和时空约束关系视频。

此外，现有的基于视频的实例分割多依靠时间连续性来建立时空相关性。一部分利用深度学习方法进行视频中目标分割的方法使用的都是全卷积神经网络但分别做出了不同的改进，如：在线更新网络^[24]、不需要引导的神经网络并采用离线训练视频数据^[25，26]等方法。最新的实例分割方法更多的在传统的神经网络中结合其他的特征或者约束方法，如：超像素^[1]、动态非最大抑制结合^[27]、掩码传播模型和再识别模型^[28]、对象实例层次分割^[29]、部位检测、形状先验^[3]等。其中，较典型的是He等人提出的Mask-CNN^[22]，同时完成物体检测，语义分割和实例分割并具有很好的效果。这些针对视频的实例方法存在的主要问题是没有利用同一个实例目标在视频帧中前后的运动信息和形状结构一致性关系，导致在存在遮挡关系的情况下分割不准确，本发明的方法则针对这样的问题，将对需要的分割的实例进行运动持续性和时空结构一致性进行约束，达到更清晰的分割结果。

附图说明

图1是本发明的原理/流程框图。

图2是对运动前景区域提取的示意图。在图2中，(a)为视频输入的某一帧；(b)为获取行人目标位置(c)提取运动前景位置。

图3是基于光流区域聚类的前景概率。在图3中，(a)表示行人检测结果；(b)表示行人目标的光流结果；(c)表示Meanshift对光流结果聚类效果；(d)表示在Meanshift对光流图区域聚类基础上计算得到的概率图。

图4是相邻帧中同一区域的光流差。在图4中，(a)为当前帧光流图；(b)为下一帧光流图；(c)为邻帧光流差。

图5是行人不同步态特征的粗轮廓区域。在图5中，(a)为姿势一；(b)为姿势二；(c)为姿势三；(d)为姿势四；(e)为姿势五。

图6是对清晰的轮廓图和待处理的图像进行超像素分割结果以及时空邻域对应关系。在图6中，(a)为用学习到的模板对当前投票；(b)为超像素块与相邻块之间的结构关系保持时空一致性。图7是对具有遮挡关系待分割的图像区域超像素分割结果进行投票的示意图。在图7中，(a)表示学习到的实例粗轮廓，分割成多个超像素区域；(b)表示当前待处理的前景区域分割；(c)表示最终投票结果。

图8是不同特征的图投票和组合各种特征投票的最终结果的示意图。在图8中，(a)为超像素纹理特征投票结果；(b)为超像素颜色特征投票结果；(c)为超像素位置特征投票结果；(d)为超像素纹理和位置特征投票结果；(e)为超像素所有特征综合投票结果；(f)为结合各种特征的最佳投票。图9是本文的实例分割结果与以前方法对比结果。在图9中，(a)给的是原有方法得出的效果，(b)经过本文方法处理后得到的实例分割结果。

图10是基于显著性的目标概率。在图10中，(a)表示行人检测结果；(b)表示显著性检测结果；(c)表示由显著性检测得出的概率图。

具体实施方式

现结合附图详细说明本发明的结构特点。

本发明提出的分割方法是运动目标检测结果上展开的，在提取出的运动前景区域上，判断是否存在遮挡情况，如果存在，对前景区域进行超像素分块，并计算纹理、颜色直方图、光流等，然后在运动持续性约束方面，利用光流特征进行区域聚类计算前景目标概率和计算区域邻帧间光流差；在结构一致性约束方面，进行基于粗轮廓多特征投票计算前景目标的最大可能区域和检测区域显著性；最后将这些约束项放入能量模型对全图进行能量约束，实现全局上对纠缠在一起的运动前景目标进行建模和求解。图1是本发明方法的流程框图。

输入监控视频后，首先利用背景建模或邻帧差法计算每帧的移动前景区域，结合行人探测结果，得到总的移动人目标区域；在此基础上计算运动区域的光流，在空间关系上，我们用Meanshift方法对光流区域进行聚类，不同目标的运动速度的差异会在光流上表现出来，对光流进行区域聚类，进而可以分割成不同的区域，结合区域面积赋予权重，计算区域内像素的前景概率；在时间关系上，我们根据光流找到某一位置的区域在相邻帧上的对应区域，并计算光流差，这两个方法通过光流从而达到了对运动持续性的约束。另一方面，我们进行显著性检测，由于不同目标由于离镜头远近、颜色差异的显著性是有差异的，得到不同行人目标的显著性，即每个像素属于前景的概率；同时利用提取的前景目标自身的轮廓对总的行人目标区域进行多特征投票，在时间上，以超像素块的纹理特征用学习到的模板对待分割区域进行投票；在空间上，以超像素块的相邻区域特征用学习到的模板对待分割区域进行投票得到最大可能属于前景的区域；最后，利用运动持续性和时空结构一致性约束，通过优化求解得到最终分割结果。

预处理：运动前景区域提取

在视频中对动态目标提取常用的方法有：背景减除法、帧间差法、光流法以及基于这几种方法改进或者两两结合的方法，而在现实的监控视频中，动态目标不仅仅只有行人，可能还包括车辆、动物、一些可以移动的物品等，因为本文针对的是移动行人，所以我们在检测运动前景区域基础上，结合行人检测结果，只提取运动的行人区域。本文中采用的是OpenCV里的VIBE方法，效果如下：

面向实例分割的时空约束能量模型

能量模型

本文使用一种离散变量上的代价函数。设X为图像的像素集合，通常的能量函数可以表示为：

其中，f为标记场，E_data(f)是数据的约束项；E_prior(f)是由先验知识所提供的约束项，主要是用来计算像素点与领域像素之间的相关性；ω是惩罚系数，用来控制数值能量和先验能量之间的相对权重。

对于视频帧，我们的其最终的分割结果是将前不同的实例目标区域分别赋予不同的标签值。在遮挡情况下对移动行人目标得实例分割，本文利用的是视频中运动目标的运动持续性和结构一致性进行能量约束最小化。在运动持续性里，首先考虑区域自身的特征，即数据约束项，由于运动目标的运动速度不同、身体运动幅度差异，不同目标身体区域的光流差异明显，且每个目标在邻近帧都将保持自己的运动趋势，所以本文使用基于光流的区域聚类计算不同目标概率；而在相邻区域约束项上，属于同一目标的区域具有相似的运动趋势和光流信息，计算相邻帧间同一区域的光流差，这样属于同一目标的区域之间光流差相近，不同目标区域之间光流差差异大，在结构一致性里，针对区域自身特征约束，本文考虑区域的显著性特征，目标由于离镜头远近不同、自身纹理、颜色差异而导致不同目标的显著性不同；而在相邻区域约束项上，同一目标的不同身体部分在视频序列中保持着心疼的纹理、颜色特征，更重要的区域与区域之间的相对位置结构关系也稳定保持，本文提出基于粗轮廓下多特征投票方法，将与目标模板特征结构最相似的区域通过投票的方式选择出来。通过这样对运动和结构信息的约束，实验结果表明可以提高分割结果的准确性。

由上面可知：希望得到将不同实例目标区域分开，需要将属于同一实例目标的所有区域之间的差距尽量小，使属于不同实例区域之间的差异尽量大，这样就会使不同实例区域之间具有可分离性。据此考虑两方面：区域自身特征和区域之间差异。假设：像素m_i所在区域的分类标号为

满足

(前景为1，背景为0)，在区域自身特征中，本文考虑实例的显著性特征A_i和基于光流区域聚类特征M_i；在区域间差异中，本文考虑基于粗轮廓的多特征投票的区域特征H_i和帧间对应区域之间光流差O_i。具体的，能量模型公式为

运动持续性约束

基于光流区域聚类的前景概率

光流不仅包含了被观察物体的运动信息，而且还包含有关景物三维结构的丰富信息。而不同行人由于运动速度，动作幅度不同，所以计算出的光流大小方向也有较大差异，而一个人自身由于是一个整体在运动，光流在方向大小上又具有一定的相关性，所以光流可以将不同目标的大致轮廓、区域区分开来：光流方向大小相似且位置邻近的像素点是可以认定为是属于同一个区域里的，据此，本文对图像中的光流进行聚类，将具有相同运动趋势的像素划分为一个区域。我们计算光流场使用的是Sun，D等人在[30]和[31]中提出的光流相关的内容。

本文采用Meanshift算法对像素点的光流特征进行聚类，将得到的光流图作为区域聚类的像素特征输入，以光流差异来定义像素点的概率密度。像素位置相邻且光流相似的位置概率密度大，概率密度大的像素被划分到一个区域。这样聚类得到的聚类结果，是将属于不同目标的像素划分到不同区域，可以近似地看作是不同目标在图像中的实际区域。因为未被遮挡的人的轮廓区域会更为完整，离镜头较近，与被遮挡的人相比较而言区域面积更大，因此将聚类结果根据类内数据个数大小而给予不同的权重，面积越大属于未被遮挡行人概率越高。我们对每个聚类区域内进行光流统计，计算每个区域的光流总值和全图光流总值，再将区域光流总值乘以区域内像素个数权重，与全图总值相除，得到每个区域属于前景的概率值，即区域中每个像素的概率值。具体计算公式推导如下所述。

假设：

定示像素i所在的区域m_i光流总值；

表示像素所在区域面积值。

假设定义像素i所在的区域m_i的分类标号为

则满足

(前景为1，背景为0)。

其中，

的值越小，表示区域m_i属于前景区域的概率越大。。图3(b)是由前后帧运动关系计算原图(图(a))中的光流场。图3(c)是再根据光流大小位置等进行聚类得到的区域划分结果，最后根据区域的面积大小给予权重结合区域。

相邻帧中同一区域光流差

同一个目标在监控下移动，目标的运动趋势是连续的，那么目标的任意某部位的光流在相邻帧之间的变化趋势是近似相同的。相应的，每个目标区域光流在相邻帧之间的光流差也是固定的，不同目标的光流差大小具有差异，这样使属于不同目标的区域之间产生差异，可以更好的将粘连在一起的区域分开。我们参照在Rother，C.，et al.的Grabcut中提到的相关内容[32]。定义

可以写成

那么，同帧中区域之间光流差的差异O_i可以表示为

其中，函数

为kronecker delta函数，表示如下：

图4中(a)和(b)分别表示当前帧的光流、根据当前帧光流跟踪到下一帧对应区域的光流，将这两个结果相减得到图4(c)，表示的是同一区域在相邻两帧之间的光流差，可以看到属于不同目标的区域光流差是有明显区别的。

时空结构一致性

基于显著性的目标概率

在视频中行为区域和非行为区域的显著性是不同的。同样，不同的行为区域的显著性也是有差异的。本文正是利用不同行人的运动差异和外贸衣着颜色差异，检测相应显著性差异，实现重叠目标的区分。

观察发现，监控视频中很明显离镜头近的人(未被遮挡的)和离镜头远的人(被遮挡的人)相比较，我们更容易注意到离镜头近的人(未被遮挡的人)，即显著性更高。假设i代表像素，

是图像中每个像素i所在的区域m_i的标签值，即每个像素的标签值，属于前景的标签为1，属背景的标签为0；图像中像素RGB值乘以以显著性结果值为权重(前景：X(i)；背景：1-X(i)；X(i)代表每个像素的显著性值)的值后得到前景、背景直方图，Hf(i)和Hb(i)表示第i个像素的颜色值分别在前景、背景直方图中所在的区间占总直方图的概率。A_i(f_i)表示像素i的基于显著性的前景/背景似然能量。

其中，A_i(f_i＝1)的值越小，则表示像素i属于显著前景的概率越大。所以结合以上分析和实验效果，图像显著性检测方法的结果为解决分割遮挡行人问题提供了有利的特征数据，作为我们能量模型里的区域项。图4(b)给出图。。行人检测的结果上进行显著性检测。可以明显注意到离镜头近的人(未被遮挡的人)显著性更高，结合显著性结果和颜色直方图最终我们得到图10(c)的概率结果，显著性高的区域属于前景概率越大。

基于粗轮廓多特征投票

粗轮廓区域

根据行人运动提取的粗轮廓是一种周期性现象，具有个体差异，再加上每个人的身高体重外貌穿着等特点，足以利用轮廓区域来区分不同的目标，甚至是识别身份。不同环境下光照、行走的路线、离镜头的远近等环境因素影响粗轮廓区域的提取，还有一个重要原因就是当目标的穿着打扮发生较大改变，或者是否背包，外穿衣服的轮廓差异大，衣着颜色和环境的作用导致轮廓提取误差。本文中用来作为模板投票的轮廓都是来自当前待处理的同一个视频中，这样确保了同一个目标受到的环境光照、外貌穿着等都保持一致，不会发生改变。当然，行人从监控镜头下由于行走路线和摄像头拍摄角度，会导致提取出的轮廓产生一定程度上变形，但是依旧可以通过结合步态特征和颜色、纹理特征来区分不同的行人目标。如图5所示：行人在行走过程中会有一系列步态特征动作，本文从一个步态序列中提取几个步态动作作为用来投票的模板。这些动作里基本包括了行人所有的肢体部位，但是由于移动前景提取技术的限制，得到的轮廓并不是行人的精确轮廓，而是一个粗糙的外轮廓，可能包含了一些背景或者自阴影。

时空邻域对应关系

对同一个目标不同时刻的轮廓区域进行超像素分割，由于目标自身结构的稳定性，我们可以发现超像素块之间保持着一定的结构关系，不同帧中相同部位得出的超像素块与其周围超像素块之间的关系是相似的。因此，如果是同一个部位分割出来的超像素块，那么这些超像素块周围相邻超像素块的颜色、纹理特征也是相似的。这样，本文考虑将每个超像素块所有相邻超像素块的颜色纹理特征也作为每个超像素块的特征。

如图6所示，本文对提取的单人轮廓和待处理图像都进行超像素块分割，然后用单人轮廓对待处理图像以超像素块为单位在多个特征上投票，其中最能表现像素块特征的就是目标的同一区域在不同帧上周围的相邻超像素块的特征结构是相似的。

基于粗轮廓多特征投票

行人在移动过程中自身的轮廓特征和身体部位之间的结构特征始终是一致的，需要将这样的结构约束性利用起来。在这一部分该方法需要将两个具有遮挡关系的行人目标分开，那么，首先可以先找到这个目标同一视频中没有遮挡关系的图像，提取轮廓区域，然后对区域部分利用超像素分割，同时对具有遮挡关系待分割的图像也进行同样的操作，在超像素分割的结果中我们可以看到，每个行人由于自身轮廓结构，纹理、亮度、颜色特征分布组成始终保持极大的相关性。在人体区域内的超像素分割也因为人身体同一个部位具有相似纹理、颜色和亮度，所以在不同时刻的帧里，同一个行人目标的超像素分割结果基本一致。

接下来对具有遮挡关系待分割的图像区域超像素分割结果进行投票。如图7所示，将每一个没有遮挡关系的轮廓区域里所有的超像素块按照区域标号依次取出，与待分割的图像区域超像素分割区域进行相似度计算，找到相似度最高的前n个区域，对这n个区域加一票，直至选取的没有遮挡关系的轮廓超像素都投票结束。这时可以得到待分割区域里与前景目标区域的超像素块相似度最高的区域，我们可以认定得票最高的一些超像素区域是一定属于前景目标区域中的一部分。

图7给出这一方法的原理示意。可以发现：如果对提取的单人轮廓和需要处理的区域超像素分块后投票，单人轮廓内身上的同一部位不同时刻超像素分割结果基本相同。通过多特征比较后，待处理的图像中，和目标单人轮廓里超像素块最相近的超像素块得票数更高，而这些块正是属于前景目标。

为了使投票结果更为准确，我们使用多个特征投票的综合结果。我们分别计算超像素块LBP特征，位置特征，时空邻域对应关系特征以及以上几种特征的组合形式。对每种特征进行最高票统计，取每种特征投票票数最多的前n个区域，将这些区域叠加在一起，就得到了我们最终的结果。这种结果很好的将不同目标的区域分开，使不同目标区域之间差距显著，可以更好的将不同标签的相邻区域分开。

本文将不同的特征的最高投票结果结合在一起，这样得到新的投票，对新的投票结果进行归一化，则数值越大的超像素区域在各个特征下都与清晰的步态轮廓中的超像素块具有较高相似性，我们将归一化后的数值作为每个区域属于目标的概率值，没有投票的区域概率值为0。

如果用D_m表示当前处理轮廓区域内n个区域的不同特征投票总和，即：

其中，

代表当前待处理轮廓区域m的第s项特征，

表示第t个投票轮廓区域m的第s项特征，

代表第t个投票轮廓区域m在第s项特征上和当前处理的待分割区域和相似度最高的区域，即投票最高的区域，α_s表示第s项特征对应的环境参数。t∈T＝{t₁，t₂，...，t_N}表示选取的N个用于投票的不含遮挡关系的目标轮廓。

其中，

是单位阶梯函数：

表示为如果像素i所在区域投票数m归一化后的数值和参数ε相同，则返回值为1，否则为0。

图8表示不同特征分别投票的结果，可以看到不同特征下投票结果具有差异，这是因为受光照、动作等条件影响，不同超像素块的最典型特征不一样。图8(f)表示在结合多个特征投票结果，取每种特征投票结果的投票最多的区域叠加在一起。

我们通过模拟拍摄监控视频来验证本文提出的针对互相遮挡的行人目标基于步态轮廓投票的遮挡分割算法的性能优势。实验所用数据是使用高清摄像机放置与水平地面三米多高处拍摄的视频，拍摄设备是SONY DSC-RX100M2，帧率25帧每秒，图像分辨率1920*1080。图9(a)给的是原有方法得出的效果，(b)经过本文方法处理后得到的实例分割结果，可以观察到部分遮挡程度下本文方法都可以在一定程度上将移动的前景目标分割出来。

在本发明中，我们提出了一种基于步态轮廓使用超像素分割结合光流、显著性等特征使用能量约束的实例分割模型和相应的分割方法可以有效解决监控视频中人与人存在遮挡的情况下的分割问题。该方法对图像中不同行人目标进行显著性检测，对光流进行Meanshift区域聚类，同时基于步态轮廓内以超像素区域为单位多特征投票，结合相邻帧中同一区域光流差，最后用能量函数将这些信息整合，得到最优分割。实验结果表明，我们的算法可以有效处理在人与人遮挡情况下将不同目标分割的问题。

参考文献

1.Seguin G,Bojanowski P,Lajugie R,et al.Instance-Level VideoSegmentation from Object Tracks[C].Computer Vision and PatternRecognition.IEEE,2016:3678-3687.

2.Joulin A,Bach F,Ponce J.Discriminative clustering for image co-segmentation[C].Computer Vision and Pattern Recognition.IEEE,2010:1943-1950.

3.Vineet V,Warrell J,

L',et al.Human Instance Segmentation fromVideo using Detector-based Conditional Random Fields[J].Machine Vision,2011.

4.Li F,Kim T,Humayun A,et al.Video Segmentation by Tracking ManyFigure-Ground Segments[C].IEEE International Conference on ComputerVision.IEEE,2014:2192-2199.

5.Niebles J C,Han B,Li F F.Efficient extraction of human motionvolumes by tracking[C].Computer Vision and Pattern Recognition.IEEE,2010:655-662.

6.Ladicky L,Torr P H S,Zisserman A.Human Pose Estimation Using aJoint Pixel-wise and Part-wise Formulation[C].Computer Vision and PatternRecognition.IEEE,2013:3578-3585.

7.姜枫,顾庆,郝慧珍,等.基于内容的图像分割方法综述[J].软件学报,2017,28(1):160-183.

8.OHTSU,Nobuyuki.A Threshold Selection Method from Gray-LevelHistograms[J].IEEE Transactions on Systems,Man,and Cybernetics,2007,9(1):62-66.

9.Senthilkumaran N,Rajesh R.Edge detection techniques for imagesegmentation-A survey of soft computing approaches[J].International Journalof Soft Computing&Engineering,2014,1(4):250-254.

10.Adams,R,Bischof,L.Seeded region growing[J].IEEE Transactions onPattern Analysis and Machine Intelligence,2002,16(6):641-647.

11.Chen L C,Papandreou G,Kokkinos I,et al.DeepLab:Semantic ImageSegmentation with Deep Convolutional Nets,Atrous Convolution,and FullyConnected CRFs.[J].IEEE Transactions on Pattern Analysis&MachineIntelligence,2016,PP(99):1-1.

12.Long J,Shelhamer E,Darrell T.Fully convolutional networks forsemantic segmentation[C].Computer Vision and Pattern Recognition.IEEE,2015:3431-3440.

13.Liang X,Wei Y,Shen X,et al.Reversible Recursive Instance-LevelObject Segmentation[C].Computer Vision and Pattern Recognition.IEEE,2016:633-641.

14.Zhang Z,Fidler S,Urtasun R.Instance-Level Segmentation forAutonomous Driving with Deep Densely Connected MRFs[J].Computer Science,2015.

15.Li K,Hariharan B,Malik J.Iterative Instance Segmentation[C].Computer Vision and Pattern Recognition.IEEE,2015:3659-3667.

16.Dai J,He K,Li Y,et al.Instance-Sensitive Fully ConvolutionalNetworks[C].European Conference on Computer Vision.Springer InternationalPublishing,2016:534-549.

17.Romera-Paredes B,Torr P H S.Recurrent Instance Segmentation[C].European Conference on Computer Vision.Springer International Publishing,2016:312-329.

18.Alahari K,Seguin G,Sivic J,et al.Pose Estimation and Segmentationof People in 3D Movies[C].IEEE International Conference on ComputerVision.IEEE,2013:2112-2119.

19.Li Y,Qi H,Dai J,et al.Fully Convolutional Instance-aware SemanticSegmentation[C].Computer Vision and Pattern Recognition.IEEE,2017:4438-4446.

20.Jiang H,Grauman K.Detangling People:Individuating Multiple ClosePeople and Their Body Parts via Region Assembly[C].Computer Vision andPattern Recognition.IEEE,2017:3434-3443.

21.Brown,M.,Belongie,S.J.,Collins,M.,&Tripathi,S.Pose2Instance:Harnessing Keypoints for Person Instance Segmentation.CoRR,2017,abs/1704.01152.

22.He K,Gkioxari G,Dollár P,et al.Mask R-CNN[C].InternationalConference on Computer Vision.IEEE,2017:2980-2988.

23.Liu Z,Li X,Luo P,et al.Deep Learning Markov Random Field forSemantic Segmentation[J].IEEE Transactions on Pattern Analysis&MachineIntelligence,2017,PP(99):1-1.

24.Perazzi F,Khoreva A,Benenson R,et al.Learning Video ObjectSegmentation from Static Images[C].IEEE Conference on Computer Vision andPattern Recognition.IEEE,2017:3491-3500.

25.Caelles S,Maninis K K,Pont-Tuset J,et al.One-Shot Video ObjectSegmentation[C].IEEE Conference on Computer Vision and PatternRecognition.IEEE,2017:5320-5329.

26.Voigtlaender P,Leibe B.Online Adaptation of Convolutional NeuralNetworks for Video Object Segmentation[J].arXiv preprint,2017,arXiv:1706.09364.

27.Ren M,Zemel R S.End-to-End Instance Segmentation with RecurrentAttention[C].IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2017:293-301.

28.Li X,Qi Y,Wang Z,et al.Video Object Segmentation with Re-identification[J].2017.arXiv preprint,2017,arXiv:1708.00197,2017.

29.Shaban,A.,Firl A,Humayun A,et al.Multiple-instance videosegmentation with sequence-specific object proposals[J].2017.

30.Sun D,Roth S,Black M J.Secrets of optical flow estimation andtheir principles[C].Computer Vision and Pattern Recognition.IEEE,2010:2432-2439.

31.Sun D,Roth S,Black M J.A Quantitative Analysis of CurrentPractices in Optical Flow Estimation and the Principles Behind Them[M].KluwerAcademic Publishers,2014.

32.Rother,Carsten,Kolmogorov,Vladimir,Blake,Andrew."GrabCut":interactive foreground extraction using iterated graph cuts[J].AcmTransactions on Graphics,2004,23(3):309-314。

Claims

1.适用于视频中人体实例分割的方法，其特征在于，按如下步骤进行：

步骤1：获取原始视频；

步骤3：计算每一帧图像中移动行人的光流；

步骤4：对步骤2所获得的移动的行人区域，利用行人目标的自身结构特征，进行结构一致性约束获得每个像素基于结构一致性约束的属于显著前景目标的概率，其中结构一致性特征包括获取基于显著性检测的显著前景目标概率和获取基于粗轮廓多特征投票的显著前景目标概率；

所述基于显著性检测的显著前景目标概率，是指由不同目标由于离镜头远近、颜色差异导致人眼观察时感兴趣区域是有差异的，得到不同行人目标的显著性是不同的，即每个像素属于显著前景的概率；

所述基于粗轮廓多特征投票的显著前景目标概率，是指利用提取的显著前景目标模板的自身的轮廓对总的移动行人目标区域进行多特征投票，在时间上，以超像素块的纹理特征用学习到的模板对待分割区域进行投票；在空间上，以超像素块的相邻区域特征用学习到的模板对待分割区域进行投票得到最大可能属于前景的区域，将每个超像素块的得票数与总票数相比，获得每个超像素块中每个像素属于显著前景的概率；

步骤6：由步骤4所获得的基于结构一致性约束的属于显著前景目标的概率和由步骤5所获得的基于运动一致性约束的属于显著前景目标的概率，建立基于运动和结构一致性的能量约束模型，通过运动和结构两种特征的统一协调，获得能量约束最小化；

2.根据权利要求1所述的适用于视频中人体实例分割的方法，其特征在于，按如下步骤进行：步骤5所述的运动一致性约束，包括获取相邻帧中同一位置区域的光流距离和获取基于光流区域聚类的前景概率；

所述获取相邻帧中同一位置区域的光流距离，是指属于同一个目标的区域，在相邻帧之间光流保持相同的趋势，所以同一个目标区域光流在相邻帧之间的光流差也是固定的，不同目标的光流差大小具有差异；

所述获取基于光流区域聚类的前景概率，是指根据每个目标自身运动特征得到的光流信息，认定光流方向大小相似且位置邻近的像素点是属于同一个区域里的，对图像中的光流进行聚类，将具有相同运动趋势的像素划分为一个区域，我们对每个聚类区域内进行光流统计，计算每个区域的光流总值和全图光流总值，再将区域光流总值乘以区域内像素个数权重，与全图总值相除，得到每个区域属于前景的概率值，即区域中每个像素的概率值。

3.根据权利要求1所述的适用于视频中人体实例分割的方法，其特征在于，在步骤1中，移动前景区域提取方法具体为VIBE算法；该算法采用基于像素级的背景建模和前景检测技术，它通过第一帧来初始化背景模型，然后对新来的每一帧中的像素做出前景背景判别，被判定为背景的像素通过几率去更新背景模型中的样本。

4.根据权利要求1所述的适用于视频中人体实例分割的方法，其特征在于，在步骤3中，计算光流的具体方法为：在图像中所有的像素点处于二维平面坐标中，当像素点运动的时候，像素在X,Y方向上都会有运动分量，即为光流；假设t时刻坐标(x,y)的像素点R的灰度值为R(x,y,t),x、y两个方向上的光流分量分别设为u、v；然后分别在单位时间上求偏导u＝dx/dt,v＝dy/dt；根据光流计算的约束dR(x,y,t)/dt＝0，本步骤中的t均指时刻；得到光流矢量的梯度约束方程：

R_x*μ+R_y*v+R_t＝0

将上式改成矢量形式：

其中，R_x,R_y,R_t代表了像素点R的灰度值分别在x,y,t方向上的偏导数；

是灰度图上的空间梯度，v＝(u,v)^T是待求解的光流矢量；

采用平滑约束条件对其进行附加约束，即假设在整个图像上光流的变化具有平滑性，如下式所示：

在以上约束条件下可通过递归计算出(u,v)的唯一解。

5.根据权利要求1所述的适用于视频中人体实例分割的方法，其特征在于，在步骤6中，“能量模型进行能量约束最小化”的具体方法为使用离散变量上的代价函数，具体为：设X为图像的像素集合，而能量函数可以表示为：

其中，f为权重；记场E_data(f)是数据的约束项；E_prior(f)是由先验知识所提供的约束项，主要是用来计算像素点与领域像素之间的相关性；ω是惩罚系数，用来控制数值能量和先验能量之间的相；

其中，数据约束项E_data(f)包含了两项，分别是基于显著性检测的显著性前景概率和相邻帧中同一区域光流差；先验约束项E_prior(f)中包含了两项，分别是基于粗轮廓多特征投票的显著前景目标概率和基于光流区域聚类的前景概率。

6.根据权利要求1所述的适用于视频中人体实例分割的方法，其特征在于，在步骤4中，基于显著性检测的显著前景概率的具体方法分为两个步骤：(1)对图像进行显著性检测，(2)在显著性检测的基础上，利用显著性的差异，计算每个像素属于不同目标的概率；

其中，对图像进行显著性检测的具体步骤为：显著性检测具体的方法是通过超像素分割将图像分割成多个超像素块，通过控制生成的超像素块个数，得到多幅不同的超像素分割图；再对每一幅图像中的区域进行显著性检测，这样将对整幅图像的检测转化成对多个超像素块进行显著性检测，为了加强超像素块之间的联系，使用三种特征对超像素区域进行约束；三种特征分别是：1)超像素块与超像素块之间的约束特征：超像素块与其相邻的超像素块具有相近的显著性；那么约束特征可以定义为超像素块与相邻超像素块的特征差异大小；2)单个超像素块的显著性特征：即可直接表明高显著性区域和低显著性区域的之间差异的特征；3)单个超像素的背景特征：即通过背景颜色和纹理特征直接判别当前超像素块是否为背景；这些特征可以通过显著性区域和伪背景区域比较特征差得到；最后，将上面提到的特征放入随机数森林中进行有监督的训练最终得到显著性检测的结果；

计算每个像素属于不同目标概率的步骤为：假设i代表像素，

是图像中每个像素i所在的区域m_i的标签值，即每个像素的标签值，属于前景的标签为1，属背景的标签为0；图像中像素RGB值乘以以显著性结果值为权重的值后得到前景、背景直方图，其中，前景:X(i)；背景：1-X(i)；X(i)代表每个像素的显著性值，Hf(i)和Hb(i)表示第i个像素的颜色值分别在前景、背景直方图中所在的区间占总直方图的概率；A_i(f_i)表示像素i的基于显著性的前景和背景的似然能量：

由上式可知，基于显著性的前景和背景的似然能量A_i(f_i)是由Hf(i)和Hb(i)共同确定的；此处的f_i为像素i的权重。

7.根据权利要求1所述的适用于视频中人体实例分割的方法，其特征在于，在步骤4中，基于粗轮廓的多特征投票的具体方法分为以下两个步骤：(1)对提取的单人轮廓和待处理图像都进行超像素块分割，(2)用单人轮廓对待处理图像以超像素块为单位在多个特征上投票；

其中，超像素块分割的步骤为：首先对单人图像和待处理的图像中移动行人区域使用VIBE算法提取移动行人的粗轮廓，接下来对粗轮廓区域内进行超像素分割；

多特征投票的步骤为：将单人轮廓区域里所有的超像素块按照区域标号依次取出，与待分割的图像区域超像素分割区域进行相似度计算，找到相似度最高的前n个区域，对这n个区域加一票，直至选取的单人轮廓超像素都投票结束；这时可以得到待分割区域里与前景目标区域的超像素块相似度最高的区域，可以认定得票最高的一些超像素区域是一定属于前景目标区域中的一部分。

8.根据权利要求2所述的适用于视频中人体实例分割的方法，其特征在于，在步骤5中，获取相邻帧中同一位置区域的光流距离的具体方法为根据步骤3中的计算光流的方法得到相邻的两帧移动行人区域图像的光流，然后根据前一帧的光流找到前一帧区域在当前帧的对应区域，然后将当前帧对应区域的光流与前一帧同一区域的光流进行相减，定义

可以写成

那么，同帧中区域之间光流差的差异O_i可以表示为

其中，函数

为kronecker delta函数，表示如下：

9.根据权利要求2所述的适用于视频中人体实例分割的方法，其特征在于，在步骤5中，获取基于光流区域聚类的前景概率的具体方法为：首先通过权利要求5中的光流计算方法计算出当前处理图像的光流特征值，同时对像素根据计算出的光流大小和位置进行聚类，形成多个聚类区域，然后对每个聚类区域内进行光流统计，计算每个区域的光流总值和全图光流总值，再将区域光流总值乘以区域内像素个数权重，与全图总值相除，得到每个区域属于前景的概率值，即区域中每个像素的概率值；具体计算公式推导如下所述：

假设：

表示像素i所在的区域m_i光流总值；

表示像素所在区域面积值：

假设定义像素i所在的区域m_i的分类标号为

则满足

前景为1，背景为0；

表示像素i所在的区域m_i的基于光流区域聚类前景和背景的似然能量：

其中，

的值越小，表示区域i是前景的可能性越大。