CN108052947B

CN108052947B - 一种基于多尺度时空一致性的动态背景抑制方法

Info

Publication number: CN108052947B
Application number: CN201711094258.2A
Authority: CN
Inventors: 李帅; 李韵潇; 郝爱民; 秦洪; 赵沁平
Original assignee: Beijing University of Aeronautics and Astronautics
Current assignee: Beijing University of Aeronautics and Astronautics
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2019-12-27
Anticipated expiration: 2037-11-08
Also published as: CN108052947A

Abstract

本文发明提出了一种基于多尺度时空一致性的动态背景抑制方法，首先统计超像素的MS直方图特征；然后采用基于直方图k‑最近邻特征及局部光流方向差异度的动态背景区域检测来初步的获取视频帧的动态背景区域；为了消除更多的动态背景区域，利用视频帧序列的时空信息，对已经检测为动态背景的区域进行graph‑cut(图割分析)，将检测区域扩大；之后，对检测为动态背景区域的超像素点的显著性值进行抑制；抑制完成之后，结合视频帧序列的时空联系，对Motion Saliency Map再次进行图割分析，这样能进一步抑制剩余的动态背景区域。本发明能够从视频中准确的检测出运动物体，并能够在动态视频中较好的抑制动态区域，具有检测速率高，鲁棒性好，抗抖动干扰等特点。

Description

一种基于多尺度时空一致性的动态背景抑制方法

技术领域

本发明涉及一种自底向上的多尺度时空一致性显著性检测方法对相机中的动态背景区域进行有效抑制。

背景技术

视频显著性检测是当前计算机视觉、模式识别领域一个非常热门的研究方向，他对很多具体应用包有很大的帮助，包括物体追踪、视频监控、交通控制、入侵检测等。一方面，尽管近年来对视频显著检测的研究取得了非常大的成果，但一般视频场景中的动态背景通常会对视频显著性的检测造成较大的干扰。另一方面，尽管传统意义上的自顶向下的背景建模方法已经能够对固定相机中的动态背景区域进行有效的抑制，但对于缺乏位置映射信息的非固定相机视频而言，传统的背景建模方法仍然很难辅助视频显著性检测来对动态背景区域进行抑制。因此，目前迫切需要一种不依赖于背景建模的视频显著性策略来对非固定相机视频中的显著性前景物体进行正确检测并对动态背景进行有效抑制。

在近些年最先进的视频显著性检测方法通常均采用自底向上的显著性检测方法，即采用基于差异度比对的方法来分别计算颜色显著性以及运动显著性，并通过各种互补融合的方式获得视频显著性检测结果。不同于自顶向下的背景建模策略方法，自底向上的视频显著性检测的一大优势在于：由于其并不依赖于帧间的位置映射信息，其对视频显著性检测这一问题并不需要区分输入视频到底是来自于固定相机还是非固定相机。遗憾的是，对于移动缓慢的显著性前景物体而言，其计算得到的运动显著性往往要低于快速且重复移动的非显著性动态背景，从而使得融合后的视频显著性检测结果中存在大量的假阳性检测结果，并且目前尚不存在相关问题的具体解决方案。

发明内容

本发明解决的技术问题是：通过将直方图K-最近邻特征及局部光流方向差异度加入到显著性运动检测中，抑制了动态背景的同时，较好地保留了前景物体；在进行判断是否为动态背景时考虑了一个邻域，所以此方法具有一定的抗相机抖动、视角变化的能力；使用graph-cut的良好时空扩散性多次且充分利用了视频帧的时空连续性信息，对动态背景区域进行时空一致性增强；利用了直方图K-最近邻特征及局部光流方向变化两种信息，因为动态背景与静态背景以及显著运动物体的这两种信息在相邻帧变化幅度不同，即不同帧间的显著性前景区域所对应的光流场存在较强的时空一致性约束，并且其相邻的颜色拓扑结构也较动态背景区域更为稳定。从而使我们的方法能够在固定相机视频以及非固定相机视频中很好地处理动态背景。

本发明采用的技术方案为：一种基于多尺度时空一致性的动态背景抑制方法，包括以下六个步骤：

步骤(1)、统计超像素的MS直方图特征：首先将视频帧序列通过光流分析得到Motion Saliency(MS)Map，然后对视频帧的每一帧分别进行超像素分割，基于MotionSaliency Map中的信息以及超像素内像素的RGB颜色分布对视频帧的每一帧的每一个超像素统计一个MS直方图；超像素的MS直方图是基于其显著性值并且与其内部像素的RGB颜色分布关联后的一个统计结果；

步骤(2)、获取超像素的直方图K-最近邻特征(Hist-KNN)：在步骤(1)的基础上，对视频帧的每一帧的每一个超像素，在其的一个欧式距离小于d₁附近的邻域，使用显著性值信息作为条件寻找最近邻超像素点，构造出该超像素的一个直方图K-最近邻特征；

步骤(3)、基于局部光流方向差异度的动态背景区域检测：对视频帧的每一帧的每一个超像素，对其的一个欧式距离小于d₂附近的邻域的所有超像素点，进行局部光流方向差异度统计；每一个超像素是许多像素点的集合，将它看作一个局部区域，通过统计局部光流方向差异度，也就是邻域超像素之间的光流距离差异度，就可以知道在欧式距离小于d₂的范围内，这些局部区域的光流的一致性；每一个超像素的光流能够通过光流分析得到，是一个二维向量，每个值分别代表了图像直角坐标系x,y方向上的光流大小；一个超像素点和周围超像素点的光流差别越大，通过计算得到的局部光流方向差异度值也越大，其越有可能是动态背景；通过设定阈值T₁，认为大于这个阈值的超像素对应的区域为动态背景区域；

步骤(4)、基于直方图K-最近邻特征的动态背景区域检测：在步骤(2)的基础上，每一个超像素获得一个Hist-KNN特征，对当前帧的每一个超像素，在其相邻帧的一个欧式距离小于d₃附近的邻域，进行其动态程度分析，若一个超像素点和相邻帧邻域超像素点的Hist-KNN特征差异越大，通过计算得到邻域Hist-KNN特征差异度值也越大，其越有可能是动态背景。通过设定阈值T₂，认为大于这个阈值的超像素对应的区域为动态背景区域；

步骤(5)、图割分析扩大动态背景区域：在步骤(3)、(4)中已经检测到了动态背景区域；根据视频帧具有的时空性，为了进一步抑制在步骤(3)、(4)中未检测出来的动态背景区域，将整段视频中的所有超像素点构造成一张具有结点和边的图(graph)，然后使用图割分析(graph-cut)，求解一个最大流-最小割问题，找到一个动态背景和前景的划分，扩大检测到的动态背景区域，之后对检测为动态背景的区域的显著性值进行抑制；

步骤(6)、对Motion Saliency Map图割分析：为了将动态背景中存在的一些非动态部分去除，使用步骤(5)中构造的图(graph)，将结点的值替换为经步骤(5)抑制后的显著性值，再次利用图割分析就可以得到最终抑制结果。

进一步的，步骤(1)该方法利用了超像素点内包含的所有像素点的RGB值分布以及该超像素点在Motion Saliency Map中的显著性值(下文简述为超像素显著性值)两种信息，使得求出的特征具有较好的判别力。其具体步骤包括：将RGB颜色空间的每一个通道划分成n个分组，每个分组为一个bin，那么共n³个bin。对超像素包含的所有像素点按照其RGB颜色值进行统计，如果某个像素点属于某个bin，那么该bin中的值需要累加该超像素显著性值一次，即最终直方图的任意一个bin中存放的值都是对应超像素显著值的整数倍，当某个bin没有任何一个像素点对应时，该bin的值为零。统计时还应一并记录每个bin最终累加的次数。由上述过程最后统计出来的直方图，其实就是一个n³向量，是具有一定的区分能力的特征。因为每一个超像素内的所有像素点的RGB分布是不同的，而且每一个超像素的显著性值也是不同的，自然最后通过像素点RGB分布累加出来的特征也是不同的。

进一步的，步骤(2)中所述的获取超像素直方图K-最近邻特征，具体步骤如下：对每一帧的每一个超像素，如果一个邻域内的超像素点与其的显著性值之差小于其显著性值的S％，则该超像素点将被视作其的一个最近邻；对其所有最近邻的MS直方图特征按对应bin加权求和，并除以对应bin的所有累加次数的加权和，权值为最近邻与其超像素的颜色距离。对于每一帧的每一个超像素最终都会得到其对应的新的n³维向量，把它叫做该超像素点的直方图K-最近邻特征(Hist-KNN)，对于每一帧来说，若该帧被划分成N个超像素，则有N个Hist-KNN向量。该步骤进行了权值和最近邻寻找条件的设计，设计原理为当两个超像素点RGB颜色距离越近或它们显著性值的差越小时，它们两个所对应的区域越有可能属于同一个物体。能避免异常情况的干扰，增强了鲁棒性。

进一步的，步骤(3)中所述的基于局部光流方向差异度的动态背景区域检测，其光流方向差异度为其自身光流和其邻域内超像素点的光流距离的加权和再除以权值之和，权值为其自身与其邻域超像素点的颜色距离乘以其自身与其邻域超像素点的显著性距离；此步骤中应用了两类权值，当两个超像素点RGB颜色距离越近或它们显著性值的差越小时，它们两个所对应的区域越有可能属于同一个物体，能有效避免异常情况的干扰，增强了鲁棒性。

进一步的，步骤(4)中所述的基于直方图K-最近邻特征的动态背景区域检测，其动态程度为其自身Hist-KNN特征与相邻帧邻域Hist-KNN特征的加权和再除以权值之和，权值为其自身与其邻域超像素点的颜色距离。该方法引入了每一个超像素的帧间邻域信息，通过考虑其相邻帧邻域内所有超像素点的Hist-KNN特征的变化与预先设定的阈值进行比较，来判断是否属于动态背景。该方法的权值设计避免了异常情况的干扰，增强了鲁棒性。

进一步的，步骤(5)中所述的图割分析扩大动态背景区域，该方法将每一个超像素看作一个结点，两个超像素之间的RGB颜色距离视作结点之间的边的值，当构造边的时候只考虑欧式距离小于d₄的两个超像素点的边，将整段视频中的所有超像素点构造成一张具有结点和边的图(graph)，利用最大流-最小割求解一个最优划分问题，分别得到属于动态背景和前景的超像素点；扩大之后，对所有检测为动态背景的区域的显著性值进行抑制。此方法充分利用了视频帧的时空性。

进一步的，步骤(6)中所述的对Motion Saliency Map图割分析，由于之前的步骤使得视频帧动态背景所在区域的显著性值发生了很大变化，动态背景的帧间连续性已经变差，利用视频帧的时空性就可以做到进一步抑制步骤(5)中未被检测的动态背景区域。

本发明的原理在于：

(1)通过统计每个超像素的直方图特征，为接下来的直方图K-最近邻特征计算做准备。因为动态背景与静态背景以及显著运动物体的Hist-KNN特征在相邻帧变化幅度不同，所以利用这一点，即可以判断超像素是否属于动态背景。

(2)通过统计每个超像素的局部光流方向差异度，为判断动态背景区域提供了信息。因为光流的x方向y方向的值代表了超像素点朝这两个方向运动的趋势。很明显，动态背景因为其不稳定性，其局部光流方向差异度在大部分情况下会大于前景物体。

(3)视频帧的时空连续性在动态背景抑制中是很有价值的信息，相比简单考虑相邻帧的邻域，利用graph-cut可以更好地利用这类信息。因为graph-cut的建图过程中构建了一张连接所有视频帧中所有超像素点的图(graph)，对这张图进行优化的结果是考虑了从第一帧开始到最后一帧结束的全部信息得到的。

本发明与现有技术相比的优点在于：

1、将Hist-KNN特征及光流局部差异度加入到显著性运动检测中，抑制了动态背景的同时，较好地保留了前景物体。并且此方法具有一定的抗相机抖动、视角变化的能力。

2、使用graph-cut多次且充分利用了视频帧的时空连续性信息。

3、利用Hist-KNN特征及光流变化这两种信息在动态背景、静态背景以及显著运动物体区域的变化情况不同，区分出动态背景，从而使我们的方法能够很好地处理动态背景。

附图说明

图1是本发明基于多尺度时空一致性的动态背景抑制的方法的流程图；

图2展示了使用本发明动态背景抑制方法带来的效果提升的对比图；

图3展示了引入基于直方图K-最近邻特征的动态背景检测后的效果；

图4展示了引入基于局部光流方向差异度的动态背景检测后的效果；

图5展示了引入graph-cut后的效果。

具体实施方式

下面结合附图1-5及具体实施方式进一步说明本发明。

本文发明一种基于多尺度时空一致性的动态背景抑制的方法，如图1所示，主要流程步骤如下：

步骤(1)、统计超像素的MS直方图特征：

首先需要对每一帧的每一个超像素统计一个MS直方图。将视频帧序列通过光流分析得到Motion Saliency(MS)Map，然后对视频帧的每一帧分别进行超像素分割，基于Motion Saliency Map中的信息以及超像素内像素的RGB颜色分布对视频帧的每一帧的每一个超像素统计一个MS直方图；超像素的MS直方图是基于其显著性值并且与其内部像素的RGB颜色分布关联后的一个统计结果；

RGB颜色空间的每一个通道划分为n个bin(分组)，共n³个bin。即对超像素包含的所有像素点按照其RGB颜色进行统计，对每一个像素点，如果属于某个bin，该bin中的值需要累加该超像素在Motion Saliency Map中的显著性值一次，并记录每个bin最终累加的次数。

步骤(2)、获取超像素直方图K-最近邻特征(Hist-KNN特征)：

在步骤(1)的基础上，对每一个超像素，在其的一个欧式距离小于d₁邻域附近寻找其他超像素点，如果一个邻域内的超像素点与其的显著性值之差小于其的显著性值的百分之S，则该超像素点将被作为其的一个最近邻。如公式(1)求解，最终得到的n³维的Hist-KNN特征F_i：

其中F_i表示第i个超像素点的Hist-KNN特征；σ表示第i个超像素点的所有最近邻集合，最近邻超像素点序号为j；w_ij是一个权重参数，表示第i个超像素点和第j个超像素点之间的颜色距离；H_j表示第j个超像素点的n³维直方图特征；T_j表示第j个超像素点的直方图中每个bin中累加的次数。

所述的超像素Hist-KNN特征为其所有最近邻的MS直方图特征按对应bin加权求和，并除以对应bin的所有累加次数的加权和，权值为最近邻与其超像素的颜色距离。对于每一帧来说，若该帧被划分成N个超像素，则有N个Hist-KNN向量。该步骤进行了权值和最近邻寻找条件的设计，设计原理为当两个超像素点RGB颜色距离越近或它们显著性值的差越小时，它们两个所对应的区域越有可能属于同一个物体。能避免异常情况的干扰，增强了鲁棒性。

步骤(3)、基于局部光流方向差异度的动态背景区域检测：

获取局部光流方向差异度：对每一帧的每一个超像素，找到其的一个欧式距离小于d₂邻域的所有超像素点，统计局部光流方向差异度，如公式(2)所示：

其中D_i表示第i个超像素点的邻域光流方向差异大小；σ₁表示第i个超像素点的邻域，邻域超像素点序号为j；w_ij是一个权重参数，表示第i个超像素点和第j个超像素点之间的颜色距离；s_ij是一个权重参数，表示第i个超像素点和第j个超像素点之间的显著性距离；OF_ij表示第i个超像素点与第j个超像素点之间的光流距离。

所述的获取局部光流方向差异度，其光流差异度为其自身光流和其邻域内超像素点的光流距离的加权和再除以权值之和，权值为其自身与其邻域超像素点的颜色距离乘以其自身与其邻域超像素点的显著性距离；此步骤中应用了两类权值，当两个超像素点RGB颜色距离越近或它们显著性值的差越小时，它们两个所对应的区域越有可能属于同一个物体，能有效避免异常情况的干扰，增强了鲁棒性。图4展示了引入基于局部光流方向差异度的动态背景检测后的效果。

步骤(4)基于直方图K-最近邻特征的动态背景区域检测；

在步骤(2)的基础上，每一个超像素已经有了一个直方图K-最近邻特征F_i。对当前帧的每一个超像素，我们考虑其相邻帧的一个欧式距离小于d₃的邻域，本发明中每个超像素点的直方图k-最近邻特征差异度为公式(3)所示：

其中knnD_i表示第i个超像素点的直方图k-最近邻特征变化大小，即邻域Hist-KNN特征差异度值；σ₃表示第i个超像素点在相邻帧(前后两帧)的邻域，邻域中超像素序号为j；w_ij是一个权重参数，表示第i个超像素点和第j个超像素点之间的颜色距离；DF_ij表示第i个超像素点与第j个超像素点之间的直方图k-最近邻特征距离。

所述的直方图k-最近邻特征变化大小为其自身Hist-KNN特征与相邻帧邻域Hist-KNN特征的加权和再除以权值之和，权值为其自身与其邻域超像素点的颜色距离。图3展示了引入基于K-最近邻特征的动态背景检测后的效果。

步骤(5)、图割分析扩大动态背景区域：

在步骤(3)、(4)中已经检测到了动态背景区域。由于视频帧的时空性，我们可以结合此类信息，使用图割分析扩大检测到的动态背景区域，之后，我们对新增检测为动态背景的区域的显著性值进行抑制。具体包括：将整段视频中的所有超像素点构造成一张具有结点和边的图(graph)，当构造边的时候只考虑欧式距离小于d₄的两个超像素点的边，然后使用图割分析(graph-cut)，求解一个最大流-最小割问题，找到一个动态背景和前景的划分，扩大检测到的动态背景区域，之后对检测为动态背景的区域的显著性值进行抑制。此方法充分利用了视频帧的时空性。图5展示了引入graph-cut后的效果。

步骤(6)、对Motion Saliency Map图割分析：为了将动态背景中存在的一些非动态部分去除，使用步骤(5)中构造的图(graph)，将结点的值替换为经步骤(5)抑制后的显著性值，再次利用图割分析就可以得到最终抑制结果。抑制会降低动态背景的显著性，这时，动态背景的帧间连续性变差。我们同样再次使用图割分析，就可以做到进一步抑制动态背景区域。这其实是利用了图割方法的良好时空扩散性来对上述动态背景区域进行时空一致性增强，从而进一步的提高视频显著性检测的鲁棒性。

图2展示了使用本发明动态背景抑制方法使用上述步骤(1)-步骤(6)优选方案带来的效果提升的对比图。

综上所述，本发明与现有技术相比的优点在于：

1、将Hist-KNN特征及局部光流方向差异度加入到显著性运动检测中，抑制了动态背景的同时，较好地保留了前景物体。并且此方法具有一定的抗相机抖动、视角变化的能力。

2、使用graph-cut多次且充分利用了视频帧的时空连续性信息。

本发明未详细阐述的技术内容属于本领域技术人员的公知技术。尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于多尺度时空一致性的动态背景抑制方法，其特征在于，包括：

步骤(1)、统计超像素的MS直方图特征：首先将视频帧序列通过光流分析得到MotionSaliency Map，即MS Map，然后对视频帧的每一帧分别进行超像素分割，基于MotionSaliency Map中的信息以及超像素内像素的RGB颜色分布对视频帧的每一帧的每一个超像素统计一个MS直方图；超像素的MS直方图是基于其显著性值并且与其内部像素的RGB颜色分布关联后的一个统计结果；

步骤(2)、获取超像素的直方图K-最近邻特征，即Hist-KNN特征：在步骤(1)的基础上，对视频帧的每一帧的每一个超像素，在其的一个欧式距离小于d₁附近的邻域，使用显著性值信息作为条件寻找最近邻超像素点，构造出该超像素的一个直方图K-最近邻特征；

步骤(4)、基于直方图K-最近邻特征的动态背景区域检测：在步骤(2)的基础上，每一个超像素获得一个Hist-KNN特征，对当前帧的每一个超像素，在其相邻帧的一个欧式距离小于d₃附近的邻域，进行其动态程度分析；若一个超像素点和相邻帧邻域超像素点的Hist-KNN特征差异越大，通过计算得到邻域Hist-KNN特征差异度值也越大，其越有可能是动态背景；通过设定阈值T₂，认为大于这个阈值的超像素对应的区域为动态背景区域；

步骤(5)、图割分析扩大动态背景区域：在步骤(3)、(4)中已经检测到了动态背景区域，根据视频帧具有的时空性，进一步抑制在步骤(3)、(4)中未检测出来的动态背景区域；具体包括：将整段视频中的所有超像素点构造成一张具有结点和边的图，然后使用图割分析，求解一个最大流-最小割问题，找到一个动态背景和前景的划分，扩大检测到的动态背景区域，之后对检测为动态背景的区域的显著性值进行抑制；

步骤(6)、对Motion Saliency Map进行图割分析：为了将动态背景中存在的一些非动态部分去除，使用步骤(5)中构造的图，将结点的值替换为经步骤(5)抑制后的显著性值，再次利用图割分析就可以得到最终抑制结果。

2.根据权利要求1所述的基于多尺度时空一致性的动态背景抑制方法，其特征在于：步骤(1)中所述的统计超像素的MS直方图特征，该方法利用了超像素包含的所有像素点的RGB值分布以及超像素显著性值两种信息，使得求出的特征具有较好的判别力，所述超像素显著性值是指超像素在Motion Saliency Map中的显著性值；其具体步骤包括：将RGB颜色空间的每一个通道划分成n个分组，每个分组为一个bin，那么共n³个bin；对超像素包含的所有像素点按照其RGB颜色值进行统计，如果某个像素点属于某个bin，那么该bin中的值需要累加该超像素显著性值一次，即最终直方图的任意一个bin中存放的值都是对应超像素显著值的整数倍，当某个bin没有任何一个像素点对应时，该bin的值为零，统计时同时记录每个bin最终累加的次数；最后统计出来的直方图，是一个n³向量，是具有一定区分能力的超像素的MS直方图特征。

3.根据权利要求1所述的基于多尺度时空一致性的动态背景抑制方法，其特征在于：步骤(2)中所述的获取超像素的直方图K-最近邻特征，具体步骤如下：对每一帧的每一个超像素，在其的一个欧式距离小于d₁附近的邻域，如果该邻域内的超像素点与其的显著性值之差小于其的显著性值的S％，则该超像素点将被视作其的一个最近邻超像素点；将RGB颜色空间的每一个通道划分成n个分组，每个分组为一个bin，那么共n³个bin；对其所有最近邻超像素点的MS直方图特征按对应bin加权求和，并除以对应bin的所有累加次数的加权和，权值为最近邻超像素点与其超像素的颜色距离；每一帧的每一个超像素都会得到其对应的新的n³维向量，把它叫做该超像素的直方图K-最近邻特征，即Hist-KNN特征；对于每一帧来说，若该帧被划分成N个超像素，则有N个Hist-KNN向量。

4.根据权利要求1所述的基于多尺度时空一致性的动态背景抑制方法，其特征在于：步骤(3)中局部光流方向差异度为超像素自身光流和其邻域内超像素点的光流距离的加权和再除以权值之和，权值为其自身与其邻域超像素点的颜色距离乘以其自身与其邻域超像素点的显著性距离。

5.根据权利要求1所述的基于多尺度时空一致性的动态背景抑制方法，其特征在于：步骤(4)中所述的基于直方图K-最近邻特征的动态背景区域检测，其动态程度为其自身Hist-KNN特征与相邻帧邻域Hist-KNN特征的加权和再除以权值之和，权值为其自身与其邻域超像素点的颜色距离。

6.根据权利要求1所述的基于多尺度时空一致性的动态背景抑制方法，其特征在于：步骤(5)中所述的图割分析扩大动态背景区域，该方法将每一个超像素看作一个结点，两个超像素之间的RGB颜色距离视作结点之间的边的值，当构造边的时候只考虑欧式距离小于d₄的两个超像素点的边，将整段视频中的所有超像素点构造成一张具有结点和边的图，利用最大流-最小割求解一个最优划分问题，分别得到属于动态背景和前景的超像素点；扩大之后，对所有检测为动态背景的区域的显著性值进行抑制。