CN102917219B

CN102917219B - 基于增强型菱形搜索及五帧背景对齐的动背景视频对象提取

Info

Publication number: CN102917219B
Application number: CN201210397528.8A
Authority: CN
Inventors: 祝世平; 郭智超; 高洁
Original assignee: Beihang University
Current assignee: SHENZHEN XIAOLAJIAO TECHNOLOGY CO., LTD.
Priority date: 2012-10-18
Filing date: 2012-10-18
Publication date: 2015-11-04
Anticipated expiration: 2032-10-18
Also published as: CN102917219A

Abstract

本发明公开了一种基于增强型菱形运动估计及五帧背景对齐的动背景下视频对象提取方法，包括如下步骤：首先将K-2帧、K-1帧、参考帧K、K+1帧与K+2帧分成8×8宏块，根据宏块判断准则对宏块进行筛选；对筛选后的宏块采用增强型菱形运动估计方法进行块匹配，分别得到上述四帧相对于参考帧的运动矢量场，并通过最小二乘法计算全局运动参数；对第K-2帧、K-1帧、K+1帧与K+2帧分别进行运动补偿，使该四帧与参考帧背景对齐，并得到四帧的重建帧；对重建帧K-2ˊ、K-1ˊ、K+1ˊ、K+2ˊ及参考帧分别采用Sobel算子提取边缘信息，计算相对于参考帧边缘的帧差，最大方差阈值二值化；分别对连续五帧前两帧和后两帧得到的帧差进行与运算；最后进行或运算并做后处理，实现动背景下视频对象的快速有效分割。

Description

基于增强型菱形搜索及五帧背景对齐的动背景视频对象提取

技术领域：

本发明涉及一种视频分割中的处理方法，特别涉及一种基于增强型菱形运动估计及五帧背景对齐的动背景下视频对象提取方法。

背景技术：

对于动态视频序列中运动对象的提取，由于摄像机产生的全局运动使得在静背景下的分割方法，如：帧差或者背景差分等方法不适用于动背景下的分割，即不能够准确地将运动对象提取出来，因此针对动背景下的分割问题必须首先消除摄像机运动所造成的全局运动的影响，通过全局运动估计和补偿技术，将问题转化成静背景下的分割问题，进而应用静背景下广泛的分割方法实现动背景下的准确、有效分割。

全局运动估计是指估计由摄像机运动引起的序列背景区域的运动规律，求解出相应数学运动模型中的多个参数。全局运动补偿是在根据运动估计所得到的全局运动参数，在当前帧和前一帧之间作一个相应的背景对齐的映射变换。这样在准确的补偿之后就可以采用帧差或背景差等方法消除背景区域，突出感兴趣的具有局部运动的前景区域（参见杨文明.时空融合的视频对象分割[D].浙江:浙江大学,2006）。

对于动背景下的运动对象分割问题，目前国际上已有相当多的学者做了大量的研究工作。如利用改进的分水岭算法将运动补偿后的视频帧分割成不同的灰度区域，通过光流计算得到序列的运动信息，最后，将运动信息和分割的区域按一定的准则综合得到对象模板，达到对视频对象的准确定位（参见张庆利.一种基于运动背景的视频对象分割算法.上海大学学报(自然科学版),2005,11(2):111-115.）。如建立四参数运动放射模型来描述全局运动，采用块匹配方法进行参数估计，结合Horn-Schunck算法检测出运动目标并应用卡尔曼滤波对运动目标的质心位置等信息进行跟踪，实现了动态场景中运动对象的检测与跟踪。（参见施家栋.动态场景中运动目标检测与跟踪.北京理工大学学报,2009,29(10):858-876.）。另一种采用非参数核密度估计的方法，首先采用匹配加权的全局运动估计补偿算法消除动态场景下背景运动的影响，然后估计各像素属于前景与背景的概率密度并结合形态学等算法进行处理，实现了动背景下运动对象的准确、有效分割。（参见马志强.一种动态场景下运动对象分割新算法.计算机工程与科学,2012,34(4):43-46.）。

为了解决动背景下的分割问题，本发明方法实现了一种采用宏块预判断、块匹配、摄像机六参数仿射模型、最小二乘法等全局运动估计及补偿方法，并通过五帧背景对齐结合边缘信息等实现动背景分割。实验证明，该方法实现了动背景视频序列中视频对象的提取，并且提取精度得到明显提高。

发明内容：

本发明要解决的技术问题是：如何减少块匹配的运算时间，如何实现动背景下视频对象的准确提取。

本发明解决其技术问题所采用的技术方案是：一种基于增强型菱形运动估计及五帧背景对齐的动背景下视频对象提取方法，包括以下步骤：

（1）将第K-2帧、第K-1帧、参考帧K帧、第K+1帧与第K+2帧分别分成8×8宏块，根据纹理信息对该五帧中所有宏块进行预判断、筛选；

（2）对上述筛选后的宏块采用SAD准则、增强型菱形搜索策略进行块匹配，分别以第K-2帧、第K-1帧、第K+1帧与第K+2帧作为当前帧，以第K帧作为参考帧，得到该四帧相对于参考帧K帧的运动矢量场，并通过最小二乘法计算全局运动参数，获得摄像机六参数模型；

（3）对第K-2帧进行运动补偿，使第K-2帧与第K帧背景对齐，得到重建帧K-2'，按照同样的方法对第K-1帧、第K+1帧与第K+2帧进行运动补偿，使第K-1帧、第K+1帧及第K+2帧分别与第K帧背景对齐，并得到重建帧K-1'、重建帧K+1'及重建帧K+2'；

（4）对重建帧K-2'、K-1'、K+1'、K+2'及参考帧K帧分别采用Sobel算子提取边缘信息，并分别计算其相对于参考帧K边缘的帧差d₁、d₂、d₃、d₄，采用最大方差阈值方法进行二值化；

（5）分别对连续五帧前两帧和后两帧得到的帧差二值化结果进行与运算；对得到的与运算结果采用或运算及形态学、中值滤波等进行后处理，实现动背景下视频对象的快速有效分割。

所述步骤（1）中对于当前第K-2帧、第K-1帧、第K+1帧、第K+2帧与参考帧K帧中分成的8×8宏块进行预判断及筛选，具体步骤如下：

由于在下述步骤中应用最小二乘法计算全局运动参数的时候，很多误差大的宏块被直接删除，如果能够在最小二乘法运算之前将误差大的宏块剔除，将显著的提高运算速度，并降低运算量。而决定宏块误差大小、影响计算准确性的重要因素便是宏块的纹理信息，也就是梯度信息。本部分提出的宏块预判断及筛选的方法正是从宏块的梯度信息出发，根据设定的阈值对于宏块进行筛选抑或保留，当宏块的信息量小于该阈值时，对该宏块进行筛选，不作为下述步骤中参与块匹配的宏块；当信息量大于该阈值时，则对宏块进行保留，作为有效特征块参与进行下述的运动估计等运算。

其主要步骤如下：

第一步：将每一帧分成8×8子块，经试验证明，若采用分成16×16子块的形式则计算量过大，若分成4×4子块则块匹配等方法不够精确，故采用8×8子块的形式；

第二步：采用Sobel算子得到每一帧的梯度图，将梯度信息作为宏块剔除的判断依据；

| &dtri; f (x, y) | = mag (&dtri; f (x, y)) = \sqrt{{G_{x}}^{2} + {G_{y}}^{2}}

其中表示该点的梯度信息，G_x、G_y分别表示偏导数。

第三步：计算每一个宏块的梯度量；以8×8子块为例，其梯度信息量为：

| &dtri; f {(x, y)}_{8 \times 8} | = Σ_{i = 1}^{i = 8} Σ_{j = 1}^{j = 8} | &dtri; f (x, y) |

第四步：确定宏块预断的阈值，一般保留所有宏块的40%，根据这个确定的值，对所有宏块的梯度量进行排序，确定保留40%下宏块筛选的最佳阈值T；

第五步：完成对于宏块的筛选，若其梯度信息量>T，则对宏块进行保留，作为有效特征块参与进行下述的运动估计等运算；若其梯度信息量<T，对该宏块进行筛选，不作为下述步骤中参与块匹配的宏块。

所述步骤（2）中的分别以K-2帧、K-1帧、K+1帧、K+2帧作为当前帧，以K帧作为参考帧，对筛选后的宏块采用SAD准则、增强型菱形搜索策略进行块匹配，并将块匹配求得的运动矢量场利用最小二乘法获得摄像机六参数模型，其具体步骤如下：

(i)块匹配准则SAD

本部分采用SAD块匹配准则，该准则不仅能够找到最佳匹配点，并且计算量小、耗时短。

SAD (i, j) = Σ_{m = 1}^{M} Σ_{n = 1}^{N} | f_{k} (m, n) - f_{k - 1} (m + i, n + j) |

其中(i,j)为位移量，f_k和f_k-1分别为当前帧和上一帧的灰度值，M×N为宏块的大小，若在某一点处SAD(i,j)达到最小，则该点为要找的最优匹配点。

(ii)增强型菱形搜索策略

图2(a)所示为整像素运动估计的误差曲面，由于搜索范围大、视频内容复杂，整像素运动估计的误差曲面非单调。因此，整像素运动估计易陷入局部最小值。反之，分数像素由整像素插值得到，分数像素搜索窗口内搜索点的相关性远高于整像素搜索点的相关性。大部分视频序列的分数像素误差曲面都具有图2(b)的分布特性，即当搜索点靠近全局最小点时，匹配误差单调下降。因此，许多快速分数像素运动矢量搜索方法采用了预测运动矢量（FMVP:fractional predicted mv）作为搜索起始点。如果可以精确预测分数像素运动矢量搜索的初始点，则可以更早地搜索到FMVP附近的最佳MV，及时停止分数像素运动估计搜索。

运动矢量搜索常用三种模板：菱形模板、正方形模板和六边形模板。其中，菱形模板最简单，被许多视频编码器采用，如图3(a)；正方形模板在菱形模板上增加了对角线上的4个点，计算复杂度和搜索结果准确度增加，如图3(b)；六边形适合搜索范围较大的场合，由于分数像素运动矢量搜索范围仅限于两个整像素之间，使得搜索过于复杂，因此六边形模板不太适用于分数像素运动矢量搜索，如图3(c)。

基于以上分析，提出一种基于预测矢量的增强型菱形模板搜索策略。由于预测运动矢量FMVP和最佳MV有较高的匹配率，本方法不考虑原始搜索中心(0,0)，而直接以FMVP作为搜索起始点；采用增强型菱形模板（EDSP:extended diamond search pattern），结合正方形模板准确度较高的优点，在菱形模板的基础上增加对角线上的搜索点；不进行菱形模板的迭代，而将搜索停止在FMVP的[-2,2]范围内，省略[-2,2]范围外的少数对编码效率提高不大的分数像素运动矢量搜索，以减少搜索点数，从而进一步减少计算量。

图4为基于预测矢量的增强型菱形模板搜索策略示意图，方法流程如下：

第一步：由相邻块预测当前块的分数像素运动矢量，获得FMVP，即(Pred_x,Pred_y)。直接以FMVP作为搜索起始点；

第二步：比较搜索起始点(Pred_x,Pred_y)周围的4个菱形搜索点和(Pred_x,Pred_y)的匹配误差，如果最小匹配误差RMS位于(Pred_x,Pred_y)，则停止分数像素运动矢量搜索，否则进行第三步搜索；

第三步：如图4(a)，如果最佳匹配点和次最佳匹配点相对，则选择最佳匹配点MV为最终分数像素运动矢量；如图4(b)，如果最佳匹配点和次最佳匹配点相邻，则计算与其相邻的正方形模板上点的匹配误差，若RMS仍为菱形最佳匹配点，则选择菱形最佳匹配点MV为最终分数像素运动矢量，否则进行下一步；

第四步：以第三步中正方形模板上的搜索点为中心，用菱形模板搜索其周围的点。选择RMS的点作为最终分数像素运动矢量。

(iii)最小二乘法获得摄像机六参数模型

选取步骤(i)中获取到的当前帧K-2帧、K-1帧、K+1帧、K+2帧中两侧子块作为特征块，将经过(i)(ii)步骤获得的运动矢量代入摄像机六参数模型（如下式）后，采用最小二乘法估计参数m₀、m₁、m₂、n₀、n₁、n₂。6参数仿射变换模型：可以对平移、旋转、缩放运动进行建模，其定义如下：

\{\begin{matrix} x^{'} = m_{0} + m_{1} x + m_{2} y \\ y^{'} = n_{0} + n_{1} x + n_{2} y \end{matrix}

其中m₀和n₀分别表示像素点在x和y方向的平移幅度，m₁、n₁、m₂、n₂四个参数描述了缩放和旋转转动。

所述步骤（3）中的通过运动补偿分别获得当前帧K-2帧、K-1帧、K+1帧、K+2帧的重建帧K-2'、K-1'、K+1'、K+2'，其具体内容如下：

对于当前帧K-2帧、K-1帧、K+1帧、K+2帧中的每一个点根据上述获取的摄像机模型，计算其分别在参考帧K中的对应位置并对其进行赋值，从而实现对于K-2帧、K-1帧、K+1帧、K+2帧的全局运动补偿，使补偿后的重建帧K-2'、K-1'、K+1'、K+2'与参考帧K的背景对齐，从而实现下述结合边缘信息、自适应最大方差阈值的基于增强型菱形运动估计及五帧背景对齐的动背景下视频分割方法。

所述步骤（4）中的采用Sobel算子提取边缘信息，并分别与参考帧K边缘进行差分，并采用最大方差阈值进行二值化，其具体步骤如下：

(i)Sobel算子提取边缘信息，并与参考帧K边缘进行差分

边缘检测算子种类很多，基于Sobel算子对于边缘定位效果不错并且对于噪声具有鲁棒性的特点考虑，选择Sobel边缘检测算子对于重建帧K-2'、K-1'、K+1'、K+2'及参考帧K帧进行边缘特征提取。

Sobel算子可以用模板卷积来实现：

f_s(x,y)=|f(x,y)×S_x|+|f(x,y)×S_y|

其中：

S_{x} = [\begin{matrix} - 1 & 0 & 1 \\ - 2 & 0 & 2 \\ - 1 & 0 & 1 \end{matrix}]

S_{y} = [\begin{matrix} 1 & 2 & 1 \\ 0 & 0 & 0 \\ - 1 & - 2 & - 1 \end{matrix}]

应用Sobel算子对于重建帧K-2'、K-1'、K+1'、K+2'及参考帧K帧分别提取边缘的结果为：f_k-2′(x,y)、f_k-1′(x,y)、f_k+1′(x,y)、f_k+2′(x,y)及f_k(x,y)。

对重建帧K-2'、K-1'、K+1'、K+2'分别与K帧的边缘进行图像差分运算，求得帧差d₁、d₂、d₃、d₄，其中：

帧差d₁=|f_k-2′(x,y)-f_k(x,y)|，帧差d₂=|f_k-1′(x,y)-f_k(x,y)|

帧差d₃=|f_k+1′(x,y)-f_k(x,y)|，帧差d₄=|f_k+2′(x,y)-f_k(x,y)|

(ii)采用最大方差阈值进行二值化

最大方差阈值是一种自适应的阈值确定方法，它以最佳门限将图像的直方图分成两组，当两组间的方差为最大时，决定阈值。所以本部分采用这种方法来实现边缘图像差分结果的二值化。

设一幅图像的灰度值为0~m-1级，灰度值i的像素数为n_i，则总的像素点数：

N = Σ_{i = 0}^{m - 1} n_{i}

各值的概率为：

设最佳阈值为T，用阈值T将像素分成两组:C₀={0~T-1}和C₁={T~m-1}，C₀和C₁产生的概率及平均值由以下公式得出：

C₀产生的概率

w_{0} = Σ_{i = 0}^{T - 1} p_{i} = w (T)

C₁产生的概率

w_{1} = Σ_{i = T}^{m - 1} p_{i} = 1 - w_{0}

C₀的平均值

μ_{0} = Σ_{i = 0}^{T - 1} \frac{i p_{i}}{w_{0}} = \frac{μ (T)}{w (T)}

C₁的平均值

μ_{1} = Σ_{i = T}^{m - 1} \frac{i p_{i}}{w_{1}} = \frac{μ - μ (T)}{1 - w (T)}

其中：

μ = Σ_{i = 0}^{m - 1} i p_{i},

μ (T) = Σ_{i = 0}^{T - 1} i p_{i}

则全部采样的灰度平均值为：μ=w₀μ₀+w₁μ₁

两组间的方差：

δ^{2} (T) = w_{0} {(μ_{0} - μ)}^{2} + w_{1} {(μ_{1} - μ)}^{2} = w_{0} w_{1} {(μ_{1} - μ_{0})}^{2} = \frac{{[μ \cdot w (T) - μ (T)]}^{2}}{w (T) [1 - W (T)]}

在1~m-1之间求上式为最大值时的T，即为最佳阈值。

根据所得到的最佳阈值T对边缘检测结果进行二值化，二值化结果分别为OtusBuf1、OtusBuf2、OtusBuf3、OtusBuf4。

所述步骤（5）中对连续五帧前两帧和后两帧得到的帧差二值化结果分别进行与运算，并经过或运算及滤波等后处理。

对上述二值化结果OtusBuf1、OtusBuf2、OtusBuf3、OtusBuf4进行与运算，与运算的结果如下：

其中：DifferBuf(1)为五帧中前两帧K-2与K-1经过运动补偿等二值化的与运算的结果，DifferBuf(2)为五帧中后两帧K+1与K+2经过运动补偿等二值化的与运算的结果；OtusBuf1(i)、OtusBuf2(i)、OtusBuf3(i)、OtusBuf4(i)表示对帧差d₁、d₂、d₃、d₄分别进行二值化的结果。

对上述与运算结果进行或运算：

DifferBuf (i) = \{\begin{matrix} 255 & if (DifferBuf 1 (i) = = 255 | | DifferBuf 2 (i) = 255) \\ 0 & else \end{matrix}

其中DifferBuf(i)为经过或运算的最终处理结果。

本发明与现有技术相比所具有的优点在于：本方法通过在块匹配方法前进行宏块的预先判断能够有效减少块匹配的时间，通过将连续五帧视频序列通过运动估计、运动补偿进行背景对齐及后续对五帧图像的处理，能够准确的将动背景下的视频对象分割出来。

附图说明：

图1为本发明一种基于增强型菱形运动估计及五帧背景对齐的动背景下视频对象提取方法流程图；

图2为本发明一种基于增强型菱形运动估计及五帧背景对齐的动背景下视频对象提取方法运动估计误差曲面示意图；

图3为本发明一种基于增强型菱形运动估计及五帧背景对齐的动背景下视频对象提取方法常用搜索模板示意图；

图4为本发明一种基于增强型菱形运动估计及五帧背景对齐的动背景下视频对象提取方法基于预测矢量的增强型菱形模板搜索示意图；

图5为本发明一种基于增强型菱形运动估计及五帧背景对齐的动背景下视频对象提取方法Coastguard视频序列的第139帧采用本发明方法补偿后的视频对象提取结果；其中(a)表示Coastguard视频序列的第137帧；(b)表示Coastguard视频序列的第138帧；(c)表示Coastguard视频序列的第139帧；(d)表示Coastguard视频序列的第140帧；(e)表示Coastguard视频序列的第141帧；(f)表示Coastguard视频序列的第137帧预处理的结果；(g)表示Coastguard视频序列的第138帧预处理的结果；(h)表示Coastguard视频序列的第139帧预处理的结果；(i)表示Coastguard视频序列的第140帧预处理的结果；(j)表示Coastguard视频序列的第141帧预处理的结果；(k)表示Coastguard视频序列的第137帧的重建帧经过Sobel边缘检测的处理结果；(l)表示Coastguard视频序列的第138帧经过Sobel边缘检测的处理结果；(m)表示Coastguard视频序列的第139帧的重建帧经过Sobel边缘检测的处理结果；(n)表示Coastguard视频序列的第140帧的重建帧经过Sobel边缘检测的处理结果；(o)表示Coastguard视频序列的第141帧的重建帧经过Sobel边缘检测的处理结果；(p)表示Coastguard视频序列的第139帧采用本发明方法经过运动估计、补偿的五帧背景对齐方法后提取的二值视频对象平面；(q)表示Coastguard视频序列的第139帧采用本发明方法经过运动估计、补偿的五帧背景对齐方法后提取的视频对象平面。

具体实施方式：

下面结合附图及具体实施方式进一步详细介绍本发明。

本发明一种基于增强型菱形运动估计及五帧背景对齐的动背景下视频对象提取方法，包括以下步骤（如图1所示）：

步骤1.灰度变换及形态学预处理。

首先将YUV格式的视频序列做灰度变换，由于Y分量包含灰度信息，因此将Y分量从视频序列中提取出来。由于视频中不可避免的会出现噪声的干扰，因此对每帧图像进行形态学开闭重建，消除噪声，平滑掉一些细小的边缘以简化图像。预处理的结果可参见图5(f)(g)(h)(i)(j)。

步骤2.将第K-2帧、第K-1帧、参考帧K帧、第K+1帧与第K+2帧分成8×8宏块，根据纹理信息对第K-2帧、第K-1帧、参考帧K帧、第K+1帧与第K+2帧中所有宏块进行预判断、筛选。

其主要步骤如下：

| &dtri; f (x, y) | = mag (&dtri; f (x, y)) = \sqrt{{G_{x}}^{2} + {G_{y}}^{2}}

其中表示该点的梯度信息，G_x、G_y分别表示偏导数。

| &dtri; f {(x, y)}_{8 \times 8} | = Σ_{i = 1}^{i = 8} Σ_{j = 1}^{j = 8} | &dtri; f (x, y) |

第五步：完成对于宏块的筛选，若其梯度信息量>T，则对宏块进行保留，作为有效特征块参与进行下述的运动估计等运算；若其梯度信息量<T，对该宏块进行筛选，不作为下述步骤中参与块匹配的宏块

步骤3.对上述筛选后的宏块采用SAD准则、增强型菱形搜索策略进行块匹配，以第K-2帧、第K-1帧、第K+1帧与第K+2帧分别作为当前帧，以第K帧作为参考帧，得到该四帧相对于参考帧K帧的运动矢量场，并通过最小二乘法计算全局运动参数，获得摄像机六参数模型。

目前常用的块匹配准则有：平均绝对误差MAD(Mean Absolute Difference)、最小均方误差MSE(Mean Square Error)、最小绝对差SAD(Sum of Absolute)。

SAD (i, j) = Σ_{m = 1}^{M} Σ_{n = 1}^{N} | f_{k} (m, n) - f_{k - 1} (m + i, n + j) |

分别将第K-2帧、第K-1帧、第K+1帧与第K+2帧中筛选后的宏块和参考帧K按照上述SAD准则及增强型菱形搜索策略进行块匹配，获得当前帧K-2相对于参考帧K的运动矢量场，当前帧K-1相对于参考帧K的运动矢量场，当前帧K+1相对于参考帧K的运动矢量场以及当前帧K+2相对于参考帧K的运动矢量场。

步骤4.根据最小二乘法求摄像机运动参数。

选取步骤2中获取到的当前帧K-2帧、K-1帧、K+1帧、K+2帧中两侧子块作为特征块，将经过块匹配、运动估计获得的运动矢量代入摄像机六参数模型（如下式）后，采用最小二乘法估计参数m₀、m₁、m₂、n₀、n₁、n₂。6参数仿射变换模型：可以对平移、旋转、缩放运动进行建模，其定义如下：

\{\begin{matrix} x^{'} = m_{0} + m_{1} x + m_{2} y \\ y^{'} = n_{0} + n_{1} x + n_{2} y \end{matrix}

步骤5.通过运动补偿分别获得当前帧K-2帧、K-1帧、K+1帧、K+2帧的重建帧K-2'、K-1'、K+1'、K+2'。

对于当前帧K-2帧、K-1帧、K+1帧、K+2帧中的每一个点根据上述获取的摄像机模型，计算其分别在参考帧K中的对应位置并对其进行赋值，从而实现对于K-2帧、K-1帧、K+1帧、K+2帧的全局运动补偿，使补偿后的重建帧K-2'、K-1'、K+1'、K+2'与参考帧K的背景对齐，从而实现下述结合边缘信息、自适应阈值的基于增强型菱形运动估计及五帧背景对齐的动背景下视频分割方法。

步骤6.采用Sobel算子提取边缘信息，分别与参考帧K边缘进行差分，并采用最大方差阈值进行二值化。

Sobel算子可以用模板卷积来实现：

f_s(x,y)=|f(x,y)×S_x|+|f(x,y)×S_y|

其中：

S_{x} = [\begin{matrix} - 1 & 0 & 1 \\ - 2 & 0 & 2 \\ - 1 & 0 & 1 \end{matrix}]

S_{y} = [\begin{matrix} 1 & 2 & 1 \\ 0 & 0 & 0 \\ - 1 & - 2 & - 1 \end{matrix}]

应用Sobel算子对于重建帧K-2'、K-1'、K+1'、K+2'及参考帧K帧分别提取边缘的结果为：f_k-2′(x,y)、f_k-1′(x,y)、f_k+1′(x,y)、f_k+2′(x,y)及f_k(x,y)，结果可参见图5(k)(l)(m)(n)(o)。

帧差d₁=|f_k-2′(x,y)-f_k(x,y)|，帧差d₂=|f_k-1′(x,y)-f_k(x,y)|

帧差d₃=|f_k+1′(x,y)-f_k(x,y)|，帧差d₄=|f_k+2′(x,y)-f_k(x,y)|

N = Σ_{i = 0}^{m - 1} n_{i}

各值的概率为：

C₀产生的概率

w_{0} = Σ_{i = 0}^{T - 1} p_{i} = w (T)

C₁产生的概率

w_{1} = Σ_{i = T}^{m - 1} p_{i} = 1 - w_{0}

C₀的平均值

μ_{0} = Σ_{i = 0}^{T - 1} \frac{i p_{i}}{w_{0}} = \frac{μ (T)}{w (T)}

C₁的平均值

μ_{1} = Σ_{i = T}^{m - 1} \frac{i p_{i}}{w_{1}} = \frac{μ - μ (T)}{1 - w (T)}

其中：

μ = Σ_{i = 0}^{m - 1} i p_{i},

μ (T) = Σ_{i = 0}^{T - 1} i p_{i}

则全部采样的灰度平均值为：μ=w₀μ₀+w₁μ₁

两组间的方差：

δ^{2} (T) = w_{0} {(μ_{0} - μ)}^{2} + w_{1} {(μ_{1} - μ)}^{2} = w_{0} w_{1} {(μ_{1} - μ_{0})}^{2} = \frac{{[μ \cdot w (T) - μ (T)]}^{2}}{w (T) [1 - W (T)]}

在1~m-1之间求上式为最大值时的T，即为最佳阈值。

根据所得到的最佳阈值T对帧差d₁、d₂、d₃、d₄分别进行二值化，二值化的结果分别为OtusBuf1、OtusBuf2、OtusBuf3、OtusBuf4。

步骤7.与运算及后处理。

对上述与运算结果再进行或运算：

DifferBuf (i) = \{\begin{matrix} 255 & if (DifferBuf 1 (i) = = 255 | | DifferBuf 2 (i) = 255) \\ 0 & else \end{matrix}

其中DifferBuf(i)为经过或运算的最终处理结果。

由于视频序列中不可避免的会有噪声的干扰，因此在与运算后还要进行一些后处理工作，以去除孤立的小区域、小间隙，后处理的结果见图5(p)。为此，本部分首先采用中值滤波的方法去掉一些干扰的噪声，再采用图像形态学方法，主要包括腐蚀及膨胀运算，不但可以去除噪声并且可以起到平滑图像的作用。腐蚀运算主要消除边界点，使边界向内部收缩，而膨胀运算则将与物体接触的所有背景点合并到该物体中，使边界向外扩张。

Claims

1.一种基于增强型菱形运动估计及五帧背景对齐的动背景下视频对象提取方法，其特征在于包括以下步骤：

(1)将第K-2帧、第K-1帧、参考帧K帧、第K+1帧与第K+2帧分别分成8×8宏块，根据纹理信息对该五帧中所有宏块进行预判断、筛选；具体步骤如下：

第一步：将每一帧分成8×8子块，经试验证明，若采用分成16×16子块的形式则计算量过大，若分成4×4子块则块匹配方法不够精确，故采用8×8子块的形式；

| &dtri; f (x, y) | = mag (&dtri; f (x, y)) = \sqrt{{G_{x}}^{2} + {G_{y}}^{2}}

其中表示梯度信息，G_x、G_y分别表示偏导数；

第三步：计算每一个宏块的梯度信息量；其梯度信息量为：

| &dtri; f {(x, y)}_{8 \times 8} | = Σ_{i = 1}^{i = 8} Σ_{j = 1}^{j = 8} | &dtri; f (x, y) |

第四步：确定宏块预断的阈值，保留所有宏块的40％，根据这个确定的值，对所有宏块的梯度信息量进行排序，确定保留40％下宏块筛选的最佳阈值T；

第五步：完成对于宏块的筛选，若其梯度信息量>T，则对宏块进行保留，作为有效特征块参与进行下述的运动估计运算；若其梯度信息量<T，对该宏块进行筛选，不作为下述步骤中参与块匹配的宏块；

(2)对上述筛选后的宏块采用SAD准则、增强型菱形搜索策略进行块匹配，分别以第K-2帧、第K-1帧、第K+1帧与第K+2帧作为当前帧，以第K帧作为参考帧，得到该四帧相对于参考帧K帧的运动矢量场，并通过最小二乘法计算全局运动参数，获得摄像机6参数仿射变换模型；具体步骤如下：

(i)块匹配准则SAD

采用SAD块匹配准则，其计算公式如下：

SAD (i, j) = Σ_{m = 1}^{M} Σ_{n = 1}^{N} | f_{K} (m, n) - f_{K - 1} (m + i, n + j)

其中(i,j)为位移量，f_K和f_K-1分别为当前帧和上一帧的灰度值，M×N为宏块的大小，若在某一点处SAD(i,j)达到最小，则该点为要找的最优匹配点；

(ii)增强型菱形搜索策略

基于预测矢量的增强型菱形模板搜索策略的方法流程如下：

第一步：由相邻块预测当前块的分数像素运动矢量，获得FMVP，即(Pred_x,Pred_y)；直接以FMVP作为搜索起始点；

第三步：如果最佳匹配点和次最佳匹配点相对，则选择最佳匹配点MV为最终分数像素运动矢量；如果最佳匹配点和次最佳匹配点相邻，则计算与其相邻的正方形模板上点的匹配误差，若RMS仍为菱形最佳匹配点，则选择菱形最佳匹配点MV为最终分数像素运动矢量，否则进行下一步；

第四步：以第三步中正方形模板上的搜索点为中心，用菱形模板搜索其周围的点；选择RMS的点作为最终分数像素运动矢量；

(iii)最小二乘法获得摄像机6参数仿射变换模型

选取步骤(i)中获取到的当前帧K-2帧、K-1帧、K+1帧、K+2帧中两侧子块作为特征块，将经过(i)(ii)步骤获得的运动矢量代入摄像机6参数仿射变换模型后，采用最小二乘法估计参数m₀、m₁、m₂、n₀、n₁、n₂；6参数仿射变换模型：可以对平移、旋转、缩放运动进行建模，其定义如下：

\{\begin{matrix} x^{'} = m_{0} + m_{1} x + m_{2} y \\ y^{'} = n_{0} + n_{1} x + n_{2} y \end{matrix}

其中m₀和n₀分别表示像素点在x和y方向的平移幅度，m₁、n₁、m₂、n₂四个参数描述了缩放和旋转转动；

(3)对第K-2帧进行运动补偿，使第K-2帧与第K帧背景对齐，得到重建帧K-2'，按照同样的方法对第K-1帧、第K+1帧与第K+2帧进行运动补偿，使第K-1帧、第K+1帧及第K+2帧分别与第K帧背景对齐，并得到重建帧K-1'、重建帧K+1'及重建帧K+2'；具体内容如下：

对于当前帧K-2帧、K-1帧、K+1帧及K+2帧中的每一个点根据上述获取的摄像机模型，计算其分别在参考帧K中的对应位置并对其进行赋值，从而实现对于K-2帧、K-1帧、K+1帧及K+2帧的全局运动补偿，使补偿后的重建帧K-2'、K-1'、K+1'、K+2'与参考帧K的背景对齐；

(4)对重建帧K-2'、K-1'、K+1'、K+2'及参考帧K帧分别采用Sobel算子提取边缘信息，并分别计算其相对于参考帧K边缘的帧差d₁、d₂、d₃、d₄，采用最大方差阈值方法进行二值化；具体步骤如下：

(i)Sobel算子提取边缘信息，并与参考帧K边缘进行差分

选择Sobel边缘检测算子对于重建帧K-2'、K-1'、K+1'、K+2'及参考帧K帧进行边缘特征提取；

Sobel算子可以用模板卷积来实现：

f_s(x,y)＝|f(x,y)×S_x|+|f(x,y)×S_y|

其中：

S_{x} = [\begin{matrix} - 1 & 0 & 1 \\ - 2 & 0 & 2 \\ - 1 & 0 & 1 \end{matrix}] {, S}_{y} = [\begin{matrix} 1 & 2 & 1 \\ 0 & 0 & 0 \\ - 1 & - 2 & - 1 \end{matrix}]

应用Sobel算子对于重建帧K-2'、K-1'、K+1'、K+2'及参考帧K帧分别提取边缘的结果为：f_K-2'(x,y)、f_K-1'(x,y)、f_K+1'(x,y)、f_K+2'(x,y)及f_K(x,y)；

帧差d₁＝|f_K-2'(x,y)-f_K(x,y)|，帧差d₂＝|f_K-1'(x,y)-f_K(x,y)|

帧差d₃＝|f_K+1'(x,y)-f_K(x,y)|，帧差d₄＝|f_K+2'(x,y)-f_K(x,y)|

(ii)采用最大方差阈值进行二值化

设一幅图像的灰度值为0～m-1级，灰度值i的像素数为n_i，则总的像素点数：

N = Σ_{i = 0}^{m - 1} n_{i}

各值的概率为：

p_{i} = \frac{n_{i}}{N}

设最佳阈值为T，用阈值T将像素分成两组:C₀＝{0～T-1}和C₁＝{T～m-1}，C₀和C₁产生的概率及平均值有以下公式得出：

C₀产生的概率

w_{0} = Σ_{i = 0}^{T - 1} p_{i} = w (T)

C₁产生的概率

w_{1} = Σ_{i = T}^{m - 1} p_{i} = 1 - w_{0}

C₀的平均值

μ_{0} = Σ_{i = 0}^{T - 1} \frac{{ip}_{i}}{w_{0}} = \frac{μ (T)}{w (T)}

C₁的平均值

μ_{1} = Σ_{i = T}^{m - 1} \frac{{ip}_{i}}{w_{1}} = \frac{μ - μ (T)}{1 - w (T)}

其中：

μ = Σ_{i = 0}^{m - 1} {ip}_{i}, μ (T) = Σ_{i = 0}^{T - 1} {ip}_{i}

则全部采样的灰度平均值为：μ＝w₀μ₀+w₁μ₁

两组间的方差：

δ^{2} T = w_{0} {(μ_{0} - μ)}^{2} + w_{1} {(μ_{1} - μ)}^{2} = w_{0} w_{1} {(μ_{1} - μ_{0})}^{2} = \frac{[μ \cdot w (T) - μ (T)]^{2}}{w (T) [1 - w (T)]}

在1～m-1之间求上式为最大值时的T，即为最佳阈值；

根据所得到的最佳阈值T对边缘检测结果进行二值化，二值化结果分别为OtusBuf 1(i)、OtusBuf 2(i)、OtusBuf 3(i)、OtusBuf 4(i)；

(5)分别对连续五帧前两帧和后两帧得到的帧差二值化结果进行与运算；对得到的与运算结果采用或运算及形态学、中值滤波进行后处理，实现动背景下视频对象的快速有效分割；

对上述二值化结果OtusBuf 1(i)、OtusBuf 2(i)、OtusBuf 3(i)、OtusBuf 4(i)进行与运算，与运算的结果如下：

DifferBuf (1) = \{\begin{matrix} 255 & if (OtusBuf 1 (i) = = 255 & & OtusBuf 2 (i) = = 255) \\ 0 & else \end{matrix}

DifferBuf (2) = \{\begin{matrix} 255 & if (OtusBuf 3 (i) = = 255 & & OtusBuf 4 (i) = = 255) \\ 0 & else \end{matrix}

其中：DifferBuf(1)为五帧中前两帧K-2与K-1经过运动补偿以及二值化的与运算的结果，DifferBuf(2)为五帧中后两帧K+1与K+2经过运动补偿以及二值化的与运算的结果；OtusBuf 1(i)、OtusBuf 2(i)、OtusBuf 3(i)、OtusBuf 4(i)表示对帧差d₁、d₂、d₃、d₄分别进行二值化的结果；

对上述与运算结果进行或运算：

DifferBuf (i) = \{\begin{matrix} 255 & if (DifferBuf (1) = = 255 | | DifferBuf (2) = = 255) \\ 0 & else \end{matrix}

其中DifferBuf(i)为经过或运算的最终处理结果。