CN103514608B

CN103514608B - 基于运动注意力融合模型的运动目标检测与提取方法

Info

Publication number: CN103514608B
Application number: CN201310254001.4A
Authority: CN
Inventors: 刘龙; 樊波阳
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2013-06-24
Filing date: 2013-06-24
Publication date: 2016-12-28
Anticipated expiration: 2033-06-24
Also published as: CN103514608A

Abstract

本发明基于运动注意力融合模型的运动目标检测与提取方法，其特征在于，根据目标的运动在时‑空上具有运动反差，利用运动矢量在时间和空间上的变化特点构建出运动注意力融合模型，结合噪声去除、中值滤波、边缘检测，实现全局运动场景下运动目标的精确提取。针对目前全局运动场景下目标检测与提取的局限性，采用了时‑空运动注意力融合模型、去噪技术、图像滤波技术和边缘跟踪检测技术。根据多个全局运动视频场景的测试结果显示该算法比同类其它算法准确性高、复杂度低，运算量少、实时性强。

Description

基于运动注意力融合模型的运动目标检测与提取方法

技术领域

本发明属于视频图像检测技术领域，涉及一种基于运动注意力融合模型的运动目标检测与提取方法。

背景技术

运动目标的检测与提取一直是视频分析领域中的研究热点，具有广泛的应用价值。运动目标检测与提取大致可分为两类：一类是在镜头静止不动时，即局部运动场景下，另一类是在镜头运动时，即全局运动场景下。对于局部运动场景下的运动目标检测方法比较成熟，但在全局运动场景下，由于运动信息的复杂性，运动目标的检测与提取一直以来都是个具有难度的问题。

视频运动目标检测算法主要是依据时空信息进行的，即纹理信息，颜色信息和运动信息，在局部运动场景下，典型的方法有帧间差异的算法和背景重构的方法，帧间差异的方法是通过检测图像帧上的变化特征与不变特征，以将运动目标与静止背景进行分离，而背景重构方法的主要思想是预先重构不含前景运动目标的背景图像,然后将当前帧与该背景图像相减进行目标的检测。对于全局运动场景下的运动目标检测与提取问题，其难点在于视频运动特征的表现是由全局运动和局部运动叠加的结果，目前唯一最有效的方法是基于运动补偿的检测算法，其主要思路是用六参数的运动模型进行全局运动估计，采用递归最小二乘法计算模型参数，然后通过运动补偿求解运动目标与背景之间的相对运动，最终获得目标所在区域。由于运动参数模型运算过程比较复杂，同时模型估计的精确性受到运动目标大小和运动复杂性的影响，因此在目标面积相对较大或视频运动较为复杂的情况下，这种方法的准确性和实时性并不能得到有效保障。

在近些年的视觉技术研究中，视觉感知逐渐融入了人类生理和心理的研究成果，这些研究成果对计算机视觉技术的发展起到了很大的推动作用。研究表明人类视觉过程表现为一个自底向上(bottom-up)和自顶向下(top-down)相结合的过程，自底向上的过程属于早期视觉，它与图像具体内容无关，取决于构成图像的元素自身引起的视觉反差，反差越大的区域就越容易吸引起视觉系统的注意力。在2002年，Itti和Koch等人首次提出了注意力区域的概念，这一概念首次引入了人类视觉对图像观察本身的特性，它先对输入的图像进行线性滤波，提取出亮度(Intensity)、颜色(Color)、和方向(Orientation)这些低层次的图像特征，然后通过高斯金字塔和Center-surround算子进行局部视觉反差的计算，反差大的区域就代表容易吸引视觉注意力的区域，此后再对不同尺度和不同的特征下的反差计算结构进行融合，得到综合视觉显著图。在此基础上，Ma Yufei等人在分析运动矢量的基础上提出了一种运动注意力模型，该模型考虑了运动矢量的能量以及空间和时间相关性进行运动注意力的分析。Guironnet和Zhai等人在2005年提出了基于时空信息的注意力模型，对静止目标和运动目标的模型进行了融合。Jing Zhang和Seung-Hyun Lee等人把注意力区域的提取应用在静止图像的目标分割问题上,并取得了一定的效果。Junwei Han等人则运用注意力模型对视频对象进行分割，其方法是首先进行全局运动补偿，然后对动态注意力和静态注意力进行融合得到最终结果，但这种方法仅限于局部运动场景。

发明内容

本发明的目的是提供一种基于运动注意力融合模型的运动目标检测与提取方法，能够快速、准确、实时的完成对视频图像在全局运动场景下运动目标的检测和提取。

本发明所采用的技术方案是，基于运动注意力融合模型的运动目标检测与提取方法，根据目标的运动在时-空上具有运动反差，利用运动矢量在时间和空间上的变化特点构建出运动注意力融合模型，结合噪声去除、边缘检测，实现全局运动场景下运动目标的精确提取；

该方法按以下步骤进行，

步骤1、根据光流方程对运动矢量场进行估计后，进行叠加和滤波两个预处理；

步骤2、在上步得到运动矢量场基础上构建运动注意力融合模型对运动目标区域进行初步确定，具体为：

a.定义时间注意力因子

采用时间上临近运动矢量差值衡量运动矢量相关性程度定义时间运动注意力因子为和分别代表在k帧和k-1帧中坐标位置为(i,j)的运动矢量；

b.定义空间注意力因子

采用八邻域内的运动矢量均值与该运动矢量的差值来衡量局部运动相关性程度，设MB_k,i,j是k帧中坐标为(i,j)的宏块，i和j分别表示宏块的横纵坐标；S_k,i,j表示包含宏块MB_k,i,j及其相邻宏块的集合；那么定义的空间运动注意力因子为：

代表在k帧中坐标位置为(i,j)的运动矢量，其中

c.定义时-空注意力融合模型

根据步骤a与步骤b中时间运动注意力因子和空间运动注意力因子定义运动注意力模型为时间和空间注意力因子的线性融合模型：其中，α、β为正值的系数，式中·代表矢量的点积，其中δ为正值；

d.确定运动目标区域

对运动宏块MB_k,i,j的注意力取时间上邻近的平均：然后根据公式判断运动宏块MB_k,i,j是否属于目标区域TR，式中：n为大于零的整数，T代表为正数的判断阈值，MB_k,i,j为对应的像素宏块；

步骤3、对步骤2中运动目标区域采用闭运算，在不改变原来目标的面积同时消除目标区域的内部空洞，获得更为精确地目标区域。

本发明的特点还在于，

步骤1中对运动矢量场处理的具体方法为：

设图像在像素r＝(x,y)^T处，t时刻的强度记为I(r,t)，通过光流方程求出i表示宏块的横坐标，j表示宏块的纵坐标，其中宏块的中心坐标为(i,j)，

设当前帧为第k帧，第k帧对应的运动矢量表示为第k帧与前后帧的宏块进行运动矢量进行叠加，按公式计算，同时运动矢量在叠加后采用中值滤波进行去除噪声干扰处理，即对于每一个非零运动矢量，用相邻的运动矢量中值代替其值，得到滤波后的运动矢量

步骤3中对运动目标区域采用闭运算，在不改变原来目标的面积同时消除目标区域的内部空洞，获得精确的边缘轮廓的具体方法为：

i)用Canny算子得到粗分割区域的纹理边缘二值图；

ii)任意选择一个边缘像素块的中心点作为边缘跟踪的起始跟踪点，以该点指向相邻的边缘像素块中心点的方向作为起始跟踪方向；

如果存在两个相邻块，则分别执行以下步骤；

iii)判断在该点周围的8个像素点是否为边缘像素点，如果存在边缘像素点，选择最接近跟踪方向的像素点为边缘点，如果不存在边缘点那么确定跟踪方向的像素点为边缘点；

iV)以步骤iii)中确定的边缘点为新的跟踪点，以该点指向下一个相邻的边缘像素块中心点的方向作为新的跟踪方向，重新执行步骤iii)，当下一个相邻块已经处于图像边界并且没有相邻的其它像素块，那么结束该操作，得到精确的目标轮廓，再对轮廓内部完全填充，最终得到精确化的运动目标区域。

本发明的有益效果是：

1)基于运动注意力融合模型，运算过程简单，实时性有效提高。

2)采用光流方程对视频帧估计得到运动矢量场后进行叠加和滤波处理，得到稠密规整的运动矢量场且有效抑制了视频信号中的噪声。

3)定义运动注意力融合模型时在时间与空间注意力因子线性组合的基础上，增加了时-空对注意力影响的偏置，合理反映出时间与空间注意力影响对比的变化，比较符合客观事实。

4)对根据上述模型估计出的运动宏块注意力取时间上临近的平均，大大降低了干扰和估算的不准确性。

5)对运动目标区域采取了闭运算，在不改变运动目标面积的前提下，有效地填充了运动目标内部的空洞。

6)通过Canny算子得到运动目标区域边缘后，用边缘跟踪算法，得到更加精确的运动目标边缘轮廓。

附图说明

图1是本发明方法的算法流程图；

图2是运动矢量累加示意图；

图3是运动矢量场的累加和中值滤波后的效果图，(a)为‘Foreman’序列的第2帧原始图像；(b)为‘Foreman’序列的第2帧的运动矢量场；(c)为经过矢量累加后的‘Foreman’第2帧的运动矢量场；(d)为经过矢量累加，中值滤波后的‘Foreman’第2帧运动矢量场；

图4是运动矢量在空间和时间的运动反差示意图；

图5是运动矢量场中的局部运动相关性程度示意图。；

图6是基于运动注意力融合模型的运动目标区域检测结果，(a)为‘Foreman’序列第2帧原始图，(b)为‘Foreman’序列第2帧的运动目标区域检测结果；

图7是边缘跟踪示意图，(a)为边界走向，(b)为跟踪方向角度，(c)为跟踪方向；

图8是运动目标检测算法时间损耗统计对比表(ms/帧)；

图9是‘Foreman’(CIF)视频序列的第2、12、21、46帧的测试结果；

图10是使用本发明的基于运动注意力融合模型的运动目标检测方法的过程效果图。

具体实施方式

以下结合附图和具体实施方式对本发明进行详细说明。

本发明提供一种基于运动注意力融合模型的运动目标检测与提取方法，根据目标的运动在时-空上具有运动反差，利用运动矢量在时间和空间上的变化特点构建出运动注意力融合模型，结合噪声去除、边缘检测，实现全局运动场景下运动目标的精确提取。

该方法按以下步骤进行，

步骤1、根据光流方程对运动矢量场进行估计后，进行叠加和滤波两个预处理：

步骤2、在上步得到运动矢量场基础上构建运动注意力融合模型对运动目标区域进行初步确定：

a.定义时间注意力因子

b.定义空间注意力因子

代表在k帧中坐标位置为(i,j)的运动矢量，其中

c.定义时-空注意力融合模型

d.确定运动目标区域

步骤3、对步骤2中运动目标区域采用闭运算，在不改变原来目标的面积同时消除目标区域的内部空洞，获得更为精确的目标区域：

i)用Canny算子得到粗分割区域的纹理边缘二值图；

如果存在两个相邻块，则分别执行以下步骤；

人类复杂的视觉系统具备注意力机制，注意力由颜色、亮度和运动的反差因素引起，人类自身的视觉系统在全局运动的情况下能够很好的捕获运动目标，这是由于目标运动与全局运动形成运动反差和目标自身运动变化引起的运动反差引起人类视觉注意所致。全局运动视频场景中的运动由镜头引起的全局运动和运动目标引起的局部运动叠加形成，往往全局运动与局部运动形成运动反差，如果能构建出合理的运动注意力模型，那么全局运动场景下运动目标检测问题将有性能较好的解决方法。

本发明根据运动矢量在空间和时间上的特点建立运动注意力融合模型，通过该模型对运动矢量场进行注意力检测得到目标区域，并进行精确的目标提取。具体的运动目标检测和提取过程如下：

1.运动矢量场的预处理

运动矢量场直接反映了视频信号中的运动变化信息，运动矢量场是根据光流约束方程进行估算的，设图像在像素r＝(x,y)^T处，t时刻的强度记为I(r,t)，光流方程(OFE,Optical Flow Equation)或光流约束方程的定义如下：

v \cdot &dtri; I (r, t) + \frac{\partial I (r, t)}{\partial t} = 0 - - - (1)

其中关于这一方程的求解过程，Horn.Schunck给出了在光滑性约束条件下的一个求解方法。在增加不同的约束条件可得到不同的求解算法。

采用光流法对相邻两帧估算的运动矢量场一般呈现出稀疏和局部凌乱的运动特征，这是因为相邻帧的运动特征的不够强烈，同时视频信号中存在一定的噪声。因此对运动矢量场进行叠加和滤波两个预处理。运动矢量累加过程为：设当前帧为第n帧，宏块的中心坐标为(k,l)，与之对应的运动矢量表示为与前后帧的运动矢量累加按公式(2)计算，其示意图如图2所示。为去除噪声干扰，运动矢量在累加后采用中值滤波进行处理，即对于每一个非零运动矢量，用相邻的运动矢量中值代替其值。

(v_{x}^{k, l}, v_{y}^{k, l}) = Σ_{i = n - c}^{i = n + c} (v_{x}^{k, l} (i), v_{y}^{k, l} (i)) - - - (2)

经过运动矢量累加和滤波可以得到更加适用于运动分析的稠密规整的运动矢量场，采用‘Foreman’(CIF)序列的第2帧前后的运动矢量场进行了验证测试，其结果如图3所示。

图3(a)为‘Foreman’序列第2帧原始图像；图3(b)为光流法求得‘Foreman’序列第2帧对应的运动矢量场，可以看出运动矢量比较凌乱，运动矢量不够强烈和完整；图3(c)为运用公式(2)，经过矢量累加后得到的运动矢量场，运动矢量更加完整；图3(d)为经过中值滤波后的运动矢量场，噪声得到明显抑制，运动矢量变得较为规整。

2.建立基于时-空注意力融合模型

运动注意力由运动反差引起，存在于时间和空间两个方面，运动的反差可以从运动矢量在邻近时-空上的相关性程度反映出来，相关性程度越弱意味着运动矢量与相邻区域运动反差越大，引起注意的因素越高；反之则反差越小，引起注意的因素越低，图4显示了运动矢量在空间和时间上的运动反差。空间域上虚线区域的运动矢量大小和方向与周围运动矢量反差较大，相关性比较弱，所以虚线区域的注意力较强；时间轴上右侧箭头区域的运动矢量大小和方向与其前后几帧相同区域位置的运动矢量反差较大，因而注意力就越强。

采用在时间上邻近运动矢量差值衡量运动矢量相关性程度，定义如下：

L_{k, i, j}^{T} = | Δ V | = | {\overset{&RightArrow;}{V}}_{k, i, j} - {\overset{&RightArrow;}{V}}_{k - 1, i, j} | - - - (3)

式中：和分别代表在k帧和k-1帧中坐标位置为(i,j)的运动矢量。

在空间维度上，运动矢量在不同的局部区域内所表现的相关性程度不同，如图5所示，当运动由全局运动引起时，运动矢量的相关性程度比较强；当运动由全局运动和局部运动共同引起时，运动矢量的相关性程度相对较弱。

采用八邻域内的运动矢量均值与该运动矢量的差值来衡量局部运动相关性程度，假定MB_k,i,j是k帧中坐标为(i,j)的宏块，i和j分别表示宏块的横纵坐标；S_k,i,j表示包含宏块MB_k,i,j及其相邻宏块的集合；那么定义的空间相关性程度如下：

L_{k, i, j}^{S} = | Δ V | = | {\overset{&RightArrow;}{V}}_{k, i, j} - {\overset{&RightArrow;}{u}}_{k, i, j} | - - - (4)

式中：分别代表在k帧中坐标位置为(i,j)的运动矢量，其中

{\overset{&RightArrow;}{u}}_{k, i, j} = \frac{\underset{{i, j | {\overset{&RightArrow;}{V}}_{k, i, j} &Element; S_{k, i, j}^{k}}}{Σ} {\overset{&RightArrow;}{V}}_{k, i, j}}{8} .

运动注意力与运动矢量在时-空上的相关性程度紧密相关，因此考虑采用相关性程度来量化描述运动注意力。根据运动矢量在时间和空间上的相关性程度的定义，分别定义时间和空间运动注意力因子如下：

A_{k, i, j}^{T} = L_{k, i, j}^{T} - - - (5)

A_{k, i, j}^{S} = L_{k, i, j}^{S} - - - (6)

其中，T代表时间，S代表空间，k代表帧数，(i,j)代表了运动矢量的坐标位置。

由于运动注意力包含时间和空间两方面的因素，因此运动注意力模型的构建需要考虑时间注意力与空间注意力两方面的信息融合，首先定义运动注意力模型为时间和空间注意力因子的线性融合模型，采用最简单的线性组合如下：

A_{k, i, j} = α \cdot A_{k, i, j}^{T} + β \cdot A_{k, i, j}^{S} - - - (7)

其中，α、β为正值的系数。

如公式(7)所示，线性运算具备了简洁和高效的模型构成，但从时间和空间对注意力影响的角度看，其不足以合理反映出时间与空间注意力的影响对比的变化。由于时间和空间注意力在不同时刻对注意力的影响偏重是不同的，这取决于这两方面运动反差大小的变化，因此在运动注意力模型中，应加入对注意力的影响力变化的部分，这样才能真正有效反映客观变化，因此最终定义运动注意力融合模型如下：

\begin{matrix} {\tilde{A}}_{k, i, j} = A_{k, i, j} + \frac{1}{2} δ \cdot \max (A_{k, i, j}^{T}, A_{k, i, j}^{S}) \cdot σ \\ = α \cdot A_{k, i, j}^{T} + β \cdot A_{k, i, j}^{S} + \frac{1}{2} δ \cdot \max (A_{k, i, j}^{T}, A_{k, i, j}^{S}) \cdot | A_{k, i, j}^{T} - A_{k, i, j}^{S} | \\ = α \cdot L_{k, i, j}^{T} + β \cdot L_{k, i, j}^{S} + \frac{1}{2} δ \cdot \max (L_{k, i, j}^{T}, L_{k, i, j}^{S}) \cdot | L_{k, i, j}^{T} - L_{k, i, j}^{S} | \end{matrix} - - - (8)

式中·代表矢量的点积，其中δ为正值。公式(8)中的后半部分代表时-空对注意力影响的偏置，其反映了时间和空间注意力中影响力变化时，较大者对注意力的整体影响。

3.确定运动目标区域

在全局运动场景中，镜头运动引起的全局运动与目标运动形成的局部区域的运动反差，但有时由于干扰和估计不准确的原因，运动矢量场会出现局部暂时性的运动反差情况，这说明通过光流法估算的运动场有时并不一定准确，这并不有利于判别该运动宏块是否属于目标所属区域。通过注意力融合模型可以确定在运动场中能够引起注意力的运动矢量宏块，但确定运动宏块是否属于目标区域还需要进一步的处理。

值的注意的是，由于干扰或光流法估算不准确所造成的运动反差往往是短暂的，而目标运动产生的运动反差相对来说具有一定持续性，因此对运动宏块MB_k,i,j的注意力计算首先取时间上邻近的平均，这样会大大降低干扰和估算不准带来的误判，平均化计算如公式(9)所示；然后按照公式(10)判断运动宏块MB_k,i,j是否属于目标区域(TR,TargetRegion)。

F_{k, i, j} = \frac{1}{n + 1} \cdot Σ_{k = t - n}^{k = t} {\tilde{A}}_{k, i, j} - - - (9)

F_{k, i, j} = \{\begin{matrix} &GreaterEqual; T & {MB}_{k, i, j} &Element; T R \\ < T & {MB}_{k, i, j} &NotElement; T R \end{matrix} - - - (10)

式中：n为大于零的整数，T代表为正数的判断阈值，MB_k,i,j为对应的像素宏块。图6显示了‘Foreman’第2帧的运动目标区域的初步测试结果，大致上可得到运动目标的轮廓。

4.精确化提取运动目标区域

由第3步中的方法检测到的目标区域容易产生空洞，这是因为运动反差往往存在于目标与背景的边界区域。二值图像数学形态学闭运算的特点是其构成的最基本形态滤波器能有效地填充目标内空洞、连接邻近物体、平滑其边界，但同时不明显改变原来目标的面积，针对第3步中的初步目标区域检测结果，采用形态学的闭操作消除目标区域的内部空洞区域，从而得到相对完整的目标区域。

为满足不同的应用需求，应对目标边界进行细化，获得精确化的目标区域。精确化目标轮廓问题涉及到边缘的检测和跟踪，一种典型的做法就要利用边缘跟踪来连接对象的边缘，其关键问题是如何确定边缘的跟踪方向。将上述得到的粗略的目标边缘方向作为初始的跟踪方向，在边缘跟踪过程中不断的调节跟踪方向,如图7(a)和(b)所示。边缘细化的过程如下：

i)用Canny算子得到粗分割区域的纹理边缘二值图；

ii)任意选择一个边缘像素块的中心点作为边缘跟踪的起始跟踪点，以该点指向相邻的边缘像素块中心点的方向作为起始跟踪方向。如果存在两个相邻块，则分别执行以下步骤；

iii)判断在该点周围的8个像素点中，如图7(c)中所示几个方向点像素是否为边缘像素点。如果存在边缘像素点，选择最接近跟踪方向的像素点为边缘点，如果不存在边缘点那么确定跟踪方向的像素点为边缘点；

iV)以步骤iii)中确定的边缘点为新的跟踪点，以该点指向下一个相邻的边缘像素块中心点的方向作为新的跟踪方向，重新执行步骤iii)。当下一个相邻块已经处于图像边界并且没有相邻的其它像素块，那么结束该操作。

完成边缘跟踪后，得到比较精确的目标轮廓，通过对轮廓内部的完全填充，最终可以得到精确化的运动目标区域。

测试中采用了全局运动中基于运动补偿的检测算法与本文提出的基于运动注意力融合模型检测算法作以比较，算法效率比较如图8所示，对‘Foreman’(CIF)视频序列处理结果如图9所示，其中第1至5行分别为：视频序列的原始图像帧，基于运动补偿的检测算法的目标初步检测结果，本发明算法的目标初步检测结果，基于运动补偿的检测算法的最终检测结果和本发明方法的最终检测结果。在测试过程中按照经验选取参数δ和阈值T分为0.9和5.6。

针对‘Foreman’视频序列，使用本发明提出的基于运动注意力融合模型的运动目标检测方法，图10中(a)为‘Foreman’第2帧原图；基于光流法估计其对应的运动矢量场，如图10中(b)所示，运动矢量呈现凌乱特性；进行运动矢量场累加操作，结果如图10中(c)所示，运动矢量的特征变得较为明显；再进行中值滤波操作，结果如图10中(d)所示，运动矢量较为整齐且噪声得到明显的抑制；针对预处理后的运动矢量场，建立运动注意力融合模型，得到初始目标检测结果，如图10中(e)所示，检测提取得到运动目标大致轮廓，但是内部含有空洞且边缘较粗糙；所以进行闭运算消除目标内部空洞之后，采用边缘跟踪检测，得到目标的精细化边缘,如图10中(f)所示。从而可证明，本发明的方法可以在全局运动场景中既快速又准确地提取出运动目标。

Claims

1.基于运动注意力融合模型的运动目标检测与提取方法，其特征在于，根据目标的运动在时-空上具有运动反差，利用运动矢量在时间和空间上的变化特点构建出运动注意力融合模型，结合噪声去除、边缘检测，实现全局运动场景下运动目标的精确提取；

该方法按以下步骤进行，

a.定义时间注意力因子

b.定义空间注意力因子

代表在k帧中坐标位置为(i,j)的运动矢量，其中

c.定义时-空注意力融合模型

d.确定运动目标区域

2.按照权利要求1所述的方法，其特征在于，所述步骤1中对运动矢量场处理的具体方法为：

3.按照权利要求1所述的方法，其特征在于，所述步骤3中对运动目标区域采用闭运算，在不改变原来目标的面积同时消除目标区域的内部空洞，获得精确的边缘轮廓的具体方法为：

i)用Canny算子得到粗分割区域的纹理边缘二值图；

如果存在两个相邻块，则分别执行以下步骤；