CN101835037B

CN101835037B - 对视频中的运动矢量进行可靠性分类的方法和系统

Info

Publication number: CN101835037B
Application number: CN200910119521.8A
Authority: CN
Inventors: 韩博; 吴伟国
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-03-12
Filing date: 2009-03-12
Publication date: 2015-02-04
Anticipated expiration: 2029-03-12
Also published as: US20100231802A1; US8514940B2; CN101835037A

Abstract

本申请提出一种对视频中的运动矢量进行可靠性分类的方法和系统，所述方法包括：分块和搜索步骤，用于将输入视频的指定视频帧分块，并且对所述指定视频帧的指定块搜索运动矢量以便对所述指定块生成块匹配误差；纹理特征提取步骤，用于提取所述指定块的纹理特征；以及按块分类步骤，用于根据所述指定块的所述块匹配误差和纹理特征，对所述指定块进行运动矢量可靠性分类，将运动矢量分为可靠、误匹配、多匹配三类。因此，可提供更加丰富的有用信息，从而在应用中提升系统的性能。

Description

对视频中的运动矢量进行可靠性分类的方法和系统

技术领域

本申请涉及视频(运动图像)的处理/分析。具体地说，本申请涉及一种对视频中的运动矢量进行可靠性分类的方法和系统，用于将从视频中提取出的运动信息(在本申请中指运动矢量)根据其可靠性进行分类。

背景技术

从视频数据中提取的某一图像区域的运动信息，是视频的处理/分析中所普遍采用的一种重要特征，人们希望这类信息能够较准确地反映视频中的目标的运动。然而，视频中若干像素点的集合并不一定是在空间中唯一、在时间上一成不变的。因此，通过已有方法获得的运动信息中就只有部分是可靠的，能反映视频目标的真实运动；而那些不可靠的运动信息则会给视频的处理/分析带来负面影响。所谓可靠指的是该运动准确地描述了该区域所对应的物理目标(或者卡通中对应的假想物理目标)在视频的不同帧间的位置变化。

现有的有效的运动矢量搜索方法(以搜索范围足够大的全搜索为例)，搜索结果主要为可靠和不可靠两种情况。现有的对视频中的运动矢量进行可靠性评价的技术主要采用三类信息：图像区域的纹理特征、图像区域匹配的误差特征和不同区域间的相关性信息。但现有的各种技术在应用中仍存在不足之处。

发明内容

为了弥补现有技术在应用中的不足，达到辨识不可靠的运动矢量或者提取相应的可靠运动矢量的目的，本申请提出了一种新的、更加有效的运动矢量可靠性分类方法。

在实现本发明的一个实施方式中，提供一种对视频中的运动矢量进行可靠性分类的方法，包括：分块和搜索步骤，用于将输入视频的指定视频帧分块，并且对所述指定视频帧的指定块搜索运动矢量以便对所述指定块生成块匹配误差；纹理特征提取步骤，用于提取所述指定块的纹理特征；以及按块分类步骤，用于根据所述指定块的所述块匹配误差和纹理特征，对所述指定块进行运动矢量可靠性分类，将运动矢量分为可靠、误匹配、多匹配三类。

在实现本发明的另一个实施方式中，提供一种对视频中的运动矢量进行可靠性分类的系统，包括：分块和搜索模块，用于将输入视频的指定视频帧分块，并且对所述指定视频帧的指定块搜索运动矢量以便对所述指定块生成块匹配误差；纹理特征提取模块，用于提取所述指定块的纹理特征；以及按块分类模块，用于根据所述指定块的所述块匹配误差和纹理特征，对所述指定块进行运动矢量可靠性分类，将运动矢量分为可靠、误匹配、多匹配三类。

在实现本发明的另一个实施方式中，提供一种对视频中的运动矢量进行可靠性分类的方法，包括：按块分类步骤，用于对将输入视频的指定视频帧分块得到的各块进行运动矢量可靠性分类；以及按帧分类步骤，用于根据所述指定视频帧内的各块的运动矢量可靠性分类，在所述指定视频帧内进行运动矢量可靠性分类优化，以便获得所述指定视频帧内各块的运动矢量的最优分类。

在实现本发明的另一个实施方式中，提供一种对视频中的运动矢量进行可靠性分类的系统，包括：按块分类模块，用于对将输入视频的指定视频帧分块得到的各块进行运动矢量可靠性分类；以及按帧分类模块，用于根据所述指定视频帧内的各块的运动矢量可靠性分类，在所述指定视频帧内进行运动矢量可靠性分类优化，以便获得所述指定视频帧内各块的运动矢量的最优分类。

在本发明的一个实施方式中，根据造成运动矢量不可靠的原因把不可靠运动矢量分为误匹配和多匹配；这一分类方法引入的运动矢量的误匹配和多匹配矢量在一些应用(例如视频镜头转换检测)中提升了系统的性能。

在本发明的另一个实施方式中，利用了视频图像中相邻区域之间运动矢量的相关性，提高了视频运动矢量可靠性分类的正确率。

在本发明的另一个实施方式中，利用了统计方法对整个帧的运动矢量可靠性分类结果进行优化，获得整个帧的全局最优结果，从而提高了视频运动矢量可靠性分类的正确率。

在本发明的另一个实施方式中，融合并改进了图像块匹配误差和图像块内部纹理强度两种矢量作为基本特征，并且通过利用图像中相邻块之间运动矢量的相关性得到运动矢量分类的全局最优结果。这使得运动矢量分类结果达到很高的正确率，例如，对误匹配运动矢量，该实施方式的查全率(Recall，即本发明搜索到符合条件的运动矢量数量占符合该条件实际运动矢量数量的比率)和查准率(Precision，即，对于本发明搜索到符合条件的运动矢量，本发明得到的运动矢量可靠性分类与实际的运动矢量可靠性分类一致的比率)均可达到97％以上，对可靠运动矢量和多匹配运动矢量，查全率和查准率均可超过或接近90％。更高正确率的可靠性分类结果自然可以在一些应用(例如视频全局运动估计)中进一步提升系统的性能。

附图说明

图1图示了根据本发明的一个实施方式的方法的流程图。

图2是图1中步骤101的具体流程图。

图3是图1中步骤102和步骤103的具体流程图。

图4(A)和(B)是图3中步骤301中使用的差分算子的两个例子(A和B)，其中A为2×2算子(包含横向和纵向)，B为3×3算子(包含横向和纵向)。

图5是图3中步骤302中使用的块匹配误差所对应的运动矢量的示意图。

图6是图1中步骤104的具体流程图。

图7(1)和(2)是不可靠运动矢量的示例。

图8是图像块的方向性纹理特征提取的示例。

图9(A)-(C)是根据本发明的一个实施方式的方法对运动矢量进行可靠性分类的结果示例。

图10是根据本发明的一个实施方式的系统框图。

图11图示了视频镜头间划变的示例。

具体实施方式

以下参照附图说明根据本发明的特定实施方式的方法和系统的实现。

对于现有的有效的运动矢量搜索方法(以搜索范围足够大的全搜索为例)，搜索结果不可靠的情况主要有两种。一种是误匹配，即当前图像区域所对应的目标在参考帧中不存在或者发生十分大的变化(包括颜色、纹理、形状、尺寸等)；另一种是多匹配，即参考帧中存在多个不完全重叠的区域分别与当前图像区域十分接近，从而造成搜索到的区域与当前图像区域并不对应于同一物理目标。

图7是不可靠运动矢量的示例，其中(2)图示了当前帧及中心区域的分块结果，(1)图示了参考帧及相应块的运动搜索情况；其中标X的块对应的运动矢量为误匹配，标O的块对应的运动矢量为多匹配。

图1图示了根据本发明的一个实施方式的方法的流程图。如图1所示，在步骤101(分块和搜索步骤)，将输入视频的指定视频帧(即当前视频帧)分块，并且搜索各块的运动矢量(MV)并生成块匹配误差。在步骤102(纹理特征提取步骤)，提取所述指定视频帧的指定块(即当前块)的纹理特征。在步骤103(按块分类步骤)，按块进行MV可靠性分类，即，根据所述块匹配误差和所述指定块的纹理特征，将运动矢量分为可靠、误匹配、多匹配三类。显然，重复步骤102和103，可以完成当前视频帧的每一块的MV可靠性分类。在步骤104(按帧分类步骤)，按帧进行MV分类优化，即，根据所述指定视频帧内的各块的运动矢量可靠性分类，在所述指定视频帧内进行运动矢量可靠性分类优化，以便获得所述指定视频帧内各块的运动矢量的最优分类。

图2是图1中步骤101的具体流程图，如图2所示，在步骤201，从上述输入视频生成较低分辨率灰度图像(例如：352×288或352×240)。这里选择较低分辨率的目的在于，使一帧图像中能够反映比较明显的运动的图像区域包含像素数量不会过多，可以提高计算效率。在步骤202，对当前视频帧的图像中心区域的像素，以预定的尺寸模板(例如16×16或32×32)分块。在步骤203，对当前视频帧的一指定块，在与当前视频帧对应的参考帧中搜索与其最接近(即参考帧中的块与当前视频帧的该指定块之间的匹配误差最小)的块及其位置，从而确定块匹配误差最小的运动矢量。在步骤204，计算步骤203中搜索到的块的相邻块与当前视频帧的该指定块之间的块匹配误差。显然，重复步骤203和204，可以得到当前视频帧的每一块的块匹配误差。

按照图2所示步骤，对视频图像进行分辨率变换和分块(可取块大小如8×8、16×16或32×32等)，并在参考帧中搜索每块的运动矢量；获得运动矢量搜索结果，即对当前视频帧的一指定块，确定匹配误差最小时块中心所处的像素位置X；然后计算如图5所示的以运动矢量搜索结果(即匹配误差最小的像素位置X)为中心的各个相邻位置所对应的运动矢量的块匹配误差，即各个相邻块与该指定块之间的块匹配误差。图5是在图3中的步骤302中使用的块匹配误差所对应的运动矢量的示意图，其中关于一指定图像块的各个运动矢量可表示为：在当前帧中具有共同的起点，即该指定块的中心位置，而在参考帧中的块中心位置即表示各个运动矢量的另一个端点。如图5所示，X对应运动搜索范围中块匹配误差最小的运动矢量；其它标记对应与X相邻像素位置的运动矢量(在水平和垂直方向相距1个或者2个像素，在斜线方向相距1个像素)。

块匹配误差可以采用误差平方和(SSD，Sum ofSquare Difference)或误差绝对值和(SAD，Sum ofAbsolute Difference)。对于一个图像块(Block)，其块匹配误差SSD和SAD分别定义如下，其中I(x，y)表示图像在(x，y)像素位置的灰度值(下标current表示当前帧图像，下标reference表示参考帧图像)，H和V分别表示水平和垂直方向，MV_H和MV_V分别表示图像块在H和V方向上的运动矢量，如上所述，该运动矢量可表示为当前帧的该图像块指向参考帧的各图像块，因此，当前帧的该图像块与参考帧的各图像块之间的块匹配误差可以采用该运动矢量的SSD或SAD表示。

SSD ({MV}_{H}, {MV}_{V}) = \underset{(x, y) &Element; Block}{Σ} [I_{current} (x, y) - I_{reference} {(x + {MV}_{H}, y + {MV}_{V})]}^{2}

SAD ({MV}_{H}, {MV}_{V}) = \underset{(x, y) &Element; Block}{Σ} | I_{current} (x, y) - I_{reference} (x + {MV}_{H}, y + {MV}_{V}) |

对于关于运动矢量搜索结果(即图5中所示的最小块匹配误差对应位置X)对称的位置，如图5中所示的位置A与A′、B与B′、C与C′、D与D′、E与E′、F与F′，可以仅保存其中较小的块匹配误差及其位置对应的运动矢量。这样，对于一个图像块，仅需保存包括X所对应的最小块匹配误差在内的7个块匹配误差。当然，也可以保存更多或者更少的块匹配误差。

图3是图1中步骤102和步骤103的具体流程图。

如图3所示，在步骤301，从当前图像块及其周围像素提取纹理特征，得到方向性纹理特征。其中，利用图像差分算子(例如图4中A或者B所示)，按照下面公式计算当前图像块(Block)在各个方向θ(其中的θ角度表示纹理与帧的水平方向(X)的角度，其只需取若干离散值，其范围可在-90°到+90°之间)上的纹理强度R(θ)，记录纹理强度的最大值和最小值以及R(θ)的最小值所对应的方向θ₀，其中f_X(x，y)和f_Y(x，y)分别表示在(x，y)像素位置(即图4中算子的中心Z在当前图像块Block中的像素位置)的水平和垂直(Y)方向上的局部差分。

R (θ) = \frac{\sin^{2} θ \underset{(x, y) &Element; Block}{Σ} f_{X}^{2} (x, y) + \cos^{2} θ \underset{(x, y) &Element; Block}{Σ} f_{Y}^{2} (x, y) - 2 \sin θ \cos θ \underset{(x, y) &Element; Block}{Σ} f_{X} (x, y) f_{Y} (x, y)}{(\underset{(x, y) &Element; Block}{Σ} f_{X}^{2} (x, y)) (\underset{(x, y) &Element; Block}{Σ} f_{Y}^{2} (x, y)) - {(\underset{(x, y) &Element; Block}{Σ} f_{X} (x, y) f_{Y} (x, y))}^{2}}

如图4所示的两个差分算子A和B表示算子操作，即对一个特定区域内的图像灰度值进行加权求和，算子中的数字表示对应像素位置要施加的权重(无数字的表示权重为0)，Z表示算子的中心位置。左右两个算子分别用来计算水平和垂直方向的差分，而且(A)中的两个算子配对使用，(B)中的两个算子配对使用。

图8是图像块的方向性纹理特征提取的示例，其中图8上部给出了图像块类型的4个例子，依次为平滑图像块、具有与帧的水平方向(X)呈0°的单向边缘的图像块、具有与帧的水平方向(X)呈45°的单向边缘的图像块、以及具有丰富纹理的图像块；图8下部图示了图像块的方向性纹理强度函数，纵轴表示图像块的纹理强度，横轴表示纹理与帧的水平方向(X)的角度θ，纹理强度的最小值对应着图像块的纹理主方向，即上述的θ₀。在图8下部中，标记为(1)、(2)、(3)、(4)的四条曲线分别对应于图8上部示例图中的四个图像块的纹理强度函数(R)在不同角度(θ)情况下的取值。

在步骤302，从运动信息搜索过程(即图2的步骤203和204)中得到的块匹配误差，结合方向性纹理特征，提取块匹配稳定性特征，得到曲面拟合系数。在步骤302所示的过程中，根据前面所得的方向性纹理特征和块匹配误差，按照下面的公式进行二次曲面拟合，其中令c等于运动矢量搜索结果所对应的块匹配误差，令θ等于纹理强度的最小值R(θ)所对应的方向，即纹理主方向。将上述相邻块的块匹配误差(即除运动矢量搜索结果所对应的块匹配误差之外的其它块匹配误差，例如，如上所述保存了6个其它块匹配误差)SSD(MV_H，MV_V)、及其相应的在H方向和V方向(水平和垂直方向)的运动矢量MV_H和MV_V，分别代入下面的公式，用最小二乘法估计其中的曲面拟合系数a和b。a和b以及c之间的大小关系可表示块匹配稳定性：c的值越小，表示当前块与参考块越接近；a和b越大，表示块匹配误差随运动矢量偏离最优点而增大得越快；c很小而a和b很大则说明当前块与参考块的匹配是很稳定的。

aX′²+bY′²+c＝SSD(MV_H，MV_V)

\{\begin{matrix} X^{'} = X \cos θ + Y \sin θ \\ Y^{'} = - X \sin θ + Y \cos θ \end{matrix}

\{\begin{matrix} X = {MV}_{H} - {MV}_{H}^{best} \\ Y = {MV}_{V} - M V_{V}^{best} \end{matrix}

上述第2方程组的上下两个方程的右边第2项，分别表示在H方向和V方向(水平和垂直方向)运动矢量搜索算法找到的最优块匹配值，即最小块匹配误差对应的运动矢量在H方向和V方向的值。

在步骤303，根据方向性纹理特征和曲面拟合系数，利用统计学习得到的分类器进行当前块运动信息可靠性分类。即，以前面得到的a、b、c和纹理强度的最小值、最大值作为运动信息可靠性评价的5个特征，利用统计学习得到的分类器，将运动矢量分为可靠、误匹配、多匹配三类。这里，采集足够多的视频数据，对其中的图像块的运动矢量进行可靠性分类的人工标注，得到正确的运动矢量可靠性分类，并计算对应的分类特征；然后统计运动矢量可靠性分类与分类特征之间的对应关系，得出对应关系函数，即统计学习得到的分类器。

图6是图1中步骤104的具体流程图。

如图6所示，在步骤601，从包含运动信息可靠性人工分类结果(人工标注的正确分类结果)的大量视频数据，根据概率分布，建立马尔可夫随机场(MRF)模型，从而得到一帧图像内所有块的运动信息的可靠性分类的MRF模型。即，根据按块进行的运动信息分类结果的数据集合建立马尔可夫随机场模型。

在步骤602，根据从图3所示的流程得到的一帧图像内所有块的运动信息的按块进行的可靠性分类结果、以及在步骤601得到的MRF模型，建立吉布斯随机场(GRF)模型的能量函数。

在此过程中，将图3中步骤303得到的结果的数据集合(一帧图像内所有块的运动信息的按块进行的可靠性分类结果)作为马尔可夫随机场的观测值g，而f表示马尔可夫随机场的概率实现，即一帧图像内所有块的可靠性分类结果的取值。

图6所示的步骤104的流程在于获得一帧图像内各块的运动矢量的最优分类，因此，需要计算马尔可夫随机场的最大后验概率实现，即最优可靠性分类结果。为了得到马尔可夫随机场的最大后验概率实现，根据贝叶斯准则，将最大化后验概率P(f|g)转化成最大化先验概率P(f)与条件概率P(g|f)的乘积P(f|g)∝P(f)·P(g|f)

根据Hamersley-Clifford定理，马尔可夫随机场等价于吉布斯随机场。马尔可夫随机场先验概率可以用吉布斯分布表示，

P (f) = Z^{- 1} \exp [- \underset{c &Element; C}{Σ} V_{c} (f_{p}, f_{q})]

其中V_c(f_p，f_q)表示相邻块p和q的势能，Z是归一化常数，f_p和f_q分别表示图像块p和q的可靠性分类结果的取值，C表示所有相邻块的集合。如下面所示的推导过程，最大化先验概率可以转化成最小化两个能量函数的和。

P (f) P (g | f) &Proportional; \exp [- \underset{c &Element; C}{Σ} V_{c} (f_{p}, f_{q})] \underset{p &Element; P}{Π} P (g_{p} | f_{p})

上式中，条件概率P(g_p|f_p)即在可靠性分类结果的真实值(正确值)为f_p时，步骤303的分类结果为g_p的概率。对上式两边取对数，并且最大化对数值，右边如下式，其最大化转化成两个能量函数的和的最小化。

- \underset{c &Element; C}{Σ} V_{c} (f_{p}, f_{q}) + \ln (\underset{p &Element; P}{Π} P (g_{p} | f_{p}))

= - {\frac{1}{2} \underset{p &Element; P}{Σ} \underset{q &Element; N_{p}}{Σ} V_{c} (f_{p}, f_{q}) - \underset{p &Element; P}{Σ} \ln (P (g_{p} | f_{p}))}

= - {E_{smoothness} (f) + E_{data} (f)}

其中N_p表示与图像块p相邻的图像块的集合，P表示图像中的图像块的集合，E_smoothness(f)表示由优化结果中相邻块的可靠性分类关系与统计规律间的差别所引入的能量，例如，有两个相邻图像块的运动矢量相同，若统计规律表明在相邻块运动矢量相同的情况下它们的可靠性分类同为可靠的概率很大，则优化结果中它们都被划分为可靠类所对应的能量就很小，而其他情况对应的能量就较大；E_data(f)表示由优化结果(即步骤104的输出)与观测值(即步骤103的输出)间的差别所引入的能量，可以直接计算得到。这里蕴含的物理含义是：情况发生的概率越小则相应的能量越大，因此要求能量最小化。

根据相邻块p和q之间的马尔可夫性，V_c(f_p，f_q)的定义如下式所示。

在上式中，u_p，q，v_p，q，w_p，q值均和f_p与f_q取值的概率有关，分别为u_p，q＝-βln(P_A)，v_p，q＝-βln(P_B)和w_p，q＝-βln(P_C)，其中β为一常数，概率值P_A，P_B和P_C分别为情况A、B和C发生的概率，它们与相邻块的运动信息差别有关，并用统计频率值作为概率取值。为了进一步描述运动信息的差别，根据相邻块的运动矢量差的大小||MV_p-MV_q||将其分为有限的若干段，然后统计P_A，P_B和P_C在各段的取值。分段而非以每一个不同的值为单位进行概率统计是因为运动矢量差较大的样本较少，分段可以保证一段内的样本数量足以用于概率估计。

因此，通过上述过程，可以得到吉布斯随机场模型的能量函数E＝E_smoothness(f)+E_data(f)。

在步骤603，利用最优化方法，通过最小化GRF模型的上述能量函数求解f，即MRF的最大后验解。也就是说，可利用传统的优化方法，例如置信传播法和图割法，通过最小化能量函数求解，即求解马尔可夫模型的最大后验概率实现，从而得到各块的运动矢量的全局(即在整个视频帧内的)最优分类结果。

图9是根据本发明的一个实施方式的方法对运动矢量进行可靠性分类的结果示例；其中黑色块对应的运动矢量为误匹配，灰色块对应的运动矢量为多匹配，白色块对应的运动矢量是可靠的。在图9中，(A)为参考帧，(B)为当前帧按16×16进行分块后运动矢量可靠性分类的结果，(C)为当前帧按32×32进行分块后运动矢量可靠性分类的结果。

需要注意的是，图6所示的步骤104的流程的输入(即步骤602的输入)不必限于步骤103的输出，而可以是其它按块进行MV可靠性分类的方法的结果，例如使用现有的运动矢量可靠性分类方法得到的指定视频帧内的各块的可靠性分类结果，即可靠和不可靠两类，再例如步骤104的流程的输入还可以是按块进行MV可靠性分类的结果是3种以上。通过图6所示的流程(将得到的各块的可靠性分类结果输入步骤602)，也可以得到各块的运动矢量的全局(即在整个视频帧内的)最优分类结果。在上述例子中，除了V_c(f_p，f_q)的概率取值仅仅对应于f_p与f_q为所采用MV可靠性分类方法的结果(可靠和不可靠，或者对应的3种以上分类结果)以外，其它过程如上所述，这里不再赘述。

图10是根据本发明的一个实施方式的系统框图。所述系统包括分块和搜索模块1001，用于将输入视频的指定视频帧(即当前视频帧)分块，并且对所述指定视频帧的指定块搜索运动矢量以便对所述指定块生成块匹配误差；纹理特征提取模块1002，用于提取所述指定块(即当前块)的纹理特征；按块分类模块1003，用于按块进行MV可靠性分类，即，根据所述指定块的所述块匹配误差和纹理特征，将运动矢量分为可靠、误匹配、多匹配三类；以及按帧分类模块1004，用于按帧进行MV分类优化，即，根据所述指定视频帧内的各块的运动矢量可靠性分类，在所述指定视频帧内进行运动矢量可靠性分类优化，以便获得所述指定视频帧内各块的运动矢量的最优分类。

对应于图1所示的方法，图10所示的根据本发明的一个实施方式的系统的各个模块可以完成对应于图2、3和6所示的步骤的功能，这里不再赘述。

本申请提出的方法和系统不仅将运动矢量分为可靠和不可靠两类，而且还把不可靠运动矢量分为误匹配和多匹配两种类型，提供了更加丰富的有用信息。在本申请中列举的本发明的各个实施方式中，利用了当前图像块和它在参考帧中的对应区域周围的特征按块进行可靠性分类；而且还可利用当前块相邻各块的运动和运动可靠性信息，利用统计模型对整帧的运动信息可靠性分类进行全局优化。在按块进行可靠性分类的过程中，不仅利用了运动矢量搜索过程中获得的块匹配稳定性特征，而且还利用了当前图像块本身的方向性纹理特征。在本申请中列举的本发明的各个实施方式中，突出阐明了运动矢量可靠性分类整体方案及其具体实现、可靠性分类所需特征的提取方法和分类结果的全局优化方法。

本申请提出的对视频中的运动矢量进行可靠性分类的方法和系统，适用于各种不用格式、不同内容的视频的处理和分析，其应用不受图像分块方案和运动搜索方法的限制。

本发明可应用于视频运动信息的准确提取、视频对象的分割、和视频的分段、检索、分析等领域。以下描述了应用本发明的几个示例，但本发明的应用不限于上述及以下示例的领域。

1.摄像机全局运动参数估计

摄像机的全局运动(操作)参数估计是视频分析领域中的一个重要问题。这些参数的估计一般都依赖于从视频中提取的运动矢量信息。通过分析可知，利用现有方法得到的运动矢量中往往仅有一半左右是可靠的；而不可靠的运动矢量信息作为运动参数估计过程中的噪声，会严重影响估计结果的准确度。通过应用本发明，可以只采用可靠的运动矢量，而去除不可靠信息的影响，从而获得更准确的摄像机全局运动参数。

2.视频镜头转换检测

视频镜头(shot)转换(transition)检测往往是对经过编辑的视频进行处理、分析的第一步。传统的基于直方图和纹理特征的方法尚不能达到令人满意的检测效果。应用本发明可以大幅提高镜头转换的检测精度。通过应用本发明，利用在时间轴上每帧内各类运动矢量比例的变化信息，可以更准确地检测镜头切变(cut)。而各类运动矢量在图像中的空间分布和在视频中的时间分布特征、采用可靠运动矢量估计得到的摄像机全局运动参数、以及使用运动矢量可靠性加权的各种运动(空域和时域)统计信息，都可以帮助提高镜头渐变(gradual change)的检测效果。

3.运动目标区域检测和分割

根据局部运动矢量与全局运动模型的差别，可以检测和分割视频中的运动目标区域；但是这必须建立在运动信息可靠的基础上。运动目标快速变化的区域，其运动矢量往往不可靠。通过应用本发明，可将其运动矢量划分为误匹配类型，这样的区域一般都对应于运动目标及其边缘。平滑区域的运动矢量往往不可靠，通过应用本发明，可将其运动矢量划分为多匹配类型，剔除这些区域的影响可以更准确地找到运动目标区域。

4.视频帧率提升(包括由隔行扫描向逐行扫描的变换)

视频帧率提升的目的是根据已得到的视频帧估计时间上缺失的帧数据，而由隔行扫描向逐行扫描的变换的目的是根据已得到的图像行估计空间中缺失的行数据。因为缺失数据都是根据已得到的数据(的局部)的运动估计得到的，所以运动信息的可靠性就十分重要。通过应用本发明，对于被划分为误匹配的区域，可以将其划分为多个较小的面积单元分别搜索运动矢量，从而提高运动矢量的精度，更准确地恢复缺失数据，提高输出视频质量。

5.视频镜头间划变的检测和匹配

视频镜头转换可分为切变(Cut)和渐变两类；而划变(Wipe)属于渐变的一种。划变指的是后一个镜头的图像从某一区域开始按照一定规律逐渐变大，直到把前一个镜头的图像完全覆盖掉。同时伴随着图形标志画面进入与退出的过程的划变称为动画划变(Graphic Wipe)。由于划变的特点，其过程中每帧的处于前后镜头画面交界区域的图像块的运动矢量往往属于误匹配类型(如图11所示)。

图11图示了视频镜头间划变的示例。图11中左右两列分别为渐变段A和渐变段B中时序编号为1、2、3、4、5的各帧。取这两段中序号对应的帧分别进行运动矢量可靠性分类，其中画黑框位置表示运动矢量为误匹配的可能性非常高的块。如果A和B皆属于同一划变类型，那么对应帧中位置对应的块的运动矢量同为误匹配的概率较高。

因此，根据某一时段内若干帧中的对应于误匹配运动矢量的图像块的分布特征，可以进行划变的检测。并且，同时利用两个渐变段内的各个时序对应的帧中的各个位置对应的块的运动矢量是否为误匹配的信息，可以判断这两个渐变是否皆属于同一划变类型；此信息对检测体育视频中的回放(Replay)镜头很有帮助。

本申请仅仅描述了本发明的特定的实施方式和实现。根据本申请描述的内容，可以做出各种改进、变形和其它实施方式和实现。

例如，除了图1所示的根据本发明的一个实施方式的方法以及图10所示的根据本发明的一个实施方式的系统，根据本发明的方法的另一个实施方式，可以仅仅包含图1中所示的步骤101-103，而根据本发明的系统的另一个实施方式，可以仅仅包含图10中所示的分块和搜索模块1001、纹理特征提取模块1002以及按块分类模块1003。

根据本发明的方法的另一个实施方式，可以仅仅包含图1中所示的步骤103和104，或者可以进一步包含步骤101或者步骤102；而根据本发明的系统的另一个实施方式，可以仅仅包含图10中所示的按块分类模块1003以及按帧分类模块1004，或者可以进一步包含分块和搜索模块1001或者纹理特征提取模块1002。其中的细节如上所述，这里不再赘述。

Claims

1.一种对视频中的运动矢量进行可靠性分类的方法，包括：

分块和搜索步骤，用于将输入视频的指定视频帧分块，并且对所述指定视频帧的指定块搜索运动矢量以便对所述指定块生成块匹配误差；

纹理特征提取步骤，用于提取所述指定块的纹理特征；以及

按块分类步骤，用于根据所述指定块的所述块匹配误差和纹理特征，对所述指定块进行运动矢量可靠性分类，将运动矢量分为可靠、误匹配、多匹配三类。

2.根据权利要求1所述的方法，还包括：

按帧分类步骤，用于根据所述指定视频帧内的各块的运动矢量可靠性分类，在所述指定视频帧内进行运动矢量可靠性分类优化，以便获得所述指定视频帧内各块的运动矢量的最优分类。

3.根据权利要求1所述的方法，其中分块和搜索步骤包括：

从所述输入视频生成较低分辨率灰度图像；

以预定尺寸模板将所述指定视频帧的灰度图像的中心区域分为多个块；

对所述指定块，在与所述指定视频帧对应的参考帧中，搜索与所述指定块之间的块匹配误差最小的块及其位置，从而确定块匹配误差最小的运动矢量；以及

计算所述最小块匹配误差对应的块位置的相邻块与所述指定块之间的块匹配误差。

4.根据权利要求3所述的方法，其中：

所述相邻块与所述最小块匹配误差对应的块位置在水平和垂直方向相距1个或者2个像素，在斜线方向相距1个像素，并且对于相对所述最小块匹配误差对应的块位置对称的相邻块，仅保留小的块匹配误差及其位置对应的运动矢量。

5.根据权利要求1所述的方法，其中纹理特征提取步骤包括：

从所述指定块及其周围像素，计算所述指定块在各个方向的纹理强度，得到所述指定块的纹理强度的最大值和最小值以及纹理主方向。

6.根据权利要求1所述的方法，其中按块分类步骤包括：

根据所述块匹配误差和所述指定块的纹理特征，进行二次曲面拟合，得到曲面拟合系数；以及

将所述纹理特征和所述曲面拟合系数，作为运动矢量可靠性评价的特征，利用统计学习得到的分类器，将所述指定块的运动矢量分为可靠、误匹配、多匹配三类。

7.根据权利要求4所述的方法，其中纹理特征提取步骤包括：

从所述指定块及其周围像素，计算所述指定块在各个方向的纹理强度，得到所述指定块的纹理强度的最大值和最小值以及纹理主方向，

并且按块分类步骤包括：

按照下面的公式进行二次曲面拟合，其中c等于所述最小块匹配误差，θ等于所述指定块的纹理主方向，将所述相邻块的块匹配误差SSD(MV_H，MV_V)及其位置对应的运动矢量在水平H方向和垂直V方向的值MV_H和MV_V分别代入下面的公式，用最小二乘法估计其中的曲面拟合系数a和b，

aX′²+bY′²+c=SSD(MV_H，MV_V)

\{\begin{matrix} X^{'} = X \cos θ + Y \sin θ \\ Y^{'} = - X \sin θ + Y cosθ \end{matrix}

\{\begin{matrix} X = {MV}_{H} - {MV}_{H}^{best} \\ Y = {MV}_{V} - {MV}_{V}^{best} \end{matrix}

上述第2方程组的上下两个方程的右边第2项，分别表示所述最小块匹配误差对应的运动矢量在水平H方向和垂直V方向的值；以及

将得到的a、b、c和纹理强度的最小值、最大值作为运动矢量可靠性评价的5个特征，利用统计学习得到的分类器，将所述指定块的运动矢量分为可靠、误匹配、多匹配三类。

8.根据权利要求2所述的方法，其中按帧分类步骤包括：

从包含运动矢量可靠性人工分类结果的大量视频数据，根据概率分布，建立马尔可夫随机场MRF模型；

将所述指定视频帧内的各块的运动矢量可靠性分类作为马尔可夫随机场的观测值，通过马尔可夫随机场MRF与吉布斯随机场GRF的等价性，建立GRF模型的能量函数；以及

通过最小化所述GRF模型的能量函数求解，得到在所述指定视频帧内各块的运动矢量的最优分类。

9.根据权利要求8所述的方法，其中所述能量函数为两个能量的和，其中之一为：

其中V_c(f_p，f_q)表示相邻块p和q的势能，f_p和f_q分别表示块p和q的可靠性分类结果的取值，N_p表示与图像块p相邻的图像块的集合，P表示图像中的图像块的集合，

根据相邻块p和q之间的马尔可夫性，V_c(f_p，f_q)的定义如下式所示，

在上式中，u_p，q，v_p，q，w_p，q值均和f_p与f_q取值的概率有关，分别为u_p，q=-βln(P_A)，v_p，q=-βln(P_B)和w_p，q=-βln(P_C)，其中β为一常数，概率值P_A，P_B和P_C分别为情况A、B和C发生的概率，它们与相邻块的运动矢量差别有关，并用统计频率值作为概率取值。

10.一种对视频中的运动矢量进行可靠性分类的系统，包括：

分块和搜索模块，用于将输入视频的指定视频帧分块，并且对所述指定视频帧的指定块搜索运动矢量以便对所述指定块生成块匹配误差；

纹理特征提取模块，用于提取所述指定块的纹理特征；以及

按块分类模块，用于根据所述指定块的所述块匹配误差和纹理特征，对所述指定块进行运动矢量可靠性分类，将运动矢量分为可靠、误匹配、多匹配三类。

11.根据权利要求10所述的系统，还包括：

按帧分类模块，用于根据所述指定视频帧内的各块的运动矢量可靠性分类，在所述指定视频帧内进行运动矢量可靠性分类优化，以便获得所述指定视频帧内各块的运动矢量的最优分类。

12.根据权利要求10所述的系统，其中分块和搜索模块包括：

从所述输入视频生成较低分辨率灰度图像的装置；

以预定尺寸模板将所述指定视频帧的灰度图像的中心区域分为多个块的装置；

对所述指定块、在与所述指定视频帧对应的参考帧中、搜索与所述指定块之间的块匹配误差最小的块及其位置的装置，从而确定块匹配误差最小的运动矢量；以及

计算所述最小块匹配误差对应的块位置的相邻块与所述指定块之间的块匹配误差的装置。

13.根据权利要求12所述的系统，其中：

14.根据权利要求10所述的系统，其中：

纹理特征提取模块从所述指定块及其周围像素，计算所述指定块在各个方向的纹理强度，得到所述指定块的纹理强度的最大值和最小值以及纹理主方向。

15.根据权利要求10所述的系统，其中按块分类模块包括：

根据所述块匹配误差和所述指定块的纹理特征、进行二次曲面拟合的装置，得到曲面拟合系数；以及

将所述纹理特征和所述曲面拟合系数、作为运动矢量可靠性评价的特征、利用统计学习得到的分类器、将所述指定块的运动矢量分为可靠、误匹配、多匹配三类的装置。

16.根据权利要求13所述的系统，其中纹理特征提取模块包括：

从所述指定块及其周围像素、计算所述指定块在各个方向的纹理强度的装置，得到所述指定块的纹理强度的最大值和最小值以及纹理主方向，

并且按块分类模块包括：

按照下面的公式进行二次曲面拟合的装置，其中c等于所述最小块匹配误差，θ等于所述指定块的纹理主方向，将所述相邻块的块匹配误差SSD(MV_H，MV_V)及其位置对应的运动矢量在水平H方向和垂直V方向的值MV_H和MM_V分别代入下面的公式，用最小二乘法估计其中的曲面拟合系数a和b，

aX′²+bY′²+c=SSD(MV_H，MV_V)

\{\begin{matrix} X^{'} = X \cos θ + Y \sin θ \\ Y^{'} = - X \sin θ + Y cosθ \end{matrix}

\{\begin{matrix} X = {MV}_{H} - {MV}_{H}^{best} \\ Y = {MV}_{V} - {MV}_{V}^{best} \end{matrix}

将得到的a、b、c和纹理强度的最小值、最大值作为运动矢量可靠性评价的5个特征、利用统计学习得到的分类器、将所述指定块的运动矢量分为可靠、误匹配、多匹配三类的装置。

17.根据权利要求11所述的系统，其中按帧分类模块包括：

从包含运动矢量可靠性人工分类结果的大量视频数据、根据概率分布、建立马尔可夫随机场MRF模型的装置；

将所述指定视频帧内的各块的运动矢量可靠性分类作为马尔可夫随机场的观测值、通过马尔可夫随机场MRF与吉布斯随机场GRF的等价性、建立GRF模型的能量函数的装置；以及

通过最小化所述GRF模型的能量函数求解的装置，得到在所述指定视频帧内各块的运动矢量的最优分类。

18.根据权利要求17所述的系统，其中所述能量函数为两个能量的和，其中之一为：

\frac{1}{2} \underset{p &Element; P}{Σ} \underset{q &Element; N_{p}}{Σ} V_{c} (f_{p}, f_{q})

在上式中，u_p,q，v_p,q，w_p，q值均和f_p与f_q取值的概率有关，分别为u_p，q=-βln(P_A)，v_p,q=-βln(P_A)和w_p，q=-βln(P_C)，其中β为一常数，概率值P_A，P_B和P_C分别为情况A、B和C发生的概率，它们与相邻块的运动矢量差别有关，并用统计频率值作为概率取值。