CN101222578A

CN101222578A - 基于判别光流张量和hmm的视频语义单元检测方法

Info

Publication number: CN101222578A
Application number: CNA2007101885322A
Authority: CN
Inventors: 高新波; 李洁; 杨益敏; 冯珺; 苏亚; 路文; 牛振兴; 邓成; 田春娜
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2007-12-07
Filing date: 2007-12-07
Publication date: 2008-07-16
Anticipated expiration: 2027-12-07
Also published as: CN100534132C

Abstract

本发明公开了一种基于判别光流张量和隐马尔可夫模型的视频语义单元检测方法，它涉及图像与视频处理技术领域，其目的在于采用该方法以充分挖掘视频的时空信息，较好地保持结构与类别信息，并获得较丰富的语义信息。该方法的实现过程是：首先根据训练数据，采用Hierarchical Lucas－Kanade方法计算视频序列的光流场，得到光流场序列；然后根据光流场序列构建光流张量，得到光流张量序列；接着进行张量判别分析，获得特征向量；同时对视频语义单元进行定义与建模，采用HMM建模方法，得到语义模型集HMMs；将待分析视频数据按本发明提出的特征分析方法进行视频运动特征提取，并利用得到的语义模型集HMMs，进行语义单元的分类与识别。本发明可用于视频的内容分析和语义提取。

Description

基于判别光流张量和HMM的视频语义单元检测方法

技术领域

本发明涉及图像与视频处理技术领域，特别涉及视频运动特征提取和视频语义分析。具体地讲是一种基于判别光流张量和隐马尔可夫模型HMM的视频语义单元检测方法，可用于视频的内容分析和语义提取。

背景技术

近年来，随着多媒体通信，多媒体压缩、存储以及计算机网络枝术的飞速发展，各种多媒体信息尤其是视频信息在科研、教育、工业生产和人们的日常生活中得到了广泛的应用，并起到了越来越重要的作用。与传统的文本信息相比，视频信息的数据量巨大，因此为了使人们能准确、快速地获取所需信息，基于内容的视频信息检索技术一经提出，便成为了研究的热点问题；但由于视频内容的丰富和复杂性，使其很难用简单的文字方式进行表达，因此有效地对视频信息进行组织和检索，就必须采用有针对性的、符合视频结构特性并与人类主观感知相一致的方式来分析和表达视频内容。

视频语义单元检测是视频内容分析的主要方法，其目的是通过对视频固有特征的分析，如颜色、纹理、形状、运动特征等，提取高层语义信息，以符合人的主观认知与需求。因此该研究方向也是人们研究的热点与难点所在。

视频语义单元检测方法按不同的语义粒度可分为：1、镜头的分类：镜头是组成视频的最基本的物理单元以及语义单位，由于其连续性的物理特性，镜头往往构成特定的语义，或是某个更高层语义单位的组成部分，因此镜头的分类是视频语义分析的一项重要内容。2、事件的检测：视频事件是一种高级的语义概念，它往往表达了一个完整的语义信息，是人类从视频中获取语义信息的基本单元。由于事件的检测通常是针对人们所感兴趣的视频片断的分析与提取，因此其具有相当重要的研究价值，并被广泛应用于体育及新闻视频的语义分析中。

由于视频是一种上下文相关的时序型多媒体形式，较适合采用时间动态模型对其进行语义分析。而HMM作为一种有限状态的统计模型，最成功的应用就是对时间序列进行建模，例如对语音信号的处理与识别。因此，HMM被逐渐引入视频内容分析领域，用于对语义单元进行建模与分析，并进一步用于分类与识别。近年来，HMM在视频语义分析领域，尤其是针对体育视频，获得了广泛的应用，并取得了一定的研究成果。例如，将HMM用于检测足球比赛中的射门、角球、任意球等事件。但是它们都缺乏统一的框架，并且获得的语义较单一。微软亚洲研究院的Xu G和Zhang H J等人在IEEE上发表的一篇文章“Xu G，Ma Y F，Zhang H J，Yang S Q.An HMM-based framework for video semanticanalysis[J].IEEE Trans on Circuits and Systems for Video Technology，2005，15(11)：1422-1433”中提出将HMM用于基于运动特征提取的视频语义分析方法，为视频内容理解提供了一个较满意的解决方案。但是由于其特征选择单一，因此无法充分利用时间以及空间信息，从而影响了事件分析与识别的效果。因此需要对视频特征的提取方法进行改进，以便更好地利用视频中的时空信息进行进一步的视频语义分析。

视频语义单元建模中的一个最基本与首要的问题是提取合适的特征作为模型的输入，这种特征应当能很好地表征语义，从而建立起底层特征与高层语义间的桥梁。常用的视频特征可分为：1、颜色、纹理、形状等反映视频静态视觉特性的底层特征；2、视频的运动特征，由于运动特性是视频区别于其它多媒体信息的最显著的特征，它是镜头、事件等语义概念存在的基础，如何很好地利用视频的运动特征表征语义信息，是视频语义分析的关键技术，它将有效地加强利用HMM等模型进行语义分析的效果。

光流场分析一直被认为是对视频进行运动分析的有效手段，关于如何准确、有效地计算光流的方法也得到了广泛的研究。已有的光流场计算方法可大致分为以下四种：1、基于差分的方法；2、基于相位的方法；3、基于区域的方法；4、基于能量的方法。其中以第一种方法的计算效果最好，且计算代价最小，同时也易于实现。其代表算法是Lucas-Kanade算法，并由此改进为Hierarchical Lucas-Kanade方法。

在光流场的计算中，视频帧中每个位置的像素都被赋予了一个光流矢量。因此光流场不仅提供了光流矢量的方向、幅度信息，同时还包含了光流矢量的空间分布信息。而传统的方法是将光流场直接映射成一阶向量作为特征，这样就破坏了光流场固有的结构信息，从而影响整体的分析结果。张量分析作为一种特征子空间分析方法，能够在较少的训练样本前提下，较好地保持原有特征空间的结构，已被广泛应用于图像、视频序列的特征分析。另一方面，虽然光流场所提供的运动信息丰富，即光流矢量数与视频帧尺寸成正比，但同时也极易引起维数灾难，即特征空间维数远大于训练样本数，因此，有效地对特征空间降维成为亟待解决的问题。目前较流行的降维方法有主成份分析和线性判别分析等，如上所述，这类方法针对的是一阶向量特征，因此，有必要利用张量分析方法对视频特征进行预处理，尽可能多的保留视频的结构特征。

发明内容

本发明的目的在于：为了克服现有技术存在的问题，提出一种基于判别光流张量和隐马尔可夫模型的视频语义单元检测方法，以充分挖掘视频的时空信息，克服特征空间维数过高的问题，较好地保持结构与类别信息，并获得较丰富的语义信息。

实现本发明目的的技术方案是：结合光流场计算和张量分析方法进行视频运动特征提取，提供一种充分利用视频的时空信息的特征表达法，在此基础上采用基于HMM的方法对视频语义单位，如镜头、事件等建模，从而实现视频的语义内容分析。该方法的具体实现过程如下：

(1)、首先根据训练数据，采用Hierarchical Lucas-Kanade方法计算视频序列的光流场，一段视频序列中的所有光流场构成该段视频的光流场序列；

(2)、将得到的光流场序列等分成M×N个子序列，采用长度为W的滑动窗口以采样频率K计算各个子序列的光流直方图，该直方图的方向数为D。将每个滑动窗口内的M×N组光流直方图构成三阶光流张量X∈R^M×N×D，得到与每个视频序列对应的光流张量序列；

(3)、利用统一张量判别分析技术，即GTDA，对光流张量进行判别分析，获得核张量：

Y = X Π_{l = 1}^{3} U_{l}^{\times l} - - - (1)

其中U_l为光流张量的第l阶投影矩阵。然后通过线性判别分析方法得到所需的特征向量：

y^*＝U^T(y-m) (2)

其中y由Y向量化所得，U^T为投影矩阵，m为平均向量；

(4)、对视频语义单元进行定义与建模，采用HMM建模方法，得到语义模型集HMMs；

(5)、将待分析视频数据按(1)～(3)步骤所列方法进行视频运动特征提取，并利用得到的语义模型集HMMs，进行语义单元的分类与识别。

与现有的技术相比，本发明具有以下优点：

1、本发明提出的基于光流场的视频运动特征表达法较充分地利用了视频的时间和空间信息。

2、本发明克服了特征空间维数过高的问题，采用张量判别分析方法，在特征降维的同时较好地保持结构与类别信息。

3、本发明利用HMM对特定视频类型中的语义单元建模，结合已提出的视频特征提取方案，进行视频语义分析，获得了较丰富的语义信息。

附图说明

图1是本发明的实现流程框图

图2是本发明的光流计算框图

图3是本发明的光流张量构成图

具体实施方式

参照图1，它是本发明的实现流程框图，并结合图2和图3来说明本发明的实现步骤：

(1)、首先根据训练视频数据，计算光流场

采用Hierarchical Lucas-Kanade方法计算视频序列的光流场，其实现过程具体如图2所示。首先构建视频帧金字塔，在本试验中的金字塔层数设为3。然后采用时空滤波器对每幅视频帧进行平滑处理，之后利用5阶滤波器计算亮度导数

和最后通过求解如下方程获得视频帧速度矢量(v_x，v_y)：

[\begin{matrix} Σw \frac{{&PartialD;}^{2} I}{&PartialD; x} & Σw \frac{&PartialD; I}{&PartialD; x} \frac{&PartialD; I}{&PartialD; y} \\ Σw \frac{&PartialD; I}{&PartialD; x} \frac{&PartialD; I}{&PartialD; y} & Σw \frac{{&PartialD;}^{2} I}{&PartialD; y} \end{matrix}] [\begin{matrix} v_{x} \\ v_{y} \end{matrix}] = - [\begin{matrix} Σw \frac{&PartialD; I}{&PartialD; x} \frac{&PartialD; I}{&PartialD; t} \\ Σw \frac{&PartialD; I}{&PartialD; y} \frac{&PartialD; I}{&PartialD; t} \end{matrix}] - - - (3)

其中w(x，y)表示权值向量。视频帧中所有象素点的速度矢量构成该帧的光流场，而一段视频序列中的所有光流场构成该段视频的光流场序列。

(2)、构建光流张量

如图3所示，采用一个长度为W的滑动窗口，以采样频率K对计算出的光流场序列进行采样，将每个窗口内的W帧光流场等分为M×N组光流场子序列，计算每组光流场的直方图，综合M×N组光流直方图构成三阶光流张量X∈R^M×N×D。其中M、N分别为视频帧的长、宽分块数，D为直方图的方向数。

(3)、进行张量判别分析，得到特征向量

利用统一张量判别分析技术GTDA对光流张量进行判别分析。GTDA定义为：

U_{l}^{*} = \arg {\max_{U_{l}} {tr (U_{l}^{T} (B_{l} - ζ W_{l}) U_{l})}}, 1 \leq l \leq 3 - - - (4)

其中

B_{l} = Σ_{i = 1}^{c} {n_{i} ma t_{l} ((M_{i} - M) {\overset{&OverBar;}{\times}}_{l} U_{l}^{T}) {mat}_{l}^{T} ((M_{i} - M) {\overset{&OverBar;}{\times}}_{l} U_{l}^{T})} - - - (5)

W_{l} = Σ_{i = 1}^{c} Σ_{j = 1}^{n_{i}} {{mat}_{l} ((X_{i, j} - M_{i}) {\overset{&OverBar;}{\times}}_{l} U_{l}^{T}) {mat}_{l}^{T} ((X_{i, j} - M_{i}) {\overset{&OverBar;}{\times}}_{l} U_{l}^{T}) - - - (6)

其中X_i，j表示第i类张量中的第j个训练样本，

M_{i} = (\frac{1}{n_{i}}) Σ_{j = 1}^{n_{i}} X_{i, j}

表示第i类平均张量，

M = (\frac{1}{n}) Σ_{i = 1}^{c} n_{i} M_{i}

表示总平均张量，n_i表示第i类张量的训练样本数，U_l表示在训练过程中产生的第l阶投影矩阵。另外，X_i，j(1≤j≤n_i，1≤i≤c)，M_i(1≤i≤c)和M都是属于R^M×N×D的3阶张量。

通过下式计算核张量

Y = X Π_{l = 1}^{M} U_{l}^{\times l} - - - (7)

将该核张量映射成向量y_i，j，利用线性判别分析方法LDA计算其投影矩阵U^T和平均向量m，最后通过下式得到特征向量：

y_{i, j}^{*} = U^{T} (y_{i, j} - m) - - - (8)

(4)、进行视频语义单元的定义与建模，获得语义模型集HMMs

以篮球视频为例，我们定义了以下7类镜头：(A)场上对攻；(B)特写；(C)向左跟踪；(D)向右跟踪；(E)左半场罚球；(F)右半场罚球；(G)扫换。其中，场上对攻镜头又包括8类事件：①左半场进攻；②右半场进攻；③快攻至左半场；④快攻至右半场；⑤左半场上篮；⑥右半场上篮；⑦左半场投篮；⑧右半场投篮。

统一用4状态左右结构的连续高斯混合型HMM对上述镜头和事件建模，分别表示为λ_S ^v，1≤v≤6和λ_E ^v，1≤v≤8。每个状态下的高斯混合项数为3。模型输出概率密度函数为：

b_{j} (O_{t}) = Σ_{k = 1}^{3} c_{jk} N (O_{t}, μ_{jk}, Σ_{jk}), 1 \leq j \leq 4 - - - (9)

其中N表示均值为μ，方差为∑的高斯概率密度函数；c_jk表示每个高斯混合项的权重系数；b_j(O_t)则表示观察值O_t的输出概率。

最后通过Baum-Welch算法对上述模型进行训练，获得语义模型集HMMs。

(5)、语义单元的分类与识别

对于一段待分析的视频片断，首先利用本发明提出的特征分析方法计算特征向量序列，然后采用Viterbi算法计算其与每个模型的匹配度，选取输出概率值最大的模型作为最后的识别结果，如下式所示：

本发明的优点可通过以下实验进一步说明：

实验采用NBA篮球比赛视频作为试验数据，总长度超过4小时，共1800多个镜头。从中分别提取20个标准视频片段作为每个语义单元的训练样本。实验采用交叉验证法对镜头分类与事件检测结果进行评估，试验结果如下表所示：

(1)、镜头分类交叉验证结果，其试验结果分别列于表1，表2和表3。

表1镜头分类4次交叉验证结果

B	C	D	E	F	RecognitionRate
B	C	D	E	F	RecognitionRate	BCDEF	20----	-20---	--201-	---19-	----20	100％100％100％95.0％100％
Average					99.4％	BCDEF	20----	-20---	--201-	---19-	----20	100％100％100％95.0％100％

表2镜头分类5次交叉验证结果

B	C	D	E	F	RecognitionRate
B	C	D	E	F	RecognitionRate	BCDEF	20----	-19---	-120--	---20-	----20	100％95.0％100％100％100％
Average					99.4％	BCDEF	20----	-19---	-120--	---20-	----20	100％95.0％100％100％100％

表3镜头分类10次交叉验证结果

表1、表2和表3分别列出了利用4次，5次和10次交叉验证法对镜头分类结果进行的评价，其中B～F分别表示上文中所列的6类镜头。实验结果达到了99.4％的平均识别率，表明了利用本发明提出的方法进行镜头分类有很好的识别效果。

(2)、事件识别交叉验证结果，分别列于表4，表5和表6。

表4事件识别4次交叉验证结果

A(1)	A(2)	A(3)	A(4)	A(5)	A(6)	A(7)	A(8)	RecognitionRate
A(1)	A(2)	A(3)	A(4)	A(5)	A(6)	A(7)	A(8)	RecognitionRate	A(1)A(2)A(3)A(4)A(5)A(6)A(7)A(8)	20---1---	-19------	--20-----	---20----	----18---	-----19--	-1--1120-	-------20	100％95.0％100％100％90.0％95.0％100％100％
Average								97.5％	A(1)A(2)A(3)A(4)A(5)A(6)A(7)A(8)	20---1---	-19------	--20-----	---20----	----18---	-----19--	-1--1120-	-------20	100％95.0％100％100％90.0％95.0％100％100％

表5事件识别5次交叉验证结果

A(1)	A(2)	A(3)	A(4)	A(5)	A(6)	A(7)	A(8)	RecognitionRate
A(1)	A(2)	A(3)	A(4)	A(5)	A(6)	A(7)	A(8)	RecognitionRate	A(1)A(2)A(3)A(4)A(5)A(6)A(7)A(8)	201--1---	-19------	--20-----	---20----	----19---	-----19--	------120-	-------20	100％95.0％100％100％95.0％95.0％100％100％
Average								98.1％	A(1)A(2)A(3)A(4)A(5)A(6)A(7)A(8)	201--1---	-19------	--20-----	---20----	----19---	-----19--	------120-	-------20	100％95.0％100％100％95.0％95.0％100％100％

表6事件识别10次交叉验证结果

A(1)	A(2)	A(3)	A(4)	A(5)	A(6)	A(7)	A(8)	RecognitionRate
A(1)	A(2)	A(3)	A(4)	A(5)	A(6)	A(7)	A(8)	RecognitionRate	A(1)A(2)A(3)A(4)A(5)A(6)A(7)A(8)	19-------	-20------	--20-----	---20----	1---20---	-----19--	-----120-	-------20	95.0％100％100％100％100％95.0％100％100％
Average								98.8％	A(1)A(2)A(3)A(4)A(5)A(6)A(7)A(8)	19-------	-20------	--20-----	---20----	1---20---	-----19--	-----120-	-------20	95.0％100％100％100％100％95.0％100％100％

表4、表5和表6分别列出了利用4次，5次和10次交叉验证法对事件检测结果进行的评价，其中A(1)～A(8)分别表示上文中所列的8类事件。实验结果达到了98％以上的平均识别率，表明了利用本发明提出的方法进行事件检测有很好的识别效果，并提供更丰富的语义信息。

Claims

1.一种基于判别光流张量和隐马尔可夫模型的视频语义单元检测方法，其具体实现步骤如下：

(1)、首先根据训练数据，采用Hierachical Lucas-Kanade方法计算视频序列的光流场，一段视频序列中的所有光流场构成该段视频的光流场序列；

Y = X Π_{l = 1}^{3} U_{l}^{\times l} - - - (1)

其中U_i为光流张量的第l阶投影矩阵。然后通过线性判别分析方法得到所需的特征向量：

y^*＝U^T(y-m) (2)

其中y由Y向量化所得，U^T为投影矩阵，m为平均向量；