CN104978561A

CN104978561A - 融合梯度和光流特征的视频动作行为识别方法

Info

Publication number: CN104978561A
Application number: CN201510133666.9A
Authority: CN
Inventors: 李俊峰; 方建良; 张飞燕
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2015-03-25
Filing date: 2015-03-25
Publication date: 2015-10-14

Abstract

本发明公开了一种融合梯度和光流特征的视频动作行为识别方法；分别对标准行为视频库和待识别视频进行梯度描述及光流信息计算；并针对其结果以标准行为视频库为基准，进行待识别视频动作行为的识别。

Description

融合梯度和光流特征的视频动作行为识别方法

技术领域

本发明涉及一种人体行为识别的方法，属于计算机视觉和机器学习领域，具体说是一种人体行为识别算法。

背景技术

近年来，人体行为识别是计算机视觉领域的一个研究热点，被广泛应用于视频监控和人机智能交互等领域。由于大部分人体动作具有相似性，还有遮挡、光照变化等原因，使得人体行为识别的研究面临重大的挑战，许多人体行为识别的研究都在致力解决这些问题。

根据当前的研究方法可以分为二类：基于全局特征和局部特征的行为识别方法。全局特征通常采用边缘、光流、剪影轮廓等信息对检测出的整个感兴趣的人体区域进行描述，对噪声、视角变化、部分遮挡比较敏感。如利用混合高斯模型来自适应更新背景模型，对视频序列提取出运动前景后对前景进行区域标记，然后采用Lucas-Kanade光流计算法得到运动区域内的光流信息，使用基于幅值的加权方向直方图描述行为；还有利用双背景模型来自适应更新背景模型，提取视频序列的运动前景后，对前景中的最小邻接矩形区域采用Lucas-Kanade光流计算法计算光流信息，利用运动目标的单位加权光流能量来进行行为识别；有些学者提出了首先提取视频中的光流信息，然后利用一个经验协方差矩阵对其降维得到一个协方差描述符，通过对它取对数映射到向量空间，利用最后得到的对数协方差描述符进行行为识别；另外有提取了一种面向光流特征直方图的特征来描述运动行为，该特征提取时不需要任何人体分割和背景减除；提出了一个基于深度图像3D关节点抽样特征包的抽样系统行为识别方法，通过从深度图像序列中提取表征人体姿态的3D关节点来描述人体行为；有的则是提出一种使用运动模式分析方法来进行异常行为的检测，其通过计算视频的光流来生成一种运动模型来定义轨迹，然后利用时空信息对轨迹进行聚类分层来学习这种统计运动模式，最后利用这个统计模型来进行异常检测。

局部特征是对人体中感兴趣的块或者点提取后进行描述，不需要对人体进行精确定位和跟踪，而且局部特征对遮部分挡、视角变化等不敏感。因此在行为识别中局部特征使用频率比较高。例如从压缩视频序列中提取量化参数和运动矢量作为特征；利用3D-HOG特征和光流特征来描述视频行为；有些则提取了视频序列中3D-SIFT特征；而有的将HOG特征和HOF特征结合起来一起描述从视频序列中提取出来的时空立方体；从视频中提取时空单词特征包，然后利用标记的潜狄利克雷分配模型作为分类器来进行行为识别；提出了一种快速密度轨迹行为识别法，通过在视频帧的感兴趣区域提取密度轨迹特征，然后利用时间金字塔来实现不同动作的速度适应机制来进行行为识别；在经过预处理去掉图像背景后利用Harris角点检测算法检测图像兴趣点后计算得到更精确的光流特征；先使用光流检测法来检测运动的位置和方向，通过随机抽样共识的方法来进一步的定位和识别的框架内最突出的运动，然后根据光流场中兴趣点水平和垂直方向位置的平均差和标准差定位人体运动的一个小矩形区域，把这个小矩形区域划分为几个块，根据兴趣点按帧计算光流，再合成一个矩阵，把相同行为的矩阵相加后再平均来表示该行为，最后利用简单的分类器进行行为识别。

如何从图像序列中获取能够有效表达人体运动信息的特征是人体行为识别的关键。光流特征是比较好的时空特征，也是运动识别中经常使用的一种运动特征。上述方法中，都是在提取视频运动前景后对前景运动区域进行标记，再对其进行光流计算；有些则是在检测出整个人体运动区域后再对矩形运动区域分块计算光流。对于人体的各种不同行为，运动不明显的肢体部位的光流信息是可以忽略的，而上述方法需要计算整个人体区域的光流，这样不仅增加了计算量，而且还会降低识别精度。同时对于时空特征来说，时空特征描述子进行PCA降维后再构造词袋码本，即对训练数据进行抽样后再进行聚类计算生成“词典”，这种方法使得训练样本不能被充分利用；而且为了保证一定的平均识别率，即使降维，样本数据量仍然过高，聚类速度比较慢。此外，各方向的特征数据可能存在一定的相似性，所有方向一起聚类就会降低不同方向特征对行为的描述性。

发明内容

本发明要解决的技术问题是提供一种识别度高的融合梯度和光流特征的视频动作行为识别方法。

为了解决上述技术问题，本发明提供一种融合梯度和光流特征的视频动作行为识别方法，以标准行为视频为基准，对待识别视频进行动作行为识别。

作为对本发明所述的融合梯度和光流特征的视频动作行为识别方法的改进：包括如下的步骤：一、对标准行为视频进行兴趣点检测；二、以兴趣点为中心提取视频块；三、对视频块进行X、Y、Z三方向梯度描述及计算光流信息，分别形成X、Y、Z三方向的描述子Ⅰ和光流速度分量U、V两方向的描述子Ⅱ；四、对上述的描述子分别进行聚类，形成各方向标准的码本；五、待识别视频通过所述步骤一至四；六、根据最小距离法分别计算出每个特征方向在对应方向码本的码字上的直方图分布；七、利用欧式距离计算待识别视频各特征方向的待识别直方图分布和标准行为视频各特征方向的标准直方图分布之间的距离；八、将所述描述子Ⅰ和描述子Ⅱ所形成的各特征方向的距离通过线性融合，形成加权距离；九、根据最近邻法则，以最终的加权距离的大小来识别动作行为。

作为对本发明所述的融合梯度和光流特征的视频动作行为识别方法的进一步改进：步骤一中，兴趣点检测方法如下：确定视频的图像序列f(x,y,t)；定义函数f：图像序列f(x,y,t)经过独立空间变量为和时间变量为的高斯函数进行卷积滤波得到L：

L (\cdot; σ_{l}^{2}; τ_{l}^{2}) = g (\cdot; σ_{l}^{2}; τ_{l}^{2}) * f (\cdot) - - - (1)

将时空域中的高斯窗口定义为：

g (x, y, t; σ_{l}^{2}; τ_{l}^{2}) = \frac{1}{\sqrt{{(2 π)}^{3} σ_{l}^{4} τ_{l}^{2}}} \times \exp (\frac{- {(x^{2} + y^{2})}^{2}}{2 σ_{l}^{2}} - \frac{t^{2}}{2 τ_{l}^{2}}) - - - (2)

在空间维上使用Harris兴趣点检测方法，在时间维上则采用Gabor滤波器，定义响应函数R为：

R(x,y,t)＝(I*g*h_ev)²+(I*g*h_od)² (3)式中，*为卷积运算符，I为视频图像，g为二维高斯平滑核，h_ev和h_od是在空间域上正交的一维Gabor滤波器；h_ev和h_od的定义为：

h_{e v} (t; τ; ω) = - c o s (2 π t ω) e^{\frac{- t^{2}}{- τ^{2}}} - - - (4)

h_{od} (t; τ; ω) = - \sin (2 πtω) e^{\frac{- t^{2}}{- τ^{2}}} - - - (5)

式中，σ和τ分别为空间域和时间域上的检测尺度，本发明中取σ＝2和τ＝3；高斯平滑滤波尺度为2；响应函数R的极大值处为兴趣点，每一个极大值点的邻近区域包含了I(x,y,t)中的人体局部运动信息。

作为对本发明所述的融合梯度和光流特征的视频动作行为识别方法的进一步改进：时空特征提取步骤如下：

步骤(1)：设时空立方体为I(x,y,t)，则其X、Y、Z轴方向的梯度G_x、G_y、G_z分别定义为：

G_x＝L(x+1,y,t)-L(x-1,y,t)， (6)

G_y＝L(x,y+1,t)-L(x,y-1,t)， (7)

G_z＝L(x,y,t+1)-L(x,y,t-1)， (8)

步骤(2)：对视频进行降噪处理并检测该视频的时空兴趣点，以时空兴趣点为中心提取时空立方体；计算其X、Y、Z三个方向的亮度梯度G_x、G_y、G_z，分别作为三个方向上的描述子Ⅰ集合；步骤(3)：利用聚类算法对上述三个方向上的描述子Ⅰ集合G_x、G_y、G_z分别进行聚类，每个方向均得到k个聚类中心，各方向的k个码字形成了相应方向上的码本V_x、V_y、V_z；步骤(4)；利用最小距离法计算该视频的X、Y、Z方向描述子Ⅰ集合G_x、G_y、G_z在相应方向的码本V_x、V_y、V_z码字上出现的频率，分别形成X、Y、Z三方向直方图分布。

作为对本发明所述的融合梯度和光流特征的视频动作行为识别方法的进一步改进：光流特征提取步骤如下：步骤(1)：对视频进行降噪处理后，检测时空兴趣点，以时空兴趣点为中心提取视频块，计算各视频块的光流信息u和v，并将所有视频块的光流信息按两个速度分量分别聚合作为视觉词汇M_u和M_v来描述行为；步骤(2)：利用聚类算法对得到的两个速度分量的视觉词汇分别进行聚类，聚类后每个速度分量得到k个聚类中心，每个速度分量的码字就构成相应的码本k_u和k_v；步骤(3)：对得到的码本k_u和k_v，利用最小距离法计算该视频的每个速度分量的视觉词汇在相应的两个速度分量码本的码字上的直方图分布。

本发明涉及的是人体行为的识别，本发明首先将待识别视频进行预处理并检测该视频的时空兴趣点，再以兴趣点为中心提取它的视频块分别形成亮度梯度描述子集合和光流特征描述子集合，然后再根据标准数据库当中的各行为的训练视频进行处理分别得到梯度特征描述和光流特征描述的各行为相应的标准码本，再利用最小距离法计算待识别视频和训练视频在对应的标准码本的码字上面出现的频率。由于各种行为在不同的特征方向和光流速度分量上的敏感程度有所不同，所以我们这里采用将梯度特征和光流特征融合成一个加权的特征，权值的大小基于各特征对识别的贡献来定。最后根据近邻原则来判断待识别视频的行为。本发明的方法在很大程度上提高了待识别视频行为的准确率。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细说明。

图1视频人体行为识别流程；

图2各行为标准直方图分布计算流程；

图3是角点示意图(a为角点，b为有角点窗口，c为无角点窗口，d为直线窗口)；

图4椭圆函数示意图；

图5特征值与角点关系图；

图6时空特征词汇表构造流程图；

图7光流特征词汇表构造流程图；

图8 Run行为标准直方图分布的构造原理；

图9十种行为的X方向标准直方图分布；

图10十种行为的Y方向标准直方图分布；

图11十种行为的Z方向标准直方图分布；

图12 box行为两个速度分量的标准直方图分布构造原理；

图13 KTH数据库六种行为速度分量u的标准直方图分布；

图14 KTH数据库六种行为速度分量v的标准直方图分布；

图15 Weizmann数据库识别率；

图16 KTH数据库识别率。

具体实施方式

实施例1、图1～图16给出了一种融合梯度和光流特征的视频动作行为识别方法；主要是通过对标准行为视频和待识别视频分别进行梯度描述及光流信息计算，并以标准行为视频的结果为基准，对待识别视频的动作行为进行识别，主要包括如下步骤。

步骤一，通过对标准视频库(含有多个行为)进行梯度和光流特征的提取，形成各特征方向(这里的特征方向为梯度特征的3个方向和光流特征的2个方向)的描述子。

步骤二，对于上述各特征方向的描述子进行聚类，得到标准的码本。

步骤三，把之前的得到的所有描述子，利用最小距离法计算描述子在对应的码本上出现的概率，然后形成标准的直方图分布。

步骤四，对于待识别视频，也进行梯度和光流特征的提取，形成各特征方向的描述子。

步骤五，把待识别视频的所形成的描述子利用最小距离法计算在标准码本上出现的概率，然后形成待识别视频的直方图分布。

步骤六，分别计算各特征方向的测试直方图分布和标准直方图分布的欧式距离。

步骤七，将梯度特征和光流特征所产生的距离通过线性融合成一个加权距离，各特征方向的权值由对识别的贡献率给定，并且所有权值之和为1。

步骤八，根据最近邻原则判断待识别视频的行为方式。

以上所述的步骤中，为了可以有效检测出图像序列I(x,y,t)的时空兴趣点，采用下述方法：

首先定义图像角点是两个边缘的交点(或是可以将其理解为邻域内同时具有两个主方向的特征点，类似道路和房屋的拐角)；一般角点所在的邻域通常是图像中稳定且具有大量信息的区域，这些区域具有仿射不变性、尺度不变性、旋转不变性等特性，人体视觉对角点的识别通常通过一个局部的区域或一个小窗口完成，如图3(a)所示。如果将这个特定的小窗口朝着各个方向移动时，与此同时移动窗口区域内灰度变化较大，那么就可以判定这个窗口内有角点，如图3(b)所示。如果将这个特定的小窗口朝着各个方向移动时，移动窗口区域内灰度不发生变化，那么这个窗口内没有角点，如图3(c)所示。如果将这个特定的小窗口朝着某一个方向移动时，移动窗口区域内灰度变化比较大，而当朝着另一个方向移动时窗口区域内灰度不变，那么在这个窗口内的可能是一条直线，如图3(d)所示。

根据自相关函数，可以给出图像I(x,y)在点(x,y)处平移(Δx,Δy)后的自相似性表达式：

c (x, y, Δx, Δy) = \underset{(u, v) &Element; W (x, y)}{Σ} ω (u, v) {(I (u, v) - I (u + Δx, v + Δy))}^{2} - - - (1)

式(1)中，ω(u,v)为加权函数，可以取常数也可以是高斯加权函数；W(x,y)是以点(x,y)为中心的窗口。

根据泰勒展开式，对图像I(x,y)在点(x,y)处平移(Δx,Δy)后进行一阶近似得到：

I (u + Δx, v + Δy) = (u, v) + [I_{x} (u, v), I_{y} (u, v)] [\begin{matrix} Δx \\ Δy \end{matrix}] - - - (2)

式(2)中，I_x和I_y是I(x,y)的偏导数。

则式(2)可近似为：

c (x, y; Δx, Δy) = [\begin{matrix} Δx & Δy \end{matrix}] M (x, y) [\begin{matrix} Δx \\ Δy \end{matrix}] - - - (3)

式(3)中，

M (x, y) = [\begin{matrix} \underset{ω}{Σ} I_{x} {(u, v)}^{2} & \underset{ω}{Σ} I_{x} (u, v) I_{y} (u, v) \\ \underset{ω}{Σ} I_{x} (u, v) I_{y} (u, v) & \underset{ω}{Σ} I_{y} {(u, v)}^{2} \end{matrix}],

即图像I(x,y)在点(x,y)处平移(Δx,Δy)后的自相关函数可以近似为二次项函数。

二次项函数实质上可以看作为一个椭圆函数，如图4所示，椭圆函数的扁率和尺寸由M(x,y)的特征值λ₁、λ₂决定，方向由M(x,y)的特征矢量决定，其方程式为：

[\begin{matrix} Δx & Δy \end{matrix}] M (x, y) [\begin{matrix} Δx \\ Δy \end{matrix}] = 1 - - - (4)

可以根据二次项函数的特征值的大小来判断窗口内的图像中的角点、边缘(直线)和平面，如图5所示。当λ₁<<λ₂或λ₁>>λ₂，即自相关函数的值只在某一个方向上比较大，在其它方向上比较小时，窗口内可以判断为直线；当λ₁≈λ₂，且λ₁和λ₂都比较小，即自相关函数的值在各个方向上都比较小，窗口内可以判断为平面；当λ₁≈λ₂，且λ₁和λ₂都比较大，即自相关函数的值在各个方向上都比较大，窗口内可以判断为角点。

实际上，判别角点不需要计算具体的特征值，只需定义一个角点响应函数后计算它的值来判断角点。定义响应函数R为：

R＝detM-α(traceM)² (5)

将式(3)中的M(x,y)简化为

M (x, y) = [\begin{matrix} A & D \\ D & B \end{matrix}],

则式(5)中的detM和traceM分别为M(x,y)的行列式和直迹，其中α为经验值，一般取0.04-0.06。

由上面角点的定义方法引伸出Harris兴趣点检测，Harris兴趣点检测方法的思路是找到图像f^sp在各个方向上的都有显著变化的位置。则Harris兴趣点的检测方法可以描述为：定义一副图像为f^sp：f^sp经过线性滤波后得到L^sp：其表达式如下：

L^{sp} (x, y; σ_{l}^{2}) = g^{sp} (x, y; σ_{l}^{2}) * f^{sp} (x, y) - - - (6)

式(6)中，g^sp是图像f^sp进行卷积滤波的高斯核函数，为其尺度变化因子。

对式(6)给定一个观测尺度利用尺度为带高斯窗口的二阶矩阵来找到兴趣点，表达式如下：

μ^{sp} (\cdot; σ_{l}^{2}, σ_{i}^{2}) = g^{sp} (\cdot {; σ}_{i}^{2}) * (\begin{matrix} L_{x}^{{sp}^{2}} & L_{x}^{sp} L_{y}^{sp} \\ L_{x}^{sp} L_{y}^{sp} & L_{y}^{{sp}^{2}} \end{matrix}) - - - (7)

式(7)中，*是卷积符号，和是尺度为高斯函数x和y上的梯度，

L_{x}^{sp} = {&PartialD;}_{x} (g^{sp} (\cdot {; σ}_{l}^{2}) * f^{sp} (\cdot)), L_{y}^{sp} = {&PartialD;}_{y} (g^{sp} (\cdot {; σ}_{l}^{2}) * f^{sp} (\cdot)) .

可以把一个二阶矩描述符看作是一个点附近区域二维分布的图像定位协方差矩阵。所以，矩阵μ^sp的特征值λ₁和λ₂(λ₁≤λ₂)组成了f^sp在图像两个方向上的变化描述符，且λ₁和λ₂都是大值时才存在兴趣点。Harris和Stephens基于此提出一个角点检测函数的最大值计算方法，表达式如下：

H^sp＝det(μ^sp)-k×trace²(μ^sp)＝λ₁λ₂-k(λ₁+λ₂)² (8)

在兴趣点存在的位置处，特征值之比α＝λ₂/λ₁的值会比较大。从式(8)可知H^sp要取正极大值，特征值之比α要满足k≤α/(1+α)²，如果定义k＝0.25，此时α＝1，λ₁＝λ₂，H取正极大值，兴趣点具有理想的各向同性。

由于本发明要检测的是视频(图像序列)中的兴趣点，可以把视频看成是多幅图像组成的图像序列f(x,y,t)。定义函数f：f加入线性空间尺度后得到L：由图像序列f经过独立空间变量为和时间变量为的高斯函数进行卷积滤波得到，表达式如下：

L (\cdot; σ_{l}^{2}; τ_{l}^{2}) = g (\cdot; σ_{l}^{2}; τ_{l}^{2}) * f (\cdot) - - - (9)

时空域中的高斯窗口被定义为：

g (x, y, t; σ_{l}^{2}; τ_{l}^{2}) = \frac{1}{\sqrt{{(2 π)}^{3} σ_{l}^{4} τ_{l}^{2}}} \times \exp (\frac{- {(x^{2} + y^{2})}^{2}}{2 σ_{l}^{2}} - \frac{t^{2}}{2 τ_{l}^{2}}) - - - (10)

式中σ_l为空间尺度变量，τ_l为时间尺度变量，t是时间维。

本发明所用的兴趣点检测方法，在空间维上沿用上述图像中的兴趣点方法，在时间维上则采用Dollar提出的Gabor滤波器，则定义响应函数R为：

R(x,y,t)＝(I*g*h_ev)²+(I*g*h_od)² (11)

式中，*为卷积运算符，I为视频图像，g为二维高斯平滑核，h_ev和h_od是在空间域上正交的一维Gabor滤波器。

h_ev和h_od的定义为：

h_{ev} (t; τ; ω) = - \cos (2 πtω) e^{\frac{- t^{2}}{- τ^{2}}} - - - (12)

h_{od} (t; τ; ω) = - \sin (2 πtω) e^{\frac{- t^{2}}{- τ^{2}}} - - - (13)

式中，σ和τ分别为空间域和时间域上的检测尺度，本发明中取σ＝2和τ＝3；高斯平滑滤波尺度为2。

响应函数R的极大值处为兴趣点，每一个极大值点的邻近区域包含了I(x,y,t)中的人体局部运动信息。

以上步骤中，特征的提取和描述步骤如下：

时空特征的提取：

对图像序列进行兴趣点检测后，就可以得到一系列时空兴趣点，但只靠这些兴趣点无法有效描述人体行为。本发明以时空兴趣点为中心定义一个时空立方体，抽取这个时空立方体的像素来构造时空特征，立方体的边长取其所在尺度的六倍。这种时空立方体包含了有利于响应函数取极大值的大多数点。

描述时空立方体的方法有将立方体展开值作为一个向量来进行描述、像素归一化描述和直方图描述等。由于人体在运动时，兴趣点附近区域的图像亮度变化非常剧烈，而且人体的运动行为不同时，兴趣点附近区域的图像亮度变化也不同。因此，可以利用兴趣点附近区域的图像亮度变化来描述不同人体行为的兴趣点。不同人体行为的兴趣点附近区域的图像亮度变化可以通过时空立方体的亮度沿X轴、Y轴和Z轴(即时间轴)方向的梯度来反映，本文提取这些梯度作为特征进行人体行为识别。

设时空立方体为I(x,y,t)，则其X、Y、Z轴方向的梯度G_x、G_y、G_z可分别定义为：

G_x＝L(x+1,y,t)-L(x-1,y,t)， (14)

G_y＝L(x,y+1,t)-L(x,y-1,t)， (15)

G_z＝L(x,y,t+1)-L(x,y,t-1)， (16)

光流特征的提取：

光流场是能描述图像序列如何随时间变化的向量场，包含了像素点的瞬时运动速度矢量信息，是比较好的时空特征。但是光流场计算量较大，为了通过只计算提取的视频块的光流而减少计算量，文本选用Lucas-Kanade方法来计算光流。

光流场计算原理：

设在时刻t处，像素点(x,y)在位置1处，此处的灰度值为I(x,y,t)，在(t+Δt)时刻，原像素点运动到位置2处，此时它的位置变化为(x+Δx,y+Δy)，新的灰度值为I(x+Δx,y+Δy,t+Δt)。根据图像一致性假设，满足则：

I(x,y,t)＝I(x+Δx,y+Δy,t+Δt) (17)

设u和v分别为像素点(x,y)的光流矢量沿x和y两个方向的分量，将式(17)泰勒展开为：

I (x + Δx, y + Δy, t + Δt) = I (x, y, t) + \frac{&PartialD; I}{&PartialD; x} Δx + \frac{&PartialD; I}{&PartialD; y} Δy + \frac{&PartialD; I}{&PartialD; t} Δt + ϵ - - - (18)

将二阶以上的高次项ε忽略以后，则满足：

\frac{&PartialD; I}{&PartialD; x} Δx + \frac{&PartialD; I}{&PartialD; y} Δy + \frac{&PartialD; I}{&PartialD; t} Δt = 0 - - - (19)

∵Δt→0

\overset{\cdot}{\cdot \cdot} = \frac{&PartialD; I}{&PartialD; x} \frac{dx}{dt} + \frac{&PartialD; I}{&PartialD; y} \frac{dy}{dt} + \frac{&PartialD; I}{&PartialD; t} = 0

即：I_xu+I_yv+I_t＝0 (20)

式(20)中，I_x、I_y、I_t为像素点(x,y)沿x、y、t三个方向的偏导数。可以用下式的矢量式表达：

&dtri; I \cdot U + I_{t} = 0 - - - (21)

式中，为梯度方向，U＝(u,v)^T表示光流。

Lucas-Kanade光流法：文本选用Lucas-Kanade光流法来计算光流。假设在一大小指定的窗口内的光流是保持恒定的，由此可求该窗口内的光流约束方程得到大小为x×x的特征窗口的光流(u,v)，即：

[\begin{matrix} I_{x 1} & I_{y 1} \\ I_{y 2} & I_{y 2} \\ . & . \\ . & . \\ . & . \\ I_{xi} & I_{yi} \end{matrix}] [\begin{matrix} u \\ v \end{matrix}] = - [\begin{matrix} I_{t 1} \\ I_{t 2} \\ . \\ . \\ . \\ I_{ti} \end{matrix}] - - - (22)

式(22)中，i为特征窗口内的像素个数i＝(x×x)，I_x和I_y为图像的空间梯度，I_t是时间梯度。求解式(22)可得：

[\begin{matrix} u \\ v \end{matrix}] = {[\begin{matrix} Σ {I^{2}}_{x_{i}} & Σ I_{x_{i}} I_{y_{i}} \\ Σ I_{x_{i}} I_{y_{i}} & Σ {I^{2}}_{y_{i}} \end{matrix}]}^{- 1} [\begin{matrix} - Σ I_{x_{i}} I_{t_{i}} \\ - Σ I_{x_{i}} I_{t_{i}} \end{matrix}] - - - (23)

以上步骤中，视觉词汇表构造步骤如下：

时空特征X、Y、Z三方向视觉词汇表构造：

时空立方体的亮度沿X轴、Y轴和Z轴方向的梯度可以作为特征进行人体行为识别。但是，由于视频帧数不同，且不同的人在做相同行为时动作幅度和速度等方面也存在差异，所以每一帧的兴趣点也不同。因此，同一种行为的不同视频所提取的时空立方体数量是有差异的，相应时空立方体的亮度沿X轴、Y轴和Z轴方向的梯度数量也是不同的。所以，国内外学者经常采用视觉词汇表(bag of words)来描述和识别人体行为。但是，目前基于时空特征构造视觉词汇表的人体行为识别方法均把视频X、Y、Z方向的梯度特征描述子集合综合起来进行聚类，而视频三个方向的梯度特征描述子集合具有一定的相似性，具体现在三个方向的部分梯度特征描述子数值比较接近，综合聚类就会降低不同方向梯度特征对行为的描述性。例如原地纵跳和步行两种行为，原地纵跳主要是Y轴方向运动，Y轴方向梯度特征变化显著；而步行主要为X轴方向运动，相应的X轴方向梯度特征变化显著，如果把所有方向特征综合聚类，这两种行为在识别过程中可能会出现一定程度的误判。产生该现象的主要原因是没有考虑不同行为的方向性。

为了综合考虑行为动作的幅度和方向，保证特征描述子集合对行为描述的完整性和差异性，本发明提出如图6所示的视觉词汇表构造方法。分别对视频三个方向的梯度特征描述子集合进行聚类，得到三个方向的码本；然后计算每个方向特征描述子集合在该方向码本的码字上出现的概率，得到三方向直方图分布。具体构造过程如下：

(1)对视频进行预处理并检测该视频的时空兴趣点，以兴趣点为中心提取它的时空立方体；计算其X、Y、Z三个方向的亮度梯度G_x、G_y、G_z，分别作为三个方向上的特征描述子集合；

(2)利用聚类算法对上述三个方向上的特征描述子集合G_x、G_y、G_z分别进行聚类，每个方向均得到k个聚类中心(码字)，各方向的k个码字就形成了相应方向上的码本V_x、V_y、V_z；

(3)利用最小距离法计算该视频的X、Y、Z方向特征描述子集合G_x、G_y、G_z在相应方向的码本V_x、V_y、V_z码字上出现的频率，分别形成X、Y、Z三方向直方图分布，利用它们来表征这段视频中的人体运动行为。

光流特征的U、V两个速度分量的视觉词汇表构造：

由于视频帧数不同，且不同的人在做相同行为时动作幅度和速度上存在差异，所以同一种行为的不同视频得到的兴趣点及相应提取的视频块数量不一致，导致这些视频提取的光流特征数量也不同的。此外，不同行为视频的光流特征的两个速度分量在数值上存在相关性，直接利用光流的两个速度分量进行行为识别会降低对行为的描述性。基于此，为了克服由于不同视频光流特征数量不同造成无法识别的缺陷，本文提出采用视觉词汇表(bag of words)来描述人体行为；为了保证光流特征对行为描述的全面性和有效性，分别提取光流的两个速度分量作为视觉词汇来表征视频中人体运动的特征。

本文提出如图7所示的视觉词汇表构造方法，分别对视频光流特征的两个速度分量进行聚类，得到两个分量的码本；然后计算每个分量的视觉词汇在该分量码本的直方图分布。具体构造过程如下：

(1)对视频进行预处理后，检测时空兴趣点，以兴趣点为中心提取视频块，然后计算各视频快的光流信息(u和v)，并将所有视频块的光流信息按两个速度分量分别聚合作为视觉词汇M_u和M_v来描述行为；

(2)利用聚类算法对得到的两个速度分量的视觉词汇分别进行聚类，聚类后每个速度分量都会得到k个聚类中心(码字)，每个速度分量的码字就构成了相应的码本k_u和k_v；

(3)对得到的码本k_u和k_v，利用最小距离法计算该视频的每个速度分量的视觉词汇在相应的两个速度分量码本的码字上的直方图分布，利用它们来表征该视频的人体运动行为。

设k_u＝{c_u1,c_u2,…c_uk}，k_v＝{c_v1,c_v2,…c_vk}分别为视频速度分量的码本，M_u和M_v为该视频相应分量的视觉词汇，则M_u到k_u中第j个码字的距离可以用下式来表示：

d_{u} = Σ_{i = 1}^{n} {| | M_{uj} - K_{iu}^{j} | |}^{2}, j = 1,2, . . ., n - - - (24)

以上步骤中，标准直方图分布的构造步骤如下：

不同行为X、Y、Z三方向标准直方图分布构造：

有些数据库中十种行为都是同一个人的行为，然而不同人的同一种行为在动作上是有差异的，这会影响到该行为时空立方体的X、Y、Z三个方向直方图分布，产生差异的主要原因是表演者的身高、着装和表演者在表演时肢体的动作空间范围和动作速度不同。如果直接利用同一个人的十种行为相应的X、Y、Z三个方向直方图分布作为标准进行人体行为识别，识别率比较低。为了解决这个问题，本文提出构造十个行为的X、Y、Z三方向标准直方图分布，图8以Weizmann数据库中Run行为为例，给出了该行为X、Y、Z三方向标准直方图分布的构造原理，具体构造过程为：

Step1:

计算n个Run行为视频的X、Y、Z三方向特征描述子集合G_rx、G_ry、G_rz，并分别把它们进行合并得到代表Run行为的X、Y、Z三方向特征描述子总集合

Ω_{G_{rx}} = G_{rx 1} \cup G_{rx 2} . . . \cup G_{rxn} - - - (25)

Ω_{G_{ry}} = G_{ry 1} \cup G_{ry 2} . . . \cup G_{ryn} - - - (26)

Ω_{G_{rz}} = G_{rz 1} \cup G_{rz 2} . . . \cup G_{rzn} - - - (27)

Step2:

对三方向特征描述子总集合分别聚类得到X、Y、Z三方向标准码本M_rx、M_ry、M_rz，并利用最小距离法分别计算在所相应方向的标准码本M_rx、M_ry、M_rz码字上出现的频率，分别形成Run行为的X、Y、Z三方向标准直方图分布，利用它们来表征Run的标准行为。

根据Run行为X、Y、Z三方向标准直方图分布的构造方法，利用Weizmann数据库中相同行为的所有视频(daria的行为除外，daria的行为作为测试视频)来构造相应行为的X、Y、Z三方向标准直方图分布。图9-图11为所构造的bend、jack、pjump等十种行为的X、Y、Z三方向标准直方图分布。

不同行为光流两个速度分量的标准直方图分布构造：

类似时空特征标准直方图构造一样十种行为如果都是同一个人的行为，那么这就会影响到该行为光流特征的两个速度分量的直方图分布，产生差异的主要原因是不同人的身高、着装及在动作时肢体的运动空间范围和运动速度不同。如果直接利用同一个人的六种行为相应的光流特征两个速度分量的直方图分布作为标准进行人体行为识别，会降低识别率。为了解决这个问题，本文提出构造六个行为的光流特征两个速度分量的标准直方图分布，图12以KTH数据库中box行为为例，给出了该行为光流特征的两个速度分量标准直方图分布的构造原理，具体构造过程如下：

(1)对预处理后的所有box行为视频分别进行时空兴趣点检测，以兴趣点为中心分别提取它们的视频块；计算所有box行为视频的视频块的光流信息，把光流特征的两个速度分量分别作为视觉词汇；

(2)分别把box行为所有视频的视频块的两个分量视觉词汇进行合并得到代表box行为的两个速度分量的视觉词汇集合，利用聚类算法分别对两个速度分量的视觉词汇集合进行聚类，得到两个速度分量的标准码本；

(3)对得到的两个速度分量的标准码本，利用最小距离法计算两个速度分量的视觉词汇集合在对应的两个标准码本的码字上出现的频率，分别形成box行为的两个速度分量的标准直方图分布，利用它们来表征box行为。

根据box行为两个速度分量的标准直方图分布的构造方法，利用KTH数据库中box行为的所有视频(person1的行为除外，person1的行为作为测试视频)来构造该行为两个速度分量的标准直方图分布，图13-图14为所构造的box，run，jog等六种行为的两个速度分量的标准直方图分布。

从图13-图14中可以看出，大多数行为在两个速度分量上的标准直方图分布与其它行为在相同速度分量上的标准直方图分布区分度都很明显，可以有效与其它行为区分开来，只有动作比较相似的jog和run行为在速度分量u上的标准直方图分布区分布度比较小，但它们在在速度分量v上的标准直方图分布区分度很明显，可以有效区分开来。

基于局部时空特征方向和光流速度方向加权的人体行为识别：

(1)对待识别视频进行兴趣点检测，提取时空立方体并对其进行时空特征X、Y、Z三方向和光流特征速度分量U、V两方向描述及得到相应方向特征描述子集合；分别计算待识别视频五方向特征描述子集合在各种行为的五方向标准码本上的直方图分布，得到其五方向直方图分布；

(2)分别计算待识别视频的X、Y、Z、U、V五方向直方图分布与各行为标准三方向直方图分布的距离d_x、d_y、d_z、d_u、d_v。为了使不同行为区分更为明显，需要对五方向距离d_x、d_y、d_z、d_u、d_v进行加权得到加权距离D_ist。加权距离D_ist定义如下：

D_ist＝ω₁×d_x+ω₂×d_y+ω₃×d_z+ω₄×d_u+ω₅×d_v (28)

式中，ω₁、ω₂、ω₃、ω₄、ω₅为加权系数，ω₁+ω₂+ω₃+ω₄+ω₅＝1；且ω₁,ω₂,ω₃,ω₄,ω₅∈[0,1]。

各方向距离的加权系数ω₁、ω₂、ω₃、ω₄、ω₅可以根据各行为标准X、Y、Z、U、V方向词汇分布对行为表示的贡献来优化设计。

(3)根据计算出的加权距离，利用最近邻分类器对行为进行识别，图15-图16为Weizmann数据库和KTH数据库的识别结果：

最后，还需要注意的是，以上列举的仅是本发明的一个具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种融合梯度和光流特征的视频动作行为识别方法；其特征是：分别对标准行为视频库和待识别视频进行梯度描述及光流信息计算；并针对其结果以标准行为视频库为基准，进行待识别视频动作行为的识别。

2.根据权利要求1所述的融合梯度和光流特征的视频动作行为识别方法，其特征是：包括如下的步骤：

一、对视频进行兴趣点检测；

二、以兴趣点为中心提取视频块；

三、对视频块进行X、Y、Z三方向梯度描述及计算光流信息，分别形成X、Y、Z三方向的描述子Ⅰ和光流速度分量U、V两方向的描述子Ⅱ；

四、对上述的描述子分别进行聚类，形成各方向标准的码本；

五、根据最小距离法分别计算出每个特征方向在对应方向码本的码字上的直方图分布；

六、利用欧式距离计算待识别视频各特征方向的待识别直方图分布和标准行为视频各特征方向的标准直方图分布之间的距离；

七、将所述描述子Ⅰ和描述子Ⅱ所形成的各特征方向的距离通过线性融合，形成加权距离；

八、根据最近邻法则，以最终的加权距离的大小来识别动作行为。

3.根据权利要求2所述的融合梯度和光流特征的视频动作行为识别方法，其特征是：步骤一中，兴趣点检测方法如下：

确定视频的图像序列f(x,y,t)；

定义函数f：

图像序列f(x,y,t)经过独立空间变量为和时间变量为的高斯函数进行卷积滤波得到L：

L (\cdot; σ_{l}^{2}; τ_{l}^{2}) = g (\cdot; σ_{l}^{2}; τ_{l}^{2}) * f (\cdot) - - - (1)

将时空域中的高斯窗口定义为：

g (x, y, t; σ_{l}^{2}; τ_{l}^{2}) = \frac{1}{\sqrt{{(2 π)}^{3} σ_{l}^{4} τ_{l}^{2}}} \times \exp (\frac{- {(x^{2} + y^{2})}^{3}}{2 σ_{l}^{2}} - \frac{t^{2}}{2 τ_{l}^{2}}) - - - (2)

R(x,y,t)＝(I*g*h_ev)²+(I*g*h_od)² (3)

所述响应函数R的极大值处为兴趣点。

4.根据权利要求2所述的融合梯度和光流特征的视频动作行为识别方法，其特征是：时空特征提取步骤如下：

步骤(1)：

设时空立方体为I(x,y,t)，定义X、Y、Z轴方向的梯度G_x、G_y、G_z分别为：

G_x＝L(x+1,y,t)-L(x-1,y,t)， (6)

G_y＝L(x,y+1,t)-L(x,y-1,t)， (7)

G_z＝L(x,y,t+1)-L(x,y,t-1)， (8)

步骤(2)：

对视频进行降噪处理并检测该视频的时空兴趣点，以时空兴趣点为中心提取时空立方体；

计算其X、Y、Z三个方向的亮度梯度G_x、G_y、G_z，分别作为三个方向上的描述子Ⅰ集合；

步骤(3)：

利用聚类算法对上述三个方向上的描述子Ⅰ集合G_x、G_y、G_z分别进行聚类，每个方向均得到k个聚类中心，各方向的k个码字形成相应方向上的码本V_x、V_y、V_z；

步骤(4)；

利用最小距离法计算该视频的X、Y、Z方向描述子Ⅰ集合G_x、G_y、G_z在相应方向的码本V_x、V_y、V_z码字上出现的频率，分别形成X、Y、Z三方向直方图分布。

5.根据权利要求2所述的融合梯度和光流特征的视频动作行为识别方法，其特征是：光流特征提取步骤如下：

步骤(1)：

对视频进行降噪处理后，检测时空兴趣点，以时空兴趣点为中心提取视频块，计算各视频块的光流信息u和v，并将所有视频块的光流信息按两个速度分量分别聚合作为视觉词汇M_u和M_v来描述行为；

步骤(2)：

利用聚类算法对得到的两个速度分量的视觉词汇分别进行聚类，聚类后每个速度分量得到k个聚类中心，每个速度分量的码字就构成相应的码本k_u和k_v；

步骤(3)：

对得到的码本k_u和k_v，利用最小距离法计算该视频的每个速度分量的视觉词汇在相应的两个速度分量码本的码字上的直方图分布。