CN105469050A

CN105469050A - 基于局部时空特征描述与金字塔词汇树的视频行为识别方法

Info

Publication number: CN105469050A
Application number: CN201510822703.7A
Authority: CN
Inventors: 孙燕; 俞浩
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2015-11-24
Filing date: 2015-11-24
Publication date: 2016-04-06
Anticipated expiration: 2035-11-24
Also published as: CN105469050B

Abstract

本发明公开了一种基于局部时空特征描述与金字塔词汇树的视频行为识别方法。针对LBP-TOP算法忽略了邻点之间的关系从而丢失了邻域结构信息的问题，以及忽略了时空特征在时域和空域上变化所具有差异性的问题，提出了DT-LBPTOP算法：在时域和空域使用dLBP描述子对8邻域的方向信息进行描述，解决了邻域之间变化率以及变化方向的问题；在时域上使用TLBP描述子进行描述，反映纹理在时序上的变化特性。同时使用多重等规模子集视觉词汇森林划分多重子区域，用直方图对多重区域内的向量进行统计，然后构造PMK函数，最后使用金字塔匹配核快速计算高维无序特征间的相似度，建立了一种新型分类模型。

Description

基于局部时空特征描述与金字塔词汇树的视频行为识别方法

技术领域

本发明涉及一种基于局部时空特征描述和金字塔词汇树的视频行为识别方法。

背景技术

随着计算机视觉领域的研究不断深入、信号和图像处理技术的不断更新和发展，行为识别日益成为一项具有挑战性的研究内容。行为识别是机器视觉的一项基础工作，也是许多视频挖掘应用的关键技术。基于视频的人体行为识别课题的主要研究内容是对采集到的视频中的运动人体进行行为检测，并对行为作特征提取和描述，构造有效的人体行为识别模型来自动分析视频数据，理解视频中运动人体的行为内容，以正确识别视频中的人体行为类别，并不断提高行为识别精度。

综观国内外人体行为识别领域的相关研究，人体行为识别出现了两大研究方向：基于全局特征的人体行为识别和基于局部特征的人体行为识别。

基于全局特征的人体行为识别将整个运动人体作为检测和识别的对象。首先，采用背景差法、轨迹追踪或其他方法定位视频中的运动人体，提取包含运动人体在内的兴趣区域。然后，计算兴趣区域中运动人体的轮廓、姿态、轨迹等信息，生成人体行为的全局特征。最后，利用得到的人体行为全局特征进行训练和建模，实现对视频中运动人体行为的分类与识别。基于全局特征的人体行为识别得到的行为特征包含了丰富的信息，有很强的行为识别能力。

基于局部特征的人体行为识别将运动人体看作由若干个身体支部构成的集合，对运动人体身上发生显著变化的局部区域(如手肘、膝盖、腿、脚等)进行检测和识别。首先，定位视频数据中在空间维度和时间维度上都发生明显变化的关键像素点。然后，提取这些关键像素点附近的视频信息，计算得到人体行为的局部特征。最后，对获得的人体行为局部特征进行学习、训练，构造分类模型，实现人体行为的分类与识别。

尽管视频中的人体行为识别课题已经成为机器视觉研究领域的一大热点，众多国内外学者对人体行为识别已展开了多方面的深入研究，各种行之有效的人体行为识别模型及其改进也被不断提出，但是，面临各种真实环境的复杂性、现实场景的多样性以及运动人体的差异性，识别视频中的人体行为仍极具挑战。例如，复杂背景中的人体行为识别、多人交互情况下的人体行为识别、多种动作连续发生的人体行为识别等复杂条件下的人体行为识别的正确率都有待进一步提高。这种多样化的、更为复杂的人体行为识别场景正是将来人体行为识别应用领域的发展趋势，具有长远的、典型的现实意义。

利用传统LBP(LocalBinaryPatterns)算法对视频纹理进行描述的方法只考虑了邻点与阈值之间的关系并没有考虑邻点和邻点之间的关系。LBP在被扩展到三维后即LBP-TOP算法同样继承了它的缺点，而且由于三维时空特性，LBP-TOP算法对时域和空域进行相同编码忽略了时域和空域特征的差异性。而传统词袋模型忽略了视觉单词的时序特性，也忽略了视觉单词之间的关系。

发明内容

针对LBP-TOP算法忽略了邻点之间的关系而丢失了邻域结构信息的问题，以及忽略了时空特征在时域和空域上变化所具有差异性的问题，本发明提出了一种基于局部时空特征描述与金字塔词汇树的视频行为识别方法，该方法对时空兴趣点所形成的时空立方体切片的时域和空域采取不同的时空纹理描述策略。

为了实现上述目的，本发明采用的技术方案如下：

基于局部时空特征描述与金字塔词汇树的视频行为识别方法，包括以下步骤：

步骤1特征的提取：

步骤1.1首先将视频数据集转换成大小为图像高度*图像宽度*视频帧数的矩阵数据；

步骤1.2设置局部时空立方体特征提取方法的相关参数：空间尺度σ、时间尺度τ、响应阈值R-thresh以及时空兴趣点个数；

步骤1.3通过计算视频数据中的每一个像素点响应值R，如果计算得到的像素点的响应值R>R-thresh，则提取并保存该像素点的(x，y，t)坐标及响应值R；

步骤1.4将提取出来的像素点根据其响应值R的大小进行降序排列，选取前n个像素点作为时空兴趣点；

步骤1.5在找到响应值比较高的兴趣点后，就以兴趣点为中心生成时空子区域，用时空子区域中的信息对行为特征进行描述；

步骤2特征的描述：

步骤2.1首先使用Avg-LBP算法将邻域的均值代替中心点像素灰度值作为阈值中心实现对时空纹理的描述，Avg-LBP算法的计算公式为：

A v g - L B P {(x_{c}, y_{c})}_{P, R} = Σ_{p = 0}^{P - 1} s (g_{p} - \frac{1}{P} Σ_{i = 0}^{P - 1} g_{i}) * 2^{p}

其中，

s (x) = \{\begin{matrix} 1 & , x &GreaterEqual; 0 \\ 0 & , x < 0 \end{matrix}

P为邻域像素数，g_p为邻域中的P邻点的灰度值，为P个邻点的像素均值；

步骤2.2在时域和空域使用dLBP描述子对8邻域的方向信息进行描述，描述了邻域之间的变化率和变化方向，计算公式为：

\begin{matrix} d L B P {(x_{c}, y_{c})}_{P, R} = Σ_{p^{'} = 0}^{P^{'} - 1} (s ((g_{p^{'}} - g_{c}) * (g_{p^{'} + P^{'}} - g_{c})) * 2^{2 p^{'}} \\ + s (| g_{p^{'}} - g_{c} | - | g_{p^{'} + P^{'}} - g_{c} |) * 2^{2 p^{'} + 1}) \end{matrix}

其中，P’＝P/2，g_c为邻域中心像素点的灰度值，g_p’和g_p是沿中心点方向上中心点两侧P^’邻点和P邻点的灰度值；

步骤2.3利用TLBP描述子描述邻域像素之间的关系，其在每一行中比较了行中像素的关系，按行顺序的将像素灰度值进行比较并进行模式统计，计算公式为：

{tLBP}_{P, R} = s (g_{0} - g_{p - 1}) + Σ_{p}^{p - 1} s (g_{p} - g_{p - 1}) 2^{p};

步骤3构造模型，进行识别：

步骤3.1基于等多视觉词汇森林的金字塔匹配核构造算法先将人体行为表示成SMVVF的直方图向量：令X为某段视频的时空兴趣点集合，为第m个VVF第l层的直方图向量，假设用表示第m个视觉词汇森林直方图向量，ω_l＝2^l-L+是第l层的权重，则多重视觉词汇森林直方图向量H_X＝(¹H_X,²H_X,...,^MH_X)，M为多重视觉词汇森林中词汇森林的个数；

步骤3.2然后将直方图向量转换为PMK核特征；

步骤3.3将PMK核特征用于SVM分类，实现对视频行为的识别。

所述步骤1.4中时空兴趣点的提取方法是通过线性可分的滤波器对视频序列进行处理来实现：空域上使用二维Gaussian滤波对图像进行加权平滑处理，目的是为了降噪；在时域上，使用一维Gabor滤波器捕捉像素在时序上的纹理变化；通过一个响应函数来判断每一个像素的响应值，响应值高的就可以作为兴趣点，响应函数如下：

R＝(I*g*h_ev)²+(I*g*h_od)²

公式中I为视频图像，g＝g(x，y，σ)为空间维度的2维平滑高斯核函数，h_gv和h_od为时域中正交的一维Gabor滤波器，分别定义为：

h_{e v} (t; τ, ω) = - c o s (2 π t ω) e^{- t^{2} / τ^{2}}

h_{o d} (t; τ, ω) = - s i n (2 π t ω) e^{- t^{2} / τ^{2}}

而参数σ和τ，对应为高斯滤波的空间尺度和Gabor滤波的时间尺度。

所述步骤2的具体过程为：在时空立方体上，以时空兴趣点为中心在xy、xt、yt三个正交平面上等距离取三个切片图像，对每一幅切片图像使用Avg-LBP算法进行描述，将描述结果进行串联，形成Avg-LBP联合直方图，对立方体每一幅切片图像使用dLBP算法进行描述，将切描述结果进行串联，形成dLBP联合直方图；接着对立方体中的xt和yt切片图像使用TLBP算法进行描述并进行串联，形成TLBP联合直方图；最后将切片图像的Avg-LBP直方图、dLBP直方图和TLBP直方图进行串联，得到联合直方图形成DT-LBPTOP特征。

本发明与现有技术相比，其显著优点为：(1)特征描述方法采用DT-LBPTOP算法，解决了邻域之间变化率以及变化方向的问题。(2)另对时域采取针对性的时空纹理描述策略，对时域邻域像素使用TLBP(LocalBinaryPattern)描述子进行描述，反映纹理在时序上的变化特性。(3)分类模型提出使用多重等规模子集视觉词汇森林,用金字塔匹配核快速计算高维无序特征间的的相似度，建立了一种新型分类模型。

附图说明

图1为人体行为识别模型的一般性框架；

图2为本发明DT-LBPTOP算法向量组成示意图；

图3为dLBP编码的四个基本方向；

图4为dLBP的编码规则；

图5为TLBP算法描述示意图。

具体实施方式

本实施例以公开的人体运动视频数据集KTH数据集进行行为识别。

首先对数据集进行特征提取，包括以下步骤：

将行为个数设置为对应的六种行为(walk)，慢跑(jog)，跑(run)，挥手(handwave)和鼓掌(handclap)，每个视频提取的兴趣点数设置为200。将立方体局部时空特征提取方法的相关参数设置为：空间尺度σ＝2.4、时间尺度τ＝1.6、响应阈值R-thresh＝2e^-4。设置立方体LBP描述子参数iscuboid＝1，P＝1，R＝8，ExtFLAG＝1，GradFLAG＝1。

通过转换程序将原视频数据转换成大小为图像高度*图像宽度*视频帧数的矩阵数据。

通过特征提取程序计算视频数据中的每一个像素点响应值R，如果计算得到的像素点的响应值R>R-thresh，就提取并保存该像素点的(x，y，t)坐标及响应值R。

将提取出来的像素点根据其响应值R的大小进行降序排列，选取前ncuboids个像素点作为时空兴趣点。

在找到响应值比较高的兴趣点后，就以兴趣点为中心生成时空子区域。

特征提取之后对特征进行特征描述，包括以下步骤：

在时空立方体以后，以时空兴趣点为中心在xy、xt、yt三个正交平面上等距离取三个切片图像，对每一幅切片图像使用Avg-LBP算法进行描述，将描述结果进行串联，形成Avg-LBP联合直方图，对立方体每一幅切片图像使用dLBP算法进行描述，将切描述结果进行串联，形成dLBP联合直方图；接着对立方体中的xt和yt切片图像使用TLBP算法进行描述并进行串联，形成TLBP联合直方图；最后将切片图像的Avg-LBP直方图、dLBP直方图和TLBP直方图进行串联，得到联合直方图形成DT-LBPTOP特征。

LBP(LocalBinaryPatterns)纹理特征算法具有旋转不变性和灰度不变性。其最初的定义为：在3×3的窗口中，把窗口的中心像素灰度值作为阈值，将其邻域的8个相邻像素点的灰度值与其进行比较，如果邻点像素灰度值大于中心像素灰度值，则标记该像素点为1，否则为0。这样，将3*3邻域的标记结果串联起来就得到了一个8比特的无符号数，即得到了该窗口的LBP值，将该无符号数转换为十进制数就得到了该中心像素点的LBP模式值。LBP算法扩展到三维空间并将其称之为LBP-TOP(LBPthreeorthogonalplanes)，原理是在时空立方体中以兴趣点为中心，取XY、XT、YT三个正交平面面作为视频切片分别计算LBP编码，从而得到三个切片的描述直方图，然后将三个直方图进行串联，就得到了一个3*2P维的特征向量。LBP-TOP描述算法不仅统计了XY平面的空间信息也统计了XT平面和YT平面和的时域信息。

然而由于LBP-TOP算法是由LBP算法扩展得到，所以LBP-TOP算法也有着LBP算法的缺点，即忽略了邻域像素之间的关系，并且LBP-TOP算法虽然同时统计了XY平面、XT平面和YT平面的信息，但是其对三个平面都是使用LBP编码方式对三个平面进行编码，忽略了时域与空域变化的差异性。

针对LBP-TOP算法在提取纹理过程中容易受到噪声干扰的问题，使用Avg-LBP算法将邻域的均值代替中心点像素灰度值作为阈值中心实现对时空纹理的描述。

Avg-LBP的计算公式为：

A v g - L B P {(x_{c}, y_{c})}_{P, R} = Σ_{p = 0}^{P - 1} s (g_{p} - \frac{1}{P} Σ_{i = 0}^{P - 1} g_{i}) * 2^{p} - - - (1)

s (x) = \{\begin{matrix} 1 & , x &GreaterEqual; 0 \\ 0 & , x < 0 \end{matrix}

其中，P为邻域像素数，g_p为邻域中的P邻点的灰度值，为P个邻点的像素均值。

然后针对LBPTOP描述方法忽略了邻点之间的方向信息而丢失了邻域结构信息的问题。在时域和空域使用dLBP(DirectioncodedLocalBinaryPattern)描述子对8邻域的方向信息进行描述，描述了邻域之间的变化率和变化方向。

计算公式为：

\begin{matrix} d L B P {(x_{c}, y_{c})}_{P, R} = Σ_{p^{'} = 0}^{P^{'} - 1} (s ((g_{p^{'}} - g_{c}) * (g_{p^{'} + P^{'}} - g_{c})) * 2^{2 p^{'}} \\ + s (| g_{p^{'}} - g_{c} | - | g_{p^{'} + P^{'}} - g_{c} |) * 2^{2 p^{'} + 1}) \end{matrix} - - - (2)

s (x) = \{\begin{matrix} 1, & x &GreaterEqual; 0 \\ 0, & x < 0 \end{matrix}

其中，P为邻域像素数，P’＝P/2，g_c为邻域中心像素点的灰度值，g_p’和g_p是一个基本方向上中心点两侧邻点的灰度值；

时空特征在时域和空域上变化是具有差异性的，时空立方体中xt平面、yt平面在t轴上的信息能够有效的反应时序信息，而xt平面的x轴上的信息、yt平面上的y轴信息并没有反应时序信息。针对LBPTOP描述方法中忽略时域和空域上变化具有差异性的问题，提出一种新的针对时域特点的描述方法TLBP(TimedomainLocalBinaryPattern)，能够有效的描述时域中帧与帧之间的像素纹理关系，反映纹理在时序上的变化特性。

TLBP描述子描述了邻域像素之间的关系，其在每一行中比较了行中像素的关系，按行顺序的将像素灰度值进行比较并进行模式统计

一个P＝8，R＝1的TLBP的计算公式为：

\begin{matrix} {TLBP}_{P = 8, R = 1} = Σ_{P = 1}^{2} s (g_{p} - g_{p - 1}) 2^{p - 1} + s (g_{2} - g_{0}) 2^{2} + \\ s (g_{c} - g_{7}) 2^{3} + s (g_{3} - g_{c}) 2^{4} + s (g_{5} - g_{6}) 2^{5} + \\ s (g_{4} - g_{5}) 2^{6} + s (g_{4} - g_{6}) 2^{7} \end{matrix} - - - (3)

s (x) = \{\begin{matrix} 1 & , x &GreaterEqual; 0 \\ 0 & , x < 0 \end{matrix}

用视觉词汇森林生成的子区域对视觉词典是十分敏感的，如果构造的视觉词典能够有效表现不同的行为，那么加入子区域信息会提高这种表达能力，反之则会使行为的分类变得更加混淆。为了降低词汇森林对子区域的敏感，也为了丰富特征的描述，提出构造多重等规模子集视觉词汇森林的方法来描述人体行为，每个视觉词汇森林都由时空兴趣点集中定义的子集生成。不同时空兴趣点子集规模差异很大，随着层数的增加，会造成某些VVF的结构残缺，不利于行为特征表达。通过多重等规模子集视觉词汇森林划分多重子区域，用直方图对多重区域内的向量进行统计，然后构造PMK函数。最后使用金字塔匹配核(PyramidMatchKernels,简称PMK)快速计算高维无序特征间的的相似度，PMK函数的值越大，说明无序样本的区分度越大。建立多重等规模视觉词汇森林模型，

包括以下步骤：

假设P为训练集视频的时空兴趣点集合，P_m为P的子集，子集占超集的比例为p，VVF_m为第m个视觉词汇森林由P_m生成，设置词汇森林树为STIP_K＝10，层数L＝3，单词数＝1400，采用10轮25折叠交叉检验法。基于等多视觉词汇森林的金字塔匹配核构造算法先将人体行为表示成SMVVF的直方图向量。

多重视觉词汇森林直方图向量为：令X为KTH视频数据集的时空兴趣点集合，为第m个VVF第l层的直方图向量，假设用

{H_{m}}_{X} = (ω_{0} \times H_{X}^{0}_{m}, ω_{1} \times H_{X}^{1}_{m}, ..., ω_{L - 1} \times H_{X}^{L - 1}_{m})

表示第m个视觉词汇森林直方图向量，ω_l＝2^l-L+是第l层的权重，则多重视觉词汇森林直方图向量H_X＝(¹H_X,²H_X,...,^MH_X)，M为多重视觉词汇森林中词汇森林的个数。

假设P为训练集视频的时空兴趣点集合，P_m为P的子集，子集占超集的比例为p，VVF_m由P_m生成，则基于SMVVF的直方图向量H_X可按如下算法进行生成：

SMVVF的直方图向量生成算法

可以通过算法生成10个视觉词汇森林。

然后将直方图向量转换为PMK核特征；

基于SMVVF-PMK的人体行为识别模型在用SVM分类器进行行为模式生成和行为决策分类之前，需要将训练集和测试集的SMVVF直方图向量转换分别转换为训练集和测试集的PMK核特征。

PMK核特征定义为：令X表示某段视频的时空兴趣点集合，P(i)表示第i段训练视频(1≤i≤train_num)的时空兴趣点集合，train_num表示训练集视频的个数，则定义向量(K(X,P(1)),K(X,P(2)),...,K(X,P(train_num)))为X的PMK核特征。

令Q(i)表示第i段测试视频(1≤i≤test_num)的时空兴趣点集合，test_num为测试集视频的个数，PMKtrain_i为第i段(1≤i≤test_num)训练集视频的PMK核特征，PMKtest_i(1≤i≤test_num)，为第i段测试集视频的PMK核特征，则训练集和测试集的PMK核特征可按如下算法进行生成：

PMK核特征生成算法

通过PMK核特征生成算法可以将SMVVF直方图向量转换为PMK核特征。

最后将PMK核特征用于SVM分类，实现对视频行为的识别。

Claims

1.基于局部时空特征描述与金字塔词汇树的视频行为识别方法，其特征在于：该行为识别方法包括以下步骤：

步骤1特征的提取：

步骤2特征的描述：

A v g - L B P {(x_{c}, y_{c})}_{P, R} = Σ_{p = 0}^{P - 1} s (g_{p} - \frac{1}{P} Σ_{i = 0}^{P - 1} g_{i}) * 2^{p}

其中，

s (x) = \{\begin{matrix} 1, & x &GreaterEqual; 0 \\ 0, & x < 0 \end{matrix}

\begin{matrix} d L B P {(x_{c}, y_{c})}_{P, R} = Σ_{p^{'} = 0}^{P^{'} - 1} (s ((g_{p^{'}} - g_{c}) * (g_{p^{'} + P^{'}} - g_{c})) * 2^{2 p^{'}} \\ + s (| g_{p^{'}} - g_{c} | - | g_{p^{'} + P^{'}} - g_{c} |) * 2^{2 p^{'} + 1}) \end{matrix}

其中，P’＝P/2，g_c为邻域中心像素点的灰度值，g_p’和g_p是沿中心点方向上中心点两侧P’邻点和P邻点的灰度值；

{tLBP}_{P, R} = s (g_{0} - g_{p - 1}) + Σ_{p}^{p - 1} s (g_{p} - g_{p - 1}) 2^{p};

步骤3构造模型，进行识别：

步骤3.2将直方图向量转换为PMK核特征；

步骤3.3将PMK核特征用于SVM分类，实现对视频行为的识别。

2.根据权利要求1所述的基于局部时空特征描述与金字塔词汇树的视频行为识别方法，其特征在于，所述步骤1.4中时空兴趣点的提取方法是通过线性可分的滤波器对视频序列进行处理来实现：空域上使用二维Gaussian滤波对图像进行加权平滑处理，目的是为了降噪；在时域上，使用一维Gabor滤波器捕捉像素在时序上的纹理变化；通过一个响应函数来判断每一个像素的响应值，响应值高的就可以作为兴趣点，响应函数如下：

R＝(I*g*h_ev)²+(I*g*h_od)²

h_{e v} (t; τ, ω) = - c o s (2 π t ω) e^{- t^{2} / τ^{2}}

h_{o d} (t; τ, ω) = - s i n (2 π t ω) e^{- t^{2} / τ^{2}}

3.根据权利要求1所述的基于局部时空特征描述与金字塔词汇树的视频行为识别方法，其特征在于，所述步骤2的具体过程为：在时空兴趣点形成时空立方体之后，以时空兴趣点为中心在xy、xt、yt三个正交平面上等距离取三个切片图像，对每一幅切片图像使用Avg-LBP算法进行描述，将描述结果进行串联，形成Avg-LBP联合直方图，对立方体每一幅切片图像使用dLBP算法进行描述，将切描述结果进行串联，形成dLBP联合直方图；接着对立方体中的xt和yt切片图像使用TLBP算法进行描述并进行串联，形成TLBP联合直方图；最后将切片图像的Avg-LBP直方图、dLBP直方图和TLBP直方图进行串联，得到联合直方图形成DT-LBPTOP特征。