CN104408461B

CN104408461B - 一种基于滑动窗口局部匹配窗口的动作识别方法

Info

Publication number: CN104408461B
Application number: CN201410432364.7A
Authority: CN
Inventors: 陈胜勇; 王其超; 沃波海; 管秋; 王鑫; 汪晓妍; 王万良
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2014-11-05
Filing date: 2014-11-05
Publication date: 2018-03-16
Anticipated expiration: 2034-11-05
Also published as: CN104408461A

Abstract

一种基于滑动窗口局部匹配窗口的动作识别方法，包括如下步骤：1)从立体相机中获得场景中人的深度图序列，从深度图中提取出3D关节点的位置，用姿态之间的3D位移差作为每帧深度图的特征表达；2)用聚类方法对训练集中的描述子进行学习，得到特征集合，并用它对每个描述子进行特征表达，从而得到每帧图像的编码表示；3)采用基于滑动窗口的局部匹配模型，对整个动作图像序列进行动作片段划分，并得到每个动作片段的特征直方图表达；4)用一个长向量把所有片段的特征直方图表达串联起来，就是整个动作的特征表达。本发明有效识别相似的动作、识别率较高。

Description

一种基于滑动窗口局部匹配窗口的动作识别方法

技术领域

本发明涉及视频识别领域，尤其是一种动作识别方法。

背景技术

人体运动特征描述是对序列图像中人体姿态信息的表达，它是人体动作识别的重要组成部分。人体运动是链式非刚体的运动，即身体各部分的运动是刚体运动，而从整体来看，人体的运动又呈现高度的非线性、非刚体性。

人体动作识别主要分为基于时空的动作识别方法和基于序列的动作识别方法。首先在训练视频集中为每一个动作构造对应的三维X-Y-T模型，然后通过匹配待识别动作序列与训练集各动作的三维X-Y-T模型，确定该测试动作的种类。基于时空的动作识别方法主要包括以下三类：基于时空卷的识别方法、基于运动轨迹的识别方法、基于时空局部特征的识别方法。

现有的识别方法存在的缺陷：无法识别相似的动作，识别率较低。

发明内容

为了克服动作识别方法的无法识别相似的动作，识别率较低的不足，本发明提供一种有效识别相似的动作、识别率较高的基于滑动窗口局部匹配窗口的动作识别方法。

本发明解决其技术问题所采用的技术方案是：

一种基于滑动窗口局部匹配窗口的动作识别方法，包括如下步骤：

1)从立体相机中获得场景中人的深度图序列，从深度图中提取出3D关节点的位置，用姿态之间的3D位移差作为每帧深度图的特征表达；

2)用聚类方法对训练集中的描述子进行学习，得到特征集合，并用它对每个描述子进行特征表达，从而得到每帧图像的编码表示；

3)采用基于滑动窗口的局部匹配模型，对整个动作图像序列进行动作片段划分，并得到每个动作片段的特征直方图表达；

基于滑动窗口的局部匹配模型的特征匹配过程如下：假设训练集中学习得到的特征码本个数为M，每个动作序列经处理后包含n帧深度图像。同时假定滑动窗口的尺寸为w，每次移动步长为l，则表示整个动作的特征向量的维度为

4)用一个长向量把所有片段的特征直方图表达串联起来，就是整个动作的特征表达。

进一步，所述步骤2)中，采用局部训练，首先用K-means聚类方法单独对每一类动作的训练集训练得到特征集合，然后将从所有动作集中学习得到的特征集合组成能够表征整个训练集的动作特征集合，最后将每类动作映射到训练得到的动作特征集合，得到每一类动作模型的特征直方图分布图。

再进一步，所述步骤2)中，对每一个姿态描述子进行量化编码。令P为从动作序列中获得的姿态特征描述子，每个特征描述子的维度为D，总共有N个特征，则令训练得到的码本有M个码字，即

编码方式如下：

其中，C＝[c₁,c₂,...c_m]表示对应特征码字集F的权值，*表示元素间相乘，d_i是局部适配因子，选取d_i为非线性的表达式，同时引入了最近相似距离distMin作为参考；

其中，dist(p_i,F)＝[dist(p_i,f₁),dist(p_i,f₂),…,dist(p_i,f_M)]，dist(p_i,f_j)表示p_i和f_j之间的欧拉距离，σ为用于调节权重的系数；

distMin＝min{dist(p_i,f₁),dist(p_i,f₂),…,dist(p_i,f_M)}。

更进一步，所述步骤4)中，假设训练集中的动作序列X分成了p个片段,对应的动作片段特征表达为H₀(X),H₁(X)…,H_p-1(X)，则整个动作X的特征表达为：H(X)＝[H₀(X),H₁(X)…,H_p-1(X)]。

当有新的动作序列Y等待分类时，首先进行特征提取，用特征重构方法得到特征词汇表达；然后动作片段划分，用基于滑动窗口的局部匹配模型得到对应片段的特征表达，H₀(Y),H₁(Y)…,H_p-1(Y)；最后依次连接局部特征表达，整个动作Y的特征表达为H(X)＝[H₀(Y),H₁(Y)…,H_p-1(Y)]；在分类过程中，通过直方图相交操作进行测试序列与训练集各类动作的相似度衡量：

从而确定动作序列Y的分类。

本发明的有益效果主要表现在：传统的词袋模型实现简单直观，能够识别差异性较大的动作。但由于没有考虑到时空约束，无法识别出相似动作。本文提出了基于滑动窗口的局部匹配窗口的动作识别方法，对传统的词袋模型进行了多方面的改进，增加了时间约束性，提高了动作识别率。在训练过程中，本文用局部训练法取代了传统的整体训练法，提高了特征词汇的表征性。在特征量化阶段，本文用局部线性重构取代了传统的直接量化。在对象特征表达阶段，本文用多个不同动作片段的特征表达取代了传统的整体表达。

附图说明

图1是基于滑动窗口的动作序列特征表达的示意图。

图2是在固定步长下，不同的窗口尺寸对识别性能的影响的示意图。

图3是在固定窗口尺寸下，不同的步长l对算法性能的影响的示意图。

图4是不同参数组合(w,l)下的识别率情况的示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种基于滑动窗口局部匹配窗口的动作识别方法，包括如下步骤：

本实施例中，采用局部训练，首先用K-means聚类方法单独对每一类动作的训练集训练得到特征集合，然后将从所有动作集中学习得到的特征集合组成能够表征整个训练集的动作特征集合，最后将每类动作映射到训练得到的动作特征集合，得到每一类动作模型的特征直方图分布图。用局部训练法得到的拍手、胸前挥手、走路这三个动作的特征直方图分布图，从中可以发现，有80％以上的训练集动作姿态映射到该类动作训练得到的特征集合上，从而显著增加了动作模型之间的差异性。

特征码本得到后，本文将对每一个姿态描述子进行量化编码。令P为从动作序列中获得的姿态特征描述子，每个特征描述子的维度为D，总共有N个特征，则令训练得到的码本有M个码字，即

这里不同的重构策略将会产生不同的重构结果。

参考稀疏编码，设计了一种新的编码方式。

这里C＝[c₁,c₂,...c_m]表示对应特征码字集F的权值，*表示元素间相乘，d_i是局部适配因子，选取d_i为非线性的表达式，同时引入了最近相似距离distMin作为参考；

distMin＝min{dist(p_i,f₁),dist(p_i,f₂),…,dist(p_i,f_M)}。

由于高斯函数非线性的特性，当dist(p_i,F)与distMin非常接近时，d_i的值接近于dmax，当dist(pi,F)大于distMin的三倍时，d_i的值将趋近与0。这为自适应的选取p_i的局部邻域提供了解决方案。

在图像内容分类领域，Grauman等人^[66]对传统的词袋模型进行了改进，提出了金字塔匹配核。金字塔匹配核的核心思想是在不同分辨率下计算两个对象对应特征点的匹配情况。在任意固定分辨率下的对应窗口下，两个对象对应相同特征点的个数作为匹配特征点的个数。同时，规定在精细分辨率下得到的匹配对的权值大于在粗糙分辨率下得到的匹配对。

传统的词袋模型把整个对象看做一个整体，用特征映射的方式得到特征直方图，通过对比两个对象直方图的相似性来判别对象。这种匹配方式具有简单快速的优点，但是直方图得到的是特征集的统计信息，忽略了时间和空间上的约束。这会导致相似动作的误匹配。在进行动作识别过程中，将整个姿态作为一个特征词汇，增加了每帧图像空间上的约束。同时，将整个动作序列划分成多个片段，在片段内计算特征集合的直方图分布，从而增加了时间上的约束。

本实施例使用了基于时间窗口的局部匹配模型(locality windows matchingbased on sliding window,SW-LWM)的划分策略，滑动窗口技术较早用于网络中流量的控制，它也成功地应用于图像关键信息的定位。在实际操作中，它把图像定位的任务转化为局部检测，在相继的图像子区域中运用分类器进行定位。一般一幅n*n的图片会产生n的图像子区域，这会产生巨大的计算量。并非在每帧深度图内运用滑动窗口技术进行匹配，而是把整幅图像作为一个单元，在时间维度上运用滑动窗口技术。这样即避免增加大量的计算量，又增加了时间上的约束。

图1展示了基于滑动窗口的动作识别过程，左边为动作序列，右边为直方图。假设训练集中学习得到的特征码本个数为M，每个动作序列经处理后包含n帧深度图像。同时假定滑动窗口的尺寸为w，每次移动步长为l，则表示整个动作的特征向量的维度为

通过上文的局部匹配过程，可以得到不同匹配窗口下的特征表达。假设训练集中的动作序列X分成了p个片段,对应的动作片段特征表达为H₀(X),H₁(X)…,H_p-1(X)，则整个动作X的特征表达为：H(X)＝[H₀(X),H₁(X)…,H_p-1(X)]。

当有新的动作序列Y等待分类时，首先进行特征提取，用特征重构方法得到特征词汇表达；然后动作片段划分，用局部窗口匹配方法得到对应片段的特征表达，H₀(Y),H₁(Y)…,H_p-1(Y)；最后依次连接局部特征表达，整个动作Y的特征表达为H(X)＝[H₀(Y),H₁(Y)…,H_p-1(Y)]。

在分类过程中，通过直方图相交操作进行测试序列与训练集各类动作的相似度衡量：

从而确定动作序列Y的分类。

本实施例中，基于SW-LWM的实验结果：将数据库中的20个动作分成3个动作子集，每个子集包含8种不同的动作(见表1)。在测试1中，1/3的样本作为训练集，其余的作为测试集。在测试2中，2/3的样本作为训练集，其余的作为测试集。在测试3中，一半对象的动作样例作为训练集，另一半对象的动作样例作为测试集。

在局部重构过程的权值选取中，σ越大，权值曲线越平缓，对应的特征词汇重构权值越大；σ越小，权值曲线越瘦高，对应的特征词汇重构权值越小。经实验测试检验，当σ＝10.0最适合姿态的重构。

表1 MSR Action3D数据库中的三个动作子集库

动作集1(AS1)	动作集2(AS2)	动作集(AS3)
			胸前挥手	扬起手臂挥手	向上扔
敲打	摘	前踢
			挥拳	画叉	侧踢
向上扔	画勾	慢跑
			拍手	画圈	挥舞网球拍
弯腰	双手挥动	发球
			发球	前踢	挥动高尔夫球
捡起投掷	侧面击打	捡起投掷

图2展示了在固定步长下，不同的窗口尺寸对识别性能的影响。从图中可以看出，当窗口过小(如图2中的w＝4)和窗口过大(如图2中的w＝16)均会导致性能的下降。由于数据库中每个动作序列的帧数有限，当窗口尺寸过大时，时间约束性的降低将导致误匹配点对的增加；当窗口尺寸过小时，由于时间约束性过强，不同执行速率的同类动作将导致同一窗口下匹配点对数量的不足。经实验分析，令序列的长度为n，则窗口大小w的选取应满足：

图3展示了在固定窗口尺寸下，不同的步长l对算法性能的影响。从图中可以看出，当步长l过大(如图3中的l＝1)和步长l过小(如图3中的l＝7)时，均会降低算法的性能。步长的选择与窗口尺寸有密切关系，当步长变大时窗口之间的交叉区域将变小，同时考虑到动作执行速率的变化，这将导致在特定窗口下有效匹配点数的减少；当步长变小时窗口之间的交叉区域将变大，这既会增加特定窗口下误匹配点对的数量，也一定程度上增加了动作序列特征表达的维度。经实验分析，步长l的选取应满足如下的关系：

综合上述，步长和窗口尺寸的选择应满足以下条件：

在给定条件下，本实施例测试了不同步长、窗口组合对识别性能的影响。

图4展示了不同参数组合(w,l)下的识别率情况。

本实施例的方案，引入了动作片段划分过程，通过在局部窗口内进行匹配，增加了算法的时间约束性，提高了算法的识别性能。

Claims

1.一种基于滑动窗口局部匹配窗口的动作识别方法，其特征在于：包括如下步骤：

基于滑动窗口的局部匹配模型的特征匹配过程如下：假设训练集中学习得到的特征码本个数为M，每个动作序列经处理后包含n帧深度图像，同时假定滑动窗口的尺寸为w，每次移动步长为l，则表示整个动作的特征向量的维度为

4)用一个长向量把所有片段的特征直方图表达串联起来，就是整个动作的特征表达；

所述步骤2)中，采用局部训练，首先用K-means聚类方法单独对每一类动作的训练集训练得到特征集合，然后将从所有动作集中学习得到的特征集合组成能够表征整个训练集的动作特征集合，最后将每类动作映射到训练得到的动作特征集合，得到每一类动作模型的特征直方图分布图；

所述步骤2)中，对每一个姿态描述子进行量化编码，令P为从动作序列中获得的姿态特征描述子，每个特征描述子的维度为D，总共有N个特征，则令训练得到的码本有M个码字，即

编码方式如下：

<mrow> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <mrow> <mrow> <mo>(</mo> <mrow> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>F</mi> </mrow> <mo>)</mo> </mrow> <mo>-</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>M</mi> <mi>i</mi> <mi>n</mi> </mrow> <mo>)</mo> </mrow> <mo>/</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>M</mi> <mi>i</mi> <mi>n</mi> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mn>2</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

distMin＝min{dist(p_i,f₁),dist(p_i,f₂),…,dist(p_i,f_M)}；

所述步骤4)中，假设训练集中的动作序列X分成了p个片段,对应的动作片段特征表达为H₀(X),H₁(X)…,H_p-1(X)，则整个动作X的特征表达为：H(X)＝[H₀(X),H₁(X)…,H_p-1(X)]；当有新的动作序列Y等待分类时，首先进行特征提取，用特征重构方法得到特征词汇表达；然后动作片段划分，用基于滑动窗口的局部匹配模型得到对应片段的特征表达，H₀(Y),H₁(Y)…,H_p-1(Y)；最后依次连接局部特征表达，整个动作Y的特征表达为H(X)＝[H₀(Y),H₁(Y)…,H_p-1(Y)]；在分类过程中，通过直方图相交操作进行测试序列与训练集各类动作的相似度衡量：

<mrow> <mi>&Gamma;</mi> <mrow> <mo>(</mo> <mi>H</mi> <mo>(</mo> <mi>X</mi> <mo>)</mo> <mo>,</mo> <mi>H</mi> <mo>(</mo> <mi>Y</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>H</mi> <msub> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mi>j</mi> </msub> <mo>,</mo> <mi>H</mi> <msub> <mrow> <mo>(</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

从而确定动作序列Y的分类；

所述步骤3)中，步长l和窗口尺寸w的选择应满足以下条件：