CN104268586B

CN104268586B - 一种多视角动作识别方法

Info

Publication number: CN104268586B
Application number: CN201410553477.2A
Authority: CN
Inventors: 马华东; 傅慧源; 张征
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2014-10-17
Filing date: 2014-10-17
Publication date: 2018-02-06
Anticipated expiration: 2034-10-17
Also published as: CN104268586A

Abstract

本发明公开了一种多视角动作识别方法，包括动作训练和动作识别两个过程。动作训练时，通过二维条件随机场的方法训练分类器；动作识别过程包括如下步骤：提取时空兴趣点；计算特征描述子；特征描述子降维；特征描述子聚类，获得预处理文件；将预处理文件送入训练过程中得到的分类器。本发明充分利用了时空兴趣点之间的时空关系，有效地描述了不同动作之间的特征；采用K‑means聚类将不同动作聚集到不同的类别，增加了动作识别的区分度；通过引入二维条件随机场，对单个摄像头下的时间动作序列及多个摄像头之间的空间动作序列进行有效的建模，使得训练模型更加准确，从而实现了对人体动作的有效识别。

Description

一种多视角动作识别方法

技术领域

本发明属于计算机视觉技术领域，特别涉及一种多视角动作识别方法。

背景技术

使用摄像机和计算机代替人眼“看”，也就是计算机视觉技术，开始得到了越来越多的关注。该技术通过摄像机摄像以及使用计算机内的预设算法进行运算，可以对图像、视频识别，并做进一步的处理，该种技术试图建立一种从图像或者视频中获取信息并处理的人工智能系统。

而且，随着视频监控技术的日益成熟和监控设备的普及，摄像机等监控设备的成本的日益降低，视频信息的获得变得更加的容易和方便，同时视频信息的质量也越来越高。基于此，人体动作识别得到越来越多的关注。特别对于火车站、机场、地铁、银行、监狱等一些对安全要求较高的公共场所，一旦有危险可疑行为发生时，若计算机能够准确地识别并发出警报，对于安保甚至反恐工作有着重要的意义。

人体动作识别往往既需要提取特征来合理的描述人体动作，又需要设计分类器来准确的区分不同的动作。

目前，动作描述方法大致分为三类：基于全局特征的方法、基于局部特征的方法以及多特征融合的方法。基于全局特征的方法，如光流、运动能量图、运动历史图、方向梯度直方图、时空体等；基于局部特征的方法，如时空兴趣点、Harris兴趣点、三维尺度不变特征转换等。

动作识别方法大致分为模板匹配、生成模型、判别模型三类。

模板匹配就是通过计算待识别模板与已知模板的相似度，把相似度最大的已知模板所对应的类别作为识别结果。生成模型基于一个联合概率函数建立观察值与类别间的关系，通过训练得到每个类别的模型参数，然后分别计算待识别动作与每个模型的匹配程度，将最匹配的类别作为识别结果。生成模型主要包括隐马尔科夫模型、潜在狄利克雷分配模型、概率潜在语义分析模型等。判别模型主要包括支持向量机、条件随机场等。

模板匹配的优点是算法简单易实现，时间开销少，对相差比较大的行为识别效果较好，但对细微差别的行为识别效果较差，对运动持续时间的变化及噪声比较敏感。

生成模型中，隐马尔科夫模型被广泛使用。隐马尔科夫模型基于两个假设：输出独立性假设和马尔科夫性假设。由于其输出独立性假设要求观察值序列严格相互独立才能保证推导的正确性，导致其不能考虑上下文的特征，即不能适应存在依赖关系的观察值序列。而且传统隐马尔科夫模型的链状结构能够为简单的动作，如走、跑等，进行较好的建模，但对于较为复杂的运动，如交互行为、场景事件等，不能得到很好的结果，所以也无法实现多视角的人体动作识别。

判别模型中，条件随机场被广泛使用。条件随机场对整个观察值序列进行建模，它使用了一种概率图模型，具有表达长距离依赖性和交叠性特征的能力，并不在每一个节点进行归一化，而是所有特征进行全局归一化，因此可以求得全局的最优值。然而，对于多视角的人体动作存在两种观察值序列，一种是单个摄像头下的时间动作序列，另一种是多个摄像头之间的空间动作序列，显然，一维的线性条件随机场已不能表达多视角的人体动作。

综上所述，模型匹配对细微差别的行为识别效果差、对运动持续时间的变化及噪声比较敏感，生成模型不能适应存在依赖关系的观察值序列且对于较复杂的运动不能得到很好的效果，判别模型只能使用一维的线性条件随机场，由于上述方法都存在较大的缺陷，所以提供一种对细微差别的行为识别效果强、对运动持续时间的变化及噪声不敏感、适应存在依赖关系的观察值序列、对复杂动作识别能力强且能表达多视角的人体动作的方法成为了本领域技术人员一直追求的目标。

发明内容

由于现有技术存在对细微差别的行为识别效果差、对运动持续时间的变化及噪声比较敏感、适应存在依赖关系的观察值序列、对于较复杂的运动不能得到很好的效果、只能使用一维的线性条件随机场的问题，本发明提出了一种多视角动作识别方法。

为实现上述技术目的，本发明具体提供了如下的技术方案：

一种多视角动作识别方法，该方法包括如下步骤：(1)动作训练过程，通过二维条件随机场的方法训练并获得分类器；(2)动作识别过程，利用步骤(1)获得的分类器识别动作；

动作识别过程包括如下步骤：

S1：对待识别视频文件提取时空兴趣点；

S2：计算时空兴趣点所在区域的特征描述子；

S3：对S2中所有的特征描述子降维；

S4：将S3中降维后的特征描述子聚类，获得预处理文件；

S5：将S4所得预处理文件送入训练过程中得到的分类器。

通过使用二维条件随机场的方法训练分类器，实现了在时间序列和空间序列的有效的二维建模，使得训练模型的准确度更高，为后续的多视角的人体动作的识别提供了基础，能够有效地识别人体动作。

进一步地，动作训练过程包括如下步骤：

X1：对训练视频文件进行人工标注；

X2：对训练视频文件提取时空兴趣点；

X3：计算时空兴趣点所在区域的特征描述子；

X4：对步骤X3中的特征描述子构成的集合抽样，得到子集；

X5：对步骤X4得到的子集中所有的特征描述子降维；

X6：对步骤X5中降维后的特征描述子进行聚类,获得训练文件；

X7：通过二维条件随机场的方法，使用步骤X6所得的训练文件训练分类器。

进一步地，时空兴趣点的提取方法为高斯滤波和Gabor滤波。

通过在二维图像平面进行高斯滤波和在时间轴上一维Gabor滤波，可以检测得到稠密的时空兴趣点。

进一步地，特征描述子包括方向梯度直方图、光流直方图。采用多种特征描述子，增强特征描述的准确性和全面性，为动作识别的有效性做好铺垫。

进一步地，采用主成分分析的方法进行降维。主成分分析能够消除特征描述子之间的相关影响，减少降维时特征描述子选择的工作量，且这种方法便于在计算机上实现，可操作性强。

进一步地，对特征描述子进行聚类的方法为K-mesns。对于大数据集时，这种算法是相对可非常高效的。

进一步地，对步骤X3中的特征描述子构成的集合进行抽样的方法是随机抽样。通过概率的方式客观地选取抽样，保证了每个特征描述子被选取的概率相同，保证得到合适的子集。

本发明的有益效果为：本发明充分利用了时空兴趣点之间的时空关系，有效地描述了不同动作之间的特征；采用K-means聚类将不同动作聚集到不同的类别，增加了动作识别的区分度；通过引入二维条件随机场，对单个摄像头下的时间动作序列及多个摄像头之间的空间动作序列进行有效的建模，使得训练模型更加准确，从而实现了对人体动作的有效识别。

附图说明

图1为动作训练过程流程图。

图2为动作识别过程流程图。

图3为二维条件随机场的状态序列图。

具体实施方式

下面结合附图对本发明的结构进行详细解释说明。

一种多视角动作识别方法，包括动作训练和动作识别两个过程。

如图1所示，动作训练过程包括如下步骤：

X1：对训练视频文件进行人工标注，共计4个视角，10类动作；

X2：对训练视频文件提取时空兴趣点，本发明采用的是高斯滤波及Gabor滤波等方法；

X3：计算时空兴趣点所在区域的特征描述子，本发明的特征描述子包括方向梯度直方图、光流直方图；

X4：对步骤X3中的特征描述子构成的集合通过随机抽样的方式，得到子集；

X5：对步骤X4得到的子集中所有的特征描述子通过主成分分析的方式降维；

X6：对步骤X5中降维后的特征描述子通过K-means进行聚类,获得训练文件；

如图2所示，动作识别过程包括如下步骤：

S1：对待识别视频文件提取时空兴趣点，本发明采用的是高斯滤波及Gabor滤波等方法；

S2：计算时空兴趣点所在区域的特征描述子，本发明的特征描述子包括方向梯度直方图、光流直方图；

S3：对S2中所有的特征描述子通过主成分分析的方式降维；

S4：将S3中降维后的特征描述子通过K-means进行聚类，获得预处理文件；

S5：将S4所得预处理文件送入训练过程中得到的分类器，实现多视角动作的识别。

需要说明的是，时空兴趣点是典型的局部时空特征，分布在滤波器响应局部较大的区域，反映了该区域的图像灰度值变化比较显著，具有很好的特征描述和类别区分能力，所以将响应函数的局部极大值定义为时空兴趣点。

本发明中采用的聚类方法是K-means，主要原理是以特征空间中k个特征点为中心进行聚类，将最靠近某一特征点的特征集合归为一类，并在不断添加特征点的过程中更新特征点中心的位置。具体的K-means算法步骤如下：算法之前先确定特征聚类的中心点的个数k：

J1、随机选择k个训练样本的特征值直接作为k个中心点；

J2、对每个新特征值计算离它最近的中心点，即确定其聚类中心点；

J3、添加进去之后，计算此类特征值的新的中心点，即更新中心点的值；满足收敛需求则停止，不满足则返回到J2。

训练过程中，对十类两人交互动作进行训练，包括握手、挥手、拥抱、鞠躬、拳击、推开、头击、掌掴、锁喉及单腿踢。每个动作由10组共14个演员表演三遍，每组由两个演员组成，所有动作都没有具体的规范，由演员自由完成。所有视频由四个角度不同的摄像机进行拍摄，视频的帧率为每秒25帧，大小为400*320。该数据集共包含1200段视频，每段视频长度约为150帧。

如图3所示，用二维条件随机场的状态序列图表示多视角人体动作的时间序列和空间序列，每行T代表单个摄像头下的时间动作序列，每列C代表某个时间下多个摄像头的空间动作序列。

传统的一维条件随机场只能表达一种观察值序列，而本发明可以多视角地从时间和空间的角度观察、识别人体动作。

为了方便说明，我们做了如下设定：

图3中，X＝{X¹,X²,…,X^c}为多视角动作序列，其中X^c＝{x^c ₁,x^c ₂,…,x^c _t}是第c个视角的视频序列，对应于图3的每一行；每个节点代表着一个随机变量，对应的状态标签为y_i,j；C_ω＝{y_ω,1,y_ω,2,…,y_ω,c}表示第ω行的状态序列，即视角ω下所有时刻的状态序列；T_m＝{y_1,m,y_2,m,…,y_c,m}表示第m列的状态序列，即时刻m下所有视角的状态序列；Δ_row(i,j)表示随机变量y_i,j所在行；Δ_column(i,j)表示随机变量y_i,j所在列；

I(ω)＝{(i′,j′),Δ_row(i′,j′)＝ω}表示第ω行的随机变量集合，即第ω个视角的观察值序列；

J(m)＝{(i",j"),Δ_column(i",j")＝m}表示第m列的随机变量集合，即第m时刻的观察值序列；

E_row(ω)＝{((i′,j′),(i,j))∈E_row:(i′,j′)∈I(ω-1),(i,j)∈I(ω)}表示第ω-1行与第ω行之间的边，即两个视角间的空间依赖关系；

E_column(m)＝{((i",j"),(i,j))∈E_column:(i",j")∈J(m-1),(i,j)∈J(m)}表示第m-1列与第m列之间的边，即两个时刻间的时间依赖关系。

构造矩阵：M_m(T_m-1,T_m|x)＝exp(Ψ_m(T_m-1,T_m|x))

将势函数Ψ_m(T_m-1,T_m|x)定义为：

其中，

T_m-1＝{y′_1,m-1,y′_2,m-1,…,y′_c,m-1}表示第m-1列的状态序列；

T_m＝{y_1,m,y_2,m,…,y_c，m}表示第m列的状态序列；

φ(e_ω,y_i′,j′,y_i,j,x)表示不同视角的空间依赖关系；

表示不同时刻的时间依赖关系；

ψ(v,y_i′,j′,x)和ω(v,y_i",j",x)表示每个随机变量与对应的状态标签的关系，α，β，γ，η，分别为四个势函数的权重；

归一化因子定义为：

由上述公式可得二维条件随机场：

对数似然函数估计参数：

其中Θ＝{α₁,α₂,…；β₁,β₂,…；γ₁,γ₂,…；η₁,η₂,…}是上述二维条件随机场的参数。

训练的目的就是为了在满足对数似然函数最大化时获得这些参数Θ＝{α₁,α₂,…；β₁,β₂,…；γ₁,γ₂,…；η₁,η₂,…}，这些参数用于在识别的过程中使用，即实现对待检测视频中人体动作的识别。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明实质内容上所作的任何修改、等同替换和简单改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多视角动作识别方法，其特征在于，该方法包括如下步骤：

(1)动作训练过程，通过二维条件随机场的方法训练并获得分类器，这里的二维条件随机场是通过时间和空间两个维度对特征进行建模的二维条件随机场,其表达式如下：

这里的M_m(T_m-1,T_m|x)＝exp(Ψ_m(T_m-1,T_m|x))为构造矩阵，Ψ_m(T_m-1,T_m|x)被定义为：

表示不同视角之间的空间依赖关系及不同时刻之间的时间依赖关系以及随机变量x与其对应的状态标签的关系；其中，T_m-1＝{y′_1,m-1,y′_2,m-1,…,y′_c,m-1}表示第m-1列的状态序列；T_m＝{y_1,m,y_2,m,…,y_c，m}表示第m列的状态序列；E_row(ω)＝{((i′,j′),(i,j))∈E_row:(i′,j′)∈I(ω-1),(i,j)∈I(ω)}表示第ω-1行与第ω行之间的边，即两个视角间的空间依赖关系；E_column(m)＝{((i",j"),(i,j))∈E_column:(i",j")∈J(m-1),(i,j)∈J(m)}表示第m-1列与第m列之间的边，即两个时刻间的时间依赖关系；I(ω)＝{(i′,j′),Δ_row(i′,j′)＝ω}表示第ω行的随机变量集合，即第ω个视角的观察值序列；J(m)＝{(i",j"),Δ_column(i",j")＝m}表示第m列的随机变量集合，即第m时刻的观察值序列；上述y_i,j,y_i’,j’,y_i”,j”分别表示第(i,j),(i’,j’)，(i”,j”)节点对应的状态标签；φ(e_ω,y_i′,j′,y_i,j,x)表示不同视角的空间依赖关系；表示不同时刻的时间依赖关系；ψ(v,y_i′,j′,x)和ω(v,y_i",j",x)表示每个随机变量与对应的状态标签的关系，α，β，γ，η，分别为四个势函数的权重；归一化因子被定义为：

(2)动作识别过程，利用步骤(1)获得的分类器识别动作；

动作识别过程包括如下步骤：

S1：提取待识别视频文件的时空兴趣点；

S2：计算时空兴趣点所在区域的特征描述子；

S3：对S2中所有的特征描述子降维；

S4：将S3中降维后的特征描述子聚类，获得预处理文件；

S5：将S4所得预处理文件送入训练过程中得到的分类器。

2.根据权利要求1所述的多视角动作识别方法，其特征在于：动作训练过程包括如下步骤：

X1：人工标注训练视频文件；

X2：提取训练视频文件的时空兴趣点；

X3：计算时空兴趣点所在区域的特征描述子；

X4：对步骤X3中的特征描述子构成的集合抽样，得到子集；

X5：对步骤X4得到的子集中所有的特征描述子降维；

3.根据权利要求1或2所述的多视角动作识别方法，其特征在于：时空兴趣点的提取方法为高斯滤波和Gabor滤波。

4.根据权利要求1或2所述的多视角动作识别方法，其特征在于：特征描述子包括方向梯度直方图、光流直方图。

5.根据权利要求1或2所述的多视角动作识别方法，其特征在于：采用主成分分析的方法进行降维。

6.根据权利要求1或2所述的多视角动作识别方法，其特征在于：对特征描述子进行聚类的方法为K-means。

7.根据权利要求2所述的多视角动作识别方法，其特征在于：对步骤X3中的特征描述子构成的集合进行抽样的方法是随机抽样。