CN103345623A

CN103345623A - 一种基于鲁棒相对属性的行为识别方法

Info

Publication number: CN103345623A
Application number: CN201310290428XA
Authority: CN
Inventors: 王春恒; 张重; 肖柏华; 周文; 刘爽
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-07-11
Filing date: 2013-07-11
Publication date: 2013-10-09
Anticipated expiration: 2033-07-11
Also published as: CN103345623B

Abstract

本发明公开了一种基于鲁棒相对属性的行为识别方法。该方法包括以下步骤：提取视频样本库中每个动作视频样本的特征向量；设定对应于多种人体行为的多个人体运动属性，以及在每个人体运动属性下，每两个代表人体行为的动作视频，即动作视频对之间的关系；将所述动作视频对之间的关系作为输入，利用排序支持向量机进行训练，得到训练模型；利用梯度下降法求解所述排序支持向量机，得到所述排序支持向量机的参数向量，进而得到最优训练模型；利用得到的最优训练模型对每个待测试的动作视频进行人体行为识别，得到人体行为识别结果。实验证明，本发明方法能够提高人体行为识别的鲁棒性。

Description

一种基于鲁棒相对属性的行为识别方法

技术领域

本发明属于智能视频监控技术领域，具体涉及一种基于鲁棒相对属性的行为识别方法。

背景技术

行为识别在视频监控中扮演着重要的角色，它可以识别出视频中人体的行为动作，为危险行为报警、特定行为识别做出贡献。行为识别中最简单最有效的方法当属基于词包模型(bag-of-words,BOW)的方法，此方法先对视频进行特征提取，然后将所有的特征聚类，然后根据每个视频特征在聚类中心出现的频率进行直方图化。但是此方法的一个缺点是没有考虑到时空特征。Zhang等人利用基于语义的线性编码方式不仅考虑了特征之间的时空关系而且减少了重构误差。Ryoo等人提出一种“特征×特征×关系”直方图去同时获取特征点之间表象的关系。Kovashaka等人利用近邻时空兴趣点设计一种层级直方图来弥补词包模型的不足。

基于词包模型的方法均是直接将底层特征和类别标签相连。然后，丰富的时空信息很难被单一的类别标签表示。所以近期的一些研究工作提出用属性描述动作的相关信息，属性特征可以被视为高层语义特征。Lampert等人提出直接属性预测模型(directattributeprediction,DAP)。刘等人把每个动作属性当成潜变量去预测行为类别。在这些模型中，均把属性当做一个二值变量，表示该属性是否存在于某个动作。但是在现实生活中，二值属性并不能什么准确的描述行为动作。因此，Parikh等人提出相对属性的概念，该方法通过描述属性之间的相对关系来表示行为。

发明内容

本发明的目的是要解决上述现有技术中存在的技术问题，为此，本发明提供一种基于鲁棒相对属性的行为识别方法。

为了实现所述目的，本发明基于鲁棒相对属性的行为识别方法包括以下步骤：

步骤S1，提取视频样本库中每个动作视频样本的特征向量；

步骤S2，设定对应于多种人体行为的多个人体运动属性，以及在每个人体运动属性下，每两个代表人体行为的动作视频，即动作视频对之间的关系；

步骤S3，将所述动作视频对之间的关系作为输入，利用排序支持向量机进行训练，得到训练模型；

步骤S4，利用梯度下降法求解所述排序支持向量机，得到所述排序支持向量机的参数向量，进而得到最优训练模型；

步骤S5，利用所述步骤S4得到的最优训练模型对每个待测试的动作视频进行人体行为识别，得到人体行为识别结果。

本发明的有益效果：通过利用损失函数是Sigmoid和Gaussian函数的排序支持向量机达到行为识别的目的；通过梯度下降法求解损失函数是Sigmoid和Gaussian函数的排序支持向量机，从而提高行为识别的鲁棒性。

附图说明

图1是本发明基于鲁棒相对属性的行为识别方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1是本发明基于鲁棒相对属性的行为识别方法流程图，如图1所述，所述方法包括以下步骤：

步骤S1，提取视频样本库中每个动作视频样本的特征向量；

所述步骤S1进一步包括以下步骤：

步骤S11，对所述视频样本库中的每个动作视频样本利用三维角点特征(Harris3D)提取多个时空兴趣点；

步骤S12，在每个提取到的时空兴趣点周围（比如20*20像素点的范围）提取梯度直方图(histogramoforientedgradients,HOG)和光流直方图(histogramofopticalflow,HOF),并将提取得到的这两个特征直接连成一个特征向量；

步骤S13，利用聚类方法将所有得到的特征向量聚集为多个聚类中心（比如2000个）；

所述聚类方法可以使用现有技术中常用的k-means聚类方法或其他聚类方法。

步骤S14，利用词包模型(bag-of-words,BOW)将每个动作视频样本表示成一个维数与所述聚类中心的个数相同的直方图，作为相应动作视频样本的特征向量，该直方图的每一维表示该动作视频样本的特征向量在相应聚类中心出现的频率。

在本发明一实施例中定义了六种人体行为，分别为：拳击，鼓掌，挥手，慢跑，跑和走，并定义了5种人体运动属性以及它们之间的关系，如表1所示，表1中，左栏表示六种人体行为的5种人体运动属性，右栏表示这5种人体运动属性之间的相对关系，其中，1表示拳击，2表示鼓掌，3表示挥手，4表示慢跑，5表示跑，6表示走，“>”表示人体运动属性的大于（强于）关系，比如对于跑这种人体行为来说，其腿部运动要大于或者说强于慢跑这种人体行为的腿部运动，这样的话，对于人体运动属性“腿的运动”，跑和慢跑这两种人体行为存在关系：5>4，“～”表示人体运动属性的相似关系：

表1

属性	关系
		腿的运动	5＞4＞6＞1～2～3
手臂的运动	3＞2＞1＞5＞4～6
		手臂的张合	2＞3＞1～4～5～6
手臂形状的笔直情况	2～3＞6＞1＞4～5
		过胸的手臂运动	3＞1～2＞4～5＞6

步骤S3，将所述动作视频对之间的关系作为输入，利用排序支持向量机(RankSVM)进行训练，得到训练模型；

所述排序支持向量机采用Sigmoid和Gaussian函数作为损失函数，所述排序支持向量机的目标函数可以写为：

minλ {| | w | |}^{2} + \underset{i, j}{Σ} L_{1} (w^{T} (x_{i} - x_{j}), α) + \underset{m, n}{Σ} L_{2} (w^{T} (x_{m} - x_{n}), β),

其中，λ是用来平衡排序支持向量机参数的稀疏度和损失之间的关系的平衡因子；w是待求的排序支持向量机参数向量；x_i和x_j表示两个人体运动属性为大于关系的样本，即x_i>x_j；x_m和x_n表示两个人体运动属性为相似关系的样本，即x_m～x_n；L₁为Sigmoid损失函数，L₂为Gaussian损失函数，分别定义如下：

L_{1} (t, α) = 1 - \frac{1}{1 + e^{- αt}},

这里，t是损失值，α用于控制Sigmoid函数的形状，e是自然对数；

L_{2} (t, β) = 1 - \frac{1}{β \sqrt{2 π}} e^{{- t}^{2} {2 β}^{2}},

这里，t是损失值，β用于控制Gaussian函数的形状，e是自然对数；

该步骤中对于所述排序支持向量机的求解具体为对所述目标函数中的w进行求导：

&dtri; = 2 wλ - \underset{i, j}{Σ} {αF}_{1} (1 - F_{1}) (x_{i} - x_{j}) - \underset{i, j}{Σ} \frac{1}{β^{3}} F_{2} (x_{i} - x_{j}),

其中：

\{\begin{matrix} F_{1} = 1 / {1 + e^{{- αw}^{T} (x_{i} - x_{j})}} \\ F_{2} = \sqrt{\frac{2}{π}} e^{{[w^{T} (x_{m} - x_{n})]}^{2} / β^{2}} w^{T} (x_{i} - x_{j}) \end{matrix},

利用梯度下降法对于上述公式进行求解可以得到：

w^{iter + 1} = w^{iter} - η^{&dtri; iter},

其中，iter表示迭代的次数，η表示学习率。

以网上公开的数据库作为测试对象，比如在KTH数据库上，本发明方法的人体行为识别正确率为93.8%，由此可见本发明方法的有效性。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于鲁棒相对属性的行为识别方法，其特征在于，该方法包括以下步骤：

步骤S1，提取视频样本库中每个动作视频样本的特征向量；

2.根据权利要求1所述的方法，其特征在于，所述步骤S1进一步包括以下步骤：

步骤S11，对所述视频样本库中的每个动作视频样本利用三维角点特征提取多个时空兴趣点；

步骤S12，在每个提取到的时空兴趣点周围提取梯度直方图和光流直方图，并将提取得到的这两个特征直接连成一个特征向量；

步骤S13，利用聚类方法将所有得到的特征向量聚集为多个聚类中心；

步骤S14，利用词包模型将每个动作视频样本表示成一个维数与所述聚类中心的个数相同的直方图，作为相应动作视频样本的特征向量。

3.根据权利要求2所述的方法，其特征在于，所述步骤S14中的直方图的每一维表示在相应聚类中心出现特征向量的个数。

4.根据权利要求1所述的方法，其特征在于，所述步骤S2中，所述多种人体行为包括拳击，鼓掌，挥手，慢跑，跑和走；所述多个人体运动属性包括腿的运动，手臂的运动，手臂的张合，手臂形状的笔直情况和过胸的手臂运动。

5.根据权利要求4所述的方法，其特征在于，在每个人体运动属性下，动作视频对之间的关系包括：

对于所述腿的运动，跑>慢跑>走>拳击～鼓掌～挥手；

对于所述手臂的运动，挥手>鼓掌>拳击>跑>慢跑～走；

对于所述手臂的张合，鼓掌>挥手>拳击～慢跑～跑～走；

对于所述手臂形状的笔直情况，鼓掌～挥手>走>拳击>慢跑～跑；

对于所述过胸的手臂运动，挥手>拳击～鼓掌>慢跑～跑>走；

其中，“>”表示人体运动属性的大于关系，“～”表示人体运动属性的相似关系。

6.根据权利要求1所述的方法，其特征在于，所述排序支持向量机采用Sigmoid和Gaussian函数作为损失函数。

7.根据权利要求1所述的方法，其特征在于，所述排序支持向量机的目标函数可以写为：

minλ {| | w | |}^{2} + \underset{i, j}{Σ} L_{1} (w^{T} (x_{i} - x_{j}), α) + \underset{m, n}{Σ} L_{2} (w^{T} (x_{m} - x_{n}), β),

其中，λ是用来平衡排序支持向量机参数的稀疏度和损失之间的关系的平衡因子；w是待求的排序支持向量机参数向量；x_i和x_j表示两个人体运动属性为大于关系的样本，即x_i>x_j；x_m和x_n表示两个人体运动属性为相似关系的样本，即x_m~x_n;L₁为Sigmoid损失函数，L₂为Gaussian损失函数：

L_{1} (t, α) = 1 - \frac{1}{1 + e^{- αt}},

其中，t是损失值，α用于控制Sigmoid函数的形状，e是自然对数；

L_{2} (t, β) = 1 - \frac{1}{β \sqrt{2 π}} e^{{- t}^{2} {2 β}^{2}},

其中，t是损失值，β用于控制Gaussian函数的形状，e是自然对数。

8.根据权利要求7所述的方法，其特征在于，利用梯度下降法求解所述排序支持向量机包括以下步骤：

首先，对所述目标函数中的w进行求导：

&dtri; = 2 wλ - \underset{i, j}{Σ} {αF}_{1} (1 - F_{1}) (x_{i} - x_{j}) - \underset{i, j}{Σ} \frac{1}{β^{3}} F_{2} (x_{i} - x_{j}),

其中，

\{\begin{matrix} F_{1} = 1 / {1 + e^{{- αw}^{T} (x_{i} - x_{j})}} \\ F_{2} = \sqrt{\frac{2}{π}} e^{{[w^{T} (x_{m} - x_{n})]}^{2} / β^{2}} w^{T} (x_{i} - x_{j}) \end{matrix},

然后，利用梯度下降法对于上式进行求解得到：

w^{iter + 1} = w^{iter} - η^{&dtri; iter},

其中，iter表示迭代的次数，η表示学习率。