CN103400160B

CN103400160B - 一种零训练样本行为识别方法

Info

Publication number: CN103400160B
Application number: CN201310364990.2A
Authority: CN
Inventors: 王春恒; 张重; 肖柏华; 刘爽; 周文
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-08-20
Filing date: 2013-08-20
Publication date: 2017-03-01
Anticipated expiration: 2033-08-20
Also published as: CN103400160A

Abstract

本发明公开了一种零训练样本行为识别方法，该方法包括以下步骤：提取每个动作视频样本的特征向量；设定多个人体运动属性以及每个人体运动属性下动作视频对之间的关系；将动作视频对关系作为输入，利用排序支持向量机进行训练；利用输出的排序分数，对每一类有训练样本的人体行为拟合得到混合高斯模型；利用迁移学习获得零训练样本人体行为类别的混合高斯模型；提取测试视频样本的特征向量；利用最大后验概率原则，判断测试视频样本中零训练样本人体行为所属的类别。本发明通过利用混合高斯模型拟合排序分数，达到行为识别的目的，并通过最大后验判断所属类别，从而提高行为识别的鲁棒性。

Description

一种零训练样本行为识别方法

技术领域

本发明属于智能视频监控技术领域，具体涉及一种零训练样本行为识别方法。

背景技术

行为识别在视频监控中扮演着重要的角色，它可以识别出视频中人体的行为动作，为危险行为报警、特定行为识别做出贡献。行为识别中最简单最有效的方法当属基于词包模型(bag-of-words，BOW)的方法，此方法先对视频进行特征提取，然后将所有的特征聚类，然后根据每个视频特征在聚类中心出现的频率进行直方图化。但是此方法的一个缺点是没有考虑到时空特征。Zhang等人利用基于语义的线性编码方式不仅考虑了特征之间的时空关系而且减少了重构误差。Ryoo等人提出一种“特征×特征×关系”直方图去同时获取特征点之间表象的关系。Kovashaka等人利用近邻时空兴趣点设计一种层级直方图来弥补词包模型的不足。

基于词包模型的方法均是直接将底层特征和类别标签相连，然而，丰富的时空信息很难被单一的类别标签表示。所以近期的一些研究工作提出用属性描述动作的相关信息，属性特征可以被视为高层语义特征。Lampert等人提出直接属性预测模型(directattributeprediction，DAP)。刘等人把每个动作属性当成潜变量去预测行为类别。在这些模型中，均是把属性当做一个二值变量，表示该属性是否存在于某个动作。但是在现实生活中，二值属性并不能准确的描述行为动作。因此，Parikh等人提出相对属性的概念，其通过描述属性之间的相对关系来表示行为。

发明内容

本发明的目的是要解决上述现有技术中存在的技术问题，进而提供一种零训练样本行为识别方法。

为了实现所述目的，本发明基于零训练样本行为识别方法包括以下步骤：

一种零训练样本行为识别方法，其特征在于，该方法包括以下步骤：

步骤S1，提取视频样本库中每个动作视频样本的特征向量；

步骤S2，设定对应于多种人体行为的多个人体运动属性，以及在每个人体运动属性下，每两个代表人体行为的动作视频，即动作视频对之间的关系；

步骤S3，将所述动作视频对之间的关系作为输入，利用排序支持向量机进行训练，得到训练模型；

步骤S4，利用所述排序支持向量机输出的排序分数，对每一类具有训练样本的人体行为进行拟合得到一个混合高斯模型；

步骤S5，根据所述步骤S4得到的混合高斯模型，利用迁移学习，获得零训练样本人体行为类别的混合高斯模型；

步骤S6，按照步骤S1的描述，提取得到测试视频样本的特征向量；

步骤S7，根据所述测试视频样本的特征向量以及所述步骤S5得到的零训练样本人体行为类别的混合高斯模型，利用最大后验概率原则，判断所述测试视频样本中零训练样本人体行为所属的类别。

本发明的有益效果为：通过利用混合高斯模型拟合排序分数，达到行为识别的目的，通过最大后验判断所属类别，从而提高行为识别的鲁棒性。

附图说明

图1是本发明提出的零训练样本行为识别方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1是本发明提出的零训练样本行为识别方法的流程图，如图1所示，所述方法包括以下步骤：

步骤S1，提取视频样本库中每个动作视频样本的特征向量；

所述步骤S1进一步包括以下步骤：

步骤S11，对所述视频样本库中的每个动作视频样本利用三维角点特征(Harris3D)提取多个时空兴趣点；

步骤S12，在每个提取到的时空兴趣点周围(比如20*20像素点的范围)提取梯度直方图(histogram of oriented gradients，HOG)和光流直方图(histogram of opticalflow，HOF)，并将提取得到的这两个特征直接连成一个特征向量；

步骤S13，利用聚类方法将所有得到的特征向量聚集为多个聚类中心(比如2000个)；

所述聚类方法可以使用现有技术中常用的k-means聚类方法或其他聚类方法。

步骤S14，利用词包模型(bag-of-words，BOW)将每个动作视频样本表示成一个维数与所述聚类中心的个数相同的直方图，作为相应动作视频样本的特征向量，该直方图的每一维表示该动作视频样本的特征向量在相应聚类中心出现的频率。

在本发明一实施例中定义了六种人体行为，分别为：拳击，鼓掌，挥手，慢跑，跑和走，并定义了5种人体运动属性以及它们之间的关系，如表1所示，表1中，左栏表示六种人体行为的5种人体运动属性，右栏表示这5种人体运动属性之间的相对关系，其中，1表示拳击，2表示鼓掌，3表示挥手，4表示慢跑，5表示跑，6表示走，“＞”表示人体运动属性的大于(强于)关系，比如对于跑这种人体行为来说，其腿部运动要大于或者说强于慢跑这种人体行为的腿部运动，这样的话，对于人体运动属性“腿的运动”，跑和慢跑这两种人体行为存在关系：5＞4，“～”表示人体运动属性的相似关系：

表1

属性	关系
		腿的运动	5＞4＞6＞1～2～3

手臂的运动	3＞2＞1＞5＞4～6
		手臂的张合	2＞3＞1～4～5～6
手臂形状的笔直情况	2～3＞6＞1＞4～5
		过胸的手臂运动	3＞1～2＞4～5＞6

步骤S3，将所述动作视频对之间的关系作为输入，利用排序支持向量机(RankSVM)进行训练，得到训练模型；

所述排序支持向量机采用Sigmoid和Gaussian函数作为损失函数，所述排序支持向量机的目标函数可以写为：

其中，λ是用来平衡排序支持向量机参数的稀疏度和损失之间的关系的平衡因子；w是待求的排序支持向量机参数向量；x_i和x_j表示两个人体运动属性为大于关系的样本，即x_i＞x_j；x_m和x_n表示两个人体运动属性为相似关系的样本，即x_m～x_n；L₁为Sigmoid损失函数，L₂为Gaussian损失函数，分别定义如下：

这里，t是损失值，α用于控制Sigmoid函数的形状，e是自然对数；

这里，t是损失值，β用于控制Gaussian函数的形状，e是自然对数；

步骤S4，利用所述排序支持向量机输出的排序分数，对每一类具有训练样本的人体行为进行拟合得到一个混合高斯模型：

其中，为训练样本x的排序分数，角标q代表有训练样本的人体行为的类别，i为Q类有训练样本的人体行为中的第i类人体行为，Z表示所需要的高斯函数的数量，为第z个高斯函数的权重，为第z个高斯函数的均值，为第z个高斯函数的协方差矩阵，为高斯密度函数，公式如下：

所述步骤S5中按照以下规则获得零训练样本人体行为类别的混合高斯模型：

1)对于上文中定义的某一人体运动属性a_d，当存在人体行为时，所述零训练样本人体行为类别的混合高斯模型中的第z个高斯函数的第d维的均值为：其中，和代表有训练样本的第i个和第k个人体行为类别，代表无训练样本的第j个人体行为类别；

2)当存在人体行为时，第z个高斯函数的第d维的均值为：其中，g_z为人体运动属性a_d对应的所有有训练样本的人体行为的排序分数的平均权重；

3)相似地，当存在人体行为时，第z个高斯函数的第d维的均值为：

4)当存在人体行为时，第z个高斯函数的第d维的均值为：第z个高斯函数的协方差矩阵也设为相等，即：

5)如果在人体运动属性a_d中，没有相应的与人体行为相关的描述，则令第z个高斯函数的第d维的均值为：

以上除了第4种情况外，第z个高斯函数的协方差矩阵都设为：

根据以上准则就可以求得零训练样本人体行为类别的混合高斯模型。

该步骤中，首先将提取得到的测试视频样本的特征向量输入至零训练样本人体行为类别的混合高斯模型中，取得概率值最大的类别即认为是所述测试视频样本的类别，即：

其中，c^*表示概率最大的类别标签，表示样本在第k个类别下的概率，R表示类别数量。

以网上公开的数据库作为测试对象，比如在KTH数据库上，当零训练样本为1类时本发明方法的人体行为识别正确率为86.8％，当零训练样本为2类时本发明方法的人体行为识别正确率为83.07％，当零训练样本为3类时本发明方法的人体行为识别正确率为72.7％，由此可见本发明方法的有效性。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种零训练样本行为识别方法，其特征在于，该方法包括以下步骤：

步骤S1，提取视频样本库中每个动作视频样本的特征向量；

2.根据权利要求1所述的方法，其特征在于，所述步骤S1进一步包括以下步骤：

步骤S11，对所述视频样本库中的每个动作视频样本利用三维角点特征提取多个时空兴趣点；

步骤S12，在每个提取到的时空兴趣点周围提取梯度直方图和光流直方图，并将提取得到的这两个特征直接连成一个特征向量；

步骤S13，利用聚类方法将所有得到的特征向量聚集为多个聚类中心；

步骤S14，利用词包模型将每个动作视频样本表示成一个维数与所述聚类中心的个数相同的直方图，作为相应动作视频样本的特征向量。

3.根据权利要求2所述的方法，其特征在于，所述步骤S14中的直方图的每一维表示在相应聚类中心出现特征向量的个数。

4.根据权利要求1所述的方法，其特征在于，所述步骤S2中，所述多种人体行为包括拳击，鼓掌，挥手，跑和走；所述多个人体运动属性包括腿的运动，手臂的运动和手臂形状的笔直情况；其中所述手臂的运动包括：手臂的张合和过胸的手臂运动。

5.根据权利要求4所述的方法，其特征在于，在每个人体运动属性下，动作视频对之间的关系包括：

对于所述腿的运动，跑＞走＞拳击～鼓掌～挥手；

对于所述手臂的运动，挥手＞鼓掌＞拳击＞跑＞走；

对于所述手臂形状的笔直情况，鼓掌～挥手＞走＞拳击＞跑；

其中，“＞”表示人体运动属性的大于关系，“～”表示人体运动属性的相似关系。

6.根据权利要求1所述的方法，其特征在于，所述排序支持向量机采用Sigmoid和Gaussian函数作为损失函数。

7.根据权利要求1所述的方法，其特征在于，所述排序支持向量机的目标函数可以写为：

m i n λ | | w | |^{2} + \underset{i, j}{Σ} L_{1} (w^{T} (x_{i} - x_{j}), α) + \underset{m, n}{Σ} L_{2} (w^{T} (x_{m} - x_{n}), β),

其中，λ是用来平衡排序支持向量机参数的稀疏度和损失之间的关系的平衡因子；w是待求的排序支持向量机参数向量；x_i和x_j表示两个人体运动属性为大于关系的样本，即x_i＞x_j；x_m和x_n表示两个人体运动属性为相似关系的样本，即x_m～x_n；L₁为Sigmoid损失函数，L₂为Gaussian损失函数：

L_{1} (t, α) = 1 - \frac{1}{1 + e^{- α t}},

其中，t是损失值，α用于控制Sigmoid函数的形状，e是自然对数；

L_{2} (t, β) = 1 - \frac{1}{β \sqrt{2 π}} e^{- t^{2} / 2 β^{2}},

其中，t是损失值，β用于控制Gaussian函数的形状，e是自然对数。

8.根据权利要求1所述的方法，其特征在于，所述混合高斯模型表示为：

其中，为训练样本x的排序分数，角标q代表有训练样本的人体行为的类别，i为Q类有训练样本的人体行为中的第i类人体行为，Z表示所需要的高斯函数的数量，为第z个高斯函数的权重，为第z个高斯函数的均值，为第z个高斯函数的协方差矩阵，为高斯密度函数。

9.根据权利要求1所述的方法，其特征在于，所述步骤S5中按照以下规则获得零训练样本人体行为类别的混合高斯模型：

1)对于某一人体运动属性，当存在人体行为时，所述零训练样本人体行为类别的混合高斯模型中的第z个高斯函数的第d维的均值为：其中，和代表有训练样本的第i个和第k个人体行为类别，代表无训练样本的第j个人体行为类别；和分别为第i类人体行为和第k类人体行为第z个高斯函数的权重；角标q代表有训练样本的人体行为的类别；

2)当存在人体行为时，第z个高斯函数的第d维的均值为：其中，g_z为人体运动属性对应的所有有训练样本的人体行为的排序分数的平均权重；

3)当存在人体行为时，第z个高斯函数的第d维的均值为：

除了第4)种情况外，第z个高斯函数的协方差矩阵都设为：其中，Q为训练样本的人体行为的类别数目，为第b类人体行为第z个高斯函数的权重。

10.根据权利要求1所述的方法，其特征在于，所述步骤S7中，首先将提取得到的测试视频样本的特征向量输入至零训练样本人体行为类别的混合高斯模型中，取得概率值最大的类别即认为是所述测试视频样本中零训练样本人体行为所属的类别。