CN106033546B

CN106033546B - 基于自上而下学习的行为分类方法

Info

Publication number: CN106033546B
Application number: CN201510104685.9A
Authority: CN
Inventors: 李学龙; 卢孝强; 祁雷
Original assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Current assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Priority date: 2015-03-10
Filing date: 2015-03-10
Publication date: 2021-03-19
Anticipated expiration: 2035-03-10
Also published as: CN106033546A

Abstract

本发明公开了一种基于自上而下学习的行为分类方法，解决现有方法中没有考虑底层特征与分类任务相关性而导致分类精度不高的问题。其实现步骤是：(1)提取数据的底层特征，并对其进行预处理；(2)对底层特征进行稀疏表达，将得到的稀疏编码作为隐变量输入多元逻辑回归模型；(3)以交替迭代训练得到稀疏编码的字典和多元逻辑回归模型的回归系数；(4)利用学得的字典和多元逻辑回归模型，对底层特征进行稀疏编码和最终的分类，统计实验结果，得到分类精度。本发明充分利用了底层特征与高层分类任务的联系，克服了底层数据繁多难以处理的问题，提高了行为分类的准确度，可用于公共安全管理、动漫设计、影视创作等方面。

Description

基于自上而下学习的行为分类方法

技术领域

本发明属于信息处理技术领域，特别涉及一种行为识别技术，可用于公共安全管理、动漫设计、影视创作等方面。

背景技术

随着图像感知、大数据存储和计算机性能提升等各个方面的快速发展，视频数据已经成为一种无处不在的媒体存储形式。来自监控设备、网络摄像头、电影等各个途径的视频数据充斥着整个网络。各种小型且廉价消费设备例如笔记本电脑、智能手机以及高分辨率摄像机的流行让人们更容易用视频记录生活的细节而不是使用简单的静态图像。如何在这些海量的视频数据中针对人们感兴趣的人类行为进行分析已经成为一个热点问题。基于视频的行为分类的目的是利用计算机和特定的算法提取视频中富有语义的部分，在大多数场景中，人都是主要的语义元素，因为日常行为大都是由人主导的。因此，针对人体简单行为的分类对最终的行为分析具有重要意义。

目前，对于视频中行为的分类方法主要分3类：

基于特征提取的方法，这种方法致力于提取紧致有表达能力的特征。J.K.Aggarwal等人在文献“J.Aggarwal,and S.Michael,Human activity analysis:Areview."ACM Computing Surveys(CSUR)43.3(2011):16.”中提出了一些常见的特征提取方法，这些方法往往利用训练数据的底层线索如灰度、光照变换等，对其进行处理得到底层特征。比如HOG特征，就是先将图像分成不同的块，并计算图像中像素梯度分布，再统计块中各像素点在不同方向上的梯度分布情况，最终得到一个特征向量。将这个特征向量输入分类器进行分类。

基于中层表达的方法。底层特征数据繁多，对计算能力的要求高，为了减小数据量，同时提高特征的表达能力，一些中层表达的方法被提出，BoW(词袋模型)就是典型的例子。在这种方法中，通过统计一幅图像或者一段视频中某些视觉词汇出现的频次，构建分布直方图，并以其作为最终的特征向量。这种方法在文献“D.Filliat,A visual bag ofwords method for interactive qualitative localization and mapping,IEEEConf.In Robotics and Automation,2007,pp.3921-3926.”中有详细介绍。

基于分类模型的方法，这种方法的重点在于在已有底层特征的基础上，如何通过优化模型得到最接近真实情况的分类结果，常见的有SVM，MLR等。在文献“C.Schuldt,I.Laptev,B.Caputo,Recognizing human actions:a local SVM approach,in Proc.IEEEConf.Proceedings of the 17th International Conference on,2004,pp.32-36.”中就介绍了一种基于SVM的行为分类方法。

发明内容

本发明的目的在于针对上述现有方法的不足，提出一种基于自上而下学习的行为分类方法。实现本发明目的的技术方案是：一种基于自上而下学习的行为分类方法，其特别之处在于：包括以下步骤：

(1)将原始数据划分为训练样本集和测试样本集；

(2)利用尺度不变特征转移算法提取训练样本集和测试样本集视频片段的底层特征，然后用词包模型预处理得到每段视频对应的特征向量；

(3)将步骤(2)得到的训练样本集的特征向量进行稀疏编码；将得到的稀疏编码作为隐变量输入初始化得到的多元逻辑回归模型，得到训练样本的预测标签；结合预测标签和实际的标签对稀疏编码所需的字典和多元逻辑回归模型的回归系数进行迭代训练优化，得到稳定的字典和回归模型；

(4)利用步骤(3)得到的最终的字典和回归模型，对步骤(2)得到的测试样本集上的特征向量进行稀疏编码，再带入回归模型，得到分类结果即测试样本的预测标签。

优选的，在上述步骤之后还包括步骤(5)，分类结束后将测试样本的预测标签和实际标签比较，统计测试样本预测标签的每一类中分类正确的数目，除以这一类的总数得到分类正确率。

所述步骤(1)中原始数据的划分采用随机抽取的方法，训练样本集占原始数据的三分之二，测试样本集占原始数据的三分之一。

所述步骤(3)的优化过程具体包括：

步骤(3a)，构建优化目标表达式，将字典D和回归系数w结合在一个目标表达式中，所述的目标表达式如下：

其中

l(w,D)为w，D的似然函数，Y，X分别为训练样本的标签和特征向量，s为单个样本稀疏编码的系数；

步骤(3b)，使用梯度下降法迭代优化回归系数w；

步骤(3c)，使用梯度下降法迭代优化字典D；

步骤(3d)，交替进行步骤(3b)和步骤(3c)，直至回归系数和字典稳定。

本发明的优点是：

本发明将特征中层表达与分类模型训练同时进行，采用自上而下的方式迭代优化目标式得到最终的字典和回归模型，提高了特征的表达能力和模型的分类能力和鲁棒性，并且克服了传统方法需要处理大量底层特征数据的弊端，减小了计算量。

附图说明

图1为本发明基于自上而下学习的行为分类方法流程图；

图2为本发明在数据集上运行得到的结果。

具体实施方式

参照图1，本发明实现的步骤如下：

步骤1，划分训练样本集和测试样本集。

将数据库的样本集划分为训练样本集和测试样本集，随机抽取其中三分之二为训练集，剩下的为测试集。

步骤2，提取SIFT特征即尺度不变特征并预处理。

(2a)提取训练集和测试集中视频片断的SIFT特征；

(2b)采用BoW模型(词包模型)对原始SIFT特征进行预处理，得到每段视频片断对应的特征向量。

步骤3，构建优化目标表达式并训练字典和回归模型。

(3a)假设存在一个字典D∈R^p×k,其中k为字典的大小，p为步骤(2)得到的底层特征的维数。这个字典含有由训练数据中学习得到的最有代表性的目标部分(视觉词汇){d₁,d₂,…,d_k}。我们引进一个隐变量组成的向量s_i∈R^k来对x_i＝Ds_i的系数表达进行建模，稀疏表达通常由下式的优化解得到，

得到s之后，就可利用s进行分类，分类的目标是在已知s预测出类别标签y，在贝叶斯框架中，实现这个目标往往是通过最大化后验概率p(y|s)∝p(s|y)p(y),这里的后验概率p(x|y)就是似然性函数(假设标签为y时s出现的概率)，p(y)是先验概率。假设样本s之间条件独立，那么

其中S＝{s₁,s₂,…,s_n}为所有训练样本稀疏系数的集合，Y＝{y₁,y₂,…,Y_n}为所有训练样本的标签集合，那么后验概率P(Y|S)就可以写成：

带入MLR模型并采用贝叶斯最大后验概率模型得到对回归系数w和字典D优化公式如下：

其中

(3b)为了简化分析，先分析一个样本，这个样本对应的标签可能有k个，因此建立一个向量Z＝(z₁,…,z_k)^T,其中除了这个样本对应的类别脚标j之外z_i＝0，z_j＝1,这个样本属于每个样本的概记为p_j,j＝1,…,k,将回归系数w∈R^m×k按列展开为mk行的向量，l(w,D)对w求一阶导得到

二阶导得：

当有多个样本时，

其中N为样本数目,Z_i＝(z_i1,…,z_ik),P_i＝(p_i1,…,p_ik),

可以证明

因此可以使用梯度下降法来优化w。对w的优化过程为：

w＝w+ρ*g(w), (9)

其中ρ为学习率，

(3c)对字典D的优化同样采取梯度下降法，因为字典D在l(w,D)里不是显式定义的，而是由稀疏编码隐性定义的(式X)，因此不能直接对D求导。这里采用链式求导法则来对D求导。

计算此梯度的困难在于稀疏编码s对字典D没有显式的定义。本文通过在定点等式上的隐微分克服了这个困难，首先可以确定等式1的定点，

D^T(Ds-x)＝-λsign(s), (11)

在这里sign(s)表示在点的方式上s的符号且sign(0)＝0。我们在等式11的两端计算D的微分，然后我们有：

在这里我们把∧看作s中非零编码的索引，

看作零编码的索引。为了简化等式12中梯度的计算，我们给每个s引进一个辅助变量z，

在这里

另外，我们表示Z＝[z₁,z₂,…,z_m].因此，lⁿ对D的梯度可以由下式计算：

对D的更新为

其中ρ为学习率。

(3d)迭代进行(3b)中对回归系数的优化和(3c)中对字典的优化，直到(3a)中表达式收敛得到稳定的字典和回归模型。

步骤4，在测试集上测试分类模型的性能

利用得到的字典和回归模型，对测试集上数据先进行稀疏编码再带入多元逻辑回归模型，得到分类结果即测试样本的预测标签。

步骤5，统计分类结果并计算分类正确率。

分类结束后将测试样本的预测标签和实际标签比较，统计测试样本预测标签的每一类中分类正确的数目，除以这一类的总数得到分类正确率。

本发明的效果可以通过以下实验做进一步的说明。

1.仿真条件

本发明是在中央处理器为Intel(R)Core i3-2130 3.4GHZ、内存16G、WINDOWS 8操作系统上，运用MATLAB软件进行的仿真。

实验中使用的图像数据库为YouTube数据集，该数据集为一个有11个行为类别的视频行为集，数据来自于YouTube的视频。数据集中的每一类行为都被分为25组，每组包含至少四个视频片断。同一组内的视频都有某些共同点，比如行为由同一个人产生、相似的背景、相似的视角等。

2.仿真内容

首先，在YouTube数据集上，完成本发明算法(基于度量学习的行人再识别)的实验。为了证明算法的有效性，综合考虑算法的流行性、崭新性，我们选取了3个对比方法SVM，SMLR，MLR进行比较。其中SVM是在文献“C.Chang,and C.Lin,LIBSVM:a library forsupport vector machines,ACM Transactions on Intelligent Systems andTechnology(TIST),vol.2,no.3,pp.27,2011.”有详细介绍。SMLR是“B.Krishnapurami etal,Sparse multinomial logistic regression:Fast algorithms and generalizationbounds,IEEE Trans.Pattern Analysis and Machine Intelligence,vol.27,no.6,pp.957-968,2005.”中提出的。MLR在“C.Kwak,A.Clayton-Matthews,Multinomiallogistic regression.Nursing research,2002,pp.404-410.”中有详细介绍

按照具体实施方式部分的步骤进行实验，得到本方法的实验结果。再在同样的数据集上完成对比方法的实验。实验结果如下表所示。

分类方法	准确率
		MLR	67％
SMLR	69.61％
		SVM	72％
本发明采用方法	76.2％

实验结果说明，本方法相比现有方法具有一定的优异性。

Claims

1.一种基于自上而下学习的行为分类方法，其特征在于：包括以下步骤：

(1)将原始数据划分为训练样本集和测试样本集；

所述步骤(3)的优化过程具体包括：

其中

l(w,D)为w，D的似然函数，Y，X分别为训练样本的标签和特征向量的集合，s为单个样本稀疏编码的系数；

步骤(3b)，使用梯度下降法迭代优化回归系数w；

步骤(3c)，使用梯度下降法迭代优化字典D；

步骤(3d)，交替进行步骤(3b)和步骤(3c)，直至回归系数和字典稳定；

2.根据权利要求1所述的基于自上而下学习的行为分类方法，其特征在于：还包括步骤(5)，分类结束后将测试样本的预测标签和实际标签比较，统计测试样本预测标签的每一类中分类正确的数目，除以这一类的总数得到分类正确率。

3.根据权利要求1所述的基于自上而下学习的行为分类方法，其特征在于：所述步骤(1)中原始数据的划分采用随机抽取的方法，训练样本集占原始数据的三分之二，测试样本集占原始数据的三分之一。