CN105825240A

CN105825240A - 一种基于ap聚类词袋建模的行为识别方法

Info

Publication number: CN105825240A
Application number: CN201610216759.2A
Authority: CN
Inventors: 宦若虹; 郭峰; 王楚
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2016-04-07
Filing date: 2016-04-07
Publication date: 2016-08-03

Abstract

一种基于AP聚类词袋建模的行为识别方法，包括：视频的时空兴趣点检测；对检测得到的所有时空兴趣点使用3D HOG和3D HOF描述子进行描述得到联合的特征向量；对所有的特征向量进行AP聚类生成视觉词典，并用视觉词典重新描述特征向量；用视觉词典描述测试视频的特征向量；用支持向量机对前两步得到的特征进行学习和分类，得到测试视频的行为类别。本发明可以一次性获取合适的视觉词典容量，不需要像传统的词袋模型那样进行多次试验，可以极大地减少聚类时间，且该方法对联合描述的多种局部特征的聚类效果更佳，有利于提高行为识别率。

Description

一种基于AP聚类词袋建模的行为识别方法

技术领域

本发明涉及图像处理、视频处理、模式识别等领域，尤其涉及基于视频的人体行为识别领域。

背景技术

目前，在基于视频的人体行为识别领域，基于局部时空兴趣点的方法因其对各种干扰都具有较好的鲁棒性而成为目前主流的方法。这种方法通过直接对视频序列进行时空兴趣点检测并从中提取底层特征来进行行为描述，在分类和识别阶段一般会使用经典的词袋模型进行行为的建模和分类。为了提高行为识别率，当前许多基于局部特征的行为识别方法在特征提取阶段一般会联合使用多种时空兴趣点描述子，因此提取的局部时空特征往往数量庞大。所以，将词袋模型应用于视频处理时，不可能把所有的描述子矢量都看成词汇，一般将描述视频特征的某些描述子矢量看成是词汇。为了达到这个目的，通常的做法都是将所有的描述子矢量进行K-Means聚类，聚类后每个簇的中心就代表一个词汇。当使用K-Means聚类词袋模型时，为了获取最佳的词典容量进而提高识别率，一般需要进行多次试验，最后也无法确定得到的词典容量是否最优；且利用K-Means对联合描述的多种局部特征进行聚类，算法本身是否最佳也值得考虑。

发明内容

为了克服现有词袋模型在多种局部特征联合描述后建模和行为识别时效率低且识别率不高的问题，本发明提出一种基于AP聚类词袋建模的行为识别方法。该方法在特征提取阶段获得多种局部特征后，采用AP聚类算法构建视觉词典，相比传统的基于K-Means聚类算法的词袋建模方法，该方法不需要进行多次试验就能获取合适的视觉词典容量，且该方法对联合描述的多种局部特征的聚类效果更佳，有利于提高行为识别率。

本发明解决其技术问题所采用的技术方案是：

一种基于AP聚类词袋建模的行为识别方法，所述行为识别方法包括以下步骤：

步骤1，对视频进行兴趣点检测，得到时空兴趣点集；

步骤2，对检测得到的所有时空兴趣点使用3DHOG和3DHOF描述子进行描述得到联合特征向量；

步骤3，用训练视频的联合特征向量构建词袋模型，对训练视频的联合特征向量进行AP聚类生成视觉词典，并用视觉词典重新描述特征向量；

构建词袋模型的过程为：将所有训练视频的特征向量组合在一起，构建一个特征向量矩阵并进行AP聚类，若获取的聚类中心个数为K，则构建了一个具有K个单词的视觉词典，即K个关键特征，为每个训练视频分配一个K维的向量，且初始化为0，这个向量的每一维对应着视觉词典中的每个单词，计算每个训练视频对应的特征向量距离K个关键特征的距离，假定与第i个关键特征的距离最近，则在对应初始化为0的K维向量的第i个位置加1，这样就得到一个K维的特征向量，并用该特征向量表征输入视频的特征，将所有通过词典重新描述过的视频对应的特征向量进行标记，在每一类别的最后一维后面添加一维用于标记该视频的类别；

步骤4，使用步骤3聚类生成的词典重新描述测试视频的特征向量；

步骤5，使用步骤3得到的训练特征向量训练支持向量机分类器，用已训练的支持向量机分类器对步骤4得到的测试视频特征向量分类，得到测试视频行为类别。

进一步，所述步骤1中，采用Bregonzio兴趣点检测算法对视频进行兴趣点检测。

再进一步，所述步骤2中，使用3DHOG和3DHOF描述子进行联合描述的过程为：令步骤1得到的时空兴趣点为(x,y,t)，其中x,y表示兴趣点在每一帧上的坐标位置，t表示当前所在帧的时间，以每一个时空兴趣点(x,y,t)为中心构建空间立方体Patch，简称P，其大小为(H,W,T)，H、W、T分别表示立方体的高、宽、长，分别用3DHOG和3DHOF特征描述子进行描述，得到时空特征向量L，以空间立方体P的8个顶点为中心，分别构建跟P相同大小的空间立方体P₁，P₂，…，P₈，同样，分别采用3DHOG和3DHOF特征描述子进行描述，得到时空特征向量L₁，L₂，…，L₈，将得到的时空特征向量L跟L₁，L₂，…，L₈拼接在一起，得到9个空间立方体的3DHOG和3DHOF特征，作为兴趣点(x,y,t)的时空描述子。

本发明的有益效果主要表现在：提出的基于AP聚类的词袋建模方法可以一次性获取合适的视觉词典容量，不需要像传统的K-Means聚类词袋建模进行多次试验，因而可以极大地减少聚类时间；该方法对联合描述的多种局部特征的聚类效果更佳，有利于提高行为识别率。

附图说明

图1为本发明的一种基于AP聚类词袋建模的行为识别方法流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

参照图1，一种基于AP聚类词袋建模的行为识别方法，采用目前公认的经典的行为识别算法测试数据集KTH进行验证，该视频存在光照变化、尺度变化、噪声影响、摄像头抖动等情况。对数据集中所有视频进行了实验，并与传统的基于K-Means聚类的词袋模型进行对比，依次取基于K-Means聚类的词袋模型的视觉词典容量大小为300，400，500，800，1000，1500进行对比。对行为数据集采用leave-one-out的交叉验证方法，即对每个动作类，随机取其中的80％个视频当作训练集，剩余的20％作为测试集。

基于AP聚类词袋建模的行为识别方法的实施流程包括5个步骤，如图1所示，具体过程为：

1)、采用Bregonzio兴趣点检测算法对视频进行兴趣点检测，得到时空兴趣点集。

2)、对检测得到的所有时空兴趣点使用3DHOG和3DHOF描述子进行描述得到联合特征向量，最终分别得到训练视频和测试视频的基于时空兴趣点的局部特征集合。具体方法如下：

第2.1步：令步骤1)得到的时空兴趣点为(x,y,t)，其中x,y表示兴趣点在每一帧上的坐标位置，t表示当前所在帧的时间，以每一个时空兴趣点(x,y,t)为中心，构建空间立方体Patch，简称P，其大小为(H,W,T)，H、W、T分别表示立方体的高、宽、长，并分别采用3DHOG、3DHOF特征描述子进行描述，得到时空特征向量L；

第2.2步：以空间立方体P的8个顶点为中心，分别构建跟P相同大小的空间立方体P₁，P₂，…，P₈；同样，分别采用3DHOG、3DHOF特征描述子进行描述，得到时空特征向量L₁，L₂，…，L₈；

第2.3步：将得到的时空特征向量L跟L₁，L₂，…，L₈拼接在一起，得到9个空间立方体的3DHOG、3DHOF特征，作为兴趣点(x,y,t)的时空描述子；

第2.4步：确定联合描述子的维度。通常一个Patch包含18个胞体积，胞体积对应二维HOG和二维HOF中细胞单元的概念。对于HOG和HOF中每个细胞单元的描述，分别选取长度为4个区间和5个区间的直方图。所以对应的3DHOG特征维度为18×4＝72维，3DHOF特征维度为18×5＝90维，单个Patch的联合描述子的维度为72+90＝162维，特征向量L的维度为162×9＝1458维。

3)、用训练视频的联合特征向量构建词袋模型，对训练视频的联合特征向量进行AP聚类生成视觉词典，并用视觉词典重新描述特征向量。具体步骤如下：

第3.1步，将所有训练视频的特征向量组合在一起，构建一个特征向量矩阵并进行AP聚类，若获取的聚类中心个数为K，则构建了一个具有K个单词的视觉词典，即K个关键特征；

第3.2步，为每个视频分配一个K维的向量，且初始化为0，其中这个向量的每一维对应着视觉词典中的每个单词；

第3.3步，计算每个训练视频对应的特征向量距离K个关键特征的距离，假定与第i个关键特征的距离最近，则在对应初始化为0的K维向量的第i个位置加1，这样就得到一个K维的特征向量；

第3.4步，用第3.3步得到的K维特征向量重新表征输入视频的特征；

第3.5步，将所有通过词典重新描述过的视频对应的特征向量进行标记，在每一类别的最后一维后面添加一维用于标记该视频的类别，为接下去的模型训练做准备。

4)、使用步骤3)聚类生成的词典重新描述测试视频的特征向量。

5)、使用步骤3)得到的训练特征向量训练支持向量机分类器，用已训练的支持向量机分类器对步骤4得到的测试视频特征向量分类，得到测试视频行为类别。

表1为本发明方法与传统的基于K-Means聚类的词袋模型的对比结果，其中IGP值是一种评价聚类算法性能的指标，该值越大，说明聚类的效果越好。从表1中看出，在传统的基于K-Means聚类的词袋模型试验中，随着视觉词典容量的增大，IGP的值先增大后减小，相应的识别率也先提高后降低，也就是最佳的聚类数目即视觉词典容量应该在300～400之间获得。而采用本发明的AP聚类算法获取视觉词典容量不需反复试验，一次试验即可获得词典容量大小为379，正好位于区间300～400内，得到的IGP值为0.4145，明显大于使用K-Means聚类算法的IGP值，行为识别率也提高到了95.75％。从实验运行时间的角度，由表1可以看出，基于AP聚类词袋建模方法的单次运行时间远小于基于K-Means聚类的方法，这也验证了AP聚类算法适合于对高维度和大数据量数据进行聚类。

表1

为了验证AP聚类算法对联合描述的多种局部特征的聚类效果，这里在相同词典容量下分别使用AP聚类算法和K-Means聚类算法作为词袋模型的聚类算法，并指定词典容量大小为379，得到的平均识别率、IGP值和运行时间结果如表2所示。

表2

从表2可见，在相同词典容量下，K-Means聚类算法的IGP值小于AP聚类算法；使用K-Means聚类算法得到的识别率为95.10％，低于使用AP聚类算法构建词袋模型在相同的词典容量下的识别率95.75％。这两方面都说明了对于联合描述的多种局部特征，AP聚类算法本身的聚类效果要优于K-Means聚类算法。

因此，采用本发明的基于AP聚类词袋建模的行为识别方法，一方面可以有效减少试验次数，降低词袋模型的构建时间，获取合理的视觉词典容量从而提高识别率，另一方面，在相同词典容量下，对于联合描述的多种局部特征，AP聚类算法本身的聚类效果也要优于K-Means算法，可获得更高的行为识别率。

显而易见，在不偏离本发明的真实精神和范围的前提下，在此描述的本发明可以有许多变化。因此，所有对于本领域技术人员来说显而易见的改变，都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。

Claims

1.一种基于AP聚类词袋建模的行为识别方法，其特征在于：所述行为识别方法包括以下步骤：

步骤1，对视频进行兴趣点检测，得到时空兴趣点集；

2.如权利要求1所述的一种基于AP聚类词袋建模的行为识别方法，其特征在于：所述步骤1中，采用Bregonzio兴趣点检测算法对视频进行兴趣点检测。

3.如权利要求1或2所述的一种基于AP聚类词袋建模的行为识别方法，其特征在于：所述步骤2中，使用3DHOG和3DHOF描述子进行联合描述的过程为：令步骤1得到的时空兴趣点为(x,y,t)，其中x,y表示兴趣点在每一帧上的坐标位置，t表示当前所在帧的时间，以每一个时空兴趣点(x,y,t)为中心构建空间立方体Patch，简称P，其大小为(H,W,T)，H、W、T分别表示立方体的高、宽、长，分别用3DHOG和3DHOF特征描述子进行描述，得到时空特征向量L，以空间立方体P的8个顶点为中心，分别构建跟P相同大小的空间立方体P₁，P₂，…，P₈，同样，分别采用3DHOG和3DHOF特征描述子进行描述，得到时空特征向量L₁，L₂，…，L₈，将得到的时空特征向量L跟L₁，L₂，…，L₈拼接在一起，得到9个空间立方体的3DHOG和3DHOF特征，作为兴趣点(x,y,t)的时空描述子。