CN105956604B

CN105956604B - 一种基于两层时空邻域特征的动作识别方法

Info

Publication number: CN105956604B
Application number: CN201610249150.5A
Authority: CN
Inventors: 胡海峰; 肖翔; 张伟; 顾建权
Original assignee: SYSU CMU Shunde International Joint Research Institute; National Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2016-04-20
Filing date: 2016-04-20
Publication date: 2019-12-24
Anticipated expiration: 2036-04-20
Also published as: CN105956604A

Abstract

本发明公开一种基于两层时空邻域特征的动作识别方法，包括：对输入的视频，根据视频中连续帧的运动方向变化信息，提取运动变化模式特征作为视频的第一层原始特征。对第一层特征采用改进的词袋模型进行特征建模，得到第一层特征的向量表示。根据第一层中的每个局部兴趣点和最近邻若干兴趣点之间的时空关系，计算出第二层时空特征。对第二层特征采用改进的词袋模型进行特征建模，得到第二层特征的向量表示。将第一、二层的向量表示级联，形成视频最终的中层特征表达。采用支持向量机进行特征分类，得到识别准确率。本发明能有效地获取最近邻兴趣点的相对位置信息和类别信息，并结合了改进的词袋模型方法进行特征建模，显著提高了动作识别的准确率。

Description

一种基于两层时空邻域特征的动作识别方法

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种基于两层时空邻域特征的动作识别方法。

背景技术

科技的发展使得摄像设备得到了普及，数量巨大的视频数据也随之产生。同时，针对视频的应用也应运而生：智能视频监控、视频数据分类、高级人机交互等。在这些应用中，针对人的动作进行理解是最核心的关注点，也是人们研究的核心内容。

由于人体动作识别有很大的潜在价值，所以此课题作为一个研究热点已经持续了至少十年时间，很多种方法都被提出，例如：基于状态空间的方法、基于全局的方法、基于时空兴趣点的方法以及基于卷积神经网络的方法等。其中，基于时空兴趣点的方法和基于CNN的方法研究的人数众多，这两种方法能够取得目前最好的结果。然而，深层CNN网络由于有大量的参数需要通过学习获得，而目前绝大部分数据集并不能满足深层CNN网络学习所需的规模，因此限制了深层CNN网络在动作识别领域的应用。此外，深层CNN网络的训练过程所耗费的时间相当多，对参数进行优化是一个长期的过程，这个条件进一步限制了CNN方法在基于视频的动作识别领域的延伸。所以，我们的动作识别研究将针对基于时空兴趣点的方法。

基于时空兴趣点的方法的主要步骤是：首先，对视频进行时空兴趣点检测，然后对兴趣点进行描述；接下来对这些特征点描述子采用词袋模型进行编码，生成最终的视频层表达特征；这些特征会被放入分类器中进行分类，以完成最终的识别过程。很多学者在这个基础上进行了探索和改进。Laptev等人二维图像的兴趣点扩展到三维时空领域，首次提出时空兴趣点的概念。Dollar等人提出了一种时空窗的方法来检测时空兴趣点。在特征表示方面，多种兴趣点特征描述子被提取出来描述行为。Laptev等人提取梯度方向直方图特征(HOG)和光流直方图特征(HOF)，Wang等人提出了形状特征(TS)，HOG特征，HOF特征，运动边缘直方图特征(MBH)来描述局部的轨迹。上述方法都取得了较好的效果，但是现存的基于时空兴趣点的研究通常忽略了局部时空兴趣点之间的时空关系，而这种关系对于提高基于时空兴趣点方法的识别准确率是有帮助的。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于两层时空邻域特征的动作识别方法。该方法将视频数据集的视频作为输入，进行视频两层特征提取和识别，最后输出视频的分类结果。

为了达到上述目的，本发明采用的技术方案是：

一种基于两层时空邻域特征的动作识别方法，包括以下步骤：

(1)输入待识别的视频，根据视频中连续帧的运动方向变化信息，提取运动变化模式特征作为视频的第一层原始特征；

(2)对第一层原始特征采用包含k-means++聚类方法的改进的词袋模型进行特征建模，得到第一层原始特征的向量表示；

(3)根据第一层原始特征中的每个局部兴趣点和最近邻若干兴趣点之间的时空关系，计算出第二层时空特征；

(4)对第二层时空特征同样采用步骤(2)中改进的词袋模型进行特征建模，得到第二层时空特征的向量表示；

(5)将第一层原始特征和第二层时空特征的向量表示级联起来，形成该视频最终的中层特征表达；

(6)采用支持向量机(SVM)进行特征分类，最终输出动作视频的识别准确率；

所述改进的词袋模型的具体实现包括数据聚类和计算统计频率直方图这两个步骤，其聚类是采用k-means++，方法k-means++方法的描述如下：

(3-1)从输入的数据点集合中随机选择一个点作为第一个聚类中心；

(3-2)对于数据集中的每一个点x，计算它与已选择的聚类中心中最近的聚类中心的距离D(x)；

(3-3)选择一个新的数据点作为新的聚类中心，其选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大；

(3-4)重复步骤(3-2)和(3-3)直到k个聚类中心被选出来；

(3-5)利用这k个初始的聚类中心来运行标准的k-means算法。

上述技术方案中，聚类这一步中，采用k-means++方法而不是标准的k-means算法。标准的k-means算法是最为经典的基于划分的聚类方法，它的基本思想是：以样本空间中随机的k个点为中心进行聚类，对最靠近他们的样本点归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。而k-means++方法选择初始聚类中心的基本思想是：初始的聚类中心之间的相互距离不能取得太近，以免影响后面的聚类效果。

本发明基于时空邻域特征方法，通过探索相邻兴趣点之间的时空关系，提出了一种新的邻域特征表示，它能够有效地获取最近邻兴趣点的相对位置信息和类别信息，并且结合了改进的词袋模型方法进行特征建模，显著提高了动作识别的准确率。

优选的，所述步骤(1)中，通过比较每连续三帧中当前帧的块(patch)和上一帧块以及下一帧块像素的平方差之和(SSD)，得到视频中连续帧的运动方向变化信息，并对其进行编码，提取出运动变化模式(Motion Interchange Pattern,MIP)特征。

优选的，步骤(3)中，基于第一层原始特征(运动变化模式特征MotionInterchange Pattern,MIP)中的每一个特征点，即中心点，通过欧氏距离计算出与该中心点最近邻的s个兴趣点，然后计算出每个最近邻的兴趣点与该中心点的相对空间位置，将该位置信息用8个bin来描述，由于每一个最近邻的兴趣点的类别信息已经通过上一步的k-means++计算得到，假设上一步聚成了k类，则将位置方向信息和类别信息二者结合起来，最终形成一个s×8k维的向量用来描述每个中心点。该向量获取了该中心点最近邻的s个兴趣点的时空特征，即第二层时空特征。

本发明相对于现有技术具有如下的优点及效果：

1、本发明提出了一种新的两层时空邻域描述子特征。第一层表示原始的局部特征，并提取第一层特征的最近邻兴趣点的位置方向信息和类别信息作为第二层的表示。

2、本发明利用的k-means++能够有效地提升聚类效果，达到提升识别准确率的作用。

附图说明

图1为本发明的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

附图给出了本发明的操作过程，如图1所示，一种基于两层时空邻域特征的动作识别方法，包括以下步骤：

(1)根据视频中连续帧的运动方向变化信息，提取运动变化模式特征作为视频的第一层原始特征；

(2)对第一层特征采用改进的词袋模型进行特征建模，得到第一层特征的向量表示；

(3)根据第一层中的每个局部兴趣点和最近邻若干兴趣点之间的时空关系，计算出第二层时空特征；

(4)对第二层特征采用改进的词袋模型进行特征建模，得到第二层特征的向量表示；

(5)将第一层和第二层的向量表示级联起来，形成该视频最终的中层特征表达；

(6)采用支持向量机(SVM)进行特征分类，最终输出动作视频的识别准确率。

进一步地，步骤(1)中的具体过程如下：通过比较每连续三帧中当前帧的块(patch)和上一帧以及下一帧块像素的平方差之和(SSD)，得到块的运动方向变化信息，并对其进行编码，提取出运动变化模式(Motion Interchange Pattern,MIP)特征。

步骤(2)中的具体过程如下：采用改进的词袋模型通常包括聚类和统计直方图这两个步骤。在聚类这一步中，采用k-means++而不是常规的k-means方法，k-means++相对于k-means的不同之处在于它对聚类中心进行了初始化。k-means++算法选择初始聚类中心的基本思想就是：初始的聚类中心之间的相互距离要尽可能的远。对该算法的描述如下:

(2-1)从输入的数据点集合中随机选择一个点作为第一个聚类中心；

(2-2)对于数据集中的每一个点x，计算它与最近聚类中心(已选择的聚类中心)的距离D(x)；

(2-3)选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大；

(2-4)重复2和3直到k个聚类中心被选出来；

(2-5)利用这k个初始的聚类中心来运行标准的k-means算法。

步骤(3)中的具体过程如下：根据第一层特征MIP中的每一个特征点(称为中心点)通过欧氏距离计算出与其最近邻的s个兴趣点，然后计算出每个相邻点与该中心点的相对空间位置，将该位置信息用8个bin描述，由于每一个相邻点的类别信息以及通过上一步的k-means++计算得到，假设聚成k类，则将位置方向信息和类别信息二者结合起来，最终形成一个s×8k维的向量表示每个特征点。该向量获取了该特征点相邻的s个兴趣点的时空特征。

Claims

1.一种基于两层时空邻域特征的动作识别方法，其特征在于，包括以下步骤：

(4)对第二层时空特征同样采用改进的词袋模型进行特征建模，得到第二层时空特征的向量表示；

所述改进的词袋模型的具体实现包括数据聚类和计算统计频率直方图这两个步骤，其聚类是采用k-means++方法，k-means++方法的描述如下：

(3-4)重复步骤(3-2)和(3-3)直到k个聚类中心被选出来；

(3-5)利用这k个初始的聚类中心来运行标准的k-means算法。

2.根据权利要求1所述的基于两层时空邻域特征的动作识别方法，其特征在于，所述步骤(1)中，通过比较每连续三帧中当前帧的块和上一帧块以及下一帧块像素的平方差之和，得到视频中连续帧的运动方向变化信息，并对其进行编码，提取出运动变化模式特征。

3.根据权利要求1所述的基于两层时空邻域特征的动作识别方法，其特征在于，所述步骤(3)中，基于第一层原始特征中的每一个特征点，即中心点，通过欧氏距离计算出与该中心点最近邻的s个兴趣点，然后计算出每个最近邻的兴趣点与该中心点的相对空间位置，将该位置信息用8个bin来描述，由于每一个最近邻的兴趣点的类别信息已经通过上一步的k-means++计算得到，假设上一步聚成了k类，则将位置方向信息和类别信息二者结合起来，最终形成一个s×8k维的向量用来描述每个中心点，该向量获取了该中心点最近邻的s个兴趣点的时空特征，即第二层时空特征。