CN105956604B - 一种基于两层时空邻域特征的动作识别方法 - Google Patents

一种基于两层时空邻域特征的动作识别方法 Download PDF

Info

Publication number
CN105956604B
CN105956604B CN201610249150.5A CN201610249150A CN105956604B CN 105956604 B CN105956604 B CN 105956604B CN 201610249150 A CN201610249150 A CN 201610249150A CN 105956604 B CN105956604 B CN 105956604B
Authority
CN
China
Prior art keywords
layer
space
video
point
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610249150.5A
Other languages
English (en)
Other versions
CN105956604A (zh
Inventor
胡海峰
肖翔
张伟
顾建权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
SYSU CMU Shunde International Joint Research Institute
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SYSU CMU Shunde International Joint Research Institute, National Sun Yat Sen University filed Critical SYSU CMU Shunde International Joint Research Institute
Priority to CN201610249150.5A priority Critical patent/CN105956604B/zh
Publication of CN105956604A publication Critical patent/CN105956604A/zh
Application granted granted Critical
Publication of CN105956604B publication Critical patent/CN105956604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Abstract

本发明公开一种基于两层时空邻域特征的动作识别方法,包括:对输入的视频,根据视频中连续帧的运动方向变化信息,提取运动变化模式特征作为视频的第一层原始特征。对第一层特征采用改进的词袋模型进行特征建模,得到第一层特征的向量表示。根据第一层中的每个局部兴趣点和最近邻若干兴趣点之间的时空关系,计算出第二层时空特征。对第二层特征采用改进的词袋模型进行特征建模,得到第二层特征的向量表示。将第一、二层的向量表示级联,形成视频最终的中层特征表达。采用支持向量机进行特征分类,得到识别准确率。本发明能有效地获取最近邻兴趣点的相对位置信息和类别信息,并结合了改进的词袋模型方法进行特征建模,显著提高了动作识别的准确率。

Description

一种基于两层时空邻域特征的动作识别方法
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于两层时空邻域特征的动作识别方法。
背景技术
科技的发展使得摄像设备得到了普及,数量巨大的视频数据也随之产生。同时,针对视频的应用也应运而生:智能视频监控、视频数据分类、高级人机交互等。在这些应用中,针对人的动作进行理解是最核心的关注点,也是人们研究的核心内容。
由于人体动作识别有很大的潜在价值,所以此课题作为一个研究热点已经持续了至少十年时间,很多种方法都被提出,例如:基于状态空间的方法、基于全局的方法、基于时空兴趣点的方法以及基于卷积神经网络的方法等。其中,基于时空兴趣点的方法和基于CNN的方法研究的人数众多,这两种方法能够取得目前最好的结果。然而,深层CNN网络由于有大量的参数需要通过学习获得,而目前绝大部分数据集并不能满足深层CNN网络学习所需的规模,因此限制了深层CNN网络在动作识别领域的应用。此外,深层CNN网络的训练过程所耗费的时间相当多,对参数进行优化是一个长期的过程,这个条件进一步限制了CNN方法在基于视频的动作识别领域的延伸。所以,我们的动作识别研究将针对基于时空兴趣点的方法。
基于时空兴趣点的方法的主要步骤是:首先,对视频进行时空兴趣点检测,然后对兴趣点进行描述;接下来对这些特征点描述子采用词袋模型进行编码,生成最终的视频层表达特征;这些特征会被放入分类器中进行分类,以完成最终的识别过程。很多学者在这个基础上进行了探索和改进。Laptev等人二维图像的兴趣点扩展到三维时空领域,首次提出时空兴趣点的概念。Dollar等人提出了一种时空窗的方法来检测时空兴趣点。在特征表示方面,多种兴趣点特征描述子被提取出来描述行为。Laptev等人提取梯度方向直方图特征(HOG)和光流直方图特征(HOF),Wang等人提出了形状特征(TS),HOG特征,HOF特征,运动边缘直方图特征(MBH)来描述局部的轨迹。上述方法都取得了较好的效果,但是现存的基于时空兴趣点的研究通常忽略了局部时空兴趣点之间的时空关系,而这种关系对于提高基于时空兴趣点方法的识别准确率是有帮助的。
发明内容
为了克服上述现有技术的不足,本发明提供了一种基于两层时空邻域特征的动作识别方法。该方法将视频数据集的视频作为输入,进行视频两层特征提取和识别,最后输出视频的分类结果。
为了达到上述目的,本发明采用的技术方案是:
一种基于两层时空邻域特征的动作识别方法,包括以下步骤:
(1)输入待识别的视频,根据视频中连续帧的运动方向变化信息,提取运动变化模式特征作为视频的第一层原始特征;
(2)对第一层原始特征采用包含k-means++聚类方法的改进的词袋模型进行特征建模,得到第一层原始特征的向量表示;
(3)根据第一层原始特征中的每个局部兴趣点和最近邻若干兴趣点之间的时空关系,计算出第二层时空特征;
(4)对第二层时空特征同样采用步骤(2)中改进的词袋模型进行特征建模,得到第二层时空特征的向量表示;
(5)将第一层原始特征和第二层时空特征的向量表示级联起来,形成该视频最终的中层特征表达;
(6)采用支持向量机(SVM)进行特征分类,最终输出动作视频的识别准确率;
所述改进的词袋模型的具体实现包括数据聚类和计算统计频率直方图这两个步骤,其聚类是采用k-means++,方法k-means++方法的描述如下:
(3-1)从输入的数据点集合中随机选择一个点作为第一个聚类中心;
(3-2)对于数据集中的每一个点x,计算它与已选择的聚类中心中最近的聚类中心的距离D(x);
(3-3)选择一个新的数据点作为新的聚类中心,其选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大;
(3-4)重复步骤(3-2)和(3-3)直到k个聚类中心被选出来;
(3-5)利用这k个初始的聚类中心来运行标准的k-means算法。
上述技术方案中,聚类这一步中,采用k-means++方法而不是标准的k-means算法。标准的k-means算法是最为经典的基于划分的聚类方法,它的基本思想是:以样本空间中随机的k个点为中心进行聚类,对最靠近他们的样本点归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。而k-means++方法选择初始聚类中心的基本思想是:初始的聚类中心之间的相互距离不能取得太近,以免影响后面的聚类效果。
本发明基于时空邻域特征方法,通过探索相邻兴趣点之间的时空关系,提出了一种新的邻域特征表示,它能够有效地获取最近邻兴趣点的相对位置信息和类别信息,并且结合了改进的词袋模型方法进行特征建模,显著提高了动作识别的准确率。
优选的,所述步骤(1)中,通过比较每连续三帧中当前帧的块(patch)和上一帧块以及下一帧块像素的平方差之和(SSD),得到视频中连续帧的运动方向变化信息,并对其进行编码,提取出运动变化模式(Motion Interchange Pattern,MIP)特征。
优选的,步骤(3)中,基于第一层原始特征(运动变化模式特征MotionInterchange Pattern,MIP)中的每一个特征点,即中心点,通过欧氏距离计算出与该中心点最近邻的s个兴趣点,然后计算出每个最近邻的兴趣点与该中心点的相对空间位置,将该位置信息用8个bin来描述,由于每一个最近邻的兴趣点的类别信息已经通过上一步的k-means++计算得到,假设上一步聚成了k类,则将位置方向信息和类别信息二者结合起来,最终形成一个s×8k维的向量用来描述每个中心点。该向量获取了该中心点最近邻的s个兴趣点的时空特征,即第二层时空特征。
本发明相对于现有技术具有如下的优点及效果:
1、本发明提出了一种新的两层时空邻域描述子特征。第一层表示原始的局部特征,并提取第一层特征的最近邻兴趣点的位置方向信息和类别信息作为第二层的表示。
2、本发明利用的k-means++能够有效地提升聚类效果,达到提升识别准确率的作用。
附图说明
图1为本发明的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
附图给出了本发明的操作过程,如图1所示,一种基于两层时空邻域特征的动作识别方法,包括以下步骤:
(1)根据视频中连续帧的运动方向变化信息,提取运动变化模式特征作为视频的第一层原始特征;
(2)对第一层特征采用改进的词袋模型进行特征建模,得到第一层特征的向量表示;
(3)根据第一层中的每个局部兴趣点和最近邻若干兴趣点之间的时空关系,计算出第二层时空特征;
(4)对第二层特征采用改进的词袋模型进行特征建模,得到第二层特征的向量表示;
(5)将第一层和第二层的向量表示级联起来,形成该视频最终的中层特征表达;
(6)采用支持向量机(SVM)进行特征分类,最终输出动作视频的识别准确率。
进一步地,步骤(1)中的具体过程如下:通过比较每连续三帧中当前帧的块(patch)和上一帧以及下一帧块像素的平方差之和(SSD),得到块的运动方向变化信息,并对其进行编码,提取出运动变化模式(Motion Interchange Pattern,MIP)特征。
步骤(2)中的具体过程如下:采用改进的词袋模型通常包括聚类和统计直方图这两个步骤。在聚类这一步中,采用k-means++而不是常规的k-means方法,k-means++相对于k-means的不同之处在于它对聚类中心进行了初始化。k-means++算法选择初始聚类中心的基本思想就是:初始的聚类中心之间的相互距离要尽可能的远。对该算法的描述如下:
(2-1)从输入的数据点集合中随机选择一个点作为第一个聚类中心;
(2-2)对于数据集中的每一个点x,计算它与最近聚类中心(已选择的聚类中心)的距离D(x);
(2-3)选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大;
(2-4)重复2和3直到k个聚类中心被选出来;
(2-5)利用这k个初始的聚类中心来运行标准的k-means算法。
步骤(3)中的具体过程如下:根据第一层特征MIP中的每一个特征点(称为中心点)通过欧氏距离计算出与其最近邻的s个兴趣点,然后计算出每个相邻点与该中心点的相对空间位置,将该位置信息用8个bin描述,由于每一个相邻点的类别信息以及通过上一步的k-means++计算得到,假设聚成k类,则将位置方向信息和类别信息二者结合起来,最终形成一个s×8k维的向量表示每个特征点。该向量获取了该特征点相邻的s个兴趣点的时空特征。

Claims (3)

1.一种基于两层时空邻域特征的动作识别方法,其特征在于,包括以下步骤:
(1)输入待识别的视频,根据视频中连续帧的运动方向变化信息,提取运动变化模式特征作为视频的第一层原始特征;
(2)对第一层原始特征采用包含k-means++聚类方法的改进的词袋模型进行特征建模,得到第一层原始特征的向量表示;
(3)根据第一层原始特征中的每个局部兴趣点和最近邻若干兴趣点之间的时空关系,计算出第二层时空特征;
(4)对第二层时空特征同样采用改进的词袋模型进行特征建模,得到第二层时空特征的向量表示;
(5)将第一层原始特征和第二层时空特征的向量表示级联起来,形成该视频最终的中层特征表达;
(6)采用支持向量机(SVM)进行特征分类,最终输出动作视频的识别准确率;
所述改进的词袋模型的具体实现包括数据聚类和计算统计频率直方图这两个步骤,其聚类是采用k-means++方法,k-means++方法的描述如下:
(3-1)从输入的数据点集合中随机选择一个点作为第一个聚类中心;
(3-2)对于数据集中的每一个点x,计算它与已选择的聚类中心中最近的聚类中心的距离D(x);
(3-3)选择一个新的数据点作为新的聚类中心,其选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大;
(3-4)重复步骤(3-2)和(3-3)直到k个聚类中心被选出来;
(3-5)利用这k个初始的聚类中心来运行标准的k-means算法。
2.根据权利要求1所述的基于两层时空邻域特征的动作识别方法,其特征在于,所述步骤(1)中,通过比较每连续三帧中当前帧的块和上一帧块以及下一帧块像素的平方差之和,得到视频中连续帧的运动方向变化信息,并对其进行编码,提取出运动变化模式特征。
3.根据权利要求1所述的基于两层时空邻域特征的动作识别方法,其特征在于,所述步骤(3)中,基于第一层原始特征中的每一个特征点,即中心点,通过欧氏距离计算出与该中心点最近邻的s个兴趣点,然后计算出每个最近邻的兴趣点与该中心点的相对空间位置,将该位置信息用8个bin来描述,由于每一个最近邻的兴趣点的类别信息已经通过上一步的k-means++计算得到,假设上一步聚成了k类,则将位置方向信息和类别信息二者结合起来,最终形成一个s×8k维的向量用来描述每个中心点,该向量获取了该中心点最近邻的s个兴趣点的时空特征,即第二层时空特征。
CN201610249150.5A 2016-04-20 2016-04-20 一种基于两层时空邻域特征的动作识别方法 Active CN105956604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610249150.5A CN105956604B (zh) 2016-04-20 2016-04-20 一种基于两层时空邻域特征的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610249150.5A CN105956604B (zh) 2016-04-20 2016-04-20 一种基于两层时空邻域特征的动作识别方法

Publications (2)

Publication Number Publication Date
CN105956604A CN105956604A (zh) 2016-09-21
CN105956604B true CN105956604B (zh) 2019-12-24

Family

ID=56917781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610249150.5A Active CN105956604B (zh) 2016-04-20 2016-04-20 一种基于两层时空邻域特征的动作识别方法

Country Status (1)

Country Link
CN (1) CN105956604B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845375A (zh) * 2017-01-06 2017-06-13 天津大学 一种基于层级化特征学习的动作识别方法
CN109241932B (zh) * 2018-09-21 2021-07-06 长江师范学院 一种基于运动方差图相位特征的热红外人体动作识别方法
CN112929732B (zh) * 2019-12-06 2022-07-08 腾讯科技(深圳)有限公司 视频的处理方法、装置和计算机存储介质
CN111368762A (zh) * 2020-03-09 2020-07-03 金陵科技学院 基于改进的K-means聚类算法的机器人手势识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043967A (zh) * 2010-12-08 2011-05-04 中国科学院自动化研究所 一种有效的运动目标行为建模与识别方法
CN104298974A (zh) * 2014-10-10 2015-01-21 北京工业大学 一种基于深度视频序列的人体行为识别方法
CN104408396A (zh) * 2014-08-28 2015-03-11 浙江工业大学 一种基于时间金字塔局部匹配窗口的动作识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120084747A1 (en) * 2010-10-01 2012-04-05 Nec Laboratories America, Inc. Partitioned iterative convergance programming model

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043967A (zh) * 2010-12-08 2011-05-04 中国科学院自动化研究所 一种有效的运动目标行为建模与识别方法
CN104408396A (zh) * 2014-08-28 2015-03-11 浙江工业大学 一种基于时间金字塔局部匹配窗口的动作识别方法
CN104298974A (zh) * 2014-10-10 2015-01-21 北京工业大学 一种基于深度视频序列的人体行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Recognising action as clouds of space-time interest points;Bregonzio,M 等;《2014 IEEE Conference on Computer Vision and Pattern Recognition》;20091231;第1948-1955页 *
基于局部时空特征的人体行为软分类识别;吕温;《计算机与现代化》;20140330(第3期);第94-99页 *

Also Published As

Publication number Publication date
CN105956604A (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN109389055B (zh) 基于混合卷积和注意力机制的视频分类方法
Zhou et al. Global and local-contrast guides content-aware fusion for RGB-D saliency prediction
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN111639544B (zh) 基于多分支跨连接卷积神经网络的表情识别方法
CN110210431B (zh) 一种基于点云语义标注和优化的点云分类方法
CN105956604B (zh) 一种基于两层时空邻域特征的动作识别方法
CN109325507B (zh) 结合超像素显著性特征与hog特征图像分类方法和系统
Sekma et al. Human action recognition based on multi-layer fisher vector encoding method
Chen et al. TriViews: A general framework to use 3D depth data effectively for action recognition
Rabiee et al. Crowd behavior representation: an attribute-based approach
CN111488932A (zh) 一种基于帧率感知的自监督视频时-空表征学习方法
Prabhu et al. Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism.
Zhao et al. Multifeature fusion action recognition based on key frames
Muzammul et al. A survey on deep domain adaptation and tiny object detection challenges, techniques and datasets
CN109002808B (zh) 一种人体行为识别方法及系统
Qin et al. Application of video scene semantic recognition technology in smart video
Mursalin et al. Deep learning for 3D ear detection: A complete pipeline from data generation to segmentation
Tian et al. Context and locality constrained linear coding for human action recognition
CN111104924B (zh) 一种识别低分辨率商品图像的处理算法
Liu et al. Dap3d-net: Where, what and how actions occur in videos?
CN117218351A (zh) 基于局部和全局上下文感知的三维点云语义分割方法
CN106033546A (zh) 基于自上而下学习的行为分类方法
Sabater et al. Event Transformer+. A multi-purpose solution for efficient event data processing
El‐Masry et al. Action recognition by discriminative EdgeBoxes
Hao et al. Facial expression recognition based on regional adaptive correlation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170316

Address after: 528300 Guangdong province Foshan city Shunde District Daliang South Road No. 9 Research Institute

Applicant after: Internation combination research institute of Carnegie Mellon University of Shunde Zhongshan University

Applicant after: Sun Yat-sen University

Address before: 528300 Guangdong province Foshan city Shunde District Daliang South Road No. 9 Research Institute

Applicant before: Internation combination research institute of Carnegie Mellon University of Shunde Zhongshan University

GR01 Patent grant
GR01 Patent grant