CN105825240A - 一种基于ap聚类词袋建模的行为识别方法 - Google Patents

一种基于ap聚类词袋建模的行为识别方法 Download PDF

Info

Publication number
CN105825240A
CN105825240A CN201610216759.2A CN201610216759A CN105825240A CN 105825240 A CN105825240 A CN 105825240A CN 201610216759 A CN201610216759 A CN 201610216759A CN 105825240 A CN105825240 A CN 105825240A
Authority
CN
China
Prior art keywords
vector
video
time
feature
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610216759.2A
Other languages
English (en)
Inventor
宦若虹
郭峰
王楚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201610216759.2A priority Critical patent/CN105825240A/zh
Publication of CN105825240A publication Critical patent/CN105825240A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

一种基于AP聚类词袋建模的行为识别方法,包括:视频的时空兴趣点检测;对检测得到的所有时空兴趣点使用3D HOG和3D HOF描述子进行描述得到联合的特征向量;对所有的特征向量进行AP聚类生成视觉词典,并用视觉词典重新描述特征向量;用视觉词典描述测试视频的特征向量;用支持向量机对前两步得到的特征进行学习和分类,得到测试视频的行为类别。本发明可以一次性获取合适的视觉词典容量,不需要像传统的词袋模型那样进行多次试验,可以极大地减少聚类时间,且该方法对联合描述的多种局部特征的聚类效果更佳,有利于提高行为识别率。

Description

一种基于AP聚类词袋建模的行为识别方法
技术领域
本发明涉及图像处理、视频处理、模式识别等领域,尤其涉及基于视频的人体行为识别领域。
背景技术
目前,在基于视频的人体行为识别领域,基于局部时空兴趣点的方法因其对各种干扰都具有较好的鲁棒性而成为目前主流的方法。这种方法通过直接对视频序列进行时空兴趣点检测并从中提取底层特征来进行行为描述,在分类和识别阶段一般会使用经典的词袋模型进行行为的建模和分类。为了提高行为识别率,当前许多基于局部特征的行为识别方法在特征提取阶段一般会联合使用多种时空兴趣点描述子,因此提取的局部时空特征往往数量庞大。所以,将词袋模型应用于视频处理时,不可能把所有的描述子矢量都看成词汇,一般将描述视频特征的某些描述子矢量看成是词汇。为了达到这个目的,通常的做法都是将所有的描述子矢量进行K-Means聚类,聚类后每个簇的中心就代表一个词汇。当使用K-Means聚类词袋模型时,为了获取最佳的词典容量进而提高识别率,一般需要进行多次试验,最后也无法确定得到的词典容量是否最优;且利用K-Means对联合描述的多种局部特征进行聚类,算法本身是否最佳也值得考虑。
发明内容
为了克服现有词袋模型在多种局部特征联合描述后建模和行为识别时效率低且识别率不高的问题,本发明提出一种基于AP聚类词袋建模的行为识别方法。该方法在特征提取阶段获得多种局部特征后,采用AP聚类算法构建视觉词典,相比传统的基于K-Means聚类算法的词袋建模方法,该方法不需要进行多次试验就能获取合适的视觉词典容量,且该方法对联合描述的多种局部特征的聚类效果更佳,有利于提高行为识别率。
本发明解决其技术问题所采用的技术方案是:
一种基于AP聚类词袋建模的行为识别方法,所述行为识别方法包括以下步骤:
步骤1,对视频进行兴趣点检测,得到时空兴趣点集;
步骤2,对检测得到的所有时空兴趣点使用3DHOG和3DHOF描述子进行描述得到联合特征向量;
步骤3,用训练视频的联合特征向量构建词袋模型,对训练视频的联合特征向量进行AP聚类生成视觉词典,并用视觉词典重新描述特征向量;
构建词袋模型的过程为:将所有训练视频的特征向量组合在一起,构建一个特征向量矩阵并进行AP聚类,若获取的聚类中心个数为K,则构建了一个具有K个单词的视觉词典,即K个关键特征,为每个训练视频分配一个K维的向量,且初始化为0,这个向量的每一维对应着视觉词典中的每个单词,计算每个训练视频对应的特征向量距离K个关键特征的距离,假定与第i个关键特征的距离最近,则在对应初始化为0的K维向量的第i个位置加1,这样就得到一个K维的特征向量,并用该特征向量表征输入视频的特征,将所有通过词典重新描述过的视频对应的特征向量进行标记,在每一类别的最后一维后面添加一维用于标记该视频的类别;
步骤4,使用步骤3聚类生成的词典重新描述测试视频的特征向量;
步骤5,使用步骤3得到的训练特征向量训练支持向量机分类器,用已训练的支持向量机分类器对步骤4得到的测试视频特征向量分类,得到测试视频行为类别。
进一步,所述步骤1中,采用Bregonzio兴趣点检测算法对视频进行兴趣点检测。
再进一步,所述步骤2中,使用3DHOG和3DHOF描述子进行联合描述的过程为:令步骤1得到的时空兴趣点为(x,y,t),其中x,y表示兴趣点在每一帧上的坐标位置,t表示当前所在帧的时间,以每一个时空兴趣点(x,y,t)为中心构建空间立方体Patch,简称P,其大小为(H,W,T),H、W、T分别表示立方体的高、宽、长,分别用3DHOG和3DHOF特征描述子进行描述,得到时空特征向量L,以空间立方体P的8个顶点为中心,分别构建跟P相同大小的空间立方体P1,P2,…,P8,同样,分别采用3DHOG和3DHOF特征描述子进行描述,得到时空特征向量L1,L2,…,L8,将得到的时空特征向量L跟L1,L2,…,L8拼接在一起,得到9个空间立方体的3DHOG和3DHOF特征,作为兴趣点(x,y,t)的时空描述子。
本发明的有益效果主要表现在:提出的基于AP聚类的词袋建模方法可以一次性获取合适的视觉词典容量,不需要像传统的K-Means聚类词袋建模进行多次试验,因而可以极大地减少聚类时间;该方法对联合描述的多种局部特征的聚类效果更佳,有利于提高行为识别率。
附图说明
图1为本发明的一种基于AP聚类词袋建模的行为识别方法流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
参照图1,一种基于AP聚类词袋建模的行为识别方法,采用目前公认的经典的行为识别算法测试数据集KTH进行验证,该视频存在光照变化、尺度变化、噪声影响、摄像头抖动等情况。对数据集中所有视频进行了实验,并与传统的基于K-Means聚类的词袋模型进行对比,依次取基于K-Means聚类的词袋模型的视觉词典容量大小为300,400,500,800,1000,1500进行对比。对行为数据集采用leave-one-out的交叉验证方法,即对每个动作类,随机取其中的80%个视频当作训练集,剩余的20%作为测试集。
基于AP聚类词袋建模的行为识别方法的实施流程包括5个步骤,如图1所示,具体过程为:
1)、采用Bregonzio兴趣点检测算法对视频进行兴趣点检测,得到时空兴趣点集。
2)、对检测得到的所有时空兴趣点使用3DHOG和3DHOF描述子进行描述得到联合特征向量,最终分别得到训练视频和测试视频的基于时空兴趣点的局部特征集合。具体方法如下:
第2.1步:令步骤1)得到的时空兴趣点为(x,y,t),其中x,y表示兴趣点在每一帧上的坐标位置,t表示当前所在帧的时间,以每一个时空兴趣点(x,y,t)为中心,构建空间立方体Patch,简称P,其大小为(H,W,T),H、W、T分别表示立方体的高、宽、长,并分别采用3DHOG、3DHOF特征描述子进行描述,得到时空特征向量L;
第2.2步:以空间立方体P的8个顶点为中心,分别构建跟P相同大小的空间立方体P1,P2,…,P8;同样,分别采用3DHOG、3DHOF特征描述子进行描述,得到时空特征向量L1,L2,…,L8
第2.3步:将得到的时空特征向量L跟L1,L2,…,L8拼接在一起,得到9个空间立方体的3DHOG、3DHOF特征,作为兴趣点(x,y,t)的时空描述子;
第2.4步:确定联合描述子的维度。通常一个Patch包含18个胞体积,胞体积对应二维HOG和二维HOF中细胞单元的概念。对于HOG和HOF中每个细胞单元的描述,分别选取长度为4个区间和5个区间的直方图。所以对应的3DHOG特征维度为18×4=72维,3DHOF特征维度为18×5=90维,单个Patch的联合描述子的维度为72+90=162维,特征向量L的维度为162×9=1458维。
3)、用训练视频的联合特征向量构建词袋模型,对训练视频的联合特征向量进行AP聚类生成视觉词典,并用视觉词典重新描述特征向量。具体步骤如下:
第3.1步,将所有训练视频的特征向量组合在一起,构建一个特征向量矩阵并进行AP聚类,若获取的聚类中心个数为K,则构建了一个具有K个单词的视觉词典,即K个关键特征;
第3.2步,为每个视频分配一个K维的向量,且初始化为0,其中这个向量的每一维对应着视觉词典中的每个单词;
第3.3步,计算每个训练视频对应的特征向量距离K个关键特征的距离,假定与第i个关键特征的距离最近,则在对应初始化为0的K维向量的第i个位置加1,这样就得到一个K维的特征向量;
第3.4步,用第3.3步得到的K维特征向量重新表征输入视频的特征;
第3.5步,将所有通过词典重新描述过的视频对应的特征向量进行标记,在每一类别的最后一维后面添加一维用于标记该视频的类别,为接下去的模型训练做准备。
4)、使用步骤3)聚类生成的词典重新描述测试视频的特征向量。
5)、使用步骤3)得到的训练特征向量训练支持向量机分类器,用已训练的支持向量机分类器对步骤4得到的测试视频特征向量分类,得到测试视频行为类别。
表1为本发明方法与传统的基于K-Means聚类的词袋模型的对比结果,其中IGP值是一种评价聚类算法性能的指标,该值越大,说明聚类的效果越好。从表1中看出,在传统的基于K-Means聚类的词袋模型试验中,随着视觉词典容量的增大,IGP的值先增大后减小,相应的识别率也先提高后降低,也就是最佳的聚类数目即视觉词典容量应该在300~400之间获得。而采用本发明的AP聚类算法获取视觉词典容量不需反复试验,一次试验即可获得词典容量大小为379,正好位于区间300~400内,得到的IGP值为0.4145,明显大于使用K-Means聚类算法的IGP值,行为识别率也提高到了95.75%。从实验运行时间的角度,由表1可以看出,基于AP聚类词袋建模方法的单次运行时间远小于基于K-Means聚类的方法,这也验证了AP聚类算法适合于对高维度和大数据量数据进行聚类。
表1
为了验证AP聚类算法对联合描述的多种局部特征的聚类效果,这里在相同词典容量下分别使用AP聚类算法和K-Means聚类算法作为词袋模型的聚类算法,并指定词典容量大小为379,得到的平均识别率、IGP值和运行时间结果如表2所示。
表2
从表2可见,在相同词典容量下,K-Means聚类算法的IGP值小于AP聚类算法;使用K-Means聚类算法得到的识别率为95.10%,低于使用AP聚类算法构建词袋模型在相同的词典容量下的识别率95.75%。这两方面都说明了对于联合描述的多种局部特征,AP聚类算法本身的聚类效果要优于K-Means聚类算法。
因此,采用本发明的基于AP聚类词袋建模的行为识别方法,一方面可以有效减少试验次数,降低词袋模型的构建时间,获取合理的视觉词典容量从而提高识别率,另一方面,在相同词典容量下,对于联合描述的多种局部特征,AP聚类算法本身的聚类效果也要优于K-Means算法,可获得更高的行为识别率。
显而易见,在不偏离本发明的真实精神和范围的前提下,在此描述的本发明可以有许多变化。因此,所有对于本领域技术人员来说显而易见的改变,都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。

Claims (3)

1.一种基于AP聚类词袋建模的行为识别方法,其特征在于:所述行为识别方法包括以下步骤:
步骤1,对视频进行兴趣点检测,得到时空兴趣点集;
步骤2,对检测得到的所有时空兴趣点使用3DHOG和3DHOF描述子进行描述得到联合特征向量;
步骤3,用训练视频的联合特征向量构建词袋模型,对训练视频的联合特征向量进行AP聚类生成视觉词典,并用视觉词典重新描述特征向量;
构建词袋模型的过程为:将所有训练视频的特征向量组合在一起,构建一个特征向量矩阵并进行AP聚类,若获取的聚类中心个数为K,则构建了一个具有K个单词的视觉词典,即K个关键特征,为每个训练视频分配一个K维的向量,且初始化为0,这个向量的每一维对应着视觉词典中的每个单词,计算每个训练视频对应的特征向量距离K个关键特征的距离,假定与第i个关键特征的距离最近,则在对应初始化为0的K维向量的第i个位置加1,这样就得到一个K维的特征向量,并用该特征向量表征输入视频的特征,将所有通过词典重新描述过的视频对应的特征向量进行标记,在每一类别的最后一维后面添加一维用于标记该视频的类别;
步骤4,使用步骤3聚类生成的词典重新描述测试视频的特征向量;
步骤5,使用步骤3得到的训练特征向量训练支持向量机分类器,用已训练的支持向量机分类器对步骤4得到的测试视频特征向量分类,得到测试视频行为类别。
2.如权利要求1所述的一种基于AP聚类词袋建模的行为识别方法,其特征在于:所述步骤1中,采用Bregonzio兴趣点检测算法对视频进行兴趣点检测。
3.如权利要求1或2所述的一种基于AP聚类词袋建模的行为识别方法,其特征在于:所述步骤2中,使用3DHOG和3DHOF描述子进行联合描述的过程为:令步骤1得到的时空兴趣点为(x,y,t),其中x,y表示兴趣点在每一帧上的坐标位置,t表示当前所在帧的时间,以每一个时空兴趣点(x,y,t)为中心构建空间立方体Patch,简称P,其大小为(H,W,T),H、W、T分别表示立方体的高、宽、长,分别用3DHOG和3DHOF特征描述子进行描述,得到时空特征向量L,以空间立方体P的8个顶点为中心,分别构建跟P相同大小的空间立方体P1,P2,…,P8,同样,分别采用3DHOG和3DHOF特征描述子进行描述,得到时空特征向量L1,L2,…,L8,将得到的时空特征向量L跟L1,L2,…,L8拼接在一起,得到9个空间立方体的3DHOG和3DHOF特征,作为兴趣点(x,y,t)的时空描述子。
CN201610216759.2A 2016-04-07 2016-04-07 一种基于ap聚类词袋建模的行为识别方法 Pending CN105825240A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610216759.2A CN105825240A (zh) 2016-04-07 2016-04-07 一种基于ap聚类词袋建模的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610216759.2A CN105825240A (zh) 2016-04-07 2016-04-07 一种基于ap聚类词袋建模的行为识别方法

Publications (1)

Publication Number Publication Date
CN105825240A true CN105825240A (zh) 2016-08-03

Family

ID=56526648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610216759.2A Pending CN105825240A (zh) 2016-04-07 2016-04-07 一种基于ap聚类词袋建模的行为识别方法

Country Status (1)

Country Link
CN (1) CN105825240A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344692A (zh) * 2018-08-10 2019-02-15 华侨大学 一种运动质量评价方法及系统
CN110059662A (zh) * 2019-04-26 2019-07-26 山东大学 一种深度视频行为识别方法及系统
CN113392697A (zh) * 2021-04-26 2021-09-14 上海师范大学 一种基于词袋模型的人体动作识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605986A (zh) * 2013-11-27 2014-02-26 天津大学 一种基于局部特征的人体动作识别方法
CN104751111A (zh) * 2013-12-31 2015-07-01 深圳先进技术研究院 识别视频中人体行为的方法和系统
CN105069434A (zh) * 2015-08-12 2015-11-18 河海大学常州校区 一种视频中人体动作行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605986A (zh) * 2013-11-27 2014-02-26 天津大学 一种基于局部特征的人体动作识别方法
CN104751111A (zh) * 2013-12-31 2015-07-01 深圳先进技术研究院 识别视频中人体行为的方法和系统
CN105069434A (zh) * 2015-08-12 2015-11-18 河海大学常州校区 一种视频中人体动作行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘浩: "基于时空关键点的动作识别算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344692A (zh) * 2018-08-10 2019-02-15 华侨大学 一种运动质量评价方法及系统
CN109344692B (zh) * 2018-08-10 2020-10-30 华侨大学 一种运动质量评价方法及系统
CN110059662A (zh) * 2019-04-26 2019-07-26 山东大学 一种深度视频行为识别方法及系统
CN110059662B (zh) * 2019-04-26 2021-03-23 山东大学 一种深度视频行为识别方法及系统
CN113392697A (zh) * 2021-04-26 2021-09-14 上海师范大学 一种基于词袋模型的人体动作识别方法

Similar Documents

Publication Publication Date Title
Wang et al. A comparative study of encoding, pooling and normalization methods for action recognition
CN103605972B (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
Wang et al. Mining motion atoms and phrases for complex action recognition
Yang et al. Action recognition using super sparse coding vector with spatio-temporal awareness
CN104036287B (zh) 一种基于人类运动显著轨迹的视频分类方法
Dutta et al. Stochastic graphlet embedding
CN105893936B (zh) 一种基于hoirm和局部特征融合的行为识别方法
Xie et al. Orientational pyramid matching for recognizing indoor scenes
CN105354593B (zh) 一种基于nmf的三维模型分类方法
CN104881671B (zh) 一种基于2D‑Gabor的高分遥感影像局部特征提取方法
CN110188708A (zh) 一种基于卷积神经网络的人脸表情识别方法
Zhang et al. Automatic discrimination of text and non-text natural images
Zheng et al. Pedestrian detection based on gradient and texture feature integration
CN103778913A (zh) 一种病理嗓音的识别方法
CN104881651B (zh) 一种基于随机投影和Fisher向量的人物行为识别方法
CN102855488A (zh) 三维手势识别方法和系统
CN105825240A (zh) 一种基于ap聚类词袋建模的行为识别方法
Xu et al. Discriminative analysis for symmetric positive definite matrices on lie groups
CN106022359A (zh) 基于有序信息熵的模糊熵空间聚类分析方法
CN114298187A (zh) 一种融合改进注意力机制的目标检测算法
Mejdoub et al. Bag of frequent subgraphs approach for image classification
CN102609718A (zh) 一种结合不同聚类算法生成视觉字典集体的方法
CN103778439A (zh) 基于动态时空信息挖掘的人体轮廓重构方法
Zhang et al. Action recognition based on spatial-temporal pyramid sparse coding
Cortés et al. A new bag of visual words encoding method for human action recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160803