CN107220597B - 一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法 - Google Patents
一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法 Download PDFInfo
- Publication number
- CN107220597B CN107220597B CN201710329538.0A CN201710329538A CN107220597B CN 107220597 B CN107220597 B CN 107220597B CN 201710329538 A CN201710329538 A CN 201710329538A CN 107220597 B CN107220597 B CN 107220597B
- Authority
- CN
- China
- Prior art keywords
- particle
- human body
- key frame
- vector
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
- G06V10/424—Syntactic representation, e.g. by using alphabets or grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Abstract
本发明公开了一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法,属于计算机视觉领域。针对局部特征和词袋模型的人体动作识别过程,基于离散粒子群采用夹角余弦值作为适应度值评价关键帧选取前后表征人体动作特征相似度,从原始动作视频中选取与原始动作视频表征动作特征最相似的一组图像作为关键帧。本发明提出的关键帧选取方法可以自动确定关键帧选取数目,避免了基于全局特征选取关键帧计算量大且对背景及光照敏感以及动作识别准确率降低等不足,保证了较高的人体动作识别准确率。
Description
技术领域
本发明涉及一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法,属于计算机视觉技术领域。
背景技术
人体动作识别广泛应用于人机交互、智能监控、虚拟现实等领域。基于局部特征和词袋模型的人体动作识别方法由于计算简单鲁棒性高等特点受到广泛关注。但人体动作识别的视频图像帧数多,不同帧包含了相同的人体动作特征,存在数据量大,用于动作识别的信息冗余等问题,导致识别速度慢和识别准确率低。因此对人体动作视频进行有效的关键帧选取可以去除冗余信息,减少动作识别过程中的特征数目,同时保证人体动作识别准确率。
目前,常见的关键帧选取方法首先要对原始视频进行镜头分割。Zhuang等通过对不同镜头中所有帧的颜色直方图向量聚类选取关键帧,聚类中心个数即为关键帧选取数目,但聚类中心数目需要人为确定。为自动确定关键帧的提取数目,Magda等利用相邻两帧的颜色直方图差分作为适应度值通过离散粒子群选取关键帧,但基于全局特征进行人体动作识别,不仅运算量高且对背景及光照变化敏感。Zhao等利用局部时空特征的信息熵选取关键帧进行人体动作识别,但该方法无法自动确定关键帧选取数目,利用该方法选取的关键帧进行人体动作识别的准确率有所降低。
因此,针对目前关键帧选取方法关键帧选取数目需人为确定、基于全局特征计算量大且对背景及光照敏感以及动作识别准确率降低等不足,本发明提出一种基于局部特征和词袋模型自动确定关键帧数目的关键帧选取方法,利用本发明选取的关键帧进行人体动作识别,保证了较高的准确率。
发明内容
本发明针对局部特征和词袋模型人体动作识别过程视频图像帧数多,信息量大,不同帧图像中动作特征冗余,导致识别准确率低等问题提出一种关键帧选取方法。基于离散粒子群采用夹角余弦值作为适应度值评价关键帧选取前后表征人体动作特征相似度,从原始动作视频中选取与原始动作视频表征动作特征最相似的一组图像帧作为关键帧。
本发明采用的技术方案为一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法,基于局部特征和词袋模型的人体动作识别过程如下:首先提取人体动作局部特征,将局部特征聚类映射为不同的视觉词汇,所有视觉词汇构成视觉词典。
计算每个人体动作视频所有视觉词汇出现的概率,得到视觉词汇分布特征向量直方图h=(h1,h2,...,hi,...,hn)。其中hi为第i个视觉词汇在人体动作视频中出现的概率,n为视觉词典大小。将h作为描述人体动作视频的特征向量输入分类器进行动作识别。
采用局部特征和词袋模型基于离散粒子群选取关键帧进行人体动作识别的特征在于:如图1所示,包括以下步骤:
步骤一设定初始参数
利用离散粒子群选取人体动作视频关键帧的初始参数设定包括:种群个数N,迭代次数M,随机粒子及速度:Xi,Vi,i=1,2,...,N。
其中随机粒子Xi为二进制向量,长度等于原始人体动作视频帧数m。向量中元素值为1表示选取该帧为关键帧,否则为0。速度向量Vi的长度和Xi相同,向量中的每一项为0-1的随机数,表征随机粒子中元素为1的概率。
步骤二计算每个粒子的适应度值
采用原始人体动作视频和所有选取的关键帧对应的局部特征向量直方图的夹角余弦值作为适应度值,计算公式如下:
向量h表示原始动作视频的特征向量直方图,向量hi表示随机粒子Xi选取的所有关键帧对应的局部特征向量直方图。
步骤三获得初始粒子群的最优适应度和最优粒子
计算每个粒子的适应度值后,初始粒子群的最优适应度为:
fmax=max(f(hi,h)) (2)
最优适应度取值所对应的粒子Xi即为初始粒子群的最优粒子。
步骤四速度更新
对粒子群中所有粒子进行速度更新:
其中,Vi k+1为第i个粒子第k+1次迭代后的速度,Vi k为第i个粒子第k次迭代后的速度,为第i个粒子第k次迭代后的结果,pbest为粒子的个体最优解,即同一粒子在迭代过程中最优适应度取值所对应的粒子。gbest为种群全局最优解,即迭代过程中全局最优适应度值所对应的粒子。r1和r2为0-1之间的随机数。通过pbest及gbest修正粒子寻优路径,加速寻找最能表征人体动作特征的关键帧。
步骤五速度修正
速度向量中每一项对应粒子中该位置元素为1的概率,因此为使得速度向量中的每一项的值在0到1之间,引入标准sigmoid函数进行速度修正:
其中,Vid为第i个粒子的速度向量Vi第d个元素的值,d=1,2,...,m。exp()为指数函数。V′id为速度向量Vi第d个元素修正后的速度值。
步骤六粒子更新
根据每个粒子的速度向量对粒子进行更新:
其中,Xid为粒子Xi中第d个元素的值,rand()为0-1间的随机数。
重复步骤四、步骤五、步骤六,当迭代次数达到步骤一中设置的迭代次数M时,gbest中所有值为1的项对应的位置即为人体动作视频选取的关键帧帧序。
以上就是本发明提出的关键帧选取步骤。
本发明的有益效果在于:提出的关键帧选取方法无需对原始视频进行镜头分割,基于局部特征运算量减少且受背景及光照变化影响小,自动确定关键帧选取数目,保证人体动作识别准确率。
附图说明
图1是本发明所述的人体动作视频关键帧选取流程图。
图2是本发明具体实施方式所述的基于关键帧选取的人体动作识别流程图。
图3是本发明具体实施方式所述的KTH单人动作数据库6个动作、不同场景的部分图例。
图4是本发明具体实施方式所述的3D Harris人体动作视频时空兴趣点提取结果。
图5是本发明具体实施方式所述的关键帧选取结果图。
具体实施方式
下面结合实例及附图对本发明作进一步的描述,需要说明的是,实施例并不限定本发明要求保护的范围。
选用KTH单人动作数据库进行仿真实验,KTH单人数据库包括行走、慢跑、跑步、拳击、鼓掌、挥手6个动作,每种动作包含25个人4个不同场景共100个动作视频图像序列。图3给出KTH数据库中四个场景6个不同动作的示例图像。
基于局部特征和词袋模型的关键帧选取和人体动作识别流程如图2所示:
采用3D Harris方法提取时空兴趣点作为人体动作识别局部特征,时空兴趣点描述器采用HOG3D描述法。不同动作图像时空兴趣点局部特征提取结果如图4所示。每个动作选取80个动作视频为训练样本,其余20个为测试样本进行人体动作识别。视觉词典建立过程,采用K-均值聚类法对训练本中所有时空兴趣点进行聚类,聚类中心个数为650。对于测试样本,采用最近邻查询将人体动作视频时空兴趣点映射为视觉词汇。计算每个人体动作视频的基于时空兴趣点的视觉词汇分布直方图特征向量。
对所有人体动作视频关键帧选取具体实现如下:
S1、设置初始参数
利用离散粒子群选取人体动作视频关键帧,设定种群个数N为50,迭代次数M为100,随机粒子及速度:Xi,Vi,i=1,2,...,50。
S2、计算粒子的适应度值
采用式(1)计算原始人体动作视频对应的局部特征向量直方图与每个粒子选取的关键帧对应的局部特征向量直方图的夹角余弦值作为粒子适应度。
S3、获得初始粒子群的最优适应度和最优粒子
利用式(2)求解初始粒子群的最优适应度,最优适应度取值所对应的粒子Xi即为初始粒子群的最优粒子。
S4、速度更新
利用式(3)对粒子群中所有粒子进行速度更新,利用标准sigmoid函数修正速度向量中的每一项。
S5、粒子更新
利用式(5)根据速度向量对粒子进行更新。重复步骤4、5。当迭代次数达到步骤1中设置的迭代次数100时,gbest中所有元素值为1对应的位置即为人体动作视频选取的关键帧帧序。
以一个20帧的跑步原始视频片段为例,采用本发明提出的关键帧选取方法共选取了8帧关键帧如图5所示。
S6、计算选取的关键帧的局部特征向量直方图
计算经过关键帧选取后的人体动作视频图像序列新的特征向量直方图,作为描述人体动作的特征向量利用分类器进行动作识别。
S7、人体动作识别
动作识别分类器采用支持向量机(SupportVector Machine,SVM)。核函数选择卡方核:
其中,hi,hj分别为第i个和第j个人体动作视频关键帧的特征向量直方图。D(hi,hj)为两个特征向量直方图的卡方距离:
其中,hik,hjk为第i个和第j个人体动作视频特征向量直方图第k个元素的值。
采用选取的关键帧进行人体动作识别结果见表1。
表1关键帧选取及人体动作识别结果
上述步骤即可完成人体动作视频关键帧选取。实验结果表明,基于局部特征和词袋模型相结合的动作识别过程,本发明提出的关键帧选取方法能够减少动作识别过程中的图像帧数、冗余信息,保证人体动作识别准确率。
Claims (2)
1.一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法,其特征在于:首先提取人体动作局部特征,将局部特征聚类映射为不同的视觉词汇,所有视觉词汇构成视觉词典;
计算每个人体动作视频所有视觉词汇出现的概率,得到视觉词汇分布特征向量直方图H=(h1,h2,...,hi',...,hn);其中hi'为第i'个视觉词汇在人体动作视频中出现的概率,n为视觉词典大小;将H作为描述人体动作视频的特征向量输入分类器进行动作识别;
该方法包括以下步骤:
步骤一设定初始参数
利用离散粒子群选取人体动作视频关键帧的初始参数设定包括:种群个数N,迭代次数M,随机粒子及速度:Xi,Vi,i=1,2,...,N;
其中,随机粒子Xi为二进制向量,长度等于原始人体动作视频帧数m;向量中元素值为1表示选取该帧为关键帧,否则为0;速度向量Vi的长度和Xi相同,向量中的每一项为0-1的随机数,表征随机粒子中元素为1的概率;
步骤二计算每个粒子的适应度值
采用原始人体动作视频和所有选取的关键帧对应的局部视觉词汇分布特征向量直方图的夹角余弦值作为适应度值,计算公式如下:
向量H表示原始动作视频的视觉词汇分布特征向量直方图,向量Hi表示随机粒子Xi选取的所有关键帧对应的局部视觉词汇分布特征向量直方图;
步骤三获得初始粒子群的最优适应度和最优粒子
计算每个粒子的适应度值后,初始粒子群的最优适应度为:
fmax=max(f(Hi,H)) (2)
最优适应度取值所对应的粒子Xi即为初始粒子群的最优粒子;
步骤四速度更新
对粒子群中所有粒子进行速度更新:
其中,Vi k+1为第i个粒子第k+1次迭代后的速度,Vi k为第i个粒子第k次迭代后的速度,为第i个粒子第k次迭代后的结果,pbest为粒子的个体最优解,即同一粒子在迭代过程中最优适应度取值所对应的粒子;gbest为种群全局最优解,即迭代过程中全局最优适应度值所对应的粒子;r1和r2为0-1之间的随机数;通过pbest及gbest修正粒子寻优路径,加速寻找最能表征人体动作特征的关键帧;
步骤五速度修正
速度向量中每一项对应粒子中相应位置元素为1的概率,因此为使得速度向量中的每一项的值在0到1之间,引入标准sigmoid函数进行速度修正:
其中,Vid为第i个粒子的速度向量Vi第d个元素的值,d=1,2,...,m;exp()为指数函数;V′id为速度向量Vi第d个元素修正后的速度值;
步骤六粒子更新
根据每个粒子的速度向量对粒子进行更新:
其中,Xid为粒子Xi中第d个元素的值,rand()为0-1间的随机数;
重复步骤四、步骤五、步骤六,当迭代次数达到步骤一中设置的迭代次数M时,gbest中所有值为1的项对应的位置即为人体动作视频选取的关键帧帧序。
2.根据权利要求1所述的一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法,其特征在于:
S1、设置初始参数
利用离散粒子群选取人体动作视频关键帧,设定种群个数N为50,迭代次数M为100,随机粒子及速度:Xi,Vi,i=1,2,...,50;
S2、计算粒子的适应度值
采用式(1)计算原始人体动作视频对应的局部视觉词汇分布特征向量直方图与每个粒子选取的关键帧对应的局部视觉词汇分布特征向量直方图的夹角余弦值作为粒子适应度;
S3、获得初始粒子群的最优适应度和最优粒子
利用式(2)求解初始粒子群的最优适应度,最优适应度取值所对应的粒子Xi即为初始粒子群的最优粒子;
S4、速度更新
利用式(3)对粒子群中所有粒子进行速度更新,利用标准sigmoid函数修正速度向量中的每一项;
S5、粒子更新
利用式(5)根据速度向量对粒子进行更新;重复S4、S5;当迭代次数达到S1中设置的迭代次数100时,gbest中所有元素值为1对应的位置即为人体动作视频选取的关键帧帧序;
S6、计算选取的关键帧的局部视觉词汇分布特征向量直方图
计算经过关键帧选取后的人体动作视频图像序列新的视觉词汇分布特征向量直方图,作为描述人体动作的特征向量利用分类器进行动作识别;
S7、人体动作识别
动作识别分类器采用支持向量机;核函数选择卡方核:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710329538.0A CN107220597B (zh) | 2017-05-11 | 2017-05-11 | 一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710329538.0A CN107220597B (zh) | 2017-05-11 | 2017-05-11 | 一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107220597A CN107220597A (zh) | 2017-09-29 |
CN107220597B true CN107220597B (zh) | 2020-07-24 |
Family
ID=59944084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710329538.0A Active CN107220597B (zh) | 2017-05-11 | 2017-05-11 | 一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107220597B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255293B (zh) * | 2018-07-31 | 2021-07-13 | 浙江理工大学 | 基于计算机视觉的模特走秀台步评价方法 |
CN109977890B (zh) * | 2019-03-30 | 2021-08-17 | 绵阳硅基智能科技有限公司 | 一种动作识别的方法及其识别系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156880A (zh) * | 2011-04-11 | 2011-08-17 | 上海交通大学 | 基于改进的社会力模型的异常集群行为检测方法 |
US8498487B2 (en) * | 2008-08-20 | 2013-07-30 | Sri International | Content-based matching of videos using local spatio-temporal fingerprints |
CN104331911A (zh) * | 2014-11-21 | 2015-02-04 | 大连大学 | 基于改进二阶振荡粒子群优化算法的关键帧提取方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9171578B2 (en) * | 2010-08-06 | 2015-10-27 | Futurewei Technologies, Inc. | Video skimming methods and systems |
CN101982992A (zh) * | 2010-10-30 | 2011-03-02 | 鲁东大学 | 认知无线电网络中基于改进粒子群的功率控制最优化算法 |
US20120148149A1 (en) * | 2010-12-10 | 2012-06-14 | Mrityunjay Kumar | Video key frame extraction using sparse representation |
CN102695056A (zh) * | 2012-05-23 | 2012-09-26 | 中山大学 | 一种提取压缩视频关键帧的方法 |
CN104021544B (zh) * | 2014-05-07 | 2018-11-23 | 中国农业大学 | 一种温室蔬菜病害监控视频关键帧提取方法即提取系统 |
CN104994366A (zh) * | 2015-06-02 | 2015-10-21 | 陕西科技大学 | 一种基于特征加权的fcm视频关键帧提取方法 |
CN106654319B (zh) * | 2016-12-27 | 2019-03-19 | 东南大学 | 一种基于变异粒子群和差分进化混合算法的pemfc系统温度建模方法 |
-
2017
- 2017-05-11 CN CN201710329538.0A patent/CN107220597B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8498487B2 (en) * | 2008-08-20 | 2013-07-30 | Sri International | Content-based matching of videos using local spatio-temporal fingerprints |
CN102156880A (zh) * | 2011-04-11 | 2011-08-17 | 上海交通大学 | 基于改进的社会力模型的异常集群行为检测方法 |
CN104331911A (zh) * | 2014-11-21 | 2015-02-04 | 大连大学 | 基于改进二阶振荡粒子群优化算法的关键帧提取方法 |
Non-Patent Citations (1)
Title |
---|
《A Sequential Mobile Vehicle Location Method With Visual Features》;Liu W et al;《2009 IEEE Intelligent Vehicle Symposium》;20090714;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107220597A (zh) | 2017-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961051B (zh) | 一种基于聚类和分块特征提取的行人重识别方法 | |
Hasani et al. | Spatio-temporal facial expression recognition using convolutional neural networks and conditional random fields | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN106778796B (zh) | 基于混合式协同训练的人体动作识别方法及系统 | |
CN108288051B (zh) | 行人再识别模型训练方法及装置、电子设备和存储介质 | |
CN110555387B (zh) | 骨架序列中基于局部关节点轨迹时空卷的行为识别方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN105956517B (zh) | 一种基于密集轨迹的动作识别方法 | |
Kviatkovsky et al. | Online action recognition using covariance of shape and motion | |
CN106296734B (zh) | 基于极限学习机和boosting多核学习的目标跟踪方法 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
Zheng et al. | A feature-adaptive semi-supervised framework for co-saliency detection | |
Zhou et al. | Feature extraction and clustering for dynamic video summarisation | |
Wang et al. | Human activity prediction using temporally-weighted generalized time warping | |
CN111209897A (zh) | 视频处理的方法、装置和存储介质 | |
CN114067385A (zh) | 基于度量学习的跨模态人脸检索哈希方法 | |
Kindiroglu et al. | Temporal accumulative features for sign language recognition | |
Samadiani et al. | A multiple feature fusion framework for video emotion recognition in the wild | |
CN110083724B (zh) | 一种相似图像检索方法、装置及系统 | |
CN107220597B (zh) | 一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法 | |
Pang et al. | Analysis of computer vision applied in martial arts | |
CN108520205B (zh) | 一种基于Citation-KNN的人体动作识别方法 | |
Xu et al. | A novel multi-target multi-camera tracking approach based on feature grouping | |
Martinel | Accelerated low-rank sparse metric learning for person re-identification | |
Zhao et al. | Action recognition based on C3D network and adaptive keyframe extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |