CN107220597B

CN107220597B - 一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法

Info

Publication number: CN107220597B
Application number: CN201710329538.0A
Authority: CN
Inventors: 王颖; 吴峰
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2017-05-11
Filing date: 2017-05-11
Publication date: 2020-07-24
Anticipated expiration: 2037-05-11
Also published as: CN107220597A

Abstract

本发明公开了一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法，属于计算机视觉领域。针对局部特征和词袋模型的人体动作识别过程，基于离散粒子群采用夹角余弦值作为适应度值评价关键帧选取前后表征人体动作特征相似度，从原始动作视频中选取与原始动作视频表征动作特征最相似的一组图像作为关键帧。本发明提出的关键帧选取方法可以自动确定关键帧选取数目，避免了基于全局特征选取关键帧计算量大且对背景及光照敏感以及动作识别准确率降低等不足，保证了较高的人体动作识别准确率。

Description

一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法

技术领域

本发明涉及一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法，属于计算机视觉技术领域。

背景技术

人体动作识别广泛应用于人机交互、智能监控、虚拟现实等领域。基于局部特征和词袋模型的人体动作识别方法由于计算简单鲁棒性高等特点受到广泛关注。但人体动作识别的视频图像帧数多，不同帧包含了相同的人体动作特征，存在数据量大，用于动作识别的信息冗余等问题，导致识别速度慢和识别准确率低。因此对人体动作视频进行有效的关键帧选取可以去除冗余信息，减少动作识别过程中的特征数目，同时保证人体动作识别准确率。

目前，常见的关键帧选取方法首先要对原始视频进行镜头分割。Zhuang等通过对不同镜头中所有帧的颜色直方图向量聚类选取关键帧，聚类中心个数即为关键帧选取数目，但聚类中心数目需要人为确定。为自动确定关键帧的提取数目，Magda等利用相邻两帧的颜色直方图差分作为适应度值通过离散粒子群选取关键帧，但基于全局特征进行人体动作识别，不仅运算量高且对背景及光照变化敏感。Zhao等利用局部时空特征的信息熵选取关键帧进行人体动作识别，但该方法无法自动确定关键帧选取数目，利用该方法选取的关键帧进行人体动作识别的准确率有所降低。

因此，针对目前关键帧选取方法关键帧选取数目需人为确定、基于全局特征计算量大且对背景及光照敏感以及动作识别准确率降低等不足，本发明提出一种基于局部特征和词袋模型自动确定关键帧数目的关键帧选取方法，利用本发明选取的关键帧进行人体动作识别，保证了较高的准确率。

发明内容

本发明针对局部特征和词袋模型人体动作识别过程视频图像帧数多，信息量大，不同帧图像中动作特征冗余，导致识别准确率低等问题提出一种关键帧选取方法。基于离散粒子群采用夹角余弦值作为适应度值评价关键帧选取前后表征人体动作特征相似度，从原始动作视频中选取与原始动作视频表征动作特征最相似的一组图像帧作为关键帧。

本发明采用的技术方案为一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法，基于局部特征和词袋模型的人体动作识别过程如下：首先提取人体动作局部特征，将局部特征聚类映射为不同的视觉词汇，所有视觉词汇构成视觉词典。

计算每个人体动作视频所有视觉词汇出现的概率，得到视觉词汇分布特征向量直方图h＝(h₁,h₂,...,h_i,...,h_n)。其中h_i为第i个视觉词汇在人体动作视频中出现的概率，n为视觉词典大小。将h作为描述人体动作视频的特征向量输入分类器进行动作识别。

采用局部特征和词袋模型基于离散粒子群选取关键帧进行人体动作识别的特征在于：如图1所示，包括以下步骤：

步骤一设定初始参数

利用离散粒子群选取人体动作视频关键帧的初始参数设定包括：种群个数N，迭代次数M，随机粒子及速度：X_i，V_i，i＝1,2,...,N。

其中随机粒子X_i为二进制向量，长度等于原始人体动作视频帧数m。向量中元素值为1表示选取该帧为关键帧，否则为0。速度向量V_i的长度和X_i相同，向量中的每一项为0-1的随机数，表征随机粒子中元素为1的概率。

步骤二计算每个粒子的适应度值

采用原始人体动作视频和所有选取的关键帧对应的局部特征向量直方图的夹角余弦值作为适应度值，计算公式如下：

向量h表示原始动作视频的特征向量直方图，向量h_i表示随机粒子X_i选取的所有关键帧对应的局部特征向量直方图。

步骤三获得初始粒子群的最优适应度和最优粒子

计算每个粒子的适应度值后，初始粒子群的最优适应度为：

f_max＝max(f(h_i,h)) (2)

最优适应度取值所对应的粒子X_i即为初始粒子群的最优粒子。

步骤四速度更新

对粒子群中所有粒子进行速度更新:

其中，V_i ^k+1为第i个粒子第k+1次迭代后的速度，V_i ^k为第i个粒子第k次迭代后的速度，

为第i个粒子第k次迭代后的结果，pbest为粒子的个体最优解，即同一粒子在迭代过程中最优适应度取值所对应的粒子。gbest为种群全局最优解，即迭代过程中全局最优适应度值所对应的粒子。r₁和r₂为0-1之间的随机数。通过pbest及gbest修正粒子寻优路径，加速寻找最能表征人体动作特征的关键帧。

步骤五速度修正

速度向量中每一项对应粒子中该位置元素为1的概率，因此为使得速度向量中的每一项的值在0到1之间，引入标准sigmoid函数进行速度修正：

其中，V_id为第i个粒子的速度向量V_i第d个元素的值，d＝1,2,...,m。exp()为指数函数。V′_id为速度向量V_i第d个元素修正后的速度值。

步骤六粒子更新

根据每个粒子的速度向量对粒子进行更新：

其中，X_id为粒子X_i中第d个元素的值，rand()为0-1间的随机数。

重复步骤四、步骤五、步骤六，当迭代次数达到步骤一中设置的迭代次数M时，gbest中所有值为1的项对应的位置即为人体动作视频选取的关键帧帧序。

以上就是本发明提出的关键帧选取步骤。

本发明的有益效果在于：提出的关键帧选取方法无需对原始视频进行镜头分割，基于局部特征运算量减少且受背景及光照变化影响小，自动确定关键帧选取数目，保证人体动作识别准确率。

附图说明

图1是本发明所述的人体动作视频关键帧选取流程图。

图2是本发明具体实施方式所述的基于关键帧选取的人体动作识别流程图。

图3是本发明具体实施方式所述的KTH单人动作数据库6个动作、不同场景的部分图例。

图4是本发明具体实施方式所述的3D Harris人体动作视频时空兴趣点提取结果。

图5是本发明具体实施方式所述的关键帧选取结果图。

具体实施方式

下面结合实例及附图对本发明作进一步的描述，需要说明的是，实施例并不限定本发明要求保护的范围。

选用KTH单人动作数据库进行仿真实验，KTH单人数据库包括行走、慢跑、跑步、拳击、鼓掌、挥手6个动作，每种动作包含25个人4个不同场景共100个动作视频图像序列。图3给出KTH数据库中四个场景6个不同动作的示例图像。

基于局部特征和词袋模型的关键帧选取和人体动作识别流程如图2所示：

采用3D Harris方法提取时空兴趣点作为人体动作识别局部特征，时空兴趣点描述器采用HOG3D描述法。不同动作图像时空兴趣点局部特征提取结果如图4所示。每个动作选取80个动作视频为训练样本，其余20个为测试样本进行人体动作识别。视觉词典建立过程，采用K-均值聚类法对训练本中所有时空兴趣点进行聚类，聚类中心个数为650。对于测试样本，采用最近邻查询将人体动作视频时空兴趣点映射为视觉词汇。计算每个人体动作视频的基于时空兴趣点的视觉词汇分布直方图特征向量。

对所有人体动作视频关键帧选取具体实现如下：

S1、设置初始参数

利用离散粒子群选取人体动作视频关键帧，设定种群个数N为50，迭代次数M为100，随机粒子及速度：X_i，V_i，i＝1,2,...,50。

S2、计算粒子的适应度值

采用式(1)计算原始人体动作视频对应的局部特征向量直方图与每个粒子选取的关键帧对应的局部特征向量直方图的夹角余弦值作为粒子适应度。

S3、获得初始粒子群的最优适应度和最优粒子

利用式(2)求解初始粒子群的最优适应度，最优适应度取值所对应的粒子X_i即为初始粒子群的最优粒子。

S4、速度更新

利用式(3)对粒子群中所有粒子进行速度更新，利用标准sigmoid函数修正速度向量中的每一项。

S5、粒子更新

利用式(5)根据速度向量对粒子进行更新。重复步骤4、5。当迭代次数达到步骤1中设置的迭代次数100时，gbest中所有元素值为1对应的位置即为人体动作视频选取的关键帧帧序。

以一个20帧的跑步原始视频片段为例，采用本发明提出的关键帧选取方法共选取了8帧关键帧如图5所示。

S6、计算选取的关键帧的局部特征向量直方图

计算经过关键帧选取后的人体动作视频图像序列新的特征向量直方图，作为描述人体动作的特征向量利用分类器进行动作识别。

S7、人体动作识别

动作识别分类器采用支持向量机(SupportVector Machine,SVM)。核函数选择卡方核：

其中，h_i，h_j分别为第i个和第j个人体动作视频关键帧的特征向量直方图。D(h_i,h_j)为两个特征向量直方图的卡方距离：

其中，h_ik,h_jk为第i个和第j个人体动作视频特征向量直方图第k个元素的值。

采用选取的关键帧进行人体动作识别结果见表1。

表1关键帧选取及人体动作识别结果

上述步骤即可完成人体动作视频关键帧选取。实验结果表明，基于局部特征和词袋模型相结合的动作识别过程，本发明提出的关键帧选取方法能够减少动作识别过程中的图像帧数、冗余信息，保证人体动作识别准确率。

Claims

1.一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法，其特征在于：首先提取人体动作局部特征，将局部特征聚类映射为不同的视觉词汇，所有视觉词汇构成视觉词典；

计算每个人体动作视频所有视觉词汇出现的概率，得到视觉词汇分布特征向量直方图H＝(h₁,h₂,...,h_i',...,h_n)；其中h_i'为第i'个视觉词汇在人体动作视频中出现的概率，n为视觉词典大小；将H作为描述人体动作视频的特征向量输入分类器进行动作识别；

该方法包括以下步骤：

步骤一设定初始参数

利用离散粒子群选取人体动作视频关键帧的初始参数设定包括：种群个数N，迭代次数M，随机粒子及速度：X_i，V_i，i＝1,2,...,N；

其中，随机粒子X_i为二进制向量，长度等于原始人体动作视频帧数m；向量中元素值为1表示选取该帧为关键帧，否则为0；速度向量V_i的长度和X_i相同，向量中的每一项为0-1的随机数，表征随机粒子中元素为1的概率；

步骤二计算每个粒子的适应度值

采用原始人体动作视频和所有选取的关键帧对应的局部视觉词汇分布特征向量直方图的夹角余弦值作为适应度值，计算公式如下：

向量H表示原始动作视频的视觉词汇分布特征向量直方图，向量H_i表示随机粒子X_i选取的所有关键帧对应的局部视觉词汇分布特征向量直方图；

步骤三获得初始粒子群的最优适应度和最优粒子

计算每个粒子的适应度值后，初始粒子群的最优适应度为：

f_max＝max(f(H_i,H)) (2)

最优适应度取值所对应的粒子X_i即为初始粒子群的最优粒子；

步骤四速度更新

对粒子群中所有粒子进行速度更新:

为第i个粒子第k次迭代后的结果，pbest为粒子的个体最优解，即同一粒子在迭代过程中最优适应度取值所对应的粒子；gbest为种群全局最优解，即迭代过程中全局最优适应度值所对应的粒子；r₁和r₂为0-1之间的随机数；通过pbest及gbest修正粒子寻优路径，加速寻找最能表征人体动作特征的关键帧；

步骤五速度修正

速度向量中每一项对应粒子中相应位置元素为1的概率，因此为使得速度向量中的每一项的值在0到1之间，引入标准sigmoid函数进行速度修正：

其中，V_id为第i个粒子的速度向量V_i第d个元素的值，d＝1,2,...,m；exp()为指数函数；V′_id为速度向量V_i第d个元素修正后的速度值；

步骤六粒子更新

根据每个粒子的速度向量对粒子进行更新：

其中，X_id为粒子X_i中第d个元素的值，rand()为0-1间的随机数；

2.根据权利要求1所述的一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法，其特征在于：

S1、设置初始参数

利用离散粒子群选取人体动作视频关键帧，设定种群个数N为50，迭代次数M为100，随机粒子及速度：X_i，V_i，i＝1,2,...,50；

S2、计算粒子的适应度值

采用式(1)计算原始人体动作视频对应的局部视觉词汇分布特征向量直方图与每个粒子选取的关键帧对应的局部视觉词汇分布特征向量直方图的夹角余弦值作为粒子适应度；

S3、获得初始粒子群的最优适应度和最优粒子

利用式(2)求解初始粒子群的最优适应度，最优适应度取值所对应的粒子X_i即为初始粒子群的最优粒子；

S4、速度更新

利用式(3)对粒子群中所有粒子进行速度更新，利用标准sigmoid函数修正速度向量中的每一项；

S5、粒子更新

利用式(5)根据速度向量对粒子进行更新；重复S4、S5；当迭代次数达到S1中设置的迭代次数100时，gbest中所有元素值为1对应的位置即为人体动作视频选取的关键帧帧序；

S6、计算选取的关键帧的局部视觉词汇分布特征向量直方图

计算经过关键帧选取后的人体动作视频图像序列新的视觉词汇分布特征向量直方图，作为描述人体动作的特征向量利用分类器进行动作识别；

S7、人体动作识别

动作识别分类器采用支持向量机；核函数选择卡方核：

其中，

H_j'分别为第i₁个和第j个人体动作视频关键帧的特征向量直方图；

为两个特征向量直方图的卡方距离：

其中，

为第i₁个和第j个人体动作视频特征向量直方图第k₁个元素的值。