CN106845386B - 一种基于动态时间规整与多核学习的动作识别方法 - Google Patents
一种基于动态时间规整与多核学习的动作识别方法 Download PDFInfo
- Publication number
- CN106845386B CN106845386B CN201710032607.1A CN201710032607A CN106845386B CN 106845386 B CN106845386 B CN 106845386B CN 201710032607 A CN201710032607 A CN 201710032607A CN 106845386 B CN106845386 B CN 106845386B
- Authority
- CN
- China
- Prior art keywords
- sample
- training
- action
- representation
- average template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000003190 augmentative effect Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 120
- 230000006870 function Effects 0.000 claims description 28
- 230000009977 dual effect Effects 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 12
- 238000013139 quantization Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 abstract description 5
- 230000006872 improvement Effects 0.000 abstract description 4
- 230000002123 temporal effect Effects 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010047513 Vision blurred Diseases 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明针对视频的人体动作识别问题,提供了一种基于动态时间规整与多核学习的动作识别方法,该方法能充分利用动作序列的全局时间结构信息和局部特征的频率分布信息,主要的改进点在于:1)基于动态时间规整方法创建了动作平均模板,这一模板包含了BoW模型表示中忽略掉的动作序列的时间信息;2)通过增广特征多核学习的方法对动作平均模板表示和BoW表示进行结合,并通过引入学习权重调整两者的贡献度;通过以上两点改进,提高动作识别的准确率。
Description
技术领域
本发明涉及动作识别领域,更具体地,涉及一种基于动态时间规整与多核学习的动作识别方法。
背景技术
人体的行为识别在人机交互、智能监控、运动分析、视频检索等方面有着广泛的应用前景。例如视频监控已广泛应用于城市公共场所,如公园、街道、商场等。各类应用中产生的大量视频数据,靠传统人工方式对其进行观察辨识几乎是不可能的。一方面这需要大量的人力去观察分析视频,另一方面人的眼睛长时间盯着视频会出现疲劳、视线模糊等状况,易于造成漏报,导致不能及时处理一些紧急情况。比如,现在侦破案件大多数是靠警察事后回放视频监控录像,难以实现实时干预。若采用基于计算机的视频分析技术,则能实时分析可疑动作,及时发出警报,从而避免案件的发生。因此,基于视频的人体行为识别研究具有重要的现实意义。而在实际场景中采集到的动作视频,因其不受控因素较多,例如背景杂乱、视角变化等,实现准确可靠的动作识别仍是一个有挑战性的工作。
目前,根据视频数据的不同,可以将基于视频的动作识别研究分为基于RGB视频和基于RGB-D视频两大类。基于RGB-D视频的动作识别方法,为了获得深度图,需要采用昂贵的深度摄像头来采集视频样本。相比之下,基于RGB视频的动作识别方法则提供了较为廉价的解决方案。因此,研究基于RGB视频的动作识别问题在目前更具有实际意义。
基于RGB视频的动作识别方法主要有两大类:一类是基于深度学习的端到端模型的方法,另一类则是基于人工设计特征的传统方法。基于深度学习的端到端模型为了取得好的识别效果需要用大量的标注数据进行训练,而目前可以用于训练的动作视频数据并不多。因此将深度学习的方法用在动作识别领域取得成功,而传统方法因其训练高效、效果显著等优点仍被广泛关注和使用。
词袋模型(BoW,Bag of Words)是目前在动作识别中比较常用的一种模型。BoW模型的基本思想是将一个动作视频表示成视觉词汇的统计直方图。与其他表示方法相比,BoW模型表示对噪声、相机运动更加鲁棒,而且适合低分辨率的输入。然而,虽然BoW模型中视觉词汇的统计分布提供了对动作视频的抽象和简洁的表示,但其往往忽略了局部描述子的全局时空分布信息,而这些信息对识别动作又是相当重要的,因此该模型并不能完全表达动作的特性。为了解决这个问题,有研究人员提出了建立动作序列时间上的对齐关系的方法。但这类方法往往仅基于序列时间上的匹配进行动作识别,而这种匹配对噪声比较敏感。
发明内容
本发明为解决以上现有技术的难题,提供了一种动作识别方法,该方法通过增广特征多核学习实现了动作平均模板表示和BoW表示的结合,提高了动作识别的准确性。
为实现以上发明目的,采用的技术方案是:
一种基于动态时间规整与多核学习的动作识别方法,包括以下步骤:
一、建立BoW表示
S11.记动作类别总数为C,令第j类动作的训练动作样本集为j=1,2,..,C,其中表示第j类动作的第i个训练动作样本,i=1,2,..,Nj,Nj表示第j类动作的训练动作样本数;定义包含C类训练动作样本的集合其中为训练动作样本总数;
S12.对训练动作样本Ti的每帧图像提取底层描述子,基于提取的底层描述子建立起训练动作样本Ti的自相似矩阵SSM,然后基于自相似矩阵对每帧图像进行Z个不同时间尺度的SSM描述子提取;训练动作样本Ti各帧图像提取的SSM描述子按照各帧顺序形成描述子序列其中Qi表示训练动作样本Ti的帧数目,表示第k帧的Z个SSM描述子;
S13.对各个训练动作样本进行步骤S12的操作;
S14.从所有训练动作样本的Z个时间尺度下的描述子中随机选取e个SSM描述子,然后利用k-means算法将其聚类成p个簇,p<<e,得到包含有p个词汇的码本;
S15.计算训练动作样本Ti中各个SSM描述子与码本各个词汇之间的距离,然后将训练动作样本Ti中的各个SSM描述子分别与距离最接近的词汇关联起来,即利用码本对SSM描述子进行量化,码本各个词汇关联的SSM描述子的数量形成一个直方图表示,即为训练动作样本Ti的BoW表示;
S16.对各个训练动作样本进行步骤S15的操作获取各个训练动作样本的BoW表示;
二、建立动作平均模板表示
S21.初始化j的值为1;
S22.为第j类动作构建一个初始的空的平均模板初始化i的值为1;
S23.若i=1,令其中为训练动作样本的SSM描述子序列,跳到步骤S26;否则,利用动态时间规整方法计算平均模板与描述子序列的累加距离:
其中ck=(ik,jk)表示第k对帧,表示平均模板中的第ik帧与描述子序列中的第jk帧对齐,d(ck)表示第k对帧的SSM描述子的欧式距离,ω(ck)表示加权系数且ω(ck)=ik-ik-1+jk-jk-1;
S24.基于公式(1),由最后一对对齐帧回溯至最早一对对齐帧,获得最优路径p={c′l},其中c′l=(i′l,j′l),表示平均模板中的第i′l帧与描述子序列中的第j′l帧对齐,对应的描述子映射集为
S25.利用平均模板描述子序列计算新的平均模板
其中,表示新的平均模板的第l帧的描述子,表示平均模板第i′l帧的描述子,表示描述子序列第j′l帧的描述子,L表示最优路径上对齐帧的数目,β=1/i;
S26.令i=i+1然后执行步骤S23~S25,直至i>Nj,得到第j类动作的最终的平均模板Rj;
S27.令j=j+1然后执行步骤S22~S26,直至j>C;
S28.通过步骤S21~S27的计算,获得C个平均模板组成的平均模板集合R={R1,R2...,RC},其中Rj表示第j类动作的最终的平均模板;
S29.对平均模板和训练动作样本进行量化:
S291.从所有训练动作样本的描述子中随机选取e′个SSM描述子,然后利用k-means算法将其聚类成p′个簇,p′<<e′,得到包含有p′个词汇的码本;
S292.分别计算训练动作样本Ti的描述子序列中每帧的SSM描述子与步骤S291中获得的码本的各个词汇之间的距离,将每帧的SSM描述子分别与距离最接近的词汇关联起来,得到训练动作样本Ti量化的描述子序列;
S293.对各个训练动作样本进行步骤S292的操作;通过步骤S292中同样的方式对各个平均模板进行量化,可得到各个平均模板量化的描述子序列;
S210.对训练动作样本Ti的量化描述子序列利用动态时间规整方法计算其与各个平均模板的量化描述子序列的平均距离,训练动作样本Ti的量化描述子序列到各个平均模板的量化描述子序列的平均距离构成一个C维向量,该C维向量为训练动作样本Ti的平均模板表示;对动作样本集合T中各训练动作样本进行同样操作获取各训练动作样本的平均模板表示;
S211.为Z个不同时间尺度分别建立平均模板表示,具体地,针对每一个时间尺度,在步骤S21~S210中利用该时间尺度的描述子进行该时间尺度下的动作平均模板的构建、码本的构建以及平均模板表示的构建;将某个训练动作样本在Z个时间尺度下分别获得的平均模板表示拼接成一个向量,作为该训练动作样本最终的平均模板表示;
三、结合BoW表示和平均模板表示的动作表示
S31.利用增广特征多核学习(AFMKL)结合BoW表示和平均模板表示,增广特征多核学习的决策函数如下:
其中x表示BoW表示,x′表示平均模板表示,ω和β表示学习权重,表示对BoW表示的非线性映射函数,φ表示对平均模板表示的非线性映射函数,b为偏置项,d1和d2为对BoW表示、平均模板表示进行加权的系数;
S32.通过最小化结构风险函数,建立以下的最优化问题:
其中
s.t.表示服从后面的约束,d=[d1,d2]T表示加权系数向量,表示二次正则化项,xi表示第i个训练动作样本的BoW表示,x′i表示第i个训练动作样本的平均模板表示,yi∈{+1,-1}表示第i个训练动作样本的正负标签,ξ=(ξ1,ξ2,...,ξN)T表示松弛变量向量,ξi表示第i个训练动作样本的松弛变量,λ表示惩罚参数,N为训练动作样本的数目;
S33.为式(3)中每个不等式约束引入拉格朗日乘子αi,并记α=(α1,α2,...,αN)T为对偶变量,将式(3)中的优化问题转换为其对偶形式:
其中,αi和αj分别表示对第i个训练动作样本、第j个训练动作样本构成的不等式约束所引入的拉格朗日乘子;为核函数;
S34.对公式(2)在训练动作样本集上进行优化求解:
S341.固定加权系数向量d,(4)中的对偶问题转换成关于对偶变量α的优化问题,此时利用标准的SVM的求解方法对对偶变量α进行求解;
S342.固定对偶变量α,利用梯度下降的方法对加权系数向量d进行求解;
S343.迭代地进行S341和S342,直至式(2)收敛或达到最大迭代数。
S35.利用步骤S34确定加权系数向量d和对偶变量α后,得到最终的决策函数:
四、对测试动作样本进行动作识别
S41.利用第一部分的内容求取测试动作样本的BoW表示;
S42.利用第二部分的内容求取测试动作样本的平均模板表示;
S43.将测试动作样本的BoW表示、平均模板表示输入至最终的决策函数中,决策函数输出分类结果。
优选地,所述训练动作样本/测试动作样本平均模板表示中,动作样本与平均模板之间的平均距离的具体过程如下:
其中Dmin表示用动态时间规整方法求取的训练动作样本/测试动作样本与平均模板之间的最短距离,ω(c′l)表示最优路径上帧对c′l的加权系数。
与现有技术相比,本发明的有益效果是:
本发明提供的方法主要的改进点在于:1)基于动态时间规整方法创建了动作平均模板,这一模板包含了BoW模型表示中忽略掉的动作序列的时间信息;2)通过增广特征多核学习的方法对动作平均模板表示和BoW表示进行结合,并通过引入学习权重调整两者的贡献度;通过以上两点改进,提高动作识别的准确率。
附图说明
图1为动作识别方法的流程图。
图2为构建决策函数的示意图。
图3为决策函数对测试样本进行识别的示意图。
图4为提取SSM描述子的示意图。
图5为构建动作平均模板的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1~4所示,本发明提供的基于动态时间规整与多核学习的动作识别方法,包括以下步骤:
一、建立BoW表示
S11.记动作类别总数为C,令第j类动作的训练动作样本集为j=1,2,..,C,其中表示第j类动作的第i个训练动作样本,i=1,2,..,Nj,Nj表示第j类动作的训练动作样本数;定义包含C类训练动作样本的集合其中为训练动作样本总数;
S12.考虑到不同动作样本中,动作执行的时间长度不同和执行速度的不规则变化,本发明中采用了多个时间尺度的SSM描述子;具体地,对训练动作样本Ti的每帧图像提取底层描述子,基于提取的底层描述子建立起训练动作样本Ti的自相似矩阵SSM,然后基于自相似矩阵对每帧图像进行Z个不同时间尺度的SSM描述子提取;训练动作样本Ti各帧图像提取的SSM描述子按照各帧顺序形成描述子序列其中Qi表示训练动作样本Ti的帧数目,表示第k帧的Z个SSM描述子;
S13.对各个训练动作样本进行步骤S12的操作;
S14.从所有训练动作样本的Z个时间尺度下的描述子中随机选取e个SSM描述子,然后利用k-means算法将其聚类成p个簇,p<<e,得到包含有p个词汇的码本;
S15.计算训练动作样本Ti中各个SSM描述子与码本各个词汇之间的距离,然后将训练动作样本Ti中的各个SSM描述子分别与距离最接近的词汇关联起来,码本各个词汇关联的SSM描述子的数量形成一个直方图表示,即为训练动作样本Ti的BoW表示;
S16.对各个训练动作样本进行步骤S15的操作获取各个训练动作样本的BoW表示;
二、建立动作平均模板表示
S21.初始化j的值为1;
S22.为第j类动作构建一个初始的空的平均模板初始化i的值为1;
S23.若i=1,令其中为训练动作样本的SSM描述子序列,跳到步骤S26;否则,利用动态时间规整方法计算平均模板与描述子序列的累加距离:
其中ck=(ik,jk)表示第k对帧,表示平均模板中的第ik帧与描述子序列中的第jk帧对齐,d(ck)表示第k对帧的SSM描述子的欧式距离,ω(ck)表示加权系数且ω(ck)=ik-ik-1+jk-jk-1;
S24.基于公式(1),由最后一对对齐帧回溯至最早一对对齐帧,获得最优路径p={c′l},其中c′l=(i′l,j′l),表示平均模板中的第i′l帧与描述子序列中的第j′l帧对齐,对应的描述子映射集为
S25.利用平均模板描述子序列计算新的平均模板
其中,表示新的平均模板的第l帧的描述子,表示平均模板第i′l帧的描述子,表示描述子序列第j′l帧的描述子,L表示最优路径上对齐帧的数目,β=1/i;
S26.令i=i+1然后执行步骤S23~S25,直至i>Nj,得到第j类动作的最终的平均模板Rj;
S27.令j=j+1然后执行步骤S22~S26,直至j>C;
S28.通过步骤S21~S27的计算,获得C个平均模板组成的平均模板集合R={R1,R2...,RC},其中Rj表示第j类动作的最终的平均模板;
为了提高鲁棒性,获得的最终的平均模板并不直接用于构建平均模板表示,而是先将其与对应类别的训练动作样本的描述子进行关联结合。具体地,对于第j类动作,利用动态时间规整方法分别获取该类动作的训练动作样本集Tj中每个训练动作样本的描述子序列与该类动作的平均模板Rj的帧对齐关系,将与平均模板Rj同一帧对齐的训练动作样本的描述子集合在一起,并与平均模板Rj的对应帧相关联。则在后续步骤中构建某个动作样本的平均模板表示时,动作样本第f帧的描述子与平均模板Rj第g帧的描述子距离定义为:动作样本第f帧的描述子与平均模板Rj第g帧所关联的训练动作样本的描述子集合里所有描述子的距离中的最小值。
S29.为减少后续步骤中构建动作样本平均模板表示时的距离计算的计算量,对平均模板和动作样本进行量化:
S291.从所有训练动作样本的描述子中随机选取e′个SSM描述子,然后利用k-means算法将其聚类成p′个簇,p′<<e′,得到包含有p′个词汇的码本;
S292.分别计算训练动作样本Ti的描述子序列中每帧的SSM描述子与步骤S291中获得的码本的各个词汇之间的距离,将每帧的SSM描述子分别与距离最接近的词汇关联起来,得到训练动作样本Ti量化的描述子序列;
S293.对各个训练动作样本进行步骤S292的操作;通过步骤S292中同样的方式对各个平均模板进行量化,可得到各个平均模板量化的描述子序列;
S210.对训练动作样本Ti的量化描述子序列,利用动态时间规整方法计算其与各个平均模板的量化描述子序列的平均距离,训练动作样本Ti的量化描述子序列到各个平均模板的量化描述子序列的平均距离构成一个C维向量,该C维向量为训练动作样本Ti的平均模板表示;对动作样本集合T中各训练动作样本进行同样操作获取各训练动作样本的平均模板表示;
S211.为Z个不同时间尺度分别建立平均模板表示,具体地,针对每一个时间尺度,在步骤S21~S210中利用该时间尺度的描述子进行该时间尺度下的动作平均模板的构建、码本的构建以及平均模板表示的构建;将某个训练动作样本在Z个时间尺度下分别获得的平均模板表示拼接成一个向量,作为该训练动作样本最终的平均模板表示;
三、结合BoW表示和平均模板表示的动作表示
S31.利用增广特征多核学习(AFMKL)结合BoW表示和平均模板表示,增广特征多核学习的决策函数如下:
其中x表示BoW表示,x′表示平均模板表示,ω和β表示学习权重,表示对BoW表示的非线性映射函数,φ表示对平均模板表示的非线性映射函数,b为偏置项,d1和d2为对BoW表示、平均模板表示进行加权的系数;
S32.通过最小化结构风险函数,建立以下的最优化问题:
其中
s.t.表示服从后面的约束,d=[d1,d2]T表示加权系数向量,表示二次正则化项,xi表示第i个训练动作样本的BoW表示,x′i表示第i个训练动作样本的平均模板表示,yi∈{+1,-1}表示第i个训练动作样本的正负标签,ξ=(ξ1,ξ2,...,ξN)T表示松弛变量向量,ξi表示第i个训练动作样本的松弛变量,λ表示惩罚参数,N为训练动作样本的数目;
S33.为式(3)中每个不等式约束引入拉格朗日乘子αi,并记α=(α1,α2,...,αN)T为对偶变量,将式(3)中的优化问题转换为其对偶形式:
其中,αi和αj分别表示对第i个训练动作样本、第j个训练动作样本构成的不等式约束所引入的拉格朗日乘子;为核函数;
S34.对公式(2)在训练动作样本集上进行优化求解:
S341.固定加权系数向量d,(4)中的对偶问题转换成关于对偶变量α的优化问题,此时利用标准的SVM的求解方法对对偶变量α进行求解;
S342.固定对偶变量α,利用梯度下降的方法对加权系数向量d进行求解;
S343.迭代地进行S341和S342,直至式(2)收敛或达到最大迭代数。
S35.利用步骤S34确定加权系数向量d和对偶变量α后,得到最终的决策函数:
四、对测试动作样本进行动作识别
S41.利用第一部分的内容求取测试动作样本的BoW表示;
S42.利用第二部分的内容求取测试动作样本的平均模板表示;
S43.将测试动作样本的BoW表示、平均模板表示输入至最终的决策函数中,决策函数输出分类结果。
本发明在IXMAX数据库上进行实验。IXMAS数据集是一个多视角动作数据集。它包含11个日常动作类别,每类动作由12个人执行3次并同时从5个不同的视角录制视频,共有1980个动作样本。
首先,进行实验验证动作平均模板表示的性能。动作平均模板表示(记为AAT)和BoW表示(记为BoW)的对比实验结果如表1所示,分类器采用了SVM。表中行为训练视角,列为测试视角。如结果所示,AAT在25对视角对上的平均动作识别准确率为74.6%,明显优于BoW的平均准确率73.3%,说明了基于动态时间规整的动作平均模板表示的有效性。
表1动作平均模板表示与BoW表示的对比实验结果
进一步进行实验验证结合动作平均模板表示与BoW表示的性能。为了说明本发明提出的增广特征多核学习(AFMKL)的有效性,实验中探讨了一种已有的结合方式:增广特征SVM(AFSVM),并将实验结果与AFMKL进行对比。直观上看,AFSVM可以利用动作平均模板和动作序列之间的相似性和区分性。其判决函数为
与公式(2)比较可得,AFSVM与AFMKL的判决函数的区别是:AFSVM没有学习权重去对两种表示进行加权。实验结果如表2所示。AFMKL的平均准确率是77.6%,比AFSVM的平均准确率76.2%高了1.4%。而无论是利用AFMKL还是AFSVM进行表示结合,其平均准确率都比仅用动作平均模板表示(74.6%)或者仅用BoW表示(73.3%)要高,说明了两者存在互补的作用,结合两种表示比单独使用某种表示能取得更好的效果,验证了本发明所提出的方法的有效性。
表2 AFMKL和AFSVM的对比实验结果
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (2)
1.一种基于动态时间规整与多核学习的动作识别方法,其特征在于:包括以下步骤:
一、建立BoW表示
S11.记动作类别总数为C,令第j类动作的训练动作样本集为其中Ti j表示第j类动作的第i个训练动作样本,i=1,2,..,Nj,Nj表示第j类动作的训练动作样本数;定义包含C类训练动作样本的集合其中为训练动作样本总数;
S12.对训练动作样本Ti的每帧图像提取底层描述子,基于提取的底层描述子建立起训练动作样本Ti的自相似矩阵SSM,然后基于自相似矩阵对每帧图像进行Z个不同时间尺度的SSM描述子提取;训练动作样本Ti各帧图像提取的SSM描述子按照各帧顺序形成描述子序列其中Qi表示训练动作样本Ti的帧数目,表示第k帧的Z个SSM描述子;
S13.对各个训练动作样本进行步骤S12的操作;
S14.从所有训练动作样本的Z个时间尺度下的描述子中随机选取e个SSM描述子,然后利用k-means算法将其聚类成p个簇,p<<e,得到包含有p个词汇的码本;
S15.计算训练动作样本Ti中各个SSM描述子与码本各个词汇之间的距离,然后将训练动作样本Ti中的各个SSM描述子分别与距离最接近的词汇关联起来,即利用码本对SSM描述子进行量化,码本各个词汇关联的SSM描述子的数量形成一个直方图表示,即为训练动作样本Ti的BoW表示;
S16.对各个训练动作样本进行步骤S15的操作获取各个训练动作样本的BoW表示;
二、建立动作平均模板表示
S21.初始化j的值为1;
S22.为第j类动作构建一个初始的空的平均模板初始化i的值为1;
S23.若i=1,令其中为训练动作样本Ti j的SSM描述子序列,跳到步骤S26;否则,利用动态时间规整方法计算平均模板与描述子序列的累加距离:
其中ck=(ik,jk)表示第k对帧,表示平均模板中的第ik帧与描述子序列中的第jk帧对齐,d(ck)表示第k对帧的SSM描述子的欧式距离,ω(ck)表示加权系数且ω(ck)=ik-ik-1+jk-jk-1;
S24.基于公式(1),由最后一对对齐帧回溯至最早一对对齐帧,获得最优路径p={c′l},其中c′l=(i′l,j′l),表示平均模板中的第i′l帧与描述子序列中的第j′l帧对齐,对应的描述子映射集为
S25.利用平均模板描述子序列计算新的平均模板
其中,表示新的平均模板的第l帧的描述子,表示平均模板第i′l帧的描述子,表示描述子序列第j′l帧的描述子,L表示最优路径上对齐帧的数目,β=1/i;
S26.令i=i+1然后执行步骤S23~S25,直至i>Nj,得到第j类动作的最终的平均模板Rj;
S27.令j=j+1然后执行步骤S22~S26,直至j>C;
S28.通过步骤S21~S27的计算,获得C个平均模板组成的平均模板集合R={R1,R2...,RC},其中Rj表示第j类动作的最终的平均模板;
S29.对平均模板和训练动作样本进行量化:
S291.从所有训练动作样本的描述子中随机选取e′个SSM描述子,然后利用k-means算法将其聚类成p′个簇,p′<<e′,得到包含有p′个词汇的码本;
S292.分别计算训练动作样本Ti的描述子序列中每帧的SSM描述子与步骤S291中获得的码本的各个词汇之间的距离,将每帧的SSM描述子分别与距离最接近的词汇关联起来,得到训练动作样本Ti量化的描述子序列;
S293.对各个训练动作样本进行步骤S292的操作;通过步骤S292中同样的方式对各个平均模板进行量化,可得到各个平均模板量化的描述子序列;
S210.对训练动作样本Ti的量化描述子序列利用动态时间规整方法计算其与各个平均模板的量化描述子序列的平均距离,训练动作样本Ti的量化描述子序列到各个平均模板的量化描述子序列的平均距离构成一个C维向量,该C维向量为训练动作样本Ti的平均模板表示;对动作样本集合T中各训练动作样本进行同样操作获取各训练动作样本的平均模板表示;
S211.为Z个不同时间尺度分别建立平均模板表示,具体地,针对每一个时间尺度,在步骤S21~S210中利用该时间尺度的描述子进行该时间尺度下的动作平均模板的构建、码本的构建以及平均模板表示的构建;将某个训练动作样本在Z个时间尺度下分别获得的平均模板表示拼接成一个向量,作为该训练动作样本最终的平均模板表示;
三、结合BoW表示和平均模板表示的动作表示
S31.利用增广特征多核学习(AFMKL)结合BoW表示和平均模板表示,增广特征多核学习的决策函数如下:
其中x表示BoW表示,x′表示平均模板表示,ω和β表示学习权重,表示对BoW表示的非线性映射函数,φ表示对平均模板表示的非线性映射函数,b为偏置项,d1和d2为对BoW表示、平均模板表示进行加权的系数;
S32.通过最小化结构风险函数,建立以下的最优化问题:
dm≥0,m=1,2.
其中
s.t.表示服从后面的约束,d=[d1,d2]T表示加权系数向量,表示二次正则化项,xi表示第i个训练动作样本的BoW表示,x′i表示第i个训练动作样本的平均模板表示,yi∈{+1,-1}表示第i个训练动作样本的正负标签,ξ=(ξ1,ξ2,...,ξN)T表示松弛变量向量,ξi表示第i个训练动作样本的松弛变量,λ表示惩罚参数,N为训练动作样本的数目;
S33.为式(3)中每个不等式约束引入拉格朗日乘子αi,并记α=(α1,α2,...,αN)T为对偶变量,将式(3)中的优化问题转换为其对偶形式:
0≤αi≤λ,i=1,...,N.
其中,αi和αj分别表示对第i个训练动作样本、第j个训练动作样本构成的不等式约束所引入的拉格朗日乘子;为核函数;
S34.对公式(2)在训练动作样本集上进行优化求解:
S341.固定加权系数向量d,(4)中的对偶问题转换成关于对偶变量α的优化问题,此时利用标准的SVM的求解方法对对偶变量α进行求解;
S342.固定对偶变量α,利用梯度下降的方法对加权系数向量d进行求解;
S343.迭代地进行S341和S342,直至式(2)收敛或达到最大迭代数;
S35.利用步骤S34确定加权系数向量d和对偶变量α后,得到最终的决策函数:
四、对测试动作样本进行动作识别
S41.利用第一部分的内容求取测试动作样本的BoW表示;
S42.利用第二部分的内容求取测试动作样本的平均模板表示;
S43.将测试动作样本的BoW表示、平均模板表示输入至最终的决策函数中,决策函数输出分类结果。
2.根据权利要求1所述的基于动态时间规整与多核学习的动作识别方法,其特征在于:所述训练动作样本/测试动作样本平均模板表示中,动作样本与平均模板之间的平均距离的具体过程如下:
其中Dmin表示用动态时间规整方法求取的训练动作样本/测试动作样本与平均模板之间的最短距离,ω(c′l)表示最优路径上帧对c′l的加权系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710032607.1A CN106845386B (zh) | 2017-01-16 | 2017-01-16 | 一种基于动态时间规整与多核学习的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710032607.1A CN106845386B (zh) | 2017-01-16 | 2017-01-16 | 一种基于动态时间规整与多核学习的动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106845386A CN106845386A (zh) | 2017-06-13 |
CN106845386B true CN106845386B (zh) | 2019-12-03 |
Family
ID=59124201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710032607.1A Active CN106845386B (zh) | 2017-01-16 | 2017-01-16 | 一种基于动态时间规整与多核学习的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106845386B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392131A (zh) * | 2017-07-14 | 2017-11-24 | 天津大学 | 一种基于人体骨骼节点距离的动作识别方法 |
CN109902729B (zh) * | 2019-02-18 | 2020-10-16 | 清华大学 | 基于序列状态演进的行为预测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104112143A (zh) * | 2014-07-23 | 2014-10-22 | 大连民族学院 | 基于加权超球支持向量机算法的图像分类方法 |
KR20160099335A (ko) * | 2015-02-12 | 2016-08-22 | 재단법인대구경북과학기술원 | 3d 골격데이터를 스트리밍하여 공격적인 행동을 감지하는 장치 및 그 방법 |
CN105930767A (zh) * | 2016-04-06 | 2016-09-07 | 南京华捷艾米软件科技有限公司 | 一种基于人体骨架的动作识别方法 |
-
2017
- 2017-01-16 CN CN201710032607.1A patent/CN106845386B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104112143A (zh) * | 2014-07-23 | 2014-10-22 | 大连民族学院 | 基于加权超球支持向量机算法的图像分类方法 |
KR20160099335A (ko) * | 2015-02-12 | 2016-08-22 | 재단법인대구경북과학기술원 | 3d 골격데이터를 스트리밍하여 공격적인 행동을 감지하는 장치 및 그 방법 |
CN105930767A (zh) * | 2016-04-06 | 2016-09-07 | 南京华捷艾米软件科技有限公司 | 一种基于人体骨架的动作识别方法 |
Non-Patent Citations (3)
Title |
---|
Action Recognition using Context and Appearance Distribution Features;Xinxiao Wu et al;《2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),IEEE》;20111231;第489-496页 * |
Tag-basedWeb Photo Retrieval Improved by Batch Mode Re-Tagging;Lin Chen et al;《2010 IEEE》;20101231;第3440-3446页 * |
基于一种视角鲁棒性特征的人体动作识别方法研究;姬晓飞 等;《Proceedings of the 32nd Chinese Control Conference》;20130728;第3877-3881页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106845386A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Quattoni et al. | An efficient projection for l 1,∞ regularization | |
US9710695B2 (en) | Characterizing pathology images with statistical analysis of local neural network responses | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN105005772B (zh) | 一种视频场景检测方法 | |
Hasan et al. | Incremental activity modeling and recognition in streaming videos | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN110097000A (zh) | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 | |
CN112183468A (zh) | 一种基于多注意力联合多级特征的行人再识别方法 | |
Bargshady et al. | The modeling of human facial pain intensity based on Temporal Convolutional Networks trained with video frames in HSV color space | |
JP2004199669A (ja) | 顔検出 | |
JP2004192637A (ja) | 顔検出 | |
Xian et al. | Evaluation of low-level features for real-world surveillance event detection | |
CN106709419B (zh) | 一种基于显著轨迹空间信息的视频人体行为识别方法 | |
CN116311483B (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
CN110728216A (zh) | 一种基于行人属性自适应学习的无监督行人再识别方法 | |
CN115100709B (zh) | 一种特征分离的图像人脸识别与年龄估计方法 | |
CN112215831B (zh) | 一种用于人脸图像质量的评价方法和系统 | |
CN112580525A (zh) | 一种基于行人再识别的病例活动轨迹监测方法 | |
CN113255557A (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
Bahaadini et al. | Direct: Deep discriminative embedding for clustering of ligo data | |
Cheema et al. | Human activity recognition by separating style and content | |
CN116110089A (zh) | 一种基于深度自适应度量学习的面部表情识别方法 | |
Fan et al. | A hierarchical Dirichlet process mixture of generalized Dirichlet distributions for feature selection | |
CN106845386B (zh) | 一种基于动态时间规整与多核学习的动作识别方法 | |
CN117333666A (zh) | 一种半监督图像语义分割方法、系统、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |