CN108108652B - 一种基于字典学习的跨视角人体行为识别方法及装置 - Google Patents

一种基于字典学习的跨视角人体行为识别方法及装置 Download PDF

Info

Publication number
CN108108652B
CN108108652B CN201710197426.4A CN201710197426A CN108108652B CN 108108652 B CN108108652 B CN 108108652B CN 201710197426 A CN201710197426 A CN 201710197426A CN 108108652 B CN108108652 B CN 108108652B
Authority
CN
China
Prior art keywords
dictionary
training video
video
training
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710197426.4A
Other languages
English (en)
Other versions
CN108108652A (zh
Inventor
陆光辉
刘波
肖燕珊
聂欢
李子彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201710197426.4A priority Critical patent/CN108108652B/zh
Publication of CN108108652A publication Critical patent/CN108108652A/zh
Application granted granted Critical
Publication of CN108108652B publication Critical patent/CN108108652B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/513Sparse representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于字典学习的跨视角人体行为识别方法及装置,该方法包括:由训练视频中提取时空兴趣点,训练视频是通过多个不同视角进行拍摄的包含有多个动作类的视频;利用k‑means算法对时空兴趣点进行聚类得到对应的局部特征,并利用光流法对训练视频进行操作得到对应的全局特征;通过K‑SVD算法对字典进行初始化,并基于初始化的字典对所述局部特征及所述全局特征进行迭代求解,得到对应的稀疏编码和完备的字典,其中,不同视角下的同一动作类具有相似度大于预设值的稀疏编码,任何视角下不同的动作类具有相似度小于预设值的稀疏编码。能够适应于拍摄视频的视角发生变化时对其中的人类行为进行识别的情况,识别性能较高。

Description

一种基于字典学习的跨视角人体行为识别方法及装置
技术领域
本发明涉及人体行为识别技术领域,更具体地说,涉及一种基于字典学习的跨视角人体行为识别方法及装置。
背景技术
随着现代信息技术的发展,人们相互交流不再仅仅局限于文字、语音和图像等传统媒介,大量的视频甚至是高质量的视频信号日益充满在人类社会中。大量的视频数据存在于的生活中,并且仍然以超出想象的速度迅猛膨胀,如何快速有效的理解和处理好这些视频信息就成了一个十分重大的课题。而人体运动作为视频中的核心信息,对于视频中的人体行为识别的研究就成为了计算机理解视频含义的关键钥匙。
目前用于实现视频中人体行为识别的技术方法通常是对预先获取的视频提取特征并进行相关建模,进而通过建出的模型对其他视频中的人体行为进行识别。但是用于训练模型的视频通常都是通过一个固定的视角拍摄的,也即提取特征及相关建模均是基于一个固定的视角实现的,由此建出的模型对于在该固定的视角拍摄的视频中的人体行为能够很好的识别,但是当视角发生变化,人体的形态和运动轨迹都会随之发生改变,对应的特征也会变得不一样,这就会导致建出的模型对于视频中人体行为的识别性能大大降低。
综上所述,现有技术中用于识别视频中人体行为的模型存在识别性能较低的问题。
发明内容
本发明的目的是提供一种基于字典学习的跨视角人体行为识别方法及装置,以解决现有技术中用于识别视频中人体行为的模型存在的识别性能较低的问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于字典学习的跨视角人体行为识别方法,包括:
由训练视频中提取时空兴趣点,所述训练视频是通过多个不同视角进行拍摄的包含有多个动作类的视频;
利用k-means算法对所述时空兴趣点进行聚类得到对应的局部特征,并利用光流法对所述训练视频进行操作得到对应的全局特征;
通过K-SVD算法对字典进行初始化,并基于初始化的字典对所述局部特征及所述全局特征进行迭代求解,得到对应的稀疏编码和完备的字典,其中,不同视角下的同一动作类具有相似度大于预设值的稀疏编码,任何视角下不同的动作类具有相似度小于预设值的稀疏编码。
优选的,在利用k-means算法对所述时空兴趣点进行聚类得到对应的局部特征之前,还包括:
使用PCA技术对提取得到的所述时空兴趣点进行降维操作。
优选的,由训练视频中提取时空兴趣点,包括:
利用高斯平滑函数和Gabor滤波器由训练视频中提取时空兴趣点。
优选的,通过K-SVD算法对字典进行初始化,并基于初始化的字典对所述局部特征及所述全局特征进行迭代求解,得到对应的稀疏编码和完备的字典,包括:
基于K-SVD算法对所述局部特征及全局特征进行训练,得到初始化的字典;
基于所述初始化的字典通过下列方程进行优化求解,得到优化后的稀疏编码X和完备的字典D:
Figure GDA0001626581470000021
其中,C表示所述训练视频中包含的动作类的个数,Yc表示所述训练视频中包含的第c个动作类,D表示字典,Xc表示所述训练视频中包含的第c个动作类所对应的稀疏编码,pc表示所述训练视频中包含的第c个动作类的理想的稀疏编码,Dc和Dj都表示特性字典,c和j分别表示为第c个特性字典和第j个特性字典的序号,
Figure GDA0001626581470000031
其中k×kc表示Qc的维度,
Figure GDA0001626581470000032
表示一个维度与Qc维度一样的矩阵,且只有第kc行第j列的值为1,其他值都为零,
Figure GDA0001626581470000033
Figure GDA0001626581470000034
Figure GDA0001626581470000035
的转置,
Figure GDA0001626581470000036
λ1、λ2、α及β为预先设定的系数,A为对应线性转化矩阵,
Figure GDA0001626581470000037
Figure GDA0001626581470000038
表示第i个视角对应的特性字典Dc的稀疏表示,Nc表示所述训练视频对应的视角个数。
一种基于字典学习的跨视角人体行为识别装置,包括:
提取模块,用于:由训练视频中提取时空兴趣点,所述训练视频是通过多个不同视角进行拍摄的包含有多个动作类的视频;
处理模块,用于:利用k-means算法对所述时空兴趣点进行聚类得到对应的局部特征,并利用光流法对所述训练视频进行操作得到对应的全局特征;
训练模块,用于:通过K-SVD算法对字典进行初始化,并基于初始化的字典对所述局部特征及所述全局特征进行迭代求解,得到对应的稀疏编码和完备的字典,其中,不同视角下的同一动作类具有相似度大于预设值的稀疏编码,任何视角下不同的动作类具有相似度小于预设值的稀疏编码具有相似度不小于预设值的稀疏编码。
优选的,还包括:
降维模块,用于:在利用k-means算法对所述时空兴趣点进行聚类得到对应的局部特征之前,使用PCA技术对提取得到的所述时空兴趣点进行降维操作。
优选的,所述提取模块包括:
提取单元,用于:利用高斯平滑函数和Gabor滤波器由训练视频中提取时空兴趣点。
优选的,所述训练模块包括:
训练单元,用于:基于K-SVD算法对所述局部特征及全局特征进行训练,得到初始化的字典;
基于所述初始化的字典通过下列方程进行优化求解,得到优化后的稀疏编码X和完备的字典D:
Figure GDA0001626581470000041
其中,C表示所述训练视频中包含的动作类的个数,Yc表示所述训练视频中包含的第c个动作类,D表示字典,Xc表示所述训练视频中包含的第c个动作类所对应的稀疏编码,pc表示所述训练视频中包含的第c个动作类的理想的稀疏编码,Dc和Dj都表示特性字典,c和j分别表示为第c个特性字典和第j个特性字典的序号,
Figure GDA0001626581470000042
其中k×kc表示Qc的维度,
Figure GDA0001626581470000043
表示一个维度与Qc维度一样的矩阵,且只有第kc行第j列的值为1,其他值都为零,
Figure GDA0001626581470000044
Figure GDA0001626581470000045
Figure GDA0001626581470000046
的转置,
Figure GDA0001626581470000047
λ1、λ2、α及β为预先设定的系数,A为对应线性转化矩阵,
Figure GDA0001626581470000048
Figure GDA0001626581470000049
表示第i个视角对应的特性字典Dc的稀疏表示,Nc表示所述训练视频对应的视角个数。
本发明提供了一种基于字典学习的跨视角人体行为识别方法及装置,其中该方法包括:由训练视频中提取时空兴趣点,所述训练视频是通过多个不同视角进行拍摄的包含有多个动作类的视频;利用k-means算法对所述时空兴趣点进行聚类得到对应的局部特征,并利用光流法对所述训练视频进行操作得到对应的全局特征;通过K-SVD算法对字典进行初始化,并基于初始化的字典对所述局部特征及所述全局特征进行迭代求解,得到对应的稀疏编码和完备的字典,其中,不同视角下的同一动作类具有相似度大于预设值的稀疏编码,任何视角下不同的动作类具有相似度小于预设值的稀疏编码。本申请公开的技术特征中,利用通过不同视角拍摄的视频进行训练,且训练得到的完备的字典中对应于不同的动作类具有相似度小于预设值的稀疏编码,由此,能够适应于拍摄视频的视角发生变化时对其中的人类行为进行识别的情况,识别性能较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于字典学习的跨视角人体行为识别方法的流程图;
图2为本发明实施例提供的一种基于字典学习的跨视角人体行为识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种基于字典学习的跨视角人体行为识别方法的流程图,可以包括以下步骤:
S11:由训练视频中提取时空兴趣点,训练视频是通过多个不同视角进行拍摄的包含有多个动作类的视频。
其中时空兴趣点就是在空间和时间轴上变化较为显著的点,时空兴趣点的检测就是通过对视频的图像中每个像素点或者位置进行强度函数的极大值滤波,得到对应的兴趣点。而训练视频可以是对预先设定的环境范围内通过不同视角进行拍摄的包含有多个动作类的视频,也可以是对任意环境内通过不同视角进行拍摄的包含有多个动作类的视频,具体可以根据实际需要进行设定;而多个动作类可以对应不同的人,从而使得得到的训练视频更具有训练价值。
S12:利用k-means算法对时空兴趣点进行聚类得到对应的局部特征,并利用光流法对训练视频进行操作得到对应的全局特征。
需要说明的是,得到训练视频对应的上述局部特征和全局特征后可以将这两种特征存储至一文件中作为待处理文件,以在后续需要使用上述两种特征时直接利用待处理文件进行对应操作即可。其中,利用k-means算法对时空兴趣点进行聚类得到对应的局部特征具体可以包括:由时空兴趣点中随机选取k个聚类质心点(cluster centroids)作为当前选取的聚类质心点,重复下列过程直到收敛:1、对于每一个时空兴趣点i,基于当前选取的聚类质心点计算其应该属于的聚类。2、对于每一个聚类j,重新计算该聚类的质心点,得到当前选取的聚类质心点,返回执行1,直至计算得出的聚类质心点不再发生变化为止。简单来说就是计算其他每个时空兴趣点到当前选取的每个聚类质心点的距离(欧氏距离),选取某个时空兴趣点到某一个聚类质心点的距离最小的将该时空兴趣点与该聚类质心点归为一类,得到的聚类质心点作为当前选取的聚类质心点,然后重新计算其他每个兴趣点到当前选取的每个聚类质心点的距离,如此循环直至聚类质心点不再发生变化为止。通过上述方式可以得到视频的局部特征,进而通过光流法得到视频的全局特征。
具体来说,利用光流法得到全局特征的原理为:给视频图像中的每个像素点赋予一个速度矢量,这样就形成了一个运动矢量场;在某一特定时刻,图像上的点与三维物体上的点一一对应,这种对应关系可以通过投影来计算得到;根据各个像素点的速度矢量特征,可以对图像进行动态分析;如果图像中没有运动物体,则光流矢量在整个图像区域是连续变化的;当图像中有运动物体时,目标和背景存在着相对运动;运动物体所形成的速度矢量必然和背景的速度矢量有所不同,如此便可以计算出运动物体的位置。简单来说,光流是空间运动物体在观测成像平面上的像素运动的“瞬时速度”,而通过光流法获取到的全局特征即为视频的图像序列中像素强度数据的时域变化和相关性来确定出各像素位置的动态变化。
S13:通过K-SVD算法对字典进行初始化,并基于初始化的字典对局部特征及全局特征进行迭代求解,得到对应的稀疏编码和完备的字典,其中,不同视角下的同一动作类具有相似度大于预设值的稀疏编码,任何视角下不同的动作类具有相似度小于预设值的稀疏编码。
预设值可以根据实际需要进行设定,相似度大于预设值则说明相似度较高,否则则说明相似度较低,因此上述步骤中不同视角下的同一动作类具有相似的稀疏编码,任何视角下不同的动作类则不具有相似的稀疏编码,另外相似度等于预设值的情况也可以归为相似度较高的情况,也即不同视角下的同一动作类可以具有相似度大于或者等于预设值的稀疏编码。具体来说,通过K-SVD算法对字典进行初始化,然后对上一步获得的局部特征和全局特征进行训练,从而可以获得动作类的稀疏编码,再根据得到的稀疏编码训练字典,如此循环便可获得完备的字典和稀疏编码。具体来说,使用K-SVD算法进行字典初始化时,首先用Y表示所要输入的特征(即上述局部特征和全局特征),K-SVD算法下列方程求解得到对应字典D:
Figure GDA0001626581470000071
其中,Y是输入特征,X是稀疏编码,可以通过这个算法获得初始化的字典D,在初始化过程中是一个一个子字典进行初始化的。然后通过初始化的字典求得第一次的稀疏编码,再通过稀疏编码反过来求字典,如此循环,直至收敛即可求得最终的完备的字典。
本申请公开的技术特征中,利用通过不同视角拍摄的视频进行训练,且训练得到的完备的字典中对应于不同的动作类具有相似度小于预设值的稀疏编码,由此,能够适应于拍摄视频的视角发生变化时对其中的人类行为进行识别的情况,识别性能较高。
具体来说,本发明是一种基于字典学习的跨视角的动作识别的方法,使得不同的视角下由不同的特定字典和共性字典和稀疏编码进行表示,这样不仅保证了不同视角下相同动作具有相似的稀疏表示,而且使得不同视角下相同的动作具有不同的稀疏表示,这样保证了同一个动作有相同的特征,同时保证了同一个动作具有区别性。通过相同动作在不同的视角下的同一时间具有相同的类标签和有相似稀疏编码表示,学习获得完备的字典和稀疏编码表示。对于视角的转换,可以根据字典转移数据而不影响识别的效果,这样保证了对于视角的推广。
本发明实施例提供的一种基于字典学习的跨视角人体行为识别方法,在利用k-means算法对时空兴趣点进行聚类得到对应的局部特征之前,还可以包括:
使用PCA(Principal Component Analysis)技术对提取得到的时空兴趣点进行降维操作。
具体来说,PCA是一种常用的数据分析方法,PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。设有m条n维数据特征,则利用PCA进行降维操作的原理可以如下:
1、均值归一化:计算出所有特征的均值,然后令xj=xjj,其中μj表示均值,xj表示被计算的数据特征点。如果特征是在不同的数量级上,还需要将其除以标准差σ2
2、求出协方差矩阵
Figure GDA0001626581470000081
3、计算协方差矩阵Σ的特征向量。
4、将特征向量按对应特征的值大小从上到下按行排列成矩阵,取前k行组成矩阵P’。
5、Y’=P’X’即为降维到k维后的数据特征,其中X’表示被降维的数据特征点。
通过将时空兴趣点进行上述降维操作,能够去掉不重要的影响因子,进而有利于对于时空兴趣点的后续处理。
本发明实施例提供的一种基于字典学习的跨视角人体行为识别方法,由训练视频中提取时空兴趣点,可以包括:
利用高斯平滑函数和Gabor滤波器由训练视频中提取时空兴趣点。
具体来说,利用高斯平滑函数和Gabor滤波器提取时空兴趣点的步骤可以包括:首先将视频的视频序列f中每一帧二维坐标到像素点亮度的映射fsp:R2→R表示;然后使用空间域中的高斯核函数gsp将f中的每一帧变换到高斯空间,得到Lsp:R2×R+→R,其中R指的是像素点的亮度,具体地有Lsp(x,y,σ2)=gsp(x,y,σ2)*fsp(x,y),其中Lsp是使用空间域中的高斯核函数gsp将f中的每一帧变换到高斯空间的表示,R+指的是高斯核函数在将f中的每一帧变换到高斯空间的一个指代(可以理解为高斯核函数即R+),
Figure GDA0001626581470000082
接下来对经过高斯平滑的视频序列f∶R2×R+→R沿着f的时间轴方向,对每一列元素进行选定窗口的一维Gabor滤波,其具体运算过程式为:I=(f*hev)2+(f*(hod)2,其中hev和hod如下:
Figure GDA0001626581470000091
Figure GDA0001626581470000092
其中,τ2表示滤波器在时域上的尺度,ω为Gabor窗口大小的1/8,I为像素点的强度,t为时间,x和y表示像素点的坐标,σ表示高斯函数的函数参数。计算视频序列f中每一点的R值(R为像素点的亮度,彩图中像素点的R值为该像素点的RGB三色像素的值加权求和得到的,灰度图中像素点的R值为该像素点的亮度),然后选定观测窗口的大小对I进行极大值滤波,就可以得到时空兴趣点的位置。通过上述方式能够快速准确的提取到训练视频中的时空兴趣点,供后续步骤使用。
本发明实施例提供的一种基于字典学习的跨视角的人体行为识别方法,通过K-SVD算法对字典进行初始化,并基于初始化的字典对局部特征及全局特征进行迭代求解,得到对应的稀疏编码和完备的字典,包括:
基于K-SVD算法对局部特征及全局特征进行训练,得到初始化的字典;
基于初始化的字典通过下列方程进行优化求解,得到优化后的稀疏编码X和完备的字典D:
Figure GDA0001626581470000093
其中,C表示训练视频中包含的动作类的个数,Yc表示训练视频中包含的第c个动作类,D表示字典,Xc表示训练视频中包含的第c个动作类所对应的稀疏编码,pc表示训练视频中包含的第c个动作类的理想的稀疏编码,具体来说Xc和pc分别为稀疏编码和理想的稀疏编码,用这两个值构造均方误差,使得构造误差最小,就可以使得Xc向理想的稀疏编码靠近,从而提高稀疏编码的精确度。Dc和Dj都表示特性字典,c和j分别表示为第c个特性字典和第j个特性字典的序号,
Figure GDA0001626581470000094
其中k×kc表示Qc的维度(分别表示Qc的行数和列数),
Figure GDA0001626581470000095
表示一个维度与Qc维度一样的矩阵,且只有第kc行第j列的值为1,其他值都为零,以使得Dc=DQc
Figure GDA0001626581470000096
Figure GDA0001626581470000097
Figure GDA0001626581470000098
的转置,
Figure GDA0001626581470000101
λ1、λ2、α及β为预先设定的系数,A为对应线性转化矩阵,
Figure GDA0001626581470000102
Figure GDA0001626581470000103
表示第i个视角对应的特性字典Dc的稀疏表示,Nc表示训练视频对应的视角个数。
令Y=[Y1,....,YN]∈Rn×N是一组n维的N个输入信号的特征空间表示,假设字典D的大小为K并且已知,对于Y的稀疏表示X=[X1,....,XN]∈RK×N可以有下方程解决:
Figure GDA0001626581470000104
其中
Figure GDA0001626581470000105
表示构造误差,“F”表示Frobenius范数,||xi||0≤s要求少于或等于s个的分解元素x。
而字典学习的过程可以包括:
Figure GDA0001626581470000106
其中D=[D1,....,DC]∈RC×k是要经过学习获得的,Y的稀疏表示为X=[X1,....,XN],可以通过K-SVD方法学习获得完备的字典。
假定在数据源有C个类的动作类Y=[Y1,...Yc...,YC]∈Rd×N,其中YcRd×Nc
Figure GDA0001626581470000107
表示数据集中的第c个动作类,
Figure GDA0001626581470000108
表示第i个视角下的第c个类的信号。用DC+1表示共性字典,则可以得到一个完备的字典D=[D1,...Dc...DC,DC+1]∈Rd×K,其中
Figure GDA0001626581470000109
Figure GDA00016265814700001010
表示第c个动作类的特性字典。现在假设有稀疏编码X=[X1,....,XN]∈RK×N使得Yi≈DXi,
Figure GDA00016265814700001011
是第i个视角所对应的子字典Dc的稀疏表示。I表示相对应的单位矩阵。定义目标方程f:
Figure GDA00016265814700001012
定义一种选择操作:
Figure GDA00016265814700001013
其中:
Figure GDA00016265814700001014
所以有:
Figure GDA0001626581470000111
Dc=DQc
Figure GDA0001626581470000112
Figure GDA0001626581470000113
令:
Figure GDA0001626581470000114
因此更新目标方程f为:
Figure GDA0001626581470000115
然而,仅仅做到这些去学习有区分的字典是不够的,因为其他特定的字典可能跟第c类的字典共享一些基,例如,来自不同特定字典的元素仍然可能是一致的,因此可以互相交换表示查询数据。为了避免这个问题,使得除了那些对应于特定字典和共性字典除外的系数全为零。令:
Q/c=[Q1,...,Qc-1,Qc+1,...,QC,QC+1]
Figure GDA0001626581470000116
然后令:
Figure GDA0001626581470000117
就可以得到如下目标方程式:
Figure GDA0001626581470000118
该方程式可能无法获取字典的共性模式,例如,真实共性模式的基础可以出现几个特性,这样使得学习特性冗余和有较少的区别性,所以加入
Figure GDA0001626581470000119
到上述目标方程式,同时将字典分割成不相交的子集,使得每一个子集负责一个视频动作类,也就是说用相同的子集代表同一动作,用不同的子集代表不同的动作,所以在目标方程式中加入
Figure GDA00016265814700001110
其中
Figure GDA00016265814700001111
Figure GDA00016265814700001112
是一个基于有标签的
Figure GDA00016265814700001113
的理想的区分稀疏编码,如果
Figure GDA00016265814700001114
来自于第k个类,就令pik=1,而其他的pi=0,其中A∈RJ ×J是一个线性转化矩阵,把原始的稀疏编码xi转换到相似的pi。所以可以得到如下目标方程。
Figure GDA0001626581470000121
其中特性字典为具有特殊属性,区别于其他字典的字典,例如视频里的人有一个动作,从不同的角度去观看所产生的效果是不一样的,所以每个视角就会存在差异,有自己特殊的性质;而共性字典就是每个字典里面的相同的部分,例如从不同的角度去观测一个人的动作,虽然角度发生了变化,但是终究只是一个人的行为动作,不管从哪个角度观察,本质上还是同一个动作,所以每个视角所对应的字典是存在共同的属性,简称共性。
三:对目标方程的优化:
对此目标方程的优化分为如下步骤:
1、固定字典D和A,计算稀疏编码X;
2、固定稀疏编码X和A,计算字典D;
3、固定字典D和系数编码X,计算矩阵A。
具体步骤:
1、计算稀疏编码X:
可以把目标方程写成如下方程式:
Figure GDA0001626581470000122
可以把上式用如下方程式表示:
Figure GDA0001626581470000123
其中:
Figure GDA0001626581470000131
Figure GDA0001626581470000132
I为单位矩阵。
优化上式是一个多任务组的套索问题,把每一个视角看成一个任务,使用SLEP(Sparse Learning With Efficient Projections)计算出稀疏编码X。
2、计算字典D:
可以把目标方程写成如下:
Figure GDA0001626581470000133
为了更新字典D=[D1,...Dc...DC,DC+1],使用逐步迭代方法,比如更新Dc′,先固定其他的子字典Di(i≠c),由于共性字典Dc+1也有助第c个类的拟合,所以对Dc和Dc+1采用不同的优化,优化步骤如下:
第一步:更新Dc:为了不失一般性,在更新Dc的时候固定其他的字典Di(i≠c)。对于i=1,...,C+1指定
Figure GDA0001626581470000138
所以用如下方程跟新第c个类的Dc
Figure GDA0001626581470000134
定义:
Figure GDA0001626581470000135
Figure GDA0001626581470000136
B=DQ/c
所以就有如下方程式:
Figure GDA0001626581470000137
接下来对
Figure GDA0001626581470000141
的元素逐个的进行更新,例如更新
Figure GDA0001626581470000142
时固定其他的元素,令Xc=[x1,...,xKc],其中
Figure GDA0001626581470000143
Figure GDA0001626581470000144
的第k行,令:
Figure GDA0001626581470000145
Figure GDA0001626581470000146
可以得出:
Figure GDA0001626581470000147
Figure GDA0001626581470000148
Figure GDA0001626581470000149
进行求导并令其等于0,然后可以得到:
Figure GDA00016265814700001410
作为字典的原子,应当被单位化,所以有:
Figure GDA00016265814700001411
所以对应的系数应该乘以
Figure GDA00016265814700001412
Figure GDA00016265814700001413
第二步、更新Dc+1
令:
B=DQ/C+1
得到如下的方程式:
Figure GDA00016265814700001414
Figure GDA00016265814700001415
Figure GDA00016265814700001416
可以得到如下方程:
Figure GDA00016265814700001417
其中
Figure GDA00016265814700001418
Figure GDA0001626581470000151
Figure GDA0001626581470000152
可以对Dc+1的元素进行逐个更新:
Figure GDA0001626581470000153
其中:
Figure GDA0001626581470000154
Figure GDA0001626581470000155
Figure GDA0001626581470000156
同理所以有:
Figure GDA0001626581470000157
所以对应的系数应该乘以
Figure GDA0001626581470000158
Figure GDA0001626581470000159
3、计算A:
用如下方程式计算A:
Figure GDA00016265814700001510
Figure GDA00016265814700001511
P=[p1,...,pC+1]
Figure GDA00016265814700001512
上述公式中,Y表示特征空间表示,X表示稀疏编码,D表示字典,N表示输入信号的个数,Nc表示视角的个数,
Figure GDA00016265814700001513
表示数据集中的第c个动作类,
Figure GDA00016265814700001514
表示第i个视角下的第c个类的信号,DC+1表示共性字典,D=[D1,...Dc...DC,DC+1]∈Rd×K表示完备的字典,
Figure GDA00016265814700001515
表示第c个动作类的特性字典,
Figure GDA00016265814700001516
表示第i个视角所对应的子字典Dc的稀疏表示。
简单来说,上述算法的实现过程可以表示为:
1:Input:Y=[Y1,...Yc...,YC],λ1,λ2,α,β,P
2:Initialize D=[D1,...Dc...DC,DC+1]by K-SVD
3:Repeat
4:Compute spare codes X by(1)
5:Updating D using(2)and(3)
6:Updating A using(4)
7:until convergence of certain rounds
8:Output:D=[D1,...Dc...DC,DC+1]
其中算法中的各公式即为上文中包含的:
Figure GDA0001626581470000161
Figure GDA0001626581470000162
Figure GDA0001626581470000163
Figure GDA0001626581470000164
Figure GDA0001626581470000165
另外需要说明的是,本发明公开的上述技术方案中使用到的算法或者执行步骤未完全阐述清楚的部分均与现有技术中的对应算法或者执行步骤的实现原理一致,在此不做过多赘述。
本发明实施例还提供了一种基于字典学习的跨视角人体行为识别装置,如图2所示,可以包括:
提取模块11,用于:由训练视频中提取时空兴趣点,训练视频是通过多个不同视角进行拍摄的包含有多个动作类的视频;
处理模块12,用于:利用k-means算法对时空兴趣点进行聚类得到对应的局部特征,并利用光流法对训练视频进行操作得到对应的全局特征;
训练模块13,用于:通过K-SVD算法对字典进行初始化,并基于初始化的字典对局部特征及全局特征进行迭代求解,得到对应的稀疏编码和完备的字典,其中,不同视角下的同一动作类具有相似度大于预设值的稀疏编码,任何视角下不同的动作类具有相似度小于预设值的稀疏编码。
本发明实施例提供的一种基于字典学习的跨视角人体行为识别装置,还可以包括:
降维模块,用于:在利用k-means算法对时空兴趣点进行聚类得到对应的局部特征之前,使用PCA技术对提取得到的时空兴趣点进行降维操作。
本发明实施例提供的一种基于字典学习的跨视角人体行为识别装置,提取模块可以包括:
提取单元,用于:利用高斯平滑函数和Gabor滤波器由训练视频中提取时空兴趣点。
本发明实施例提供的一种基于字典学习的跨视角的人体行为识别装置,训练模块可以包括:
训练单元,用于:基于K-SVD算法对局部特征及全局特征进行训练,得到初始化的字典;
基于初始化的字典通过下列方程进行优化求解,得到优化后的稀疏编码X和完备的字典D:
Figure GDA0001626581470000171
其中,C表示训练视频中包含的动作类的个数,Yc表示训练视频中包含的第c个动作类,D表示字典,Xc表示训练视频中包含的第c个动作类所对应的稀疏编码,pc表示训练视频中包含的第c个动作类的理想的稀疏编码,Dc和Dj都表示特性字典,c和j分别表示为第c个特性字典和第j个特性字典的序号,
Figure GDA0001626581470000172
其中k×kc表示Qc的维度,
Figure GDA0001626581470000173
表示一个维度与Qc维度一样的矩阵,且只有第kc行第j列的值为1,其他值都为零,
Figure GDA0001626581470000174
Figure GDA0001626581470000175
Figure GDA0001626581470000176
的转置,
Figure GDA0001626581470000177
λ1、λ2、α及β为预先设定的系数,A为对应线性转化矩阵,
Figure GDA0001626581470000178
Figure GDA0001626581470000179
表示第i个视角对应的特性字典Dc的稀疏表示,Nc表示训练视频对应的视角个数。
本发明实施例提供的一种基于字典学习的跨视角人体行为识别装置中相关部分的说明请参见本发明实施例提供的一种基于字典学习的跨视角人体行为识别方法中对应部分的详细说明,在此不再赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种基于字典学习的跨视角人体行为识别方法,其特征在于,包括:
由训练视频中提取时空兴趣点,所述训练视频是通过多个不同视角进行拍摄的包含有多个动作类的视频;
利用k-means算法对所述时空兴趣点进行聚类得到对应的局部特征,并利用光流法对所述训练视频进行操作得到对应的全局特征;
通过K-SVD算法对字典进行初始化,并基于初始化的字典对所述局部特征及所述全局特征进行迭代求解,得到对应的稀疏编码和完备的字典,其中,不同视角下的同一动作类具有相似度大于预设值的稀疏编码,任何视角下不同的动作类具有相似度小于预设值的稀疏编码;
通过K-SVD算法对字典进行初始化,并基于初始化的字典对所述局部特征及所述全局特征进行迭代求解,得到对应的稀疏编码和完备的字典,包括:
基于K-SVD算法对所述局部特征及全局特征进行训练,得到初始化的字典;
基于所述初始化的字典通过下列方程进行优化求解,得到优化后的稀疏编码X和完备的字典D:
Figure FDA0003210492230000011
其中,C表示所述训练视频中包含的动作类的个数,Yc表示所述训练视频中包含的第c个动作类,D表示字典,Xc表示所述训练视频中包含的第c个动作类所对应的稀疏编码,pc表示所述训练视频中包含的第c个动作类的理想的稀疏编码,Dc和Dj都表示特性字典,c和j分别表示为第c个特性字典和第j个特性字典的序号,
Figure FDA0003210492230000012
其中k×kc表示Qc的维度,
Figure FDA0003210492230000013
表示一个维度与Qc维度一样的矩阵,且只有第kc行第j列的值为1,其他值都为零,
Figure FDA0003210492230000014
Figure FDA0003210492230000015
的转置,
Figure FDA0003210492230000016
λ1、λ2、α及β为预先设定的系数,A为对应线性转化矩阵,
Figure FDA0003210492230000017
表示第i个视角对应的特性字典Dc的稀疏表示,Nc表示所述训练视频对应的视角个数。
2.根据权利要求1所述的方法,其特征在于,在利用k-means算法对所述时空兴趣点进行聚类得到对应的局部特征之前,还包括:
使用PCA技术对提取得到的所述时空兴趣点进行降维操作。
3.根据权利要求2所述的方法,其特征在于,由训练视频中提取时空兴趣点,包括:
利用高斯平滑函数和Gabor滤波器由训练视频中提取时空兴趣点。
4.一种基于字典学习的跨视角人体行为识别装置,其特征在于,包括:
提取模块,用于:由训练视频中提取时空兴趣点,所述训练视频是通过多个不同视角进行拍摄的包含有多个动作类的视频;
处理模块,用于:利用k-means算法对所述时空兴趣点进行聚类得到对应的局部特征,并利用光流法对所述训练视频进行操作得到对应的全局特征;
训练模块,用于:通过K-SVD算法对字典进行初始化,并基于初始化的字典对所述局部特征及所述全局特征进行迭代求解,得到对应的稀疏编码和完备的字典,其中,不同视角下的同一动作类具有相似度大于预设值的稀疏编码,任何视角下不同的动作类具有相似度小于预设值的稀疏编码具有相似度不小于预设值的稀疏编码;
所述训练模块包括:
训练单元,用于:基于K-SVD算法对所述局部特征及全局特征进行训练,得到初始化的字典;
基于所述初始化的字典通过下列方程进行优化求解,得到优化后的稀疏编码X和完备的字典D:
Figure FDA0003210492230000021
其中,C表示所述训练视频中包含的动作类的个数,Yc表示所述训练视频中包含的第c个动作类,D表示字典,Xc表示所述训练视频中包含的第c个动作类所对应的稀疏编码,pc表示所述训练视频中包含的第c个动作类的理想的稀疏编码,Dc和Dj都表示特性字典,c和j分别表示为第c个特性字典和第j个特性字典的序号,
Figure FDA0003210492230000022
其中k×kc表示Qc的维度,
Figure FDA0003210492230000023
表示一个维度与Qc维度一样的矩阵,且只有第kc行第j列的值为1,其他值都为零,
Figure FDA0003210492230000024
Figure FDA0003210492230000025
的转置,
Figure FDA0003210492230000026
λ1、λ2、α及β为预先设定的系数,A为对应线性转化矩阵,
Figure FDA0003210492230000027
Figure FDA0003210492230000031
表示第i个视角对应的特性字典Dc的稀疏表示,Nc表示所述训练视频对应的视角个数。
5.根据权利要求4所述的装置,其特征在于,还包括:
降维模块,用于:在利用k-means算法对所述时空兴趣点进行聚类得到对应的局部特征之前,使用PCA技术对提取得到的所述时空兴趣点进行降维操作。
6.根据权利要求5所述的装置,其特征在于,所述提取模块包括:
提取单元,用于:利用高斯平滑函数和Gabor滤波器由训练视频中提取时空兴趣点。
CN201710197426.4A 2017-03-29 2017-03-29 一种基于字典学习的跨视角人体行为识别方法及装置 Expired - Fee Related CN108108652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710197426.4A CN108108652B (zh) 2017-03-29 2017-03-29 一种基于字典学习的跨视角人体行为识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710197426.4A CN108108652B (zh) 2017-03-29 2017-03-29 一种基于字典学习的跨视角人体行为识别方法及装置

Publications (2)

Publication Number Publication Date
CN108108652A CN108108652A (zh) 2018-06-01
CN108108652B true CN108108652B (zh) 2021-11-26

Family

ID=62207070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710197426.4A Expired - Fee Related CN108108652B (zh) 2017-03-29 2017-03-29 一种基于字典学习的跨视角人体行为识别方法及装置

Country Status (1)

Country Link
CN (1) CN108108652B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272019A (zh) * 2018-08-17 2019-01-25 东软集团股份有限公司 数据分析方法、装置、存储介质及电子设备
CN109492610B (zh) * 2018-11-27 2022-05-10 广东工业大学 一种行人重识别方法、装置及可读存储介质
CN109977773B (zh) * 2019-02-18 2021-01-19 华南理工大学 基于多目标检测3d cnn的人体行为识别方法及系统
CN117131858B (zh) * 2023-08-24 2024-08-30 北京理工大学 一种基于字典的轨迹预测系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091169A (zh) * 2013-12-12 2014-10-08 华南理工大学 基于多特征融合的行为识别方法
CN106056082A (zh) * 2016-05-31 2016-10-26 杭州电子科技大学 一种基于稀疏低秩编码的视频动作识别方法
CN106056135A (zh) * 2016-05-20 2016-10-26 北京九艺同兴科技有限公司 一种基于压缩感知的人体动作分类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009028647A1 (ja) * 2007-08-31 2009-03-05 National Institute Of Information And Communications Technology 非対話型学習装置及び対話型学習装置
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US10373062B2 (en) * 2014-12-12 2019-08-06 Omni Ai, Inc. Mapper component for a neuro-linguistic behavior recognition system
CN106780342A (zh) * 2016-12-28 2017-05-31 深圳市华星光电技术有限公司 基于稀疏域重构的单帧图像超分辨重建方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091169A (zh) * 2013-12-12 2014-10-08 华南理工大学 基于多特征融合的行为识别方法
CN106056135A (zh) * 2016-05-20 2016-10-26 北京九艺同兴科技有限公司 一种基于压缩感知的人体动作分类方法
CN106056082A (zh) * 2016-05-31 2016-10-26 杭州电子科技大学 一种基于稀疏低秩编码的视频动作识别方法

Also Published As

Publication number Publication date
CN108108652A (zh) 2018-06-01

Similar Documents

Publication Publication Date Title
CN109522818B (zh) 一种表情识别的方法、装置、终端设备及存储介质
CN107609460B (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
Ansari et al. Nearest neighbour classification of Indian sign language gestures using kinect camera
Zheng Multi-view facial expression recognition based on group sparse reduced-rank regression
Bai et al. Subset based deep learning for RGB-D object recognition
Basaran et al. An efficient framework for visible–infrared cross modality person re-identification
CN111738143B (zh) 一种基于期望最大化的行人重识别方法
CN108108652B (zh) 一种基于字典学习的跨视角人体行为识别方法及装置
Lee et al. Collaborative expression representation using peak expression and intra class variation face images for practical subject-independent emotion recognition in videos
Kadhim et al. A Real-Time American Sign Language Recognition System using Convolutional Neural Network for Real Datasets.
Barros et al. Real-time gesture recognition using a humanoid robot with a deep neural architecture
CN104392246B (zh) 一种基于类间类内面部变化字典的单样本人脸识别方法
Rahman et al. Hand gesture recognition using multiclass support vector machine
Anami et al. A comparative study of suitability of certain features in classification of bharatanatyam mudra images using artificial neural network
Zhang et al. BoMW: Bag of manifold words for one-shot learning gesture recognition from kinect
CN110516533B (zh) 一种基于深度度量的行人再辨识方法
Naeem et al. T-VLAD: Temporal vector of locally aggregated descriptor for multiview human action recognition
Suo et al. Structured dictionary learning for classification
Luqman An efficient two-stream network for isolated sign language recognition using accumulative video motion
Lin et al. A study of real-time hand gesture recognition using SIFT on binary images
Zia et al. An adaptive training based on classification system for patterns in facial expressions using SURF descriptor templates
Arafat et al. Two stream deep neural network for sequence-based Urdu ligature recognition
Ben Mahjoub et al. An efficient end-to-end deep learning architecture for activity classification
Qiu et al. Learning transformations for classification forests
Muthukumar et al. Vision based hand gesture recognition for Indian sign languages using local binary patterns with support vector machine classifier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211126

CF01 Termination of patent right due to non-payment of annual fee