CN108108652A

CN108108652A - 一种基于字典学习的跨视角人体行为识别方法及装置

Info

Publication number: CN108108652A
Application number: CN201710197426.4A
Authority: CN
Inventors: 陆光辉; 刘波; 肖燕珊; 聂欢; 李子彬
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2018-06-01
Anticipated expiration: 2037-03-29
Also published as: CN108108652B

Abstract

本发明公开了一种基于字典学习的跨视角人体行为识别方法及装置，该方法包括：由训练视频中提取时空兴趣点，训练视频是通过多个不同视角进行拍摄的包含有多个动作类的视频；利用k‑means算法对时空兴趣点进行聚类得到对应的局部特征，并利用光流法对训练视频进行操作得到对应的全局特征；通过K‑SVD算法对字典进行初始化，并基于初始化的字典对所述局部特征及所述全局特征进行迭代求解，得到对应的稀疏编码和完备的字典，其中，不同视角下的同一动作类具有相似度大于预设值的稀疏编码，任何视角下不同的动作类具有相似度小于预设值的稀疏编码。能够适应于拍摄视频的视角发生变化时对其中的人类行为进行识别的情况，识别性能较高。

Description

一种基于字典学习的跨视角人体行为识别方法及装置

技术领域

本发明涉及人体行为识别技术领域，更具体地说，涉及一种基于字典学习的跨视角人体行为识别方法及装置。

背景技术

随着现代信息技术的发展，人们相互交流不再仅仅局限于文字、语音和图像等传统媒介，大量的视频甚至是高质量的视频信号日益充满在人类社会中。大量的视频数据存在于的生活中，并且仍然以超出想象的速度迅猛膨胀，如何快速有效的理解和处理好这些视频信息就成了一个十分重大的课题。而人体运动作为视频中的核心信息，对于视频中的人体行为识别的研究就成为了计算机理解视频含义的关键钥匙。

目前用于实现视频中人体行为识别的技术方法通常是对预先获取的视频提取特征并进行相关建模，进而通过建出的模型对其他视频中的人体行为进行识别。但是用于训练模型的视频通常都是通过一个固定的视角拍摄的，也即提取特征及相关建模均是基于一个固定的视角实现的，由此建出的模型对于在该固定的视角拍摄的视频中的人体行为能够很好的识别，但是当视角发生变化，人体的形态和运动轨迹都会随之发生改变，对应的特征也会变得不一样，这就会导致建出的模型对于视频中人体行为的识别性能大大降低。

综上所述，现有技术中用于识别视频中人体行为的模型存在识别性能较低的问题。

发明内容

本发明的目的是提供一种基于字典学习的跨视角人体行为识别方法及装置，以解决现有技术中用于识别视频中人体行为的模型存在的识别性能较低的问题。

为了实现上述目的，本发明提供如下技术方案：

一种基于字典学习的跨视角人体行为识别方法，包括：

由训练视频中提取时空兴趣点，所述训练视频是通过多个不同视角进行拍摄的包含有多个动作类的视频；

利用k-means算法对所述时空兴趣点进行聚类得到对应的局部特征，并利用光流法对所述训练视频进行操作得到对应的全局特征；

通过K-SVD算法对字典进行初始化，并基于初始化的字典对所述局部特征及所述全局特征进行迭代求解，得到对应的稀疏编码和完备的字典，其中，不同视角下的同一动作类具有相似度大于预设值的稀疏编码，任何视角下不同的动作类具有相似度小于预设值的稀疏编码。

优选的，在利用k-means算法对所述时空兴趣点进行聚类得到对应的局部特征之前，还包括：

使用PCA技术对提取得到的所述时空兴趣点进行降维操作。

优选的，由训练视频中提取时空兴趣点，包括：

利用高斯平滑函数和Gabor滤波器由训练视频中提取时空兴趣点。

优选的，通过K-SVD算法对字典进行初始化，并基于初始化的字典对所述局部特征及所述全局特征进行迭代求解，得到对应的稀疏编码和完备的字典，包括：

基于K-SVD算法对所述局部特征及全局特征进行训练，得到初始化的字典；

基于所述初始化的字典通过下列方程进行优化求解，得到优化后的稀疏编码X和完备的字典D：

其中，C表示所述训练视频中包含的动作类的个数，Y_c表示所述训练视频中包含的第c个动作类，D表示字典，X_c表示所述训练视频中包含的第c 个动作类所对应的稀疏编码，p_c表示所述训练视频中包含的第c个动作类的理想的稀疏编码，D_c和D_j都表示特性字典，c和j分别表示为第c个特性字典和第j个特性字典的序号，其中k×k_c表示Q_c的维度，表示一个维度与Q_c维度一样的矩阵，且只有第k_c行第j列的值为1，其他值都为零，为的转置，λ₁、λ₂、α及β为预先设定的系数，A为对应线性转化矩阵，表示第i个视角对应的特性字典D_c的稀疏表示，Nc表示所述训练视频对应的视角个数。

一种基于字典学习的跨视角人体行为识别装置，包括：

提取模块，用于：由训练视频中提取时空兴趣点，所述训练视频是通过多个不同视角进行拍摄的包含有多个动作类的视频；

处理模块，用于：利用k-means算法对所述时空兴趣点进行聚类得到对应的局部特征，并利用光流法对所述训练视频进行操作得到对应的全局特征；

训练模块，用于：通过K-SVD算法对字典进行初始化，并基于初始化的字典对所述局部特征及所述全局特征进行迭代求解，得到对应的稀疏编码和完备的字典，其中，不同视角下的同一动作类具有相似度大于预设值的稀疏编码，任何视角下不同的动作类具有相似度小于预设值的稀疏编码具有相似度不小于预设值的稀疏编码。

优选的，还包括：

降维模块，用于：在利用k-means算法对所述时空兴趣点进行聚类得到对应的局部特征之前，使用PCA技术对提取得到的所述时空兴趣点进行降维操作。

优选的，所述提取模块包括：

提取单元，用于：利用高斯平滑函数和Gabor滤波器由训练视频中提取时空兴趣点。

优选的，所述训练模块包括：

训练单元，用于：基于K-SVD算法对所述局部特征及全局特征进行训练，得到初始化的字典；

其中，C表示所述训练视频中包含的动作类的个数，Y_c表示所述训练视频中包含的第c个动作类，D表示字典，X_c表示所述训练视频中包含的第c个动作类所对应的稀疏编码，p_c表示所述训练视频中包含的第c个动作类的理想的稀疏编码，D_c和D_j都表示特性字典，c和j分别表示为第c个特性字典和第j个特性字典的序号，其中k×k_c表示Q_c的维度，表示一个维度与Q_c维度一样的矩阵，且只有第k_c行第j列的值为1，其他值都为零，为的转置，λ₁、λ₂、α及β为预先设定的系数，A为对应线性转化矩阵，表示第i个视角对应的特性字典D_c的稀疏表示，Nc表示所述训练视频对应的视角个数。

本发明提供了一种基于字典学习的跨视角人体行为识别方法及装置，其中该方法包括：由训练视频中提取时空兴趣点，所述训练视频是通过多个不同视角进行拍摄的包含有多个动作类的视频；利用k-means算法对所述时空兴趣点进行聚类得到对应的局部特征，并利用光流法对所述训练视频进行操作得到对应的全局特征；通过K-SVD算法对字典进行初始化，并基于初始化的字典对所述局部特征及所述全局特征进行迭代求解，得到对应的稀疏编码和完备的字典，其中，不同视角下的同一动作类具有相似度大于预设值的稀疏编码，任何视角下不同的动作类具有相似度小于预设值的稀疏编码。本申请公开的技术特征中，利用通过不同视角拍摄的视频进行训练，且训练得到的完备的字典中对应于不同的动作类具有相似度小于预设值的稀疏编码，由此，能够适应于拍摄视频的视角发生变化时对其中的人类行为进行识别的情况，识别性能较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基于字典学习的跨视角人体行为识别方法的流程图；

图2为本发明实施例提供的一种基于字典学习的跨视角人体行为识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种基于字典学习的跨视角人体行为识别方法的流程图，可以包括以下步骤：

S11：由训练视频中提取时空兴趣点，训练视频是通过多个不同视角进行拍摄的包含有多个动作类的视频。

其中时空兴趣点就是在空间和时间轴上变化较为显著的点，时空兴趣点的检测就是通过对视频的图像中每个像素点或者位置进行强度函数的极大值滤波，得到对应的兴趣点。而训练视频可以是对预先设定的环境范围内通过不同视角进行拍摄的包含有多个动作类的视频，也可以是对任意环境内通过不同视角进行拍摄的包含有多个动作类的视频，具体可以根据实际需要进行设定；而多个动作类可以对应不同的人，从而使得得到的训练视频更具有训练价值。

S12：利用k-means算法对时空兴趣点进行聚类得到对应的局部特征，并利用光流法对训练视频进行操作得到对应的全局特征。

需要说明的是，得到训练视频对应的上述局部特征和全局特征后可以将这两种特征存储至一文件中作为待处理文件，以在后续需要使用上述两种特征时直接利用待处理文件进行对应操作即可。其中，利用k-means算法对时空兴趣点进行聚类得到对应的局部特征具体可以包括：由时空兴趣点中随机选取k个聚类质心点(cluster centroids)作为当前选取的聚类质心点，重复下列过程直到收敛：1、对于每一个时空兴趣点i，基于当前选取的聚类质心点计算其应该属于的聚类。2、对于每一个聚类j，重新计算该聚类的质心点，得到当前选取的聚类质心点，返回执行1，直至计算得出的聚类质心点不再发生变化为止。简单来说就是计算其他每个时空兴趣点到当前选取的每个聚类质心点的距离(欧氏距离)，选取某个时空兴趣点到某一个聚类质心点的距离最小的将该时空兴趣点与该聚类质心点归为一类，得到的聚类质心点作为当前选取的聚类质心点，然后重新计算其他每个兴趣点到当前选取的每个聚类质心点的距离，如此循环直至聚类质心点不再发生变化为止。通过上述方式可以得到视频的局部特征，进而通过光流法得到视频的全局特征。

具体来说，利用光流法得到全局特征的原理为：给视频图像中的每个像素点赋予一个速度矢量，这样就形成了一个运动矢量场；在某一特定时刻，图像上的点与三维物体上的点一一对应，这种对应关系可以通过投影来计算得到；根据各个像素点的速度矢量特征，可以对图像进行动态分析；如果图像中没有运动物体，则光流矢量在整个图像区域是连续变化的；当图像中有运动物体时，目标和背景存在着相对运动；运动物体所形成的速度矢量必然和背景的速度矢量有所不同，如此便可以计算出运动物体的位置。简单来说，光流是空间运动物体在观测成像平面上的像素运动的“瞬时速度”，而通过光流法获取到的全局特征即为视频的图像序列中像素强度数据的时域变化和相关性来确定出各像素位置的动态变化。

S13：通过K-SVD算法对字典进行初始化，并基于初始化的字典对局部特征及全局特征进行迭代求解，得到对应的稀疏编码和完备的字典，其中，不同视角下的同一动作类具有相似度大于预设值的稀疏编码，任何视角下不同的动作类具有相似度小于预设值的稀疏编码。

预设值可以根据实际需要进行设定，相似度大于预设值则说明相似度较高，否则则说明相似度较低，因此上述步骤中不同视角下的同一动作类具有相似的稀疏编码，任何视角下不同的动作类则不具有相似的稀疏编码，另外相似度等于预设值的情况也可以归为相似度较高的情况，也即不同视角下的同一动作类可以具有相似度大于或者等于预设值的稀疏编码。具体来说，通过K-SVD算法对字典进行初始化，然后对上一步获得的局部特征和全局特征进行训练，从而可以获得动作类的稀疏编码，再根据得到的稀疏编码训练字典，如此循环便可获得完备的字典和稀疏编码。具体来说，使用K-SVD算法进行字典初始化时，首先用Y表示所要输入的特征(即上述局部特征和全局特征)，K-SVD算法下列方程求解得到对应字典D：

其中，Y是输入特征，X是稀疏编码，可以通过这个算法获得初始化的字典D，在初始化过程中是一个一个子字典进行初始化的。然后通过初始化的字典求得第一次的稀疏编码，再通过稀疏编码反过来求字典，如此循环，直至收敛即可求得最终的完备的字典。

本申请公开的技术特征中，利用通过不同视角拍摄的视频进行训练，且训练得到的完备的字典中对应于不同的动作类具有相似度小于预设值的稀疏编码，由此，能够适应于拍摄视频的视角发生变化时对其中的人类行为进行识别的情况，识别性能较高。

具体来说，本发明是一种基于字典学习的跨视角的动作识别的方法，使得不同的视角下由不同的特定字典和共性字典和稀疏编码进行表示，这样不仅保证了不同视角下相同动作具有相似的稀疏表示，而且使得不同视角下相同的动作具有不同的稀疏表示，这样保证了同一个动作有相同的特征，同时保证了同一个动作具有区别性。通过相同动作在不同的视角下的同一时间具有相同的类标签和有相似稀疏编码表示，学习获得完备的字典和稀疏编码表示。对于视角的转换，可以根据字典转移数据而不影响识别的效果，这样保证了对于视角的推广。

本发明实施例提供的一种基于字典学习的跨视角人体行为识别方法，在利用k-means算法对时空兴趣点进行聚类得到对应的局部特征之前，还可以包括：

使用PCA(Principal Component Analysis)技术对提取得到的时空兴趣点进行降维操作。

具体来说，PCA是一种常用的数据分析方法，PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。设有m条n维数据特征，则利用PCA进行降维操作的原理可以如下：

1、均值归一化：计算出所有特征的均值，然后令x_j＝x_j-μ_j，其中μ_j表示均值，x_j表示被计算的数据特征点。如果特征是在不同的数量级上，还需要将其除以标准差σ²。

2、求出协方差矩阵

3、计算协方差矩阵Σ的特征向量。

4、将特征向量按对应特征的值大小从上到下按行排列成矩阵，取前k行组成矩阵P’。

5、Y’＝P’X’即为降维到k维后的数据特征，其中X’表示被降维的数据特征点。

通过将时空兴趣点进行上述降维操作，能够去掉不重要的影响因子，进而有利于对于时空兴趣点的后续处理。

本发明实施例提供的一种基于字典学习的跨视角人体行为识别方法，由训练视频中提取时空兴趣点，可以包括：

具体来说，利用高斯平滑函数和Gabor滤波器提取时空兴趣点的步骤可以包括：首先将视频的视频序列f中每一帧二维坐标到像素点亮度的映射 f^sp：R²→R表示；然后使用空间域中的高斯核函数g^sp将f中的每一帧变换到高斯空间，得到L^sp：R²×R₊→R，其中R指的是像素点的亮度，具体地有 L^sp(x，y，σ²)＝g^sp(x，y，σ²)*f^sp(x，y)，其中L^sp是使用空间域中的高斯核函数g^sp将f中的每一帧变换到高斯空间的表示，R₊指的是高斯核函数在将f中的每一帧变换到高斯空间的一个指代(可以理解为高斯核函数即R₊)，接下来对经过高斯平滑的视频序列f∶^R2×R₊→R沿着f的时间轴方向，对每一列元素进行选定窗口的一维Gabor 滤波，其具体运算过程式为：I＝(f*h_ev)²+(f*(h_od)²，其中h_ev和h_od如下：

其中，τ²表示滤波器在时域上的尺度，ω为Gabor窗口大小的1/8，I为像素点的强度，t为时间，x和y表示像素点的坐标，σ表示高斯函数的函数参数。计算视频序列f中每一点的R值(R为像素点的亮度，彩图中像素点的R 值为该像素点的RGB三色像素的值加权求和得到的，灰度图中像素点的R值为该像素点的亮度)，然后选定观测窗口的大小对I进行极大值滤波，就可以得到时空兴趣点的位置。通过上述方式能够快速准确的提取到训练视频中的时空兴趣点，供后续步骤使用。

本发明实施例提供的一种基于字典学习的跨视角的人体行为识别方法，通过K-SVD算法对字典进行初始化，并基于初始化的字典对局部特征及全局特征进行迭代求解，得到对应的稀疏编码和完备的字典，包括：

基于K-SVD算法对局部特征及全局特征进行训练，得到初始化的字典；

基于初始化的字典通过下列方程进行优化求解，得到优化后的稀疏编码X 和完备的字典D：

其中，C表示训练视频中包含的动作类的个数，Y_c表示训练视频中包含的第c个动作类，D表示字典，X_c表示训练视频中包含的第c个动作类所对应的稀疏编码，p_c表示训练视频中包含的第c个动作类的理想的稀疏编码，具体来说X_c和p_c分别为稀疏编码和理想的稀疏编码，用这两个值构造均方误差，使得构造误差最小，就可以使得X_c向理想的稀疏编码靠近，从而提高稀疏编码的精确度。D_c和D_j都表示特性字典，c和j分别表示为第c个特性字典和第j个特性字典的序号，其中k×k_c表示Q_c的维度(分别表示Q_c的行数和列数)，表示一个维度与Q_c维度一样的矩阵，且只有第k_c行第j列的值为1，其他值都为零，以使得D_c＝DQ_c，为的转置，λ₁、λ₂、α及β为预先设定的系数，A为对应线性转化矩阵，表示第i个视角对应的特性字典D_c的稀疏表示，Nc表示训练视频对应的视角个数。

令Y＝[Y₁,....,Y_N]∈R^n×N是一组n维的N个输入信号的特征空间表示，假设字典D的大小为K并且已知，对于Y的稀疏表示X＝[X₁,....,X_N]∈R^K×N可以有下方程解决：

其中表示构造误差，“F”表示Frobenius范数，||xi||₀≤s要求少于或等于s个的分解元素x。

而字典学习的过程可以包括：

其中D＝[D₁,....,D_C]∈R^C×k是要经过学习获得的，Y的稀疏表示为 X＝[X₁,....,X_N]，可以通过K-SVD方法学习获得完备的字典。

假定在数据源有C个类的动作类Y＝[Y₁,...Y_c...,Y_C]∈R^d×N，其中Y_c∈^Rd×Nc 表示数据集中的第c个动作类,表示第i个视角下的第c个类的信号。用D_C+1表示共性字典，则可以得到一个完备的字典 D＝[D₁,...D_c...D_C,D_C+1]∈R^d×K，其中表示第c个动作类的特性字典。现在假设有稀疏编码X＝[X₁,....,X_N]∈R^K×N使得 Y_i≈DX_i,是第i个视角所对应的子字典D_c的稀疏表示。I表示相对应的单位矩阵。定义目标方程f：

定义一种选择操作：

其中：

所以有：

D_c＝DQ_c

令：

因此更新目标方程f为：

然而，仅仅做到这些去学习有区分的字典是不够的，因为其他特定的字典可能跟第c类的字典共享一些基，例如，来自不同特定字典的元素仍然可能是一致的，因此可以互相交换表示查询数据。为了避免这个问题，使得除了那些对应于特定字典和共性字典除外的系数全为零。令：

Q/c＝[Q₁，...，Q_c-1，Q_c+1，...，Q_C，Q_C+1]

然后令：

就可以得到如下目标方程式：

该方程式可能无法获取字典的共性模式，例如，真实共性模式的基础可以出现几个特性，这样使得学习特性冗余和有较少的区别性，所以加入到上述目标方程式，同时将字典分割成不相交的子集，使得每一个子集负责一个视频动作类，也就是说用相同的子集代表同一动作，用不同的子集代表不同的动作，所以在目标方程式中加入其中是一个基于有标签的的理想的区分稀疏编码，如果来自于第k个类，就令p_ik＝1，而其他的p_i＝0，其中A∈R^J×J是一个线性转化矩阵，把原始的稀疏编码x_i转换到相似的p_i。所以可以得到如下目标方程。

其中特性字典为具有特殊属性，区别于其他字典的字典，例如视频里的人有一个动作，从不同的角度去观看所产生的效果是不一样的，所以每个视角就会存在差异，有自己特殊的性质；而共性字典就是每个字典里面的相同的部分，例如从不同的角度去观测一个人的动作，虽然角度发生了变化，但是终究只是一个人的行为动作，不管从哪个角度观察，本质上还是同一个动作，所以每个视角所对应的字典是存在共同的属性，简称共性。

三：对目标方程的优化：

对此目标方程的优化分为如下步骤：

1、固定字典D和A，计算稀疏编码X；

2、固定稀疏编码X和A，计算字典D；

3、固定字典D和系数编码X，计算矩阵A。

具体步骤：

1、计算稀疏编码X：

可以把目标方程写成如下方程式：

可以把上式用如下方程式表示：

其中:

I为单位矩阵。

优化上式是一个多任务组的套索问题，把每一个视角看成一个任务，使用SLEP(Sparse Learning With Efficient Projections)计算出稀疏编码X。

2、计算字典D：

可以把目标方程写成如下：

为了更新字典D＝[D₁，...D_c...D_C，D_C+1]，使用逐步迭代方法，比如更新D_c′，先固定其他的子字典D_i(i≠c),由于共性字典D_c+1也有助第c个类的拟合，所以对D_c和D_c+1采用不同的优化，优化步骤如下：

第一步：更新D_c：为了不失一般性，在更新D_c的时候固定其他的字典D_i (i≠c)。对于i＝1,...,C+1指定所以用如下方程跟新第c个类的D_c：

定义：

B＝DQ_/c

所以就有如下方程式：

接下来对的元素逐个的进行更新，例如更新时固定其他的元素，令X_c＝[x₁,...,x_Kc],其中是的第k行，令：

可以得出：

用对进行求导并令其等于0，然后可以得到：

作为字典的原子，应当被单位化，所以有：

所以对应的系数应该乘以即

第二步、更新D_c+1：

令：

B＝DQ_/C+1

得到如下的方程式：

令

可以得到如下方程：

其中

可以对D_c+1的元素进行逐个更新：

其中：

同理所以有：

所以对应的系数应该乘以即

3、计算A：

用如下方程式计算A：

P＝[p₁，...，p_C+1]

上述公式中，Y表示特征空间表示，X表示稀疏编码，D表示字典，N表示输入信号的个数，Nc表示视角的个数，表示数据集中的第c个动作类，表示第i个视角下的第c个类的信号，D_C+1表示共性字典， D＝[D₁,...D_c...D_C,D_C+1]∈R^d×K表示完备的字典，表示第c个动作类的特性字典，表示第i个视角所对应的子字典Dc的稀疏表示。

简单来说，上述算法的实现过程可以表示为：

1：Input:Y＝[Y₁,...Y_c...,Y_C]，λ₁，λ₂，α，β，P

2：Initialize D＝[D₁,...D_c...D_C,D_C+1]by K-SVD

3:Repeat

4:Compute spare codes X by(1)

5:Updating D using(2)and(3)

6:Updating A using(4)

7：until convergence of certain rounds

8：Output:D＝[D₁,...D_c...D_C,D_C+1]

其中算法中的各公式即为上文中包含的：

另外需要说明的是，本发明公开的上述技术方案中使用到的算法或者执行步骤未完全阐述清楚的部分均与现有技术中的对应算法或者执行步骤的实现原理一致，在此不做过多赘述。

本发明实施例还提供了一种基于字典学习的跨视角人体行为识别装置，如图2所示，可以包括：

提取模块11，用于：由训练视频中提取时空兴趣点，训练视频是通过多个不同视角进行拍摄的包含有多个动作类的视频；

处理模块12，用于：利用k-means算法对时空兴趣点进行聚类得到对应的局部特征，并利用光流法对训练视频进行操作得到对应的全局特征；

训练模块13，用于：通过K-SVD算法对字典进行初始化，并基于初始化的字典对局部特征及全局特征进行迭代求解，得到对应的稀疏编码和完备的字典，其中，不同视角下的同一动作类具有相似度大于预设值的稀疏编码，任何视角下不同的动作类具有相似度小于预设值的稀疏编码。

本发明实施例提供的一种基于字典学习的跨视角人体行为识别装置，还可以包括：

降维模块，用于：在利用k-means算法对时空兴趣点进行聚类得到对应的局部特征之前，使用PCA技术对提取得到的时空兴趣点进行降维操作。

本发明实施例提供的一种基于字典学习的跨视角人体行为识别装置，提取模块可以包括：

本发明实施例提供的一种基于字典学习的跨视角的人体行为识别装置，训练模块可以包括：

训练单元，用于：基于K-SVD算法对局部特征及全局特征进行训练，得到初始化的字典；

其中，C表示训练视频中包含的动作类的个数，Y_c表示训练视频中包含的第c个动作类，D表示字典，X_c表示训练视频中包含的第c个动作类所对应的稀疏编码，p_c表示训练视频中包含的第c个动作类的理想的稀疏编码，D_c和D_j都表示特性字典，c和j分别表示为第c个特性字典和第j个特性字典的序号，其中k×k_c表示Q_c的维度，表示一个维度与Q_c维度一样的矩阵，且只有第k_c行第j列的值为1，其他值都为零，为的转置，λ₁、λ₂、α及β为预先设定的系数，A为对应线性转化矩阵，表示第i个视角对应的特性字典D_c的稀疏表示，Nc表示训练视频对应的视角个数。

本发明实施例提供的一种基于字典学习的跨视角人体行为识别装置中相关部分的说明请参见本发明实施例提供的一种基于字典学习的跨视角人体行为识别方法中对应部分的详细说明，在此不再赘述。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于字典学习的跨视角人体行为识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在利用k-means算法对所述时空兴趣点进行聚类得到对应的局部特征之前，还包括：

使用PCA技术对提取得到的所述时空兴趣点进行降维操作。

3.根据权利要求2所述的方法，其特征在于，由训练视频中提取时空兴趣点，包括：

4.根据权利要求1所述的方法，其特征在于，通过K-SVD算法对字典进行初始化，并基于初始化的字典对所述局部特征及所述全局特征进行迭代求解，得到对应的稀疏编码和完备的字典，包括：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>f</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <mo>{</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>Y</mi> <mi>c</mi> </msub> <mo>-</mo> <msub> <mi>DX</mi> <mi>c</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>Y</mi> <mi>c</mi> </msub> <mo>-</mo> <mi>D</mi> <msub> <mover> <mi>Q</mi> <mo>~</mo> </mover> <mi>c</mi> </msub> <msubsup> <mover> <mi>Q</mi> <mo>~</mo> </mover> <mi>c</mi> <mi>T</mi> </msubsup> <msub> <mi>X</mi> <mi>c</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mo>|</mo> <mo>|</mo> <msubsup> <mover> <mi>Q</mi> <mo>~</mo> </mover> <mrow> <mo>/</mo> <mi>c</mi> </mrow> <mi>T</mi> </msubsup> <msub> <mi>X</mi> <mi>c</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>1</mn> </msub> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>2</mn> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>X</mi> <mi>c</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <mi>&beta;</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>p</mi> <mi>c</mi> </msub> <mo>-</mo> <msub> <mi>AX</mi> <mi>c</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>}</mo> <mo>+</mo> <mi>&alpha;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>C</mi> <mo>+</mo> <mn>1</mn> </mrow> </munderover> <munderover> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> </munder> <mrow> <mi>j</mi> <mo>&NotEqual;</mo> <mi>c</mi> </mrow> <mrow> <mi>C</mi> <mo>+</mo> <mn>1</mn> </mrow> </munderover> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mi>c</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

5.一种基于字典学习的跨视角人体行为识别装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，还包括：

7.根据权利要求6所述的装置，其特征在于，所述提取模块包括：

8.根据权利要求5所述的装置，其特征在于，所述训练模块包括：