CN105740833B - 一种基于深度序列的人体行为识别方法 - Google Patents
一种基于深度序列的人体行为识别方法 Download PDFInfo
- Publication number
- CN105740833B CN105740833B CN201610077386.5A CN201610077386A CN105740833B CN 105740833 B CN105740833 B CN 105740833B CN 201610077386 A CN201610077386 A CN 201610077386A CN 105740833 B CN105740833 B CN 105740833B
- Authority
- CN
- China
- Prior art keywords
- lbp
- sequence
- depth
- dictionary
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000004044 response Effects 0.000 title abstract 3
- 230000006399 behavior Effects 0.000 claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 27
- 238000011176 pooling Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000000007 visual effect Effects 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000003909 pattern recognition Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000013459 approach Methods 0.000 claims description 2
- 230000003542 behavioural effect Effects 0.000 claims description 2
- 210000000746 body region Anatomy 0.000 claims description 2
- 229910003460 diamond Inorganic materials 0.000 claims description 2
- 239000010432 diamond Substances 0.000 claims description 2
- 241000411851 herbal medicine Species 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 abstract 1
- 230000008520 organization Effects 0.000 abstract 1
- 238000005286 illumination Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度序列的人体行为识别方法,基于法线信息的LBP算子;空间金字塔方式组合LBP算子;组合LBP算子的稀疏表示;行为序列的分割与对齐;为获取深度图中反映不同人体行为表面的曲面特征,进一步提高人体行为识别的鲁棒性,根据深度图中人体结构的相似性及关联信息,定义了深度图中法向信息的LBP描述算子,该算子在细节上保持了人体行为曲面的几何特性,局部空间上提取了曲面的局部特征,并以此作为深度图中人体行为局部特征表示。全局上,基于字典学习的编码方法整合了细节信息,自适应时空金字塔和稀疏系数的池化处理保持住了人体曲面的局部空间结构关系,实现对三维人体行为的细节和整体特征描述。
Description
技术领域
本发明涉及模式识别及计算机视觉领域,尤其涉及一种基于改进局部二值模式(LBP)与稀疏表示的人体行为识别方法。
背景技术
人体行为识别在视频监控、医疗健康看护等领域已经具有广泛应用。但目前人体行为识别的研究主要集中在传统彩色图像视频上,由于彩色图像视频缺乏人体的三维空间信息,对行为特征的描述不够全面,很难处理遮挡、光照及行为外观变化的特征描述问题,因此其应用效果及范围具有一定局限性。随着图像获取技术的进步,深度图像获取越来越容易。深度图像相比传统的颜色图像能提供更多的人体表观和结构信息,对光照变化不敏感,因此在行为识别领域,引入深度信息,研究基于深度信息的人体特征表示与提取是人体行为识别的关键,已经引起人们的极大关注。但在深度数据中,迄今还没有一种有效的描述子能够准确的表示深度数据的特性,彩色图像中的一些描述算子(如SIFT)等算子直接平移到深度数据中并没有取得令人满意的结果。局部二值模式(LBP)是一种计算简单、非参数化的局部纹理模式描述算子,由于它对光照变化不敏感,是一种有效的纹理描述算子,它在二维图像特征表示与提取中获得了成功。已有研究将其应用在深度数据中但取得的效果同样不是十分理想。
发明内容
为获取深度图中反映不同人体行为表面的曲面特征,进一步提高人体行为识别的鲁棒性,根据深度图中人体结构的相似性及关联信息,定义了深度图中法向信息的LBP描述算子,该算子在细节上保持了人体行为曲面的几何特性,局部空间上提取了曲面的局部特征,并以此作为深度图中人体行为局部特征表示。全局上,基于字典学习的编码方法整合了细节信息,自适应时空金字塔和稀疏系数的池化处理保持住了人体曲面的局部空间结构关系,实现对三维人体行为的细节和整体特征描述。
本发明主要涉及一种基于深度序列的人体行为识别方法,该方法为一种基于改进局部二值模式(LBP)与稀疏表示的人体行为识别方法,深度序列的描述符计算流程如图1,主要步骤如下:
S1基于法线信息的LBP算子
在模式识别中,LBP算子最早应用于二维人脸图像的识别,它在图像一个区域窗口内,以窗口的中心像素为阈值,将相邻若干个像素的灰度值与其进行比较,若邻域像素值大于中心像素值,则该像素点的位置被标记为1,否则标记为0。这样,一个区域窗口中便可产生一个二进制数(通常转换为十进制数),即得到该窗口中心像素点的 LBP值,这个值反映了该区域的局部纹理信息。
鉴于LBP算子在二维模式识别领域中的成功应用,本文将LBP算子推广到深度视频序列中,提出了描述深度视频中基于表面法向信息的LBP算子,这种LBP算子很好地描述曲面的曲率变化特性。
由于深度序列看作是一个函数:这样便得到了由一系列的点(x,y,z,t)组成满足S(x,y,t,z)=f(x,y,t)-z=0的四维超平面。该超平面上点(x,y,z,t)的法线方向为:
和传统梯度方向相比,法向量的方向与4D曲面的形状相关,法向量的方向分布能够比传统的梯度方向提供更多的几何信息,也能够更精确地表述四维超平面的几何信息。考虑到法线代表四维空间中的方向,基于原来LBP算子的构造思路,根据深度图中某一点法线与其邻域点法线间的角度关系定义该点的新的LBP算子:
其中,Pc表示当前点即LBP邻域窗口的中心点,Nc表示点Pc位置的法线向量,Nn表示点Pc邻域中第n个点的法线向量,Angle(Nc,Nn)表示两个法向量间的角度度量关系,λ为一设定的阈值,其约束二值函数B(x)的取值。
但这种LBP算子存在一个不足:它只覆盖了一个固定半径范围内的小区域,在这个区域内只能够取到一个正方形邻域点,这显然不能满足不同规格表面的需要。为了适应不同尺度的特征,对这种LBP算子进行了改进,用圆形邻域代替了正方形邻域,改进后的LBP算子允许在半径为r的圆形邻域内有任意多个像素点。从而得到了半径为r的圆形区域内含有n个采样点的LBP算子。
S2空间金字塔方式组合LBP算子
人体行为在视频序列的前后帧之间具有关联性,将相邻帧中某一点及其邻近点的LBP特征进行组合,使原始深度序列中的每个像素用他邻域信息组合成的超像素表示,这样能够全面描述相邻点之间的关联性和动态性,得到多维组合LBP特征来表示人体行为动态信息,提高行为特征的表示能力。
为了提高组合LBP算子的尺度不变性,LBP算子的组合方式是采用空间金字塔的方式选取所需要的点,多维金字塔法组合方式能够捕获中心点局部领域内的多层表观信息,具有更好的鲁棒性。如图2,在点p所在的帧内,黑色圆形标记点p作为空间金字塔的第一层,四 个菱形标记的点为金字塔的第二层,九个十字标记的点为第三层,这样在一帧内便取了14个点。然后在该帧的前后帧按照同样的方式取点,计算每一点的法向LBP特征,将这些LBP特征组合成一个向量,最终得到中心点p的LBP组合特征,该特征维度为42。若原始深度序列的维度为W×H×T,那么通过这种组合方式,原深度序列表示为一个矩阵,该矩阵的维度是42×W*H*T。
S3组合LBP算子的稀疏表示
根据上述方法,对深度序列每一帧的所有像素点都提取到一个LBP特征,进而也提取了组合LBP特征,然而得到的数据依然是一个序列,只不过这里已经将原始测量空间中的测量特征转换为二值特征。但是,这个二值特征与空间位置、时间位置是紧密相关的,如果直接用这个二值特征进行判别分析的话,会因为位置没有对齐产生很大的误差。为此,本方法首先使用基于字典的方法来解决这个问题,即通过训练样本学习一组字典,然后通过这个字典对所有样本进行规格化表示来消除这种误差。
给定一个由C个类别的组合LBP特征表示的训练矩阵X=(X1,X2,...,XC),特征矩阵表示属于第i类的ni个深度序列的组合LBP特征连结在一起表示。通过下面优化模型可以求得训练样本的字典和稀疏表示系数。
其中,为重构误差项,||Ai||1为稀疏约束项,D∈R42×K为稀疏字典,字典的第一维度42与组合LBP特征的维度相同,K为字典的第二维度即字典D的视觉词的总数,D的每一列称为视觉词,矩阵Ai为原始特种Xi相对于字典D的稀疏表示,λ是稀疏正则项。
对于一个W×H×T维的深度视频序列,通过上述模型学习得到样本的组合LBP特征矩阵的字典和稀疏表示系数,以此稀疏表示系数作为组合特征的新的特征表示。这个系数相对于原来的底层特征,具有更好的判别性,但它是一个矩阵而不是向量,另外由于不同序列采集的帧数不同,导致这个矩阵的维度不统一,无法直接拿来进行分类度量,为此需要首先对行为视频序列进行分割,保证分割后的深度序列具有相同数目的子序列。然后融合每个子序列的特征表示作为该视频序列的描述符,这样将各时段的局部特征信息融合起来表示原始深度序列既考虑到了整个深度视频序列所代表的动作信息,又着重表示了整个序列中与行为最相关的局部信息。
S4行为序列的分割与对齐
S4.1视频帧的分割
针对深度数据,在空间维度提取出人体区域后将这个区域划分为4×3的网格而不是直接将原有序列的整帧进行分割,使用该区域的数据信息进行识别不仅能够降低所需处理的数据量,更重要的是可以尽可能的滤除背景的影响,捕捉到人体躯干的运动情况,使得到的描述符鲁棒性更强。
进行视频帧分割时,为了保持相邻的法向量之间的相关性,使它们对噪声更具有鲁棒性,本文利用时空金字塔模型,从局部时间维度聚集法向量。时间金字塔的经典构建方法是对整个序列在时间维度进行均匀分割,然而,不同人在执行同一动作时可能有不同的速度,而且执行的次数也不尽相同,所以这种均匀的分割处理不能够很好地应对这种变化。考虑到深度数据的特点,使用了一种新的时间分割方法。给定一个深度序列,首先将第i帧投影到三个正交的平面,即正面、侧面和顶面得到三幅投影后的图像那么这帧的能量为:
ξ是设定的阈值,sum(·)计算二值图中的非零值的个数。
通过均匀划分这个能量对序列进行划分。先对能量进行均匀划分后得到五个时刻t0,t1,t2,t3,t4,利用这几个时刻构造一个三层的时间金字塔:t0-t4时间段内所有的帧作为第一层;将t0-t4分为两个子序列t0-t2、t2-t4作为金字塔的第二层;再对t0-t2、t2-t4进一步划分得到四个子序列t0-t1、t1-t2、t2-t3、t3-t4作为金字塔的第三层。构建的时间金字塔见0。在时空维度,原深度序列被划分为4×3×7个子序列。
S4.2池化处理
对于每一个子序列,通过前面字典学习得到了字典及其稀疏表示系数,使用了池化(Pooling)技术对稀疏系数进行处理得到每个子序列的描述符。原始的池化技术主要有两种,平均值池化就是对池化数据取平均值,最大值池化就是求池化数据的最大值。根据稀疏系数的特点,本文使用一种全新的池化方法,即空间平均池化与时间最大池化。另外,并不是直接对稀疏系数进行池化,而是通过池化组合LBP特征和字典的每个视觉词的加权差异来表示原有数据。
给定一个维度为W×H×T的深度序列,它的组合LBP特征为xi表示深度序列中第i个点的组合LBP特征,P=W*H*T,表示该深度序列的组合LBP特征总数,关于字典D的稀疏表示系数为x中在该序列第t帧的子集计为Nt。对字典的每个视觉词,首先应用空间平均池化计算组合LBP特 征与视觉词之间的差异:
其中,表示第t帧内第k个视觉词的池化差异向量,|Nt|表示集合Nt中元素个数,为组合LBP特征xi对应字典D的稀疏系数αi的第k个元素。然后,使用时间最大池化方法得到差异向量uk,uk的第m个元素的计算方法为:
uk保留了最大的差异向量,在保留序列重要的类别信息的同时又去除了很多冗余的信息。最后,将所有视觉词的差异向量连结起来得到该子序列的M*K维的描述符:
这样一个深度序列的描述符就只与稀疏表示中字典的视觉词的个数K有关。最终的将S4.1中的84个子序列的描述符串联在一起作为原始深度序列的最终的描述符,将这个描述符输入到与SVM分类器进行分类识别。
附图说明
图1深度序列描述符计算流程如图。
图2点p的空间金字塔组合LBP算子。
图3构建时间金字塔。
具体实施方式
根据上面方法的描述,进行了实验验证。实验数据选择了MSR Action 3D数据库和MSR Gesture 3D数据库。MSR Action 3D数据库是使用微软Kinect深度传感器采集的公共数据库,该数据库由10个表演者完成20种动作的深度序列构成,每个表演者的每个动作采集2-3次,虽然这个数据库的背景经过处理,但是由于20种动作中许多动作非常相似,对这个数据集进行识别仍然具有很大的挑战性;MSR Gesture3D是一个通过深度相机获取深度序列的手势数据库,也是一种十分流行的人体手势测试评价数据库。该数据库包含了12个由American Sign Language(ASL)定义的动态手势。每个手势由10个人执行2-3次。由于自遮挡问题,这个数据库具有很强的挑战性。
在MSR Action 3D数据库上本文提出的方法与一些现有算法的实验结果比较见表1。本文提出的方法获得了最高的94.91%的识别结果,实验结果进一步证明了本文提出的行为特征表示弥补了其他方法的不足,具有较强的区分性、鲁棒性和稳定性。
表1在MSRAction 3D数据库上,现有方法与本文方法的识别率比较
在MSR Gesture 3D数据库上的实验结果与其他方法的比较见表2。由于的LBP编码方式在保留整体信息的同时更加强调图像中手的边缘信息,所以的结果优于这两种方法,本文方法取得了最好的95.53%的识别率。
表2在MSR Gesture3D数据库上,现有方法与本文方法的识别率比较
Claims (1)
1.一种基于深度序列的人体行为识别方法,其特征在于:该方法为一种基于改进局部二值模式(LBP)与稀疏表示的人体行为识别方法,深度序列的描述符计算流程主要步骤如下:
S1基于法线信息的LBP算子
在模式识别中,LBP算子最早应用于二维人脸图像的识别,它在图像一个区域窗口内,以窗口的中心像素为阈值,将相邻若干个像素的灰度值与其进行比较,若邻域像素值大于中心像素值,则该像素点的位置被标记为1,否则标记为0;这样,一个区域窗口中便可产生一个二进制数,即得到该窗口中心像素点的LBP值,这个值反映了该区域的局部纹理信息;
鉴于LBP算子在二维模式识别领域中的成功应用,本方法将LBP算子推广到深度视频序列中,提出了描述深度视频中基于表面法向信息的LBP算子,这种LBP算子很好地描述曲面的曲率变化特性;
由于深度序列看作是一个函数:这样便得到了由一系列的点(x,y,z,t)组成满足S(x,y,t,z)=f(x,y,t)-z=0的四维超平面;该超平面上点(x,y,z,t)的法线方向为:
和传统梯度方向相比,法向量的方向与4D曲面的形状相关,法向量的方向分布能够比传统的梯度方向提供更多的几何信息,也能够更精确地表述四维超平面的几何信息;考虑到法线代表四维空间中的方向,基于原来LBP算子的构造思路,根据深度图中某一点法线与其邻域点法线间的角度关系定义该点的新的LBP算子:
其中,Pc表示当前点即LBP邻域窗口的中心点,Nc表示点Pc位置的法线向量,Nn表示点Pc邻域中第n个点的法线向量,Angle(Nc,Nn)表示两个法向量间的角度度量关系,λ为一设定的阈值,其约束二值函数B(x)的取值;
但这种LBP算子存在一个不足:它只覆盖了一个固定半径范围内的小区域,在这个区域内只能够取到一个正方形邻域点,这显然不能满足不同规格表面的需要;为了适应不同尺度的特征,对这种LBP算子进行了改进,用圆形邻域代替了正方形邻域,改进后的LBP算子允许在半径为r的圆形邻域内有任意多个像素点;从而得到了半径为r的圆形区域内含有n个采样点的LBP算子;
S2空间金字塔方式组合LBP算子
人体行为在视频序列的前后帧之间具有关联性,将相邻帧中某一点及其邻近点的LBP特征进行组合,使原始深度序列中的每个像素用他邻域信息组合成的超像素表示,这样能够全面描述相邻点之间的关联性和动态性,得到多维组合LBP特征来表示人体行为动态信息,提高行为特征的表示能力;
为了提高组合LBP算子的尺度不变性,LBP算子的组合方式是采用空间金字塔的方式选取所需要的点,多维金字塔法组合方式能够捕获中心点局部领域内的多层表观信息,具有更好的鲁棒性;在点p所在的帧内,黑色圆形标记点p作为空间金字塔的第一层,四个菱形标记的点为金字塔的第二层,九个十字标记的点为第三层,这样在一帧内便取了14个点;然后在该帧的前后帧按照同样的方式取点,计算每一点的法向LBP特征,将这些LBP特征组合成一个向量,最终得到中心点p的LBP组合特征,该特征维度为42;若原始深度序列的维度为W×H×T,那么通过这种组合方式,原深度序列表示为一个矩阵,该矩阵的维度是42×W*H*T;
S3组合LBP算子的稀疏表示
根据上述方法,对深度序列每一帧的所有像素点都提取到一个LBP特征,进而也提取了组合LBP特征,然而得到的数据依然是一个序列,只不过这里已经将原始测量空间中的测量特征转换为二值特征;但是,这个二值特征与空间位置、时间位置是紧密相关的,如果直接用这个二值特征进行判别分析的话,会因为位置没有对齐产生很大的误差;为此,本方法首先使用基于字典的方法来解决这个问题,即通过训练样本学习一组字典,然后通过这个字典对所有样本进行规格化表示来消除这种误差;
给定一个由C个类别的组合LBP特征表示的训练矩阵X=(X1,X2,...,XC),特征矩阵表示属于第i类的ni个深度序列的组合LBP特征连结在一起表示;通过下面优化模型可以求得训练样本的字典和稀疏表示系数;
其中,为重构误差项,||Ai||1为稀疏约束项,D∈R42×K为稀疏字典,字典的第一维度42与组合LBP特征的维度相同,K为字典的第二维度即字典D的视觉词的总数,D的每一列称为视觉词,矩阵Ai为原始特种Xi相对于字典D的稀疏表示,λ是稀疏正则项;
对于一个W×H×T维的深度视频序列,通过上述模型学习得到样本的组合LBP特征矩阵的字典和稀疏表示系数,以此稀疏表示系数作为组合特征的新的特征表示;这个系数相对于原来的底层特征,具有更好的判别性,但它是一个矩阵而不是向量,另外由于不同序列采集的帧数不同,导致这个矩阵的维度不统一,无法直接拿来进行分类度量,为此需要首先对行为视频序列进行分割,保证分割后的深度序列具有相同数目的子序列;然后融合每个子序列的特征表示作为该视频序列的描述符,这样将各时段的局部特征信息融合起来表示原始深度序列既考虑到了整个深度视频序列所代表的动作信息,又着重表示了整个序列中与行为最相关的局部信息;
S4行为序列的分割与对齐
S4.1视频帧的分割
针对深度数据,在空间维度提取出人体区域后将这个区域划分为4×3的网格而不是直接将原有序列的整帧进行分割,使用该区域的数据信息进行识别不仅能够降低所需处理的数据量,更重要的是可以尽可能的滤除背景的影响,捕捉到人体躯干的运动情况,使得到的描述符鲁棒性更强;
进行视频帧分割时,为了保持相邻的法向量之间的相关性,使它们对噪声更具有鲁棒性,本方法利用时空金字塔模型,从局部时间维度聚集法向量;时间金字塔的经典构建方法是对整个序列在时间维度进行均匀分割,然而,不同人在执行同一动作时可能有不同的速度,而且执行的次数也不尽相同,所以这种均匀的分割处理不能够很好地应对这种变化;考虑到深度数据的特点,使用了一种新的时间分割方法;给定一个深度序列,首先将第i帧投影到三个正交的平面,即正面、侧面和顶面得到三幅投影后的图像那么这帧的能量为:
ξ是设定的阈值,sum(·)计算二值图中的非零值的个数;
通过均匀划分这个能量对序列进行划分;先对能量进行均匀划分后得到五个时刻t0,t1,t2,t3,t4,利用这几个时刻构造一个三层的时间金字塔:t0-t4时间段内所有的帧作为第一层;将t0-t4分为两个子序列t0-t2、t2-t4作为金字塔的第二层;再对t0-t2、t2-t4进一步划分得到四个子序列t0-t1、t1-t2、t2-t3、t3-t4作为金字塔的第三层;在时空维度,原深度序列被划分为4×3×7个子序列;
S4.2池化处理
对于每一个子序列,通过前面字典学习得到了字典及其稀疏表示系数,使用了池化(Pooling)技术对稀疏系数进行处理得到每个子序列的描述符;原始的池化技术主要有两种,平均值池化就是对池化数据取平均值,最大值池化就是求池化数据的最大值;根据稀疏系数的特点,本方法使用一种池化方法,即空间平均池化与时间最大池化;另外,并不是直接对稀疏系数进行池化,而是通过池化组合LBP特征和字典的每个视觉词的加权差异来表示原有数据;
给定一个维度为W×H×T的深度序列,它的组合LBP特征为xi表示深度序列中第i个点的组合LBP特征,P=W*H*T,表示该深度序列的组合LBP特征总数,关于字典D的稀疏表示系数为x中在该序列第t帧的子集计为Nt;对字典的每个视觉词,首先应用空间平均池化计算组合LBP特征与视觉词之间的差异:
其中,表示第t帧内第k个视觉词的池化差异向量,|Nt|表示集合Nt中元素个数,为组合LBP特征xi对应字典D的稀疏系数αi的第k个元素;然后,使用时间最大池化方法得到差异向量uk,uk的第m个元素的计算方法为:
uk保留了最大的差异向量,在保留序列重要的类别信息的同时又去除了很多冗余的信息;最后,将所有视觉词的差异向量连结起来得到该子序列的M*K维的描述符:
这样一个深度序列的描述符就只与稀疏表示中字典的视觉词的个数K有关;最终的将S4.1中的84个子序列的描述符串联在一起作为原始深度序列的最终的描述符,将这个描述符输入到与SVM分类器进行分类识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610077386.5A CN105740833B (zh) | 2016-02-03 | 2016-02-03 | 一种基于深度序列的人体行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610077386.5A CN105740833B (zh) | 2016-02-03 | 2016-02-03 | 一种基于深度序列的人体行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105740833A CN105740833A (zh) | 2016-07-06 |
CN105740833B true CN105740833B (zh) | 2019-03-22 |
Family
ID=56241849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610077386.5A Active CN105740833B (zh) | 2016-02-03 | 2016-02-03 | 一种基于深度序列的人体行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105740833B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106248070B (zh) * | 2016-07-08 | 2019-07-23 | 上海工业控制安全创新科技有限公司 | 一种基于虹膜识别启动的导航仪 |
CN106599805B (zh) * | 2016-12-01 | 2019-05-21 | 华中科技大学 | 一种基于有监督数据驱动的单目视频深度估计方法 |
CN106991372B (zh) * | 2017-03-02 | 2020-08-28 | 北京工业大学 | 一种基于混合深度学习模型的动态手势识别方法 |
CN106683680B (zh) * | 2017-03-10 | 2022-03-25 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
CN108229280B (zh) * | 2017-04-20 | 2020-11-13 | 北京市商汤科技开发有限公司 | 时域动作检测方法和系统、电子设备、计算机存储介质 |
CN108564043B (zh) * | 2018-04-17 | 2021-08-31 | 中国民航大学 | 一种基于时空分布图的人体行为识别方法 |
CN108537196B (zh) * | 2018-04-17 | 2021-08-31 | 中国民航大学 | 基于运动历史点云生成的时空分布图的人体行为识别方法 |
CN108763895B (zh) * | 2018-04-28 | 2021-03-30 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、存储介质 |
CN109460734B (zh) * | 2018-11-08 | 2020-07-31 | 山东大学 | 基于层次动态深度投影差值图像表示的视频行为识别方法及系统 |
CN109670401B (zh) * | 2018-11-15 | 2022-09-20 | 天津大学 | 一种基于骨骼运动图的动作识别方法 |
CN110020627A (zh) * | 2019-04-10 | 2019-07-16 | 浙江工业大学 | 一种基于深度图与特征融合的行人检测方法 |
CN110650340B (zh) * | 2019-04-25 | 2022-01-14 | 长沙理工大学 | 一种时空复用的压缩视频成像方法 |
CN111291759A (zh) * | 2020-01-17 | 2020-06-16 | 北京三快在线科技有限公司 | 文字检测方法、装置、电子设备及存储介质 |
CN113591797B (zh) * | 2021-08-23 | 2023-07-28 | 苏州大学 | 一种深度视频行为识别方法 |
CN113806463B (zh) * | 2021-09-06 | 2023-04-28 | 北京信息科技大学 | 一种基于时空金字塔匹配的轨迹相似度计算方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266704A (zh) * | 2008-04-24 | 2008-09-17 | 张宏志 | 基于人脸识别的atm安全认证与预警方法 |
CN103049751A (zh) * | 2013-01-24 | 2013-04-17 | 苏州大学 | 一种改进的加权区域匹配高空视频行人识别方法 |
CN103258193A (zh) * | 2013-05-21 | 2013-08-21 | 西南科技大学 | 一种基于kod能量特征的群体异常行为识别方法 |
CN103310233A (zh) * | 2013-06-28 | 2013-09-18 | 青岛科技大学 | 同类行为多视图间相似度挖掘方法及行为识别方法 |
CN103390164A (zh) * | 2012-05-10 | 2013-11-13 | 南京理工大学 | 基于深度图像的对象检测方法及其实现装置 |
-
2016
- 2016-02-03 CN CN201610077386.5A patent/CN105740833B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266704A (zh) * | 2008-04-24 | 2008-09-17 | 张宏志 | 基于人脸识别的atm安全认证与预警方法 |
CN103390164A (zh) * | 2012-05-10 | 2013-11-13 | 南京理工大学 | 基于深度图像的对象检测方法及其实现装置 |
CN103049751A (zh) * | 2013-01-24 | 2013-04-17 | 苏州大学 | 一种改进的加权区域匹配高空视频行人识别方法 |
CN103258193A (zh) * | 2013-05-21 | 2013-08-21 | 西南科技大学 | 一种基于kod能量特征的群体异常行为识别方法 |
CN103310233A (zh) * | 2013-06-28 | 2013-09-18 | 青岛科技大学 | 同类行为多视图间相似度挖掘方法及行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105740833A (zh) | 2016-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105740833B (zh) | 一种基于深度序列的人体行为识别方法 | |
Deng et al. | Learning to predict crisp boundaries | |
Wang et al. | Appearance-based gaze estimation using deep features and random forest regression | |
Hong et al. | Multimodal deep autoencoder for human pose recovery | |
Hu | Enhanced gabor feature based classification using a regularized locally tensor discriminant model for multiview gait recognition | |
Li et al. | A comprehensive survey on 3D face recognition methods | |
Basaran et al. | An efficient framework for visible–infrared cross modality person re-identification | |
Lui | Tangent bundles on special manifolds for action recognition | |
CN106778474A (zh) | 3d人体识别方法及设备 | |
Wang et al. | Head pose estimation with combined 2D SIFT and 3D HOG features | |
Fang et al. | Real-time hand posture recognition using hand geometric features and fisher vector | |
Kong et al. | Learning hierarchical 3D kernel descriptors for RGB-D action recognition | |
Kim et al. | Illumination invariant head pose estimation using random forests classifier and binary pattern run length matrix | |
Lee et al. | Face image retrieval using sparse representation classifier with gabor-lbp histogram | |
Das et al. | Deep-temporal lstm for daily living action recognition | |
Bouziane et al. | Unified framework for human behaviour recognition: An approach using 3D Zernike moments | |
Brun et al. | Action recognition by using kernels on aclets sequences | |
Chandaliya et al. | Child face age progression and regression using self-attention multi-scale patch gan | |
Ming | Hand fine-motion recognition based on 3D Mesh MoSIFT feature descriptor | |
Rady et al. | Smart gesture-based control in human computer interaction applications for special-need people | |
Taylor et al. | Pose-sensitive embedding by nonlinear nca regression | |
Ghosh et al. | Deep learning-based multi-view 3D-human action recognition using skeleton and depth data | |
Su et al. | A multiattribute sparse coding approach for action recognition from a single unknown viewpoint | |
Angelopoulou et al. | Evaluation of different chrominance models in the detection and reconstruction of faces and hands using the growing neural gas network | |
Wang et al. | Hand motion and posture recognition in a network of calibrated cameras |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |