CN104751111B - 识别视频中人体行为的方法和系统 - Google Patents

识别视频中人体行为的方法和系统 Download PDF

Info

Publication number
CN104751111B
CN104751111B CN201310754550.8A CN201310754550A CN104751111B CN 104751111 B CN104751111 B CN 104751111B CN 201310754550 A CN201310754550 A CN 201310754550A CN 104751111 B CN104751111 B CN 104751111B
Authority
CN
China
Prior art keywords
feature
symbiosis
space
time
super vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310754550.8A
Other languages
English (en)
Other versions
CN104751111A (zh
Inventor
乔宇
蔡卓伟
彭小江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201310754550.8A priority Critical patent/CN104751111B/zh
Publication of CN104751111A publication Critical patent/CN104751111A/zh
Application granted granted Critical
Publication of CN104751111B publication Critical patent/CN104751111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking

Abstract

本发明提供了一种识别视频中人体行为的方法,所述方法包括:提取目标视频中的特征点;将特征点周围时间和空间邻域内固定的像素点和特征点组成点对;将所述点对形成时空3D共生特征,时空3D共生特征包括3D共生梯度方向直方图特征、3D共生光流直方图特征和3D共生运动边界直方图特征;根据时空3D共生特征提取目标视频表示的多视角超向量;将多视角超向量带入支持向量机分类器中对目标视频中的人体行为进行识别。根据时空3D共生特征提取目标视频表示的多视角超向量更能够反映复杂的表观结构和运动结构,因而利用视频表示的多视角超向量进行人体行为识别,能够提高了人体行为识别的精确度。

Description

识别视频中人体行为的方法和系统
技术领域
本发明涉及计算机视觉领域,特别是涉及一种识别视频中人体行为的方法和系统。
背景技术
人体行为识别是通过计算机视觉方法判断和识别视频中的人正在进行的行为,例如通过对视频中的人体行为进行识别可以知道视频中的人是在跑动或者散步,视频表示方法直接影响人体行为识别的最终效果。
传统的视频表示方法主要是基于多种时空局部特征融合的方法,此类方法首先在视频中抽取局部时空长方体块,然后在原始帧中提取梯度方向直方图(Histogram ofGradient orientation,HOG)特征,在光流帧中提取光流梯度方向直方图(Histogram ofFlow gradient orientation,HOF)特征和运动边界直方图 (Motion BoundaryHistogram,MBH)特征。而在利用这些不同特征的特征融合阶段,常用的有两种方法。一种是早期融合法,即所有的特征串联形成一个长特征进行编码和聚合以形成中层的视频表示;另一种是后期融合法,即将单种特征进行编码和聚合形成多个中层视频表示方法,然后将中层表示串联或者在单个特征得到分类得分后进行加权融合;最后,将中层视频表示输入至分类器进行人体行为识别。
传统方法中,在人体行为识别中提取局部特征(如HOG、HOF和MBH)虽然考虑了表观和运动信息,但是这种信息只局限在单帧中,其中帧的上下文表观及运动信息被忽略,这将导致人体行为识别不够精确。
发明内容
基于此,有必要针对在视频中对人体行为识别不够精确问题,提供一种能精确对视频中的人体行为进行识别的实现对视频中人体行为识别的方法。
此外还有必要提供一种能精确对视频中的人体行为进行识别的实现对视频中人体行为识别的系统。
一种识别视频中人体行为的方法,所述方法包括:
提取目标视频中的特征点;
将所述特征点周围时间和空间邻域内固定的像素点和所述特征点组成点对;
将所述点对形成时空3D共生特征,所述时空3D共生特征包括3D共生梯度方向直方图特征、3D共生光流直方图特征和3D共生运动边界直方图特征;
根据所述时空3D共生特征提取所述目标视频表示的多视角超向量;
将所述多视角超向量带入支持向量机分类器中对所述目标视频中的人体行为进行识别。
在其中一个实施例中,所述根据所述点对形成时空3D共生特征的步骤为:
对所述点对进行联合量化,并统计所述点对的梯度方向的特征得到共生矩阵;
将所述共生矩阵辅成向量,并串联形成时空3D共生特征。
在其中一个实施例中,所述根据所述时空3D共生特征提取所述目标视频表示的多视角超向量的步骤为:
对所述时空3D共生特征中任意两种特征分别建立混合典型相关分析模型;
从所述混合典型相关分析模型中提取作为所述目标视频表示的多视角超向量。
在其中一个实施例中,所述对所述时空3D共生特征中任意两种特征分别建立混合典型相关分析模型的步骤为:
将所述时空3D共生特征中任意两种特征的空间划分为多个局部空间;
对所述多个局部空间依次建立典型相关分析模型;
根据所述典型相关分析模型建立混合典型相关分析模型。
在其中一个实施例中,所述从所述混合典型相关分析模型中提取作为所述目标视频表示的多视角超向量的步骤为:
在所述混合典型相关分析模型中的局部高斯中提取隐变量,并将所述隐变量拼起来得到共享信息的超向量;
根据所述混合典型相关分析模型求所述3D共生特征的独立信息的超向量;
将所述独立信息的超向量和所述共享信息的超向量串联起来,以得到所述目标视频表示的多视角超向量。
一种识别视频中人体行为的系统,其特征在于,所述系统包括:
特征点提取模块,用于提取目标视频中的特征点;
点对组成模块,用于将所述特征点周围时间和空间邻域内固定的像素点和所述特征点组成点对;
特征形成模块,用于将所述点对形成时空3D共生特征,所述时空3D共生特征包括3D共生梯度方向直方图特征、3D共生光流直方图特征和3D共生运动边界直方图特征;
超向量提取模块,用于根据所述时空3D共生特征提取所述目标视频表示的多视角超向量;
人体行为识别模块,用于将所述多视角超向量带入支持向量机分类器中对所述目标视频中的人体行为进行识别。
在其中一个实施例中,所述特征形成模块包括:
共生矩阵获取单元,用于对所述点对进行联合量化,并统计所述点对的梯度方向的特征得到共生矩阵;
时空3D共生特征形成单元,用于将所述共生矩阵辅成向量,并串联形成时空3D共生特征。
在其中一个实施例中,所述超向量提取模块包括:
模型建立单元,用于对所述时空3D共生特征中任意两种特征分别建立混合典型相关分析模型;
多视图超向量提取单元,用于从所述模型中提取作为所述目标视频表示的多视角超向量。
在其中一个实施例中,所述模型建立单元包括:
空间划分单元,用于将所述时空3D共生特征中任意两种特征的空间划分为多个个局部空间;
典型模型建立单元,用于对所述多个局部空间依次建立典型相关分析模型;
混合模型建立单元,用于根据所述典型相关分析模型建立混合典型相关分析模型。
在其中一个实施例中,所述多视图超向量提取单元包括:
共享信息的超向量获取单元,用于在所述混合典型相关分析模型中的局部高斯中提取隐变量,并将所述隐变量拼起来得到共享信息的超向量;
独立信息的超向量获取单元,用于根据所述混合典型相关分析模型求所述 3D共生特征的独立信息的超向量;
多视角超向量获取单元,用于将所述独立信息的超向量和所述共享信息的超向量串联起来,以得到所述目标视频表示的多视角超向量。
上述实现对视频中人体行为识别的方法和系统,通过对目标视频中的特征点和特征点周围时间和空间邻域内的像素点组成点对,根据组成的点对形成时空3D共生特征,由于组成的点对包含目标视频中的特征点周围时间和空间领域内的像素点,使得在时空3D共生特征中的局部特征提取过程中考虑到了特征点时空上下文信息,因此根据时空3D共生特征提取目标视频表示的多视角超向量更能反应复杂的表观结构和运动结构,因而利用视频表示的多视角超向量进行人体行为识别,能够提高了人体行为识别的精确度。
附图说明
图1为一个实施例中实现对视频中人体行为识别的方法的流程图;
图2为一个实施例中根据所述点对形成时空3D共生特征的流程图;
图3为一个实施例中时空3D共生特征形成过程的流程图;
图4为一个实施例中根据所述时空3D共生特征提取所述目标视频表示的多视角超向量的流程图;
图5为一个实施例中对所述时空3D共生特征中任意两种特征分别建立混合典型相关分析模型的流程图;
图6为一个实施例中从所述模型中提取作为所述目标视频表示的多视角超向量的流程图;
图7为一个实施例中利用混合典型相关分析模型提取隐变量的流程图;
图8为一个实施例中多视角超向量编码和识别过程的流程图;
图9为一个实施例中一种识别视频中人体行为的系统的结构示意图;
图10为一个实施例中特征形成模块的结构示意图;
图11为一个实施例中超向量提取模块的结构示意图;
图12为一个实施例中模型建立单元的结构示意图;
图13为一个实施例中多视图超向量提取单元的结构示意图。
具体实施方式
如图1所示,在一个实施例中,一种识别视频中人体行为的方法,该方法包括:
步骤S110,提取目标视频中的特征点。
本实施例中,首先在目标视频每一帧中以网格宽度为S(S为预先设定的一个阈值)个像素密集地抽取像素点,对所抽取的像素点计算其自相关矩阵M:
其中Gx,Gy分别表示该像素的水平梯度和垂直梯度。计算自相关矩阵M的特征值λ1和λ2,当满足:min(λ1,λ2)≥Tλ即为目标视频中的特征点,其中Tλ为事先设置的一个阈值。所提取的特征点是一些去除平滑区域的稠密点。
步骤S120,将特征点周围时间和空间邻域内固定的像素点和特征点组成点对。
本实施例中,特征点周围时间和空间邻域内固定的像素点是指离特征点水平右方、垂直下方和时间上有一定间隔的点。优选的,选择离特征点水平右方、垂直下方和时间上方间隔为2的点作为固定的像素点与特征点组成点对。
步骤S130,将点对形成时空3D共生特征,所述时空3D共生特征包括3D 梯度方向直方图特征、3D光流直方图特征和3D共生运动边界直方图。
本实施例中,时空3D共生特征分别是:3D共生梯度方向直方图特征(3D Co-occurrence Histogram of Gradient orientation,3D-CoHOG)、3D共生光流直方图特征(3D Co-occurrence Histogram of Flow gradient orientation,3D-HOF)和3D 共生运动边界直方图特征(3D Co-occurrence Motion Boundary Histogram, 3D-CoMBH)。根据上述组成的点对形成3D共生特征。具体的,对每一点对在一个大区域内联合量化和统计其基于梯度方向的特征,得到一个共生矩阵,将每一个共生矩阵铺成一个向量并串联形成时空 3D共生特征。
步骤S140,根据时空3D共生特征提取目标视频表示的多视角超向量。
步骤S150,将多视角超向量带入支持向量机分类器中对目标视频中的人体行为进行识别。
本实施例中,根据时空3D共生特征得到视频表示的多视角超向量,将上述多视角超向量带入支持向量机(Support Vector Machine,简称SVM)分类器中即可对目标视频中的人体行为进行识别。由于在时空3D共生特征中的局部特征提取过程中考虑到了特征点时空上下文信息,因此根据时空3D共生特征提取目标视频表示的多视角超向量更能反应复杂的表观结构和运动结构,因而利用视频表示的多视角超向量进行人体行为识别,能够提高了人体行为识别的精确度。
如图2所示,在一个实施例中,步骤S130包括:
步骤S131,对点对进行联合量化,并统计点对的梯度方向的特征得到共生矩阵。
步骤S133,将共生矩阵辅成向量,并串联形成时空3D共生特征。
本实施例中,如图3所示,给定一个视频中的局部长方体块,假设其大小为M×N×T,对该长方体块进行时空3D共生特征的提取包括以下处理步骤:
步骤1:梯度、光流计算及其方向量化。为了方便说明,将角度范围360度划分为Nbin等份。梯度计算及其方向量化:对于梯度方向直方图特征,首先利用 3×3的索贝尔(Sobel)算子计算长方体块内每个特征点的水平梯度Gx和垂直梯度 Gy,再利用反正切函数求出梯度方向角度θg=arctan(Gy/Gx),记录梯度幅值然后将该角度划归为所在的角度区间Bg
光流计算及其方向量化:对于光流直方图特征,首先计算每个特征点的光流(u,v),同样利用反正切函数求出梯度方向角度θf=arctan(v/u),然后将该角度划归为所在的角度区间Bf,记录梯度幅值对于直方图特征,计算完光流后,再对光流的水平分量u和垂直分量v分别求梯度,然后分别得到光流水平分量梯度角度区间Bmx和光流垂直分量角度区间Bmy,梯度幅值分别记为Emx和 Emy
步骤2:时空梯度方向共生矩阵的生成。如图3所示,假设一个共生点相对与当前点P(i,j,t0)的偏移量为(x,y,t),则该偏移量在长方体块中形成的共生矩阵的每一项如下所示:
其中,k,i,j分别表示该立方体块的帧号,行号和列号。Ek代表第k帧的梯度幅值,根据不同的特征,Ek可以是步骤1中Eg、Ef、Emu和Emv任意一种,Bk表示第k帧所有点的方向量化所在区间,Bk(i,j)=p即表示第k帧的第(i,j,k)点的方向量化区间为第p份。
步骤3:时空3D共生特征的提取。假设在时空坐标中有Noffset个偏移量,针对每个偏移量都进行步骤2操作,每一种类型的特征都得到Noffset个共生矩阵,在每一种特征内将Noffset个共生矩阵按行或者列展开成向量并串联形成最终的3D共生特征向量,分别为3D共生梯度方向直方图特征、3D共生光流直方图特征和3D共生运动边界直方图特征。
如图4所示,在一个实施例中,步骤140包括:
步骤S141,对时空3D共生特征中任意两种特征分别建立混合典型相关分析模型。
步骤S143,从模型中提取作为目标视频表示的多视角超向量。
本实施例中,从上述获取的时空3D共生特征中任意提取其中的两种特征,将这两种特征串联起来就得到了包含多视角信息的新特征。为了对串联得到的新特征进一步的建模,利用典型相关分析模型抽取新特征里面被两种特征共享的一部分特征,但是典型相关分析模型只能处理线性相关关系。在实际的数据中,不同的特征之间往往有非线性的相关性,因此本发明提出了混合典型相关分析模型来对新特征进行建模。
混合典型相关分析模型将特征空间划分成多个局部空间,并在每个局部空间用混合典型相关分析模型建模,因为局部区域中的相关性可以被近似为线性关系,这样全局非线性关系就能通过局部线性的混合典型相关分析模型来建模。混合典型相关分析模型可对时空3D共生特征进行联合统一建模,并区分各特征间共享信息和各自独立的信息,以便分别编码,提高了人体行为识别的精确度。
如图5所示,在一个实施例中,步骤S141包括:
步骤S1411,将时空3D共生特征中任意两种特征的空间划分为多个局部空间。
步骤S1413,对多个局部空间依次建立典型相关分析模型。
步骤S1415,根据典型相关分析模型建立混合典型相关分析模型。
本实施例中,混合典型相关分析模型是多个高斯分布的求和加权平均,局部高斯就是单个高斯分布。混合典型相关分析模型为:
p(v)=Σkwkp(v|k)
每个p(v|k)都是一个高斯模型(高斯模型带有两个参数,一个是均值,一个是协方差矩阵)叫做局部高斯,k就是指的第k个局部高斯。v=(x,y),表示ν是由x和y两个向量直接拼起来的向量。wk为加权平均的系数(实数系数)。p(v)即为混合典型相关分析模型。
典型相关分析模型是对每对不同的特征描述子(比如说HOG和HOF,记为特征描述子x和特征描述子y),x和y可以被分解为共享的一部分(通过z表示),常数偏移的一部分还有噪声之和:
x=Wxz+μxx
y=Wyz+μyy
令v=(x,y),那么ν将服从一个高斯分布p(v)。与混合典型相关分析模型区别的是典型相关分析模型只有一个高斯,也就是说k=1,wk=1,高斯分布总的个数数目为1。而混合典型相关分析模型是多个高斯的加权求和,根据典型相关分析模型建立混合典型相关分析模型,将典型相关分析推广到混合典型相关分析模型上,提高了对目标视频中人体行为识别精度。
建立混合典型相关分析模型包括以下处理步骤:
步骤1:初始化混合典型相关分析模型的参数。首先对时空3D共生特征进行 k-means的聚合算法处理,得到图像词汇表{vk}k=1,...K其中vk是3D共生特征的k个中心,作为每个局部高斯的中心;提取对应于从时空3D共生特征中的第一特征x 和第二特征y的局部协相关矩阵作为每个局部高斯的协方差矩阵,k表示第k个局部高斯。再对每个局部高斯进行单个典型相关分析,得到对应于每个局部高斯的参数,亦即投影矩阵每个局部模型的权重设为相同,亦即ωk=1/K,ωk就是对应于每个高斯的权重系数。
步骤2:混合典型相关分析模型期望最大化算法的求平均步。基于初始化的模型参数,计算对应于第一特征x和第二特征y的隐变量和后验概率γi,k的估计。首先在第k个局部高斯下,计算第一特征x和第二特征y中第i个特征描述子的后验概率γi,k,计算公式如下:
更新相应于每个局部模型中隐变量的期望,协方差和相关矩阵。其计算公式如下:
步骤3:混合典型相关分析模型期望最大化算法,基于隐变量和后验概率γi,k更新混合典型相关分析模型的其它参数,亦即每个局部高斯模型的权重中心,协方差矩阵以及投影矩阵。其计算公式如下:
步骤4:重复进行步骤2和步骤3,直到参数收敛抑或达到迭代的最大次数为止。
如图6所示,在一个实施例中,步骤S143包括:
步骤S1431,在混合典型相关分析模型中的局部高斯中提取隐变量,并将隐变量拼起来得到共享信息的超向量。
本实施例中,如图7所示,共享信息的超向量是通过混合模型的每个局部高斯中提取的隐变量拼起来得到的。
步骤S1433,根据混合典型相关模型求3D共生特征的独立信息的超向量。
步骤S1435,将独立信息的超向量和共享信息的超向量串联起来,以得到目标视频表示的多视角超向量。
本实施例中,图8为多视角超向量的获取过程图,提取目标视频表示的多视角超向量包括以下的几个步骤:
步骤1:进行混合典型相关分析模型EM算法的求平均步一次,从时空3D共生特征中得到相应的隐变量的估计,再将这些估计通过后验概率γi,k进行加权整合,就得到每个局部高斯模型隐变量的估计。计算公式如下:
共享信息的超向量表示Z就是所有局部隐变量的串联。
步骤2:求混合典型相关分析模型分别相对于第一特征x和第二特征y的参数的梯度向量gx和gy。这里给出相对于第一特征x的梯度向量的计算公式:
其中,μ为局部高斯的中心,Σ为局部高斯的协方差矩阵。ω为混合典型相关分析模型中局部高斯的求和权重系数,W为从隐变量z到x或y的线性变换矩阵。γ为混合典型相关分析模型下每个样本后验概率,Ψ为x或y的在每个局部高斯下的协方差矩阵。相对于第二特征y的梯度向量根据上述计算公式可类似求得。
步骤3:如图8所示,将共享信息的超向量Z和独立信息的超向量gx,gy串联起来就得到最后的多视角超向量表示。
如图9所示,在一个实施例中,一种识别视频中人体行为的系统包括:
特征点提取模块110,点对组成模块120,特征形成模块130,超向量提取模块140,人体行为识别模150。
特征点提取模块110,用于提取目标视频中的特征点。
本实施例中,首先在目标视频每一帧中以网格宽度为S(S为预先设定的一个阈值)个像素密集地抽取像素点,对所抽取的像素点计算其自相关矩阵M:
其中Gx,Gy分别表示该像素的水平梯度和垂直梯度。计算自相关矩阵M的特征值λ1和λ2,当满足:min(λ1,λ2)≥Tλ即为目标视频中的特征点,其中Tλ为事先设置的一个阈值。所提取的特征点是一些去除平滑区域的稠密点。
点对组成模块120,用于将所述特征点周围时间和空间邻域内固定的像素点和所述特征点组成点对。
本实施例中,特征点周围时间和空间邻域内固定的像素点是指离特征点水平右方、垂直下方和时间上有一定间隔的点。优选的,选择离特征点水平右方、垂直下方和时间上方间隔为2的点作为固定的像素点与特征点组成点对。
特征形成模块130,用于将所述点对形成时空3D共生特征,所述时空3D 共生特征包括3D共生梯度方向直方图特征、3D共生光流直方图特征和3D共生运动边界直方图特征。
本实施例中,时空3D共生特征分别是:3D共生梯度方向直方图特征(3D Co-occurrence Histogram of Gradient orientation,3D-CoHOG)、3D共生光流直方图特征(3D Co-occurrence Histogram of Flow gradient orientation,3D-HOF)和3D 共生运动边界直方图特征(3D Co-occurrence Motion Boundary Histogram, 3D-CoMBH)。根据上述组成的点对形成3D共生特征。具体的,对每一点对在一个大区域内联合量化和统计其基于梯度方向的特征,得到一个共生矩阵,将每一个共生矩阵铺成一个向量并串联形成时空3D共生特征。
超向量提取模块140,用于根据所述时空3D共生特征提取所述目标视频表示的多视角超向量。
人体行为识别模块150,用于将所述多视角超向量带入支持向量机分类器中对所述目标视频中的人体行为进行识别。
本实施例中,根据时空3D共生特征得到视频表示的多视角超向量,将上述多视角超向量带入支持向量机分类器中即可对目标视频中的人体行为进行识别。由于在时空3D共生特征中的局部特征提取过程中考虑到了特征点时空上下文信息,因此根据时空3D共生特征提取目标视频表示的多视角超向量更能反应复杂的表观结构和运动结构,因而能提高支持向量机分类器利用视频表示的多视角超向量进行人体行为识别的精确度。
如图10所示,在一个实施例中,特征形成模块130包括:
共生矩阵获取单元131,用于对点对进行联合量化,并统计点对的梯度方向的特征得到共生矩阵。
共生矩阵获取单元132,用于将共生矩阵辅成向量,并串联形成时空3D共生特征。
本实施例中,如图3所示,给定一个视频中的局部长方体块,假设其大小为 M×N×T,共生矩阵获取单元S131对该长方体块进行时空3D共生特征的提取包括以下处理步骤:
步骤1:梯度、光流计算及其方向量化。为了方便说明,将角度范围360度划分为Nbin等份。梯度计算及其方向量化:对于梯度方向直方图特征,首先利用 3×3的索贝尔算子计算长方体块内每个特征点的水平梯度Gx和垂直梯度Gy,再利用反正切函数求出梯度方向角度θg=arctan(Gy/Gx),记录梯度幅值然后将该角度划归为所在的角度区间Bg
光流计算及其方向量化:对于光流直方图特征,首先计算每个特征点的光流(u,v),同样利用反正切函数求出梯度方向角度θf=arctan(v/u),然后将该角度划归为所在的角度区间Bf,记录梯度幅值对于直方图特征,计算完光流后,再对光流的水平分量u和垂直分量v分别求梯度,然后分别得到光流水平分量梯度角度区间Bmx和光流垂直分量角度区间Bmy,梯度幅值分别记为Emx和 Emy
步骤2:时空梯度方向共生矩阵的生成。如图3所示,假设一个共生点相对与当前点P(i,j,t0)的偏移量为(x,y,t),则该偏移量在长方体块中形成的共生矩阵的每一项如下所示:
其中,k,i,j分别表示该立方体块的帧号,行号和列号。Ek代表第k帧的梯度幅值,根据不同的特征,Ek可以是步骤1中Eg、Ef、Emu和Emv任意一种,Bk表示第k帧所有点的方向量化所在区间,Bk(i,j)=p即表示第k帧的第(i,j,k)点的方向量化区间为第p份。
步骤3:时空3D共生特征的提取。假设在时空坐标中有Noffset个偏移量,针对每个偏移量都进行步骤2操作,每一种类型的特征都得到Noffset个共生矩阵,在每一种特征内将Noffset个共生矩阵按行或者列展开成向量并串联形成最终的3D共生特征向量,分别为3D共生梯度方向直方图特征、3D共生光流直方图特征和3D共生运动边界直方图特征。
如图11所示,在一个实施例中,超向量提取模块140包括:
模型建立单元141,用于对时空3D共生特征中任意两种特征分别建立混合典型相关分析模型。
多视角超向量提取单元142,用于从模型中提取作为目标视频表示的多视角超向量。
本实施例中,从上述获取的时空3D共生特征中任意提取其中的两种特征,将这两种特征串联起来就得到了包含多视角信息的新特征。为了对串联得到的新特征进一步的建模,利用典型相关分析模型抽取新特征里面被两种特征共享的一部分特征,但是典型相关分析模型只能处理线性相关关系。在实际的数据中,不同的特征之间往往有非线性的相关性,因此本发明提出了混合典型相关分析模型来对新特征进行建模。
混合典型相关分析模型将特征空间划分成多个局部空间,并在每个局部空间用混合典型相关分析模型建模,因为局部区域中的相关性可以被近似为线性关系,这样全局非线性关系就能通过局部线性的混合典型相关分析模型来建模。混合典型相关分析模型可对时空3D共生特征进行联合统一建模,并区分各特征间共享信息和各自独立的信息,以便分别编码,提高了人体行为识别的精确度。
如图12所示,在一个实施例中,模型建立单元141包括:
空间划分单元1411,用于将时空3D共生特征中任意两种特征的空间划分为多个个局部空间。
典型模型建立单元1412,用于对多个局部空间依次建立典型相关分析模型。
混合模型建立单元1413,用于根据典型相关分析模型建立混合典型相关分析模型。
本实施例中,混合典型相关分析模型是多个高斯分布的求和加权平均,局部高斯就是单个高斯分布。混合典型相关分析模型为:
p(v)=Σkwkp(v|k)
每个p(v|k)都是一个高斯模型(高斯模型带有两个参数,一个是均值,一个是协方差矩阵)叫做局部高斯,k就是指的第k个局部高斯。v=(x,y),表示ν是由x和y两个向量直接拼起来的向量。wk为加权平均的系数(实数系数)。p(v)即为混合典型相关分析模型。
典型相关分析模型是对每对不同的特征描述子(比如说HOG和HOF,记为特征描述子x和特征描述子y),x和y可以被分解为共享的一部分(通过z表示),常数偏移的一部分还有噪声之和:
x=Wxz+μxx
y=Wyz+μyy
令v=(x,y),那么ν将服从一个高斯分布p(v)。与混合典型相关分析模型区别的是典型相关分析模型只有一个高斯,也就是说k=1,wk=1,高斯分布总的个数数目为1。而混合典型相关分析模型是多个高斯的加权求和,根据典型相关分析模型建立混合典型相关分析模型,将典型相关分析推广到混合典型相关分析模型上,提高了对目标视频中人体行为识别精度。
混合模型建立单元1413建立混合典型相关分析模型包括以下处理步骤:
步骤1:初始化混合典型相关分析模型的参数。首先对时空3D共生特征进行 k-means的聚合算法处理,得到图像词汇表{vk}k=1,...K其中vk是3D共生特征的k个中心,作为每个局部高斯的中心;提取对应于从时空3D共生特征中的第一特征x 和第二特征y的局部协相关矩阵作为每个局部高斯的协方差矩阵,k表示第k个局部高斯。再对每个局部高斯进行单个典型相关分析,得到对应于每个局部高斯的参数,亦即投影矩阵每个局部模型的权重设为相同,亦即ωk=1/K,ωk就是对应于每个高斯的权重系数。
步骤2:混合典型相关分析模型期望最大化算法的求平均步。基于初始化的模型参数,计算对应于第一特征x和第二特征y的隐变量和后验概率γi,k的估计。首先在第k个局部高斯下,计算第一特征x和第二特征y中第i个特征描述子的后验概率γi,k,计算公式如下:
更新相应于每个局部模型中隐变量的期望,协方差和相关矩阵。其计算公式如下:
步骤3:混合典型相关分析模型期望最大化算法,基于隐变量和后验概率γi,k更新混合典型相关分析模型的其它参数,亦即每个局部高斯模型的权重中心,协方差矩阵以及投影矩阵。其计算公式如下:
步骤4:重复进行步骤2和步骤3,直到参数收敛抑或达到迭代的最大次数为止。
如图13所示,在一个实施例中,多视角超向量提取单元142包括:
共享信息的超向量获取单元1421,用于在混合典型相关分析模型中的局部高斯中提取隐变量,并将隐变量拼起来得到共享信息的超向量。
本实施例中,如图7所示,共享信息的超向量是通过混合模型的每个局部高斯中提取的隐变量拼起来得到的。
独立信息的超向量获取单元1422,用于根据混合典型相关分析模型求3D共生特征的独立信息的超向量。
多视角超向量获取单元1423,用于将独立信息的超向量和共享信息的超向量串联起来,以得到目标视频表示的多视角超向量。
本实施例中,图8为多视角超向量的获取过程图,独立信息的超向量获取单元1422提取目标视频表示的多视角超向量包括以下的几个步骤:
步骤1:进行混合典型相关分析模型EM算法的求平均步一次,从时空3D共生特征中得到相应的隐变量的估计,再将这些估计通过后验概率γi,k进行加权整合,就得到每个局部高斯模型隐变量的估计。计算公式如下:
共享信息的超向量表示Z就是所有局部隐变量的串联。
步骤2:求混合典型相关分析模型分别相对于第一特征x和第二特征y的参数的梯度向量gx和gy。这里给出相对于第一特征x的梯度向量的计算公式:
其中,μ为局部高斯的中心,Σ为局部高斯的协方差矩阵。ω为混合典型相关分析模型中局部高斯的求和权重系数,W为从隐变量z到x或y的线性变换矩阵。γ为混合典型相关分析模型下每个样本后验概率,Ψ为x或y的在每个局部高斯下的协方差矩阵。相对于第二特征y的梯度向量根据上述计算公式可类似求得。
步骤3:如图8所示,将共享信息的超向量Z和独立信息的超向量gx,gy串联起来就得到最后的多视角超向量表示。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种识别视频中人体行为的方法,所述方法包括:
提取目标视频中的特征点;
将特征点周围时间和空间邻域内固定的像素点和所述特征点组成点对;
将所述点对形成时空3D共生特征,时空3D共生特征包括3D共生梯度方向直方图特征、3D共生光流直方图特征和3D共生运动边界直方图特征;
对所述时空3D共生特征进行联合统一建模,并区分所述时空3D共生特征中各特征间的共享信息和独立信息,对所述共享信息的超向量和独立信息的超向量进行串联,得到所述目标视频表示的多视角超向量;其中,所述共享信息的超向量为对所述时空3D共生特征进行联合统一建模后得到的高斯模型的隐变量拼接得到的向量,所述独立信息的超向量是对所述时空3D共生特征进行联合统一建模后得到的模型分别相对于所述时空3D共生特征的梯度向量;
将多视角超向量带入支持向量机分类器中对所述目标视频中的人体行为进行识别。
2.根据权利要求1所述的方法,其特点在于,提取点对形成时空3D共生特征的步骤为:
对所述点对进行联合量化,并统计所述点对的梯度方向的特征得到共生矩阵;
将所述共生矩阵辅成向量,并串联形成时空3D共生特征。
3.根据权利要求1所述的方法,其特征在于,所述对所述时空3D共生特征进行联合统一建模,并区分所述时空3D共生特征中各特征间的共享信息和独立信息,对所述共享信息的超向量和独立信息的超向量进行串联,得到所述目标视频表示的多视角超向量的步骤为:
对所述时空3D共生特征中任意两种特征分别建立混合典型相关分析模型;
从所述混合典型相关分析模型中提取作为所述目标视频表示的多视角超向量。
4.根据权利要求3所述的方法,其特征在于,所述对所述时空3D共生特征中任意两种特征分别建立混合典型相关分析模型的步骤为:
将所述时空3D共生特征中任意两种特征的空间划分为多个局部空间;
对所述多个局部空间依次建立典型相关分析模型;
根据所述典型相关分析模型建立混合典型相关分析模型。
5.根据权利要求3所述的方法,其特征在于,所述从所述混合典型相关分析模型中提取作为所述目标视频表示的多视角超向量的步骤为:
在所述混合典型相关分析模型中的局部高斯中提取隐变量,并将所述隐变量拼起来得到共享信息的超向量;
根据所述混合典型相关分析模型求所述3D共生特征的独立信息的超向量;
将所述独立信息的超向量和所述共享信息的超向量串联起来,以得到所述目标视频表示的多视角超向量。
6.一种识别视频中人体行为的系统,其特征在于,所述系统包括:
特征点提取模块,用于提取目标视频中的特征点;
点对组成模块,用于将所述特征点周围时间和空间邻域内固定的像素点和所述特征点组成点对;
特征形成模块,用于将所述点对形成时空3D共生特征,所述时空3D共生特征包括3D共生梯度方向直方图特征、3D共生光流直方图特征和3D共生运动边界直方图特征;
超向量提取模块,用于对所述时空3D共生特征进行联合统一建模,并区分所述时空3D共生特征中各特征间的共享信息和独立信息,对所述共享信息的超向量和独立信息的超向量进行串联,得到所述目标视频表示的多视角超向量;其中,所述共享信息的超向量为对所述时空3D共生特征进行联合统一建模后得到的高斯模型的隐变量拼接得到的向量,所述独立信息的超向量是对所述时空3D共生特征进行联合统一建模后得到的模型分别相对于所述时空3D共生特征的梯度向量;
人体行为识别模块,用于将所述多视角超向量带入支持向量机分类器中对所述目标视频中的人体行为进行识别。
7.根据权利要求6所述的系统,其特征在于,所述特征形成模块包括:
共生矩阵获取单元,用于对所述点对进行联合量化,并统计所述点对的梯度方向的特征得到共生矩阵;
时空3D共生特征形成单元,用于将所述共生矩阵辅成向量,并串联形成时空3D共生特征。
8.根据权利要求6所述的系统,其特征在于,所述超向量提取模块包括:
模型建立单元,用于对所述时空3D共生特征中任意两种特征分别建立混合典型相关分析模型;
多视图超向量提取单元,用于从所述模型中提取作为所述目标视频表示的多视角超向量。
9.根据权利要求8所述的系统,其特征在于,所述模型建立单元包括:
空间划分单元,用于将所述时空3D共生特征中任意两种特征的空间划分为多个局部空间;
典型模型建立单元,用于对所述多个局部空间依次建立典型相关分析模型;
混合模型建立单元,用于根据所述典型相关分析模型建立混合典型相关分析模型。
10.根据权利要求8所述的系统,其特征在于,所述多视图超向量提取单元包括:
共享信息的超向量获取单元,用于在所述混合典型相关分析模型中的局部高斯中提取隐变量,并将所述隐变量拼起来得到共享信息的超向量;
独立信息的超向量获取单元,用于根据所述混合典型相关分析模型求所述3D共生特征的独立信息的超向量;
多视角超向量获取单元,用于将所述独立信息的超向量和所述共享信息的超向量串联起来,以得到所述目标视频表示的多视角超向量。
CN201310754550.8A 2013-12-31 2013-12-31 识别视频中人体行为的方法和系统 Active CN104751111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310754550.8A CN104751111B (zh) 2013-12-31 2013-12-31 识别视频中人体行为的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310754550.8A CN104751111B (zh) 2013-12-31 2013-12-31 识别视频中人体行为的方法和系统

Publications (2)

Publication Number Publication Date
CN104751111A CN104751111A (zh) 2015-07-01
CN104751111B true CN104751111B (zh) 2019-02-22

Family

ID=53590772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310754550.8A Active CN104751111B (zh) 2013-12-31 2013-12-31 识别视频中人体行为的方法和系统

Country Status (1)

Country Link
CN (1) CN104751111B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069487B (zh) * 2015-09-14 2019-07-23 广东威创视讯科技股份有限公司 一种运动物体识别方法
CN105893936B (zh) * 2016-03-28 2019-02-12 浙江工业大学 一种基于hoirm和局部特征融合的行为识别方法
CN105825240A (zh) * 2016-04-07 2016-08-03 浙江工业大学 一种基于ap聚类词袋建模的行为识别方法
CN105930768A (zh) * 2016-04-11 2016-09-07 武汉大学 一种基于时空约束的目标重识别方法
CN106709461B (zh) * 2016-12-28 2019-09-17 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
CN106971145A (zh) * 2017-03-03 2017-07-21 广东工业大学 一种基于极限学习机的多视角动作识别方法及装置
CN109508698B (zh) * 2018-12-19 2023-01-10 中山大学 一种基于二叉树的人体行为识别方法
CN112613388B (zh) * 2020-12-18 2022-08-30 燕山大学 一种基于多维特征融合的人员跌倒检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101533467B (zh) * 2009-04-28 2013-07-31 南京航空航天大学 一种基于决策树的多种人体姿态识别方法
CN102945375A (zh) * 2012-11-20 2013-02-27 天津理工大学 多约束下的多视角监控视频行为检测和识别方法

Also Published As

Publication number Publication date
CN104751111A (zh) 2015-07-01

Similar Documents

Publication Publication Date Title
CN104751111B (zh) 识别视频中人体行为的方法和系统
CN103971386B (zh) 一种动态背景场景下的前景检测方法
CN104715493B (zh) 一种运动人体姿态估计的方法
CN110599537A (zh) 基于Mask R-CNN的无人机图像建筑物面积计算方法及系统
CN109740413A (zh) 行人重识别方法、装置、计算机设备及计算机存储介质
CN110175576A (zh) 一种结合激光点云数据的行驶车辆视觉检测方法
CN105374033B (zh) 基于脊波反卷积网络和稀疏分类的sar图像分割方法
CN109886307A (zh) 一种基于卷积神经网络的图像检测方法及系统
WO2015010451A1 (zh) 一种从单幅图像检测道路的方法
CN109285179A (zh) 一种基于多特征融合的运动目标跟踪方法
CN103735269B (zh) 一种基于视频多目标跟踪的高度测量方法
CN104021559B (zh) 基于互信息和Harris角点检测的图像配准方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN103810473B (zh) 一种基于隐马尔科夫模型的人体对象的目标识别方法
CN109086668A (zh) 基于多尺度生成对抗网络的无人机遥感影像道路信息提取方法
CN104794737B (zh) 一种深度信息辅助粒子滤波跟踪方法
CN106023257A (zh) 一种基于旋翼无人机平台的目标跟踪方法
CN109118528A (zh) 基于区域分块的奇异值分解图像匹配算法
CN110176016B (zh) 一种基于人体轮廓分割与骨骼识别的虚拟试衣方法
CN106157372A (zh) 一种基于视频图像的3d人脸网格重构方法
CN105787481B (zh) 一种基于目标性潜在区域分析的目标检测方法及其应用
CN110555387A (zh) 骨架序列中基于局部关节点轨迹时空卷的行为识别方法
CN105678318B (zh) 交通标牌的匹配方法及装置
CN105574515A (zh) 一种无重叠视域下的行人再识别方法
CN105513094A (zh) 基于三维Delaunay三角剖分的立体视觉跟踪方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant