CN104077554B

CN104077554B - 基于线性动态系统的视角无关的人体行为识别方法

Info

Publication number: CN104077554B
Application number: CN201310108314.9A
Authority: CN
Inventors: 陈昌红; 王娇; 杨顺卿
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2018-05-29
Anticipated expiration: 2033-03-29
Also published as: CN104077554A

Abstract

本发明公开了一种视角无关的人体行为识别的方法，主要解决不同视角下相同动作的识别问题。该方法的具体过程是：对动作视频序列进行2D高斯滤波和1D Gabor滤波得到兴趣点，然后以兴趣点为中心建立立方体特征；再对动作视频序列等间隔划分并密集采样提取等大小的立方体特征，将两种方法得到的立方体合并为一个集合；接着对得到的立方体进行LDSs建模，用一对参数(A,C)表示，定义Martin距离表示两个系统参数间的距离；利用Martin距离，结合非线性降维(MDS)和聚类算法构建码本；计算每个视频提取的时空特征与码本的距离，利用Soft‑weighting方法，计算加权矢量作为每个视频的特征向量，从而进行SVM训练与识别。

Description

基于线性动态系统的视角无关的人体行为识别方法

技术领域

本发明属于图像处理技术及模式识别领域，特别涉及一种基于线性动态系统的视角无关的人体行为识别方法。

背景技术

人体行为分析涉及计算机视觉、图像处理、模式识别、人工智能等多个研究领域。它可以简单地被认为是时变数据的分类问题，即将测试序列与预先标定的代表类型行为的参考序列进行匹配,又可称之为人体行为识别。尽管人体行为识别的研究已经取得了一定的成果，但大部分工作都是基于固定和已知视角的，而由于人体运动、摄像机运动等原因实际拍摄得到的数据常常是任意角度的。不同的拍摄角度不仅会给人体图像序列的外观带来很大变化，运动的过程也会有所不同。视角问题已经成为人体行为识别发展和应用的绊脚石。

目前比较常见的视角无关的人体行为识别方面的工作，大多是在融合多个角度数据构建3D模型基础上进行的。这类方法不仅增加了算法的复杂性和计算量，而且透视投影等原因也会使重构出的动作不准确。不仅如此，在实际中常常由于无法得到多个不同拍摄角度的数据等原因，如单摄像机监控等，使得这类方法无法应用。其他一些方法如知识迁移，提取两个视角下的特征并且运用这些特征在两者之间架起了一座虚拟桥梁，对于一个视角下观察到的新的动作类别，运用知识迁移在另一个视角下能够进行识别。这种方法得到的特征具有视角不变性以及很好的识别力，但是要求所有视角中每两对视角都需要单独训练，还需要足够的测试样本，而且动作还需要加上类别标签，因此限制了它的应用。另外的方法还有潜在双线性模型，时间自相关描述符，但是前者不容易获得良好的初始化参数，后者在顶角视角下效果比较差，因此也限制了它们的应用。而本发明则能很好的解决以上的不足。

发明内容

本发明的目的在于提出一种基于线性动态系统的视角无关的人体行为识别方法,其包括如下步骤：

第一步：低层特征提取。首先,第一方面，将动作视频序列中的每一帧用二维坐标到像素点亮度的映射表示。然后,使用空间域中的2D高斯核函数将其每一帧变换到高斯空间。接下来,对经过高斯平滑的视频序列，沿着时间轴方向对每一列元素进行选定窗口的一维Gabor滤波。对于大于一定阈值的响应值进行极大值滤波确定特征点位置，然后以特征点为中心提取时空体特征。第二方面，对视频序列分别在时间轴上和空间上划分等间隔，使视频序列成为一个个小时空体组成的集合。然后以时空体与时空体接点为中心提取等大小的时空体(比前面划分的要小)。最后将两个方面提取的时空体合并成为一个集合用于LDS建模。

第二步：对提取的每个时空体建立LDS模型，主要用一对参数(A,C)表示。定义Martin距离表示两个系统参数间的距离。由于LDS参数是在非欧式空间下，因此不能直接聚类。利用Martin距离，结合非线性降维(MDS)和聚类算法构建码本。即假设训练集中总共T个特征，构建T×T的矩阵D表示每个特征间的距离，通过MDS得到欧式空间下的低维表示。K-means聚类后得到聚类中心，但这些聚类中心并不对应原始的LDSs，计算低维空间中每个系统到聚类中心的距离，选择距离最近的高维空间中的对应系统来作为码本。这里是每个动作分别聚类生成码本。

第三步：计算每个视频提取的时空特征与码本的距离，利用Soft-weighting方法，我们可以用一个K维的加权矢量H＝{h₁,h₂,…h_K}来表示每一个视频序列，每个元素h_k即表示系统码字W_k在该视频中的权值，当求得这一加权矢量，通过1-范数标准化后，再进行随后的训练与识别。

第四步：利用加权矢量进行SVM分类器学习,利用学到的SVM模型，识别未知测试序列。

本发明的有益效果为：

1.由于采用上述第一步，提取的特征具有尺度不变性，在动作方向的变化方面有很好的鲁棒性，并且密集采样易于实现，运算速度比较快。

2.由于对提取的时空立方体建立LDS模型，LDS模型的优势是分离了时空体的外观和动态，其中时空体外观由矩阵C建模，动态由矩阵A表示。因此我们用一组参数M＝(A,C)来表示一个时空体。这样一种特征描述方法是对时空体的动态和外观同时建模，能够更好地控制识别过程中的变量。

3.由于采用soft-weighting方法给每个特征分配一定的权重，可以更准确的评估每个特征的重要性，从而可以弥补较小特征集群造成的量化损失。

仿真结果表明，本发明可有效提高交叉视角下人体行为的识别率。

附图说明

图1是交叉视角人体行为识别系统框图。

图2是本发明仿真训练过程图。

图3是本发明仿真识别过程图。

图4是时空立方体特征示意图。其中图4(a)通过兴趣点提取的立方体，图4(b)是通过密集采样提取的立方体。

图5是BoS识别算法框架。

图6是各个动作在不同角度下识别结果。

具体实施方式

实施例一

参照图2，本发明的具体过程包括：

1.对训练视频帧序列进行低层特征提取。

以图4所示的视频序列的底层特征提取为例，具体的操作有：

(1)将动作视频序列中的每一帧用二维坐标到像素点亮度的映射表示。然后,使用空间域中的2D高斯核函数将其每一帧变换到高斯空间。接下来,对经过高斯平滑的视频序列，沿着时间轴方向对每一列元素进行选定窗口的一维Gabor滤波。计算公式如下：

R＝(I*g*h_ev)²+(I*g*h_od)² (1)

g(x,y；σ)是2D高斯平滑核函数，h_ev和h_od是1D Gabor滤波器的正交对，h_ev和h_od定义如下：

这里w＝4/τ，σ＝2，τ＝2。当响应值R大于一定阈值时，表明此处有一个兴趣点，得到此处的坐标，并以此坐标为中心提取大小为σ×σ×τ的时空体特征。如图4(a)中彩色立方体。

(2)对视频序列分别在时间轴上和空间上划分等间隔(11*11*4)，使视频序列成为一个个小时空体组成的集合。然后以时空体与时空体接点为中心提取等大小的时空体(19*19*13，边缘部分要小一点)，如图4(b)中彩色立方体。最后将两个方面提取的时空体合并成为一个集合用于LDS建模。

2.对提取的每个时空体建立LDS模型。

以图5所示的BoS识别算法框架为例，具体的操作有：

(1)考虑一个F帧的视频序列或时空体每帧包含P个像素，我们对每帧的像素强度F_t如下式建模，作为LDS的输出：

其中x_t∈Rⁿ表示隐藏的在时间t的状态向量，显示了图像序列的演化。A∈R^n×n是状态转移矩阵，矩阵C∈R^p×n映射隐藏状态到系统的输出。而v(t)～N(0,R)和w(t)～N(0,Q)分别代表了状态演化和观察值的白噪声。隐藏状态的维数n是系统的阶数，

然后基于主成分分析(PCA，Principal Component Analysis)的方法来学习系统参数。在这种方法中，对矩阵Y进行奇异值分解：

Y＝[F_t-C⁰,.....,F_F-C⁰]＝UΣV^T (4)

其中然后系统参数和状态参数估计为

C＝U X＝ΣV^T (5)

其中X＝[x₁,x₂,...,x_F]是系统的估计状态。需要注意的是，计算X时状态方程(4)是不执行的。对于状态序列，利用最小二乘法计算矩阵A

A＝[x₁,x₂,...,x_F][x₁,x₂,...,x_F]⁺ (6)

其中X⁺是X的伪逆矩阵。同时，

其中v(t)＝x(t+1)-Ax(t)。

LDS模型的优势是分离了时空体的外观和动态，其中时空体外观由矩阵C建模，动态由矩阵A表示。因此我们用一组参数M＝(A,C)来表示一个时空体描述符，这样一种特征描述方法是对时空体的动态和外观同时建模。

(2)给定描述符集合其中T表示从训练集N个视频中提取的特征总数。计算任意两个参数对M₁＝{C₁,A₁}和M₂＝{C₂,A₂}之间的Martin距离如下：

θ_i是第i^th个与两个模型参数相关的观察子空间之间的主体角度。计算距离矩阵D∈R^T×T，它的每个元素为任意两个特征参数间的Martin距离，即D_ij＝d_M(M_i，M_j)。利用MDS(Multimatedimensional Scaling)获取这些点的低维嵌入d_e表示嵌入的维数。在此低维欧式空间中，利用k-means算法聚类得到K个聚类中心

(3)然而这些聚类中心并不对应任何原始的LDSs，而且作为MDS的结果，低维嵌入和原始空间并没有明确的映射。因此为了获得LDS码本我们首先在低维空间中计算出训练集里距离聚类中心最近的样本，那么在高维空间中其对应的LDS即可作为我们的系统码字W_i：

最终我们获得码本W＝{W₁,…,W_K}，其中每个W_i＝(A_i,C_i)。这样，我们求得的每一特征可以利用如下公式得出与码本的关联：

3.基于soft-weighting的行为描述。

通过soft-weighting方法，我们可以用一个K维的加权矢量H＝{h₁,h₂,…h_K}来表示每一个视频序列，每个元素h_k即表示系统码字W_k在该视频中的权值，如下所示：

其中，Li表示视频中第i个最近邻为系统码字Wk的时空体的数目，d(Mj,Wk)度量时空体参数Mj和系统码字Wk之间的相似度。这里一个时空体的重要性由它与系统码字的相似度通过加权度量。通过实验比较，通常取F＝4。当求得这一加权矢量，通过1-范数标准化后，再进行随后的训练与识别。

4.利用加权矢量进行SVM分类器学习,利用学到的SVM模型，识别未知测试序列。

本发明的有效性可通过以下仿真实验进一步说明：

本仿真实验基于IXMAS多视角动作数据库。该数据库包含11个日常动作，每个动作由12个人分别在五个视角下做3次，分别有正面，侧面，后面，顶部视角。在训练过程中，构建码本之后，每个动作视频被描述为直方图，根据直方图学习一个SVM分类模型，实验结果可以通过表1观测到。第一行表示训练视角，第一列表示测试视角。由表中可以看出，前四个视角的平均识别率高于75％，最后一个视角(顶角)识别率高于65％。图6给出了IXMAS数据库中每个动作类别的识别率，可以看出各个动作识别效果都比较良好，值得注意的是，“行走”这一动作在各个视角下都能够得到较好的识别。由此表明我们的算法对于交叉视角动作识别具有良好的识别率。

表1

(％)	Cam0	Cam1	Cam2	Cam3	Cam4
						Cam0		80.3	76.1	76.8	66.0
Cam1	82.6		75.5	76.3	65.4
						Cam2	75.8	78.3		78.3	66.7
Cam3	75.1	75.5	79.3		66.4
						Cam4	67.6	68.2	69.9	65.8
Ave.	75.3	75.6	75.2	74.3	66.1

上面描述仅是本发明的一个具体实施例，显然在本发明的技术方案指导下本领域的任何人所作的修改或局部替换，均属于本发明权利要求书限定的范围。

Claims

1.一种基于线性动态系统的视角无关的人体行为识别方法，其特征在于，包括如下步骤：

第一步，分两方面，第一方面对动作视频帧序列分别在时间域和空间域运用二维高斯滤波器和一维Gabor滤波器，根据响应得到兴趣点位置，然后以响应位置为中心提取固定大小的时空体；第二方面，先对视频序列分块，然后以固定的间隔在视频中对关键点密集采样抽取特征点，以特征点为中心提取时空体；然后将两方面的时空体合并起来；

第二步，对提取的每个时空体建立LDS模型，计算出模型参数(A,C)，定义Martin距离表示两个系统参数间的距离；利用Martin距离，结合非线性降维方法中的MDS方法和聚类算法构建码本；

第三步，根据得到的码本，利用Soft-weighting方法，计算加权矢量作为每个视频的特征向量，得到每个特征在识别过程中的权值；

第四步，利用加权矢量进行SVM分类器学习,利用学到的SVM模型，识别未知测试序列；

所述视频序列的底层特征提取的操作包括：

(1)将动作视频序列中的每一帧用二维坐标到像素点亮度的映射表示，然后,使用空间域中的2D高斯核函数将其每一帧变换到高斯空间，接下来对经过高斯平滑的视频序列，沿着时间轴方向对每一列元素进行选定窗口的一维Gabor滤波，计算公式如下：

R＝(I*g*h_ev)²+(I*g*h_od)² (1)

这里w＝4/τ，σ＝2，τ＝2，当响应值R大于一定阈值时，表明此处有一个兴趣点，得到此处的坐标，并以此坐标为中心提取大小为σ×σ×τ的时空体特征；

(2)对视频序列分别在时间轴上和空间上划分等间隔为11*11*4，使视频序列成为一个个小时空体组成的集合，然后以时空体与时空体接点为中心提取等大小的时空体为19*19*13，边缘部分小，最后将两个方面提取的时空体合并成为一个集合用于LDS建模。

2.根据权利要求1所述的基于线性动态系统的视角无关的人体行为识别方法，其特征在于：在所述的第二步骤中，假设训练集中总共T个特征，构建T×T的矩阵D表示每两个模型参数(A,C)间的距离，通过MDS得到欧式空间下的低维表示；K-means聚类后得到聚类中心，但这些聚类中心并不对应原始的LDSs，计算低维空间中每个系统到聚类中心的距离，选择距离最近的高维空间中的对应系统来作为码本；这里是每个动作分别聚类生成码本。

3.根据权利要求1所述的基于线性动态系统的视角无关的人体行为识别方法，其特征在于：在所述的第三步骤中，通过soft-weighting方法，用一个K维的加权矢量H＝{h₁,h₂,…h_K}来表示每一个视频序列，每个元素h_k即表示系统码字W_k在该视频中的权值；h_k的计算公式如下：

<mrow> <msub> <mi>h</mi> <mi>k</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>F</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>L</mi> <mi>i</mi> </msub> </munderover> <msup> <mrow> <mo>(</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>)</mo> </mrow> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>M</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>W</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中，L_i表示视频中第i个最近邻为系统码字W_k的时空体的数目，d(Mj,Wk)度量时空体参数M_j和系统码字W_k之间的相似度；这里一个时空体的重要性由它与系统码字的相似度通过加权度量；通过实验比较，通常取F＝4；当求得这一加权矢量，通过1-范数标准化后，再进行随后的训练与识别。