CN103500340A

CN103500340A - 基于主题知识迁移的人体行为识别方法

Info

Publication number: CN103500340A
Application number: CN201310419997.XA
Authority: CN
Inventors: 陈昌红; 杨顺卿
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2013-09-13
Filing date: 2013-09-13
Publication date: 2014-01-08
Anticipated expiration: 2033-09-13
Also published as: CN103500340B

Abstract

基于主题知识迁移的人体行为识别方法，包括：构建训练视角和测试视角下的双语词典，所述双语词典用于将该两个视角下同一动作的低层特征转换成为相同表征；包括低层特征提取、中层特征表示和双语词典获得三个步骤；采用训练视角下的全部动作视频，通过所述双语词典将该视角下不同动作的低层特征分别转换成为表征，训练出识别不同动作的分类模型；采用测试视角下的测试动作视频，通过所述双语词典将该视角下动作的低层特征转换成为表征，运用所述分类模型获得对该动作的识别结果。该方法显著提高了交叉视角下人体行为的识别率，对视角的变化有很高的鲁棒性，在视频监控中有重要的应用价值。

Description

基于主题知识迁移的人体行为识别方法

技术领域

本发明属于图像处理技术及模式识别领域，特别涉及一种基于主题知识迁移的视角无关的人体行为识别方法。

背景技术

人体行为识别是计算机视觉领域备受关注的前沿方向，其中视角问题是其研究和应用的瓶颈之处。视角无关的人体行为识别的研究不仅能够增加视频监控的智能化程度，而且能够降低多视角监控的成本，具有广泛的应用前景和经济价值。尽管人体行为识别的研究已经取得了一定的成果，但大部分工作都是基于固定和已知视角的，而由于人体运动、摄像机运动等原因实际拍摄得到的数据常常是任意角度的。不同的拍摄角度不仅会给人体图像序列的外观带来很大变化，运动的过程也会有所不同。视角问题已经成为机器视觉方面急需解决的问题。

人体运动是在3D空间中进行的，目前比较常见的视角无关的人体行为识别方面的工作就是考虑动态视角变化的环境，以多个视角的运动序列为基础，融合多个角度数据，重构出3D模型进行人体运动分析。这类方法不仅增加了算法的复杂性和计算量，而且透视投影等原因也会使重构出的动作不准确。更重要的是在实际监控中，同时得到多个视角的数据是比较困难的。能够实现不同视角间的行为识别是发展趋势。根据成像平面与实际的人体平面间的几何关系进行匹配是解决此问题的一种热门方法，如对极几何(epipolar geometry)法，它提供了不同视角下图像特征点之间的约束关系。通过分析人们对运动的感知，可以发现运动轨迹上速度和方向的显著变化使人们获得运动信息。Cen等人据此提出利用2D轨迹的时空曲率来捕捉行为的显著变化，利用行为单元即动态瞬间和间隔来解释行为。但这种方法需要可靠的人体关节的检测和跟踪，限制了此方法的应用。迁移学习是目前比较通用的方法，迁移学习的主旨是建立不同视角学特征的桥梁，通过此桥梁可以实现不同视角下的特征变换到一个共同的领域。这类方法与基于词袋的方法密切相连，虽然取得了比较好的识别效果，但是在视角变化较大时，比如自上而下的视角，表现仍不是很理想。

发明内容

对于外观特征改变较为明显的不同视角下的人体行为而言，传统的方法存在很大的局限性，现有的迁移学习方法在自上而下的视角仍不能获得满意的效果。本发明的目的在于提出一种对视角变化不敏感的基于主题知识迁移的视角无关的人体行为识别方法。

实现本发明的目的，本发明技术方案是：基于主题知识迁移的人体行为识别方法，其特征是，该方法包括如下步骤：

步骤1构建训练视角和测试视角下的双语词典，所述双语词典用于将该两个视角下同一动作的低层特征转换成为相同表征；包括低层特征提取、中层特征表示和双语词典获得三个步骤；

步骤2训练步骤：采用训练视角下的全部动作视频，通过所述双语词典将该视角下不同动作的低层特征分别转换成为表征，训练出识别不同动作的分类模型；

步骤3识别步骤：采用测试视角下的测试动作视频，通过所述双语词典将该视角下动作的低层特征转换成为表征，运用所述分类模型获得对该动作的识别结果。

作为本发明的进一步改进，所述步骤1具体包括：

步骤11两个视角的低层特征提取：选取训练视角和测试视角下的训练动作视频，分别通过二维Gabor滤波的方法选取特征点，并以其为中心提取时空立方体，在每个立方体的中心计算亮度梯度作为立方体描述符，立方体描述符即为低层特征；

步骤12两个视角的中层特征表示：对得到的两个视角下的低层特征分别进行Kmeans聚类，得到训练视角下的第一聚类中心和测试视角下的第二聚类中心；根据两个视角的聚类中心在每个动作样本中的分布将两个视角的动作样本量化为分类直方图，然后用各个视角下的分类直方图分别训练第一LDA模型和第二LDA模型，得到每个样本的主题分布，即中层特征；

步骤13双语词典获得：将两个视角下得到的中层特征结合起来，运用K-SVD(K-奇异值分解)算法，形成一个词典对，即为双语词典。

作为本发明的进一步改进，所述步骤2具体包括：

步骤21低层特征提取：将训练视角下的个体的全部动作视频，通过二维Gabor滤波的方法选取特征点，并以其为中心提取时空立方体，在每个立方体的中心计算亮度梯度作为立方体描述符，立方体描述符即为低层特征；

步骤22中层特征表示：计算低层特征到第一聚类中心的距离，从而得到低层特征的分类直方图，由第一LDA训练模型预测得到主题分布，作为中层特征；

步骤23将中层特征通过所述双语词典变换为稀疏表示，对得到的稀疏表示建立能识别不同动作的分类模型；

作为本发明的进一步改进，所述步骤3具体包括：

步骤31低层特征提取：将测试视角下的测试动作视频通过二维Gabor滤波的方法选取特征点，并以其为中心提取时空立方体，在每个立方体的中心计算亮度梯度作为立方体描述符，立方体描述符即为低层特征；

步骤32中层特征表示：计算低层特征到第二聚类中心的距离，从而得到低层特征的分类直方图，然后将根据第二LDA训练模型预测得到的主题分布作为中层特征；

步骤33将中层特征通过双语词典变换为稀疏表示，并输入到所述的分类模型，得出识别结果。

作为本发明的进一步改进，所述步骤23采用含有径向基函数的支持向量机(SVM)分类算法对得到的稀疏表示建立所述分类模型。

本发明的有益效果为：

由于视角变化引起了同一动作视频在外观上有较大改变，基于外观的特征难以在不同视角下的行为识别中获得好的效果，导致传统的行为识别方法难以应用。本发明基于LDA模型的语义分析作用和迁移学习的桥梁作用，提出了一种基于主题知识迁移的视角无关的人体行为识别方法，能够实现对视角变化不敏感的交叉视角的行为识别。由于LDA模型根据主题与词汇表的关系得到了每个样本中主题的分布，这样得到的特征更能捕捉到同一视角下不同动作样本的类间的差异和类内的相似性。而迁移学习使得不同视角下的同一动作通过字典的学习，能够得到近似相同的稀疏表示，而且这样的得到的特征又能很好区分不同类别的动作。该方法显著提高了交叉视角下人体行为的识别率，对视角的变化有很高的鲁棒性，降低了多视角监控的成本，在视频监控中有重要的应用价值。

附图说明

图1本发明的主流程图。

图2是双语字典构建过程图。

图3是本发明的识别系统图。

图4IXMAS多视角数据库例图。

图5是各个动作在不同角度下识别结果。

图6是各视角所有动作平均识别结果图表。

具体实施方式

下面结合附图和实施例对本发明作进一步说明，应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

基于主题知识迁移的人体行为识别方法，包括如下步骤：

如图1，是双语词典的构建过程图所示：

双语词典的构建过程包括：

步骤11训练视角和测试视角下的训练动作视频的低层特征提取；

步骤12训练视角和测试视角下的训练动作视频的中层特征表示；

步骤13双语词典获得。

步骤11低层特征提取。具体的操作有：

步骤选取训练视角和测试视角下的训练动作视频，将视频序列中的每一帧用二维坐标到像素点亮度的映射表示。然后对视频序列沿着时间轴方向对每一列元素进行选定窗口的二维Gabor滤波。二维Gabor滤波器有两部分组成，第一部分为一个正弦函数如下：

S(x,y,i)=cos(2π(u_ox+v_oy)+θ_i) (1)

θ_i定义了滤波器的方向，八个方向定义如下：

θ_i=1,2...8={0°,±22°,±45°,±67°,90°} (2)

第二部分是一个高斯函数，如下：

G (x, y) = \exp (\frac{- \frac{x^{2}}{ρ^{2}} + \frac{y^{2}}{ρ^{2}}}{2}) - - - (3)

ρ是控制高斯函数G(x,y)的宽度的参数，实验中

单独运用八个方向的Gabor滤波器，在每一帧中得到八个响应值，然后采用下式计算总响应值：

当总响应值大于一定阈值时，表明此处有一个兴趣点，得到此处的坐标，并以此坐标为中心提取大小为σ×σ×τ的时空体特征，实验中σ=13，τ=19。然后将提取的立方体展开计算亮度梯度生成梯度描述符，由于生成的描述符维数很高，所以采用PCA降维，降维之后的描述符长度为100，也即最后的低层特征。

步骤12中层特征表示。具体的操作过程有：

(1)分别将两个视角下得到的低层特征进行Kmeans聚类，聚类个数为1000，然后根据每个动作样本中每个词分配的聚类，将样本量化为直方图。聚类后生成的聚类中心表示为一个包含1000个词的词汇表，用于后面LDA模型。

(2)将上一步得到的样本直方图做为输入训练LDA模型，具体流程如下：

1)随机初始化：对所有样本集合中的每个样本中每个词w，随机的赋予一个主题编号z；

2)重新扫描样本集合，对每个词w，采用BP（置信传播）算法重新采样它的主题，在样本中进行更新；

3)统计样本集合中的主题-词共现矩阵

有了该矩阵即可实现LDA模型的预测功能，同时我们也得到了每个样本的主题分布，即中层特征θ。

步骤13.双语字典获得。具体的操作过程有：

对于训练视角和测试视角下的中层特征θ₁和θ₂，为了建立两个视角下特征的联系，使两个视角下的相同的动作有相同的表示，可以采用下式建立关系：

\underset{D_{1}, D_{2}, X}{\arg \min} {| | θ_{1} - D_{1} X | |}_{2}^{2} + {| | θ_{2} - D_{2} X | |}_{2}^{2} s . t . &ForAll; i {| | x_{i} | |}_{0} \leq s - - - (5)

式中D₁，D₂表示要训练的两个视角下的字典，X表示得到的稀疏表示，

表示训练视角的重建错误，

表示测试视角的重建错误，||x_i||₀≤s表示稀疏约束，即得到的每个样本的稀疏表示非零元素的个数不得小于等于s个，该式可运用K-SVD求解，求解得到的结果即为字典D₁，D₂。

如图2是本发明的识别流程图，本发明的识别流程包括训练分类模型和测试样本识别两个部分。

步骤2训练分类模型：

对训练视角的训练个体的全部动作视频提取低层特征，计算其到训练双语词典过程中得到的训练视角的第一聚类中心的聚类，从而得到低层特征的分类直方图。由训练得到的训练视角的第一LDA模型可以预测得到中层特征θ1。在双语字典的帮助下，采用下式OMP算法（正交匹配跟踪算法）对中层特征θ1进行变换，可得到各个样本的稀疏表示X，公式（6）为在训练视角下的稀疏表示。

θ_{1} = \underset{X}{\arg \min} {| | θ_{1} - D_{1} X | |}_{2}^{2} s . t . &ForAll; i {| | x_{i} | |}_{0} \leq s - - - (6)

采用含有径向基函数的支持向量机(SVM)分类算法对得到的稀疏表示建立分类模型，实验中gamma值取0.5，惩罚参数C=512。

步骤3.测试样本识别：

对测试视角的测试个体的测试动作提取低层特征，计算其到训练双语词典过程中得到的测试视角的第二聚类中心的聚类，从而得到低层特征的分类直方图。由训练得到的测试视角的第二LDA模型可以预测得到中层特征。在双语字典的帮助下，采用上述OMP算法（正交匹配跟踪算法）对中层特征进行变换，可得到测试样本的稀疏表示。将其输入到训练好的分类模型，可得测试动作的分类结果。这里的LDA预测模型就是在LDA训练模型中加入了主题-词共现矩阵对于测试动作视频序列，可采用下面流程预测其主题分布：

1)随机初始化：对当前测试样本中的每个词w，随机的赋予一个主题编号z；

2)重新扫描当前样本，采用BP（置信传播）算法，对每个词w重新采样它的主题，在样本中进行更新；

3)统计样本的主题分布，即中层特征

这一步中，我们的参数设置为α=1,β=0.01主题个数设置为50，词汇表的大小K=1000也即是Kmeans的聚类中心数。

本发明的有效性可通过以下仿真实验进一步说明：

IXMAS多视角数据库是由法国国家信息与自动化研究所提供的人体运动视频库。它包含了12种日常动作，每个动作由12个非职业演员分别表演三次，并且由不同位置的5台摄像机同时拍摄每一个动作。这五个视角分别为正面（视角1）、两个侧面（视角2和视角3）、背面（视角4）和俯视（视角5）。这12种动作分别是看表(check watch)、交叉双臂(cross arms)、举手(hands up)、起立(get up)、踢腿(kick)、捡东西(pick up)、出拳(punch)、挠头(scratch head)、坐下(sit down)、转身(turn around)、行走(walk)和招手(wave)。图3给出了IXMAS数据库的例图。该数据库包含了较为全面的动作类型，在验证方法的有效性上具有较强的说服力，很多视角无关行为识别的算法都是在这个数据库上进行验证的。本文的实验结果均是在此数据库上得出的。

全部动作视频、训练动作视频和测试动作视频，具体含义包括：全部动作视频是训练和测试动作视频的集合；采用留一法的将全部动作视频分解为训练和测试动作视频，即选取全部动作中的任意一个作为测试动作，其余的动作作为训练动作，用来训练字典，而对于要测试的样本，没有参与聚类过程及字典的学习。因为该数据库总共36人次，故实验采用12个人训练，24个人测试。对每个视频序列提取立方体时，我们没有限制其个数，仅仅限制在每帧图像上最多可产生20个兴趣点。

实验结果可以通过图5及图6观测到。图5给出了IXMAS数据库中每个动作类别在各个视角下的识别率，从图中可以看出所有动作在各个视角下的识别率都在98%以上，只有“挠头”这个动作五个视角下的识别率低于99%，而其余动作的识别率都超过了99%，尤其是踢腿，捡东西这两个动作的识别率都达到了99.8%以上。图6我们给出了各视角所有动作平均识别结果，第一列表示训练视角，第一行表示测试视角。由图中可以看出，所有视角无论作为训练视角还是测试视角其识别率都达到了99%以上，视角5是最难识别的一个视角，但是我们的算法的识别率与其他视角相比没有明显差异，作为测试视角甚至更好。实验结果表明了我们算法的有效性和稳定性。

上面描述仅是本发明的一个具体实施例，显然在本发明的技术方案指导下本领域的任何人所作的修改或局部替换，均属于本发明权利要求书限定的范围。

Claims

1.基于主题知识迁移的人体行为识别方法，其特征是，该方法包括如下步骤：

步骤1 构建训练视角和测试视角下的双语词典，所述双语词典用于将该两个视角下同一动作的低层特征转换成为相同表征；包括低层特征提取、中层特征表示和双语词典获得三个步骤；

步骤2 训练步骤：采用训练视角下的全部动作视频，通过所述双语词典将该视角下不同动作的低层特征分别转换成为表征，训练出识别不同动作的分类模型；

步骤3 识别步骤：采用测试视角下的测试动作视频，通过所述双语词典将该视角下动作的低层特征转换成为表征，运用所述分类模型获得对该动作的识别结果。

2.根据权利要求1所述的人体行为识别方法，其特征是，所述步骤1具体包括：

步骤11 两个视角的低层特征提取：选取训练视角和测试视角下的训练动作视频，分别通过二维Gabor 滤波的方法选取特征点，并以其为中心提取时空立方体，在每个立方体的中心计算亮度梯度作为立方体描述符，立方体描述符即为低层特征；

步骤12 两个视角的中层特征表示：对得到的两个视角下的低层特征分别进行Kmeans聚类，得到训练视角下的第一聚类中心和测试视角下的第二聚类中心；根据两个视角的聚类中心在每个动作样本中的分布将两个视角的动作样本量化为特征直方图，然后用各个视角下的特征直方图分别训练第一LDA模型和第二LDA模型，得到每个样本的主题分布，即中层特征；

步骤13双语词典获得：将两个视角下得到的中层特征结合起来，运用K-奇异值分解算法对其进行分解，形成一个词典对，即为双语词典。

3.根据权利要求1所述的人体行为识别方法，其特征是，所述步骤2 具体包括：

步骤21低层特征提取：将训练视角下的个体的所有动作视频，通过二维Gabor 滤波的方法选取特征点，并以其为中心提取时空立方体，在每个立方体的中心计算亮度梯度作为立方体描述符，立方体描述符即为低层特征；

步骤22 中层特征表示：计算低层特征到第一聚类中心的距离，从而得到低层特征的分类直方图，由第一LDA模型预测得到主题分布，作为中层特征；

步骤23 将中层特征通过所述双语词典变换为稀疏表示，对得到的稀疏表示建立能识别不同动作的分类模型。

4.根据权利要求2所述的人体行为识别方法，其特征是，所述步骤3 具体包括：

步骤31低层特征提取：将测试视角下的测试动作的视频通过二维Gabor 滤波的方法选取特征点，并以其为中心提取时空立方体，在每个立方体的中心计算亮度梯度作为立方体描述符，立方体描述符即为低层特征；

步骤32 中层特征表示：计算低层特征到第二聚类中心的距离，从而得到低层特征的分类直方图，然后将根据第二LDA训练模型预测得到的主题分布作为中层特征；

步骤33 将中层特征通过双语词典变换为稀疏表示，并输入到所述的分类模型，得出识别结果。

5.根据权利要求1或2或3所述的人体行为识别方法，其特征是，所述低层特征提取，具体包括：

将动作视频序列中的每一帧用二维坐标到像素点亮度的映射表示；然后沿着时间轴方向对视频帧进行选定窗口及八个方向的二维Gabor 滤波；当响应值R大于一定阈值时，表明此处有一个兴趣点，得到此处的坐标，并以此坐标为中心提取大小为σ×σ×τ的时空体特征；其中S=13，t=19；然后计算立方体的亮度梯度作为立方体描述符。

6.根据权利要求2所述的人体行为识别方法，其特征是，所述步骤12中对得到的两个视角下的低层特征进行Kmeans聚类，聚类个数为1000。

7.根据权利要求3所述的人体行为识别方法，其特征是，所述步骤23中采用含有径向基函数的支持向量机(SVM)分类算法对得到的稀疏表示建立所述分类模型。