CN104933417B

CN104933417B - 一种基于稀疏时空特征的行为识别方法

Info

Publication number: CN104933417B
Application number: CN201510362048.1A
Authority: CN
Inventors: 龚声蓉; 王露; 刘纯平; 王朝晖; 朱桂墘; 葛瑞
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-06-26
Filing date: 2015-06-26
Publication date: 2019-03-15
Anticipated expiration: 2035-06-26
Also published as: CN104933417A

Abstract

本发明公开了一种基于稀疏时空特征的行为识别方法，包括如下步骤：步骤一、对于输入视频采用时空Gabor与原输入视频进行卷积构造尺度空间；步骤二、将不同尺度的表达作为时空深度置信网络不同通道的值，联合学习多尺度的特征；步骤三、对行为特征进行识别分类。本发明通过尺度空间的构建输入深度网络联合学习多尺度的特征，提高行为识别的性能，针对池化操作的信息损失问题，引入空间金字塔的思想，对池化输出进行多级扩充，并结合稀疏编码进行金字塔多级特征的融合，降低了池化层输出的特征维度，进一步改进了原有网络的性能，提高了行为识别率。

Description

一种基于稀疏时空特征的行为识别方法

技术领域

本发明涉及一种行为识别方法，具体涉及一种基于稀疏时空特征的行为识别方法，可以自动获取视频中人体行为特征用于人体行为的识别。

背景技术

人体行为识别是通过分析视频序列中人体图像的相关性和视觉外观特征，确定人体的行为模式。行为识别的过程主要包括运动信息提取和行为识别两个部分，而在模型的运用不出差错的情况下，提取的行为特征决定了整个模型的能力上限，模型的识别或预测只是为了更好的接近这个上限。

自动获取与人体行为相关的信息，在许多领域成为一个亟待解决的问题。在计算机视觉领域，人体行为识别广泛应用于智能监控、人机交互、虚拟现实、医疗看护等领域。具体的说，日常生活中比较常见的视频监控，单纯依靠人力监控效率往往比较低，而且人类对于监控视频的注意力往往会随着时间降低，所以长时间的视频监控会使得丢失报警率偏高。倘若采用智能的视频监控，则可以自动的对视频进行建模和分析，实时的识别人体行为，更加准确及时的进行安全预警，也大量减少了人力、物力和财力的投入，在交通场所、机场车站等公共场所都有着巨大的应用价值和前景。另外，正确快速的识别视频中的行为对于视频搜索、自动视频标注等也具有十分重要的意义，因此人体行为识别的研究既具有理论意义同时兼备实际应用价值，值得进一步的研究。

行为识别主要包括两个方面：从视频中提取行为特征，建立特征与行为类别高层语义信息之间的对应关系。从视频中提取有效的特征是行为识别中重要的环节，它直接影响到之后语义映射即识别的准确率和鲁棒性。传统的行为识别方法根据应用场景以及所关心的行为类别的不同，通常要选用不同类型的特征；而深度学习的方法能够自动学习到样本数据的行为特征，多层的抽象表达可以覆盖底层更多的变化，得到更优的识别效果。

传统的行为特征提取方法主要有：（1）基于底层跟踪或姿态估计的特征提取方法，主要是静态特征，如形状、轮廓，或者基于运动信息的动态特征提取，如轨迹、运动速度。这类特征往往直观性好，具有明确的时间特性和速度特性；但是它们的有效性需要依赖于目标跟踪和人体姿态估计的准确性。而真实的场景中，由于背景比较杂乱、运动目标多，进行准确的目标跟踪和人体姿态估计是具有很大的挑战，所以这类特征往往鲁棒性较差。（2）基于图像处理技术的特征提取方法，这类方法主要有基于光流的动态特征以及时空特征。这类特征一定程度上提高了行为识别的鲁棒性；但通常是对图像或时空立方体的局部运动描述，计算量较大，容易受噪声干扰，且缺乏行为模式的整体性考虑和全局性的分析。（3）基于学习的方法提取特征，一般学习的是目标的中层语义特征。这类特征虽然利用了视频中丰富的中层语义信息，但是因为涉及到人为定义的问题，存在主观性和非完整性，从而导致行为识别性能下降。

深度学习方法模拟人脑的层次处理结构，自动学习多层的抽象概念，它是一种高度非线性的模型，具有超强的数据拟合能力和学习能力，表达能力强，更能刻画数据丰富的内在信息。深度学习的概念起源于人工神经网络的研究，由于反向传播算法在神经网络层数增多时参数训练容易陷入局部优化，也容易过拟合，所以很长一段时间只是有一层隐藏结点的浅层模型受到广泛应用。直到2006年由Geoff Hinton等提出贪心逐层训练算法，使得参数初始化在比较接近全局最优的位置，缓解了深层网络训练中非凸函数优化问题，至此深层网络模型的学习才又开始进入人们的视野。深度学习的多层结构可以更好的对视觉信息进行建模从而能理解视频的内容，这种方式学习到的特征也符合人类感知世界的机理，而且具有一定的语义特征，所以很适合人体行为识别。最近几年深度学习的方法也开始慢慢被应用到视频中进行人体行为的识别。2010年Taylor等人提出了卷积门限的限制玻尔兹曼机（Convolutional Gated RBM, convGRBM）来学习视频中相邻两帧的时空特征，之后使用三维时空滤波器构建传统卷积网络有监督的学习中层时空特征。实验结果表明，该模型在行为识别数据库上可以获得与人工设计特征相类似的精度。传统的深度学习的方法在进行视频处理的时候，通常将视频看作独立的时空小块的无序集合，从而放弃了全局几何信息，于是Chen等人提出了时空的深度置信网络（ST-DBN），尝试把局部和全局时空信息包含到一个分层结构中，通过使用卷积限制玻尔兹曼机在空间维度和时间维度上交错地进行建模，从而获得视频的时空特征。在行为识别数据库上，ST-DBN从空间和时间上获得信息，显示了优越的区分能力，而且该模型还可以应用于图像修复和降噪。其它的人体行为识别的模型还有Le等人提出的独立的子空间分析方法 (Independent Subspace Analysis，ISA)，在KTH，Hollywood2，UCF和YouTube行为识别数据库上都获得了优于之前提出方法（不论是人工设计的特征还是学习的特征）的结果。Baccouche等人提出的稀疏的卷积自动编码网络，该模型能从局部的显著信息中学习到稀疏的平移不变的表达，在KTH和GEMEP-FERA数据库上都获得了突出的实验结果。之前的人体行为识别方法都是基于一些苛刻的应用场景假设（如小尺度变化、小的视觉变化等），考虑用深度学习的方法在非限制的环境中完全自动识别人体行为，Shui等人提出了三维卷积神经网络（3D CNN），在TRECVID（TREC VideoRetrieval Evaluation）数据集和KTH数据集上的实验结果表明，三维卷积神经网络更适合现实世界的行为识别，且三维卷积神经网络识别效果要优于二维的卷积神经网络。

基于深度学习方法的行为识别，主要存在的问题为：

1、确定的理论基础。尽管深度学习在工程应用上由于准确率的显著提高广受关注，但深度学习自身还缺乏理论基础，深度学习理论中包含了大量说不清的东西。例如，深度学习的多层学习机构通常是用大脑信息处理的层次机制来解释的，但大脑信息处理结构是神经科学都无法完全理解的存在，而且具体的层次内部以及层次之间的信息处理方式是怎样的，我们都无法确定的说明。深度学习模型存在太多的经验，多少层的模型、每层的结点数为多少、怎样的技巧适合训练深度模型等等都没有明确的解释。目前深度学习的研究还处于起步阶段，深度学习相关的理论还有待进一步的研究和证明。

2、行为特征描述。虽然运用深度学习的方法可以自动地学习人体行为特征，在行为识别领域也取得了很好的成绩，但还是无法匹敌人类的识别效果，那我们是否可以通过深度学习的特征进一步提高识别率。训练更深层次的深度学习模型，或者对于给定的深度学习框架尝试融合不同属性的特征，还是有其它的技巧可以增强给定的深度学习框架以改进其鲁棒性，这些都是我们需要解决的问题。

3、计算复杂度。深度学习算法是建立在大量输入数据的前提下的，只有在提供大量的数据支持下，深度学习才能对数据规律进行无偏的估计。从计算量的角度来看，对于大模型和大数据，深度学习算法的时间和空间复杂度急剧上升，需要更高的并行技巧以及更好的硬件支持。而且深度学习的模型在不断的迭代优化中并不能保证得到全局的最优解，这需要未来进一步的探索。

发明内容

本发明的发明目的是提供一种基于稀疏时空特征的行为识别方法，通过尺度空间的构建输入深度网络联合学习多尺度的特征，提高行为识别的性能，并引入空间金字塔的思想，对池化输出进行多级扩充，结合稀疏编码进行金字塔多级特征的融合，进一步高进原有网络的性能，提高行为识别率。

为达到上述发明目的，本发明采用的技术方案是：一种基于稀疏时空特征的行为识别方法，包括如下步骤：

步骤一、对于输入视频采用时空Gabor与原输入视频进行卷积构造尺度空间；

步骤二、将不同尺度的表达作为时空深度置信网络不同通道的值，联合学习多尺度的特征；

步骤三、对行为特征进行识别分类。

上述技术方案中，所述步骤一中，从7个不同尺度的表达中，根据不同尺度表达间信息的损失，基于熵选择3个损失最小的尺度作为输入视频的多尺度表达。

上述技术方案中，所述步骤二中，对于多尺度的输入首先采用卷积限制玻尔兹曼机进行时间维的特征学习，然后采用空间维的卷积限制玻尔兹曼机学习不同大小的多级特征输出。

进一步技术方案，将所述卷积限制玻尔兹曼机的池化层的输出扩充为多级较小的特征，采用稀疏编码进行所述多级特征的融合。

上述技术方案中，所述步骤三中采用支持向量机进行行为分类，所述支持向量机的核函数为径向基核函数。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

本发明通过尺度空间的构建输入深度网络联合学习多尺度的特征，提高行为识别的性能，针对池化操作的信息损失问题，引入空间金字塔的思想，对池化输出进行多级扩充，并结合稀疏编码进行金字塔多级特征的融合，降低了池化层输出的特征维度，进一步改进了原有网络的性能，提高了行为识别率。

附图说明

图1是实施例一中本发明的方法框架构图。

图2是实施例一中卷积限制玻尔兹曼机模型结构示意图。

图3是实施例二中不同尺度下拳击行为的运动信息表达。

图4是实施例二中时间域CRBM的特征映射示例。

图5是实施例二中空间域CRBM的特征映射示例。

图6是实施例二中不同输出大小下KTH上行为的识别率。

图7是实施例二中KTH上不同字典数目和稀疏度对行为识别率的影响。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：参见图1所示，一种基于稀疏时空特征的行为识别方法，包括如下步骤：

步骤三、对行为特征进行识别分类。

所述步骤一中，考虑到模型训练的复杂度，从7个不同尺度的表达中，根据不同尺度表达间信息的损失，基于熵选择了3个损失最小的尺度作为输入视频的多尺度表达，输入深度模型进行多尺度的特征学习。

本实施例中，对于简单细胞的感受野响应使用Gabor函数进行拟合，对于视频输入（亮度分布）的响应可以表示为输入与感受野函数卷积的半波整流，即

（1）

角度参数决定了运动的优选方向和滤波器的空间优选方向；参数是余弦函数的相位速率，决定了运动的优选速率；表示滤波器在空间上相对于运动中心的对称性。由于尺度参数，这里我们使用速度参数描述尺度变化。

复杂细胞的感受野可以由简单细胞的输出非线性组合而成，即：

（2）

为了弱化背景边缘，同时保持运动目标的轮廓和区域边界，尺度空间的构建加入了环绕抑制模型。对于空间上的任意一点，它的抑制项是该点的运动能量与环绕抑制权重函数的卷积，即

（3）

该点的环绕抑制运动能量为：

（4）

其中参数用于控制环绕抑制的强度。

为了获得不同速度（尺度）下的运动信息，将初级视觉皮层中复杂细胞的N个不同方向的响应，加入环绕抑制得到的环绕抑制运动能量进行组合，提取运动信息。即不同尺度下的运动信息为：

（5）

对于输入数据不同尺度的描述，细尺度体现的是目标对象的细节信息，粗尺度描述的是整体轮廓概貌。尺度空间就是对输入信号越来越平滑、简化的表达，在尺度上是一个由细到粗的变化过程，从视觉信息角度出发体现的就是细节信息的不断丢失。考虑到模型训练的复杂度，为了选择合适的尺度对输入视频进行描述，使得输入尽量保留多的细节信息，选择不同尺度间信息量损失最小的3个尺度作为该输入的描述尺度。不同尺度间视频的信息损失量定义为：

（6）

这里定义为Kullback–Leibler divergence，即相对熵，可以用来衡量两个概率分布的差异情况，为不同尺度下运动信息的亮度统计值。本实施例计算了7个不同尺度的信息损失，损失量较小的3个尺度就为该视频的描述尺度。

所述步骤二中，考虑到某些行为类别在空间维度上比较类似，而在时间维度上区别性较大，比如慢跑和跑步，同时也为了方便时空深度置信网络最后一层空间维金字塔的多级特征输出，对于多尺度的输入首先采用卷积限制玻尔兹曼机（ConvolutionalRestricted Boltzmann Machine, CRBM）进行时间维的特征学习，然后采用空间维CRBM学习不同大小的多级特征输出。为了融合不同大小的时空特征，也为了降低输出的维度，采用稀疏编码进行了多级特征的融合。

参见图2所示，一个基本的CRBM模型主要包括三层，即可见层节点、隐藏层节点及池化层节点。输入节点和隐节点之间通过个卷积滤波器相连，隐节点之间共享隐藏层偏差，可见节点之间共享可见层偏差。池化层采用的是概率的最大值池化操作，只有在对应的隐藏层节点中至少有一个是被激活状态时才会被激活。

对于二值的可见层单元，该卷积限制玻尔兹曼机的能量函数定义为：

（7）

这里是对原始的滤波器进行上下和左右的倒置变换，表示卷积操作，表示汇总单元节点所对应的隐藏层节点局部邻域。

由于CRBM模型只有不同层之间有连接，同一层单元之间是没有连接的，因此条件概率的计算如下所示：

（8）

其中，，是sigmoid函数。

CRBM模型学习的是输入的过完备表达，通常过完备的模型存在着学习到平凡解（trivial solution）的风险，所以在训练模型的时候加入了稀疏正则项，使得对于一个给定的激励只有很小的一部分单元是被激活的，即概率最大值池化层中非零值接近一个很小的常数。对于稀疏正则项的梯度计算，遵循以下更新规则：

（9）

整个模型的训练过程如表1所示，首先根据可见层的输入计算得到隐藏层的分布，然后通过隐藏层的分布来重构可见层分布，再根据此分布生成新的隐藏层分布。重构的可见层分布和隐藏层分布就是对输入的一次采样，多次采样得到的分布就可以看成是输入数据分布的一种近似，根据这些样本概率值就可以对参数进行更新，最终求解出参数值。

表1 卷积限制玻尔兹曼机的训练过程

本发明采用时空深度置信网络（Temporal-Spatial Deep Belief Network，TS-DBN），由CRBM在时间域和空间域上分别进行时间域特征和空间域特征的学习，行为在时间上的演变要比空间维的变化更加重要，该模型第一层使用的是时间域CRBM，第二层为空间域CRBM，依次这样堆叠起来自动进行时空特征的学习。不同于传统单一尺度的特征学习，本发明将不同尺度的信息输入TS-DBN，联合学习多尺度的特征。具体的说，多尺度的TS-DBN是将输入视频不同尺度的表达作为不同通道的值输入时空深度置信网络，联合学习不同尺度的时空特征。时间域CRBM的输入是图像上位置为的像素在时间维度上形成的向量，即长度为的时间序列，是视频通道的个数，这里就是不同的尺度信息，是视频的长度。通过CRBM模型的学习，输出的序列，为滤波器的个数，为输出视频长度，最后将时间维的输出重新安排到空间维的分布上。空间域CRBM的输入为时间域CRBM的输出，与空间域滤波器卷积，通过概率的最大值池化操作输出响应。

传统的池化策略在固定池化比率系数下，输出的特征大小跟输入大小成正比，当输入图片或者视频的分辨率很大的时候，池化后的特征维度往往也会很高。解决的方法有进一步深层网络的堆叠，这样多层池化后输出的特征维数必然下降，但深度学习中网络的层数往往是个经验值，也并不是网络的层数越多模型的性能就越好。所以本发明从横向的宽度考虑，引入了空间金字塔的思想，将池化层的输出扩充为多级较小的特征，采用稀疏编码进行多级特征的融合，降低了池化层输出的特征维度。对于稀疏的金字塔池化策略的每一级，我们都要实现CRBM的概率最大值池化操作，最后将不同级的特征进行连接作为稀疏编码的输入，进行字典学习获得输入的稀疏表达。

对于金字塔多级输出，将卷积后的特征映射进行不同比率的池化操作，这里的池化是概率的最大值池化策略，池化比率等参数根据已知输入的大小预先计算出来，这样就可以获得多级的特征输出用于稀疏融合。设空间卷积操作后得到的特征映射大小为，某级金字塔大小为，则对应的池化操作的池化比率为，步长为，这里和分别对应向上取整和向下取整的操作。当时，池化区域和区域之间会出现重叠，而传统的池化方法之间则不会，重叠的池化方法可以提高深度网络的性能，本发明采用的空间金字塔池化策略就是重叠的池化。稀疏编码模拟了初级视觉皮层中感受野对视觉感知信息产生的一种稀疏表达，在计算机视觉中通过一个线性变化（也称为学习字典）描述输入数据的一个潜在表达。为了保证稀疏性，稀疏编码会加入一个约束，如范式代价函数，使得潜在表达中只有很少几个值是远大于零的。稀疏编码是一种非监督的学习方法，可以自动地从非标记的数据中学习到好的基向量以及对应的稀疏表达，其代价函数定义为：

（10）

这里的稀疏惩罚项就是范式，本实施例中也限制了基向量的取值防止稀疏惩罚变得很小。稀疏编码对基向量的学习是通过迭代地解决两个凸规划问题求解的，本发明采用的快速的稀疏编码方法，采用特征符号搜寻方法解决范式正则化最小二乘法问题，使用拉格朗日对偶函数的方法求解范式约束的最小二乘问题，对原有的稀疏编码进行了有效的加速，使得学习大数据的编码成为可能。

所述步骤三中，采用支持向量机（Support Vector Machine，SVM）进行行为分类，所述支持向量机的核函数为径向基核函数，所述核函数的参数是通过训练集上的五折交叉验证获得的。

实施例二：本实施例采用的行为数据库为KTH(Kungliga Tekniska högskolan，瑞典皇家理工学院)，包括六类行为：拳击(boxing)、拍手(handclapping)、挥手(handwaving)、慢跑(jogging)、跑步(running)和行走(walking)，每种行为被25个演员在四种不同环境下重复多次。数据集中9个演员（演员2，3，5，6，7，8，9，10和22）组成测试集，剩下的16个演员平分为训练集和验证集。实验硬件环境：Linux，Intel(R) Xeon(R) CPU E5-2620 v2@2.1GHz，62.9G内存，1T硬盘。代码运行环境是：MATLAB 2013a。

参见图3所示，给出了KTH上拳击行为在不同尺度上的运动信息，每一列对应该视频中的不同帧，从图中可知，随着尺度（这里用表示）不断变大，背景信息被不断抑制，目标轮廓越来越模糊，不同尺度显示了目标不同的运动信息，选择不同的尺度进行融合更有利于行为的表达。

参见图4和5所示，分别为两层TS-DBN模型在卷积层第5个滤波器下第2个演员进行拳击、拍手、挥手、慢跑、跑步和行走行为的时间域特征映射和空间域特征映射，每一列对应时间维的输出。从图中可以看出对于不同的行为，时间域CRBM和空间域CRBM的响应位置是不一样的，CRBM学习到的特征很好的区分了不同的行为。

为了验证不同池化区域对行为识别性能的影响，本实施例采用不同池化比率构建三级金字塔，生成空间大小分别为的特征，KTH数据库上每类行为的识别率以及所有类别的平均识别率参见图6所示。从图中可以发现，池化比率值不能设置的太大使得学习到的特征过小，这样就无法进行合理区域的特征概括从而降低行为的识别率。在池化比率值合适的情况下，轻微改变池化比率的大小对行为识别的结果影响不大。另外，在不同池化区域下，每类行为的识别率是不太一样的，不同的区域对于不同的行为有一定的偏向性，这也使得之后金字塔多级特征的稀疏编码融合更合理化了。

关于稀疏编码字典中基向量的个数和稀疏程度对行为识别率的影响，参见图7所示。从图中可以看出，当稀疏度识别率最高，而字典数目为130的时候识别率最高，最高的识别率达到了89.4%。当字典数目小于100的时候识别率变化比较大，字典数目大于100之后识别率的变化相对平缓，所以特征提取过程中稀疏编码的字典数目不能设置的太小。对于稀疏度的设置不能太大也不能太小，太小使得学习的特征不够精细，太大则会过学习，不利于行为特征的分类。

表2在KTH数据库进行了稀疏金字塔池化策略与概率最大值池化策略的比较。本实施例训练了两层的时空置信网络，首先是时间域进行特征学习，然后才是空间域的特征学习，池化策略仅改进最后一层空间CRBM的，分别比较了概率最大值池化、金字塔池化以及稀疏金子塔池化，同时也引入了多尺度的输入进行了样本数据的扩充。从表2中可以发现相比于单一尺度的特征学习，多尺度的输入都可以学习到更丰富的特征，多尺度特征更利于行为识别的分类；稀疏的金字塔池化策略是要优于传统的概率最大池化策略的；而相比于三层的网络，从横向宽度上进行的金字塔池化策略，其识别效果毫不逊色于更深一层的深层网络结构。而相比于金字塔池化策略，通过稀疏编码进行高层特征的融合，其识别效果显然要更好。

表2 稀疏金字塔池化与概率最大值池化的比较

表3给出了KTH数据库上使用不同方法的识别率比较结果，从中可以发现自动学习的特征在行为识别领域可以获得与人工设计特征相匹配的识别率，与传统的时空深度置信网络相比，本发明的方法提高了2.8%，与其它的深度学习模型相比，本发明只进行了两层的模型训练，而且只将输入视频的前100帧作为模型的输入，所以实验结果相较于其它的学习方法要差一点。但在某些类别上，本发明提出的模型还是显示了其优越性，比如拳击类本文的识别率达到了100%，这是以前的方法无法达到的；之前的行为特征对于慢跑和跑步这两类的区分能力都不高，TS-DBN模型首先进行的时间域特征学习很好的区分了这两个类别；对于行走类别识别率不高，可能是因为时间域CRBM池化层输出太小从而无法与慢跑和跑步类别区分开。

表3 在KTH数据库上使用不同方法识别率的比较

Claims

1.一种基于稀疏时空特征的行为识别方法，其特征在于，包括如下步骤：

步骤三、对行为特征进行识别分类；

所述步骤二中，对于多尺度的输入首先采用卷积限制玻尔兹曼机进行时间维的特征学习，然后采用空间维的卷积限制玻尔兹曼机学习不同大小的多级特征输出；

将所述卷积限制玻尔兹曼机的池化层的输出扩充为多级较小的特征，采用稀疏编码进行所述多级特征的融合。

2.根据权利要求1所述的一种基于稀疏时空特征的行为识别方法，其特征在于：所述步骤一中，从7个不同尺度的表达中，根据不同尺度表达间信息的损失，基于熵选择3个损失最小的尺度作为输入视频的多尺度表达。

3.根据权利要求1所述的一种基于稀疏时空特征的行为识别方法，其特征在于：所述步骤三中采用支持向量机进行行为分类，所述支持向量机的核函数为径向基核函数。