CN107967441B

CN107967441B - 一种基于双通道3d-2d rbm模型的视频行为识别方法

Info

Publication number: CN107967441B
Application number: CN201710845449.1A
Authority: CN
Inventors: 李敬华; 淮华瑞; 王立春; 孔德慧; 闫会霞; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2021-03-30
Anticipated expiration: 2037-09-19
Also published as: CN107967441A

Abstract

本发明公开一种基于双通道3D‑2DRBM模型的视频行为识别方法，提出了3D张量到2D矩阵变量的受限玻尔兹曼机，即输入为3阶张量变量，输出为2阶矩阵变量的RBM，称其为3D‑2D RBM；该模型解决了前两个模型在处理3D视频数据上的劣势，也更好地保存了3D视频数据的时空信息，可以得到了较好的动态手势识别率。

Description

一种基于双通道3D-2D RBM模型的视频行为识别方法

技术领域

本发明属于计算机视觉与机器学习领域，具体地涉及一种基于双通道3D-2DRBM模型的视频行为识别方法。

背景技术

受限玻尔兹曼机(RBM)是一个无向概率图模型。RBM模型通过一组样本学习可见层和隐藏层之间的连接权值和偏置值，使在最优的一组模型参数下，所有样本发生的概率最大，进而得到输入数据的有效表示。RBM强大的特征提取以及表达能力，使其在模式识别、机器学习等领域广受欢迎。不过传统的受限玻尔兹曼机(RBM)通常是基于向量形式的输入输出数据或者变量，但来源于现实中的数据多为更一般的高阶结构，如2D图像，3D视频等。传统的RBM方法在处理上述结构时通常进行高阶数据的向量化处理，这样的处理会破坏图像/视频的空间或时空结构信息。齐光磊等提出了矩阵变量受限玻尔兹曼机(MVRBM)，MVRBM是面向2D数据提出的，该模型的输入和输出数据变量都是基于矩阵形式的，该模型解决了传统的RBM的不足，使模型在训练和测试过程中能够保持2D矩阵数据的空间信息，能够很好地处理二维图像数据。但在处理3D视频数据时，需要先把3D数据表示成2D数据，这样的处理必然会损失原始3D数据的时空信息，不能保证数据的完整性。

动态手势识别是模式识别以及计算机视觉领域的一个热点研究课题，研究重心通常包括特征提取和分类器设计两个方面。分类器设计方面包括神经网络、隐马尔科夫模型等。特征提取方面通常包括手工定义的外观特征和运动特征，外观特征如手形、手部重心位置、S I FT特征、矩特征以及HOG特征等；运动特征如光流、轨迹特征等。手工定义的特征提取方法已取得很大成功，但通常需要先验知识，特别地，该方法提取的特征多为底层特征，不能反映信号的高层语义信息。近年来，深度学习方法受到广泛关注，在图像分类、对象定位等中取得很好成绩。本发明拟结合传统方法和学习方法的优势，提出新的动态手势识别方法。

发明内容

在传统的受限玻尔兹曼机(RBM)以及改进的矩阵变量受限玻尔兹曼机(MVRBM)模型的共同启发下，本发明提供一种基于双通道3D-2DRBM模型的视频行为识别方法，可以得到较好的动态手势识别率。

为实现上述目的，本发明采用如下的技术方案：

一种基于双通道3D-2DRBM模型的视频行为识别方法，包括以下步骤：

步骤一、训练阶段：

(1.1)针对输入的多组动态手势视频数据，分别进行计算光流特征提取处理和Canny算子去边缘处理；

(1.2)对于光流和Canny处理后得到的全部视频中的每一帧手动提取矩阵形式MxS大小的2D HOG特征，得到FLOW-HOG和Canny-HOG双通道特征，定义训练数据中每个手势动作视频用T帧描述，一个视频动作的每个通道特征可以表示为TxMxS的3阶张量形式；

(1.3)将大小为TxMxS的FLOW-HOG特征和Canny-HOG特征分别输入到3D-2D RBM模型中进行训练，通过不断的调整参数各自训练出最优的3D-2D RBM模型；

(1.4)以3D-2D RBM初始化NN模型，NN的输入和隐层节点数对应3D-2D RBM的输入和输出的向量化的维度；3D-2D RBM模型的三个矩阵形式的权重参数的克罗内克积作为NN网络的输入到隐层权重参数的初始值，通过反向传播算法不断调节NN的网络参数。

步骤二、测试阶段：

(2.1)与训练阶段(1.1)(1.2)一样，首先对测试数据进行同样的光流和Canny算子的处理；

(2.2)对于每个T帧的光流视频序列和Canny算子视频序列，分别提取每一帧为M*S大小的HOG特征；

(2.3)依次串联每个视频序列中的所有帧的特征，得到维度为T*M*S大小的向量，每个视频数据都可以用T*M*S大小的向量特征表示；

(2.4)输入上述特征向量到训练好的NN模型以进行分类。

作为优选，3D-2D RBM定义如下：

首先，定义

为二进制可见层3阶张量变量，对应视频中行为动作的时空3D表示；Y＝[y_lm]∈R^L×M为二进制隐含层2阶张量变量，对应进一步提取出的行为动作的高层语义特征；S＝[s_ijklm]∈R^{I×J×K×L×M}为五阶张量参数，是可见层与隐含层之间的连接权重；

和C＝[c_lm]∈R^L×M分别是可见层和隐含层的偏置张量，首先定义如下的能量函数：

其中，

为模型参数；假定隐含层单元和可见层单元的连接权值有如下关系：s_ijklm＝u_liv_mjw_1k。通过定义三个新的矩阵U＝[u_li]∈R^L×I，V＝[v_mj]∈R^M×J和w＝[w_1k]∈R^1×K，可以把公式(3-1)的能量函数改写成

即：

U、V和w共同定义了输入张量

和隐含矩阵Y的连接权，基于上述公式，

和Y的联合分布概率为：

其中，Θ表示所有的模型参数U，V，w，

和C；归一化常量Z(Θ)定义为：

假设给定一组动态行为训练数据

根据公式(4)它的极大似然函数为：

对于任意参数Θ，都可以求得似然函数导数，

表示在可见单元限定为已知的训练样本

时，隐层的概率分布，

表示可见单元与隐单元的联合分布；

根据CD-K算法的思想，通过一个较短的马尔科夫链实现近似计算，公式(7)的似然函数改写为

其中，k表示CD-K算法中的第k步Gibbs采样。

对于3D-2D RBM模型中的五个变量参数，分别对能量函数求导为

同理，其他四个变量也可以求得

所以，对于五阶张量的第一个权值矩阵U来说，似然函数的梯度公式为

其中，第一项是在可见层已知条件下的隐藏层的概率分布，第二项是可视层与隐藏层的联合概率分布；

同理可以得到其他参数对于似然函数的梯度：

附图说明

图1 3D-2D张量变量受限玻尔兹曼机模型图；

图2基于双通道3D-2D RBM的动态手势识别系统框架；

图3五种不同的光照；

图4九种不同的动态手势序列。

具体实施方式

本发明提供一种基于双通道3D-2DRBM模型的视频行为识别方法，提出了3D张量到2D矩阵变量的受限玻尔兹曼机，即输入为3阶张量变量，输出为2阶矩阵变量的RBM，我们称其为3D-2D RBM。该模型解决了RBM-RBM和MVRBM-MVRBM两个模型在处理3D视频数据上的劣势，也更好地保存了3D视频数据的时空信息。基于该模型，本发明也给出了其在基于视频的手势识别中的应用解决方案，提出一种基于双流3D-2D RBM的动态手势识别方法。该方法基于3D-2DRBM模型进一步学习基于传统方法提取的表征手势外观和运动的HOG特征和光流特征，进而得到了较好的动态手势识别率。

包括：

1、3D-2D RBM模型

3D-2D RBM模型的框架结构如下图1所示，3D-2D RBM的可见层单元表示为立方体结构，隐含层表示为圆柱结构。

该模型的定义如下：

首先，定义X＝[x_ijk]∈R^I×J×K为二进制可见层3阶张量变量，对应视频中行为动作的时空3D表示，Y＝[y_lm]∈R^L×M为二进制隐含层2阶张量变量。对应进一步提取出的行为动作的高层语义特征。假设独立变量x_ijk和y_lm从{0,1}中取值。S＝[s_ijklm]∈R^{I×J×K×L×M}为五阶张量参数，是可见层与隐含层之间的连接权重。B＝[b_ijk]∈R^I×J×K和C＝[c_lm]∈R^L×M分别是可见层和隐含层的偏置张量，首先定义如下的能量函数：

其中，

为模型参数。Θ中一共有I×J×K×L×M+I×J×K+L×M个自由参数。即使在I,J,K,L,M都很小时Θ也将是一个很大的数，这样就会需要大量的训练样本和很长的时间。为了减少自由参数的输出和节省计算复杂度，假定隐含层单元和可见层单元的连接权值有如下关系：s_ijklm＝u_liv_mjw_1k。通过定义三个新的矩阵U＝[u_li]∈R^L×I，V＝[v_mj]∈R^M×J和w＝[w_1k]∈R^1×K，可以把公式(3-1)的能量函数改写成

即：

U、V和w共同定义了输入张量

和隐含矩阵Y的连接权，基于上述公式，

和Y的联合分布概率为：

其中，Θ表示所有的模型参数U，V，w，

和C。归一化常量Z(Θ)定义为：

假设给定一组动态行为训练数据

根据公式(4)它的极大似然函数为：

对于任意参数Θ，都可以求得似然函数导数，

表示在可见单元限定为已知的训练样本

时，隐层的概率分布，故(7)式中的前一项比较容易计算。

表示可见单元与隐单元的联合分布，由于归一化因子Z(Θ)的存在，该分布很难获，导致我们无法直接计算(7)式中的第二项，只能通过一些采样方法获取其近似值。本发明使用对比散度(CD)算法进行近似计算。

根据CD-K算法的思想，通过一个较短的马尔科夫链实现近似计算。公式(7)的似然函数改写为

其中，k表示CD-K算法中的第k步Gibbs采样。

对于3D-2D RBM模型中的五个变量参数，分别对能量函数求导为

同理，其他四个变量也可以求得

其中，第一项是在可见层已知条件下的隐藏层的概率分布，第二项是可视层与隐藏层的联合概率分布。

同理可以得到其他参数对于似然函数的梯度：

张量变量受限玻尔兹曼机(3D-2D RBM)模型的训练阶段(如表1所示)：：

表1 3D-2D RBM模型的CD-K训练算法

之后，张量变量受限玻尔兹曼机(3D-2D RBM)模型被用于初始化NN，以改进NN的判别性能。

2、基于双通道3D-2D RBM模型的动态手势识别

以行为识别中的手势识别为例，动态手势由连续的三维空间动作表达，这种三维数据兼具时间和空间上的相关性。鉴于前述3D-2D RBM模型的特点，应用到动态行为识别时最直接的想法就是把3D视频数据直接作为输入进行训练和测试。不过当把视频原始数据直接输入该模型时，实验结果并不理想。这可能是由于原始视频维度高，直接输入模型会导致模型的复杂度较高，而样本不多，所以影响了训练。本发明考虑结合先验知识，即对原始数据进行预处理后再输入该模型建模。考虑HOG和光流在手势空间和运动特征描述方面的优势，本发明首先提取视频序列每一帧的HOG特征表达手势的空间特征，为了去除变光照的影响，在提取HOG特征之前做了基于Canny边缘检测的去光照处理。本发明同时提取了原始手势视频的光流特征以表达手势的运动特征，由于光流的稠密性，进一步对光流进行了HOG特征提取。通常的HOG特征是一维的，通过串联各块(BLOCK)特征来表征一个对象，本发明中为更好保持空间特征，引入2D HOG特征描述视频序列的每一帧，这样我们就得到了描述3D视频序列的Canny-2D HOG光流-2D HOG特征。

上述获得的Canny-2D HOG特征序列和光流-2D HOG特征序列分别表征了动态手势的底层空间外观和运动特征，为了进一步提取表征动态手势的高层语义信息，本发明分别对这两个序列进行了进一步的特征提取，即分别输入到3D-2D RBM模型进行进一步基于学习的特征提取。由于3D-2D RBM是无监督的学习算法，更适用于高层特征表示，为了增强判别性，本文引入了神经网络(NN)，以3D-2D RBM的权重作为NN的初值，并通过反向传播算法进行NN的权值的微调。动态手势由空间外观和运动两方面特征共同表示，因此本发明在决策层融合两者进行识别分类。具体地，对于每个通道的数据，得到输入相对各类别的概率，并通过实验获得两个通道的相对可信概率，最后基于两个通道的可信概率和类别概率的乘积和的最大值进行分类。

系统框架如图2所示。

本发明提出的双通道3D-2D RBM模型方法的具体步骤表示为：

训练阶段：

(1)针对输入的多组动态手势视频数据，分别进行计算光流特征提取处理和Canny算子去边缘处理；为了使得两通道的3D数据的结构保持一致，对于同一组手势视频数据，本方法要求光流之后的动态手势帧与Canny之后的帧数一致；

(2)对于光流和Canny处理后得到的全部视频中的每一帧手动提取矩阵形式MxS大小的2D HOG特征，得到FLOW-HOG和Canny-HOG双通道特征，定义训练数据中每个手势动作视频用T帧描述，那么一个视频动作的每个通道特征可以表示为TxMxS的3阶张量形式；

(3)将大小为TxMxS的FLOW-HOG特征和Canny-HOG特征分别输入到3D-2D RBM模型中进行训练，通过不断的调整参数各自训练出最优的3D-2D RBM模型；

(4)以训练好的3D-2D RBM初始化NN，NN的输入和隐层节点数对应3D-2D RBM的输入和输出的向量化的维度。3D-2D RBM模型的三个矩阵形式的权重参数的克罗内克积作为NN网络的输入到隐层权重参数的初始值，之后通过反向传播算法不断调节NN网络参数来进行分类。

测试阶段：

(1)与训练阶段(1)(2)一样，首先对测试数据进行同样的光流和Canny算子的处理。

(2)对于每个T帧的光流视频序列和Canny算子视频序列，分别提取每一帧为M*S大小的HOG特征。

(3)依次串联每个视频序列中的所有帧的特征，得到维度为T*M*S大小的向量，这样，每个视频数据都可以用T*M*S大小的向量特征表示；

(4)对于每个通道的数据，分别输入到NN网络后，都会有一个相对各类别的概率大小，本发明设置两个通道的可信概率分别为0.5，然后基于融合后的概率来进行动态手势分类。

实施例1：

上述方法在公开的剑桥手势数据集上进行实验，证明提出的3D-2D RBM模型的可行性以及对于动态手势识别的有效性。下面将阐述实验数据、实验方案以及实验结果。

实验数据：

该实验所用到的数据库为剑桥动态手势库。剑桥动态手势库由900个视频动作组成，共分为9类，其中每一类为100个视频动作。在五种不同的光照环境下，9种不同的动作序列不断重复组成了所有的视频样本。数据库被标记为Set1、Set2、Set3、Set4和Set5总共5个子集，每个Set里包含360个视频样本。(每类40个样本，每个样本为20帧)。该实验使用Set5作为训练，其余用作测试集。图3展示了五种不同的光照，图4展示了9类不同的动态手势动作。

实验方案及结果：

为了验证3D-2D RBM模型的预训练性能，本发明分别进行了如下实验：HOG-RBM-NN,HOG-MVRBM-NN和HOG-3D-2D RBM–NN实验。基于HOG-RBM-NN模型，对于每个手势序列中的每一帧，我们提取96维的HOG特征，然后把每个视频样本的20帧HOG特征拼接成20*96＝1920维的HOG特征，把它作为RBM的输入。不断调节模型参数使结果达到最好。就HOG-MVRBM-NN而言，同样地，提取每一帧为96维的HOG特征，然后根据视频帧数进行对齐，我们把形成的特征矩阵作为MVRBM的输入。就HOG-3D-2D RBM-NN模型来说，对样本中的每一帧提取矩阵形式的HOG特征，这里，我们提取4x24维的HOG矩阵。然后，把大小为4x24x20的视频手势作为3D-2DRBM模型的输入。三个实验都是在实验数据进行Canny算子处理完成后进行的。可以看出，3D-2D RBM能更好地保留结构信息特性，因而有相对RBM和MVRBM更好的识别性能。

表2基于RBM变体的单通道手势识别准确率对比

为了验证双通道3D-2D RBM-NN模型的性能，本发明进行了与双通道MVRBM-NN以及上述单通道HOG-3D-2D RBM-NN的对比实验。就双通道3D-2D RBM-NN来说，首先分别对剑桥手势数据进行Canny算子处理和光流处理，由于光流处理之后每一个样本中的帧数都减少为18帧，为了保持两个通道的一致性，将其扩充为与Canny一样的20帧。然后对样本中的每一帧提取矩阵形式的HOG特征，这里，我们提取4x24维的HOG矩阵。最后，把大小为4x24x20的视频手势作为3D-2D RBM模型的输入。通过大量的实验，我们确定3D-2D RBM模型参数设置当学习率为0.05，权重惩罚项为0.1，动量为0.5，批处理大小为10，迭代次数为50时，结果最好。经过不断的测试，最终我们设置两个通道的可信概率为0.5。

双通道MVRBM-NN模型的实现同上类似，不同的是，提取的是1D的HOG和光流HOG特征，然后逐行拼接成矩阵，最后输入到MVRBM-NN进行训练。最优参数设置为：隐层节点数4x4，学习率0.05，权重惩罚项0.01，动量0.5，批处理大小100，迭代次数10。两个通道融合的可信概率通过实验测试定为0.5。根据表3可以知道，双通道3D-2D RBM-NN模型的分类结果更好。

表3双通道手势识别的准确率评价