CN106991372B

CN106991372B - 一种基于混合深度学习模型的动态手势识别方法

Info

Publication number: CN106991372B
Application number: CN201710120922.XA
Authority: CN
Inventors: 施云惠; 淮华瑞; 李敬华; 王立春; 孔德慧; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-03-02
Filing date: 2017-03-02
Publication date: 2020-08-28
Anticipated expiration: 2037-03-02
Also published as: CN106991372A

Abstract

本发明公开一种基于混合深度学习模型的动态手势识别方法包括：训练阶段，首先基于构成手势视频的图像集训练CNN，然后利用训练好的CNN逐帧提取动态手势视频序列每帧的空间特征；对待识别的每个手势视频序列，将CNN学习到的各帧级特征按时间顺序组织成矩阵；把该矩阵输入到MVRBM以学习融合时空属性的手势动作时空特征；引入具有判别性的NN；即把MVRBM看作NN模型参数的预训练过程，把MVRBM学到的网络权值和偏置作为NN的权值和偏置的初值，并通过反向传播算法微调NN权值和偏置；测试阶段，同样基于CNN逐帧提取动态手势视频序列每帧特征并拼接，输入前述训练好的NN进行手势识。采用本发明的技术方案，实现对3D动态手势视频序列的有效时空表示。

Description

一种基于混合深度学习模型的动态手势识别方法

技术领域

本发明属于计算机视觉与机器学习领域，具体地涉及一种基于混合深度学习模型的动态手势识别方法。

背景技术

手势识别在可视交流、人机交互、增强现实等领域有重要应用。不过由于手势的复杂多变性以及光照、个体变化等因素影响，手势识别研究仍是一个具有挑战性的问题。基于视觉的手势识别通常包括特征提取和分类器设计两个方面。常用分类器包括神经网络(NN)、隐马尔可夫模型(HMM)等。手势特征表示方法通常包括：手形、手部重心位置、矩特征、尺度不变特征变换(Scale-invariant feature transform，SIFT)特征，方向梯度直方图(Histogram of Oriented Gradient,HOG)特征等。但人工选取的特征通常需要先验知识，而且有不能自适应数据等局限性。近来，深度学习方法在图像特征提取及分类识别领域有很好的优势。深度学习的一个典型模型是受限玻尔兹曼机(Restricted BoltzmannMachine，RBM)，它是面向向量数据输入输出的概率模型。对于2D，3D等高维数据，显然向量化的操作会破坏2D图像，3D视频等的内部结构，导致损失了结构中隐藏的交互信息，在传统基于向量变量的受限玻尔兹曼机研究基础上，齐光磊等针对图像等高维数据提出了基于矩阵变量的受限波尔兹曼机(Matrix Variable Restricted Boltzmann Machine，MVRBM)，该模型能够更好地建模2D数据，不过RBM以及MVRBM模型都是无监督的。在深度学习领域，另一个广受关注的模型是卷积神经网络(Convolutional Neural Network,CNN)，CNN已被成功应用于定位、检测以及识别分类等各图像分析与理解领域，也有方法基于CNN以及其变体3DCNN建模视频序列的时间轴进行视频分类，这是一个困难而复杂的任务，模型参数大、难以训练，并且要求训练数据多。

发明内容

本发明提供一种动态手势识别方法，该发明面向动态手势识别问题，利用CNN和MVRBM的优势，设计了一种基于CNN-MVRBM混合模型预训练NN模型的方法。该方法整合了CNN对图像的表达能力以及MVRBM对2D信号的降维表示及预训练能力,从而一方面实现了对3D动态手势视频序列的有效时空表示，另一方面提升了传统NN的识别性能。

为实现上述目的，本发明采用如下的技术方案：

一种基于混合深度学习模型的动态手势识别方法，包括以下步骤：

训练阶段：

1.1、针对输入的动态手势视频，首先基于Canny边缘检测进行去光照预处理；

1.2、基于全部视频所包含的预处理后的手势静态图像训练CNN模型；

1.3、定义训练数据中每个手势动作视频用T帧描述，接着将预处理好的手势视频T帧序列图像逐一地输入到CNN中，提取视频序列每一帧的特征；

1.4、假定基于CNN提取的每一帧图像的特征为M维，对每个待识别的手势动作视频单元，按时间顺序逐行顺次排列这些图像帧特征，这样，一个视频动作的特征可以表示为T行M列的矩阵形式；

1.5、将大小为TxM的视频特征输入到MVRBM模型中进行训练，通过不断的调整参数训练出最优的MVRBM模型；

1.6、此时所有的预训练阶段已经结束，接下来建模NNet，NNet的输入和隐层节点数对应MVRBM的输入和输出矩阵的向量化的维度，MVRBM模型的权重参数作为NNet网络的输入到隐层权重参数的初始值，MVRBM的输入向量化作为NNet的输入，然后通过反向传播算法不断调节NNet网络参数使得手势识别的误差最小；

测试阶段：

2.1、同样地，与训练阶段(1.1)(1.2)(1.3)步骤一样，对测试数据进行处理，即对每个T帧的视频序列，提取每一帧M维的特征；

2.2、依次串联每个视频序列中的所有帧的特征，得到维度为T*M大小的向量，这样，每个视频数据都可以用T*M大小的向量特征表示；

2.3、将(2.2)中向量作为训练好的NNet网络的输入，进行测试及分类。

作为优选，基于矩阵变量玻尔兹曼机(MVRBM)的时空建模过程如下：

首先定义了MVRBM相应的能量函数：

其中，V＝[v_ij]是二进制可见层矩阵变量，对应20×64的手势时空二维表示，H＝[h_kl]是二进制隐藏层矩阵变量，对应提取出的手势时空特征，假设独立变量v_ij和h_kl从{0,1}中取值；

为模型参数变量，权重

是连接可见层V和隐藏层H的四阶张量参数，B＝[b_ij]和C＝[C_kl]分别是可见层和隐藏层的偏置矩阵；

为了减少自由参数的数量和节省计算复杂度，假定可见层单元和隐藏层单元的连接权值有如下关系：w_ijkl＝x_kiylj，通过两个新的矩阵X＝[x_ki]∈R^K×I和Y＝[y_lj]∈R^L×J,可以把能量函数(1)改写为如下形式，

E(V，H；θ)＝-tr(X^THYV^T)-tr(V^TB)-tr(H^TC) (2)

其中，矩阵X和Y共同定义了输入矩阵V和隐含矩阵H的连接权,这样，Θ中的自由参数减少为I×K+K×L+L×J+J×I个，基于公式(2)，V和H的联合分布概率为：

其中，Θ表示所有的模型参数X，Y，B和C，归一化常量Z(Θ)定义为：

Z(θ)＝∑_{X∈x，Y∈y} exp{-E(X，Y；Θ)} (4)假定手势图像样本集D＝{E₁，...，E_N}，根据公式(3)样本集D的对数似然函数为：

MVRBM的具体训练过程如下：

(1.1)、定义矩阵型训练手势图像样本集D＝{E₁，...，E_N}，最大迭代次数Z，动量系数γ，学习率α，权值正则项β，每组训练样本数，CD算法K步；

(1.2)、随机初始化模型参数变量X和Y，令偏置变量B＝C＝0，随机梯度ΔX＝ΔY＝ΔB＝ΔC＝0；

(1.3)、迭代步数z＝1→Z进行；

(1.4)、随机将D＝{E₁，...，E_N}分成M组D₁...D_M，大小为b；

(1.5)、组m＝1→M进行；

(1.6)、对所有手势图像样本数据在当前模型参数下进行吉布斯采样V⁽⁰⁾＝v∈D_m；

(1.7)、k＝0→K-1进行；

(1.8)根据公式(5)对手势图像样本H^(k)进行采样

(1.9)根据公式(6)对手势图像样本V^(k)进行采样

(1.10)根据公式(7)进行梯度的更新

(1.11)根据公式θ＝θ+Δθ更新模型参数θ∈Θ；

(1.12)结束。

附图说明

图1、CNN-MVRBM-NN模型的训练过程；

图2、CNN-MVRBM-NN模型的测试过程

图3、CNN模型的示意图；

图4、九种不同的动态手势序列的示意图；

图5、图4的五种不同的光照示意图。

具体实施方式

本发明实施例提供一种动态手势识别方法，该发明面向动态手势识别问题，利用CNN和MVRBM的优势，设计了一种基于CNN-MVRBM混合模型预训练NN模型的方法。该方法整合了CNN对图像的表达能力以及MVRBM对2D信号的降维表示及预训练能力,从而一方面实现了对3D动态手势视频序列的有效时空表示，另一方面提升了传统NN的识别性能。

CNN-MVRBM-NN混合深度学习模型包括训练和测试两个阶段。训练阶段，综合了CNN有效的图像特征提取能力，MVRBM对2D信号的建模能力，以及NN的有监督分类特性。识别阶段，基于前述训练好的CNN和NN模型，可有效进行动态手势识别。具体地，训练阶段，首先基于构成手势视频的图像集训练CNN，然后利用训练好的CNN逐帧提取动态手势视频序列每帧的空间特征；接下来，对待识别的每个手势视频序列，将CNN学习到的各帧级特征按时间顺序组织成矩阵；进一步地，把该矩阵输入到MVRBM以学习融合时空属性的手势动作时空特征。不过由于MVRBM模型是无监督的，我们引入具有判别性的NN；即把MVRBM看作NN模型参数的预训练过程，把MVRBM学到的网络权值和偏置作为NN的权值和偏置的初值，并通过反向传播算法微调NN权值和偏置。NN模型的构建依赖于MVRBM，即NN的输入和隐层节点大小对应MVRBM的向量化的输入和输出节点数。NN的输入数据源于向量化的MVRBM的输入。测试阶段，同样基于CNN逐帧提取动态手势视频序列每帧特征并拼接，输入前述训练好的NN进行手势识别。我们所提出的方法在剑桥手势数据集上的测试表明，其具有非常好的动态手势识别率。

手势是一种三维空间动作，基于视频的动态手势序列由一帧帧的图像序列表示。一种最直接的想法就是首先提取视频序列的每一帧特征，然后建模各序列帧的时间属性。所以，本发明首先基于在图像特征表示领域广受推崇的CNN进行单帧特征提取。为了基于CNN进行单帧特征提取，我们首先基于组成视频序列的所有手势图像训练CNN模型。对于待识别的手势视频单元，经过CNN获得每一帧特征后，为了进一步建模时间属性，我们引入MVRBM，即把CNN获得的各帧特征按时间顺序逐行叠加排列成矩阵从而获得一个2D的表示。在此生成的矩阵中，行数表示时间维度，列数表示每帧的空间特征维度。我们将该矩阵表征的手势时空特征输入到MVRBM，进一步提取动态手势的高层语义特征，这样融合的CNN-MVRBM可表示动态手势序列的时空特征。为了使生成式的MVRBM模型对于动态手势特征具有判别能力，我们加入了NNet网络。新的混合模型CNN-MVRBM-NN可更好地训练动态手势特征，该特征也更有判别性，更易于对动态手势视频进行识别。

本发明的步骤如下：

训练阶段(如图1所示)：

(1)针对输入的动态手势视频，首先基于Canny边缘检测进行去光照预处理；

(2)基于全部视频所包含的预处理后的手势静态图像训练CNN模型；

(3)定义训练数据中每个手势动作视频用T帧描述，接着将预处理好的手势视频T帧序列图像逐一地输入到CNN中，提取视频序列每一帧的特征；

(4)假定基于CNN提取的每一帧图像的特征为M维，对每个待识别的手势动作视频单元，按时间顺序逐行顺次排列这些图像帧特征，这样，一个视频动作的特征可以表示为T行M列的矩阵形式；

(5)将大小为TxM的视频特征输入到MVRBM模型中进行训练，通过不断的调整参数训练出最优的MVRBM模型；

(6)此时所有的预训练阶段已经结束。接下来建模NNet，NNet的输入和隐层节点数对应MVRBM的输入和输出矩阵的向量化的维度。MVRBM模型的权重参数作为NNet网络的输入到隐层权重参数的初始值，MVRBM的输入向量化作为NNet的输入，然后通过反向传播算法不断调节NNet网络参数使得手势识别的误差最小。

测试阶段(如图2所示)：

(1)同样地，与训练阶段(1)(2)(3)步骤一样，对测试数据进行处理，即对每个T帧的视频序列，提取每一帧M维的特征；

(2)依次串联每个视频序列中的所有帧的特征，得到维度为T*M大小的向量，这样，每个视频数据都可以用T*M大小的向量特征表示；

(3)将(2)中向量作为训练好的NNet网络的输入，进行测试及分类。

CNN-MVRBM-NN混合模型中的每一步的具体建模过程如下：1、基于卷积神经网络模型(CNN)的单层空间特征提取

为了更好地表示手势的单帧空间特征，本文引入了卷积神经网络模型。一般来说，卷积神经网络的底层是卷积层和下采样层的交替，用于提取局部特征，顶层是一个全链接层，表示全局和高质量的语义特征。本发明采用的卷积神经网络模型结构类似于2012年ImageNet比赛上Hinton团队所用的卷积神经网络模型，主要由五层卷积层、三层最大池化层、两层全连接层和一层分类层(softmax层)组成。模型采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。在此架构模型的基础上，结合手势的特点，对模型参数进行了调整(如图3所示)，包括CNN卷积核的核大小、步长参数和全连接层节点数。我们经过实验验证64维更能表示手形的特征。最终，我们用训练好的CNN提取动态手势序列中每一帧的特征，就每个视频而言，我们选择20帧来表示该动作序列，因此，每个动态手势视频由20个64维的特征向量来表示。

2、基于矩阵变量玻尔兹曼机(MVRBM)的时空建模

MVRBM是经典RBM的延伸，其模型变量是矩阵形式，用来描述二维变量之间的依赖关系。MVRBM是通过能量函数定义可见层及隐藏层的联合分布及可见层的边缘分布的，因此，我们首先定义了MVRBM相应的能量函数：

其中，V＝[v_ij]是二进制可见层矩阵变量，对应前述的20×64的手势时空二维表示，H＝[h_kl]是二进制隐藏层矩阵变量，对应进一步提取出的手势时空特征，简单起见，假设独立变量v_ij和h_kl从{0,1}中取值；

为模型参数变量，权重

是连接可见层V和隐藏层H的四阶张量参数，B＝[b_ij]和C＝[c_kl]分别是可见层和隐藏层的偏置矩阵。

因为模型的参数变量Θ中一共有I×J×K×L+I×J+K×L个自由参数。即使在I，J，K，L很小时,Θ也将是一个很大的数，这样就会需要大量的训练样本和很长的时间。为了减少自由参数的数量和节省计算复杂度，假定可见层单元和隐藏层单元的连接权值有如下关系：W_ijkl＝X_kiy_lj。即通过两个新的二阶矩阵参数变量X＝[x_ki]∈R^K×I和Y＝[y_lj]∈R^L×J来表示上述的四阶张量参数

因此可以把能量函数(1)改写为如下形式，

E(V，H；θ)＝-tr(X^THYV^T)-tr(V^TB)-tr(H^TC) (2)其中，矩阵X和Y共同定义了输入矩阵V和隐含矩阵H的连接权,这样，Θ中的自由参数减少为I×K+K×L+L×J+J×I个。基于公式(2)，V和H的联合分布概率为：

其中，Θ表示所有的模型参数X,Y,B和C，归一化常量Z(Θ)定义为:

Z(Θ)＝∑_{X∈x，Y∈y} exp{-E(X，y；Θ)} (4)

假定手势图像样本集D＝{E₁,...,E_N}，根据公式(3)样本集D的对数似然函数为：

MVRBM的具体训练过程如下：

(1.1)、定义矩阵型训练手势图像样本集D＝{E₁,...,E_N},最大迭代次数Z，动量系数γ，学习率α，权值正则项β，每组训练样本数，CD算法K步；

(1.3)、迭代步数z＝1→Z进行；

(1.4)、随机将D＝{E₁,...,E_N}分成M组D₁...D_M，大小为b；

(1.5)、组m＝1→M进行；

(1.7)、k＝0→K-1进行；

(1.8)根据公式(5)对手势图像样本H^(k)进行采样

(1.9)根据公式(6)对手势图像样本V^(k)进行采样

(1.10)根据公式(7)进行梯度的更新

(1.11)根据公式θ＝θ+Δθ更新模型参数θ∈Θ；

(1.12)结束。

3、神经网络(NNet)的训练和分类

前述MVRBM模型是生成式模型，即它是一种无监督的模型。为了使它对于动态手势特征具有判别能力，我们引入了经过MVRBM预训练的NNet(Nerual network)进行特征的学习和分类。NNet包括模型设计和初始化两个过程。我们设计NNet模型包括一个输入层，一个隐层和一个输出层。模型的输入节点数对应MVRBM的可视层矩阵向量化后的维度，模型的隐层节点数对应MVRBM的隐藏层矩阵向量化后的维度。NNet的初始化也是基于MVRBM的输入和MVRBM模型的权重和偏置，也就是说，NNet的输入层为MVRBM输入层节点数据的向量化，NNet中输入到隐层的权重为MVRBM中权重参数X和Y进行两个矩阵的Kronecker乘积运算后得到的矩阵值。NNet的输出节点数量为被分类的手势视频数据的类别数。我们设置它的非线性激活函数为tanh_opt，初始动量参数为0.5，学习率为2，softmax为它的分类器。在NNet模型中用反向传播算法(Backpropagation)进行参数的更新以及权值的调节。通过不断的调节参数使训练数据的分类误差变小，最后用训练好的模型进行测试和分类。

上述方法在公开的剑桥手势数据集上进行验证，旨在评估所提出的方法对动态手势识别的鲁棒性。未来评估所提出的CNN-MVRBM-NN模型性能并了解不同参数对CNN-MVRBM-NN的影响，我们进行了一系列的实验。如下将阐述实验数据、实验方案以及实验结果。

数据库：

该实验所用到的数据库为剑桥动态手势库。如图4、5所示，剑桥动态手势库由900个视频动作组成，共分为9类，其中每一类为100个视频动作。在五种不同的光照环境下，9种不同的动作序列不断重复组成了所有的视频样本。数据库被标记为set1、set2、set3、set4和set5总共5个子集，每个set里包含180个视频样本。(每类20个样本)。我们使用set5作为训练，其余用作测试集。

实验1：MVRBM预训练的性能评价

为了验证基于MVRBM进行NNet预训练的重要性以及优势，我们设计了如下三个对比实验，依次是没有预训练的NNet，基于RBM预训练的NNet以及基于MVRBM预训练的NNet，实验结果对比如表1所示。可以看出有预训练的NNet模型的性能远高于没有预训练的NNet模型的性能，同时我们也看出，基于MVRBM预训练的NNet的性能高于基于RBM进行预训练的性能。

表1三种实验对比结果

Method	Set1	Set2	Set3	Set4	Total
						CNN-NN	84.17％	86.94％	90.56％	93.89％	88.89+3.67％
CNN-RBM-NN	96.39％	91.94％	97.50％	96.11％	95.49+2.44％
						CNN-MVRBM—NN	99.17％	95.00％	98.89％	98.06％	97.78+1.91％

三个实验的具体设计实现如下：

实验1.1：首先测试NNet没有预训练情况下的性能，即直接把CNN提取的手势视频各帧特征串联组合作为NNet的输入进行训练，即CNN-NN实验。训练好的CNN提取的每帧特征为64维，累计20帧视频表征一个手势语义，因此拼接后的手势特征为20x64＝1280维，因此设定NNet模型的输入层大小为1280，通过多次实验验证隐层大小为100时NNet模型效果最佳，输出层大小为9，输出层维度对应手势的类别数。另外，当迭代次数为100，批大小的数量为50时，效果最好。

实验1.2：测试以RBM预训练NNet得到的CNN-RBM-NN模型的性能。由于RBM是面向向量变量的，因此基于训练好的CNN模型提取手势视频各帧特征后，串联序列帧特征，输入到RBM模型进行预训练。RBM的可见层节点数对应输入手势视频特征的维度，即20*64＝1280，隐层节点数对RBM的性能有很大影响，表2展示了具有不同隐藏层节点数的RBM预训练对识别结果的影响以及在不同数据set里最好识别结果。训练时，我们固定迭代次数为100次，批大小数量为10。

表2不同的RBM隐层节点数对手势识别性能的影响

实验1.3：测试基于CNN-MVRBM预训练的NNet性能。对于CNN-MVRBM-NN，我们通过已训练好的CNN提取64维的单帧特征，用20帧的特征来表示一个动态手势序列。也就是说，用20x64的矩阵特征作为MVRBM的输入。经实验验证，MVRBM模型的最佳参数设置如下：固定动量系数为0.5，学习率为0.05，批大小为100，权重初始化设为0.01。另外，隐藏节点的数量和训练的迭代次数对识别结果有影响。因此，我们做了两种实验来进行验证，第一个固定隐藏节点的大小为4X4，而迭代次数由50到250进行变化。第二个是固定迭代次数为200，而改变隐层的大小。大量的实验结果表明，隐层的大小为方阵时会比为矩阵时的效果好，迭代次数为200次，隐藏层的大小为4X4时效果最好。

实验2：CNN特征优于预定义特征

在新模型上，为了验证基于CNN提取的特征优于传统的HOG和SIFT特征，我们分别进行了如下实验：HOG-MVRBM-NN,SIFT-HOG-MVRBM-NN和CNN-MVRBM-NN。对于每个手势序列中的每一帧，我们提取96维的HOG特征，然后根据视频帧数进行对齐，最终，我们把形成的特征矩阵作为MVRBM的输入。类似的，我们同样提取9维HOG和50维SIFT融合成59维的向量特征来表示单帧。上面两个基本的提特征方法都是基于已预处理好的图像，在所有实验里，没有特殊说明，所有的方法都是用已经过canny算子处理过的数据。根据表3可以知道，CNN-MVRBM-NN模型的特征表示和分类结果优于其它手动提特征的方法。结果如表3所示：

表3三种实验对比结果

在动态剑桥手势库上，我们的模型CNN-MVRBM-NN也与其他基线方法进行了对比，结果均优于它们。具体结果展示如表4所示。

表4剑桥手势库上的实验对比

Method	Set1	Set2	Set3	Set4	Total
						TCCA	81.00％	81.00％	78.00％	86.00％	81.50+3.32％
PM	93.00％	89.00％	91.00％	94.00％	91.75+2.22％
						kgLLC	96.00％	94.00％	96.00％	98.00％	96.00+1.63％
CNN-HMM	83.00％	80.00％	82.00％	85.00％	82.50+2.08％
						CNN-MVRBM-NN	99.17％	95.00％	98.89％	98.06％	97.78+1.91％

为了验证我们提出的方法，我们也实验了two-stream CNN用于手势识别，为了提高two-stream CNN模型的识别率，我们融合了图像空间和视频序列的光流空间特征，而不是原来的包含光流的原始单帧图像。结果表明该模型也具有很高的识别率，但是依旧低于我们的CNN-MVRBM-NN方法。结果展示如表5所示。

表5 Two stream CNN与CNN-MVRBM-NN的实验对比

Method	Set1	Set2	Set3	Set4	Total
						Two stream CNN	96.67％	87.78％	92.78％	95.00％	93.06+3.86％
CNN-MVRBM-NN	99.17％	95.00％	98.89％	98.06％	97.78+1.91％

Claims

1.一种基于混合深度学习模型的动态手势识别方法，其特征在于，包括以下步骤：

训练阶段：

测试阶段：

2.如权利要求1所述的基于混合深度学习模型的动态手势识别方法，其特征在于，基于矩阵变量玻尔兹曼机(MVRBM)的时空建模过程如下：

首先定义了MVRBM相应的能量函数：

其中，V＝[v_ij]是二进制可见层矩阵变量，对应20×64的手势时空二维表示，H＝[h_kl]是二进制隐藏层矩阵变量，对应提取出的手势时空特征，假设独立变量v_ij和h_kl从{0，1}中取值；Θ＝{ω，B，C}为模型参数变量，权重ω＝[w_ijkl]是连接二进制可见层矩阵变量V和隐藏层H的四阶张量参数，B＝[b_ij]和C＝[C_kl]分别是可见层和隐藏层的偏置矩阵；

为了减少自由参数的数量和节省计算复杂度，假定可见层单元和隐藏层单元的连接权值有如下关系：w_ijkl＝x_kiy_lj，通过两个新的矩阵X＝[x_ki]∈R^K×I和Y＝[y_lj]∈R^L×J，可以把能量函数(1)改写为如下形式，

E(V，H；θ)＝-tr(X^THYV^T)-tr(V^TB)-tr(H^TC) (2)

其中，矩阵X和Y共同定义了二进制可见层矩阵变量V和隐含矩阵H的连接权，这样，Θ中的自由参数减少为I×K+K×L+L×J+J×I个，基于公式(2)，V和H的联合分布概率为：