CN104966093A

CN104966093A - 一种基于深度神经网络的动态纹理识别方法

Info

Publication number: CN104966093A
Application number: CN201510268336.0A
Authority: CN
Inventors: 王勇; 罗新斌
Original assignee: Sharp Ferroelectric Gas Science And Technology Ltd Of Suzhou Jade-Like Stone
Current assignee: Sharp Ferroelectric Gas Science And Technology Ltd Of Suzhou Jade-Like Stone
Priority date: 2015-05-25
Filing date: 2015-05-25
Publication date: 2015-10-07

Abstract

本发明公开了一种基于深度神经网络的动态纹理识别方法，该方法从每个像素时间序列里面抽取混沌特征；用k均值量化得到最初的代码本，并用PMI方法来表示这些代码本之间的关系；通过深度神经学习来有效的建立中层特征之间的语义联系；利用k均值聚类算法来得到高层特征，该基于深度神经网络的动态纹理识别方法，能够有效识别外表或者形状相似的视频词特征，防止忽略同时出现的统计特性与视频的联系。

Description

一种基于深度神经网络的动态纹理识别方法

技术领域

本发明涉及的是一种计算机模式识别技术领域的分类方法，具体地说，涉及的是一种基于深度神经网络的动态纹理识别方法。

背景技术

传统模式识别中，解决动态纹理识别的问题主要是集中在提取底层特征上，通过提取底层特征来刻画某一类动态纹理。底层特征主要是得到动态纹理的运动流特征。文献(R.Peteri，and D.Chetverikov，Dynamic Texture Recognition Using Normal Flow and Texture Regularity，In Proc.Iberian Conference on Pattern Recognition and Image Analysis(IbPRIA 2005)，Estoril，Portugal，2005，pp.223-230.)提出的方法是根据正则流和纹理的规律来提取特征。文献(S.Fazekas，and D.Chetverikov，Normal Versus Complete Flow in Dynamic Texture Recognition：A Comparative Study，Texture 2005：4th International Workshop on Texture Analysis and Synthesis，Beijing，2005，pp.37-42.)里面给出了8种特征来描述动态纹理识别里面的光流特征的运动性能。文献(A.Fournier and W.Reeves，A simple model of ocean waves，in Proc.of ACM SIGGRAPH，1986，pp.75-84.)里面提出了合成海洋表面和波浪的形状的动态纹理的模型。文献(M.Szummer and R.W.Picard，Temporal texture modeling，in Proc.of the Ihternational Conference on Image Processing，vol.3，1996.)里面给出了一个基于时空模型的线性组合来描述每个像素和它的临近像素。这些方法的缺点在于这种模型只能描述某种具体的动态纹理的物理过程，而不能描述大量的动态纹理。

基于底层特征的这种缺陷，为了能够描述大量的动态纹理，最近提出了中层特征。和底层特征不同，中层特征用的是词袋模型这种基于统计学习的框架。这种模型是将底层特征映射到中层特征。因此，这种方法可以克服一定的底层特征带来的缺点，如动态纹理的视角和尺度变化。

最近，通过引入中层特征来表示动态纹理取得了显著进展。文本分析里面的主题模型，如probabilistic latent semantic analysis(pLSA)和Latent Dirichlet Allocation(LDA)模型，通过隐含主题的混合分布来表示一个文本，具有一定的语义特征。逐点互信息(pointwise Mutual Information(PMI))是互信息的扩展，并且成功用于信息索引里面来抓取中层信息之间的联系。类似的特征具有很高的同时出现的联系，这是中层特征可以建模的依据。在文献(A.Ravichandran，R.Chaudhry，and R.Vidal.Categorizing Dynamic Textures using a Bag of Dynamical Systems，IEEE Transactions on Pattern Analysis and Machine Intelligence(PAMI)，2012.)中，词袋模型用来对动态纹理识别。中层特征基于统计学习在大数据上面取得了很好的实验效果。

然而，这些视频词特征是因为外表或者形状相似性而产生的，忽略了同时出现的统计特性和视频的联系。改进这种缺点的一个很重要的方向是探索这些特征的语义相似性并且得到高层特征表示。这个可以通过层次聚类方法来实现，视频词特征之间的距离和他们在视频中同时出现有联系。

数十年前，人工神经网络发展起来，并且可以通过学习得到很多特征模型。然而，单隐含层神经网络不能适应训练大数据。最近，深度神经网络引起了很多研究，如数字识别，物体识别，语音识别等等。深度神经网络的优点在于它能同时优化特征的判别性和生成性性质，使得特征能够具有很好的判别性能力。从另一个角度来理解这种高层特征产生的过程就是层次聚类步骤。也就是嵌入特征空间，即不同层次的特征，需要用不同的距离来比较特征。深度神经网络比主成分分析(principal component analysis(PCA))和局部线性嵌入(Locally Linear Embedding(LLE))具有更好的降维特性。

深度神经网络主要集中在数字识别，人脸识别和语音识别。在文献(Hinton，G.E.，Osindero，S.and Teh，Y.，A fast learning algorithm for deep belief nets.Neural Computation 18：1527-1554，2006.)里提出了一种有效地训练深度神经网络的算法。将每层用一个受限波尔茨曼机来训练，将前一层的输出作为输入。这种算法很好的用在了数字识别中。在文献(Mohamed，A.，Dahl，G.E.and Hinton，G.E.Acoustic Modeling using Deep Belief Networks.IEEE Trans.on Audio，Speech，and Language Processing.)里深度神经网络通过一种产生式模型来取代传统的混合高斯模型来对电话语音识别，并且比传统方法更好。在文献(Ranzato，M.，Susskind，J.，Mnih，V.and Hinton，G.On deep generative models with applications to recognition.IEEE Conference on Computer Vision and Pattern Recognition.)里像素值看做一个门限随机马尔科夫场来得到一个图像的产生式模型。这种模型比以往的通过产生高分辨率图像得到的人脸表情识别率更高。

有鉴于上述的缺陷，本设计人，积极加以研究创新，以期创设一种基于深度神经网络的动态纹理识别方法，使其更具有产业上的利用价值。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于深度神经网络的动态纹理识别方法，能够有效识别外表或者形状相似的视频词特征，防止忽略同时出现的统计特性与视频的联系。

一种基于深度神经网络的动态纹理识别方法，其特征在于：包括以下步骤：

步骤1：对训练视频中的每个像素时间序列计算混沌特征及相关特征，并将所有特征组成混沌特征向量，所述视频的每个像素点位置由所述特征向量来表示，所有特征向量组成所述训练视频的特征向量矩阵；

步骤2：用k均值来产生最初的代码本：将所有训练的特征向量矩阵中的特征向量，用欧式距离来得到k个聚类中心，形成代码本；

步骤3：给定若干个训练视频，产生一个视频代码词频率矩阵H，其中每行向量h代表一个视频，每列代表一个代码词，通过所述代码词之间的相似性估计出每列向量之间的距离以及每列向量表示代码词在视频中的分布，然后将每个代码词频率通过逐点互信息转换，通过视频和代码词之间的逐点互信息表示代码词和训练数据的分布；

步骤4：通过深度神经网络进行动态纹理识别，具体包括以下步骤；

步骤4.1：深度神经网络首先通过多层的模型训练得到一组具有表示性能的特征，然后通过后向传播来对参数进行调整，得到预测类别的模型；

步骤4.2：在训练阶段，通过训练原始特征得到一种语义特征，所有的训练和测试视频通过语义特征直方图来表示，动态纹理识别模型通过支持向量机 (Support Vector Machine(SVM))来学习得到，输入为语义特征的直方图，在测试阶段，给出一个位置的视频表示为一个词袋模型，然后通过训练的SVM来识别。

进一步的，步骤2中所述的k均值量化通过PMI计算方法来表示所述代码本之间的关系。

进一步的，步骤4.1中所述深度神经网络共有四层，每层用受限玻尔兹曼机表示，通过深度神经网络来建立中层特征之间的语义联系。

进一步的，步骤4.2中利用k均值聚类算法来得到测试视频的高层语义特征

借由上述方案，本发明至少具有以下优点：通过深度神经网络能同时优化特征的判别性和生成性性质，使得特征能够具有很好的判别性能力，利用深度神经网络建立的模型比以往的通过产生高分辨率图像得到的识别率更高，从而能够有效识别外表或者形状相似的视频词特征，防止忽略同时出现的统计特性与视频的联系；本发明可应用于人脸识别、军事目标跟踪识别系统等各类民用及军用系统中。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本发明实施例的流程图；

图2为本发明动态纹理识别的流程图；

图3为BP神经网络图

图4为RBM结构示意图；

图5为UCLA数据库图；

图6为UCLA-8数据库的混淆矩阵图；

图7为代码本对识别UCLA-8数据库的识别率的影响图；

图8为UCLA-9数据库的混淆矩阵图；

图9代码本对识别UCLA-9数据库的识别率的影响图；

图10为UCLA-8数据库和UCLA-9数据库的混淆矩阵图；

图11为不同的降维方法对UCLA-8数据库的识别率；

图12为不同的降维方法对UCLA-9数据库的识别率。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在讲述本发明算法步骤前，首先简要介绍逐点互信息算法和深度神经网络算法，如下所示：

逐点互信息算法：

表示动态纹理的高层次特征不仅要表示动态纹理的表面和形状相似性，更重要的是获取动态纹理之间的统计特征。然而，仅仅量化中层特征是不够的。因为外表或者形状特征不具有语义特性。给一个训练数据集，如果要得到两个代码词之间的具有语义特性的度量，可以粗略比较中层特征在数据库里面出现的分布。逐点互信息就是用来度量这种联系的量，并且已经用在了文本分析里面。在文本分析里面，逐点互信息可以得到大量文本的集合，实验也表明逐点互信息可以比隐含语义分析更好的得到高层特征。

逐点互信息用于计算两个特征之间的关系。它可以用来比较代码词在代码本中的共现概率和两个代码词的独立出现概率。这样可以估计两个代码词之间存在的内在联系。逐点互信息的公式如下：

p m i (x, y) = \log \frac{p (x, y)}{p (x) p (y)} - - - (1)

其中，x，y分别属于X，Y，p(x，y)是联合概率分布。逐点互信息为两个概率分布之间的相关程度提供了一种度量，即：

p(x，y)＞0，代表x和y相关；

p(x，y)＝0，代表x和y相互独立；

p(x，y)＜0，代表x和y不相关；

在本发明中，我们用的逐点互信息套入公式如下：

p m i (v_{i}, d_{j}) = \log \frac{p (v_{i}, d_{j})}{p (v_{i}) p (d_{j})} - - - (2)

其中，v_i代表代码词，p(v_i)代表视频中某个代码词出现的比率，p(d_j)代表视频中文本j中出现代码词的数目占语料库中全部代码词的比率，p(v_i，d_j)代表文本j中代码词i出现的数目占语料库中全部代码词的比率。

深度神经网络：

深度神经网络训练算法的核心是首先对每层看作成受限波尔茨曼机并且初始化权值。前一层的受限波尔茨曼机的激励当作更高层的受限波尔茨曼机的输入。对每个受限波尔茨曼机，隐含层之间具有很强的联系。在中层特征中，设置多个受限玻尔兹曼机可以很好的得到语义特征。

受限玻尔兹曼机包含可见层和隐含层。它的连接特点是：层内无连接，层间全连接。如果把神经元当作顶点，神经元之间的连接当作边，则受限玻尔茨曼机可以看作是一个二分图。其中，n_v，n_h分别表示可见层和隐含层中包含的神经元的数目，下标v，h分别代表可见层(visible)和隐含层(hidden)。表示可见层的状态向量，v_i代表可见层第i个神经元的状态。表表示隐含层的状态向量，h_j代表隐含层第j个神经元的状态。表示可见层的状态向量，a_i代表可见层第i个神经元的偏置。表示隐含层的状态向量，b_j代表隐含层第j个神经元的状态。表示可见层和隐含层之间的权值矩阵，w_ij表示隐含层第i个神经元和可见层第j个神经元之间的连接权重。

对于可见层v和隐含层h的能量函数可以表示为：

E (v, h) = - Σ_{i = 1}^{n_{v}} a_{i} v_{i} - Σ_{j = 1}^{n_{h}} b_{j} h_{j} - Σ_{i = 1}^{n_{v}} Σ_{j = 1}^{n_{h}} h_{j} w_{j i} v_{i} - - - (3)

上式的矩阵形式可表示为

E(v，h)＝-a^Tv-b^Th-h^TWv (4)

由上面的能量函数(4)，可以得到可见层v和隐含层h的联合概率分布p(v，h)表示为：

p (v, h) = \frac{1}{z} e^{- E (v, h)} - - - (5)

其中Z是所有可见层和隐含层能量之和，即：

Z＝∑_v，he^-E(v，h) (6)

可见层向量v的概率分布p(v)表示为：

p (v) = \frac{1}{z} Σ_{h} e^{- E (v, h)} - - - (7)

同样，隐含层h的概率分布p(h)表示为：

p (h) = \frac{1}{z} Σ_{v} e^{- E (v, h)} - - - (8)

当给一个可见节点的训练向量，第j个隐含层节点的激活概率表示为：

p((h_j＝1)|v)＝σ(b_j+∑_jv_iw_ij) (9)

其中σ是logistic sigmoid函数，σ(x)＝1/(1+exp(-x))，v_i，h_j是无偏采样。

同样的，可见节点的激活概率为：

p((v_i＝1)|h)＝σ(a_i+∑_jh_jw_ij) (10)

各部分具体实施细节如下：

混沌特征向量：

几何特征对动态纹理识别很重要。分形维数是一个很适用于描述时间序列几何特征的量。本发明中，我们用分形维数来描述视频。

嵌入时间时延和嵌入维数：

嵌入是将一维空间x(t)＝[x₁(t)，x₂(t)，…，x_n(t)]∈Rⁿ映射到多维空间：

X = (\begin{matrix} x_{0} & x_{τ} & ... & x_{(m - 1) τ} \\ x_{1} & x_{τ + 1} & ... & x_{(m - 1) τ + 1} \\ x_{2} & x_{τ + 2} & ... & x_{(m - 1) τ + 2} \\ ... & ... & ... & ... \end{matrix}) - - - (11)

这里，τ表示嵌入时间延迟，m表示嵌入维数。

信息维数可以表示成：

D_{i} = \lim_{&Element; &RightArrow; 0} \frac{I (ϵ)}{\ln ϵ}, - - - (12)

像素时间序列的平均值(mean)对识别也很重要，所以我们的特征向量是：F＝{τ，m，Id，，mean}。给一个W*L*T的视频，W，L和T分别是视频宽度，长度和时间长度。对每个时间序列计算混沌特征，并组成特征向量，用来表示每个像素时间序列。

词袋模型：

在词袋模型里面，一个视频可以表示为代码词出现的频率的直方图。同样可以表示每个视频为代码词出现频率的直方图如下：

h(d)＝(h_i(d))_i＝1...N，with h_i(d)＝n(d，v_i) (13)

其中n(d，v_i)表示特征v_i在视频d里面出现的次数。因为这个生成的直方图仅仅考虑了特征出现的次数，所以这种表示是一种中层特征表示。

逐点互信息：

训练集表示为其中n是训练个数，M表示代码本的大小。Tr是一个N*M的矩阵，表示视频-代码词的概率。对每个直方图h_i，它表示特征向量的聚类中心在训练集上的分布。因此，Tr是一个表示聚类中心的相似性。概率p(v_i)和p(d_j)的边缘分布可以通过相应矩阵Tr行和列的求和来得到。然后一个新的视频-词矩阵就得到了，每个值都是逐点互信息。这个新的矩阵反应的是代码词在训练集上的分布。

深度神经网络：

受限玻尔兹曼机学习算法如下：

受限玻尔兹曼机的学习算法的目的是为了得到参数θ的值，来拟合学习样本。本发明用基于对比散度(Contrastive Divergence，CD)法来对受限玻尔兹曼机学习，这是一个快速学习算法。首先，对一个训练样本数据，将可见层单元的初始的初始状态设置为这个样本数据，初始化权重矩阵W，a，b。根据公式(9)来更新隐含层状态变量p((h_j＝1)|v)。这里面的v_i和h_j的状态都是取{0，1}。然后根据公式(10)来计算可见层p((v_i＝1)|h)。

最后，更新各个参数。

Δw_ij＝∈(<v_ih_j>_data-<v_ih_j>_model) (14)

其中∈是学习速率。

实验数据采用UCLA8，UCLA9数据库：

UCLA数据库含有9中不同的动态纹理。图5显示了这9种动态纹理，它们是沸水，火，花，喷泉，植物，海水，烟雾，水和瀑布，括弧中的数字代表动态纹理个数。由于植物个数很多，去掉植物类别之后，可以得到UCLA-8数据库。这两种数据库是用来测试动态纹理对视角和尺度变化的。

深度神经网络共有四层，每层用受限玻尔兹曼机表示。低层特征设置为100到1000。深度神经网络的映射设为30，高层特征的k-均值设为50。

图6中的a给出了对UCLA-8数据，用像素时间序列作为特征的混淆矩阵，识别率是66.96％。图6中的b给出了用混沌特征向量得到的混淆矩阵，识别率为85.65％。在图6中，火和花，烟雾和海水容易识别错误。从这组实验可以看出，用混沌特征向量的识别比用像素时间序列更好。

代码本的大小对识别率也会有影响，见图7。其中带“□”的线代表以混沌特征向量作为特征，带“+”的线代表以像素时间序列作为特征。其中，横坐标代表代码本的大小，纵坐标代表识别率。

图8中的a给出了对UCLA-9数据，用像素时间序列作为特征的混淆矩阵，识别率是74.67％。图8中的b给出了用混沌特征向量得到的混淆矩阵，识别率为92.67％。从这组实验可以看出，用混沌特征向量的识别比用像素时间序列更好。

代码本的大小对识别率也会有影响，见图9。其中，横坐标代表代码本的大小，纵坐标代表识别率。图中带“□”的线代表以混沌特征向量作为特征，带“+”的线代表以像素时间序列作为特征。

因为高层语义特征是通过k-均值聚类中层特征得到的。另一种方法来显示深度神经网络的有效性的途径是比较通过中层特征学习得到的高层特征和原来的中层特征的识别率。中层特征在UCLA-8数据库和UCLA-9数据库的识别率分别表示在图10中的a和b。分别比较图6和图10，图8和图10，可以看到高层语义特征得到的识别率比中层特征的高1％到7％。中层特征对UCLA-8数据库和UCLA-9数据库得到的识别率分别是84.78％和89.3％。通过对图10中a和b的对比，可以知道用混沌特征向量得到的识别率比用像素时间序列得到的识别率要高。

其它常用的降维方法如主成分分析(PCA)，Isomap，局部线性嵌入(local linear embedding，LLE)和线性判别式分析(Linear Discriminant Analysis，LDA)在本节来做比较。在所有的试验中，中层特征降维到30，k-均值也设为30。

主成分分析是一个线性降维的方法，它是将数据嵌入到线性低维空间。Isomap是对数据建立领域图，将领域数据考虑其中，并且保持数据之间测地的距离。局部线性嵌入和Isomap类似，也是建立图模型，它是保持数据之间的欧式距离。线性判别式分析是让向量能够对异类有很好的区分度。

主成分分析和线性判别式分析针对的分别是数据的均值和方差。他们的共同缺陷是对非线性数据无效。Isomap的弱点是对瑞士卷类型的数据很好。

从图11和图12可以看出，深度神经网络比上述方法的识别率要高1％到10％。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于深度神经网络的动态纹理识别方法，其特征在于：包括以下步骤：

步骤4.2：在训练阶段，通过训练原始特征得到一种语义特征，所有的训练和测试视频通过语义特征直方图来表示，动态纹理识别模型通过支持向量机(Support Vector Machine(SVM))来学习得到，输入为语义特征的直方图，在测试阶段，给出一个位置的视频表示为一个词袋模型，然后通过训练的SVM来识别。

2.根据权利要求1所述的一种基于深度神经网络的动态纹理识别方法，其特征在于：步骤2中所述的k均值量化通过PMI计算方法来表示所述代码本之间的关系。

3.根据权利要求2所述的一种基于深度神经网络的动态纹理识别方法，其特征在于：步骤4.1中所述深度神经网络共有四层，每层用受限玻尔兹曼机表示，通过深度神经网络来建立中层特征之间的语义联系。

4.根据权利要求1所述的一种基于深度神经网络的动态纹理识别方法，其特征在于：步骤4.2中利用k均值聚类算法来得到测试视频的高层语义特征。