CN107528824A

CN107528824A - 一种基于二维度稀疏化的深度信念网络入侵检测方法

Info

Publication number: CN107528824A
Application number: CN201710534587.8A
Authority: CN
Inventors: 周杰英; 杨诗珺; 邱荣发; 刘映淋
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2017-12-29
Anticipated expiration: 2037-07-03
Also published as: CN107528824B

Abstract

本发明涉及一种基于二维度稀疏化的深度信念网络入侵检测方法，包括：稀疏化数据集的第一维度稀疏化方法和稀疏化隐层单元的第二维度稀疏化方法。第一维度稀疏化是指对输入训练数据进行稀疏判断并将数据集转换为稀疏数据集；第二维度稀疏化是指通过对RBM隐层单元进行余弦相似度分组并且在训练RBM的目标函数中引入分组稀疏惩罚项来迫使隐层单元从数据中学习到不同的特征。将训练好的RBM堆叠成DBN形成一种新的二维稀疏化深度信念网路，并将其用于入侵检测系统。本方法同时考虑到数据集稀疏化程度和特征同质化对RBM训练的影响，使优化后的DBN用于入侵检测系统具有更高的准确率和更低的误检率，且能够提高检测的效率。

Description

一种基于二维度稀疏化的深度信念网络入侵检测方法

技术领域

本发明涉及入侵检测网络安全领域，特别涉及一种基于二维度稀疏化的深度信念网络入侵检测方法

背景技术

入侵检测技术是对企图入侵，正在进行入侵或是已经发生的入侵行为进行识别，其本质是对大量的攻击数据进行威胁分析，以往的研究有在入侵检测中引入机器学习的方法并取得了突破性的进展。但是由于传统的机器学习方法大都是浅层学习，并不适用于海量数据的分析。因此设计出一个面向海量数据的高效入侵检测系统是一个亟待解决的问题。

深度信念网络(DBN)是由多个受限玻尔兹曼机(RBM)堆叠而成，以模拟人脑的多层结构为原理的深度学习网络模型。它可以从具体的高维，非线性数据抽取维数较低的特征，是一个强大的生成模型，通过逐层训练的RBM可以发现数据的深层结构信息，所以是解决入侵检测速度慢和分类性能低的一种极有前景的方法。

传统的RBM训练并没有充分考虑到算法的性能受到数据集稀疏性的影响，导致稀疏化层度不同的数据在算法的性能上存在较大的差异。并且RBM在训练过程中由于学习到的特征过于相似，表现在模型链接权值的相似度过高，导致训练后的隐层单元并不是完全独立的，进而出现特征同质化化的现象。目前常用的方法是在训练过程中添加惩罚因子来调节隐层单元的稀疏性，但是却没有提出有效的惩罚方案来降低隐层单元学习到相同特征的概率。

发明内容

本发明为克服上述现有技术的至少一种缺陷(不足)，提出了一种基于二维度稀疏化的深度信念网络入侵检测方法，此方法从输入数据集稀疏化和隐层单元稀疏化两个维度来改进现有的RBM算法，构成改进的深度信念网络；将其应用到入侵检测系统中相比以往的入侵检测技术具有更高的准确率和更低的误检率，且能够提高检测的效率。

为达到上述目的，本发明的技术方案具体为：

一种基于二维度稀疏化的深度信念网络入侵检测方法，包括以下步骤：

第一步，对训练数据集进行第一维度稀疏化，根据定义的稀疏系数对输入数据集进行判定，若为稠密数据集则将其数值反转为稀疏数据集，否则保留原训练数据集不变，将经过第一维度稀疏化后数据集称为稀疏化数据集；

将训练数据集的稀疏系数定义为s：

其中，表示第n个训练样本的第m维数值，其中训练样本数据值N表示训练样本的数目，V表示训练样本的维度。定义一个稀疏性阈值对于归一化到[0,1]之间的数据通常选取当时将训练数据集定义为稠密数据集，并可通过数值反转实现训练数据集的稀疏化；当时定义为稀疏数据集，并保持不变。定义训练样本数据值x_i的第一维度稀疏化表达z_i为：

其中为预设的稀疏度阈值；

令常数则

此时记为稀疏化数据集中的一个样本数据，其中V为样本的维度，也即是第一层RBM可视层的节点个数，用初始化第一层RBM的可视层

第二步，将稀疏化数据集里的第一个样本作为DBN第一层RBM可视层的输入特征变量，进行RBM训练后根据该层RBM连接权值的列对隐层单元进行相似度分组，完成第二维度稀疏化。

第一次训练用正态分布初始化权值矩阵，可视层和隐层的偏置均初始化为0，本方法训练RBM时采用基于对比散度的快速学习算法(CD算法)，当初始化RBM可视层的节点后仅需要K(一般K＝1)步吉布斯采样就可以很好地重构可视层数据。即首先由原始可视单元映射到隐层单元其次由隐层单元重构为新的可视单元再次由新的可视单元映射为新的隐层单元为调节隐层单元的稀疏性，利用此时RBM连接权值的列对隐层单元进行相似度分组，完成第二维度稀疏化。

第二维度稀疏化方法为：RBM连接权值的列向量对应于隐层单元，而隐层单元状态即是学习到的特征，进而将不同特征之间的相似度转化为连接权值矩阵的列向量之间的相似度，根据相似度对隐层单元进行分组即是对连接权值矩阵列向量进行相似度分组，分组步骤为：

1)任意选取连接权值的一列j，如果对应的隐层单元没有参与分组，则计算j列与连接权值矩阵其他i列的相似度，记为S_j-i；

2)比较分组参数β与S_j-i的大小，如果S_j-i≥β则在连接权值矩阵中的i列和j列就合并为一组，否则不合并；

3)重复上述两个过程，直到连接权值矩阵中的所有列向量分组完毕。

定义余弦相似度S_j-i：

其中m表示可视层单元个数，即权值矩阵的行数，n表示隐层单元个数，即权值矩阵的列数，W_.j、W_.i分别表示权值矩阵中的第j列和第i列，ω_kj表示第j列的第k个元素，ω_k表示第列的第k个元素。

分组参数定义为权值矩阵的列平均相关系数，n为权值矩阵列向量数，有下式：

对隐层单元的相似度分组实际上是通过正则化的方法惩罚组内隐单元的总体激活层度，是组内隐单元的学习过程不再条件独立，保证组内隐单元的相关性，迫使隐单元从训练数据中学习到不同的特征。引入分组稀疏惩罚项为：

其中T为隐层单元分组的个数，G_t为第t个隐层单元组的单元个数，为对可视层单元状态的第t个隐层单元组激活概率的二范数，而则为T个隐层单元组激活概率的一范数。

第三步，在该层RBM的隐层，利用带惩罚项的似然函数作为RBM的训练目标函数，先用CD快速学习方法计算极大似然假设梯度，再对分组稀疏惩罚项进行梯度下降直到参数收敛，并更新该层RBM模型参数θ；

更新为：

其中λ为分组稀疏惩罚系数，μ表示学习率；以上是用来初始化第一层RBM的可视层的稀疏化数据集中的样本。z_i ⁽⁰⁾表示初始化时第一层RBM可视层单元状态，z_i ⁽¹⁾为经过CD快速学习算法后重构的可视层单元状态。

第四步，再按顺序依次输入稀疏化数据集中的其他样本，按照第二步、第三步的步骤训练RBM，直到训练完所有的样本，并且达到最大训练周期，此时第一层RBM训练结束。当充分训练完第一层RBM后需要将隐层偏置更新为：其中是第一维度稀疏化数据集后的常数项。

第五步，充分训练第一层RBM后，固定第一层RBM的权重和偏移量，然后将其隐层节点的状态作为第二层RBM可视层的节点向量，训练该层RBM，训练完成后根据该层RBM连接权值的列对隐层单元进行相似度分组，再根据第三步的方法更新该层RBM模型参数，直到充分训练第二层RBM后将其堆叠在第一层RBM的上方。

更新除第一层RBM以外的模型参数为：

同样的，μ表示学习率，λ为分组稀疏惩罚系数。此时是将上一层RBM隐层节点的状态作为下一层RBM可视层的节点向量，所以与更新第一层RBM相比，差别在于只需进行第二维度稀疏化，并将RBM可视层单元状态重新用来表示。

第六步，固定第二层RBM的权重和偏移量，采用与第五步相同的方式训练第三层RBM，并堆叠在第二层的上方，采用同样的方式对其它层RBM进行处理，直至训练到第L-1层RBM；初始化第L层RBM的模型参数，用数据的标签值作为输出层，利用softmax多分类器对学习到的特征多分类，使用BP算法对模型参数进行微调，最终形成一个训练好的二维度稀疏化DBN深度学习训练模型。

第七步，将测试数据输入到已建立好的二维度稀疏化DBN深度学习训练模型中，进行快速学习并得到每条测试数据的入侵类别。

通过从输入数据稀疏化和隐层单元稀疏化两个维度同时对RBM算法进行改进，更大规模并且更全面的更新RBM模型参数，使得RBM学习到更有效的特征，有效降低了特征值同化的现象，提高分类质量。将其应用到入侵检测系统更能准确地识别出入侵类别。

相对于现有技术，本发明具有如下优点和有益效果：

该二维度稀疏化算法充分考虑到算法的性能受到数据集稀疏性的影响并且克服RBM在训练过程中由于学习到的特征过于相似的缺点，考虑到先进行第一维度稀疏化处理即对输入数据集进行稀疏化处理，再在每一层RBM算法加入分组稀疏化惩罚项来进行第二维度稀疏化。经过对RBM算法稀疏化优化能够有效降低特征质同化的影响，学习到更有效的特征。这既能考虑到了数据集稀疏性的影响，又能够实现对RBM内部结构单元的稀疏化。降低了数据间的相关性从而抑制模型的过拟合现象，提高系统的鲁棒性，为提高入侵检测准确率提供一种有效途径。用优化后的算法来训练RBM并构成DBN模型，将训练好的DBN模型用于入侵检测，具有更高的准确率和更低的误检率，且能够提高检测的效率。

附图说明

图1为二维度稀疏化训练第一层RBM的流程图。

图2为堆叠稀疏化RBM训练整个DBN的流程图。

具体实现方式

附图仅用于示例性说明，不能理解为对本专利的限制，为了更好说明本实施例，附图某些分会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域的技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实例对本发明的技术方案做进一步说明。

第一步，将预处理后的NSL-KDD数据集分为训练数据集和测试数据集，将训练数据集进行第一维度稀疏化，根据定义的稀疏系数对输入数据集进行判定，若为稠密数据集则将其数值反转为稀疏数据集，否则保留原训练数据集不变，将经过第一维度稀疏化后数据集称为稀疏化数据集；

将训练数据集的稀疏系数定义为s：

其中，表示第n个训练样本的第m维数值，NSL-KDD数据集经过符号特征数值化和归一化的预处理操作后分出训练数据集，其中训练样本数据值N表示训练样本的数目，V表示训练样本的维度。定义一个稀疏性阈值对于归一化到[0,1]之间的数据通常选取当时将训练数据集定义为稠密数据集，并可通过数值反转实现训练数据集的稀疏化；当时定义为稀疏数据集，并保持不变。定义训练样本数据值x_i的第一维度稀疏化表达z_i为：

其中是预设的稀疏度阈值；

令常数则

根据经过第一维度稀疏化后的样本数据，RBM的能量函数变为：

其中为需要训练模型参数，V是可视层单元个数，H是隐层单元个数，W是RBM的权值矩阵，是RBM可视层偏置，为RBM隐层偏置。

采用sigmoid函数作为激活函数，在给定可视层节点状态的情况下，第j个隐层节点的激活的概率为：

同样地，第j个可视层节点的激活概率为：

将式(3)带入式(4)得到经过第一维度稀疏化后RBM的能量函数变为：

相似度S_j-i用欧式距离来定义：

分组参数定义为权值矩阵的列平均相关系数即：

更新为：

ω_ij＝ω_ij+Δ₁ω_ij+Δ₂ω_ij (11)

a_i＝a_i+Δ₁a_i+Δ₂a_i (12)

b_j＝b_j+Δ₁b_j+Δ₂b_j (13)

其中：

以上为为根据CD算法得到的更新参数，其中μ为学习率。接下来用经过CD快速训练得到的隐层单元状态进行第二维度稀疏化，并利用分组稀疏惩罚项进行梯度下降直到收敛来再一次更新模型参数，如下：

Δ₂a_i＝0 (18)

其中，表示的是第一次输入RBM可视层单元状态，是经过CD快速学习算法重构后的可视层单元的状态。

综上，每一个样本经过二维度稀疏化RBM后参数更新为：

其中λ为分组稀疏惩罚系数；以上是用来初始化第一层RBM的可视层的稀疏化数据集中的样本。

第四步，再按顺序依次输入稀疏化数据集中的其他样本，按照第二步、第三步的步骤训练RBM，直到训练完所有的样本，并且达到最大训练周期，此时第一层RBM训练结束。当充分训练完第一层RBM后需要将隐层偏置更新为：其中是第一维度稀疏化数据集后的常数项；设置每一层RBM都有相同最大训练周期，可设为30，并且每一层RBM都有相同的学习率μ＝0.05，整个过程如图1所示。

更新除第一层RBM以外的模型参数为：

同样的，μ表示学习率，λ为分组稀疏惩罚系数；此时是将上一层RBM隐层节点的状态作为下一层RBM可视层的节点向量，所以与更新第一层RBM相比，差别在于只需进行第二维度稀疏化，并将RBM可视层单元状态重新用来表示。

用BP算法对模型参数进行微调时可令训练周期为300，并且微调算法的学习率设为0.05。以上整个过程如图2所示。

本发明提出了一种基于二维度稀疏化的深度信念网络入侵检测方法，通过从输入数据稀疏化和隐层单元稀疏化两个维度同时对RBM算法进行改进，更大规模并且更全面的更新RBM参数模型，使得RBM学习到更有效的特征，有效克服了特征同质化的现象，提高分类质量，将其应用到入侵检测系统更能准确地识别出入侵类别。显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于二维度稀疏化的深度信念网络入侵检测方法，其特征在于，主要包括以下几个步骤：

步骤一，对训练数据集进行第一维度稀疏化，根据定义的稀疏系数对输入数据集进行判定，若为稠密数据集则将其数值反转为稀疏数据集，否则保留原训练数据集不变，将经过第一维度稀疏化后的数据集称为稀疏化数据集；

步骤二，将稀疏化数据集里的第一个样本作为DBN第一层RBM可视层的输入特征变量，进行RBM训练后根据该层RBM连接权值的列对隐层单元进行相似度分组，完成第二维度稀疏化；

步骤三，在该层RBM的隐层，利用带惩罚项的似然函数作为RBM的训练目标函数，先用CD快速学习方法计算极大似然假设梯度，再对分组稀疏惩罚项进行梯度下降直到参数收敛，并更新该层RBM模型参数θ；

步骤四，再按顺序依次输入稀疏化数据集中的其他样本，按照第二步、第三步的步骤训练RBM，直到训练完所有的样本，并且达到最大训练周期，此时第一层RBM训练结束；

步骤五，充分训练第一层RBM后，固定第一层RBM的权重和偏移量，然后将其隐层节点的状态作为第二层RBM可视层的节点向量，训练该层RBM，训练完成后根据该层RBM连接权值的列对隐层单元进行相似度分组，再根据步骤三的方法更新该层RBM模型参数，直到充分训练第二层RBM后将其堆叠在第一层RBM的上方；

步骤六，固定第二层RBM的权重和偏移量，采用与第五步相同的方式训练第三层RBM，并堆叠在第二层的上方，采用同样的方式对其它层RBM进行处理，直至训练到第L-1层RBM；初始化第L层RBM的模型参数，用数据的标签值作为输出层，利用softmax多分类器对学习到的特征多分类，使用BP算法对模型参数进行微调，最终形成一个训练好的二维度稀疏化DBN深度学习训练模型；

步骤七，将测试数据输入到已建立好的二维度稀疏化DBN深度学习训练模型中，进行快速学习并得到每条测试数据的入侵类别。

2.根据权利要求1所述方法，其特征在于，步骤一的第一维度稀疏化过程为：将训练数据集的稀疏系数定义为s：

<mrow> <mi>s</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>N</mi> <mo>&CenterDot;</mo> <mi>V</mi> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>V</mi> </munderover> <msubsup> <mi>x</mi> <mi>m</mi> <mi>n</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中，表示第n个训练样本的第m维数值，定义训练样本数据值x_i的第一维度稀疏化表达z_i为：

<mrow> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mo>&GreaterEqual;</mo> <mover> <mi>s</mi> <mo>&OverBar;</mo> </mover> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mo><</mo> <mover> <mi>s</mi> <mo>&OverBar;</mo> </mover> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

其中为预设的稀疏性阈值；

令常数则

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>z</mi> <mi>i</mi> </msub> <mo>=</mo> <mrow> <mo>(</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>-</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>-</mo> <mover> <mi>s</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mo>-</mo> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>-</mo> <mover> <mi>s</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>+</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mo>(</mo> <mrow> <mi>s</mi> <mo>-</mo> <mover> <mi>s</mi> <mo>&OverBar;</mo> </mover> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>-</mo> <mover> <mi>s</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>+</mo> <mi>C</mi> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

此时记为稀疏化数据集中的一个样本数据，其中V为样本的维度，也即第一层RBM可视层的节点个数，用初始化第一层RBM的可视层

3.根据权利要求1所述方法，其特征在于，步骤二的相似度分组及第二维度稀疏化方法为：RBM连接权值的列向量对应于隐层单元，而隐层单元状态是学习到的特征，进而将不同特征之间的相似度转化为连接权值矩阵的列向量之间的相似度，根据相似度对隐层单元进行分组即是对连接权值矩阵列向量进行相似度分组，分组步骤为：

2)比较分组参数β与S_j-i的大小，如果S_j-i≥β则连接权值矩阵中的i列和j列就合并为一组，否则不合并；

3)重复上述两个过程，直到连接权值矩阵中的所有列向量分组完毕；

对隐层单元的相似度分组实际上是通过正则化的方法惩罚组内隐单元的总体激活层度，使组内隐单元的学习过程不再条件独立，保证组内隐单元的相关性，迫使隐单元从训练数据中学习到不同的特征；引入分组稀疏惩罚项为：

<mrow> <msub> <mi>P</mi> <mrow> <msub> <mi>L</mi> <mn>1</mn> </msub> <mo>&CenterDot;</mo> <msub> <mi>L</mi> <mn>2</mn> </msub> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msup> <mrow> <mo>{</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>G</mi> <mi>t</mi> </msub> </munderover> <msup> <mrow> <mo>&lsqb;</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <mover> <mi>z</mi> <mo>&RightArrow;</mo> </mover> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> <mo>}</mo> </mrow> <mrow> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

4.根据权利要求3所述方法，其特征在于，相似度及分组参数定义为：

余弦相似度S_j-i：

<mrow> <msub> <mi>S</mi> <mrow> <mi>j</mi> <mo>-</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>W</mi> <mrow> <mo>.</mo> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>W</mi> <mrow> <mo>.</mo> <mi>i</mi> </mrow> </msub> <mo>|</mo> <msub> <mo>|</mo> <mi>cos</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>&omega;</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>&omega;</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msup> <msub> <mi>&omega;</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mn>2</mn> </msup> </mrow> </msqrt> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msup> <msub> <mi>&omega;</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> <mo>,</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>n</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中m表示可视层单元个数，即权值矩阵的行数，n表示隐层单元个数，即权值矩阵的列数，W_.j、W_.i分别表示权值矩阵中的第j列和第i列，ω_kj表示第j列的第k个元素，ω_ik表示第i列的第k个元素；

<mrow> <mi>&beta;</mi> <mo>=</mo> <mfrac> <mn>2</mn> <mrow> <mi>n</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>S</mi> <mrow> <mi>j</mi> <mo>-</mo> <mi>i</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

5.根据权利要求1所述方法，其特征在于，所述步骤三的RBM模型参数更新为：

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>&omega;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>&omega;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mi>&mu;</mi> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <mover> <mi>s</mi> <mo>&OverBar;</mo> </mover> <mo>-</mo> <mi>s</mi> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mi>p</mi> <mo>(</mo> <mrow> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mover> <mi>z</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msup> </mrow> <mo>)</mo> <msup> <msub> <mi>z</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msup> <mo>-</mo> <mi>p</mi> <mo>(</mo> <mrow> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mover> <mi>z</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> </mrow> <mo>)</mo> <msup> <msub> <mi>z</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <mi>&lambda;</mi> <mfrac> <mn>1</mn> <msup> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>G</mi> <mi>t</mi> </msub> </munderover> <mi>P</mi> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>h</mi> <mi>n</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mover> <mi>z</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mrow> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msup> </mfrac> <mi>P</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mover> <mi>z</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>0</mn> <mo>|</mo> <msup> <mover> <mi>z</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msup> <mrow> <mo>(</mo> <msup> <mover> <mi>z</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mi>T</mi> </msup> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>+</mo> <mi>&mu;</mi> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <mover> <mi>s</mi> <mo>&OverBar;</mo> </mover> <mo>-</mo> <mi>s</mi> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msubsup> <mi>z</mi> <mi>i</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <msubsup> <mi>z</mi> <mi>i</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>=</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>+</mo> <mi>&mu;</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>(</mo> <mrow> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mover> <mi>z</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msup> </mrow> <mo>)</mo> <mo>-</mo> <mi>p</mi> <mo>(</mo> <mrow> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mover> <mi>z</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>&lambda;</mi> <mfrac> <mn>1</mn> <msup> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>G</mi> <mi>t</mi> </msub> </munderover> <mi>P</mi> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>h</mi> <mi>n</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <mover> <mi>z</mi> <mo>&RightArrow;</mo> </mover> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mrow> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msup> </mfrac> <mi>P</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mover> <mi>z</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>0</mn> <mo>|</mo> <msup> <mover> <mi>z</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

其中λ为分组稀疏惩罚系数，μ为学习率；以上是用来初始化第一层RBM的可视层的稀疏化数据集中的样本，z_i ⁽⁰⁾表示初始化时第一层RBM可视层单元状态，z_i ⁽¹⁾为经过CD快速学习算法后重构的可视层单元状态。

6.根据权利要求1所述方法，其特征在于，步骤四中当充分训练完第一层RBM后需要将隐层偏置更新为：其中是对数据集进行第一维度稀疏化后得到的常数项。

7.根据权利要求1所述方法，其特征在于，步骤五中更新除第一层RBM以外的模型参数为：

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>&omega;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>&omega;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mi>&mu;</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>(</mo> <mrow> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msup> </mrow> <mo>)</mo> <msup> <msub> <mi>v</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msup> <mo>-</mo> <mi>p</mi> <mo>(</mo> <mrow> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> </mrow> <mo>)</mo> <msup> <msub> <mi>v</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <mi>&lambda;</mi> <mfrac> <mn>1</mn> <msup> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>G</mi> <mi>t</mi> </msub> </munderover> <mi>P</mi> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>h</mi> <mi>n</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mrow> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msup> </mfrac> <mi>P</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>0</mn> <mo>|</mo> <msup> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msup> <mrow> <mo>(</mo> <msup> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mi>T</mi> </msup> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>=</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>+</mo> <mi>&mu;</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>(</mo> <mrow> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msup> </mrow> <mo>)</mo> <mo>-</mo> <mi>p</mi> <mo>(</mo> <mrow> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>&lambda;</mi> <mfrac> <mn>1</mn> <msup> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>G</mi> <mi>t</mi> </msub> </munderover> <mi>P</mi> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>h</mi> <mi>n</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mrow> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msup> </mfrac> <mi>P</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>0</mn> <mo>|</mo> <msup> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>