CN108304924A

CN108304924A - 一种深度置信网的流水线式预训练方法

Info

Publication number: CN108304924A
Application number: CN201711390483.0A
Authority: CN
Inventors: 马杰; 马志强; 杨双涛
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2018-07-20
Anticipated expiration: 2037-12-21
Also published as: CN108304924B

Abstract

本发明提供了一种基于DNN的蒙古语声学模型的训练方法。用DNN深度神经网络代替GMM高斯混合模型，实现对蒙古语声学状态的后验概率进行估算，构建DNN‑HMM声学模型，并公开了该模型的训练方法。本发明可有效降低词识别的错误率和字识别的错误率，提高模型使用性能。本发明涉及一种深度置信网的流水线式预训练方法，以解决深度置信网逐层训练耗时、效率低的问题。在逐层无监督预训练算法中，采用了堆叠RBM的方式来完成深度神经网络的预训练，在下层隐含层完成全部训练数据的拟合之前，不开始上层隐含层的训练任务的，因为上层隐含层的输入来自于下层隐含层的输出，这就是隐含层间的数据依赖。

Description

一种深度置信网的流水线式预训练方法

技术领域

本发明涉及一种深度置信网的流水线式预训练方法，以解决深度置信网逐层训练耗时、效率低的问题。

背景技术

在采用逐层无监督预训练算法进行深度神经网络初始化过程中，深度神经网络可以看作是一系列隐含层的有序堆叠，每个隐含层通过对其输入进行非线性变化，完成对输入数据的特征提取。然而，逐层无监督预训练算法由于其内在的逐层有序学习过程，每次只能有一个隐含层进行训练学习，即上层的隐含层由于对下层存在着数据依赖，必须等待下层隐含层训练完成后，才能得到输入数据，从而开始自身的训练，因此逐层无监督预训练算法的扩展性受到了很大的限制。随着网络层数、隐含层节点数目的增多以及训练数据的增长，即使采用高性能GPU和高效的优化策略，深度神经网络的训练也极为耗时。

现有技术对加速深度神经网络的训练，主要工作集中在如何利用分布式集群实现深度神经网络的并行化训练，从而提高网络的训练效率。深度神经网络的并行化训练主要分为模型并行和数据并行两类。模型并行表示整个深度神经网络模型分别存储在框架中的机器上，即模型参数被分布式存储在多台机器上，每台机器仅保存和训练一部分模型参数。因此，训练过程中要求模型的各节点间进行大量的通信和同步操作，从而使模型并行策略的效果并不明显。数据并行表示整个深度神经网络的模型参数存储于主节点上，各从节点通过随机的选取训练样本计算梯度从而完成对主节点模型参数的更新较为适合主从式分布式集群，在数据并行策略中。相比模型并行，数据并行更加有效和易于实现。

发明内容

本发明为解决深度置信网逐层训练耗时、效率低的问题，提供了一种深度置信网的流水线式预训练方法。

在逐层无监督预训练算法中，采用了堆叠RBM的方式来完成深度神经网络(DeepBelief Network，DBN)的预训练，在下层隐含层完成全部训练数据的拟合之前，是不会开始上层隐含层的训练任务的，因为上层隐含层的输入来自于下层隐含层的输出，这就是隐含层间的数据依赖。

为了并行化各隐含层的训练，必须为上层隐含层提前找到输入数据。下层隐含层在以RBM的形式进行训练过程中，每读入一个mini-batch的训练数据，均会产生一个相应的mini-batch的中间结果，即附图1中的黑色方块。在流式预训练算法中，这些中间结果便被当作上层隐含层构成的RBM的输入数据，如附图1所示隐含层L1构成的RBM的产生的中间结果便被作为L2构成的RBM的输入数据。在开始上层隐含层的训练前，还需要解决相邻隐含层构成的RBM会共享隐含层的问题，上层RBM的可见层偏执向量初始化问题，在流式预训练算法中是通过对隐含层进行复制解决该问题的，如附图1所示隐含层L1构成的RBM是由输入层和隐含层L1构成的，而L2构成的RBM是由隐含层L2和隐含层L1的复制层构成的。在实际应用中隐含层的复制是很容易实现的，仅仅对隐含层对应的偏执向量进行复制即可。

1.流式预训练学习算法主要完成过程如下：

(1)根据计算节点数目以及网络结构对深度神经网络进行划分。

深度神经网路的划分包括以下两种情况：当计算节点数不小于网络层数时，每个RBM将被分配到某个专属的计算节点上，即每个隐含层将在独有的机器上完成训练任务；否则，会存在相邻RBM分配到相同计算节点的情况，即多个隐含层将在同一台机器上完成训练任务。由于相邻RBM间共享网络层并存在数据依赖，为了实现深度神经网络的分布式划分，需要在相邻RBM间增加一个额外的隐含层，该隐含层是对下层RBM隐含层的复制，即二者的神经单元数、神经单元激励函数均完全相同，且会定时地利用下层RBM隐含层参数对复制的隐含层进行初始化。

(2)完成深度神经网络的分布式划分后，由深度神经网络的底层开始进行预训练。

(3)重复进行过程(2)直到所有的隐含层训练完毕。隐含层训练完毕后，收集各机器节点上的模型参数，便可以开始进行网络模型的调优。

2.流式预训练框架：

流式预训练框架采用主从式集群结构设计，主节点负责实现训练任务初始化、计算资源分配以及网络训练过程中的调度；从节点负责具体的隐含层训练工作以及与其它节点通信。该训练框架采用Python实现，节点间的通信通过socket通信实现的，而各计算节点上RBM的训练是通过Theano实现的。

附图说明

附图1为DBN流式预训练流程图。

附图2为共享隐含层复制过程图。

附图3为深度神经网络分割图。

附图4为N层DBN流式预训练算法训练过程图。

附图5为DBN流式预训练训练框架图。

附图6为DBN流式预训练算法加速情况图。

实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

实施例一：

1.流式预训练学习算法主要完成过程如下：

深度神经网络中共享隐含层的复制过程如附图2所示，附图2中共三个隐含层，其中Lm-1与Lm构成RBMm，Lm与Lm+1构成RBMm+1，由于RBM1与RBM2共享隐含层L1，为了将RBM1与RBM2分发到不同的训练节点，需要对隐含层L1进行复制，得到L1-copy层。此时，L0与L1构成RBM1在M1节点上进行训练，L1-copy与L2构成RBM2在M2机器上进行训练。由于L1-copy层是L1层的拷贝，需要定时地利用L1的参数对L1-copy进行初始化，因此需要不同计算节点间的通信以及参数传递，如附图2中虚线所示。

(2)完成深度神经网络的分布式划分后，由深度神经网络的底层开始进行预训练。附图3便是深度神经网络划分到分布式集群中的情况，原深度神经网络共包含5个隐含层L₁,L₂,L₃,L₄,L₅，如附图3左所示。划分到分布式集群以后的情况如附图3右所示，5个隐含层L₁,L₂,L₃,L₄,L₅分别在5台不同机器M₁,M₂,M₃,M₄,M₅上进行训练。每个隐含层在完成一个最小批量的运算后，将该最小批量在本隐含层上相应的输出以及隐含层的偏执向量一起传递到下个隐含层所在的机器上，如附图3中带箭头虚线所示。最底层的输入层和第一个隐含层L₁构成第一个RBM，即RBM₁。RBM₁首先初始化RBM参数W₁，a₁以及b₁，然后读取一个mini-batch的训练数据作为输入进行训练，该mini-batch的输入数据训练完成后，将产生RBM₁的输出RBM_1-1-out，RBM₁的隐含层L₁的偏执向量也将更新成b_1-1，b_1-1表示第一个隐含层偏执向量经过一个mini-batch后的值。通过跨机器的消息传递将RBM_1-1-out，b_1-1传递到RBM₂所在的机器，RBM₂首次利用b_1-1初始化RBM₂得可见层L_1-copy的偏执向量，然后以RBM_1-1-out作为输入进行训练，经过训练RBM₂将得到输出结果RBM_2-1-out和以及隐含层L₂的偏执向量b_2-1。在流式预训练学习算法中，每个隐含层在完成k个(mini-batch)最小批量后，将生成k个最小批量的输出结果，隐含层的偏执向量也将跟新k次。

用流式预训练算法进行一个N层深度神经网络预训练时，过程如附图4所示：

深度神经网络隐含层依次用L1,L2,…,LN表示，相应地各隐含层对应的RBM依次用R1,R2,…,RN表示。在机器节点足够的情况下，这N个隐含层是在N台机器上并行进行训练的。图中的空白格表示当前RBM完成K个mini-batch训练的过程；带箭头的实线表示当前RBM完成k个mini-batch后，下一轮K个mini-batch训练的开始。带箭头的虚线表示下层RBM在完成k个mini-batch后向上层传递隐含层偏执向量以及RBM输出结果的过程。在预训练的开始阶段，各个隐含层的训练并不是完全并行的，上层隐含层训练相对下层隐含层会存在一个短暂的延迟，因为上层隐含层必须等待下层完成K个mini-batch后才能获得下层隐含层的偏执向量以及输入数据，例如隐含层L2训练的开始必须等待L1完成第一次K个mini-batch的训练(图中L1的第一个空白格)后才能开始，隐含层L2获得隐含层L1的偏执向量以及输入数据(L1指向L2的第一个带箭头的虚线)后才能开始自身的训练。这是流式预训练算法与逐层无监督预训练算法最大的不同点，也是其获得良好加速能力的主要原因。

2.流式预训练框架：

流式预训练框架设计附图5所示，该训练框架采用主从式集群结构设计，主节点负责实现训练任务初始化、计算资源分配以及网络训练过程中的调度；从节点负责具体的隐含层训练工作以及与其它节点通信。该训练框架采用Python实现，节点间的通信通过socket通信实现的，而各计算节点上RBM的训练是通过Theano实现的。

3.实验及结果：

(1)实验环境

由于流式预训练算法是面向分布式集群的分布式训练算法，相关实验需要在本发明所述的流式预训练框架环境下进行，集群环境以及各节点的配置如表1所示：

表1流式预训练框架配置

在进行深度神经网络预训练过程中主要参数设置如表2所示：

表2重要参数设置

(2)实验过程

在得到对齐后的标注特征数据后，本发明首先在Kaldi中完成了4层DNN-HMM模型的训练，并通过查看nnet.config得知各深度神经网络对应的网络结构。在TIMIT实验中，深度神经网络的输入层维度为：40*(5+1+5)＝440，输出层维度是绑定的三音子状态个数1947，隐含层层数为4，各层内节点个数均为1024，激活函数为tanh。

得到各深度神经网络结构后，为避免不同编程语言带来实验结果统计上的误差，本发明将首先采用Theano，并利用逐层无监督预训练算法结合各自训练数据预训练了两个完全相同结构的深度神经网络，并将训练耗时作为实验基准，记为T^G。然后再通过流式预训练框架，并利用流式预训练算法结合各自训练数据再次预训练了两个完全相同结构的深度神经网络，并将训练耗时记为T^P。

在保证预训练深度神经网络模型性能的前提下，通过比较T^G和T^P对算法性能进行评价。预训练深度神经网络模型性能则通过最终语音识别系统的识别准确率来评价。具体做法是：在完成深度神经网络的预训练后，利用预训练深度神经网络的参数初始化Kaldi中的DNN-HMM模型，即DNN-HMM模型训练的主要过程的第8步：利用align-data对ptdnn深度神经网络进行调优，得到网络模型dnn。即利用Theano和流式预训练框架预训练的深度神经网络代替步骤8中的ptdnn。

其中，DNN-HMM的模型的训练方法具体步骤为：

步骤1：进行GMM-HMM蒙古语声学模型训练，得到一个最优的GMM-HMM蒙古语语音识别系统，用gmm-hmm表示。

步骤2：利用维特比解码算法解析gmm-hmm，对gmm-hmm蒙古语声学模型的模型中的每一个senone进行标号，得到senone_id。

步骤3：利用gmm-hmm蒙古语声学模型，将声学状态tri-phone映射到相应的senone_id。

步骤4：利用gmm-hmm蒙古语声学模型初始化DNN-HMM蒙古语声学模型，主要是HMM隐马尔科夫模型参数部分，最终得到dnn-hmm1模型。

步骤5：利用蒙古语声学特征文件预训练DNN深度神经网络，得到ptdnn。

步骤6：使用gmm-hmm蒙古语声学模型，将蒙古语声学特征数据进行状态级别的强制对齐，对齐结果为align-raw。

步骤7：将align-raw的物理状态转换成senone_id，得到帧级别对齐的训练数据align-frame。

步骤8：利用对齐数据align-data对ptdnn深度神经网络进行有监督地微调，得到网络模型dnn。

步骤9：根据最大似然算法，利用dnn重新估计dnn-hmm1中HMM模型的转移概率得到的网络模型用dnn-hmm2表示。

步骤10：如果dnn和dnn-hmm2上测试集识别准确率没有提高，训练结束。否则，使用dnn-hmm2对训练数据再次进行状态级别对齐，然后执行步骤7。

(3)实验及结果

考虑到IMUT310语料库规模过小，本发明仅进行了4隐含层DNN-HMM模型的相关实验，IMUT310的各项实验数据如表3所示。

表3算法对比

由表3可以发现，将Kaldi中的深度神经网络的预训练任务通过Theano或者流式预训练框架，仍能保证最终DNN-HMM声学模型的性能，最终识别率也仅仅是小浮动的波动，可以忽略不计。在Kaldi中完成4隐含层深度神经网络的预训练用时109.5分钟，词识别准确率为25.7％，采用Theano完成4隐含层深度神经网络的预训练，同样采用逐层无监督预训练的情况下用时124.7分钟，并取得了相同的词识别准确率，这是由于Kaldi和Theano采用编程语言以及内部优化情况差异造成的。对比流式预训练算法与Theano平台下逐层无监督预训练算法完成4隐含层深度神经网络预训练的耗时可以发现，在4计算节点的情况下，流式预训练算法在加速比达到3.0，加速效果明显。

在TIMIT语料库实验中，由于数据规模明显多于IMUT310语料库，因此本发明进行了不同隐含层时逐层无监督预训练算法与流式预训练算法的对比实验。TIMIT的各项试验数据统计表4所示：

表4算法对比(TIMIT)

由表4可以发现，随着深度神经网络隐含层层数的增加，系统句识别准确率得到了提升，这也正好验证了本地第四章节声学模型试验的观点。同时，完成深度神经网络所需的时间也明显增加，采用逐层无监督预训练算法完成4隐含层深度神经网络训练需要241.2分钟，而完成6隐含层深度神经网络的训练需要371.9分钟，预训练所需时间增长了130.7分钟。但在流式预训练算法中随着隐含层网络层数的增减，训练所需用时增加不大。采用流式预训练算法完成4隐含层深度神经网络训练需要81.4分钟，完成6隐含层深度神经网络的训练也仅需要84.5分钟，预训练所需时间仅仅增长了3.1分钟。当然，预训练所需时间减少的同时，完成计算所需的机器数量也增加了2台。

由附表4可以得到在不同机器节点数量下流式预训练算法的加速情况，具体如附图6所示。流式预训练算法有着明显的加速效果。在训练一个4隐含层深度神经网络时，使用了4个计算节点，加速比为2.98；在训练一个6隐含层深度神经网络时，使用了6个计算节点，加速比为4.4；算法的并行效率达到了0.74，具体如附图6所示。

Claims

1.一种深度置信网的流水线式预训练方法，其特征在于：

流式预训练学习算法主要完成过程如下：

流式预训练框架：

2.如权利要求1所述的一种深度置信网的流水线式预训练方法，其特征在于：深度神经网路的划分包括以下两种情况：

当计算节点数不小于网络层数时，每个RBM将被分配到某个专属的计算节点上，即每个隐含层将在独有的机器上完成训练任务；否则，会存在相邻RBM分配到相同计算节点的情况，即多个隐含层将在同一台机器上完成训练任务。由于相邻RBM间共享网络层并存在数据依赖，为了实现深度神经网络的分布式划分，需要在相邻RBM间增加一个额外的隐含层，该隐含层是对下层RBM隐含层的复制，即二者的神经单元数、神经单元激励函数均完全相同，且会定时地利用下层RBM隐含层参数对复制的隐含层进行初始化。

3.如权利要求1所述的一种深度置信网的流水线式预训练方法，其特征在于：所述深度神经网络的分布式划分过程为：

原深度神经网络共包含5个隐含层L₁,L₂,L₃,L₄,L₅，分别在5台不同机器M₁,M₂,M₃,M₄,M₅上进行训练。每个隐含层在完成一个最小批量的运算后，将该最小批量在本隐含层上相应的输出以及隐含层的偏执向量一起传递到下个隐含层所在的机器上。最底层的输入层和第一个隐含层L₁构成第一个RBM，即RBM₁。RBM₁首先初始化RBM参数W₁，a₁以及b₁，然后读取一个mini-batch的训练数据作为输入进行训练，该mini-batch的输入数据训练完成后，将产生RBM₁的输出RBM_1-1-out，RBM₁的隐含层L₁的偏执向量也将更新成b_1-1，b₁-₁表示第一个隐含层偏执向量经过一个mini-batch后的值。通过跨机器的消息传递将RBM_1-1-out，b_1-1传递到RBM₂所在的机器，RBM₂首次利用b_1-1初始化RBM₂得可见层L_1-copy的偏执向量，然后以RBM_1-1-out作为输入进行训练，经过训练RBM₂将得到输出结果RBM_2-1-out和以及隐含层L₂的偏执向量b_2-1。在流式预训练学习算法中，每个隐含层(也可以理解成RBM)在完成k个(mini-batch)最小批量后，将生成k个最小批量的输出结果，隐含层的偏执向量也将跟新k次。