CN108629412A

CN108629412A - 一种基于无网格最大互信息准则的神经网络训练加速方法

Info

Publication number: CN108629412A
Application number: CN201710152727.5A
Authority: CN
Inventors: 黎塔; 张震; 程高峰; 万辛; 颜永红
Original assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Priority date: 2017-03-15
Filing date: 2017-03-15
Publication date: 2018-10-09

Abstract

本发明提供了一种基于无网格最大互信息准则的神经网络训练加速方法，本发明的方法通过对无网格最大互信息准则(LFMMI准则)下的神经网络CE准则输出端进行低秩转换，将原有的高秩矩阵模块拆分为两个低秩矩阵模块，拆分后的两个低秩矩阵模块内的子阵相乘最后的维度和之前的全连接矩阵一致，在保证神经网络CE准则输出端总体维度不变的情况下，利用改造后的低维度子阵进行神经网络训练，从而简化了运算结构，使神经网络的输出层前向计算和后向计算占据训练时间比例明显减小，加快了神经网络的训练。

Description

一种基于无网格最大互信息准则的神经网络训练加速方法

技术领域

本发明属于语音识别领域，具体涉及一种基于无网格最大互信息准则的神经网络训练加速方法。

背景技术

语言是人类特有的功能，是人与人之间交流、传递信息最简便、最有效的工具。人们对于计算机语音的研究主要有以下几个方面：语音编码、语音合成、语音识别、语音增强、说话人识别等。在这些研究当中，语音识别是其中极其重要一环。经过几十年的发展，语音识别技术已经渗透入我们生活的方方面面，应用范围涵盖了智能家居、智能手机助手以及国防安全等领域。

语音识别技术主要包括声学模型、语言模型以及解码器三个大的方面。现阶段深度神经网络(DNN)是最主流的声学模型技术之一。DNN是一种以连接权重和节点来模拟人脑中神经元工作的技术，可以视作一种分类器，结构主要包括输入层，隐含层和输出层，相邻层的节点之间有带权重的全连接，输出层的节点数量由目标类别数量所决定，数据从输入层进入网络，经由一系列的权重计算和非线性激活函数，最终到达输出层，得到该数据被分为每一类的概率值。在语音识别领域中，主流DNN结构的输入为语音特征，输出为音素状态。由于DNN具有很强的非线性表达能力，能够对输入的语音特征进行更好的转换表达，以用于输出层的分类，同时，数据量越大，DNN的层数越多，参数量越大，训练所得到的神经网络分类能力越好，最终的识别准确率越高。但是传统的DNN由于输入特征的时间范围较窄，所以对于长时信息的建模能力比较差。为了进一步提升DNN的长时建模能力，人们提出了时间延迟神经网络(TDNN)。TDNN通过对每一隐含层的输入做左右帧的扩展，使前向计算全连接网络具有了更强的长时建模能力，获得了比DNN更为显著的建模效果。基于无网格最大互信息(LFMMI)准则来训练TDNN取得了比以往用交叉熵(CE)准则具有更好的效果。此方法是目前语音识别领域兼顾效率和性能的一种神经网络应用方法。基于LFMMI准则的TDNN训练融合了LFMMI准则和CE准则。但是，对这种方法的详尽分析发现，在LFMMI训练过程中输出层的前向计算与后向计算占据了训练时间的很大一部分。对此问题，目前尚无有效的优化方法。

发明内容

本发明的目的在于，为了解决基于LFMMI准则训练神经网络时，由于LFMMI训练采用了双训练准则(LFMMI准则和CE准则)，并且输出层维度过高，从而导致输出层前向计算和后向计算占据训练时间比例过大的技术问题。本发明提供一种基于无网格最大互信息准则的神经网络训练加速方法。

为实现上述目的，本发明提供的一种基于无网格最大互信息准则的神经网络训练加速方法，该方法包括：

步骤1)选择基于无网格最大互信息准则下的神经网络中CE准则输出端，将该CE准则输出端内的全连接矩阵拆分成两个全连接子阵，且满足两个全连接子阵相乘后的维度与全连接矩阵的维度相同；

步骤2)将每一个全连接子阵与激活函数模块和激活函数值归一化模块连接在一起，形成两个低秩矩阵模块；

步骤3)将两个低秩矩阵模块首尾相接后替换成为新的CE准则输出端，并利用新的CE准则输出端进行神经网络训练。

作为上述技术方案的进一步改进，所述全连接矩阵的拆分公式表示为：

其中，P_nm表示输入维度为n、输出维度为m的全连接矩阵，P_nk表示输入维度为n、输出维度为k的全连接子阵，P_km表示输入维度为k、输出维度为m的全连接子阵。

本发明的一种基于无网格最大互信息准则的神经网络训练加速方法优点在于：

利用本发明的方法对无网格最大互信息准则(LFMMI准则)下的神经网络CE准则输出端进行低秩转换，将原有的高秩矩阵模块拆分为两个低秩矩阵模块，拆分后的两个低秩矩阵模块内的子阵相乘最后的维度和之前的全连接矩阵一致，在保证神经网络CE准则输出端总体维度不变的情况下，利用改造后的低维度子阵进行神经网络训练，从而简化了运算结构，使神经网络的输出层前向计算和后向计算占据训练时间比例明显减小，加快了神经网络的训练。

附图说明

图1是现有的基于LFMMI准则下的TDNN神经网络模型图。

图2是利用本发明的方法重新构建的基于LFMMI准则下的TDNN神经网络模型图。

具体实施方式

下面结合附图和实施例对本发明所述的一种基于无网格最大互信息准则的神经网络训练加速方法进行详细说明。

基于LFMMI准则的神经网络训练在计算损失函数的时候用到了两个损失值，包括基于LFMMI准则计算的损失值以及基于CE准则计算的损失值。神经网络会把基于LFMMI以及基于CE计算的损失值进行加权求和，作为整个神经网络的损失值。神经网络的每一层都包含三个具体的模块：全连接矩阵、激活函数模块、激活函数值归一化模块。其中，全连接矩阵是指神经网络中某一层各输出节点与各输入节点之间形成的全部连接，其作用在上一层神经网络节点输出的向量上，经过该全连接矩阵生成一个新的向量，新生成的向量会作为激活函数的输入值。在激活函数模块内包含一个非线性函数，主要是用来实现神经网络复杂的动态建模能力，以引入非线性因素，提高神经网络的表达能力。激活函数的输出最后会经过一个归一化模块，激活函数值归一化模块有很多种作用形式，主要是负责将函数输出的激活值的分布归整为一个均值为0的分布，避免数据分布随着层数增加而产生分布偏移。

基于上述结构的神经网络，以TDNN神经网络为例，对于常规的LFMMI准则训练TDNN神经网络，其最后的输出层损失函数计算如下：

其中，α与β是加权求和系数，是当前神经网络的输入，与是神经网络根据当前输入计算出来的损失值，FucLoss是结合了LFMMI准则和CE准则的全局损失函数。

基于LFMMI训练的TDNN神经网络，其误差由LFMMI准则和CE准则加权求误差。两个准则各有一个输出端口，输出端口设有输出全连接矩阵。一般情况下，输出端维度都很高，所以输出层的前向计算与后向计算占据了神经网络训练很大时间比例。而基于LFMMI准则训练的TDNN神经网络，由于其采取了双训练准则联合训练的方法，进一步增加了运算的复杂度及运算时间。

为了降低神经网络训练过程中的运算复杂度及运算时间，本发明提供了一种基于无网格最大互信息准则的神经网络训练加速方法，该方法具体包括：

步骤1)选择基于无网格最大互信息准则下的神经网络中CE准则输出端，将该CE准则输出端内的全连接矩阵拆分成两个全连接子阵，且满足两个全连接子阵相乘后的维度与全连接矩阵的维度相同；所述全连接矩阵的拆分公式表示为：

在实验环境下k的取值可以是32、64或者128，这样对于同样的n维的输入，经过两个低秩矩阵的处理，输出的维度仍然保持m维不变；但是全连接矩阵总数据量因为低秩矩阵的引入而大大减小。

步骤2)将每一个全连接子阵与激活函数模块和激活函数值归一化模块连接在一起，形成两个低秩矩阵模块。

对于LFMMI准则训练TDNN神经网络的大量实验证明，如果降低LFMMI准则输出端的维度，基于LFMMI准则训练的神经网络性能就会受到损失，但是如果只降低CE准则输出端的维度，基于LFMMI训练的神经网络性能则不会有太大的损失，即神经网络的性能对损失函数中的LFMMI准则端的维度更为敏感，对于CE准则端的维度具有很好的鲁棒性。基于这一实验发现，我们采取了区分对待低秩分解技术，通过采取上述方法，对CE准则输出端的维度进行大幅低秩降维，同时保持LFMMI准则输出端特性，不作改动。

利用改造后的TDNN神经网络进行训练，训练时间显著缩短，同时在最终的识别率测试中，采取了区分对待低秩分解技术的LFMMI TDNN神经网络获得了比传统LFMMI TDNN神经网络更好的识别性能。

本发明的基于区分对待低秩分解技术已经在实际的基于LFMMI准则的TDNN神经网络训练中成功验证了其有效性。如图1所示，以我们目前经常所用的七层TDNN神经网络为例，输入层特征维度为300维，隐含层特征维度为625维，输出层特征维度为7061维，整个TDNN神经网络包含一个300*625全连接矩阵和5个625*625全连接矩阵以及两个625*7061全连接矩阵，总参数量为16.01M，输出端口的两个输出层全连接矩阵总参数量为8.83M，其中CE准则输出端口和LFMMI准则输出端口各占参数量为4.42M，输出端口参数量占总参数量的55.2％。

我们的实验平台采用显卡Nvidia Tesla K80，核心频率562MHZ，显存2*12GB，主机配备128GB内存，CPU采用Intel(R)Xeon(R)CPU E5-2650v3@2.30GHz。

经我们实际测算，在一个迭代的训练中，输出层LFMMI准则和CE准则端口前向计算和后向计算占据了总时间的34.0％，总训练时间为46.44s。其中CE准则输出端需要的训练时间为9.09s，占据的时间比例为17.4％。

如图2所示，我们将原本一个625*7061的CE准则输出端内的全连接矩阵进行低秩处理，改为两个连接在一起的低秩矩阵模块：625*64全连接子阵和64*7061全连接子阵。经过在CE准则端的低秩化处理，上面提到的TDNN神经网络模型的参数量降低到了12.09M，其中LFMMI准则输出端参数量依旧为4.42M，CE准则输出端参数量为0.4M。

在CE准则输出端进行低秩转换后，经实际测算，在一个迭代的训练中，输出层LFMMI准则和CE准则端口前向计算和后向计算占据了总时间的26.1％，总训练时间为40.39s。其中CE准则输出端需要的训练时间为3.13s，占据的时间比例为7.74％。经本发明的方法对CE准则输出端进行处理后，每个迭代相对减少13.0％的训练用时，从而加快了神经网络的训练。

由于基于LFMMI准则的TDNN神经网络在解码的时候只考虑LFMMI准则，而并不考虑CE准则。经过本发明的方法处理之后的TDNN神经网络在压缩训练时间的同时，在实际的解码打分过程中并未损失性能。表1是利用本发明的方法对CE准则端口处理之后的LLFMMITDNN神经网络和传统LFMMI TDNN神经网络打分结果的比较。

表1

	参数量	Swbd测试集	Callhm测试集	Eval2000测试集	时间/迭代
						LFMMI TDNN	16.0M	10.1％	20.8％	15.6％	46.44s
LLFMMI TDNN	12.1M	10.1％	20.5％	15.4％	40.39s

上述表1中的Swbd测试集是Eval2000测试集中的Swbd子集，Callhm测试集是Eval2000测试集中的Callhm子集，Eval2000测试集是测试集全集，是LDC下的电话交谈风格的语音数据。“时间/迭代”是一个显卡核心上神经网络处理特定大小打包数据所需时间。从表1中示出的LFMMI TDNN和低秩LFMMI TDNN(LLFMMI TDNN)词错误率(WER)对比可知，两者的词错误率保持一致。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于无网格最大互信息准则的神经网络训练加速方法，其特征在于，该方法包括：

2.根据权利要求1所述基于无网格最大互信息准则的神经网络训练加速方法，其特征在于，所述全连接矩阵的拆分公式表示为：