CN104751842B

CN104751842B - 深度神经网络的优化方法及系统

Info

Publication number: CN104751842B
Application number: CN201310755402.8A
Authority: CN
Inventors: 刘聪; 何婷婷; 潘嘉; 王智国; 胡国平; 胡郁
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2013-12-31
Filing date: 2013-12-31
Publication date: 2019-11-15
Anticipated expiration: 2033-12-31
Also published as: CN104751842A

Abstract

本发明公开了一种深度神经网络的优化方法及系统，该方法包括：获取训练数据；根据所述训练数据对深度神经网络进行训练，获得所述深度神经网络各层间的权重参数矩阵；确定至少一个待优化的权重参数矩阵，所述待优化的权重参数矩阵选自所述深度神经网络的所有相邻两层之间的权重参数矩阵的集合中；对所述待优化的权重参数矩阵进行优化，并使所述待优化的权重参数矩阵中的权重参数的个数减少。应用本发明可以显著去除模型参数之间的冗余性、减少有效模型参数的数目，将优化后的深度神经网络应用于语音识别系统，可进一步显著减少识别解码中计算深度神经网络输出后验概率的运算量，从而明显提升了使用深度神经网络模型进行识别解码的速度。

Description

深度神经网络的优化方法及系统

技术领域

本发明涉及信号处理领域，尤其涉及一种深度神经网络的优化方法及系统。

背景技术

语音识别即让机器听懂人说的话，将语音信号转化为计算机可识别的输入。近20年来语音识别技术取得了显著成效，开始从实验室走向市场。目前基于语音识别技术的语音输入，语音检索，语音翻译等得到了广泛的运用。随着科技的进步，信息的爆炸性增长，可以获得的语音数据也越来越多，如何利用海量的数据训练一个语音识别系统，使语音识别率达到更高是实际应用中的一项难题。

传统自动连续语音识别系统主要采用基于隐马尔科夫模型(Hidden MarkovModel,HMM)和高斯混合模型(Gaussian Mixture Model,GMM)的GMM-HMM语音识别系统。GMM-HMM语音识别系统使用HMM对语音信号的时序结构进行建模，每个HMM状态的输出概率采用混合高斯模型模拟。近年来基于深度神经网络（Deep Neural Networks,DNN）和隐马尔科夫模型的DNN-HMM语音识别系统受到研究人员越来越多的关注，DNN-HMM系统采用DNN替代GMM模拟每个HMM状态的输出概率。相比于GMM模型，DNN模型的描述能力更强，能够更好地模拟非常复杂的数据分布，并且能够很好地学习到数据上下文的信息，因此相对于GMM-HMM系统，DNN-HMM系统能够取得显著的性能提升。

然而尽管DNN-HMM系统在性能上具有明显优势，但在实际应用中依然较难推广，主要原因在于DNN-HMM的模型复杂度较高，模型训练和解码时所需时间均远远超出了GMM-HMM系统。比如通常情况下DNN模型中隐含层个数至少有四至六个，且每个隐含层的节点个数都由系统预先设定相同数值，如2048或者2560个节点。显然所述模型的拓扑结构较为复杂且模型参数众多，给大数据库上的模型训练及后续语音解码带来较大的运算压力，导致系统运行效率过慢，不利于系统实用化的推广和更新。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种深度神经网络的优化方法及系统，在不损失数据模拟性能情况下极大地减少模型参数量，进而显著加快语音识别引擎的解码速度，提高语音识别系统性能。

为实现上述目的，本发明的技术方案是：

一种深度神经网络的优化方法，包括：

获取训练数据；

根据所述训练数据对深度神经网络进行训练，获得所述深度神经网络各层间的权重参数矩阵；

确定至少一个待优化的权重参数矩阵，所述待优化的权重参数矩阵选自所述深度神经网络的所有相邻两层之间的权重参数矩阵的集合中；

对所述待优化的权重参数矩阵进行优化，并使所述待优化的权重参数矩阵中的权重参数的个数减少。

优选地，所述确定至少一个待优化的权重参数矩阵包括：

确定所述深度神经网络中最后一层隐含层和输出层之间的权重参数矩阵为所述待优化的权重参数矩阵。

优选地，所述确定至少一个待优化的权重参数矩阵包括：

依次获取所述深度神经网络的每相邻两层之间的权重参数矩阵的奇异值；

对所述权重参数矩阵的奇异值从大到小进行排序，得到奇异值序列；

计算所述奇异值序列中前第一优选个数的奇异值之和与所有奇异值之和的比值，所述第一优选个数小于所述权重参数矩阵的奇异值的个数；

如果所述比值大于设定的第一门限值，则确定所述权重参数矩阵为所述待优化的权重参数矩阵。

优选地，所述对所述待优化的权重参数矩阵进行优化，以使所述待优化的权重参数矩阵中的权重参数的个数减少包括：

获取所述待优化的权重参数矩阵的奇异值；

确定第二优选个数，并使所述第二优选个数小于所述待优化的权重参数矩阵的奇异值的个数；

在与所述待优化的权重参数矩阵相关联的第一优化层和第二优化层之间增加超级隐含层，所述超级隐含层的节点个数为第二优选个数；

对所述待优化的权重参数矩阵进行奇异值分解，得到前置矩阵和后置矩阵；

根据所述待优化的权重参数矩阵的奇异值和所述前置矩阵，确定所述第一优化层与所述超级隐含层之间的权重参数矩阵；

根据所述待优化的权重参数矩阵的奇异值和所述后置矩阵，确定所述超级隐含层与所述第二优化层之间的权重参数矩阵。

优选地，所述确定第二优选个数，并使所述第二优选个数小于所述待优化的权重参数矩阵的奇异值的个数包括：

对所述待优化的权重参数矩阵的奇异值从大到小进行排序；

如果前第一个数的奇异值之和与所有奇异值之和的比值大于设定的第二门限值，并且前第二个数的奇异值之和与所有奇异值之和的比值小于等于所述设定的第二门限值，其中所述第一个数等于所述第二个数加一，则确定所述第二优选个数为所述第一个数。

优选地，所述确定所述第一优化层与所述超级隐含层之间的权重参数矩阵包括：

对所述待优化的权重参数矩阵的奇异值从大到小进行排序；

构建子对角矩阵，并使所述子对角矩阵的主对角线上的元素依次为前第二优选个数的奇异值的平方根；

提取所述前置矩阵的前第二优选个数的列作为子前置矩阵；

将所述子前置矩阵与所述子对角矩阵的乘积作为所述第一优化层与所述超级隐含层之间的权重参数矩阵。

优选地，所述确定所述超级隐含层与所述第二优化层之间的权重参数矩阵包括：

对所述待优化的权重参数矩阵的奇异值从大到小进行排序；

构建子对角矩阵，并使所述子对角矩阵的主对角线上的元素依次为前所述第二优选个数的奇异值的平方根；

提取所述后置矩阵的前第二优选个数的行作为子后置矩阵；

将所述子对角矩阵与所述子后置矩阵的乘积作为所述超级隐含层与所述第二优化层之间的权重参数矩阵。

优选地，所述方法还包括：

对所有所述待优化的权重参数矩阵进行优化后，得到第一优化深度神经网络，利用所述训练数据对所述第一优化深度神经网络进行训练；或者

依次对每个所述待优化的权重参数矩阵，在完成对所述待优化的权重参数矩阵的优化后得到第二优化深度神经网络，利用所述训练数据对所述第二优化深度神经网络进行训练。

一种深度神经网络的优化系统，包括：

数据获取单元，用于获取训练数据；

参数矩阵获取单元，用于根据所述训练数据对深度神经网络进行训练，获得所述深度神经网络各层间的权重参数矩阵；

待优化矩阵确定单元，用于确定至少一个待优化的权重参数矩阵，所述待优化的权重参数矩阵选自所述深度神经网络的所有相邻两层之间的权重参数矩阵的集合中；

优化单元，用于对所述待优化的权重参数矩阵进行优化，并使所述待优化的权重参数矩阵中的权重参数的个数减少。

优选地，所述待优化矩阵确定单元包括：

待优化矩阵第一确定单元，用于确定所述深度神经网络中最后一层隐含层和输出层之间的权重参数矩阵为所述待优化的权重参数矩阵。

优选地，所述待优化矩阵确定单元包括：

奇异值第一获取单元，用于依次获取所述深度神经网络的每相邻两层之间的权重参数矩阵的奇异值；

第一排序单元，用于对所述权重参数矩阵的奇异值从大到小进行排序，得到奇异值序列；

比值计算单元，用于计算所述奇异值序列中前第一优选个数的奇异值之和与所有奇异值之和的比值，所述第一优选个数小于所述权重参数矩阵的奇异值的个数；

待优化矩阵第二确定单元，用于在所述比值大于设定的第一门限值时，确定所述权重参数矩阵为所述待优化的权重参数矩阵。

优选地，所述优化单元包括：

奇异值第二获取单元，用于获取所述待优化的权重参数矩阵的奇异值；

第二优选个数确定单元，用于确定第二优选个数，并使所述第二优选个数小于所述待优化的权重参数矩阵的奇异值的个数；

超级隐含层构建单元，用于在与所述待优化的权重参数矩阵相关联的第一优化层和第二优化层之间增加超级隐含层，所述超级隐含层的节点个数为第二优选个数；

奇异值分解单元，用于对所述待优化的权重参数矩阵进行奇异值分解，得到前置矩阵和后置矩阵；

前置参数矩阵确定单元，用于根据所述待优化的权重参数矩阵的奇异值和所述前置矩阵，确定所述第一优化层与所述超级隐含层之间的权重参数矩阵；

后置参数矩阵确定单元，用于根据所述待优化的权重参数矩阵的奇异值和所述后置矩阵，确定所述超级隐含层与所述第二优化层之间的权重参数矩阵。

优选地，所述第二优选个数确定单元包括：

第二排序单元，用于对所述待优化的权重参数矩阵的奇异值从大到小进行排序；

第二优选个数子确定单元，用于在前第一个数的奇异值之和与所有奇异值之和的比值大于设定的第二门限值，并且在前第二个数的奇异值之和与所有奇异值之和的比值小于等于所述设定的第二门限值时，其中所述第一个数等于所述第二个数加一，确定所述第二优选个数为所述第一个数。

优选地，所述前置参数矩阵确定单元包括：

子对角矩阵构建单元，用于构建子对角矩阵，并使所述子对角矩阵的主对角线上的元素依次为前第二优选个数的奇异值的平方根；

前置参数矩阵构建单元，用于提取所述前置矩阵的前第二优选个数的列作为子前置矩阵；并且将所述子前置矩阵与所述子对角矩阵的乘积作为所述第一优化层与所述超级隐含层之间的权重参数矩阵。

优选地，所述后置参数矩阵确定单元包括：

子对角矩阵构建单元，用于构建子对角矩阵，并使所述子对角矩阵的主对角线上的元素依次为前所述第二优选个数的奇异值的平方根；

后置参数矩阵构建单元，用于提取所述后置矩阵的前第二优选个数的行作为子后置矩阵；并且将所述子对角矩阵与所述子后置矩阵的乘积作为所述超级隐含层与所述第二优化层之间的权重参数矩阵。

优选地，所述系统还包括：

第一训练单元，用于在所有所述待优化的权重参数矩阵进行优化后，利用所述训练数据对得到的第一优化深度神经网络进行训练；或者

第二训练单元，用于在依次对每个所述待优化的权重参数矩阵进行优化的过程中，利用所述训练数据对每次优化后得到的第二深度神经网进行训练。

本发明的有益效果在于：

（1）与目前传统的深度神经网络模型相比，本发明提出的深度神经网络的优化方法及系统可以显著去除模型参数之间的冗余性、减少有效模型参数的数目，将优化后的深度神经网络应用于语音识别系统，可进一步显著减少识别解码中计算深度神经网络输出后验概率的运算量，从而明显提升了使用深度神经网络模型进行识别解码的速度。

（2）应用本发明提供的方法及系统虽然减少了识别解码中的运算量，但是对识别结果的正确率基本没有影响，甚至在合理选择参数去冗余的比例时，可以一定程度提高识别正确率。

附图说明

为了更清楚地说明本发明实施的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例深度神经网络的优化方法的流程图；

图2示出了本发明实施例中对待优化的参数矩阵进行优化的流程图；

图3a和图3b示出了优化前后深度神经网络的权重参数个数的变化示意图，其中图3a示出了优化前深度神经网络的最后一层隐含层和输出层之间的权重参数分布示意图，图3b示出了优化后深度神经网络的最后一层隐含层和输出层之间的权重参数分布示意图；

图4示出了本发明另一实施例中确定待优化的权重参数矩阵的一种流程图；

图5示出了本发明实施例深度神经网络的优化系统的结构示意图；

图6示出了本发明实施例中待优化矩阵确定单元的一种具体结构的结构示意图；

图7示出了本发明实施例中优化单元的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了使本技术领域的人员更好地理解本发明实施例的方案，下面首先对传统DNN模型的训练过程做简要说明。

传统DNN模型的训练过程包括：

步一：确定DNN模型的拓扑结构；

具体地，DNN的输入层和输出层分别对应于声学特征和HMM模型的输出状态，其节点个数可在训练前预先确定。其中输入层的节点个数由输入特征维数决定，一般为几百左右（考虑帧扩展），输出层的节点个数一般由和分类目标相关联的HMM状态数决定，为了尽可能保证语音识别效果，深度神经网络输出层的节点个数一般很多，可以达到5000-20000。而隐含层位于输入层和输出层之间，加入隐含层的目的是为了提高神经网络模拟变换函数的能力，对于传统神经网络通常包含一个隐含层，而对于深度神经网络则包含多个隐含层。隐含层层数及隐含层节点个数的增加可以提高神经网络的分类性能，目前主流的DNN-HMM语音识别系统通常选用固定结构的DNN模型，即由系统预先确定DNN的隐含层层数及各隐含层的节点个数。虽然不同系统经验值会有不同，但大多数情况下为了提高模型对声学特征模拟的精度，会设置DNN的隐含层层数为4到9之间，每个隐含层的节点个数通常都相同，为1024、2048或者2560。

步二：深度神经网络模型参数训练；

具体地，在深度神经网络中，待训练的模型参数主要包括连接输入层和隐含层、连接各隐含层之间、连接隐含层和输出层的线性变换的权重参数（即W矩阵，这里将偏置参数也合并到W矩阵中）。具体地，系统利用采集的训练数据训练所述DNN模型的权重参数，整个训练过程分为两个步骤：

a)无监督预训练

系统首先随机生成符合高斯分布的随机数作为神经网络的初始权重，然后仅仅利用训练数据的声学特征从输入层往输出层按照受限玻尔兹曼机的训练方法逐层进行权重的训练。具体地，当输入层与第一个隐含层之间的权重首先训练完成后，利用声学特征和该权重得到第一个隐含层的输出值，将其视为受限玻尔兹曼机的输入训练第一个隐含层与第二个隐含层之间的权重，如此重复下去，直到倒数第二个隐含层与最后一个隐含层之间的权重已经训练完成。

b)有监督最终训练

将无监督预训练得到的权重作为神经网络的初始权重，利用训练数据的声学特征以及对应的标注，采用误差反向传播算法进行所有权重的最终优化调整。具体地，首先根据当前权重值计算出当前神经网络的输出与真实结果——标注之间的误差值E，然后计算出误差值E对各层权重的梯度最后根据梯度下降法进行各层权重的更新，即其中W_i ^t表示第i层的当前权重，W_i ^t+1表示第i层更新后的权重。

显然DNN模型在语音识别系统中担当着重要角色，其模型的准确性和运算效率直接影响到语音识别系统的性能。

传统DNN模型的缺陷在于：目前通用的DNN-HMM识别系统中使用的前馈型神经网络每个隐含层的节点个数一般是相同的且数目较大，而输出层由于要保证HMM各状态的区分性其节点个数更大，这样会导致训练得到的神经网络中各层之间的权重参数矩阵规模很大。而在语音识别解码中，需要对每一帧声学特征计算其相应于深度神经网络的输出概率，即需要依次计算每一层输入矢量经过对应层的权重矩阵加权后的输出矢量，显然当深度神经网络中各层间权重参数矩阵规模很大时，所述运算会占据识别解码中相当大的一部分，从而对整个解码速度造成很大的影响。而对DNN的实际研究表明虽然深度神经网络各层间的权重参数矩阵规模很大，但参数间的冗余性较大，且越靠近输出层，其权重分布越稀疏，即越有大量的权重值为0或者接近0，很多节点在网络中不起作用或者作用很小。

对此，本发明提出了一种深度神经网络的优化方法及系统，通过去除训练得到的DNN网络中层间权重参数矩阵的冗余性，提高权重参数的表现力及减少参数规模，最终在不损失识别性能的前提下有效地提升识别解码的速度。

如图1所示，是本发明实施例深度神经网络的优化方法的流程图，该优化方法包括以下步骤：

步骤101：获取训练数据。

步骤102：根据所述训练数据对深度神经网络进行训练，获得所述深度神经网络各层间的权重参数矩阵。

具体地，首先确定深度神经网络模型的拓扑结构，可以采用传统的基于确定层数和确定节点个数的拓扑结构；然后再根据所述训练数据对深度神经网络进行训练，获得所述深度神经网络各层间的权重参数矩阵。假设相邻两层之间，上一层的节点个数为m，下一层的节点个数为n，则此相邻两层之间的权重参数矩阵的规模为m×n的矩阵。

上述深度神经网络各层间的权重参数矩阵规模虽然很多，但是这些权重参数的冗余性是较大的，且越接近输出层的层间权重参数冗余性更大（表现为大量的权重值为0或者接近0）。显然，通过降低所述层间权重参数的冗余性，详见步骤103和步骤104，可以减少参数规模，提高运算效率。

步骤103：确定至少一个待优化的权重参数矩阵，所述待优化的权重参数矩阵选自所述深度神经网络的所有相邻两层之间的权重参数矩阵的集合中。

步骤104：对所述待优化的参数矩阵进行优化，并使所述待优化的权重参数矩阵中的权重参数的个数减少。

考虑到深度神经网络中输出层的节点个数往往最多，相应地最后一层隐含层到输出层之间的权重参数矩阵规模也最为庞大，显然减少最后一层隐含层和输出层的权重参数矩阵的参数个数，即减少最后一层隐含层和输出层的层间输出概率计算量，有实际意义。由此，在本发明的一个优选的实施例中，确定待优化的权重参数矩阵的一种方法为：确定所述深度神经网络中最后一层隐含层和输出层之间的权重参数矩阵为所述待优化的权重参数矩阵。

所述待优化的权重参数矩阵W^(p)是一个m*n的矩阵，其中，m为最后一层隐含层的节点个数，n为输出层的节点个数，一般有m<n。

如图2所示，是本发明实施例中对待优化的权重参数矩阵进行优化的流程图，包括以下步骤：

步骤201：获取待优化的权重参数矩阵的奇异值。

具体地，计算所述待优化的权重参数矩阵的奇异值，并对所述待优化的权重参数矩阵的奇异值从大到小进行排序，得到从大到小顺次排列的待优化的权重参数矩阵W^(p)的m个奇异值a₁,a₂,…,a_m，m个奇异值a₁,a₂,…,a_m构成奇异值序列。

步骤202：确定第二优选个数，并使所述第二优选个数小于所述待优化的权重参数矩阵的奇异值的个数。

具体地，由于W^(p)的冗余性，其奇异值的个数往往小于m，或者很大一部分奇异值是接近于0的。显然对待优化的权重参数矩阵的奇异值进行优选，可以进一步减少矩阵噪音，降低冗余性。所述确定第二优选个数的方法包括以下步骤：

步骤a1：计算前第一个数的奇异值之和与所有奇异值之和的第一比值，以及前第二个数的奇异值之和与所有奇异值之和的第二比值；

步骤a2：当所述第一比值大于设定的第二门限值，并且所述第二比值第小于等于所述设定的第二门限值时，其中所述第一个数等于所述第二个数加一，则确定所述第二优选个数为所述第一个数。

具体地，所述第二优选个数r一般参考奇异值中的最大值a₁和最小值a_m的分布，以使得只留下r个奇异值时仍能保留待优化的权重参数矩阵的大部分特性。具体地本实施例中选择第二优选个数r需要满足其中，τ₂是设定的第二门限值，所述第二门限值τ₂一般根据不同系统应用需求在0.6-0.95取值范围中选择。这样，通过对奇异值的筛选，只保留奇异值序列中最具有代表性的前r个奇异值。

步骤203：在与所述待优化的权重参数矩阵相关联的第一优化层和第二优化层之间增加超级隐含层，所述超级隐含层的节点个数为第二优选个数r。

步骤204：对所述待优化的权重参数矩阵W^(p)进行奇异值分解，得到W^(p)=UΣV，其中，U是规模为m*m的前置矩阵，∑是规模为m*n的中间矩阵，V为规模为n*n的后置矩阵。中间矩阵∑的形式如下：其中，a₁,a₂,…,a_m分别为待优化的权重参数矩阵W^(p)自大到小的m个奇异值，上述中间矩阵∑是一个非常稀疏的矩阵（只有几个奇异值不为0）。

步骤205：根据所述待优化的权重参数矩阵的奇异值和所述前置矩阵，确定所述第一优化层与所述超级隐含层之间的权重参数矩阵。

具体地，所述确定第一优化层与所述超级隐含层之间的权重参数矩阵的方法包括以下步骤：

步骤b1：对所述待优化的权重参数矩阵的奇异值从大到小进行排序，得到奇异值序列a₁,a₂,…,a_m，其中a₁,a₂,…,a_r为前第二优选个数的奇异值。

步骤b2：构建子对角矩阵并使所述子对角矩阵的主对角线上的元素依次为前第二优选个数r的奇异值的平方根，从而子对角矩阵

步骤b3：提取所述前置矩阵U的自左向右前第二优选个数r的列作为子前置矩阵U^*，子前置矩阵U^*是规模为m*r的矩阵。

步骤b4：将所述子前置矩阵U^*与所述子对角矩阵的乘积作为所述第一优化层与所述超级隐含层之间的权重参数矩阵A，即矩阵A为一个规模为m*r的矩阵。

步骤206：根据所述待优化的权重参数矩阵的奇异值和所述后置矩阵，确定所述超级隐含层与所述第二优化层之间的权重参数矩阵。

具体地，所述确定所述超级隐含层与所述第二优化层之间的权重参数矩阵的方法包括以下步骤：

步骤c1：对所述待优化的权重参数矩阵的奇异值从大到小进行排序，得到奇异值序列a₁,a₂,…,a_m，其中a₁,a₂,…,a_r为前第二优选个数的奇异值。

步骤c2：构建子对角矩阵并使所述子对角矩阵的主对角线上的元素依次为前第二优选个数r的奇异值的平方根，从而子对角矩阵

步骤c3：提取所述后置矩阵V的自上向下前第二优选个数r的行作为子后置矩阵V^*，子后置矩阵V^*是规模为r*n的矩阵。

步骤c4：将所述子对角矩阵与所述子后置矩阵V^*的乘积作为所述超级隐含层与所述第一优化层之间的权重参数矩阵B，即矩阵B为一个规模为r*n的矩阵。

进一步地，为了提高所述深度神经网络的整体精确性，所述优化方法还包括对深度神经网络进行迭代训练。

具体地，对所述待优化的权重参数矩阵进行优化后，得到第一优化深度神经网络；利用所述训练数据对所述第一优化深度神经网络进行迭代训练，获取更新后的深度神经网络，比如，可以采用采用反向传播算法。

以下对比本实施例中优化前后的深度神经网络做下述分析：假设经过最后一层隐含层的输出为X（X在优化前后的结构保持不变，X的维数和最后一层隐含层的节点个数一致，为m），则在原始权重参数矩阵下输出为Y=XW，(W的维数是m*n，Y的维数和输出层的节点个数一致，为n)，而在进行结构优化后的输出为Y=(XA)B（即先对输入X进行矩阵A的乘法操作，生成维数为r的中间隐层输出，再对超级隐含层的中间输出结果进行矩阵B的乘法操作，生成维数为n的输出）。

显然经过优化后，如图3a和图3b所示，为优化前后深度神经网络的权重参数个数的变化示意图，最后一层隐含层到输出层之间的权重参数矩阵的参数个数从m*n（如图3a所示）减少到r*（m+n)（如图3b所示），并且只要合理控制r的数值，则可以使得深度神经网络的复杂度获得显著的减小。

上面的实施例仅对最后一层隐含层与输出层之间的权重参数矩阵进行了优化，而在深度神经网络中，由于隐含层数量较多且隐含层的节点个数众多，涉及到的计算量也较大。对此，系统可进一步对隐含层的结构进行选择性或全部优化。更一般地，用W^(k)表示深度神经网络中从输入层到输出层的第k个权重参数矩阵（W⁽¹⁾表示从输入层到第一层隐含层的权重参数矩阵，W⁽²⁾表示从第一层隐含层到第二层隐含层的权重参数矩阵，依此类推；另外，用W^(p)表示最后一层隐含层到输出层之间的权重参数矩阵）。

系统可以对深层神经网络的所有权重参数矩阵进行更新（一般地，考虑到精度问题，系统一般不对输入层到第一层隐含层之间的权重参数矩阵进行优化），也可以优选部分节点层进行更新，以平衡系统训练效率的提高和系统性能的改进。

由此，在本发明的另一个优选的实施例中，如图4所示，为本发明实施例中确定待优化的权重参数矩阵的另一种流程图，包括以下步骤：

步骤401：依次获取深度神经网络的每相邻两层之间的权重参数矩阵的奇异值。

具体地，假设某两层间的权重参数矩阵为规模为m×n的矩阵，计算该矩阵的奇异值。

步骤402：对所述权重参数矩阵的奇异值从大到小进行排序，得到奇异值序列a₁,a₂,…,a_m。

步骤403：计算所述奇异值序列中前第一优选个数的奇异值之和与所有奇异值之和的比值，所述第一优选个数小于所述权重参数矩阵的奇异值的个数。

具体地，所述第一优选个数t的确定方法为，所述第一优选个数t为满足公式的自然数，其中α一般需要控制在0.8以内。并且，所述比值

步骤404：如果所述比值s大于设定的第一门限值τ₁，则确定所述权重参数矩阵为所述待优化的权重参数矩阵。

一般来说，对于不同的待优化的权重参数矩阵，需要设定一个固定的第二门限值τ₂，以获取每个待优化的权重参数矩阵W^(k)对应的超级隐含层的节点个数r，即选取每个待优化的权重参数矩阵W^(k)的奇异值中，满足的最小值r^(k)。

下面以某一层规模m*n的权重参数矩阵为例，说明如何判断该权重参数矩阵是否为待优化的权重参数矩阵的方法：

由于对权重参数矩阵结构优化的目标是希望减少权重参数的数目，即对于上述方阵满足r*(m+n)<α*(m*n)，这里的α一般需要控制在0.8以内，以达到减少运算量的需求。因此对于该权重参数矩阵来说，需要满足α=0.8，则经计算，只有在r<820的条件下才会对该权重参数矩阵进行优化。

因此，针对每一个权重参数矩阵，可以先计算其的奇异值，然后统计第一优选个数t取上述门限时（即判断能否满足公式如果满足，则对该权重参数矩阵进行优化，否则不对该权重参数矩阵进行优化，而是使其保持不变。

在确定了哪些层间权重参数矩阵需要进行结构优化后，可以对每个待优化的权重参数矩阵设定一个固定的第二门限值τ₂，以获取每个权重参数矩阵对应的不同超级隐含层的节点个数r，即选取每个待优化的权重参数矩阵W⁽¹⁾的奇异值中，满足的最小值r⁽¹⁾。

值得说明的是，所述确定待优化的权重参数矩阵还包括以下方法：

方法a1：如前所述，深度神经网络中越靠近输出层的权重参数越“稀疏”，所以更倾向于更新靠后的节点层之间的权重参数矩阵。具体地系统可以依据经验选择某一层（如最中间的隐含层），确定对该层之后的所有层间权重参数矩阵进行优化更新，而保持该层之前的层间权重参数矩阵不变。

方法a2：根据权重参数矩阵的规模选择：当权重参数矩阵规模较小时，对其精简的意义不大，可以经验性判断：如果当前需要判断的权重参数矩阵的规模m*n>1×10⁶（即1M），则对该权重参数矩阵进行优化，否则不对该权重参数矩阵进行优化。

在本实施例中，即在待优化的权重参数矩阵不唯一的情况下，本发明提供了两种对深度神经网络进行迭代训练，以提高深度神经网络的整体精确性的方法。

方法b1：对所有待优化的权重参数矩阵进行优化后，得到第一优化深度神经网络；利用训练数据对第一优化深度神经网络进行迭代训练，比如可以采用反向传播算法。

方法b2：依次对每个待优化的权重参数矩阵，在完成对所述待优化的权重参数矩阵的优化后得到第二优化深度神经网络；利用训练数据对所述第二优化深度神经网络进行迭代训练，比如可以采用反向传播算法。

在方法b2中，确定哪些是待优化的权重参数矩阵后，对这些矩阵的优化更新顺序可以为以下三种：按照从输出层到输入层的方向，按照从输入层到输出层的方向，以及按照根据公式计算的比值，从大到小的方向（比值越大保留的信息最完整）。

具体地，对于第一种顺序，先确定需要进行优化的所有权重参数矩阵，再按照从输出层到输入层的方向逐次优化每一个权重参数矩阵：先对最后一个待优化的权重参数矩阵进行优化，然后利用训练数据并采用反向传播算法更新一次（或若干次）当前深度神经网络所有的权重参数；再对倒数第二个待优化的权重参数矩阵进行优化（注意这里是经过上一次更新后的权重参数矩阵了），接着再利用训练数据并采用反向传播算法对深度神经网络的所有权重更新一次；依此类推，依次对每一个待优化的权重参数矩阵，进行优化和深度神经网络的迭代更新。

对于应用第二种顺序和第三种顺序的迭代训练的方法，相对于上述方法，仅是进行的顺序发生了变化，因此再此不再赘述。

下面具体说明本实施例中，即在待优化的权重参数矩阵不唯一的情况下，经过优化和迭代训练的深度神经网络的输出的计算方法：

在整个深度神经网络经过上述优化后，在给出在输入层的输入特征X（假设X为行向量）的时候，深度神经网络最终输出结果的计算方式包括如下步骤：

步骤d1：因为考虑到精度问题，可以不对输入层到第一层隐含层之间的权重参数矩阵进行优化，因此从输入层到第一层隐含层的计算方式为：Y⁽¹⁾=X*W⁽¹⁾,Z⁽¹⁾=σ(Y⁽¹⁾)，其中σ为sigmoid函数，Z⁽¹⁾为第一层隐含层的输出，同时也作为第一层隐含层到第二层隐含层的输入。

步骤d2：对于后续若干个隐含层的输出的计算，可以根据是否对该层对应的权重参数矩阵进行结构优化来采用不同的计算方式。特别地，针对第k-1层隐含层到第k层隐含层之间的原始权重矩阵W^(k)，如未作结构优化，则采用上述传统方式计算：Y^(k)=Z^(k-1)*W^(k),Z^(k)=σ(Y^(k))；如果对W^(k)进行结构优化，并分别获取对应的矩阵A^(k)和矩阵B^(k)以后，则采用优化后的方式进行计算：Y^(k)=(Z^(k-1)*A^(k))·B^(k),Z^(k)=σ(Y^(k))。

步骤d3：对于最后一层隐含层和输出层之间的权重参数矩阵，因为一般都会进行优化，所以直接计算输出层的结果如下：Y^(p)=(Z^(k)*A^(p))*B^(p),Z^(p)=softmax(Y^(p))，最终Z^(p)即为优化后的整个深度神经网络的输出。

综上，与目前传统的深度神经网络模型相比，本发明实施例提出的深度神经网络的优化方法可以显著去除模型参数之间的冗余性、减少有效模型参数的数目，将优化后的深度神经网络应用于语音识别系统，可进一步显著减少识别解码中计算深度神经网络输出后验概率的运算量，从而明显提升了使用深度神经网络模型进行识别解码的速度。另外，应用本发明实施例提供的方法虽然减少了识别解码中的运算量，但是对识别结果的正确率基本没有影响，甚至在合理选择参数去冗余的比例时，可以一定程度提高识别正确率。

相应地，本发明实施例还提供一种深度神经网络的优化系统，如图5所示，是该系统的结构示意图。

在该实施例中，所述深度神经网络的优化系统包括：

数据获取单元501，用于获取训练数据；

参数矩阵获取单元502，用于根据所述训练数据对深度神经网络进行训练，获得所述深度神经网络各层间的权重参数矩阵；

待优化矩阵确定单元503，用于确定至少一个待优化的权重参数矩阵，所述待优化的权重参数矩阵选自所述深度神经网络的所有相邻两层之间的权重参数矩阵的集合中；

优化单元504，用于对所述待优化的参数矩阵进行优化，并使所述待优化的权重参数矩阵中的权重参数的个数减少。

在本发明实施例中，待优化矩阵确定单元503的一种具体结构可以包括：待优化矩阵第一确定单元，用于确定所述深度神经网络中最后一层隐含层和输出层之间的权重参数矩阵为所述待优化的权重参数矩阵。

在本发明的实施例中，如图6所示，所述待优化矩阵确定单元503的另一种具体结构可以包括：

奇异值第一获取单元601，用于依次获取所述深度神经网络的每相邻两层之间的权重参数矩阵的奇异值；

第一排序单元602，用于对所述权重参数矩阵的奇异值从大到小进行排序，得到奇异值序列；

比值计算单元603，用于计算所述奇异值序列中前第一优选个数的奇异值之和与所有奇异值之和的比值，所述第一优选个数小于所述权重参数矩阵的奇异值的个数；

待优化矩阵第二确定单元604，用于在所述比值大于设定的第一门限值时，确定所述权重参数矩阵为所述待优化的权重参数矩阵。

在本发明的实施例中，如图7所示，优化单元504的一种具体结构可以包括：

奇异值第二获取单元701，用于获取所述待优化的权重参数矩阵的奇异值；

第二优选个数确定单元702，用于确定第二优选个数，并使所述第二优选个数小于所述待优化的权重参数矩阵的奇异值的个数；

超级隐含层构建单元703，用于在与所述待优化的权重参数矩阵相关联的第一优化层和第二优化层之间增加超级隐含层，所述超级隐含层的节点个数为第二优选个数；

奇异值分解单元704，用于对所述待优化的权重参数矩阵进行奇异值分解，得到前置矩阵和后置矩阵；

前置参数矩阵确定单元705，用于根据所述待优化的权重参数矩阵的奇异值和所述前置矩阵，确定所述第一优化层与所述超级隐含层之间的权重参数矩阵；

后置参数矩阵确定单元706，用于根据所述待优化的权重参数矩阵的奇异值和所述后置矩阵，确定所述超级隐含层与所述第二优化层之间的权重参数矩阵。

在本实施例中，所述第二优选个数确定单元的具体结构可以包括：

在本实施例中，所述前置参数矩阵确定单元的具体结构可以包括：

在本实施例中，所述后置参数矩阵确定单元的具体结构可以包括：

进一步地，在本发明的一个优选的实施例中，所述的优化系统还包括：第一迭代训练单元，用于对所有所述待优化的权重参数矩阵进行优化后，得到第一优化深度神经网络；并且利用所述训练数据并采用反向传播算法对所述第一优化深度神经网络进行迭代训练。

在本发明的另一个优选的实施例中，本发明所述的优化系统还包括：

第二迭代训练单元，用于依次对每个所述待优化的权重参数矩阵，在完成对所述待优化的权重参数矩阵的优化后得到第二优化深度神经网络；并且利用所述训练数据并采用反向传播算法对所述第二优化深度神经网络进行迭代训练。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，以上所述仅为本发明的较佳实施例，但本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种深度神经网络的优化方法，其特征在于，包括：

获取训练数据；

2.根据权利要求1所述的深度神经网络的优化方法，其特征在于，所述确定至少一个待优化的权重参数矩阵包括：

3.根据权利要求1所述的深度神经网络的优化方法，其特征在于，所述确定至少一个待优化的权重参数矩阵包括：

4.根据权利要求1所述的深度神经网络的优化方法，其特征在于，所述对所述待优化的权重参数矩阵进行优化，以使所述待优化的权重参数矩阵中的权重参数的个数减少包括：

获取所述待优化的权重参数矩阵的奇异值；

5.根据权利要求4所述的深度神经网络的优化方法，其特征在于，所述确定第二优选个数，并使所述第二优选个数小于所述待优化的权重参数矩阵的奇异值的个数包括：

对所述待优化的权重参数矩阵的奇异值从大到小进行排序；

6.根据权利要求4所述的深度神经网络的优化方法，其特征在于，所述确定所述第一优化层与所述超级隐含层之间的权重参数矩阵包括：

对所述待优化的权重参数矩阵的奇异值从大到小进行排序；

提取所述前置矩阵的前第二优选个数的列作为子前置矩阵；

7.根据权利要求4所述的深度神经网络的优化方法，其特征在于，所述确定所述超级隐含层与所述第二优化层之间的权重参数矩阵包括：

对所述待优化的权重参数矩阵的奇异值从大到小进行排序；

提取所述后置矩阵的前第二优选个数的行作为子后置矩阵；

8.根据权利要求1至7任一项所述的深度神经网络的优化方法，其特征在于，所述方法还包括：

9.一种深度神经网络的优化系统，其特征在于，包括：

数据获取单元，用于获取训练数据；

10.根据权利要求9所述的深度神经网络的优化系统，其特征在于，所述待优化矩阵确定单元包括：

11.根据权利要求9所述的深度神经网络的优化系统，其特征在于，所述待优化矩阵确定单元包括：

12.根据权利要求9所述的深度神经网络的优化系统，其特征在于，所述优化单元包括：

13.根据权利要求12所述的深度神经网络的优化系统，其特征在于，所述第二优选个数确定单元包括：

14.根据权利要求12所述的深度神经网络的优化系统，其特征在于，所述前置参数矩阵确定单元包括：

15.根据权利要求12所述的深度神经网络的优化系统，其特征在于，所述后置参数矩阵确定单元包括：

16.根据权利要求9至11任一项所述的深度神经网络的优化系统，其特征在于，所述系统还包括：