CN104143327B

CN104143327B - 一种声学模型训练方法和装置

Info

Publication number: CN104143327B
Application number: CN201310288097.6A
Authority: CN
Inventors: 王尔玉; 卢鲤; 张翔; 刘海波; 饶丰; 李露; 岳帅; 陈波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2013-07-10
Filing date: 2013-07-10
Publication date: 2015-12-09
Anticipated expiration: 2033-07-10
Also published as: CN104143327A; WO2015003436A1; TWI530940B; HK1199672A1; TW201503106A

Abstract

本发明实施方式提出一种声学模型训练方法和装置。方法包括：建立深层神经网络模型初始模型；将语音训练数据划分为N个不相交的数据子集合，针对每个数据子集合利用随机梯度下降算法更新深层神经网络模型初始模型，得到N个深层神经网络模型子模型，其中N为至少为2的自然数；融合N个深层神经网络模型子模型以得到深层神经网络模型中间模型，并当该深层神经网络模型中间模型符合预先设定的收敛条件时，判定该深层神经网络模型中间模型为训练后声学模型。本发明实施方式提高了声学模型的训练效率，并且不降低语音识别的性能。

Description

一种声学模型训练方法和装置

技术领域

本发明实施方式涉及语音识别技术领域，更具体地，涉及一种声学模型训练方法和装置。

背景技术

语音识别是将语音信号转为文本的一种技术，是一种方便的人机交互方式，现广泛的应用于移动互联网等领域中。语音识别是一个序列化的分类问题，目的是将收集到的一连串语音信号转化为一串文本输出。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

传统的语音识别系统一般分为三个模块，分别为：声学模型，比如HMM-GMM系统框架描述的模型；语言模型，比如N-Grams描述的模型；解码器，用于结合声学模型、语言模型、发音字典等资源，将声音信号转换为文本信息。随着近年来深层神经网络（DNN）理论的成熟，解决了多层网络训练的问题，同时也可以应用大量的非标注数据。在语音识别领域，DNN也显示出强大的建模能力。无论是声学模型训练还是语言模型训练，深层神经网络都体现出很好的实用效果。

在传统DNN模型训练中，随机梯度下降算法（StochasticGradientDescent，SGD）仅能够顺序地估计模型参数，不同语音数据之间存在时间上的依存关系，难以实现类似Map-Reduce一样的多机并行化算法，不容易做到加速DNN模型训练的速度。为了达到更好的语音识别准确率，在实际应用中倾向于使用海量数据来训练DNN模型，但是如果使用传统的SGD方法，针对上千小时的数据训练模型，往往需要几个月的时间，难以满足应用中实时性的要求。因此实现DNN模型的并行化估计，越来越有价值。

在研究领域中，人们首先引进类牛顿方法来估计DNN模型，这是一种二阶的优化方式。类牛顿算法首先近似估计一个二阶的Hessian矩阵的逆矩阵，然后利用这个矩阵来更新模型参数，这是一种训练单元（batch）的训练方式，不是在线（online）的训练方式，即所有数据仅更新一次模型，数据之间不存在时间上的依存关系，这样就可以将数据拆分成多块，进而实现数据的并行化策略，以加速DNN模型参数估计。

虽然二阶优化在理论上等同于一阶参数优化，并且在迭代收敛速度上快于传统的SGD方法。但是在大数据中，二阶参数优化方式往往需要很多细节部分的调节，在缺少先验的知识下，二阶优化往往没有一阶优化更健壮。具体的，对于语音识别中的DNN建模而言，这种算法并不能达到SGD算法的良好性能。

发明内容

本发明实施方式提出一种声学模型训练方法，以提高声学模型的性能。

本发明实施方式提出一种声学模型训练装置，以提高声学模型的性能。

本发明实施方式的技术方案如下：

一种声学模型训练方法，该方法包括：

建立深层神经网络模型初始模型；

将语音训练数据划分为N个不相交的数据子集合，针对每个数据子集合利用随机梯度下降算法更新所述深层神经网络模型初始模型，得到N个深层神经网络模型子模型，其中N为至少为2的自然数；

融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型，并当该深层神经网络模型中间模型符合预先设定的收敛条件时，判定该深层神经网络模型中间模型为训练后声学模型。

一种声学模型训练装置，包括初始模型建立单元、子模型获取单元和融合单元，其中：

初始模型建立单元，用于建立深层神经网络模型初始模型；

子模型获取单元，用于将语音训练数据划分为N个不相交的数据子集合，针对每个数据子集合利用随机梯度下降算法更新所述深层神经网络模型初始模型，得到N个深层神经网络模型子模型，其中N为至少为2的自然数；

融合单元，用于融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型，并当该深层神经网络模型中间模型符合预先设定的收敛条件时，判定该深层神经网络模型中间模型为训练后声学模型。

从上述技术方案可以看出，在本发明实施方式中，建立深层神经网络模型初始模型；将语音训练数据划分为N个不相交的数据子集合，针对每个数据子集合利用随机梯度下降算法更新所述深层神经网络模型初始模型，得到N个深层神经网络模型子模型，其中N为至少为2的自然数；融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型，并当该深层神经网络模型中间模型符合预先设定的收敛条件时，判定该深层神经网络模型中间模型为训练后声学模型。由此可见，应用本发明实施方式之后，提出了深层神经网络并行训练方法，可以使用不同语音数据同时训练多个深层神经网络子模型，然后将这些子模型融合起来，得到一个性能更好的训练后声学模型，同时可以大大缩小模型训练所需的时间。

而且，本发明实施方式可以使用多个深层神经网络模型，解码得到每个深层神经网络模型输出的后验概率，再将若干个后验概率通过最优化的方式融合，得到最终的语音识别输出结果，这样可以降低每个深层神经网络模型输出的后验概率的偏差，并提高语音识别的性能。

附图说明

图1为现有技术HMM-DNN系统的处理流程图；

图2为根据本发明实施方式的声学模型训练方法流程图；

图3为根据本发明实施方式的DNN声学模型训练流程图；

图4为根据本发明实施方式的DNN声学模型测试流程图；

图5为根据本发明实施方式的声学模型训练装置结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

本发明实施方式关注声学模型的训练，声学模型的训练是语音识别技术的核心步骤。

语音识别是一个序列化的分类问题，目的是将收集到的一连串语音信号转化为一串文本输出。由于语音信号存在时间上的关联，即某一个时刻的语音数据与前面若干时刻的语音数据相关。为了模拟语音数据产生的机制，马尔科夫模型被引进语音识别领域当中。为了进一步简化模型的复杂度，马尔科夫模型的每一个当前状态仅和前一个时刻的状态有关。

对于每个特定的语言来说，由于语音信号其最基本的发音单元均是有限数目，观测到一个特定发音的时候，其对应的文本并不一定相同，隐藏马尔科夫模型（HiddenMarkovModel，HMM）正好可以表达这一问题。在语音识别中，隐藏马尔科夫模型作为最基本的描述语音数据产生机制的模型一直沿用至今。同时，由于语音信号存在着丰富的变化可能，同样文本的语音，不同性别，不同地域，不同情绪，不同风格的人说出来，均存在着差异，为了描述这一差异，高斯混合模型（GaussianMixtureModel，GMM）被引入语音识别领域。HMM-GMM的系统框架，主导语音识别领域多年，并在近年由于海量数据的引入，和互联网技术的发展，逐步可以满足大量的现实需求。

对于HMM-GMM系统而言，训练一个具有较高识别率的声学模型，需要大量有标注的语音数据，利用EM算法估计HMM-GMM模型的各种参数。比如：对于中文而言，语音的发音字典包含了100多个不同的音素，而HMM-GMM模型通常使用的三因子（TriphoneModel）模型，则根据前后文的音素，扩展出来100万左右各不同的音素模型，这就需要大量的有标注的语音数据来对这些不同的音素模型进行建模。

由于可用的有标注的语音数据往往都是较少的，不可能涵盖所有的音素模型，对于某些音素而言，对应的数据往往是稀疏的。这种情况下，待估计的参数数目，要比估计数据多，就容易造成参数估计的不稳定，不能很好的模拟语音数据的真实情况。

为了解决这一问题，提出决策树方法。即根据不同音素的产生机制以及可用的估计数据的多少，通过聚类的方式，将100万个模型，聚类成为几万个模型，这样就可以使得每一个模型类包含较多的数据，可以较为准确地估计模型类。这种聚类方法，是根据可用的语音数据，近似地对模型进行估计的一种方案。由于模型数目大大减少，每个模型类中，原有的模型特性会被同一类中其他模型的特性掩盖掉，最终导致模型类只是一个均值模型，其模拟参数的能力并不强大。

同时，HMM模型中包含有一个强假设：每个状态至于前一状态有关。这一假设破坏了时间序列信号前后相关的特性。近年来，为了弥补这一假设，人们引进splice的补偿方式，就是把当前的语音信号前后扩展几帧，拼成一个大的向量信号，然后进行HMM-GMM模型的训练，由于拼接信号带来了高维度的问题，这一问题更加加大了数据量不充足的问题，因此只能将这一高维信号进行降维操作，以达到数据和维度的平衡。这一操作难免引入信息损耗，并不是一个合理的方案。

随着近年来深层神经网络理论的成熟，解决了多层网络训练的问题，同时也可以应用大量的非标注数据。在语音识别领域，DNN也显示出强大的建模能力。无论是声学模型训练还是语言模型训练，深层神经网络都体现出很好的实用效果。HMM-DNN识别框架逐渐成为现在语音识别技术的主流。

在传统HMM-DNN模型训练中，SGD算法仅能够顺序估计模型参数（即假如可供训练的语音数据一共有100万条，SGD方法必须逐条使用，读入第N条语音数据计算梯度；更新DNN模型；然后读入第N+1条语音数据，利用上次得到的DNN模型基础进行计算梯度，再一次更新DNN模型），不同语音数据之间存在时间上的依存关系，难以实现类似Map-Reduce一样的多机并行化算法，不容易做到加速DNN模型训练的速度。

为了达到更好的语音识别准确率，在实际应用中倾向于使用海量数据来训练DNN模型，但是如果使用传统的SGD方法，上千小时的数据训练模型，往往需要几个月的时间，难以满足应用中实时性的要求。因此实现DNN模型的并行化估计，越来越有价值。

同时由于神经网络仍然是一种基于数据驱动得到的统计模型，如果训练数据中包含一定的倾向性，比如都是来自电话的语音数据，通过SGD算法得到的最终DNN模型，还是会存在一定的偏差，它会更好的识别来自于电话信道的语音数据，而对其他来源的语音数据，识别率会偏低。从原理上看，DNN网络输出的是有关某个绑定音素状态的后验概率，这个后验概率具有一定的概率分布。它具有一个变化范围，称之为误差。这个误差造成语音识别中由电话风格语音数据训练的DNN模型对来自其他风格的语音数据的识别结果较差。

本发明实施方式针对这个问题，同时还可以在解码器端提出了一种降低该误差的方法。即使用多个DNN模型解码，得到每个DNN模型输出的后验概率，将若干个后验概率通过最优化的方式融合，得到最终的语音识别输出结果。这样可以降低每个DNN模型输出的后验概率的偏差，提高语音识别的性能。

图1为现有技术的HMM-DNN系统执行流程图。

如图1所示，传统的HMM-DNN系统框架下，首先要训练DNN声学模型，然后利用DNN模型和HMM模型的拓扑结构，完成解码操作。

要训练DNN声学模型，首先要获取一定的资源文件，资源文件包括：

（1）、训练数据的声学特征：把参与DNN模型训练的数据（大约几千小时）收集起来，通过声学参数提取模块，获得语音数据的声学特征，比如PLP，MFCC，FBank等。这些特征可以较好的反应语音数据中包含的文本信息（即语音识别的目的，将声音转换为文本）。

（2）、状态级标注：使用HMM-GMM模型，对于全部训练数据做强制性对齐（Alignment），得到某个语音特征文件，不同时间节点的特征对应的音素状态。

（3）、HMM模型拓扑结构：即使用传统HMM-GMM框架训练好的HMM模型，包含最终聚类的状态数目，状态绑定列表，音素绑定列表，以及状态之间的转移概率，这些都是在DNN模型训练和测试中需要的资源。

（4）、DNN模型拓扑结构：输入特征前后扩展的帧数，DNN网络层次，DNN网络节点数目，激活函数形式等资源。

要测试HMM-DNN模型的性能，需要获取另外一批资源，这包括：

（5）、语言模型：即表征各个词之间的相互关系的文件。常用的语言模型为N-gram，即当前词给定N-1个词历史的情况下的出现概率。

（6）、发音字典：每个词如何发音，具体的是指每个词对应的音素基本单元序列。

传统的DNN模型的训练流程如下：

步骤1，根据准备好的DNN模型拓扑结构，建立DNN模型的初始模型，并且设定SGD所需的参数，如学习率（learningrate），动量项（Momentum），最小训练单元（mini-batchsize）等。

步骤2，把所有的语音训练数据随机排列成一个语音文件序列，SGD算法按照排列好的顺序，按照最小训练单元（mini-batch）的大小，逐次读入特征文件以及对应的状态级标注文件，更新DNN模型。

步骤3，在全部语音训练数据都参与DNN模型的更新之后，就完成了一次迭代训练，这时候得到一个DNN的中间模型。需要使用开发集合来交叉验证（CrossValidation）该中间模型是否最优。具体包括：使用开发集合的语音数据，在DNN中间模型上计算帧级的准确率；如果开发集合上的准确率大于预先设置好的门限，就可以结束训练，将DNN中间模型作为DNN最终模型；如果小于预先设置好的门限，则说明这个中间模型还不是最优模型，这时候就跳到步骤2，继续训练。

在得到了DNN模型之后，传统方式需要同时获得语言模型（LanguageModel），发音字典（Lexicon），音素集合（Phoneset）等资源。通过动态或者静态扩展解码空间，使用维特比解码（ViterbiAlgorithm）方法，将语音文件转换为文本文件。

本发明实施方式提出一种声学模型训练方法，是一种并行的DNN声学模型训练框架，可以替代传统DNN模型的训练部分。

本发明实施方式针对一阶优化SGD方法，在DNN的声学模型训练当中，提出了一种近似的并行化估计策略。即使用不同语音数据，同时训练多个DNN模型，然后采用最优化策略，将这些模型融合起来，得到一个比得到的多个DNN模型性能更好的一个DNN模型。

图2为根据本发明实施方式的声学模型训练方法流程图。

如图2所示，该方法包括：

步骤201：建立深层神经网络模型初始模型；

步骤202：将语音训练数据划分为N个不相交的数据子集合，针对每个数据子集合利用随机梯度下降算法更新所述深层神经网络模型初始模型，得到N个深层神经网络模型子模型，其中N为至少为2的自然数；

在这里，可以将语音训练数据随机排列成语音文件序列；然后再将该语音文件序列划分为N个不相交的数据子集合。

步骤203：融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型，并当该深层神经网络模型中间模型符合预先设定的收敛条件时，判定该深层神经网络模型中间模型为训练后声学模型

在一个实施方式中，在融合所述N个深层神经网络模型子模型的过程中，每个深层神经网络模型子模型的所有层次共享融合权重。

在一个实施方式中，在融合所述N个深层神经网络模型子模型的过程中，每个深层神经网络模型子模型的各个层次的融合权重并不相同。

该方法进一步包括：

收集M个训练后声学模型，其中M为至少为2的自然数；

对于同一个测试语音数据，分别使用所述M个训练后声学模型解码出M个后验概率序列；

融合所述M个后验概率序列，以得到语音识别结果。

在一个实施方式中，所述融合所述M个后验概率序列包括：在融合所述M个后验概率序列的过程中，每个后验概率序列的所有绑定音素状态共享融合权重。

在一个实施方式中，所述融合所述M个后验概率序列包括：在融合所述M个后验概率序列的过程中，每个后验概率序列的各个绑定音素状态的融合权重并不相同。

基于上述分析，下面描述根据本发明实施方式训练DNN声学模型的示范性实例。

图3为根据本发明实施方式的DNN声学模型训练流程图。

首先要获取一定的资源文件，资源文件包括：

要测试HMM-DNN模型的性能，需要获取另外一批资源，这包括：

而且，可以需要根据CPU集群的数目等方式，确定N值。

如图3所示，该流程包括：

步骤1：根据准备好的DNN模型拓扑结构，建立一个DNN模型的初始模型，并设定好SGD之中所需的参数，如学习率（learningrate），动量项（Momentum），mini-batchsize以及待划分子模型数目等。

步骤2：把所有的语音训练数据随机的排列成一个语音文件序列，再按照设定的子模型数目N，将语音文件划分为N个不相交的子集合。对于每个数据子集，均调用SGD算法从其分配的数据子集中，按照排列好的顺序，按照最小训练单元（mini-batch）的大小，逐次读入特征文件以及对应的状态级标注文件，更新DNN模型的初始模型，得到N个DNN子模型。

步骤3：使用DNN模型融合的开发集合，调用模型融合模块通过最优化的方式将N个DNN子模型融合起来，得到DNN中间模型。

假定每个DNN子模型包含H个层次，每层包含的参数写为Wnh，其中n表示第n个子模型，h表示第h个层次；n取[1,N]区间的整数，h取[1,H]区间的整数。

具体可以实时2个融合策略。

一个是模型级的融合，即每个子模型的所有层次共享一个融合权重。W_final,x=a₁W_1x+a₂*W_2x+...+a_N*W_Nx；W_final,x表示最终融合之后权重的第x层，x取[1，H]之间的整数，另外权重满足a1+a2+...+aN=1这个条件。

另一个策略是层次级融合，即每个子模型的各个层次参数的权重不相同。W_final,x=a_1x*W_1x+a_2x*W_2x+...+a_Nx*W_Nx，x表示第x层，取[1，H]之间的整数，权重满足条件a_1x+a_2x+...+a_Nx=1。

可以使用各种优化手段来实现融合权重的估计，比如一阶的梯度下降算法，二阶的LBFGS算法。

步骤4，上述融合之后的DNN模型是一个DNN的中间模型，可以使用开发集合来交叉验证（CrossValidation）这个中间模型是否最优。具体包括：使用开发集合的语音数据，在DNN中间模型上计算帧级的准确率。如果开发集合上的帧级准确率大于预先设置好的门限，就可以结束训练，将DNN中间模型作为DNN最终模型；如果小于预先设置好的门限，则说明这个中间模型还不是最优模型，这时候就跳到步骤2，继续训练。

在根据上述流程得到DNN模型之后，可以利用传统的HMM-DNN模型框架中的测试方法来进行。

优选地，本发明实施方式还提出训练多个DNN声学模型的算法，其中各个DNN模型必须保证输出的状态数目是一致的，并且这些状态的均来自同一个HMM-GMM模型。除了这个要求之外，各个DNN模型的拓扑结构（深层神经网络的层数，隐藏层节点数目）可以不同；训练方式（比如采用传统的DNN训练方法或采用本发明实施方式提出的并行训练方法）可以不同；训练参数（学习率，动量项，mini-batchsize等）设置可以不同；以及所采用的语音训练数据可以不同。

图4为根据本发明实施方式的DNN声学模型测试流程图。

如图4所示，该方法包括：

步骤1：收集M个不同的DNN声学模型，以及类似传统HMM-DNN解码过程中的所有资源文件。

步骤2：对于同一个测试语音，分别使用M个DNN模型解码出M个后验概率的序列。

步骤3：利用开发集合，使将步骤2中得到的M个概率序列融合起来，得到最终的语音识别结果。

基于上述详细分析，本发明实施方式还提出了一种声学模型训练装置。

图5为根据本发明实施方式的声学模型训练装置结构图。

如图5所示，声学模型训练装置包括初始模型建立单元501、子模型获取单元502和融合单元503，其中：

初始模型建立单元501，用于建立深层神经网络模型初始模型；

子模型获取单元502，用于将语音训练数据划分为N个不相交的数据子集合，针对每个数据子集合利用随机梯度下降算法更新所述深层神经网络模型初始模型，得到N个深层神经网络模型子模型，其中N为至少为2的自然数；

融合单元503，用于融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型，并当该深层神经网络模型中间模型符合预先设定的收敛条件时，判定该深层神经网络模型中间模型为训练后声学模型。

在一个实施方式中：

子模型获取单元502，用于将语音训练数据随机排列成语音文件序列；将该语音文件序列划分为N个不相交的数据子集合。

在一个实施方式中：

融合单元503，用于在融合所述N个深层神经网络模型子模型的过程中，每个深层神经网络模型子模型的所有层次共享融合权重。

在一个实施方式中：

融合单元503，用于在融合所述N个深层神经网络模型子模型的过程中，每个深层神经网络模型子模型的各个层次的融合权重并不相同。

在一个实施方式中，进一步包括测试单元504，其中：

测试单元504，用于收集M个训练后声学模型，其中M为至少为2的自然数；对于同一个测试语音数据，分别使用所述M个训练后声学模型解码出M个后验概率序列；融合所述M个后验概率序列，以得到语音识别结果。

在一个实施方式中：

测试单元504，用于在融合所述M个后验概率序列的过程中，每个后验概率序列的所有绑定音素状态共享融合权重。

在一个实施方式中：

测试单元504，用于在融合所述M个后验概率序列的过程中，每个后验概率序列的各个绑定音素状态的融合权重并不相同。

可以将图2所示方法集成到各种语音识别的硬件实体当中。比如，可以集成到：功能手机、智能手机、掌上电脑、个人电脑（PC）、平板电脑或个人数字助理（PDA），等等设备之中。

实际上，可以通过多种形式来具体实施本发明实施方式所提出的声学模型训练方法。比如，可以遵循一定规范的应用程序接口，将声学模型训练方法编写为安装到自然语言处理服务器中的插件程序，也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时，可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出的声学模型训练方法。

可以通过指令或指令集存储的储存方式将本发明实施方式所提出的声学模型训练方法存储在各种存储介质上。这些存储介质包括但是不局限于：软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒（MemoryStick）、xD卡等。

另外，还可以将本发明实施方式所提出的声学模型训练方法应用到基于闪存（Nandflash）的存储介质中，比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。

综上所述，在本发明实施方式中，建立深层神经网络模型初始模型；将语音训练数据划分为N个不相交的数据子集合，针对每个数据子集合利用随机梯度下降算法更新所述深层神经网络模型初始模型，得到N个深层神经网络模型子模型，其中N为至少为2的自然数；融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型，并当该深层神经网络模型中间模型符合预先设定的收敛条件时，判定该深层神经网络模型中间模型为训练后声学模型。由此可见，应用本发明实施方式之后，提出了深层神经网络并行训练方法，可以使用不同语音数据同时训练多个深层神经网络子模型，然后将这些子模型融合起来，得到一个性能更好的训练后声学模型，同时极大的减少了DNN声学模型的训练时间。

而且，本发明实施方式可以使用多个深层神经网络模型解码，得到每个深层神经网络模型输出的后验概率，再将若干个后验概率通过最优化的方式融合，得到最终的语音识别输出结果，这样可以降低每个深层神经网络模型输出的后验概率的偏差，并提高语音识别的性能。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声学模型训练方法，其特征在于，该方法包括：

建立深层神经网络模型初始模型；

融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型，并当该深层神经网络模型中间模型符合预先设定的收敛条件时，判定该深层神经网络模型中间模型为训练后声学模型；

该方法进一步包括：

收集M个训练后声学模型，其中M为至少为2的自然数；

融合所述M个后验概率序列，以得到语音识别结果。

2.根据权利要求1所述的声学模型训练方法，其特征在于，所述将语音训练数据划分为N个不相交的数据子集合包括：

将语音训练数据随机排列成语音文件序列；

将该语音文件序列划分为N个不相交的数据子集合。

3.根据权利要求1所述的声学模型训练方法，其特征在于，所述融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型包括：

在融合所述N个深层神经网络模型子模型的过程中，每个深层神经网络模型子模型的所有层次共享融合权重。

4.根据权利要求1所述的声学模型训练方法，其特征在于，所述融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型包括：

在融合所述N个深层神经网络模型子模型的过程中，每个深层神经网络模型子模型的各个层次的融合权重并不相同。

5.根据权利要求1所述的声学模型训练方法，其特征在于，所述融合所述M个后验概率序列包括：

在融合所述M个后验概率序列的过程中，每个后验概率序列的所有绑定音素状态共享融合权重。

6.根据权利要求1所述的声学模型训练方法，其特征在于，所述融合所述M个后验概率序列包括：

在融合所述M个后验概率序列的过程中，每个后验概率序列的各个绑定音素状态的融合权重并不相同。

7.一种声学模型训练装置，其特征在于，包括初始模型建立单元、子模型获取单元和融合单元，其中：

初始模型建立单元，用于建立深层神经网络模型初始模型；

融合单元，用于融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型，并当该深层神经网络模型中间模型符合预先设定的收敛条件时，判定该深层神经网络模型中间模型为训练后声学模型；

进一步包括测试单元，其中：

测试单元，用于收集M个训练后声学模型，其中M为至少为2的自然数；对于同一个测试语音数据，分别使用所述M个训练后声学模型解码出M个后验概率序列；融合所述M个后验概率序列，以得到语音识别结果。

8.根据权利要求7所述的声学模型训练装置，其特征在于，

子模型获取单元，用于将语音训练数据随机排列成语音文件序列；将该语音文件序列划分为N个不相交的数据子集合。

9.根据权利要求7所述的声学模型训练装置，其特征在于，

融合单元，用于在融合所述N个深层神经网络模型子模型的过程中，每个深层神经网络模型子模型的所有层次共享融合权重。

10.根据权利要求7所述的声学模型训练装置，其特征在于，

融合单元，用于在融合所述N个深层神经网络模型子模型的过程中，每个深层神经网络模型子模型的各个层次的融合权重并不相同。

11.根据权利要求7所述的声学模型训练装置，其特征在于，

测试单元，用于在融合所述M个后验概率序列的过程中，每个后验概率序列的所有绑定音素状态共享融合权重。

12.根据权利要求7所述的声学模型训练装置，其特征在于，

测试单元，用于在融合所述M个后验概率序列的过程中，每个后验概率序列的各个绑定音素状态的融合权重并不相同。