CN104143327B - 一种声学模型训练方法和装置 - Google Patents

一种声学模型训练方法和装置 Download PDF

Info

Publication number
CN104143327B
CN104143327B CN201310288097.6A CN201310288097A CN104143327B CN 104143327 B CN104143327 B CN 104143327B CN 201310288097 A CN201310288097 A CN 201310288097A CN 104143327 B CN104143327 B CN 104143327B
Authority
CN
China
Prior art keywords
model
neural
deep
network model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310288097.6A
Other languages
English (en)
Other versions
CN104143327A (zh
Inventor
王尔玉
卢鲤
张翔
刘海波
饶丰
李露
岳帅
陈波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310288097.6A priority Critical patent/CN104143327B/zh
Priority to PCT/CN2013/085568 priority patent/WO2015003436A1/en
Priority to US14/108,237 priority patent/US9508347B2/en
Priority to TW103123852A priority patent/TWI530940B/zh
Publication of CN104143327A publication Critical patent/CN104143327A/zh
Priority to HK15100031.4A priority patent/HK1199672A1/zh
Application granted granted Critical
Publication of CN104143327B publication Critical patent/CN104143327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Abstract

本发明实施方式提出一种声学模型训练方法和装置。方法包括:建立深层神经网络模型初始模型;将语音训练数据划分为N个不相交的数据子集合,针对每个数据子集合利用随机梯度下降算法更新深层神经网络模型初始模型,得到N个深层神经网络模型子模型,其中N为至少为2的自然数;融合N个深层神经网络模型子模型以得到深层神经网络模型中间模型,并当该深层神经网络模型中间模型符合预先设定的收敛条件时,判定该深层神经网络模型中间模型为训练后声学模型。本发明实施方式提高了声学模型的训练效率,并且不降低语音识别的性能。

Description

一种声学模型训练方法和装置
技术领域
本发明实施方式涉及语音识别技术领域,更具体地,涉及一种声学模型训练方法和装置。
背景技术
语音识别是将语音信号转为文本的一种技术,是一种方便的人机交互方式,现广泛的应用于移动互联网等领域中。语音识别是一个序列化的分类问题,目的是将收集到的一连串语音信号转化为一串文本输出。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
传统的语音识别系统一般分为三个模块,分别为:声学模型,比如HMM-GMM系统框架描述的模型;语言模型,比如N-Grams描述的模型;解码器,用于结合声学模型、语言模型、发音字典等资源,将声音信号转换为文本信息。随着近年来深层神经网络(DNN)理论的成熟,解决了多层网络训练的问题,同时也可以应用大量的非标注数据。在语音识别领域,DNN也显示出强大的建模能力。无论是声学模型训练还是语言模型训练,深层神经网络都体现出很好的实用效果。
在传统DNN模型训练中,随机梯度下降算法(StochasticGradientDescent,SGD)仅能够顺序地估计模型参数,不同语音数据之间存在时间上的依存关系,难以实现类似Map-Reduce一样的多机并行化算法,不容易做到加速DNN模型训练的速度。为了达到更好的语音识别准确率,在实际应用中倾向于使用海量数据来训练DNN模型,但是如果使用传统的SGD方法,针对上千小时的数据训练模型,往往需要几个月的时间,难以满足应用中实时性的要求。因此实现DNN模型的并行化估计,越来越有价值。
在研究领域中,人们首先引进类牛顿方法来估计DNN模型,这是一种二阶的优化方式。类牛顿算法首先近似估计一个二阶的Hessian矩阵的逆矩阵,然后利用这个矩阵来更新模型参数,这是一种训练单元(batch)的训练方式,不是在线(online)的训练方式,即所有数据仅更新一次模型,数据之间不存在时间上的依存关系,这样就可以将数据拆分成多块,进而实现数据的并行化策略,以加速DNN模型参数估计。
虽然二阶优化在理论上等同于一阶参数优化,并且在迭代收敛速度上快于传统的SGD方法。但是在大数据中,二阶参数优化方式往往需要很多细节部分的调节,在缺少先验的知识下,二阶优化往往没有一阶优化更健壮。具体的,对于语音识别中的DNN建模而言,这种算法并不能达到SGD算法的良好性能。
发明内容
本发明实施方式提出一种声学模型训练方法,以提高声学模型的性能。
本发明实施方式提出一种声学模型训练装置,以提高声学模型的性能。
本发明实施方式的技术方案如下:
一种声学模型训练方法,该方法包括:
建立深层神经网络模型初始模型;
将语音训练数据划分为N个不相交的数据子集合,针对每个数据子集合利用随机梯度下降算法更新所述深层神经网络模型初始模型,得到N个深层神经网络模型子模型,其中N为至少为2的自然数;
融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型,并当该深层神经网络模型中间模型符合预先设定的收敛条件时,判定该深层神经网络模型中间模型为训练后声学模型。
一种声学模型训练装置,包括初始模型建立单元、子模型获取单元和融合单元,其中:
初始模型建立单元,用于建立深层神经网络模型初始模型;
子模型获取单元,用于将语音训练数据划分为N个不相交的数据子集合,针对每个数据子集合利用随机梯度下降算法更新所述深层神经网络模型初始模型,得到N个深层神经网络模型子模型,其中N为至少为2的自然数;
融合单元,用于融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型,并当该深层神经网络模型中间模型符合预先设定的收敛条件时,判定该深层神经网络模型中间模型为训练后声学模型。
从上述技术方案可以看出,在本发明实施方式中,建立深层神经网络模型初始模型;将语音训练数据划分为N个不相交的数据子集合,针对每个数据子集合利用随机梯度下降算法更新所述深层神经网络模型初始模型,得到N个深层神经网络模型子模型,其中N为至少为2的自然数;融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型,并当该深层神经网络模型中间模型符合预先设定的收敛条件时,判定该深层神经网络模型中间模型为训练后声学模型。由此可见,应用本发明实施方式之后,提出了深层神经网络并行训练方法,可以使用不同语音数据同时训练多个深层神经网络子模型,然后将这些子模型融合起来,得到一个性能更好的训练后声学模型,同时可以大大缩小模型训练所需的时间。
而且,本发明实施方式可以使用多个深层神经网络模型,解码得到每个深层神经网络模型输出的后验概率,再将若干个后验概率通过最优化的方式融合,得到最终的语音识别输出结果,这样可以降低每个深层神经网络模型输出的后验概率的偏差,并提高语音识别的性能。
附图说明
图1为现有技术HMM-DNN系统的处理流程图;
图2为根据本发明实施方式的声学模型训练方法流程图;
图3为根据本发明实施方式的DNN声学模型训练流程图;
图4为根据本发明实施方式的DNN声学模型测试流程图;
图5为根据本发明实施方式的声学模型训练装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
本发明实施方式关注声学模型的训练,声学模型的训练是语音识别技术的核心步骤。
语音识别是一个序列化的分类问题,目的是将收集到的一连串语音信号转化为一串文本输出。由于语音信号存在时间上的关联,即某一个时刻的语音数据与前面若干时刻的语音数据相关。为了模拟语音数据产生的机制,马尔科夫模型被引进语音识别领域当中。为了进一步简化模型的复杂度,马尔科夫模型的每一个当前状态仅和前一个时刻的状态有关。
对于每个特定的语言来说,由于语音信号其最基本的发音单元均是有限数目,观测到一个特定发音的时候,其对应的文本并不一定相同,隐藏马尔科夫模型(HiddenMarkovModel,HMM)正好可以表达这一问题。在语音识别中,隐藏马尔科夫模型作为最基本的描述语音数据产生机制的模型一直沿用至今。同时,由于语音信号存在着丰富的变化可能,同样文本的语音,不同性别,不同地域,不同情绪,不同风格的人说出来,均存在着差异,为了描述这一差异,高斯混合模型(GaussianMixtureModel,GMM)被引入语音识别领域。HMM-GMM的系统框架,主导语音识别领域多年,并在近年由于海量数据的引入,和互联网技术的发展,逐步可以满足大量的现实需求。
对于HMM-GMM系统而言,训练一个具有较高识别率的声学模型,需要大量有标注的语音数据,利用EM算法估计HMM-GMM模型的各种参数。比如:对于中文而言,语音的发音字典包含了100多个不同的音素,而HMM-GMM模型通常使用的三因子(TriphoneModel)模型,则根据前后文的音素,扩展出来100万左右各不同的音素模型,这就需要大量的有标注的语音数据来对这些不同的音素模型进行建模。
由于可用的有标注的语音数据往往都是较少的,不可能涵盖所有的音素模型,对于某些音素而言,对应的数据往往是稀疏的。这种情况下,待估计的参数数目,要比估计数据多,就容易造成参数估计的不稳定,不能很好的模拟语音数据的真实情况。
为了解决这一问题,提出决策树方法。即根据不同音素的产生机制以及可用的估计数据的多少,通过聚类的方式,将100万个模型,聚类成为几万个模型,这样就可以使得每一个模型类包含较多的数据,可以较为准确地估计模型类。这种聚类方法,是根据可用的语音数据,近似地对模型进行估计的一种方案。由于模型数目大大减少,每个模型类中,原有的模型特性会被同一类中其他模型的特性掩盖掉,最终导致模型类只是一个均值模型,其模拟参数的能力并不强大。
同时,HMM模型中包含有一个强假设:每个状态至于前一状态有关。这一假设破坏了时间序列信号前后相关的特性。近年来,为了弥补这一假设,人们引进splice的补偿方式,就是把当前的语音信号前后扩展几帧,拼成一个大的向量信号,然后进行HMM-GMM模型的训练,由于拼接信号带来了高维度的问题,这一问题更加加大了数据量不充足的问题,因此只能将这一高维信号进行降维操作,以达到数据和维度的平衡。这一操作难免引入信息损耗,并不是一个合理的方案。
随着近年来深层神经网络理论的成熟,解决了多层网络训练的问题,同时也可以应用大量的非标注数据。在语音识别领域,DNN也显示出强大的建模能力。无论是声学模型训练还是语言模型训练,深层神经网络都体现出很好的实用效果。HMM-DNN识别框架逐渐成为现在语音识别技术的主流。
在传统HMM-DNN模型训练中,SGD算法仅能够顺序估计模型参数(即假如可供训练的语音数据一共有100万条,SGD方法必须逐条使用,读入第N条语音数据计算梯度;更新DNN模型;然后读入第N+1条语音数据,利用上次得到的DNN模型基础进行计算梯度,再一次更新DNN模型),不同语音数据之间存在时间上的依存关系,难以实现类似Map-Reduce一样的多机并行化算法,不容易做到加速DNN模型训练的速度。
为了达到更好的语音识别准确率,在实际应用中倾向于使用海量数据来训练DNN模型,但是如果使用传统的SGD方法,上千小时的数据训练模型,往往需要几个月的时间,难以满足应用中实时性的要求。因此实现DNN模型的并行化估计,越来越有价值。
同时由于神经网络仍然是一种基于数据驱动得到的统计模型,如果训练数据中包含一定的倾向性,比如都是来自电话的语音数据,通过SGD算法得到的最终DNN模型,还是会存在一定的偏差,它会更好的识别来自于电话信道的语音数据,而对其他来源的语音数据,识别率会偏低。从原理上看,DNN网络输出的是有关某个绑定音素状态的后验概率,这个后验概率具有一定的概率分布。它具有一个变化范围,称之为误差。这个误差造成语音识别中由电话风格语音数据训练的DNN模型对来自其他风格的语音数据的识别结果较差。
本发明实施方式针对这个问题,同时还可以在解码器端提出了一种降低该误差的方法。即使用多个DNN模型解码,得到每个DNN模型输出的后验概率,将若干个后验概率通过最优化的方式融合,得到最终的语音识别输出结果。这样可以降低每个DNN模型输出的后验概率的偏差,提高语音识别的性能。
图1为现有技术的HMM-DNN系统执行流程图。
如图1所示,传统的HMM-DNN系统框架下,首先要训练DNN声学模型,然后利用DNN模型和HMM模型的拓扑结构,完成解码操作。
要训练DNN声学模型,首先要获取一定的资源文件,资源文件包括:
(1)、训练数据的声学特征:把参与DNN模型训练的数据(大约几千小时)收集起来,通过声学参数提取模块,获得语音数据的声学特征,比如PLP,MFCC,FBank等。这些特征可以较好的反应语音数据中包含的文本信息(即语音识别的目的,将声音转换为文本)。
(2)、状态级标注:使用HMM-GMM模型,对于全部训练数据做强制性对齐(Alignment),得到某个语音特征文件,不同时间节点的特征对应的音素状态。
(3)、HMM模型拓扑结构:即使用传统HMM-GMM框架训练好的HMM模型,包含最终聚类的状态数目,状态绑定列表,音素绑定列表,以及状态之间的转移概率,这些都是在DNN模型训练和测试中需要的资源。
(4)、DNN模型拓扑结构:输入特征前后扩展的帧数,DNN网络层次,DNN网络节点数目,激活函数形式等资源。
要测试HMM-DNN模型的性能,需要获取另外一批资源,这包括:
(5)、语言模型:即表征各个词之间的相互关系的文件。常用的语言模型为N-gram,即当前词给定N-1个词历史的情况下的出现概率。
(6)、发音字典:每个词如何发音,具体的是指每个词对应的音素基本单元序列。
传统的DNN模型的训练流程如下:
步骤1,根据准备好的DNN模型拓扑结构,建立DNN模型的初始模型,并且设定SGD所需的参数,如学习率(learningrate),动量项(Momentum),最小训练单元(mini-batchsize)等。
步骤2,把所有的语音训练数据随机排列成一个语音文件序列,SGD算法按照排列好的顺序,按照最小训练单元(mini-batch)的大小,逐次读入特征文件以及对应的状态级标注文件,更新DNN模型。
步骤3,在全部语音训练数据都参与DNN模型的更新之后,就完成了一次迭代训练,这时候得到一个DNN的中间模型。需要使用开发集合来交叉验证(CrossValidation)该中间模型是否最优。具体包括:使用开发集合的语音数据,在DNN中间模型上计算帧级的准确率;如果开发集合上的准确率大于预先设置好的门限,就可以结束训练,将DNN中间模型作为DNN最终模型;如果小于预先设置好的门限,则说明这个中间模型还不是最优模型,这时候就跳到步骤2,继续训练。
在得到了DNN模型之后,传统方式需要同时获得语言模型(LanguageModel),发音字典(Lexicon),音素集合(Phoneset)等资源。通过动态或者静态扩展解码空间,使用维特比解码(ViterbiAlgorithm)方法,将语音文件转换为文本文件。
本发明实施方式提出一种声学模型训练方法,是一种并行的DNN声学模型训练框架,可以替代传统DNN模型的训练部分。
本发明实施方式针对一阶优化SGD方法,在DNN的声学模型训练当中,提出了一种近似的并行化估计策略。即使用不同语音数据,同时训练多个DNN模型,然后采用最优化策略,将这些模型融合起来,得到一个比得到的多个DNN模型性能更好的一个DNN模型。
图2为根据本发明实施方式的声学模型训练方法流程图。
如图2所示,该方法包括:
步骤201:建立深层神经网络模型初始模型;
步骤202:将语音训练数据划分为N个不相交的数据子集合,针对每个数据子集合利用随机梯度下降算法更新所述深层神经网络模型初始模型,得到N个深层神经网络模型子模型,其中N为至少为2的自然数;
在这里,可以将语音训练数据随机排列成语音文件序列;然后再将该语音文件序列划分为N个不相交的数据子集合。
步骤203:融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型,并当该深层神经网络模型中间模型符合预先设定的收敛条件时,判定该深层神经网络模型中间模型为训练后声学模型
在一个实施方式中,在融合所述N个深层神经网络模型子模型的过程中,每个深层神经网络模型子模型的所有层次共享融合权重。
在一个实施方式中,在融合所述N个深层神经网络模型子模型的过程中,每个深层神经网络模型子模型的各个层次的融合权重并不相同。
该方法进一步包括:
收集M个训练后声学模型,其中M为至少为2的自然数;
对于同一个测试语音数据,分别使用所述M个训练后声学模型解码出M个后验概率序列;
融合所述M个后验概率序列,以得到语音识别结果。
在一个实施方式中,所述融合所述M个后验概率序列包括:在融合所述M个后验概率序列的过程中,每个后验概率序列的所有绑定音素状态共享融合权重。
在一个实施方式中,所述融合所述M个后验概率序列包括:在融合所述M个后验概率序列的过程中,每个后验概率序列的各个绑定音素状态的融合权重并不相同。
基于上述分析,下面描述根据本发明实施方式训练DNN声学模型的示范性实例。
图3为根据本发明实施方式的DNN声学模型训练流程图。
首先要获取一定的资源文件,资源文件包括:
(1)、训练数据的声学特征:把参与DNN模型训练的数据(大约几千小时)收集起来,通过声学参数提取模块,获得语音数据的声学特征,比如PLP,MFCC,FBank等。这些特征可以较好的反应语音数据中包含的文本信息(即语音识别的目的,将声音转换为文本)。
(2)、状态级标注:使用HMM-GMM模型,对于全部训练数据做强制性对齐(Alignment),得到某个语音特征文件,不同时间节点的特征对应的音素状态。
(3)、HMM模型拓扑结构:即使用传统HMM-GMM框架训练好的HMM模型,包含最终聚类的状态数目,状态绑定列表,音素绑定列表,以及状态之间的转移概率,这些都是在DNN模型训练和测试中需要的资源。
(4)、DNN模型拓扑结构:输入特征前后扩展的帧数,DNN网络层次,DNN网络节点数目,激活函数形式等资源。
要测试HMM-DNN模型的性能,需要获取另外一批资源,这包括:
(5)、语言模型:即表征各个词之间的相互关系的文件。常用的语言模型为N-gram,即当前词给定N-1个词历史的情况下的出现概率。
(6)、发音字典:每个词如何发音,具体的是指每个词对应的音素基本单元序列。
而且,可以需要根据CPU集群的数目等方式,确定N值。
如图3所示,该流程包括:
步骤1:根据准备好的DNN模型拓扑结构,建立一个DNN模型的初始模型,并设定好SGD之中所需的参数,如学习率(learningrate),动量项(Momentum),mini-batchsize以及待划分子模型数目等。
步骤2:把所有的语音训练数据随机的排列成一个语音文件序列,再按照设定的子模型数目N,将语音文件划分为N个不相交的子集合。对于每个数据子集,均调用SGD算法从其分配的数据子集中,按照排列好的顺序,按照最小训练单元(mini-batch)的大小,逐次读入特征文件以及对应的状态级标注文件,更新DNN模型的初始模型,得到N个DNN子模型。
步骤3:使用DNN模型融合的开发集合,调用模型融合模块通过最优化的方式将N个DNN子模型融合起来,得到DNN中间模型。
假定每个DNN子模型包含H个层次,每层包含的参数写为Wnh,其中n表示第n个子模型,h表示第h个层次;n取[1,N]区间的整数,h取[1,H]区间的整数。
具体可以实时2个融合策略。
一个是模型级的融合,即每个子模型的所有层次共享一个融合权重。Wfinal,x=a1W1x+a2*W2x+...+aN*WNx;Wfinal,x表示最终融合之后权重的第x层,x取[1,H]之间的整数,另外权重满足a1+a2+...+aN=1这个条件。
另一个策略是层次级融合,即每个子模型的各个层次参数的权重不相同。Wfinal,x=a1x*W1x+a2x*W2x+...+aNx*WNx,x表示第x层,取[1,H]之间的整数,权重满足条件a1x+a2x+...+aNx=1。
可以使用各种优化手段来实现融合权重的估计,比如一阶的梯度下降算法,二阶的LBFGS算法。
步骤4,上述融合之后的DNN模型是一个DNN的中间模型,可以使用开发集合来交叉验证(CrossValidation)这个中间模型是否最优。具体包括:使用开发集合的语音数据,在DNN中间模型上计算帧级的准确率。如果开发集合上的帧级准确率大于预先设置好的门限,就可以结束训练,将DNN中间模型作为DNN最终模型;如果小于预先设置好的门限,则说明这个中间模型还不是最优模型,这时候就跳到步骤2,继续训练。
在根据上述流程得到DNN模型之后,可以利用传统的HMM-DNN模型框架中的测试方法来进行。
优选地,本发明实施方式还提出训练多个DNN声学模型的算法,其中各个DNN模型必须保证输出的状态数目是一致的,并且这些状态的均来自同一个HMM-GMM模型。除了这个要求之外,各个DNN模型的拓扑结构(深层神经网络的层数,隐藏层节点数目)可以不同;训练方式(比如采用传统的DNN训练方法或采用本发明实施方式提出的并行训练方法)可以不同;训练参数(学习率,动量项,mini-batchsize等)设置可以不同;以及所采用的语音训练数据可以不同。
图4为根据本发明实施方式的DNN声学模型测试流程图。
如图4所示,该方法包括:
步骤1:收集M个不同的DNN声学模型,以及类似传统HMM-DNN解码过程中的所有资源文件。
步骤2:对于同一个测试语音,分别使用M个DNN模型解码出M个后验概率的序列。
步骤3:利用开发集合,使将步骤2中得到的M个概率序列融合起来,得到最终的语音识别结果。
基于上述详细分析,本发明实施方式还提出了一种声学模型训练装置。
图5为根据本发明实施方式的声学模型训练装置结构图。
如图5所示,声学模型训练装置包括初始模型建立单元501、子模型获取单元502和融合单元503,其中:
初始模型建立单元501,用于建立深层神经网络模型初始模型;
子模型获取单元502,用于将语音训练数据划分为N个不相交的数据子集合,针对每个数据子集合利用随机梯度下降算法更新所述深层神经网络模型初始模型,得到N个深层神经网络模型子模型,其中N为至少为2的自然数;
融合单元503,用于融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型,并当该深层神经网络模型中间模型符合预先设定的收敛条件时,判定该深层神经网络模型中间模型为训练后声学模型。
在一个实施方式中:
子模型获取单元502,用于将语音训练数据随机排列成语音文件序列;将该语音文件序列划分为N个不相交的数据子集合。
在一个实施方式中:
融合单元503,用于在融合所述N个深层神经网络模型子模型的过程中,每个深层神经网络模型子模型的所有层次共享融合权重。
在一个实施方式中:
融合单元503,用于在融合所述N个深层神经网络模型子模型的过程中,每个深层神经网络模型子模型的各个层次的融合权重并不相同。
在一个实施方式中,进一步包括测试单元504,其中:
测试单元504,用于收集M个训练后声学模型,其中M为至少为2的自然数;对于同一个测试语音数据,分别使用所述M个训练后声学模型解码出M个后验概率序列;融合所述M个后验概率序列,以得到语音识别结果。
在一个实施方式中:
测试单元504,用于在融合所述M个后验概率序列的过程中,每个后验概率序列的所有绑定音素状态共享融合权重。
在一个实施方式中:
测试单元504,用于在融合所述M个后验概率序列的过程中,每个后验概率序列的各个绑定音素状态的融合权重并不相同。
可以将图2所示方法集成到各种语音识别的硬件实体当中。比如,可以集成到:功能手机、智能手机、掌上电脑、个人电脑(PC)、平板电脑或个人数字助理(PDA),等等设备之中。
实际上,可以通过多种形式来具体实施本发明实施方式所提出的声学模型训练方法。比如,可以遵循一定规范的应用程序接口,将声学模型训练方法编写为安装到自然语言处理服务器中的插件程序,也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时,可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出的声学模型训练方法。
可以通过指令或指令集存储的储存方式将本发明实施方式所提出的声学模型训练方法存储在各种存储介质上。这些存储介质包括但是不局限于:软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(MemoryStick)、xD卡等。
另外,还可以将本发明实施方式所提出的声学模型训练方法应用到基于闪存(Nandflash)的存储介质中,比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。
综上所述,在本发明实施方式中,建立深层神经网络模型初始模型;将语音训练数据划分为N个不相交的数据子集合,针对每个数据子集合利用随机梯度下降算法更新所述深层神经网络模型初始模型,得到N个深层神经网络模型子模型,其中N为至少为2的自然数;融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型,并当该深层神经网络模型中间模型符合预先设定的收敛条件时,判定该深层神经网络模型中间模型为训练后声学模型。由此可见,应用本发明实施方式之后,提出了深层神经网络并行训练方法,可以使用不同语音数据同时训练多个深层神经网络子模型,然后将这些子模型融合起来,得到一个性能更好的训练后声学模型,同时极大的减少了DNN声学模型的训练时间。
而且,本发明实施方式可以使用多个深层神经网络模型解码,得到每个深层神经网络模型输出的后验概率,再将若干个后验概率通过最优化的方式融合,得到最终的语音识别输出结果,这样可以降低每个深层神经网络模型输出的后验概率的偏差,并提高语音识别的性能。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种声学模型训练方法,其特征在于,该方法包括:
建立深层神经网络模型初始模型;
将语音训练数据划分为N个不相交的数据子集合,针对每个数据子集合利用随机梯度下降算法更新所述深层神经网络模型初始模型,得到N个深层神经网络模型子模型,其中N为至少为2的自然数;
融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型,并当该深层神经网络模型中间模型符合预先设定的收敛条件时,判定该深层神经网络模型中间模型为训练后声学模型;
该方法进一步包括:
收集M个训练后声学模型,其中M为至少为2的自然数;
对于同一个测试语音数据,分别使用所述M个训练后声学模型解码出M个后验概率序列;
融合所述M个后验概率序列,以得到语音识别结果。
2.根据权利要求1所述的声学模型训练方法,其特征在于,所述将语音训练数据划分为N个不相交的数据子集合包括:
将语音训练数据随机排列成语音文件序列;
将该语音文件序列划分为N个不相交的数据子集合。
3.根据权利要求1所述的声学模型训练方法,其特征在于,所述融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型包括:
在融合所述N个深层神经网络模型子模型的过程中,每个深层神经网络模型子模型的所有层次共享融合权重。
4.根据权利要求1所述的声学模型训练方法,其特征在于,所述融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型包括:
在融合所述N个深层神经网络模型子模型的过程中,每个深层神经网络模型子模型的各个层次的融合权重并不相同。
5.根据权利要求1所述的声学模型训练方法,其特征在于,所述融合所述M个后验概率序列包括:
在融合所述M个后验概率序列的过程中,每个后验概率序列的所有绑定音素状态共享融合权重。
6.根据权利要求1所述的声学模型训练方法,其特征在于,所述融合所述M个后验概率序列包括:
在融合所述M个后验概率序列的过程中,每个后验概率序列的各个绑定音素状态的融合权重并不相同。
7.一种声学模型训练装置,其特征在于,包括初始模型建立单元、子模型获取单元和融合单元,其中:
初始模型建立单元,用于建立深层神经网络模型初始模型;
子模型获取单元,用于将语音训练数据划分为N个不相交的数据子集合,针对每个数据子集合利用随机梯度下降算法更新所述深层神经网络模型初始模型,得到N个深层神经网络模型子模型,其中N为至少为2的自然数;
融合单元,用于融合所述N个深层神经网络模型子模型以得到深层神经网络模型中间模型,并当该深层神经网络模型中间模型符合预先设定的收敛条件时,判定该深层神经网络模型中间模型为训练后声学模型;
进一步包括测试单元,其中:
测试单元,用于收集M个训练后声学模型,其中M为至少为2的自然数;对于同一个测试语音数据,分别使用所述M个训练后声学模型解码出M个后验概率序列;融合所述M个后验概率序列,以得到语音识别结果。
8.根据权利要求7所述的声学模型训练装置,其特征在于,
子模型获取单元,用于将语音训练数据随机排列成语音文件序列;将该语音文件序列划分为N个不相交的数据子集合。
9.根据权利要求7所述的声学模型训练装置,其特征在于,
融合单元,用于在融合所述N个深层神经网络模型子模型的过程中,每个深层神经网络模型子模型的所有层次共享融合权重。
10.根据权利要求7所述的声学模型训练装置,其特征在于,
融合单元,用于在融合所述N个深层神经网络模型子模型的过程中,每个深层神经网络模型子模型的各个层次的融合权重并不相同。
11.根据权利要求7所述的声学模型训练装置,其特征在于,
测试单元,用于在融合所述M个后验概率序列的过程中,每个后验概率序列的所有绑定音素状态共享融合权重。
12.根据权利要求7所述的声学模型训练装置,其特征在于,
测试单元,用于在融合所述M个后验概率序列的过程中,每个后验概率序列的各个绑定音素状态的融合权重并不相同。
CN201310288097.6A 2013-07-10 2013-07-10 一种声学模型训练方法和装置 Active CN104143327B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201310288097.6A CN104143327B (zh) 2013-07-10 2013-07-10 一种声学模型训练方法和装置
PCT/CN2013/085568 WO2015003436A1 (en) 2013-07-10 2013-10-21 Method and device for parallel processing in model training
US14/108,237 US9508347B2 (en) 2013-07-10 2013-12-16 Method and device for parallel processing in model training
TW103123852A TWI530940B (zh) 2013-07-10 2014-07-10 聲學模型訓練方法和裝置
HK15100031.4A HK1199672A1 (zh) 2013-07-10 2015-01-05 種聲學模型訓練方法和裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310288097.6A CN104143327B (zh) 2013-07-10 2013-07-10 一种声学模型训练方法和装置

Publications (2)

Publication Number Publication Date
CN104143327A CN104143327A (zh) 2014-11-12
CN104143327B true CN104143327B (zh) 2015-12-09

Family

ID=51852485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310288097.6A Active CN104143327B (zh) 2013-07-10 2013-07-10 一种声学模型训练方法和装置

Country Status (4)

Country Link
CN (1) CN104143327B (zh)
HK (1) HK1199672A1 (zh)
TW (1) TWI530940B (zh)
WO (1) WO2015003436A1 (zh)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575490B (zh) * 2014-12-30 2017-11-07 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN105989843A (zh) * 2015-01-28 2016-10-05 中兴通讯股份有限公司 一种实现缺失特征重建的方法和装置
CN104732978B (zh) * 2015-03-12 2018-05-08 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN106157959B (zh) * 2015-03-31 2019-10-18 讯飞智元信息科技有限公司 声纹模型更新方法及系统
CN106157953B (zh) * 2015-04-16 2020-02-07 科大讯飞股份有限公司 连续语音识别方法及系统
US10083395B2 (en) 2015-05-21 2018-09-25 Google Llc Batch processing in a neural network processor
CN106297774B (zh) * 2015-05-29 2019-07-09 中国科学院声学研究所 一种神经网络声学模型的分布式并行训练方法及系统
JP5816771B1 (ja) * 2015-06-08 2015-11-18 株式会社Preferred Networks 学習装置ユニット
CN106611599A (zh) * 2015-10-21 2017-05-03 展讯通信(上海)有限公司 基于人工神经网络的语音识别方法、装置及电子设备
CN106683661B (zh) * 2015-11-05 2021-02-05 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
CN105632501B (zh) * 2015-12-30 2019-09-03 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置
US11264044B2 (en) * 2016-02-02 2022-03-01 Nippon Telegraph And Telephone Corporation Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
CN107195299A (zh) * 2016-03-14 2017-09-22 株式会社东芝 训练神经网络声学模型的方法和装置及语音识别方法和装置
CN105869624B (zh) * 2016-03-29 2019-05-10 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置
CN107292385A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种类Alexnet网络的模型训练方法和装置
KR102161902B1 (ko) * 2016-03-31 2020-10-05 후지쯔 가부시끼가이샤 신경망 모델에 대한 훈련 방법, 장치 및 전자 장치
CN106228980B (zh) * 2016-07-21 2019-07-05 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN106504741B (zh) * 2016-09-18 2019-10-25 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于深度神经网络音素信息的语音转换方法
JP6150964B1 (ja) * 2016-10-03 2017-06-21 三菱電機株式会社 ネットワーク構築装置及びネットワーク構築方法
WO2018125264A1 (en) * 2016-12-30 2018-07-05 Google Llc Assessing accuracy of a machine learning model
US11062226B2 (en) 2017-06-15 2021-07-13 Microsoft Technology Licensing, Llc Determining a likelihood of a user interaction with a content element
US10922627B2 (en) 2017-06-15 2021-02-16 Microsoft Technology Licensing, Llc Determining a course of action based on aggregated data
US10805317B2 (en) 2017-06-15 2020-10-13 Microsoft Technology Licensing, Llc Implementing network security measures in response to a detected cyber attack
US10503580B2 (en) 2017-06-15 2019-12-10 Microsoft Technology Licensing, Llc Determining a likelihood of a resource experiencing a problem based on telemetry data
US10885900B2 (en) * 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
CN109522914A (zh) * 2017-09-19 2019-03-26 中国科学院沈阳自动化研究所 一种基于图像的模型融合的神经网络结构训练方法
KR102610820B1 (ko) * 2017-09-27 2023-12-06 삼성전자주식회사 뉴럴 네트워크 시스템 및 뉴럴 네트워크 시스템의 동작방법
US11100399B2 (en) * 2017-11-21 2021-08-24 International Business Machines Corporation Feature extraction using multi-task learning
EP3502975A1 (en) 2017-12-20 2019-06-26 Fujitsu Limited Methods and apparatus for model parallelism in artificial neural networks
CN108492820B (zh) * 2018-03-20 2021-08-10 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
CN110472223A (zh) * 2018-05-10 2019-11-19 北京搜狗科技发展有限公司 一种输入配置方法、装置和电子设备
CN108711429B (zh) * 2018-06-08 2021-04-02 Oppo广东移动通信有限公司 电子设备及设备控制方法
CN108846095A (zh) * 2018-06-15 2018-11-20 联想(北京)有限公司 一种数据处理方法及装置
CN111063338B (zh) * 2018-09-29 2023-09-19 阿里巴巴集团控股有限公司 音频信号识别方法、装置、设备、系统和存储介质
EP3640856A1 (en) 2018-10-19 2020-04-22 Fujitsu Limited A method, apparatus and computer program to carry out a training procedure in a convolutional neural network
CN109599093B (zh) * 2018-10-26 2021-11-26 北京中关村科金技术有限公司 智能质检的关键词检测方法、装置、设备及可读存储介质
CN111105028B (zh) * 2018-10-26 2023-10-24 杭州海康威视数字技术股份有限公司 一种神经网络的训练方法、装置及序列预测方法
US10963757B2 (en) 2018-12-14 2021-03-30 Industrial Technology Research Institute Neural network model fusion method and electronic device using the same
CN109657793B (zh) * 2018-12-26 2020-09-22 广州小狗机器人技术有限公司 模型训练方法及装置、存储介质及电子设备
CN111783932A (zh) * 2019-04-03 2020-10-16 华为技术有限公司 训练神经网络的方法和装置
CN112068854B (zh) * 2019-06-10 2023-09-01 杭州海康威视数字技术股份有限公司 智能设备算法更新系统、智能设备及平台服务器
KR102270169B1 (ko) * 2019-07-26 2021-06-25 주식회사 수아랩 데이터 관리 방법
CN110675864A (zh) * 2019-09-12 2020-01-10 上海依图信息技术有限公司 一种语音识别方法及装置
CN110600020B (zh) * 2019-09-12 2022-05-17 上海依图信息技术有限公司 一种梯度传输方法及装置
CN111141412A (zh) * 2019-12-25 2020-05-12 深圳供电局有限公司 电缆温度和防盗的双监测方法、系统和可读存储介质
CN111243574B (zh) * 2020-01-13 2023-01-03 苏州奇梦者网络科技有限公司 一种语音模型自适应训练方法、系统、装置及存储介质
CN111275170B (zh) * 2020-01-19 2023-11-24 腾讯科技(深圳)有限公司 一种模型训练方法和相关装置
CN111833851B (zh) * 2020-06-16 2021-03-16 杭州云嘉云计算有限公司 一种自动学习优化声学模型的方法
CN113935390A (zh) * 2020-06-29 2022-01-14 中兴通讯股份有限公司 数据处理方法、系统、设备及存储介质
CN111833844A (zh) * 2020-07-28 2020-10-27 苏州思必驰信息科技有限公司 用于语音识别和语种分类的混合模型的训练方法及系统
CN112288686B (zh) * 2020-07-29 2023-12-19 深圳市智影医疗科技有限公司 一种模型训练方法、装置、电子设备和存储介质
CN112597823A (zh) * 2020-12-07 2021-04-02 深延科技(北京)有限公司 注意力识别方法、装置、电子设备及存储介质
CN112819155B (zh) * 2021-01-22 2022-09-16 中国人民解放军国防科技大学 应用于边缘设备的深度神经网络模型分级压缩方法及装置
CN114911596B (zh) * 2022-05-16 2023-04-28 北京百度网讯科技有限公司 针对模型训练的调度方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998054653A2 (en) * 1997-05-29 1998-12-03 Nokia Oyj Associative neural network
CN102737278A (zh) * 2011-03-31 2012-10-17 微软公司 联合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN103020711A (zh) * 2012-12-25 2013-04-03 中国科学院深圳先进技术研究院 分类器训练方法及其系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998054653A2 (en) * 1997-05-29 1998-12-03 Nokia Oyj Associative neural network
CN102737278A (zh) * 2011-03-31 2012-10-17 微软公司 联合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN103020711A (zh) * 2012-12-25 2013-04-03 中国科学院深圳先进技术研究院 分类器训练方法及其系统

Also Published As

Publication number Publication date
CN104143327A (zh) 2014-11-12
WO2015003436A1 (en) 2015-01-15
TWI530940B (zh) 2016-04-21
HK1199672A1 (zh) 2015-07-10
TW201503106A (zh) 2015-01-16

Similar Documents

Publication Publication Date Title
CN104143327B (zh) 一种声学模型训练方法和装置
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
US11062699B2 (en) Speech recognition with trained GMM-HMM and LSTM models
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
US10714076B2 (en) Initialization of CTC speech recognition with standard HMM
CN108831445A (zh) 四川方言识别方法、声学模型训练方法、装置及设备
CN108710704B (zh) 对话状态的确定方法、装置、电子设备及存储介质
CN109036471B (zh) 语音端点检测方法及设备
CN111179917B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
Xia et al. Using denoising autoencoder for emotion recognition.
CN106202056B (zh) 中文分词场景库更新方法和系统
CN110349597A (zh) 一种语音检测方法及装置
CN109741735A (zh) 一种建模方法、声学模型的获取方法和装置
CN111599339B (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
CN111653275A (zh) 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法
CN111462761A (zh) 声纹数据生成方法、装置、计算机装置及存储介质
CN112259089A (zh) 语音识别方法及装置
CN111653274A (zh) 唤醒词识别的方法、装置及存储介质
CN112116907A (zh) 语音识别模型建立、语音识别方法、装置、设备和介质
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
CN111241820A (zh) 不良用语识别方法、装置、电子装置及存储介质
CN114373480A (zh) 语音对齐网络的训练方法、语音对齐方法及电子设备
CN113823265A (zh) 一种语音识别方法、装置和计算机设备
CN111354354A (zh) 一种基于语义识别的训练方法、训练装置及终端设备
CN115050351A (zh) 生成时间戳的方法、装置及计算机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1199672

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180910

Address after: 100090 Beijing Haidian District Zhichun Road 49 No. 3 West 309

Patentee after: Tencent cloud computing (Beijing) limited liability company

Address before: 518044 East 403 room, Sai Ge science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, China 2

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1199672

Country of ref document: HK