CN107680582A

CN107680582A - 声学模型训练方法、语音识别方法、装置、设备及介质

Info

Publication number: CN107680582A
Application number: CN201710627480.8A
Authority: CN
Inventors: 梁浩; 王健宗; 程宁; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2018-02-09
Anticipated expiration: 2037-07-28
Also published as: WO2019019252A1; US20210125603A1; SG11201808360SA; CN107680582B; US11030998B2

Abstract

本发明公开了一种声学模型训练方法、语音识别方法、装置、设备及介质。该声学模型训练方法包括：对训练语音信号进行特征提取，获取音频特征序列；采用音素混合高斯模型‑隐马尔科夫模型对所述音频特征序列进行训练，获取音素特征序列；采用深度神经网络模型‑隐马尔科夫模型‑序列训练模型对所述音素特征序列进行训练，获取目标声学模型。该声学模型训练方法可有效节省声学模型训练所需时间，提高训练效率，并保证识别效率。

Description

声学模型训练方法、语音识别方法、装置、设备及介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种声学模型训练方法、语音识别方法、装置、设备及介质。

背景技术

语音识别技术，又称自动语音识别(Automatic Speech Recognition,ASR)，是一种使机器通过识别和理解，将语音信号转变成文字信号的技术，是现代人工智能发展的重要分支。传统语音识别过程，采用基于混合高斯模型训练(Mixture Gaussian Model,简称为GMM)的声学模型进行语音识别。而随着深度神经网络技术的发展，采用基于深度神经网络方法(Deep Neural Net,简称为DNN)的声学模型进行识别，可极大提高其语音识别的准确度。DNN声学模型采用监督学习的方式，通过结合文本内容信息，从原始数据中挖掘出更合适的特征集，从而更好地表达语音信号，提高真实场景下的识别效果。

当前GMM声学模型或DNN声学模型的训练过程都是采用帧级别的训练方式，先对原始语音信号进行分帧处理，使得非平稳的原始语音信号转变为区间平稳信号，然后求取帧最大后验概率(Maximum a Posteriori，简称为MAP)的序列输出结果。由于语音信号是一种序列信息，而语音识别的目的归根结底是处理序列分类问题。当前深度神经网络模型-隐马尔科夫模型(Deep Neural Net-Hidden Markov Model，简称DNN-HMM)声学模型中设有序列训练，序列训练是通过对基于DNN-HMM声学模型训练输出的候选序列直接进行序列级别的二次训练，即考虑整条语句的最大后验概率而不是语句中每帧的最大后验概率，能够更大程度上利用语句中词与词之间的上下文关系，使其相比于DNN声学模型，可输出更准确的语音识别结果。

但当前序列训练需预先训练DNN-HMM声学模型，再基于DNN-HMM声学模型输出的候选路径进行训练，其训练过程中基于所有训练数据可能产生的候选路径，而不仅仅是待识别语句的候选路径进行训练，使得序列训练的训练时间过长，几乎相当于一倍的DNN训练时长，从而使得当前声学模型训练时间过长。在当前语音识别过程中，需先基于当前DNN-HMM声学模型进行处理，输出候选序列再进行序列级别的二次训练，使其识别过程效率低且耗时长。

发明内容

本发明实施例提供一种声学模型训练方法、装置、设备及介质，以解决当前声学模型训练时间过长的问题。

本发明实施例提供一种语音识别方法、装置、设备及介质，以解决当前语音识别过程效率低的问题。

第一方面，本发明实施例提供一种声学模型训练方法，包括：

对训练语音信号进行特征提取，获取音频特征序列；

采用音素混合高斯模型-隐马尔科夫模型对所述音频特征序列进行训练，获取音素特征序列；

采用深度神经网络模型-隐马尔科夫模型-序列训练模型对所述音素特征序列进行训练，获取目标声学模型。

第二方面，本发明实施例提供一种语音识别方法，包括：

采用所述声学模型训练方法获取到的目标声学模型对原始语音信号进行识别，获取当前声纹特征信号，所述原始语音信号包括用户ID；

获取与所述用户ID对应的预存声纹特征信号；

判断所述当前声纹特征信号和所述预存声纹特征信号是否对应同一用户，获取判断结果。

第三方面，本发明实施例提供一种声学模型训练装置，包括：

音频特征序列获取模块，用于对训练语音信号进行特征提取，获取音频特征序列；

音素特征序列获取模块，用于采用音素混合高斯模型-隐马尔科夫模型对所述音频特征序列进行训练，获取音素特征序列；

目标声学模型获取模块，用于采用深度神经网络模型-隐马尔科夫模型-序列训练模型对所述音素特征序列进行训练，获取目标声学模型。

第四方面，本发明实施例提供一种语音识别装置，包括：

当前声纹获取模块，用于采用所述声学模型训练方法获取到的目标声学模型对原始语音信号进行识别，获取当前声纹特征信号，所述原始语音信号包括用户ID；

预存声纹获取模块，用于获取与所述用户ID对应的预存声纹特征信号；

声纹特征比较模块，用于判断所述当前声纹特征信号和所述预存声纹特征信号是否对应同一用户，获取判断结果。

第五方面，本发明实施例提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述声学模型训练方法的步骤；或者，所述处理器执行所述计算机程序时实现所述语音识别方法的步骤。

第六方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述声学模型训练方法的步骤；或者，所述处理器执行所述计算机程序时实现所述语音识别方法的步骤。

本发明实施例所提供的声学模型训练方法、装置、设备及介质中，通过采用采用音素混合高斯模型-隐马尔科夫模型训练，可将基于训练语音信号获取的音频特征序列转换成音素特征序列，提高声学模型训练的效率并节省训练时间。最后，采用深度神经网络模型-隐马尔科夫模型-序列训练模型对音素特征序列进行训练，只需进行一次训练即要实现深度神经网络模型-隐马尔科夫模型训练和序列训练的效果，可极大降低所需的训练时间，并取得比深度神经网络模型-隐马尔科夫模型训练更好的识别效果。

本发明实施例所提供的语音识别方法、装置、设备及介质中，通过采用目标声学模型获取用户ID对应的当前声纹特征信号，具有识别效率快、准确率高的优点。再通过将当前声纹特征信号与对应的预存声纹特征信号进行比较，以识别是否为同一用户，可达到快速识别用户身份目的。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例1中声学模型训练方法的一流程图。

图2是本发明实施例2中声学模型训练方法的一流程图。

图3是本发明实施例3中声学模型训练方法的一流程图。

图4是本发明实施例4中声学模型训练装置的一示意图。

图5是本发明实施例5中语音识别方法的一流程图。

图6是本发明实施例6中语音识别装置的一示意图。

图7是本发明实施例8中终端设备的一示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细叙述体现本发明特征和优点的具体实施方式。

实施例1

图1示出本实施例中的声学模型训练方法的一流程图。该声学模型训练方法可应用在银行、证券、保险等金融机构或者需进行语音识别的其他机构中，以便利用训练好的目标声学模型进行语音识别，达到人工智能目的。如图1所示，该声学模型训练方法包括如下步骤：

S110：对训练语音信号进行特征提取，获取音频特征序列。

其中，训练语音信号是用于进行声学模型训练的原始语音，该原始语音可以是wav、mp3或其他格式的语音信号。由于声学模型训练都是基于训练语音信号进行特征提取后的特征序列进行训练，而不是直接基于原始语音信号进行训练，因此，需先对训练语音信号进行特征提取，将其转换成音频特征序列。

S120：采用音素混合高斯模型-隐马尔科夫模型对音频特征序列进行训练，获取音素特征序列。

其中，音素混合高斯模型-隐马尔科夫模型是用于将音频特征序列转换成音素特征序列的模型。当前GMM声学模型和DNN声学模型，都是直接针对音频特征序列进行训练，对音频特征序列直接训练是基于帧级别的训练，主要考虑的整条语句的最大后验概率而不是待识别语句中每帧的最大后验概率，影响语音识别的准确率。本实施例中，先采用音素混合高斯模型-隐马尔科夫模型将音频特征序列转换成音素特征序列，再基于音素特征序列进行声学模型训练，使其可基于待识别语句中每帧的最大后验概率进行识别，以提高语音识别的准确率。

S130：采用深度神经网络模型-隐马尔科夫模型-序列训练模型对音素特征序列进行训练，获取目标声学模型。

其中，深度神经网络模型-隐马尔科夫模型-序列训练模型(即Deep Neural Net-Hidden Markov Model-sequenceTraining，以下简称为DNN-HMM-序列训练模型)。通过DNN-HMM-序列训练模型对音素特征序列进行训练，其训练过程基于待识别语句的候选路径进行训练，无需基于所有训练语音信号对应的候选路径进行训练，使得其序列训练时间大幅减少。

本实施例中，候选路径存储的数据结构称为词网格(即Lattice)；该DNN-HMM-序列训练模型通过构建新的识别网络，使该识别网络可应用在词网格(即Lattice)消失的序列训练中，使得目标声学模型训练时，只需基于待识别语句的候选路径进行训练，无需考虑所有训练语音信号对应的候选路径，以提高声学模型的训练效率。该识别网络是一种类似语音识别解码网络的图模型，将其构建单元更换成基于状态级别的DNN-HMM序列训练模型即可。

本实施例所提供的声学模型训练方法中，通过对训练语音信号进行特征提取，以将其转成可进行声学模型训练的音频特征序列，以保证声学模型训练的顺利进行。再采用音素混合高斯模型-隐马尔科夫模型对音频特征序列进行训练，获取音素特征序列，提高目标声学模型训练的效率并节省训练时间。最后，采用深度神经网络模型-隐马尔科夫模型-序列训练模型对音素特征序列进行训练，无需预先训练出一个深度神经网络模型-隐马尔科夫模型(即DNN-HMM声学模型)再进行序列训练；而是将序列训练融入到深度神经网络模型-隐马尔科夫模型(即DNN-HMM声学模型)的训练过程中，即通过DNN-HMM-序列训练模型进行一次训练即可，可极大降低所需训练时间，并取得比DNN-HMM声学模型更好的识别效果。

实施例2

图2示出本实施例中声学模型训练方法的一流程图。该声学模型训练方法可应用在银行、证券、保险等金融机构或者需进行语音识别的其他机构中，以便利用训练好的目标声学模型进行语音识别，达到人工智能目的。如图2所示，该声学模型训练方法包括如下步骤：

S210：对训练语音信号进行特征提取，获取音频特征序列。

本实施例中，步骤S210中，对训练语音信号进行特征提取，获取音频特征序列，具体包括：对训练语音信号进行预加重、分帧、加窗、端点检测、快速傅里叶变换、梅尔滤波器组和离散余弦变换，获取音频特征序列。

其中，预加重是将训练语音信号通过一个高通滤波器H(Z)＝1-μz^-1，μ值介于0.9-1.0之间，预加重的目标是提升高频部分，使信号的频谱更平滑，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，突出高频的共振峰。

分帧是将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20-30ms左右。为避免相邻两帧的变化过大，通过使两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3，此过程称为分帧。

加窗是每一帧乘以汉明窗(即HammingWindow)，由于汉明窗的幅频特性是旁瓣衰减较大，通过加窗处理，可增加帧左端和帧右端的连续性；即通过分帧和加窗处理，可将非平稳语音信号转变为短时平稳信号。设分帧后的信号为S(n),n＝0,1…,N-1,N为帧的大小，乘以汉明窗的信号S'(n)＝S(n)×W(n)，其中，W(n)形式如下：不同的a值会产生不同的汉明窗，一般情况下a取0.46。

端点检测主要用于区分语音和噪声，并提取有效的语音部分。在端点检测过程中，通过分帧、加窗处理后，计算出其能量值，根据能量值区分语音部分和噪声部分，从中提取有效的语音部分。

快速傅里叶变换用于将时域信号转换为频域能量谱分析。由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧信号还需进行快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧频谱(即能量谱)。

梅尔滤波器组是指将快速傅里叶变换输出的能量谱通过一组Mel(梅尔)尺度的三角滤波器组，定义一个有M个滤波器的滤波器组，采用的滤波器为三角滤波器，中心频率为f(m),m＝1,2,...,M。M通常取22-26。梅尔滤波器组用于对频谱进行平滑化，并起消除滤波作用，可以突出语音的共振峰特征，可降低运算量。然后计算梅尔滤波器组中每个三角滤波器输出的对数能量其中，M是三角滤波器的个数。该对数能量为FilterBank声学特征，常用于DNN训练。

对梅尔滤波器组输出的对数能量进行离散余弦变换(DCT)，得到梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,以下简称MFCC)，MFCC系数常用于GMM训练。具体地，离散余弦变换(DCT)的计算公式如下：其中，M是三角滤波器的个数，L是MFCC系数的阶数，通常取12-16，将上述对数能量带入离散余弦变换，即可求出L阶的Mel-scale Cepstrum参数，基于梅尔倒谱系数获取训练语音信号的音素特征序列。

S220：采用单音素混合高斯模型-隐马尔科夫模型对音频特征序列进行训练，获取音素特征序列。

其中，单音素混合高斯模型-隐马尔科夫模型(monophone Mixture GaussianModel-Hidden Markov Model，以下简称单音素GMM-HMM模型)对音频特征序列进行训练，以获取音素特征序列的过程包括初次迭代和多次迭代过程。

本实施例中，步骤S220具体包括如下步骤：

S221：采用音频特征序列训练原始单音素混合高斯模型-隐马尔科夫模型。

在单音素GMM-HMM模型的初次迭代过程中，通过对少量的音频特征序列进行粗略计算，以获取其均值和方差，以获取原始单音素混合高斯模型-隐马尔科夫模型(即原始单音素GMM-HMM模型)。

S222：基于原始单音素混合高斯模型-隐马尔科夫模型，获取音频特征序列中每一音频特征对应的原始单音素标注。

在单音素GMM-HMM模型的初次迭代过程中，基于原始单音素GMM-HMM模型，获取音频特征序列中每一音频特征对应的原始单音素标注，即将音频特征序列中的每一音频特征对应的词通过发音词典替换为音素表达，以获取对应的原始单音素标注。由于只针对每一词发音，因此称为monophone(即单音素)。

S223：基于音频特征序列和原始单音素标注对原始单音素混合高斯模型-隐马尔科夫模型进行迭代训练，获取目标单音素混合高斯模型-隐马尔科夫模型。

在单音素GMM-HMM模型的初次迭代获取原始单音素GMM-HMM模型后，需对其进行多次迭代，以获取目标单音素混合高斯模型-隐马尔科夫模型(即目标单音素GMM-HMM模型)，多次迭代的目的是提高获取到的目标单音素GMM-HMM模型进行音素特征提取的准确性。在后续的多次迭代过程中，每次迭代均需将训练语音信号提取出的音频特征序列和上一次迭代中获取到的原始单音素标注进行训练，以获取目标单音素GMM-HMM模型。

S224：基于目标单音素混合高斯模型-隐马尔科夫模型对每一原始单音素标注进行对齐处理，获取目标单音素特征。

在多次迭代过程中，每次迭代均需使用目标单音素GMM-HMM模型，对照文本标注(ground truth)，以识别每个词的正确发音，保存为下一次迭代对应的目标单音素标注，并按照音素的起止时间进行对齐处理，将对齐后的数据作为声学模型训练的文本数据，有利于保障后续语音识别的准确性。本实施例中，多次迭代一般需要进行20-30次迭代，既可避免迭代次数过多，导致训练时间过长；又可避免迭代次数过短，影响获取音素特征序列的准确率。

S225：基于目标单音素特征，获取音素特征序列。

其中，步骤S221-S224中，获取音频特征序列中每一音频特征对应的目标单音素特征，再基于所有目标单音素特征形成音素特征序列，以便基于该音素特征序列直接进行声学模型训练，从而提高基于获取到的目标声学模型进行语音识别的准确率。

S230：采用深度神经网络模型-隐马尔科夫模型-序列训练模型对音素特征序列进行训练，获取目标声学模型。

其中，深度神经网络模型-隐马尔科夫模型-序列训练模型(即Deep Neural Net-Hidden Markov Model-sequenceTraining，以下简称为DNN-HMM-序列训练模型)是融合DNN-HMM模型训练和序列训练的训练模型。音素特征序列是通过步骤S220中获取的音素特征序列，可将该音素特征序列通过DNN-HMM-序列训练模型进行声学模型训练，以获取目标声学模型。由于步骤S220获取到的音素特征序列是音素级别的，在基于音素特征序列进行训练过程，获取到的目标声学模型是基于音素级别训练，无需进行音素级别转换，有利于提高训练效率。而且，DNN-HMM-序列训练模型将序列训练融入到DNN-HMM声学模型中，即可通过DNN-HMM-序列训练模型进行一次训练替代传统的两次训练，可大幅降低所需训练时间，取得比DNN-HMM声学模型训练更好的识别效果。其中，隐马尔科夫模型(Hidden MarkovModel，以下简称HMM模型)是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集，是基于状态级别的训练模型。

可以理解地，采用单音素GMM-HMM模型获取到的音素特征序列是音素级别(phone-level)的语音模型，只需基于待识别语句的候选路径进行训练，有利于提高训练效率，节省训练时间。区别于传统序列训练基于词级别(word-level)的语音模型进行训练，需进行音素级别转换，并将所有训练语音信号可能的候选路径均在CPU上进行训练，导致声学模型训练过程较慢。本实施例中，需预先采用单音素GMM-HMM模型将音频特征序列训练成音素特征序列，使得DNN-HMM-序列训练模型训练时，可直接基于音素特征序列进行训练，无需进行音素级别(phone-level)转换，有利于提高训练效率，节省训练时间。

本实施例中，该声学模型训练方法中，还构建用于搜索所有训练数据可能的候选路径的图模型。该图模型与语音识别方法的解码步骤中采用发音词典、语音模型(语法规则)、上下文关系模型和HMM构造的解码网络相似，但无需采用发音词典，而且构建图模型过程所采用的HMM和语言模型分别是上一步构建的单状态HMM和音素级别的语言模型，构建的过程是采用openfst开源工具完成。

本实施例中，步骤S230具体包括如下步骤：

S231：采用音素特征序列训练原始深度神经网络模型-隐马尔科夫模型-序列训练模型。

在原始深度神经网络模型-隐马尔科夫模型-序列训练模型的初次迭代中，原始深度神经网络模型(即原始DNN-HMM-序列训练模型)可以为长短时的递归神经网络模型(longshort-term memory recurrent neural net model，以下简称LSTM模型)，在LSTM模型中包括5层LSTM层，即包括1个输入层、3个隐含层和1个输出层。

S232：基于原始深度神经网络模型-隐马尔科夫模型-序列训练模型，获取每一目标单音素特征对应的原始状态级别标注。

具体地，采用原始DNN-HMM-序列训练模型对照文本标注(ground truth)中每个词的正确发音及每一目标单音素特征的每个状态的时间位置，保存为原始状态级别标注。

S233：基于音频特征序列和原始状态级别标注训练原始深度神经网络模型-隐马尔科夫模型-序列训练模型，获取中间深度神经网络模型-隐马尔科夫模型-序列训练模型。

在原始DNN-HMM-序列训练模型的多次迭代中，基于步骤S210获取音频特征序列和步骤S233中获取的原始状态级别标注训练原始DNN-HMM序列训练模型，以获取中间DNN-HMM序列训练模型。即每次迭代需将步骤S210中对训练语音信号提取出的音频特征序列和上一次获取到的原始状态级别标注进行训练，以获取中间DNN-HMM-序列训练模型。

S234：采用cross-entropy训练准则、L2-norm训练准则和Leaky HMM训练准则对中间深度神经网络模型-隐马尔科夫模型-序列训练模型进行融合训练，获取目标声学模型。

在多次迭代过程中，为了将词级别(word-level)的序列训练融入到音素级别(phone-level)的DNN-HMM模型中，需采用cross-entropy训练准则(即交叉熵训练准则)、L2-norm训练准则(即L2范数训练准则)和Leaky HMM训练准则(即漏桶-隐马尔科夫模型训练准则)等约束条件实现两者的融合训练，以获取目标声学模型。

其中，cross-entropy训练准则是神经网络模型训练中常规的训练准则。该cross-entropy训练准则如下：其中，a是每个神经网络节点的输出，y是标注比对样本，x是每个神经网络节点的输入；当a＝y时cost＝0。

L2-norm训练准则是为了将词级别(word-level)的序列训练融入到音素级别(phone-level)的DNN-HMM模型而额外增加的约束条件，以实现两者的融合训练。该L2-norm训练准则如下：其中，L(·)为神经网络节点的输出与文本标注(ground truth)对比误差，该误差越小越能保证训练后的目标声学模型越拟合训练语音信号。同时，为了防止过拟合现象，使得训练得到的目标声学模型在任意的测试数据也具有良好的表达效果，需加入正则项λΩ(cost)，在L2-norm训练准则中，正则项表达为

Leaky HMM训练准则是为了将词级别(word-level)的序列训练融入到音素级别(phone-level)的DNN-HMM模型而额外增加的约束条件。Leaky HMM训练准则是一种新的神经网络训练准则，用于匹配本实施例中构建的单状态HMM来进行正常三状态的HMM的DNN-HMM声学模型。传统三状态的HMM至少具有三个转移概率，而本实施例中采用的HMM是单状态的，为实现a->b状态的转移，设置其转移概率如下：P＝leakyHMM系数×b状态的转移概率，其中leakyHMM系数可设为0.1，b状态的初始转移概率为0.5，在目标声学模型训练过程，不断更新b状态的转移概率，以实现将词级别(word-level)的序列训练融入到音素级别(phone-level)的DNN-HMM模型。

本实施例所提供的声学模型训练方法中，采用音素GMM-HMM模型训练，可将基于训练语音信号获取的音频特征序列转换成音素特征序列，提高声学模型训练的效率并节省训练时间。采用深度神经网络模型-隐马尔科夫模型-序列训练模型对音素特征序列进行训练，只需进行一次训练即要实现深度神经网络模型-隐马尔科夫模型训练和序列训练二次的效果，可极大降低所需的训练时间，并取得比深度神经网络模型-隐马尔科夫模型训练更好的识别效果。即该声学模型训练方法中，无需预先训练出一个深度神经网络模型-隐马尔科夫模型(即DNN-HMM声学模型)再进行序列训练；而是将序列训练融入到深度神经网络模型-隐马尔科夫模型(即DNN-HMM声学模型)的训练过程中，通过DNN-HMM-序列训练模型进行一次训练即可，可极大降低所需的训练时间，并取得比DNN-HMM声学模型训练更好的识别效果。

本实施例中，该声学模型训练方法中，将DNN-HMM模型训练和基于词级别(word-level)的序列训练这两个训练步骤融合为一个DNN-HMM-序列训练模型，无需先训练DNN-HMM模型，再进行序列训练。同时，该声学模型训练方法中，不需要产生基于词级别(word-level)的序列训练中所需的所有训练语音信号的可能的候选路径，大幅降低目标声学模型训练所需时间，并提高基于该目标声学模型进行语音识别的准确率。由于DNN-HMM-序列训练模型融合了序列训练，使其能最大程度利用语句中词与词之间的上下文，继而输出更准确的识别结果。该声学模型训练方法中，通过采用cross-entropy训练准则、L2-norm训练准则和Leaky HMM训练准则等准则，将词级别(word-level)的序列训练融入到音素级别(phone-level)的DNN-HMM模型中，实现两者的融合训练，保证其拟合效果。

实施例3

图3示出本实施例中声学模型训练方法。该声学模型训练方法可应用在银行、证券、保险等金融机构或者需进行语音识别的其他机构中，以便利用训练好的目标声学模型进行语音识别，达到人工智能目的。如图3所示，该声学模型训练方法包括如下步骤：

S310：对训练语音信号进行特征提取，获取音频特征序列。

其中，训练语音信号是用于进行声学模型训练的原始语音，该原始语音可以是wav、mp3或其他格式的语音信号。由于声学模型训练都是针对基于训练语音信号进行特征提取后的特征序列，而不是原始语音信号，因此，需对训练语音信号进行特征提取，将其转换成音频特征序列。

本实施例中，步骤S310中，对训练语音信号进行特征提取，获取音频特征序列，具体包括：对训练语音信号进行预加重、分帧、加窗、端点检测、快速傅里叶变换、梅尔滤波器组和离散余弦变换。步骤S310与实施例2中步骤S210的实现过程基本相同，为避免重复，在此不一一赘述。

S320：采用单音素混合高斯模型-隐马尔科夫模型对音频特征序列进行训练，获取音素特征序列。

其中，单音素混合高斯模型-隐马尔科夫模型(monophone Mixture GaussianModel-Hidden Markov Model，以下简称单音素GMM-HMM模型)对音频特征序列进行训练，以获取音素特征序列的过程包括初次迭代和多次迭代过程。步骤S320与实施例2中步骤S220的实现过程基本相同，为避免重复，在此不一一赘述。

S330：采用三音素混合高斯模型-隐马尔科夫模型对音素特征序列进行训练，获取更新的音素特征序列。

可以理解地，基于单音素混合高斯模型-隐马尔科夫模型进行训练所获取的音素特征序列中，组成该音素特征序列的每个目标单音素特征未充分考虑其上下文音素。本实施例中，通过采用三音素混合高斯模型-隐马尔科夫模型(triphone Mixture GaussianModel-Hidden Markov Model，以下简称三音素GMM-HMM模型)对步骤S320输出的音素特征序列进行训练，获取更新的音素特征序列，该更新的音素特征序列充分考虑其上下文音素特征，进一步提高基于更新的音素特征序列进行训练所获得的目标声学模型进行语音识别的准确率。采用三音素GMM-HMM模型对步骤S320输出的音素特征序列进行训练过程包括初次迭代和多次迭代过程。

本实施例中，步骤S330具体包括如下步骤：

S331：基于音素特征序列中的目标单音素特征，获取原始三音素标注。

在三音素GMM-HMM模型的初次迭代过程，通过将音素特征序列的少量目标单音素特征的每个音素加上其上下文，以获取原始三音素标注。

S332：将原始三音素标注输入目标单音素混合高斯模型-隐马尔科夫模型，获取原始三音素混合高斯模型-隐马尔科夫模型。

在三音素GMM-HMM模型的初次迭代过程，将步骤S331获取的原始三音素标注输入步骤S323中获取的目标单音素GMM-HMM模型中，以获取原始三音素混合高斯模型-隐马尔科夫模型(即原始三音素GMM-HMM模型)，以使原始三音素GMM-HMM模型可基于三音素进行训练，提高训练的准确率。

S333：对原始三音素混合高斯模型-隐马尔科夫模型进行聚类，获取聚类三音素混合高斯模型-隐马尔科夫模型。

在三音素GMM-HMM模型的初次迭代过程中，采用决策树算法将步骤S332获取到的原始三音素GMM-HMM模型中发音相近的原始三音素标注聚成一类，以获取聚类三音素混合高斯模型-隐马尔科夫模型(以下简称聚类三音素GMM-HMM模型)，以提高训练后的声学模型进行语音识别的效率和准确率。

S334：基于音频特征序列和原始三音素标注对聚类三音素混合高斯模型-隐马尔科夫模型进行迭代训练，获取目标三音素混合高斯模型-隐马尔科夫模型。

在三音素GMM-HMM模型的初次迭代获取聚类三音素GMM-HMM模型后，需对其进行多次迭代，获取目标三音素混合高斯模型-隐马尔科夫模型(以下简称目标三音素GMM-HMM模型)。在后续的多次迭代过程，每次迭代均需将训练语音信号提取出的音频特征序列和上一次迭代中获取到的原始三音素标注进行训练，获取目标三音素GMM-HMM模型。

S335：基于目标三音素混合高斯模型-隐马尔科夫模型对每一原始三音素标注进行对齐处理，获取目标三音素特征。

在多次迭代过程中，每次迭代均使用目标三音素GMM-HMM模型，将初次迭代产生的原始三音素标注对照文本标注(ground truth)，以识别每个词的正确发音，保存为下一次迭代对应的目标三音素标注，并按照音素的起止时间进行对齐处理。本实施例中，多次迭代一般需要进行20-30次迭代，既可避免迭代次数过多，导致训练时间过长；又可避免迭代次数过短，影响训练获取更新的音素特征序列进行特征识别的效率。

S336：基于目标三音素特征，获取更新的音素特征序列。

其中，步骤S331-S336中，获取音频特征序列中每一音频特征对应的目标三音素特征，再基于所有目标三音素特征形成更新的音素特征序列，以便基于该更新的音素特征序列进行声学模型训练，从而提高获取到的目标声学模型进行语音识别的准确率。

S340：采用深度神经网络模型-隐马尔科夫模型-序列训练模型对更新的音素特征序列进行训练，获取目标声学模型。

其中，音素特征序列是通过步骤S330中获取的更新的音素特征序列，相比于步骤S220获取的音素特征序列，更有利于提高获取的目标声学模型的识别效率和准确率。在采用深度神经网络模型-隐马尔科夫模型-序列训练模型(即Deep Neural Net-HiddenMarkov Model-sequenceTraining，以下简称为DNN-HMM-序列训练模型)对音素特征序列进行训练过程，获取到的目标声学模型是基于音素级别训练，无需进行音素级别转换，有利于提高训练效率；而且，DNN-HMM-序列训练模型将序列训练融入到DNN-HMM声学模型中，即可通过DNN-HMM-序列训练模型进行一次训练替代传统的两次训练，可极大降低所需训练时间，并取得比DNN-HMM声学模型训练更好的识别效果。其中，隐马尔科夫模型(HiddenMarkov Model，以下简称HMM模型)是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集，是基于状态级别的训练模型。

具体地，步骤S330构建新的决策树表达，采用三音素GMM-HMM模型将发音相近的三音素聚类，每个聚类结果称为一个Senone。本实施例中，Senone是一个三状态的HMM，每个HMM可以被最少3帧来表达。每个HMM可以采用1帧来表达，只考虑每个音素的第一帧(即第一个状态)，而将其余状态设置为空，可用一个HMM代表a或ab或abb。采用三音素GMM-HMM模型获取到的更新的音素特征序列进行声学模型训练，使得获取到的目标声学模型进行语音识别时，识别的准确率更高。

可以理解地，采用的音素混合高斯模型-隐马尔科夫模型(包括单音素GMM-HMM模型和三音素GMM-HMM模型)是音素级别(phone-level)的语音模型，只需基于待识别语句的候选路径进行训练，有利于提高训练效率，节省训练时间。音素级别(phone-level)的语音模型，区别于传统序列训练基于词级别(word-level)的语音模型进行训练，需进行音素级别转换，并将所有训练语音信号可能的候选路径均在CPU上进行训练，导致声学模型训练过程较慢。本实施例中，需预先采用单音素GMM-HMM模型和三音素GMM-HMM模型将音频特征序列训练成音素特征序列，使得DNN-HMM-序列训练模型训练时，可直接基于音素特征序列进行训练，无需进行音素级别(phone-level)转换，有利于提高训练效率，节省训练时间。

本实施例中，步骤S340具体包括：

S341：采用更新的音素特征序列训练原始深度神经网络模型-隐马尔科夫模型-序列训练模型。

S342：基于原始深度神经网络模型-隐马尔科夫模型-序列训练模型，获取每一目标三音素特征对应的原始状态级别标注。

本实施例中，采用原始DNN-HMM-序列训练模型对照文本标注(ground truth)中每个词的正确发音及每一目标三音素特征的每个状态的时间位置，保存为原始状态级别标注。

S343：基于音频特征序列和原始状态级别标注训练原始深度神经网络模型-隐马尔科夫模型-序列训练模型，获取中间深度神经网络模型-隐马尔科夫模型-序列训练模型。

在原始DNN-HMM-序列训练模型的多次迭代中，基于步骤S310获取音频特征序列和步骤S343中获取的原始状态级别标注训练原始DNN-HMM序列训练模型，以获取中间DNN-HMM序列训练模型。即每次迭代需将步骤S310中对训练语音信号提取出的音频特征序列和上一次获取到的原始状态级别标注进行训练，以获取中间DNN-HMM-序列训练模型。

S344：采用cross-entropy训练准则、L2-norm训练准则和Leaky HMM训练准则对中间深度神经网络模型-隐马尔科夫模型-序列训练模型进行融合训练，获取目标声学模型。

在多次迭代过程中，为了将词级别(word-level)的序列训练融入到音素级别(phone-level)的DNN-HMM模型中，需采用cross-entropy训练准则(即交叉熵训练准则)、L2-norm训练准则(即L2范数训练准则)和Leaky HMM训练准则(即漏桶-隐马尔科夫模型训练准则)等约束条件实现两者的融合训练，以获取目标声学模型。由于实施例2中已对cross-entropy训练准则、L2-norm训练准则和Leaky HMM训练准则进行详述，为避免重复，在此不一一赘述。

实施例4

对应于实施例1和2中的声学模型训练方法，图4示出与实施例1和2所示的声学模型训练方法一一对应的声学模型训练装置。如图4所示，该声学模型训练装置包括音频特征序列获取模块10、音素特征序列获取模块20和目标声学模型获取模块30。其中，音频特征序列获取模块10、音素特征序列获取模块20和目标声学模型获取模块30的实现功能与实施例1和2中对应的步聚一一对应，为避免赘述，本实施例不一一详述。

音频特征序列获取模块10，用于对训练语音信号进行特征提取，获取音频特征序列。

音素特征序列获取模块20，用于采用音素混合高斯模型-隐马尔科夫模型对音频特征序列进行训练，获取音素特征序列。

目标声学模型获取模块30，用于采用深度神经网络模型-隐马尔科夫模型-序列训练模型对音素特征序列进行训练，获取目标声学模型。

优选地，音频特征序列获取模块10，用于对训练语音信号进行预加重、分帧、加窗、端点检测、快速傅里叶变换、梅尔滤波器组和离散余弦变换。

优选地，音素特征序列获取模块20包括单音素特征序列获取单元21，用于采用单音素混合高斯模型-隐马尔科夫模型对音频特征序列进行训练，获取音素特征序列。

单音素特征序列获取单元21具体包括原始单音素模型获取子单元211、原始单音素标注获取子单元212、目标单音素模型获取子单元213、目标单音素特征获取子单元214和第一音素特征序列获取子单元215。

原始单音素模型获取子单元211，用于采用音频特征序列训练原始单音素混合高斯模型-隐马尔科夫模型。

原始单音素标注获取子单元212，用于基于原始单音素混合高斯模型-隐马尔科夫模型，获取音频特征序列中每一音频特征对应的原始单音素标注。

目标单音素模型获取子单元213，用于基于音频特征序列和原始单音素标注对原始单音素混合高斯模型-隐马尔科夫模型进行迭代训练，获取目标单音素混合高斯模型-隐马尔科夫模型。

目标单音素特征获取子单元214，用于基于目标单音素混合高斯模型-隐马尔科夫模型对每一原始单音素标注进行对齐处理，获取目标单音素特征。

第一音素特征序列获取子单元215，用于基于目标单音素特征，获取音素特征序列。

优选地，音素特征序列获取模块20还包括三音素特征序列获取单元22，用于采用三音素混合高斯模型-隐马尔科夫模型对音素特征序列进行训练，获取更新的音素特征序列。

三音素特征序列获取单元22具体包括原始三音素标注获取子单元221、原始三音素模型获取子单元222。

原始三音素标注获取子单元221，用于基于音素特征序列中的目标单音素特征，获取原始三音素标注。

原始三音素模型获取子单元222，用于将原始三音素标注输入目标单音素混合高斯模型-隐马尔科夫模型，获取原始三音素混合高斯模型-隐马尔科夫模型。

聚类三音素模型获取子单元223，用于对原始三音素混合高斯模型-隐马尔科夫模型进行聚类，获取聚类三音素混合高斯模型-隐马尔科夫模型。

目标三音素模型获取子单元224，用于基于音频特征序列和原始三音素标注对聚类三音素混合高斯模型-隐马尔科夫模型进行迭代训练，获取目标三音素混合高斯模型-隐马尔科夫模型。

目标三音素特征获取子单元225，用于基于目标三音素混合高斯模型-隐马尔科夫模型对每一原始三音素标注进行对齐处理，获取目标三音素特征。

第二音素特征序列获取子单元226，用于基于目标三音素特征，获取更新的音素特征序列。

目标声学模型获取模块30具体包括原始模型训练单元31、原始状态标注获取单元32、中间模型训练单元33和目标模型获取单元34。

原始模型训练单元31，用于采用音素特征序列训练原始深度神经网络模型-隐马尔科夫模型-序列训练模型。

原始状态标注获取单元32，用于基于原始深度神经网络模型-隐马尔科夫模型-序列训练模型，获取每一目标单音素特征或目标三音素特征对应的原始状态级别标注。

中间模型训练单元33，用于基于音频特征序列和原始状态级别标注训练原始深度神经网络模型-隐马尔科夫模型-序列训练模型，获取中间深度神经网络模型-隐马尔科夫模型-序列训练模型。

目标模型获取单元34，用于采用cross-entropy训练准则、L2-norm训练准则和Leaky HMM训练准则对中间深度神经网络模型-隐马尔科夫模型-序列训练模型进行融合训练，获取目标声学模型。

实施例5

图5示出本实施例中的语音识别方法。该语音识别方法可应用在银行、证券、保险等金融机构或者需进行语音识别的其他机构中，以对采集到用户的原始语音信号进行识别，以实现用户身份识别。如图5所示，该语音识别方法包括如下步骤：

S410：采用声学模型训练方法获取到的目标声学模型对原始语音信号进行识别，获取当前声纹特征信号，原始语音信号包括用户ID。

其中，目标声学模型是采用实施例1-3中声学模型训练方法获取到的，具有识别效率快、准确率高的特点。原始语音信号是实时采集到的用户的语音信号。用户ID用于唯一识别用户身份的标识，可以是用户帐号、身份证号等。在采用目标声学模型对原始语音信号进行识别后，将获取的当前声纹特征信号与用户ID关联。

S420：获取与用户ID对应的预存声纹特征信号。

其中，预存声纹特征信号是预先存储在银行、证券、保险等金融机构或者需进行语音识别的其他机构的数据库中，在语音识别过程中，可基于用户ID查询获取对应的预存声纹特征信号。

S430：判断当前声纹特征信号和预存声纹特征信号是否对应同一用户，获取判断结果。

由于当前声纹特征信号和预存声纹特征信号均与用户ID相关联，通过采用声纹特征比较算法比较两者的差异，以确定是否为同一用户，并将判断结果反馈给银行、证券、保险等金融机构或者需进行语音识别的其他机构。

在一具体实施方式中，步骤S43中可具体包括如下步骤：先采用PLDA算法分别对目标声纹特征和测试声纹特征进行降维，获取目标降维值和测试降维值。然后采用余弦积分函数对目标降维值和测试降维值进行余弦积分，获取余弦积分值。最后，判断余弦积分值是否大于相似阈值；若余弦积分值大于相似阈值，则为同一用户；若余弦积分值不大于相似阈值，则不为同一用户。

本实施例所提供的语音识别方法中，通过采用目标声学模型获取用户ID对应的当前声纹特征信号，具有识别效率快、准确率高的优点。再通过将当前声纹特征信号与对应的预存声纹特征信号进行比较，以识别是否为同一用户，可达到快速识别用户身份目的。

实施例6

对应于实施例5中的语音识别方法，图6示出采用实施例5所示的语音识别方法一一对应的语音识别装置。如图6所示，该语音识别装置包括当前声纹获取模块40、预存声纹获取模块50和声纹特征比较模块60。其中，当前声纹获取模块40、预存声纹获取模块50和声纹特征比较模块60的实现功能与实施例5中对应的步聚一一对应，为避免赘述，本实施例不一一详述。

当前声纹获取模块40，用于采用声学模型训练方法获取到的目标声学模型对原始语音信号进行识别，获取当前声纹特征信号，原始语音信号包括用户ID。

预存声纹获取模块50，用于获取与用户ID对应的预存声纹特征信号。

声纹特征比较模块60，用于判断当前声纹特征信号和预存声纹特征信号是否对应同一用户，获取判断结果。

实施例7

本实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例1-3中的声学模型训练方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器执行时实现实施例4中声学模型训练装置中各模型/单元的功能，为避免重复，此处不一一赘述。或者，该计算机程序被处理器执行时实现实施例5中语音识别方法中各步骤的功能，为避免重复，此处不一一赘述。或者，该计算机程序被处理器执行时实现实施例6中语音识别装置中各模块/单元的功能，为避免重复，此处不一一赘述。

实施例8

图7是本发明一实施例提供的终端设备的示意图。如图7所示，该实施例的终端设备70包括：处理器71、存储器72以及存储在存储器72中并可在处理器71上运行的计算机程序73，该计算机程序被处理器71执行时实现实施例1-3中的声学模型训练方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器71执行时实现实施例4中声学模型训练装置中各模型/单元的功能，为避免重复，此处不一一赘述。或者，该计算机程序被处理器71执行时实现实施例5中语音识别方法中各步骤的功能，为避免重复，此处不一一赘述。或者，该计算机程序被处理器71执行时实现实施例6中语音识别装置中各模块/单元的功能。为避免重复，此处不一一赘述。

示例性的，计算机程序73可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器72中，并由处理器71执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序73在终端设备70中的执行过程。例如，计算机程序73可以被分割成实施例4中的音频特征序列获取模块10、音素特征序列获取模块20和目标声学模型获取模块30，或者实施例6中的当前声纹获取模块40、预存声纹获取模块50和声纹特征比较模块60，各模块的具体功能如实施例4或实施例6所述，在此不一一赘述。

终端设备70可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备可包括，但不仅限于，处理器71、存储器72。本领域技术人员可以理解，图7仅仅是终端设备70的示例，并不构成对终端设备70的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备70还可以包括输入输出设备、网络接入设备、总线等。

所称处理器71可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器72可以是终端设备70的内部存储单元，例如终端设备70的硬盘或内存。存储器72也可以是终端设备70的外部存储设备，例如终端设备70上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器72还可以既包括终端设备70的内部存储单元也包括外部存储设备。存储器72用于存储计算机程序以及终端设备所需的其他程序和数据。存储器72还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

上述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种声学模型训练方法，其特征在于，包括：

对训练语音信号进行特征提取，获取音频特征序列；

2.根据权利要求1所述的声学模型训练方法，其特征在于，所述对训练语音信号进行特征提取，包括：

对所述训练语音信号进行预加重、分帧、加窗、端点检测、快速傅里叶变换、梅尔滤波器组和离散余弦变换。

3.根据权利要求1所述的声学模型训练方法，其特征在于，所述采用音素混合高斯模型-隐马尔科夫模型对所述音频特征序列进行训练，获取音素特征序列，包括：采用单音素混合高斯模型-隐马尔科夫模型对所述音频特征序列进行训练，获取所述音素特征序列；

所述采用单音素混合高斯模型-隐马尔科夫模型对所述音频特征序列进行训练，获取音素特征序列，包括：

采用所述音频特征序列训练原始单音素混合高斯模型-隐马尔科夫模型；

基于所述原始单音素混合高斯模型-隐马尔科夫模型，获取所述音频特征序列中每一音频特征对应的原始单音素标注；

基于所述音频特征序列和所述原始单音素标注对所述原始单音素混合高斯模型-隐马尔科夫模型进行迭代训练，获取目标单音素混合高斯模型-隐马尔科夫模型；

基于所述目标单音素混合高斯模型-隐马尔科夫模型对每一所述原始单音素标注进行对齐处理，获取目标单音素特征；

基于所述目标单音素特征，获取所述音素特征序列。

4.根据权利要求3所述的声学模型训练方法，其特征在于，所述采用音素混合高斯模型-隐马尔科夫模型对所述音频特征序列进行训练，获取音素特征序列，还包括：采用三音素混合高斯模型-隐马尔科夫模型对所述音素特征序列进行训练，获取更新的音素特征序列；

所述采用三音素混合高斯模型-隐马尔科夫模型对所述音素特征序列进行训练，获取更新的音素特征序列，包括：

基于所述音素特征序列中的目标单音素特征，获取原始三音素标注；

将所述原始三音素标注输入所述目标单音素混合高斯模型-隐马尔科夫模型，获取原始三音素混合高斯模型-隐马尔科夫模型；

对所述原始三音素混合高斯模型-隐马尔科夫模型进行聚类，获取聚类三音素混合高斯模型-隐马尔科夫模型；

基于所述音频特征序列和所述原始三音素标注对所述聚类三音素混合高斯模型-隐马尔科夫模型进行迭代训练，获取目标三音素混合高斯模型-隐马尔科夫模型；

基于所述目标三音素混合高斯模型-隐马尔科夫模型对每一所述原始三音素标注进行对齐处理，获取目标三音素特征；

基于所述目标三音素特征，获取更新的音素特征序列。

5.根据权利要求4所述的声学模型训练方法，其特征在于，所述采用深度神经网络模型-隐马尔科夫模型-序列训练模型对所述音素特征序列进行训练，获取目标声学模型，包括：

采用所述音素特征序列训练原始深度神经网络模型-隐马尔科夫模型-序列训练模型；

基于所述原始深度神经网络模型-隐马尔科夫模型-序列训练模型，获取每一所述目标单音素特征或所述目标三音素特征对应的原始状态级别标注；

基于所述音频特征序列和所述原始状态级别标注训练所述原始深度神经网络模型-隐马尔科夫模型-序列训练模型，获取中间深度神经网络模型-隐马尔科夫模型-序列训练模型；

采用cross-entropy训练准则、L2-norm训练准则和Leaky HMM训练准则对所述中间深度神经网络模型-隐马尔科夫模型-序列训练模型进行融合训练，获取所述目标声学模型。

6.一种语音识别方法，其特征在于，包括：

采用权利要求1-5任一项所述声学模型训练方法获取到的目标声学模型对原始语音信号进行识别，获取当前声纹特征信号，所述原始语音信号包括用户ID；

获取与所述用户ID对应的预存声纹特征信号；

7.一种声学模型训练装置，其特征在于，包括：

8.一种语音识别装置，其特征在于，包括：

当前声纹获取模块，用于采用权利要求1-5任一项所述声学模型训练方法获取到的目标声学模型对原始语音信号进行识别，获取当前声纹特征信号，所述原始语音信号包括用户ID；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述声学模型训练方法的步骤；或者，所述处理器执行所述计算机程序时实现如权利要求6所述语音识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述声学模型训练方法的步骤；或者，所述处理器执行所述计算机程序时实现如权利要求6所述语音识别方法的步骤。