CN108831445A

CN108831445A - 四川方言识别方法、声学模型训练方法、装置及设备

Info

Publication number: CN108831445A
Application number: CN201810491963.4A
Authority: CN
Inventors: 张蕾; 应汪洋; 章毅; 郭际香; 陈媛媛
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2018-11-16

Abstract

本发明提供的四川方言识别方法、声学模型训练方法、装置及设备，属于语音识别技术领域。该声学模型训练方法包括采集四川方言语音数据；对所述四川方言语音数据进行特征提取，获取语音特征；采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征；采用深度延迟LSTM模型对所述待处理语音特征进行训练，获取目标声学模型。该声学模型训练方法可有效节省声学模型训练所需时间，提高训练效率，并保证识别效率和识别准确率。

Description

四川方言识别方法、声学模型训练方法、装置及设备

技术领域

本发明涉及语音识别技术领域，具体而言，涉及四川方言识别方法、声学模型训练方法、装置及设备。

背景技术

语音识别任务是将一段包含了自然语言发音的声学信号投影到说话人的词序列上。从二十世纪八十年代到2009～2012年，最先进的语音识别系统结合了隐马尔可夫模型(hidden markov model，HMM)和混合高斯模型(gaussian mixture model，GMM)，然而此期间语音识别效果并不能够达到商用水平。2009年，Hinton将深度神经网络(deep neuralnetwork，DNN)介绍给做语音识别的学者们，2010年产生了巨大突破。在Hinton团队与微软、谷歌、IBM研究团队的共同努力下，把GMM替换成DNN，相对识别错误率下降近30％。后续的语音识别研究几乎全部基于深度学习，大多是对Hinton提出的模型架构进行改进，或者是针对不同的语言特点构建相应的语音识别系统。目前中国有超过一亿人口使用四川方言，然而对四川方言识别效果很差，且当前声学模型训练后对语音识别效果较差，使得用户体验效果不好。

发明内容

本发明实施例提供的声学模型训练方法、装置、设备及介质，可以解决现有技术中的模型存在的识别错误率较高的技术问题。

本发明实施例提供的四川方言识别方法、装置、设备及介质，可以解决现有技术中的方言识别存在的识别效率低的技术问题。

第一方面，本发明实施例提供的一种声学模型训练方法，包括：采集四川方言语音数据；对所述四川方言语音数据进行特征提取，获取语音特征；采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征；采用深度延迟LSTM模型对所述待处理语音特征进行训练，获取目标声学模型。

结合第一方面，第一方面的一种实施方式，所述的对所述四川方言语音数据进行特征提取，包括：将所述四川方言语音数据以20毫秒为一帧进行切割；对每一帧所述四川方言语音数据进行特征提取。

结合第一方面，在第一方面的另一种实施方式，所述的对所述四川方言语音数据进行特征提取，获取语音特征，包括：将每条所述四川方言语音数据按照语意切割成多条预设长度的语音数据，并给出每条语音数据所对应的中文标签；提取每条语音数据的梅尔频率倒谱系数特征。

结合第一方面，在第一方面的另一种实施方式，所述的采用深度延迟LSTM模型对所述待处理语音特征进行训练，包括：采用反向传播算法对深度延迟LSTM模型进行训练，获取训练后的神经网络模型；通过所述训练后的神经网络模型对所述待处理语音特征进行训练。

结合第一方面，在第一方面的另一种实施方式，所述的采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征，包括：基于隐马尔可夫模型－混合高斯模型对所述语音特征进行训练；采用强制对齐对每一帧所述语音特征打上所对应的分类标签；生成带所述分类标签的待处理语音特征。

第二方面，本发明实施例提供的一种四川方言识别方法，包括：获取用户输入的语音数据；采用如第一方面任意一项所述的声学模型训练方法所获取到的目标声学模型以及预设的四川话词典和语言模型对所述语音数据进行识别，获取识别结果；将所述识别结果以字符文本序列输出。

第三方面，本发明实施例提供的一种声学模型训练装置，包括：获取模块，用于采集四川方言语音数据；特征提取模块，用于对所述四川方言语音数据进行特征提取，获取语音特征；第一训练模块，用于采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征；第二训练模块，用于采用深度延迟LSTM模型对所述待处理语音特征进行训练，获取目标声学模型。

第四方面，本发明实施例提供的一种四川方言识别装置，包括：获取模块，用于获取用户输入的语音数据；识别模块，用于采用如第一方面任意一项所述的声学模型训练方法所获取到的目标声学模型以及预设的四川话词典和语言模型对所述语音数据进行识别，获取识别结果；输出模块，用于将所述识别结果以字符文本序列输出。

第五方面，本发明实施例提供的一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述声学模型训练方法的步骤；或者，所述处理器执行所述计算机程序时实现如第二方面所述四川方言识别方法的步骤。

第六方面，本发明实施例提供的一种存储介质，所述存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行如第一方面任一项所述的声学模型训练方法；或者使得所述计算机执行如第二方面所述的四川方言识别方法的步骤。

与现有技术相比，本发明实施例提供的声学模型训练方法、装置、设备及介质有益效果是：通过采集四川方言语音数据；对所述四川方言语音数据进行特征提取，获取语音特征；采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征；采用深度延迟LSTM模型对所述待处理语音特征进行训练，获取目标声学模型。可以有效提高声学模型训练的效率并节省训练时间。采用LSTM模型对语音特征进行训练，只需进行一次训练即要实现HMM－DNN训练多次的效果，可极大降低所需的训练时间，并取得比HMM－DNN训练更好的识别效果。即该声学模型训练方法中，无需预先训练出一个隐马尔科夫模型－深度神经网络模型(即HMM－DNN声学模型)再进行序列训练；而是将序列训练融入到HMM－LSTM模型的训练过程中，通过HMM－LSTM模型进行一次训练即可，可极大降低所需的训练时间，并通过深度延迟LSTM模型能够获取更多的上下文信息，显著提升了识别效果，其相对错误率相比HMM－GMM下降23.94％，与HMM－DNN相比其相对错误率下降14.86％。。从而取得比DNN－HMM声学模型或DNN－HMM－序列训练模型训练更好的识别效果。

本发明实施例提供的四川方言识别方法、装置、设备及介质有益效果是：通过获取用户输入的语音数据；采用声学模型训练方法所获取到的目标声学模型以及预设的四川话词典和语言模型对所述语音数据进行识别，获取识别结果；将所述识别结果以字符文本序列输出。可以快速识别四川话方言，并且有效提高识别准确率。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明第一实施例提供的声学模型训练方法的流程图；

图2为图1所示的声学模型训练方法中的LSTM模型的示意图；

图3为本发明第二实施例提供的声学模型训练装置的功能模块示意图；

图4为本发明第三实施例提供的四川方言识别方法的流程图；

图5为本发明第四实施例提供的四川方言识别装置的功能模块示意图；

图6为本发明第五实施例提供的一种终端设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

第一实施例

请参阅图1，是本发明实施例提供的声学模型训练方法的流程图。下面将对图1所示的具体流程进行详细阐述。

步骤S101，采集四川方言语音数据。

其中，可以通过麦克风采集四川方言语音数据或者是通过软件工具采集视频中的四川方言语音数据。例如，用户通过手机的麦克风输入一段语音数据，或者是截取视频中所播放的语音数据。在此，不作具体限定。

其中，所述四川方言语音数据为针对四川的方言。

其中，所述四川方言语音数据的长度可以是多帧，也可以是一帧。优选地，所述四川方言语音数据的长度为多帧。

在本实施例中，所述四川方言语音数据可以是wav、mp3或其他格式的语音信号。

步骤S102，对所述四川方言语音数据进行特征提取，获取语音特征。

作为一种实施方式，将所述四川方言语音数据以20毫秒为一帧进行切割；对每一帧所述四川方言语音数据进行特征提取，获取语音特征。

作为另一种实施方式，将每条所述四川方言语音数据按照语意切割成多条预设长度的语音数据，并给出每条语音数据所对应的中文标签；提取每条语音数据的梅尔频率倒谱系数特征。例如，可以将每搜集到一条原始语音数据，按照语音内容将其切割成多条20毫秒长度的语音数据，并对每条语音数据给出相应说话内容的文本序列。然后再将一段切割好后的语音数据提取特征。

步骤S103，采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征。

在本实施例中，为了便于模型训练，将所采集到所有四川方言语音数据按照8：1：1分为训练集、验证集和测试集。基于训练集中的四川方言语音数据进行训练，具体地，采用隐马尔可夫模型－混合高斯模型对训练集中的所述语音特征进行训练。

在本实施例中，先通过隐马尔可夫模型对语音序列建模，再通过训练好的隐马尔可夫模型－混合高斯模型，结合所对应语音的文本序列，能够使用强制对齐方法将语音特征与隐马尔可夫模型中的状态序列相关联，即每一帧语音特征对应了隐马尔可夫模型中的某个状态，为每帧语音特征给出了分类标签。从而使得在使用深度神经网络对语音特征分类时，能够确定每一帧语音特征所对应的分类标签。

作为一种实施方式，基于隐马尔可夫模型－混合高斯模型对所述语音特征进行训练；采用强制对齐对每一帧所述语音特征打上所对应的分类标签；生成带所述分类标签的待处理语音特征。

步骤S104，采用深度延迟LSTM模型对所述待处理语音特征进行训练，获取目标声学模型。

作为一种实施方式，采用反向传播算法对深度延迟LSTM(Long－short TermMemory)模型进行训练，获取训练后的神经网络模型；通过所述训练后的神经网络模型对所述待处理语音特征进行训练。具体地，基本的神经网络由神经元以及神经元之间的连接组成。神经网络分为输入层、隐藏层和输出层。隐层神经元本质上是在逼近输入数据与其特征之间的高度非线性关系。深度神经网络与浅层神经网络相比，“深度”体现在隐层数量更多，连接方式更加灵活和复杂，能够用相比浅层网络少得多的参数获得输入数据到其特征之间的映射关系，也就是说，深度神经网络学习到输入数据特征的能力更加强大。

其中，通过LSTM回复式神经网络，从时间上展开的深度以获取更多的上下文信息，其分类时对语音这类与时间高度相关的序列数据是非常重要。LSTM后接一个softmax分类器，用于将语音特征分类到所对应的HMM状态。

其中，采用深度延迟LSTM模型对所述待处理语音特征进行训练的具体为：先在神经网络的输入层输入所述待处理语音特征之前，将深度延迟LSTM模型输出序列向后延迟多个时间以获得相应的未来信息，然后对于输入层，输入的数据是提取好的特征向量，即所述待处理语音特征。对于输出层，需要输出多个不同的类别，通过对类别进行编码，如第t帧语音属于第k类，总共有K类，其输出表示为一个第k维为1，其余维度为0的K维向量l＿t。其中，通过交叉熵(CrossEntropy)函数作为性能函数，以通过求解最优化问题来获得网络的权值矩阵。然后对深度延迟LSTM模型进行前向计算。

假设，LSTM为n层，则其一条语音特征为X＝(x₁,x₂,…,x_T)，其对应的标签序列为L＝(l₁,l₂,…,l_T)，其中T表示语音特征的长度。用n(1≤n≤N)表示LSTM的某一层，t表示某一时间点，那么t时刻第n层的LSTM输出由以下公式迭代计算：

其中i,o,f,c分别表示LSTM中的输入门、输出门、遗忘门和cell，表示连接权值(例如表示第n层LSTM输出到输入门的连接权值)，b表示对应的偏置。

从输入层到输出层，神经网络不断进行前向计算，最后一层采用softmax分类，其输出y_t为：

设t时刻输出层某一神经元k的输出为网络的性能函数为：

最后对深度延迟LSTM模型进行训练，具体地，将深度延迟LSTM模型按时间展开为L层，采用反向传播算法对深度延迟LSTM模型进行训练，具体地，先由前馈计算计算出各节点的激活值，具体计算如下：

其中，所述表示第l+1层第i个神经元的输入，是第l层所有神经元的输出与对应权值的加权求和，所述表示第l+1层第i个神经元的输出，所述f为激活函数，所述表示第l层第j个神经元与第l+1层第i个神经元之间的连接权值，所述α为学习率。然后计算最后一层的残差，具体计算如下：

再从后往前计算各层的残差，具体计算如下：

接着再由残差计算出对应的梯度，具体计算如下：

接着再更新对应权值，具体计算如下：

最后通过重复执行前向计算以及采用反向传播算法对LSTM模型进行训练，直至LSTM模型收敛或达到规定的迭代次数。从而完成对LSTM模型的训练，得到目标声学模型。其中，所述规定的迭代次数的具体选取可以根据实际需求进行设置，例如，可以是18次。

在本实施例中，如图2所示，LSTM模型包括输入层，输入层有13个神经元(输入的语音特征向量每一帧为13维向量)，两层隐藏层，每层隐藏层包含2000个memory cell，softmax输出层有1980个神经元。

例如，可以采用BPTT(backpropagation through time，反向传播算法)和随机梯度下降法(Stochastic Gradient Descent，简称SGD)对LSTM模型进行训练，将LSTM模型按时间展开至20层。每个时间点输入100帧数据(batch－size)，并且这100帧数据是随机打乱的。权重衰减系数为0.01，冲量设置为0.9，初始权重从[－0.05，0.05]随机均匀初始化。训练阶段，学习率初始值设为1，后续迭代若验证集的交叉熵相对于上一轮没有下降，则将学习率减半重新训练一轮。最终迭代18次收敛，从而完成对LSTM模型的训练，得到目标声学模型。

可选地，在本实施例中，当获取到目标声学模型后，可以对所述目标声学模型进行测试，以得到最优模型，具体地，输入测试语音帧，通过已经训练好的所述目标声学模型的输出层神经元的激活值，并根据该激活值预测该组语音帧相应的所属类别，将目标声学模型预测的类别与语音帧的实际类别标签进行比对，统计预测正确的样本个数。当测试结果达到预期效果，则完成对LSTM模型的训练，进而得到最优的目标声学模型。例如，当预测正确的样本个数所占测试总数的98％及以上时，为最优。

本实施例所提供的声音模型训练方法，通过采集四川方言语音数据；对所述四川方言语音数据进行特征提取，获取语音特征；采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征；采用深度延迟LSTM模型对所述待处理语音特征进行训练，获取目标声学模型。可以有效提高声学模型训练的效率并节省训练时间。采用LSTM模型对语音特征进行训练，只需进行一次训练即要实现HMM－DNN训练多次的效果，可极大降低所需的训练时间，并取得比HMM－DNN训练更好的识别效果。即该声学模型训练方法中，无需预先训练出一个隐马尔科夫模型－深度神经网络模型(即HMM－DNN声学模型)再进行序列训练；而是将序列训练融入到HMM－LSTM模型的训练过程中，通过HMM－LSTM模型进行一次训练即可，可极大降低所需的训练时间，并通过深度延迟LSTM模型能够获取更多的上下文信息，显著提升了识别效果，其相对错误率相比HMM－GMM下降23.94％，与HMM－DNN相比其相对错误率下降14.86％。从而取得比DNN－HMM声学模型或DNN－HMM－序列训练模型训练更好的识别效果。

第二实施例

对应于第一实施例中的声音模型训练方法，图3示出采用第一实施例所示的声音模型训练方法一一对应的声音模型训练装置。如图3所示所述声学模型训练装置400包括获取模块410、特征提取模块420、第一训练模块430和第二训练模块440。其中，获取模块410、特征提取模块420、第一训练模块430和第二训练模块440的实现功能与第一实施例中对应的步聚一一对应，为避免赘述，本实施例不一一详述。

获取模块410，用于采集四川方言语音数据。

特征提取模块420，用于对所述四川方言语音数据进行特征提取，获取语音特征。

作为一种实施方式，所述特征提取模块420用于将所述四川方言语音数据以20毫秒为一帧进行切割；对每一帧所述四川方言语音数据进行特征提取，获取语音特征。

作为另一种实施方式，所述特征提取模块420用于将每条所述四川方言语音数据按照语意切割成多条预设长度的语音数据，并给出每条语音数据所对应的中文标签；提取每条语音数据的梅尔频率倒谱系数特征。

第一训练模块430，用于采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征。

作为一种实施方式，第一训练模块430用于基于隐马尔可夫模型－混合高斯模型对所述语音特征进行训练；采用强制对齐对每一帧所述语音特征打上所对应的分类标签；生成带所述分类标签的待处理语音特征。

第二训练模块440，用于采用深度延迟LSTM模型对所述待处理语音特征进行训练，获取目标声学模型。

作为一种实施方式，第二训练模块440用于采用反向传播算法对深度延迟LSTM模型进行训练，获取训练后的神经网络模型；通过所述训练后的神经网络模型对所述待处理语音特征进行训练，获取目标声学模型。

第三实施例

请参阅图4，是本发明实施例提供的四川方言识别方法的流程图。下面将对图4所示的具体流程进行详细阐述。

步骤S201，获取用户输入的语音数据。

其中，可以通过麦克风采集用户输入音数据。例如，用户通过手机的麦克风输入一段语音数据。

其中，所述语音数据的长度可以是多帧，也可以是一帧。

在本实施例中，所述语音数据可以是wav、mp3或其他格式的语音信号。在此，不作具体限定。

步骤S201，采用声学模型训练方法所获取到的目标声学模型以及预设的四川话词典和语言模型对所述语音数据进行识别，获取识别结。

其中，所述四川话词典为预先根据所采集的大量四川话语音数据生成的，所述四川话词典包含多数四川话日常用语的方言数据集，并罗列出了四川方言中的特殊词汇与音素之间的映射关系，使得本发明能够准确识别多数四川方言特殊词汇。所述语言模型为预先设置好安装在数据库或者是硬盘中。

步骤S201，将所述识别结果以字符文本序列输出。

其中，可以通过该识别结果查找四川话词典中对应的字符文本，从而将所查找的字符文本进行输出。

本实施例提供的四川方言识别方法，通过获取用户输入的语音数据；采用声学模型训练方法所获取到的目标声学模型以及预设的四川话词典和语言模型对所述语音数据进行识别，获取识别结果；将所述识别结果以字符文本序列输出。可以快速识别四川话方言，并且有效提高识别准确率。

第四实施例

对应于第三实施例中的四川方言识别方法，图5示出了采用第三实施例所示的四川方言识别方法一一对应的四川方言识别装置。如图5所示，所述四川方言识别装置500包括获取模块510、识别模块520和输出模块530。其中，获取模块510、识别模块520和输出模块530的实现功能与第三实施例中对应的步聚一一对应，为避免赘述，本实施例不一一详述。

获取模块510，用于获取用户输入的语音数据。

识别模块520，用于采用声学模型训练方法所获取到的目标声学模型以及预设的四川话词典和语言模型对所述语音数据进行识别，获取识别结果。

输出模块530，用于将所述识别结果以字符文本序列输出。

第五实施例

如图6所示，是终端设备300的示意图。所述终端设备300包括存储器302、处理器304以及存储在所述存储器302中并可在所述处理器304上运行的计算机程序303，所述计算机程序303被处理器304执行时实现第一实施例中的所述声学模型训练方法，为避免重复，此处不再赘述。或者，所述计算机程序303被处理器304执行时实现第三实施例所述四川方言识别方法中各步骤的功能，为避免重复，此处不再赘述。或者，所述计算机程序303被处理器304执行时实现第二实施例所述声学模型训练装置中各模型/单元的功能，为避免重复，此处不再赘述。或者，所述计算机程序303被处理器304执行时实现第四实施例所述四川方言识别装置中各模型/单元的功能，为避免重复，此处不再赘述。

示例性的，计算机程序303可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器302中，并由处理器304执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序303在终端设备300中的执行过程。例如，计算机程序303可以被分割成第二实施例中的获取模块410、特征提取模块420、第一训练模块430和第二训练模块440，各模块的具体功能如第一实施例或第二实施例所述，在此不一一赘述。

终端设备300可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。

其中，存储器302可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read－Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read－Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read－Only Memory，EEPROM)等。其中，存储器302用于存储程序，所述处理器304在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流程定义的方法可以应用于处理器304中，或者由处理器304实现。

处理器304可能是一种集成电路芯片，具有信号的处理能力。上述的处理器304可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

可以理解的是，图6所示的结构仅为终端设备300的一种结构示意图，终端设备300还可以包括比图6所示更多或更少的组件。图6中所示的各组件可以采用硬件、软件或其组合实现。

第六实施例

本发明实施例还提供一种存储介质，所述存储介质上存储有指令，当所述指令在计算机上运行时，所述计算机程序被处理器执行时实现第一实施例中的所述声学模型训练方法，为避免重复，此处不再赘述。或者，所述计算机程序被处理器执行时实现第三实施例所述四川方言识别方法中各步骤的功能，为避免重复，此处不再赘述。或者，所述计算机程序被处理器执行时实现第二实施例所述声学模型训练装置中各模型/单元的功能，为避免重复，此处不再赘述。或者，所述计算机程序被处理器执行时实现第四实施例所述四川方言识别装置中各模型/单元的功能，为避免重复，此处不再赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现，基于这样的理解，本发明的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD－ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施场景的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种声学模型训练方法，其特征在于，包括：

采集四川方言语音数据；

对所述四川方言语音数据进行特征提取，获取语音特征；

采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征；

采用深度延迟LSTM模型对所述待处理语音特征进行训练，获取目标声学模型。

2.根据权利要求1所述的方法，其特征在于，所述的对所述四川方言语音数据进行特征提取，包括：

将所述四川方言语音数据以20毫秒为一帧进行切割；

对每一帧所述四川方言语音数据进行特征提取。

3.根据权利要求1所述的方法，其特征在于，所述的对所述四川方言语音数据进行特征提取，获取语音特征，包括：

将每条所述四川方言语音数据按照语意切割成多条预设长度的语音数据，并给出每条语音数据所对应的中文标签；

提取每条语音数据的梅尔频率倒谱系数特征。

4.根据权利要求1所述的方法，其特征在于，所述的采用深度延迟LSTM模型对所述待处理语音特征进行训练，包括：

采用反向传播算法对深度延迟LSTM模型进行训练，获取训练后的神经网络模型；

通过所述训练后的神经网络模型对所述待处理语音特征进行训练。

5.根据权利要求1所述的方法，其特征在于，所述的采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征，包括：

基于隐马尔可夫模型－混合高斯模型对所述语音特征进行训练；

采用强制对齐对每一帧所述语音特征打上所对应的分类标签；

生成带所述分类标签的待处理语音特征。

6.一种四川方言识别方法，其特征在于，包括：

获取用户输入的语音数据；

采用如权利要求1－5任意一项所述的声学模型训练方法所获取到的目标声学模型以及预设的四川话词典和语言模型对所述语音数据进行识别，获取识别结果；

将所述识别结果以字符文本序列输出。

7.一种声学模型训练装置，其特征在于，包括：

获取模块，用于采集四川方言语音数据；

特征提取模块，用于对所述四川方言语音数据进行特征提取，获取语音特征；

第一训练模块，用于采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征；

第二训练模块，用于采用深度延迟LSTM模型对所述待处理语音特征进行训练，获取目标声学模型。

8.一种四川方言识别装置，其特征在于，包括：

获取模块，用于获取用户输入的语音数据；

识别模块，用于采用如权利要求1－5任意一项所述的声学模型训练方法所获取到的目标声学模型以及预设的四川话词典和语言模型对所述语音数据进行识别，获取识别结果；

输出模块，用于将所述识别结果以字符文本序列输出。

9.一种终端设备，其特征在于，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述声学模型训练方法的步骤；或者，所述处理器执行所述计算机程序时实现如权利要求6所述四川方言识别方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行如权利要求1－5任一项所述的声学模型训练方法；或者使得所述计算机执行如权利要求6所述的四川方言识别方法的步骤。