CN109829058A

CN109829058A - 一种基于多任务学习提高方言识别准确率的分类识别方法

Info

Publication number: CN109829058A
Application number: CN201910043686.5A
Authority: CN
Inventors: 王海; 秦晨光; 张晓�; 任哲; 赵子鑫; 高岭; 任杰; 郑杰
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2019-05-31
Anticipated expiration: 2039-01-17
Also published as: CN109829058B

Abstract

一种基于多任务学习提高方言识别准确率的分类识别方法。首先提取各类方言音频的多种语音特征，接着利用提取到的特征信息输入神经网络模型进行训练得到各类方言的神经网络模型。然后提出了一种基于方言音频特征选择和模型选择的融合筛选方法。选择出一组分类性能最好的单模型，再在该单模型的基础上使用多任务学习方法，通过联合训练得到不同方言语种的多任务神经网络模型，进而提高总体方言分类的准确率。最后在方言分类的结果基础之上，将方言输入到该方言语种特定的语言模型上，实现方言翻译语音转写等功能。

Description

一种基于多任务学习提高方言识别准确率的分类识别方法

技术领域

本发明属于语音识别技术领域，涉及深度学习神经网络，深度多任务学习神经网络，声学模型，语言模型，语言字典，具体涉及一种基于多任务学习提高方言识别准确率的分类识别方法。

背景技术

在自然语言处理领域，做好语音的识别工作对人机交互有着重要的意义。同理，每个国家尤其中国这样的多民族国家，方言是丰富多彩的，而且多数情况下很多方言，比如：南北方言，闽南话和普通话等还是有着很大的差异的。因此，做好中国方言分类，对保护中国方言，对更好的利用方言交流有着非凡的意义。对于应用方言分类结果提高方言翻译和方言转换精度等工作都有贡献，还可以提高与用户相关的方言类产品的用户体验。总之，方言研究在未来会给我们带来很大的贡献。

早先传统的语音识别方法大部分是基于隐马尔科夫模型的方法研究，随着深度学习的浪潮，深度神经网络RNN，LSTM，CNN等都在语音研究工作中发挥了出色的作用。方言识别作为语音领域的一个分支，与语音处理有许多的相似之处。

发明内容

为了克服上述现有技术的不足，本发明的目的是提供一种基于多任务学习提高方言识别准确率的分类识别方法，基于筛选最优特征和最优单模型的方法结合多任务学习训练关于方言语种分类的多任务深度学习模型，共享不同方言之间的相关特征信息，让神经网络模型能够学习到更多的信息，从而达到提高分类准确率的目的。在方言的分类基础上，将方言输入到特定语料库搭建的语言模型，实现方言识别和转写，提高方言翻译和转写的识别准确率。

为了实现上述目的，本发明采用的技术方案是：

一种基于多任务学习提高方言识别准确率的分类识别方法，包括以下步骤：

1)基于方言音频的两种常用特征MFCC和FBank，用HTK工具包或者Kaldi语音识别工具提取出方言音频的MFCC特征和Fbank特征，产生三组特征集合分别为：MFCC、Fbank、MFCC+Fbank(以下简称MF)；

2)在基于步骤1)处理后，得到的特征集合结合以下模型做最优单模型筛选，模型包含：DNN、LSTM、BiLSTM、GRU、ResNet18、ResNet50，将特征集合和模型的组合成十八种组合模型，对十八种组合模型分别进行训练，根据方言识别的错词率和正确率的判别准则考量模型优劣进行排序，找到一个最优的组合模型并定义为Linearly Language Net模型，简称LLN模型；

所述的十八种组合模型组合如下：M-D、F-D、MF-D、M-L、F-L、MF-L、M-BL、F-BL、MF-BL、M-G、F-G、MF-G、M-R18、F-R18、MF-R18、M-R50、F-R50、MF-R50，其中，M表示MFCC，F表示Fbank，MF表示MFCC+Fbank；D表示DNN，L表示LSTM，BL表示BiLSTM，G表示GRU，R18表示ResNet18，R50表示ResNet50；

3)根据步骤2)的方法将每个语种训练出一个LLN模型，每个LLN模型会有一个该模型即该语种的loss损失函数，将每个LLN模型的最后一层输入到同一层神经元，之后再经过两层的全连接层，联合训练所有LLN任务，联合loss的训练准测公式为：其中，Loss_sum表示所有任务总的loss损失，n代表任务个数，L_T表示任务T的loss；

4)将总的loss联合起来迭代训练反向传播，应用多任务学习方法训练整个模型，最后通过输出分类准确率考量模型的训练程度，在具体的测试应用时候可输出每条方言音频的分类标签；

5)根据步骤4)的分类标签，得到对应音频的分类结果，并且由步骤3)得到了每类语种的声学模型，对不同的语种搭建属于该语种的语义字典，然后利用对应音频的文本库搭建每类语种的语言模型，最后，在模型表列查找该结果对应的语种，然后找到其对应的语言模型，结合搜索字典和解码器，最终输出对应音频的预测文本，完成语音识别任务。

本发明的有益效果是：通过组合特征筛选并训练方言单任务模型；然后应用多任务学习方法改进上述单模型，通过多任务学习策略共享不同方言语种的隐含信息，并通过联合训练的方式搭建更鲁棒、泛化性能更好的多任务方言识别模型；进而，针对某一特定语种搭建具有特征化的方言模型。因此，可以实现提高方言识别准确率的效果。

附图说明

图1为多任务方言语种识别神经网络结构图。

图2为MFCC特征提取流程图。

图3为多任务学习多语种方言分类识别框图。

具体实施方式

以下结合附图及实施例对本发明进一步叙述，但本发明不局限于以下实施例。

如图1、图3所示，一种基于多任务学习提高方言识别准确率的分类识别方法，包括以下步骤：

所述的MFCC即梅尔频率倒谱系数，是基于人耳听觉特性提取出来的，它与频率成非线性对应关系，主要用于语音数据特征提取和降低运算维度，一般而言MFCC特征是40维特征，MFCC提取的步骤一般经过：预加重，分帧，加窗，快速傅里叶变换，梅尔滤波器组，离散余弦变换，MFCC特征提取流程图见附图说明图2，Fbank特征提取的方法步骤为：预加重，分帧，加窗，快速傅里叶变换，梅尔滤波器组，Fbank；

所述的十八种组合模型组合如下：M-D、F-D、MF-D、M-L、F-L、MF-L、M-BL、F-BL、MF-BL、M-G、F-G、MF-G、M-R18、F-R18、MF-R18、M-R50、F-R50、MF-R20，其中，M表示MFCC，F表示Fbank，MF表示MFCC+Fbank；D表示DNN，L表示LSTM，BL表示BiLSTM，G表示GRU，R18表示ResNet18，R50表示ResNet50；

Claims

1.一种基于多任务学习提高方言识别准确率的分类识别方法，其特征在于，包括以下步骤：

基于方言音频的两种常用特征MFCC和FBank，用HTK工具包或者Kaldi语音识别工具提取出方言音频的MFCC特征和Fbank特征，产生三组特征集合分别为：MFCC、Fbank、MFCC+Fbank(以下简称MF)；

3)根据步骤2)的方法将每个语种训练出一个LLN模型，每个LLN模型会有一个该模型即该语种的loss损失函数，将每个LLN模型的最后一层输入到同一层神经元，之后再经过两层的全连接层，联合训练所有LLN任务，联合loss的训练准测公式为：其中，Losss_um表示所有任务总的loss损失，n代表任务个数，L_T表示任务T的loss；

4)将总的loss联合起来迭代训练反向传播，应用多任务学习方法训练整个模型，最后通过输出分类准确率考量模型的识别性能，在具体的测试应用时候可输出每条方言音频的分类标签；