CN113190678B

CN113190678B - 基于参数稀疏共享的中国方言语种分类系统

Info

Publication number: CN113190678B
Application number: CN202110497757.6A
Authority: CN
Inventors: 任杰; 万苗; 马苗; 田丰
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2023-10-31
Anticipated expiration: 2041-05-08
Also published as: CN113190678A

Abstract

基于参数稀疏共享的中国方言语种分类系统，包括特征提取模块、基础网络训练模块、子任务网络训练模块、联合训练模块、输出模块；提取语音特征梅尔频率倒谱系数，基于不同的语音特征构建基础网络，定义子任务并基于基础网络为子任务选取测试集准确率表现最优的网络参数；将各个子任务网络集成基于参数稀疏共享机制的模型，并用各个子任务数据集对更新基本网络中对应的子任务网络参数；基于参数稀疏共享机制的模型具有分类准确率高，网络参数精简的优点。将语音特征输入到已训练的基于参数共享机制的模型中，可获取方言语种的预测结果。

Description

基于参数稀疏共享的中国方言语种分类系统

技术领域

本发明属于学习语音分类技术领域，特别涉及基于参数稀疏共享的中国方言语种分类系统。

背景技术

语音识别是人机交互的重要组成部分，现如今，基于深度神经学习的语音识别系统日趋成熟，并在导航、沟通、智能家居、车载系统、教学等诸多领域都得到广泛应用。由于用户输入语音存在口音、方言等特征，导致智能语音系统常常出现无法准确识别的问题，进而需要用户矫正口音、重复输入语音指令，严重影响用户使用体验。由此，预先自动判定输入音频语种是提升语音识别系统后端效能的关键步骤。

当前，城市化进程加快，现代教育普及，承载地域文化的方言日渐式微."已成为服务文化建设、中华优秀传统文化传承中国语言资源保护工程”的实施，为记录、保存语言和方言文化提供了绝佳的契机。团队的首要任务，是将方言记录与文化保存结合起来，抢救性地开展工作。方言的保护和研究已成为服务文化建设、中华优秀传统文化传承的名片。当下理应努力挖掘和传承、弘扬方言所承载的地域文化。2020年发布的《中国语言政策研究报告(2020)》(蓝皮书)分析阐述了语言服务，语言研究的重要性和必要性。方言语种识别对中国语言资源保护、语言服务规划的推进有重要意义，对智能应用程序发展提供发展方向。

目前的语音识别系统对于方言识别准确率支持较少，应用范围较小。由于我国民族众多，语言文化差异大，方言多样复杂的特点，方言语种分类不可避免且成为语种识别研究的难点。

发明内容

为克服上述现有技术的不足，本发明的目的是提供基于参数稀疏共享的中国方言语种分类系统，解决现有技术的智能移动设备在预先自动判定输入音频语种的问题；采用参数稀疏共享机制，提供了有较高分类准确率的方言语音参数稀疏共享的中国方言语种分类系统。

为了实现上述目的，本发明采用的技术方案是：基于参数稀疏共享的中国方言语种分类系统，构建基于参数稀疏共享的多任务模型，输入中国方言语音特征，输出对应方言语种，包括有特征提取模块、基础网络训练模块、子任务网络训练模块、联合训练模块、输出模块；所述特征提取模块用于原始音频预处理及MFCC，特征提取；所述基础网络训练模块，针对MFCC特征建立基于CNN_LSTM的神经网络模型，并以此作为基础网络，并优化至表现最优的网络结构；所述子任务网络训练模块选择子任务，使用迭代裁剪方法依次为所述子任务选择最优网络；所述联合训练模块用于将子任务网络及基础网络集成形成基于稀疏共享机制的网络模型，输入各个任务数据更新基于稀疏共享机制的网络模型对应的网络参数并保存模型；所述输出模块用于将语音特征输入至基于稀疏共享机制的网络模型并输出语种预测结果。

所述特征提取模块包括:

1)原始语音缩短或扩充至统一时长2秒；

2)对统一时长的语音预加重、加窗、分帧、傅里叶变换处理；

3)Mel滤波器组处理、取对数、DCT离弦变换获取MFCC特征。

所述基础网络训练模块，该模块建立基于MFCC特征搭建CNN_LSTM网络。所述网络最后一层为所述子任务各自的输出层。

所述子任务各自的输出层均为全连接层，输出大小为子任务分类类别。

所述子任务网络训练模块，该模块子任务为方言语种分类任务(共含10种方言语种)及方言区域分类任务(共含6种方言区域)所述迭代裁剪方法，设定最低参数保留率thred(α)或迭代的最大轮数作为迭代终止的界限，当保留率α小于最低保留率thred(α)或迭代轮数大于迭代的最大轮数则完成迭代，每轮计算裁剪率pruning_rate，pruning_rate指每轮将被裁剪的参数与当前网络保留参数总数的比值，其计算公式为按裁剪率对网络进行裁剪，至此，网络被裁剪的参数总数total_m发生变化，统计参数状态并更新裁剪参数总数total_m，进一步更新参数保留率α，更新公式为α＝1-round(100.0*total_m/total_params,2),total_params为参数总数，round()函数对结果进行四舍五入操作，2为结果保留的小数点后的位数；对裁剪后的网络进行训练并保存其准确率、参数及其留存状态，选取准确率最高的网络作为所述子任务网络。所述参数保留率α指保留参数与参数总数的比值，thred(α)为最低参数保留率，其值为10％，所述迭代轮数为裁剪次数，最大迭代轮数为10；所述参数状态使用二进制掩码矩阵M∈{0,1}存储，二进制掩码矩阵M对应值表示参数是否保存。其中对应M值为1表示参数保留，对应M值为0表示参数被裁剪。

所述联合训练模块包括：

1)加载所述子任务对应的M矩阵及子任务各自数据集；

2)加载所述基础网络，交叉输入子任务数据集，输入前加载步骤所述子任务M矩阵进行参数更新；

3)保存模型。

所述子任务数据集分别由方言语种分类数据集和方言区域分类数据集构成，其中方言语种分类数据集由特征及方言语种标签构成，方言区域分类数据集由特征及方言区域标签构成。

所述输出模块，该模块将测试集语音特征输入至联合训练模块所述的网络模型中，输出对应的方言语种。

本发明的有益效果是：

本发明提供的基于多任务学习的参数稀疏共享的中国方言语种分类方法及其系统，针对由于中国方言复杂性多样性造成的方言识别准确率低，识别系统有待提高的状况，提出了基于多任务学习的参数稀疏共享的中国方言语种分类系统。

本发明由于构建了多任务学习模型，并在此基础上采用参数稀疏共享机制；所以具有参数共享灵活，自主确定不同子任务的相关性以及网络模型精简的特点，由此提高了方言语种分类系统的准确率。

附图说明

图1为本发明实现的基于参数稀疏共享的中国方言语种分类系统的流程示意图。

图2为本发明的基于稀疏共享机制模型训练流程图。

具体实施方式

下面通过具体实施例结合附图对本发明的作进一步的详细说明。

参见图1，图1为基于参数稀疏共享的中国方言语种分类系统的流程示意图，包括特征提取模块、基础网络训练模块、子任务网络训练模块、联合训练模块、输出模块；所述特征提取模块用于原始音频预处理及MFCC特征提取；所述基础网络训练模块针对三种特征建立相应的基于LSTM的神经网络模型作为基础网络,并优化至表现最优的网络结构；所述子任务网络训练模块选择子任务，使用迭代裁剪方法依次为所述子任务选择最优网络；所述联合训练模块用于将子任务网络及基础网络集成形成基于稀疏共享机制的网络模型，输入各个任务数据更新基于稀疏共享机制的网络模型对应的网络参数并保存模型。所述输出模块用于将语音特征输入至基于稀疏共享机制的网络模型并输出语种预测结果。

所述特征提取模块包括:

1)原始语音缩短或扩充至统一时长2秒；

2)对所述统一时长的语音预加重、加窗、分帧、傅里叶变换处理；

3)Mel滤波器组处理、取对数、DCT离弦变换获取MFCC特征；

所述基础网络训练模块，基于MFCC特征搭建CNN_LSTM网络，网络模型最后一层为子任务各自的输出层，所述子任务各自的输出层均为全连接层，输出大小为子任务分类类别。

如图2所示不同任务基于基础网络进行裁剪，灰色方格为保留的参数。

所述联合训练模块包括：

1)加载所述子任务对应的M矩阵及子任务各自数据集；

2)加载所述基础网络，如图2所示交叉输入子任务数据集，任务的数据集分别由方言语种分类数据集和方言区域分类数据集构成，其中方言语种分类数据集由特征及方言语种标签构成，方言区域分类数据集由特征及方言区域标签构成。输入前加载步骤所述子任务M矩阵，仅对M矩阵对应值为1的参数进行更新；在交叉训练过程中，部分参数被反复训练，此为子任务共享参数，图中颜色最深的方格表示子任务之间的共享参数；

3)保存模型。

所述输出模块，该模块将测试集语音特征输入至联合训练模块所述的模型中，输出对应的方言语种。

本方法可以对自然方言语音进行高准确概率分类处理。对模型参数进行裁剪使得模型精简。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于参数稀疏共享的中国方言语种分类系统，其特征在于，包括有特征提取模块、基础网络训练模块、子任务网络训练模块、联合训练模块、标签输出模块；所述特征提取模块用于原始音频预处理及音频的MFCC特征提取；所述基础网络训练模块，是针对MFCC特征建立相应的基于长短期记忆网络，并以此作为基础网络，通过不同方言数据训练集，训练基础网络结构；所述子任务网络训练模块，选择子任务，使用迭代裁剪方法依次对所述子任务进行裁剪并保留最优网络结构；所述联合训练模块用于将子任务网络及基础网络集成形成基于稀疏共享机制的网络模型，输入各个任务数据更新基于稀疏共享机制的网络模型对应的网络参数并保存模型；所述输出模块用于将语音特征输入至基于稀疏共享机制的网络模型并输出语种预测结果。

2.根据权利要求1所述的基于参数稀疏共享的中国方言语种分类系统，其特征在于，所述特征提取模块包括:

1)预处理原始音频数据，将原始语音裁剪缩短或通过复制扩充至统一时长2秒；

2)对统一时长的语音预加重、加窗、分帧、傅里叶变换、Mel滤波器组处理、取对数、DCT离弦变换后，最终获取原始音频的MFCC特征。

3.根据权利要求1所述的基于参数稀疏共享的中国方言语种分类系统，其特征在于，所述基础网络训练模块，该模块建立基于MFCC特征搭建CNN_LSTM网络；所述网络最后一层为所述子任务各自的输出层。

4.根据权利要求3所述的基于参数稀疏共享的中国方言语种分类系统，其特征在于，所述基础网络训练模块所述子任务各自的输出层均为全连接层，输出大小为子任务分类类别。

5.根据权利要求1所述的基于参数稀疏共享的中国方言语种分类系统，其特征在于，所述子任务网络训练模块，该模块子任务为方言语种分类任务及方言区域分类任务所述迭代裁剪方法，设定最低参数保留率thred(α)或迭代的最大轮数作为迭代终止的界限，当保留率α小于最低保留率thred(α)或迭代轮数大于迭代的最大轮数则完成迭代，每轮计算裁剪率pruning_rate，pruning_rate指每轮将被裁剪的参数与当前网络保留参数总数的比值，其计算公式为按裁剪率对网络进行裁剪，至此，网络被裁剪的参数总数total_m发生变化，统计参数状态并更新裁剪参数总数total_m，进一步更新参数保留率α，更新公式为α＝1-round(100.0*total_m/total_params,2),total_params为参数总数，round()函数对结果进行四舍五入操作，2为结果保留的小数点后的位数；对裁剪后的网络进行训练并保存其准确率、参数及其留存状态，选取准确率最高的网络作为所述子任务网络。

6.根据权利要求5所述的基于参数稀疏共享的中国方言语种分类系统，其特征在于，所述参数保留率α指保留参数与参数总数的比值，thred(α)为最低参数保留率，其值为10％，所述迭代轮数为裁剪次数，最大迭代轮数为10；所述参数状态使用二进制掩码矩阵M∈{0,1}存储，二进制掩码矩阵M对应值表示参数是否保存；其中对应M值为1表示参数保留，对应M值为0表示参数被裁剪。

7.根据权利要求1所述的基于参数稀疏共享的中国方言语种分类系统，其特征在于，所述联合训练模块包括：

1)加载子任务对应的M矩阵及子任务各自数据集；

3)保存模型。

8.根据权利要求7所述的基于参数稀疏共享的中国方言语种分类系统，其特征在于，所述联合训练模块，所述子任务数据集分别由方言语种分类数据集和方言区域分类数据集构成，其中方言语种分类数据集由特征及方言语种标签构成，方言区域分类数据集由特征及方言区域标签构成；所述输出模块，该模块将测试集语音特征输入至联合训练模块所述的网络模型中，输出对应的方言语种。