CN109829058A - 一种基于多任务学习提高方言识别准确率的分类识别方法 - Google Patents
一种基于多任务学习提高方言识别准确率的分类识别方法 Download PDFInfo
- Publication number
- CN109829058A CN109829058A CN201910043686.5A CN201910043686A CN109829058A CN 109829058 A CN109829058 A CN 109829058A CN 201910043686 A CN201910043686 A CN 201910043686A CN 109829058 A CN109829058 A CN 109829058A
- Authority
- CN
- China
- Prior art keywords
- model
- dialect
- languages
- indicate
- mfcc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
一种基于多任务学习提高方言识别准确率的分类识别方法。首先提取各类方言音频的多种语音特征,接着利用提取到的特征信息输入神经网络模型进行训练得到各类方言的神经网络模型。然后提出了一种基于方言音频特征选择和模型选择的融合筛选方法。选择出一组分类性能最好的单模型,再在该单模型的基础上使用多任务学习方法,通过联合训练得到不同方言语种的多任务神经网络模型,进而提高总体方言分类的准确率。最后在方言分类的结果基础之上,将方言输入到该方言语种特定的语言模型上,实现方言翻译语音转写等功能。
Description
技术领域
本发明属于语音识别技术领域,涉及深度学习神经网络,深度多任务学习神经网络,声学模型,语言模型,语言字典,具体涉及一种基于多任务学习提高方言识别准确率的分类识别方法。
背景技术
在自然语言处理领域,做好语音的识别工作对人机交互有着重要的意义。同理,每个国家尤其中国这样的多民族国家,方言是丰富多彩的,而且多数情况下很多方言,比如:南北方言,闽南话和普通话等还是有着很大的差异的。因此,做好中国方言分类,对保护中国方言,对更好的利用方言交流有着非凡的意义。对于应用方言分类结果提高方言翻译和方言转换精度等工作都有贡献,还可以提高与用户相关的方言类产品的用户体验。总之,方言研究在未来会给我们带来很大的贡献。
早先传统的语音识别方法大部分是基于隐马尔科夫模型的方法研究,随着深度学习的浪潮,深度神经网络RNN,LSTM,CNN等都在语音研究工作中发挥了出色的作用。方言识别作为语音领域的一个分支,与语音处理有许多的相似之处。
发明内容
为了克服上述现有技术的不足,本发明的目的是提供一种基于多任务学习提高方言识别准确率的分类识别方法,基于筛选最优特征和最优单模型的方法结合多任务学习训练关于方言语种分类的多任务深度学习模型,共享不同方言之间的相关特征信息,让神经网络模型能够学习到更多的信息,从而达到提高分类准确率的目的。在方言的分类基础上,将方言输入到特定语料库搭建的语言模型,实现方言识别和转写,提高方言翻译和转写的识别准确率。
为了实现上述目的,本发明采用的技术方案是:
一种基于多任务学习提高方言识别准确率的分类识别方法,包括以下步骤:
1)基于方言音频的两种常用特征MFCC和FBank,用HTK工具包或者Kaldi语音识别工具提取出方言音频的MFCC特征和Fbank特征,产生三组特征集合分别为:MFCC、Fbank、MFCC+Fbank(以下简称MF);
2)在基于步骤1)处理后,得到的特征集合结合以下模型做最优单模型筛选,模型包含:DNN、LSTM、BiLSTM、GRU、ResNet18、ResNet50,将特征集合和模型的组合成十八种组合模型,对十八种组合模型分别进行训练,根据方言识别的错词率和正确率的判别准则考量模型优劣进行排序,找到一个最优的组合模型并定义为Linearly Language Net模型,简称LLN模型;
所述的十八种组合模型组合如下:M-D、F-D、MF-D、M-L、F-L、MF-L、M-BL、F-BL、MF-BL、M-G、F-G、MF-G、M-R18、F-R18、MF-R18、M-R50、F-R50、MF-R50,其中,M表示MFCC,F表示Fbank,MF表示MFCC+Fbank;D表示DNN,L表示LSTM,BL表示BiLSTM,G表示GRU,R18表示ResNet18,R50表示ResNet50;
3)根据步骤2)的方法将每个语种训练出一个LLN模型,每个LLN模型会有一个该模型即该语种的loss损失函数,将每个LLN模型的最后一层输入到同一层神经元,之后再经过两层的全连接层,联合训练所有LLN任务,联合loss的训练准测公式为:其中,Losssum表示所有任务总的loss损失,n代表任务个数,LT表示任务T的loss;
4)将总的loss联合起来迭代训练反向传播,应用多任务学习方法训练整个模型,最后通过输出分类准确率考量模型的训练程度,在具体的测试应用时候可输出每条方言音频的分类标签;
5)根据步骤4)的分类标签,得到对应音频的分类结果,并且由步骤3)得到了每类语种的声学模型,对不同的语种搭建属于该语种的语义字典,然后利用对应音频的文本库搭建每类语种的语言模型,最后,在模型表列查找该结果对应的语种,然后找到其对应的语言模型,结合搜索字典和解码器,最终输出对应音频的预测文本,完成语音识别任务。
本发明的有益效果是:通过组合特征筛选并训练方言单任务模型;然后应用多任务学习方法改进上述单模型,通过多任务学习策略共享不同方言语种的隐含信息,并通过联合训练的方式搭建更鲁棒、泛化性能更好的多任务方言识别模型;进而,针对某一特定语种搭建具有特征化的方言模型。因此,可以实现提高方言识别准确率的效果。
附图说明
图1为多任务方言语种识别神经网络结构图。
图2为MFCC特征提取流程图。
图3为多任务学习多语种方言分类识别框图。
具体实施方式
以下结合附图及实施例对本发明进一步叙述,但本发明不局限于以下实施例。
如图1、图3所示,一种基于多任务学习提高方言识别准确率的分类识别方法,包括以下步骤:
1)基于方言音频的两种常用特征MFCC和FBank,用HTK工具包或者Kaldi语音识别工具提取出方言音频的MFCC特征和Fbank特征,产生三组特征集合分别为:MFCC、Fbank、MFCC+Fbank(以下简称MF);
所述的MFCC即梅尔频率倒谱系数,是基于人耳听觉特性提取出来的,它与频率成非线性对应关系,主要用于语音数据特征提取和降低运算维度,一般而言MFCC特征是40维特征,MFCC提取的步骤一般经过:预加重,分帧,加窗,快速傅里叶变换,梅尔滤波器组,离散余弦变换,MFCC特征提取流程图见附图说明图2,Fbank特征提取的方法步骤为:预加重,分帧,加窗,快速傅里叶变换,梅尔滤波器组,Fbank;
2)在基于步骤1)处理后,得到的特征集合结合以下模型做最优单模型筛选,模型包含:DNN、LSTM、BiLSTM、GRU、ResNet18、ResNet50,将特征集合和模型的组合成十八种组合模型,对十八种组合模型分别进行训练,根据方言识别的错词率和正确率的判别准则考量模型优劣进行排序,找到一个最优的组合模型并定义为Linearly Language Net模型,简称LLN模型;
所述的十八种组合模型组合如下:M-D、F-D、MF-D、M-L、F-L、MF-L、M-BL、F-BL、MF-BL、M-G、F-G、MF-G、M-R18、F-R18、MF-R18、M-R50、F-R50、MF-R20,其中,M表示MFCC,F表示Fbank,MF表示MFCC+Fbank;D表示DNN,L表示LSTM,BL表示BiLSTM,G表示GRU,R18表示ResNet18,R50表示ResNet50;
3)根据步骤2)的方法将每个语种训练出一个LLN模型,每个LLN模型会有一个该模型即该语种的loss损失函数,将每个LLN模型的最后一层输入到同一层神经元,之后再经过两层的全连接层,联合训练所有LLN任务,联合loss的训练准测公式为:其中,Losssum表示所有任务总的loss损失,n代表任务个数,LT表示任务T的loss;
4)将总的loss联合起来迭代训练反向传播,应用多任务学习方法训练整个模型,最后通过输出分类准确率考量模型的训练程度,在具体的测试应用时候可输出每条方言音频的分类标签;
5)根据步骤4)的分类标签,得到对应音频的分类结果,并且由步骤3)得到了每类语种的声学模型,对不同的语种搭建属于该语种的语义字典,然后利用对应音频的文本库搭建每类语种的语言模型,最后,在模型表列查找该结果对应的语种,然后找到其对应的语言模型,结合搜索字典和解码器,最终输出对应音频的预测文本,完成语音识别任务。
Claims (1)
1.一种基于多任务学习提高方言识别准确率的分类识别方法,其特征在于,包括以下步骤:
基于方言音频的两种常用特征MFCC和FBank,用HTK工具包或者Kaldi语音识别工具提取出方言音频的MFCC特征和Fbank特征,产生三组特征集合分别为:MFCC、Fbank、MFCC+Fbank(以下简称MF);
2)在基于步骤1)处理后,得到的特征集合结合以下模型做最优单模型筛选,模型包含:DNN、LSTM、BiLSTM、GRU、ResNet18、ResNet50,将特征集合和模型的组合成十八种组合模型,对十八种组合模型分别进行训练,根据方言识别的错词率和正确率的判别准则考量模型优劣进行排序,找到一个最优的组合模型并定义为Linearly Language Net模型,简称LLN模型;
所述的十八种组合模型组合如下:M-D、F-D、MF-D、M-L、F-L、MF-L、M-BL、F-BL、MF-BL、M-G、F-G、MF-G、M-R18、F-R18、MF-R18、M-R50、F-R50、MF-R50,其中,M表示MFCC,F表示Fbank,MF表示MFCC+Fbank;D表示DNN,L表示LSTM,BL表示BiLSTM,G表示GRU,R18表示ResNet18,R50表示ResNet50;
3)根据步骤2)的方法将每个语种训练出一个LLN模型,每个LLN模型会有一个该模型即该语种的loss损失函数,将每个LLN模型的最后一层输入到同一层神经元,之后再经过两层的全连接层,联合训练所有LLN任务,联合loss的训练准测公式为:其中,Losssum表示所有任务总的loss损失,n代表任务个数,LT表示任务T的loss;
4)将总的loss联合起来迭代训练反向传播,应用多任务学习方法训练整个模型,最后通过输出分类准确率考量模型的识别性能,在具体的测试应用时候可输出每条方言音频的分类标签;
5)根据步骤4)的分类标签,得到对应音频的分类结果,并且由步骤3)得到了每类语种的声学模型,对不同的语种搭建属于该语种的语义字典,然后利用对应音频的文本库搭建每类语种的语言模型,最后,在模型表列查找该结果对应的语种,然后找到其对应的语言模型,结合搜索字典和解码器,最终输出对应音频的预测文本,完成语音识别任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910043686.5A CN109829058B (zh) | 2019-01-17 | 2019-01-17 | 一种基于多任务学习提高方言识别准确率的分类识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910043686.5A CN109829058B (zh) | 2019-01-17 | 2019-01-17 | 一种基于多任务学习提高方言识别准确率的分类识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109829058A true CN109829058A (zh) | 2019-05-31 |
CN109829058B CN109829058B (zh) | 2023-08-25 |
Family
ID=66861667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910043686.5A Active CN109829058B (zh) | 2019-01-17 | 2019-01-17 | 一种基于多任务学习提高方言识别准确率的分类识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829058B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532384A (zh) * | 2019-08-02 | 2019-12-03 | 广东工业大学 | 一种多任务字典单分类方法、系统、装置及存储介质 |
CN110930982A (zh) * | 2019-10-31 | 2020-03-27 | 国家计算机网络与信息安全管理中心 | 一种多口音声学模型及多口音语音识别方法 |
CN111243575A (zh) * | 2020-01-15 | 2020-06-05 | 北京工业大学 | 基于扩张卷积神经网络的方言种属识别方法 |
CN111488486A (zh) * | 2020-04-20 | 2020-08-04 | 武汉大学 | 一种基于多音源分离的电子音乐分类方法及系统 |
CN111508479A (zh) * | 2020-04-16 | 2020-08-07 | 重庆农村商业银行股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN111709249A (zh) * | 2020-05-29 | 2020-09-25 | 北京百度网讯科技有限公司 | 多语种模型的训练方法、装置、电子设备和存储介质 |
CN111833074A (zh) * | 2020-01-06 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 网约车的纠纷责任认定方法、装置和计算机可读存储介质 |
CN111883181A (zh) * | 2020-06-30 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 音频检测方法、装置、存储介质及电子装置 |
CN112233651A (zh) * | 2020-10-10 | 2021-01-15 | 深圳前海微众银行股份有限公司 | 方言类型的确定方法、装置、设备及存储介质 |
CN112527915A (zh) * | 2020-11-17 | 2021-03-19 | 北京科技大学 | 线性文化遗产知识图谱构建方法、系统、计算设备和介质 |
CN113190678A (zh) * | 2021-05-08 | 2021-07-30 | 陕西师范大学 | 基于参数稀疏共享的中国方言语种分类系统 |
CN113593534A (zh) * | 2021-05-28 | 2021-11-02 | 思必驰科技股份有限公司 | 针对多口音语音识别的方法和装置 |
CN114743545A (zh) * | 2022-06-14 | 2022-07-12 | 联通(广东)产业互联网有限公司 | 方言种类预测模型的训练方法、设备及存储介质 |
CN115827815A (zh) * | 2022-11-17 | 2023-03-21 | 西安电子科技大学广州研究院 | 基于小样本学习的关键词提取方法及装置 |
CN116304033A (zh) * | 2023-02-27 | 2023-06-23 | 中国司法大数据研究院有限公司 | 一种基于半监督、双层多分类的诉请识别方法 |
CN116682414A (zh) * | 2023-06-06 | 2023-09-01 | 安徽迪科数金科技有限公司 | 一种基于大数据的方言语音识别系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150287405A1 (en) * | 2012-07-18 | 2015-10-08 | International Business Machines Corporation | Dialect-specific acoustic language modeling and speech recognition |
CN106328125A (zh) * | 2016-10-28 | 2017-01-11 | 许昌学院 | 一种河南方言语音识别系统 |
CN108831445A (zh) * | 2018-05-21 | 2018-11-16 | 四川大学 | 四川方言识别方法、声学模型训练方法、装置及设备 |
-
2019
- 2019-01-17 CN CN201910043686.5A patent/CN109829058B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150287405A1 (en) * | 2012-07-18 | 2015-10-08 | International Business Machines Corporation | Dialect-specific acoustic language modeling and speech recognition |
CN106328125A (zh) * | 2016-10-28 | 2017-01-11 | 许昌学院 | 一种河南方言语音识别系统 |
CN108831445A (zh) * | 2018-05-21 | 2018-11-16 | 四川大学 | 四川方言识别方法、声学模型训练方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
石佳影等: "基于深度神经网络的四川方言识别", 《现代计算机(专业版)》 * |
黄威等: "基于深度神经网络的语音识别研究", 《现代计算机(专业版)》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532384A (zh) * | 2019-08-02 | 2019-12-03 | 广东工业大学 | 一种多任务字典单分类方法、系统、装置及存储介质 |
CN110532384B (zh) * | 2019-08-02 | 2022-04-19 | 广东工业大学 | 一种多任务字典单分类方法、系统、装置及存储介质 |
CN110930982A (zh) * | 2019-10-31 | 2020-03-27 | 国家计算机网络与信息安全管理中心 | 一种多口音声学模型及多口音语音识别方法 |
CN111833074A (zh) * | 2020-01-06 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 网约车的纠纷责任认定方法、装置和计算机可读存储介质 |
CN111243575A (zh) * | 2020-01-15 | 2020-06-05 | 北京工业大学 | 基于扩张卷积神经网络的方言种属识别方法 |
CN111508479A (zh) * | 2020-04-16 | 2020-08-07 | 重庆农村商业银行股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN111488486A (zh) * | 2020-04-20 | 2020-08-04 | 武汉大学 | 一种基于多音源分离的电子音乐分类方法及系统 |
CN111488486B (zh) * | 2020-04-20 | 2021-08-17 | 武汉大学 | 一种基于多音源分离的电子音乐分类方法及系统 |
CN111709249A (zh) * | 2020-05-29 | 2020-09-25 | 北京百度网讯科技有限公司 | 多语种模型的训练方法、装置、电子设备和存储介质 |
CN111883181A (zh) * | 2020-06-30 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 音频检测方法、装置、存储介质及电子装置 |
CN112233651A (zh) * | 2020-10-10 | 2021-01-15 | 深圳前海微众银行股份有限公司 | 方言类型的确定方法、装置、设备及存储介质 |
CN112233651B (zh) * | 2020-10-10 | 2024-06-04 | 深圳前海微众银行股份有限公司 | 方言类型的确定方法、装置、设备及存储介质 |
CN112527915B (zh) * | 2020-11-17 | 2021-08-27 | 北京科技大学 | 线性文化遗产知识图谱构建方法、系统、计算设备和介质 |
CN112527915A (zh) * | 2020-11-17 | 2021-03-19 | 北京科技大学 | 线性文化遗产知识图谱构建方法、系统、计算设备和介质 |
CN113190678A (zh) * | 2021-05-08 | 2021-07-30 | 陕西师范大学 | 基于参数稀疏共享的中国方言语种分类系统 |
CN113190678B (zh) * | 2021-05-08 | 2023-10-31 | 陕西师范大学 | 基于参数稀疏共享的中国方言语种分类系统 |
CN113593534B (zh) * | 2021-05-28 | 2023-07-14 | 思必驰科技股份有限公司 | 针对多口音语音识别的方法和装置 |
CN113593534A (zh) * | 2021-05-28 | 2021-11-02 | 思必驰科技股份有限公司 | 针对多口音语音识别的方法和装置 |
CN114743545B (zh) * | 2022-06-14 | 2022-09-02 | 联通(广东)产业互联网有限公司 | 方言种类预测模型的训练方法、设备及存储介质 |
CN114743545A (zh) * | 2022-06-14 | 2022-07-12 | 联通(广东)产业互联网有限公司 | 方言种类预测模型的训练方法、设备及存储介质 |
CN115827815A (zh) * | 2022-11-17 | 2023-03-21 | 西安电子科技大学广州研究院 | 基于小样本学习的关键词提取方法及装置 |
CN115827815B (zh) * | 2022-11-17 | 2023-12-29 | 西安电子科技大学广州研究院 | 基于小样本学习的关键词提取方法及装置 |
CN116304033A (zh) * | 2023-02-27 | 2023-06-23 | 中国司法大数据研究院有限公司 | 一种基于半监督、双层多分类的诉请识别方法 |
CN116304033B (zh) * | 2023-02-27 | 2023-11-03 | 中国司法大数据研究院有限公司 | 一种基于半监督、双层多分类的诉请识别方法 |
CN116682414A (zh) * | 2023-06-06 | 2023-09-01 | 安徽迪科数金科技有限公司 | 一种基于大数据的方言语音识别系统 |
CN116682414B (zh) * | 2023-06-06 | 2024-01-30 | 安徽迪科数金科技有限公司 | 一种基于大数据的方言语音识别系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109829058B (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829058A (zh) | 一种基于多任务学习提高方言识别准确率的分类识别方法 | |
CN110674339B (zh) | 一种基于多模态融合的中文歌曲情感分类方法 | |
Singh et al. | ASRoIL: a comprehensive survey for automatic speech recognition of Indian languages | |
CN106503805A (zh) | 一种基于机器学习的双模态人人对话情感分析系统及其方法 | |
Mamyrbayev et al. | End-to-end speech recognition in agglutinative languages | |
CN115019776A (zh) | 语音识别模型及其训练方法、语音识别方法及装置 | |
Safitri et al. | Spoken language identification with phonotactics methods on minangkabau, sundanese, and javanese languages | |
CN104750677A (zh) | 语音传译装置、语音传译方法及语音传译程序 | |
CN111696522A (zh) | 基于hmm和dnn的藏语语音识别方法 | |
LAleye et al. | First automatic fongbe continuous speech recognition system: Development of acoustic models and language models | |
Almekhlafi et al. | A classification benchmark for Arabic alphabet phonemes with diacritics in deep neural networks | |
Shon et al. | Leveraging pre-trained language model for speech sentiment analysis | |
Dawodi et al. | Dari speech classification using deep convolutional neural network | |
CN110390929A (zh) | 基于cdnn-hmm的中英文民航陆空通话声学模型构建方法 | |
Iosifov et al. | Natural Language Technology to Ensure the Safety of Speech Information | |
Arora et al. | Universlu: Universal spoken language understanding for diverse classification and sequence generation tasks with a single network | |
Zhao et al. | Tibetan Multi-Dialect Speech and Dialect Identity Recognition. | |
Andrusenko et al. | Exploration of end-to-end asr for openstt–russian open speech-to-text dataset | |
Daouad et al. | An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture | |
Tasnia et al. | An overview of bengali speech recognition: Methods, challenges, and future direction | |
CN109523992A (zh) | 藏语方言语音处理系统 | |
Yin et al. | Speech recognition for power customer service based on dnn and cnn models | |
Kobylyukh et al. | Analyzing the Accuracy of Speech-to-Text APIs in Transcribing the Ukrainian Language. | |
Alfiansyah | Partial greedy algorithm to extract a minimum phonetically-and-prosodically rich sentence set | |
Yang et al. | The DCASE2021 challenge task 6 system: Automated audio caption |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |