CN110660384A

CN110660384A - 一种基于端到端的蒙古语异形同音词声学建模方法

Info

Publication number: CN110660384A
Application number: CN201910971849.6A
Authority: CN
Inventors: 马志强; 李图雅
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-01-07
Anticipated expiration: 2039-10-14
Also published as: CN110660384B

Abstract

本发明公开了一种基于端到端的蒙古语异形同音词声学建模方法，蒙古语异形同音词模型库，所述蒙古语异形同音词模型库中记载所有蒙古语异形同音词，所述蒙古语异形同音词模型库包括方言模型库和标准模型库；声学模型建立模块，所述声学模型建立模块也包括方言模型库和标准模型库；特征提取模块；语言处理模块，本发明本发明通过预先建立蒙古语异形同音词模型库，并在蒙古语异形同音词模型库内设置方言模型库和标准模型库，计算用户录入的各种语异形同音词的标准条件标准条件概率，通过将蒙古语分为标准和方言两个单元，根据语言的种类进行特征对比，计算标准条件概率，从而有助于可以提高识别准确率，且增加方言模型库，有助于满足不同的用户。

Description

一种基于端到端的蒙古语异形同音词声学建模方法

技术领域

本发明涉及语言识别技术领域，具体为一种基于端到端的蒙古语异形同音词声学建模方法。

背景技术

蒙古语属阿尔泰语系蒙古语族，主要使用者在中国蒙古族聚居区、蒙古国和俄罗斯联邦西伯利亚联邦管区。蒙古国现在使用的蒙古语因在二十世纪五六十年代受前苏联影响主要使用西里尔字母拼写，俄罗斯的卡尔梅克语、布里亚特语被视为蒙古语的方言，中国内蒙古地区的蒙古族还在使用以往的传统蒙古文。蒙古国以蒙古语为唯一官方语言。在中国境内的内蒙古自治区和俄罗斯境内布里亚特共和国、卡尔梅克共和国、图瓦共和国作为国家官方语言外的第二个官方语言。

蒙古语中含有词根、词干和后以及音节、音素等，蒙古语中含有异形同音词，在这些词语中存在发音相似或相近的音素，在利用计算机进行识别时，容易发生相互误识，从而降低导致系统识别率，且蒙古语除了官方语言，还存在地区的方言，现有的识别系统中一般只输入有官方语言，当出现方言时，识别的正确率大大降低。

发明内容

本发明的目的在于提供一种基于端到端的蒙古语异形同音词声学建模方法，以解决上述背景技术中蒙古语中含有词根、词干和后以及音节、音素等，蒙古语中含有异形同音词，在这些词语中存在发音相似或相近的音素，在利用计算机进行识别时，容易发生相互误识，从而降低导致系统识别率，且蒙古语除了官方语言，还存在地区的方言，现有的识别系统中一般只输入有官方语言，当出现方言时，识别的正确率大大降低的问题。

为实现上述目的，本发明提供如下技术方案：一种基于端到端的蒙古语异形同音词声学建模方法，包括：

蒙古语异形同音词模型库，所述蒙古语异形同音词模型库中记载所有蒙古语异形同音词，所述蒙古语异形同音词模型库包括方言模型库和标准模型库；

声学模型建立模块，所述声学模型建立模块基于蒙古语异形同音词模型库，用于缓存用户输入，所述声学模型建立模块也包括方言模型库和标准模型库；

特征提取模块，所述特征提取模块用于提取语音信号中语言内容相关的特征参数；

语言处理模块，所述语言处理模块用于，对经过特征提取模块处理的语音数据进行语句标准条件概率计算，将标准条件概率最大的语句输出到语言模型建立模块中。

优选的，所述特征提取模块包括预处理单元和语音增强单元；

所述预处理单元，用于对用户输入的语音信息进行去噪处理，对连续的语音信息进行分段处理，然后再利用线性预测的信号处理手段对语音信息进行分析，提取特征参数；

所述语音增强单元，用于对特征参数进行音量调节，增强语句的音量。

优选的，所述语句标准条件概率计算为

。

优选的，所述声学建模方法的步骤包括：

S1、预先建立标准蒙古语异形同音词模型库；

S2、特征提取模块接收到用户用的输入内容后，利用预处理单元对接收的语句进行去噪处理，去除语句中不必要的环境噪音，然后提取特征参数，将该特征参数输入到语言处理模块中；

S3、语言处理模块接收语音特征参数后，根据预先建立的蒙古语异形同音词模型库对语音特征参数进行标准条件概率计算，然后选择输出标准条件概率最大的语句，同时将标准条件概率最大的语句缓存到声学模型建立模块中；

S4、接收用户的输入内容，根据预先建立标准蒙古语异形同音词模型库和声学模型建立模块对用户内容分别进行标准条件概率计算，结合后输出标准条件概率最大的语句。

优选的，在声学建模方法中，计算语句标准条件概率时，将语句的特征参数与蒙古语异形同音词模型和声学模型建立模块的库方言模型库和标准模型库进行比较计算标准条件概率。

优选的，在S4结束后，将输出的标准条件概率最大的语句缓存到声学模型建立模块中。

本发明提供了一种基于端到端的蒙古语异形同音词声学建模方法，具备以下有益效果：

本发明通过预先建立蒙古语异形同音词模型库，并在蒙古语异形同音词模型库内设置方言模型库和标准模型库，计算用户录入的各种语异形同音词的标准条件标准条件概率，通过将蒙古语分为标准和方言两个单元，便于根据语言的种类进行特征对比，计算标准条件概率，从而有助于可以提高识别准确率，且增加方言模型库，有助于满足不同的用户，且通过将用户输入与前期建立的声学模型建立模块和蒙古语异形同音词模型库同时进行概率计算，再次提高识别的准确率。

附图说明

图1为本发明的系统结构框图；

图2为本发明的蒙古语异形同音词模型库结构图；

图3为本发明的声学模型建立模块结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1-3所示，本发明提供一种技术方案：一种基于端到端的蒙古语异形同音词声学建模方法，包括：

优选的，所述语句标准条件概率计算为

。

优选的，所述声学建模方法的步骤包括：

S1、预先建立标准蒙古语异形同音词模型库；

需要说明的是，一种基于端到端的蒙古语异形同音词声学建模方法，具体实施步骤：

1、预先建立标准蒙古语异形同音词模型库，在标准蒙古语异形同音词模型库内分区设置方言模型库和标准模型库；

2、用户录入语句内容；

3、特征提取模块接收到用户用的输入内容后，特征提取模块的预处理单元对接收的语句先进行去噪处理，如果输入的内容为连续的语音信息，进行分段处理，每段时长为26ms，然后再利用线性预测的信号处理手段对语音信息进行分析，提取特征参数，将提取的特征参数利用语音增强单元进行音量调节；

4、语句中的特征参数输入到语言处理模块中，根据预先建立的蒙古语异形同音词模型库对语音特征参数进行标准条件概率计算，在计算标准条件概率时，需要计算方言模型库和标准模型库两种标准条件概率，然后选择输出标准条件概率最大的语句，同时将标准条件概率最大的语句缓存到声学模型建立模块中；

5、接收用户的输入内容，根据预先建立标准蒙古语异形同音词模型库和声学模型建立模块对用户内容分别进行标准条件概率计算，其中包括四种标准条件概率，即：标准蒙古语异形同音词模型库内的方言模型库标准条件概率、标准蒙古语异形同音词模型库内的标准模型库标准条件概率、声学模型建立模块的方言模型库标准条件概率和声学模型建立模块的标准模型库标准条件概率，进行比较后，输出标准条件概率最大的语句。

通过将蒙古语分为标准和方言两个单元，便于根据语言的种类进行特征对比，计算标准条件概率，从而有助于可以提高识别准确率，且增加方言模型库，有助于满足不同的用户，且通过将用户输入与前期建立的声学模型建立模块和蒙古语异形同音词模型库同时进行概率计算，再次提高识别的准确率

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于端到端的蒙古语异形同音词声学建模方法，其特征在于，包括：

2.根据权利要求1所述的一种基于端到端的蒙古语异形同音词声学建模方法，其特征在于：所述特征提取模块包括预处理单元和语音增强单元；

3.根据权利要求1所述的一种基于端到端的蒙古语异形同音词声学建模方法，其特征在于：所述语句标准条件概率计算为

。

4.根据权利要求1所述的一种基于端到端的蒙古语异形同音词声学建模方法，其特征在于：所述声学建模方法的步骤包括：

S1、预先建立标准蒙古语异形同音词模型库；

5.根据权利要求4所述的一种基于端到端的蒙古语异形同音词声学建模方法，其特征在于：在声学建模方法中，计算语句标准条件概率时，将语句的特征参数与蒙古语异形同音词模型和声学模型建立模块的库方言模型库和标准模型库进行比较计算标准条件概率。

6.根据权利要求4所述的一种基于端到端的蒙古语异形同音词声学建模方法，其特征在于：在S4结束后，将输出的标准条件概率最大的语句缓存到声学模型建立模块中。