CN110660384B - 一种基于端到端的蒙古语异形同音词声学建模方法 - Google Patents
一种基于端到端的蒙古语异形同音词声学建模方法 Download PDFInfo
- Publication number
- CN110660384B CN110660384B CN201910971849.6A CN201910971849A CN110660384B CN 110660384 B CN110660384 B CN 110660384B CN 201910971849 A CN201910971849 A CN 201910971849A CN 110660384 B CN110660384 B CN 110660384B
- Authority
- CN
- China
- Prior art keywords
- mongolian
- model library
- homophone
- special
- shaped
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000005477 standard model Effects 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 206010066054 Dysmorphism Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于端到端的蒙古语异形同音词声学建模方法,蒙古语异形同音词模型库,所述蒙古语异形同音词模型库中记载所有蒙古语异形同音词,所述蒙古语异形同音词模型库包括方言模型库和标准模型库;声学模型建立模块,所述声学模型建立模块也包括方言模型库和标准模型库;特征提取模块;语言处理模块,本发明本发明通过预先建立蒙古语异形同音词模型库,并在蒙古语异形同音词模型库内设置方言模型库和标准模型库,计算用户录入的各种语异形同音词的标准条件标准条件概率,通过将蒙古语分为标准和方言两个单元,根据语言的种类进行特征对比,计算标准条件概率,从而有助于可以提高识别准确率,且增加方言模型库,有助于满足不同的用户。
Description
技术领域
本发明涉及语言识别技术领域,具体为一种基于端到端的蒙古语异形同音词声学建模方法。
背景技术
蒙古语属阿尔泰语系蒙古语族,主要使用者在中国蒙古族聚居区、蒙古国和俄罗斯联邦西伯利亚联邦管区。蒙古国现在使用的蒙古语因在二十世纪五六十年代受苏联影响主要使用西里尔字母拼写,俄罗斯的卡尔梅克语、布里亚特语被视为蒙古语的方言,中国内蒙古地区的蒙古族还在使用以往的传统蒙古文。蒙古国以蒙古语为唯一官方语言。在中国境内的内蒙古自治区和俄罗斯境内布里亚特共和国、卡尔梅克共和国、图瓦共和国作为国家官方语言外的第二个官方语言。
蒙古语中含有词根、词干和后以及音节、音素等,蒙古语中含有异形同音词,在这些词语中存在发音相似或相近的音素,在利用计算机进行识别时,容易发生相互误识,从而降低导致系统识别率,且蒙古语除了官方语言,还存在地区的方言,现有的识别系统中一般只输入有官方语言,当出现方言时,识别的正确率大大降低。
发明内容
本发明的目的在于提供一种基于端到端的蒙古语异形同音词声学建模方法,以解决上述背景技术中蒙古语中含有词根、词干和后以及音节、音素等,蒙古语中含有异形同音词,在这些词语中存在发音相似或相近的音素,在利用计算机进行识别时,容易发生相互误识,从而降低导致系统识别率,且蒙古语除了官方语言,还存在地区的方言,现有的识别系统中一般只输入有官方语言,当出现方言时,识别的正确率大大降低的问题。
为实现上述目的,本发明提供如下技术方案:一种基于端到端的蒙古语异形同音词声学建模方法,包括:
蒙古语异形同音词模型库,所述蒙古语异形同音词模型库中记载所有蒙古语异形同音词,所述蒙古语异形同音词模型库包括方言模型库和标准模型库;
声学模型建立模块,所述声学模型建立模块基于蒙古语异形同音词模型库,用于缓存用户输出,所述声学模型建立模块也包括方言模型库和标准模型库;
特征提取模块,所述特征提取模块用于提取语音信号中语言内容相关的特征参数;
语言处理模块,所述语言处理模块用于,对经过特征提取模块处理的语音数据进行语句标准条件概率计算,将标准条件概率最大的语句输出到语言模型建立模块中。
优选的,所述特征提取模块包括预处理单元和语音增强单元;
所述预处理单元,用于对用户输入的语音信息进行去噪处理,对连续的语音信息进行分段处理,然后再利用线性预测的信号处理手段对语音信息进行分析,提取特征参数;
所述语音增强单元,用于对特征参数进行音量调节,增强语句的音量。
优选的,所述语句标准条件概率计算为
优选的,所述声学建模方法的步骤包括:
S1、预先建立蒙古语异形同音词模型库;
S2、特征提取模块接收到用户用的输入内容后,利用预处理单元对接收的语句进行去噪处理,去除语句中不必要的环境噪音,然后提取特征参数,将该特征参数输入到语言处理模块中;
S3、语言处理模块接收语音特征参数后,根据预先建立的蒙古语异形同音词模型库对语音特征参数进行标准条件概率计算,然后选择输出标准条件概率最大的语句,同时将标准条件概率最大的语句缓存到声学模型建立模块中;
S4、接收用户的输入内容,根据预先建立蒙古语异形同音词模型库和声学模型建立模块对用户内容分别进行标准条件概率计算,结合后输出标准条件概率最大的语句。
优选的,在声学建模方法中,计算语句标准条件概率时,将语句的特征参数与蒙古语异形同音词模型和声学模型建立模块的库方言模型库和标准模型库进行比较计算标准条件概率。
优选的,在S4结束后,将输出的标准条件概率最大的语句缓存到声学模型建立模块中。
本发明提供了一种基于端到端的蒙古语异形同音词声学建模方法,具备以下有益效果:
本发明通过预先建立蒙古语异形同音词模型库,并在蒙古语异形同音词模型库内设置方言模型库和标准模型库,计算用户录入的各种语异形同音词的标准条件标准条件概率,通过将蒙古语分为标准和方言两个单元,便于根据语言的种类进行特征对比,计算标准条件概率,从而有助于可以提高识别准确率,且增加方言模型库,有助于满足不同的用户,且通过将用户输入与前期建立的声学模型建立模块和蒙古语异形同音词模型库同时进行概率计算,再次提高识别的准确率。
附图说明
图1为本发明的系统结构框图;
图2为本发明的蒙古语异形同音词模型库结构图;
图3为本发明的声学模型建立模块结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
如图1-3所示,本发明提供一种技术方案:一种基于端到端的蒙古语异形同音词声学建模方法,包括:
蒙古语异形同音词模型库,所述蒙古语异形同音词模型库中记载所有蒙古语异形同音词,所述蒙古语异形同音词模型库包括方言模型库和标准模型库;
声学模型建立模块,所述声学模型建立模块基于蒙古语异形同音词模型库,用于缓存用户输出,所述声学模型建立模块也包括方言模型库和标准模型库;
特征提取模块,所述特征提取模块用于提取语音信号中语言内容相关的特征参数;
语言处理模块,所述语言处理模块用于,对经过特征提取模块处理的语音数据进行语句标准条件概率计算,将标准条件概率最大的语句输出到语言模型建立模块中。
优选的,所述特征提取模块包括预处理单元和语音增强单元;
所述预处理单元,用于对用户输入的语音信息进行去噪处理,对连续的语音信息进行分段处理,然后再利用线性预测的信号处理手段对语音信息进行分析,提取特征参数;
所述语音增强单元,用于对特征参数进行音量调节,增强语句的音量。
优选的,所述语句标准条件概率计算为
优选的,所述声学建模方法的步骤包括:
S1、预先建立蒙古语异形同音词模型库;
S2、特征提取模块接收到用户用的输入内容后,利用预处理单元对接收的语句进行去噪处理,去除语句中不必要的环境噪音,然后提取特征参数,将该特征参数输入到语言处理模块中;
S3、语言处理模块接收语音特征参数后,根据预先建立的蒙古语异形同音词模型库对语音特征参数进行标准条件概率计算,然后选择输出标准条件概率最大的语句,同时将标准条件概率最大的语句缓存到声学模型建立模块中;
S4、接收用户的输入内容,根据预先建立蒙古语异形同音词模型库和声学模型建立模块对用户内容分别进行标准条件概率计算,结合后输出标准条件概率最大的语句。
优选的,在声学建模方法中,计算语句标准条件概率时,将语句的特征参数与蒙古语异形同音词模型和声学模型建立模块的库方言模型库和标准模型库进行比较计算标准条件概率。
优选的,在S4结束后,将输出的标准条件概率最大的语句缓存到声学模型建立模块中。
需要说明的是,一种基于端到端的蒙古语异形同音词声学建模方法,具体实施步骤:
1、预先建立蒙古语异形同音词模型库,在蒙古语异形同音词模型库内分区设置方言模型库和标准模型库;
2、用户录入语句内容;
3、特征提取模块接收到用户用的输入内容后,特征提取模块的预处理单元对接收的语句先进行去噪处理,如果输入的内容为连续的语音信息,进行分段处理,每段时长为26ms,然后再利用线性预测的信号处理手段对语音信息进行分析,提取特征参数,将提取的特征参数利用语音增强单元进行音量调节;
4、语句中的特征参数输入到语言处理模块中,根据预先建立的蒙古语异形同音词模型库对语音特征参数进行标准条件概率计算,在计算标准条件概率时,需要计算方言模型库和标准模型库两种标准条件概率,然后选择输出标准条件概率最大的语句,同时将标准条件概率最大的语句缓存到声学模型建立模块中;
5、接收用户的输入内容,根据预先建立蒙古语异形同音词模型库和声学模型建立模块对用户内容分别进行标准条件概率计算,其中包括四种标准条件概率,即:蒙古语异形同音词模型库内的方言模型库标准条件概率、蒙古语异形同音词模型库内的标准模型库标准条件概率、声学模型建立模块的方言模型库标准条件概率和声学模型建立模块的标准模型库标准条件概率,进行比较后,输出标准条件概率最大的语句。
通过将蒙古语分为标准和方言两个单元,便于根据语言的种类进行特征对比,计算标准条件概率,从而有助于可以提高识别准确率,且增加方言模型库,有助于满足不同的用户,且通过将用户输入与前期建立的声学模型建立模块和蒙古语异形同音词模型库同时进行概率计算,再次提高识别的准确率尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (4)
1.一种基于端到端的蒙古语异形同音词声学建模方法,其特征在于,所述声学建模方法的步骤包括:
S1、预先建立蒙古语异形同音词模型库;
S2、特征提取模块接收到用户输入的语音信号后,利用预处理单元对接收的对应的语音信号进行去噪处理,去除语音信号中不必要的环境噪音,然后提取语音特征参数,将该语音特征参数输入到语言处理模块中;
S3、语言处理模块接收语音特征参数后,根据预先建立的蒙古语异形同音词模型库对语音特征参数进行标准条件概率计算,然后选择输出标准条件概率最大的语音信号,同时将标准条件概率最大的语音信号缓存到声学模型建立模块中;
S4、接收用户输入的另一语音信号,根据预先建立蒙古语异形同音词模型库和声学模型建立模块对所述另一语音信号分别进行标准条件概率计算,进行比较后输出标准条件概率最大的所述另一语音信号;
所述蒙古语异形同音词模型库中记载所有蒙古语异形同音词,所述蒙古语异形同音词模型库包括方言模型库和标准模型库;
所述声学模型建立模块也包括方言模型库和标准模型库;
所述特征提取模块用于提取语音信号中语言内容相关的语音特征参数;
所述语言处理模块用于对经过特征提取模块提取的语音特征参数进行标准条件概率计算,将标准条件概率最大的语音信号缓存到声学模型建立模块中。
2.根据权利要求1所述的一种基于端到端的蒙古语异形同音词声学建模方法,其特征在于:所述特征提取模块包括预处理单元和语音增强单元;
所述预处理单元,用于对用户输入的语音信号进行去噪处理,对连续的语音信号进行分段处理,然后再利用线性预测的信号处理手段对语音信号进行分析,提取特征参数;
所述语音增强单元,用于对语音特征参数进行音量调节,增强语音信号的音量。
3.根据权利要求1所述的一种基于端到端的蒙古语异形同音词声学建模方法,其特征在于:在步骤S4中,计算标准条件概率时,将所述另一语音信号的语音特征参数与蒙古语异形同音词模型库的方言模型库和标准模型库以及声学模型建立模块的方言模型库和标准模型库进行比较计算标准条件概率。
4.根据权利要求1所述的一种基于端到端的蒙古语异形同音词声学建模方法,其特征在于:在S4结束后,将输出的标准条件概率最大的所述另一语音信号缓存到声学模型建立模块中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910971849.6A CN110660384B (zh) | 2019-10-14 | 2019-10-14 | 一种基于端到端的蒙古语异形同音词声学建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910971849.6A CN110660384B (zh) | 2019-10-14 | 2019-10-14 | 一种基于端到端的蒙古语异形同音词声学建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110660384A CN110660384A (zh) | 2020-01-07 |
CN110660384B true CN110660384B (zh) | 2022-03-22 |
Family
ID=69040793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910971849.6A Active CN110660384B (zh) | 2019-10-14 | 2019-10-14 | 一种基于端到端的蒙古语异形同音词声学建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110660384B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515952B (zh) * | 2021-08-18 | 2023-09-12 | 内蒙古工业大学 | 一种用于蒙古语对话模型联合建模方法、系统及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4468756A (en) * | 1982-05-20 | 1984-08-28 | Chan Computer Corporation | Method and apparatus for processing languages |
CN102880611A (zh) * | 2011-07-14 | 2013-01-16 | 腾讯科技(深圳)有限公司 | 一种语言建模方法及语言建模装置 |
CN104718569A (zh) * | 2012-09-11 | 2015-06-17 | 谷歌公司 | 改进语音发音 |
CN105279227A (zh) * | 2015-09-11 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 同音词的语音搜索处理方法及装置 |
US9349367B2 (en) * | 2008-04-24 | 2016-05-24 | Nuance Communications, Inc. | Records disambiguation in a multimodal application operating on a multimodal device |
CN106328125A (zh) * | 2016-10-28 | 2017-01-11 | 许昌学院 | 一种河南方言语音识别系统 |
CN109885828A (zh) * | 2019-01-14 | 2019-06-14 | 平安科技(深圳)有限公司 | 基于语言模型的词语纠错方法、装置、计算机设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10599645B2 (en) * | 2017-10-06 | 2020-03-24 | Soundhound, Inc. | Bidirectional probabilistic natural language rewriting and selection |
-
2019
- 2019-10-14 CN CN201910971849.6A patent/CN110660384B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4468756A (en) * | 1982-05-20 | 1984-08-28 | Chan Computer Corporation | Method and apparatus for processing languages |
US9349367B2 (en) * | 2008-04-24 | 2016-05-24 | Nuance Communications, Inc. | Records disambiguation in a multimodal application operating on a multimodal device |
CN102880611A (zh) * | 2011-07-14 | 2013-01-16 | 腾讯科技(深圳)有限公司 | 一种语言建模方法及语言建模装置 |
CN104718569A (zh) * | 2012-09-11 | 2015-06-17 | 谷歌公司 | 改进语音发音 |
CN105279227A (zh) * | 2015-09-11 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 同音词的语音搜索处理方法及装置 |
CN106328125A (zh) * | 2016-10-28 | 2017-01-11 | 许昌学院 | 一种河南方言语音识别系统 |
CN109885828A (zh) * | 2019-01-14 | 2019-06-14 | 平安科技(深圳)有限公司 | 基于语言模型的词语纠错方法、装置、计算机设备及介质 |
Non-Patent Citations (2)
Title |
---|
"Large Span Statistical Language Models: Application to Homophone Disambiguation for Large Vocabulary Speech Recognition in French";F Béchet;《European Conference on Speech Communication & Technology. DBLP》;20071231;全文 * |
"蒙古文网络文本同形词消歧算法研究";张玉亮;《中国优秀硕士学位论文全文数据库信息科技辑》;20170315;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110660384A (zh) | 2020-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107945805B (zh) | 一种智能化跨语言语音识别转化方法 | |
US8478591B2 (en) | Phonetic variation model building apparatus and method and phonetic recognition system and method thereof | |
CN103578464B (zh) | 语言模型的建立方法、语音辨识方法及电子装置 | |
CN101645271B (zh) | 发音质量评估系统中的置信度快速求取方法 | |
CN110767218A (zh) | 端到端语音识别方法、系统、装置及其存储介质 | |
CN109410914A (zh) | 一种赣方言语音和方言点识别方法 | |
CN107093422B (zh) | 一种语音识别方法和语音识别系统 | |
CN114360557B (zh) | 语音音色转换方法、模型训练方法、装置、设备和介质 | |
CN111105785A (zh) | 一种文本韵律边界识别的方法及装置 | |
CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
CN101727902A (zh) | 一种对语调进行评估的方法 | |
JP6875819B2 (ja) | 音響モデル入力データの正規化装置及び方法と、音声認識装置 | |
Besacier et al. | Towards speech translation of non written languages | |
CN114530141A (zh) | 一种特定场景下的中英文混合的离线语音关键词识别方法及其系统实现 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN113744722A (zh) | 一种用于有限句库的离线语音识别匹配装置与方法 | |
CN110660384B (zh) | 一种基于端到端的蒙古语异形同音词声学建模方法 | |
CN107123419A (zh) | Sphinx语速识别中背景降噪的优化方法 | |
CN111370001A (zh) | 一种发音的纠正方法、智能终端及存储介质 | |
US20050246172A1 (en) | Acoustic model training method and system | |
JPH0558553B2 (zh) | ||
Chit et al. | Myanmar continuous speech recognition system using fuzzy logic classification in speech segmentation | |
CN113053358A (zh) | 一种分区域方言的语音识别客服系统 | |
Laleye et al. | Automatic text-independent syllable segmentation using singularity exponents and rényi entropy | |
CN117789706B (zh) | 一种音频信息内容识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |