CN110660384A - 一种基于端到端的蒙古语异形同音词声学建模方法 - Google Patents

一种基于端到端的蒙古语异形同音词声学建模方法 Download PDF

Info

Publication number
CN110660384A
CN110660384A CN201910971849.6A CN201910971849A CN110660384A CN 110660384 A CN110660384 A CN 110660384A CN 201910971849 A CN201910971849 A CN 201910971849A CN 110660384 A CN110660384 A CN 110660384A
Authority
CN
China
Prior art keywords
mongolian
homophone
model library
standard
special
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910971849.6A
Other languages
English (en)
Other versions
CN110660384B (zh
Inventor
马志强
李图雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN201910971849.6A priority Critical patent/CN110660384B/zh
Publication of CN110660384A publication Critical patent/CN110660384A/zh
Application granted granted Critical
Publication of CN110660384B publication Critical patent/CN110660384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于端到端的蒙古语异形同音词声学建模方法,蒙古语异形同音词模型库,所述蒙古语异形同音词模型库中记载所有蒙古语异形同音词,所述蒙古语异形同音词模型库包括方言模型库和标准模型库;声学模型建立模块,所述声学模型建立模块也包括方言模型库和标准模型库;特征提取模块;语言处理模块,本发明本发明通过预先建立蒙古语异形同音词模型库,并在蒙古语异形同音词模型库内设置方言模型库和标准模型库,计算用户录入的各种语异形同音词的标准条件标准条件概率,通过将蒙古语分为标准和方言两个单元,根据语言的种类进行特征对比,计算标准条件概率,从而有助于可以提高识别准确率,且增加方言模型库,有助于满足不同的用户。

Description

一种基于端到端的蒙古语异形同音词声学建模方法
技术领域
本发明涉及语言识别技术领域,具体为一种基于端到端的蒙古语异形同音词声学建模方法。
背景技术
蒙古语属阿尔泰语系蒙古语族,主要使用者在中国蒙古族聚居区、蒙古国和俄罗斯联邦西伯利亚联邦管区。蒙古国现在使用的蒙古语因在二十世纪五六十年代受前苏联影响主要使用西里尔字母拼写,俄罗斯的卡尔梅克语、布里亚特语被视为蒙古语的方言,中国内蒙古地区的蒙古族还在使用以往的传统蒙古文。蒙古国以蒙古语为唯一官方语言。在中国境内的内蒙古自治区和俄罗斯境内布里亚特共和国、卡尔梅克共和国、图瓦共和国作为国家官方语言外的第二个官方语言。
蒙古语中含有词根、词干和后以及音节、音素等,蒙古语中含有异形同音词,在这些词语中存在发音相似或相近的音素,在利用计算机进行识别时,容易发生相互误识,从而降低导致系统识别率,且蒙古语除了官方语言,还存在地区的方言,现有的识别系统中一般只输入有官方语言,当出现方言时,识别的正确率大大降低。
发明内容
本发明的目的在于提供一种基于端到端的蒙古语异形同音词声学建模方法,以解决上述背景技术中蒙古语中含有词根、词干和后以及音节、音素等,蒙古语中含有异形同音词,在这些词语中存在发音相似或相近的音素,在利用计算机进行识别时,容易发生相互误识,从而降低导致系统识别率,且蒙古语除了官方语言,还存在地区的方言,现有的识别系统中一般只输入有官方语言,当出现方言时,识别的正确率大大降低的问题。
为实现上述目的,本发明提供如下技术方案:一种基于端到端的蒙古语异形同音词声学建模方法,包括:
蒙古语异形同音词模型库,所述蒙古语异形同音词模型库中记载所有蒙古语异形同音词,所述蒙古语异形同音词模型库包括方言模型库和标准模型库;
声学模型建立模块,所述声学模型建立模块基于蒙古语异形同音词模型库,用于缓存用户输入,所述声学模型建立模块也包括方言模型库和标准模型库;
特征提取模块,所述特征提取模块用于提取语音信号中语言内容相关的特征参数;
语言处理模块,所述语言处理模块用于,对经过特征提取模块处理的语音数据进行语句标准条件概率计算,将标准条件概率最大的语句输出到语言模型建立模块中。
优选的,所述特征提取模块包括预处理单元和语音增强单元;
所述预处理单元,用于对用户输入的语音信息进行去噪处理,对连续的语音信息进行分段处理,然后再利用线性预测的信号处理手段对语音信息进行分析,提取特征参数;
所述语音增强单元,用于对特征参数进行音量调节,增强语句的音量。
优选的,所述语句标准条件概率计算为
Figure 794410DEST_PATH_IMAGE002
优选的,所述声学建模方法的步骤包括:
S1、预先建立标准蒙古语异形同音词模型库;
S2、特征提取模块接收到用户用的输入内容后,利用预处理单元对接收的语句进行去噪处理,去除语句中不必要的环境噪音,然后提取特征参数,将该特征参数输入到语言处理模块中;
S3、语言处理模块接收语音特征参数后,根据预先建立的蒙古语异形同音词模型库对语音特征参数进行标准条件概率计算,然后选择输出标准条件概率最大的语句,同时将标准条件概率最大的语句缓存到声学模型建立模块中;
S4、接收用户的输入内容,根据预先建立标准蒙古语异形同音词模型库和声学模型建立模块对用户内容分别进行标准条件概率计算,结合后输出标准条件概率最大的语句。
优选的,在声学建模方法中,计算语句标准条件概率时,将语句的特征参数与蒙古语异形同音词模型和声学模型建立模块的库方言模型库和标准模型库进行比较计算标准条件概率。
优选的,在S4结束后,将输出的标准条件概率最大的语句缓存到声学模型建立模块中。
本发明提供了一种基于端到端的蒙古语异形同音词声学建模方法,具备以下有益效果:
本发明通过预先建立蒙古语异形同音词模型库,并在蒙古语异形同音词模型库内设置方言模型库和标准模型库,计算用户录入的各种语异形同音词的标准条件标准条件概率,通过将蒙古语分为标准和方言两个单元,便于根据语言的种类进行特征对比,计算标准条件概率,从而有助于可以提高识别准确率,且增加方言模型库,有助于满足不同的用户,且通过将用户输入与前期建立的声学模型建立模块和蒙古语异形同音词模型库同时进行概率计算,再次提高识别的准确率。
附图说明
图1为本发明的系统结构框图;
图2为本发明的蒙古语异形同音词模型库结构图;
图3为本发明的声学模型建立模块结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
如图1-3所示,本发明提供一种技术方案:一种基于端到端的蒙古语异形同音词声学建模方法,包括:
蒙古语异形同音词模型库,所述蒙古语异形同音词模型库中记载所有蒙古语异形同音词,所述蒙古语异形同音词模型库包括方言模型库和标准模型库;
声学模型建立模块,所述声学模型建立模块基于蒙古语异形同音词模型库,用于缓存用户输入,所述声学模型建立模块也包括方言模型库和标准模型库;
特征提取模块,所述特征提取模块用于提取语音信号中语言内容相关的特征参数;
语言处理模块,所述语言处理模块用于,对经过特征提取模块处理的语音数据进行语句标准条件概率计算,将标准条件概率最大的语句输出到语言模型建立模块中。
优选的,所述特征提取模块包括预处理单元和语音增强单元;
所述预处理单元,用于对用户输入的语音信息进行去噪处理,对连续的语音信息进行分段处理,然后再利用线性预测的信号处理手段对语音信息进行分析,提取特征参数;
所述语音增强单元,用于对特征参数进行音量调节,增强语句的音量。
优选的,所述语句标准条件概率计算为
Figure 902044DEST_PATH_IMAGE002
优选的,所述声学建模方法的步骤包括:
S1、预先建立标准蒙古语异形同音词模型库;
S2、特征提取模块接收到用户用的输入内容后,利用预处理单元对接收的语句进行去噪处理,去除语句中不必要的环境噪音,然后提取特征参数,将该特征参数输入到语言处理模块中;
S3、语言处理模块接收语音特征参数后,根据预先建立的蒙古语异形同音词模型库对语音特征参数进行标准条件概率计算,然后选择输出标准条件概率最大的语句,同时将标准条件概率最大的语句缓存到声学模型建立模块中;
S4、接收用户的输入内容,根据预先建立标准蒙古语异形同音词模型库和声学模型建立模块对用户内容分别进行标准条件概率计算,结合后输出标准条件概率最大的语句。
优选的,在声学建模方法中,计算语句标准条件概率时,将语句的特征参数与蒙古语异形同音词模型和声学模型建立模块的库方言模型库和标准模型库进行比较计算标准条件概率。
优选的,在S4结束后,将输出的标准条件概率最大的语句缓存到声学模型建立模块中。
需要说明的是,一种基于端到端的蒙古语异形同音词声学建模方法,具体实施步骤:
1、预先建立标准蒙古语异形同音词模型库,在标准蒙古语异形同音词模型库内分区设置方言模型库和标准模型库;
2、用户录入语句内容;
3、特征提取模块接收到用户用的输入内容后,特征提取模块的预处理单元对接收的语句先进行去噪处理,如果输入的内容为连续的语音信息,进行分段处理,每段时长为26ms,然后再利用线性预测的信号处理手段对语音信息进行分析,提取特征参数,将提取的特征参数利用语音增强单元进行音量调节;
4、语句中的特征参数输入到语言处理模块中,根据预先建立的蒙古语异形同音词模型库对语音特征参数进行标准条件概率计算,在计算标准条件概率时,需要计算方言模型库和标准模型库两种标准条件概率,然后选择输出标准条件概率最大的语句,同时将标准条件概率最大的语句缓存到声学模型建立模块中;
5、接收用户的输入内容,根据预先建立标准蒙古语异形同音词模型库和声学模型建立模块对用户内容分别进行标准条件概率计算,其中包括四种标准条件概率,即:标准蒙古语异形同音词模型库内的方言模型库标准条件概率、标准蒙古语异形同音词模型库内的标准模型库标准条件概率、声学模型建立模块的方言模型库标准条件概率和声学模型建立模块的标准模型库标准条件概率,进行比较后,输出标准条件概率最大的语句。
通过将蒙古语分为标准和方言两个单元,便于根据语言的种类进行特征对比,计算标准条件概率,从而有助于可以提高识别准确率,且增加方言模型库,有助于满足不同的用户,且通过将用户输入与前期建立的声学模型建立模块和蒙古语异形同音词模型库同时进行概率计算,再次提高识别的准确率
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种基于端到端的蒙古语异形同音词声学建模方法,其特征在于,包括:
蒙古语异形同音词模型库,所述蒙古语异形同音词模型库中记载所有蒙古语异形同音词,所述蒙古语异形同音词模型库包括方言模型库和标准模型库;
声学模型建立模块,所述声学模型建立模块基于蒙古语异形同音词模型库,用于缓存用户输入,所述声学模型建立模块也包括方言模型库和标准模型库;
特征提取模块,所述特征提取模块用于提取语音信号中语言内容相关的特征参数;
语言处理模块,所述语言处理模块用于,对经过特征提取模块处理的语音数据进行语句标准条件概率计算,将标准条件概率最大的语句输出到语言模型建立模块中。
2.根据权利要求1所述的一种基于端到端的蒙古语异形同音词声学建模方法,其特征在于:所述特征提取模块包括预处理单元和语音增强单元;
所述预处理单元,用于对用户输入的语音信息进行去噪处理,对连续的语音信息进行分段处理,然后再利用线性预测的信号处理手段对语音信息进行分析,提取特征参数;
所述语音增强单元,用于对特征参数进行音量调节,增强语句的音量。
3.根据权利要求1所述的一种基于端到端的蒙古语异形同音词声学建模方法,其特征在于:所述语句标准条件概率计算为
Figure 477001DEST_PATH_IMAGE001
4.根据权利要求1所述的一种基于端到端的蒙古语异形同音词声学建模方法,其特征在于:所述声学建模方法的步骤包括:
S1、预先建立标准蒙古语异形同音词模型库;
S2、特征提取模块接收到用户用的输入内容后,利用预处理单元对接收的语句进行去噪处理,去除语句中不必要的环境噪音,然后提取特征参数,将该特征参数输入到语言处理模块中;
S3、语言处理模块接收语音特征参数后,根据预先建立的蒙古语异形同音词模型库对语音特征参数进行标准条件概率计算,然后选择输出标准条件概率最大的语句,同时将标准条件概率最大的语句缓存到声学模型建立模块中;
S4、接收用户的输入内容,根据预先建立标准蒙古语异形同音词模型库和声学模型建立模块对用户内容分别进行标准条件概率计算,结合后输出标准条件概率最大的语句。
5.根据权利要求4所述的一种基于端到端的蒙古语异形同音词声学建模方法,其特征在于:在声学建模方法中,计算语句标准条件概率时,将语句的特征参数与蒙古语异形同音词模型和声学模型建立模块的库方言模型库和标准模型库进行比较计算标准条件概率。
6.根据权利要求4所述的一种基于端到端的蒙古语异形同音词声学建模方法,其特征在于:在S4结束后,将输出的标准条件概率最大的语句缓存到声学模型建立模块中。
CN201910971849.6A 2019-10-14 2019-10-14 一种基于端到端的蒙古语异形同音词声学建模方法 Active CN110660384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910971849.6A CN110660384B (zh) 2019-10-14 2019-10-14 一种基于端到端的蒙古语异形同音词声学建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910971849.6A CN110660384B (zh) 2019-10-14 2019-10-14 一种基于端到端的蒙古语异形同音词声学建模方法

Publications (2)

Publication Number Publication Date
CN110660384A true CN110660384A (zh) 2020-01-07
CN110660384B CN110660384B (zh) 2022-03-22

Family

ID=69040793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910971849.6A Active CN110660384B (zh) 2019-10-14 2019-10-14 一种基于端到端的蒙古语异形同音词声学建模方法

Country Status (1)

Country Link
CN (1) CN110660384B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515952A (zh) * 2021-08-18 2021-10-19 内蒙古工业大学 一种用于蒙古语对话模型联合建模方法、系统及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4468756A (en) * 1982-05-20 1984-08-28 Chan Computer Corporation Method and apparatus for processing languages
CN102880611A (zh) * 2011-07-14 2013-01-16 腾讯科技(深圳)有限公司 一种语言建模方法及语言建模装置
CN104718569A (zh) * 2012-09-11 2015-06-17 谷歌公司 改进语音发音
CN105279227A (zh) * 2015-09-11 2016-01-27 百度在线网络技术(北京)有限公司 同音词的语音搜索处理方法及装置
US9349367B2 (en) * 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
CN106328125A (zh) * 2016-10-28 2017-01-11 许昌学院 一种河南方言语音识别系统
US20190108257A1 (en) * 2017-10-06 2019-04-11 Soundhound, Inc. Bidirectional probabilistic natural language rewriting and selection
CN109885828A (zh) * 2019-01-14 2019-06-14 平安科技(深圳)有限公司 基于语言模型的词语纠错方法、装置、计算机设备及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4468756A (en) * 1982-05-20 1984-08-28 Chan Computer Corporation Method and apparatus for processing languages
US9349367B2 (en) * 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
CN102880611A (zh) * 2011-07-14 2013-01-16 腾讯科技(深圳)有限公司 一种语言建模方法及语言建模装置
CN104718569A (zh) * 2012-09-11 2015-06-17 谷歌公司 改进语音发音
CN105279227A (zh) * 2015-09-11 2016-01-27 百度在线网络技术(北京)有限公司 同音词的语音搜索处理方法及装置
CN106328125A (zh) * 2016-10-28 2017-01-11 许昌学院 一种河南方言语音识别系统
US20190108257A1 (en) * 2017-10-06 2019-04-11 Soundhound, Inc. Bidirectional probabilistic natural language rewriting and selection
CN109885828A (zh) * 2019-01-14 2019-06-14 平安科技(深圳)有限公司 基于语言模型的词语纠错方法、装置、计算机设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
F BÉCHET: ""Large Span Statistical Language Models: Application to Homophone Disambiguation for Large Vocabulary Speech Recognition in French"", 《EUROPEAN CONFERENCE ON SPEECH COMMUNICATION & TECHNOLOGY. DBLP》 *
张玉亮: ""蒙古文网络文本同形词消歧算法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515952A (zh) * 2021-08-18 2021-10-19 内蒙古工业大学 一种用于蒙古语对话模型联合建模方法、系统及设备
CN113515952B (zh) * 2021-08-18 2023-09-12 内蒙古工业大学 一种用于蒙古语对话模型联合建模方法、系统及设备

Also Published As

Publication number Publication date
CN110660384B (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
CN110263322B (zh) 用于语音识别的音频语料筛选方法、装置及计算机设备
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN107945805B (zh) 一种智能化跨语言语音识别转化方法
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
CN105632499B (zh) 用于优化语音识别结果的方法和装置
US9170994B2 (en) Machine translation apparatus, method and computer readable medium
CN110648658A (zh) 一种语音识别模型的生成方法、装置及电子设备
CN110706690A (zh) 语音识别方法及其装置
CN110767218A (zh) 端到端语音识别方法、系统、装置及其存储介质
CN105957518A (zh) 一种蒙古语大词汇量连续语音识别的方法
CN103578464A (zh) 语言模型的建立方法、语音辨识方法及电子装置
CN107093422B (zh) 一种语音识别方法和语音识别系统
CN111613215B (zh) 一种语音识别的方法及其装置
CN114360557B (zh) 语音音色转换方法、模型训练方法、装置、设备和介质
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
CN112750445B (zh) 语音转换方法、装置和系统及存储介质
Besacier et al. Towards speech translation of non written languages
CN105895081A (zh) 一种语音识别解码的方法及装置
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN113744722A (zh) 一种用于有限句库的离线语音识别匹配装置与方法
Ali et al. WERd: Using social text spelling variants for evaluating dialectal speech recognition
CN115394287A (zh) 混合语种语音识别方法、装置、系统及存储介质
CN110660384B (zh) 一种基于端到端的蒙古语异形同音词声学建模方法
CN111370001A (zh) 一种发音的纠正方法、智能终端及存储介质
CN114530141A (zh) 一种特定场景下的中英文混合的离线语音关键词识别方法及其系统实现

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant