CN113506559B - 一种根据越南语书写文本生成发音词典的方法 - Google Patents
一种根据越南语书写文本生成发音词典的方法 Download PDFInfo
- Publication number
- CN113506559B CN113506559B CN202110822873.0A CN202110822873A CN113506559B CN 113506559 B CN113506559 B CN 113506559B CN 202110822873 A CN202110822873 A CN 202110822873A CN 113506559 B CN113506559 B CN 113506559B
- Authority
- CN
- China
- Prior art keywords
- pronunciation dictionary
- pronunciation
- vietnam
- phoneme
- represented
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000010276 construction Methods 0.000 abstract description 3
- 238000012549 training Methods 0.000 abstract description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 208000036119 Frailty Diseases 0.000 description 2
- 206010003549 asthenia Diseases 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种根据越南语书写文本生成发音词典的方法,包括如下步骤:将越南语书写文本分解为至少包括韵母和声调两种特征的音素、至多包括声母、韵母、声调特征的音素;各个音素用互不重复的音素符号表示;书写文本不同但发音相同的声母或韵母采用相同的音素符号表示;全部书写文本分解后,生成书写文本与音素符号对应关系,作为发音词典。本发明在实际发音的基础上构建越南语文字书写文本与发音词典音素间的对应关系,适用于不同大小语料的模型训练,提升了发音词典的准确性和适用性。本发明采用的发音词典构建方法,将越南语中包含的特殊字母和声调符号,用新的编码符号表示,降低了本领域技术人员的使用难度,提升发音词典的适用性。
Description
技术领域
本发明属于语音识别技术领域,具体涉及一种根据越南语书写文本生成发音词典的方法。
背景技术
语音是人类与生俱来的高效便捷的交流方式,也人机交互的重要手段。自20世纪50年出现以来,语音识别技术实现商用并逐步融入人们的日常生活中。但目前国内外针对越南语语音识别的研究不多,受限于专业知识、语料库大小等因素,越南语语音识别领域的进展较缓慢。
语音识别技术中,发音词典是语音识别系统中重要的组成部分,其准确性和适用性对语音识别率的提升与否具有重要影响。发音字典包含了从单词到音素之间的映射,作用是用来连接声学模型和语言模型的。发音字典包含系统所能处理的单词的集合,并标明了其发音,生成发音词典首先要确定的是单词到音素的转换规则/映射关系。
越南语国语字使用的是拼音文字,以拉丁字母为基础,增加了若干新字母和声调符号,各音节间有明确界限。但如果将一个音节作为一个音素识别单位,会存在音素过多的问题,特别在越南语本身语音数据资源较少的情况下,识别率会受到较大影响。目前的越南语研究中,多采用将所有音素划分为元音和辅音两类,不同声调的元音作为不同音素的方法。相比于以音节作为音素单元,该方法更具有代表性。
但越南语中,相同元音或辅音符号出现在不同位置时,其实际发音可能存在明显区别;而实际发音相同的元音或辅音,也可能存在不同的书写形式。因此,不加区分地将所有音素划分为元音与辅音的方法形成的发音词典,会出现发音词典准确性不足的问题。
且相比于常见的拉丁字母,越南语中存在较多特殊符号,增加了本领域技术人员的使用难度。因此上述发音词典音素标注方法,在准确性和适用性上存在明显不足,影响了发音词典的质量。
发明内容
为克服现有技术存在的技术缺陷,本发明公开了一种根据越南语书写文本生成发音词典的方法。
本发明所述根据越南语书写文本生成发音词典的方法,包括如下步骤:
将越南语书写文本分解为至少包括韵母和声调两种特征音素,至多包括声母、韵母、声调三种特征音素;
各个音素用互不重复的音素符号表示;
书写文本不同但发音相同的声母或韵母采用相同的音素符号表示;
全部书写文本分解后,生成书写文本与音素符号对应关系,作为发音词典。
优选的,所述声母的音素符号采用1-2位字母表示。
优选的,所述韵母的音素符号采用1-6位字母表示。
优选的,所述特殊字符的音素符号采用2位字母表示。
优选的,所述声调的音素符号采用1位数字表示。
本发明在实际发音的基础上构建越南语文字书写文本与发音词典音素间的对应关系,适用于不同大小语料的模型训练,提升了发音词典的准确性和适用性。本发明采用的发音词典构建方法,将越南语中包含的特殊字母和声调符号,用新的编码符号表示,降低了本领域技术人员的使用难度,提升发音词典的适用性。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述越南语发音编码方法,包括根据越南语书写文本生成发音词典的方法,包括如下步骤:
将书写文本分解为至少包括韵母和声调两种特征的音素、至多包括声母、韵母、声调三种特征的音素;
越南语中,相同元音或辅音符号出现在不同位置时,其实际发音可能存在明显区别:以tất为例,如果按照元音和辅音划分音素,tất标注为:t â5 t,但实际上第1个作为声母的t与第2个作为韵尾的t实际发音有明显区别。本发明以声母、韵母进行音素划分,(tất标注为:t ât5),第一个t为声母,第二个t为韵母中的韵尾部分。该方法可以将书写文本相同,但分别作为声母的辅音和作为韵尾的辅音区分开来,对应不同的发音。
各个音素用互不重复的音素符号表示;
书写文本不同但发音相同的声母或韵母采用相同的音素符号表示;
在越南语中实际发音相同的元音或辅音,也可能存在不同的书写形式。如果采用元音和辅音标注发音,可能出现一个元音对应两个不同的书写文本的情况,造成发音词典对应关系混乱。
以“虚弱 yếu”和“抱怨 khiếu”为例,yếu该韵母在前无声母时书写为yếu,如虚弱 yếu;在前有声母时书写为iếu,如“抱怨 khiếu”;但yếu与iếu发音相同。本发明中,将书写文本不同但发音相同的声母或韵母采用相同的音素符号表示,即yếu和iếu采用相同音素符号表示,可提升标注的准确性。
全部拼音分解后,生成拼音与音素符号对应关系,作为发音词典。
为更好的说明本发明,如表一所示,给出部分越南语拼音分解为音素符号组合的一个具体实施方式。
表一
例如中文释义为火柴的越南语拼音,声母对应的音素符号为d,韵母对应的音素符号为yewm ,发音为横声,声调对应的音素符号为1。
又例如中文释义为橘子和经过的越南语拼音,声母虽然在书写时分别为c和q,但由于二者发音其实相同,因此用相同的音素符号k表示,韵母不同,分别用am和oa 表示,发音为横声,声调对应的音素符号为1。
又例如中文释义为虚弱的越南语拼音,没有声母,因此没有声母对应的音素符号,韵母用yewu 表示,发音为锐声,声调对应的音素符号为5。
又例如中文释义为抱怨的越南语拼音,声母为越南语中的特殊符号,采用音素符号dd表示,韵母用yewu 表示,发音为锐声,声调对应的音素符号为5。
又例如中文释义为鸟的越南语拼音,声母为越南语中的特殊符号,采用音素符号dd表示,因此没有声母对应的音素符号,韵母用yewu 表示,发音为问声,声调对应的音素符号为3。
声母数量较少,可以采用1-2位字母表示,表二给出声母对应的音素符号的一个具体实施方式,表二中,发音相同的声母,采用相同的音素符号表示;例如k、c、q发音相同,音素符号均为k。
表二
表三给出越南语中六种不同声调对应的音素符号的一种具体实现方式。
表三
表三中越南语的六种声调横声、玄声、问声、跌声、锐声、重声分别用数字1-6表示。
表四给出越南语中六种特殊字符对应的音素符号的一种具体实现方式。
表四
利用本发明所述方式对越南语发音进行音素符号编码后,生成发音词典,在进行越南语语音识别和合成时,系统调用发音词典进行文本和音频的匹配。
本发明在实际发音的基础上构建越南语文字书写文本与发音词典音素间的对应关系,适用于不同大小语料的模型训练,提升了发音词典的准确性和适用性。本发明采用的发音词典构建方法,将越南语中包含的特殊字母和声调符号,用新的编码符号表示,降低了本领域技术人员的使用难度,提升发音词典的适用性。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (4)
1.一种根据越南语书写文本生成发音词典的方法,其特征在于,包括如下步骤:
将越南语书写文本分解为至少包括韵母和声调两种特征音素,至多包括声母、韵母、声调三种特征音素;
各个音素用互不重复的音素符号表示;
书写文本不同但发音相同的声母或韵母采用相同的音素符号表示;
全部书写文本分解后,生成书写文本与音素符号对应关系,作为发音词典。
2.如权利要求1所述根据越南语书写文本生成发音词典的方法,其特征在于,所述声母的音素符号采用1-2位字母表示。
3.如权利要求1所述根据越南语书写文本生成发音词典的方法,其特征在于,所述韵母的音素符号采用1-6位字母表示。
4.如权利要求1所述根据越南语书写文本生成发音词典的方法,其特征在于,所述声调的音素符号采用1位数字表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110822873.0A CN113506559B (zh) | 2021-07-21 | 2021-07-21 | 一种根据越南语书写文本生成发音词典的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110822873.0A CN113506559B (zh) | 2021-07-21 | 2021-07-21 | 一种根据越南语书写文本生成发音词典的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113506559A CN113506559A (zh) | 2021-10-15 |
CN113506559B true CN113506559B (zh) | 2023-06-09 |
Family
ID=78014053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110822873.0A Active CN113506559B (zh) | 2021-07-21 | 2021-07-21 | 一种根据越南语书写文本生成发音词典的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113506559B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1316686A (zh) * | 2000-04-04 | 2001-10-10 | 曾养志 | 电子计算机汉字词语码编码技术 |
CN101840699A (zh) * | 2010-04-30 | 2010-09-22 | 中国科学院声学研究所 | 一种基于发音模型的语音质量评测方法 |
CN105225659A (zh) * | 2015-09-10 | 2016-01-06 | 中国航空无线电电子研究所 | 一种指令式语音控制发音词典辅助生成方法 |
CN107767858A (zh) * | 2017-09-08 | 2018-03-06 | 科大讯飞股份有限公司 | 发音词典生成方法及装置、存储介质、电子设备 |
CN110096715A (zh) * | 2019-05-06 | 2019-08-06 | 北京理工大学 | 一种融合发音特征汉语-越南语统计机器翻译方法 |
CN111930900A (zh) * | 2020-09-28 | 2020-11-13 | 北京世纪好未来教育科技有限公司 | 标准发音生成方法及相关装置 |
CN112036167A (zh) * | 2020-08-25 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN112634901A (zh) * | 2020-12-10 | 2021-04-09 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、设备和存储介质 |
-
2021
- 2021-07-21 CN CN202110822873.0A patent/CN113506559B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1316686A (zh) * | 2000-04-04 | 2001-10-10 | 曾养志 | 电子计算机汉字词语码编码技术 |
CN101840699A (zh) * | 2010-04-30 | 2010-09-22 | 中国科学院声学研究所 | 一种基于发音模型的语音质量评测方法 |
CN105225659A (zh) * | 2015-09-10 | 2016-01-06 | 中国航空无线电电子研究所 | 一种指令式语音控制发音词典辅助生成方法 |
CN107767858A (zh) * | 2017-09-08 | 2018-03-06 | 科大讯飞股份有限公司 | 发音词典生成方法及装置、存储介质、电子设备 |
CN110096715A (zh) * | 2019-05-06 | 2019-08-06 | 北京理工大学 | 一种融合发音特征汉语-越南语统计机器翻译方法 |
CN112036167A (zh) * | 2020-08-25 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN111930900A (zh) * | 2020-09-28 | 2020-11-13 | 北京世纪好未来教育科技有限公司 | 标准发音生成方法及相关装置 |
CN112634901A (zh) * | 2020-12-10 | 2021-04-09 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
"基于Transformer的越南语连续语音识别";刘佳文;《信息工程大学学报》;第第21卷卷(第第2期期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113506559A (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6067520A (en) | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models | |
El-Imam | Phonetization of Arabic: rules and algorithms | |
CN110083711A (zh) | 一种汉字拼音转换方法及转换系统 | |
Yoo et al. | The performance evaluation of continuous speech recognition based on Korean phonological rules of cloud-based speech recognition open API | |
CN108109610B (zh) | 一种模拟发声方法及模拟发声系统 | |
Dagba et al. | A Text To Speech system for Fon language using Multisyn algorithm | |
Kalyani et al. | Syllable analysis to build a dictation system in Telugu language | |
CN112802447A (zh) | 一种语音合成播报方法及装置 | |
CN113506559B (zh) | 一种根据越南语书写文本生成发音词典的方法 | |
Abujar et al. | A comprehensive text analysis for Bengali TTS using unicode | |
Chen et al. | A Bilingual Speech Synthesis System of Standard Malay and Indonesian Based on HMM-DNN | |
Sitaram et al. | Universal grapheme-based speech synthesis | |
Bailly et al. | Advocating for text input in multi-speaker text-to-speech systems | |
Akinwonmi | Development of a prosodic read speech syllabic corpus of the Yoruba language | |
Chao-angthong et al. | Northern Thai dialect text to speech | |
Khamdamov et al. | Syllable-Based Reading Model for Uzbek Language Speech Synthesizers | |
KR100451919B1 (ko) | 영어 발음 기호의 분해 및 합성 방법 | |
Alsharhan et al. | Developing a Stress Prediction Tool for Arabic Speech Recognition Tasks. | |
CN113409761B (zh) | 语音合成方法、装置、电子设备以及计算机可读存储介质 | |
US20220189462A1 (en) | Method of training a speech recognition model of an extended language by speech in a source language | |
CN109671308B (zh) | 一种发音口型矫正系统的生成方法 | |
Das | Syllabic Speech Synthesis for Marathi Language | |
Mulyati | Exploring Long And Short Vowels Sound In Ed Sheeran's Song | |
Hansakunbuntheung et al. | Mongolian speech corpus for text-to-speech development | |
Gizaw | Multiple pronunciation model for Amharic speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |