CN113506559A - 一种根据越南语书写文本生成发音词典的方法 - Google Patents

一种根据越南语书写文本生成发音词典的方法 Download PDF

Info

Publication number
CN113506559A
CN113506559A CN202110822873.0A CN202110822873A CN113506559A CN 113506559 A CN113506559 A CN 113506559A CN 202110822873 A CN202110822873 A CN 202110822873A CN 113506559 A CN113506559 A CN 113506559A
Authority
CN
China
Prior art keywords
vietnamese
pronunciation dictionary
phoneme
pronunciation
represented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110822873.0A
Other languages
English (en)
Other versions
CN113506559B (zh
Inventor
孙春玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chipintelli Technology Co Ltd
Original Assignee
Chipintelli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chipintelli Technology Co Ltd filed Critical Chipintelli Technology Co Ltd
Priority to CN202110822873.0A priority Critical patent/CN113506559B/zh
Publication of CN113506559A publication Critical patent/CN113506559A/zh
Application granted granted Critical
Publication of CN113506559B publication Critical patent/CN113506559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种根据越南语书写文本生成发音词典的方法,包括如下步骤:将越南语书写文本分解为至少包括韵母和声调两种特征的音素、至多包括声母、韵母、声调特征的音素;各个音素用互不重复的音素符号表示;书写文本不同但发音相同的声母或韵母采用相同的音素符号表示;全部书写文本分解后,生成书写文本与音素符号对应关系,作为发音词典。本发明在实际发音的基础上构建越南语文字书写文本与发音词典音素间的对应关系,适用于不同大小语料的模型训练,提升了发音词典的准确性和适用性。本发明采用的发音词典构建方法,将越南语中包含的特殊字母和声调符号,用新的编码符号表示,降低了本领域技术人员的使用难度,提升发音词典的适用性。

Description

一种根据越南语书写文本生成发音词典的方法
技术领域
本发明属于语音识别技术领域,具体涉及一种根据越南语书写文本生成发音词典的方法。
背景技术
语音是人类与生俱来的高效便捷的交流方式,也人机交互的重要手段。自20世纪50年出现以来,语音识别技术实现商用并逐步融入人们的日常生活中。但目前国内外针对越南语语音识别的研究不多,受限于专业知识、语料库大小等因素,越南语语音识别领域的进展较缓慢。
语音识别技术中,发音词典是语音识别系统中重要的组成部分,其准确性和适用性对语音识别率的提升与否具有重要影响。发音字典包含了从单词到音素之间的映射,作用是用来连接声学模型和语言模型的。发音字典包含系统所能处理的单词的集合,并标明了其发音,生成发音词典首先要确定的是单词到音素的转换规则/映射关系。
越南语国语字使用的是拼音文字,以拉丁字母为基础,增加了若干新字母和声调符号,各音节间有明确界限。但如果将一个音节作为一个音素识别单位,会存在音素过多的问题,特别在越南语本身语音数据资源较少的情况下,识别率会受到较大影响。目前的越南语研究中,多采用将所有音素划分为元音和辅音两类,不同声调的元音作为不同音素的方法。相比于以音节作为音素单元,该方法更具有代表性。
但越南语中,相同元音或辅音符号出现在不同位置时,其实际发音可能存在明显区别;而实际发音相同的元音或辅音,也可能存在不同的书写形式。因此,不加区分地将所有音素划分为元音与辅音的方法形成的发音词典,会出现发音词典准确性不足的问题。
且相比于常见的拉丁字母,越南语中存在较多特殊符号,增加了本领域技术人员的使用难度。因此上述发音词典音素标注方法,在准确性和适用性上存在明显不足,影响了发音词典的质量。
发明内容
为克服现有技术存在的技术缺陷,本发明公开了一种根据越南语书写文本生成发音词典的方法。
本发明所述根据越南语书写文本生成发音词典的方法,包括如下步骤:
将越南语书写文本分解为至少包括韵母和声调两种特征音素,至多包括声母、韵母、声调三种特征音素;
各个音素用互不重复的音素符号表示;
书写文本不同但发音相同的声母或韵母采用相同的音素符号表示;
全部书写文本分解后,生成书写文本与音素符号对应关系,作为发音词典。
优选的,所述声母的音素符号采用1-2位字母表示。
优选的,所述韵母的音素符号采用1-6位字母表示。
优选的,所述特殊字符的音素符号采用2位字母表示。
优选的,所述声调的音素符号采用1位数字表示。
本发明在实际发音的基础上构建越南语文字书写文本与发音词典音素间的对应关系,适用于不同大小语料的模型训练,提升了发音词典的准确性和适用性。本发明采用的发音词典构建方法,将越南语中包含的特殊字母和声调符号,用新的编码符号表示,降低了本领域技术人员的使用难度,提升发音词典的适用性。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述越南语发音编码方法,包括根据越南语书写文本生成发音词典的方法,包括如下步骤:
将书写文本分解为至少包括韵母和声调两种特征的音素、至多包括声母、韵母、声调三种特征的音素;
越南语中,相同元音或辅音符号出现在不同位置时,其实际发音可能存在明显区别:以tất为例,如果按照元音和辅音划分音素,tất标注为:t â5 t,但实际上第1个作为声母的t与第2个作为韵尾的t实际发音有明显区别。本发明以声母、韵母进行音素划分,(tất标注为:t ât5),第一个t为声母,第二个t为韵母中的韵尾部分。该方法可以将书写文本相同,但分别作为声母的辅音和作为韵尾的辅音区分开来,对应不同的发音。
各个音素用互不重复的音素符号表示;
书写文本不同但发音相同的声母或韵母采用相同的音素符号表示;
在越南语中实际发音相同的元音或辅音,也可能存在不同的书写形式。如果采用元音和辅音标注发音,可能出现一个元音对应两个不同的书写文本的情况,造成发音词典对应关系混乱。
以“虚弱 yếu”和“抱怨 khiếu”为例,yếu该韵母在前无声母时书写为yếu,如虚弱 yếu;在前有声母时书写为iếu,如“抱怨 khiếu”;但yếu与iếu发音相同。本发明中,将书写文本不同但发音相同的声母或韵母采用相同的音素符号表示,即yếu和iếu采用相同音素符号表示,可提升标注的准确性。
全部拼音分解后,生成拼音与音素符号对应关系,作为发音词典。
为更好的说明本发明,如表一所示,给出部分越南语拼音分解为音素符号组合的一个具体实施方式。
表一
Figure RE-DEST_PATH_IMAGE001
例如中文释义为火柴的越南语拼音,声母对应的音素符号为d,韵母对应的音素符号为yewm ,发音为横声,声调对应的音素符号为1。
又例如中文释义为橘子和经过的越南语拼音,声母虽然在书写时分别为c和q,但由于二者发音其实相同,因此用相同的音素符号k表示,韵母不同,分别用am和oa 表示,发音为横声,声调对应的音素符号为1。
又例如中文释义为虚弱的越南语拼音,没有声母,因此没有声母对应的音素符号,韵母用yewu 表示,发音为锐声,声调对应的音素符号为5。
又例如中文释义为抱怨的越南语拼音,声母为越南语中的特殊符号,采用音素符号dd表示,韵母用yewu 表示,发音为锐声,声调对应的音素符号为5。
又例如中文释义为鸟的越南语拼音,声母为越南语中的特殊符号,采用音素符号dd表示,因此没有声母对应的音素符号,韵母用yewu 表示,发音为问声,声调对应的音素符号为3。
声母数量较少,可以采用1-2位字母表示,表二给出声母对应的音素符号的一个具体实施方式,表二中,发音相同的声母,采用相同的音素符号表示;例如k、c、q发音相同,音素符号均为k。
表二
Figure 938787DEST_PATH_IMAGE002
表三给出越南语中六种不同声调对应的音素符号的一种具体实现方式。
表三
Figure 171185DEST_PATH_IMAGE003
表三中越南语的六种声调横声、玄声、问声、跌声、锐声、重声分别用数字1-6表示。
表四给出越南语中六种特殊字符对应的音素符号的一种具体实现方式。
表四
Figure DEST_PATH_IMAGE004
利用本发明所述方式对越南语发音进行音素符号编码后,生成发音词典,在进行越南语语音识别和合成时,系统调用发音词典进行文本和音频的匹配。
本发明在实际发音的基础上构建越南语文字书写文本与发音词典音素间的对应关系,适用于不同大小语料的模型训练,提升了发音词典的准确性和适用性。本发明采用的发音词典构建方法,将越南语中包含的特殊字母和声调符号,用新的编码符号表示,降低了本领域技术人员的使用难度,提升发音词典的适用性。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (5)

1.一种根据越南语书写文本生成发音词典的方法,其特征在于,包括如下步骤:
将越南语书写文本分解为至少包括韵母和声调两种特征音素,至多包括声母、韵母、声调三种特征音素;
各个音素用互不重复的音素符号表示;
书写文本不同但发音相同的声母或韵母采用相同的音素符号表示;
全部书写文本分解后,生成书写文本与音素符号对应关系,作为发音词典。
2.如权利要求1所述根据越南语书写文本生成发音词典的方法,其特征在于,所述声母的音素符号采用1-2位字母表示。
3.如权利要求1所述根据越南语书写文本生成发音词典的方法,其特征在于,所述韵母的音素符号采用1-6位字母表示。
4.如权利要求1所述根据越南语书写文本生成发音词典的方法,其特征在于,所述特殊字符的音素符号采用2位字母表示。
5.如权利要求1所述根据越南语书写文本生成发音词典的方法,其特征在于,所述声调的音素符号采用1位数字表示。
CN202110822873.0A 2021-07-21 2021-07-21 一种根据越南语书写文本生成发音词典的方法 Active CN113506559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110822873.0A CN113506559B (zh) 2021-07-21 2021-07-21 一种根据越南语书写文本生成发音词典的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110822873.0A CN113506559B (zh) 2021-07-21 2021-07-21 一种根据越南语书写文本生成发音词典的方法

Publications (2)

Publication Number Publication Date
CN113506559A true CN113506559A (zh) 2021-10-15
CN113506559B CN113506559B (zh) 2023-06-09

Family

ID=78014053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110822873.0A Active CN113506559B (zh) 2021-07-21 2021-07-21 一种根据越南语书写文本生成发音词典的方法

Country Status (1)

Country Link
CN (1) CN113506559B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1316686A (zh) * 2000-04-04 2001-10-10 曾养志 电子计算机汉字词语码编码技术
CN101840699A (zh) * 2010-04-30 2010-09-22 中国科学院声学研究所 一种基于发音模型的语音质量评测方法
CN105225659A (zh) * 2015-09-10 2016-01-06 中国航空无线电电子研究所 一种指令式语音控制发音词典辅助生成方法
CN107767858A (zh) * 2017-09-08 2018-03-06 科大讯飞股份有限公司 发音词典生成方法及装置、存储介质、电子设备
CN110096715A (zh) * 2019-05-06 2019-08-06 北京理工大学 一种融合发音特征汉语-越南语统计机器翻译方法
CN111930900A (zh) * 2020-09-28 2020-11-13 北京世纪好未来教育科技有限公司 标准发音生成方法及相关装置
CN112036167A (zh) * 2020-08-25 2020-12-04 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器及存储介质
CN112634901A (zh) * 2020-12-10 2021-04-09 腾讯科技(深圳)有限公司 语音处理方法、装置、设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1316686A (zh) * 2000-04-04 2001-10-10 曾养志 电子计算机汉字词语码编码技术
CN101840699A (zh) * 2010-04-30 2010-09-22 中国科学院声学研究所 一种基于发音模型的语音质量评测方法
CN105225659A (zh) * 2015-09-10 2016-01-06 中国航空无线电电子研究所 一种指令式语音控制发音词典辅助生成方法
CN107767858A (zh) * 2017-09-08 2018-03-06 科大讯飞股份有限公司 发音词典生成方法及装置、存储介质、电子设备
CN110096715A (zh) * 2019-05-06 2019-08-06 北京理工大学 一种融合发音特征汉语-越南语统计机器翻译方法
CN112036167A (zh) * 2020-08-25 2020-12-04 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器及存储介质
CN111930900A (zh) * 2020-09-28 2020-11-13 北京世纪好未来教育科技有限公司 标准发音生成方法及相关装置
CN112634901A (zh) * 2020-12-10 2021-04-09 腾讯科技(深圳)有限公司 语音处理方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘佳文: ""基于Transformer的越南语连续语音识别"", 《信息工程大学学报》, vol. 21, no. 2 *

Also Published As

Publication number Publication date
CN113506559B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
Rao English spelling and pronunciation: a brief study
Tamaoka et al. Mora or syllable? Which unit do Japanese use in naming visually presented stimuli?
CN113506559B (zh) 一种根据越南语书写文本生成发音词典的方法
Odinye Phonology of mandarin chinese: a comparison of Pinyin and IPA
KR100697869B1 (ko) 영어단어 발음 학습방법 및 이를 이용한 학습매체
Moessner Standardization
Tao et al. Historical perspectives on Chinese written language and literacy education in China
KR20200056835A (ko) 새로운 소리 분류방법에 따른 한국어 발음표기방법 및 이를 이용한 음성변환 및 음성인식 시스템
Brierley et al. Phonetic Transcription and the International Phonetic Alphabet
Aunkaew et al. Development of a corpus for southern thai dialect speech recognition: Design and text preparation
Obolensky Persian basic course units 1-12
Crystal Things to remember when transcribing speech
Youguang The Chinese finger alphabet and the Chinese finger syllabary
CN109671308B (zh) 一种发音口型矫正系统的生成方法
Alsharhan et al. Developing a Stress Prediction Tool for Arabic Speech Recognition Tasks.
Gizaw Multiple pronunciation model for Amharic speech recognition system
Khan et al. A STUDY INVESTIGATING AND INTERPRETING SOUNDS OF PUKHTO LANGUAGE BY NATIVE AND NON-NATIVE SPEAKERS OF ENGLISH
Baum et al. A phonetic lexicon for adaptation in ASR for Austrian German
Sindran et al. ComputerAutomatic Robust Rule-Based Phonetization of Standard Arabic
CN102354494A (zh) 一种实现阿拉伯文tts发音的方法
Kuo Phonetic and phonological background of Chinese spoken languages
CN115099225A (zh) 一种简拼汉字方法
Khan An Orthographic Analysis of Sound Changing Rules in the Urdu
Ali Khan An Orthographic Analysis of Sound Changing Rules in the Urdu Language
Sindran Automatic Phonetic Transcription of Standard Arabic with Applications in the NLP Domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant