CN115547292B - 一种语音合成用声学模型训练方法 - Google Patents
一种语音合成用声学模型训练方法 Download PDFInfo
- Publication number
- CN115547292B CN115547292B CN202211498183.5A CN202211498183A CN115547292B CN 115547292 B CN115547292 B CN 115547292B CN 202211498183 A CN202211498183 A CN 202211498183A CN 115547292 B CN115547292 B CN 115547292B
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- chinese
- acoustic model
- text
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 title claims abstract description 28
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 25
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 57
- 239000011159 matrix material Substances 0.000 claims abstract description 8
- 238000001228 spectrum Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
一种语音合成用声学模型训练方法,包括以下步骤:S1.根据汉语发音规则,制定问题集,以问题集定义文本中每个汉字的中文前端特征向量,以m维发音向量表示;S2.对字母的发音,以汉语语言发音规则定义,并以步骤S1制定的问题集,对文本中出现的字母,赋予该字母的中文前端特征向量;在文本中每个文字的中文前端特征向量后添加n维标记向量,所述文字包括汉字和字母;S3.将文本中各个文字的发音向量组合形成文本的发音矩阵,作为声学模型的输入,进行声学模型的训练,训练得到的声学模型。采用本发明所述语音合成用声学模型训练方法,可以在增加少量特征维度的情况下,提升中文语音合成系统中字母的发音效果,节约算力和存储消耗。
Description
技术领域
本发明属于语音识别技术领域,涉及语音合成技术,具体涉及一种语音合成用声学模型训练方法。
背景技术
语音合成芯片常用于银行、医院、停车场等场景中的播报,不需要支持完整的中英文混合,但是需要对字母进行正确的发音。在中文语音合成系统中,通常需要对英文字母进行正确播报,而中英文作为不同的语系,其发音基础音素区别很大。
通常中文音素声韵母共47个,英文音素48个,如果想完成中文语音合成系统播报英文字母的功能,可以有以下处理方式:1)拼接法,直接根据字母插入语料库中提前录制好的音频数据进行播报;2)将英文字母发音音素按照中文音素进行标注后播报;3)设计两套发音音素,实现中英文混合合成播报。
第一种方法的拼接方法韵律感差,不能体现同一字母在不同文本中的合成差异;第二种方法合成的字母发音效果较差,中式英语发音明显;第三种方法需要增加一套语系的发音规则,语言学特征复杂,计算量大,对只要求字母发音的中文语音合成系统来说,消耗较大。
发明内容
为克服现有技术存在的缺陷;本发明公开了一种语音合成用声学模型训练方法。
本发明所述一种语音合成用声学模型训练方法,包括以下步骤:
S1. 根据汉语发音规则,制定问题集,以问题集定义文本中每个汉字的中文前端特征向量,以m维发音向量表示;
S2.对字母的发音,以汉语语言发音规则定义,并以步骤S1制定的问题集,对文本中出现的字母,赋予该字母的中文前端特征向量;
在文本中每个文字的中文前端特征向量后添加n维标记向量,所述文字包括汉字和字母,添加的n维标记向量用于区分文字是汉字还是英文字母,所述n远小于m;
添加后的(m+n)维向量,表示该文字的发音向量;
S3.将文本中各个文字的发音向量组合形成文本的发音矩阵,作为声学模型的输入,进行声学模型的训练,训练得到的声学模型用于语音合成。
优选的,所述问题集均为判断类问题,所述中文前端特征向量的元素只有0,1两种。
优选的,所述问题集包括原始读音子集和所处文本环境子集,所述原始读音子集以遍历方式对汉语发音的全部声母和韵母进行提问。
优选的,所述n维标记向量的所有元素均相同。
优选的,其特征在于,n:m=1:50-100。
优选的,所述步骤S3中,训练时以梅尔频谱声学特征作为声学模型的输出。
优选的,所述声学模型使用隐马尔可夫或DNN模型框架。
采用本发明所述语音合成用声学模型训练方法, 可以在增加少量特征维度的情况下,提升中文语音合成系统中字母的发音效果,节约算力和存储消耗。
附图说明
图1为本发明所述声学模型训练方法的一种具体实施方式示意图;
图2为本发明所述问题集的一种具体实施方式示意图;
图3为本发明一个具体实施例得到的频谱图;
图4为图3中具体实施例基于相同文本采用现有技术合成语音得到的频谱图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述提升语音合成中字母发音效果的方法,采用以下步骤实现:
S1. 根据汉语语言发音规则,制定问题集,以问题集定义文本中每个汉字的中文前端特征向量,以m维发音向量表示;
该中文前端特征向量用于描述文本中每个汉字的发音信息;每一维度表示该汉字在文本中发音时要考虑的一个因素;
例如,发音信息包括该汉字的原始读音,由声母和韵母组成,确定汉字的声母和韵母后,确定汉字的原始读音;
如文本:谢谢使用,其发音信息可以为:
x ie4 x ie5 sh i3 y ong4;
其中 x\ x \sh \ y\为声母, ie\ ie\i\ong为韵母,4、5、3、4为声调。
为得出一个文本的发音信息,一个典型实施方式为,罗列中文发音中的全部声母和韵母,分别设计一个维度,以遍历全部维度的方式确定声母和韵母;
例如中文发音中声母有b、p、m、f等23个,韵母有a、o、e等24个,
则共有47个维度用于表示该汉字的原始读音,如可用“当前音素是否为音素b”表示其中一个维度,该维度为1表示当前音素为b,否则不为b,其余维度类似。可以以上述47个维度作为问题集中的原始发音子集。
同时,根据中文阅读习惯,还需要考虑其他问题来最终确定发音,例如,该汉字是否为多音字,该汉字所处语境是否为叠音,该汉字的前一个字和后一个字的基础发音分别是什么,该汉字是否为问句中的关键字等。
例如“谢谢”,地道的发音中第二个“谢”应该发轻声,第二个“谢”也发四声则显得生硬。又例如“我不爱吃”和“我不可能”中的“不”,地道的发音中应该分别发二声和四声。
综合考虑包括但不限于上述规律在内的汉字在文本中的发音规律,可以作为问题集中的所处文本环境子集,即文字发音除原始发音以外的全部因素。
所处文本环境子集的设计可以参考现有技术中已整理出的汉语发音规则,如黄伯荣、廖序东编著的《现代汉语》进行问题设计和罗列。
设计一系列问题形成问题集用于定义文字在文本中的发音规则,以问题集的答案为是或否作为该汉字的维度形成m维发音向量,最终以该m维发音向量定义该汉字的发音。
问题集的优选实施方式为全部或大部分采用判断类问题,以减小中文前端特征向量的元素种类,可以提高后期训练速度。
例如问题集共10个问题,前7个问题为是,以1表示,后3个问题为否,以0表示,则该汉字在该问题集下的发音由中文前端特征向量(1,1,1,1,1,1,1,0,0,0)定义。
对于部分判断类问题无法涵盖的问题,也可以采用多个元素作为答案输入中文前端特征向量,例如问题“音素所处句子有多少字”这样的问题,可以不采用判断类问题。
以英文字母为例,对步骤S2进行说明。
S2.对英文字母的发音,以汉语语言发音规则定义,并以步骤S1制定的问题集,对文本中出现的英文字母,赋予该英文字母的中文前端特征向量;
例如对英文字母A、B、C分别定义其原始发音为:
A: ei1
B :b i1
C: s ei1
则可以采用步骤1得到的问题集对全部英文字母进行中文前端特征向量定义。
对汉字和英文字母,在文本中每个文字的中文前端特征向量后添加n维标记向量,所述文字包括汉字和英文字母,添加的n维标记向量用于区分文字是汉字还是英文字母,所述n远小于m;添加后的(m+n)维向量,表示该文字的发音向量。
n取值太小,在后续模型训练时,神经网络模型如DNN模型可能无法识别出标记向量,影响对英文字母的有效判断,n取值太大,则增加计算量和特征存储空间。一般n:m=1:50-100。
所述n维标记向量的所有元素均相同,例如,用10维全零向量作为汉字的标记向量,用10维全1向量作为英文的标记向量,所有元素相同,意味着中文和英文的标记向量每个元素均不相同,在训练时更容易识别。
S3.将文本中各个文字的发音向量组合形成文本的发音矩阵,作为声学模型的输入,进行声学模型的训练;
训练好的声学模型用于合成语音的输出,输出语音时,可将待合成的文本送入声学模型输出即可得到文本所对应的音频数据。
如图3和图4所示给出,对含有英文字母的文本“陕E 0B25B”采用不同方法合成频谱对比,图4为采用拼接法的得到的频谱结果,图3和图4中,上层为时域波形,中间为频谱波形,下方为文本;图3为采用本发明所述训练方法训练得到的声学模型的合成结果,合成目标均为年轻女士发音。图4可见各个发音宽度近似,发音较为单一呆板,显示出拼接法整理韵律感不强,不能体现同一字母在不同文本中的发音差异;而图3所示的本发明得到的合成结果各个发音宽度差异较大;按照发音习惯,同一字母在文本中不同位置的发音会存在差异,包括时长、重音、分词停顿等,直接选择音频库里的音频进行拼接听感上不够连贯,影响音频的可理解性。由图3频谱可见拼接法生成的音频中不同位置字母B的发音相同,而本发明所述方法则体现出了字母B在文本中不同位置的发音区别;符合汉语对英文字母的发音习惯,本发明训练得到的声学模型合成音则更自然流畅。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (6)
1.一种语音合成用声学模型训练方法,其特征在于,包括以下步骤:
S1. 根据汉语发音规则,制定问题集,以问题集定义文本中每个汉字的中文前端特征向量,以m维发音向量表示;
具体的:所述问题集包括原始读音子集和所处文本环境子集,所述原始读音子集以遍历方式对汉语发音的全部声母和韵母进行提问;
设计一系列问题形成问题集用于定义文字在文本中的发音规则,以问题集的答案为是或否作为该汉字的维度形成m维发音向量,最终以该m维发音向量定义该汉字的发音;
所述中文前端特征向量用于描述文本中每个汉字的发音信息;每一维度表示该汉字在文本中发音时要考虑的一个因素;
S2.对字母的发音,以汉语语言发音规则定义,并以步骤S1制定的问题集,对文本中出现的字母,赋予该字母的中文前端特征向量;
在文本中每个文字的中文前端特征向量后添加n维标记向量,所述文字包括汉字和字母,添加的n维标记向量用于区分文字是汉字还是英文字母,所述n远小于m;
添加后的(m+n)维向量,表示该文字的发音向量;
S3.将文本中各个文字的发音向量组合形成文本的发音矩阵,作为声学模型的输入,进行声学模型的训练,训练得到的声学模型用于语音合成。
2.如权利要求1所述语音合成用声学模型训练方法,其特征在于,所述问题集均为判断类问题,所述中文前端特征向量的元素只有0,1两种。
3.如权利要求1所述语音合成用声学模型训练方法,其特征在于,所述n维标记向量的所有元素均相同。
4.如权利要求1所述语音合成用声学模型训练方法,其特征在于,n:m=1:50至100。
5.如权利要求1所述语音合成用声学模型训练方法,其特征在于,所述步骤S3中,训练时以梅尔频谱声学特征作为声学模型的输出。
6.如权利要求1所述语音合成用声学模型训练方法,其特征在于,所述声学模型使用隐马尔可夫或DNN模型框架。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211498183.5A CN115547292B (zh) | 2022-11-28 | 2022-11-28 | 一种语音合成用声学模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211498183.5A CN115547292B (zh) | 2022-11-28 | 2022-11-28 | 一种语音合成用声学模型训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115547292A CN115547292A (zh) | 2022-12-30 |
CN115547292B true CN115547292B (zh) | 2023-02-28 |
Family
ID=84722098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211498183.5A Active CN115547292B (zh) | 2022-11-28 | 2022-11-28 | 一种语音合成用声学模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115547292B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217713A (zh) * | 2014-07-15 | 2014-12-17 | 西北师范大学 | 汉藏双语语音合成方法及装置 |
CN107481713A (zh) * | 2017-07-17 | 2017-12-15 | 清华大学 | 一种混合语言语音合成方法及装置 |
CN110675854A (zh) * | 2019-08-22 | 2020-01-10 | 厦门快商通科技股份有限公司 | 一种中英文混合语音识别方法及装置 |
CN112133278A (zh) * | 2020-11-20 | 2020-12-25 | 成都启英泰伦科技有限公司 | 一种个性化语音合成模型网络训练及个性化语音合成方法 |
CN112634865A (zh) * | 2020-12-23 | 2021-04-09 | 爱驰汽车有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN113284485A (zh) * | 2021-07-09 | 2021-08-20 | 中国科学院自动化研究所 | 统一中英混合文本生成和语音识别的端到端框架 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2595143B1 (en) * | 2011-11-17 | 2019-04-24 | Svox AG | Text to speech synthesis for texts with foreign language inclusions |
US9865251B2 (en) * | 2015-07-21 | 2018-01-09 | Asustek Computer Inc. | Text-to-speech method and multi-lingual speech synthesizer using the method |
KR20230158603A (ko) * | 2021-03-26 | 2023-11-20 | 구글 엘엘씨 | 신경 텍스트-투-스피치 변환을 위한 음소 및 자소 |
-
2022
- 2022-11-28 CN CN202211498183.5A patent/CN115547292B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217713A (zh) * | 2014-07-15 | 2014-12-17 | 西北师范大学 | 汉藏双语语音合成方法及装置 |
CN107481713A (zh) * | 2017-07-17 | 2017-12-15 | 清华大学 | 一种混合语言语音合成方法及装置 |
CN110675854A (zh) * | 2019-08-22 | 2020-01-10 | 厦门快商通科技股份有限公司 | 一种中英文混合语音识别方法及装置 |
CN112133278A (zh) * | 2020-11-20 | 2020-12-25 | 成都启英泰伦科技有限公司 | 一种个性化语音合成模型网络训练及个性化语音合成方法 |
CN112634865A (zh) * | 2020-12-23 | 2021-04-09 | 爱驰汽车有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN113284485A (zh) * | 2021-07-09 | 2021-08-20 | 中国科学院自动化研究所 | 统一中英混合文本生成和语音识别的端到端框架 |
Non-Patent Citations (2)
Title |
---|
A Cross-Language State Sharing and Mapping Approach to Bilingual (Mandarin–English) TTS;Yao Qian,et al.;《IEEE Transactions on Audio, Speech, and Language Processing 》;IEEE;20090630;第17卷(第6期);全文 * |
基于HCSIPA的中英文混合语音合成;徐英进等;《计算机工程》;中国知网;20120830;第39卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115547292A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108510976B (zh) | 一种多语言混合语音识别方法 | |
Port | How are words stored in memory? Beyond phones and phonemes | |
Pagel et al. | Letter to sound rules for accented lexicon compression | |
Dutoit | An introduction to text-to-speech synthesis | |
Taylor | Text-to-speech synthesis | |
Ganapathiraju et al. | Syllable-based large vocabulary continuous speech recognition | |
US6847931B2 (en) | Expressive parsing in computerized conversion of text to speech | |
US7454345B2 (en) | Word or collocation emphasizing voice synthesizer | |
El-Imam | Phonetization of Arabic: rules and algorithms | |
Watts | Unsupervised learning for text-to-speech synthesis | |
CN115547292B (zh) | 一种语音合成用声学模型训练方法 | |
Hlaing et al. | Phoneme based Myanmar text to speech system | |
Dai | [Retracted] An Automatic Pronunciation Error Detection and Correction Mechanism in English Teaching Based on an Improved Random Forest Model | |
Chen et al. | A Bilingual Speech Synthesis System of Standard Malay and Indonesian Based on HMM-DNN | |
CN114242032A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
Hlaing et al. | Myanmar speech synthesis system by using phoneme concatenation method | |
Kominek | Tts from zero: Building synthetic voices for new languages | |
Weweler | Single-Speaker End-To-End Neural Text-To-Speech Synthesis | |
Ungureanu et al. | pROnounce: Automatic Pronunciation Assessment for Romanian | |
Yong et al. | Low footprint high intelligibility Malay speech synthesizer based on statistical data | |
Kato et al. | Multilingualization of Speech Processing | |
Narvani et al. | Text-to-Speech Conversion Using Concatenative Approach for Gujarati Language | |
Lu et al. | Unlocking the Potential: an evaluation of Text-to-Speech Models for the Bahnar Language | |
Sloan | Using Linguistic Features to Improve Prosody for Text-to-Speech | |
ラジコヲスキカツペル パエル | A study on speech recognition and correction for non-native English speakers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |