CN115547290A - 基于混合文本表示和说话人对抗的混读语音合成方法 - Google Patents
基于混合文本表示和说话人对抗的混读语音合成方法 Download PDFInfo
- Publication number
- CN115547290A CN115547290A CN202211192528.4A CN202211192528A CN115547290A CN 115547290 A CN115547290 A CN 115547290A CN 202211192528 A CN202211192528 A CN 202211192528A CN 115547290 A CN115547290 A CN 115547290A
- Authority
- CN
- China
- Prior art keywords
- speaker
- mixed
- audio
- text
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 6
- 238000012549 training Methods 0.000 claims abstract description 39
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 37
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 37
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 7
- 230000003595 spectral effect Effects 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 230000033764 rhythmic process Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 230000008451 emotion Effects 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于混合文本表示和说话人对抗的混读语音合成方法,具体涉及到利用对抗训练与元学习的方式对情感语音合成系统进行优化。包括数据预处理、混合文本表示、端到端语音合成基础模型的设计、添加对抗模块用来抹去文本表示中的音色信息、模型训练以及合成音频。本发明提升混读语音合成的流畅度,同时保持语音合成的音色,将语种和说话人进行解耦。合成语音中的不同语言之间可以保持一致的音色。
Description
技术领域
本发明是语音合成领域,涉及基于混合文本表示和说话人对抗的混读语音合成方法,具体涉及到利用对抗训练与元学习的方式对情感语音合成系统进行优化。
背景技术
语音合成(Text-to-Speech,TTS)是一种将输入文本转换为合成语音的技术。在人机交互场景中,语音合成作为交互链条中最后一步,具有举足轻重的地位。目前随着端到端技术的提出和日趋成熟,单语种单说话人语音合成系统,已经能够合成与人类发音具有相似自然度的语音,但是在实际应用场景中,单语单说话人语音合成系统已经无法满足人们的日常需求。比如在导航系统中出现的含有英文单词的地址,日常交流中出现的英文短语等等,因此就要求语音合成系统满足上述需求,具有合成两种语言的同时,可以适应实际场景中的个性化需求,合成不同音色语音的能力。
混读合成技术,指的是在同一个系统中使用相同音色,针对同一个句子中的不同语种合成自然且音色一致的语音。混读合成技术的发展,也伴随着语音合成系统的发展在不断演变。端到端语音合成系统,是一种直接将文本映射为声学特征的系统,近年来在单语单说话人合成的自然、可懂度等方面获得优异的表现。因此,有必要开展在端到端系统上实现混读合成的研究。然而,现有的端到端混读合成系统依赖熟练的双语录音者来构建高成本的双语语料库或高语言混合度(Language MixRatio,LMR)的混读语料库,这种方法不够灵活,且成本较高。而简单地使用不同说话人的单语语料,实现混读合成的方法,虽然灵活、成本低,但是需要较大的语料库作为训练数据,并且需要考虑口音问题以及合成语音的音色一致性问题。
发明内容
本发明为解决背景技术中提出的技术问题,提出基于混合文本表示和说话人对抗的混读语音合成方法,主要包括如下步骤:
步骤一,数据预处理:文本需要进行前端处理,通常以字符作为输入,而文本与音频成对的数据作为训练数据;
同时,预处理还需进行Mel谱特征的提取;
对于文本的预处理通常采用Python的自然语言处理工具包NLTK,来进行分词和汉字转拼音操作,对于Mel谱特征的提取可以直接采用Python的常用音频处理工具包librosa,经过分帧,加窗和预加重过程,从音频中提取Mel谱特征;
步骤二,混合文本表示:
(1)对于中文,采用带调拼音的表示形式,其中涉及的声调表示,韵律表示,儿化音、变调的标注,按照音库发音特征标注的标准制定;
(2)对于英文,采用音素表示形式;将英文单词转换为对应的CMU音素,所有音素使用大写字母表示,音节标识与单词结尾标识遵循音库发音特征标注标准指定的规则;
步骤三,端到端语音合成基础模型的设计:基于端到端语音合成Tacotron2进行设计,Tacotron2的作用是输入文本并预测得到Mel谱特征,对于混读语音合成任务,进行以下修改:
(1)添加说话人信息,其中说话人信息为一个预训练好的说话人识别模型,输入目标说话人的音频,得到相应的说话人表示;
(2)不同的语言编码为不同的language ID,同时将language ID作为输入,经过查表LUT得到语言嵌入表示;
(3)添加风格学习模块,使用变分自编码VAE来学习音频的隐含变量,该模块为无监督监督学习,参考音频经过风格学习模块后会得到隐含的风格嵌入表示;其中,编码器采用两层的LSTM,并将其LSTM的最后一层的输出,分别经过两个全连接层得到均值μ和方差σ,最终通过公式:z=μ+∈*σ,其中∈为标准正态分布;
步骤四,添加对抗训练模块:添加对抗训练模块用来抹去文本表示中的音色信息;对抗模块主要包含梯度反转层以及speaker分类器;
步骤五,模型训练:
具体包括如下步骤:
(1)在添加完对抗训练模块之后,首先采用大规模的单语语种进行预先训练,其次再用混读语料进行训练;
(2)训练时的参考音频、说话人表示以及语种信息与训练语料一致,例如训练语料为<X,Y>,其中X为文本,并用本发明步骤二的文本表示进行表示,Y为X对应的音频,参考音频同样为Y,说话人表示为Y通过预训练好的说话人识别模型提取的,语种的language ID即为样本<X,Y>对应的语种;
步骤六,合成音频:
在完成模型最终的训练之后,顺序执行以下步骤,用以合成混读语音
(1)混读文本,并用混合文本进行表示;
(2)选取参考音频;
(3)选取目标说话人音频,并提取说话人信息;
(4)经过模型预测得到Mel谱特征,并最终转换为音频。
有益效果:
1、本发明实现如下三个方面:
1)搭建端到端情感语音合成系统,并采用无监督的风格编码器来学习音频中的情感嵌入表示;
2)设计基于对抗训练的情感解耦模块,在该模块训练过程当中抹去情感嵌入中所包含的说话人信息;
3)采用元学习的方式提升情感语音合成模型的泛化能力,使其在少量说话人语音数据上进行快速适应。
2、本发明提出一种基于混合文本表示和说话人对抗的混读语音合成系统,对中、英文本采取不同的表示方式,提升合成系统对于不同语种的辨别能力。
3、本发明提升混读语音合成的流畅度,同时保持语音合成的音色,将语种和说话人进行解耦,此外,添加说话人对抗模块,对文本表示中所蕴含的说话人信息进行抹除,使得合成语音中的不同语言之间可以保持一致的音色。
附图说明
图1为混读合成模型图。
图2为提取的Mel谱特征表示。
图3为VAE构建的风格学习模块。
具体实施方式
以下结合附图和实施例来对本发明做进一步的说明。
基于混合文本表示和说话人对抗的混读语音合成方法,具体步骤如下;
步骤一,数据预处理:
文本需要进行前端处理,通常以字符作为输入,而文本与音频成对的数据作为训练数据;
同时,预处理还需进行Mel谱特征的提取;
对于文本的预处理通常采用Python的自然语言处理工具包NLTK,来进行分词和汉字转拼音等操作,对于Mel谱特征的提取直接采用Python的常用音频处理工具包librosa,经过分帧,加窗和预加重等过程,从音频中提取Mel谱特征。例如,图2为提取的梅尔普特征表示。
步骤二,混合文本表示:
(1)对于中文,采用带调拼音的表示形式,其中涉及的声调表示,韵律表示,儿化音、变调等的标注,按照音库发音特征标注的标准制定;
(2)对于英文,采用音素表示形式;将英文单词转换为对应的CMU音素,所有音素使用大写字母表示,音节标识与单词结尾标识遵循音库发音特征标注标准指定的规则;
例如,原文文本为(你住一个大house),本发明文本表示为如下形式:ni3 zhu4#1yi2 ge4#1 da4 HH AW S@#4。
其中,#1,#3为语音合成的前端预测得到的韵律停顿,“ni3”中的3表示的是“你”的声调为3声,HH AW S为house在CMU词典里的表示,@表示的是英文和中文的分界。
步骤三,端到端语音合成基础模型的设计:基于端到端语音合成Tacotron2进行设计,Tacotron2的作用是输入文本并预测得到Mel谱特征,对于混读语音合成任务,我们进行以下修改:
(1)添加说话人信息,其中说话人信息为一个预训练好的说话人识别模型,输入目标说话人的音频,得到相应的说话人表示;
(2)不同的语言编码为不同的language ID,同时将language ID作为输入,经过查表LUT得到语言嵌入表示;例如,同样的文本ni3 zhu4#1 yi2 ge4#1 da4 HH AW S@#4,对应的language ID为000…111111..000,其中111111表示HH AW S@;00..00表示的是其中的中文字符;
(3)为了进一步提升合成音频的自然度,添加风格学习模块,使用变分自编码VAE来学习音频的隐含变量,比如韵律,噪声等等,该模块为无监督监督学习,参考音频经过风格学习模块后会得到隐含的风格嵌入表示;其中,利用VAE构建的风格学习模块,如图3所示。
其中,编码器采用两层的LSTM,并将其LSTM的最后一层的输出,分别经过两个全连接层得到均值μ和方差σ,最终通过公式:z=μ+∈*σ,其中∈为标准正态分布。
步骤四,添加对抗训练模块:由于混读的匮乏,模型会用到大量的单语的预料进行预训练,但是这样会使得语言和说话人耦合在一块,在进行最终的混读语音合成时,会造成合成语音音色不一致的现象发生。因此添加对抗训练模块用来抹去文本表示中的音色信息。对抗模块主要包含一个梯度反转层以及一个speaker分类器,如图1中右上角虚线框所示。
步骤五,模型训练:
(3)在添加完对抗训练模块之后,首先采用大规模的单语语种进行预先训练,其次再用混读语料进行训练;
(4)训练时的参考音频、说话人表示以及语种信息与训练语料一致,例如训练语料为<X,Y>,其中X为文本,并用本发明步骤二的文本表示进行表示,Y为X对应的音频,参考音频同样为Y,说话人表示为Y通过预训练好的说话人识别模型提取的,语种的language ID即为样本<X,Y>对应的语种。
步骤六,合成音频:在完成模型最终的训练之后,顺序执行以下步骤,用以合成混读语音
(5)混读文本,并用混合文本进行表示;
(6)选取参考音频;
(7)选取目标说话人音频,并提取说话人信息;
(8)经过模型预测得到Mel谱特征,并最终转换为音频。
Claims (4)
1.基于混合文本表示和说话人对抗的混读语音合成方法,其特征在于,主要包括以下步骤:
步骤一,数据预处理;
步骤二,混合文本表示:
(1)对于中文,采用带调拼音的表示形式,其中涉及的声调表示,韵律表示,儿化音、变调的标注,按照音库发音特征标注的标准制定;
(2)对于英文,采用音素表示形式;将英文单词转换为对应的CMU音素,所有音素使用大写字母表示,音节标识与单词结尾标识遵循音库发音特征标注标准指定的规则;
步骤三,端到端语音合成基础模型的设计:基于端到端语音合成Tacotron2进行设计,Tacotron2的作用是输入文本并预测得到Mel谱特征,对于混读语音合成任务,进行以下修改:
(1)添加说话人信息,其中说话人信息为一个预训练好的说话人识别模型,输入目标说话人的音频,得到相应的说话人表示;
(2)不同的语言编码为不同的language ID,同时将language ID作为输入,经过查表LUT得到语言嵌入表示;
(3)添加风格学习模块,使用变分自编码VAE来学习音频的隐含变量,该模块为无监督监督学习,参考音频经过风格学习模块后会得到隐含的风格嵌入表示;
其中,编码器采用两层的LSTM,并将其LSTM的最后一层的输出,分别经过两个全连接层得到均值μ和方差σ,最终通过公式计算风格表示:z=μ+∈*σ,其中∈为标准正态分布;
步骤四,添加对抗训练模块:添加对抗训练模块用来抹去文本表示中的音色信息;对抗模块主要包含梯度反转层以及speaker分类器;
步骤五,模型训练:
步骤六,合成音频。
2.根据权利要求1所述的基于混合文本表示和说话人对抗的混读语音合成方法,其特征在于,步骤五包括如下步骤:
(1)在添加完对抗训练模块之后,首先采用大规模的单语语种进行预先训练,其次再用混读语料进行训练;
(2)训练时的参考音频、说话人表示以及语种信息与训练语料一致,训练语料为<X,Y>,其中X为文本,并用所述步骤二的文本表示进行表示,Y为X对应的音频,参考音频同样为Y,说话人表示为Y通过预训练好的说话人识别模型提取的,语种的language ID即为样本<X,Y>对应的语种。
3.根据权利要求1所述的基于混合文本表示和说话人对抗的混读语音合成方法,其特征在于,所述步骤六具体为:在完成模型最终的训练之后,顺序执行以下步骤,用以合成混读语音
(1)混读文本,并用混合文本进行表示;
(2)选取参考音频;
(3)选取目标说话人音频,并提取说话人信息;
(4)经过模型预测得到Mel谱特征,并最终转换为音频。
4.根据权利要求1所述的基于混合文本表示和说话人对抗的混读语音合成方法,其特征在于,所述步骤一具体为:文本进行前端处理,通常以字符作为输入,而文本与音频成对的数据作为训练数据;
同时,预处理还需进行Mel谱特征的提取;
对于文本的预处理通常采用Python的自然语言处理工具包NLTK,来进行分词和汉字转拼音操作,对于Mel谱特征的提取可以直接采用Python的常用音频处理工具包librosa,经过分帧,加窗和预加重过程,从音频中提取Mel谱特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211192528.4A CN115547290A (zh) | 2022-09-28 | 2022-09-28 | 基于混合文本表示和说话人对抗的混读语音合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211192528.4A CN115547290A (zh) | 2022-09-28 | 2022-09-28 | 基于混合文本表示和说话人对抗的混读语音合成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115547290A true CN115547290A (zh) | 2022-12-30 |
Family
ID=84731067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211192528.4A Pending CN115547290A (zh) | 2022-09-28 | 2022-09-28 | 基于混合文本表示和说话人对抗的混读语音合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115547290A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131842A (zh) * | 2023-10-27 | 2023-11-28 | 慧言科技(天津)有限公司 | 基于wfst的实现多语种混合文本正则化与反正则化的方法 |
CN117727288A (zh) * | 2024-02-07 | 2024-03-19 | 翌东寰球(深圳)数字科技有限公司 | 一种语音合成方法、装置、设备及存储介质 |
-
2022
- 2022-09-28 CN CN202211192528.4A patent/CN115547290A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131842A (zh) * | 2023-10-27 | 2023-11-28 | 慧言科技(天津)有限公司 | 基于wfst的实现多语种混合文本正则化与反正则化的方法 |
CN117131842B (zh) * | 2023-10-27 | 2024-01-26 | 慧言科技(天津)有限公司 | 基于wfst的实现多语种混合文本正则化与反正则化的方法 |
CN117727288A (zh) * | 2024-02-07 | 2024-03-19 | 翌东寰球(深圳)数字科技有限公司 | 一种语音合成方法、装置、设备及存储介质 |
CN117727288B (zh) * | 2024-02-07 | 2024-04-30 | 翌东寰球(深圳)数字科技有限公司 | 一种语音合成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7445267B2 (ja) | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
CN107103900B (zh) | 一种跨语言情感语音合成方法及系统 | |
US20100057435A1 (en) | System and method for speech-to-speech translation | |
CN115547290A (zh) | 基于混合文本表示和说话人对抗的混读语音合成方法 | |
MXPA06003431A (es) | Metodo para sintetizar voz. | |
CN109961777A (zh) | 一种基于智能机器人的语音交互方法 | |
CN112786018A (zh) | 语音转换及相关模型的训练方法、电子设备和存储装置 | |
CN115101046A (zh) | 一种特定说话人语音合成方法和装置 | |
CN115547293A (zh) | 一种基于分层韵律预测的多语言语音合成方法及系统 | |
CN108109610B (zh) | 一种模拟发声方法及模拟发声系统 | |
CN115359778A (zh) | 基于说话人情感语音合成模型的对抗与元学习方法 | |
JP2002229590A (ja) | 音声認識システム | |
JP7406418B2 (ja) | 声質変換システムおよび声質変換方法 | |
Labied et al. | Moroccan dialect “Darija” automatic speech recognition: a survey | |
CN114446278A (zh) | 语音合成方法及装置、设备以及存储介质 | |
Chen et al. | A Bilingual Speech Synthesis System of Standard Malay and Indonesian Based on HMM-DNN | |
Janyoi et al. | An Isarn dialect HMM-based text-to-speech system | |
JP7012935B1 (ja) | プログラム、情報処理装置、方法 | |
Polyákova et al. | Introducing nativization to spanish TTS systems | |
CN114566143B (zh) | 一种可局部修改内容的语音合成方法及语音合成系统 | |
Qiang et al. | Text Enhancement for Paragraph Processing in End-to-End Code-switching TTS | |
Nair et al. | Indian text to speech systems: A short survey | |
Mao et al. | Speech synthesis of Chinese Braille with limited training data | |
CN115881084A (zh) | 基于韵律发音解耦的元学习多语种语音合成模型及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |