CN115547290A

CN115547290A - 基于混合文本表示和说话人对抗的混读语音合成方法

Info

Publication number: CN115547290A
Application number: CN202211192528.4A
Authority: CN
Inventors: 王龙标; 贡诚; 张句; 王宇光; 关昊天
Original assignee: Huiyan Technology Tianjin Co ltd
Current assignee: Huiyan Technology Tianjin Co ltd
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2022-12-30

Abstract

本发明涉及基于混合文本表示和说话人对抗的混读语音合成方法，具体涉及到利用对抗训练与元学习的方式对情感语音合成系统进行优化。包括数据预处理、混合文本表示、端到端语音合成基础模型的设计、添加对抗模块用来抹去文本表示中的音色信息、模型训练以及合成音频。本发明提升混读语音合成的流畅度，同时保持语音合成的音色，将语种和说话人进行解耦。合成语音中的不同语言之间可以保持一致的音色。

Description

基于混合文本表示和说话人对抗的混读语音合成方法

技术领域

本发明是语音合成领域，涉及基于混合文本表示和说话人对抗的混读语音合成方法，具体涉及到利用对抗训练与元学习的方式对情感语音合成系统进行优化。

背景技术

语音合成(Text-to-Speech,TTS)是一种将输入文本转换为合成语音的技术。在人机交互场景中，语音合成作为交互链条中最后一步，具有举足轻重的地位。目前随着端到端技术的提出和日趋成熟，单语种单说话人语音合成系统，已经能够合成与人类发音具有相似自然度的语音，但是在实际应用场景中，单语单说话人语音合成系统已经无法满足人们的日常需求。比如在导航系统中出现的含有英文单词的地址，日常交流中出现的英文短语等等，因此就要求语音合成系统满足上述需求，具有合成两种语言的同时，可以适应实际场景中的个性化需求，合成不同音色语音的能力。

混读合成技术，指的是在同一个系统中使用相同音色，针对同一个句子中的不同语种合成自然且音色一致的语音。混读合成技术的发展，也伴随着语音合成系统的发展在不断演变。端到端语音合成系统，是一种直接将文本映射为声学特征的系统，近年来在单语单说话人合成的自然、可懂度等方面获得优异的表现。因此，有必要开展在端到端系统上实现混读合成的研究。然而，现有的端到端混读合成系统依赖熟练的双语录音者来构建高成本的双语语料库或高语言混合度(Language MixRatio，LMR)的混读语料库，这种方法不够灵活，且成本较高。而简单地使用不同说话人的单语语料，实现混读合成的方法，虽然灵活、成本低，但是需要较大的语料库作为训练数据，并且需要考虑口音问题以及合成语音的音色一致性问题。

发明内容

本发明为解决背景技术中提出的技术问题，提出基于混合文本表示和说话人对抗的混读语音合成方法，主要包括如下步骤：

步骤一，数据预处理：文本需要进行前端处理，通常以字符作为输入，而文本与音频成对的数据作为训练数据；

同时，预处理还需进行Mel谱特征的提取；

对于文本的预处理通常采用Python的自然语言处理工具包NLTK，来进行分词和汉字转拼音操作，对于Mel谱特征的提取可以直接采用Python的常用音频处理工具包librosa，经过分帧，加窗和预加重过程，从音频中提取Mel谱特征；

步骤二，混合文本表示：

(1)对于中文，采用带调拼音的表示形式，其中涉及的声调表示，韵律表示，儿化音、变调的标注，按照音库发音特征标注的标准制定；

(2)对于英文，采用音素表示形式；将英文单词转换为对应的CMU音素，所有音素使用大写字母表示，音节标识与单词结尾标识遵循音库发音特征标注标准指定的规则；

步骤三，端到端语音合成基础模型的设计：基于端到端语音合成Tacotron2进行设计，Tacotron2的作用是输入文本并预测得到Mel谱特征，对于混读语音合成任务，进行以下修改：

(1)添加说话人信息，其中说话人信息为一个预训练好的说话人识别模型，输入目标说话人的音频，得到相应的说话人表示；

(2)不同的语言编码为不同的language ID，同时将language ID作为输入，经过查表LUT得到语言嵌入表示；

(3)添加风格学习模块，使用变分自编码VAE来学习音频的隐含变量，该模块为无监督监督学习，参考音频经过风格学习模块后会得到隐含的风格嵌入表示；其中，编码器采用两层的LSTM，并将其LSTM的最后一层的输出，分别经过两个全连接层得到均值μ和方差σ，最终通过公式：z＝μ+∈*σ，其中∈为标准正态分布；

步骤四，添加对抗训练模块：添加对抗训练模块用来抹去文本表示中的音色信息；对抗模块主要包含梯度反转层以及speaker分类器；

步骤五，模型训练：

具体包括如下步骤：

(1)在添加完对抗训练模块之后，首先采用大规模的单语语种进行预先训练，其次再用混读语料进行训练；

(2)训练时的参考音频、说话人表示以及语种信息与训练语料一致，例如训练语料为<X,Y>,其中X为文本，并用本发明步骤二的文本表示进行表示，Y为X对应的音频，参考音频同样为Y，说话人表示为Y通过预训练好的说话人识别模型提取的，语种的language ID即为样本<X,Y>对应的语种；

步骤六，合成音频:

在完成模型最终的训练之后，顺序执行以下步骤，用以合成混读语音

(1)混读文本，并用混合文本进行表示；

(2)选取参考音频；

(3)选取目标说话人音频，并提取说话人信息；

(4)经过模型预测得到Mel谱特征，并最终转换为音频。

有益效果：

1、本发明实现如下三个方面：

1)搭建端到端情感语音合成系统，并采用无监督的风格编码器来学习音频中的情感嵌入表示；

2)设计基于对抗训练的情感解耦模块，在该模块训练过程当中抹去情感嵌入中所包含的说话人信息；

3)采用元学习的方式提升情感语音合成模型的泛化能力，使其在少量说话人语音数据上进行快速适应。

2、本发明提出一种基于混合文本表示和说话人对抗的混读语音合成系统，对中、英文本采取不同的表示方式，提升合成系统对于不同语种的辨别能力。

3、本发明提升混读语音合成的流畅度，同时保持语音合成的音色，将语种和说话人进行解耦，此外，添加说话人对抗模块，对文本表示中所蕴含的说话人信息进行抹除，使得合成语音中的不同语言之间可以保持一致的音色。

附图说明

图1为混读合成模型图。

图2为提取的Mel谱特征表示。

图3为VAE构建的风格学习模块。

具体实施方式

以下结合附图和实施例来对本发明做进一步的说明。

基于混合文本表示和说话人对抗的混读语音合成方法，具体步骤如下；

步骤一，数据预处理：

文本需要进行前端处理，通常以字符作为输入，而文本与音频成对的数据作为训练数据；

同时，预处理还需进行Mel谱特征的提取；

对于文本的预处理通常采用Python的自然语言处理工具包NLTK，来进行分词和汉字转拼音等操作，对于Mel谱特征的提取直接采用Python的常用音频处理工具包librosa，经过分帧，加窗和预加重等过程，从音频中提取Mel谱特征。例如，图2为提取的梅尔普特征表示。

步骤二，混合文本表示：

(1)对于中文，采用带调拼音的表示形式，其中涉及的声调表示，韵律表示，儿化音、变调等的标注，按照音库发音特征标注的标准制定；

例如，原文文本为(你住一个大house),本发明文本表示为如下形式：ni3 zhu4#1yi2 ge4#1 da4 HH AW S@#4。

其中，#1，#3为语音合成的前端预测得到的韵律停顿，“ni3”中的3表示的是“你”的声调为3声，HH AW S为house在CMU词典里的表示，@表示的是英文和中文的分界。

步骤三，端到端语音合成基础模型的设计：基于端到端语音合成Tacotron2进行设计，Tacotron2的作用是输入文本并预测得到Mel谱特征，对于混读语音合成任务，我们进行以下修改：

(2)不同的语言编码为不同的language ID，同时将language ID作为输入，经过查表LUT得到语言嵌入表示；例如，同样的文本ni3 zhu4#1 yi2 ge4#1 da4 HH AW S@#4，对应的language ID为000…111111..000,其中111111表示HH AW S@；00..00表示的是其中的中文字符；

(3)为了进一步提升合成音频的自然度，添加风格学习模块，使用变分自编码VAE来学习音频的隐含变量，比如韵律，噪声等等，该模块为无监督监督学习，参考音频经过风格学习模块后会得到隐含的风格嵌入表示；其中，利用VAE构建的风格学习模块，如图3所示。

其中，编码器采用两层的LSTM，并将其LSTM的最后一层的输出，分别经过两个全连接层得到均值μ和方差σ，最终通过公式：z＝μ+∈*σ，其中∈为标准正态分布。

步骤四，添加对抗训练模块：由于混读的匮乏，模型会用到大量的单语的预料进行预训练，但是这样会使得语言和说话人耦合在一块，在进行最终的混读语音合成时，会造成合成语音音色不一致的现象发生。因此添加对抗训练模块用来抹去文本表示中的音色信息。对抗模块主要包含一个梯度反转层以及一个speaker分类器，如图1中右上角虚线框所示。

步骤五，模型训练：

(3)在添加完对抗训练模块之后，首先采用大规模的单语语种进行预先训练，其次再用混读语料进行训练；

(4)训练时的参考音频、说话人表示以及语种信息与训练语料一致，例如训练语料为<X,Y>,其中X为文本，并用本发明步骤二的文本表示进行表示，Y为X对应的音频，参考音频同样为Y，说话人表示为Y通过预训练好的说话人识别模型提取的，语种的language ID即为样本<X,Y>对应的语种。

步骤六，合成音频：在完成模型最终的训练之后，顺序执行以下步骤，用以合成混读语音

(5)混读文本，并用混合文本进行表示；

(6)选取参考音频；

(7)选取目标说话人音频，并提取说话人信息；

(8)经过模型预测得到Mel谱特征，并最终转换为音频。

Claims

1.基于混合文本表示和说话人对抗的混读语音合成方法，其特征在于，主要包括以下步骤：

步骤一，数据预处理；

步骤二，混合文本表示：

(3)添加风格学习模块，使用变分自编码VAE来学习音频的隐含变量，该模块为无监督监督学习，参考音频经过风格学习模块后会得到隐含的风格嵌入表示；

其中，编码器采用两层的LSTM，并将其LSTM的最后一层的输出，分别经过两个全连接层得到均值μ和方差σ，最终通过公式计算风格表示:z＝μ+∈*σ，其中∈为标准正态分布；

步骤五，模型训练：

步骤六，合成音频。

2.根据权利要求1所述的基于混合文本表示和说话人对抗的混读语音合成方法，其特征在于，步骤五包括如下步骤：

(2)训练时的参考音频、说话人表示以及语种信息与训练语料一致，训练语料为<X,Y>,其中X为文本，并用所述步骤二的文本表示进行表示，Y为X对应的音频，参考音频同样为Y，说话人表示为Y通过预训练好的说话人识别模型提取的，语种的language ID即为样本<X,Y>对应的语种。

3.根据权利要求1所述的基于混合文本表示和说话人对抗的混读语音合成方法，其特征在于，所述步骤六具体为：在完成模型最终的训练之后，顺序执行以下步骤，用以合成混读语音

(1)混读文本，并用混合文本进行表示；

(2)选取参考音频；

(3)选取目标说话人音频，并提取说话人信息；

(4)经过模型预测得到Mel谱特征，并最终转换为音频。

4.根据权利要求1所述的基于混合文本表示和说话人对抗的混读语音合成方法，其特征在于，所述步骤一具体为:文本进行前端处理，通常以字符作为输入，而文本与音频成对的数据作为训练数据；

同时，预处理还需进行Mel谱特征的提取；

对于文本的预处理通常采用Python的自然语言处理工具包NLTK，来进行分词和汉字转拼音操作，对于Mel谱特征的提取可以直接采用Python的常用音频处理工具包librosa，经过分帧，加窗和预加重过程，从音频中提取Mel谱特征。