CN115188364A

CN115188364A - 基于卷积网络和编码器解码器模型的多语种语音合成方法

Info

Publication number: CN115188364A
Application number: CN202211106844.5A
Authority: CN
Inventors: 秦勇; 王卉; 李起成; 周家名; 雪琛; 贺佳贝
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-10-14

Abstract

本发明公开了一种基于卷积网络和编码器解码器模型的多语种语音合成方法，将待合成的多语种文本信息不经过音素化而是直接按照一定的标准转换为图片，图片中每个字符的长度和宽度是预先定义好的，并且蕴含了重音、韵律、音色、情感等发音信息；然后对生成的图片进行特征提取，再将提取到的图片特征信息送入声学模型中，完成从图片特征到声学特征的映射，最后利用声码器进一步还原为语音波形，生成目标语音。本发明简化了多语种语音合成问题前端处理流程，避免了注音问题和归一化等问题；提升多语种语音合成模块的可扩展性，可以在模型结构不发生变化的情况下将模型功能进行拓展。

Description

基于卷积网络和编码器解码器模型的多语种语音合成方法

技术领域

本发明属于计算机处理技术领域，具体涉及一种基于卷积网络和编码器解码器模型的多语种语音合成方法。

背景技术

出现多语种语言信息成为了社交媒体文本、交往对话和语音导航中普遍存在的现象，这在语言学中称为语码转换(CS)。而目前的语音合成系统，虽然能从单一语种文本中合成较为自然、流畅的语音，但在处理多语种文本时会面临数据缺乏、发音不流畅、前端处理复杂等挑战，这也促进了对多语种语音合成问题的研究。

目前针对多语种语音合成问题的一般解决方法是利用国际音标表（IPA）或共享音素集将多语种文本信息转换为具有统一标识的音素文本，然后将前端模块预测的韵律信息、重读信息等以特殊的符号标注在音素文本中，形成前端抄本。然后将前端抄本中的每个字符通过词嵌入表（word embedding）转换为对应的向量，形成文本特征。然后利用声学模型将文本特征转换为声学特征梅尔谱，再利用声码器进一步估计相位信息，将梅尔谱还原为语音波形。然后计算机就可以利用语音波形发出声音，完成多语种语音合成任务。

在上述方法基础上衍生了多种模型和特征提取结构，但仍普遍存在两大问题。一是前端处理流程比较复杂，多种语言首先需要利用各自的发音规则进行音素化，如中文需要进行注音，尤其是处理多音字，而英文需要利用发音词典进行转换，对未登录词（OOV）也需要单独处理；然后再通过国际音标表或预置的共享音素集进行统一，最后再添入重音、韵律等发音有关信息。二是模型功能不易扩展，在现有模型上进一步扩展多说话人语音合成、情感语音合成时必须添加相应的说话人音色或情感特征提取模块，或者增加输入信息和嵌入层才可以实现对应功能拓展。

发明内容

为了应对现有多语种语音合成方法中前端处理复杂和模型功能不易扩展的问题，本发明提供一种基于卷积网络和编码器解码器模型的多语种语音合成方法，该方法不仅能简化前端对多语种文本的处理流程，而且再不增加任何模块的基础上可以实现多说话人语音合成、情感语音合成等功能扩展。

本发明是通过以下技术方案实现的：

一种基于卷积网络和编码器解码器模型的多语种语音合成方法，包括以下步骤：

步骤S1，将多语种文本转换为具有设定格式的视觉文本图片；

步骤S2，基于卷积网络的视觉特征提取模型滑动提取图片特征；

步骤S3，基于编码器-解码器的声学特征提取模型将步骤S2提取到的图片特征转换为声学特征；

步骤S4，使用声码器将步骤S3得到的声学特征转换为对应的音频。

在上述技术方案中，步骤S1中，图片中每个字符长度w，高度为h，字符个数为n，生成图片的大小为wn×h。

在上述技术方案中，步骤S1中，在图片中，针对每个字符，通过标注以及设置字符的颜色、字体、加粗、加黑等手段，来表示字符的重音、韵律、音色、情感等语音信息。

在上述技术方案中，步骤S1中，在图片中，通过将字符标黑来表征该字符的重音信息，通过在字符的上方标注符号的方式来表征字符的不同等级的韵律，通过设置字符的字体来表征字符的不同音色，通过设置字符的颜色来表征字符的情感信息。

在上述技术方案中，步骤S2中，滑动窗口的窗长设置为2-5个字符长度。

在上述技术方案中，步骤S3中，所述声学特征为梅尔频谱。

在上述技术方案中，步骤S4中，采用HiFi-GAN的声码器将梅尔频谱转换为对应音频。

在上述技术方案中，步骤S4中，采用WaveNet的声码器将梅尔频谱转换为对应音频。

在上述技术方案中，步骤S4中，采用WaveGAN的声码器将梅尔频谱转换为对应音频。

本发明还提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被执行时实现上述的方法的步骤。

本发明的优点和有益效果为：

本发明将待合成的多语种文本信息不经过音素化而是直接按照一定的标准转换为图片，图片中每个字符的长度和宽度是预先定义好的，并且蕴含了重音、韵律、音色、情感等发音信息；然后对生成的图片进行特征提取，再将提取到的图片特征信息送入声学模型中，完成从图片特征到声学特征的映射，最后利用声码器进一步还原为语音波形，生成目标语音。本发明简化了多语种语音合成问题前端处理流程，避免了注音问题和归一化等问题；提升多语种语音合成模块的可扩展性，可以在模型结构不发生变化的情况下将模型功能进行拓展。

附图说明

图1是本发明的基于卷积网络和编码器解码器模型的多语种语音合成方法的步骤流程图。

对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据以上附图获得其他的相关附图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合具体实施例进一步说明本发明的技术方案。

步骤S1，将多语种文本转换为具有设定格式的视觉文本图片。

针对包含两种及以上语言的多语种文本，该步骤是将多语种文本转换为特定格式的图片，每个图片中每个字符长度w，高度为h，字符个数为n，则生成图片的大小为wn×h。在图片中，针对每个字符，可以通过标注以及设置字符的颜色、字体、加粗、加黑等手段，来表示字符的重音、韵律、音色、情感等信息。例如：可以通过将字符标黑来表征该字符的重音信息，通过在字符的上方标注“#1”、“#2”等符号的方式来表征字符的不同等级的韵律，通过设置字符的字体来表征字符的不同音色（比如行楷、宋体、幼圆、方正等字体可以代表不同的说话人音色），而情感信息可以通过设置字符的颜色来表示。在这个过程中不需要针对每种文本进行单独的音素化处理，也就避免了在音素化处理过程中出现的多音字消歧、未登录词无法注音等问题。同时，由于多种语言的文本都以统一标准转换为图片，不需要再利用国际音标表等方法进行转化，从而简化了前端处理流程。

步骤S2，基于卷积网络的视觉特征提取模型滑动提取图片特征。

通过步骤S1，将多语种文本生成了统一标准的视觉文本图片，本步骤采用卷积网络通过滑动窗口依次提取图片特征，滑动窗口的窗长设置为nw，w为字符长度，n的范围是2≤n≤5；滑动窗口不仅能提取图片中的单个字符信息，也能有效提取上下文信息，进而能提升语音合成效果。

卷积网络包括输入层（Input Layer）、卷积层（Convolutional layer）、池化层（Pooling layer）、全连接层（Fully-Connected Layer）以及输出层（Output Layer）等结构。卷积层用于是对输入层的数据进行特征提取，卷积层内部包括多个卷积核，卷积核是一个权值矩阵，通过卷积核与输入层局部域的卷积操作可以实现对该层的特征提取；在提取过程中可以使用多个卷积层，从前往后逐层获取更高级的特征。滑动窗口的窗长是指某一层中卷积核每次计算完成后向前平移的距离。在经过卷积层处理后，由于神经网络的特性，通常需要经过一个非线性激活函数（Activation Function）处理，最常用的激活函数是ReLU函数。池化层的功能是降低特征的分辨率、压缩数据量，接在卷积层之后，用于获取具有空间不变性的特征，同时也可以防止模型的过拟合。

在本步骤中没有使用字符嵌入表这种一般的结构，而是提取了字符的视觉特征，这在处理罕见字的发音上更有优势。比如“discombobulate”(意为混淆，沮丧)是个罕见词，无法利用字典将其音素化，但该词中的出现的“dis”，“com”，“late”等结构，可以被方便的视觉特征提取模型所捕捉，因此合成效果更好。

步骤S3，基于编码器-解码器的声学特征提取模型将步骤S2提取到的图片特征转换为声学特征。

通过步骤S2得到了多语种文本对应的图片特征，本步骤是利用基于编码器-解码器的声学特征提取模型将图片特征进一步转换，生成梅尔频谱。该模型首先将利用编码器将输入的图片特征进行编码，生成高层次的序列特征信息，然后解码器采用循环神经网络结构，将编码器的输出逐帧地预测声学特征（声学特征采用梅尔频谱）。具体的声学模型设计可以采用Tacotron、Tacotron2等方法。Tacotron和Tacotron2是带有注意力机制（Attention Mechanism）的序列到序列的生成模型，包括一个编码器模块和一个带有基于内容注意力的解码器模块。编码器负责将输入的特征序列映射到离散的One-Hot编码向量，再编码到低维连续的嵌入形式（Embedding），用于提取特征序列的鲁棒序列表示，以生成高层次的序列特征信息；解码器是一个自回归网络结构，解码器负责将编码器输出的序列特征信息逐帧地解码（预测）成声学特征（使用梅尔频谱作为预测输出）；其中基于内容的注意力模块用于学习如何对齐特征序列和语音帧，序列中的每个字符编码通常对应多个语音帧并且相邻的语音帧一般也具有相关性。

在这本步骤实现多语种语音合成的基础上，可以无需增加任何模块而直接扩展多说话人语音合成、情感语音合成等功能，这是因为语音的重音、韵律、音色、情感等信息都包含在了图片中，由视觉特征提取模型统一提取为图片特征，所以无需修改该模型结构。

通过步骤S3，生成了目标文本对应的声学特征梅尔频谱，梅尔频谱中包含了语音信号随时间在不同频率上的分布，但仍然缺乏相位信息。因此本步骤利用神经网络声码器预测相位，具体而言，采用WaveNet，WaveGAN，HiFi-GAN等高效声码器将梅尔频谱转换为对应音频，在保证合成音质的同时也具有较快的推理速度。

而且，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个与另一个具有相同名称的部件区分开来，而不一定要求或者暗示这些部件之间存在任何这种实际的关系或者顺序。

以上对本发明做了示例性的描述，应该说明的是，在不脱离本发明的核心的情况下，任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。

Claims

1.一种基于卷积网络和编码器解码器模型的多语种语音合成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于卷积网络和编码器解码器模型的多语种语音合成方法，其特征在于：步骤S1中，图片中每个字符长度w，高度为h，字符个数为n，生成图片的大小为wn×h。

3.根据权利要求1所述的基于卷积网络和编码器解码器模型的多语种语音合成方法，其特征在于：步骤S1中，在图片中，针对每个字符，通过标注以及设置字符的颜色、字体、加粗、加黑的手段，来表示字符的重音、韵律、音色、情感语音信息。

4.根据权利要求1所述的基于卷积网络和编码器解码器模型的多语种语音合成方法，其特征在于：步骤S1中，在图片中，通过将字符标黑来表征该字符的重音信息，通过在字符的上方标注符号的方式来表征字符的不同等级的韵律，通过设置字符的字体来表征字符的不同音色，通过设置字符的颜色来表征字符的情感信息。

5.根据权利要求1所述的基于卷积网络和编码器解码器模型的多语种语音合成方法，其特征在于：步骤S2中，滑动窗口的窗长设置为2-5个字符长度。

6.根据权利要求1所述的基于卷积网络和编码器解码器模型的多语种语音合成方法，其特征在于：步骤S3中，所述声学特征为梅尔频谱。

7.根据权利要求1所述的基于卷积网络和编码器解码器模型的多语种语音合成方法，其特征在于：步骤S4中，采用HiFi-GAN的声码器将梅尔频谱转换为对应音频。

8.根据权利要求1所述的基于卷积网络和编码器解码器模型的多语种语音合成方法，其特征在于：步骤S4中，采用WaveNet的声码器将梅尔频谱转换为对应音频。

9.根据权利要求1所述的基于卷积网络和编码器解码器模型的多语种语音合成方法，其特征在于：步骤S4中，采用WaveGAN的声码器将梅尔频谱转换为对应音频。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被执行时实现如权利要求1至9中任一项所述的方法的步骤。