CN117079637A

CN117079637A - 一种基于条件生成对抗网络的蒙古语情感语音合成方法

Info

Publication number: CN117079637A
Application number: CN202310729047.0A
Authority: CN
Inventors: 仁庆道尔吉; 王乐乐; 石宝; 吉亚图; 李雷孝
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-11-17

Abstract

一种基于条件生成对抗网络的蒙古语情感语音合成方法，对蒙古语文本进行字母到音素转换，得到音素序列数据；从蒙古语情感音频提取梅尔频谱一；将音素序列数据与梅尔频谱一输入语音文本联合预训练模型，训练语音和文本的对齐信息；FastSpeech2声学模型中加入情感模块，得到改进模型，以改进模型为生成器，引入鉴别器和情感标签构建条件生成式对抗网络；生成器以语音文本联合预训练模型的输出为输入，输出梅尔频谱二，鉴别器判断梅尔频谱二与梅尔频谱一，直至误差小于预设；将满足误差要求的梅尔频谱二输入至声码器，将声学特征转换为语音波形，完成蒙古语情感语音合成。本发明可以直接从字符合成情感语音，大大降低对语言学知识的要求。

Description

一种基于条件生成对抗网络的蒙古语情感语音合成方法

技术领域

本发明属于人工智能技术领域，涉及语音合成，特别涉及一种基于条件生成对抗网络的蒙古语情感语音合成方法。

背景技术

语音合成(Speech Synthesis)技术是指计算机通过分析处理将任意文本转化为流畅语音的技术。国内外语音合成研究经历了基于源-滤波器语音合成、基于波形拼接语音合成、基于统计参数语音合成，以及基于深度神经网络的语音合成方法的发展历程。

蒙古语已经可以合成具有较高自然度和可懂度的语音，但蒙古语情感语音合成由于情感语料稀缺且研究投入较少等问题使得其仍然处在初级阶段，因此对于基于深度神经网络的方式合成蒙古语情感语音来说，发展的空间是十分巨大的。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于条件生成对抗网络的蒙古语情感语音合成方法，具有端到端的生成式文本转情感语音模型，可以直接从字符合成情感语音，大大降低对语言学知识的要求。

为了实现上述目的，本发明采用的技术方案是：

一种基于条件生成对抗网络的蒙古语情感语音合成方法，包括：

步骤1，获取待合成的蒙古语文本和蒙古语情感音频；

步骤2，对所述蒙古语文本进行字母到音素转换，得到音素序列数据；从所述蒙古语情感音频提取梅尔频谱一；

步骤3，将所述音素序列数据与梅尔频谱一输入语音文本联合预训练模型，训练语音和文本的对齐信息；

步骤4，在FastSpeech2声学模型中加入情感模块，得到改进模型，以所述改进模型为生成器，引入鉴别器和情感标签构建条件生成式对抗网络；所述生成器以语音文本联合预训练模型的输出为输入，输出梅尔频谱二，所述鉴别器判断所述梅尔频谱二与梅尔频谱一，直至误差小于预设；

步骤5，将满足误差要求的梅尔频谱二输入至声码器，将声学特征转换为语音波形，完成蒙古语情感语音合成。

与现有技术相比，本发明的创新性在于：

使用Encoder-Decoder模型将蒙古语文本转化成音素，可以无缝地集成到端到端的TTS系统，其次使用基于条件生成对抗网络以增加情感编码器模块FastSpeech2模型作为声学模型，结合情感标签条件学习到隐式情感风格特征，将音素直接生成梅尔频谱，HiFiGAN声码器直接将梅尔频谱转化为语音波形。本发明以条件生成对抗网络为核心结构，结合FastSpeech2声学模型和HiFiGAN声码器，实现蒙古语情感语音合成，这种合成方式在蒙古语情感语音合成中尚未得到应用。

附图说明

图1是本发明流程图。

图2是生成对抗网络示意图。

图3是FastSpeech模型示意图。

图4是FastSpeech2模型示意图。

图5是增加情感编码器的FastSpeech2模型示意图。

图6是情感编码器模块结构示意图。

图7是SpeechLM语音文本联合预训练模型示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明为一种基于条件生成对抗网络的蒙古语情感语音合成方法，包括如下步骤：

步骤1，获取待合成的蒙古语文本和蒙古语情感音频。

本发明中，使用蒙古语文本和蒙古语情感音频构成的平行语料，在平行语料中，每条蒙古语文本对应一条带有情感标签的蒙古语音频。

步骤2，对所述蒙古语文本进行字母到音素转换，得到音素序列数据。从所述蒙古语情感音频提取梅尔频谱一。

本步骤包括音素序列数据的获取和梅尔频谱一的提取。对于音素序列数据，本发明采用基于Encoder-Decoder的蒙古语G2P(Grapheme-to-Phoneme)转换模型进行字母到音素转换，Encoder-Decoder结构在不同的NLP任务中显示了最新的结果，这些方法的主要思想有两个步骤：第一步是将输入序列映射到一个向量；第二步是基于学习向量生成输出序列表示。Encoder-Decoder模型在编码器处理完完整的输入序列后生成一个输出，这使得解码器能够从输入的任何部分学习，而不受固定上下文窗口的限制。例如首先将蒙古语单词：(汉语意思：击打)拉丁转写为：“cqhihv”，编码器的输入是“cqhihv”字形序列，解码器产生“q oe h ws h”作为音素序列。模型在生成音素结束标记后停止进行预测。

本发明使用Encoder-Decoder架构，编码器使用卷积神经网络结构，具有残差连接和批量标准化。解码器是一个双向LSTM，将输入的蒙古语文本序列映射到一个向量，基于学习向量生成输出序列表示，即音素序列数据。由于字母转音素任务实际上是一个简化的机器翻译任务，所以序列到序列模型完全适用于处理字母转音素问题。基于神经网络的G2P转化对拼写错误和集外词具有很强的鲁棒性；它具有很好的泛化能力。此外，它还可以无缝地集成到端到端的TTS系统。

进一步地，输入的蒙古语文本中可能会包含日期、数字、英文字母等非蒙古文字符的特殊字符，在进行蒙古文转换拉丁操作之前，需要将特殊文字符转写为相应的蒙古文表达式并进行校正，否则会导致漏词、蒙古文转拉丁错误等问题。在进行拉丁转换时，根据蒙古文和拉丁文的对应关系，将蒙古语文本统一转写成拉丁表示序列。

对于梅尔频谱一，本发明使用librosa对蒙古语情感音频信号进行处理，首先，对音频信号预加重、分帧和加窗。其次，对每帧信号进行短时傅立叶变换STFT，得到短时幅度谱。最后，短时幅度谱通过梅尔滤波器组得到梅尔频谱一。

步骤3，将所述音素序列数据与梅尔频谱一输入语音文本联合预训练模型，训练语音和文本的对齐信息。

本步骤中，具体采用基于SpeechLM的语音文本联合预训练模型，经过训练后，语音和文本可以更好地对齐信息，有助于下游语音合成任务的性能提升，模型结构如图7所示。

步骤4，在FastSpeech2声学模型中加入情感模块，得到改进模型，以所述改进模型为生成器，引入鉴别器和情感标签构建条件生成式对抗网络。所述生成器以语音文本联合预训练模型的输出(音素序列和语音文本的对齐信息)为输入，输出梅尔频谱二，所述鉴别器判断所述梅尔频谱二与梅尔频谱一，直至误差小于预设。

生成对抗网络(Generative Adversial Networks，GAN)结构如图2所示，其实是两个网络的组合：生成器(Generator)负责生成模拟数据；鉴别器(Discriminator)负责判断输入的数据是真实的还是生成的。生成器要不断优化生成的数据让鉴别器判断不出来，鉴别器也要优化自己让自己判断得更准确，二者关系形成对抗。

下面是传统GAN的目标函数，在生成器和鉴别器的训练过程中，模型的目标函数是一个二元极小极大值博弈(two-player minimax game)：

条件生成式对抗网络(CGAN)是对原始GAN的一种变形，生成器和鉴别器都增加额外信息C作为条件，条件可以是类别信息、或其他模态数据，在本发明中使用情感标签作为情感条件。通过将额外信息C输送给鉴别模型和生成模型，作为输入层的一部分，从而实现CGAN。

在生成模型中，先验输入噪声p(z)和条件信息y联合，CGAN的目标函数是带有条件概率的二元极小极大值博弈：

在本发明中，基于条件生成对抗网络，将改进后的FastSpeech2作为生成器，实现蒙古语情感语音合成。

在FastSpeech系列声学模型之前，声学模型有着如下的问题：

1)推理速度慢，先前不管是基于RNN，CNN还是Transformer系统的声学模型，产出梅尔特征时，都会经历一个自回归的生产过程，所以会很慢；

2)生成的语音不具有鲁棒性，自回归会有错误的累积，所以生成的梅尔谱会出现重复或者是漏字的现象；

3)生成的语音不可控。

考虑到文本和语音之间的单调对齐，为了加快梅尔谱图的生成，微软提出了FastSpeech的模型，结构如图3所示，基于Transformer中自注意的前馈网络和一维卷积，以文本(音素)序列作为输入，非自回归地生成梅尔谱图。

由于一个音，可以对应上多个梅尔谱序列，故一般模型生成的梅尔序列是远远长于输入的音素序列的，这样造成了输入侧和输出侧的长度极不匹配的问题，于是在模型的内部，多引入了一个时长模型的预测模块(Duration Predictor)，用来对某个音素的时长做上采样，由此弥补二者的差距。

由此，可以总结出FastSpeech系列有着如下的优势：

1)非自回归解码，并行生成梅尔特征，相比自回归的模型，加快计算速度；

2)时长模型保证了音素跟梅尔特征的一一对应，大大减少先前模型的漏读现象；

3)引入时长模型，使得生成的音频可以控制。

虽然FastSpeech作为一个非自回归TTS模型已经取得了比自回归模型如Tacotron更快的生成速度和类似的语音质量，但是FastSpeech仍然存在一些缺点，比如：

1)使用一个自回归的TTS模型作为teacher训练模型非常耗费时间；

2)使用知识蒸馏的方式来训练模型会导致信息损失，影响合成语音的音质。

FastSpeech2对这些问题进行了改进，首先摒弃了知识蒸馏的teacher-student训练，采用了直接在ground-truth上训练的方式。其次在模型中引入了更多的可以控制语音的输入，其中既包括在FastSpeech中提到的phoneme duration，也包括energy、pitch等新的量。FastSpeech2模型结构，如图4所示。

本发明中，在FastSpeech2模型编码器中增加情感编码器模块，情感编码器用于实现蒙古语情感语音中的隐式情感风格特征学习，修改后的FastSpeech2模型，整体结构如图5所示。

具体地，本发明的情感模块包括多层卷积网络和情感分类器，多层卷积网络用于提取音频的声学特征，情感分类器则根据所述声学特征预测情感分类。

情感模块作为一个单独子网络加入FastSpeech2声学模型的编码器，用于获取不同类别情感的潜在特征信息，并将特征信息与FastSpeech2声学模型中音素编码器的输出相拼接，一同输入到FastSpeech2声学模型的方差适配器。其中，情感模块的输入是蒙古语情感语音的梅尔频谱一和情感标签，输出是不同类别情感的潜在风格特征向量。

具体地，本发明的一个实施例中，情感模块的结构与编码器相似，多层卷积网络为六层卷积层。所述情感分类器包括一个GRU层(使用最终的GRU状态)和两个全连接层，GRU层和两个全连接层作为情感分类器，即，首先是六层卷积层，再经过GRU层，最后是两个全连接层，整体结构如图6所示。在模型训练阶段，可以计算预测情感分类和实际情感分类的识别准确率，合理调整训练参数，提高模型性能。深层神经网络可以有效提取更丰富、复杂的特征，也能提高模型的准确率。

本发明的情感标签包括喜悦、愤怒、悲伤、惊讶、恐惧、厌恶、中性等七种，作为额外信息条件。从而能够相应地合成带有喜悦、愤怒、悲伤、惊讶、恐惧、厌恶、中性等七种情感的蒙古语语音，增强蒙古语语音表现力。

目前的端到端语音合成首先由声学模型生成声学特征，比如梅尔频谱、线性谱等，本发明将使用基于FastSpeech2的声学模型预测梅尔频谱。通过在FastSpeech2声学模型中加入情感模块，以学习蒙古语情感语音中的隐式情感风格特征，基于条件生成对抗网络，将改进后的FastSpeech2作为生成器，实现蒙古语情感语音合成。在引入情感条件的基础上，对情感语音数据进行训练，GAN的生成器主动生成梅尔频谱，生成虚假频谱“欺骗”鉴别器，而鉴别器需要不断提高判别能力甄别生成结果的真伪，在对抗过程中改善模型生成效果，以学习到最佳蒙古语情感风格特征。该模型在预先归一化的音素序列上训练，可大大减少错误发音的问题，同时可以并行训练，框架之间没有递归连接，可提高蒙古语语音合成的性能，加快训练速度，使音频过程更加流畅。

声码器是一种将声学特征转换为语音波形的模型，目前的端到端语音合成首先由声学模型生成声学特征，比如梅尔频谱、线性谱等，再由声码器转换为最终的语音。生成语音中的韵律、表现力等由声学模型决定，而清晰度则由声码器决定，声码器限制了最终合成语音的音质，同时也是整个语音合成模型的计算瓶颈。卷积序列模型为了增大感受野，一般需要叠加很深的网络层。序列模型在文字和语音领域的任务中都有较好的结果，但是如何更快速地进行采样仍然是一个比较困难的问题。

相较于WaveNet为了增大感受野，叠加带洞卷积，逐样本点生成，音质确实很好，但是也使得模型较大，推理速度较慢。HiFiGAN是近年来在学术界和工业界都较为常用的声码器，能够将声学模型产生的频谱转换为高质量的音频，这种声码器采用生成对抗网络(GAN)作为基础生成模型。

HiFiGAN的生成器主要有两块，一个是上采样结构，具体是由一维转置卷积组成；二是多感受野融合(Multi-Receptive Field Fusion，MRF)模块，主要负责对上采样获得的采样点进行优化，具体是由残差网络组成，交替使用带洞卷积和普通卷积增大感受野，保证合成音质的同时，提高推理速度。

HiFiGAN的鉴别器有两个，分别是多尺度(Multi-Scale Discriminator，MSD)和多周期鉴别器(Multi-Period Discriminator，MPD)，从两个不同角度分别鉴定语音。多尺度鉴别器源自MelGAN声码器的做法，不断平均池化语音序列，逐次将语音序列的长度减半，然后在语音的不同尺度上施加若干层卷积，最后展平，作为多尺度鉴别器的输出；多周期鉴别器则是以不同的序列长度将一维的音频序列折叠为二维平面，在二维平面上施加二维卷积。最终目标就是尽可能增强GAN鉴别器甄别合成或真实音频的能力。

本步骤中，选择HiFiGAN为声码器。生成语音中的韵律、表现力等由声学模型决定，而清晰度则由声码器决定，声码器限制了最终合成语音的音质，同时也是整个语音合成模型的计算瓶颈。HiFiGAN在保证合成音质的同时，可以有效提高推理速度，HiFiGAN模型可作为FastSpeech2的声码器来合成音频，优化语音合成速度。

以下，提供一个具体的采用本发明方法合成蒙古语情感语音的案例，主要分为两个阶段。训练阶段时，使用实验室录制的具有七类情感的蒙古语情感语音数据集(该数据集包括蒙古语文本、蒙古语音频和情感标签)进行多次训练，基于条件生成对抗网络的博弈对抗训练，使得生成器能很好地学习到声学模型中输出的声学特征，不断提高生成梅尔频谱的能力；推理阶段时，想要合成某种情感的语音，只需要将蒙古语文本和情感标签输入生成器，得到梅尔频谱后经过HiFiGAN声码器，即可合成具有对应情感的蒙古语语音。

综上，本发明的主要流程包括三个部分：前端处理、预测梅尔频谱模块、梅尔频谱转换语音波形模块。前端处理部分，对蒙古语文本进行特殊字符转换、拉丁校正，首先对输入的蒙古语文本进行特殊字符转换，把文本中出现的特殊字符转写为蒙古语书写形式，然后对经过特殊字转换的文本，进行校正，最后进行拉丁转换，减少传统的蒙古语字母转音素方法的困难。得到拉丁音素序列后，将其输入到语音文本联合预训练模型中，获取语音和文本的对齐信息；预测梅尔频谱模型部分，是将拉丁音素序列和语音文本的对齐信息输入到增加情感编码器的FastSpeech2声学模型得到对应的梅尔频谱，相对传统的TTS，生成语音中的韵律、表现力会更好，情感特征更加丰富。最后梅尔频谱经过HiFiGAN声码器进行蒙古语情感语音的合成，在保证生成语音清晰度的同时，优化语音合成速度。

Claims

1.一种基于条件生成对抗网络的蒙古语情感语音合成方法，其特征在于，包括：

步骤1，获取待合成的蒙古语文本和蒙古语情感音频；

2.根据权利要求1所述基于条件生成对抗网络的蒙古语情感语音合成方法，其特征在于，所述步骤1，蒙古语文本和蒙古语情感音频为平行语料，每条蒙古语文本对应一条带有情感标签的蒙古语音频。

3.根据权利要求1所述基于条件生成对抗网络的蒙古语情感语音合成方法，其特征在于，所述步骤2，采用基于Encoder-Decoder的蒙古语G2P转换模型进行字母到音素转换，其中编码器使用卷积神经网络结构，具有残差连接连接和批量标准化，解码器为一个双LSTM，将输入的蒙古语文本序列映射到一个向量，基于学习向量生成输出序列表示，即音素序列数据。

4.根据权利要求1所述基于条件生成对抗网络的蒙古语情感语音合成方法，其特征在于，所述步骤2，对蒙古语情感音频，使用librosa对音频信号进行处理，首先，对音频信号预加重、分帧和加窗；其次，对每帧信号进行短时傅立叶变换STFT，得到短时幅度谱；最后，短时幅度谱通过梅尔滤波器组得到梅尔频谱一。

5.根据权利要求1所述基于条件生成对抗网络的蒙古语情感语音合成方法，其特征在于，所述步骤3，采用基于SpeechLM的语音文本联合预训练模型。

6.根据权利要求1所述基于条件生成对抗网络的蒙古语情感语音合成方法，其特征在于，所述步骤4，情感模块包括多层卷积网络和情感分类器；所述多层卷积网络提取音频的声学特征，所述情感分类器根据所述声学特征预测情感分类。

7.根据权利要求6所述基于条件生成对抗网络的蒙古语情感语音合成方法，其特征在于，所述多层卷积网络为六层卷积层；所述情感分类器包括一个GRU层和两个全连接层。

8.根据权利要求1或6或7所述基于条件生成对抗网络的蒙古语情感语音合成方法，其特征在于，所述步骤4，情感模块作为一个单独子网络加入FastSpeech2声学模型的编码器，用于获取不同类别情感的潜在特征信息，并将特征信息与FastSpeech2声学模型中音素编码器的输出相拼接，一同输入到FastSpeech2声学模型的方差适配器。