CN114169291B

CN114169291B - 基于卷积神经和生成对抗网络的文本转语音方法及装置

Info

Publication number: CN114169291B
Application number: CN202111431264.9A
Authority: CN
Inventors: 甘霖; 黄翔东; 吴小月
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2024-04-26
Anticipated expiration: 2041-11-29
Also published as: CN114169291A

Abstract

本发明公开了一种基于卷积神经和生成对抗网络的文本转语音方法及装置，所述方法采用CNN前端网络与GAN后端网络结合的网络结构，所述方法包括：将文本作为输入，对应语音的声学特征梅尔谱作为输出，对前端网络进行训练，使得前端网络获得从文本提取声学特征梅尔谱的能力；将训练后的前端网络生成的声学特征梅尔谱作为输入，对应的语音波形作为输出，对后端网络进行训练，使得后端网络获得将声学特征梅尔谱转化为语音波形的能力。装置包括：图形处理器GPU和存储器。本发明先使用融合了注意力机制的卷积神经网络，将输入文本转化为声学特征梅尔(Mel)谱，然后将得到的梅尔谱作为生成对抗网络中生成器的输入，合成最终的语音波形。

Description

基于卷积神经和生成对抗网络的文本转语音方法及装置

技术领域

本发明涉及自然语言处理和深度学习技术领域，尤其涉及一种基于卷积神经和生成对抗网络的文本转语音(Text-to-Speech，简记为TTS)的方法及装置，本发明先使用融合了注意力机制的卷积神经网络，将输入文本转化为声学特征梅尔(Mel)谱，然后将得到的梅尔谱作为生成对抗网络中生成器的输入，合成最终的语音波形。

背景技术

随着人工智能技术的快速发展，智能家居、智能家电、智能建筑和智能医疗等“智能+”应用为人们的生活带来了许多改变，而文本转语音是人机交互必不可少的一部分。如何高效率地从文本合成高质量的语音一直是语音领域内讨论的热点。现有的文本转语音主要有以下三种方法：传统的单元波形拼接合成方法^[1,2]和统计参数合成方法^[3,4]，以及基于深度学习的各种合成网络。

单元波形拼接方法将原始音频根据音节剪切为独立单元进行存储。简单的波形技术中合成单元一旦确定就无法对其根据上下文来调整韵律，文献[5]提出的基音同步叠加技术(Pitch Synchronous Overlap Add，简记为PSOLA)较好地解决了这个问题。虽然单元波形拼接方法合成的语音质量比较好，但是当语种变化时系统需要全部重新设计，灵活性不够。统计参数方法在训练阶段对语音的频谱、基频和时长等特征进行建模。在合成阶段，利用以上特征恢复时域的音频信号。这种方法在更换语种时比较方便，但是由于模型自身的局限性，合成的语音的质量不高。深度学习的蓬勃发展直接推动了文本转语音领域的进步，各种网络在文本转语音方面的实践层出不穷。它们很好地解决了不同语种带来的模型重构问题，同时合成的语音质量也得到了大幅的提升。

基于深度学习的文本转语音系统通常分为前端和后端两个部分。文本转语音系统的前端部分负责将文本转化为声学特征。文献[6,7,8]主要使用了循环神经网络(Recurrent Neural Network，简记为RNN)将文本从语音转化为声学特征。一个序列的当前输出不仅与当前时刻的输入有关，还与前一个时刻的输出也是相关的。最近的信息会以激励的形式存储在网络中形成记忆，神经元之间的连接为反馈连接。这符合文本转语音方法的规律：不论是文本还是语音，当前时刻的内容总是与前文相关。因此，循环神经网络常常是处理与时间相关序列的最佳选择。但是循环单元的计算代价非常大，训练时长通常需要几天甚至几周。文献[9,10,11]尝试用卷积神经网络CNN替代RNN对文本进行处理。

文本转语音系统后端部分负责将声学特征转化为语音波形。后端一般称为声码器。文献[6,11]使用了传统的声码器Griffin-Lim，通过逆短时傅里叶变换将前端网络得到的声学特征(频谱)转化为语音，这种方法虽然简单，但是合成的语音质量较差，韵律和节奏都不自然。文献[12,13,14]是基于深度学习的声码器，合成的语音质量远远优于传统方法，其中WaveNet^[13]能够合成接近人类水平的语音。但是这些声码器的循环结构和自回归结构使得模型的训练时间长并且网络不易收敛。生成对抗网络GAN(Generative AdversarialNetworks，简记为GAN)近年来在计算机视觉方面的应用愈加成熟，生成器和鉴别器之间的博弈环节使得生成器最终能合成难辨真伪的图形，这一思想与声码器的需求恰好一致，研究者们希望能够合成尽可能接近人类水平的语音。将声学特征输入生成器得到合成的语音，然后将合成的语音与真实语音一起输入鉴别器，不断训练直至鉴别器无法区分输入是真实语音还是合成语音。训练完成后，生成器即可合成高质量的语音。

参考文献

[1]Alan W,Campbell,Nick.Optimising selection of units from speechdatabases for concatenative synthesis,Eurospeech 1995.

[2]Beutnagel M,Mohri M,Riley M.Rapid Unit Selection from a LargeSpeech Corpus for Concatenative Speech Synthesis,Eurospeech 2000.

[3]Zen H,Tokuda K,Black A W.Statistical parametric speechsynthesis.Speech Communication,2009,51(11):1039-1064.

[4]Toda T,Tokuda K.A Speech Parameter Generation AlgorithmConsidering Global Variance for HMM-Based Speech Synthesis,IEICE Transactionson Information and Systems,90-D(5):816-824(2007).

[5]Eric Moulines,Francis Charpentier.Pitch-synchronous waveformprocessing techniques for text-to-speech synthesis using diphones,SpeechCommunication.1990(9):453-467.

[6]Yuxuan Wang,R.J.Skerry-Ryan,Daisy Stanton.Tacotron:Towards End-to-End Speech Synthesis,INTERSPEECH 2017:4006-4010.

[7]Shen J,Pang R,Weiss R J.Natural TTS Synthesis by ConditioningWaveNet on Mel Spectrogram Predictions,International Conference on Acoustics,Speech and Signal Processing 2018:4779-4783.

[8]Sotelo J,Mehri S,Kumar K.Char2Wav:End-to-End Speech Synthesis,ICLR(Workshop)2017.

[9]Kim Y.Convolutional Neural Networks for Sentence Classification,Convolutional Neural Networks for Sentence Classification,Empirical Methodsin Natural Language Processing 2014:1746-1751.

[10]Kalchbrenner N,Espeholt L,Simonyan K.Neural Machine Translationin Linear Time,Computing Research Repository,2016.

[11]Tachibana H,Uenoyama K,Aihara S.Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention,International Conference on Acoustics,Speech and Signal Processing 2018:4784-4788

[12]Kalchbrenner N,Elsen E,Simonyan K.Efficient Neural AudioSynthesis,International Conference on Machine Learning 2018:2415-2424.

[13]Oord A,Dieleman S,Zen H.WaveNet:A Generative Model for Raw Audio,Computing Research Repository 2016.

[14]Mehri S,Kumar K,Gulrajani I.SampleRNN:An Unconditional End-to-EndNeural Audio Generation Model,International Conference of Legal Regulators2016.

发明内容

本发明提供了一种基于卷积神经和生成对抗网络的文本转语音方法及装置，本发明先使用融合了注意力机制的卷积神经网络，将输入文本转化为声学特征梅尔(Mel)谱，然后将得到的梅尔谱作为生成对抗网络中生成器的输入，合成最终的语音波形，详见下文描述：

第一方面，一种基于卷积神经和生成对抗网络的文本转语音方法，所述方法采用CNN前端网络与GAN后端网络结合的网络结构，所述方法包括：

将文本作为输入，对应语音的声学特征梅尔谱作为输出，对前端网络进行训练，使得前端网络获得从文本提取声学特征的能力；

将训练后的前端网络生成的声学特征梅尔谱作为输入，对应的语音波形作为输出，对后端网络进行训练，使得后端网络获得将声学特征梅尔谱转化为语音波形的能力。

其中，所述CNN前端网络的整体架构包括：文本编码器、音频编码器、音频解码器及注意力机制模块，所述注意力机制通过赋予与当前时刻输入文本有关联的对应的Mel谱帧更大的权重，实现文本与语音的对齐。

进一步地，所述文本编码器、音频编码器、音频解码器均由卷积神经网络，ReLU激活函数构成。

其中，所述GAN后端网络框架由生成器和鉴别器组成；

所述生成器根据输入的Mel谱生成语音，所述鉴别器对输入的语音进行判定，若判定为生成器合成的语音则输出0，若判定为真实语音则输出1；

通过设定的损失函数不断进行博弈训练，直至鉴别器无法区分输入语音是真实的还是合成的。

进一步地，所述GAN后端网络的损失函数由Mel谱损失，GAN损失和特征匹配损失组成。

第二方面，一种基于卷积神经和生成对抗网络的文本转语音装置，所述装置包括：图形处理器GPU器和存储器，所述存储器中存储有程序指令，所述图形处理器GPU调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。

本发明提出了一种基于卷积神经网络和生成对抗网络的文本转语音方法及装置，若将其应用于实际工程领域可以产生如下的有益效果：

1、本发明所使用的文本转语音的前端网络所有层均为卷积层，卷积层没有自回归结构，没有循环单元，网络的参数数量远小于基于循环神经网络RNN的文本转语音系统，能够减小训练时长，使得训练成本降低；

2、本发明所使用的文本转语音后端网络为生成对抗网络GAN，实验表明，利用博弈论的思想可以使得生成器生成的语音越发接近真实的语音，即接近人类水平的语音；

3、本发明的网络的训练具有稳定性，当更换数据集的语种时，网络依旧可以很好地收敛，具有泛化能力。

附图说明

图1为文本转语音前端网络训练阶段示意图；

图2为文本转语音前端网络测试阶段示意图；

图3为文本转语音系统后端网络框架示意图；

图4为本发明所提出文本转语音系统的后端GAN网络的生成器结构示意图；

图5为本发明所提出文本转语音系统的后端GAN网络的鉴别器结构示意图；

图6为输入新的文本“The birch canoe slid on the smooth planks.”后，对比开源Tacotron前端加Griffin-Lim声码器、开源Tacotron2前端加WaveNet声码器，以及本发明设计的CNN前端加基于GAN的声码器这三种方法合成语音的Mel谱图；

图7为本发明所提出文本转语音系统的工作流程图。

表1为文本编码器具体层次信息；

表2为音频编码器具体层次信息；

表3为音频解码器具体层次信息；

表4为MOS评分标准；

表5为各种文本转语音系统的MOS(95％置信度)比较示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

CNN是一种前馈神经网络，前馈神经网络上一层的输出为下一层的输入，神经元之间为顺序连接，当前时刻不用存储和计算过去的信息，大大减少了计算量与训练时长。虽然最近信息的缺失会导致网络学习不到一些细节，但这可以通过声码器的选择来弥补，最终均衡整个系统的合成效果。

基于上述文本转语音领域的发展现状与存在的技术瓶颈，本发明实施例提出一种新的文本转语音方法及装置。本发明实施例以卷积神经网络为基本框架，前端融合了注意力机制，将文本转化为声学特征，相比其他基于循环神经网络的方法缩短了训练时间；后端采用GAN网络将声学特征转化为高质量的语音波形。同时本发明实施例摒弃了以往的声学特征线性频谱，采用了更符合人耳声场特征的梅尔谱。本发明实施例训练过程稳定，训练耗时较短，模型易收敛，在智能语音助手、人机交互机器人和公共自助服务设备等方面具有较大的应用价值。

实施例1

一种基于卷积神经和生成对抗网络的文本转语音方法，该方法包括以下步骤：

101：将文本作为输入，对应语音的声学特征作为输出，对前端网络进行训练，使得前端网络获得从文本提取声学特征的能力；

102：将前端网络(已完成训练)生成的声学特征作为输入，对应的语音波形作为输出，对后端网络进行训练，使得后端网络获得将声学特征转化为语音波形的能力；

该步骤即：取训练好的前端与后端模型组成文本转语音系统，将新文本作为输入，依次经过前端网络与后端网络后，得到对应的语音波形，实现文本转语音的功能。

综上所述，本发明实施例先使用融合了注意力机制的卷积神经网络，将输入文本转化为声学特征梅尔(Mel)谱，然后将得到的梅尔谱作为生成对抗网络中生成器的输入，合成最终的语音波形。

实施例2

下面结合具体的计算公式、实例对实施例1和2中的方案进行进一步地介绍，详见下文描述：

一、本发明提出的算法流程如下：

1、系统输入：文本及其对应语音的Mel谱

所用数据集为LJspeech，包含13100条来自同一人的标准美式发音语音片段，每段时长为3到10秒。

2、系统输出：语音波形

步骤1)首先计算训练数据集中每条语音的Mel谱。构建如图1所示的文本转语音的前端卷积神经网络(主要包括：文本编码器、音频编码器和音频解码器三个网络模块和注意力机制模块)，以及如图3所示的后端生成对抗卷积神经网络(包括生成器和鉴别器)。

步骤2)前端网络训练：将整个文本i馈入前端网络的文本编码器，另外，还将与该文本对应的真实语音的声学特征Mel谱S逐帧地馈入音频编码器中，经过前端网络的注意力模型将i与S作时间对齐处理后，在文本编码器与音频编码器共同作用下，产生高维中间特征R，进而将高维中间特征R馈入到音频解码器中，生成Mel谱估计Y。

其中，前端网络通过减小真实Mel谱S与Mel谱估计Y之间的L₁范数距离来调整网络参数，从而实现文本编码器、音频编码器和音频解码器三个网络的联合收敛。随着时间推移，Mel谱估计Y的宽度逐渐扩大，最终生成与训练文本i完全对应的Mel谱估计。

步骤3)前端网络测试：如图2所示，将整个测试文本馈入已训练的文本编码器网络中，在已训练生成的音频编码器和音频解码器的共同作用下，逐帧地输出声学特征Mel谱Y。为保证音频编码器有持续的Mel谱输入，刚开始测试时，设定馈入到音频编码器的第1帧为零向量，随着时间推移，将音频解码器的当前输出Mel谱帧Y与音频编码器历史输入帧进行拼接，将其拼接结果作为音频编码器的输入，使得文本编码器、音频编码器和音频解码器得以持续平稳工作。最终生成与测试文本完全对应的Mel谱估计Y。

步骤4)后端网络(声码器)训练：将前端网络生成的Mel谱估计Y馈入到后端网络的生成器，生成器不断对Mel谱估计Y进行上采样，直到输出序列的分辨率与原始语音一致。鉴别器和生成器不断进行博弈训练，直至鉴别器难以鉴别真实语音与生成器生成的语音。后端网络主要通过减小生成器合成的语音的Mel谱与真实语音的Mel谱之间的L₁范数距离，基于此实现生成器和鉴别器的网络参数收敛。

步骤5)在完成以上前、后端内部所有网络参数训练后，将前、后端网络串接起来，新文本作为整个前、后端系统的输入，直接从后端网络的生成器中输出高可理解性、高清晰度和高自然度的语音波形。

3、提取语音的声学特征梅尔谱

人的主观感知频域的划分并不是线性的，人耳在声音的低频部分具有更高的敏感度和分辨能力。因此为了获得更好的语音特性，本发明实施例摒弃常用的线性频谱声学特征，选择更符合人耳听觉特性的Mel谱作为系统所用的声学特征。Mel谱的提取流程分为以下五步。

(1)通过以下公式将实际频率转化为以梅尔(Mel)为单位的感知频率。

F_mel＝1125log(1+f/700) (1)

式中，F_mel是以梅尔(Mel)为单位的感知频率；f是以Hz为单位的实际频率。从转化公式可以看出随着实际频率的升高，对应的Mel频率之间的分辨率越来越小，这符合人耳的听觉特性：人耳对低频声音信号更敏感，频率越高人耳的分辨率越低。

(2)预处理，包括：预加重、分帧和加窗函数。

预加重：目的是为了补偿高频分量的损失，提升高频分量。预加重所用滤波器的传递函数通常设为：

H(Z)＝1-az^-1 (2)

其中，a为常数，z为离散系统复域平面的复变量。

分帧：语音信号属于准稳态信号，将其分为较短的帧，在每帧内可以看作稳态信号，且相邻两帧间有重叠部分。

加窗：加窗函数的目的是为了减少频谱泄漏，将每一帧语音乘以汉明窗或者汉宁窗。语音信号x(n)经预处理之后为x_i(m)，其中下标i表示分帧后的第i帧。

(3)快速傅里叶变换。

对每一帧信号进行FFT变换，从时域数据转变为频域数据：

(4)计算谱线能量。

对每一帧FFT后的数据计算谱线的能量：

(5)计算通过Mel滤波器组的能量。

其中，Mel滤波器组的设计可以看作在语音的频谱范围内设置若干带通滤波器：

H_m(k),0≤m≤M-1，M为滤波器的个数。每个滤波器具有三角形滤波特性，其中心频率为f(m)，在Mel频率范围内，这些滤波器是等带宽的。每个带通滤波器的传递函数为：

其中，f(m)可以用下面的方法进行定义：

式中，f_l为滤波器频率范围的最低频率；f_h为滤波器频率范围的最高频率；N为FFT时的长度；f_s为采样频率；b为以Mel为单位的感知频率，F_mel的逆函数为：

将求出的每帧谱线能量谱通过Mel滤波器，计算在该Mel滤波器中的能量，在频域中相当于把每帧的能量谱E(i,k)(其中i表示第i帧，k表示第k条谱线)与Mel滤波器的频域响应E(i,k)相乘并相加：

至此可以得到语音的Mel谱。本发明实施例中的滤波器组数M＝80。

4、文本转语音前端网络设计

文本转语音前端网络的整体架构如图1所示，主要包括：文本编码器、音频编码器和音频解码器三个网络模块以及注意力机制模块。注意力机制通过赋予与当前时刻输入文本有关联的对应的Mel谱帧更大的权重，从而实现文本与语音的对齐。

文本编码器首先将包含N个字符的输入句子L＝[l₁,...,l_N]∈Char^N编码为两个矩阵K(key)和V(value)∈R^d×N，其中d为编码字符的维数。音频编码器将长度为T的Mel谱图S编码成矩阵Q(query)∈R^d×T。

(K,V)＝TextEnc(L),Q＝AudioEnc(S) (9)

其中，AudioEnc(S)为音频编码器；TextEnc(L)为文本编码器。

注意力矩阵A∈R^N×T由下式得到：

其中，n-axis为输入的每个字符对应的维度。

当A接近于1时意味着当前时刻文本与对应语音的Mel谱对齐。矩阵M∈R^d×T用来预测下一帧Mel谱，可由下式计算得到：

M＝Att(Q,K,V)＝VA (11)

其中，Att为注意力机制，将V和A内积，可以得到每个时间步对应的文本中各字符的权重。

将M输入音频编码器可以得到预测的Mel谱。

其中，AudioDec(M)为音频解码器。

预测出来的Mel谱应该尽可能地接近真实的Mel谱。因此网络的损失函数为L₁损失：

L(Y,S)＝E[||Y-S||₁] (13)

其中，S为语音的真实Mel谱，E[·]为随机变量的统计期望，||·||₁表示一范数。

具体层次信息如表1、2、3所示。卷积层的步幅始终为1。

表1 文本编码器具体层次信息

表2 音频编码器具体层次信息

表3 音频解码器具体层次信息

5、文本转语音后端生成对抗网络设计

本发明实施例所设计的文本转语音后端网络框架如图3所示。生成对抗网络由生成器和鉴别器组成。生成器根据输入的Mel谱生成语音，鉴别器对输入的语音进行判定，若判定为生成器合成的语音则输出0，若判定为真实语音则输出1。两者通过设定的损失函数不断进行博弈训练，直至鉴别器无法区分输入语音是真实的还是合成的。此时即可取出生成器用于合成接近人类水平的语音。

生成器的具体结构如图4所示。其中MRF(Multi-Receptive Field Fusion)指的是全感知域融合模块，它返回的是若干个膨胀卷积层残差块之和，可以观察到不同输入长度的模式。通过调整隐藏维度h_u，转置卷积层的卷积核尺寸k_u，以及MRF模块中卷积层的卷积核大小与膨胀率这四个参数，使得模型在训练完成后合成的语音质量达到最佳。

在鉴别器部分，首先对输入的语音用不同的周期p进行等间距采样，将长度为T的一维原始音频重构为高度为T/p，宽度为p的二维数据。为了尽可能地避免重叠，周期设置为[2,3,5,7,11]。对转换后的数据进行二维卷积操作，每层卷积操作后都有一个Leaky ReLU激活函数。通过将音频重塑为二维数据使得鉴别器的梯度可以传递到每一个时间步，从而提高鉴别的准确率。

本发明实施例所用的生成对抗网络的损失函数主要由Mel谱损失，GAN损失和特征匹配损失这三部分组成。

1)Mel谱损失

由于Mel谱的提取过程是基于人耳声场特征的，可以大幅提升生成语音的保真度，协助对抗训练过程在初期保持稳定，有效优化训练效率问题。

L_Mel(G)＝E_(x,s)[||φ(x)-φ(G(s))||₁] (14)

其中，φ表示前面提过的从语音波形提取Mel谱的一系列函数，G(s)为生成器根据输入Mel谱生成的对应语音波形，E_(x,s)为真实语音的Mel谱与合成语音Mel谱之间一范数的统计期望，L_Mel(G)为生成对抗网络中生成器部分的Mel谱损失。

2)GAN损失

生成器G和鉴别器D在训练时的博弈过程由以下损失函数来体现：

其中，x表示真实的语音，s表示输入生成器的取自真实语音的Mel谱，E_(s)为生成器根据输入的s合成的语音经由鉴别器识别得出的结果的统计期望，L_Adv(D；G)为鉴别器的损失函数，L_Adv(G；D)为生成器的损失函数，D(x)＝1表示鉴别器正确识别出了真实语音，D(G(s))＝0表示鉴别器正确鉴别出了合成的语音，因此L_Adv(D；G)越小，证明鉴别器的鉴别能力越强；L_Adv(G；D)越小，证明生成器合成的语音越逼真。

3)特征匹配损失

特征匹配损失常作为生成器训练的附加损失函数，它分别提取真实样本和生成器合成样本在鉴别器网络每一层的特征图，计算对应特征图之间的L₁距离，来衡量两者之间的相似性。特征匹配损失的计算公式如下：

其中，T表示鉴别器的层数，Dⁱ和Nⁱ分别表示鉴别器第i层的特征和特征的数目。

综上，本发明实施例设计的文本转语音后端网络的总损失函数可以表示为：

通常λ_fm＝2，λ_mel＝45。

实施例3

下面结合具体的实验对实施例1和2中的方案进行可行性验证，详见下文描述：

本发明实施例的主要优势是网络的训练时间短与合成的语音质量高这两点。语音质量的测评采用主观MOS(Mean Opinion Score)方式。测试人员被要求按照1-5分队听到的语音进行评分(5表示最好，1表示最差)。然后取得分的平均数。具体的评分标准如表4所示。测试人员为20名来自英语专业的研究生学生。

表4 MOS评分标准

本实验所对比的文本转语音系统为Tacotron和Tacotron2。这两个系统的前端网络均基于循环神经网络RNN，可以与本发明所提出文本转语音系统前端网络形成训练时长上的对比。同时Tacotron后端为传统基于信号处理的Griffin-Lim声码器(不必经过训练)，Tacotron2的后端声码器为基于自回归结构的WaveNet，可以与本发明基于生成对抗网络GAN的声码器形成对比，最后通过生成语音的MOS得分来比较整个系统的性能。网络训练的硬件设备为Nvidia RTX 3090，框架为Pytorch。实验结果如表5所示。

表5 各种文本转语音系统的MOS(95％置信度)比较

分析表5的数据，可以有以下三点结论：(1)随着训练时间的增加，本发明设计的文本转语音系统合成语音的质量不断提升，最终达到几个对比方法中最优的性能；(2)开源系统1与开源系统2相比MOS得分提高了1分，原因在于Tacotron2使用了基于深度学习的声码器WaveNet，相比Tacotron使用的基于传统信号处理的Griffin-Lim，能够通过大量的数据恢复出更多的声音细节从而提高语音质量。对比系统3和4也可以得出相同的结论，因此深度学习是提升合成语音质量的的关键技术；(3)本发明最高的得分和Tacotron2相近，但是训练时间大大缩短。与WaveNet声码器相比，GAN网络构成的声码器鲁棒性更强，训练更稳定，对硬件的要求较低。

图6是输入新的文本后系统1、2、4合成语音的Mel谱图。可以看到与本发明的系统4相比，系统1和2合成的语音Mel谱信息缺失(黑色部分)的程度明显，这更直观地体现了本发明网络对文本分析和语音重构的优越能力。

实施例4

本发明实施例的硬件实施平台要求采用专用的图形处理器GPU，具体要求其配置显存高于24G字节、显存频率高于19500MHz(例如Nvidia RTX 3090可符合此要求)。

本发明的软件实施平台可采用通用的深度学习框架软件环境，例如Pytorch、TensorFlow、Theano、Keras均可使用。

硬件和软件配置完成后，按照如下训练完成后的应用流程即可实现文本到语音的转化图7流程分为如下几个步骤：

1)输入长度在允许范围内的文本；

2)文本转语音前端网络对文本进行计算，输出文本对应的Mel谱；

3)将前端网络预测出来的Mel谱输入后端网络的生成器中，生成对应语音。

对于图7流程生成的语音，可通过MOS(Mean of Score，平均分值)得分来比较整个系统的性能。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经和生成对抗网络的文本转语音方法，其特征在于，所述方法采用CNN前端网络与GAN后端网络结合的网络结构，所述方法包括：

将训练后的前端网络生成的声学特征梅尔谱作为输入，对应的语音波形作为输出，对后端网络进行训练，使得后端网络获得将声学特征梅尔谱转化为语音波形的能力；

所述CNN前端网络的整体架构包括：文本编码器、音频编码器、音频解码器及注意力机制模块，所述注意力机制通过赋予与当前时刻输入文本有关联的对应的Mel谱帧更大的权重，实现文本与语音的对齐；

所述文本编码器、音频编码器、音频解码器均由卷积神经网络，ReLU激活函数构成；

所述GAN后端网络框架由生成器和鉴别器组成；

通过设定的损失函数不断进行博弈训练，直至鉴别器无法区分输入语音是真实的还是合成的；

所述GAN后端网络的损失函数由Mel谱损失，GAN损失和特征匹配损失组成；

所述Mel谱损失计算公式如下：

L_Mel(G)＝E_(x，s))[||φ(x)-φ(G(s))||₁]

其中，φ表示从语音波形提取Mel谱的函数，G(s)为生成器根据输入Mel谱生成的对应语音波形，E(x，s)为真实语音的Mel谱与合成语音Mel谱之间一范数的统计期望，L_Mel(G)为生成对抗网络中生成器部分的Mel谱损失；

所述GAN损失计算公式如下：

L_Adv(D；G)＝E_(x，s)(D(x)-1)²+(D(G(s)))²]

L_Adv(G；D)＝E_(s)[(D(G(s))-1)²]

其中，x表示真实的语音，s表示输入生成器的取自真实语音的Mel谱，E(s)为生成器根据输入的s合成的语音经由鉴别器识别得出的结果的统计期望，L_Adv(D；G)为鉴别器的损失函数，L_Adv(G；D)为生成器的损失函数；

所述特征匹配损失计算公式如下：

其中，T表示鉴别器的层数，Dⁱ和N_i分别表示鉴别器第i层的特征和特征的数目；

文本转语音后端网络的总损失函数表示为：

L_G＝L_Adv(G；D)+λ_fmL_FM(G；D)+λ_melL_Mel(G)

L_D＝L_Adv(D；G)

其中，λ_fm＝2，λ_mel＝45。

2.一种基于卷积神经和生成对抗网络的文本转语音装置，其特征在于，所述装置包括：

图形处理器GPU和存储器，所述存储器中存储有程序指令，所述图形处理器GPU调用存储器中存储的程序指令以使装置执行权利要求1中所述的方法步骤。