CN109979429A

CN109979429A - 一种tts的方法及系统

Info

Publication number: CN109979429A
Application number: CN201910456474.XA
Authority: CN
Inventors: 司马华鹏; 毛志强
Original assignee: Nanjing Silicon Base Intelligent Technology Co Ltd
Current assignee: Nanjing Silicon Base Intelligent Technology Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-07-05

Abstract

本发明公开了一种TTS的方法，解决了合成音频拟人声性较差的问题，其技术方案要点是采用tacotron模型将文本信息预处理后进行编码，产生中间状态，利用前馈注意力机制将编码产生的中间状态结合到一起，前馈注意力机制可以捕捉长序列相依过程，使得输出音频更自然，且前馈注意力机制对长句子拟合比较好，没有尾部弱化现象，比其他的注意力机制要稳定。经解码器产生的梅尔频谱输入到声码器wavenet，经过wavenet网络或者并行wavenet网络的作用最终将梅尔频谱还原为音频输出。使用此模型来实现TTS可以使音频合成更像真人。

Description

一种TTS的方法及系统

技术领域

本公开涉及人工智能领域，尤其涉及一种TTS的方法及系统。

背景技术

语音合成（Text to Speech），简称TTS技术，涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术，是中文信息处理领域的一项前沿技术。TTS就是一个将文本转化为语音输出的过程，这个过程的工作主要是将输入的文本按字或词分解为特征向量，并且对文本中的数字、货币单位、单词变形以及标点等要特殊处理的符号进行分析，以及将特征向量生成数字转化为音频特征，最终用声码器将音频特征还原为音频文件的过程。

端到端TTS技术中一般都会用编码器-解码器结构，近年来大多采用编码器-注意力机制-解码器结构使得合成更有韵律感，因此找到一种适合的注意力机制可以大大提高音频的自然度，但是让音频更清晰，就要结合好的声码器来还原音频，使得合成音频更像真人。

发明内容

本公开的目的是改进TTS过程中的注意力机制，并结合声码器新的训练方法，提出的一种新的TTS的方法。为解决上述技术问题，本公开提供了以下技术方案：

一种TTS的方法，包括：

提取文本信息，对所述文本信息预处理后输入到tacotron模型；

所述tacotron模型将预处理后的文本信息映射为梅尔频谱的序列并输出；

所述序列输入到wavenet声码器；

所述声码器对所述序列进行特征建模，并生成对应的音频；

作为具体实施例地，所述tacotron模型为频谱预测网络，包括编码器，解码器和注意力机制，所述注意力机制为前馈注意力机制，所述前馈注意力机制可以捕捉长序列相依过程，使得输出音频更自然，且前馈注意力机制对长句子拟合比较好，没有尾部弱化现象，比其他的注意力机制要稳定。

作为具体实施例地，所述编码器和解码器通过使用双向长短时记忆神经网络和卷积网络连接。

作为具体实施例地，所述wavenet声码器为wavenet模型，所述wavenet模型使用带洞卷积算法。

进一步地，所述wavenet模型为并行化模型，包括wavenet和并行wavenet，所述wavenet和并行wavenet都包含wavenet块，所述并行wavenet包含的wavenet块的数量至少为所述wavenet的两倍。带洞卷积堆积组成wavenet块，再由wavenet块堆积组成wavenet网络。将wavenet网络进行并行化，使得可以实时生成。

进一步地，所述wavenet包括两个wavenet块，所述并行wavenet包六个wavenet块。

进一步地，所述wavenet为教师网络，所述并行wavenet为所述wavenet的学生网络。

进一步地，所述并行wavenet采用IAF即可逆自回归流进行学习，所述IAF与wavenet模型的wavenet块层数相同。

进一步地，所述并行wavenet学习的损失函数为能量谱损失函数，所述能量谱损失函数与教师网络的互信息熵结合训练所述并行wavenet，使并行wavenet与教师网络达到相似的效果，但是并行wavenet可以实时生成音频。

一种TTS的系统，其特征在于，包括tacotron模型和wavenet声码器，所述tacotron模型包括编码器、解码器和注意力机制，所述注意力机制为前馈注意力机制。

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述任一项所述的方法。

综上，本公开的有益效果在于：采用tacotron模型将文本信息预处理后进行编码，产生中间状态，利用前馈注意力机制将编码产生的中间状态结合到一起，前馈注意力机制可以捕捉长序列相依过程，使得输出音频更自然，且前馈注意力机制对长句子拟合比较好，没有尾部弱化现象，比其他的注意力机制要稳定。经编码器产生的梅尔频谱输入到声码器wavenet，经过wavenet网络和并行wavenet网络的作用最终将梅尔频谱还原为音频输出。使用此模型来实现TTS可以使音频合成更像真人。

附图说明

图1是tacotron模型结构示意图；

图2是本公开的工作流程图。

具体实施方式

以下将结合附图说明本公开的具体实施例。

如图1所示，首先对文本信息进行预处理，预处理完成后将其输入到tacotron模型，tacotron模型实现文字特征到梅尔频谱的转化，将梅尔频谱序列输入到声码器，通过声码器提取特征并输出音频。

根据实际应用场景，对于输入到tacotron模型的文本信息需要进行预处理，预处理主要包含以下几个方面：第一是文本正则化，在真实使用过程中，送入TTS系统的文本信息中包含大量的非标准词，如阿拉伯数字、英文字符及各种符号等，文本正则化就是将这些非汉字字符转换成对应的汉字。非标准词常常很重要，如日期、价格、电话号码、车牌号码、人名和机构名称等，不同的非标准词在不同的上下文中对应着不同的标准词，本公开对于常见的非标准词进行了正则化。

第二是多音字消歧，本公开通过搜集整理大量文本，建立多音字字典，用于多音字的消除。

第三是韵律预测，针对汉语发音的特点，针对TTS发音平滑、感情不明显的问题，通过建立韵律预测模型，预测语调短语、韵律短语、韵律词和词典词，从而自动判断合成停顿，使得合成效果更加自然。

tacotron模型将预处理后的文本信息映射为梅尔频谱的序列并输出，tacotron模型为频谱预测网络，包括编码器、解码器和前馈注意力机制。

tacotron模型的构成如图1，编码器包括“输入文本”、“词嵌入”、“3层卷积层”和“双向长短时记忆层”这四个模块，解码器包括“2层长短时记忆层”、“线性映射层”、“停止位标志”、“2层前处理层”、“5层后处理卷积层”和“梅尔频谱序列”共6个模块。一般可以将“输入文本”和“词嵌入”这两个模块合并到编码器，或者编码器仅包括“3层卷积层”和“双向长短时记忆层”这两个模块。

具体工作原理如下，输入文本，将文本转为音素，然后对音素进行编码，采用词嵌入技术将音素嵌入到高维空间，利用编码器进行编码为中间状态，然后初始化零向量，通过全连接层进行变换，然后通过长短期记忆网络即双向长短时记忆层，利用前馈注意力机制将编码器产生的中间状态结合在一起，产生固定一帧梅尔频谱，将这帧梅尔频谱送入解码器的开始位置，与此同时产生下一帧梅尔频谱,期间停止网络根据停止标志位判断是否停止循环，然后将产生的梅尔频谱全部拼接为完整梅尔频谱，再经过卷积处理，得到最终的梅尔频谱，然后输入到wavenet声码器，将梅尔频谱还原为音频输出。

文本信息预处理输入到tacotron模型后，通过解码器和编码器的作用，文本信息的文字特征转换成梅尔频谱序列，将此梅尔频谱序列输入到声码器中，由声码器转换成音频输出，工作流程如图2所示。声码器使用wavenet模型，由于声音文件是时间上的一维数组，16KHz采样率的文件，每秒钟就会有16000个采样点，而常用的因果卷积的感受野非常小，即使堆叠很多层也只能使用到很少的数据来生成下一时刻的元素，所以为了扩大卷积的感受野，wavenet模型使用带洞卷积算法，大大增加感受野，使得可以尽可能的利用前面的样本点。

同时，虽然wavenet的带洞卷积算法可以实现快速、并行的训练，但是合成是自回归的，要等前面的样本生成完成，才能生成当前样本点，总体速度比较慢。因而本公开在使用wavenet模型来训练其替代版本并行化wavenet，此网络利用IAF技术，可以消除对历史样本点的依赖性，可以直接由白噪声来生成。具体过程如下：wavenet网络作为教学网络，并行wavenet网络作为学习网络，首先产生高斯白噪声，并行wavenet将白噪声转化为音频，而教师wavenet负责教学生网络来达到自己的水平。

IAF即可逆自回归流，每个IAF流和wavenet模型的wavenet块层数相同，wavenet包含2个wavenet块，并行wavenet包含6个wavenet块。

实际操作中，可以设定wavenet模型内的扩张系数分别为[1，2，4，8，16，32，64，128，256，512]，每个称为wavenet块，每个wavenet块中输入梅尔频谱序列作为条件，wavenet网络包含两个wavenet 块，利用单个高斯损失函数建模，使得训练过程简单，在wavenet模型训练过程中，采用6个IAF流堆起来，每个IAF流和wavenet块一样包含10层，那么每层都可以作为输出，因此，将每层的输出和真实音频通过能量谱损失函数计算能量损失是可行的，此外，可将IAF流第三层和第六层的输出分别与wavenet教师网络的输出计算互信息熵，使得训练稳定，且收敛迅速，效果也基本达到教师wavenet网络。

以上为本公开示范性实施例之一，本公开的保护范围由权利要求书及其等效物限定。

Claims

1.一种TTS的方法，其特征在于，包括：

所述序列输入到wavenet声码器；

所述wavenet声码器对所述序列进行特征建模，并生成对应的音频；

所述tacotron模型为频谱预测网络，包括编码器、解码器和注意力机制，所述注意力机制为前馈注意力机制。

2.如权利要求1所述的TTS的方法，其特征在于，所述编码器和解码器通过使用双向长短时记忆神经网络和卷积网络连接。

3.如权利要求1所述的TTS的方法，其特征在于，所述wavenet声码器为wavenet模型，所述wavenet模型使用带洞卷积算法。

4.如权利要求3所述的TTS的方法，其特征在于，所述wavenet模型为并行化模型，包括wavenet和并行wavenet，所述wavenet和并行wavenet都包含wavenet块，且所述并行wavenet包含的wavenet块的数量至少为所述wavenet的两倍。

5.如权利要求4所述的TTS的方法，其特征在于，所述wavenet包含两个wavenet块，所述并行wavenet包含六个wavenet块。

6.如权利要求5所述的TTS的方法，其特征在于，所述wavenet为教师网络，所述并行wavenet为所述wavenet的学生网络。

7.如权利要求6所述的TTS的方法，其特征在于，所述并行wavenet采用IAF即可逆自回归流进行学习，所述IAF与wavenet模型的wavenet块层数相同。

8.如权利要求7所述的TTS的方法，其特征在于，所述并行wavenet学习的损失函数为能量谱损失函数，所述能量谱损失函数与所述教师网络的互信息熵结合训练所述并行wavenet。

9.一种TTS的系统，其特征在于，包括tacotron模型和wavenet声码器，所述tacotron模型包括编码器、解码器和注意力机制，所述注意力机制为前馈注意力机制。

10.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一项所述的方法。