CN110534089B

CN110534089B - 一种基于音素和韵律结构的中文语音合成方法

Info

Publication number: CN110534089B
Application number: CN201910621398.3A
Authority: CN
Inventors: 张春霞; 谢壮壮
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2022-04-22
Anticipated expiration: 2039-07-10
Also published as: CN110534089A

Abstract

本发明提供一种基于音素和韵律结构的中文语音合成方法，该方法分为训练阶段和合成阶段；根据语言学知识，从待处理文本中的韵律标注信息中提取出韵律结构特征，基于韵律结构特征训练韵律模型；对待处理文本和音频进行预处理，得到包含韵律信息的拼音序列及对应的声学特征，然后训练声学模型，将训练好的韵律模型和声学模型部署到后台；根据韵律模型获得与输入文本对应的包含其韵律信息的文本；再转换为带有韵律信息的拼音序列后输入到声学模型得到其线性频谱；将线性频谱转换为音频。可以使合成的声音更加自然，特别是对于较长的分句，也能确定出停顿位置，另外在合成阶段将模型部署到后台，省去模型加载的时间，这样可以加快语音合成的速度。

Description

一种基于音素和韵律结构的中文语音合成方法

技术领域

本发明属于人工智能领域，具体涉及一种基于音素和韵律结构的中文语音合成方法。

背景技术

语音合成又叫文语转换(Text to Speech)，简称TTS，是一项将文本转换为声音的AI技术，在人机交互中起着至关重要的作用。无论是语音助手、地图导航、娱乐教育等应用软件，还是空调、音箱、电视等硬件设备，都能看到语音合成的影子。而随着智能家居、自动驾驶、智慧医疗等与人发生交互的场景越来越多，用户对人机交互的体验也提出了全新的要求——合成的声音更自然，更像真人，这些都使得语音合成技术成为一个日益火热的研究方向。

传统的语音合成技术主要分为统计参数和波形拼接两种。统计参数合成方法利用韵律模型和声学模型得到声学参数，然后通过声码器将声学参数转换为声音。波形拼接方法根据一定的挑选规则从语音库中挑选出音节、词、短语等语音单元，然后将语音单元拼接成语音。传统的语音合成方法具有一定的局限性，统计参数合成方法的信息丢失大，合成的声音不够清晰、自然，而波形拼接合成方法需要人工介入制定出许多挑选规则，并且对语音库的依赖较强。

传统语音合成系统的缺陷促使了端到端语音合成系统的发展，研究者希望利用深度神经网络构建出端到端的语音合成系统，实现输入文本，直接输出声音，尽可能减少人工干预和对相关背景知识的要求。WaveNet(2016)是基于条件自回归的语音合成模型，但是它依赖于文本前端的语言学信息，因此不是端到端的。Char2Wav(2017)输出的仍然是声学参数，因此需要一个声码器来将声学参数转化为声音。

目前比较流行的端到端语音合成模型是基于编码器-解码器框架所建立的带有注意力机制的Seq2Seq模型。2017年Google推出的Tacotron模型是第一个真正意义上实现端到端的语音合成模型，可以实现输入文本或注音串，输出线性频谱，再经过Griffin-Lim算法将线性频谱转换为音频。2018年谷歌又推出Tacotron2模型，该模型是对Tacotron模型进行了改进，去掉了复杂的CBHG结构和GRU单元，转而用LSTM和卷积层来替代，模型输出梅尔语谱，然后通过WaveNet将梅尔语谱转换为音频。

英文方面的端到端语音合成技术已经相对成熟，但是中文方面的相关研究还相对较少，而中文语音合成技术又有着巨大的应用市场，所以我们对Tacotron2模型进行了改进，提出一种基于音素和韵律结构的中文语音合成方法。陈宏等人公开的“一种基于音素的中文语音合成系统”中所用的音素集合由23个声母、39个韵母以及声调构成，且没有考虑韵律特征，会导致合成的声音听起来机械感较强；李昊等人公开的“语音合成方法和装置”，其模型输出为声学参数，声学参数的过平滑问题以及声码器对音质的损伤会使合成的声音不够自然。

发明内容

为了解决了现有技术中存在的问题，本发明提供一种基于音素和韵律结构的中文语音合成法，用以解决合成的声音不够自然、机械感较强以及合成速度慢的问题。

为达到上述目的，本发明采用的技术方案为：一种基于音素和韵律结构的中文语音合成方法，包括训练和合成两个阶段；训练阶段包括如下步骤：

步骤1，根据语言学知识，从待处理文本中的韵律标注信息中提取出韵律结构特征，基于所述韵律结构特征训练韵律模型；

步骤2，对待处理文本和音频进行预处理，得到包含韵律信息的拼音序列及对应的声学特征；

步骤3，基于步骤2所得包含韵律信息的拼音序列和声学特征训练声学模型；

在合成阶段，包括如下步骤：

步骤4，将步骤1训练好的韵律模型和步骤3所得声学模型部署到后台；

步骤5，根据步骤4部署到后台的韵律模型获得与输入文本对应的包含其韵律信息的文本；

步骤6，将步骤5所得包含其韵律信息的文本转换为带有韵律信息的拼音序列；

步骤7，将步骤6所得带有韵律信息的拼音序列输入到步骤4部署在后台的声学模型得到其线性频谱；

步骤8，通过声码器将步骤7所得线性频谱转换为音频。

在所述步骤1中，从韵律标注中的“#1”、“#2”、“#3”和“#4”四个停顿等级提取出词边界、短语边界以及语调短语边界三个韵律结构特征，以文本为输入，以词边界、短语边界及语调短语边界为输出，训练一个基于Encoder-Decoder框架所构建的Seq2Seq模型，模型组件包括Word Embedding、BiLSTM、LSTM、attention以及FC(Fully Connected)。

步骤1中，将待处理文本中的每个句子处理成样本和标签的形式，所述样本为不包含韵律标注信息的中文字符串；所述标签包含三组：韵律词边界、韵律短语边界以及韵律语调短语边界，每组标签的长度与样本的长度相同，每组标签中的每个元素为N或者B，N代表该位置不是边界，B代表该位置是边界；基于所述样本和标签训练韵律模型。

在所述步骤2中，从待处理文本中提取包含韵律信息的拼音序列，利用MFCC中的分帧、加窗、预加重、短时傅里叶变换以及梅尔滤波器技术对音频进行预处理得到线性频谱和梅尔语谱两个声学特征。

在所述步骤3中，以包含韵律信息的拼音序列为输入，以线性频谱和梅尔语谱为输出，基于Encoder-Decoder框架训练一个带有注意力机制的Seq2Seq模型，模型组件包括Character Embedding、CNN、BiLSTM、LSTM、attention、FC以及CBHG模块；其中，Encoder包括Character Embedding、CNN以及BiLSTM；Decoder包括LSTM、attention以及FC；CBHG模块包括2层卷积网、1层池化层、4层高速公路网络和一层GRU单元构成的双向RNN。

在所述步骤4中，利用Docker和TensorFlow Serving实现韵律模型和声学模型的后台部署。

在所述步骤5中，通过IP端口访问经步骤4部署在后台的韵律模型，得到输入文本的“#1”、“#2”#3和“#4”四个停顿等级的韵律标注信息。

在所述步骤6中，对拼音转换工具进行扩展，将转换错误的拼音添加到拼音字典，并补充数字转拼音模块，利用拼音转换工具将带韵律信息的文本转换为带韵律信息的拼音序列。

步骤7中，通过IP端口访问经步骤4部署在后台的声学模型，输入包含韵律信息的拼音序列，得到所述拼音序列对应的线性频谱。

在所述步骤8中，以Griffin-Lim算法作为声码器，即迭代地进行短时傅里叶变换和短时傅里叶逆变换，恢复出语音信号的相位信息，从而实现将线性频谱转换为音频。

与现有技术相比，本发明至少具有以下有益效果，本发明提供的一种基于音素和韵律结构的中文语音合成方法，由于在文本前端引入预训练的韵律模型，所以后端声学模型的输入不仅仅包括拼音，还包括韵律标注信息，可以使得合成的声音更加自然，更像真人；本发明所提供的中文语音合成方法，在声音音质和合成效率方面都有一定改善；相对于采用声母和韵母粒度的音素，本发明所述音素集合由26个拼音字母和五个声调组成，所需音素集简单。

进一步的，在合成阶段，将训练好的韵律模型和声学模型都部署在后台，通过IP端口进行访问，省去模型加载的时间，所以在一定程度上提高了合成的速度。

附图说明

图1为本发明提供的语音合成方法示例性实施例的流程图；

图2为本发明提供的语音合成方法示例性实施例的韵律模型的示意图；

图3为本发明提供的语音合成方法示例性实施例的声学模型的示意图。

具体实施方式

下面将结合附图对示例性实施例进行详细说明：

如图1所示，基于音素和韵律结构的中文语音合成方法分为训练阶段和合成阶段。在训练阶段，步骤如下：

步骤1，从待处理文本的韵律标注信息中提取韵律结构特征

韵律标注信息包含“#1”、“#2”、“#3”、“#4”四个停顿等级，其停顿程度依次增大，韵律结构分为韵律词(PW)、韵律短语(PPH)、语调短语(IPH)三个层级，三者具有一定的包含关系，韵律词边界包含韵律短语边界，韵律短语边界包含韵律语调短语边界，句子中出现任何一个停顿的位置为韵律词边界，句子中出现“#2”、“#3”或“#4”的位置为韵律短语边界，句子中出现“#3”或“#4”的位置为韵律语调短语边界；将待处理文本中的每个句子处理成样本和标签的形式，所述样本为不包含韵律标注信息的中文字符串；所述标签包含三组：韵律词边界、韵律短语边界以及韵律语调短语边界，每组标签的长度与样本的长度相同，每组标签中的每个元素为N或者B，N代表该位置不是边界，B代表该位置是边界。

构建词表和处理变长句子：

对所述样本中的字去创建词表，所述词表中词的ID从1开始编号；对标所述签创建词表，词表中仅有N和B两个词，编号分别为1和2，通过查找词表分别将样本和标签转换为数值序列，以每个batch中的最长序列为标准，分别对样本和标签用数值0来补齐。

基于所述样本和标签，训练韵律模型：

如图2所示，每个batch的样本经过Word Embedding将每个字的编码ID转化为对应的词向量，该Word Embedding矩阵的行数为样本词表中字的个数加1；将词向量输入双向LSTM中，进行编码，得到输入样本比较鲁棒的隐状态表示；以双向LSTM最后时刻的隐状态作为Decoder的初始状态进行循环解码，每次解码先通过注意力机制计算一个语义向量，然后将所述语义向量与双向LSTM在该时刻的输出拼接起来一起输入到LSTM中；LSTM的输出经过reshape后输入到一个全连接层，该全连接层的单元个数为3，以全连接层的输出和词边界的交叉熵作为韵律词的损失函数；全连接层的输出与Word Embedding的输出拼接起来一起输入到双向LSTM中来预测韵律短语边界，以全连接层的输出和韵律短语标签的交叉熵作为韵律短语的损失函数；全连接层的输出与Word Embedding的输出拼接起来一起输入到双向LSTM中来预测语调短语边界，以全连接层的输出和语调短语标签的交叉熵作为语调短语的损失函数；韵律词的损失函数、韵律短语的损失函数、语调短语的损失函数之和为韵律模型的总损失函数；利用反向传播算法对所述总损失函数进行优化，得到训练好的韵律模型。

步骤2，从待处理文本中提取包含韵律标注信息的拼音序列及对应的声学特征

待处理文本中已经包含中文和对应的拼音，中文中具有“#1”、“#2”、“#3”、“#4”的韵律标注信息，将韵律标注信息添加到拼音中的对应位置，并且“#1”、“#2”、“#3”、“#4”分别用“①”、“②”、“③”，“④”表示，例如对于待处理文本中这样一句话：

中文#1语音#1合成#2系统#3

zhong1wen2yu3yin1he2cheng2xi4tong3

从中提取到包含韵律标注信息的拼音序列为：

zhong1wen2①yu3yin1①he2cheng2②xi4tong3③

音频读入计算机后为离散数字信号，对所述离散数字信号进行分帧、加窗、预加重以及短时傅里叶变换得到线性频谱，然后再利用梅尔滤波器组将频率标度转换为梅尔标度，并且对信息进行过滤，得到梅尔语谱；所述线性频谱和所述梅尔语谱即为音频预处理获得的声学特征。

步骤3，基于步骤2所得包含韵律信息的拼音序列和声学特征，训练声学模型。

如图3所示，拼音序列通过查找词表获得数值序列，然后输入到CharacterEmbedding层，实现将每个字母、数字、韵律符号和标点符号转化为对应的词向量，后接3层卷积网，将卷积网的输出输入到一层双向LSTM，得到拼音序列的隐状态表示；在解码过程中，上一步的解码结果作为输入经过2层全连接组成的Pre-Net模块，然后与注意力机制计算的语义向量拼接起来一起输入到2层LSTM中进行解码，解码得到的序列经过线性投影得到Stop Token序列和声学特征序列，其中Stop Token序列中的每个元素代表该元素对应位置是否为句子终点；

声学特征序列经过5层卷积网组成的Post-Net模块和残差连接，得到梅尔语谱；将所述梅尔语谱输入到CBHG模块获得线性频谱，其中CBHG模块由2层卷积网、1层池化层、4层高速公路网络和一层GRU单元构成的双向RNN组成；

声学模型的损失函数包括四部分：输出Stop Token序列与真实Stop Token序列的交叉熵、线性投影得到的声学特征序列与真实梅尔语谱的均方误差、输出梅尔语谱与真实梅尔语谱的均方误差、输出线性频谱与真实线性频谱的均方误差；利用反向传播算法对所述声学模型的损失函数进行优化，得到训练好的声学模型。

在合成阶段，步骤如下：

步骤4，部署模型

利用Docker和TensorFlow Serving将步骤1训练好的韵律模型和步骤3训练好的声学模型部署到后台。

在Docker中拉取TensorFlow Serving镜像，获得TensorFlow Serving环境。将训练好的韵律模型和声学模型分别保存成TensorFlow Serving支持的模型格式，在Docker中开启一个容器，并且利用TensorFlow Serving镜像将两个模型都挂载在该容器。

步骤5通过访问韵律模型获得与输入文本对应的包含其韵律信息的文本

利用IP端口如“http://localhost:8501/v1/models/ProsodyModel:predict”访问韵律模型，获得输入文本如“中文语音合成系统”包含韵律的文本：“中文#1语音#1合成#2系统#3”。

步骤6，将包含其韵律信息的文本转换为包含韵律信息的拼音序列。

对拼音转换工具pypinyin进行扩展，将转换错误的拼音添加到拼音字典，补充数字转换模块，然后利用pypinyin将包含韵律信息的文本如“中文#1语音#1合成#2系统#3”转换为包含韵律信息的拼音序列如“zhong1wen2①yu3yin1①he2cheng2②xi4tong3③”。

步骤7，将步骤6所得包含韵律信息的拼音序列输入到步骤3所得声学模型得到其线性频谱

利用IP端口如“http://localhost:8501/v1/models/AcousticModel:predict”访问声学模型，输入包含韵律信息的拼音序列，得到对应的线性频谱，输出线性频谱能较大程度减少信息的损失。

步骤8，通过声码器将步骤7所得线性频谱转换为音频

利用Griffin-Lim算法作为声码器，迭代地进行短时傅里叶变换和短时傅里叶逆变换，恢复出相位信息，实现从线性频谱转换为音频并输出。

最后应说明的是：以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进和应用，都属于本发明的保护范围。

Claims

1.一种基于音素和韵律结构的中文语音合成方法，其特征在于，包括训练和合成两个阶段；训练阶段包括如下步骤：

在合成阶段，包括如下步骤：

步骤8，通过声码器将步骤7所得线性频谱转换为音频；在所述步骤1中，从韵律标注中的“#1”、“#2”、“#3”和“#4”四个停顿等级提取出韵律词边界、韵律短语边界以及韵律语调短语边界三个韵律结构特征，以文本为输入，以韵律词边界、韵律短语边界及韵律语调短语边界为输出，训练一个基于Encoder-Decoder框架所构建的Seq2Seq模型，模型组件包括WordEmbedding、BiLSTM、LSTM、attention以及FC；

将待处理文本中的每个句子处理成样本和标签的形式，所述样本为不包含韵律标注信息的中文字符串；所述标签包含三组：韵律词边界、韵律短语边界以及韵律语调短语边界，每组标签的长度与样本的长度相同，每组标签中的每个元素为N或者B，N代表该位置不是边界，B代表该位置是边界，即得到韵律结构特征；

对所述样本中的字去创建词表，所述词表中词的ID从1开始编号；对所述标签创建词表，词表中仅有N和B两个词，编号分别为1和2，通过查找词表分别将样本和标签转换为数值序列，以每个batch中的最长序列为标准，分别对样本和标签用数值0来补齐；

每个batch的样本经过Word Embedding 将每个字的编码ID转化为对应的词向量，该Word Embedding 矩阵的行数为样本词表中字的个数加1；将词向量输入双向LSTM中，进行编码，得到输入样本比较鲁棒的隐状态表示；以双向LSTM最后时刻的隐状态作为Decoder的初始状态进行循环解码，每次解码先通过注意力机制计算一个语义向量，然后将所述语义向量与双向LSTM在该时刻的输出拼接起来一起输入到LSTM中；LSTM的输出经过reshape后输入到一个全连接层，该全连接层的单元个数为3，以全连接层的输出和韵律词边界的交叉熵作为韵律词的损失函数；全连接层的输出与Word Embedding的输出拼接起来一起输入到双向LSTM中来预测韵律短语边界，以全连接层的输出和韵律短语标签的交叉熵作为韵律短语的损失函数；全连接层的输出与Word Embedding的输出拼接起来一起输入到双向LSTM中来预测韵律语调短语边界，以全连接层的输出和语调短语标签的交叉熵作为韵律语调短语的损失函数；韵律词的损失函数、韵律短语的损失函数、韵律语调短语的损失函数之和为韵律模型的总损失函数；利用反向传播算法对所述总损失函数进行优化，得到训练好的韵律模型；

在所述步骤3中，以包含韵律信息的拼音序列为输入，以线性频谱和梅尔语谱为输出，基于Encoder-Decoder框架训练一个带有注意力机制的Seq2Seq模型，模型组件包括Character Embedding、CNN、BiLSTM、LSTM、attention、FC以及CBHG模块；其中，Encoder包括Character Embedding、CNN以及BiLSTM；Decoder包括LSTM、attention以及FC；CBHG模块包括2层卷积网、1层池化层、4层高速公路网络和一层GRU单元构成的双向RNN；

拼音序列对应的数值序列输入到Character Embedding层，将每个字母、数字、韵律符号和标点符号转化为对应的词向量，后接3层卷积网，将卷积网的输出输入到一层双向LSTM，得到拼音序列的隐状态表示；在解码过程中，上一步的解码结果作为输入经过2层全连接组成的Pre-Net模块，然后与注意力机制计算的语义向量拼接起来一起输入到2层LSTM中进行解码，解码得到的序列经过线性投影得到Stop Token序列和声学特征序列，其中Stop Token序列中的每个元素代表该元素对应位置是否为句子终点；

2.根据权利要求1所述的基于音素和韵律结构的中文语音合成方法，其特征在于，在所述步骤2中，从待处理文本中提取包含韵律信息的拼音序列，利用MFCC中的分帧、加窗、预加重、短时傅里叶变换以及梅尔滤波器技术对音频进行预处理得到线性频谱和梅尔语谱两个声学特征。

3.根据权利要求1所述的基于音素和韵律结构的中文语音合成方法，其特征在于，在所述步骤4中，利用Docker和TensorFlow Serving实现韵律模型和声学模型的后台部署。

4.根据权利要求1所述的基于音素和韵律结构的中文语音合成方法，其特征在于，在所述步骤5中，通过IP端口访问经步骤4部署在后台的韵律模型，得到输入文本的“#1”、“#2”#3和“#4”四个停顿等级的韵律标注信息。

5.根据权利要求1所述的基于音素和韵律结构的中文语音合成方法，其特征在于，在所述步骤6中，对拼音转换工具进行扩展，将转换错误的拼音添加到拼音字典，并补充数字转拼音模块，利用拼音转换工具将带韵律信息的文本转换为带韵律信息的拼音序列。

6.根据权利要求1所述的基于音素和韵律结构的中文语音合成方法，其特征在于，步骤7中，通过IP端口访问经步骤4部署在后台的声学模型，输入包含韵律信息的拼音序列，得到所述拼音序列对应的线性频谱。

7.根据权利要求1所述的基于音素和韵律结构的中文语音合成方法，其特征在于，在所述步骤8中，以Griffin-Lim算法作为声码器，即迭代地进行短时傅里叶变换和短时傅里叶逆变换，恢复出语音信号的相位信息，从而实现将线性频谱转换为音频。