CN110459201A

CN110459201A - 一种产生新音色的语音合成方法

Info

Publication number: CN110459201A
Application number: CN201910780718.XA
Authority: CN
Inventors: 孙见青
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2019-11-15
Anticipated expiration: 2039-08-22
Also published as: CN110459201B

Abstract

本发明公开了一种产生新音色的语音合成方法，包括：利用多个音库数据对深度神经网络进行训练，形成第一合成模型；利用多个音库数据分别训练第一合成模型，形成与多个音库数据对应的多个第二合成模型；利用第一合成模型推理出第一输出参数；利用多个第二合成模型推理出与第二合成模型对应的多个第二输出参数，形成第二输出参数组；对第二输出参数组进行加权叠加形成声学参数；利用声码器重构声学参数形成合成语音。本发明提出的方法，能在不制作新音库的情况下实现新音色语音的合成，可根据现有发音人音库数据对应的合成模型对合成语音音色进行灵活调制，并且合成效率没有很明显变化，避免了制作新的发音人音库工序复杂，周期长和费用高的问题。

Description

一种产生新音色的语音合成方法

技术领域

本发明涉及语音合成领域，特别涉及一种产生新音色的语音合成方法。

背景技术

语音合成，又称文语转换(Text to Speech)技术，指的是将任意文字信息实时转化为标准流畅的语音朗读出来。涉及声学、语言学、数字信号处理以及计算机科学等多个学科技术，解决的主要问题就是如何将文字信息转化为可听的声音信息。

随着语音合成技术的发展，用户对合成语音音色的多样化和差异化要求越来越高，现有产生新音色的方法一般是通过定制一个新的发音人音库来得到新的音色。但定制新的发音人音库工序较为复杂，存在周期长、费用高的问题。

发明内容

本发明提供了一种产生新音色的语音合成方法，用以解决定制新的发音人音库工序较为复杂，存在周期长、费用高的问题。

本发明提供的一种产生新音色的语音合成方法，包括：

利用多个音库数据对深度神经网络进行训练，形成第一合成模型；

利用所述多个音库数据分别训练所述第一合成模型，形成与所述多个音库数据对应的多个第二合成模型；

利用所述第一合成模型推理出第一输出参数；

利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数，形成第二输出参数组；

对所述第二输出参数组进行加权叠加形成声学参数；

利用声码器重构所述声学参数形成合成语音。

在本发明的一个实施例中，所述音库数据包括：声学特征，以及，与所述声学特征对应的文本信息；

其中，所述声学特征包括频谱、能量、基频和时长；

所述文本信息包括音素信息和韵律信息。

在本发明的一个实施例中，利用多个音库数据对深度神经网络进行训练，包括：

对多个音库数据中的文本信息进行编码，形成1116维二值数字作为深度神经网络的第一输入数据；

对多个音库数据中的声学特征进行建模，形成一个133维二值数字和一个1维二值数字作为深度神经网络的第一输出数据；

利用所述第一输入数据和所述第一输出数据对所述深度神经网络进行训练。

在本发明的一个实施例中，对多个音库数据中的文本信息进行编码，包括：

获取文本信息中的音素信息和韵律信息，对所述音素信息和所述韵律信息进行0/1编码，得到1114维二值数字；

加入当前帧在当前音素中的相对位置信息，包括前向位置信息和后向位置信息，得到2维二值数字；

将所述1114维二值数字和所述2维二值数字叠加形成1116维二值数字。

在本发明的一个实施例中，对多个音库数据中的声学特征进行建模，包括：

对声学特征中的频谱、能量和基频进行建模，其中频谱40维、能量1维、基频1维、基频清浊标记1维，对基频进行考虑前面4帧和后面4帧的帧扩展，对频谱和能量考虑一阶差分信息和二阶差分信息，得到133维二值数字；

对声学特征中的时长进行建模，得到1维二值数字。

在本发明的一个实施例中，利用所述第一输入数据和所述第一输出数据训练深度神经网络，包括：

利用深度神经网络构建回归模型，其中，所述深度神经网络的隐层使用sigmoid激励函数，所述深度神经网络的输出层使用linear激励函数；

随机初始化所述深度神经网络的网络参数；

基于MMSE准则利用所述第一输入数据和所述第一输出数据对所述深度神经网络模型进行训练，训练的表达式为：

L(y，z)＝‖y-z‖^2

其中，y是自然的目标参数，z是深度神经网络模型预测的参数，训练的目标是更新深度神经网络，使得L(y，z)最小。

在本发明的一个实施例中，利用所述多个音库数据分别训练所述第一合成模型，包括：

对每个音库数据中的文本信息进行编码，形成1116维二值数字作为第一合成模型的第二输入数据；

对每个音库数据中的声学特征进行建模，形成一个133维二值数字和一个1维二值数字作为第一合成模型的第二输出数据；

利用所述第二输入数据和所述第二输出数据对所述第一合成模型进行训练。

在本发明的一个实施例中，所述第一输出参数的表达式为：

h＝g(W^Tx+b)

其中，h表示第一输出参数，g表示该层的激活函数，W和b表示该层的网络参数，x是前一层的输出，如果x是第一层，则对应输入参数。

在本发明的一个实施例中，所述第二输出参数组的表达式为：

y_i＝W^Th+b

其中，y_i表示第二输出参数组，h表示第一输出参数，W和b表示第二合成模型最后一层的网络参数。

在本发明的一个实施例中，所述声学参数的表达式为：

其中，表示声学参数，a_i表示叠加权重，y_i表示第二输出参数。

本发明的一些有益效果可以包括：

本发明提供的一种产生新音色的语音合成方法，能在不制作新的发音人音库的情况下实现新音色语音的合成，可根据现有发音人音库数据对应的合成模型对合成语音音色进行灵活调制，并且合成效率没有很明显变化，避免了制作新的发音人音库工序复杂，周期长和费用高的问题。

本发明的其它特征和优点将在随说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种产生新音色的语音合成方法的流程图；

图2为本发明实施例中一种产生新音色的语音合成方法中深度神经网络的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明实施例中一种产生新音色的语音合成方法的流程图。如图1所示，本发明提供的一种产生新音色的语音合成方法，包括：

S101、利用多个音库数据对深度神经网络进行训练，形成第一合成模型；

具体地，为了解决现有产生新音色的语音合成方法存在的缺陷，本实施例首先选择现有的多个发音人录制音库数据，在训练模型时，将这些发音人音库数据混合在一起训练基于深度神经网络(Deep Neural Network，简称DNN)的合成模型，输入文本信息，输出为声学特征，得到的第一合成模型记为M_s。

采用多个发音人训练，会将单个发音人的缺点模糊掉，最终训练出的模型趋向于一种多发音人平均的方向，从而得到一个较稳定的模型。其次，每个发音人都有其各自的特点，通过混合训练，可将不同的优势特征组合。第三，真实发音人在参数特征达不到最优，采用多个发音人训练可使语音合成效果得到明显优化。

S102、利用所述多个音库数据分别训练所述第一合成模型，形成与所述多个音库数据对应的多个第二合成模型；

具体地，在得到第一合成模型M_s后，利用上述多个音库数据再分别对第一合成模型M_s进行训练，训练的规则是保证第一合成模型M_s的其他层权重参数不变，仅更新其最后一层权重参数，形成与所述多个音库数据对应的多个第二合成模型，记为M_t_i，i＝1,…,N。

深度神经网络的最后一层往往是全连接层+Softmax(分类网络)，通常情况下，将深度神经网络最后一个全连接层的输入，视为深度神经网络从输入数据提取到的特征，具体到本实施例中即为从文本信息中提取的声学特征，经过全连接层，可以获得n个类别的分数，为了得到属于每个类别的概率，先将分数进行映射，然后再归一化到(0,1)，便得到了每个类别的概率。

S103、利用所述第一合成模型推理出第一输出参数；

具体地，在推理时，通过除去最后一层的第一合成模型M_s进行推理，输入文本信息，得到第一合成模型的倒数第二层的输出参数，将该参数定义为第一输出参数。

S104、利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数，形成第二输出参数组；

具体地，再从多个第二合成模型M_t_i中选取数量不超过第二合成模型数量总数的若干第二合成模型，将上述第一输出参数作为输入，利用

S105、对所述第二输出参数组进行加权叠加形成声学参数；

S106、利用声码器重构所述声学参数形成合成语音。

具体地，在获取了第二输出参数组后，对第二输出参数组进行加权叠加，形成对应的声学参数，通过上述得到的声学参数，如时长和基频/频谱参数，对于得到的基频/频谱参数，利用声码器重构所述声学参数形成合成语音。从而实现新音色语音的合成。

按照语音理论，在合成语音时，根据待合成的文本信息和参数库，规划出相应的合成参数，然后送入语音合成器合成，最终将语音波形生成出来。

在一个具体的实施方式中，所述音库数据包括：发音人语音的声学特征，以及，与所述声学特征对应的文本信息；

其中，所述声学特征包括频谱、能量、基频和时长；

所述文本信息包括音素信息和韵律信息。

具体地，选择要作为样本的录音语料，该录音语料要尽可能的覆盖所有音节、调联等情况，以及每个音节的各种发音情况，如在句首、句中、句末、韵首、韵中、韵末、词首、词中、词末等等情况。根据所选择作为样本的录音语料，请多位发音人进行录音，得到多组音库数据。从多组音库数据中提取出声音的参数信息，如基频(即音高)、谱、时长等参数。这些参数信息的提取通常是分帧处理，常见的是1ms或者5ms一帧，具体的提取方法与本领域技术人员熟知的参数提取方法一致，在此不再详述。

在一个具体的实施方式中，利用多个音库数据对深度神经网络进行训练，包括：

具体地，在利用多个音库数据对深度神经网络进行训练时，首先应当对音库数据中的文本信息进行编码得到深度神经网络的第一输入数据。具体的编码方法包括获取文本信息对应的音素和韵律等信息，并进行0\1编码，共得到1114维二值数字；同时，加入当前帧在当前音素中的相对位置信息(规整到0和1之间)，包括前向位置和后向位置，共2维；音素\韵律等信息0\1编码和位置信息共1116维，作为深度神经网络的第一输入数据。再对音库数据中的声学特征进行建模得到深度神经网络的第一输出数据，包括频谱、能量、基频和时长等，这里将声学特征分成两类，分别进行建模，第一类：对频谱、能量和基频进行建模，其中频谱40维、能量1维、基频1维、基频清浊标记1维，对基频进行了考虑前面4帧和后面4帧的帧扩展，对频谱和能量参数考虑了其一阶差分和二阶差分信息，共133维；第二类，对时长进行建模，这里的时长为音素时长，即音素中含有的帧数，1维。在获取到第一输入数据和第一输出数据后，根据上述的第一输入数据和第一输出数据对深度神经网络进行训练，具体训练的步骤如下：

如图2所示，本实施例中使用经典的BP(Back Propagation)神经网络构建回归模型，隐层使用sigmoid激励函数，输出层使用linear激励函数，首先随机化网络参数作为初始参数，然后基于下面的MMSE准则进行模型训练：

L(y，z)＝‖y-z‖^2

这里对上面提到的两类声学特征分别进行建模：

频谱、能量和基频，共133维，网络结构为：1116-1024-1024-1024-133，得到的模型记为M_ANS；

时长，共1维，这里网络输入不考虑帧在当前音素中相对位置信息，网络结构为：1114-1024-1024-1024-1，得到的模型记为M_AND；

根据第一输入数据和第一输出数据训练得到最优的网络结构M_ANS和M_AND。

在一个具体的实施方式中，对多个音库数据中的文本信息进行编码，包括：

获取文本信息中的音素信息和韵律信息，并对所述音素信息和所述韵律信息进行0/1编码，得到1114维二值数字；

具体地，在获取第一输入数据时，首先需要对文本信息中的音素信息和韵律信息，并对所述音素信息和所述韵律信息进行0/1编码，得到1114维二值数字；再加入当前帧在当前音素中的相对位置信息，包括前向位置信息和后向位置信息，得到2维二值数字；最后将上述1114维二值数字和上述2维二值数字叠加形成1116维二值数字，作为深度神经网络的第一输入数据。

对声学特征中的时长进行建模，得到1维二值数字。

具体地，在获取第一输出数据时，首先需要对声学特征中的频谱、能量和基频进行建模，其中频谱40维、能量1维、基频1维、基频清浊标记1维，对基频进行考虑前面4帧和后面4帧的帧扩展，对频谱和能量考虑一阶差分信息和二阶差分信息，得到133维二值数字；

对声学特征中的时长进行建模，得到1维二值数字；将上述两组二值数字分别作为深度神经网络的第一输出数据对深度神经网络进行训练。

在一个具体的实施方式中，利用所述第一输入数据和所述第一输出数据训练深度神经网络模型，包括：

随机初始化所述深度神经网络的网络参数；

L(y1，z1)＝‖y1-z1‖^2

其中，y1是自然的目标参数，z1是深度神经网络模型预测的参数，训练的目标是更新深度神经网络，使得L(y1，z1)最小。

在一个具体的实施方式中，利用所述多个音库数据分别训练所述第一合成模型的最后一层权重参数，包括：

利用所述第二输入数据和所述第二输出数据对所述第一合成模型的最后一层权重参数进行训练。

具体地，在利用每个音库数据对第一合成模型进行训练时，首先应当对每个音库数据中的文本信息进行编码得到深度神经网络的第二输入数据组。具体的编码方法包括获取文本信息对应的音素和韵律等信息，并进行0\1编码，共得到1114维二值数字；同时，加入当前帧在当前音素中的相对位置信息(规整到0和1之间)，包括前向位置和后向位置，共2维；音素\韵律等信息0\1编码和位置信息共1116维，作为第一合成模型的第二输入数据。再对音库数据中的声学特征进行建模得到第一合成模型的第二输出数据，包括频谱、能量、基频和时长等，这里将声学特征分成两类，分别进行建模，第一类：对频谱、能量和基频进行建模，其中频谱40维、能量1维、基频1维、基频清浊标记1维，对基频进行了考虑前面4帧和后面4帧的帧扩展，对频谱和能量参数考虑了其一阶差分和二阶差分信息，共133维；第二类，对时长进行建模，这里的时长为音素时长，即音素中含有的帧数，1维。在获取到第二输入数据和第二输出数据后，根据上述的第二输入数据和第二输出数据对第一合成进行训练，具体训练的步骤如下：

本实施例中同样使用经典的BP(Back Propagation)神经网络构建回归模型，隐层使用sigmoid激励函数，输出层使用linear激励函数，首先随机化网络参数作为初始参数，然后基于下面的MMSE准则进行模型训练：

L(y2，z2)＝‖y2-z2‖^2

其中，y2是自然的目标参数，z2是第一合成模型预测的参数，训练的目标是更新第一合成模型，使得L2(y2，z2)最小。

这里对上面提到的两类声学特征分别进行建模：

对频谱、能量和基频建模，共133维，网络结构为：1116-1024-1024-1024-133，得到的模型记为M_ANS2；

对时长建模，共1维，这里第一合成模型的输入不需要考虑当前帧在当前音素中相对位置信息，网络结构为：1114-1024-1024-1024-1，得到的模型记为M_AND2；

根据第二输入数据和第二输出数据训练得到第一合成模型最优的网络结构M_ANS2和M_AND2。

在一个具体的实施方式中，所述第一输出参数的表达式为：

h＝g(W^Tx+b)

具体地，再得到训练好的第一合成模型和第二合成模型后，需要根据第一合成模型和第二合成模型推理出参数来合成新音色的语音。首先利用第一合成模型除去最后一层推理出第一输出参数，该参数的表达式为h＝g(W^Tx+b)

这里将文本信息经过编码后的数据作为输入参数，经过第一合成模型的推理，可以得到输入参数在第一合成模型内每一层输出参数，将倒数第二层的输出参数定义为第一输出参数。

y_i＝W^Th+b

具体地，再获取了第一输出参数之后，通过多个第二合成模型对上述第一输出参数进行推理，得到多个第二合成模型最后一层的输出参数，定义为第二输出参数，组成第二输出参数组；第二输出参数组的表达式为

y_i＝W^Th+b

在本发明的一个实施例中，所述声学参数的表达式为：

具体地，在获取了第二输出参数组后，对第二输出参数组进行加权叠加，形成对应的声学参数，声学参数的表达式为：

通过上述得到的声学参数，如时长和基频/频谱参数，对于得到的基频/频谱参数，利用声码器重构所述声学参数形成合成语音。从而实现新音色语音的合成。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种产生新音色的语音合成方法，其特征在于，包括：

利用所述第一合成模型推理出第一输出参数；

对所述第二输出参数组进行加权叠加形成声学参数；

利用声码器重构所述声学参数形成合成语音。

2.根据权利要求1所述的方法，其特征在于，所述音库数据包括：声学特征，以及，与所述声学特征对应的文本信息；

其中，所述声学特征包括频谱、能量、基频和时长；

所述文本信息包括音素信息和韵律信息。

3.根据权利要求1所述的方法，其特征在于，利用多个音库数据对深度神经网络进行训练，包括：

4.根据权利要求3所述的方法，其特征在于，对多个音库数据中的文本信息进行编码，包括：

5.根据权利要求3所述的方法，其特征在于，对多个音库数据中的声学特征进行建模，包括：

对声学特征中的时长进行建模，得到1维二值数字。

6.根据权利要求3所述的方法，其特征在于，利用所述第一输入数据和所述第一输出数据训练深度神经网络，包括：

随机初始化所述深度神经网络的网络参数；

L(y，z)＝‖y-z‖^2

7.根据权利要求1所述的方法，其特征在于，利用所述多个音库数据分别训练所述第一合成模型，包括：

8.根据权利要求1所述的方法，其特征在于，所述第一输出参数的表达式为：

h＝g(W^Tx+b)

9.根据权利要求1所述的方法，其特征在于，所述第二输出参数组的表达式为：

y_i＝W^Th+b

其中，y_i表示第i个第二输出参数，h表示第一输出参数，W和b表示第二合成模型最后一层的网络参数。

10.根据权利要求1所述的方法，其特征在于，所述声学参数的表达式为：

其中，表示声学参数，a_i表示第i个第二输出参数对应的叠加权重，y_i表示第i个第二输出参数。