CN112908294B

CN112908294B - 一种语音合成方法以及语音合成系统

Info

Publication number: CN112908294B
Application number: CN202110048322.3A
Authority: CN
Inventors: 肖朔
Original assignee: Hangzhou Yingying Sound Technology Co ltd
Current assignee: Hangzhou Yingying Sound Technology Co ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2024-04-05
Anticipated expiration: 2041-01-14
Also published as: CN112908294A

Abstract

本发明实施例提供了一种语音合成方法以及语音合成系统，该语音合成方法首先将待输入文本转换成文本编码向量，将待输入梅尔声谱转换成风格编码向量。然后基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量，确定出目标梅尔声谱，之后将所述目标梅尔声谱转换成音频信号。可见，在本方案中，增加了风格编码器，通过风格编码器将待输入梅尔声谱转换成风格编码向量，进而实现了合成语音的朗读风格、音色的控制。并且，本方案中的语音合成系统在前期已经进行了大量的通用特征的训练学习，因此在新增朗读风格和音色时，风格编码器只需少量的音频样本，进而降低了合成成本。

Description

一种语音合成方法以及语音合成系统

技术领域

本发明涉及合成技术领域，具体涉及一种语音合成方法以及语音合成系统。

背景技术

随着科技的不断发展，用户对语音合成质量的要求也越来越高。目前，语音合成根据其合成原理不同，通常分为两大类，一类为拼接型语音合成，另一类为神经网络型语音合成。

其中，拼接型语音合成是将语料库切碎，根据需要合成的文本，经过算法重新拼合，来实现机器朗读。神经网络型语音合成是目前较为常用的一种合成方法，其将预测的语音频谱特征输入到声码器中，进行语音信号的预测重建。

然而，发明人发现，采用拼接型语音合成方式合成的音频中，会存在明显的合成卡顿、不连贯，且无法控制合成的朗读风格、音色，并要求训练所需的语料库至少大于数十小时以上的目标发音人音频，制作成本高。而采用神经网络型语音合成方式合成的音频中，也无法控制合成的朗读风格以及朗读音色，且需要用参数量极大的深度网络作为声码器，进而导致语音合成无法实时、低成本的合成。

因此，如何提供一种语音合成方法，既能控制合成的朗读风格音色，又能降低合成成本，是本领域技术人员亟待解决的一大技术难题。

发明内容

有鉴于此，本发明实施例提供了一种语音合成方法，既能控制合成的朗读风格音色，又能降低合成成本。

为实现上述目的，本发明实施例提供如下技术方案：

一种语音合成方法，包括：

将待输入文本转换成文本编码向量；

将待输入梅尔声谱转换成风格编码向量；

基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量，确定出目标梅尔声谱；

将所述目标梅尔声谱转换成音频信号。

可选的，所述将待输入文本转换成文本编码向量，包括：

对所述待输入文本进行嵌入处理，生成序列形式的文本向量；

将所述文本向量输入预设卷积神经网络，并将所述预设卷积神经网络的输出数据输入预设循环神经网络，由所述预设循环神经网络输出预设长度的文本编码向量。

可选的，所述将待输入梅尔声谱转换成风格编码向量，包括：

将所述待输入梅尔声谱经过预设卷积神经网络、预设循环神经网络以及预设全连接网络，转换成编码序列；

将所述编码序列经过多头注意力机制，生成相对于每个预设特征向量的加权系数，所述预设特征向量表征朗读风格；

基于所述加权系数，对所述预设特征向量进行加权处理，生成预设长度的风格编码向量。

可选的，所述基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量，确定出目标梅尔声谱，包括：

将所述当前时间周期的待输入梅尔声谱输入预处理网络，由所述预处理网络生成编码的梅尔声谱特征；

将所述上一时间周期的所述文本编码向量与所述上一时间周期的所述风格编码向量经过注意力机制，得到上一时间周期的上下文向量；

将所述编码的梅尔声谱特征与所述上一时间周期的上下文向量进行拼接，并将拼接后的向量输入预设循环神经网络，由所述预设循环神经网络生成解码输出；

将当前时间周期的文本编码向量与当前时间周期的风格编码向量经过注意力机制，得到当前时间周期的上下文向量；

将所述解码输出与所述当前时间周期的上下文向量进行拼接，并将拼接后的向量输入第一线性投影层以及第二线性投影层，由所述第一线性投影层生成结束标识，由所述第二线性投影层生成声谱残差向量以及信号值向量，将所述声谱残差向量与所述信号量向量进行拼接，生成所述目标梅尔声谱。

可选的，所述将所述目标梅尔声谱转换成音频信号，包括：

将所述目标梅尔声谱经过预设卷积神经网络、预设全连接网络，生成帧级别的特征条件向量；

基于所述目标梅尔声谱，计算出当前帧的线性预测参数；

基于所述线性预测参数，对所述目标梅尔声谱进行线性预测，得到当前时间周期的预测值向量；

将所述特征条件向量、所述当前时间周期的预测值向量、所述上一时间周期的声谱残差向量以及所述上一时间周期的信号量向量进行拼接，生成当前时间周期的特征向量；

将所述当前时间周期的特征向量经过预设卷积神经网络、预设全连接网络，预测出当前时间周期的残差值向量；

确定所述当前时间周期的预测值向量与所述当前时间周期的残差值向量的加和为所述音频信号。

一种语音合成系统，包括：文本编码器、风格编码器、解码器以及合成器；

所述文本编码器用于将待输入文本转换成文本编码向量；

所述风格编码器用于将待输入梅尔声谱转换成风格编码向量；

所述解码器与所述文本编码器以及所述风格编码器相连，用于基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量，确定出目标梅尔声谱；

所述合成器与所述解码器相连，用于将所述目标梅尔声谱转换成音频信号。

可选的，所述文本编码器将待输入文本转换成文本编码向量，具体用于：

可选的，所述风格编码器将待输入梅尔声谱转换成风格编码向量，具体用于：

可选的，所述解码器基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量，确定出目标梅尔声谱，具体用于：

可选的，所述合成器将所述目标梅尔声谱转换成音频信号，具体用于：

基于所述目标梅尔声谱，计算出当前帧的线性预测参数；

基于上述技术方案，本发明实施例提供了一种语音合成方法以及语音合成系统，该语音合成方法首先将待输入文本转换成文本编码向量，将待输入梅尔声谱转换成风格编码向量。然后基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量，确定出目标梅尔声谱，之后将所述目标梅尔声谱转换成音频信号。可见，在本方案中，增加了风格编码器，通过风格编码器将待输入梅尔声谱转换成风格编码向量，进而实现了合成语音的朗读风格、音色的控制。并且，本方案中的语音合成系统在前期已经进行了大量的通用特征的训练学习，因此在新增朗读风格和音色时，风格编码器只需少量的音频样本，进而降低了合成成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种语音合成方法的流程示意图；

图2为本发明实施例提供的一种语音合成方法的又一流程示意图；

图3为本发明实施例提供的一种语音合成系统中文本编码器的处理流程示意图；

图4为本发明实施例提供的一种语音合成方法的又一流程示意图；

图5为本发明实施例提供的一种语音合成系统中风格编码器的处理流程示意图；

图6为本发明实施例提供的一种语音合成方法的又一流程示意图；

图7为本发明实施例提供的一种语音合成系统中解码器的处理流程示意图；

图8为本发明实施例提供的一种语音合成方法的又一流程示意图；

图9为本发明实施例提供的一种语音合成系统中合成器的处理流程示意图。

具体实施方式

首先对本发明实施例涉及的专业术语进行解释说明，如下：

TTS：text to speech，即语音合成、文本转音频技术的简称。

编码器：通过算法将一种可读数据转化为不可读数据的装置，统称为编码器。

解码器：通过算法将一种不可读数据转化为可读数据的装置，统称为解码器。

端到端：指一个合成系统中，不需拆分为多个模块分别操控和训练，只需要一个输入，即可得到音频输出的方法。

卷积神经网络：一种靠卷积计算的神经网络，是深度学习的代表算法之一，可以细分为很多种不同的卷积神经网络。

循环神经网络：一种以序列数据(比如音频)为输入，在序列演进方向(音频中方向就是时间)进行递归的链式链接计算的神经网络，可以细分为很多种不同的循环神经网络。

全连接网络：最基础的一种神经网络计算方式，把所有的输入和输出以乘法和加法的方式连接在一起。

注意力机制：一种通过编解码，对目标数据进行加权变化，让系统更清晰知道应该关注哪里的机制。

梅尔声谱：一种从语音音频中提取出的频域特征，可以用来表征语音信号的短时特征。

正如背景技术，随着文本到语音转换(TTS)模型的快速改进，越来越多的应用程序(如有声读物旁、新闻朗读和语音助手等)被广泛的接受和使用。

而用户的使用需求，也变得越来越高标准。高灵活性、高定制化、低成本化是当下语音合成需求中的三个重点。目前市面上已经有一些听感很好的合成方法，但局限性依然明显。比如无法快速、低成本的制作目标音库，无法控制合成中的朗读风格、情绪、音色，以及难以实时化的进行合成和部署。

具体举例来说，当前市面上的合成方案，都只能合成单一表现风格的音频语音。比如某一个特定发音人的TTS模型在训练时，采用的是新闻播报风格的录音方式，那么在合成时，也只能合成新闻播报风格的音频，而不能合成故事风格、笑话风格、广告风格等其他风格。

又比如用户个性化声音的需求，普通用户在没有专业录音设备的前提下，希望能够通过录制极少量的音频，就能够合成自己的声音。在现有技术中，难以通过极少量样本(几分钟)有效学习目标发音人的说话风格，风格包括且不限于音色、方言口音、语速、情绪、鼻音等。

以下列举几个相关的技术解决方案：

1、tacotron合成系统：

传统TTS模型包含许多模块，例如文本分析、声学模型、音频合成等，每个模块内部又牵扯到多个模型和逻辑，整个系统框架非常复杂。Tacotron最大的贡献在于，提出了一种端到端的TTS模型，利用编码器、解码器和注意力机制，代替掉了传统TTS中对文本分析和声学建模的复杂逻辑。不用花费大量的时间去了解TTS中需要用的的模块或者领域知识，直接用深度学习的方法训练出一个TTS模型即可。

2、wavenet合成系统：

该方案是一种全神经网络的TTS方案，是通过自回归的方式，在时间轴上，将每一个采样点的输出作为下一个采样点预测的输入，通过卷积进行预测的系统。该方案第一次将TTS引入到了采样点级别的预测，由于刻画粒度非常细致，这套方案的计算量非常大，无法实时合成。但从音质上讲，该方案依然是目前音质最好的TTS方案。另外，该方案中，通过引入全局和局部条件变量，可以在一定程度上对发音人的特点做出控制。

3、利用小样本克隆语音的方法

该方案框架类似方案1中的tacotron系统，但是在解码器部分，嵌入了一个说话人编码，用来控制模型对特定说话人的学习。其中，说话人编码是一个单独的向量，通过算法的处理，可以一定程度上表示特定说话人的特点和音色。在个性化训练中，使用少量的未见过的说话人数据，对整个网络进行微调，来达到话音克隆的目的。

然而，发明人发现，上述三种方式的缺点如下：

1、tacotron方案中，首先，其缺少对发音人风格、特点的控制。合成的声音完全依赖于训练时所使用的特定发音人的数据特点。并且，这套端到端的方案只能训练大数据量下的单一发音人TTS模型。每一个特定发音人的TTS模型需要重新训练才能得到。

2、在wavenet方案中，虽然通过全局、局部条件变量，可以在一定程度上对合成的音频进行特点控制，但有两个问题。首先，他依然需要依赖较多发音人数据(数小时)来进行训练。其次，对于初始训练中不存在的新的发音人，该系统无法快速将其引入到可控的TTS模型中，需要将新发音人的音频数据，加入到初始训练集，完整地重新训练模型。另外，由于该系统是采样点级别的预测，在计算量上的消耗是非常庞大的，无法达到实时合成的目的。

3、在“利用小样本克隆语音的方法”中，虽然通过引入发音人编码器，可以通过小样本，快速学习初始模型中不存在的新发音人特点。但其特点仅能局限在发音人的音色上。而无法控制发音人在更高维度上的发音特点，比如朗读风格、情绪风格等。并且，在声码器部分，该专利的方案没能在音质和速度上兼顾，进而导致无法实时合成或合成音质较差。

基于此，本发明实施例提供了一种语音合成方法，既能控制合成的朗读风格音色，又能降低合成成本。具体的，该语音合成方法应用于语音合成系统，该语音合成系统包括：文本编码器、风格编码器、解码器以及合成器，如图1所示，该语音合成方法包括步骤：

S11、将待输入文本转换成文本编码向量；

本发明实施例通过文本编码器将待输入文本转换成文本编码向量，具体的，文本编码器是将文本输入通过神经网络转变成机器可读的文本编码向量。本发明实施例提供了一种将待输入文本转换成文本编码向量的具体实现方式，如图2所示，包括步骤：

S21、对待输入文本进行嵌入处理，生成序列形式的文本向量；

S22、将文本向量输入预设卷积神经网络，并将预设卷积神经网络的输出数据输入预设循环神经网络，由预设循环神经网络输出预设长度的文本编码向量。

示意性的，结合图3，文本编码器的具体步骤如下：

a)将序列形式的文本输入通过嵌入处理，转变为序列形式的文本向量。

b)将序列形式的文本向量通过N(泛指多层，该参数可根据实际情况调节)层卷积神经网络和N层循环神经网络，转变为固定长度的编码向量。

S12、将待输入梅尔声谱转换成风格编码向量；

本发明实施例通过风格编码器将待输入梅尔声谱转换成风格编码向量，具体的，风格编码器是将梅尔声谱输入，通过神经网络，转变成机器可读的风格编码向量。

其中，输入的梅尔声谱是序列化特征，提取自用于训练的发音人的音频。本发明实施例提供了一种将待输入梅尔声谱转换成风格编码向量的具体实现方式，如图4所示，包括步骤：

S41、将待输入梅尔声谱经过预设卷积神经网络、预设循环神经网络以及预设全连接网络，转换成编码序列；

S42、将编码序列经过多头注意力机制，生成相对于每个预设特征向量的加权系数，预设特征向量表征朗读风格；

S43、基于加权系数，对预设特征向量进行加权处理，生成预设长度的风格编码向量。

示意性的，结合图5，风格编码器的具体步骤如下：

a)序列化的梅尔声谱输入经过多层卷积神经网络、多层循环神经网络和全连接网络后，转变为机器可读的编码序列。

b)编码序列通过多头注意力机制，与可训练的一组(N个)特征向量比对，生成一组加权系数。每一个特征向量都代表了发音人的某一种风格特征，但没有特定的风格标签，而是在训练时随机初始化，由系统无监督训练优化得到。

c)将经过注意力机制后得到的系数，对特征向量进行加权和处理，得到一个长度固定的嵌入向量，作为风格编码器的输出。

可见，本发明实施例提供的语音合成系统通过设置风格编码器，实现了控制合成的朗读风格音色的功能。

S13、基于当前时间周期的待输入梅尔声谱、上一时间周期的文本编码向量以及上一时间周期的风格编码向量，确定出目标梅尔声谱；

本发明实施例通过解码器基于当前时间周期的待输入梅尔声谱、上一时间周期的文本编码向量以及上一时间周期的风格编码向量，确定出目标梅尔声谱，具体的，解码器是将文本编码器和风格编码器的输出作为输入，结合每个时间步骤的梅尔声谱输入，通过注意力机制和神经网络，解码出每个时间步骤的梅尔声谱输出。

其中，在每一个特定的时间步骤，解码器的梅尔声谱输入，在训练阶段是上一个时间步骤的真实的梅尔声谱。在预测阶段，则是上一个时间步骤解码出的梅尔声谱输出作为输入。

具体的，本发明实施例提供了一种基于当前时间周期的待输入梅尔声谱、上一时间周期的文本编码向量以及上一时间周期的风格编码向量，确定出目标梅尔声谱的具体实现方式，如图6所示，包括步骤：

S61、将当前时间周期的待输入梅尔声谱输入预处理网络，由预处理网络生成编码的梅尔声谱特征；

S62、将上一时间周期的文本编码向量与上一时间周期的风格编码向量经过注意力机制，得到上一时间周期的上下文向量；

S63、将编码的梅尔声谱特征与上一时间周期的上下文向量进行拼接，并将拼接后的向量输入预设循环神经网络，由预设循环神经网络生成解码输出；

S64、将当前时间周期的文本编码向量与当前时间周期的风格编码向量经过注意力机制，得到当前时间周期的上下文向量；

S65、将解码输出与当前时间周期的上下文向量进行拼接，并将拼接后的向量输入第一线性投影层以及第二线性投影层，由第一线性投影层生成结束标识，由第二线性投影层生成声谱残差向量以及信号值向量，将声谱残差向量与信号量向量进行拼接，生成目标梅尔声谱。

示意性的，结合图7，解码器的具体步骤如下：

a)将梅尔声谱输入通过预处理网络，得到编码后的梅尔声谱特征，并与上一个时间步骤通过注意力机制计算得到的上下文向量进行拼接。

b)将拼接后的向量送入循环神经网络进行解码，得到解码输出，并通过注意力机制，计算新的上下文向量。

c)将解码输出和新的上下文向量进行拼接，分别送入两个投影层进行预测输出。

d)第一个投影层经过sigmoid激活后，得到一个二分类结果(停止/不停止)。其目的是预测结束标识，来判断是否已经解码完成。

e)第二个投影层经过多层卷积神经网络后，预测得到梅尔的声谱残差，通过和该投影层的输出进行拼合，得到梅尔声谱输出。梅尔声谱输出可以是一帧，或多帧的合并结果。

S14、将目标梅尔声谱转换成音频信号。

本发明实施例通过合成器将目标梅尔声谱转换成音频信号，具体的，合成器是将解码器输出的梅尔声谱，通过神经网络，转变为音频信号。

具体的，本发明实施例提供了一种将目标梅尔声谱转换成音频信号的具体实现方式，如图8所示，包括步骤：

S81、将目标梅尔声谱经过预设卷积神经网络、预设全连接网络，生成帧级别的特征条件向量；

S82、基于目标梅尔声谱，计算出当前帧的线性预测参数；

S83、基于线性预测参数，对目标梅尔声谱进行线性预测，得到当前时间周期的预测值向量；

S84、将特征条件向量、当前时间周期的预测值向量、上一时间周期的声谱残差向量以及上一时间周期的信号量向量进行拼接，生成当前时间周期的特征向量；

S85、将当前时间周期的特征向量经过预设卷积神经网络、预设全连接网络，预测出当前时间周期的残差值向量；

S86、确定当前时间周期的预测值向量与当前时间周期的残差值向量的加和为音频信号。

示意性的，结合图9，合成器的具体步骤如下：

a)解码器输出的梅尔声谱，作为合成器的输入，通过多层卷积神经网络和全连接网络，得到帧级别的特征条件向量。该条件向量一帧计算一次，并在该帧时间内保持不变。

b)通过梅尔声谱输入，计算出该帧的线性预测参数，该计算一帧计算一次，且线性预测参数在该帧时间内保持不变。

c)通过线性预测，得到采样时刻的预测值向量。

d)条件值向量、预测值向量与上一采样点时刻得到的残差值向量和信号值向量，四者进行向量拼合，得到当前采样点时刻的特征向量。

e)通过多层循环神经网络和全连接网络，预测出当前采样点时刻的残差值分布。

f)通过采样，得到当前采样点时刻的残差值向量，并将残差值向量返回给线性预测部分，作为下一个采样点时刻的输入

g)将c中得到的预测值向量和f中河道的残差值向量相加，得到当前采样点时刻的信号值向量，返回给步骤d，作为下一采样点时刻的拼合输入。该信号值向量即为系统的音频输出。

值得一提的是，在本实施例中，结合图9，线性预测左侧的步骤，为帧级别的计算，线性预测右侧的步骤，为采样点级别的计算。即本发明实施例提供的合成器将合成拆分为帧级别和采样点级别两个粒度，大量的基础计算只需要按帧级别完成，采样点级别只需要进行少量运算。采样点级别输出残差值，帧级别输出预测值，两个叠加得到最终的信号值。节约了大量计算资源的消耗，从而可以实时高效的进行合成。

在上述实施例的基础上，本实施例还提供了一种语音合成系统，包括：文本编码器、风格编码器、解码器以及合成器。

其中，文本编码器用于将待输入文本转换成文本编码向量。风格编码器用于将待输入梅尔声谱转换成风格编码向量。解码器与文本编码器以及风格编码器相连，用于基于当前时间周期的待输入梅尔声谱、上一时间周期的文本编码向量以及上一时间周期的风格编码向量，确定出目标梅尔声谱。合成器与解码器相连，用于将目标梅尔声谱转换成音频信号。

具体的，文本编码器将待输入文本转换成文本编码向量，具体用于：

对待输入文本进行嵌入处理，生成序列形式的文本向量；

将文本向量输入预设卷积神经网络，并将预设卷积神经网络的输出数据输入预设循环神经网络，由预设循环神经网络输出预设长度的文本编码向量。

具体的，风格编码器将待输入梅尔声谱转换成风格编码向量，具体用于：

将待输入梅尔声谱经过预设卷积神经网络、预设循环神经网络以及预设全连接网络，转换成编码序列；

将编码序列经过多头注意力机制，生成相对于每个预设特征向量的加权系数，预设特征向量表征朗读风格；

基于加权系数，对预设特征向量进行加权处理，生成预设长度的风格编码向量。

具体的，解码器基于当前时间周期的待输入梅尔声谱、上一时间周期的文本编码向量以及上一时间周期的风格编码向量，确定出目标梅尔声谱，具体用于：

将当前时间周期的待输入梅尔声谱输入预处理网络，由预处理网络生成编码的梅尔声谱特征；

将上一时间周期的文本编码向量与上一时间周期的风格编码向量经过注意力机制，得到上一时间周期的上下文向量；

将编码的梅尔声谱特征与上一时间周期的上下文向量进行拼接，并将拼接后的向量输入预设循环神经网络，由预设循环神经网络生成解码输出；

将解码输出与当前时间周期的上下文向量进行拼接，并将拼接后的向量输入第一线性投影层以及第二线性投影层，由第一线性投影层生成结束标识，由第二线性投影层生成声谱残差向量以及信号值向量，将声谱残差向量与信号量向量进行拼接，生成目标梅尔声谱。

具体的，合成器将目标梅尔声谱转换成音频信号，具体用于：

将目标梅尔声谱经过预设卷积神经网络、预设全连接网络，生成帧级别的特征条件向量；

基于目标梅尔声谱，计算出当前帧的线性预测参数；

基于线性预测参数，对目标梅尔声谱进行线性预测，得到当前时间周期的预测值向量；

将特征条件向量、当前时间周期的预测值向量、上一时间周期的声谱残差向量以及上一时间周期的信号量向量进行拼接，生成当前时间周期的特征向量；

将当前时间周期的特征向量经过预设卷积神经网络、预设全连接网络，预测出当前时间周期的残差值向量；

确定当前时间周期的预测值向量与当前时间周期的残差值向量的加和为音频信号。

该语音合成系统的工作原理请参见上述语音合成方法的工作原理，具体的，本发明实施例提供的语音合成系统需要进行基础模型以及新发音人音色的训练。

其中，基础模型训练是使用包含多发音人、多风格的训练集进行训练，由风格编码器对训练数据进行无监督风格提取和学习。生成对应的风格特征向量。在合成时，即可通过调节风格特征向量的方式，达到调节合成风格的目的。

新发音人音色训练是使用一个或多个新的发音人的少量音频(数分钟即可)，在基础模型的基础上进行加训。该加训只调整风格编码器、解码器部分，而文本编码器和合成器保持不变。

因此，在合成时，通过输入文本来进行合成。具体的，可以采用如下两种方式控制合成音频的音色、风格：

a)通过设定好特定的风格特征向量。且N个特征向量可以分别调整对应的权重，达到百变控制的效果。

b)通过给风格编码器输入特定的梅尔声谱，风格编码器将会自动编码出相应风格的特征向量。

可见，本发明实施例提供的语音合成系统，由于基础模型的训练中，是多发音人多风格的混合训练，其在风格编码器模块，已经学习了大量的通用特征，于是在训练新发音人数据时，只需要很少量音频样本，即可完成高质量的TTS模型训练

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音合成方法，其特征在于，包括：

将待输入文本转换成文本编码向量；

将待输入梅尔声谱转换成风格编码向量；

将所述目标梅尔声谱转换成音频信号；

所述基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量，确定出目标梅尔声谱，包括：

将所述解码输出与所述当前时间周期的上下文向量进行拼接，并将拼接后的向量输入第一线性投影层以及第二线性投影层，由所述第一线性投影层生成结束标识，由所述第二线性投影层生成声谱残差向量以及信号值向量，将所述声谱残差向量与所述信号值向量进行拼接，生成所述目标梅尔声谱。

2.根据权利要求1所述的语音合成方法，其特征在于，所述将待输入文本转换成文本编码向量，包括：

3.根据权利要求1所述的语音合成方法，其特征在于，所述将待输入梅尔声谱转换成风格编码向量，包括：

4.根据权利要求2所述的语音合成方法，其特征在于，所述将所述目标梅尔声谱转换成音频信号，包括：

基于所述目标梅尔声谱，计算出当前帧的线性预测参数；

5.一种语音合成系统，其特征在于，包括：文本编码器、风格编码器、解码器以及合成器；

所述文本编码器用于将待输入文本转换成文本编码向量；

所述合成器与所述解码器相连，用于将所述目标梅尔声谱转换成音频信号；

所述解码器基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量，确定出目标梅尔声谱，具体用于：

6.根据权利要求5所述的语音合成系统，其特征在于，所述文本编码器将待输入文本转换成文本编码向量，具体用于：

7.根据权利要求5所述的语音合成系统，其特征在于，所述风格编码器将待输入梅尔声谱转换成风格编码向量，具体用于：

8.根据权利要求5所述的语音合成系统，其特征在于，所述合成器将所述目标梅尔声谱转换成音频信号，具体用于：

基于所述目标梅尔声谱，计算出当前帧的线性预测参数；