CN113611281B

CN113611281B - 一种语音合成方法、装置、电子设备及存储介质

Info

Publication number: CN113611281B
Application number: CN202110809175.7A
Authority: CN
Inventors: 李婉; 李健; 武卫东; 陈明
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Filing date: 2021-07-16
Publication date: 2024-07-12
Anticipated expiration: 2041-07-16

Abstract

本申请提供了一种语音合成方法、装置、电子设备及存储介质，包括：获取样本声学特征序列；将样本声学特征序列输入至预先训练好的多尺度特征提取模型中进行特征提取，得到不同尺度的多个特征信息，对多个特征信息进行第一自编码处理，得到样本声学特征序列的样本编码信息；获取目标文本信息，并对目标文本信息进行第二自编码处理，得到文本编码信息；将文本编码信息与样本编码信息进行交叉编码，得到目标文本信息对应的目标声学特征序列；将目标声学特征输入至声码器进行合成，得到目标文本信息对应的语音信息。这样，通过提取出样本声学特征序列的多个不同尺度的特征信息，可以提升语音合成模型的细节捕捉能力，使得合成的语音更加细腻饱满。

Description

一种语音合成方法、装置、电子设备及存储介质

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术

语音合成(Text to Speech，TTS)是指将输入的文本信息转化为语音信息的技术。通常，语音合成方法包括如下步骤：首先，将文本信息转化为音素序列，然后，将音素序列输入至语音合成模型中，语音合成模型基于预先得到的样本声学特征，对音素序列进行处理，得到文本信息对应的声学特征，得到的声学特征再经过声码器的处理，就可以得到文本信息对应的语音信息。

现有技术中，语音合成模型可以采用Transformer结构，Transformer结构由多个M-attention(multi-head attention，多头注意力机制)结构堆叠构成，M-attention结构的长程序列上下文捕捉的能力较强，可以在规定的数据长度内，对整段输入数据的上下文特征进行分析。

但是，M-attention结构获取局部信息的能力较弱，细节捕捉能力不足，进而导致Transformer结构的语音合成模型合成的语音不够细腻，声音不够饱满。

发明内容

为解决上述技术问题，本申请示出了一种语音合成方法、装置、电子设备及存储介质。

第一方面，本申请示出了一种语音合成方法，所述方法包括：

获取样本声学特征序列；

将所述样本声学特征序列输入至预先训练好的多尺度特征提取模型中进行特征提取，得到不同尺度的多个特征信息，对所述多个特征信息进行第一自编码处理，得到所述样本声学特征序列的样本编码信息；

获取目标文本信息，并对所述目标文本信息进行第二自编码处理，得到文本编码信息；

将所述文本编码信息与所述样本编码信息进行交叉编码，得到所述目标文本信息对应的目标声学特征序列；

将所述目标声学特征输入至声码器进行合成，得到所述目标文本信息对应的语音信息。

可选的，所述获取样本声学特征序列，包括：

获取样本语音信息，并从所述样本语音信息中提取样本声学特征；

对所述样本声学特征进行整合，得到样本声学特征序列。

可选的，所述多尺度特征提取模型包括多个不同尺度的降采样模块及每个降采样模块所连接的残差处理模块，所述将所述样本声学特征序列输入至预先训练好的多尺度特征提取模型中进行特征提取，得到不同尺度的多个特征信息，包括：

将第一层降采样模块作为目标降采样模块，将所述样本声学特征序列作为输入数据，将所述输入数据输入至所述目标降采样模块中进行特征提取，得到所述目标降采样模块对应尺度的特征信息；

将得到的特征信息输入至所述目标降采样模块所连接的目标残差处理模块进行处理，得到新的输入数据，并将所述目标降采样模块的下一层降采样模块作为新的目标降采样模块，返回所述将所述输入数据输入至所述目标降采样模块中进行特征提取的步骤。

可选的，所述对所述多个特征信息进行第一自编码处理，得到所述样本声学特征序列的样本编码信息，包括：

将所述多个特征信息转换为具有相同通道数的待处理特征信息，按照所述待处理特征信息的维度，对所述待处理特征信息进行拼接，得到样本特征信息；

对所述样本特征信息进行第一自编码处理，得到样本编码信息。

可选的，所述获取目标文本信息，并对所述目标文本信息进行第二自编码处理，得到文本编码信息，包括：

获取目标文本信息，并将所述目标文本信息转为音素信息；

对所述音素信息进行整合，得到音素特征序列；

对所述音素特征序列进行第二自编码处理，得到文本编码信息。

可选的，所述多尺度特征提取模型为ResNet50模型。

第二方面，本申请示出了一种语音合成装置，所述装置包括：

样本获取模块，用于获取样本声学特征序列；

样本编码模块，用于将所述样本声学特征序列输入至预先训练好的多尺度特征提取模型中进行特征提取，得到不同尺度的多个特征信息，对所述多个特征信息进行第一自编码处理，得到所述样本声学特征序列的样本编码信息；

文本获取模块，用于获取目标文本信息，并对所述目标文本信息进行第二自编码处理，得到文本编码信息；

交叉编码模块，用于将所述文本编码信息与所述样本编码信息进行交叉编码，得到所述目标文本信息对应的目标声学特征序列；

合成模块，用于将所述目标声学特征输入至声码器进行合成，得到所述目标文本信息对应的语音信息。

可选的，所述多尺度特征提取模型包括多个不同尺度的降采样模块及每个降采样模块所连接的残差处理模块，所述样本编码模块，具体用于：

第三方面，本申请示出了一种电子设备，所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一项所述的语音合成方法的步骤。

第四方面，本申请示出了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的语音合成方法的步骤。

与现有技术相比，本申请包括以下优点：

在本申请中，获取样本声学特征序列；将所述样本声学特征序列输入至预先训练好的多尺度特征提取模型中进行特征提取，得到不同尺度的多个特征信息，对所述多个特征信息进行第一自编码处理，得到所述样本声学特征序列的样本编码信息；获取目标文本信息，并对所述目标文本信息进行第二自编码处理，得到文本编码信息；将所述文本编码信息与所述样本编码信息进行交叉编码，得到所述目标文本信息对应的目标声学特征序列；将所述目标声学特征输入至声码器进行合成，得到所述目标文本信息对应的语音信息。

这样，通过预先训练好的多尺度特征提取模型，可以提取出样本声学特征序列的多个不同尺度的特征信息，也就是样本声学特征序列的多尺度特征信息，可以理解，多尺度特征信息相比于现有技术中的单一尺度特征信息，所包含的信息更全面，大尺度的特征信息中包含更多的全局信息，而小尺度的特征信息中则包含更多的细节信息，因此，可以丰富样本声学特征序列的局部信息表达，从而提升语音合成模型的细节捕捉能力，使得合成的语音更加细腻，声音更加饱满。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本申请的一种语音合成方法的步骤流程图；

图2是本申请的一种多尺度特征提取模型的示意图；

图3是本申请的一种语音合成方法的方案示意图；

图4是本申请的一种语音合成装置的结构框图；

图5是本申请的一种电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

下面将通过具体的实施例，对本发明实施例提供的语音合成方法进行详细描述。

参照图1，示出了本申请的一种语音合成方法的步骤流程图，该方法具体可以包括如下步骤：

S101：获取样本声学特征序列。

样本声学特征序列是从样本语音信息中提取的，样本语音信息可以是预先采集的目标人说话的语音文件，其中，目标人可以是随机选择的任意一人或多人，也可以是某一特定人选。举例而言，声学特征可以包括MFCC(Mel-frequency Cepstral Coefficients，梅尔频率倒谱系数)、PLP(Perceptual Linear Predictive，感知线性预测系数)或CQCC(Constant Q Cepstral Coefficients，常数Q值倒谱系数)等任意一项或多项，具体不做限定。可以理解，由于进行语音合成时需要参考样本声学特征序列，因此，得到的语音信息的音色会与目标人的音色相似。

在本步骤中，可以从预设数据库或云端中获取样本声学特征序列，也可以先获取样本语音信息，然后，从样本语音信息中提取样本声学特征，进而，对提取出的样本声学特征进行整合，消除样本声学特征间单位和尺度差异的影响，将不规范的样本声学特征转化为可识别的规范的样本声学特征序列，得到样本声学特征序列。

其中，对提取出的样本声学特征进行整合可以由语音合成模型中的解码器前处理模块进行，解码器前处理模块对样本声学特征进行整合，得到样本声学特征序列之后，将样本声学特征序列输入至解码器模块中进行处理。

S102：将样本声学特征序列输入至预先训练好的多尺度特征提取模型中进行特征提取，得到不同尺度的多个特征信息，对多个特征信息进行第一自编码处理，得到样本声学特征序列的样本编码信息。

其中，多尺度特征提取模型应用于语音合成模型中的解码器前处理模块，举例而言，多尺度特征提取模型可以为基于ResNet50(Residual Networks-50，50层的残差神经网络)的特征提取模型。

一种实现方式中，多尺度特征提取模型包括多个不同尺度的降采样模块及每个降采样模块所连接的残差处理模块，将样本声学特征序列输入至预先训练好的多尺度特征提取模型中进行特征提取具体可以包括如下步骤：

首先，将第一层降采样模块作为目标降采样模块，将样本声学特征序列作为输入数据，将输入数据输入至目标降采样模块中进行特征提取，得到目标降采样模块对应尺度的特征信息；然后，将得到的特征信息输入至目标降采样模块所连接的目标残差处理模块进行处理，得到新的输入数据，并将目标降采样模块的下一层降采样模块作为新的目标降采样模块，返回将输入数据输入至目标降采样模块中进行特征提取的步骤。

也就是说，将样本声学特征序列依次输入各层降采样模块及每层降采样模块对应的目标残差处理模块进行处理，得到的各层降采样模块的输出即为不同尺度的多个特征信息，也就是多尺度特征信息。

如图2所示，为本方案中多尺度特征提取模型的示意图。其中，多尺度特征提取模型为ResNet50模型，该模型的第3、4、5层分别包含一个降采样模块，每经过一次降采样，输入数据的特征图会缩小1/2，相应的，其通道数会扩充2倍。在将该模型结构应用于基于Transformer的语音合成模型时，会同时保留三个降采样模块的输出，即第三四五层中降采样残差模块(a)的输出，也就是三个不同尺度的特征信息。

本步骤中，在得到多尺度特征信息之后，可以对多尺度特征信息进行第一自编码处理，得到样本编码信息，具体而言，可以包括如下步骤：首先，将多个特征信息转换为具有相同通道数的待处理特征信息；然后，按照待处理特征信息的维度，对待处理特征信息进行拼接，得到样本特征信息；进而，对样本特征信息进行第一自编码处理，得到样本编码信息。

也就是说，先对多个不同尺度的特征信息的尺寸进行调整，使其具有相同的通道数，这样，便于将不同尺度的特征信息拼接到一起，进行第一自编码处理。

举例来说，如果多尺度特征提取模型包括三个不同尺度的降采样模块，那么，可以得到三个不同尺度的特征信息，三个特征信息的尺度可以分别表示为(B，C₁，F₁)、(B，C₂，F₂)和(B，C₃，F₃)，其中，B表示每个特征信息的输入数据的个数，C₁、C₂和C₃分别表示每个特征信息的通道数，F₁、F₂和F₃分别表示每个特征信息的维度。将多个特征信息转换为具有相同通道数C的待处理特征信息，分别为(B，C，F₁)、(B，C₂，F₂)和(B，C，F₃)，然后，按照待处理特征信息的维度F，对待处理特征信息进行拼接，得到了样本特征信息，可以表示为[B，C，(F₁+F₂+F₃)]。

其中，对多尺度特征信息的第一自编码处理可以由语音合成模型中的解码器模块进行，具体而言，解码器模块中包括多个MS attention(multi-scale attention，多尺度注意力机制)结构，多尺度特征信息经过多个MS attention结构的第一自编码处理，得到样本编码信息。

其中，MS attention结构用于从其输入的多尺度特征中提取出权重分布，再拿这个权重分布施加在原始输入的特征之上，改变原有特征的分布，从而达到增强有效特征抑制无效的特征或者是噪音的效果。在MS attention结构之后，还可以连接Add&Norm结构进行整形和归一化，其中，Add表示残差连接(Residual Connection)，用于防止网络退化，Norm表示Layer Normalization，用于对每一层的激活值进行归一化。

S103：获取目标文本信息，并对目标文本信息进行第二自编码处理，得到文本编码信息。

目标文本信息也就是需要进行语音合成的文本信息，在本步骤中，对目标文本信息进行第二自编码处理，具体可以包括如下步骤：首先，获取目标文本信息，并将目标文本信息转为音素信息，然后，对音素信息进行整合，消除音素信息间单位和尺度差异的影响，将不规范的音素信息转化为可识别的规范的音素特征序列，进而，对音素特征序列进行第二自编码处理，得到文本编码信息。

在本步骤中，对音素信息进行整合可以由语音合成模型的编码器前处理模块进行，对音素特征序列进行第二自编码处理可以由语音合成模型的编码器模块进行。

具体而言，音素特征序列在编码器模块中先经过多个M-attention结构的第二自编码处理，再经过FFN(Feed Forward Neural Networks，前馈神经网络)结构的处理，得到文本编码信息。

其中，M-attention结构用于从其输入的单一尺度的特征中提取出权重分布，再拿这个权重分布施加在原始输入的特征之上，改变原有特征的分布，从而达到增强有效特征抑制无效的特征或者是噪音的效果。在M-attention结构和FFN结构之后，还可以分别连接Add&Norm结构进行整形和归一化。

在本申请中，S101～S102和S103可以同步进行，也可以先进行S101～S102，再进行S103，还可以先进行S103，再进行S101～S102，第二自编码处理和第一自编码处理可以采用同一种自编码处理算法，或者，也可以采用不同的自编码处理算法，具体不做限定。

S104：将文本编码信息与样本编码信息进行交叉编码，得到目标文本信息对应的目标声学特征序列。

在本步骤中，文本编码信息与样本编码信息的交叉编码可以由语音合成模型的解码器模块进行，在解码器模块中，先由MS attention结构对多尺度特征信息进行处理，得到样本编码信息，然后，样本编码信息与文本编码信息一起经过M-attention结构的交叉编码处理，再经过FFN结构的处理，得到目标声学特征序列。其中，在M-attention结构和FFN结构之后，还可以分别连接Add&Norm结构进行整形和归一化。

S105：将目标声学特征输入至声码器进行合成，得到目标文本信息对应的语音信息。

声码器可以对目标声学特征进行分析，提取出目标声学特征的特征参量加以编码和加密，以取得和信道的匹配，从而恢复目标声学特征对应的语音波形，得到语音信息，语音信息可以被人听到。

其中，不同的声码器可以具有不同的特征参量提取算法，目标声学特征经经过不同声码器的合成，会有不一样的效果，声码器的选用可以根据具体应用场景的需求进行合理适配，具体不做限定。

如图3所示，为本发明实施例的方案示意图。该模型是一个典型sequence-to-sequence(从序列到序列的转换模型框架)结构，分为编码器(Encoder)，解码器(Decoder)和后处理(PostNet)三个部分。

其中，文本信息(Text)通过前端处理(Text-to-phone Convertor)得到音素信息，音素信息进入编码器前处理模块(Encoder pre-net)进行序列整合，得到音素特征序列，音素特征序列输入编码器模块进行第二自编码处理。其中，编码器模块的基础结构由N个M-attention结构堆叠组成，音素特征序列经由每个M-attention结构处理后，输入至Add&Norm结构，再输入至FFN和Add&Norm结构，得到文本编码信息。

样本语音信息通过前端处理得到样本声学特征，样本声学特征进入解码器前处理模块(Decoder pre-net)进行序列整合，得到样本声学特征序列，然后，再经过解码器前处理模块中的多尺度特征提取模型，得到不同尺度的多个特征信息。

解码器模块的输入分为两个部分，一部分是不同尺度的多个特征信息，一部分为文本编码信息。其中，不同尺度的多个特征信息先进入解码器模块进行第一自编码处理，经由N个MS attention结构处理后，输入至Add&Norm结构，得到样本编码信息。然后，样本编码信息与文本编码信息再经过N个与编码器模块中相同的M-attention结构进行交叉编码，交叉编码的计算结果输入至Add&Norm结构，得到目标声学特征序列。

其中，Add&Norm结构的输出结果中，一部分符合梅尔线性(Mel Linear)，那么，可以直接输入至声码器得到语音信息，或者，先经过后处理(PostNet)进行优化平滑，再输入至声码器得到语音信息；另一部分符合停止线性(Stop Linear)，这部分输出结果也就是停止符(Stop Token)，不需要输入至声码器进行处理。

在本发明实施例中，由于加入多尺度特征信息，会导致Attention模块的参数量上升，故MS attention只用于在解码器模块中对不同尺度的多个特征信息进行处理。可以理解，编码器模块的输入为音素特征序列，其序列长度一般在70以内，长度较短，而解码器模块输入的样本声学特征序列，其长度一般在300以上，相较于编码器输入的短序列更加需要获取不同尺度的局部信息，而且，将MS attention结构只部署在解码器模块，可以更加有效地控制模型的参数量，降低模型训练时对硬件显存的需求。同时，MS attention结构的引入还将加快语音合成模型的收敛速度，降低训练时间，其中，在训练语音合成模型时，可以选取10-20小时的目标说话人TTS数据集，分别提取该数据集的文本信息和声学特征序列，进行语音合成模型的训练。。另外，本方案也可以用于其他语音合成系统，比如FastSpeech系列和Tacotron系列等，具体不做限定。

由以上可见，本申请提供的方案中，通过预先训练好的多尺度特征提取模型，可以提取出样本声学特征序列的多个不同尺度的特征信息，也就是样本声学特征序列的多尺度特征信息，可以理解，多尺度特征信息相比于现有技术中的单一尺度特征信息，所包含的信息更全面，大尺度的特征信息中包含更多的全局信息，而小尺度的特征信息中则包含更多的细节信息，因此，可以丰富样本声学特征序列的局部信息表达，从而提升语音合成模型的细节捕捉能力，使得合成的语音更加细腻，声音更加饱满。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作并不一定是本申请所必须的。

参照图4，示出了本申请的一种语音合成装置的结构框图，该装置具体可以包括如下模块：

样本获取模块401，用于获取样本声学特征序列；

样本编码模块402，用于将所述样本声学特征序列输入至预先训练好的多尺度特征提取模型中进行特征提取，得到不同尺度的多个特征信息，对所述多个特征信息进行第一自编码处理，得到所述样本声学特征序列的样本编码信息；

文本获取模块403，用于获取目标文本信息，并对所述目标文本信息进行第二自编码处理，得到文本编码信息；

交叉编码模块404，用于将所述文本编码信息与所述样本编码信息进行交叉编码，得到所述目标文本信息对应的目标声学特征序列；

合成模块405，用于将所述目标声学特征输入至声码器进行合成，得到所述目标文本信息对应的语音信息。

一种实现方式中，所述多尺度特征提取模型包括多个不同尺度的降采样模块及每个降采样模块所连接的残差处理模块，所述样本编码模块，具体用于：

将所述目标降采样模块对应尺度的特征信息输入至所述目标降采样模块所连接的目标残差处理模块，将所述目标残差处理模块的输出作为新的输入数据，并将所述目标降采样模块的下一层降采样模块作为新的目标降采样模块，返回所述将所述输入数据输入至所述目标降采样模块中进行特征提取的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现如下步骤：

获取样本声学特征序列；

将样本声学特征序列输入至预先训练好的多尺度特征提取模型中进行特征提取，得到不同尺度的多个特征信息，对多个特征信息进行第一自编码处理，得到样本声学特征序列的样本编码信息；

获取目标文本信息，并对目标文本信息进行第二自编码处理，得到文本编码信息；

将文本编码信息与样本编码信息进行交叉编码，得到目标文本信息对应的目标声学特征序列；

将目标声学特征输入至声码器进行合成，得到目标文本信息对应的语音信息。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由以上可见，在本申请提供的方案中，通过预先训练好的多尺度特征提取模型，可以提取出样本声学特征序列的多个不同尺度的特征信息，也就是样本声学特征序列的多尺度特征信息，可以理解，多尺度特征信息相比于现有技术中的单一尺度特征信息，所包含的信息更全面，大尺度的特征信息中包含更多的全局信息，而小尺度的特征信息中则包含更多的细节信息，因此，可以丰富样本声学特征序列的局部信息表达，从而提升语音合成模型的细节捕捉能力，使得合成的语音更加细腻，声音更加饱满。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音合成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音合成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取样本声学特征序列；

将所述目标声学特征输入至声码器进行合成，得到所述目标文本信息对应的语音信息；

所述多尺度特征提取模型包括多个不同尺度的降采样模块及每个降采样模块所连接的残差处理模块，所述将所述样本声学特征序列输入至预先训练好的多尺度特征提取模型中进行特征提取，得到不同尺度的多个特征信息，包括：

将得到的特征信息输入至所述目标降采样模块所连接的目标残差处理模块进行处理，得到新的输入数据，并将所述目标降采样模块的下一层降采样模块作为新的目标降采样模块，返回所述将所述输入数据输入至所述目标降采样模块中进行特征提取的步骤；所述多尺度特征提取模型为ResNet50模型；

所述对所述多个特征信息进行第一自编码处理，得到所述样本声学特征序列的样本编码信息，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取样本声学特征序列，包括：

对所述样本声学特征进行整合，得到样本声学特征序列。

3.根据权利要求1所述的方法，其特征在于，所述获取目标文本信息，并对所述目标文本信息进行第二自编码处理，得到文本编码信息，包括：

获取目标文本信息，并将所述目标文本信息转为音素信息；

对所述音素信息进行整合，得到音素特征序列；

4.一种语音合成装置，其特征在于，所述装置包括：

样本获取模块，用于获取样本声学特征序列；

合成模块，用于将所述目标声学特征输入至声码器进行合成，得到所述目标文本信息对应的语音信息；

所述多尺度特征提取模型包括多个不同尺度的降采样模块及每个降采样模块所连接的残差处理模块，所述样本编码模块，具体用于：

所述样本编码模块，还用于将所述多个特征信息转换为具有相同通道数的待处理特征信息，按照所述待处理特征信息的维度，对所述待处理特征信息进行拼接，得到样本特征信息；对所述样本特征信息进行第一自编码处理，得到样本编码信息。

5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3中任一项所述的语音合成方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的语音合成方法的步骤。