CN113053354A

CN113053354A - 一种提高语音合成效果的方法和设备

Info

Publication number: CN113053354A
Application number: CN202110268228.9A
Authority: CN
Inventors: 周瑜秋; 孙见青; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-06-29
Anticipated expiration: 2041-03-12
Also published as: CN113053354B

Abstract

本发明涉及一种提高语音合成效果的方法和设备，应用于ParallelWaveGAN，所述Parallel WaveGAN中包括生成器；该方法包括：获取所述Parallel WaveGAN中生成器的语音信号；获取原始语音信号；对所述生成器的语音信号与所述原始语音信号进行小波变换处理；对进行小波变换处理后的信号进行损失计算；将计算得到的损失作为所述生成器的损失的一部分，以使所述生成器更好的捕捉语音信号的时频分布，从而提升合成效果。本方案中利用小波变换，对生成器的信号和原始信号做多层分解，计算每一层的系数进行损失计算，本方案不需要像原来的STFT的做法，多次设置尺度，加大运算量，本方案中将小波变换结果的Loss，作为生成器的Loss的一部分，让生成器更好的捕捉语音信号的时频分布，从而提升合成效果。

Description

一种提高语音合成效果的方法和设备

技术领域

本发明涉及机器翻译技术领域，具体涉及一种提高语音合成效果的方法和设备。

背景技术

当前神经网络合成器中，Parallel WaveGAN是实时率比较高的一种合成器。为了获取语音信号的时频分布和提高合成效果，如图1所示，训练过程中生成器的Loss(损失)加入了多分辨率的STFT(短时傅里叶变换)的Loss。

对于STFT的尺度是固定，在训练过程中，单次运算无法实现可变尺度问题。并且，对短时平稳的语音信号，进行分帧，再做STFT，而且还有overlap(重叠),运算量较大，并且每一个尺度的运算量都重新计算，训练速度较慢。

由此，目前需要有一种更好的方案来解决现有技术中的问题。

发明内容

本发明提供一种提高语音合成效果的方法和设备，能够解决现有技术中训练速度不佳的技术问题。

本发明解决上述技术问题的技术方案如下：

本发明实施例提出了一种提高语音合成效果的方法，应用于Parallel WaveGAN，所述Parallel WaveGAN中包括生成器；该方法包括：

获取所述Parallel WaveGAN中生成器的语音信号；

获取原始语音信号；

对所述生成器的语音信号与所述原始语音信号进行小波变换处理；

对进行小波变换处理后的信号进行损失计算；

将计算得到的损失作为所述生成器的损失的一部分，以使所述生成器更好的捕捉语音信号的时频分布，从而提升合成效果。

在一个具体的实施例中，所述小波变换处理包括对所述生成器的语音信号与所述原始语音信号进行多层分解；

所述损失计算包括对分解后的每层进行损失计算；每层损失计算得到每层损失；

所述“将计算得到的损失作为所述生成器损失的一部分”，包括：

汇总每层损失作为小波变换损失；

将小波变换损失作为所述生成器损失的一部分。

在一个具体的实施例中，所述Parallel WaveGAN中还包括识别器；所述识别器对所述原始语音信号进行识别时，对应有识别损失；

所述生成器的损失由小波变换损失与所述识别损失组成。

在一个具体的实施例中，所述小波变换处理包括：离散小波变换处理。

在一个具体的实施例中，所述“对所述生成器的语音信号与所述原始语音信号进行小波变换处理”，包括：

将所述生成器的语音信号与所述原始语音信号进行滤波处理，以得到最上层的细节信号和近似信号；

对上一层中近似信号进行滤波处理，得到当前层的细节信号和近似信号；

重复执行”对上一层中近似信号进行滤波处理，得到当前层的细节信号和近似信号“得到多层处理后的信号。

本发明实施例还提出了一种提高语音合成效果的设备，应用于ParallelWaveGAN，所述Parallel WaveGAN中包括生成器；该设备包括：

第一获取模块，用于获取所述Parallel WaveGAN中生成器的语音信号；

第二获取模块，用于获取原始语音信号；

小波变换处理模块，用于对所述生成器的语音信号与所述原始语音信号进行小波变换处理；

损失计算模块，用于对进行小波变换处理后的信号进行损失计算；

提升模块，用于将计算得到的损失作为所述生成器的损失的一部分，以使所述生成器更好的捕捉语音信号的时频分布，从而提升合成效果。

所述提升模块“将计算得到的损失作为所述生成器损失的一部分”，包括：

汇总每层损失作为小波变换损失；

将小波变换损失作为所述生成器损失的一部分。

所述生成器的损失由小波变换损失与所述识别损失组成。

在一个具体的实施例中，所述小波变换处理模块，用于：

本发明的有益效果是：

本发明实施例提出了一种提高语音合成效果的方法和设备，应用于ParallelWaveGAN，所述Parallel WaveGAN中包括生成器；该方法包括：获取所述Parallel WaveGAN中生成器的语音信号；获取原始语音信号；对所述生成器的语音信号与所述原始语音信号进行小波变换处理；对进行小波变换处理后的信号进行损失计算；将计算得到的损失作为所述生成器的损失的一部分，以使所述生成器更好的捕捉语音信号的时频分布，从而提升合成效果。本方案中利用小波变换，对生成器的信号和原始信号做多层分解，计算每一层的系数进行损失计算，本方案不需要像原来的STFT的做法，多次设置尺度，加大运算量，本方案中将小波变换结果的Loss，作为生成器的Loss的一部分，让生成器更好的捕捉语音信号的时频分布，从而提升合成效果。

附图说明

图1为现有技术中的一种Parallel WaveGAN的原理图示意图；

图2为本发明实施例提供的一种Parallel WaveGAN的原理图示意图；

图3为本发明实施例提供的一种提高语音合成效果的方法的流程示意图示意图；

图4为本发明实施例提供的一种提高语音合成效果的方法中小波变换处理的示意图；

图5为本发明实施例提供的一种提高语音合成效果的设备的框架结构程图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

具体的，ParallelWaveGAN的训练原理为：ParallelWaveGAN训练分为生成器和判别器。其中，生成器的工作原理：生成器的输入是80维的谱参数和随机噪音，生成器根据输入，得到语音信号。判别器的工作原理：判别器的输入是原始语音和生成器的输出语音，然后判断生成的输出语音为Fake(伪)，但是原始语音被判断成Real(真)，当判别器无法判断生成器为Fake时，即Loss收敛时，判别器稳定。

其中，如图1所示的ParallelWaveGAN，STFT的输入有两个语音信号，一个是生成器的输出，一个是原始信号。首先计算生成器的输出语音的短时傅里叶谱，再计算原始语音的短时傅里叶谱，这两个谱进行相减，可以得到整个时频域的一个Loss。该Loss作为生成器的损失函数的一部分，用于更新生成器的参数，能更好的捕捉语音信号的时频分布，同时可以提高合成效果。

STFT(短时傅里叶)的工作原理:针对语音信号不是稳态信号，因此需要对语音信号进行分帧处理，一般将语音分成20-30ms帧长，10-15ms的帧移进行处理，对当前帧进行傅立叶分析，得到每一帧的幅度。假设1s时长的语音，采样率是48000，帧长是20ms,帧移是10ms,那么对1S的时长语音做STFT时，需要处理100次的傅立叶分析，每次处理960个点，总共要处理96000次。而且每一个窗口之间都是相互独立的，在某个分辨率下，没有考虑全局对幅度谱的影响。

实施例1

本发明实施例1提出了一种提高语音合成效果的方法，应用于如图2所示的Parallel WaveGAN，所述Parallel WaveGAN中包括生成器；如图3所示，该方法包括以下步骤：

步骤101、获取所述Parallel WaveGAN中生成器的语音信号；具体的，例如如图2所示，获取生成器基于随机噪音与辅助特征所生成的语音信号

步骤102、获取原始语音信号；

具体的，步骤101与步骤102之间不分先后顺序。

步骤103、对所述生成器的语音信号与所述原始语音信号进行小波变换处理；

步骤104、对进行小波变换处理后的信号进行损失计算；

具体的，在一个具体的实施例中，所述小波变换处理包括对所述生成器的语音信号与所述原始语音信号进行多层分解；如图3所示，本方案中利用小波变换，对生成器的信号和原始信号做多层分解，计算每一层的系数进行Loss的计算，如图3中Ldn表示第n层细节系数，Lan是第n层的近似系数。本方案不需要像原来的做法，不需要多次设置尺度，不会加大运算量。

汇总每层损失作为小波变换损失；

将小波变换损失作为所述生成器损失的一部分。

步骤105、将计算得到的损失作为所述生成器的损失的一部分，以使所述生成器更好的捕捉语音信号的时频分布，从而提升合成效果。

具体的，本方案中采用了小波变换的方式，具体的可以为离散小波变换，而离散小波变换的工作原理:离散小波变换是一种时频分析技术，在每次处理时都能同时观察到时间信息和频率信息。如图4所示：原始信号(如图4中的S)经过高通和低通滤波器(小波基)将信号分成细节信号(如图4中的cD1)和近似信号(如图4中的cA1)，再往下一层是对近似信号(如图4中的cA1)进行再次处理，又得到某一频段的细节信号(如图4中的cD2)和近似信号(如图4中的cA2)。以此类推，可以得到不同尺度下的信号。假设处理同样时长为1s的语音.采样率48000，由于逐层减半的计算，最后计算次数不会超过96000次。而且FFT的运算复杂度比滤波要更大。并且每次计算都是在整个全局上进行处理的，因此每一个频段信息都有全局采样点的影响。在生成器中，只需要将生成器的语音和原始语音进行小波处理，然后计算不同尺度下的Loss，即可替换STFT的Loss，从而加快训练速度和提高合成效果

所述生成器的损失由小波变换损失与所述识别损失组成。

具体的，目前针对语音的短时平稳信号，大多基于短时傅里叶变换(STFT)，计算每一帧的特征信息，再加之overlap，1s时长音频处理时间较长，针对上述合成器，训练过程中，针对不同分辨率时，均需要反复计算，而利用小波变换，只需要计算一次，从而加快训练速度；

现有技术中在生成器中加入STFT Loss,是为了捕捉语音信号在时频域的分布，单次计算短时傅里叶变换，其尺度是无法伸缩，而小波变换在计算过程中，利用尺度可伸缩性，能更好的捕捉语音信号的时频分布，从而提高合成效果。

实施例2

本发明实施例还提出了一种提高语音合成效果的设备，应用于ParallelWaveGAN，所述Parallel WaveGAN中包括生成器；如图5所示，该设备包括：

第一获取模块201，用于获取所述Parallel WaveGAN中生成器的语音信号；

第二获取模块202，用于获取原始语音信号；

小波变换处理模块203，用于对所述生成器的语音信号与所述原始语音信号进行小波变换处理；

损失计算模块204，用于对进行小波变换处理后的信号进行损失计算；

提升模块205，用于将计算得到的损失作为所述生成器的损失的一部分，以使所述生成器更好的捕捉语音信号的时频分布，从而提升合成效果。

汇总每层损失作为小波变换损失；

将小波变换损失作为所述生成器损失的一部分。

所述生成器的损失由小波变换损失与所述识别损失组成。

在一个具体的实施例中，所述小波变换处理模块，用于：

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种提高语音合成效果的方法，其特征在于，应用于ParallelWaveGAN，所述Parallel WaveGAN中包括生成器；该方法包括：

获取所述Parallel WaveGAN中生成器的语音信号；

获取原始语音信号；

对进行小波变换处理后的信号进行损失计算；

2.如权利要求1所述的方法，其特征在于，所述小波变换处理包括对所述生成器的语音信号与所述原始语音信号进行多层分解；

汇总每层损失作为小波变换损失；

将小波变换损失作为所述生成器损失的一部分。

3.如权利要求2所述的方法，其特征在于，所述Parallel WaveGAN中还包括识别器；所述识别器对所述原始语音信号进行识别时，对应有识别损失；

所述生成器的损失由小波变换损失与所述识别损失组成。

4.如权利要求1所述的方法，其特征在于，所述小波变换处理包括：离散小波变换处理。

5.如权利要求1或4所述的方法，其特征在于，所述“对所述生成器的语音信号与所述原始语音信号进行小波变换处理”，包括：

6.一种提高语音合成效果的设备，其特征在于，应用于ParallelWaveGAN，所述Parallel WaveGAN中包括生成器；该设备包括：

第二获取模块，用于获取原始语音信号；

7.如权利要求6所述的设备，其特征在于，所述小波变换处理包括对所述生成器的语音信号与所述原始语音信号进行多层分解；

汇总每层损失作为小波变换损失；

将小波变换损失作为所述生成器损失的一部分。

8.如权利要求7所述的设备，其特征在于，所述Parallel WaveGAN中还包括识别器；所述识别器对所述原始语音信号进行识别时，对应有识别损失；

所述生成器的损失由小波变换损失与所述识别损失组成。

9.如权利要求6所述的设备，其特征在于，所述小波变换处理包括：离散小波变换处理。

10.如权利要求6或9所述的设备，其特征在于，所述小波变换处理模块，用于：