CN111833843A

CN111833843A - 语音合成方法及系统

Info

Publication number: CN111833843A
Application number: CN202010706916.4A
Authority: CN
Inventors: 俞凯; 刘知峻; 陈宽
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-10-27
Anticipated expiration: 2040-07-21
Also published as: CN111833843B; EP4099316A4; US20230215420A1; US11842722B2; WO2022017040A1; EP4099316A1

Abstract

本发明公开一种语音合成方法，包括：从原始语音中获取基频信息和声学特征信息；根据基频信息生成脉冲串，并将脉冲串输入至谐波时变滤波器；将声学特征信息输入至神经网络滤波器评估器得到相应的脉冲响应信息；通过噪声生成器生成噪声信号；谐波时变滤波器根据输入的脉冲串和脉冲响应信息进行滤波处理确定谐波成分信息；采用噪声时变滤波器根据输入的脉冲响应信息和噪声确定噪声成分信息；根据谐波成分信息和噪声成分信息生成合成语音。本发明通过对声学特征进行处理得到相应的脉冲响应信息，并进一步的采用谐波时变滤波器和噪声时变滤波器分别建模谐波成分信息和噪声成分信息，从而减少了语音合成所需的计算量，提高了合成语音的质量。

Description

语音合成方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音合成方法及系统。

背景技术

生成神经网络在生成高保真语音和其他音频信号方面获得了巨大的成功。以语音特征(例如，对数梅尔声谱图)为条件的音频生成模型可以用作声码器。神经声码器大大提高了现代文本语音转换系统的合成质量。包括WaveNet和WaveRNN在内的自回归模型在以先前生成的样本为条件时，一次生成样本音频。基于流的模型，包括Parallel WaveNet，ClariNet，WaveGlow和FloWaveNet，可生成与可逆转换并行的音频样本。基于GAN的模型，包括GAN-TTS，Parallel WaveGAN和Mel-GAN，也能够并行生成。没有用最大似然度进行训练，而是用对抗损失函数进行训练。

可以将神经声码器设计为包括语音合成模型，以降低计算复杂度并进一步提高合成质量。许多模型旨在改进源-滤波器模型中的源信号建模，包括LPCNet，GELP，GlotGAN。它们仅通过神经网络生成源信号(例如，线性预测残差信号)，同时将频谱整形分流到时变滤波器。神经源滤波器(NSF)框架代替了具有基于卷积神经网络的滤波器的经典模型中的线性滤波器，而不是改进源信号建模。NSF可以通过对简单的基于正弦的激励信号进行滤波来合成波形。

然而，采用以上现有技术进行语音合成时所需的计算量大，并且合成的语音质量低。

发明内容

本发明实施例提供一种语音合成方法及系统，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音合成方法，包括：

从原始语音中获取基频信息和声学特征信息；

根据所述基频信息生成脉冲串，并将所述脉冲串输入至谐波时变滤波器；

将所述声学特征信息输入至神经网络滤波器评估器得到相应的脉冲响应信息；

通过噪声生成器生成噪声信号；

所述谐波时变滤波器根据输入的所述脉冲串和所述脉冲响应信息进行滤波处理确定谐波成分信息；

采用噪声时变滤波器根据输入的所述脉冲响应信息和所述噪声确定噪声成分信息；

根据所述谐波成分信息和所述噪声成分信息生成合成语音。

第二方面，本发明实施例提供一种语音合成系统，包括：

脉冲串生成器，用于根据原始语音的基频信息生成脉冲串；

神经网络滤波器评估器，用于将原始语音的声学特征信息作为输入以得到相应的脉冲响应信息；

随机噪声生成器，用于生成噪声信号；

谐波时变滤波器，用于根据输入的所述脉冲串和所述脉冲响应信息进行滤波处理确定谐波成分信息；

噪声时变滤波器，用于根据输入的所述脉冲响应信息和所述噪声确定噪声成分信息；

脉冲响应系统，用于根据所述谐波成分信息和所述噪声成分信息生成合成语音。

第五方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音合成方法。

第六方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项语音合成方法。

第七方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音合成方法。

本发明实施例的有益效果在于：通过神经网络滤波器评估器对声学特征进行处理得到相应的脉冲响应信息，并进一步的采用谐波时变滤波器和噪声时变滤波器分别建模谐波成分信息和噪声成分信息，从而减少了语音合成所需的计算量，提高了合成语音的质量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音合成方法的一实施例的流程图；

图2为本发明的语音合成系统的一实施例的原理框图；

图3为本发明一实施例中所采用的离散时间简化源-滤波器模型；

图4为采用本发明一实施例的神经同态声码器进行语音合成的示意图；

图5为训练本发明一实施例的神经同态声码器所采用的损失函数的示意图；

图6为本发明中的神经网络滤波器估计器的一实施例的结构示意图；

图7展示了本发明一实施例中的谐波分量的滤波过程；

图8为本发明一实施例中所采用的神经网络的结构示意图；

图9为本发明的实验中的MUSHRA分数的箱形图；

图10为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明提供一种语音合成方法，可以用于电子设备，该电子设备可以移动电话、平板电脑、智能音箱、可视电话等，本发明对此不作限定。

如图1所示，本发明的实施例提供一种语音合成方法，包括：

S10、从原始语音中获取基频信息和声学特征信息；

S20、根据所述基频信息生成脉冲串，并将所述脉冲串输入至谐波时变滤波器；

S30、将所述声学特征信息输入至神经网络滤波器评估器得到相应的脉冲响应信息；

S40、通过噪声生成器生成噪声信号；

S50、所述谐波时变滤波器根据输入的所述脉冲串和所述脉冲响应信息进行滤波处理确定谐波成分信息；

S60、采用噪声时变滤波器根据输入的所述脉冲响应信息和所述噪声确定噪声成分信息；

S70、根据所述谐波成分信息和所述噪声成分信息生成合成语音。示例性地，将所述谐波成分信息和所述噪声成分信息输入至有限长单脉冲响应系统，以生成合成语音。

本发明实施例中通过神经网络滤波器评估器对声学特征进行处理得到相应的脉冲响应信息，并进一步的采用谐波时变滤波器和噪声时变滤波器分别建模谐波成分信息和噪声成分信息，从而减少了语音合成所需的计算量，提高了合成语音的质量。

在一些实施例中，所述神经网络滤波器评价器包括神经网络单元和离散时间傅里叶逆变换单元；对于步骤S30，将所述声学特征信息输入至神经网络滤波器评估器得到相应的脉冲响应信息包括：

将所述声学特征信息输入至所述神经网络单元分析得到对应于谐波的第一复倒谱信息和对应于噪音的第二复倒谱信息；

所述离散时间傅里叶逆变换单元将所述第一复倒谱信息和第二复倒谱信息转换为对应于谐波的第一脉冲响应信息和对应于噪音的第二脉冲响应信息。

本发明实施例中，使用复倒谱作为线性时变滤波器的参数，使用神经网络估计复倒谱，这使时变滤波器具有可控制的群延迟函数，从而提升了语音合成的质量，且降低了计算量。

示例性地，谐波时变滤波器根据输入的所述脉冲串和所述脉冲响应信息进行滤波处理确定谐波成分信息包括：谐波时变滤波器根据输入的所述脉冲串和第一脉冲响应信息进行滤波处理确定谐波成分信息；

示例性地，噪声时变滤波器根据输入的所述脉冲响应信息和所述噪声确定噪声成分信息包括：噪声时变滤波器根据输入的第二脉冲响应信息和所述噪声确定噪声成分信息。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

如图2所示，本发明提供一种语音合成系统200，包括：

脉冲串生成器210，用于根据原始语音的基频信息生成脉冲串；

神经网络滤波器评估器220，用于将原始语音的声学特征信息作为输入以得到相应的脉冲响应信息；

随机噪声生成器230，用于生成噪声信号；

谐波时变滤波器240，用于根据输入的所述脉冲串和所述脉冲响应信息进行滤波处理确定谐波成分信息；

噪声时变滤波器250，用于根据输入的所述脉冲响应信息和所述噪声确定噪声成分信息；

脉冲响应系统260，用于根据所述谐波成分信息和所述噪声成分信息生成合成语音。

在一些实施例中，神经网络滤波器评价器包括神经网络单元和离散时间傅里叶逆变换单元；

所述将原始语音的声学特征信息作为输入以得到相应的脉冲响应信息包括：

示例性地，离散时间傅里叶逆变换单元包括第一离散时间傅里叶逆变换子单元和第二离散时间傅里叶逆变换子单元。其中，第一离散时间傅里叶逆变换子单元用于将所述第一复倒谱信息转换为对应于谐波的第一脉冲响应信息；第二离散时间傅里叶逆变换子单元用于将所述第二复倒谱信息转换为对应于噪音的第二脉冲响应信息。

在一些实施例中，根据输入的所述脉冲串和所述脉冲响应信息进行滤波处理确定谐波成分信息包括：谐波时变滤波器根据输入的所述脉冲串和第一脉冲响应信息进行滤波处理确定谐波成分信息。输入的所述脉冲响应信息和所述噪声确定噪声成分信息包括：噪声时变滤波器根据输入的第二脉冲响应信息和所述噪声确定噪声成分信息。

在一些实施例中，语音合成系统在用于进行语音合成之前采用以下优化训练方式：针对所述原始语音和所述合成语音，采用多分辨率STFT损失和对抗损失对所述语音合成系统进行训练。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音合成方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音合成方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行语音合成方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现语音合成方法。

上述本发明实施例的语音合成系统可用于执行本发明实施例的语音合成方法，并相应的达到上述本发明实施例的实现语音合成方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

为更加清楚的介绍本发明的技术方案，也为更直接地证明本发明的可实时性以及相对于现有技术的有益性，以下将对本发明的技术背景、技术方案以及所进行的实验等进行更为详细的介绍。

摘要

在本发明中，我们提出了神经同态声码器(neural homomorphic vocoder,NHV)，一种基于源-滤波器模型的神经声码器框架。NHV通过使用线性时变(LTV)滤波器对脉冲序列和噪声进行滤波来合成语音。神经网络通过估计给定声学特征的时变脉冲响应的复倒谱来控制LTV滤波器。可以结合多分辨率STFT损失和对抗损失函数来训练提出的框架。由于使用了基于DSP的合成方法，因此NHV是高效，完全可控制和可解释的。在该框架下构建了声码器，以合成给定对数梅尔频谱图和基本频率的语音。尽管该模型生成的每个采样点只消耗1.5万次浮点运算，其在分析合成和文本转语音任务重的合成质量仍然接近于基线神经声码器。

1、介绍

最近探索了正弦模型的神经音频合成。DDSP建议通过使用神经网络控制谐波加噪声模型来合成音频。在DDSP中，谐波分量通过加法合成来合成，其中添加了随时间变化的正弦波。并利用线性时变滤波噪声合成噪声分量。DDSP已被证明可以成功地建模乐器。在这项工作中，我们将进一步探索DSP组件在神经声码器中的集成。

我们提出了一种新颖的神经语音编码器框架，称为神经同态编码器。该框架通过由神经网络控制的源-滤波器模型来合成语音。我们证明了使用包含60万个参数的浅层CNN，我们可以构建一种神经声码器，其能够从对数梅尔频谱图和基频重构高质量语音。尽管计算复杂度比基线系统低100倍以上，但生成语音的质量仍然可比。在线补充资料中提供了音频样本和更多信息。我们强烈建议读者听音频样本。

2、神经同态声码器

如图3所示，为本发明一实施例中所采用的离散时间简化源-滤波器模型，其中，e[n]是源信号，s[n]是语音。

源滤波器模型是的一种广泛应用的语音产生和合成的线性模型。图3展示了源-滤波器模型的简化版本。线性滤波器h[n]描述了语音产生中的脉冲波，声道和辐射的综合作用。源信号e[n]被假定为有声语音中的周期性脉冲序列p[n]或无声语音中的噪声信号u[n]。实际上，e[n]可以是脉冲和噪声的多频带混合。N_p是随时间变化的。h[n]被一个线性时变滤波器代替。

在神经同态声码器(NHV)中，神经网络控制源-滤波器模型中的线性时变(LTV)滤波器。与“谐波加噪声”模型相似，NHV分别生成谐波和噪声成分。使用LTV滤波的脉冲序列对包含声音中的周期性振动的谐波分量进行建模。使用LTV滤波后的噪声对噪声成分进行建模，其中包括背景噪声，清音和浊音中的随机成分。

在下面的讨论中。假设原始语音信号x和重构信号s被分为帧长为L的非重叠帧。我们将m定义为帧索引，n定义为离散时间索引，c定义为特征索引。帧总数M和采样点总数N遵循N＝M×L。在f₀，S，h_h，h_n中，0≤m<M-1。x，s，p，u，s_h，s_n是有限的持续时间信号，其中，0≤n<N-1。脉冲响应h_h，h_n和h是无限长信号，其中，n∈Z。

如图4所示为采用本发明一实施例的神经同态声码器进行语音合成的示意图。首先，从逐帧基础频率f₀[m]生成脉冲序列p[n]。从高斯分布采样噪声信号u[n]。然后给定对数梅尔频谱图S[m，c]，神经网络估计脉冲响应h_h[m，n]和h_n[m，n]。接下来，通过LTV滤波器对脉冲序列p[n]和噪声信号u[n]进行滤波，以获得谐波分量s_h[n]和噪声分量s_n[n]。最后，s_h[n]和s_n[n]加在一起并通过可训练的滤波器h[n]进行滤波得到s[n]。

如图5所示为训练本发明一实施例的神经同态声码器所采用的损失函数的示意图。由图5可知为了训练神经网络，根据x[n]和s[n]计算了多分辨率STFT损失L_R以及对抗性损失L_G和L_D，因为LTV滤波器是完全可微的，因此梯度可以传播回到NN滤波器估算器。

在以下各节中，我们将进一步描述NHV框架中的不同组件。

2.1、脉冲序列生成器

存在许多用于生成无混叠离散时间脉冲序列的方法。加成合成是最准确的方法之一。如公式(1)所示，我们可以使用正弦波的低通和来生成脉冲序列。从通过零阶保持或线性插值f₀[m]重建f₀(t)。p[n]＝p(n/f_s)，其中，f_s是采样率。

加成合成的计算量很大，因为它需要以采样速率累加大约200个正弦函数。可通过近似值来降低计算复杂度。例如，我们可以假设连续脉冲信号的位置恰好在采样点处。此时对连续脉冲信号采样得到的离散脉冲序列是稀疏的。稀疏的离散脉冲序列可以快速地顺序生成，一次生成一个脉冲。

2.2、神经网络滤波器估计器

如图6所示为本发明中的神经网络滤波器估计器的一实施例的结构示意图，NN输出定义为复倒谱。

我们建议使用复倒谱(

和

)作为脉冲响应(h_h和h_n)的内部描述。如图6所示，展示了脉冲响应的生成。

复倒谱图同时描述了滤波器的幅度响应和群延迟。滤波器的群延迟会影响语音的音色。NHV不使用线性相位或最小相位滤波器，而是使用混合相位滤波器，具备从数据集中学习到的相位特性。

限制复倒谱的长度等同于限制幅度和相位响应中的细节级别。这提供了一种控制滤波器复杂性的简便方法。神经网络只能预测低频率系数。高频率倒谱系数设置为零。在我们的实验中，每个帧中预测有两个10ms长的复倒谱。

在实现中，必须将DTFT和IDTFT替换为DFT和IDFT。IIRs，例如，h_h[m，n]和h_n[m，n]，必须由FIR近似。DFT大小应足够大以避免严重的混叠。N＝1024是达到我们目的的不错选择。

2.3、LTV滤波器和可训练的FIR

谐波LTV滤波器在公式(3)中定义。噪声LTV滤波器的定义与此类似。卷积可以在时域或频域中进行。如图7所示，展示了谐波分量的滤波过程。

图7：从训练好的NHV模型在帧m₀附近采样信号。该图显示了512个采样点或4帧。仅绘制了一个源自从帧m₀的脉冲响应h_h[m₀，n]。

如DDSP所提出的，在语音合成的最后一步应用了指数衰减的可训练因果FIR h[n]。卷积(s_h[n]+s_n[n])*h[n]在频域中通过FFT进行，以降低计算复杂度。

2.4、神经网络训练

2.4.1、多分辨率STFT损失

x[n]和s[n]之间的逐点损失不能应用于训练模型，因为它要求x和s中的声门闭合瞬间(GCI)完全对齐。多分辨率STFT损失可容忍信号中的相位失配。假设我们有C个不同的STFT配置，0≤i<C。给定原始信号x和重构s，使用配置i计算的STFT振幅谱图为X_i和S_i，每个都包含K_i个值。在NHV中，我们使用幅度和对数幅度距离的L1范数的组合。重建损失L_R是在所有配置下所有距离的总和。

我们发现使用更多的STFT配置可以减少输出语音中的失真。我们使用大小为(128、256、384、512、640、768、896、1024、1536、2048、3072、4096)的汉宁窗，重叠率为75％。FFT大小设置为窗口大小的两倍。

2.4.2、对抗损失函数

NHV依靠具有波形输入的对抗损失函数来学习语音信号中的时间精细结构。尽管我们不需要对抗性损失函数来保证NHV中的周期性，但它们仍然有助于确保s[n]和x[n]之间的相位相似性。鉴别器应针对输入信号中的不同短段做出单独的决定。我们在实验中使用的鉴别器是基于对数梅尔谱图的WaveNet。鉴别器结构的详细信息可以在第3节中找到。我们在实验中使用了GAN的铰链损失版本。

D(x，S)是鉴别器网络。D将原始信号x或重建的信号s和真实对数-梅尔频谱图S作为输入。f₀是基频。S是对数梅尔频谱图。G(f₀，S)输出重构信号s。它包括NHV中的源信号生成，滤波器估计和LTV滤波过程。通过最小化L_D，训练鉴别器将x分为真，将s分为假。并且通过最小化L_G训练生成器来欺骗鉴别器。

3、实验

为了验证所提出的声码器框架的有效性，我们构建了一个神经声码器，并将其在复制合成和文本到语音转换中的性能与各种基准模型进行了比较。

3.1、语料库和特征提取

所有声码器和TTS模型都在中文标准普通话语料库(CSMSC)上进行了训练。CSMSC包含10000条由女性说话者朗读的记录句子，总计12个小时的高质量语音，并带有音素序列和韵律标签。原始信号以48kHz采样。在我们的实验中，音频被下采样到22050Hz。最后的100个句子保留为测试集。

所有声码器型号均以频带受限(40-7600Hz)80波段对数梅尔谱图为条件。频谱图分析中使用的窗口长度为512个点(在22050Hz时为23ms)，帧移为128个点(在22050Hz时为6ms)。我们使用REAPER语音处理工具来提取基本频率的估计值。然后由StoneMask完善f₀估计。

3.2、模型配置

3.2.1、声码器的详细信息

如图8所示为本发明一实施例中所采用的神经网络的结构示意图。Ⅰ是基于DFT的复倒谱倒置。

和

是h_h和h_n的DFT近似值。

如图8所示，在NHV模型中，两个具有相同结构的单独的1D卷积神经网络用于复倒谱估计。请注意，神经网络的输出需要按1/|n|进行缩放，因为自然复倒谱的衰减至少与1/|n|一样快。

判别器是一个非因果的WaveNet，其条件是对数梅尔谱图具有64个跳跃和残差通道。WaveNet包含14个扩张的卷积。每一层的扩张都会增加一倍，最高可达64，然后重复进行，所有层的内核大小均为3。

将50ms指数衰减的可训练FIR滤波器应用于经过滤波和混合的谐波和噪声分量，我们发现该模块使声码器更具表现力，并且感知质量略有提高。

几个基准系统用于评估NHV的性能，包括MoLWaveNet，NSF模型的两个变体和Parallel WaveGAN。为了检查对抗损失的影响，我们还训练了仅具有多分辨率STFT损失(NHV-noadv)的NHV模型。

借用了从ESPNet(csmsc.wavenet.mol.v1)在CSMSC上预训练的MoL WaveNet进行评估。生成的音频从24000Hz下采样至22050Hz。

hn-sinc-NSF模型使用发布的代码进行了训练。我们还复制了b-NSF模型，并通过对抗训练(b-NSF-adv)对其进行了扩充。b-NSF-adv中的鉴别符包含10个具有64个通道的1D卷积，所有卷积的核大小为3，每层中步长遵循序列中的(2，2，4，2，2，2，1，1，1，1，1)。除最后一层外，所有层之后都进行了带泄露线性整流函数激活，负斜率设置为0.2。我们使用STFT窗口大小(16、32、64、128、256、512、1024、2048)和平均幅度距离，而不是论文中描述的平均对数幅度距离。

我们复制了Parallel WaveGAN模型。与原始文件中的描述相比，有一些修改。生成器的条件是对数f₀，发声决策和对数梅尔频谱图。b-NSF-adv中相同的STFT损失配置用于训练Parallel WaveGAN。

在线补充资料包含有关声码器训练的更多详细信息。

3.2.2、文字转语音模型的详细信息

Tacotron2经过训练，可以根据文本预测对数f₀，发声决策和对数梅尔谱图。CSMSC中的韵律标签和语音标签都用于产生输入到Tacotron的文本。在TTS质量评估中使用了NHV，Parallel WaveGAN，b-NSF-adv和hn-sinc-NSF。我们没有使用生成的声学特征微调声码器。

3.3、结果与分析

3.3.1、复制合成中的表现

进行了MUSHRA测试，以评估提出的神经声码器和基线神经声码器在复制合成中的性能。24名中国听众参加了实验。随机选择训练中未发现的18个项目，并将其分为三个部分。每个听众对三分之一进行评分。测试中使用了两个标准锚。Anchor35和Anchor70代表具有3.5kHz和7kHz截止频率的低通滤波原始信号。所收集的所有分数的箱形图如图9所示，其中，横坐标①-⑨分别对应于：①-Original，②-WaveNet，③-b-NSF-adv，④-NHV，⑤-Parallel WaveGAN，⑥-Anchor70，⑦-NHV-noadv，⑧-hn-sinc-NSF，⑨-Anchor35。表1中显示了MUSHRA的平均分数及其95％的置信区间。

表1：复制合成中具有95％CI的MUSHRA平均得分

Wilcoxon符号秩检验表明，除了两对(p＝0.4的Parallel WaveGAN和NHV，p＝0.3的hn-sinc-NSF和NHV-noadv)以外，所有其他差异在统计学上均具有显着性(p<0.05)。NHV-noadv和NHV模型之间存在较大的性能差距，表明对抗损失函数对于获得高质量的重建至关重要。

3.3.2、文字转语音的表现

为了评估语音合成器在文本到语音中的性能，我们进行了平均意见得分测试。40名中国听众参加了测试。从测试集中随机选择21种发音，并将其分为三部分。每个听众随机完成测试的一部分。

表2：文本到语音中具有95％CI的平均MOS分数

Mann-Whitney U检验显示b-NSF-adv，NHV和Parallel WaveGAN之间无统计学差异。

3.3.3、计算复杂度

我们通过不同的神经声码器报告每个生成的样本所需的每秒浮点运算。我们不考虑激活函数的复杂性以及特征上采样和源信号生成中的计算。假设NHV中的滤波器是通过FFT实现的，N点FFT花费5N log₂N次浮点运算。

假设高斯WaveNet具有128个跳过通道，64个残留通道，24个扩张的卷积层，内核大小设置为3。对于b-NSF，Parallel WaveGAN，LPCNet和MelGAN，使用本文中报告的超参数进行计算。在线补充资料中提供了更多详细信息。

表3：每个采样点的FLOP

由于NHV仅在帧级别运行，因此其计算复杂度远低于直接在采样点运行的涉及神经网络的模型。

4、结论

本文提出了神经同态声码器，一种基于源滤波器模型的神经声码器框架。我们证明有可能在提出的能够生成高保真语音的框架下构建高效的神经声码器。

对于未来的工作，我们需要找出NHV语音质量下降的原因，我们发现NHV的性能对鉴别器的结构和重建损失的设计敏感。使用不同神经网络架构进行的更多实验和重构损失可能会导致更好的性能。未来的研究还包括评估和改进NHV在不同语料库上的表现。

图10是本申请另一实施例提供的执行语音合成方法的电子设备的硬件结构示意图，如图10所示，该设备包括：

一个或多个处理器1010以及存储器1020，图10中以一个处理器1010为例。

执行语音合成方法的设备还可以包括：输入装置1030和输出装置1040。

处理器1010、存储器1020、输入装置1030和输出装置1040可以通过总线或者其他方式连接，图10中以通过总线连接为例。

存储器1020作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音合成方法对应的程序指令/模块。处理器1010通过运行存储在存储器1020中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音合成方法。

存储器1020可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音合成装置的使用所创建的数据等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器1020可选包括相对于处理器1010远程设置的存储器，这些远程存储器可以通过网络连接至语音合成装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置1030可接收输入的数字或字符信息，以及产生与语音合成装置的用户设置以及功能控制有关的信号。输出装置1040可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器1020中，当被所述一个或者多个处理器1010执行时，执行上述任意方法实施例中的语音合成方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音合成方法，包括：

从原始语音中获取基频信息和声学特征信息；

通过噪声生成器生成噪声信号；

根据所述谐波成分信息和所述噪声成分信息生成合成语音。

2.根据权利要求1所述的方法，其中，所述神经网络滤波器评价器包括神经网络单元和离散时间傅里叶逆变换单元；

将所述声学特征信息输入至神经网络滤波器评估器得到相应的脉冲响应信息包括：

3.根据权利要求2所述的方法，其中，

所述谐波时变滤波器根据输入的所述脉冲串和所述脉冲响应信息进行滤波处理确定谐波成分信息包括：谐波时变滤波器根据输入的所述脉冲串和第一脉冲响应信息进行滤波处理确定谐波成分信息；

所述噪声时变滤波器根据输入的所述脉冲响应信息和所述噪声确定噪声成分信息包括：噪声时变滤波器根据输入的第二脉冲响应信息和所述噪声确定噪声成分信息。

4.根据权利要求1所述的方法，其中，所述根据所述谐波成分信息和所述噪声成分信息生成合成语音包括：

将所述谐波成分信息和所述噪声成分信息输入至有限长单脉冲响应系统，以生成合成语音。

5.一种语音合成系统，包括：

脉冲串生成器，用于根据原始语音的基频信息生成脉冲串；

随机噪声生成器，用于生成噪声信号；

6.根据权利要求5所述的系统，其中，所述神经网络滤波器评价器包括神经网络单元和离散时间傅里叶逆变换单元；

7.根据权利要求6所述的系统，其中，

所述根据输入的所述脉冲串和所述脉冲响应信息进行滤波处理确定谐波成分信息包括：谐波时变滤波器根据输入的所述脉冲串和第一脉冲响应信息进行滤波处理确定谐波成分信息；

根据输入的所述脉冲响应信息和所述噪声确定噪声成分信息包括：噪声时变滤波器根据输入的第二脉冲响应信息和所述噪声确定噪声成分信息。

8.根据权利要求5-7中任一项所述的系统，其中，所述语音合成系统在用于进行语音合成之前采用以下优化训练方式：

针对所述原始语音和所述合成语音，采用多分辨率STFT损失和对抗损失对所述语音合成系统进行训练。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任意一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任意一项所述方法的步骤。